热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的表达而受到广泛关注。网络化数据表示学习的一个重要任务就是重叠社区发现。本文就是为大家介绍基于网络化数据表示学习的重叠社区发现的最新研究。文章内容根据中科院孙冰杰博士在雷锋网GAIR大讲堂的线上直播公开课整理而成。

在近日雷锋网(公众号:雷锋网) GAIR 大讲堂线上直播课上,来自中科院计算所网络数据科学与技术重点实验室的孙冰杰博士为大家做了一场主题为「基于网络化数据表示学习的重叠社区发现研究」的分享,详细介绍了他们团队最近在基于网络化数据表示学习的重叠社区发现研究上的相关工作。

孙冰杰,中科院计算所博士研究生,主要研究方向为网络结构分析,网络表示学习。

分享内容:

我将从以下四个方面对我们团队最近所做的研究做详细介绍。

  • 研究背景及挑战

  • 对称编解码重叠社区发现方法:SEND

  • 重叠社区发现方法加速研究

  • 总结

首先看我们研究工作的背景及挑战。

大数据领域中大部分数据是以网络形式进行组织的,比如社交媒体中的社交网络,科研领域中的引用网络,生物领域的中蛋白质相互作用网络,以及交通领域中的航空网路或路网。网络化数据之后节点之间的复杂关系是导致大数据处理困难的重要原因。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

网络化数据在不同粒度下对应的理论与应用研究也是不同的。在微观粒度上,主要研究的是节点层面上的任务,当节点聚集形成社区的时候,研究的是社区层面上的任务。在宏观层面上,我们研究的是在整个网络上的任务。

在这次分享上,我们主要研究在中观粒度下的社区发现任务。它主要由三元闭包理论和强弱连接理论为支撑,主要支撑的应用有社区发现应用等。

中观粒度上的社区发现任务:向下可通过节点表示支持微观粒度的任务,向上可通过网络生成支持宏观粒度的任务。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

基于网络化数据表示学习的重叠社区发现所面临的问题和挑战

相对于传统节点表示,它的功能是比较单一的,只支持重叠社区指示,无法支持一些其他的任务。但现有的重叠社区指示方法没办法用在大规模网络上。这是针对社区指示能力和多任务支持能力之间的矛盾以及海量数据处理任务的挑战。

为此我们团队做了两方面的工作。

工作一:非负对称编解码模型

节点表示的社区指示能力需要满足多种约束条件。一般需要满足三个约束条件,非负性,稀疏性和分布性。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

节点表示的多任务支持能力

需要节点表示能充分恢复数据在原始空间中的相似性关系,对节点表示添加的约束越多,对数据的恢复能力影响越大。因此这之间是矛盾的。矛盾主要体现在基于网络化数据表示的社区发现相关工作。     中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作一是针对重叠社区得到节点表示的社区表示能力和数据还原能力之间的矛盾。目标是保证节点表示的社区指示能力和对原始数据的还原能力。

所面临的问题:

  • 如何在数据恢复过程中对节点表示进行约束增加指示能力。

  • 传统的OCD只优化解码过程,节点表示功能单一,不能应用于其他任务。

  • OCD节点表示的显示约束使优化困难

解决方案:用户点表示同时对原始数据进行编解码操作,保证学习到高质量节点表示。通过编解码过程对对称性节点表示进行隐式约束,保证指示能力。

具体来说,OCD模型通过重构输入数据学习节点表示,通过正则项等对节点表示进行显式约束,保证节点表示的指示能力。但传统的OCD目标函数相当于只优化了解码过程(生成原始数据)

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

OCD目标函数忽略了编码过程,导致模型学习到的节点表示无法充分体现节点在原空间中的相似性,因此应用在下游任务上准备性较低,且无法处理新样本数据。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

以上提出的对称编解码模型可以同时解决节点表示的指示能力和对多种下游任务的支持能力。

通过优化编码和解码过程保证节点表示的数据还原能力,通过隐式约束保证节点表示的社区表示能力,从而最终在多种类型网络的多个任务上取得了目前最好的效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

进一步介绍这个模型的普适性,我们希望这个节点表示能够用在更多的任务上。因此我们采用了多种类型的网络,比如说二部网络,有向网络、有权网络、层次网络等,也采用了多种类型输入,比如说节点序列输入,邻接矩阵输入等。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:本文工作针对重叠社区发现得到的节点表示存在的“指示能力和多任务支持”之间的矛盾,设计了一种同时优化编解码过程的模型,可以保证节点表示的指示能力并且在多种类型网络的多个任务上取得了最好的效果。

工作二:重叠社区发现方法加速研究

现有的重叠社区发现方法存在“速度与精度”之间的矛盾,在面临大规模网络时,无法拿来急用。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题一,如何选择高质量的参数迭代初始点。提出利用一个与非凸目标函数近似的凸目标函数的优化结果作为非凸目标函数优化的迭代初始点,以保证最终速度和效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结 

重叠社区发现的模型选择

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题二,解决由迭代过程的复杂性带来的优化困难问题。传统的应对迭代过程复杂性的方法是采样和近似。这类方法是影响精度且仍然不够快

解决方案:网络结构局部聚集特性和节点表示的稀疏性,相应地设计了“维度级”和“连边级”两级加速策略,对模型进行加速。 

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:针对基于泊松模型的重叠社区发现方法,目标函数的非凸性和迭代过程的复杂性,提出了两种加速策略,分别解决了初始点选择问题和迭代过程复杂问题。可以处理真实大规模网络。

综上所述:针对重叠社区发现任务,我们主要解决了三个问题。编解码模型解决了重叠社区发现得到的节点表示的社区指示能力和数据恢复能力之间的矛盾。快速初值模型解决了目标函数非凸性带来的可扩展性问题。两级加速模型解决了优化过程复杂性带来的可扩展性问题。

视频回放链接:http://www.mooc.ai/open/course/357


中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结


推荐阅读
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • 本文详细介绍了如何使用Python的re库进行正则表达式匹配,特别是针对URL中的特定参数提取。适合初学者理解和应用。 ... [详细]
  • 百度搜索结果链接提取工具 UrlGetter V1.43
    该工具专为获取百度搜索引擎的结果页面中的网址链接而设计,能够解析并转换为原始URL。通过正则表达式匹配技术,精准提取网页链接,并提供详细的使用说明和下载资源。 ... [详细]
  • 本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例,涵盖从入门到进阶的各个阶段,帮助读者全面提升JavaScript编程能力。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 本文由杨勇和思远于2012年12月27日撰写,主要探讨了如何使用PHP进行网页内容抓取,特别是针对字符较多的网站。文章详细介绍了正则表达式失效的原因,并提供了优化方法,同时展示了如何抓取淘宝服饰栏、天气信息以及IP地址对应的地理位置。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 一个登陆界面
    预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]
author-avatar
手机用户2602916917
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有