热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的表达而受到广泛关注。网络化数据表示学习的一个重要任务就是重叠社区发现。本文就是为大家介绍基于网络化数据表示学习的重叠社区发现的最新研究。文章内容根据中科院孙冰杰博士在雷锋网GAIR大讲堂的线上直播公开课整理而成。

在近日雷锋网(公众号:雷锋网) GAIR 大讲堂线上直播课上,来自中科院计算所网络数据科学与技术重点实验室的孙冰杰博士为大家做了一场主题为「基于网络化数据表示学习的重叠社区发现研究」的分享,详细介绍了他们团队最近在基于网络化数据表示学习的重叠社区发现研究上的相关工作。

孙冰杰,中科院计算所博士研究生,主要研究方向为网络结构分析,网络表示学习。

分享内容:

我将从以下四个方面对我们团队最近所做的研究做详细介绍。

  • 研究背景及挑战

  • 对称编解码重叠社区发现方法:SEND

  • 重叠社区发现方法加速研究

  • 总结

首先看我们研究工作的背景及挑战。

大数据领域中大部分数据是以网络形式进行组织的,比如社交媒体中的社交网络,科研领域中的引用网络,生物领域的中蛋白质相互作用网络,以及交通领域中的航空网路或路网。网络化数据之后节点之间的复杂关系是导致大数据处理困难的重要原因。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

网络化数据在不同粒度下对应的理论与应用研究也是不同的。在微观粒度上,主要研究的是节点层面上的任务,当节点聚集形成社区的时候,研究的是社区层面上的任务。在宏观层面上,我们研究的是在整个网络上的任务。

在这次分享上,我们主要研究在中观粒度下的社区发现任务。它主要由三元闭包理论和强弱连接理论为支撑,主要支撑的应用有社区发现应用等。

中观粒度上的社区发现任务:向下可通过节点表示支持微观粒度的任务,向上可通过网络生成支持宏观粒度的任务。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

基于网络化数据表示学习的重叠社区发现所面临的问题和挑战

相对于传统节点表示,它的功能是比较单一的,只支持重叠社区指示,无法支持一些其他的任务。但现有的重叠社区指示方法没办法用在大规模网络上。这是针对社区指示能力和多任务支持能力之间的矛盾以及海量数据处理任务的挑战。

为此我们团队做了两方面的工作。

工作一:非负对称编解码模型

节点表示的社区指示能力需要满足多种约束条件。一般需要满足三个约束条件,非负性,稀疏性和分布性。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

节点表示的多任务支持能力

需要节点表示能充分恢复数据在原始空间中的相似性关系,对节点表示添加的约束越多,对数据的恢复能力影响越大。因此这之间是矛盾的。矛盾主要体现在基于网络化数据表示的社区发现相关工作。     中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作一是针对重叠社区得到节点表示的社区表示能力和数据还原能力之间的矛盾。目标是保证节点表示的社区指示能力和对原始数据的还原能力。

所面临的问题:

  • 如何在数据恢复过程中对节点表示进行约束增加指示能力。

  • 传统的OCD只优化解码过程,节点表示功能单一,不能应用于其他任务。

  • OCD节点表示的显示约束使优化困难

解决方案:用户点表示同时对原始数据进行编解码操作,保证学习到高质量节点表示。通过编解码过程对对称性节点表示进行隐式约束,保证指示能力。

具体来说,OCD模型通过重构输入数据学习节点表示,通过正则项等对节点表示进行显式约束,保证节点表示的指示能力。但传统的OCD目标函数相当于只优化了解码过程(生成原始数据)

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

OCD目标函数忽略了编码过程,导致模型学习到的节点表示无法充分体现节点在原空间中的相似性,因此应用在下游任务上准备性较低,且无法处理新样本数据。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

以上提出的对称编解码模型可以同时解决节点表示的指示能力和对多种下游任务的支持能力。

通过优化编码和解码过程保证节点表示的数据还原能力,通过隐式约束保证节点表示的社区表示能力,从而最终在多种类型网络的多个任务上取得了目前最好的效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

进一步介绍这个模型的普适性,我们希望这个节点表示能够用在更多的任务上。因此我们采用了多种类型的网络,比如说二部网络,有向网络、有权网络、层次网络等,也采用了多种类型输入,比如说节点序列输入,邻接矩阵输入等。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:本文工作针对重叠社区发现得到的节点表示存在的“指示能力和多任务支持”之间的矛盾,设计了一种同时优化编解码过程的模型,可以保证节点表示的指示能力并且在多种类型网络的多个任务上取得了最好的效果。

工作二:重叠社区发现方法加速研究

现有的重叠社区发现方法存在“速度与精度”之间的矛盾,在面临大规模网络时,无法拿来急用。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题一,如何选择高质量的参数迭代初始点。提出利用一个与非凸目标函数近似的凸目标函数的优化结果作为非凸目标函数优化的迭代初始点,以保证最终速度和效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结 

重叠社区发现的模型选择

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题二,解决由迭代过程的复杂性带来的优化困难问题。传统的应对迭代过程复杂性的方法是采样和近似。这类方法是影响精度且仍然不够快

解决方案:网络结构局部聚集特性和节点表示的稀疏性,相应地设计了“维度级”和“连边级”两级加速策略,对模型进行加速。 

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:针对基于泊松模型的重叠社区发现方法,目标函数的非凸性和迭代过程的复杂性,提出了两种加速策略,分别解决了初始点选择问题和迭代过程复杂问题。可以处理真实大规模网络。

综上所述:针对重叠社区发现任务,我们主要解决了三个问题。编解码模型解决了重叠社区发现得到的节点表示的社区指示能力和数据恢复能力之间的矛盾。快速初值模型解决了目标函数非凸性带来的可扩展性问题。两级加速模型解决了优化过程复杂性带来的可扩展性问题。

视频回放链接:http://www.mooc.ai/open/course/357


中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结


推荐阅读
  • 掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中,了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先,确保你正在使用PHP 5.3或更高版本,最好是最新版本,以充分利用其性能优化和新特性。此外,我们还将探讨代码结构、安全性和性能优化等方面的内容,帮助你成为一名更高效的PHP开发者。 ... [详细]
  • Spring 切面配置中的切点表达式详解
    本文介绍了如何在Spring框架中使用AspectJ风格的切面配置,详细解释了切点表达式的语法和常见示例,帮助开发者更好地理解和应用Spring AOP。 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 2009年12月28日,易语言公司正式推出了“易语言5.0静态编译测试版1”,这一版本标志着易语言在技术上的重要突破。与之前的4.x版本相比,5.0测试版1引入了静态编译功能,显著提升了程序的运行效率和安全性。此外,新版本还优化了代码生成机制,增强了语言的表达能力和兼容性。自发布以来,用户反馈非常积极,普遍认为新功能带来了更加流畅的开发体验。 ... [详细]
  • 浏览器作为我们日常不可或缺的软件工具,其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程,帮助读者更好地理解这一关键技术组件,揭示其内部运作的奥秘。 ... [详细]
  • 在ElasticStack日志监控系统中,Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包,每个插件可以单独进行更新和维护,无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性,还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法,并通过实际生产环境中的应用案例,展示其在日志处理和监控中的高效性和可靠性。 ... [详细]
  • 在日常开发中,正则表达式是处理字符串时不可或缺的工具。本文汇总了常用的正则表达式,帮助开发者高效解决常见问题。例如,验证数字:`1$`;验证n位数字:`^\d{n}$`;验证至少n位数字:`^\d{n,}$`;验证m到n位数字:`^\d{m,n}$`。此外,还涵盖了验证零和非零数字、邮箱地址、手机号码等多种场景,建议关注并收藏以备不时之需。 ... [详细]
  • 本文探讨了在Python中使用序列号字符串进行高效模式替换的方法。具体而言,通过将HTML标签中的`&`替换为`{n}`,并生成形如`[tag, {n}]`的哈希原始字符串。示例字符串为:“这是一个字符串。这是另一部分。”该方法能够有效提升替换操作的性能和可读性。 ... [详细]
  • 在探讨 MySQL 正则表达式 REGEXP 的功能与应用之前,我们先通过一个小实验来对比 REGEXP 和 LIKE 的性能。通过具体的代码示例,我们将评估这两种查询方式的效率,以确定 REGEXP 是否值得深入研究。实验结果将为后续的详细解析提供基础。 ... [详细]
  • Apple Watch心电图功能或将在欧洲地区推出
    据最新消息,苹果公司计划在欧洲地区推出Apple Watch的心电图(ECG)功能。这一功能最早于2018年12月通过iOS 5.1.2系统更新在Apple Watch Series 4上实现,使其具备了医疗级心电图监测能力。该功能能够帮助用户实时监测心脏健康状况,及时发现潜在的心律不齐等问题,进一步提升用户的健康管理体验。 ... [详细]
  • 面向切面编程(AOP)是Spring框架的两大核心概念之一,另一个核心概念是控制反转(IoC)。AOP通过在应用程序中分离横切关注点,如日志记录、事务管理和安全性,从而提高代码的模块化和可维护性。本文将深入探讨AOP的核心概念和术语,帮助读者更好地理解和应用这一重要技术。 ... [详细]
  • 利用树莓派畅享落网电台音乐体验
    最近重新拾起了闲置已久的树莓派,这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多,我决定将其重新启用。恰逢落网电台进行了改版,回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐,便萌生了同样的想法。通过一番调试,终于实现了在树莓派上流畅播放落网电台音乐的功能,带来了全新的音乐享受体验。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • Nginx不仅是一款轻量级的高性能Web服务器,还具备出色的负载均衡和反向代理功能。它支持复杂的正则匹配规则、动静内容分离以及灵活的URL重写功能,使得配置和管理更加便捷高效。此外,Nginx提供了多种负载均衡算法,如轮询、加权轮询、最少连接数等,以满足不同应用场景的需求。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
author-avatar
手机用户2602916917
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有