模块度计算python代码_模块度与Louvain社区发现算法

作者：桑正青0V1 | 来源：互联网 | 2023-08-29 08:22

Louvain算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构，其优化目标是最大化整个社区网络

Louvain算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构，其优化目标是最大化整个社区网络的模块度。

模块度是评估一个社区网络划分好坏的度量方法，它的物理含义是社区内节点的连边数与随机情况下的边数只差，它的取值范围是 [−1/2,1)，其定义如下：

$$Q = \frac{1}{2m}\sum_{i,j}[A_{ij} - \frac{k_ik_j}{2m}]\delta(c_i,c_j)$$

$$\delta(u,v) = \{_{0\ else}^{1 when\ u == v}$$

其中，$A_{ij}$节点i和节点j之间边的权重，网络不是带权图时，所有边的权重可以看做是1；$k_i = \sum_jA_{ij}$表示所有与节点i相连的边的权重之和（度数）；$c_i$表示节点i所属的社区；$m=\frac{1}{2}\sum_{ij}A_{ij}$表示所有边的权重之和（边的数目）。

公式中$A_{ij} - \frac{k_ik_j}{2m}=A_{ij} - k_i\frac{k_j}{2m}$，节点j连接到任意一个节点的概率是$\frac{k_j}{2m}$，现在节点i有$k_i$的度数，因此在随机情况下节点i与j的边为$k_i\frac{k_j}{2m}$.

模块度的公式定义可以作如下简化：

$$Q = \frac{1}{2m}\sum_{i,j}[A_{ij} - \frac{k_ik_j}{2m}]\delta(c_i,c_j)$$

$$ = \frac{1}{2m}[\sum_{i,j}A_{ij} - \frac{\sum_ik_i\sum_jk_j}{2m}]\delta(c_i,c_j)$$

$$ = \frac{1}{2m}\sum_c[\Sigma in-\frac{{(\Sigma tot)}^2}{2m}]$$

其中$\Sigma in$表示社区c内的边的权重之和，$\Sigma tot$表示与社区c内的节点相连的边的权重之和。

上面的公式还可以进一步简化成:

$$Q = \sum_c[\frac{\Sigma in}{2m}-(\frac{\Sigma tot}{2m})^2]$$

$$ = \sum_c[e_c-{a_c}^2]$$

这样模块度也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和，对无向图更好理解，即社区内部边的度数减去社区内节点的总度数。

基于模块度的社区发现算法，都是以最大化模块度Q为目标。

Louvain算法

Louvain算法的思想很简单：

1）将图中的每个节点看成一个独立的社区，次数社区的数目与节点个数相同；

2）对每个节点i，依次尝试把节点i分配到其每个邻居节点所在的社区，计算分配前与分配后的模块度变化$\Delta Q$，并记录$\Delta Q$最大的那个邻居节点，如果$max\Delta Q>0$，则把节点i分配$\Delta Q$最大的那个邻居节点所在的社区，否则保持不变；

3）重复2），直到所有节点的所属社区不再变化；

4）对图进行压缩，将所有在同一个社区的节点压缩成一个新节点，社区内节点之间的边的权重转化为新节点的环的权重，社区间的边权重转化为新节点间的边权重；

5）重复1）直到整个图的模块度不再发生变化。

从流程来看，该算法能够产生层次性的社区结构，其中计算耗时较多的是最底一层的社区划分，节点按社区压缩后，将大大缩小边和节点数目，并且计算节点i分配到其邻居j的时模块度的变化只与节点i、j的社区有关，与其他社区无关，因此计算很快。在论文中，把节点i分配到邻居节点j所在的社区c时模块度变化为：

$$\Delta Q = [\frac{\sum_{in}+k_{i,in}}{2m}-(\frac{\sum_{tot}+k_i}{2m})^2]-[\frac{\sum_{in}}{2m}-(\frac{\sum_{tot}}{2m})^2-(\frac{k_i}{2m})^2]$$

其中$k_{i,in}$是社区c内节点与节点i的边权重之和，注意对$k_{i,in}$是对应边权重加起来再乘以2，这点在实现时很容易犯错。

$Delta Q$分了两部分，前面部分表示把节点i加入到社区c后的模块度，后一部分是节点i作为一个独立社区和社区c的模块度，这里有一个困惑我的地方，虽然我按照这个公式实现的分群算法效果很好，但是我认为$Delta Q$少了把节点i从其原来社区删除这一步，因为后面的划分时，节点i所在的社区可能有多个节点。

在实现的时候模块度变化还可以简化，把上面的公式展开，很多项就抵消了，化简之和：

$$\Delta Q = [\frac{k_{i,in}}{2m}-\frac{\sum_{tot}k_i}{2m^2}]$$

论文中指出，算法第2）步节点的顺序会对分群结果又一定影响，但分群效果差距不大，只是会影响算法的时间效率，还有论文指出按度数从到的小的顺序处理速度最快，不过我在1K边上的图测试，差距不大。

分布式实现

我实现了Louvain算法的Spark版本和单机版，单机版在算法的第2）步中，节点i的社区变更会在节点i+1的社区分配时可见，但分布式实现，这一点不能满足，因为在分布式环境下，节点i和节点i+1的社区变更可能是在不同机器上同时进行，不能进行实时传递，因此在分布式实现时，节点i+1看到只能是节点i的上一轮的社区，因为这个原因，会导致一些节点互换社区，比如1号节点分到了2号节点所在的社区，而2号节点又分配到了节点1所在的社区，解决这个问题我是参考淘宝的一个实现，用节点id和和社区id构成的边组成新图，再用联通图来调整节点的社区。

最后，工作了不能像上学的时候随意把代码放出来了，So.没有源代码分享~

推荐阅读

python
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
search
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
search
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
search
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
scala
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
email
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
email
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
install
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
python
Python | 字符串中案例数量的统计分析

Python | 字符串中案例数量的统计分析 ... [详细]

蜡笔小新 2024-11-11 12:35:36
python
Python爬虫数据导出至CSV及图片存储技术详解

Python爬虫数据导出至CSV及图片存储技术详解 ... [详细]

蜡笔小新 2024-11-09 13:19:33
python
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
python
ZooKeeper在分布式系统中的高级应用案例分析（下篇）

ZooKeeper 是一个高性能的分布式数据管理和协调框架，通过实现 Paxos 算法确保了分布式环境中的数据强一致性。本文深入探讨了 ZooKeeper 的数据模型及其在复杂分布式系统中的高级应用场景，包括配置管理、命名服务和分布式锁等关键功能。通过实际案例分析，展示了如何利用 ZooKeeper 提高系统的可靠性和可扩展性。 ... [详细]

蜡笔小新 2024-11-09 07:12:43

桑正青0V1

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章