团伙挖掘：GCC、LPA 与 Louvain 对比

在风控场景中，存在这样一个重要假设：正常用户的行为模式往往呈现分散、独立的特征，其交互关系松散且缺乏规律性；而具有欺诈意图的用户，为实现非法获利目标，倾向于相互勾结形成紧密群体，通过协同操作隐藏真实意图。这种 “好人分散，坏人聚集” 的特性，构成了团伙欺诈挖掘的核心逻辑基础。基于此，团伙挖掘的核心目标便是从海量用户行为数据中，精准识别出内部关联紧密、存在协同欺诈行为的用户群体。而算法选型直接决定了挖掘结果的可用性、效率与落地价值。本文将聚焦风控领域常用的三种图算法 ——GCC（极大连通子图）、LPA（标签传播算法）与 Louvain 算法，从定义、核心问题、性能指标、落地效率等维度展开对比，为风控算法选型提供实操参考。

一、三种算法的核心定义与技术本质

GCC（极大连通子图）

GCC 是基于图连通性的基础筛选工具，核心逻辑是提取图中所有节点可通过边直接或间接连通的最大子集。其本质是对用户关联网络的 “粗筛”，仅关注节点间是否存在连通路径，不涉及任何社区划分逻辑，无法区分子集内部的紧密程度差异。

LPA（标签传播算法）

LPA 是一种轻量级无监督社区检测算法，通过迭代过程实现社区划分。每个节点初始拥有唯一标签，迭代中按 “多数投票” 原则，将自身标签更新为邻居节点中出现频率最高的标签，直至标签分布趋于稳定，最终标签相同的节点被归为同一社区。

Louvain 算法

Louvain 算法是面向高质量社区检测的贪心算法，核心目标是最大化 “模块度” 指标。通过 “局部社区聚合” 与 “社区重构” 两阶段迭代，先在局部层面合并节点形成小型社区，再将每个社区视为单个节点重构网络，重复迭代直至模块度无法提升，最终划分出 “内部边密集、外部边稀疏” 的社区结构。

二、核心问题对比：超大社区的影响与规避

超大社区指算法划分后出现的、包含大量节点（通常占总用户数 60% 以上）的巨型社区，是风控团伙挖掘中最需规避的问题之一，其核心危害在于混杂正常用户与风险用户，导致风控策略误判率（FP）剧增，无法直接落地应用。

GCC：本身不存在 “社区划分” 功能，其输出结果就是单一的极大连通子集，本质上就是 “超大社区”。该子集内部可能包含多个独立欺诈团伙与大量正常关联用户，无法直接用于风险定位。
LPA：极易产生超大社区。由于标签传播依赖 “多数投票”，初始标签随机分布与传播过程中的 “从众效应”，会导致大量节点逐渐汇聚到少数标签下，最终形成覆盖 60%-80% 用户的巨型社区，完全丧失团伙区分能力。
Louvain 算法：从设计逻辑上规避了超大社区问题。通过模块度最大化目标，算法会自动划分出多个独立的小型社区，每个社区对应内部关联紧密的团伙，完美匹配欺诈团伙 “小而密” 的行为特征。

三、关键指标对比：模块度、复杂度与计算耗时

模块度的合理范围

模块度是衡量社区划分质量的核心指标，取值范围为 [-1,1]，数值越高代表社区内部越紧密、外部越稀疏。

GCC：无模块度概念，仅关注连通性，不具备社区质量评估维度。
LPA：模块度通常低于 0.2，社区内部关联松散，无法区分正常用户的偶然关联与欺诈团伙的刻意协同。
Louvain 算法：模块度可稳定达到 0.3-0.5，该范围被公认为优质社区的标准，能精准捕捉欺诈团伙 “共享 IP、设备、支付地址” 等紧密关联特征。

时间复杂度与计算耗时

风控场景中，用户关联图的节点规模常达百万级，算法的复杂度与耗时直接影响风控策略的迭代效率。

算法	时间复杂度	百万级节点计算耗时
GCC	无明确复杂度假定	极短（预处理级，分钟级）
LPA	O (n)（线性）	快（小时内）但质量崩塌
Louvain 算法	O (n log n)（接近线性）	1-2 小时，质量无下降

GCC 的低耗时源于其仅做连通性筛选，无迭代计算；LPA 虽线性复杂度耗时短，但标签扩散过快导致结果失效；Louvain 算法的接近线性复杂度，实现了 “效率与质量的平衡”，百万级节点场景下 1-2 小时即可完成计算，适配风控策略的日常离线报出。

结语

Louvain 算法兼顾高质量（0.3-0.5 模块度）、稳定性（无随机步骤，结果可复现）与大规模处理能力，能直接输出可落地的团伙名单，是三者中唯一契合风控 “精准打击、稳定可复用” 核心需求的选择之一。

团伙挖掘：GCC、LPA 与 Louvain 对比

团伙挖掘系列导航

一、三种算法的核心定义与技术本质

GCC（极大连通子图）

LPA（标签传播算法）

Louvain 算法

二、核心问题对比：超大社区的影响与规避

三、关键指标对比：模块度、复杂度与计算耗时

模块度的合理范围

时间复杂度与计算耗时

结语

团伙挖掘系列导航

团伙挖掘：GCC、LPA 与 Louvain 对比

团伙挖掘 系列导航

一、三种算法的核心定义与技术本质

GCC（极大连通子图）

LPA（标签传播算法）

Louvain 算法

二、核心问题对比：超大社区的影响与规避

三、关键指标对比：模块度、复杂度与计算耗时

模块度的合理范围

时间复杂度与计算耗时

结语

团伙挖掘 系列导航

团伙挖掘系列导航

团伙挖掘系列导航