1 min read

团伙挖掘:GCC、LPA 与 Louvain 对比

在风控场景中,存在这样一个重要假设:正常用户的行为模式往往呈现分散、独立的特征,其交互关系松散且缺乏规律性;而具有欺诈意图的用户,为实现非法获利目标,倾向于相互勾结形成紧密群体,通过协同操作隐藏真实意图。这种 “好人分散,坏人聚集” 的特性,构成了团伙欺诈挖掘的核心逻辑基础。基于此,团伙挖掘的核心目标便是从海量用户行为数据中,精准识别出内部关联紧密、存在协同欺诈行为的用户群体。而算法选型直接决定了挖掘结果的可用性、效率与落地价值。本文将聚焦风控领域常用的三种图算法 ——GCC(极大连通子图)、LPA(标签传播算法)与 Louvain 算法,从定义、核心问题、性能指标、落地效率等维度展开对比,为风控算法选型提供实操参考。

一、三种算法的核心定义与技术本质

GCC(极大连通子图)

GCC 是基于图连通性的基础筛选工具,核心逻辑是提取图中所有节点可通过边直接或间接连通的最大子集。其本质是对用户关联网络的 “粗筛”,仅关注节点间是否存在连通路径,不涉及任何社区划分逻辑,无法区分子集内部的紧密程度差异

LPA(标签传播算法)

LPA 是一种轻量级无监督社区检测算法,通过迭代过程实现社区划分。每个节点初始拥有唯一标签,迭代中按 “多数投票” 原则,将自身标签更新为邻居节点中出现频率最高的标签,直至标签分布趋于稳定,最终标签相同的节点被归为同一社区。

Louvain 算法

Louvain 算法是面向高质量社区检测的贪心算法,核心目标是最大化 “模块度” 指标。通过 “局部社区聚合” 与 “社区重构” 两阶段迭代,先在局部层面合并节点形成小型社区,再将每个社区视为单个节点重构网络,重复迭代直至模块度无法提升,最终划分出 “内部边密集、外部边稀疏” 的社区结构。

二、核心问题对比:超大社区的影响与规避

超大社区指算法划分后出现的、包含大量节点(通常占总用户数 60% 以上)的巨型社区,是风控团伙挖掘中最需规避的问题之一,其核心危害在于混杂正常用户与风险用户,导致风控策略误判率(FP)剧增,无法直接落地应用。

  • GCC:本身不存在 “社区划分” 功能,其输出结果就是单一的极大连通子集,本质上就是 “超大社区”。该子集内部可能包含多个独立欺诈团伙与大量正常关联用户,无法直接用于风险定位。

  • LPA:极易产生超大社区。由于标签传播依赖 “多数投票”,初始标签随机分布与传播过程中的 “从众效应”,会导致大量节点逐渐汇聚到少数标签下,最终形成覆盖 60%-80% 用户的巨型社区,完全丧失团伙区分能力。

  • Louvain 算法:从设计逻辑上规避了超大社区问题。通过模块度最大化目标,算法会自动划分出多个独立的小型社区,每个社区对应内部关联紧密的团伙,完美匹配欺诈团伙 “小而密” 的行为特征。

三、关键指标对比:模块度、复杂度与计算耗时

模块度的合理范围

模块度是衡量社区划分质量的核心指标,取值范围为 [-1,1],数值越高代表社区内部越紧密、外部越稀疏。

  • GCC:无模块度概念,仅关注连通性,不具备社区质量评估维度。

  • LPA:模块度通常低于 0.2,社区内部关联松散,无法区分正常用户的偶然关联与欺诈团伙的刻意协同。

  • Louvain 算法:模块度可稳定达到 0.3-0.5,该范围被公认为优质社区的标准,能精准捕捉欺诈团伙 “共享 IP、设备、支付地址” 等紧密关联特征。

时间复杂度与计算耗时

风控场景中,用户关联图的节点规模常达百万级,算法的复杂度与耗时直接影响风控策略的迭代效率。

算法 时间复杂度 百万级节点计算耗时
GCC 无明确复杂度假定 极短(预处理级,分钟级)
LPA O (n)(线性) 快(小时内)但质量崩塌
Louvain 算法 O (n log n)(接近线性) 1-2 小时,质量无下降

GCC 的低耗时源于其仅做连通性筛选,无迭代计算;LPA 虽线性复杂度耗时短,但标签扩散过快导致结果失效;Louvain 算法的接近线性复杂度,实现了 “效率与质量的平衡”,百万级节点场景下 1-2 小时即可完成计算,适配风控策略的日常离线报出。

结语

Louvain 算法兼顾高质量(0.3-0.5 模块度)、稳定性(无随机步骤,结果可复现)与大规模处理能力,能直接输出可落地的团伙名单,是三者中唯一契合风控 “精准打击、稳定可复用” 核心需求的选择之一。