数字支付的快速扩张,让欺诈行为从早期的单一违规演变为产业化的隐蔽操作,传统依赖专家规则和独立特征建模的反欺诈方法逐渐失效。图异常检测(Graph-Based Anomaly Detection, GBAD)凭借对关联信息的处理能力,成为金融反欺诈领域的技术方向,完成了从孤立特征判断到关联挖掘的转变。本文结合多篇论文(Sun et al., 2005; Jiang et al., 2015; 刘华玲等, 2022),系统梳理图异常检测在个体与群体反欺诈中的核心价值以及关键算法。
一、研究背景与核心定义
传统反欺诈方法存在明显局限:专家规则依赖人工经验,难以应对动态变化的欺诈模式;机器学习方法将用户特征视为独立变量,忽略了实体间的潜在关联。
图异常检测的核心定义是利用图结构进行机器学习建模,通过图数据挖掘技术,寻找显著异于其他对象的节点、边或子结构(刘华玲等, 2022)。其三个核心优势使其适配金融反欺诈需求:一是能处理数据依赖性,通过连边自然表示实体间的相互关联;二是可精准检测异常关系,覆盖关系传播型和群体协作型两类欺诈本质;三是鲁棒性强,欺诈者可篡改个体行为线索,但无法操纵整个关联网络(刘华玲等, 2022)。
二、个体反欺诈:聚焦异常节点与边的识别
个体反欺诈的核心目标是从网络数据中定位异常节点(如欺诈用户)或边(如虚假交易),主要通过四类算法实现:
(一)基于结构特征
核心逻辑是提取网络结构特征(如节点重要性、中心网络)构建特征空间,偏离正常模式的节点被判定为异常。代表算法包括OddBall和GBKD-Forest:OddBall通过分析自我中心网络(EgoNet)的特征分布,识别不符合幂律分布的异常节点;GBKD-Forest集成度中心性、介数中心性、PageRank值、HITS等多类结构特征,通过随机抽样建立KD树森林分离异常节点(刘华玲等, 2022)。关键指标中,度中心性衡量节点的直接关联强度,介数中心性反映节点在网络中的“桥梁”作用,PageRank值和HITS则量化节点的全局重要性。
(二)基于邻近性
基于“同质性假设”(相似节点倾向于关联),通过量化节点间邻近度判断异常。代表算法包括个性化PageRank和BiRank:
个性化PageRank是普通PageRank的场景化扩展,公式为 \(\mathrm{PPR}_s(u) = (1-d) \cdot \delta(s, u) + d \times \sum_{(v, u) \in E} \frac{\mathrm{PPR}_s(v)}{\mathrm{L}(v)}\) ,其中 \(\delta(s, u)\) 为狄拉克函数,当 \(u\) 为预设种子节点(如已知欺诈者)时取值1,否则为0(Vlasselaer et al., 2017)。该算法通过“种子节点起始+重启机制”,使稳态概率等价于节点与种子的关联相似度,Vlasselaer等人(2017)还引入时间衰减权重 \(\omega_{i,j}=e^{\gamma h}\) ,降低远期关联的影响。
BiRank由He等人提出,是二部图场景下的PageRank扩展,通过调整查询向量融入已知欺诈知识,适配车险欺诈检测等二部图场景(刘华玲等, 2022)。
(三)基于图表示学习
通过将图数据映射到低维向量空间,捕捉节点的拓扑结构与属性信息,支持下游欺诈检测。分为矩阵分解、随机游走、深度学习三类:
Node2vec采用带偏向的随机游走,平衡网络同质性与结构性,生成低维嵌入向量,但属于直推式算法,无法泛化到未知节点;
GraphSAGE为归纳式算法,通过采样聚合邻居特征生成嵌入,可扩展至新增节点;
Dominant由Ding等人提出,以图卷积网络(GCN)为编码器,结合拓扑结构和解码器与属性解码器,通过重构误差量化节点异常程度(刘华玲等, 2022)。
(四)基于社区划分
核心逻辑是识别跨社团的桥接节点(如信贷场景中的黑产中介)。代表算法包括SCAN和NrMF:
SCAN由Xu等人提出,基于节点邻域相似度进行聚类,同步识别组内节点、桥接节点和离群点;
NrMF由Tong等人提出,通过非负残差矩阵分解 \(\mathrm{A}=\tilde{\mathrm{A}}+\mathrm{R}=\mathrm{FG}+\mathrm{R}\) ,其中残差矩阵 \(\mathrm{R}\) 对应异常节点,非负性约束增强可解释性(刘华玲等, 2022)。
三、群体反欺诈:挖掘异常子图与协同行为
群体反欺诈聚焦由异常活动形成的特殊子图(如稠密子图、稠密子张量),核心技术包括三类:
(一)基于稠密子图
网络中稠密子图往往对应群体欺诈行为(如虚假交易的用户-商户集群)。代表算法包括Fraudar和EnsemFDet:
Fraudar由Hooi等人提出,通过边可疑度公式 \(c_{ij}=1/\ln(d_j + c)\) 降低热门节点的干扰(抗伪装),再通过贪心算法定位最大可疑子图;
EnsemFDet由Ren等人提出,采用子图采样+集成学习策略,支持并行计算,可检测前k个欺诈子图,提升精度与效率(刘华玲等, 2022)。
(二)基于稠密子张量
将二维子图扩展至多维张量,捕捉多维度协同异常(如用户-商铺-时间)。代表算法包括CrossSpot、M-Zoom和D-Cube:
CrossSpot由Jiang等人(2015)提出,是局部搜索算法,从可疑种子块出发,迭代优化单一模式直至收敛。种子块可是单个张量单元或随机块,可疑性分数基于Erdös-Rényi-Poisson(ERP)模型计算,衡量数据块的罕见程度;
M-Zoom由Shin等人提出,支持多类密度度量,通过贪心剪枝加速检测;
D-Cube由Shin等人提出,优化磁盘IO,支持分布式处理大规模张量数据(刘华玲等, 2022)。
Jiang等人(2015)在研究中展示了腾讯微博的案例:225个用户通过2个IP地址,200分钟内转发同一推文27,313次,形成典型稠密子张量,其同步行为通过CrossSpot算法被精准识别。
(三)基于深层网络结构
通过深度嵌入将网络结构编码为低维向量,再通过聚类定位高密度欺诈群体。代表算法包括DeepFD和FraudNE:
DeepFD由Wang等人提出,通过深度自编码器嵌入用户节点,联合优化图结构重构与用户行为保留,使欺诈群体在嵌入空间聚集;
FraudNE由Zheng等人提出,为二部图设计双自动编码器,将用户与项目嵌入同一空间,捕捉协同欺诈模式(刘华玲等, 2022)。
四、关键补充:桥接节点识别与评价指标
(一)桥接节点识别
桥接节点多为黑产中介,其特征是连接多个信贷不良社团。Sun等人(2005)提出正常分数公式 \(\text{Normal Score}=\frac{1}{|N(u)|}\sum_{v\in N(u)}PR(v)\) ,计算节点 \(u\) 所有邻居的PPR平均值,若数值过低,说明邻居分布在不同社团,节点 \(u\) 即为桥接节点。这类节点常通过信息包装、信息伪造、远程助贷(remote assistance lending)等方式实施欺诈(刘华玲等, 2022)。
(二)评价指标
有标签数据:采用ROC曲线(以假阳性率FPR为横轴,真阳性率TPR为纵轴)和PR曲线(以召回率Recall为横轴,精确率Precision为纵轴),后者更关注欺诈正样本,评估效果更优;
无标签数据:采用Goix提出的EM(过剩质量)和MV(质量体积)曲线,通过异常分数排序分布评估算法性能,无需依赖真实标签(刘华玲等, 2022)。
参考文献
刘华玲, 刘雅欣, 许珺怡, 陈尚辉, 乔梁. (2022). 图异常检测在金融反欺诈中的应用研究进展. 计算机工程与应用, 58(22), 41-53. https://doi.org/10.3778/j.issn.1002-8331.2203-0233
Jiang, M., Beutel, A., Cui, P., & Faloutsos, C. (2015). A general suspiciousness metric for dense blocks in multimodal data. In Proceedings of the 2015 IEEE International Conference on Data Mining. IEEE.
Sun, J., Qu, H., Chakrabarti, D., & Faloutsos, C. (2005). Neighborhood formation and anomaly detection in bipartite graphs. In Proceedings of the 5th IEEE International Conference on Data Mining. IEEE.
Vlasselaer, V., Eliassi-Rad, T., Akoglu, L., Chawla, N. V., & Faloutsos, C. (2017). GOTCHA! Network-based fraud detection for social security fraud. Management Science, 63(9), 3090-3110. https://doi.org/10.1287/mnsc.2016.2538