反洗钱(AML)技术的发展,从早期依赖专家经验的规则判断,迈入了以网络分析(NA)和图神经网络(GNN)为核心的时代。全球每年约2%-5%的GDP卷入洗钱活动,折合金额超2万亿美元,但传统反洗钱实践效率极低,欧盟仅1.1%的犯罪收益能被没收(Deprez et al., 2025)。面对多主体、多交易链的复杂洗钱模式,网络分析凭借捕捉关联关系的核心优势成为关键技术,而Deprez等人(2025)的系统性研究,既梳理了该领域的碎片化现状,也为技术落地提供了标准化框架。
一、研究基础:97篇论文揭示的核心现状
Deprez等人(2025)通过检索Web of Science和Scopus数据库,筛选97篇相关论文,完成了反洗钱网络分析的首个系统性综述。研究覆盖2023年前的英文文献,核心关键词包括“graph analy* AND money launder”“network analy AND money launder*”,最终排除法律类和无实质网络分析应用的研究。
从研究特征来看,方法层面以无监督学习(40篇)占比最高,其次是监督学习和半监督学习(各20篇);建模方式中,手动特征工程(45篇)和聚类(24篇)仍是主流,图神经网络(GNN)自2018年起逐渐兴起,2022年应用出现激增。数据类型上,开源数据(40篇)多于专有数据(32篇)和合成数据(16篇),其中加密货币相关研究占26.5%(26篇),主要聚焦比特币、以太坊等交易网络的洗钱检测。
研究缺口同样显著:缺乏统一的基准测试框架,不同方法难以横向对比;GNN模型的可解释性不足,不符合金融监管要求;动态网络分析、无监督学习深度探索、欺诈专用学习技术(如PU学习)等领域仍待突破。
二、核心发现:网络分析的价值与GNN的关键局限
1. 网络+节点特征:反洗钱预测的最优组合
单一依赖网络结构或节点特征,都无法达到理想效果。Deprez等人(2025)的实验证实,仅靠网络结构建模时,所有方法的预测效果接近随机(AUC-ROC≈0.5);而结合网络结构(如交易关联关系)与节点特征(如交易金额、时间、币种)后,预测能力显著提升。
在Elliptic数据集(203,769节点,2%非法交易,该数据集由Elliptic公司联合学术机构发布,是区块链反洗钱研究的核心基准数据,节点对应比特币网络中的交易记录,边代表交易间的转账关联,非法交易标签通过区块链地址追踪与已知洗钱团伙的关联确定)中,GraphSAGE模型的AUC-PR达0.6392,显著优于仅用节点特征的0.5730;在IBM-AML数据集(500,000节点,0.27%洗钱交易,该数据集源自IBM金融犯罪检测项目的真实银行交易数据,节点涵盖企业与个人的交易记录,边为同一账户的交易流向,洗钱标签由银行反欺诈部门结合人工调查标注)中,该组合也让模型AUC-PR从0.0092提升至0.0120(Deprez et al., 2025),但是都是很低。特征融合主要分为两种方式:
串行融合:分别提取节点特征(如94个交易局部特征)、网络结构特征(如DeepWalk嵌入、中心性指标),拼接后输入下游分类器,Elliptic数据集上AUC-PR达0.5938;
并行融合:GNN层直接将节点特征作为聚合基础,让网络结构与节点特征在每一层动态融合,核心设计可拆解为三部分。输入层面:明确包含节点特征向量(如交易金额、时间等归一化后的属性)与网络邻接矩阵(记录账户间的转账关联关系);聚合过程:以GraphSAGE为例,遵循“采样邻居→聚合邻居特征→与自身特征拼接”的固定逻辑,比如为节点A采样20个交易对手作为邻居,先计算这20个邻居的12维特征平均值,再与节点A自身的12维特征拼接;最终计算:节点A的嵌入 = σ(W·[节点A的12维特征 || 邻居节点的平均12维特征]),其中σ为激活函数,W为可学习权重,“||”代表特征拼接操作。这种方式让两类信息深度绑定,GraphSAGE在Elliptic数据集上实现最优性能(AUC-PR=0.6392)。
2. 类别不平衡:GNN的少数类问题
洗钱交易的少数类属性(通常占比<2%),让GNN容易被多数类(合法交易)特征主导。在IBM-AML数据集的极端不平衡场景(0.27%洗钱交易)中,GAT模型的AUC-ROC仅0.4203,接近随机猜测的0.5,AUC-PR低至0.0103,部分训练轮次甚至直接预测全为合法交易”(Deprez et al., 2025)。
而在Elliptic数据集的相对平衡场景(2%非法交易)中,GAT和GraphSAGE的AUC-PR分别达0.6376和0.6392,模型稳定性也显著提升,10次训练的AUC-ROC标准差仅0.0122。这一差异表明,少数类占比提升后,GNN才能捕捉到洗钱交易的网络关联特征(如交易链异常跳转),避免被多数类完全覆盖。
3. 网络拓扑与过平滑:GNN的结构敏感问题
网络拓扑(节点连接方式)直接影响GNN性能,尤其在“高密网络+多中心节点(Hubs)”场景中,易出现过平滑问题——多轮邻域聚合导致节点嵌入趋同(余弦相似度>0.8),失去判别力(Deprez et al., 2025)。
IBM-AML数据集(平均度5.1,平均路径长度3.78)正是典型的高密多中心网络,所有GNN模型均失效:GCN的AUC-ROC仅0.5657,GIN仅0.5028,节点嵌入余弦相似度高达0.9以上;而Elliptic数据集(平均度2.3,平均路径长度15.96,稀疏无标度分布)中,GraphSAGE和GAT能有效捕捉局部异常结构,节点嵌入余弦相似度仅0.3-0.5,AUC-PR均超0.63。
评估过平滑可通过三种核心方法:计算节点嵌入的余弦相似度(>0.8大概率存在)、观察模型性能与层数的关系(层数≥2后指标显著下降)、分析预测概率分布(集中在0.4-0.6或0/1区间)。
三、模型对比:从经典GNN到先进算法的适配场景
不同图算法在反洗钱场景中的表现差异显著,核心适配逻辑围绕节点规模、动态性、结构复杂度展开:
1. 经典GNN:基础场景的选择
GCN(图卷积网络):依赖全量邻域和全局邻接矩阵,属于转导式学习,仅适配节点数<10万的静态小图。其聚合公式为 ,其中 为添加自环的邻接矩阵, 为 的度矩阵(Deprez et al., 2025)。AML场景示例:某地方性小银行有8万客户(节点),用GCN训练反洗钱模型时,需导入所有客户的交易关联形成邻接矩阵;若有新客户开户,整个邻接矩阵会新增一行一列,度矩阵也随之变化,之前训练的模型完全失效,必须重新导入全量数据训练。这种特性决定它只适合客户规模小、交易网络稳定的场景——优点是实现简单,小图上精度尚可(Elliptic数据集AUC-PR=0.5948),但大规模图中内存和运算量爆炸(如IBM-AML数据集50万节点,需计算50万×50万的矩阵,哪怕稀疏存储运算量也极大,复杂度 )。
GAT(图注意力网络):逐节点计算直接邻居的注意力权重,聚合公式为 , 为自适应注意力权重(Deprez et al., 2025)。AML场景示例:某城商行有50万客户,用GAT建模时,无需全量邻接矩阵,只需针对每个客户(节点),遍历其直接交易对手(邻居)计算权重——比如客户A的交易对手中,B账户每月有10笔大额转账,C账户仅2笔小额转账,GAT会自动给B分配更高注意力权重。这种局部计算逻辑让它运算效率远高于GCN:IBM-AML数据集127万条边,GAT只需遍历这127万条边,运算量是GCN的几百分之一。作为归纳式学习,新客户开户后,直接计算其交易对手的注意力权重即可生成嵌入,无需重训全图,适合10万-100万节点的中规模场景,Elliptic数据集AUC-PR达0.6376。但遇到银行清算账户这类“超级中心节点”(邻居数超1万)时,逐一生成权重仍会耗时,需搭配固定邻居采样优化。
GraphSAGE(图采样聚合网络):固定采样k个邻居(通常k=10-50),通过“采样+聚合”实现归纳式学习,聚合公式为 , (Deprez et al., 2025)。AML场景示例:某全国性银行有200万客户,某企业客户D有1000个交易对手,GraphSAGE无需全部计算,仅随机采样20个代表性对手(如近期高频、大额交易方),通过平均聚合这20个对手的特征(金额、频率等),再与D自身特征拼接生成嵌入。这种采样机制让复杂度骤降为 ,过平滑抗性也更强——IBM-AML的高密网络中,它的节点嵌入相似度仅0.5左右,而GCN达0.9以上。新增客户时,沿用“采样20个对手+聚合”的规则即可,无需重训,完美适配节点数>100万的大规模动态图,Elliptic和IBM-AML数据集均实现最优性能(AUC-PR分别为0.6392和0.0120)。
2. 先进算法:解决GraphSAGE的固有缺陷
GIN(图同构网络):通过求和聚合+可学习ε+MLP( ),模拟WL图同构测试,能区分GraphSAGE无法识别的结构差异,这在拆分与归集类洗钱检测中至关重要。AML场景实例:某洗钱团伙有两种核心模式——“拆分洗钱”(账户X将100万拆分为10笔10万,转给10个小额账户)和“归集洗钱”(10个小额账户各转10万,汇总到账户Y)。这两种模式的邻居数量相同,GraphSAGE用平均聚合时,账户X和Y的嵌入向量相似度达0.85,无法区分;而GIN通过求和聚合保留“单节点向外发散”与“多节点向内汇聚”的结构差异,再经MLP强化特征,最终账户X和Y的嵌入相似度仅0.32,能精准识别两类模式,Elliptic数据集图分类任务中AUC-PR比GraphSAGE高12%(Deprez et al., 2025)。
PNA(图神经网络聚合器):通过多聚合器组合(求和/均值/最大/方差)+尺度归一化,解决GraphSAGE聚合器单一的缺陷,能同时捕捉交易的全局趋势与局部差异。AML场景优势:某外贸企业账户Z的交易对手中,既有每月1笔500万的大额设备采购(大额低频),也有每日3笔1万的杂费支出(小额高频)。GraphSAGE用平均聚合时,会将两类交易特征拉平,输出的嵌入无法体现“大额低频”这一异常信号;而PNA通过“求和聚合(总月交易530万,反映资金规模)+方差聚合(金额波动极大,反映交易结构异常)+最大聚合(500万单笔峰值)”的组合,将多维度特征拼接输入MLP,精准识别出“大额低频交易占比过高”的疑点,在IBM-AML数据集上F1分数比GraphSAGE高9%。
TGN(时序图神经网络):通过时间窗口采样+时序注意力+动态嵌入更新,聚焦近期交易关联,解决GraphSAGE动态图适配弱的问题。AML场景实例:某跨境电商账户W突然出现异常——凌晨2点到3点的1小时内,与5个东南亚境外账户完成12笔互转,每笔金额在1万-2万之间,总金额18万。GraphSAGE仅考虑交易关联,不区分时间顺序,会将这些交易与账户W每月正常的20笔跨境采购交易混为一谈,误判为合法;而TGN设置4小时时间窗口,仅聚合该时段内的交易邻居,同时通过时序注意力给1小时内的交易分配3倍于24小时前交易的权重,快速捕捉到“短时间高频跨境互转”的异常模式,将账户W标记为高风险,实时跨境洗钱检测的召回率比GraphSAGE高23%。
Graphormer(图Transformer):通过全局注意力机制+图位置编码(GPE),将节点度数、聚类系数等拓扑特征融入注意力层,解决GraphSAGE局部采样丢失长程依赖的问题。AML场景优势:比特币网络中存在一条隐蔽洗钱链——账户A将资金转给B,B转给C,C转给D,D最终转入境外黑产账户,四者均无直接交易关联。GraphSAGE为A采样20个邻居时,仅能覆盖直接交易方,无法触及3跳外的D,完全丢失这条长程链信息;而Graphormer的全局注意力会计算A与全图节点的关联权重,结合图位置编码捕捉“A-B-C-D”的拓扑路径,自动将D的特征权重提升至前5%,从而识别出这条4跳洗钱链,在Elliptic数据集扩展版(包含更多长程关联)上AUC-ROC比GraphSAGE高15%。
HyperGNN(高阶超图神经网络):用超边(可连接多个节点)建模多节点高阶关系,解决GraphSAGE仅能处理成对关系的局限,适配多账户合谋场景。AML场景实例:账户E、F、G通过“循环转账”掩盖资金来源——E转5万给F,F转5万给G,G转5万给E,同时三者各自向境外账户转10万,单看每对交易均符合“小额正常转账”特征。GraphSAGE会将这三对交易拆分为独立关联,无法识别循环模式;而HyperGNN将E、F、G定义为一个超边(包含3个节点的交易组),先聚合超边内的循环交易特征(资金闭环流动),再结合三者的境外转账特征,最终捕捉到“多账户内循环+对外转移”的合谋模式,多账户合谋检测的精确率比GraphSAGE高31%。
四、实践指南:反洗钱场景的模型选择与落地建议
1. 按场景选择模型
小银行/静态场景(节点数<10万):优先GCN,无需复杂调参,平衡精度与成本;
中大型银行/弱动态场景(10万-100万节点):优先GAT,注意力机制聚焦异常邻居,支持新客户泛化;
大型银行/加密货币网络(>100万节点):唯一选择GraphSAGE,采样机制适配超大规模动态图;
特殊需求场景:交易链分类选GIN,实时检测选TGN,长程依赖捕捉选Graphormer,合谋检测选HyperGNN。
2. 关键优化策略
类别不平衡:采用加权损失、过采样等策略,极端场景(占比<0.5%)需结合业务规则筛选候选样本;
过平滑:控制GNN层数(≤2层),GraphSAGE可减小采样数(k=10-20),GAT限制注意力头数(≤2);
特征工程:节点特征优先选择交易金额、频率、时间间隔、币种等强相关属性,网络特征补充度、介数中心性等手动特征。
五、研究价值与开源资源
Deprez等人(2025)的研究不仅填补了反洗钱网络分析的综述空白,更提供了标准化实验框架和开源代码(https://github.com/VerbekeLab/AML_Network),支持研究者基于专有数据扩展研究。其核心贡献在于证实了网络分析的实用价值,明确了不同算法的适配边界,为金融机构落地智能反洗钱技术提供了参考。