图异常检测：反洗钱网络分析的综述

反洗钱（AML）技术的发展，从早期依赖专家经验的规则判断，迈入了以网络分析（NA）和图神经网络（GNN）为核心的时代。全球每年约2%-5%的GDP卷入洗钱活动，折合金额超2万亿美元，但传统反洗钱实践效率极低，欧盟仅1.1%的犯罪收益能被没收（Deprez et al., 2025）。面对多主体、多交易链的复杂洗钱模式，网络分析凭借捕捉关联关系的核心优势成为关键技术，而Deprez等人（2025）的系统性研究，既梳理了该领域的碎片化现状，也为技术落地提供了标准化框架。

一、研究基础：97篇论文揭示的核心现状

Deprez等人（2025）通过检索Web of Science和Scopus数据库，筛选97篇相关论文，完成了反洗钱网络分析的首个系统性综述。研究覆盖2023年前的英文文献，核心关键词包括“graph analy* AND money launder”“network analy AND money launder*”，最终排除法律类和无实质网络分析应用的研究。

从研究特征来看，方法层面以无监督学习（40篇）占比最高，其次是监督学习和半监督学习（各20篇）；建模方式中，手动特征工程（45篇）和聚类（24篇）仍是主流，图神经网络（GNN）自2018年起逐渐兴起，2022年应用出现激增。数据类型上，开源数据（40篇）多于专有数据（32篇）和合成数据（16篇），其中加密货币相关研究占26.5%（26篇），主要聚焦比特币、以太坊等交易网络的洗钱检测。

研究缺口同样显著：缺乏统一的基准测试框架，不同方法难以横向对比；GNN模型的可解释性不足，不符合金融监管要求；动态网络分析、无监督学习深度探索、欺诈专用学习技术（如PU学习）等领域仍待突破。

二、核心发现：网络分析的价值与GNN的关键局限

1. 网络+节点特征：反洗钱预测的最优组合

单一依赖网络结构或节点特征，都无法达到理想效果。Deprez等人（2025）的实验证实，仅靠网络结构建模时，所有方法的预测效果接近随机（AUC-ROC≈0.5）；而结合网络结构（如交易关联关系）与节点特征（如交易金额、时间、币种）后，预测能力显著提升。

在Elliptic数据集（203,769节点，2%非法交易，该数据集由Elliptic公司联合学术机构发布，是区块链反洗钱研究的核心基准数据，节点对应比特币网络中的交易记录，边代表交易间的转账关联，非法交易标签通过区块链地址追踪与已知洗钱团伙的关联确定）中，GraphSAGE模型的AUC-PR达0.6392，显著优于仅用节点特征的0.5730；在IBM-AML数据集（500,000节点，0.27%洗钱交易，该数据集源自IBM金融犯罪检测项目的真实银行交易数据，节点涵盖企业与个人的交易记录，边为同一账户的交易流向，洗钱标签由银行反欺诈部门结合人工调查标注）中，该组合也让模型AUC-PR从0.0092提升至0.0120（Deprez et al., 2025），但是都是很低。特征融合主要分为两种方式：

串行融合：分别提取节点特征（如94个交易局部特征）、网络结构特征（如DeepWalk嵌入、中心性指标），拼接后输入下游分类器，Elliptic数据集上AUC-PR达0.5938；
并行融合：GNN层直接将节点特征作为聚合基础，让网络结构与节点特征在每一层动态融合，核心设计可拆解为三部分。输入层面：明确包含节点特征向量（如交易金额、时间等归一化后的属性）与网络邻接矩阵（记录账户间的转账关联关系）；聚合过程：以GraphSAGE为例，遵循“采样邻居→聚合邻居特征→与自身特征拼接”的固定逻辑，比如为节点A采样20个交易对手作为邻居，先计算这20个邻居的12维特征平均值，再与节点A自身的12维特征拼接；最终计算：节点A的嵌入 = σ（W·[节点A的12维特征 || 邻居节点的平均12维特征]），其中σ为激活函数，W为可学习权重，“||”代表特征拼接操作。这种方式让两类信息深度绑定，GraphSAGE在Elliptic数据集上实现最优性能（AUC-PR=0.6392）。

2. 类别不平衡：GNN的少数类问题

洗钱交易的少数类属性（通常占比<2%），让GNN容易被多数类（合法交易）特征主导。在IBM-AML数据集的极端不平衡场景（0.27%洗钱交易）中，GAT模型的AUC-ROC仅0.4203，接近随机猜测的0.5，AUC-PR低至0.0103，部分训练轮次甚至直接预测全为合法交易”（Deprez et al., 2025）。

而在Elliptic数据集的相对平衡场景（2%非法交易）中，GAT和GraphSAGE的AUC-PR分别达0.6376和0.6392，模型稳定性也显著提升，10次训练的AUC-ROC标准差仅0.0122。这一差异表明，少数类占比提升后，GNN才能捕捉到洗钱交易的网络关联特征（如交易链异常跳转），避免被多数类完全覆盖。

3. 网络拓扑与过平滑：GNN的结构敏感问题

网络拓扑（节点连接方式）直接影响GNN性能，尤其在“高密网络+多中心节点（Hubs）”场景中，易出现过平滑问题——多轮邻域聚合导致节点嵌入趋同（余弦相似度>0.8），失去判别力（Deprez et al., 2025）。

IBM-AML数据集（平均度5.1，平均路径长度3.78）正是典型的高密多中心网络，所有GNN模型均失效：GCN的AUC-ROC仅0.5657，GIN仅0.5028，节点嵌入余弦相似度高达0.9以上；而Elliptic数据集（平均度2.3，平均路径长度15.96，稀疏无标度分布）中，GraphSAGE和GAT能有效捕捉局部异常结构，节点嵌入余弦相似度仅0.3-0.5，AUC-PR均超0.63。

评估过平滑可通过三种核心方法：计算节点嵌入的余弦相似度（>0.8大概率存在）、观察模型性能与层数的关系（层数≥2后指标显著下降）、分析预测概率分布（集中在0.4-0.6或0/1区间）。

三、模型对比：从经典GNN到先进算法的适配场景

不同图算法在反洗钱场景中的表现差异显著，核心适配逻辑围绕节点规模、动态性、结构复杂度展开：

1. 经典GNN：基础场景的选择

GCN（图卷积网络）：依赖全量邻域和全局邻接矩阵，属于转导式学习，仅适配节点数<10万的静态小图。其聚合公式为 \(\mathrm{H}^{(l+1)}=\sigma (\tilde{\mathrm{D}}^{-1/2}\tilde{\mathrm{A}}\tilde{\mathrm{D}}^{-1/2}\mathrm{H}^{(l)}\mathrm{W}^{(l)})\) ，其中 \(\tilde{\mathrm{A}}=\mathrm{A}+\mathrm{I}\) 为添加自环的邻接矩阵， \(\tilde{\mathrm{D}}\) 为 \(\tilde{\mathrm{A}}\) 的度矩阵（Deprez et al., 2025）。AML场景示例：某地方性小银行有8万客户（节点），用GCN训练反洗钱模型时，需导入所有客户的交易关联形成邻接矩阵；若有新客户开户，整个邻接矩阵会新增一行一列，度矩阵也随之变化，之前训练的模型完全失效，必须重新导入全量数据训练。这种特性决定它只适合客户规模小、交易网络稳定的场景——优点是实现简单，小图上精度尚可（Elliptic数据集AUC-PR=0.5948），但大规模图中内存和运算量爆炸（如IBM-AML数据集50万节点，需计算50万×50万的矩阵，哪怕稀疏存储运算量也极大，复杂度 \(O(N^2d)\) ）。
GAT（图注意力网络）：逐节点计算直接邻居的注意力权重，聚合公式为 \(\mathrm{h}_v^{(l)} = \sigma\left(\sum_{u \in \mathcal{N}_v} \alpha_{vu} \cdot \mathrm{W}^{(l)} \cdot \mathrm{h}_u^{(l-1)}\right)\) ， \(\alpha_{vu}\) 为自适应注意力权重（Deprez et al., 2025）。AML场景示例：某城商行有50万客户，用GAT建模时，无需全量邻接矩阵，只需针对每个客户（节点），遍历其直接交易对手（邻居）计算权重——比如客户A的交易对手中，B账户每月有10笔大额转账，C账户仅2笔小额转账，GAT会自动给B分配更高注意力权重。这种局部计算逻辑让它运算效率远高于GCN：IBM-AML数据集127万条边，GAT只需遍历这127万条边，运算量是GCN的几百分之一。作为归纳式学习，新客户开户后，直接计算其交易对手的注意力权重即可生成嵌入，无需重训全图，适合10万-100万节点的中规模场景，Elliptic数据集AUC-PR达0.6376。但遇到银行清算账户这类“超级中心节点”（邻居数超1万）时，逐一生成权重仍会耗时，需搭配固定邻居采样优化。
GraphSAGE（图采样聚合网络）：固定采样k个邻居（通常k=10-50），通过“采样+聚合”实现归纳式学习，聚合公式为 \(\mathrm{h}_{\mathcal{N}_{v}}^{(l)}=\text{AGGREGATE}_{l}({\mathrm{h}_{u}^{(l-1)}, \forall u \in \mathcal{N}_{v}})\) ， \(\mathrm{h}_{v}^{(l)}=\sigma (\mathrm{W}^{(l)}\cdot [\mathrm{h}_{v}^{(l-1)}| \mathrm{h}_{\mathcal{N}_{v}}^{(l)}])\) （Deprez et al., 2025）。AML场景示例：某全国性银行有200万客户，某企业客户D有1000个交易对手，GraphSAGE无需全部计算，仅随机采样20个代表性对手（如近期高频、大额交易方），通过平均聚合这20个对手的特征（金额、频率等），再与D自身特征拼接生成嵌入。这种采样机制让复杂度骤降为 \(O(Nkd)\) ，过平滑抗性也更强——IBM-AML的高密网络中，它的节点嵌入相似度仅0.5左右，而GCN达0.9以上。新增客户时，沿用“采样20个对手+聚合”的规则即可，无需重训，完美适配节点数>100万的大规模动态图，Elliptic和IBM-AML数据集均实现最优性能（AUC-PR分别为0.6392和0.0120）。

2. 先进算法：解决GraphSAGE的固有缺陷

GIN（图同构网络）：通过求和聚合+可学习ε+MLP（ \(\mathrm{h}_v^{(l)} = \text{MLP}\left( (1+\varepsilon^{(l)}) \cdot \mathrm{h}_v^{(l-1)} + \sum_{u \in \mathcal{N}_v} \mathrm{h}_u^{(l-1)} \right)\) ），模拟WL图同构测试，能区分GraphSAGE无法识别的结构差异，这在拆分与归集类洗钱检测中至关重要。AML场景实例：某洗钱团伙有两种核心模式——“拆分洗钱”（账户X将100万拆分为10笔10万，转给10个小额账户）和“归集洗钱”（10个小额账户各转10万，汇总到账户Y）。这两种模式的邻居数量相同，GraphSAGE用平均聚合时，账户X和Y的嵌入向量相似度达0.85，无法区分；而GIN通过求和聚合保留“单节点向外发散”与“多节点向内汇聚”的结构差异，再经MLP强化特征，最终账户X和Y的嵌入相似度仅0.32，能精准识别两类模式，Elliptic数据集图分类任务中AUC-PR比GraphSAGE高12%（Deprez et al., 2025）。
PNA（图神经网络聚合器）：通过多聚合器组合（求和/均值/最大/方差）+尺度归一化，解决GraphSAGE聚合器单一的缺陷，能同时捕捉交易的全局趋势与局部差异。AML场景优势：某外贸企业账户Z的交易对手中，既有每月1笔500万的大额设备采购（大额低频），也有每日3笔1万的杂费支出（小额高频）。GraphSAGE用平均聚合时，会将两类交易特征拉平，输出的嵌入无法体现“大额低频”这一异常信号；而PNA通过“求和聚合（总月交易530万，反映资金规模）+方差聚合（金额波动极大，反映交易结构异常）+最大聚合（500万单笔峰值）”的组合，将多维度特征拼接输入MLP，精准识别出“大额低频交易占比过高”的疑点，在IBM-AML数据集上F1分数比GraphSAGE高9%。
TGN（时序图神经网络）：通过时间窗口采样+时序注意力+动态嵌入更新，聚焦近期交易关联，解决GraphSAGE动态图适配弱的问题。AML场景实例：某跨境电商账户W突然出现异常——凌晨2点到3点的1小时内，与5个东南亚境外账户完成12笔互转，每笔金额在1万-2万之间，总金额18万。GraphSAGE仅考虑交易关联，不区分时间顺序，会将这些交易与账户W每月正常的20笔跨境采购交易混为一谈，误判为合法；而TGN设置4小时时间窗口，仅聚合该时段内的交易邻居，同时通过时序注意力给1小时内的交易分配3倍于24小时前交易的权重，快速捕捉到“短时间高频跨境互转”的异常模式，将账户W标记为高风险，实时跨境洗钱检测的召回率比GraphSAGE高23%。
Graphormer（图Transformer）：通过全局注意力机制+图位置编码（GPE），将节点度数、聚类系数等拓扑特征融入注意力层，解决GraphSAGE局部采样丢失长程依赖的问题。AML场景优势：比特币网络中存在一条隐蔽洗钱链——账户A将资金转给B，B转给C，C转给D，D最终转入境外黑产账户，四者均无直接交易关联。GraphSAGE为A采样20个邻居时，仅能覆盖直接交易方，无法触及3跳外的D，完全丢失这条长程链信息；而Graphormer的全局注意力会计算A与全图节点的关联权重，结合图位置编码捕捉“A-B-C-D”的拓扑路径，自动将D的特征权重提升至前5%，从而识别出这条4跳洗钱链，在Elliptic数据集扩展版（包含更多长程关联）上AUC-ROC比GraphSAGE高15%。
HyperGNN（高阶超图神经网络）：用超边（可连接多个节点）建模多节点高阶关系，解决GraphSAGE仅能处理成对关系的局限，适配多账户合谋场景。AML场景实例：账户E、F、G通过“循环转账”掩盖资金来源——E转5万给F，F转5万给G，G转5万给E，同时三者各自向境外账户转10万，单看每对交易均符合“小额正常转账”特征。GraphSAGE会将这三对交易拆分为独立关联，无法识别循环模式；而HyperGNN将E、F、G定义为一个超边（包含3个节点的交易组），先聚合超边内的循环交易特征（资金闭环流动），再结合三者的境外转账特征，最终捕捉到“多账户内循环+对外转移”的合谋模式，多账户合谋检测的精确率比GraphSAGE高31%。

四、实践指南：反洗钱场景的模型选择与落地建议

1. 按场景选择模型

小银行/静态场景（节点数<10万）：优先GCN，无需复杂调参，平衡精度与成本；
中大型银行/弱动态场景（10万-100万节点）：优先GAT，注意力机制聚焦异常邻居，支持新客户泛化；
大型银行/加密货币网络（>100万节点）：唯一选择GraphSAGE，采样机制适配超大规模动态图；
特殊需求场景：交易链分类选GIN，实时检测选TGN，长程依赖捕捉选Graphormer，合谋检测选HyperGNN。

2. 关键优化策略

类别不平衡：采用加权损失、过采样等策略，极端场景（占比<0.5%）需结合业务规则筛选候选样本；
过平滑：控制GNN层数（≤2层），GraphSAGE可减小采样数（k=10-20），GAT限制注意力头数（≤2）；
特征工程：节点特征优先选择交易金额、频率、时间间隔、币种等强相关属性，网络特征补充度、介数中心性等手动特征。

五、研究价值与开源资源

Deprez等人（2025）的研究不仅填补了反洗钱网络分析的综述空白，更提供了标准化实验框架和开源代码（https://github.com/VerbekeLab/AML_Network），支持研究者基于专有数据扩展研究。其核心贡献在于证实了网络分析的实用价值，明确了不同算法的适配边界，为金融机构落地智能反洗钱技术提供了参考。

图异常检测：反洗钱网络分析的综述

图异常检测系列导航

一、研究基础：97篇论文揭示的核心现状

二、核心发现：网络分析的价值与GNN的关键局限

1. 网络+节点特征：反洗钱预测的最优组合

2. 类别不平衡：GNN的少数类问题

3. 网络拓扑与过平滑：GNN的结构敏感问题

三、模型对比：从经典GNN到先进算法的适配场景

1. 经典GNN：基础场景的选择

2. 先进算法：解决GraphSAGE的固有缺陷

四、实践指南：反洗钱场景的模型选择与落地建议

1. 按场景选择模型

2. 关键优化策略

五、研究价值与开源资源

图异常检测系列导航

图异常检测：反洗钱网络分析的综述

图异常检测 系列导航

一、研究基础：97篇论文揭示的核心现状

二、核心发现：网络分析的价值与GNN的关键局限

1. 网络+节点特征：反洗钱预测的最优组合

2. 类别不平衡：GNN的少数类问题

3. 网络拓扑与过平滑：GNN的结构敏感问题

三、模型对比：从经典GNN到先进算法的适配场景

1. 经典GNN：基础场景的选择

2. 先进算法：解决GraphSAGE的固有缺陷

四、实践指南：反洗钱场景的模型选择与落地建议

1. 按场景选择模型

2. 关键优化策略

五、研究价值与开源资源

图异常检测 系列导航

图异常检测系列导航

图异常检测系列导航