前文提出的“解耦表征学习与分类器学习”框架,为支付风控等业务场景的长尾问题提供了核心思路。在支付风控中,用户交易数据天然呈现图结构(节点为用户/商户,边为交易关系),且欺诈检测等任务普遍存在正样本(欺诈交易)极少、负样本(正常交易)众多的长尾分布特征。基于图转换与对比学习的解耦方法,通过先学习鲁棒的图结构表征、再聚焦判别任务,成为解决该类问题的有效路径。
一、支付风控中图结构的长尾挑战
支付风控的核心数据载体是用户交易网络,其长尾问题主要体现在两方面:
数据分布失衡:欺诈交易(正样本)占比通常低于0.1%,正常交易(负样本)构成数据主体,传统模型易偏向多数类,导致欺诈漏检;
特征提取困难:交易网络的拓扑结构(如用户关联密度、交易链路长度)与属性特征(交易金额、笔数)高度耦合,手工提取的结构特征难以覆盖复杂欺诈模式,且泛化能力有限。
这类挑战与Kang等人(2020)关注的长尾识别问题本质一致,均需通过解耦表征与判别过程,先获取高质量特征,再优化决策边界。
二、核心方法:解耦逻辑下的图表征与判别
该方法严格遵循“表征学习-分类判别”的解耦流程,针对图结构数据设计专属步骤,实现长尾场景下的精准风控。
1. 表征学习阶段:图转换+对比学习的鲁棒特征提取
表征学习的目标是从图结构中自动捕获不易手工建模的特征,无需依赖标注数据,适配正样本稀缺的场景。
图转换(Graph Transformation):图转换这一核心思路由团队同事提出,具体操作是将原始交易图转换为对偶图,实现节点与边的角色互换。例如,原始图中包含用户/商户节点(5个)与交易边(4条),转换后交易边成为新节点(4个),原节点变为连接新节点的边(5条)。该操作保留原始图的结构信息,同时提供差异化视图,丰富特征维度。
对比学习(Contrastive Learning):以原始图与转换图作为正样本对,通过余弦相似度优化二者在共享嵌入空间中的一致性;负样本从批次内其他交易图中随机采样(常用批次大小为512)。通过最大化正样本对相似度、最小化负样本对相似度,迫使模型学习图结构的本质特征,不受数据不平衡干扰。
特征处理与聚合:将节点属性(如用户交易笔数、商户资质等级)与边属性(如交易金额、交易时长)映射到同一嵌入空间,再通过全局平均池化或最大池化操作,聚合为图的全局表示,避免单一特征维度的局限性。
2. 分类判别阶段:长尾适配的决策优化
基于表征学习阶段输出的固定图表示,聚焦长尾分布的分类任务,优化决策边界:
数据采样:从海量负样本(正常交易图)中按比例采样,与全部正样本(欺诈交易图)构建类平衡训练集,避免模型偏向多数类;
分类器设计:采用轻量化线性分类器或简单神经网络,基于平衡数据集微调决策边界。因表征阶段已学习到强判别性特征,分类器无需复杂结构即可实现高效区分。
三、方法优势与支付风控场景适配
该解耦方法在支付风控核心场景中具备显著实用价值:
适配低资源场景:无需大量标注数据,仅通过无监督对比学习即可完成表征学习,匹配欺诈检测中标注样本稀缺的现状;
特征泛化能力强:自动捕获交易网络的拓扑特性与属性关联,可适配不同欺诈模式(如团伙欺诈的密集关联、盗刷交易的异常链路);
工程可行性高:支持纯CPU训练,无需大量算力支持,可快速部署到现有风控系统;
性能提升显著:实验表明,相比传统“手工特征+XGBoost”方法,该方法在AUC、精确率-召回率曲线等核心指标上均有明显提升,欺诈漏检率降低。
其核心创新在于将解耦框架与图结构数据特性结合,通过图转换拓展特征视角,用对比学习强化表征鲁棒性,解决了长尾分布与特征提取两大风控痛点。
四、与解耦学习的逻辑协同
该方法与Kang等人(2020)的解耦框架形成技术协同:
核心逻辑一致:均通过拆分表征与判别过程,避免二者相互干扰,提升模型对长尾分布的适配能力;
场景延伸互补:Kang等人(2020)聚焦视觉数据,该方法拓展至支付风控的图结构数据,验证了解耦逻辑在非欧氏数据中的通用性;
方法相互借鉴:表征阶段的对比学习可与前文提及的实例平衡采样结合,进一步提升特征泛化性;判别阶段的类平衡采样策略,也可复用分类器重训练(cRT)等思路优化决策边界。
参考文献
Kang, B., Xie, S., Rohrbach, M., Yan, Z., Gordo, A., Feng, J., & Kalantidis, Y. (2020). Decoupling representation and classifier for long-tailed recognition. Proceedings of the International Conference on Learning Representations. https://arxiv.org/abs/1910.09217