解耦表征学习与分类器学习的框架,为图识别领域的长尾问题提供了高效解决方案(Kang et al., 2020)。这一框架的核心逻辑具备极强的跨场景适配性,在支付风控领域,针对用户交易网络这类图结构数据的长尾分布问题,通过融合图转换、对比学习等技术,可实现解耦学习的落地应用,有效解决欺诈检测等场景中正样本极少、负样本众多的建模难题。其中图转换这一核心思路,由团队提出,为图结构数据的表征学习提供了新的特征视角。
一、支付风控中图结构数据的长尾问题特征
支付风控的核心数据载体为用户交易网络,以节点代表用户、商户,以边代表交易行为,这类图结构数据天然呈现出显著的长尾分布特征,在欺诈检测场景中表现尤为突出。一方面,欺诈交易作为正样本,在整体交易数据中的占比极低,多数场景下不足0.1%,正常交易作为负样本构成数据主体;另一方面,交易网络的拓扑结构与属性特征高度耦合,欺诈行为的特征隐藏在复杂的节点关联、交易链路中,手工提取的结构特征难以覆盖多样化的欺诈模式。
传统建模方法多采用表征与判别联合学习的模式,既需要在建模过程中捕捉图结构特征,又要适配长尾的样本分布,易导致模型过度偏向正常交易的多数类,难以有效识别欺诈交易的少数类,同时手工特征提取的局限性也会进一步降低模型的泛化能力。解耦表征学习与分类器学习的框架,可从根本上解决这一问题,将特征提取与长尾分类的需求拆分为两个独立阶段,分别优化。
二、解耦框架下的图表征学习:图转换与对比学习的融合应用
在解耦学习的框架下,图表征学习阶段的核心目标是从无标注的图结构数据中,自动捕获不易手工建模的拓扑特性与属性关联,生成鲁棒的图全局表示,该阶段无需依赖标注数据,完美适配正样本稀缺的风控场景。其核心实现由图转换、对比学习、特征映射三步构成,各步骤相互配合,丰富特征维度,强化特征的判别性。
图转换:重构图结构的特征视角:将原始的用户交易图转换为对偶图,实现节点与边的角色互换。具体而言,原始图中以用户、商户为节点,以交易行为为边,转换后则以交易行为为新节点,以原用户、商户节点为连接新节点的边,例如原始图中包含5个节点和4条边,转换后变为4个节点和5条边。这一操作不会丢失原始图的任何结构信息,而是通过重构图的结构形式,提供差异化的特征视图,让模型能捕捉到原始图视角下易被忽略的特征信息。
对比学习:优化图表示的相似性特征:将原始交易图与转换后的对偶图作为正样本对,将二者映射到共享的特征空间中,通过余弦相似度优化二者的特征相似性。负样本则从批次内的其他交易图中随机采样,常规批次大小设置为500,通过最大化正样本对的相似性、最小化负样本对的相似性,迫使模型学习到图结构的本质特征,让生成的图表示不受样本分布不平衡的干扰,具备更强的泛化能力。
特征映射:统一节点与边的特征空间:交易网络的原始特征包含节点属性与边属性,节点属性涵盖用户交易笔数、商户资质等级等,边属性涵盖交易金额、交易时长等。将两类原始特征分别映射到同一嵌入空间,消除不同类型特征的维度差异,为后续的特征聚合奠定基础。
三、特征聚合与分类判别:解耦框架的完整落地
解耦学习的核心是实现表征学习与分类判别的独立优化,在完成图表征学习的基础上,通过特征聚合生成图全局表示,再基于该表示进行分类判别阶段的建模,聚焦于适配长尾的样本分布,优化决策边界。
特征聚合:生成图全局表示:将映射到同一嵌入空间的节点与边特征,通过池化操作进行聚合,生成图的全局表示。常用的池化操作包括全局平均池化与最大池化,可有效整合图结构的局部特征,形成能代表整个交易网络特征的向量,避免单一特征维度的局限性,同时该操作无需手工设计特征规则,完全由模型自动完成。
分类判别:适配长尾分布的决策优化:基于表征学习阶段输出的固定图全局表示,开展分类判别阶段的建模,该阶段的核心目标是调整分类器的决策边界,适配欺诈检测场景的长尾样本分布。建模过程中,从海量的正常交易负样本中按比例随机采样,与全部的欺诈交易正样本共同构建类平衡的训练集,避免模型偏向多数类。分类器采用轻量化的模型结构,如线性分类器、简单多层感知机,因表征学习阶段已生成具备强判别性的图表示,分类器无需复杂的结构设计,即可实现欺诈交易与正常交易的高效区分。
四、图结构解耦学习方法的支付风控场景优势
将解耦学习框架与图转换、对比学习融合的建模方法,针对支付风控的业务特点与数据特征进行了针对性设计,在实际应用中具备多方面的优势,兼顾模型性能与工程可行性:
适配低资源标注场景:图表征学习阶段采用无监督的学习方式,无需依赖欺诈交易的标注样本,仅通过原始的交易网络数据即可完成特征提取,解决了风控场景中正样本稀缺的核心痛点;
提升特征的泛化能力:通过图转换拓展特征视角,结合对比学习让模型自动捕获图结构的本质特征,可有效识别不同类型的欺诈行为,包括团伙欺诈的密集节点关联、盗刷交易的异常交易链路等,适配多样化的欺诈模式;
工程实现难度低:该方法的整个建模过程支持纯CPU训练,无需高端的算力资源支持,可快速部署到现有支付风控系统中,完成模型的落地与迭代;
风控性能显著提升:实验结果表明,相比传统的手工特征结合XGBoost的建模方法,该方法在准召等风控核心评价指标上实现了显著提升,有效降低了欺诈交易的漏检率,提升了支付风控的识别精度。
五、解耦学习在支付风控场景的延伸优化方向
解耦学习框架在图结构数据支付风控问题中的应用,验证了这一框架的跨场景适配性,基于这一落地实践,还可从多个方向进行延伸优化,进一步提升模型性能。在表征学习阶段,可结合多尺度的图转换方式,生成更多样化的图结构视图,丰富特征维度;在分类判别阶段,可复用温度τ优化、分类器重训练等解耦学习的经典方法,进一步优化分类器的决策边界,提升对长尾样本的识别能力。同时,可将该方法与分群建模的思路结合,针对不同的交易类型、商户规模构建分群的图结构模型,实现支付风控的精细化建模。
解耦表征学习与分类器学习的框架,为支付风控的建模提供了全新的思路,通过与图结构数据的特性结合,融合团队同事提出的图转换思路,可有效解决图结构数据的长尾分布问题。
参考文献
Kang, B., Xie, S., Rohrbach, M., Yan, Z., Gordo, A., Feng, J., & Kalantidis, Y. (2020). Decoupling representation and classifier for long-tailed recognition. Proceedings of the International Conference on Learning Representations. https://arxiv.org/abs/1910.09217