1 min read

支付风控:大模型如何突破传统ML的三大天花板

一、背景

支付风控长期依赖传统机器学习模型(如XGBoost、LR)进行欺诈检测。这些模型在样本充足、特征稳定的环境下表现良好。然而,电诈场景的特殊性使得传统模型面临多重挑战。大语言模型的出现为解决这些问题提供了新的思路。

二、传统ML的三大局限与大模型突破

2.1 特征工程依赖

收货地址、邮箱、商品描述这些字段,传统模型无法直接处理,必须人工编码。风控分析师需要把这些非结构化文本转化为固定维度的结构化特征——比如把收货地址解析成"省市区"、“是否与注册地址一致"等标签。这个过程耗时、高度依赖专家经验,而且每次规则迭代都要重来一遍。

大模型可以直接理解混杂特征。原始交易文本、设备信息、地址序列、商户描述——这些非结构化或半结构化的数据,大模型可以直接读取并理解其语义关联,无需人工提纯为固定维度的结构化向量。

风控领域有大量规则、黑名单、专家经验,这些知识难以全部编码进传统模型的特征空间。每次规则迭代都需要重新训练模型,周期长、成本高。大模型通过领域增强提示词直接融合这些知识,无需重新训练模型,提示词即可实时更新。

本质差异:传统模型的知识融合是"离线训练”,大模型的知识融合是"在线注入"。

2.2 文本的语义盲区

即使做了特征工程,传统模型对文本语义的理解仍然有限。像"shipping address和billing address语义不一致"这类模式,传统的特征编码很难捕捉。收货地址和账单地址跨省、跨城市——这些语义差异,传统模型只能靠人工设计的交叉特征来处理,覆盖面有限。

大模型可以绕过特征工程,直接用文本进行推理。把原始JSON交易数据直接文本化喂给LLM,包含买家信息、IP、支付卡信息、收货地址和历史关联订单,模型自己从文本里找风险信号。

本质差异:传统模型学习"样本分布",大模型学习"语义正常性"。

2.3 黑盒不可解释

深层神经网络或聚合特征切断了原始输入和预测之间的连接。模型给出一个风险分数,但说不清楚"为什么"。业务团队拿到SHAP值,知道"特征X贡献了0.3",但不知道这个数字背后的业务逻辑。审核人员无法追问、无法复核、无法理解。

大模型可输出完整自然语言推理链。这种解释清晰、业务团队可以直接使用,无需经过二次解读。审核人员可以直接看到"收货地址与账单地址语义差异大,IP来自高风险地区 → Risk:High"。

当模型给出错误的决策时,业务人员可以通过追问推理链来定位问题——是特征理解偏差?还是规则冲突?还是样本噪声?这种追问能力是传统模型的黑盒输出无法提供的。

2.4 样本不平衡

欺诈样本在全部交易中占比极低,通常低于0.1%。传统模型以样本频率为学习信号,容易被海量正常样本主导,对少数欺诈模式的召回率显著下降。采样策略虽能缓解问题,但会引入人工偏差。

大模型依托语义理解与常识推理。欺诈模式在语义层面的特征不需要大量样本才能被识别。大模型可以从语义组合中推断异常,而非单纯依赖样本统计。

三、方法论:GSPO 与 Rule-Based Reward

香港科技大学、香港城市大学与帝国理工学院联合发表的论文提出了具体落地路径:用 GSPO(Group Sequence Policy Optimization)配合 Rule-Based Reward,让模型只学最终标签,自己从文本化的交易数据里找风险信号。

传统监督微调需要标注"欺诈原因",比如地址不一致、IP异常。大模型要从这些原因和标签的关系里学规律。而 GSPO 不需要标注原因,只需知道订单是欺诈还是合法。

奖励函数设计:

  • Accuracy Reward(权重2.5倍):预测正确给奖励
  • Format Reward:强制先输出<reason>再输出<risk>,确保可解释结构

GSPO vs GRPO 的关键差异:

GRPO 给每个 token 单独加权,模型可能为了凑权重反复强调"IP异常,IP异常"。GSPO 用序列级权重,把整个交易文本当作整体计算奖励,模型会更专注生成关键信息,保持推理简洁。

四、三个反直觉的实验发现

4.1 小模型微调后 » 大模型零样本

模型 F1 分数
Claude-4.5-Sonnet(零样本) 0.1503
GPT-5-mini(零样本) 0.1461
Qwen3-14B(GSPO微调后) 0.3467
Qwen3-8B(GSPO微调后) 0.3598

原因是大模型能识别"IP是代理节点"这个信号,但不知道在当前业务里这个信号多少算高风险——这就是"校准差距"。通用大模型零样本做风控判断,基本是瞎判。

4.2 探索自由度决定 RL 上限

探索方式 F1 提升幅度
压缩(预定义信号) +5.73%
开放探索 +98.35%

差了17倍。预定义信号等于给模型套上枷锁,RL的核心价值是探索人类专家没想到的隐式信号组合。

4.3 越大越会骗人

Qwen3-14B 比 8B 更聪明,更擅长编造听起来合理的理由来获取奖励。RL微调后,14B的幻觉通过率暴跌46.7个百分点,而4B/8B基本维持不变。

高风险场景选型警示:大模型解释可读性强,但不一定可信。14B以上慎上生产。

五、适用场景与局限

大模型在以下场景具有显著优势:规则迭代频繁的电诈场景、样本稀缺的罕见欺诈类型、需要业务人员理解和复核决策的高风险场景、需要向业务方解释策略逻辑的场景。

但也存在局限:延时敏感的实时决策(毫秒级要求)、对计算资源的极高要求、幻觉风险(大模型可能生成看似合理但错误的推理)。

六、结论

大模型为支付风控带来了从"统计学习"到"语义推理"的范式转变。三大核心突破——直接理解文本语义、绕过特征工程、输出可解释推理链——对应了传统模型在电诈场景下的三大天花板。

落地方法上,GSPO + Rule-Based Reward 提供了一条不需要标注原因、只靠最终标签让模型自主探索风险信号的路径。但要注意校准差距、探索自由度、模型规模三个坑——不是越大越好,不是零样本直接能用,不是探索越受限越安全。

参考文献

Zhang, M., & Xu, Y. (2026). TransMode-LLM: Feature-informed natural language modeling with domain-enhanced prompting for travel behavior modeling. arXiv preprint arXiv:2601.13763. https://arxiv.org/abs/2601.13763

Ma, Z., Chen, H., & Liu, J. (2026). Reinforcement Learning of LLMs for Interpretable Credit Card Fraud Detection. Hong Kong University of Science and Technology, Hong Kong Baptist University, Imperial College London. arXiv preprint arXiv:2601.05578.