支付风控：大模型如何突破传统ML的三大天花板

一、背景

支付风控长期依赖传统机器学习模型（如XGBoost、LR）进行欺诈检测。这些模型在样本充足、特征稳定的环境下表现良好。然而，电诈场景的特殊性使得传统模型面临多重挑战。大语言模型的出现为解决这些问题提供了新的思路。

二、传统ML的三大局限与大模型突破

2.1 特征工程依赖

收货地址、邮箱、商品描述这些字段，传统模型无法直接处理，必须人工编码。风控分析师需要把这些非结构化文本转化为固定维度的结构化特征——比如把收货地址解析成"省市区"、“是否与注册地址一致"等标签。这个过程耗时、高度依赖专家经验，而且每次规则迭代都要重来一遍。

大模型可以直接理解混杂特征。原始交易文本、设备信息、地址序列、商户描述——这些非结构化或半结构化的数据，大模型可以直接读取并理解其语义关联，无需人工提纯为固定维度的结构化向量。

风控领域有大量规则、黑名单、专家经验，这些知识难以全部编码进传统模型的特征空间。每次规则迭代都需要重新训练模型，周期长、成本高。大模型通过领域增强提示词直接融合这些知识，无需重新训练模型，提示词即可实时更新。

本质差异：传统模型的知识融合是"离线训练”，大模型的知识融合是"在线注入"。

2.2 文本的语义盲区

即使做了特征工程，传统模型对文本语义的理解仍然有限。像"shipping address和billing address语义不一致"这类模式，传统的特征编码很难捕捉。收货地址和账单地址跨省、跨城市——这些语义差异，传统模型只能靠人工设计的交叉特征来处理，覆盖面有限。

大模型可以绕过特征工程，直接用文本进行推理。把原始JSON交易数据直接文本化喂给LLM，包含买家信息、IP、支付卡信息、收货地址和历史关联订单，模型自己从文本里找风险信号。

本质差异：传统模型学习"样本分布"，大模型学习"语义正常性"。

2.3 黑盒不可解释

深层神经网络或聚合特征切断了原始输入和预测之间的连接。模型给出一个风险分数，但说不清楚"为什么"。业务团队拿到SHAP值，知道"特征X贡献了0.3"，但不知道这个数字背后的业务逻辑。审核人员无法追问、无法复核、无法理解。

大模型可输出完整自然语言推理链。这种解释清晰、业务团队可以直接使用，无需经过二次解读。审核人员可以直接看到"收货地址与账单地址语义差异大，IP来自高风险地区 → Risk：High"。

当模型给出错误的决策时，业务人员可以通过追问推理链来定位问题——是特征理解偏差？还是规则冲突？还是样本噪声？这种追问能力是传统模型的黑盒输出无法提供的。

2.4 样本不平衡

欺诈样本在全部交易中占比极低，通常低于0.1%。传统模型以样本频率为学习信号，容易被海量正常样本主导，对少数欺诈模式的召回率显著下降。采样策略虽能缓解问题，但会引入人工偏差。

大模型依托语义理解与常识推理。欺诈模式在语义层面的特征不需要大量样本才能被识别。大模型可以从语义组合中推断异常，而非单纯依赖样本统计。

三、方法论：GSPO 与 Rule-Based Reward

香港科技大学、香港城市大学与帝国理工学院联合发表的论文提出了具体落地路径：用 GSPO（Group Sequence Policy Optimization）配合 Rule-Based Reward，让模型只学最终标签，自己从文本化的交易数据里找风险信号。

传统监督微调需要标注"欺诈原因"，比如地址不一致、IP异常。大模型要从这些原因和标签的关系里学规律。而 GSPO 不需要标注原因，只需知道订单是欺诈还是合法。

奖励函数设计：

Accuracy Reward（权重2.5倍）：预测正确给奖励
Format Reward：强制先输出<reason>再输出<risk>，确保可解释结构

GSPO vs GRPO 的关键差异：

GRPO 给每个 token 单独加权，模型可能为了凑权重反复强调"IP异常，IP异常"。GSPO 用序列级权重，把整个交易文本当作整体计算奖励，模型会更专注生成关键信息，保持推理简洁。

四、三个反直觉的实验发现

4.1 小模型微调后 » 大模型零样本

模型	F1 分数
Claude-4.5-Sonnet（零样本）	0.1503
GPT-5-mini（零样本）	0.1461
Qwen3-14B（GSPO微调后）	0.3467
Qwen3-8B（GSPO微调后）	0.3598

原因是大模型能识别"IP是代理节点"这个信号，但不知道在当前业务里这个信号多少算高风险——这就是"校准差距"。通用大模型零样本做风控判断，基本是瞎判。

4.2 探索自由度决定 RL 上限

探索方式	F1 提升幅度
压缩（预定义信号）	+5.73%
开放探索	+98.35%

差了17倍。预定义信号等于给模型套上枷锁，RL的核心价值是探索人类专家没想到的隐式信号组合。

4.3 越大越会骗人

Qwen3-14B 比 8B 更聪明，更擅长编造听起来合理的理由来获取奖励。RL微调后，14B的幻觉通过率暴跌46.7个百分点，而4B/8B基本维持不变。

高风险场景选型警示：大模型解释可读性强，但不一定可信。14B以上慎上生产。

五、适用场景与局限

大模型在以下场景具有显著优势：规则迭代频繁的电诈场景、样本稀缺的罕见欺诈类型、需要业务人员理解和复核决策的高风险场景、需要向业务方解释策略逻辑的场景。

但也存在局限：延时敏感的实时决策（毫秒级要求）、对计算资源的极高要求、幻觉风险（大模型可能生成看似合理但错误的推理）。

六、结论

大模型为支付风控带来了从"统计学习"到"语义推理"的范式转变。三大核心突破——直接理解文本语义、绕过特征工程、输出可解释推理链——对应了传统模型在电诈场景下的三大天花板。

落地方法上，GSPO + Rule-Based Reward 提供了一条不需要标注原因、只靠最终标签让模型自主探索风险信号的路径。但要注意校准差距、探索自由度、模型规模三个坑——不是越大越好，不是零样本直接能用，不是探索越受限越安全。

参考文献

Zhang, M., & Xu, Y. (2026). TransMode-LLM: Feature-informed natural language modeling with domain-enhanced prompting for travel behavior modeling. arXiv preprint arXiv:2601.13763. https://arxiv.org/abs/2601.13763

Ma, Z., Chen, H., & Liu, J. (2026). Reinforcement Learning of LLMs for Interpretable Credit Card Fraud Detection. Hong Kong University of Science and Technology, Hong Kong Baptist University, Imperial College London. arXiv preprint arXiv:2601.05578.

支付风控：大模型如何突破传统ML的三大天花板

支付风控系列导航

一、背景

二、传统ML的三大局限与大模型突破

2.1 特征工程依赖

2.2 文本的语义盲区

2.3 黑盒不可解释

2.4 样本不平衡

三、方法论：GSPO 与 Rule-Based Reward

四、三个反直觉的实验发现

4.1 小模型微调后 » 大模型零样本

4.2 探索自由度决定 RL 上限

4.3 越大越会骗人

五、适用场景与局限

六、结论

参考文献

支付风控系列导航

支付风控：大模型如何突破传统ML的三大天花板

支付风控 系列导航

一、背景

二、传统ML的三大局限与大模型突破

2.1 特征工程依赖

2.2 文本的语义盲区

2.3 黑盒不可解释

2.4 样本不平衡

三、方法论：GSPO 与 Rule-Based Reward

四、三个反直觉的实验发现

4.1 小模型微调后 » 大模型零样本

4.2 探索自由度决定 RL 上限

4.3 越大越会骗人

五、适用场景与局限

六、结论

参考文献

支付风控 系列导航

支付风控系列导航

支付风控系列导航