1 min read

LLM:零样本在金融场景落地

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:分层抽样与模型提升空间测算方案 2024-09-12
6 LLM:SFT 与 RL 的关系 2025-07-29
7 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
8 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
9 LLM:低数据场景的决策树生成 2025-08-03
10 LLM:表格数据特征工程 2025-08-03
11 LLM:撰写大模型落地提示词的关键 2025-08-27
12 LLM:从 Prompt 设计到工作流落地 2025-08-28
13 LLM:RL's Razor 抗遗忘 2025-09-04
14 LLM:RL's Razor 抗遗忘(2) 2025-09-04
15 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
16 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
17 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
18 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
19 LLM:幻觉成因与解决 2025-09-08
20 LLM:Agent 逻辑与应用场景 2025-09-23
21 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
22 LLM:近似on-policy数据抗遗忘 2025-10-21
23 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
24 LLM:幻觉治理 2025-10-28
25 LLM:分层落地 2025-11-13
26 LLM:特征名使用:变量名带偏判断 2025-11-13
27 LLM:特征名使用:变量名带偏判断(2)分层分析应对 2025-11-13
28 LLM:特征名使用与实验效度的场景化适配 2025-11-13
29 LLM:跨难度泛化的局限与量化 2025-11-26
30 LLM:概率引导的高价值信号筛选 2026-01-14
31 LLM:定性编码的假阳性解决方案 2026-01-16

零样本LLM因无需目标场景样本即可推理的特性,成为冷启动业务、跨域适配等场景的选择。但近期讨论中,其定义、适用范围存在认知偏差。本文结厘清零样本学习的核心逻辑。

一、核心定义与常见误区

(一)零样本学习的准确定义

零样本学习(Zero-Shot Learning)的核心定义是:在推理阶段,不依赖目标场景/类别的任何样本输入,仅通过预训练知识、跨域迁移或任务描述完成判断

举个金融场景的典型例子:无历史用户数据(冷启动),此时用训练过通用信贷数据的LLM,直接通过新业务线商家的经营描述、资质材料判断风险等级——这才是零样本学习的核心应用:目标场景(商家)无任何样本,依赖模型的跨域知识完成推理。

(二)常见的3个误区

  1. 误区1:零样本是小样本的附属场景纠正:零样本与小样本是并列关系,核心差异在于目标场景样本量——零样本是“0样本”,小样本是“少量样本(通常10-100个)”,如RAG,二者无依附关系。零样本解决“无数据可用”,小样本解决“数据不足”,适用场景完全不同。

  2. 误区2:同任务不同客群直接复用模型是零样本纠正:如正常用户训练的信用A卡直接用于导流用户,本质是域适应问题(客群分布不同,但任务都是信贷风险判断),而非零样本。零样本的核心是目标类别/场景未见过,而非客群分布差异。

  3. 误区3:零样本能生成新模型纠正:零样本不是造新模型,而是用现有预训练模型(如LLM)做无目标样本推理。模型本身未变,只是推理时不依赖目标场景样本,输出的是高于随机猜测的初步判断(如论文中零样本LLM的平均ROC-AUC 0.526-0.637),而非高精度可用模型。

二、适用边界

(一)适用场景:解决无数据可用的问题

  1. 业务冷启动:新信贷产品、新保险险种上线,无历史数据支撑传统模型(如评分卡),用零样本LLM做初步客群筛选,识别潜在低风险用户,为业务启动提供基础。

  2. 边缘客群初判:小模型(如LightGBM)KS值低(<0.1)、无法精准判断的模糊客群(如无明确信贷记录的职业难识别,如自由职业者),用零样本LLM结合非结构化数据(如职业描述)做初步分类。

  3. 低风险试错:营销场景的客群分层(如判断用户是否对某信贷产品感兴趣),低成本试错,无需严格风险控制。

(二)高风险场景谨慎使用

  1. 核心决策场景:信贷批核、保险核保、反洗钱判定等涉及本金损失、合规风险的场景,零样本LLM解释性不稳定(自解释与SHAP值一致性最高仅57.2%)、结果稳定性差,不可独立决策。

  2. 替代传统主轴模型:零样本LLM的分类性能远不及小模型(如LightGBM的KS值通常>0.3),且特征影响方向与小模型差异达50%-60%(AlMarri et al., 2025),无法替代评分卡、XGB等成熟模型。

三、落地

第一步:先做场景分层,明确是否需要零样本LLM

落地前先回答两个问题:

  • 目标场景是否无任何历史数据?(是→进入零样本评估)

  • 场景是否为高风险核心决策?(否→进入零样本评估)

若目标场景有少量数据(可做小样本)或为高风险决策,直接放弃零样本,选择小样本微调或传统模型。

第二步:零样本仅做前置筛选,不做最终判断

零样本的核心价值是缩小人工/小模型的处理范围,而非直接输出结论:

  • 信贷冷启动:用零样本LLM筛选出低风险候选客群(如模型判断风险等级A/B级),再由人工复核资质,最终决定是否授信;

  • 保险新客准入:零样本LLM初步排除高风险明显客群(如模型判断职业为高危且无健康推断信息),剩余客群交由小模型+人工审核。

第三步:快速迭代,向小样本/传统模型过渡

零样本是过渡方案,而非长期方案:

  • 积累目标场景样本:将零样本筛选后的客群数据(含后续表现,如是否逾期、是否赔付)沉淀为标注数据;

  • 快速切换至小样本/传统模型:当样本量达到100+,用小样本微调LLM或搭建传统模型(如评分卡),替代零样本方案,提升准确性与可解释性。

结语

零样本LLM在金融领域的价值,不在于替代传统模型,而在于解决无数据可用的问题。其本质是一种过渡性工具,而非长期解决方案——正如AlMarri等学者的研究所示,零样本LLM的性能与可解释性均无法满足金融核心场景的要求(AlMarri et al., 2025)。

对从业者而言,需避免两种情况:既不因无需样本的便利性而盲目批量落地,也不因性能有限而全盘否定;而是以场景分层为前提,以辅助筛选为定位,以快速迭代为目标,让零样本LLM成为金融业务冷启动的解决方案。

参考文献

  1. AlMarri, S., Ravaut, M., Juhasz, K., Marti, G., Al Ahbabi, H., & Elfadel, I. (2025). Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification. arXiv preprint arXiv:2512.00163.

  2. Couch, S., & Altman, S. (2025, November 13). Introducing Bluffbench. Posit. https://posit.co/blog/introducing-bluffbench/

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:分层抽样与模型提升空间测算方案 2024-09-12
6 LLM:SFT 与 RL 的关系 2025-07-29
7 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
8 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
9 LLM:低数据场景的决策树生成 2025-08-03
10 LLM:表格数据特征工程 2025-08-03
11 LLM:撰写大模型落地提示词的关键 2025-08-27
12 LLM:从 Prompt 设计到工作流落地 2025-08-28
13 LLM:RL's Razor 抗遗忘 2025-09-04
14 LLM:RL's Razor 抗遗忘(2) 2025-09-04
15 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
16 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
17 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
18 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
19 LLM:幻觉成因与解决 2025-09-08
20 LLM:Agent 逻辑与应用场景 2025-09-23
21 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
22 LLM:近似on-policy数据抗遗忘 2025-10-21
23 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
24 LLM:幻觉治理 2025-10-28
25 LLM:分层落地 2025-11-13
26 LLM:特征名使用:变量名带偏判断 2025-11-13
27 LLM:特征名使用:变量名带偏判断(2)分层分析应对 2025-11-13
28 LLM:特征名使用与实验效度的场景化适配 2025-11-13
29 LLM:跨难度泛化的局限与量化 2025-11-26
30 LLM:概率引导的高价值信号筛选 2026-01-14
31 LLM:定性编码的假阳性解决方案 2026-01-16