1 min read

LLM:表格数据特征工程(3)落地冷启动

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills 核心差异 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24

从上一篇对LLM零样本决策树技术范式的解读,到对风控冷启动场景的讨论,我们发现:低数据场景的核心矛盾,从来不是有没有模型可用,而是模型能不能落地、效果能不能验证。LLM零样本决策树在医疗领域的成功验证,为风控冷启动提供了可复用的落地逻辑,但从技术到实操,还需要解决场景适配、风险可控、效果可迭代三个关键问题。

一、风控冷启动

主观策略上线,是风控冷启动的普遍现状:新业务上线(如海外开城、新用户借贷)时,黑样本不足100条、交易数据仅数百条,风控人员只能基于经验制定“注册时长<7天拦截”“单笔金额>xxx元3DS验证”等简单规则。这种方式的核心问题的是:

  • 规则颗粒度粗:要么漏拦高风险交易(如注册x天的诈骗交易),要么误拦正常用户(如正常大额交易);

  • 迭代周期长:需等待数周积累数据才能优化,期间可能产生可观的风险损失;

  • 外部数据依赖:第三方风控评分成本高、适配性差(如通用评分无法覆盖细分场景风险)。

而LLM零样本决策树的核心价值,正是用知识驱动替代经验驱动,通过特征说明生成符合风控逻辑的结构化规则,且规则可解释(如“跨设备登录+单日交易频次>x笔+注册时长<xx天 → 高风险”),解决没方向的痛点。

二、落地关键

基于论文原理,LLM零样本决策树在风控落地需满足以下条件,才能避免技术好看、落地无用:

1. 特征命名+定义:给LLM讲懂风控逻辑

论文反复强调特征名需具备信息量,在风控场景中,这不仅是命名问题,更是让LLM理解风险关联的前提。例如:

  • 无效命名:“f3”“变量5”(LLM无法关联风险含义);
  • 有效命名:“注册时长(天)”“单日跨地域交易次数”“设备指纹匹配度(0-100)”(明确维度+单位/范围);
  • 额外要求:补充特征定义(如“设备指纹匹配度:当前交易设备与历史常用设备的匹配概率,100为完全匹配”),让LLM精准捕捉风险因子关联。
2. 私有数据验证:避免公开数据幻觉

论文担心大模型见过公开数据集导致性能高估,这在风控场景中更需警惕,公开风控数据集(如Kaggle的信用卡欺诈数据)与企业私有数据(如特定行业的交易模式、诈骗手段)差异大。因此:

  • 落地第一步:用私有小样本数据验证(如500条内部交易数据),对比LLM生成决策树与人工规则的拦截率、误判率;
  • 核心验证指标:在无黑样本的情况下,重点看规则覆盖率(覆盖潜在风险场景的比例)和可解释性(规则是否符合风控常识),而非单纯追求准确率。
3. 价值落地:既用规则,也用嵌入
  • 短期落地:直接使用文本解析的决策树作为上线规则,快速搭建风控基线(如拦截高风险场景,减少初期损失);
  • 长期迭代:将决策树转化为二进制嵌入特征,与后续积累的交易数据结合,训练下游MLP或XGBoost模型,解决冷启动到热启动的过渡问题,让模型随数据积累持续优化。

三、这些情况不适合用LLM零样本方案

技术有优势,但非万能。以下场景需谨慎使用LLM零样本决策树:

  • 特征无明确语义:如加密后的设备ID、无说明的编码变量(如“channel=3”未说明3代表什么渠道);

  • 高敏感数据场景:若特征包含用户隐私信息(如身份证号、手机号),需先脱敏,且避免将敏感信息传入LLM(论文方案天然无需上传训练数据,仅传入特征名和说明,符合隐私要求);

  • 极端低特征场景:特征数量<3个且无明确关联(如仅“交易金额”“交易时间”),LLM难以生成有效规则。

结语

LLM零样本决策树的核心贡献,不是创造了无数据建模的工具,而是为低数据场景提供了结构化、可解释、可迭代的新路径。在风控冷启动中,它不是要替代人工经验,而是用预训练的领域知识放大人工经验的效果,让风控人员从拍脑袋定规则,转变为基于LLM生成的规则做微调,大幅缩短冷启动周期。

正如论文中私有医疗数据的验证结果所示,当技术脱离公开数据集跑分,落地到真实的、未被LLM见过的私有场景时,其性能才是真正的价值所在。对于风控从业者而言,不妨从小场景试点开始:选择一个新上线的业务线,用3-5个明确命名的特征,尝试让LLM生成决策树,对比传统人工规则的效果,这或许就是低数据场景建模的最小可行路径。

参考文献

Knauer, R., Koddenbrock, M., Duda, G. N., Brisson, N. M., Wallsberger, R., Falla, D., Evans, D. W., & Rodner, E. (2025). Oh LLM, I’m Asking Thee, Please Give Me a Decision Tree: Zero-Shot Decision Tree Induction and Embedding with Large Language Models. In Proceedings of the 31st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’25). ACM. https://doi.org/10.1145/3711896.3736818

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills 核心差异 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24