LLM：表格数据特征工程（3）落地冷启动

从上一篇对LLM零样本决策树技术范式的解读，到对风控冷启动场景的讨论，我们发现：低数据场景的核心矛盾，从来不是有没有模型可用，而是模型能不能落地、效果能不能验证。LLM零样本决策树在医疗领域的成功验证，为风控冷启动提供了可复用的落地逻辑，但从技术到实操，还需要解决场景适配、风险可控、效果可迭代三个关键问题。

一、风控冷启动

主观策略上线，是风控冷启动的普遍现状：新业务上线（如海外开城、新用户借贷）时，黑样本不足100条、交易数据仅数百条，风控人员只能基于经验制定“注册时长<7天拦截”“单笔金额>xxx元3DS验证”等简单规则。这种方式的核心问题的是：

规则颗粒度粗：要么漏拦高风险交易（如注册x天的诈骗交易），要么误拦正常用户（如正常大额交易）；
迭代周期长：需等待数周积累数据才能优化，期间可能产生可观的风险损失；
外部数据依赖：第三方风控评分成本高、适配性差（如通用评分无法覆盖细分场景风险）。

而LLM零样本决策树的核心价值，正是用知识驱动替代经验驱动，通过特征说明生成符合风控逻辑的结构化规则，且规则可解释（如“跨设备登录+单日交易频次>x笔+注册时长<xx天 → 高风险”），解决没方向的痛点。

二、落地关键

基于论文原理，LLM零样本决策树在风控落地需满足以下条件，才能避免技术好看、落地无用：

1. 特征命名+定义：给LLM讲懂风控逻辑

论文反复强调特征名需具备信息量，在风控场景中，这不仅是命名问题，更是让LLM理解风险关联的前提。例如：

无效命名：“f3”“变量5”（LLM无法关联风险含义）；
有效命名：“注册时长（天）”“单日跨地域交易次数”“设备指纹匹配度（0-100）”（明确维度+单位/范围）；
额外要求：补充特征定义（如“设备指纹匹配度：当前交易设备与历史常用设备的匹配概率，100为完全匹配”），让LLM精准捕捉风险因子关联。

2. 私有数据验证：避免公开数据幻觉

论文担心大模型见过公开数据集导致性能高估，这在风控场景中更需警惕，公开风控数据集（如Kaggle的信用卡欺诈数据）与企业私有数据（如特定行业的交易模式、诈骗手段）差异大。因此：

落地第一步：用私有小样本数据验证（如500条内部交易数据），对比LLM生成决策树与人工规则的拦截率、误判率；
核心验证指标：在无黑样本的情况下，重点看规则覆盖率（覆盖潜在风险场景的比例）和可解释性（规则是否符合风控常识），而非单纯追求准确率。

3. 价值落地：既用规则，也用嵌入

短期落地：直接使用文本解析的决策树作为上线规则，快速搭建风控基线（如拦截高风险场景，减少初期损失）；
长期迭代：将决策树转化为二进制嵌入特征，与后续积累的交易数据结合，训练下游MLP或XGBoost模型，解决冷启动到热启动的过渡问题，让模型随数据积累持续优化。

三、这些情况不适合用LLM零样本方案

技术有优势，但非万能。以下场景需谨慎使用LLM零样本决策树：

特征无明确语义：如加密后的设备ID、无说明的编码变量（如“channel=3”未说明3代表什么渠道）；
高敏感数据场景：若特征包含用户隐私信息（如身份证号、手机号），需先脱敏，且避免将敏感信息传入LLM（论文方案天然无需上传训练数据，仅传入特征名和说明，符合隐私要求）；
极端低特征场景：特征数量<3个且无明确关联（如仅“交易金额”“交易时间”），LLM难以生成有效规则。

结语

LLM零样本决策树的核心贡献，不是创造了无数据建模的工具，而是为低数据场景提供了结构化、可解释、可迭代的新路径。在风控冷启动中，它不是要替代人工经验，而是用预训练的领域知识放大人工经验的效果，让风控人员从拍脑袋定规则，转变为基于LLM生成的规则做微调，大幅缩短冷启动周期。

正如论文中私有医疗数据的验证结果所示，当技术脱离公开数据集跑分，落地到真实的、未被LLM见过的私有场景时，其性能才是真正的价值所在。对于风控从业者而言，不妨从小场景试点开始：选择一个新上线的业务线，用3-5个明确命名的特征，尝试让LLM生成决策树，对比传统人工规则的效果，这或许就是低数据场景建模的最小可行路径。

参考文献

Knauer, R., Koddenbrock, M., Duda, G. N., Brisson, N. M., Wallsberger, R., Falla, D., Evans, D. W., & Rodner, E. (2025). Oh LLM, I’m Asking Thee, Please Give Me a Decision Tree: Zero-Shot Decision Tree Induction and Embedding with Large Language Models. In Proceedings of the 31st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’25). ACM. https://doi.org/10.1145/3711896.3736818