2 min read

LLM:低数据场景的决策树生成

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:分层抽样与模型提升空间测算方案 2024-09-12
6 LLM:SFT 与 RL 的关系 2025-07-29
7 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
8 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
9 LLM:表格数据特征工程 2025-08-03
10 LLM:撰写大模型落地提示词的关键 2025-08-27
11 LLM:从 Prompt 设计到工作流落地 2025-08-28
12 LLM:RL's Razor 抗遗忘 2025-09-04
13 LLM:RL's Razor 抗遗忘(2) 2025-09-04
14 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
15 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
16 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
17 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
18 LLM:幻觉成因与解决 2025-09-08
19 LLM:Agent 逻辑与应用场景 2025-09-23
20 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
21 LLM:近似on-policy数据抗遗忘 2025-10-21
22 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
23 LLM:幻觉治理 2025-10-28
24 LLM:分层落地 2025-11-13
25 LLM:特征名使用:变量名带偏判断 2025-11-13
26 LLM:特征名使用:变量名带偏判断(2)分层分析应对 2025-11-13
27 LLM:特征名使用与实验效度的场景化适配 2025-11-13
28 LLM:零样本在金融场景落地 2025-11-13
29 LLM:跨难度泛化的局限与量化 2025-11-26
30 LLM:概率引导的高价值信号筛选 2026-01-14
31 LLM:定性编码的假阳性解决方案 2026-01-16

从传统机器学习依赖数据标注的数据驱动,到大型语言模型(LLM)利用先验知识的知识驱动,机器学习领域正经历一场针对低数据场景的关键革新。Knauer等人(2025)提出的零样本决策树诱导与嵌入方案,正是这场革新中针对性解决数据稀缺痛点的重要探索,为医疗、小众领域等数据难获取场景提供了全新技术路径。

一、历史背景:低数据场景的长期困境与技术演进

传统机器学习(包括决策树这类可解释模型)长期受限于数据稀薄特性(Knauer et al., 2025)。在2010年代至2020年代初,研究者们主要依赖数据扩充、迁移学习等方法缓解数据不足问题,但这些方案仍需一定规模的源数据或标注样本,难以适配罕见病诊断、小众行业预测等极端低数据场景。

2020年后,LLM的爆发式发展带来新可能——这类模型通过海量文本预训练,压缩了大量世界知识,具备在无训练数据下完成特定任务的潜力。但早期LLM在结构化数据建模中存在两大瓶颈:一是决策过程黑箱化,缺乏可解释性;二是专有模型的权重访问限制,导致敏感数据(如医疗数据)无法直接使用。此前相关研究多聚焦LLM辅助特征生成(Nam et al., 2024),尚未实现直接生成完整可解释模型,而Knauer等人的研究填补了这一空白。

二、核心研究:零样本决策树的生成与应用逻辑

1. 研究背景

传统机器学习模型(含决策树)需大量标注数据支撑训练,医疗等领域常因罕见病、高失访率导致数据稀缺,建模难度极大。LLM虽存储海量先验知识,却存在决策不可解释、敏感数据使用受限的问题,限制了其在低数据场景的落地。

2. 核心贡献

  • 零样本决策树诱导:无需训练数据和LLM预训练权重,直接生成可解释决策树T,天然规避数据隐私泄露风险。

  • 零样本决策树嵌入:将决策树转化为二进制特征向量,为下游模型注入LLM的先验知识,提升建模效果。

  • 基准确立:在13个公共数据集(来自PMLB,样本量≤500)和2个私有医疗数据集(前交叉韧带损伤、创伤后疼痛预后)中验证,建立低数据场景的知识驱动基准。

3. 关键方法

  • 诱导机制:通过提示模板引导LLM,输入预测目标p、决策树最大深度d、特征集合f=[f₁,…,fₖ],生成映射关系φ(p, f₁,…,fₖ, d) ↦ T。提示模板包含任务描述、鸢尾花数据集示例、特征名(标注单位或类别),确保LLM理解输出格式。

  • 嵌入转换:采用知识蒸馏生成多棵决策树组成森林(T₁,…,Tₘ),通过χₙ: 𝒯ₙ ×ℝˣ → {0,1}ⁿ将单棵树的内部节点真值转化为二进制向量,最终通过χ: 𝒯ₙ₁ ×… ×𝒯ₙₘ ×ℝˣ →{0,1}ⁿ¹⁺⋯⁺ⁿₘ 拼接为最终嵌入。

  • 输出格式化:生成文本格式(供领域专家解读)和Python函数格式(供下游建模流水线调用),兼顾可解释性与实用性。

4. 实验关键信息

  • 所用LLM:GPT-4o、Claude 3.5 Sonnet(Anthropic)、Gemini 1.5 Pro(Google)、GPT-o1(OpenAI)。

  • 评估指标:测试F1分数(多类别宏平均)、平衡准确率,采用67%/33%的训练/测试数据分割,重复5次以降低随机性影响。

  • 核心结果:27%的数据集上,零样本决策树性能超过传统数据驱动决策树(如最优分类树OCTs);Gemini 1.5 Pro生成的嵌入效果最优,部分数据集F1分数最大提升0.32,且统计上显著优于数据驱动树嵌入。

5. 核心提示词模板

研究中使用的零样本决策树诱导提示词模板如下(Knauer et al., 2025, Listing 1):


[User]

I want you to induce a decision tree classifier based on features. I first give an example below. Then, I provide you with new features and want you to build a decision tree with a maximum depth of d using the most important features. The tree should classify p.

Features:

sepal length (cm), sepal width (cm), petal length (cm), petal width (cm)

Decision tree:

|- petal width (cm) <= 0.80
|   |- class: setosa
|- petal width (cm) > 0.80
|   |- petal width (cm) <= 1.75
|   |   |- class: versicolor
|   |- petal width (cm) > 1.75
|   |   |- class: virginica

Features:
f_1, ..., f_k

Decision tree:

模板中,d为决策树最大深度(默认设为2),p为预测目标,f₁,…,fₖ为特征名(需标注计量单位或类别值)。

三、研究意义与落地价值

该研究的核心价值在于解决低数据场景的建模困境——无需标注数据即可生成可解释、隐私保护的模型,尤其适配医疗等对数据隐私和可解释性要求极高的领域。例如在ACL损伤(前交叉韧带损伤)预后预测中,GPT-4o生成的零样本决策树F1分数达0.83,超过数据驱动树的0.67(Knauer et al., 2025)。

代码已开源(https://github.com/ml-lab-htw/llm-trees),为研究者和实践者提供了直接可用的工具。未来,该方案可进一步优化提示模板设计,结合少量训练数据迭代提升模型性能,或扩展至回归等更多任务类型。

参考文献

  1. Knauer, R., Koddenbrock, M., Duda, G. N., Brisson, N. M., Wallsberger, R., Falla, D., Evans, D. W., & Rodner, E. (2025). Oh LLM, I’m Asking Thee, Please Give Me a Decision Tree: Zero-Shot Decision Tree Induction and Embedding with Large Language Models. In Proceedings of the 31st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’25). ACM. https://doi.org/10.1145/3711896.3736818

  2. Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning. Advances in Neural Information Processing Systems, 37. https://doi.org/10.48550/arXiv.2406.08527

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:分层抽样与模型提升空间测算方案 2024-09-12
6 LLM:SFT 与 RL 的关系 2025-07-29
7 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
8 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
9 LLM:表格数据特征工程 2025-08-03
10 LLM:撰写大模型落地提示词的关键 2025-08-27
11 LLM:从 Prompt 设计到工作流落地 2025-08-28
12 LLM:RL's Razor 抗遗忘 2025-09-04
13 LLM:RL's Razor 抗遗忘(2) 2025-09-04
14 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
15 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
16 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
17 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
18 LLM:幻觉成因与解决 2025-09-08
19 LLM:Agent 逻辑与应用场景 2025-09-23
20 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
21 LLM:近似on-policy数据抗遗忘 2025-10-21
22 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
23 LLM:幻觉治理 2025-10-28
24 LLM:分层落地 2025-11-13
25 LLM:特征名使用:变量名带偏判断 2025-11-13
26 LLM:特征名使用:变量名带偏判断(2)分层分析应对 2025-11-13
27 LLM:特征名使用与实验效度的场景化适配 2025-11-13
28 LLM:零样本在金融场景落地 2025-11-13
29 LLM:跨难度泛化的局限与量化 2025-11-26
30 LLM:概率引导的高价值信号筛选 2026-01-14
31 LLM:定性编码的假阳性解决方案 2026-01-16