从传统机器学习依赖数据标注的数据驱动,到大型语言模型(LLM)利用先验知识的知识驱动,机器学习领域正经历一场针对低数据场景的关键革新。Knauer等人(2025)提出的零样本决策树诱导与嵌入方案,正是这场革新中针对性解决数据稀缺痛点的重要探索,为医疗、小众领域等数据难获取场景提供了全新技术路径。
一、历史背景:低数据场景的长期困境与技术演进
传统机器学习(包括决策树这类可解释模型)长期受限于数据稀薄特性(Knauer et al., 2025)。在2010年代至2020年代初,研究者们主要依赖数据扩充、迁移学习等方法缓解数据不足问题,但这些方案仍需一定规模的源数据或标注样本,难以适配罕见病诊断、小众行业预测等极端低数据场景。
2020年后,LLM的爆发式发展带来新可能——这类模型通过海量文本预训练,压缩了大量世界知识,具备在无训练数据下完成特定任务的潜力。但早期LLM在结构化数据建模中存在两大瓶颈:一是决策过程黑箱化,缺乏可解释性;二是专有模型的权重访问限制,导致敏感数据(如医疗数据)无法直接使用。此前相关研究多聚焦LLM辅助特征生成(Nam et al., 2024),尚未实现直接生成完整可解释模型,而Knauer等人的研究填补了这一空白。
二、核心研究:零样本决策树的生成与应用逻辑
1. 研究背景
传统机器学习模型(含决策树)需大量标注数据支撑训练,医疗等领域常因罕见病、高失访率导致数据稀缺,建模难度极大。LLM虽存储海量先验知识,却存在决策不可解释、敏感数据使用受限的问题,限制了其在低数据场景的落地。
2. 核心贡献
零样本决策树诱导:无需训练数据和LLM预训练权重,直接生成可解释决策树T,天然规避数据隐私泄露风险。
零样本决策树嵌入:将决策树转化为二进制特征向量,为下游模型注入LLM的先验知识,提升建模效果。
基准确立:在13个公共数据集(来自PMLB,样本量≤500)和2个私有医疗数据集(前交叉韧带损伤、创伤后疼痛预后)中验证,建立低数据场景的知识驱动基准。
3. 关键方法
诱导机制:通过提示模板引导LLM,输入预测目标p、决策树最大深度d、特征集合f=[f₁,…,fₖ],生成映射关系φ(p, f₁,…,fₖ, d) ↦ T。提示模板包含任务描述、鸢尾花数据集示例、特征名(标注单位或类别),确保LLM理解输出格式。
嵌入转换:采用知识蒸馏生成多棵决策树组成森林(T₁,…,Tₘ),通过χₙ: 𝒯ₙ ×ℝˣ → {0,1}ⁿ将单棵树的内部节点真值转化为二进制向量,最终通过χ: 𝒯ₙ₁ ×… ×𝒯ₙₘ ×ℝˣ →{0,1}ⁿ¹⁺⋯⁺ⁿₘ 拼接为最终嵌入。
输出格式化:生成文本格式(供领域专家解读)和Python函数格式(供下游建模流水线调用),兼顾可解释性与实用性。
4. 实验关键信息
所用LLM:GPT-4o、Claude 3.5 Sonnet(Anthropic)、Gemini 1.5 Pro(Google)、GPT-o1(OpenAI)。
评估指标:测试F1分数(多类别宏平均)、平衡准确率,采用67%/33%的训练/测试数据分割,重复5次以降低随机性影响。
核心结果:27%的数据集上,零样本决策树性能超过传统数据驱动决策树(如最优分类树OCTs);Gemini 1.5 Pro生成的嵌入效果最优,部分数据集F1分数最大提升0.32,且统计上显著优于数据驱动树嵌入。
5. 核心提示词模板
研究中使用的零样本决策树诱导提示词模板如下(Knauer et al., 2025, Listing 1):
[User]
I want you to induce a decision tree classifier based on features. I first give an example below. Then, I provide you with new features and want you to build a decision tree with a maximum depth of d using the most important features. The tree should classify p.
Features:
sepal length (cm), sepal width (cm), petal length (cm), petal width (cm)
Decision tree:
|- petal width (cm) <= 0.80
| |- class: setosa
|- petal width (cm) > 0.80
| |- petal width (cm) <= 1.75
| | |- class: versicolor
| |- petal width (cm) > 1.75
| | |- class: virginica
Features:
f_1, ..., f_k
Decision tree:
模板中,d为决策树最大深度(默认设为2),p为预测目标,f₁,…,fₖ为特征名(需标注计量单位或类别值)。
三、研究意义与落地价值
该研究的核心价值在于解决低数据场景的建模困境——无需标注数据即可生成可解释、隐私保护的模型,尤其适配医疗等对数据隐私和可解释性要求极高的领域。例如在ACL损伤(前交叉韧带损伤)预后预测中,GPT-4o生成的零样本决策树F1分数达0.83,超过数据驱动树的0.67(Knauer et al., 2025)。
代码已开源(https://github.com/ml-lab-htw/llm-trees),为研究者和实践者提供了直接可用的工具。未来,该方案可进一步优化提示模板设计,结合少量训练数据迭代提升模型性能,或扩展至回归等更多任务类型。
参考文献
Knauer, R., Koddenbrock, M., Duda, G. N., Brisson, N. M., Wallsberger, R., Falla, D., Evans, D. W., & Rodner, E. (2025). Oh LLM, I’m Asking Thee, Please Give Me a Decision Tree: Zero-Shot Decision Tree Induction and Embedding with Large Language Models. In Proceedings of the 31st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’25). ACM. https://doi.org/10.1145/3711896.3736818
Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning. Advances in Neural Information Processing Systems, 37. https://doi.org/10.48550/arXiv.2406.08527