2 min read

LLM:表格数据特征工程

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

从人工手动筛选特征到LLM驱动自动生成规则,表格数据特征工程的发展始终围绕提效与性能两大核心。传统树基模型(如XGBoost)与特征工程的组合虽长期主导表格预测任务,但人工特征工程成本高、组合空间庞大,现有自动化方法又受限于预定义搜索空间和单一验证分数筛选,难以兼顾效率与效果。LLM为这一困境提供了新解法,Nam等人(2024)的OCTree框架与Hollmann等人(2023)的CAAFE方法,分别从不同角度实现了LLM与特征工程的深度融合,推动表格数据处理迈入自动化新阶段。

一、历史背景:特征工程的痛点

在LLM介入前,表格数据特征工程长期面临两大瓶颈。其一,人工特征工程依赖领域知识,需遍历海量特征组合,验证过程耗时耗力,且难以覆盖潜在有效特征;其二,自动化特征工程方法(如AutoFeat、OpenFE)需手动定义搜索空间,计算开销大,且仅通过验证分数筛选特征,忽略过往实验积累的数据集知识。

随着自然语言处理技术的发展,LLM凭借语言理解、逻辑推理和代码生成能力,成为突破瓶颈的关键。LLM不仅能理解数据集上下文和任务目标,还能迭代优化特征生成规则,无需人工干预即可衔接语义理解、规则生成、代码落地、性能验证的全流程,为特征工程提供新的路径。

二、两种方法:LLM驱动的特征工程

(一)OCTree:决策树反馈的规则优化框架

Nam等人(2024)提出的OCTree(Optimizing Column feature generator with decision Tree reasoning),核心是将LLM作为特征生成规则的优化器,结合决策树推理提供迭代反馈,无需人工定义搜索空间。

其核心流程包含六个关键步骤:

  1. 生成新列名称:通过提示词 \(p_{\text{col}}\) ,让LLM基于任务描述(如“预测疾病是否发生”)生成语义相关的新列名称(如“吸烟状态”),公式表达为 \(\mathrm{c}_{\text{new}} = \text{LLM}(\mathrm{p}_{\text{col}}(\mathrm{C}, \mathrm{c}_{\text{target}}))\) ,其中 \(\mathrm{C}\) 为原始列集合, \(\mathrm{c}_{\text{target}}\) 为目标列名称。
  2. 初始规则生成:LLM基于原始特征与新列语义,通过提示词 \(p_{\text{init}}\) 生成初始规则,公式为 \(\mathrm{r}_0 = \text{LLM}(\mathrm{p}_{\text{init}}(\mathrm{C}, \mathrm{c}_{\text{new}}))\) ,例如“发烧且呼吸困难→可能为吸烟者”。
  3. 特征生成:按规则扩充数据集,得到 \(\mathcal{D} \oplus \mathrm{r} = {\mathrm{x}_i \oplus \mathrm{r}(\mathrm{x}_i), \mathrm{y}_i}\) ,其中 \(\mathrm{r}(\mathrm{x}_i)\) 为新生成的特征值。
  4. 模型训练与推理提取:用扩充数据训练预测模型 \(\mathrm{f}^*\) (如XGBoost、MLP)并计算验证分数 \(\mathrm{s}_t\) ,同时训练CART决策树,提取自然语言形式的推理 \(\mathrm{d}_t = \text{CART}(\mathcal{D}_{\text{train}} \oplus \mathrm{r}_t)\)
  5. 迭代优化:基于历史轨迹 \(\mathrm{T}_t = {(\mathrm{s}_i, \mathrm{d}_i, \mathrm{r}_i)}_{i=0}^t\) ,让LLM生成更优规则 \(\mathrm{r}_{t+1}\) ,重复迭代后选择验证分数最高的规则。
  6. 多特征生成:重复上述流程,基于原始特征与已生成特征迭代生成多个有效特征,直至性能不再提升。

OCTree的优化目标可表示为: \(\min _{\mathrm{r}} \mathcal{L}_{\mathrm{f}^*}\left(\mathcal{D}_{\text{val}} \oplus \mathrm{r}\right) \text{ subject to } \mathrm{f}^*=\underset{\mathrm{f}}{\arg \min } \mathcal{L}_{\mathrm{f}}\left(\mathcal{D}_{\text{train}} \oplus \mathrm{r}\right)\) ,其中 \(\mathcal{L}_{\mathrm{f}}\) 为任务损失函数(如回归任务的平均绝对误差MAE)。

实验结果显示,OCTree在有语言描述的数据集(如Tesla股票、Enefit能源消耗)中,GPT-4o加持下可使Tesla数据集误差降低17.1%,MLP模型在Enefit数据集误差降低35.3%;在无语言描述的19个分类数据集上,平均降低5.0%相对误差,16个数据集实现HyperFast模型性能提升,且7B规模LLM的表现比肩GPT-4组合方法(Nam et al., 2024)。

(二)CAAFE:上下文感知的迭代式特征生成

Hollmann等人(2023)提出的CAAFE(Context-Aware Automated Feature Engineering),是基于LLM的上下文感知自动特征工程方法,核心通过迭代生成语义特征、Python代码及效用解释,以代码为接口融合LLM领域知识与经典机器学习的稳健性。

其核心逻辑为:给定数据集 \(D=(x_i, y_i)_{i=1}^n\) ,目标是找到特征转换函数 \(\phi: X \to X'\) ,最大化学习算法 \(A\) 的性能 \(A(\phi(x_i), y_i)\) 。具体迭代流程为:LLM生成特征代码→执行代码得到扩充后的训练集 \(D_{\text{train}}'\) 和验证集 \(D_{\text{valid}}'\) →10折交叉验证评估性能 \(P'\) →若 \(P'\) 优于原始性能 \(P\) ,则保留特征并更新数据集,重复迭代(默认10轮)。

提示词构造是CAAFE的关键,需包含数据集描述、特征名、数据类型、缺失值比例、10条随机样本,搭配思维链指令和代码模板。其特征工程策略涵盖特征组合(如 df['fever_and_rhinorrhea'] = ((df['temperature'] >= 38.0) & (df['rhinorrhea'] > 0)).astype(int) )、数值分箱(如年龄分组)、字符串转换等。

实验结果表明,GPT-4版CAAFE在14个数据集(OpenML 10个+Kaggle 4个)上,平均ROC AUC从0.798提升至0.822,11个数据集实现性能改善;而GPT-3.5版仅6个数据集改善,效果显著较弱。此外,CAAFE与传统AutoFE方法结合时,可进一步提升逻辑回归、随机森林等弱分类器的性能(Hollmann et al., 2023)。

三、方法对比与行业影响

OCTree与CAAFE代表了LLM驱动特征工程的两种路径:OCTree以“LLM+决策树反馈”为核心,侧重无搜索空间依赖和双场景适配(支持有/无语言描述数据集),且生成特征可跨模型迁移(如XGBoost生成的特征可用于MLP);CAAFE以上下文感知、代码迭代为核心,侧重领域知识融入和与经典机器学习的兼容性,但仅支持有语言描述的数据集。

两者的落地应用,不仅降低了特征工程的技术门槛,还提升了表格数据预测任务的效率与性能。在医疗(疾病诊断)、金融(股票预测)、教育(学生退学预测)等领域,无需专业数据科学家即可快速生成高质量特征,推动自动化机器学习(AutoML)向更全流程的方向发展。

四、局限性与未来方向

尽管成效显著,两种方法仍存在局限:OCTree的模型训练过程耗时,需通过特征迁移缓解;CAAFE易受LLM token限制,存在幻觉风险,且特征筛选缺乏统计检验支持。

未来,LLM驱动的特征工程将向三个方向发展:一是引入强化学习从人类反馈(RLHF)优化LLM规则生成能力;二是突破token限制,适配更大规模数据集;三是融合统计检验与逻辑推理,降低幻觉带来的无效特征风险,进一步释放LLM在表格数据处理中的潜力。

参考文献

Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36. https://arxiv.org/pdf/2305.03403

Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG]. https://arxiv.org/pdf/2406.08527v2

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03