2 min read

LLM:表格数据特征工程(1)核心方法与框架

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
20 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:从少样本到长尾覆盖:零样本LLM的适用边界与正确姿势 2025-11-13
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
52 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
53 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
54 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
65 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
66 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
67 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
68 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17
69 LLM:Claude Skill:Anthropic 用软件工程思想重构 AI 开发 2026-05-19
70 LLM:从少样本到长尾覆盖:基础模型如何攻克长尾反欺诈难题 2026-05-25

从人工手动筛选特征到LLM驱动自动生成规则,表格数据特征工程的发展始终围绕提效与性能两大核心。传统树基模型(如XGBoost)与特征工程的组合虽长期主导表格预测任务,但人工特征工程成本高、组合空间庞大,现有自动化方法又受限于预定义搜索空间和单一验证分数筛选,难以兼顾效率与效果。LLM为这一困境提供了新解法,Nam等人(2024)的OCTree框架与Hollmann等人(2023)的CAAFE方法,分别从不同角度实现了LLM与特征工程的深度融合,推动表格数据处理迈入自动化新阶段。

一、历史背景:特征工程的痛点

在LLM介入前,表格数据特征工程长期面临两大瓶颈。其一,人工特征工程依赖领域知识,需遍历海量特征组合,验证过程耗时耗力,且难以覆盖潜在有效特征;其二,自动化特征工程方法(如AutoFeat、OpenFE)需手动定义搜索空间,计算开销大,且仅通过验证分数筛选特征,忽略过往实验积累的数据集知识。

随着自然语言处理技术的发展,LLM凭借语言理解、逻辑推理和代码生成能力,成为突破瓶颈的关键。LLM不仅能理解数据集上下文和任务目标,还能迭代优化特征生成规则,无需人工干预即可衔接语义理解、规则生成、代码落地、性能验证的全流程,为特征工程提供新的路径。

二、两种方法:LLM驱动的特征工程

(一)OCTree:决策树反馈的规则优化框架

Nam等人(2024)提出的OCTree(Optimizing Column feature generator with decision Tree reasoning),核心是将LLM作为特征生成规则的优化器,结合决策树推理提供迭代反馈,无需人工定义搜索空间。

其核心流程包含六个关键步骤:

  1. 生成新列名称:通过提示词 $p_{\text{col}}$ ,让LLM基于任务描述(如"预测疾病是否发生")生成语义相关的新列名称(如"吸烟状态"),公式表达为 $\mathrm{c}{\text{new}} = \text{LLM}(\mathrm{p}{\text{col}}(\mathrm{C}, \mathrm{c}{\text{target}}))$ ,其中 $\mathrm{C}$ 为原始列集合, $\mathrm{c}{\text{target}}$ 为目标列名称。
  2. 初始规则生成:LLM基于原始特征与新列语义,通过提示词 $p_{\text{init}}$ 生成初始规则,公式为 $\mathrm{r}0 = \text{LLM}(\mathrm{p}{\text{init}}(\mathrm{C}, \mathrm{c}_{\text{new}}))$ ,例如"发烧且呼吸困难→可能为吸烟者"。
  3. 特征生成:按规则扩充数据集,得到 $\mathcal{D} \oplus \mathrm{r} = {\mathrm{x}_i \oplus \mathrm{r}(\mathrm{x}_i), \mathrm{y}_i}$ ,其中 $\mathrm{r}(\mathrm{x}_i)$ 为新生成的特征值。
  4. 模型训练与推理提取:用扩充数据训练预测模型 $\mathrm{f}^*$ (如XGBoost、MLP)并计算验证分数 $\mathrm{s}_t$ ,同时训练CART决策树,提取自然语言形式的推理 $\mathrm{d}t = \text{CART}(\mathcal{D}{\text{train}} \oplus \mathrm{r}_t)$ 。
  5. 迭代优化:基于历史轨迹 $\mathrm{T}_t = {(\mathrm{s}_i, \mathrm{d}i, \mathrm{r}i)}{i=0}^t$ ,让LLM生成更优规则 $\mathrm{r}{t+1}$ ,重复迭代后选择验证分数最高的规则。
  6. 多特征生成:重复上述流程,基于原始特征与已生成特征迭代生成多个有效特征,直至性能不再提升。

OCTree的优化目标可表示为: $\min {\mathrm{r}} \mathcal{L}{\mathrm{f}^}\left(\mathcal{D}_{\text{val}} \oplus \mathrm{r}\right) \text{ subject to } \mathrm{f}^=\underset{\mathrm{f}}{\arg \min } \mathcal{L}{\mathrm{f}}\left(\mathcal{D}{\text{train}} \oplus \mathrm{r}\right)$ ,其中 $\mathcal{L}_{\mathrm{f}}$ 为任务损失函数(如回归任务的平均绝对误差MAE)。

实验结果显示,OCTree在有语言描述的数据集(如Tesla股票、Enefit能源消耗)中,GPT-4o加持下可使Tesla数据集误差降低17.1%,MLP模型在Enefit数据集误差降低35.3%;在无语言描述的19个分类数据集上,平均降低5.0%相对误差,16个数据集实现HyperFast模型性能提升,且7B规模LLM的表现比肩GPT-4组合方法(Nam et al., 2024)。

(二)CAAFE:上下文感知的迭代式特征生成

Hollmann等人(2023)提出的CAAFE(Context-Aware Automated Feature Engineering),是基于LLM的上下文感知自动特征工程方法,核心通过迭代生成语义特征、Python代码及效用解释,以代码为接口融合LLM领域知识与经典机器学习的稳健性。

其核心逻辑为:给定数据集 $D=(x_i, y_i){i=1}^n$ ,目标是找到特征转换函数 $\phi: X \to X’$ ,最大化学习算法 $A$ 的性能 $A(\phi(x_i), y_i)$ 。具体迭代流程为:LLM生成特征代码→执行代码得到扩充后的训练集 $D{\text{train}}’$ 和验证集 $D_{\text{valid}}’$ →10折交叉验证评估性能 $P’$ →若 $P’$ 优于原始性能 $P$ ,则保留特征并更新数据集,重复迭代(默认10轮)。

提示词构造是CAAFE的关键,需包含数据集描述、特征名、数据类型、缺失值比例、10条随机样本,搭配思维链指令和代码模板。其特征工程策略涵盖特征组合(如 df['fever_and_rhinorrhea'] = ((df['temperature'] >= 38.0) & (df['rhinorrhea'] > 0)).astype(int) )、数值分箱(如年龄分组)、字符串转换等。

实验结果表明,GPT-4版CAAFE在14个数据集(OpenML 10个+Kaggle 4个)上,平均ROC AUC从0.798提升至0.822,11个数据集实现性能改善;而GPT-3.5版仅6个数据集改善,效果显著较弱。此外,CAAFE与传统AutoFE方法结合时,可进一步提升逻辑回归、随机森林等弱分类器的性能(Hollmann et al., 2023)。

三、方法对比与行业影响

OCTree与CAAFE代表了LLM驱动特征工程的两种路径:OCTree以"LLM+决策树反馈"为核心,侧重无搜索空间依赖和双场景适配(支持有/无语言描述数据集),且生成特征可跨模型迁移(如XGBoost生成的特征可用于MLP);CAAFE以上下文感知、代码迭代为核心,侧重领域知识融入和与经典机器学习的兼容性,但仅支持有语言描述的数据集。

两者的落地应用,不仅降低了特征工程的技术门槛,还提升了表格数据预测任务的效率与性能。在医疗(疾病诊断)、金融(股票预测)、教育(学生退学预测)等领域,无需专业数据科学家即可快速生成高质量特征,推动自动化机器学习(AutoML)向更全流程的方向发展。

四、局限性与未来方向

尽管成效显著,两种方法仍存在局限:OCTree的模型训练过程耗时,需通过特征迁移缓解;CAAFE易受LLM token限制,存在幻觉风险,且特征筛选缺乏统计检验支持。

未来,LLM驱动的特征工程将向三个方向发展:一是引入强化学习从人类反馈(RLHF)优化LLM规则生成能力;二是突破token限制,适配更大规模数据集;三是融合统计检验与逻辑推理,降低幻觉带来的无效特征风险,进一步释放LLM在表格数据处理中的潜力。

参考文献

Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36. https://arxiv.org/pdf/2305.03403

Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG]. https://arxiv.org/pdf/2406.08527v2

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
20 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:从少样本到长尾覆盖:零样本LLM的适用边界与正确姿势 2025-11-13
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
52 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
53 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
54 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
65 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
66 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
67 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
68 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17
69 LLM:Claude Skill:Anthropic 用软件工程思想重构 AI 开发 2026-05-19
70 LLM:从少样本到长尾覆盖:基础模型如何攻克长尾反欺诈难题 2026-05-25