LLM：表格数据特征工程（1）核心方法与框架

从人工手动筛选特征到LLM驱动自动生成规则，表格数据特征工程的发展始终围绕提效与性能两大核心。传统树基模型（如XGBoost）与特征工程的组合虽长期主导表格预测任务，但人工特征工程成本高、组合空间庞大，现有自动化方法又受限于预定义搜索空间和单一验证分数筛选，难以兼顾效率与效果。LLM为这一困境提供了新解法，Nam等人（2024）的OCTree框架与Hollmann等人（2023）的CAAFE方法，分别从不同角度实现了LLM与特征工程的深度融合，推动表格数据处理迈入自动化新阶段。

一、历史背景：特征工程的痛点

在LLM介入前，表格数据特征工程长期面临两大瓶颈。其一，人工特征工程依赖领域知识，需遍历海量特征组合，验证过程耗时耗力，且难以覆盖潜在有效特征；其二，自动化特征工程方法（如AutoFeat、OpenFE）需手动定义搜索空间，计算开销大，且仅通过验证分数筛选特征，忽略过往实验积累的数据集知识。

随着自然语言处理技术的发展，LLM凭借语言理解、逻辑推理和代码生成能力，成为突破瓶颈的关键。LLM不仅能理解数据集上下文和任务目标，还能迭代优化特征生成规则，无需人工干预即可衔接语义理解、规则生成、代码落地、性能验证的全流程，为特征工程提供新的路径。

二、两种方法：LLM驱动的特征工程

（一）OCTree：决策树反馈的规则优化框架

Nam等人（2024）提出的OCTree（Optimizing Column feature generator with decision Tree reasoning），核心是将LLM作为特征生成规则的优化器，结合决策树推理提供迭代反馈，无需人工定义搜索空间。

其核心流程包含六个关键步骤：

生成新列名称：通过提示词 $p_{\text{col}}$ ，让LLM基于任务描述（如"预测疾病是否发生"）生成语义相关的新列名称（如"吸烟状态"），公式表达为 $\mathrm{c}{\text{new}} = \text{LLM}(\mathrm{p}{\text{col}}(\mathrm{C}, \mathrm{c}{\text{target}}))$ ，其中 $\mathrm{C}$ 为原始列集合， $\mathrm{c}{\text{target}}$ 为目标列名称。
初始规则生成：LLM基于原始特征与新列语义，通过提示词 $p_{\text{init}}$ 生成初始规则，公式为 $\mathrm{r}0 = \text{LLM}(\mathrm{p}{\text{init}}(\mathrm{C}, \mathrm{c}_{\text{new}}))$ ，例如"发烧且呼吸困难→可能为吸烟者"。
特征生成：按规则扩充数据集，得到 $\mathcal{D} \oplus \mathrm{r} = {\mathrm{x}_i \oplus \mathrm{r}(\mathrm{x}_i), \mathrm{y}_i}$ ，其中 $\mathrm{r}(\mathrm{x}_i)$ 为新生成的特征值。
模型训练与推理提取：用扩充数据训练预测模型 $\mathrm{f}^*$ （如XGBoost、MLP）并计算验证分数 $\mathrm{s}_t$ ，同时训练CART决策树，提取自然语言形式的推理 $\mathrm{d}t = \text{CART}(\mathcal{D}{\text{train}} \oplus \mathrm{r}_t)$ 。
迭代优化：基于历史轨迹 $\mathrm{T}_t = {(\mathrm{s}_i, \mathrm{d}i, \mathrm{r}i)}{i=0}^t$ ，让LLM生成更优规则 $\mathrm{r}{t+1}$ ，重复迭代后选择验证分数最高的规则。
多特征生成：重复上述流程，基于原始特征与已生成特征迭代生成多个有效特征，直至性能不再提升。

OCTree的优化目标可表示为： $\min {\mathrm{r}} \mathcal{L}{\mathrm{f}^}\left(\mathcal{D}_{\text{val}} \oplus \mathrm{r}\right) \text{ subject to } \mathrm{f}^=\underset{\mathrm{f}}{\arg \min } \mathcal{L}{\mathrm{f}}\left(\mathcal{D}{\text{train}} \oplus \mathrm{r}\right)$ ，其中 $\mathcal{L}_{\mathrm{f}}$ 为任务损失函数（如回归任务的平均绝对误差MAE）。

实验结果显示，OCTree在有语言描述的数据集（如Tesla股票、Enefit能源消耗）中，GPT-4o加持下可使Tesla数据集误差降低17.1%，MLP模型在Enefit数据集误差降低35.3%；在无语言描述的19个分类数据集上，平均降低5.0%相对误差，16个数据集实现HyperFast模型性能提升，且7B规模LLM的表现比肩GPT-4组合方法（Nam et al., 2024）。

（二）CAAFE：上下文感知的迭代式特征生成

Hollmann等人（2023）提出的CAAFE（Context-Aware Automated Feature Engineering），是基于LLM的上下文感知自动特征工程方法，核心通过迭代生成语义特征、Python代码及效用解释，以代码为接口融合LLM领域知识与经典机器学习的稳健性。

其核心逻辑为：给定数据集 $D=(x_i, y_i){i=1}^n$ ，目标是找到特征转换函数 $\phi: X \to X’$ ，最大化学习算法 $A$ 的性能 $A(\phi(x_i), y_i)$ 。具体迭代流程为：LLM生成特征代码→执行代码得到扩充后的训练集 $D{\text{train}}’$ 和验证集 $D_{\text{valid}}’$ →10折交叉验证评估性能 $P’$ →若 $P’$ 优于原始性能 $P$ ，则保留特征并更新数据集，重复迭代（默认10轮）。

提示词构造是CAAFE的关键，需包含数据集描述、特征名、数据类型、缺失值比例、10条随机样本，搭配思维链指令和代码模板。其特征工程策略涵盖特征组合（如 df['fever_and_rhinorrhea'] = ((df['temperature'] >= 38.0) & (df['rhinorrhea'] > 0)).astype(int) ）、数值分箱（如年龄分组）、字符串转换等。

实验结果表明，GPT-4版CAAFE在14个数据集（OpenML 10个+Kaggle 4个）上，平均ROC AUC从0.798提升至0.822，11个数据集实现性能改善；而GPT-3.5版仅6个数据集改善，效果显著较弱。此外，CAAFE与传统AutoFE方法结合时，可进一步提升逻辑回归、随机森林等弱分类器的性能（Hollmann et al., 2023）。

三、方法对比与行业影响

OCTree与CAAFE代表了LLM驱动特征工程的两种路径：OCTree以"LLM+决策树反馈"为核心，侧重无搜索空间依赖和双场景适配（支持有/无语言描述数据集），且生成特征可跨模型迁移（如XGBoost生成的特征可用于MLP）；CAAFE以上下文感知、代码迭代为核心，侧重领域知识融入和与经典机器学习的兼容性，但仅支持有语言描述的数据集。

两者的落地应用，不仅降低了特征工程的技术门槛，还提升了表格数据预测任务的效率与性能。在医疗（疾病诊断）、金融（股票预测）、教育（学生退学预测）等领域，无需专业数据科学家即可快速生成高质量特征，推动自动化机器学习（AutoML）向更全流程的方向发展。

四、局限性与未来方向

尽管成效显著，两种方法仍存在局限：OCTree的模型训练过程耗时，需通过特征迁移缓解；CAAFE易受LLM token限制，存在幻觉风险，且特征筛选缺乏统计检验支持。

未来，LLM驱动的特征工程将向三个方向发展：一是引入强化学习从人类反馈（RLHF）优化LLM规则生成能力；二是突破token限制，适配更大规模数据集；三是融合统计检验与逻辑推理，降低幻觉带来的无效特征风险，进一步释放LLM在表格数据处理中的潜力。

参考文献

Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36. https://arxiv.org/pdf/2305.03403

Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG]. https://arxiv.org/pdf/2406.08527v2