LLM：表格数据特征工程（4）线性可分性与模型选型

本篇为LLM驱动表格数据特征工程系列的第二篇，基于线性可分性的核心原理，解析表格数据场景下树模型与神经网络的性能差异根源，为自动化特征工程的方法选型提供底层逻辑支撑。

一、核心原理：模型决策边界与线性可分性

分类与回归任务的核心，是在特征空间中构建决策边界，实现不同样本的有效区分。不同模型的决策边界存在本质差异：

树模型（含XGBoost、随机森林等树集成模型）的核心逻辑，是在高维特征空间中，沿单个特征的阈值做递归二分，形成轴对齐的分段线性划分。
神经网络通过多层非线性激活函数，学习特征间的复杂交互，可生成斜线、弧线、闭合曲线等任意形态的决策边界，拟合能力上限更高。

线性可分性，指样本在特征空间中可通过一个超平面实现完全区分的属性，即全局线性可分。当样本无法在原始特征空间中实现全局线性可分时，主流解决方案分为两类：一类是通过树模型做分段线性划分，将特征空间切分为多个子空间，在每个子空间内实现线性可分；另一类是通过非线性变换或升维，将原始特征映射到更高维度的空间，使样本在新空间中实现线性可分。非线性变换与升维会同步提升模型复杂度，在中小样本场景下，会带来泛化性下降、过拟合风险提升的问题。

二、数据类型与线性可分性的天然差异

不同模态的数据，在原始特征空间中的线性可分性存在显著差异，这直接决定了不同模型的适配性。

表格（结构化）数据

表格数据的每一列均为预定义的业务特征，分为数值型与分类型两类，特征与预测目标的关联可通过单特征或少量特征的组合捕捉。这类数据通过轴对齐的分段线性划分，即可实现较高的样本可分性，线性可分的实现难度显著低于非结构化数据。

文本数据

文本为不定长序列数据，原始token的独热（one-hot）表征为高维、稀疏、离散形式，语义信息蕴含在token的上下文关联与时序依赖中，无法通过简单线性划分捕捉语义差异，在原始表征空间中天然难以实现线性可分。

图像数据

图像像素数据存在强局部空间关联与平移不变性，视觉语义由像素的局部组合与层级结构决定，单像素的线性划分无法捕捉高层视觉特征，同样难以通过简单线性划分实现样本可分。

三、表格数据树模型与神经网络的性能差异根源

在常规表格预测任务中，树模型的综合表现普遍优于神经网络，核心原因可归纳为两点。

第一，模型能力与任务需求的匹配度更高。表格数据的样本可分性，可通过分段线性划分高效实现，无需神经网络的复杂非线性拟合，避免了模型复杂度提升带来的过拟合风险。

第二，树模型对表格数据的适配性更强。树模型对特征量纲、尺度不敏感，无需归一化等预处理操作；对异常值、缺失值的鲁棒性优于神经网络；在中小样本场景下泛化性更稳定，无需大量样本拟合参数；调参成本更低，可解释性更强，工程落地门槛更低。

该结论存在明确的适用边界。在中小样本量、常规特征维度的表格任务中，该结论具备较高的普适性；在超大样本量、高维稠密特征的表格场景中，神经网络可通过海量数据充分拟合特征交互，性能可追平甚至超过树集成模型。

四、对LLM驱动自动化特征工程的启示

线性可分性的底层逻辑，为LLM驱动的表格特征工程提供了明确的优化方向，也是本系列第一篇中OCTree与CAAFE方法的核心设计逻辑支撑。

首先，特征工程的核心目标，是通过特征变换提升数据的线性可分性，而非单纯增加特征维度。LLM生成特征的过程，需围绕降低样本线性划分的难度展开，避免无意义的特征组合带来的维度灾难。

其次，树模型的决策边界特性，可作为LLM特征优化的有效反馈信号。OCTree方法中使用CART决策树提取自然语言推理信息，本质是通过树模型的分段划分逻辑，向LLM传递特征空间的可分性信息，引导LLM生成更能提升线性可分性的特征规则。

最后，针对不同线性可分性的数据集，需匹配差异化的特征工程策略。对于线性可分性较高的表格数据集，简单的特征组合与分箱即可实现性能提升；对于线性可分性较低的高维稀疏表格数据集，可通过LLM生成更复杂的特征交互规则，配合神经网络完成预测任务。

参考文献

Grinsztajn, L., Oyallon, E., & Varoquaux, G. (2022). Why do tree-based models still outperform deep learning on typical tabular data? Advances in Neural Information Processing Systems, 35, 507-520.

Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36.

Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG].