本篇为LLM驱动表格数据特征工程系列的第二篇,基于线性可分性的核心原理,解析表格数据场景下树模型与神经网络的性能差异根源,为自动化特征工程的方法选型提供底层逻辑支撑。
一、核心原理:模型决策边界与线性可分性
分类与回归任务的核心,是在特征空间中构建决策边界,实现不同样本的有效区分。不同模型的决策边界存在本质差异:
树模型(含XGBoost、随机森林等树集成模型)的核心逻辑,是在高维特征空间中,沿单个特征的阈值做递归二分,形成轴对齐的分段线性划分。
神经网络通过多层非线性激活函数,学习特征间的复杂交互,可生成斜线、弧线、闭合曲线等任意形态的决策边界,拟合能力上限更高。
线性可分性,指样本在特征空间中可通过一个超平面实现完全区分的属性,即全局线性可分。当样本无法在原始特征空间中实现全局线性可分时,主流解决方案分为两类:一类是通过树模型做分段线性划分,将特征空间切分为多个子空间,在每个子空间内实现线性可分;另一类是通过非线性变换或升维,将原始特征映射到更高维度的空间,使样本在新空间中实现线性可分。非线性变换与升维会同步提升模型复杂度,在中小样本场景下,会带来泛化性下降、过拟合风险提升的问题。
二、数据类型与线性可分性的天然差异
不同模态的数据,在原始特征空间中的线性可分性存在显著差异,这直接决定了不同模型的适配性。
- 表格(结构化)数据
表格数据的每一列均为预定义的业务特征,分为数值型与分类型两类,特征与预测目标的关联可通过单特征或少量特征的组合捕捉。这类数据通过轴对齐的分段线性划分,即可实现较高的样本可分性,线性可分的实现难度显著低于非结构化数据。
- 文本数据
文本为不定长序列数据,原始token的独热(one-hot)表征为高维、稀疏、离散形式,语义信息蕴含在token的上下文关联与时序依赖中,无法通过简单线性划分捕捉语义差异,在原始表征空间中天然难以实现线性可分。
- 图像数据
图像像素数据存在强局部空间关联与平移不变性,视觉语义由像素的局部组合与层级结构决定,单像素的线性划分无法捕捉高层视觉特征,同样难以通过简单线性划分实现样本可分。
三、表格数据树模型与神经网络的性能差异根源
在常规表格预测任务中,树模型的综合表现普遍优于神经网络,核心原因可归纳为两点。
第一,模型能力与任务需求的匹配度更高。表格数据的样本可分性,可通过分段线性划分高效实现,无需神经网络的复杂非线性拟合,避免了模型复杂度提升带来的过拟合风险。
第二,树模型对表格数据的适配性更强。树模型对特征量纲、尺度不敏感,无需归一化等预处理操作;对异常值、缺失值的鲁棒性优于神经网络;在中小样本场景下泛化性更稳定,无需大量样本拟合参数;调参成本更低,可解释性更强,工程落地门槛更低。
该结论存在明确的适用边界。在中小样本量、常规特征维度的表格任务中,该结论具备较高的普适性;在超大样本量、高维稠密特征的表格场景中,神经网络可通过海量数据充分拟合特征交互,性能可追平甚至超过树集成模型。
四、对LLM驱动自动化特征工程的启示
线性可分性的底层逻辑,为LLM驱动的表格特征工程提供了明确的优化方向,也是本系列第一篇中OCTree与CAAFE方法的核心设计逻辑支撑。
首先,特征工程的核心目标,是通过特征变换提升数据的线性可分性,而非单纯增加特征维度。LLM生成特征的过程,需围绕降低样本线性划分的难度展开,避免无意义的特征组合带来的维度灾难。
其次,树模型的决策边界特性,可作为LLM特征优化的有效反馈信号。OCTree方法中使用CART决策树提取自然语言推理信息,本质是通过树模型的分段划分逻辑,向LLM传递特征空间的可分性信息,引导LLM生成更能提升线性可分性的特征规则。
最后,针对不同线性可分性的数据集,需匹配差异化的特征工程策略。对于线性可分性较高的表格数据集,简单的特征组合与分箱即可实现性能提升;对于线性可分性较低的高维稀疏表格数据集,可通过LLM生成更复杂的特征交互规则,配合神经网络完成预测任务。
参考文献
Grinsztajn, L., Oyallon, E., & Varoquaux, G. (2022). Why do tree-based models still outperform deep learning on typical tabular data? Advances in Neural Information Processing Systems, 35, 507-520.
Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36.
Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG].