1 min read

LLM:表格数据特征工程:(2)线性可分性与模型选型

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:低数据场景的决策树生成 2025-08-03
15 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
16 LLM:表格数据特征工程:(1)核心方法与框架 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

本篇为LLM驱动表格数据特征工程系列的第二篇,基于线性可分性的核心原理,解析表格数据场景下树模型与神经网络的性能差异根源,为自动化特征工程的方法选型提供底层逻辑支撑。

一、核心原理:模型决策边界与线性可分性

分类与回归任务的核心,是在特征空间中构建决策边界,实现不同样本的有效区分。不同模型的决策边界存在本质差异:

  • 树模型(含XGBoost、随机森林等树集成模型)的核心逻辑,是在高维特征空间中,沿单个特征的阈值做递归二分,形成轴对齐的分段线性划分。

  • 神经网络通过多层非线性激活函数,学习特征间的复杂交互,可生成斜线、弧线、闭合曲线等任意形态的决策边界,拟合能力上限更高。

线性可分性,指样本在特征空间中可通过一个超平面实现完全区分的属性,即全局线性可分。当样本无法在原始特征空间中实现全局线性可分时,主流解决方案分为两类:一类是通过树模型做分段线性划分,将特征空间切分为多个子空间,在每个子空间内实现线性可分;另一类是通过非线性变换或升维,将原始特征映射到更高维度的空间,使样本在新空间中实现线性可分。非线性变换与升维会同步提升模型复杂度,在中小样本场景下,会带来泛化性下降、过拟合风险提升的问题。

二、数据类型与线性可分性的天然差异

不同模态的数据,在原始特征空间中的线性可分性存在显著差异,这直接决定了不同模型的适配性。

  1. 表格(结构化)数据

表格数据的每一列均为预定义的业务特征,分为数值型与分类型两类,特征与预测目标的关联可通过单特征或少量特征的组合捕捉。这类数据通过轴对齐的分段线性划分,即可实现较高的样本可分性,线性可分的实现难度显著低于非结构化数据。

  1. 文本数据

文本为不定长序列数据,原始token的独热(one-hot)表征为高维、稀疏、离散形式,语义信息蕴含在token的上下文关联与时序依赖中,无法通过简单线性划分捕捉语义差异,在原始表征空间中天然难以实现线性可分。

  1. 图像数据

图像像素数据存在强局部空间关联与平移不变性,视觉语义由像素的局部组合与层级结构决定,单像素的线性划分无法捕捉高层视觉特征,同样难以通过简单线性划分实现样本可分。

三、表格数据树模型与神经网络的性能差异根源

在常规表格预测任务中,树模型的综合表现普遍优于神经网络,核心原因可归纳为两点。

第一,模型能力与任务需求的匹配度更高。表格数据的样本可分性,可通过分段线性划分高效实现,无需神经网络的复杂非线性拟合,避免了模型复杂度提升带来的过拟合风险。

第二,树模型对表格数据的适配性更强。树模型对特征量纲、尺度不敏感,无需归一化等预处理操作;对异常值、缺失值的鲁棒性优于神经网络;在中小样本场景下泛化性更稳定,无需大量样本拟合参数;调参成本更低,可解释性更强,工程落地门槛更低。

该结论存在明确的适用边界。在中小样本量、常规特征维度的表格任务中,该结论具备较高的普适性;在超大样本量、高维稠密特征的表格场景中,神经网络可通过海量数据充分拟合特征交互,性能可追平甚至超过树集成模型。

四、对LLM驱动自动化特征工程的启示

线性可分性的底层逻辑,为LLM驱动的表格特征工程提供了明确的优化方向,也是本系列第一篇中OCTree与CAAFE方法的核心设计逻辑支撑。

首先,特征工程的核心目标,是通过特征变换提升数据的线性可分性,而非单纯增加特征维度。LLM生成特征的过程,需围绕降低样本线性划分的难度展开,避免无意义的特征组合带来的维度灾难。

其次,树模型的决策边界特性,可作为LLM特征优化的有效反馈信号。OCTree方法中使用CART决策树提取自然语言推理信息,本质是通过树模型的分段划分逻辑,向LLM传递特征空间的可分性信息,引导LLM生成更能提升线性可分性的特征规则。

最后,针对不同线性可分性的数据集,需匹配差异化的特征工程策略。对于线性可分性较高的表格数据集,简单的特征组合与分箱即可实现性能提升;对于线性可分性较低的高维稀疏表格数据集,可通过LLM生成更复杂的特征交互规则,配合神经网络完成预测任务。

参考文献

Grinsztajn, L., Oyallon, E., & Varoquaux, G. (2022). Why do tree-based models still outperform deep learning on typical tabular data? Advances in Neural Information Processing Systems, 35, 507-520.

Hollmann, N., Müller, S., & Hutter, F. (2023). Large language models for automated data science: Introducing CAAFE for context-aware automated feature engineering. Advances in Neural Information Processing Systems, 36.

Nam, J., Kim, K., Oh, S., Tack, J., Kim, J., & Shin, J. (2024). Optimized feature generation for tabular data via LLMs with decision tree reasoning. In 38th Conference on Neural Information Processing Systems (NeurIPS 2024). arXiv:2406.08527v2 [cs.LG].

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:低数据场景的决策树生成 2025-08-03
15 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
16 LLM:表格数据特征工程:(1)核心方法与框架 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03