LLM：先验偏见（3）实验效度的场景化适配

从LLM依赖特征名的零样本推理到检验真实数据分析能力的实验设计，特征名的使用方式是影响LLM任务表现与实验结果可信度的关键因素。围绕特征名使用逻辑与实验结果高估问题的观察，既贴合实证研究结论，也存在部分表述需进一步严谨化的地方。本文结合AlMarri等（2025）与Couch和Altman（2025）的研究成果，系统拆解特征名使用的场景化规则与实验效度的优化方向。

一、特征名使用：场景决定策略，逻辑适配需求

零样本场景需利用变量名，检验真实数据分析能力时需隐藏变量名，整体符合LLM的推理机制，但需明确逻辑边界：

（一）零样本场景：特征名是必要依托而非主动利用

零样本场景下，LLM缺乏目标场景的样本支撑，无法通过数据规律推导结论，会被动依赖特征名承载的世界知识（语义关联）完成推理。例如金融零样本任务中，现金储备、资产负债率等特征名隐含的风险信号，是LLM实现高于随机猜测判断（平均ROC-AUC 0.526-0.637，AlMarri et al., 2025）的重要依托。这种依赖并非人为主动选择利用，而是LLM零样本推理的固有属性，若无特征名字义辅助，零样本LLM的任务表现会进一步下滑。

（二）有数据支撑场景：隐藏变量名是去偏关键

当具备目标场景样本（无论少量还是足量），需检验LLM真实数据分析能力时，隐藏变量名（即特征匿名化）是科学操作。这一策略可避免LLM被特征名字义先验误导（如将净利润默认判定为正向影响，忽略数据中可能存在的反向关联），强制其关注特征数值与目标变量的真实关系。AlMarri等（2025）的研究已验证，通过将现金储备、净利润等特征替换为 \(f_1\) 、 \(f_2\) 等无意义标识，能显著降低LLM自解释与真实特征贡献（SHAP值）的偏差，提升实验结果对LLM数据分析能力的真实反映程度。

二、实验结果高估：核心诱因是数据污染，表述需精准

实验结果会高估，因公开数据可能已被LLM作为训练数据使用，这是LLM相关实验中普遍存在的数据污染问题：公开数据集（如AlMarri等2025年研究中使用的波兰公司破产数据集、Kaggle贷款数据集，以及Bluffbench研究中的mtcars、diamonds数据集）若已纳入LLM的预训练数据，实验中LLM的零样本表现并非真正通过跨域知识推理实现，而是对训练数据中既有规律的记忆与复现。这种情况下，实验测得的性能指标（如ROC-AUC、自解释一致性）会高于LLM在未见过的全新数据上的真实表现，导致实验效度被高估。

基于公开数据集的LLM实验，结果可能存在高估偏差，这些公开数据若已被LLM纳入预训练数据，模型的表现会依赖数据记忆而非真实推理能力，导致测得的性能无法反映其在全新场景中的泛化水平。

结语

结合讨论核心观点与实证研究，可提炼出两条关键落地规则：

（一）特征名使用规则

零样本场景：保留具有明确语义的特征名，充分利用其承载的世界知识，提升LLM推理的基础性能，但需在结果解读中明确性能依赖语义先验，不可等同于模型的数据分析能力；
小样本/有数据场景：若目标是检验LLM真实数据分析能力或搭建可靠业务模型，执行特征匿名化，同时配合序列化鲁棒性测试（验证特征顺序对结果的影响），降低语义偏见带来的决策风险。

（二）实验设计优化规则

数据选择：优先使用未公开的私有数据或对公开数据进行脱敏、改写（如调整特征分布、新增噪声变量），避免数据污染导致的结果高估；
结果验证：若必须使用公开数据，需通过特征匿名化前后性能对比、与传统模型（如LightGBM）的决策逻辑一致性检验（AlMarri et al., 2025），交叉验证LLM表现的真实性，排除记忆效应的干扰。

参考文献

AlMarri, S., Ravaut, M., Juhasz, K., Marti, G., Al Ahbabi, H., & Elfadel, I. (2025). Measuring what LLMs think they do: SHAP faithfulness and deployability on financial tabular classification. arXiv Preprint arXiv:2512.00163.
Couch, S., & Altman, S. (2025). Introducing Bluffbench. Posit. https://posit.co/blog/introducing-bluffbench/