1 min read

LLM：先验偏见（1）变量名带偏判断

2025/11/13

从数据科学的经验依赖到LLM（大型语言模型）辅助判断，技术工具的迭代始终围绕更精准解读数据展开。但2025年Posit发布的Bluffbench研究（Couch & Altman, 2025）却揭示了一个关键风险：前沿LLM在解读数据可视化时，常被变量名暗示与先验预期误导，忽略数据真实规律。这一发现为LLM辅助数据科学的风险规避与工具优化提供了重要依据。

研究缘起：为优化编码代理，发现LLM解读偏差

Bluffbench研究的发起，核心目标是优化Databot、Positron Assistant等编码代理工具的可视化解读能力。这类工具的核心功能之一是生成并解读R或Python代码绘制的图表，辅助数据科学家提升工作效率。研究者注意到，LLM在处理数据可视化任务时，可能存在依赖固有认知而非数据本身的问题，因此设计实验系统探究这一偏差。

本次研究选取三款当前前沿LLM作为测试对象，分别是Claude Sonnet 4.5、GPT-5与Gemini 2.5 Pro，覆盖主流大模型生态，确保研究结论的代表性。

实验一：经典数据集被篡改，LLM集体“视而不见”

第一组实验以经典数据集为载体，通过秘密篡改数据反转核心变量的相关关系，测试LLM是否能突破先验认知。

研究者选取11个样本，涵盖mtcars、diamonds、iris等常用数据集。以mtcars为例，该数据集记录汽车属性，其中hp（马力）与mpg（油耗，单位：英里/加仑）在常识中呈负相关——马力越高，油耗越低。为制造矛盾，研究者使用公式对hp进行篡改：\(hp = \max(hp) - hp\)，即通过马力最大值减去原始马力值，使hp与mpg的相关关系完全反转。

实验结果显示，三款LLM均未察觉数据篡改，完全遵循先验认知解读。Claude Sonnet 4.5认定hp与mpg呈强负相关，GPT-5指出马力增加时油耗通常减少，Gemini 2.5 Pro则判定二者呈反比关系，均与图表中显示的正相关趋势完全相悖。

library(tidyverse)

ggplot(mtcars, aes(x = max(mtcars$hp) - mtcars$hp, y = mpg)) +
  geom_point()

## Warning: Use of `mtcars$hp` is discouraged. Use `hp` instead.
## Use of `mtcars$hp` is discouraged. Use `hp` instead.

实验二：变量名暗示陷阱，LLM难辨核心规律

第二组实验更贴近实际工作场景，通过设计“变量名暗示直觉关系但数据异常”的模拟数据，测试LLM对复杂数据规律的识别能力。

研究者构建13个样本，以学生学习数据为例：x轴变量名定为study_hours_weekly（每周学习时长），y轴为exam_score（考试分数），变量名天然暗示“学习时长越长，分数越高”的正相关关系。但实际数据中，二者无显著相关，且在20-25小时学习区间存在明显断点——该区间学生分数骤升至90-100分，其他区间分数则集中在58-65分，数据共75个样本。

此实验中，LLM表现较第一组略有提升，能提及20-25小时区间的高分集群，但核心问题仍未解决。Claude Sonnet 4.5与GPT-5仅关注到断点现象，未指出整体无相关的本质；Gemini 2.5 Pro虽推测学习时长与分数无必然联系，却未明确二者无显著相关的结论。整体而言，LLM识别此类数据异常的正确率仅约50%，远低于人类数据科学家的判断水平。

students <- read_csv("student.csv")

## Rows: 96 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): study_hours_weekly, exam_score
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

ggplot(students, aes(x = study_hours_weekly, y = exam_score)) +
  geom_point()

延伸：金融表格分类场景的特征名偏见验证

Bluffbench揭示的变量名偏见并非可视化解读独有的问题——2025年AlMarri等学者的研究（AlMarri et al., 2025）进一步验证：在金融表格分类任务中，LLM同样会受特征名的语义先验影响，甚至导致自解释与实际决策逻辑严重脱节。

该研究聚焦零样本LLMs在金融表格二分类任务的性能与可解释性，核心发现与Bluffbench的结论类似：

研究目标：评估零样本LLMs的\(\mathrm{ROC-AUC}\)/\(\mathrm{PR-AUC}\)性能，验证其自解释与\(\mathrm{SHAP}\)（反映真实特征贡献）的一致性，对比LLM与传统模型（LightGBM）的决策逻辑差异
数据集与模型：覆盖3个不平衡金融任务（破产预测：7027样本，\(\mathrm{正例比例}=3.9\%\)；贷款还款：79206样本，\(\mathrm{正例比例}=80.3\%\)；执照到期：23001样本，\(\mathrm{正例比例}=2.1\%\)），测试Gemma-2-9B等4款开源LLM，以LightGBM为传统标杆
可解释性方法：\(\mathrm{SHAP}\)值通过PermutationExplainer计算（抽样250样本，\(C=5\)背景聚类，\(T=4\)排列）；LLM自解释含无理由/带理由2类提示
核心结果：
1. LLM分类性能中等（平均\(\mathrm{ROC-AUC}=0.526\sim0.637\)，\(\mathrm{PR-AUC}=0.304\sim0.322\)），Gemma-2-9B表现最优
2. LLM自解释与\(\mathrm{SHAP}\)一致性最高仅57.2%（略超33%随机基线），特征名语义偏见是关键诱因
3. LLM与LightGBM的特征影响方向一致率（\(\mathrm{Dir\%}\)）仅50~60%，\(\tau_{\text{Kendall}}\)（秩相关系数）近0，决策逻辑差异显著

该研究提出的缓解措施与Bluffbench的工具优化思路互补：

部署指导：
- 禁止直投场景：高合规金融任务（信贷审批、反洗钱）、需特征级解释的场景
- 试点场景：小数据欠拟合任务、低风险分诊、混合模型（LLM+LightGBM）辅助信号源
具体措施：
1. 特征匿名化：用\(f_1\)/\(f_2\)替代“现金储备”“净利润”等带偏见名称
2. 序列化鲁棒性测试：验证特征顺序/格式对LLM判断的影响
3. 超基线一致性报告：采用Cohen’s κ、Matthews相关系数替代简单百分比

核心启示：人类与工具的协同边界

Bluffbench与AlMarri等的研究共同揭示：LLMs解读数据时存在“见预期所见”的系统性偏差，易受变量/特征名的语义暗示、先验知识影响，难以忠实反映数据真实趋势。

这一发现为实践提供两大方向： - 对数据科学家：需保持怀疑精神，不可完全依赖LLM解读结果，必须主动验证结论； - 对工具开发者：需优化产品设计（如Databot的“中间结果透明化+控制权移交”机制），向用户展示分析逻辑，定期将操作权交还给人类，避免LLM偏差导致错误决策。

参考文献

Couch, S., & Altman, S. (2025, November 13). Introducing Bluffbench. Posit. https://posit.co/blog/introducing-bluffbench/
AlMarri, S., Ravaut, M., Juhasz, K., Marti, G., Al Ahbabi, H., & Elfadel, I. (2025). Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification. arXiv preprint arXiv:2512.00163. https://arxiv.org/abs/2512.00163v1