在数据分析、图像识别等依赖LLM(大型语言模型)或VLM(视觉语言模型)的工作场景中,模型常出现一类隐蔽失误:面对与常识冲突的内容(如篡改后呈负相关的钻石价格图表、三条腿的动物图像),会因先验知识干扰而忽视真实视觉证据,导致解读偏差。两项权威研究系统揭示了这一问题,并提供了可直接落地的解决方案。
研究发现,模型失误的核心并非视觉能力不足,在无先验关联的通用数据(如仅标注x/y的图表)中,主流模型解读准确率超85%,但当输入信息与固有认知冲突时,准确率会骤降至17%左右。关键原因在于,模型倾向于优先调用先验知识(如钻石克拉数与价格正相关、动物有四条腿),而非信任视觉输入。对此,可通过多维度干预降低风险:移除变量名称、图像背景等易激活先验的线索;用结构化提示词引导模型先客观描述视觉特征,再结合常识解读;借助工具提取关键数据(如图表数值序列、图像目标检测结果)辅助验证;控制模型思考时间避免过度依赖常识;长期可通过反事实数据微调模型或采用专项训练的小模型,强化视觉证据优先的认知。
相关研究原文可参考:
Posit博客:https://posit.co/blog/llm-plot-interpretation/ (Wickham, H., & Bryan, J., 2025)
arXiv论文:https://arxiv.org/pdf/2505.23941 (Vo, A., et al., 2025)
建议在后续数据分析、模型应用等工作中,结合具体场景灵活落地上述方案,降低偏见导致的决策误差。