LLM：零样本检索、差异化路由与多模态增益的边界

大模型技术实践与论文研究中，我们发现了一些与直觉相悖的关键结论。这些结论来自多数据集上的工程验证，值得系统记录。

系统提示词失效，工程三件套才是核心

相关博客：LLM：Harness Engineering——大模型Agent工程迭代

系统提示词在多数据集上均呈现负向增益。长期记忆、工具集与MCP中间件才是驾驭工程、提升性能的核心组件。提示词工程的价值正在被逐步替代，资源投入应优先转向工程能力建设而非调优文本指令。

这一结论与《Agentic Harness Engineering》论文的消融实验数据一致：系统提示词单独优化反而降低效果（-2.3%），而长期记忆（+5.6%）、工具集（+3.3%）、中间件（+2.2%）依次贡献正向增益。

相关博客：HyDE：零样本检索的假答案破局思路

零样本检索无需依赖标注数据与真实答案。大模型生成的假答案所提取的专业关键词，即可有效赋能检索过程。

跨Agent协作也可以通过文本摘要实现能力解耦。多Agent之间不需要共享完整上下文，摘要文本即可完成信息传递与任务交接，降低了系统复杂度与通信成本。

相关博客：LLM：量化部署系列（1）动态精度路由与低精度正则化的工程实践 · LLM：量化部署系列（2）用"躺平"和"用力过猛"理解量化路由

模型精度与效果并非正相关。精度高的大模型处理简单任务时，容易出现过度推理——模型在不需要深度分析的问题上消耗过多计算资源。

按任务难度做差异化路由：高精度模型负责复杂推理与决策，简单任务交给轻量模型处理。这一策略既能显著降低成本，又能提升整体系统性能。

相关博客：LLM：多模态模型规模误区与分工协作架构解析

通用大模型的核心定位是任务决策与调度的"大脑"，而非全领域通才。垂直专才模型在特定领域的效果仍优于通用模型，基础检索工具的稳定性和可解释性仍是不可替代的工程基础。

模型的边界应当清晰：不追求在所有任务上做到最优，而是做好调度与决策。

相关博客：LLM：代码智能体入门核心概念界定与三大关键组件详解

多模态非结构化数据的落地增益极低。连通图、图片、时空轨迹等类型在实际业务场景中难以贡献显著效果，目前仅用户评论具有稀疏价值。

大模型的本质是提效传统数据挖掘，而非颠覆数据挖掘本身。对于结构化程度低、噪声高的非结构化数据，投入产出比需要谨慎评估。

相关博客：LLM：Harness Engineering——大模型Agent工程迭代

大模型落地的核心工作已转向数据建设与模型训练部署。成本成为第一约束，落地需要以量化实验与问题修复为支撑。