大模型技术实践与论文研究中,我们发现了一些与直觉相悖的关键结论。这些结论来自多数据集上的工程验证,值得系统记录。
系统提示词失效,工程三件套才是核心
系统提示词在多数据集上均呈现负向增益。长期记忆、工具集与MCP中间件才是驾驭工程、提升性能的核心组件。提示词工程的价值正在被逐步替代,资源投入应优先转向工程能力建设而非调优文本指令。
这一结论与《Agentic Harness Engineering》论文的消融实验数据一致:系统提示词单独优化反而降低效果(-2.3%),而长期记忆(+5.6%)、工具集(+3.3%)、中间件(+2.2%)依次贡献正向增益。
零样本检索与跨Agent协作
相关博客:HyDE:零样本检索的假答案破局思路
零样本检索无需依赖标注数据与真实答案。大模型生成的假答案所提取的专业关键词,即可有效赋能检索过程。
跨Agent协作也可以通过文本摘要实现能力解耦。多Agent之间不需要共享完整上下文,摘要文本即可完成信息传递与任务交接,降低了系统复杂度与通信成本。
高精度不等于高效用
相关博客:LLM:量化部署系列(1)动态精度路由与低精度正则化的工程实践 · LLM:量化部署系列(2)用"躺平"和"用力过猛"理解量化路由
模型精度与效果并非正相关。精度高的大模型处理简单任务时,容易出现过度推理——模型在不需要深度分析的问题上消耗过多计算资源。
按任务难度做差异化路由:高精度模型负责复杂推理与决策,简单任务交给轻量模型处理。这一策略既能显著降低成本,又能提升整体系统性能。
通用大模型的定位:大脑而非通才
通用大模型的核心定位是任务决策与调度的"大脑",而非全领域通才。垂直专才模型在特定领域的效果仍优于通用模型,基础检索工具的稳定性和可解释性仍是不可替代的工程基础。
模型的边界应当清晰:不追求在所有任务上做到最优,而是做好调度与决策。
多模态非结构化数据的真实增益
多模态非结构化数据的落地增益极低。连通图、图片、时空轨迹等类型在实际业务场景中难以贡献显著效果,目前仅用户评论具有稀疏价值。
大模型的本质是提效传统数据挖掘,而非颠覆数据挖掘本身。对于结构化程度低、噪声高的非结构化数据,投入产出比需要谨慎评估。
落地下半场的核心约束
大模型落地的核心工作已转向数据建设与模型训练部署。成本成为第一约束,落地需要以量化实验与问题修复为支撑。
真正具备高阶业务价值的,是围绕大模型能力重新设计产品逻辑的创新,而不是用大模型包装现有产品。