1 min read

LLM:零样本检索、差异化路由与多模态增益的边界

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
66 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
67 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
68 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11

大模型技术实践与论文研究中,我们发现了一些与直觉相悖的关键结论。这些结论来自多数据集上的工程验证,值得系统记录。

系统提示词失效,工程三件套才是核心

相关博客:LLM:Harness Engineering——大模型Agent工程迭代

系统提示词在多数据集上均呈现负向增益。长期记忆、工具集与MCP中间件才是驾驭工程、提升性能的核心组件。提示词工程的价值正在被逐步替代,资源投入应优先转向工程能力建设而非调优文本指令。

这一结论与《Agentic Harness Engineering》论文的消融实验数据一致:系统提示词单独优化反而降低效果(-2.3%),而长期记忆(+5.6%)、工具集(+3.3%)、中间件(+2.2%)依次贡献正向增益。

零样本检索与跨Agent协作

相关博客:HyDE:零样本检索的假答案破局思路

零样本检索无需依赖标注数据与真实答案。大模型生成的假答案所提取的专业关键词,即可有效赋能检索过程。

跨Agent协作也可以通过文本摘要实现能力解耦。多Agent之间不需要共享完整上下文,摘要文本即可完成信息传递与任务交接,降低了系统复杂度与通信成本。

高精度不等于高效用

相关博客:LLM:量化部署系列(1)动态精度路由与低精度正则化的工程实践 · LLM:量化部署系列(2)用"躺平"和"用力过猛"理解量化路由

模型精度与效果并非正相关。精度高的大模型处理简单任务时,容易出现过度推理——模型在不需要深度分析的问题上消耗过多计算资源。

按任务难度做差异化路由:高精度模型负责复杂推理与决策,简单任务交给轻量模型处理。这一策略既能显著降低成本,又能提升整体系统性能。

通用大模型的定位:大脑而非通才

相关博客:LLM:多模态模型规模误区与分工协作架构解析

通用大模型的核心定位是任务决策与调度的"大脑",而非全领域通才。垂直专才模型在特定领域的效果仍优于通用模型,基础检索工具的稳定性和可解释性仍是不可替代的工程基础。

模型的边界应当清晰:不追求在所有任务上做到最优,而是做好调度与决策。

多模态非结构化数据的真实增益

相关博客:LLM:代码智能体入门核心概念界定与三大关键组件详解

多模态非结构化数据的落地增益极低。连通图、图片、时空轨迹等类型在实际业务场景中难以贡献显著效果,目前仅用户评论具有稀疏价值。

大模型的本质是提效传统数据挖掘,而非颠覆数据挖掘本身。对于结构化程度低、噪声高的非结构化数据,投入产出比需要谨慎评估。

落地下半场的核心约束

相关博客:LLM:Harness Engineering——大模型Agent工程迭代

大模型落地的核心工作已转向数据建设与模型训练部署。成本成为第一约束,落地需要以量化实验与问题修复为支撑。

真正具备高阶业务价值的,是围绕大模型能力重新设计产品逻辑的创新,而不是用大模型包装现有产品。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
66 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
67 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
68 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11