1 min read

LLM:重复提示词解锁非推理性能上限

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

在LLM(大语言模型)的使用场景中,提示词工程常被视为提升效果的关键,但复杂的设计往往让普通用户望而却步。谷歌研究院(Google Research)的研究团队于2025年提出了一种零门槛技巧,即重复提示词(Prompt Repetition),无需复杂设计,仅通过简单重复输入即可显著提升非推理类LLM的性能(Leviathan, Y., Kalman, M., & Matias, Y., 2025)。这一发现为LLM的高效使用提供了全新思路,尤其适用于日常信息提取、选择题解答等高频场景。

核心方法:简单重复,无需额外操作

重复提示词的操作逻辑极为简洁:将原本的单次输入<QUERY>(查询内容)直接修改为<QUERY><QUERY>,即完整复制粘贴查询内容一次,形成连续的重复输入。例如,原问题“下列哪组属于混合物而非化合物?A. 空气中的氧气和氮气 B. 食盐中的钠和氯 C. 水中的氢和氧 D. 氨中的氮和氢 请以‘答案是<选项>’的格式回复单个字母”,重复后则变为相同问题连续呈现两次。

这种设计无需添加额外引导语、示例或逻辑拆解,完全保留原始查询的结构和信息,仅通过重复动作实现性能提升,堪称零成本优化。

生效原理:基于LLM的因果模型特性

LLM本质上是因果语言模型(causal language models),其核心限制是过去的token无法关注未来的token,模型处理输入时按从左到右的顺序,先出现的内容无法反向关联后出现的信息,这导致输入token的顺序会直接影响预测效果。例如“<上下文><问题>”与“<问题><上下文>”两种格式,模型的处理结果往往存在差异(Leviathan et al., 2025)。

重复提示词通过将<QUERY>变为<QUERY><QUERY>,让第一次输入中的每个token都能被第二次输入中的所有token关注,反之亦然,从而打破了单一顺序下的信息关联限制。同时,研究团队观察到,经强化学习(RL)训练的推理模型常自发重复用户请求的部分内容,而该技巧将这种重复提前到并行化的预填充阶段(prefill stage),既不影响生成效率,又能模拟模型的自发优化行为。

实验验证:非推理场景效果显著

研究团队在2025年2-3月期间,通过官方API对7款主流LLM进行了测试,涵盖不同规模和厂商,包括Gemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet和Deepseek V3(Leviathan et al., 2025)。测试基准分为两类,二者定位与考察重点差异明显:5类标准任务为学界通用评估基准,覆盖多维度能力,其中ARC、OpenBookQA侧重常识与科学知识问答,需模型调用已有知识库判断;GSM8K、MATH聚焦数学计算与逻辑推导,前者为基础算术题,后者难度更高,涉及代数、几何等领域;MMLU-Pro则是多学科综合任务,覆盖人文、社科、理工等范畴,考察模型综合知识储备。2类自定义任务为本次研究专门设计,聚焦特定信息处理场景,针对性更强,其中NameIndex为名单检索任务(从50个名字中找出第25个),MiddleMatch推测为中间信息匹配任务,二者均侧重精准信息抓取,而非复杂逻辑推理。同时,研究还设置了两类核心配置变量:一是呈现顺序配置(问题优先 vs 选项优先),仅针对选择题任务,差异在于信息呈现先后;二是推理设置配置(启用推理 vs 禁用推理),决定模型是否进行分步思考,两类配置直接影响重复提示词的效果表现。

非推理场景:47胜0负,准确率大幅提升

在禁用推理(不要求模型分步思考,仅需直接输出结果)的场景下,重复提示词在70组“模型-基准”组合中实现47组显著获胜(按麦克内马尔检验(McNemar test),p值<0.1),且无一组失败(Leviathan et al., 2025)。不同任务配置下的效果呈现明显规律,且与任务特性深度关联:

  • 选择题任务中,“选项优先”(先给选项、后给问题)的提升幅度大于“问题优先”(先给出问题,再列出选项)。前者模式下,模型先处理选项却缺乏问题上下文,信息关联难度更高,重复提示词恰好弥补了这一缺口;后者模型可先明确核心诉求再匹配选项,对重复优化的需求相对较低;

  • 自定义任务中效果尤为突出,例如Gemini 2.0 Flash-Lite在NameIndex任务(从50个名字中找出第25个)的准确率从21.33%升至97.33%。

推理场景:中性至轻微正面

当要求模型分步思考(启用推理,即思维链模式)时,重复提示词的效果变为中性至轻微正面:28组组合中5组获胜、1组失败、22组持平(Leviathan et al., 2025)。这一结果源于推理任务与模型特性的适配性,推理模型本身会在分步思考过程中自发重复部分提示内容,已具备类似的信息强化能力,因此外部重复的优化空间被大幅压缩,远不及非推理场景的提升效果。

对照与变体:增益源于重复而非长度

为验证效果并非来自输入长度增加,研究团队设置了填充法(Padding)作为对照:用句号(.)将输入填充至与重复提示词相同的长度,但实验结果显示该方法无任何性能提升,证明增益确实来自内容重复而非长度增加(Leviathan et al., 2025)。

此外,研究还测试了两种变体:

  • 详细重复(Prompt Repetition (Verbose)):添加“Let me repeat that”等引导语,效果与基础版相近;

  • 三次重复(Prompt Repetition ×3):将查询内容重复三次,在NameIndex、MiddleMatch等自定义任务中表现优于基础版,进一步拓展了应用潜力。

核心优势:高效兼容,零成本部署

重复提示词的核心优势在于无副作用的优化,具体体现在三方面:

  1. 不增加生成成本:生成的token数量与原始提示词完全一致,不会额外消耗算力或延长输出长度;

  2. 延迟基本不变:除Anthropic系列模型(Claude Haiku、Claude 3.7 Sonnet)处理超长请求(如NameIndex任务或三次重复场景)时,预填充阶段延长导致延迟上升外,其他模型的延迟与原始提示词无差异(Leviathan et al., 2025);

  3. 无缝兼容现有系统:输出格式与原始提示词完全一致,无需修改现有部署逻辑,可直接替换使用,普通用户也能快速上手。

适用边界与相关工作

适用场景划分

  • 高效场景:Gemini 2.0 Flash、GPT-4o、Deepseek V3等非推理导向模型,尤其适用于信息提取、选择题解答、名单检索等无需复杂逻辑推导的任务;

  • 有限场景:自带思维链(Chain-of-Thought)的推理模型(如GPT-5 Thinking、DeepSeek R1),这类模型本身具备较强的信息关联能力,重复提示词的优化效果有限。

与其他提示技巧的区别

现有主流提示技巧中,思维链提示(Chain of Thought, CoT)和“分步思考”(Think step by step)虽能提升推理性能,但需为不同任务设计特定示例,且会增加生成token数量和延迟。而重复提示词无需定制化设计,且可与这类技巧协同使用(效果中性)(Leviathan et al., 2025)。

其他相关研究中,仅重复提示词中的问题部分,未发现性能提升;重复输入能改善文本嵌入效果;让模型重读问题可提升推理能力,这些研究从不同角度印证了重复对LLM的积极作用,但均未涉及完整重复提示词的非推理场景优化(Leviathan et al., 2025)。

未来方向与实践建议

研究团队提出了13个潜在探索方向,核心包括:用重复提示词微调模型、仅重复提示词部分内容(适配长文本)、拓展至图像等非文本模态、探索三次以上重复的适用场景等(Leviathan et al., 2025)。

对于普通用户,实践建议如下:

  1. 日常非推理任务(如查资料、做选择题、提取名单信息)中,直接重复输入内容,无需额外修改;

  2. 处理超长文本时,可尝试三次重复或仅重复关键信息部分;

  3. 使用Anthropic系列模型且输入较长时,需注意可能的延迟上升,根据实际需求选择是否使用。

总结

重复提示词以极简操作实现了高效优化,解决了复杂提示词才有效的认知。在非推理场景中,它能显著提升LLM的信息关联能力和准确率,且具备零成本、易部署、兼容性强的优势,为普通用户和企业级应用提供了效率提升路径。随着后续研究对变体形式和适用场景的进一步拓展,这一技巧有望成为LLM非推理任务的默认优化选项。

参考文献

Leviathan, Y., Kalman, M., & Matias, Y. (2025). Prompt repetition improves non-reasoning LLMs. arXiv preprint arXiv:2512.14982v1 [cs.LG].

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03