1 min read

LLM：重复提示词解锁非推理性能上限

2025/12/17

在LLM（大语言模型）的使用场景中，提示词工程常被视为提升效果的关键，但复杂的设计往往让普通用户望而却步。谷歌研究院（Google Research）的研究团队于2025年提出了一种零门槛技巧，即重复提示词（Prompt Repetition），无需复杂设计，仅通过简单重复输入即可显著提升非推理类LLM的性能（Leviathan, Y., Kalman, M., & Matias, Y., 2025）。这一发现为LLM的高效使用提供了全新思路，尤其适用于日常信息提取、选择题解答等高频场景。

核心方法：简单重复，无需额外操作

重复提示词的操作逻辑极为简洁：将原本的单次输入<QUERY>（查询内容）直接修改为<QUERY><QUERY>，即完整复制粘贴查询内容一次，形成连续的重复输入。例如，原问题“下列哪组属于混合物而非化合物？A. 空气中的氧气和氮气 B. 食盐中的钠和氯 C. 水中的氢和氧 D. 氨中的氮和氢请以‘答案是<选项>’的格式回复单个字母”，重复后则变为相同问题连续呈现两次。

这种设计无需添加额外引导语、示例或逻辑拆解，完全保留原始查询的结构和信息，仅通过重复动作实现性能提升，堪称零成本优化。

生效原理：基于LLM的因果模型特性

LLM本质上是因果语言模型（causal language models），其核心限制是过去的token无法关注未来的token，模型处理输入时按从左到右的顺序，先出现的内容无法反向关联后出现的信息，这导致输入token的顺序会直接影响预测效果。例如“<上下文><问题>”与“<问题><上下文>”两种格式，模型的处理结果往往存在差异（Leviathan et al., 2025）。

重复提示词通过将<QUERY>变为<QUERY><QUERY>，让第一次输入中的每个token都能被第二次输入中的所有token关注，反之亦然，从而打破了单一顺序下的信息关联限制。同时，研究团队观察到，经强化学习（RL）训练的推理模型常自发重复用户请求的部分内容，而该技巧将这种重复提前到并行化的预填充阶段（prefill stage），既不影响生成效率，又能模拟模型的自发优化行为。

实验验证：非推理场景效果显著

研究团队在2025年2-3月期间，通过官方API对7款主流LLM进行了测试，涵盖不同规模和厂商，包括Gemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet和Deepseek V3（Leviathan et al., 2025）。测试基准分为两类，二者定位与考察重点差异明显：5类标准任务为学界通用评估基准，覆盖多维度能力，其中ARC、OpenBookQA侧重常识与科学知识问答，需模型调用已有知识库判断；GSM8K、MATH聚焦数学计算与逻辑推导，前者为基础算术题，后者难度更高，涉及代数、几何等领域；MMLU-Pro则是多学科综合任务，覆盖人文、社科、理工等范畴，考察模型综合知识储备。2类自定义任务为本次研究专门设计，聚焦特定信息处理场景，针对性更强，其中NameIndex为名单检索任务（从50个名字中找出第25个），MiddleMatch推测为中间信息匹配任务，二者均侧重精准信息抓取，而非复杂逻辑推理。同时，研究还设置了两类核心配置变量：一是呈现顺序配置（问题优先 vs 选项优先），仅针对选择题任务，差异在于信息呈现先后；二是推理设置配置（启用推理 vs 禁用推理），决定模型是否进行分步思考，两类配置直接影响重复提示词的效果表现。

非推理场景：47胜0负，准确率大幅提升

在禁用推理（不要求模型分步思考，仅需直接输出结果）的场景下，重复提示词在70组“模型-基准”组合中实现47组显著获胜（按麦克内马尔检验（McNemar test），p值<0.1），且无一组失败（Leviathan et al., 2025）。不同任务配置下的效果呈现明显规律，且与任务特性深度关联：

选择题任务中，“选项优先”（先给选项、后给问题）的提升幅度大于“问题优先”（先给出问题，再列出选项）。前者模式下，模型先处理选项却缺乏问题上下文，信息关联难度更高，重复提示词恰好弥补了这一缺口；后者模型可先明确核心诉求再匹配选项，对重复优化的需求相对较低；
自定义任务中效果尤为突出，例如Gemini 2.0 Flash-Lite在NameIndex任务（从50个名字中找出第25个）的准确率从21.33%升至97.33%。

推理场景：中性至轻微正面

当要求模型分步思考（启用推理，即思维链模式）时，重复提示词的效果变为中性至轻微正面：28组组合中5组获胜、1组失败、22组持平（Leviathan et al., 2025）。这一结果源于推理任务与模型特性的适配性，推理模型本身会在分步思考过程中自发重复部分提示内容，已具备类似的信息强化能力，因此外部重复的优化空间被大幅压缩，远不及非推理场景的提升效果。

对照与变体：增益源于重复而非长度

为验证效果并非来自输入长度增加，研究团队设置了填充法（Padding）作为对照：用句号（.）将输入填充至与重复提示词相同的长度，但实验结果显示该方法无任何性能提升，证明增益确实来自内容重复而非长度增加（Leviathan et al., 2025）。

此外，研究还测试了两种变体：

详细重复（Prompt Repetition (Verbose)）：添加“Let me repeat that”等引导语，效果与基础版相近；
三次重复（Prompt Repetition ×3）：将查询内容重复三次，在NameIndex、MiddleMatch等自定义任务中表现优于基础版，进一步拓展了应用潜力。

核心优势：高效兼容，零成本部署

重复提示词的核心优势在于无副作用的优化，具体体现在三方面：

不增加生成成本：生成的token数量与原始提示词完全一致，不会额外消耗算力或延长输出长度；
延迟基本不变：除Anthropic系列模型（Claude Haiku、Claude 3.7 Sonnet）处理超长请求（如NameIndex任务或三次重复场景）时，预填充阶段延长导致延迟上升外，其他模型的延迟与原始提示词无差异（Leviathan et al., 2025）；
无缝兼容现有系统：输出格式与原始提示词完全一致，无需修改现有部署逻辑，可直接替换使用，普通用户也能快速上手。

适用边界与相关工作

适用场景划分

高效场景：Gemini 2.0 Flash、GPT-4o、Deepseek V3等非推理导向模型，尤其适用于信息提取、选择题解答、名单检索等无需复杂逻辑推导的任务；
有限场景：自带思维链（Chain-of-Thought）的推理模型（如GPT-5 Thinking、DeepSeek R1），这类模型本身具备较强的信息关联能力，重复提示词的优化效果有限。

与其他提示技巧的区别

现有主流提示技巧中，思维链提示（Chain of Thought, CoT）和“分步思考”（Think step by step）虽能提升推理性能，但需为不同任务设计特定示例，且会增加生成token数量和延迟。而重复提示词无需定制化设计，且可与这类技巧协同使用（效果中性）（Leviathan et al., 2025）。

其他相关研究中，仅重复提示词中的问题部分，未发现性能提升；重复输入能改善文本嵌入效果；让模型重读问题可提升推理能力，这些研究从不同角度印证了重复对LLM的积极作用，但均未涉及完整重复提示词的非推理场景优化（Leviathan et al., 2025）。

未来方向与实践建议

研究团队提出了13个潜在探索方向，核心包括：用重复提示词微调模型、仅重复提示词部分内容（适配长文本）、拓展至图像等非文本模态、探索三次以上重复的适用场景等（Leviathan et al., 2025）。

对于普通用户，实践建议如下：

日常非推理任务（如查资料、做选择题、提取名单信息）中，直接重复输入内容，无需额外修改；
处理超长文本时，可尝试三次重复或仅重复关键信息部分；
使用Anthropic系列模型且输入较长时，需注意可能的延迟上升，根据实际需求选择是否使用。

总结

重复提示词以极简操作实现了高效优化，解决了复杂提示词才有效的认知。在非推理场景中，它能显著提升LLM的信息关联能力和准确率，且具备零成本、易部署、兼容性强的优势，为普通用户和企业级应用提供了效率提升路径。随着后续研究对变体形式和适用场景的进一步拓展，这一技巧有望成为LLM非推理任务的默认优化选项。

参考文献

Leviathan, Y., Kalman, M., & Matias, Y. (2025). Prompt repetition improves non-reasoning LLMs. arXiv preprint arXiv:2512.14982v1 [cs.LG].