在LLM(大语言模型)的使用场景中,提示词工程常被视为提升效果的关键,但复杂的设计往往让普通用户望而却步。谷歌研究院(Google Research)的研究团队于2025年提出了一种零门槛技巧,即重复提示词(Prompt Repetition),无需复杂设计,仅通过简单重复输入即可显著提升非推理类LLM的性能(Leviathan, Y., Kalman, M., & Matias, Y., 2025)。这一发现为LLM的高效使用提供了全新思路,尤其适用于日常信息提取、选择题解答等高频场景。
核心方法:简单重复,无需额外操作
重复提示词的操作逻辑极为简洁:将原本的单次输入<QUERY>(查询内容)直接修改为<QUERY><QUERY>,即完整复制粘贴查询内容一次,形成连续的重复输入。例如,原问题“下列哪组属于混合物而非化合物?A. 空气中的氧气和氮气 B. 食盐中的钠和氯 C. 水中的氢和氧 D. 氨中的氮和氢 请以‘答案是<选项>’的格式回复单个字母”,重复后则变为相同问题连续呈现两次。
这种设计无需添加额外引导语、示例或逻辑拆解,完全保留原始查询的结构和信息,仅通过重复动作实现性能提升,堪称零成本优化。
生效原理:基于LLM的因果模型特性
LLM本质上是因果语言模型(causal language models),其核心限制是过去的token无法关注未来的token,模型处理输入时按从左到右的顺序,先出现的内容无法反向关联后出现的信息,这导致输入token的顺序会直接影响预测效果。例如“<上下文><问题>”与“<问题><上下文>”两种格式,模型的处理结果往往存在差异(Leviathan et al., 2025)。
重复提示词通过将<QUERY>变为<QUERY><QUERY>,让第一次输入中的每个token都能被第二次输入中的所有token关注,反之亦然,从而打破了单一顺序下的信息关联限制。同时,研究团队观察到,经强化学习(RL)训练的推理模型常自发重复用户请求的部分内容,而该技巧将这种重复提前到并行化的预填充阶段(prefill stage),既不影响生成效率,又能模拟模型的自发优化行为。
实验验证:非推理场景效果显著
研究团队在2025年2-3月期间,通过官方API对7款主流LLM进行了测试,涵盖不同规模和厂商,包括Gemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet和Deepseek V3(Leviathan et al., 2025)。测试基准分为两类,二者定位与考察重点差异明显:5类标准任务为学界通用评估基准,覆盖多维度能力,其中ARC、OpenBookQA侧重常识与科学知识问答,需模型调用已有知识库判断;GSM8K、MATH聚焦数学计算与逻辑推导,前者为基础算术题,后者难度更高,涉及代数、几何等领域;MMLU-Pro则是多学科综合任务,覆盖人文、社科、理工等范畴,考察模型综合知识储备。2类自定义任务为本次研究专门设计,聚焦特定信息处理场景,针对性更强,其中NameIndex为名单检索任务(从50个名字中找出第25个),MiddleMatch推测为中间信息匹配任务,二者均侧重精准信息抓取,而非复杂逻辑推理。同时,研究还设置了两类核心配置变量:一是呈现顺序配置(问题优先 vs 选项优先),仅针对选择题任务,差异在于信息呈现先后;二是推理设置配置(启用推理 vs 禁用推理),决定模型是否进行分步思考,两类配置直接影响重复提示词的效果表现。
非推理场景:47胜0负,准确率大幅提升
在禁用推理(不要求模型分步思考,仅需直接输出结果)的场景下,重复提示词在70组“模型-基准”组合中实现47组显著获胜(按麦克内马尔检验(McNemar test),p值<0.1),且无一组失败(Leviathan et al., 2025)。不同任务配置下的效果呈现明显规律,且与任务特性深度关联:
选择题任务中,“选项优先”(先给选项、后给问题)的提升幅度大于“问题优先”(先给出问题,再列出选项)。前者模式下,模型先处理选项却缺乏问题上下文,信息关联难度更高,重复提示词恰好弥补了这一缺口;后者模型可先明确核心诉求再匹配选项,对重复优化的需求相对较低;
自定义任务中效果尤为突出,例如Gemini 2.0 Flash-Lite在NameIndex任务(从50个名字中找出第25个)的准确率从21.33%升至97.33%。
推理场景:中性至轻微正面
当要求模型分步思考(启用推理,即思维链模式)时,重复提示词的效果变为中性至轻微正面:28组组合中5组获胜、1组失败、22组持平(Leviathan et al., 2025)。这一结果源于推理任务与模型特性的适配性,推理模型本身会在分步思考过程中自发重复部分提示内容,已具备类似的信息强化能力,因此外部重复的优化空间被大幅压缩,远不及非推理场景的提升效果。
对照与变体:增益源于重复而非长度
为验证效果并非来自输入长度增加,研究团队设置了填充法(Padding)作为对照:用句号(.)将输入填充至与重复提示词相同的长度,但实验结果显示该方法无任何性能提升,证明增益确实来自内容重复而非长度增加(Leviathan et al., 2025)。
此外,研究还测试了两种变体:
详细重复(Prompt Repetition (Verbose)):添加“Let me repeat that”等引导语,效果与基础版相近;
三次重复(Prompt Repetition ×3):将查询内容重复三次,在NameIndex、MiddleMatch等自定义任务中表现优于基础版,进一步拓展了应用潜力。
核心优势:高效兼容,零成本部署
重复提示词的核心优势在于无副作用的优化,具体体现在三方面:
不增加生成成本:生成的token数量与原始提示词完全一致,不会额外消耗算力或延长输出长度;
延迟基本不变:除Anthropic系列模型(Claude Haiku、Claude 3.7 Sonnet)处理超长请求(如NameIndex任务或三次重复场景)时,预填充阶段延长导致延迟上升外,其他模型的延迟与原始提示词无差异(Leviathan et al., 2025);
无缝兼容现有系统:输出格式与原始提示词完全一致,无需修改现有部署逻辑,可直接替换使用,普通用户也能快速上手。
适用边界与相关工作
适用场景划分
高效场景:Gemini 2.0 Flash、GPT-4o、Deepseek V3等非推理导向模型,尤其适用于信息提取、选择题解答、名单检索等无需复杂逻辑推导的任务;
有限场景:自带思维链(Chain-of-Thought)的推理模型(如GPT-5 Thinking、DeepSeek R1),这类模型本身具备较强的信息关联能力,重复提示词的优化效果有限。
与其他提示技巧的区别
现有主流提示技巧中,思维链提示(Chain of Thought, CoT)和“分步思考”(Think step by step)虽能提升推理性能,但需为不同任务设计特定示例,且会增加生成token数量和延迟。而重复提示词无需定制化设计,且可与这类技巧协同使用(效果中性)(Leviathan et al., 2025)。
其他相关研究中,仅重复提示词中的问题部分,未发现性能提升;重复输入能改善文本嵌入效果;让模型重读问题可提升推理能力,这些研究从不同角度印证了重复对LLM的积极作用,但均未涉及完整重复提示词的非推理场景优化(Leviathan et al., 2025)。
未来方向与实践建议
研究团队提出了13个潜在探索方向,核心包括:用重复提示词微调模型、仅重复提示词部分内容(适配长文本)、拓展至图像等非文本模态、探索三次以上重复的适用场景等(Leviathan et al., 2025)。
对于普通用户,实践建议如下:
日常非推理任务(如查资料、做选择题、提取名单信息)中,直接重复输入内容,无需额外修改;
处理超长文本时,可尝试三次重复或仅重复关键信息部分;
使用Anthropic系列模型且输入较长时,需注意可能的延迟上升,根据实际需求选择是否使用。
总结
重复提示词以极简操作实现了高效优化,解决了复杂提示词才有效的认知。在非推理场景中,它能显著提升LLM的信息关联能力和准确率,且具备零成本、易部署、兼容性强的优势,为普通用户和企业级应用提供了效率提升路径。随着后续研究对变体形式和适用场景的进一步拓展,这一技巧有望成为LLM非推理任务的默认优化选项。
参考文献
Leviathan, Y., Kalman, M., & Matias, Y. (2025). Prompt repetition improves non-reasoning LLMs. arXiv preprint arXiv:2512.14982v1 [cs.LG].