1 min read

HyDE:零样本检索的假答案破局思路

在传统检索系统陷入无标注数据不可用的困境时,HyDE(Hypothetical Document Embeddings)提供了一种极其巧妙的零样本破局思路。它的核心逻辑甚至有些反直觉:与其让模型死磕查询与文档的匹配,不如先让大语言模型(LLM)一本正经地胡说八道。

具体而言,面对用户的提问,系统首先指令 LLM 生成一段不存在的、假设性的假答案;随后,系统会提取这段假答案的语义向量,去海量资料库中匹配真实的文档。实验证明,由于稠密向量天然具备过滤细节、保留主题的有损压缩特性,哪怕 LLM 编造了错误的数字或人名,只要其核心语义骨架不离题,就能精准牵引出真正相关的权威文献。

这种将相关性建模外包给生成模型、让相似度检索专注文档匹配的解耦设计,不仅在无监督场景下吊打传统关键词检索,更为后续诸多检索增强生成(RAG)技术提供了灵感源泉。

参考文献

Gao, L., Ma, X., Lin, J., & Callan, J. (2023). Precise zero-shot dense retrieval without relevance labels. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1762-1777. https://doi.org/10.18653/v1/2023.acl-long.99