在 RAG 场景里,用单向量 embedding 表示整篇文档或段落是最常见的做法。
遇到精度不够时,我们通常会通过增加训练数据或提升向量维度来改善效果。
但最近 Google DeepMind 的研究发现:基于单向量的检索天生存在极限(LIMIT)。
原因是,当维度为 d、文档数为 n 时,要从中选出 Top-k 的相关内容,可能的组合数会爆炸式增长。
即使训练是完美的,它们能处理的文档数量,也只会随着 embedding 维度 (d) 的三次方增长。 一旦 n 达到几百到几千的临界点,即便 d 很大,**Top-2 的召回率也可能低于 20%**。
换句话说,有些「该在一起的文章」,单向量模型「天生聚不起来」。 哪怕是看似简单的 Top-2 检索,在几百篇文档规模下也会频繁出错。
因此,当查询涉及多个概念组合或复杂逻辑时,
- 交叉编码器 (Cross-encoder)
- 多向量检索 (Multi-vector Retrieval)
- 混合检索 (Hybrid Retrieval)
往往能取得更好的效果。
原文:
arxiv.org