【RAG】LongRAG：利用长上下文LLMs增强检索增强生成

前言

现有的RAG框架通常使用100词的短段落作为检索单元，这种设计使得检索器需要在大量语料库中搜索，增加了工作负担，并且容易引入难负样本，影响性能。LongRAG框架为了解决这一问题，该框架使用长检索单元（最多4K词），显著减少了语料库的大小（从22M减少到600K），从而减轻了检索器的负担，并提高了检索性能。

一、方法

LongRAG框架由两个主要组件构成：长检索器（Long Retriever）和长阅读器（Long Reader）。LongRAG框架的目标是通过使用长检索单元来平衡检索器和阅读器之间的工作负载，并利用长上下文语言模型的能力。

长检索单元：LongRAG框架通过组合整个文档或相关文档组来形成长检索单元，这些单元的长度超过4K个token。如果原始文档已经很长（例如超过4K个令牌），则将其视为一个单一的检索单元。对于较短的文档，则通过相关文档分组来形成单个检索单元。

下面是一种用于将多个短文档分组以形成长检索单元的算法：

算法的核心思想是根据文档之间的相关性将它们分组，以便在长检索单元中保留更多的上下文信息。

长检索器：长检索器的任务是在整个语料库中搜索相关的上下文信息，而不是寻找精确的细粒度短上下文。检索过程分为三个步骤：形成长检索单元、相似性搜索和聚合检索结果。相似性搜索使用编码器将查询和检索单元映射到向量空间，并通过点积计算它们之间的相似性。聚合检索结果时，将前K个最相似的检索单元连接起来作为长上下文。相似性搜索：使用编码器EQ(·)将输入问题映射到d维向量，使用另一个编码器EC(·)将检索单元映射到d维向量。定义问题和检索单元之间的相似性为向量的点积：