ReflectRAG：通过GRPO优化的迭代反射技术提升检索增强型生成效果

《Neurocomputing》：ReflectRAG: Enhancing retrieval-augmented generation with GRPO-optimized iterative reflection

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　陈宣和|李宇辰|毕友义|王帅强|孔凌鹤|尹大伟上海交通大学全球学院，中国上海摘要检索增强生成（RAG）通过将回答与外部文档关联起来来提升问答（QA）的效果，但仍然存在检索不相关和单次生成错误的问题。为了解决这些问题，我们提出了ReflectRAG框架，该框架通过结构化规划、迭代反

陈宣和|李宇辰|毕友义|王帅强|孔凌鹤|尹大伟

上海交通大学全球学院，中国上海

摘要

检索增强生成（RAG）通过将回答与外部文档关联起来来提升问答（QA）的效果，但仍然存在检索不相关和单次生成错误的问题。为了解决这些问题，我们提出了ReflectRAG框架，该框架通过结构化规划、迭代反思和强化学习（RL）来改进RAG。具体来说，ReflectRAG首先检索并重新排序文档，然后根据基于事实的规划生成答案。接着，ReflectRAG利用反思模块迭代地评估和优化计划和答案，并通过RL优化反思模块。通过整合规划、反思和RL，ReflectRAG能够提供精确且与上下文一致的答案，为开放领域QA提供了一个强大的解决方案。为了证明我们提出模型的有效性，我们在MS MARCO v2.1、TriviaQA和Natural Questions（NQ）上进行了广泛的实验。在三个开放领域数据集上的比较结果显示，ReflectRAG相对于BASE RAG基线，在MS MARCO v2.1、TriviaQA和NQ上获得了高达+0.31的绝对F1分数，证明了ReflectRAG在提高QA系统的事实准确性和连贯性方面的有效性。源代码可在以下链接获取：https://github.com/uncxlirh/ReflectRAG。

引言

检索增强生成（RAG）通过将生成的回答与外部检索到的文档关联起来，在开放领域问答中取得了显著进展[1]。然而，当前RAG系统存在一些问题，当面对不相关或冗余的文档时，模型经常生成幻觉性或不连贯的答案，这在需要精确性和事实准确性的答案时尤为严重。现有的单次生成方法进一步限制了错误检测和纠正的机会，从而影响了回答的可靠性和完整性。

现有方法试图用不同的策略来解决这些挑战。传统的检索技术，如BM25[2]，已经有效地根据词频和逆文档频率[3]选择候选文档。然而，尽管BM25提供了计算效率高的基线，但它依赖于表面层次的匹配，往往无法捕捉更深层次的语义细微差别。相比之下，密集检索方法（如DPR）使用上下文嵌入进行更精细的选择[4]。为了提高检索到的候选文档的质量，已经结合了最先进的大型语言模型[5]、[6]的重新排序策略。除了开放领域QA之外，多阶段检索器-重排序器流程也在事实核查的声明检索中得到了系统研究，突显了将高效检索与神经重排序结合的实际价值[7]。尽管有这些进步，大多数现有流程仍然局限于单次生成过程，这没有提供系统性的机制来纠正初始错误或遗漏。

同时，一个更根本的盲点是生成前缺乏对检索内容的结构化组织。主流的RAG流程通常只是简单地将前

' role="presentation">

段文本连接起来，然后提示大型语言模型（LLM）进行响应，忽略了明确规划的必要性。没有这样的结构化规划，模型很难区分关键信息和噪声。尽管一些研究引入了迭代自我优化机制或验证循环[8]、[9]，但这些模块通常作为事后修补添加，并且与早期阶段独立运作，未能将规划、生成和优化整合到一个统一且连贯的流程中。

为了解决这些限制，我们引入了ReflectRAG。与现有的仅将验证作为事后步骤的纠正性或自我反思RAG方法不同，ReflectRAG将三个紧密耦合的组件整合到一个统一的流程中。首先，规划阶段在生成开始之前将检索到的证据组织成结构化、基于事实的表示——从源头解决噪声敏感性问题，而不是在答案已经确定之后。其次，迭代反思模块根据检索到的段落批判性评估草稿答案并提出有针对性的修改，提供了单次流程所缺乏的系统性错误纠正机制。第三，强化学习阶段通过群体相对策略优化（GRPO）[10]优化反思模型，使用F1、ROUGE-L和BERTScore[11]等评估指标作为训练时的奖励信号，确保学到的批判转化为可测量的答案改进。我们进行了广泛的实验来证明ReflectRAG的有效性。在MS MARCO v2.1、TriviaQA和Natural Questions上的实验结果显示出了显著的提升，包括一致的绝对F1分数提高，以及ROUGE-L和BERTScore的改善。因此，ReflectRAG为用于信息中心应用（如搜索和对话系统）的神经QA流程提供了实际的增强。

本工作的主要贡献可以总结如下：

•
我们研究了RAG中幻觉性和不连贯输出的问题，并提出了一个统一的框架ReflectRAG，该框架利用基于事实的规划来组织检索到的内容，解决了非结构化单次生成的局限性。
•
我们设计了一个迭代反思模块，该模块批判性地评估和优化输出，并使用群体相对策略优化（GRPO）来使反思过程与下游评估指标对齐。
•
我们进行了广泛的实验来证明ReflectRAG的有效性。在MS MARCO v2.1、TriviaQA和Natural Questions上的实验结果显示了一致的提升——绝对F1分数提高了+0.31，同时ROUGE-L和BERTScore也得到了改善。

章节片段

方法论

ReflectRAG是一个新颖的框架，它通过结合基于结构的生成、迭代反思机制和RL来改进QA中的RAG，以优化答案。本节描述了整个过程，分为三个核心组成部分：（1）文档检索与重排序、（2）答案生成规划和（3）基于反思与优化学习（RL）的微调。

实验设置

在本节中，我们进行了广泛的实验来证明ReflectRAG的有效性。我们首先详细介绍了三个开放领域QA数据集，然后介绍了评估指标和实验设置。最后，我们报告了比较结果并进行了全面的定性分析。

结论

我们的实验确认了三个一致的发现。首先，仅结构化规划（PLAN）在MS MARCO、TriviaQA和NQ上的平均绝对F1分数提高了+0.1018，表明在生成之前组织检索到的证据显著减少了由噪声引起的错误。其次，添加了经过GRPO优化的迭代反思（REFLECT）后，平均F1分数进一步提高了+0.0940，尤其是在需要精确事实提取的数据集上

CRediT作者贡献声明

陈宣和：撰写——原始草稿、可视化、软件、方法论、数据整理。李宇辰：撰写——审阅与编辑、监督、概念化。毕友义：撰写——审阅与编辑、项目管理、资金获取。王帅强：监督、资源。孔凌鹤：监督、资源。尹大伟：监督、资源。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

作者感谢国家自然科学基金（52575300）和中国国家重点研发计划（2022YFB4702400）的财政支持。

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT（OpenAI）来协助内容组织（例如，概述章节）并提高语言和可读性。使用该工具/服务后，作者根据需要审阅和编辑了内容，并对其承担全部责任

陈宣和目前是中国上海交通大学全球学院的大四学生，主修电气与计算机工程（ECE）。他的研究兴趣集中在自然语言处理领域，特别是检索增强生成（RAG）和大型语言模型（LLMs）。

摘要

引言

章节片段

相关工作

方法论

实验设置

结论

CRediT作者贡献声明

利益冲突声明

致谢

关于写作过程中生成式AI和AI辅助技术的声明

热点排行