基于强化学习的对话策略，结合大型语言模型（LLM）辅助的决策蒸馏技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Reinforcement learn-based dialogue policy with LLM-assisted decision distillation

【字体：大中小】 时间：2026年05月26日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：对话策略是管道对话系统的基本组成部分，负责指导对话生成并确保符合既定的输出约束。传统的对话策略学习方法通常涉及基于深度强化学习（RL）的序列决策模型。然而，这些基于深度RL的对话策略经常面临样本效率低下的挑战，这会阻碍它们的性能。大型语言模型（LLMs）的最新进展在各个

摘要：

对话策略是管道对话系统的基本组成部分，负责指导对话生成并确保符合既定的输出约束。传统的对话策略学习方法通常涉及基于深度强化学习（RL）的序列决策模型。然而，这些基于深度RL的对话策略经常面临样本效率低下的挑战，这会阻碍它们的性能。大型语言模型（LLMs）的最新进展在各个领域展示了卓越的能力，促使人们探索它们增强对话策略的潜力。在本文中，我们提出了一个名为P3L的新框架，该框架将LLMs的微调与基于策略的RL方法相结合，以优化对话策略学习。我们的方法采用了一种强大的反馈机制来收集和分析交互数据，从而促进LLMs的微调。这使得从LLMs获得的洞察可以被纳入基于RL的代理的学习过程中作为正则化项。这种LLM决策的整合旨在通过利用LLMs丰富的上下文理解和生成能力来解决传统RL方法的局限性。实验结果表明，P3L显著提高了对话策略学习的效率，其性能优于仅依赖RL技术的代理。

联系信箱：

粤ICP备09063491号

摘要：

热点排行