基于强化学习的对话策略,结合大型语言模型(LLM)辅助的决策蒸馏技术

《IEEE Access》:Reinforcement learn-based dialogue policy with LLM-assisted decision distillation

【字体: 时间:2026年05月26日 来源:IEEE Access 3.6

编辑推荐:

   摘要: 对话策略是管道对话系统的基本组成部分,负责指导对话生成并确保符合既定的输出约束。传统的对话策略学习方法通常涉及基于深度强化学习(RL)的序列决策模型。然而,这些基于深度RL的对话策略经常面临样本效率低下的挑战,这会阻碍它们的性能。大型语言模型(LLMs)的最新进展在各个

  

摘要:

对话策略是管道对话系统的基本组成部分,负责指导对话生成并确保符合既定的输出约束。传统的对话策略学习方法通常涉及基于深度强化学习(RL)的序列决策模型。然而,这些基于深度RL的对话策略经常面临样本效率低下的挑战,这会阻碍它们的性能。大型语言模型(LLMs)的最新进展在各个领域展示了卓越的能力,促使人们探索它们增强对话策略的潜力。在本文中,我们提出了一个名为P3L的新框架,该框架将LLMs的微调与基于策略的RL方法相结合,以优化对话策略学习。我们的方法采用了一种强大的反馈机制来收集和分析交互数据,从而促进LLMs的微调。这使得从LLMs获得的洞察可以被纳入基于RL的代理的学习过程中作为正则化项。这种LLM决策的整合旨在通过利用LLMs丰富的上下文理解和生成能力来解决传统RL方法的局限性。实验结果表明,P3L显著提高了对话策略学习的效率,其性能优于仅依赖RL技术的代理。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号