
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习的对话策略,结合大型语言模型(LLM)辅助的决策蒸馏技术
《IEEE Access》:Reinforcement learn-based dialogue policy with LLM-assisted decision distillation
【字体: 大 中 小 】 时间:2026年05月26日 来源:IEEE Access 3.6
编辑推荐:
摘要: 对话策略是管道对话系统的基本组成部分,负责指导对话生成并确保符合既定的输出约束。传统的对话策略学习方法通常涉及基于深度强化学习(RL)的序列决策模型。然而,这些基于深度RL的对话策略经常面临样本效率低下的挑战,这会阻碍它们的性能。大型语言模型(LLMs)的最新进展在各个
生物通微信公众号