利用Q学习正则化决策Transformer缓解基于离线强化学习的推荐系统中的分布偏移问题周宇（Yu Zhou）郭新宇（Xinyu Guo）姜远波（Yuanbo Jiang）方家轩（Jiaxuan Fang）王金强（Jin-Qiang Wang）支鹏（Peng Zhi）刘刚（Gang Liu）周睿（Rui Zhou）李凌辉（Ling-Huey Li）李冠清（Kuan-Ching Li） + 另有2位作者

《Information》：Mitigating Distribution Shift in Offline RL-Based Recommender Systems with a Q-Learning Regularization Decision Transformer Yu Zhou, Xinyu Guo, Yuanbo Jiang, Jiaxuan Fang, Jin-Qiang Wang, Peng Zhi, Gang Liu, Rui Zhou, Ling-Huey Li and Kuan-Ching Li + 2 authors

【字体：大中小】 时间：2026年04月14日 来源：Information 2.9

编辑推荐：

　　摘要在序列推荐系统中优化长期用户满意度是一个关键挑战。离线强化学习（RL）通过从历史交互日志中学习推荐策略提供了一个有前景的解决方案，而无需承担在线探索的高成本。然而，离线RL存在严重的分布偏移问题：学习到的策略往往高估了分布外（OOD）物品的价值，导致

　　摘要在序列推荐系统中优化长期用户满意度是一个关键挑战。离线强化学习（RL）通过从历史交互日志中学习推荐策略提供了一个有前景的解决方案，而无需承担在线探索的高成本。然而，离线RL存在严重的分布偏移问题：学习到的策略往往高估了分布外（OOD）物品的价值，导致推荐结果不可靠，从而影响用户满意度。为了解决这个问题，我们提出了一种名为Q学习正则化决策Transformer（QRDT）的新框架。该框架基于决策Transformer架构，将推荐任务视为序列预测任务，以捕捉复杂的用户兴趣动态。为了减轻分布偏移，QRDT将Kullback–Leibler（KL）散度和最大熵正则化集成到Q值函数中，从而在鼓励数据分布内多样化探索的同时，实现保守的长期价值估计。在四个真实的亚马逊电子商务数据集（CDs、Clothing、Cellphones和Beauty）上进行的广泛实验表明，QRDT在大多数场景下都表现出竞争力，并且优于PGPR基线。具体来说，所提出的方法在命中率（HR）上提高了2.99%，在标准化折扣累积收益（NDCG）上提高了2.19%，在召回率上提高了0.94%，在精确度上提高了0.84%，验证了我们正则化方法的有效性。

1. 引言
推荐系统在现代数字平台中至关重要，它们能够过滤大量数据并将用户与相关信息连接起来，显著提升用户体验和商业收入[1,2,3]。已经提出了许多技术来解决推荐问题。传统技术，如基于内容的过滤[2]、基于矩阵分解（MF）的方法[4,5]、逻辑回归[6]、分解机[7]及其变体[8,9]，通过关注历史偏好来独立处理每个用户请求[10]。尽管取得了一些成功，特别是在引入MF之后，这些方法仍然存在严重问题，包括数据稀疏性、冷启动问题以及建模复杂特征交互的能力有限[1,2,11,12,13]。随后，深度学习（DL）在推荐系统领域变得流行起来。基于DL的推荐系统利用深度神经网络从用户行为中学习复杂的、非线性的端到端表示，展现出前沿的性能[14,15]。然而，这些模型往往不可解释且对数据需求量大（特别是在显式反馈稀缺的情况下）。一些最近的方法在考虑移动性的推荐中处理了序列动态[15]。最关键的是，它们难以建模推荐系统中用户-物品交互的动态和序列性质，限制了它们优化长期用户满意度的能力。强化学习（RL）已被证明是建模用户兴趣时间演变的有效框架，解决了传统静态方法的不足[16,17,18,19]。基于RL的推荐系统将推荐过程建模为序列决策问题，根据长期用户反馈动态调整策略[17]。然而，在线RL存在一个重大缺点：数据效率低下，因为训练需要昂贵的在线交互来积累足够的轨迹[11,20]。这种低效率使得基于RL的推荐系统成为一个艰巨的任务。离线强化学习（RL）的最新进展提供了一个有前景的解决方案，它使代理能够从推荐系统中容易获得的广泛静态历史数据集中获取洞察[21,22]。尽管离线RL与推荐系统之间有完美的契合，但其应用受到分布偏移问题的严重挑战[23,24,25]。这种偏移发生在记录的数据的行为策略和学习到的目标策略之间，导致对分布外（OOD）行为的危险高估，最终影响推荐的可靠性和质量。一些著名的离线RL算法，如批量约束Q学习[26]、保守Q学习[27]和TD3+BC[28]，已被开发出来以提供更保守的价值估计。然而，这些方法主要使用多层感知器（MLP）架构来近似价值函数，并未设计为明确捕捉用户交互数据中固有的复杂、长距离序列依赖性。最近，决策Transformer[29]通过将其视为条件预测任务，为RL引入了强大的序列建模视角。然而，原始的DT框架本质上是一种模仿方法，它缺乏惩罚未见状态-动作对的明确机制。在电子商务的嘈杂和稀疏环境中，标准的DT可能会盲目推荐训练数据中高回报的物品，而不考虑OOD动作的不确定性，从而在分布偏移下导致性能不佳。在这项工作中，我们提出了一种新的框架，即Q学习正则化决策Transformer（QRDT），以缓解在分布偏移下优化长期用户满意度的挑战。通过将离线RL视为决策Transformer[29]的序列建模问题，我们的方法有效地学习了长期用户行为动态。具体来说，QRDT将双重正则化机制集成到Q值函数中，包括Kullback–Leibler（KL）散度正则化和最大熵正则化。KL正则化限制学习到的策略接近记录数据诱导的行为策略，从而降低选择具有不可靠价值估计的OOD动作的风险。同时，最大熵正则化鼓励在数据分布的支持范围内进行充分探索，促进策略的鲁棒性和多样性。通过结合这些术语，QRDT将基于价值的约束集成到决策Transformer中，实现了保守估计和多样化探索之间的稳健平衡。

主要贡献可以总结如下：
提出了一种新的离线强化学习框架，称为QRDT，它结合了Q值学习和基于序列的决策建模，用于在分布偏移下优化长期推荐。
在提出的QRDT框架中，通过集成KL散度正则化和最大熵正则化，为Q值函数引入了双重正则化策略。这种设计明确包含了减轻分布偏移的机制，这是原始决策Transformer所缺乏的，从而在促进有效分布内探索的同时，实现保守的价值估计。

在四个真实的亚马逊电子商务数据集上进行了广泛的实验。结果表明，QRDT在多个指标上一致性地提高了推荐性能，表明其在减轻离线推荐中的分布偏移方面的潜在有效性。

2. 相关工作
2.1. 序列推荐系统
包括基于内容和协同过滤方法的推荐系统，以静态方式建模用户-物品交互，只能捕捉用户的一般偏好。序列推荐系统将用户-物品交互视为动态序列，并考虑序列依赖性，以捕捉用户当前和最近的偏好，从而提供更准确的推荐[30,31]。早期研究主要依赖于循环神经网络（RNN）[32]及其变体，如门控循环单元（GRU）[32]和长短期记忆（LSTM）[33]，来捕捉用户交互序列中的长期依赖性。例如，GRU4Rec[32]利用门控循环单元来利用用户的交互历史。随着技术的发展，基于自注意力机制的模型在序列推荐中取得了显著成功，如SASRec[34]和BERT4Rec[35]。BERT4Rec采用深度双向自注意力结构来学习序列模式。然而，这些工作主要关注优化即时参与度，如点击率。FeedRec[36]旨在提高序列推荐中的长期参与度。然而，它基于一个强有力的假设，即推荐多样性将提高用户粘性。这些方法大多将推荐视为短期预测或多类分类问题[37,38]，这使得直接优化长期累积奖励变得困难。这一限制促使人们采用基于强化学习的方法进行推荐。

2.2. 用于推荐的离线强化学习
RL因能够捕捉潜在的未来奖励而受到推荐系统研究社区的广泛关注[39,40,41]。然而，直接部署在线RL通常是不切实际的，因为尝试和错误的成本高昂，且在探索阶段可能会损害用户满意度。离线RL从预先收集的固定数据集中学习最优策略，而不是通过与环境的直接交互，因此不需要进一步的在线交互[42]。这意味着它避免了在线环境探索的高成本和对用户体验的风险。这一特性使得在拥有大规模记录的用户-物品交互数据集的推荐系统中，离线RL变得越来越受欢迎。然而，在这样的数据集上训练目标策略可能会导致遇到OOD状态-动作对，从而导致Q值估计不准确[43,44]。为了超越行为策略并最大化长期奖励，目标策略可能会高估OOD动作的Q值，在策略迭代过程中反复选择这些状态-动作对。这种由分布偏移引起的外推错误会阻碍离线数据的有效利用，最终可能导致离线RL训练失败。大量工作集中在通过各种策略来缓解这个问题。一种广泛研究的方法是行为约束和模仿学习，其目的是防止学习到的策略??与行为策略??显著偏离，或者只模仿数据集中的高价值动作。例如，批量约束Q学习[26]引入了变分自动编码器来建模行为策略，并限制数据分布内的动作选择，从而减轻外推错误。相关方法，包括BRAC[45]、TD3+BC[28]和保守Q学习[27]，进一步将行为正则化或保守惩罚直接集成到策略或价值函数中。批评家正则化回归（CRR）[46]利用批评家（Q函数）引导策略朝向高Q值的动作，而BAIL[47]和基于策略的模仿方法[48]通过模仿学习关注数据中的高质量动作。尽管这些方法有效地减轻了分布偏移，但它们往往导致过于保守的策略，这可能限制了在复杂推荐环境中的性能提升。另一种关键方法是基于模型的离线RL，它学习环境的动态模型以减轻分布偏移。例如，MOPO[49]和MORL[50]通过对模型预测施加不确定性惩罚来减轻分布偏移。相比之下，COMBO[51]应用保守Q学习原则，在使用模型生成的合成数据优化时确保对OOD状态-动作对的悲观估计。PLAS[52]和LAPO[53]等方法通过条件变分自动编码器在潜在动作空间中学习策略，隐式避免OOD动作。尽管这些方法有效，但它们通常依赖于显式的价值函数估计或策略约束。因此，它们往往难以完全捕捉推荐等序列决策问题中固有的长距离时间依赖性。

2.3. 决策Transformer和序列建模
近年来，基于Transformer的序列建模方法，如决策Transformer（DT）[29]，为强化学习（RL）提供了新的视角。DT将传统的RL问题（优化价值函数）转化为条件序列建模任务。具体来说，给定过去的状态、动作和期望的回报（返回值），DT被训练来预测将实现该回报的下一个动作。DT直接利用Transformer强大的序列建模能力来隐式学习策略，从而避免了传统RL中所需的复杂显式Q值或优势函数估计。此外，它可以有效地捕捉整个交互序列中的长距离时间依赖性和复杂兴趣动态[54]。然而，尽管DT在RL基准测试中表现优异，但其原始形式并未内在地包含解决离线RL中分布偏移问题的保守机制。总体而言，现有的离线RL推荐方法要么强调保守的价值估计，要么专注于序列建模，但很少在统一框架中结合这两个方面。这一限制激发了我们提出的框架QRDT。它旨在将Q学习正则化机制集成到决策Transformer架构中，使其能够从序列建模中受益，同时稳健地处理离线推荐环境中普遍存在的OOD问题。

3. 方法论
在本节中，我们介绍了提出的QRDT，它将价值函数正则化与决策Transformer相结合。如图1所示，QRDT由三个主要组件组成：价值函数正则化模块、演员-批评家模块和决策Transformer模块。价值函数正则化模块基于Q学习范式，结合了KL散度正则化和最大熵正则化。通过限制目标策略与行为策略之间的偏差，该模块在分布偏移下提供保守的Q值估计，同时仍鼓励足够的分布内探索以识别高价值状态-动作对。基于正则化的价值函数，采用演员-批评家模块来优化目标策略。批评家在保守正则化下评估状态-动作值，而演员在熵控制下更新策略。决策Transformer将离线轨迹建模为序列，并利用因果自注意力来捕捉用户行为中的长期时间依赖性。通过将动作预测条件化为历史状态、动作和回报，决策Transformer补充了基于价值的学习过程，并在分布偏移下实现有效的长期视野决策。图1. QRDT架构的概述。(a) 价值函数正则化模块，采用KL散度和最大熵正则化，用于限制目标策略与行为策略之间的差异，并鼓励足够的分布内探索。(b) 决策Transformer模块，将离线轨迹序列化为回报值、状态和动作的序列，表示为(^??1,??1,??1,…,^????,????,????)。这些序列通过因果Transformer进行处理，以实现自回归动作预测。(c) 行为者-评论家网络，用于动作评估和参数更新。3.1. 价值函数正则化我们正则化设计的必要性基于对分布偏移如何在离线Q学习中引起误差积累的分析。遵循标准理论框架，让??*?(??,??)表示最优Q函数，?????(??,??)表示第k次迭代时的函数近似值。我们定义第k次迭代的贝尔曼残差为当前估计值与贝尔曼目标值之间的绝对差异：?????(??,??)=∣?????(??,??)?^??????????1?(??,??)∣，其中^????是贝尔曼算子。总估计误差?????(??,??) =|?????(??,??)???*?(??,??)|受到递归不等式的约束：?????(??,??)≤?????(??,??)+???max??′?????′～???(·|??,??)?[?????1?(??′,??′)]。这个不等式揭示了一个关键弱点：总误差取决于当前拟合误差????和来自下一个状态的最大动作??′的传播误差。如果策略选择了一个数据之外的（OOD）动作??′，?????1?(??′,??′)将变得不受限制，导致自举误差爆炸。在实际的深度强化学习中，我们无法直接最小化这个理论上限。相反，标准算法通过最小化均方贝尔曼误差来抑制局部误差项????。标准损失函数表示为??????????????????????(??)=12?????,??～???[(???(??,??)?^?????^?????(??,??))2]，其中^??是目标网络估计值。然而，最小化方程(3)仅控制训练数据上的????，没有解决方程(2)中的第二项（传播的OOD误差）。因此，价值函数经常错误地为未见过的动作分配过高的值，严重降低了策略性能。为了明确约束这种传播的OOD误差，我们的框架从保守Q学习（CQL）[27]中汲取了灵感，采用了其价值正则化策略。CQL的关键思想是惩罚OOD动作的Q值，同时最大化观察到的动作的Q值。为此，我们引入了一个采样策略???(??|??)来表示OOD动作的分布。保守正则化目标表示为??(??)=min???max???(????～??,??～???(??|??)?[???(??,??)]?????～??,??～^?????(??|??)?[???(??,??)])+??????????????????????(??)。这一项实质上降低了从???(??|??)采样的动作的价值估计，并提高了数据支持动作的估计值，确保了真实价值函数的保守下限。训练过程被构建为一个最小-最大优化问题：在对抗性分布??下最小化Q值，而??则试图最大化预期Q值。然而，如果我们允许??无约束地最大化Q值，它将不可避免地只关注估计值最高的动作。这种尖锐的分布会导致训练不稳定。通过引入KL散度正则化项??(??)来缓解这个问题，该正则化项用于平滑优化景观。正则化项??(??)定义为??(??)=????????(???(??|??)?||????(??|??))。然而，仅仅约束OOD动作是不够的，我们还必须确保策略具有足够的表达能力来识别数据中的最佳动作。因此，我们引入了最大熵正则化项来保持策略的随机性。策略的熵???(???(??|??))定义为???(???(??|??))=?????(??|??)～???[?log????(???(??|??))，其中p表示状态转换函数，代表???(??|??)的概率密度。最后，我们通过将基础保守目标与定义的分布正则化器结合起来，提出了统一的目标函数???(??)。我们以抽象形式表达这种整合：???(??)=??(??)???(??)+??????(???(??|??))。通过展开项??(??)、??(??)和???(???(??|??))，我们得到了最终的可计算目标函数：???(??)=min???max???(????～??,??～???(??|??)?[???(??,??)]?????～??,??～^?????(??|??)?[???(??,??)])+12?????,??～???[(???(??,??)?^????^?????(??,??))2]?????????(???(??|??)?||????(??|??))+??????(???(??|??))。与现有的离线RL目标相比，这种表述明确地将保守的价值学习与基于KL的策略约束和熵驱动的探索结合起来，从而在分布偏移下实现了更平衡和稳定的优化。3.2. 决策Transformer如图2所示，决策Transformer将强化学习问题重新表述为自回归序列建模任务，通过建模历史决策轨迹来增强序列决策。决策Transformer将轨迹视为由回报值、状态和动作组成的时间有序序列，序列化为??=(^??1,??1,??1,^??2,??2,??2,…,^????,????,????)，其中^?????(??=1,2,?,??)表示从时间步t开始的回报值，定义为^????=??∑??′=??????′。图2. 决策Transformer模型的架构。决策Transformer将状态、动作和回报值映射为向量表示，并通过位置编码进行增强，其中相同时间步的元素共享相同的时间戳。具体来说，编码器组件负责捕获序列内的时间关系和长距离依赖性。它利用多头自注意力机制来计算注意力分数，有效地建模轨迹的复杂动态。处理后的序列随后被输入到自回归Transformer模型中。与在线RL不同，这个过程完全依赖于历史交互数据，而不需要与环境的实时交互。通过将未来累积奖励作为输入序列的组成部分，决策Transformer建模马尔可夫决策过程（MDP），使得每个动作预测不仅依赖于之前的状态和动作，还明确依赖于目标回报。在因果掩码的约束下，输出层生成当前时间步的预测动作。因此，模型生成的动作序列基于期望的未来奖励，而不仅仅是依赖于立即的过去奖励，从而有效地最大化了长期预期累积奖励。尽管决策Transformer在序列决策方面非常强大，但它缺乏处理离线环境中分布偏移的显式机制，这可能导致在遇到未见过的状态-动作对时选择不可靠的动作。为了缓解这一关键限制，我们提出了QRDT框架。QRDT的关键新颖之处在于价值正则化和序列建模的紧密结合，使策略能够同时受益于长期轨迹建模和保守的价值估计。在此基础上，完整的训练过程在算法1中得到了形式化，该过程协同优化了正则化的价值函数和基于序列的策略。算法1 QRDT的训练过程需要：离线数据集??、熵权重??、最大迭代次数K。确保：优化的Q函数????、决策Transformer策略????。1：初始化Q网络参数??和Transformer参数??。2：对于?? =1到K执行3：??????采样一批轨迹?? =(^??,??,??) ～??。4：??????// 第1步：价值函数正则化5：??????使用方程(4)计算对抗性分布???(??|??)和保守目标??(??)。6：??????使用方程(5)计算KL散度??(??)。7：??????// 第2步：贝尔曼误差最小化8：??????使用方程(3)计算??????????????????????(??)。9：??????// 第3步：统一目标计算10：??????使用方程(6)计算策略熵???(??)。11：??????使用方程(7)计算统一目标???(??) =??(??) ???(??) +??????(??)。12：??????// 第4步：参数更新13：??????通过梯度下降更新????：?? ←?? ???????????(??)。14：??????通过自回归序列建模损失更新决策Transformer ????。4. 实验环境和数据集4.1. 环境在本文中，所有实验都在运行Ubuntu 18.04.6 LTS的Linux服务器上进行。硬件配置包括一个Intel(R) Xeon(R) Silver 4110 CPU（32核 @ 2.10 GHz）、128 GB RAM和一个NVIDIA V100 GPU加速卡。我们使用Python 3.8.18和基于CUDA 11.8的PyTorch 2.1.2框架实现了所提出的方法和所有基线。我们使用Adam优化器进行网络优化，学习率为10?4。对于决策Transformer架构，我们采用了由4个编码器层和2个解码器层组成的编码器-解码器结构，嵌入维度为128，有3个注意力头。关于QRDT特定的正则化组件，最大熵正则化系数??通过在验证集上进行网格搜索来调整。具体来说，??被设置为0.5。我们使用了256的批量大小，并基于验证集上的NDCG性能进行了100个时代的训练。所有实验都在五个随机种子上进行，报告了平均结果。4.2. 数据集和评估指标我们的实验在四个来自不同领域的公共亚马逊电子商务数据集上进行。这些数据集在稀疏性方面表现出显著差异，允许全面评估模型的鲁棒性。表1展示了数据集的总体统计信息。表2展示了数据集的稀疏性统计信息。对于每个数据集，我们将历史交互随机划分为训练集和测试集，其中30%用于测试，70%用于训练。表1. 我们离线实验中使用的亚马逊电子商务数据集的统计信息。表2. 我们离线实验中使用的亚马逊电子商务数据集的稀疏性分析。为了构建离线强化学习环境，我们对原始亚马逊数据集应用了标准预处理步骤。首先，为了减轻原始数据的极端稀疏性，我们采用了5核过滤策略，只保留至少有五次交互的用户和项目。其次，对于每个用户，交互记录按时间顺序排序，以防止训练期间的前瞻性偏差。第三，我们将推荐任务构建为马尔可夫决策过程。具体来说，状态????定义为用户直到时间步t的历史交互序列，截断到最大长度?? =50。较短的序列用零填充。动作????对应于时间步?? +1时交互的目标项目。由于数据集主要包含隐式反馈，我们为观察到的正面交互分配了二进制即时奖励???? =1。最后，为了构建QRDT的目标序列，我们通过累积每个离线轨迹的未来奖励来计算回报值。我们使用四个标准指标来评估推荐性能：标准化折扣累积增益（NDCG）、召回率（HR）和精确度（Precision），这些指标捕捉了推荐项目的相关性和排名质量。所有指标的推荐列表长度设置为?? =10。4.3. 对比方法我们将提出的QRDT与推荐系统领域中的一些代表性基线方法进行了比较，包括传统的协同过滤方法、结合侧信息的方法以及最近的基于强化学习的技术。我们离线评估中包括的基线方法如下：BPR [55]：一种基础方法，利用成对方法从隐式反馈中学习个性化排名。它优化了给定用户观察到的项目与未观察到的项目之间的得分差异。VBPR [56]：BPR的扩展，它将从产品图像中提取的视觉特征纳入潜在因子模型。它通过利用丰富的侧信息来提高推荐质量。CKE [57]：一种将协同过滤与知识图嵌入（KGE）结合的方法。它通过将用户-项目交互数据和项目的关系知识图结构映射到统一空间来共同学习用户和项目的潜在表示。JRL [58]：一种专注于Top-N推荐的方法，它通过从异构信息源共同学习项目表示，有效地捕捉了复杂的关系和特征。PGPR [59]：一种较新的方法，它将推荐过程构建为知识图上的序列推理任务。它使用强化学习代理来找到最佳路径（即解释性推理链）来推荐项目，从而提高了准确性和可解释性。5. 实验结果为了全面评估我们提出的框架的有效性，我们在四个亚马逊电子商务数据集上进行了广泛的比较实验，与代表性的基线方法进行了对比。表3总结了我们的模型与几种不同方法在亚马逊电子商务数据集上的整体性能比较。所有指标都是在?? =10时计算的。最高结果以粗体显示。如结果所示，QRDT在NDCG、召回率（HR）和精确度（Precision）方面显著优于传统基线（BPR、VBPR、CKE、JRL），验证了序列建模相对于静态交互方法的有效性。与强大的基线PGPR相比，QRDT在NDCG上平均提高了2.19%，在召回率上提高了0.94%，在HR上提高了2.99%，在精确度上提高了0.84%。这种性能优势主要归功于决策Transformer架构，它利用自注意力更有效地捕捉了用户行为中的长距离依赖性。通过条件化回报值，QRDT更好地优化了长期用户满意度，从而在服装和手机数据集上获得了更好的排名指标（NDCG）。值得注意的是，在某些特定情况下，PGPR在召回率和HR方面仍然具有竞争力，在CD和手机数据集上超过了QRDT，在服装数据集上的精确度上也超过了QRDT，在美容数据集上的NDCG上也超过了QRDT。为了进一步探索不同领域之间的性能模式，我们分析了数据集特征与模型效果之间的关系。如表2所示，数据集在密度方面呈现出明显的层次结构。我们观察到，在相对密集的数据集（如服装和美容领域），QRDT相对于PGPR基线的性能优势更为显著。在这些领域中，决策变换器的自注意力机制能够有效捕捉到复杂的长距离序列依赖关系，而这些关系能够通过更丰富的历史数据得到更好的支持。相反，在较为稀疏的数据集（如CD和手机领域），性能差距缩小了。这种模式表明，在高度稀疏的环境中，序列信号是碎片化的，这挑战了变换器对长周期动态的建模能力。在这种情况下，像PGPR这样的基于知识的基线模型通过其明确的关系结构（知识图谱路径）获得了优势，这些结构提供了补偿序列数据缺失的先验信息。尽管如此，即使在这些具有挑战性的环境中，我们的QRDT框架仍然具有竞争力。这种鲁棒性主要归功于基于Q学习的保守性正则化机制，它起到了保护作用。虽然这种机制限制了变换器的探索范围，防止了对新奇行为（OOD）的灾难性高估，但它确保了模型即使在序列信号较弱的情况下也能保持可靠的排名策略。这一实证趋势证实，QRDT适用于特征丰富、密度高的推荐场景，而在超稀疏场景中的有效性则受到数据覆盖范围的限制。

为了研究我们框架的训练稳定性和收敛效率，我们监控了在四个亚马逊电子商务数据集上整个训练过程中的平均奖励。训练曲线如图3所示，QRDT在所有类别中都表现出一致的收敛趋势。具体来说，服装数据集上的模型获得了最高的稳定奖励（约为0.35），而手机数据集的最终奖励最低（约为0.20）。关于收敛动态，美容数据集在初始阶段（训练步骤<5000）表现出显著的波动性，随后迅速稳定在一个高水平，而CD数据集则显示出更平滑的轨迹，最终稳定在约0.25。图3显示了QRDT在亚马逊电子商务数据集上的奖励情况。我们将这些差异归因于数据的固有特性。服装数据集上的优越性能可能是因为其多样化和细粒度的产品类别为算法提供了更丰富的监督信号，以优化回报。相反，手机数据集的较小规模限制了潜在的效用提升。此外，美容数据集的初始波动表明代理需要一个必要的探索期来使其策略与复杂的状态-动作空间对齐，而CD数据集的稳定性则表明优化过程更为平稳。

实验结果表明，QRDT在多个亚马逊电子商务数据集上实现了稳定且具有竞争力的性能，特别是在NDCG和HR指标上表现突出。这些指标强调了排名质量和早期位置的准确性，表明QRDT在捕捉长期用户偏好方面是有效的，而不仅仅是优化短期交互信号。这一优势源于它结合了序列建模和价值正则化。通过集成决策变换器，QRDT能够从交互历史中建模长期用户行为，而KL散度和最大熵正则化则稳定了Q值估计，减少了对新奇行为的过度估计，并提高了模型在分布变化下的鲁棒性。尽管总体效果良好，但QRDT并非在所有指标和数据集上都始终优于PGPR。特别是在CD和服装数据集上，PGPR在某些召回率和精确度指标上表现出优势。这可以通过两种方法之间的结构差异来解释。PGPR明确利用了知识图谱推理路径，这在具有强关系结构和明确定义的项目连接的领域中特别有益。相比之下，QRDT侧重于长期序列优化和保守的策略学习，这可能会以牺牲短期召回率为代价来提高稳定性和长周期性能。这表明QRDT和PGPR优化的是不同的目标，它们是互补的，而不是绝对的优劣关系。

QRDT也存在一些局限性。它对KL散度正则化的依赖使得模型本质上较为保守。虽然这种保守性防止了对新奇行为的过度估计，但在稀疏数据集（如CD和手机）中限制了探索范围，这也是其召回率低于PGPR的原因之一。方法论上，QRDT的自注意力机制具有???(??2)的复杂度。虽然在处理截断序列的实验中是可以管理的，但对于具有长用户历史和严格延迟要求的实时工业部署来说，这构成了可扩展性的障碍。最后，QRDT假设用户偏好是来自离线日志的静态信息。在受到概念漂移（例如季节性趋势）影响的动态现实世界环境中，如果在线分布与历史数据偏离，缺乏主动的环境交互可能会导致性能下降。

在这项工作中，我们研究了离线强化学习中的分布偏移问题及其在推荐系统中的应用。为了减轻由于行为和目标策略分布不匹配而产生的外推误差，我们提出了QRDT，这是一个结合了价值函数正则化和决策变换器的离线强化学习框架。通过引入KL散度正则化和最大熵目标，QRDT提供了一种原理性的方法来减少对新奇状态-动作对的高估，同时实现了稳健的序列决策建模。我们在多个亚马逊电子商务数据集上的实验结果表明，QRDT在大多数场景中都实现了稳定且具有竞争力的性能，与传统基线相比表现良好。这些发现验证了其在实际推荐场景中的有效性。尽管这些进展很有前景，但离线推荐仍然受到有偏和静态日志数据的根本限制。诸如反馈循环[60,61]、有限的探索范围以及缺乏反事实反馈[60,62]等问题继续限制了发现真正新颖用户兴趣的能力。未来的工作将集中在开发更灵活的探索机制，并结合因果或反事实推理，以更好地捕捉推荐的动态影响，朝着更加适应性和主动性的推荐系统发展。

热点排行