利用逆强化学习实现保护隐私的个性化自动驾驶车辆变道

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Vehicular Technology》：Privacy-Preserving Personalized Autonomous Vehicle Lane Change Using Inverse Reinforcement Learning

【字体：大中小】 时间：2026年04月23日 来源：IEEE Transactions on Vehicular Technology 7.1

编辑推荐：

　　隐私保护下的个性化驾驶行为建模与轨迹生成方法，采用最大熵逆强化学习结合贝塞尔曲线参数化技术，通过差分隐私加密实现云端数据安全训练，实验验证其优于传统差分隐私机制，有效捕捉多场景下的驾驶员偏好差异。

摘要：

本文提出了一种利用最大熵逆强化学习（MaxEnt IRL）来模拟驾驶员变道行为的方法。该方法旨在生成反映个人驾驶偏好的个性化变道轨迹，同时确保用户隐私。为此，从驾驶员处收集驾驶数据并用于训练模型，在基于云的训练过程中使用基于尺度的转换对数据进行加密。由于贝塞尔曲线能够生成平滑连续的路径，因此利用贝塞尔曲线来参数化变道轨迹。然后使用MaxEnt IRL算法推断奖励函数，该函数通过学习描述变道行为的成本函数的最优权重来表示每位驾驶员的偏好。通过在多个真实世界数据上对该方法进行测试，证明了其在各种条件下捕捉个人驾驶风格的有效性。将所提出的轨迹加密方法与一种基准差分隐私机制进行了比较，结果明确显示所提出的方法表现更优。实验结果表明，该方法能够生成与个别驾驶员行为高度一致的变道路径，为自动驾驶中的个性化提供了一种方法。

引言

变道是驾驶中的一个关键方面，它可能显著影响交通流量、安全性和驾驶员舒适度[2]、[3]、[4]、[5]。随着近年来自动驾驶技术的显著进步，模拟和复制类似人类的变道行为变得越来越重要。传统的变道建模方法通常依赖于预定义的规则或路径，这可能无法充分捕捉个别驾驶员的偏好和决策过程[6]、[7]。此外，随着传感器和通信技术的发展，已经收集了大量车辆轨迹数据。因此，许多研究人员采用了数据驱动的模型来研究变道行为。例如，已经使用了各种机器学习技术，如神经网络[8]、[9]、[10]、[11]和强化学习[12]、[13]，来捕捉驾驶操作的复杂性。尽管这些方法取得了有希望的结果，但神经网络和强化学习也存在一些明显的缺点。首先，神经网络的可解释性有限，难以理解其预测背后的原因[14]。其次，强化学习对奖励函数的设计非常敏感[15]、[16]。为了克服这些限制，本文采用逆强化学习（IRL）从专家示范中推断出潜在的奖励函数，为建模复杂的驾驶行为提供了一个更具解释性和鲁棒性的框架。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行