基于深度强化学习(DRL)的自主决策系统越来越多地应用于复杂和动态的环境中(Wang, Wang, Liang, Zhao, Huang, Xu, Dai, Miao, 2024; Zeng, Cai, Sun, Huang, Hao, 2025),例如工业机器人、群体系统和自动驾驶。在这些领域中,决策模型必须在各种环境条件下持续评估行动,同时满足严格的延迟和能耗限制。传统系统通常是为特定环境设计的,通用性有限。随着元学习(Hospedales, Antoniou, Micaelli, Storkey, 2022; Zhao, Fu, Chai, Zhu, Zhao, 2025b)和Transformer架构(Yang, Su, 2022; Zhao, Xue, Wu, Chang, Tan, Han, Zhou, 2025a)的不断进步,模型处理长序列决策和复杂状态表示的能力得到了显著提升,促进了环境间的知识共享和转移。因此,现代决策流程越来越强调在多个环境中的并行推理,而不是在孤立环境中的单步推理(Hu, Zhu, Zhao, Zhao, Hao, 2023; Wang, Liu, Qiu, Zhou, 2022; Wu, Tian, Zhang, Mao, Chen, 2024)。例如,在工业机器人系统中(An, Yuan, Tang, Xu, Wang, 2022; Huang, Chen, 2023),需要同时模拟多种任务配置以确保安全性、效率和鲁棒性。在群体智能和多智能体系统中(Hu, Li, Huang, Tang, Huai, Chen, 2024; Liu, Lai, Lin, Leung, 2022),决策模型必须同时评估多个智能体的交互,以实现可扩展的策略评估和协作行为推理。在自动驾驶中(Chen, Wu, Chitta, Jaeger, Geiger, Li, 2024; Chib, Singh, 2024),最近基于世界模型的方法进一步要求对多个假设场景进行并行评估。这些应用需要在线并行推理来处理多个环境。
多环境并行推理要求系统能够在异构且动态变化的环境中同时做出决策,这对通用性、调度灵活性和资源利用提出了严格的要求。这类系统通常在闭环的感知–规划–行动框架下运行,如图1所示。由于不同环境之间的感知模式、状态空间和任务目标存在差异,模型架构和推理过程差异很大,导致计算负载不平衡和实时推理性能及资源利用降低。因此,在系统层面协作优化硬件结构和资源分配是实现高效多环境并行推理的关键挑战。尽管CPU和GPU已被广泛用于决策推理,但它们在细粒度并行环境中的可扩展性往往受到资源竞争、非确定性延迟和有限能效的限制,这促使人们探索专用硬件加速器。基于ASIC的加速器可以在固定工作负载下实现高效率;然而,由于缺乏可重构性,它们不适合在开发和部署过程中快速演变的决策模型。另一方面,TPU和NPU平台通常依赖于固定的操作符集和同构的执行流程,这限制了它们支持涉及策略/价值估计、注意力机制和时间编码的异构DRL流程的能力。相比之下,FPGA提供了可重构的架构、细粒度的指令级控制和低功耗执行,使其在处理适应性和高度异构的决策工作负载时具有显著优势。
许多FPGA研究通过优化内存层次结构和计算单元,实现了对各种网络架构(包括CNNs(Guan, Guo, Li, Lai, Ding, Qian, Zhu, 2025; Luan Pham, Tran, Trung Duong Le, Nakashima, 2025)、SNNs(Chen, Chen, Wang, Wang, Fu, Lin, Liu, Shi, 2025; Cheng, Cao, Wang, Wang, Li, Zeng, 2025)和Transformers(Han, Wang, Chen, Chen, Guo, Liu, Tang, Xiao, Xu, Xu, Yang, Zhang, Tao, 2023; Huang, Shen, Li, Peng, Li, Su, Yu, 2025)的显著加速。然而,这些加速器通常针对特定网络结构进行定制,不适合涉及异构网络的决策工作流程。以往关于基于FPGA的DRL加速的研究探索了算法优化(Rothmann, Porrmann, 2024; Watanabe, Tsukada, Matsutani, 2021)、操作符重构(Jha, Dewangan, Lokhande, & Vishvakarma, Li, Ge, Zhou, Wu, 2022)和计算架构改进(Ge, Zhang, Li, Zhou, 2024; Hu, Hu, Khatri, 2022)。然而,大多数这些加速器假设单环境执行模型,计算围绕固定流程组织,导致模型算法和硬件之间的紧密耦合。多环境执行通常局限于主机,环境要么被序列化,要么被松散批量处理,这增加了延迟并限制了可扩展性。一些最近的努力考虑了用于DRL加速的异构架构(Li, Ge, Zhou, Wu, 2022; Meng, Iyer, Prasanna, 2025; Wiggins, Meng, Iyer, Prasanna, 2024),但这些设计主要关注在单环境假设下的操作符级卸载或流程加速。因此,它们没有明确解决在线多环境推理的挑战,即必须在严格的延迟约束下同时处理多个环境实例。仅通过集成异构资源无法实现高效的环境级并行决策。这需要明确的环境级调度、平衡的工作负载分配和细粒度的执行控制,而这些在当前的异构框架中大多缺失。
在这项工作中,我们提出了一个专门为基于DRL的在线多环境决策设计的异构计算框架。该框架不仅依赖于硬件集成,还引入了一个以决策为导向的模块化FPGA加速器,该加速器针对网络异构性进行了优化,并采用了离线指令驱动的执行模式,明确针对环境级并行性。每个环境实例都映射到一个独立的执行上下文,拥有自己的指令流,从而在系统层面实现多进程环境管理。异构设计基于计算工作负载分析进行显式的任务划分。专用FPGA加速器作为环境级并行执行器,能够以低延迟同时执行多个指令流。GPU处理高维感知工作负载,而CPU负责调度、同步和控制流管理。我们的设计真正实现了环境级在线并行推理,而不是来自批量处理或操作符级加速的隐式并行性。主要贡献总结如下:
•我们设计了一个以决策为导向的模块化FPGA加速器,包括轻量级的指令调度器、任务特定的计算单元和细粒度的片上内存管理器,其中指令级调度使计算与模型语义对齐,有效将模型与硬件解耦,无需硬件重新设计即可实现多样化的决策流程。
•我们采用离线指令驱动的调度机制结合环境级并行执行模式进行在线多环境决策,消除了批量级同步,实现了确定性延迟的推理,并在无需主机干预的情况下以全速硬件执行。
•我们开发了一个具有显式任务划分和任务感知调度机制的异构计算框架,该框架根据数值敏感性和工作负载特征将计算任务系统地分配到不同设备,解决了数值稳定性和实时推理的挑战,并有效扩展到感知密集型决策流程。
•我们在机器人控制和自动驾驶任务上评估了所提出的框架,与仅使用CPU和GPU的基线相比,能效提高了3.14倍和1.66倍,同时保持了高数值稳定性;即使在较低的FPGA时钟频率下,与最先进的基于FPGA的异构系统相比,延迟也降低了27.1%。