IPG-FRN：一种基于内在原型引导的特征重建网络，用于工业异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：IPG-FRN: Intrinsic prototype-guided feature reconstruction network for industrial anomaly detection

【字体：大中小】 时间：2026年03月25日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多环境实时决策中提出异构FPGA-CPU-GPU框架，通过模块化加速器、离线指令调度和任务分区实现高效能，实验显示能效提升3.14-3.88倍，延迟降低27.1%。

邓琪|杨洪斌|赵亚倩|李瑞阳|董刚

北京启普电子信息技术有限公司，中国北京，100095

摘要

基于深度强化学习（DRL）的自主决策系统，如应用于机器人控制和自动驾驶的系统，需要在多个并发环境中进行实时推理，同时满足严格的延迟和能耗限制。现有的基于FPGA的和异构加速器主要针对单环境或操作符级别的优化，这限制了它们对复杂决策模型和多环境并行推理的通用性。本文提出了一种异构FPGA–CPU–GPU框架，能够实现DRL模型的在线多环境决策。该框架的核心是一个以决策为导向的模块化加速器，它集成了轻量级的指令调度器、专用计算单元和细粒度的片上内存管理器，将模型设计与硬件解耦，从而无需硬件重新设计即可灵活部署基于DRL的决策流程。离线指令调度预先计算并组织特定于环境的推理任务，形成优化的执行流，实现几乎无主机开销的环境级并行执行。任务级划分和设备协调确保了在感知密集型场景下的数值稳定性和实时推理能力。实验结果表明，所提出的框架实现了亚毫秒级的推理延迟，并在能效方面取得了显著提升：与CPU和GPU实现相比，机器人控制的能效提高了3.88倍和2.28倍；与仅使用CPU和GPU的基线相比，自动驾驶的能效提高了3.14倍和1.66倍，同时保持了数值稳定性。即使在较低的FPGA时钟频率下，该框架也能将推理延迟降低27.1%，并且与最先进的基于FPGA的异构系统相比具有竞争力的能效，凸显了其在安全关键型自主系统中进行实时多环境决策的可扩展性、通用性和适用性。

引言

基于深度强化学习（DRL）的自主决策系统越来越多地应用于复杂和动态的环境中（Wang, Wang, Liang, Zhao, Huang, Xu, Dai, Miao, 2024; Zeng, Cai, Sun, Huang, Hao, 2025），例如工业机器人、群体系统和自动驾驶。在这些领域中，决策模型必须在各种环境条件下持续评估行动，同时满足严格的延迟和能耗限制。传统系统通常是为特定环境设计的，通用性有限。随着元学习（Hospedales, Antoniou, Micaelli, Storkey, 2022; Zhao, Fu, Chai, Zhu, Zhao, 2025b）和Transformer架构（Yang, Su, 2022; Zhao, Xue, Wu, Chang, Tan, Han, Zhou, 2025a）的不断进步，模型处理长序列决策和复杂状态表示的能力得到了显著提升，促进了环境间的知识共享和转移。因此，现代决策流程越来越强调在多个环境中的并行推理，而不是在孤立环境中的单步推理（Hu, Zhu, Zhao, Zhao, Hao, 2023; Wang, Liu, Qiu, Zhou, 2022; Wu, Tian, Zhang, Mao, Chen, 2024）。例如，在工业机器人系统中（An, Yuan, Tang, Xu, Wang, 2022; Huang, Chen, 2023），需要同时模拟多种任务配置以确保安全性、效率和鲁棒性。在群体智能和多智能体系统中（Hu, Li, Huang, Tang, Huai, Chen, 2024; Liu, Lai, Lin, Leung, 2022），决策模型必须同时评估多个智能体的交互，以实现可扩展的策略评估和协作行为推理。在自动驾驶中（Chen, Wu, Chitta, Jaeger, Geiger, Li, 2024; Chib, Singh, 2024），最近基于世界模型的方法进一步要求对多个假设场景进行并行评估。这些应用需要在线并行推理来处理多个环境。

多环境并行推理要求系统能够在异构且动态变化的环境中同时做出决策，这对通用性、调度灵活性和资源利用提出了严格的要求。这类系统通常在闭环的感知–规划–行动框架下运行，如图1所示。由于不同环境之间的感知模式、状态空间和任务目标存在差异，模型架构和推理过程差异很大，导致计算负载不平衡和实时推理性能及资源利用降低。因此，在系统层面协作优化硬件结构和资源分配是实现高效多环境并行推理的关键挑战。尽管CPU和GPU已被广泛用于决策推理，但它们在细粒度并行环境中的可扩展性往往受到资源竞争、非确定性延迟和有限能效的限制，这促使人们探索专用硬件加速器。基于ASIC的加速器可以在固定工作负载下实现高效率；然而，由于缺乏可重构性，它们不适合在开发和部署过程中快速演变的决策模型。另一方面，TPU和NPU平台通常依赖于固定的操作符集和同构的执行流程，这限制了它们支持涉及策略/价值估计、注意力机制和时间编码的异构DRL流程的能力。相比之下，FPGA提供了可重构的架构、细粒度的指令级控制和低功耗执行，使其在处理适应性和高度异构的决策工作负载时具有显著优势。

许多FPGA研究通过优化内存层次结构和计算单元，实现了对各种网络架构（包括CNNs（Guan, Guo, Li, Lai, Ding, Qian, Zhu, 2025; Luan Pham, Tran, Trung Duong Le, Nakashima, 2025）、SNNs（Chen, Chen, Wang, Wang, Fu, Lin, Liu, Shi, 2025; Cheng, Cao, Wang, Wang, Li, Zeng, 2025）和Transformers（Han, Wang, Chen, Chen, Guo, Liu, Tang, Xiao, Xu, Xu, Yang, Zhang, Tao, 2023; Huang, Shen, Li, Peng, Li, Su, Yu, 2025）的显著加速。然而，这些加速器通常针对特定网络结构进行定制，不适合涉及异构网络的决策工作流程。以往关于基于FPGA的DRL加速的研究探索了算法优化（Rothmann, Porrmann, 2024; Watanabe, Tsukada, Matsutani, 2021）、操作符重构（Jha, Dewangan, Lokhande, & Vishvakarma, Li, Ge, Zhou, Wu, 2022）和计算架构改进（Ge, Zhang, Li, Zhou, 2024; Hu, Hu, Khatri, 2022）。然而，大多数这些加速器假设单环境执行模型，计算围绕固定流程组织，导致模型算法和硬件之间的紧密耦合。多环境执行通常局限于主机，环境要么被序列化，要么被松散批量处理，这增加了延迟并限制了可扩展性。一些最近的努力考虑了用于DRL加速的异构架构（Li, Ge, Zhou, Wu, 2022; Meng, Iyer, Prasanna, 2025; Wiggins, Meng, Iyer, Prasanna, 2024），但这些设计主要关注在单环境假设下的操作符级卸载或流程加速。因此，它们没有明确解决在线多环境推理的挑战，即必须在严格的延迟约束下同时处理多个环境实例。仅通过集成异构资源无法实现高效的环境级并行决策。这需要明确的环境级调度、平衡的工作负载分配和细粒度的执行控制，而这些在当前的异构框架中大多缺失。

在这项工作中，我们提出了一个专门为基于DRL的在线多环境决策设计的异构计算框架。该框架不仅依赖于硬件集成，还引入了一个以决策为导向的模块化FPGA加速器，该加速器针对网络异构性进行了优化，并采用了离线指令驱动的执行模式，明确针对环境级并行性。每个环境实例都映射到一个独立的执行上下文，拥有自己的指令流，从而在系统层面实现多进程环境管理。异构设计基于计算工作负载分析进行显式的任务划分。专用FPGA加速器作为环境级并行执行器，能够以低延迟同时执行多个指令流。GPU处理高维感知工作负载，而CPU负责调度、同步和控制流管理。我们的设计真正实现了环境级在线并行推理，而不是来自批量处理或操作符级加速的隐式并行性。主要贡献总结如下：

•

我们设计了一个以决策为导向的模块化FPGA加速器，包括轻量级的指令调度器、任务特定的计算单元和细粒度的片上内存管理器，其中指令级调度使计算与模型语义对齐，有效将模型与硬件解耦，无需硬件重新设计即可实现多样化的决策流程。

•

我们采用离线指令驱动的调度机制结合环境级并行执行模式进行在线多环境决策，消除了批量级同步，实现了确定性延迟的推理，并在无需主机干预的情况下以全速硬件执行。

•

我们开发了一个具有显式任务划分和任务感知调度机制的异构计算框架，该框架根据数值敏感性和工作负载特征将计算任务系统地分配到不同设备，解决了数值稳定性和实时推理的挑战，并有效扩展到感知密集型决策流程。

•

我们在机器人控制和自动驾驶任务上评估了所提出的框架，与仅使用CPU和GPU的基线相比，能效提高了3.14倍和1.66倍，同时保持了高数值稳定性；即使在较低的FPGA时钟频率下，与最先进的基于FPGA的异构系统相比，延迟也降低了27.1%。

基于DRL的决策模型在机器人控制和自动驾驶等领域的应用日益广泛，这对计算效率和实时性能提出了越来越高的要求。FPGA作为一种关键的硬件平台，因其可重构性、低功耗和并行计算能力而成为加速模型推理和训练过程的首选。现有研究主要沿着三个方向发展：

问题定义和任务描述

基于DRL的自主决策系统需要在复杂、动态和不确定的环境中运行。在实际部署和大规模模拟中，通常会同时在多个环境实例中执行单个决策模型，而不是顺序处理单个环境。本节明确了目标任务，并阐明了推动所提出的异构加速框架的计算特性。

以决策为导向的模块化FPGA加速器

本节介绍了所提出的FPGA加速器架构，该架构专门为支持基于DRL的自主决策系统而设计。与针对固定网络结构的传统FPGA加速器不同，我们的架构针对网络异构性进行了优化，以满足各种决策模型的部署需求。

在线多环境决策推理的执行方案

本节描述了所提出的以决策为导向的FPGA加速器的执行方案，重点介绍了如何在实践中实现多环境之间的在线并行推理。与主要依赖操作符级卸载或基于批处理的传统FPGA加速器不同，所提出的执行方案是明确围绕环境级并行性设计的。

具有指令驱动任务划分的异构计算平台

为了支持在感知密集型环境中的在线并行决策，我们设计了一个异构计算平台，该平台协调CPU、GPU和FPGA，并进行了显式的任务划分，解决了数值稳定性和实时要求的挑战。

实现细节

对于这两种自主决策任务，我们使用了四个并发的环境进程来评估硬件平台上的并行推理性能，这是在可扩展性探索和硬件资源限制之间的实际平衡，并将提出的设计与基于CPU和GPU的实现进行了比较。实验平台配备了Intel Xeon Platinum 8480+ CPU、NVIDIA GeForce RTX 4090D GPU和四个Intel Agilex 7 FPGA。所有试验都在

结论

本文提出了一种异构FPGA–CPU–GPU加速框架，用于多环境并行决策，满足了基于DRL的自主工作负载对延迟、能效和可扩展性的严格要求。所提出的以决策为导向的模块化加速器将模型设计与硬件解耦，使得无需硬件重新设计即可灵活部署基于DRL的决策流程。通过离线指令调度和指令级任务

CRediT作者贡献声明

邓琪：概念化、方法论、软件、写作 – 原始草稿。杨洪斌：方法论、软件、写作 – 审查与编辑。赵亚倩：资金获取、资源协调、监督、写作 – 审查与编辑。李瑞阳：资金获取、项目管理、资源协调、监督、写作 – 审查与编辑。董刚：监督、方法论、写作 – 审查与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作