面向实时多模态心电-心音心脏分类的高吞吐量流水线FPGA与ASIC架构

《Microprocessors and Microsystems》:A high-throughput pipelined FPGA and ASIC architecture for real-time multimodal ECG–PCG cardiac classification

【字体: 时间:2026年05月30日 来源:Microprocessors and Microsystems 2.6

编辑推荐:

  有效实时心脏监测要求硬件能够在不耗尽电池或引起关键延迟的情况下分析复杂的生理信号。尽管卷积神经网络(Convolutional Neural Networks, CNNs)通过融合心电图(Electrocardiogram, ECG)和心音图(Phonocar

  
有效实时心脏监测要求硬件能够在不耗尽电池或引起关键延迟的情况下分析复杂的生理信号。尽管卷积神经网络(Convolutional Neural Networks, CNNs)通过融合心电图(Electrocardiogram, ECG)和心音图(Phonocardiogram, PCG)数据,在诊断心脏疾病方面具有很高的准确性,但将这些模型部署到可穿戴边缘设备上时常常遭遇冯·诺依曼内存瓶颈。在标准处理器中,持续的数据来回传输会产生不可接受的功耗和延迟开销。为解决此问题,研究引入了mlCardioGuard架构,这是一款专为多模态心脏推理而定制的超低功耗专用集成电路(Application-Specific Integrated Circuit, ASIC)。该设计并未采用传统的顺序时分复用方式,而是提出了一种双数据流、完全流水线化的1D-CNN数据通路,能够同时处理ECG和PCG信号。其内存架构也经过彻底重构以降低能耗。通过使用基于移位寄存器(Shift-Register)的特征缓存和将INT8权重直接映射到片上只读存储器(Read-Only Memory, ROM),这种内存无关的数据流完全消除了对功耗高昂的片外和片上静态随机存取存储器(Static Random-Access Memory, SRAM)访问的需求。该硬件已在Xilinx Kintex-7 FPGA上得到验证,并使用Cadence Genus工具通过商用90 nm CMOS标准单元库进行了ASIC综合。生成的版图极为紧凑,仅占用3106个逻辑单元,面积为35,803.64μm2。在100 MHz时钟下运行时,该流水线实现了恰好为5个时钟周期的确定性推理延迟,总功耗仅为2.17 mW(其中动态功耗2.00 mW,漏电功耗0.16 mW)。通过在结构上消除内存取指瓶颈,与现有的生物医学加速器相比,该架构大幅提升了吞吐量和能效,使其成为下一代可穿戴健康监测设备的高度实用的引擎。
心血管疾病的持续实时监测在很大程度上依赖于对生理信号的精确分析。其中,心电图(ECG)和心音图(PCG)能高度互补地反映心脏的电传导与机械声学行为。临床研究表明,融合这两种模态可以显著提高诊断的可靠性,尤其是在尝试检测在单一信号轨迹中可能不明显的复杂心脏异常时。为了理解这些复杂的时序数据,深度学习技术——特别是卷积神经网络(CNN)——已成为行业标准。它们能够自然学习层次化的特征表示,并提供极高的分类精度。然而,将这些强大的CNN模型从软件模拟中取出,直接部署到可穿戴边缘设备上,会带来严重的工程障碍。在通用微控制器或数字信号处理器(Digital Signal Processors, DSP)上运行的标准软件实现,其功耗特性本身受限。尽管现代DSP通过哈佛架构和多级缓存(L1/L2)缓解了传统的冯·诺依曼吞吐量限制,但它们引入了关键的能耗瓶颈。在超低功耗的可穿戴应用中,指令解码、缓存管理和数据传输所产生的动态功耗,可能与算术计算本身消耗的能量相当甚至超过。此外,配备超宽单指令多数据(Single Instruction, Multiple Data, SIMD)寄存器的高性能DSP虽然能在GHz时钟下实现大量多样本并行性,但其通常在多瓦特范围内的功耗使其不适合电池供电的可穿戴设备。因此,为了满足连续心脏监测的严苛功耗预算,有必要超越通用DSP,转向能够消除指令开销并最小化数据移动的专用、全流式硬件加速器。为突破这些热耗散和能耗壁垒,工程师们越来越多地依赖定制硬件加速器——如现场可编程门阵列(Field-Programmable Gate Arrays, FPGAs)和专用集成电路(ASICs)——来实现高效的边缘部署。

为直接解决这些内存和功耗限制,本论文介绍了mlCardioGuard,一种专门针对多模态ECG–PCG心脏推理而设计的定制双数据流硬件架构。大多数传统CNN加速器仍然依赖集中的SRAM组和时分复用来处理多个传感器,而本研究采用了根本不同的方法:一种完全流式、内存无关的数据流。通过利用定制的移位寄存器阵列进行特征缓存,并将INT8量化权重静态地锁定在片上ROM中,该设计消除了中间SRAM缓冲,并大幅减少了推理期间对片外DRAM访问的依赖。此外,该架构并非强制硬件在传感器之间进行上下文切换,而是将工作负载在物理上分离为两个独立并行的1D-CNN流水线。

本工作的主要创新点包括:1. 真正的并行多模态处理:一种双数据流硬件架构,可同时分析ECG和PCG信号。通过完全避免时分复用,降低了顺序处理开销并提高了吞吐量。2. 内存无关的CNN加速器:一种基于移位寄存器的特征缓存机制,消除了中间SRAM缓冲,并大幅减少了对片外DRAM访问的依赖,从而降低了内存访问延迟和漏电功耗。3. ROM映射权重存储:一种确定性的权重访问策略,其中INT8量化参数被静态地硬连线到片上ROM中,确保单周期访问且不占用系统内存带宽。4. 深度流水线化的CNN数据通路:一个深度流水线化的4级1D-CNN流水线,旨在锁定确定性、低延迟的推理,同时维持连续、无停顿的数据流。5. 纯标准单元ASIC实现:一个高度可移植、完全可综合的架构,完全不依赖专用DSP模块或存储器宏单元。在90 nm CMOS工艺中,它实现了35,803.64μm2的紧凑面积和仅2.17 mW的极低功耗。6. 确定性实时性能:在100 MHz频率下实现了5个时钟周期的确定性推理延迟,满足连续心脏监测系统所需的高可预测时序行为。

系统概述部分介绍了mlCardioGuard分类系统,该系统旨在实时无缝地摄取和处理双模态传感器数据,有效弥合理论机器学习算法与实际超低功耗硬件之间的差距。其数据通路结构为严格的前馈架构,包含四个级联阶段,专门设计用于绕过典型微处理器中常见的顺序瓶颈。流水线始于……硬件架构设计部分指出,本工作的主要贡献是定制数字架构,该架构从零开始设计,以联合优化推理延迟、硅片面积和功耗——这些都是边缘AI可穿戴设备的关键约束。FPGA实现与物理设计部分说明,为验证所提架构能否满足可穿戴设备严苛的实时性和空间约束,其寄存器传输级(Register Transfer Level, RTL)代码使用Vivado 2023.2 EDA工具链在Xilinx Kintex-7(XC7K70T-FBV676-1)FPGA上进行了综合、布局与布线。ASIC综合与评估部分指出,虽然FPGA原型验证了逻辑的实时性,但任何边缘AI加速器效率的真正考验在于映射到实际硅片上的表现。为了在实际部署条件下严格评估功耗、性能与面积(Power, Performance, and Area, PPA)指标,RTL代码通过Cadence Genus综合解决方案进行了完整的标准单元ASIC综合流程。性能评估与讨论部分量化了所提mlCardioGuard架构的优势,并对跨软件、FPGA和ASIC范式的综合评估进行了深入的讨论。性能比较部分在表6中将mlCardioGuard架构与近期的一些先进生物医学硬件加速器进行了基准比较,涵盖了高吞吐量FPGA平台和超低功耗ASICs。

结论部分总结道,本文介绍了mlCardioGuard这一高吞吐量多模态ECG–PCG心脏分类硬件架构的设计、优化和门级实现。认识到阻止软件执行的AI在边缘设备上高效运行的延迟和功耗壁垒,研究人员采用了算法-硬件协同设计方法来弥合神经网络数学与物理硅片效率之间的鸿沟。通过构建并行的双数据流数据通路……(此处原文内容截断,但根据摘要和引言可推断,结论应强调该架构通过结构创新,在极低的功耗和面积下,实现了确定性的低延迟高吞吐量推理,为可穿戴式心脏监测设备提供了高效的边缘AI计算解决方案,突破了传统冯·诺依曼架构的瓶颈。)
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号