《Chip》:Ultra-Low Power 1F1R-Based In-Memory Computing Crossbar for Convolutional Neural Networks
编辑推荐:
存内计算(In-memory computing,IMC)架构已成为显著减少人工智能(AI)负载中数据搬运的有前景解决方案。然而,随着IMC性能持续提升,满足超低功耗应用需求变得愈发具有挑战性。该研究提出了一种超低功耗、低开销的基于电荷域铁电场效应晶体管(fe
存内计算(In-memory computing,IMC)架构已成为显著减少人工智能(AI)负载中数据搬运的有前景解决方案。然而,随着IMC性能持续提升,满足超低功耗应用需求变得愈发具有挑战性。该研究提出了一种超低功耗、低开销的基于电荷域铁电场效应晶体管(ferroelectric field effect transistor,FeFET)的IMC交叉阵列宏,用于实现乘加(multiply accumulate,MAC)运算。该宏中的MAC单元采用1FeFET-1R(1F1R)单元,将电流注入共享电容,从而产生多个离散电压电平。研究人员开展了系统性的设计空间探索,以识别对工艺波动具有鲁棒性的参数,从而实现模数转换器(Analog to Digital Converter,ADC)的稳健量化。基于经实验校准的FeFET紧凑模型(compact model),系统仿真表明,部署于所提出256×256 IMC阵列上的4比特量化卷积神经网络(convolutional neural network,CNN)在MNIST数据库上实现了98%的准确率,功耗为39.6 μW,峰值能效达到647 TOPS/W。这些结果为面向实际应用的超低功耗边缘AI加速器铺平了道路。
该论文发表于《Chip》,围绕面向卷积神经网络(convolutional neural network,CNN)的超低功耗存内计算(in-memory computing,IMC)硬件展开,核心目标是在降低数据搬运开销的同时,进一步压缩功耗并保持可接受的推理精度。研究背景在于,人工智能(artificial intelligence,AI)尤其是深度学习任务中,传统冯·诺依曼架构下存储与计算分离,导致数据在存储单元与计算单元之间频繁搬运,形成显著的“存储墙”和能耗瓶颈。IMC通过在存储阵列内直接执行乘加(multiply accumulate,MAC)运算,能够从体系结构层面缓解这一问题,因此成为边缘AI加速器的重要发展方向。
现有FeFET型IMC虽然在非易失权重存储和阵列内并行计算方面具备优势,但仍存在若干关键问题。首先,传统电流域FeFET IMC依赖晶体管本征导通电流及基尔霍夫电流定律进行电流累加,往往伴随持续直流功耗、IR压降以及漏电流问题,难以同时兼顾高精度与低功耗。其次,基于时域延迟单元的方案虽可提升精度并支持激活函数实现,但通常带来较大的面积与功耗开销。再次,利用单元内电容进行电荷累积虽可避免直流功耗,但外围写入、编码和解码逻辑仍可能较为复杂,影响整体面积效率与功耗表现。正是基于这些限制,研究人员开展了本项研究,尝试构建一种兼具低功耗、低外围开销和较强鲁棒性的FeFET电荷域IMC交叉阵列架构。
研究人员提出了一种构建于全耗尽绝缘体上硅(fully-depleted silicon-on-insulator,FDSOI)平台之上的FeFET 1F1R电荷域交叉阵列。其设计思想是,在每个FeFET单元中引入片上集成电阻,以限制导通电流,并将多个单元的电流注入共享累积电容,利用固定时间窗内的部分充电过程形成可区分的多级电压,进而通过模数转换器(ADC)量化为数字MAC结果。相较于依赖精确模拟电流调制的方案,该架构将“开关”功能交由FeFET承担,而将更稳定的电流限制功能交由片上电阻实现,从而降低器件波动对计算结果的影响。论文进一步通过器件实测、紧凑建模、设计空间探索、阵列级组织与CNN系统级仿真,完整验证了该架构的可行性。
从主要结论看,该研究证明了所提出的1F1R电荷域FeFET IMC交叉阵列能够在较低供电与简单外围条件下实现可靠的单比特MAC运算,并通过4比特量化CNN完成MNIST手写数字识别,在256×256阵列上达到98%分类准确率,100 MHz下总功耗为39.56 μW,能效达到647 TOPS/W。论文还指出,该方案采用二值权重存储和二值输入,不需要复杂输入数模转换器(digital-to-analog converter,DAC)或多级编程逻辑,因此有利于降低面积与系统复杂度。其意义在于,为超低功耗边缘AI加速器提供了一种兼顾器件可实现性、架构简洁性与高能效的IMC实现路径。
研究人员采用的主要技术方法可概括如下:首先,在8英寸商用p型FDSOI衬底上制备FeFET器件,并在室温下完成电学表征;其次,基于BSIM-IMG模型与动态Preisach模型建立经实验校准的FeFET紧凑模型,通过Verilog-A迭代求解电荷守恒与电压分配关系;再次,对MAC单元中的电阻R、电容C、并行激活单元数N进行设计空间探索,评估工艺波动、功耗、面积与可靠性的权衡;最后,将优化参数部署到256×256交叉阵列,并在MNIST测试集上对4比特量化CNN开展系统级仿真评估。
在器件表征与建模部分,论文首先介绍了FDSOI FeFET的工作机理。研究指出,FeFET通过铁电层剩余极化调制下方金属-氧化物-半导体场效应晶体管(metal-oxide-semiconductor field-effect transistor,MOSFET)栅极静电势,使器件阈值电压V
th发生可逆迁移,形成非易失的高阈值态(HVT)与低阈值态(LVT)。为保证后续电路与架构仿真的可信度,研究人员制备并表征了FDSOI FeFET器件。器件采用gate-last工艺策略,铁电层为hafnium zirconium oxide(HZO),沟道长度与宽度均为10 μm,且器件表现为无结晶体管。研究人员随后建立了由MOSFET与串联铁电电容构成的模型框架,使用BSIM-IMG描述Q
MOS(V
MOS),使用动态Preisach模型描述Q
FE(V
FE),通过满足电荷守恒与电压分配约束进行迭代求解。结果显示,模型与实测转移特性在HVT和LVT两种状态下均具有良好一致性,说明该模型能够支持后续架构级分析。
在“Design and Simulation of the FeFET-Based MAC Unit”部分,研究人员提出了由1F1R单元构成的MAC单元。其关键结构是在FeFET源极侧串联一个片上集成电阻,使单元在低供电电压下输出受限电流;同一列中的多个1F1R单元共享源线(SL)上的累积电容,以并行完成电荷积分;最终再由包含电阻梯和Strong ARM(SA)锁存器的Flash ADC完成采样与量化。通过设置字线(WL)电压在HVT与LVT之间,仅LVT单元导通,而HVT单元关断,由此实现输入与存储权重之间的二值乘法。随后,多单元电流在共享电容上形成累积电压V
acc,在固定10 ns充电窗口中处于部分充电状态,从而兼顾高速与低功耗。
在该部分的设计空间探索中,研究人员围绕R、C与N开展系统分析,目标是在50 ns RC延迟约束下寻找兼顾可靠性、功耗与面积的最优设计点。结果表明,随着电阻增大,电阻相对波动σ
R/R减小,而电容减小会使电容相对波动σ
C/C增大,二者存在权衡。进一步的功耗—面积分析显示,增大R可降低功耗并减小电容面积,但会增加电阻面积;当R超过500 kΩ后,进一步收益有限,且过小导通电流会加剧对器件波动的敏感性,因此最终选定R=500 kΩ。基于一阶泰勒展开,研究人员量化了工艺波动导致的累积电压标准差σ
V,并通过相邻状态间隔ΔV与3σ
V的比值评估信噪裕量。误差概率分析显示,当并行激活单元数N>8时,误差快速升高,因此N=8被确定为吞吐率、可靠性和硬件效率之间的最佳折中。瞬态仿真进一步表明,共享电容上可形成9个彼此分离约10 mV的离散电压状态,ADC可借助非线性参考电压完成这些状态到MAC计数结果的稳健映射。该部分结论是:所提1F1R MAC单元能够在低电压下以较少外围电路实现紧凑、低功耗且可靠的单比特MAC运算。
在“Crossbar Architecture”部分,论文从单MAC单元扩展到完整的256×256 FeFET 1F1R交叉阵列,并针对4比特权重量化进行优化。阵列由字线控制模块和位线控制模块管理,每条源线连接4:1多路复用器(MUX)、累积电容与ADC。工作时,8条WL与对应部分BL同步激活,4条SL通过MUX轮流接入共享电容和ADC。权重按列主序映射到交叉阵列中,不同bit-plane由高位到低位排列。100 MHz时钟驱动每个周期执行一组输入—权重bit-plane的乘法与累加,电流在一个时钟周期后完成积分,随后量化为数字输出。研究指出,整个推理流程需依次遍历每个卷积窗口、各个输入—权重bit-plane和所有空间位置,直至完成整网推理。该部分说明,所提架构不仅适用于阵列内并行MAC,还支持通过多阵列部署或面向拓扑的阵列尺寸设计实现系统扩展。
在“System-Level Simulation Results”部分,研究人员利用MNIST数据集验证所提体系结构的功能与能效。用于评估的CNN包含两层3×3卷积层,每层后接修正线性单元(Rectified Linear Unit,ReLU)和2×2最大池化层,之后是一个32神经元全连接层及最终10分类输出层。研究人员将学习得到的卷积核统一量化为4比特,并映射到交叉阵列中。测试时,从每个数字类别随机抽取20个样本进行评估,得到98%的总体准确率。功耗分析显示,在100 MHz下,交叉阵列与ADC总功耗为39.56 μW,其中ADC占89.5%,交叉阵列本体占10.5%。以单比特乘法或累加作为一次操作计,系统能效达到647 TOPS/W。与5T-2F、MRAM、已有1F1R、PCM和SRAM等主流交叉阵列方案比较后,结果表明该设计在功耗与精度权衡上具有竞争力。表格比较进一步显示,该方案在较大规模阵列下实现了显著功耗下降,并保持较高能效。论文还补充指出,采用18核CIM宏在CIFAR-10数据集和VGG风格网络上的评估中,经量化感知微调后可达到87.36%准确率,并保持562.7 TOPS/W能效,但该部分在正文中仅作补充性结果呈现。
结果部分还讨论了器件尺度缩小时的潜在影响。研究人员指出,本研究中的概念验证器件沟道长度为10 μm,若进一步缩放至先进工艺节点,FeFET将不可避免地面临更强的工艺波动与漏电问题。不过,该1F1R架构通过两种机制有望减轻这些非理想性:一是用稳定电阻主导总导通路径,二是采用稳健的二值状态而非高精度多级模拟电导。但短沟道效应及高阻材料在缩放后的面积开销仍需在未来全集成宏中进一步研究。
论文讨论部分强调,该工作最大的创新点在于通过“FeFET负责开关、电阻负责限流、电容负责积分、ADC负责量化”的功能分解,避免了传统FeFET IMC对精细模拟电流控制和复杂外围电路的依赖,从而在超低功耗条件下维持可用的推理准确率。设计空间探索则为理解工艺波动、硬件资源和感测可靠性之间的关系提供了清晰依据,使架构选择不再仅依靠经验,而是建立在可量化的误差概率分析之上。与此同时,研究也坦诚指出,本工作中的FDSOI FeFET实现主要是概念验证,未来可推广至其他非易失存储器(non-volatile memory,NVM)技术,但需要对外围电路进行相应优化。
研究结论部分可译为:该研究提出了一种新型FeFET存内计算交叉阵列架构,在显著降低外围电路复杂度的同时实现了优异的能量效率。通过全面的实验与仿真研究,研究人员在单元级和阵列级验证了该架构的功能,并通过MNIST数据集分类任务完成了验证。设计空间探索刻画了工艺波动与运行可靠性之间的权衡,从而确定了优化且稳健的设计点。最终,该设计在保持98%识别准确率的同时,实现了647 TOPS/W的能量效率。研究人员同时指出,本文中的FDSOI FeFET实现主要用于概念验证,而该架构设计在对外围电路进行适当优化后,可适配于多种NVM技术。