考虑热非均匀性(Thermal Nonuniformity-Aware)的脉动阵列(Systolic Array)AI加速器可靠性筛选方法

《Journal of Low Power Electronics and Applications》：Thermal Nonuniformity-Aware Reliability Screening for Systolic AI Accelerators

【字体：大中小】 时间：2026年06月10日 来源：Journal of Low Power Electronics and Applications 1.8

编辑推荐：

　　摘要：随着AI加速器日益在严苛的功耗、热、电压及时序裕度(Timing Margin)下运行，负载依赖的热非均匀性(Thermal Nonuniformity)成为重要的可靠性隐患。在脉动阵列(Systolic Array)AI加速器中，局部活跃度集中会造成空

摘要：随着AI加速器日益在严苛的功耗、热、电压及时序裕度(Timing Margin)下运行，负载依赖的热非均匀性(Thermal Nonuniformity)成为重要的可靠性隐患。在脉动阵列(Systolic Array)AI加速器中，局部活跃度集中会造成空间上不均匀的热应力，但仅凭热或时序暴露分析无法判定此类应力是保持良性、被数值掩盖(Masked)还是传播为静默损坏(Silent Corruption)。本文提出一种跨层(Cross-Layer)早期筛选方法，用于脉动阵列中的热非均匀性感知可靠性分析。该框架关联了负载感知活跃度提取、相对功耗集中度建模、基于扩散(Diffusion-Based)的热代理分析、显式热-时序应力抽象、路径类别(Path Class)感知的错误建模，以及干净(Clean)/掩盖(Masked)/静默(Silent)结果分类。修订后的框架进行了数学形式化，并在稠密(Dense)、低动态范围(Low-Dynamic-Range)及稀疏(Sparse) GEMM负载下，针对权值驻留(Weight-Stationary, WS)和输出驻留(Output-Stationary, OS)执行模式进行了评估。为增强统计与方法学可信度，研究包含100次随机种子错误重运行及Wilson置信区间、跨8×8/16×16/32×32阵列尺寸的热缩放分析、校准灵敏度、路径权重灵敏度、组件消融及初步紧凑热参考对齐。结果表明：稀疏负载在测试阵列尺寸下始终产生最大热散布(Thermal Spread)，而稠密和低动态范围负载保持空间均匀；默认校准筛选机制下，16×16阵列的稀疏OS和稀疏WS案例分别达到49%和40%的静默损坏率，稠密案例多保持干净或被掩盖，低动态范围案例基本保持干净。灵敏度和消融实验显示稀疏负载风险非单一建模组件导致，虽然掩盖/静默拆分取决于路径类别加权及热扩散假设。主要贡献非签核精度的硅失效预测，而是可复现的筛选前端，用于识别值得深入热、时序、RTL级及应用层验证的负载、数据流及路径类别组合。

论文解读：考虑热非均匀性的脉动阵列AI加速器可靠性筛选方法

《Journal of Low Power Electronics and Applications》刊载的此文针对先进工艺节点下AI加速器因负载驱动的热非均匀性引发静默数据损坏(Silent Data Corruption, SDC)隐患却缺乏早期筛查手段的问题展开研究。现有热点(Hotspot)分析常止步于温度、功耗或时序违例路径暴露，无法判断热应力是否最终演变为端到端的正确性错误；传统故障注入多将故障视为外部随机事件而非负载依赖空间热应力的后果；运行时保护机制则非早期设计空间筛选工具。为此，研究人员提出一种跨层早期筛选(Cross-Layer Early-Stage Screening)框架，将负载与数据流(Dataflow)组织的空间活跃度经功耗代理、扩散型热代理映射至时序裕度应力，再经路径类别(Path Class)感知的错误模型注入并计算最终输出分类，从而识别高危工况。结论表明稀疏负载因造成强热散布且与累加、转发路径敏感交互而显著提升SDC率，该框架可作为设计空间分流(Triage)工具指引后续HotSpot级热分析、静态时序分析(Static Timing Analysis, STA)及RTL级故障注入重点方向。

研究人员采用的主要关键技术方法为：构建N×N脉动阵列仿真环境，选用稠密、低动态范围及含结构化稀疏比(s=0.7)的GEMM负载矩阵，分别配置权值驻留(WS)与输出驻留(OS)数据流；从计算活跃度、驻留成本及中继负担提取空间活动图，归一化为相对功耗浓度代理；应用迭代稳态扩散更新获取热代理温图并计算超出参考温度的局部热应力ΔT_ij，推导时序裕度代理M_ij；按MAC数据通路(PC1)、累加器更新路径(PC2)、转发路径(PC3)的差异化相对脆弱权重ω_c及Sigmoid应力-错误概率映射采样注入扰动值Δ?_c·x；GEMM执行结果对照黄金参考分为干净(Clean, 误差≤ε)、掩盖(Masked, 内部错但最终误差≤ε)、静默损坏(Silent Corruption, 最终误差>ε)三类，各条件重复100随机种子并以Wilson二项区间估计SDC率；另做8/16/32×32阵列热缩放、弱/默认/强应力校准扫描、均匀vs默认路径权重对比及去扩散/去驻留项/去中继项/均匀权重消融实验，并与紧凑参考热模型做热点排序相关性初步比对。

3. Cross-Layer Screening Methodology（跨层筛选方法论）

通过公式化定义活动分数A_ij、归一化功耗浓度P_ij、邻域扩散热迭代T_ij^(k+1)、热应力ΔT_ij=max(0,T_ij-T_ref)、有效时序裕度M_ij=M₀-α·ΔT_ij及路径类别c在单元(i,j)的错误概率p_ij,c=p_max·ω_c·σ(β(ΔT_ij-θ))，明确热不直接翻转比特而是缩减时序裕度增加定时敏感计算扰动概率，扰动值为带路径类别基准尺度的加法修改。框架流程为负载→活动图→功耗代理→热代理→时序应力→路径感知错误概率→注入分类，旨在捕捉局部热应力经数值掩盖或传播为SDC的链条而非替代签核工具。

4. Experimental Setup（实验设置）

采用8×8(缩放对照)、16×16(主评估)、32×32(缩放对照)方脉动阵列，GEMM维度匹配阵列尺寸以暴露空間复用差异。三种负载：稠密(零均值有界分布无稀疏)、低动态范围(更窄区间)、稀疏(同基分布后置结构化稀疏比s=0.7)。两种数据流：WS(权值驻留PE,激活与部分和流动,较分散)与OS(部分和驻留PE,局部累加集中)。活动权重α_comp=1.0, α_res=0.3, α_relay=0.2；热代理参数T_amb=300K, γ=0.4, λ=0.15,迭代至收敛或500次。路径类别默认权重ω_MAC=1.0, ω_ACC=1.5, ω_FWD=1.2；应力-错误映射p_max=0.08, θ=15K, β=0.2；输出容差ε=1e-4，SDC判定为相对误差>ε。控制/更新逻辑路径(PC4)定义但未激活。

5. Validation, Scaling, and Sensitivity Results（验证、缩放与灵敏度结果）

•
5.1. Statistical Corruption Outcomes Across 100 Seeds：16×16阵列100种子重运行显示，稠密负载多为干净或掩盖，低动态范围基本干净；稀疏OS达49% SDC率(95% Wilson CI明确分离其他类)，稀疏WS达40% SDC率，证实稀疏负载显著高危。
•
5.2. Thermal Scaling Across Array Sizes：8×8/16×16/32×32热缩放表明稀疏负载各尺寸均产最大热散布(Thermal Spread, T_peak-T_mean及σ_temp)，稠密与低动态范围较均匀；OS一般略强于WS。关键点在于热非均匀性(空间散布)而非峰值温升主导可靠性关注点。
•
5.3. Calibration Sensitivity：弱应力下无SDC(框架不强制失败)，默认应力稀疏SDC明显分出，强应力稀疏近饱和而低动态范围仍较稳。说明结果非单点调参所致，稀疏在应力扫描中最敏感。
•
5.4. Path Weight Sensitivity：均匀路径权重(ω均为1.0)下稀疏仍显著比稠密高危，证明非单纯因赋予累加器最高权重；但Masked/Silent拆分改变，证实路径类别建模影响错误行为结构。
•
5.5. Component Ablation Study：去除横向热扩散、驻留项、中继项或改均匀路径权重后，稀疏仍比稠密易出错，但绝对值变化，说明风险非单一组件引发且框架对模型结构敏感；去扩散降SDC率，均匀权重在此参数化增SDC率。
•
5.6. Preliminary Thermal Reference Alignment：所提扩散代理与紧凑参考热模型比，稠密负载热点排序重叠高、相关性好；稀疏负载相关性~0.69、Top 10%重叠~0.52–0.53。支持其作为早期趋势筛查而非签退热求解器替代。

6. Interpretation and Discussion（解读与讨论）

稀疏负载人为引入非均匀活跃度属预设，但SDC率大小、Clean/Masked/Silent拆分、校准与消融表现均系组件交互涌现而非单因子决定。热结果应解读为空间非均匀性增大(局部超应力阈值PE数增多)而非整体升温。稀疏重分配活动致少数PE承载计算/驻留/中继形成陡梯度与集中时序应力，叠加路径敏感扰动难被平均抵消故SDC率高。路径类别建模价值在区分MAC(影响算术生成)、ACC(跨累加持久)、FWD(向下游传播)的错误传播语义而非仅调总错率。设计探索含义为用此框架分流——热散布大、局部超阈且对齐ACC/FWD路径者优先送HotSpot热分析、STA、RTL故障注入及应用层鲁棒性测；仅热均匀且多Masked者可降优先级。

结论(Conclusions)部分翻译总结：

本文提出连接负载感知活跃度提取、相对功耗集中、扩散热代理、热-时序应力抽象、路径类别脆弱建模及Clean/Masked/Silent分类的跨层筛选方法论，用于脉动AI加速器热非均匀性促发路径敏感正确性风险评估。非签核精度硅失效预测，而是可复现早期筛选流以甄别需深验证的负载、数据流、路径类别组合——局部热应力叠加大时序敏感功能路径(累加、算术生成、操作数转发)才构成可靠性关切。负载与数据流共塑空间热非均匀性，稀疏负载各测试尺寸产最强热散布(宜解读为空间不均而非均热升温)，稠密与低动态范围较均匀；路径感知错误模型下稠密多干净或掩盖，稀疏(尤其应力对齐累加/转发行为时)显更高SDC易感性。温度不直接致比特翻转，而作为缩减时序裕度因子增定时诱发计算扰动概率，该抽象连系热非均匀性与正确性结果并明示需后继STA、压降感知时序分析、RTL级故障注入及应用层验证。框架可作设计空间分流工具标定高危工况供高价验证聚焦。未来工作含STA/RTL标定的路径权重、HotSpot级热代理对齐、扩展CNN/Transformer/推荐模型核、激活PC4控制路径及任务级指标(精度/校准/损失退化)评估。通过负载引致空间应力挂接路径敏感正确性产出，提供紧热电压时序裕量下可靠性感知脉动阵列设计的早期预警层。

热点排行