通过在数字计算模型(CIM)上使用基于位移感知的即时对齐尾数位宽预测技术,平衡FP8计算精度与效率

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Balancing FP8 Computation Accuracy and Efficiency on Digital CIM via Shift-Aware On-the-Fly Aligned-Mantissa Bitwidth Prediction

【字体: 时间:2026年06月04日 来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐:

   摘要:FP8低精度格式在变压器推理和训练中得到了广泛采用。然而,现有的数字计算内存(DCIM)架构在支持可变FP8对齐尾数位宽方面面临挑战,因为统一的对齐策略和固定精度的乘累加(MAC)单元难以处理具有多样化分布的输入数据。本文提出了一种灵活的FP8 DCIM加速器,具有三项创

  

摘要:

FP8低精度格式在变压器推理和训练中得到了广泛采用。然而,现有的数字计算内存(DCIM)架构在支持可变FP8对齐尾数位宽方面面临挑战,因为统一的对齐策略和固定精度的乘累加(MAC)单元难以处理具有多样化分布的输入数据。本文提出了一种灵活的FP8 DCIM加速器,具有三项创新:1)动态位宽预测(DSBP)技术,该技术通过实时输入预测自适应地调整权重(2/4/6/8位)和输入数据的位宽;2)基于FIFO的输入对齐单元(FIAU),用基于指针的控制方式替代了复杂的桶形移位器;3)可扩展精度的INT MAC数组,能够在最小开销的情况下实现灵活的权重精度。该加速器采用28纳米CMOS工艺实现,并配备了CIM阵列,实现了每瓦20.4 TFLOPS的性能,显著提高了FP8计算效率(相比之前的工作)。在Llama-7b数据集上的测试表明,DSBP在保持相同精度水平的情况下,比固定位宽模式具有更高的效率,并且可以通过配置参数实现精度与效率之间的灵活权衡。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号