通过在数字计算模型(CIM)上使用基于位移感知的即时对齐尾数位宽预测技术,平衡FP8计算精度与效率
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Balancing FP8 Computation Accuracy and Efficiency on Digital CIM via Shift-Aware On-the-Fly Aligned-Mantissa Bitwidth Prediction
【字体:
大
中
小
】
时间:2026年06月04日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
摘要:FP8低精度格式在变压器推理和训练中得到了广泛采用。然而,现有的数字计算内存(DCIM)架构在支持可变FP8对齐尾数位宽方面面临挑战,因为统一的对齐策略和固定精度的乘累加(MAC)单元难以处理具有多样化分布的输入数据。本文提出了一种灵活的FP8 DCIM加速器,具有三项创
摘要:
FP8低精度格式在变压器推理和训练中得到了广泛采用。然而,现有的数字计算内存(DCIM)架构在支持可变FP8对齐尾数位宽方面面临挑战,因为统一的对齐策略和固定精度的乘累加(MAC)单元难以处理具有多样化分布的输入数据。本文提出了一种灵活的FP8 DCIM加速器,具有三项创新:1)动态位宽预测(DSBP)技术,该技术通过实时输入预测自适应地调整权重(2/4/6/8位)和输入数据的位宽;2)基于FIFO的输入对齐单元(FIAU),用基于指针的控制方式替代了复杂的桶形移位器;3)可扩展精度的INT MAC数组,能够在最小开销的情况下实现灵活的权重精度。该加速器采用28纳米CMOS工艺实现,并配备了CIM阵列,实现了每瓦20.4 TFLOPS的性能,显著提高了FP8计算效率(相比之前的工作)。在Llama-7b数据集上的测试表明,DSBP在保持相同精度水平的情况下,比固定位宽模式具有更高的效率,并且可以通过配置参数实现精度与效率之间的灵活权衡。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号