BVDT:一种基于28纳米LUT(查找表)的变压器加速器,采用基向量压缩和分解计算技术
《IEEE Transactions on Circuits and Systems I: Regular Papers》:BVDT: A 28-nm LUT-Assisted Transformer Accelerator With Basis-Vector Compression and Decomposed Computing
【字体:
大
中
小
】
时间:2026年05月28日
来源:IEEE Transactions on Circuits and Systems I: Regular Papers 5.2
编辑推荐:
摘要:基于Transformer的神经网络在新兴的视觉和自然语言处理任务中起着关键作用。尽管这些模型取得了成功,但由于它们巨大的计算和内存需求,加速这些模型仍然具有挑战性。传统方法(如稀疏注意力计算)可以减轻部分负担,但在处理多样化的运算符复杂性以及由大型模型参数和低数据重用率导
摘要:
基于Transformer的神经网络在新兴的视觉和自然语言处理任务中起着关键作用。尽管这些模型取得了成功,但由于它们巨大的计算和内存需求,加速这些模型仍然具有挑战性。传统方法(如稀疏注意力计算)可以减轻部分负担,但在处理多样化的运算符复杂性以及由大型模型参数和低数据重用率导致的显著存储开销方面仍存在不足。在这项工作中,我们提出了BVDT,这是一种能效高效的Transformer加速器,它通过四项关键创新利用了矩阵的固有冗余性来克服这些限制。首先,BVDT引入了一种新颖的基向量分解技术,通过该技术模型大小压缩了超过25×,并且得到了统一内存管理的支持。其次,它采用了双阵列核心架构,该架构由LUT辅助计算驱动,具有优化的查找代码获取和LUT编程机制。此外,BVDT采用了一种块级后融合映射方法,将压缩模式和计算架构无缝连接起来。最后,BVDT为多核系统利用了私有到私有的数据路径,实现了LUT静态数据流,显著降低了内存访问开销。因此,BVDT在各种工作负载下为不同的Transformer运算符提供了与任务无关的优化。该加速器采用28纳米CMOS技术制造,实现了卓越的面积效率4.35?TOPS/mm2,相比之前的最先进解决方案有了5.1×的改进。此外,BVDT在能效方面也实现了1.4×到3.6×的提升,为基于Transformer的应用提供了有前景的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号