BVDT：一种基于28纳米LUT（查找表）的变压器加速器，采用基向量压缩和分解计算技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems I: Regular Papers》：BVDT: A 28-nm LUT-Assisted Transformer Accelerator With Basis-Vector Compression and Decomposed Computing

【字体：大中小】 时间：2026年05月28日 来源：IEEE Transactions on Circuits and Systems I: Regular Papers 5.2

编辑推荐：

　　摘要：基于Transformer的神经网络在新兴的视觉和自然语言处理任务中起着关键作用。尽管这些模型取得了成功，但由于它们巨大的计算和内存需求，加速这些模型仍然具有挑战性。传统方法（如稀疏注意力计算）可以减轻部分负担，但在处理多样化的运算符复杂性以及由大型模型参数和低数据重用率导

摘要：

基于Transformer的神经网络在新兴的视觉和自然语言处理任务中起着关键作用。尽管这些模型取得了成功，但由于它们巨大的计算和内存需求，加速这些模型仍然具有挑战性。传统方法（如稀疏注意力计算）可以减轻部分负担，但在处理多样化的运算符复杂性以及由大型模型参数和低数据重用率导致的显著存储开销方面仍存在不足。在这项工作中，我们提出了BVDT，这是一种能效高效的Transformer加速器，它通过四项关键创新利用了矩阵的固有冗余性来克服这些限制。首先，BVDT引入了一种新颖的基向量分解技术，通过该技术模型大小压缩了超过

25×，并且得到了统一内存管理的支持。其次，它采用了双阵列核心架构，该架构由LUT辅助计算驱动，具有优化的查找代码获取和LUT编程机制。此外，BVDT采用了一种块级后融合映射方法，将压缩模式和计算架构无缝连接起来。最后，BVDT为多核系统利用了私有到私有的数据路径，实现了LUT静态数据流，显著降低了内存访问开销。因此，BVDT在各种工作负载下为不同的Transformer运算符提供了与任务无关的优化。该加速器采用28纳米CMOS技术制造，实现了卓越的面积效率

4.35?TOPS/mm2，相比之前的最先进解决方案有了

5.1×的改进。此外，BVDT在能效方面也实现了

1.4×到

3.6×的提升，为基于Transformer的应用提供了有前景的解决方案。

联系信箱：

粤ICP备09063491号

摘要：

热点排行