Fused-STA:一种用于通用深度学习加速的融合收缩张量阵列的自动化设计空间探索方法

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:Fused-STA: Automated Design Space Exploration of a Fused Systolic Tensor Array for Universal Deep Learning Acceleration

【字体: 时间:2026年05月28日 来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐:

   摘要:收缩阵列架构已成为加速深度神经网络(DNN)计算的主要解决方案,但由于设计空间庞大(涉及阵列维度、数据流策略、SRAM分配和铺砌大小等方面),设计最优配置仍然具有挑战性。现有的工具辅助优化框架将SRAM大小或铺砌大小视为固定输入参数,并且仅关注传统的收缩阵列,这限制了它们

  

摘要:

收缩阵列架构已成为加速深度神经网络(DNN)计算的主要解决方案,但由于设计空间庞大(涉及阵列维度、数据流策略、SRAM分配和铺砌大小等方面),设计最优配置仍然具有挑战性。现有的工具辅助优化框架将SRAM大小或铺砌大小视为固定输入参数,并且仅关注传统的收缩阵列,这限制了它们发现真正最优设计的能力。本文提出了一个全面的收缩张量阵列(STA)设计空间探索框架,该框架可以同时优化阵列配置、SRAM大小、铺砌大小和数据流类型。我们介绍了TensorSim,这是一个具有基于机器学习合成预测模型的周期精确模拟器,以及TensorOptimizer,这是一个自动化的多目标优化框架。通过对12种代表性DNN(从边缘级卷积神经网络(CNN)到数十亿参数的大型语言模型(LLM))进行评估,发现输出静态(OS)数据流在边缘工作负载上的性能优于权重静态(WS)数据流 1.53×,而在服务器规模计算中,WS的效率则 2.13× 高于OS。基于这些见解,我们提出了Fused-STA,这是一种可在统一硬件基底内动态切换OS和WS模式的可重构架构。Fused-STA在针对特定网络进行设计时,能够实现超过91%的oracle单数据流性能 2.34×,并且在边缘级和服务器级基准测试中分别比类似张量处理单元(TPU)的基线性能提高了 1.92×
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号