HyPIM:采用混合ReRAM/SRAM 3D-PIM架构的LLM加速技术
《ACM Transactions on Embedded Computing Systems》:HyPIM: LLM Acceleration with A Hybrid ReRAM/SRAM 3D-PIM Architecture
【字体:
大
中
小
】
时间:2026年06月11日
来源:ACM Transactions on Embedded Computing Systems
摘要
摘要
基于Transformer的大型语言模型(LLMs)在计算机视觉和自然语言处理领域取得了显著进展。在嵌入式和实时系统中使用LLMs以提供更强大的智能功能也成为一种不可避免的趋势。然而,传统的冯·诺伊曼架构在处理基于Transformer的LLMs时面临巨大数据传输开销的挑战。内存中处理(PIM)作为一种潜在的解决方案,显著缩小了计算和存储之间的差距。尽管如此,基于Transformer的LLMs通常由多个Transformer块组成,每个Transformer块内的操作在计算和内存访问特性上存在显著差异。现有的仅依赖SRAM、DRAM或ReRAM的PIM设计无法很好地适应基于Transformer的LLMs。为了解决这些挑战,我们提出了HyPIM,这是一种3D混合PIM架构,它整合了SRAM和ReRAM切片以协同工作。然而,HyPIM并没有改变注意力机制的推理延迟在处理长数据序列时仍然主导整个推理延迟的情况。基于这些见解,我们为HyPIM架构设计了一种硬件友好的提前终止近似算法和稀疏矩阵乘法策略,通过软硬件协同设计减少了开销。与现有的最先进架构Newton、TransPIM、HAIMA、HARDSEA和H3DAtten相比,所提出的HyPIM架构实现了高达1.27×–1.67×的延迟改进。
AI摘要
AI生成摘要(实验性)
此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、评估相关性,并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍是论文的官方摘要。完整文章才是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。这将为改进和未来重新生成的版本提供参考。
要查看此AI生成的简明语言摘要,您必须具有高级访问权限。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号