Falcon:一种基于事件驱动的混合对象跟踪系统级芯片(SoC),采用基于位列相似性的MRAM(相变随机存取存储器)作为存储单元,并结合异构的“只读一次”(Read-Only-Once)注意力机制来实现高效的对象跟踪
《IEEE Journal of Solid-State Circuits》:Falcon: Event-Driven Hybrid Object Tracking SoC With Bit-Column-Similarity-Based MRAM PIM and Heterogeneous Read-Only-Once Attention Flow
【字体:
大
中
小
】
时间:2026年04月16日
来源:IEEE Journal of Solid-State Circuits 5.6
编辑推荐:
事件驱动视觉SoC通过整合MRAM-PIM、近存计算、LUT和SIMD单元,优化了低功耗实时跟踪系统。采用激活跳过和权重压缩技术使CNN编码器能效提升2.44倍,注意力机制通过QKV数据流减少46%缓冲读取,动态激活管线将功耗降低63.5%。在28nm FDSOI工艺下实现16.34 TOPS/W能效,支持50帧/秒实时跟踪。
摘要:
混合式帧事件相机具备高空间保真度和极快的时间响应速度(约μ秒级别),非常适合在运动模糊和活动场景稀疏的情况下进行低功耗、低延迟的目标跟踪。本研究提出了一种基于事件驱动的视觉系统芯片(SoC),该芯片集成了异构的基于MRAM的存储内处理(PIM)技术、近内存计算(NMC)机制、查找表(LUT)以及单指令多数据(SIMD)计算单元,以实现端到端的实时混合跟踪功能。首先,将卷积神经网络(CNN)特征编码器映射到经过优化的MRAM PIM上,并采用了激活跳过和权重压缩技术,从而实现了高达2.44倍的能效提升以及61.9%的延迟降低。其次,采用基于注意力机制的跟踪算法,通过一次读取的数据流(包含Q/K/V格式的数据)结合列优先级NMC生成、混合积SIMD运算和LUT加速的SoftMax函数,将缓冲区读取次数减少了46%,注意力算法的延迟降低了30%。第三,通过两阶段事件驱动的激活流程仅在物体移动时才进行计算,从而将系统功耗降低了63.5%,整体延迟降低了68.8%。该SoC采用28纳米FDSOI工艺制造(芯片面积为12.96平方毫米),在0.7伏电压、50MHz频率下,针对1位到3位MAC运算的宏级别性能可达750.18 TOPS/W;在1.15伏电压、200MHz频率下,针对INT8格式的CNN和FP8格式的注意力算法的系统级性能可达16.34 TOPS/W,实现了每秒50帧的实时跟踪功能,功耗仅为196.5毫瓦。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号