Falcon:一种基于事件驱动的混合对象跟踪系统级芯片(SoC),采用基于位列相似性的MRAM(相变随机存取存储器)作为存储单元,并结合异构的“只读一次”(Read-Only-Once)注意力机制来实现高效的对象跟踪

《IEEE Journal of Solid-State Circuits》:Falcon: Event-Driven Hybrid Object Tracking SoC With Bit-Column-Similarity-Based MRAM PIM and Heterogeneous Read-Only-Once Attention Flow

【字体: 时间:2026年04月16日 来源:IEEE Journal of Solid-State Circuits 5.6

编辑推荐:

  事件驱动视觉SoC通过整合MRAM-PIM、近存计算、LUT和SIMD单元,优化了低功耗实时跟踪系统。采用激活跳过和权重压缩技术使CNN编码器能效提升2.44倍,注意力机制通过QKV数据流减少46%缓冲读取,动态激活管线将功耗降低63.5%。在28nm FDSOI工艺下实现16.34 TOPS/W能效,支持50帧/秒实时跟踪。

  

摘要:

混合式帧事件相机具备高空间保真度和极快的时间响应速度(约μ秒级别),非常适合在运动模糊和活动场景稀疏的情况下进行低功耗、低延迟的目标跟踪。本研究提出了一种基于事件驱动的视觉系统芯片(SoC),该芯片集成了异构的基于MRAM的存储内处理(PIM)技术、近内存计算(NMC)机制、查找表(LUT)以及单指令多数据(SIMD)计算单元,以实现端到端的实时混合跟踪功能。首先,将卷积神经网络(CNN)特征编码器映射到经过优化的MRAM PIM上,并采用了激活跳过和权重压缩技术,从而实现了高达2.44倍的能效提升以及61.9%的延迟降低。其次,采用基于注意力机制的跟踪算法,通过一次读取的数据流(包含Q/K/V格式的数据)结合列优先级NMC生成、混合积SIMD运算和LUT加速的SoftMax函数,将缓冲区读取次数减少了46%,注意力算法的延迟降低了30%。第三,通过两阶段事件驱动的激活流程仅在物体移动时才进行计算,从而将系统功耗降低了63.5%,整体延迟降低了68.8%。该SoC采用28纳米FDSOI工艺制造(芯片面积为12.96平方毫米),在0.7伏电压、50MHz频率下,针对1位到3位MAC运算的宏级别性能可达750.18 TOPS/W;在1.15伏电压、200MHz频率下,针对INT8格式的CNN和FP8格式的注意力算法的系统级性能可达16.34 TOPS/W,实现了每秒50帧的实时跟踪功能,功耗仅为196.5毫瓦。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号