用于内存矩阵运算的光子忆阻器件
《PhotoniX》:Photonic memristive devices for in-memory matrix operation
【字体:
大
中
小
】
时间:2026年04月24日
来源:PhotoniX 19.1
编辑推荐:
摘要:本文评估了内存中光模拟忆阻器的性能权衡、基本约束和工程瓶颈,并讨论了它们在大型集成矩阵运算及其他应用中的潜在部署前景。内存光模拟忆阻器利用了光计算固有的优势——高带宽、低延迟和大规模并行性——同时消除了与权重维护相关的静态功耗,从而为下一代计算提供了一条潜在途径。矩阵运算是
摘要:本文评估了内存中光模拟忆阻器的性能权衡、基本约束和工程瓶颈,并讨论了它们在大型集成矩阵运算及其他应用中的潜在部署前景。内存光模拟忆阻器利用了光计算固有的优势——高带宽、低延迟和大规模并行性——同时消除了与权重维护相关的静态功耗,从而为下一代计算提供了一条潜在途径。矩阵运算是众多计算任务的基础,不断推动着计算硬件的发展,尤其是在现代人工智能和数据密集型应用中。
内存光计算阵列的性能在很大程度上依赖于非易失性和可重新配置的光模拟忆阻器(也称为集成光忆阻器或存储器),这些元件构成了矩阵的基本单元。尽管在这些内存计算单元的优化方面已经取得持续进展,但性能挑战和权衡仍需进一步探索。一个长期存在的问题是:哪些问题受当前设计、制造和控制技术的限制,因此可以通过持续优化和工程进步得到缓解;而哪些问题源于基本的物理或材料限制,这些问题往往更难以克服,并可能从本质上限制某种方法的竞争力?理解这些区别有助于更好地理解它们在内存矩阵运算中的应用。
图1(a)展示了通过各种非易失性调谐方法实现集成光模拟忆阻器的途径。图1(b)和(c)分别展示了相位和幅度调谐的先进性能指标雷达图。更详细的性能对比表见补充信息中的表S1和S2。为了便于不同方案之间的比较,本文仅涉及电控设备,并排除了场增强设计(如等离子体增强)。由于相变材料(PCMs)是最广泛研究的非易失性重配置平台,我们使用它们作为讨论的基准。
图1:PICs中的非易失性调谐方法及其性能指标,分别针对(b)相位和(c)幅度调谐。tswitching代表编程和复位操作所需的两个脉冲持续时间中的较长者,Vdrive代表这些操作所需的两个电压中的较高者。所展示的耐久性是指当前实验中实现的最大循环次数,并不代表设备的最大寿命。Eπ、Lπ和ILπ分别表示每个π相位移动的开关能量、调制长度和插入损耗。EdB和LdB分别表示每1 dB幅度调谐的开关能量和调制长度。IL30dB表示实现30 dB动态范围所需的幅度调谐插入损耗。
基于PCM的光忆阻器结合了紧凑的集成度、成熟的制造工艺、功能灵活性以及低插入损耗(特别是在相位调谐方面),使其成为大规模光计算的主要平台。首先,这些设备以比竞争技术小一到两个数量级的占用面积实现了高效调制,能够在相同的芯片区域内容纳更多的权重单元。其次,PCMs在后端线(BEOL)集成到晶圆制造的光子平台中的突破为大规模制造铺平了道路,使其能够与当今最成熟的调制器和探测器实现单片集成。第三,PCM家族中的材料多样性使得它们既可以进行幅度调制(如Ge2Sb2Te5 (GST) [8]、Ge2Sb2Se4Te1(GSST) [6]、Ge?Sb?Se? (GSSe) [9]等材料所示),也可以进行相位调制(如Sb?Se? [10]所示),并且可以通过电脉冲或光脉冲进行驱动。此外,用于PCMs电热切换的掺杂硅微加热器[11]还允许在内存计算单元中进行易失性(电光或热光)调制。最后,尽管在低损耗相位调谐的PCM设备中,插入损耗主要是由于晶界散射造成的,并且已经接近其物理极限(进一步减小晶粒尺寸的收益递减),但其性能仍属于最低水平之一(Sb2Se3情况下每个π相位移动为0.29 dB [10])。
然而,PCM光忆阻器的主要缺点在于高开关能量(与长时间开关相关),这主要是由热过程和结晶动力学的累积效应引起的。PCM的开关能量从根本上受到光学吸收损耗和结晶速度之间的内在权衡的限制,而当前的工程限制与掺杂硅微加热器的大热质量有关。不过,目前并不需要增加制造复杂性的潜在优化——因为静态推理主导了晶圆级内存计算的运行时间[12, 13],使得可行性和静态性能成为比开关能量更重要的优先考虑因素。幸运的是,可以通过调整驱动电压(从而控制加热速率)来适应不同的应用场景。例如,Sb2Se3-Si非易失性光子设备的驱动电压可以降低到<3 V(见补充表S1)。
铁电(FE)材料在能耗方面与PCMs高度互补。它们的非易失性开关由电压诱导的势垒穿越驱动,涉及极低的电荷转移,即使在长时间开关时也能实现超低能耗。然而,尽管开关功率极低,仅为3.1 pJ/π [14],但当前的FE材料在高驱动电压[15]和高插入损耗[14]之间提供了定制的权衡(详见补充说明1)。需要注意的是,与低损耗相位调谐的PCMs[10]相比,它们在开关速度上并不具有显著优势,并且设备占地面积较大。我们认为FE材料的主要优势仍然在于它们的超快易失性调制能力和在光通信中的应用。在内存计算方面,将这种易失性调制与非易失性操作相结合(如基于PZT的光开关[15]中所展示的)可以拓宽它们的应用范围,实现类似于PCM-Si平台[10]中提出的内存光神经网络的现场训练等功能。
基于纤维化的光忆阻器(MRs)在相位调谐能量(2 pJ/π)和开关速度(tswitching < 1 ns)方面可以提供显著的优势,并保持可比较的低插入损耗。尽管调制效率有限,但已超过了许多现有方法,其调制长度Lπ为350 μm。然而,MRs的有限比特容量(1.5比特)可能与其电子对应物中的随机性有关,这是其主要缺点之一。同时,其展示的10^3次开关循环的耐久性仍需要进一步的研究,这也是电子忆阻器中的一个问题。
最近展示了磁光(MO)非易失性相位调谐[17],其Vdrive < 1 V,tswitching < 1 ns,Eπ为每个π相位移动230 pJ,耐久性超过10^9次开关循环。然而,MO材料的内在吸收以及在长调制长度(Lπ > 1 mm)下的损失导致了较大的ILπ(约3 dB)。虽然部分损耗是由于覆盖活性MO区域之外的Ce:YIG结合层引起的工程限制,但由于制造复杂性,减轻这种额外损耗可能需要大量工作,除非在现有材料系统之外取得突破。
除了上述方法外,其他方法(如利用电荷捕获[CT] [18]、电致变色(EC)效应[19]和微机电系统(MEMS)[20]进行非易失性调谐)在内存矩阵运算中尚未显示出显著优势,详见补充说明2和3。
在光模拟忆阻器中,没有普遍的“最佳”方法——最佳选择高度依赖于应用。因此,不同的矩阵运算倾向于不同的非易失性可重配置方法,如图2所示。我们将讨论动态相位/幅度调谐方法中内存高可重配置矩阵运算的现状,并展望在高维非阿贝尔全纯性这一新兴范式中的未来强大矩阵运算。图2。
集成光忆阻器在内存矩阵运算中的应用包括:(a) 强度求和网络,(b) 干涉驱动网络,以及(c) 非阿贝尔几何相位网络。广播加权重网络(特别是交叉开关矩阵)[2]和波分复用(WDM)架构[21]是当前内存光计算的主要范式。PCMs在幅度调制方法中具有决定性优势,并已轻松融入这两种配置中,如图2(a)所示。尽管GST在这些网络中提供了可接受的性能,但探索具有更少体积变化和相位分离的更快开关替代方案可以进一步提高编程速度、能效和设备及网络的耐久性。更重要的是,目前的主要研究焦点是计算网络的扩展。交叉开关矩阵似乎更有前景,因为WDM网络中的MRRs没有自由光谱范围或热不稳定性问题,但仍面临随着网络扩展而增加的分裂误差和每个节点的光功率降低的问题。具有透明非晶态的PCMs(例如图1(c)中的GSST、GSSe)可以降低忆阻器的插入损耗,并有助于减轻输入功率需求,尽管其晶化速度较慢,从而增加了编程能量,这导致了特定的应用场景下的权衡。光源的作用不仅仅是提供足够的光输入功率。虽然在交叉开关矩阵中通常使用非相干光源来抑制干扰噪声,但部分相干光已被证明可以通过允许多个输入通道同时分布单个光带并进行无不稳定干扰的求和来提高并行性[22]。在基于WDM的内存计算中,已经展示了在总线波导上实现幅度调制(由PCMs)和在MRRs中实现低损耗相位调谐。最近,展示了一个9×9电可编程的内存光子张量核心,理论计算吞吐量为1.62 TOPS [23],其中Sb2Se3集成的MRR光忆阻器的编程能量和时间为13.65 μJ和400 μs。除了低损耗的PCMs外,具有低开关能量/电压的FE和MO设备也是新兴的候选者。值得注意的是,基于MO的设备在内存矩阵运算中提供了独特优势:原则上,MRR中的顺时针和逆时针传播模式允许双极性(正/负)权重编码,无需额外的差分链路配置[17]。这有望有效地提高集成密度,但阵列级控制的实际实现仍需进一步验证。
图2(b)中展示的基于光忆阻器的相干马赫-曾德尔干涉仪(MZI)计算网络面临持续的挑战。虽然PZT铁电波导已被用于实现一个4×4的光开关[15],具有非易失性路由配置,但它们的毫米级占地面积——与其他大多数相位调谐方法相同——对于需要高密度权重单元的大规模计算网络来说可能是一个问题。此外,实际上,具有高插入损耗和有限比特精度的非易失性移位器也是不理想的,因为插入损耗和相位误差会在MZI网络中累积。这使得低损耗的PCMs成为少数可行的选项之一,并且需要为每个单元进行精细调节和监控循环[24],这反过来又增加了整个网络的复杂性。
那么,一个重要的问题是:光忆阻器的比特精度是否能够支持实际计算?尽管更复杂的计算任务通常需要更高的比特精度,但仍可以进行一些一般性的讨论。如图2所示,目前的PCM光忆阻器在可用方法中表现出优越的比特密度,每个单元通常具有5-7比特的电编程比特容量。然而,许多报道的结果反映了单调非晶化或结晶过程中的最终精度,而不是在循环间可重复和任意水平的切换。较大的循环间偏差直接降低了有效比特精度或比特容量[25],这仍然是目前对PCM集成设备的重大批评。尽管PCMs中的随机性本质上受到随机成核的限制,但其当前水平尚未达到材料的物理极限。事实上,随机性是非易失性模拟设备的常见挑战,对于基于纤维化的光忆阻器尤其如此,因为其切换机制。因此,强度求和网络架构更适合内存计算。同时,除了硬件优化外,低比特算法也是光子内存计算中的关键组成部分。目前,行业内的大规模模型已广泛采用4位新型数值格式进行推理,而超低位(<3位)量化算法仍处于积极研究阶段[26]。这一趋势不仅有利于基于光忆阻器的存储器内矩阵运算,还为它们引入了新的研究方向,例如实现具有正态分布的新型数值格式的代码级。最后,我们还重点介绍了利用几何相位[27]进行矩阵运算的新兴物理平台,这些平台超越了传统的光学计算。与前述的动态相位操控不同,几何相位仅依赖于希尔伯特空间中的演化路径,使得这些平台对参数波动具有内在的鲁棒性,并且具有宽带的操作带宽,为拓扑保护量子计算铺平了道路。最新的研究展示了在多层硅氮化物平台上实现的首个高维非阿贝尔全息装置,宽带(>100纳米)幺正运算能够实现六维的特殊正交矩阵,并通过奇异值分解实现M×N全息计算。这可能为经典和量子领域提供了非阿贝尔几何相位的多功能应用范例[28]。尽管上述“全几何”方法已成功实现对各种量子系统中原子、离子和电子的鲁棒控制,但其光子实现长期以来一直受到可调性不足的限制,而可调性是可扩展的经典和量子光信息处理的关键要求。最近的研究报告称,低损耗PCM能够在硅光子学中实现非易失性的、可重构的非阿贝尔几何相位[29],通过可逆切换Sb?Se?在晶体相和非晶相之间实现,如图2(c)所示。这种全息性的基础是简并结构,从而在希尔伯特空间中选择不同的演化路径,并动态访问不同的SO(m)几何变换。这一平台呈现了一个有趣的研究方向,因为重新配置通用的SO(m)全息性为下一代光子和量子计算开辟了新的可能性。具体来说,光学计算是基于光的数学处理的广泛应用领域,而SO(m)矩阵运算代表了执行这些计算的一种特定且鲁棒的物理范例。通过利用简并态的绝热演化而不是敏感的动态相位,这种可重构的全息方法提供了与传统基于干涉的光子电路相比更强的故障韧性和更宽的操作带宽,适用于广泛的光学计算和量子计算中的矩阵运算。
结论
本文概述了最近的发展,包括集成光忆阻器在存储器内矩阵运算中的优化和应用挑战,旨在为未来的研究提供洞察。总体而言,集成PCM的设备涵盖了最广泛的应用场景,实现了存储器内的动态相位/幅度调制和几何相位控制。鉴于PCM在低温[30]甚至太空环境[31]中的可行性,基于PCM的存储器内矩阵运算在航空航天边缘计算中的应用也备受期待。除了PCM之外,FE和MO光忆阻器等新兴方法也在快速发展。目前大多数光忆阻器仍然是电子忆阻器的光学类比。然而,人们普遍预期,跨学科合作——涵盖新型材料[32, 33]、器件物理和系统级实现[34]、计算架构[35]以及算法设计[36]——对于推进这一领域至关重要。这些努力也有望促进相关领域的发展,包括信息获取网络和新兴的控制范式[37],从而解决后摩尔时代的关键挑战。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号