基于循环的噪声鲁棒深度光学卷积神经网络

《Photonics》:Noise-Robust Loop-Based Deep Optical Convolutional Neural Network

【字体: 时间:2026年06月10日 来源:Photonics 1.9

编辑推荐:

  研究人员展示了一种基于循环的深度光学卷积神经网络(DOCNN),该网络通过重复使用单个自由空间光学硬件,经过多次传递实现网络深度。卷积通过可编程空间光调制器(SLM)与傅里叶平面核实现,非线性由硅酸铋(BSO)晶体的光折变相位响应提供,并通过空间滤波转换为有效

  
研究人员展示了一种基于循环的深度光学卷积神经网络(DOCNN),该网络通过重复使用单个自由空间光学硬件,经过多次传递实现网络深度。卷积通过可编程空间光调制器(SLM)与傅里叶平面核实现,非线性由硅酸铋(BSO)晶体的光折变相位响应提供,并通过空间滤波转换为有效的强度激活,池化通过使用光阑的缩小成像在光学上执行。在MNIST数据集上,基于BSO的非线性将测试准确率从90.8%(线性)提高到95.7%(最优操作)。研究人员对真实光学噪声(激光波动、像差、探测器失调和灰尘)进行了建模,并使用结构相似性指数(SSIM)归一化严重性度量进行比较。在Fashion-MNIST数据集上,噪声强度s=0.35时,准确率从88.53%(干净)下降到79.5%(噪声推理);一种特征级噪声感知训练策略将性能恢复到86.87%。这些进展共同表明,一个紧凑的、基于循环的混合光学深度卷积神经网络(DOCNN),辅以简单的光学非线性、简化的池化和噪声感知学习,可以在真实条件下提高准确率。
**研究背景与问题**
卷积神经网络(CNN)在图像分类等任务中表现出色,但其计算成本随深度和图像尺寸急剧增长,尤其对嵌入式智能、物联网等低功耗场景构成挑战。光学计算凭借高速并行、低能耗的优势成为替代方案,但自由空间光学实现面临多重障碍:光学非线性元件稀缺使多层网络退化为线性模型;光学池化依赖固定掩模,缺乏灵活性且光损耗严重;真实系统中激光波动、像差、失调、灰尘等噪声会严重劣化推理精度。现有工作虽尝试噪声建模或训练策略,但多局限于单一噪声类型或小型数据集。为此,研究人员提出一种基于循环架构的深度光学卷积神经网络(DOCNN),通过重复使用单个4f光学相关器实现网络深度,集成光学非线性、简化池化及噪声感知训练,以提升实际条件下的鲁棒性与准确率。该论文发表在《Photonics》。

**关键技术方法**
研究人员采用以下主要技术:(1)基于4f光学系统的卷积操作,利用空间光调制器(SLM)在傅里叶平面显示可训练核,实现实时傅里叶变换滤波;(2)利用硅酸铋(BSO)晶体的光折变效应产生强度依赖的相位调制,结合后续空间滤波(有限光阑)将其转换为等效强度非线性激活函数;(3)基于单凸透镜的缩小成像实现光学池化,并置于透镜后焦平面的孔径光阑作为抗混叠低通滤波器,实现类似平均池化的降采样;(4)对四种物理噪声(激光波动、波前像差、探测器失调、灰尘遮挡)建立物理可解释模型,并使用结构相似性指数(SSIM)归一化严重性度量进行公平比较;(5)提出特征级噪声感知训练策略:保持光学编码器权重固定,将干净训练集通过含噪声的光学编码器生成损坏特征,用这些特征训练新的分类器,以减小训练-测试域差距。

**研究结果**
**2.1 & 2.2 光学卷积与非线性激活**
在4f系统中实现光学卷积,并通过BSO晶体与光阑组合实现非线性激活。实验表明,BSO非线性可将MNIST测试准确率从线性基线的90.8%提升至95.7%(最优工作点:光束半径0.40 mm、激光功率0.85 W)。与电子非线性(ReLU、sigmoid、tanh)相比,BSO准确率(95.05%~95.70%)低于理想电子激活(97.65%~97.80%),但证明了物理实现的光学非线性可减少对电子后处理的依赖。

**2.3 光学池化层**
通过单透镜缩小成像与傅里叶面光阑实现光学池化。在MNIST上扫描放大率M,最佳准确率94.9%出现在M=0.6。该池化过程完全在光学域完成,不引入额外数字浮点运算(FLOPs),且提升了泛化趋势。

**3 噪声理论与分析**
对四种噪声进行SSIM归一化比较。在归一化强度s下,激光波动对准确率影响最弱,球差和灰尘影响最强,探测器失调居中。同时应用所有噪声时退化加剧。Zernike像差分析表明,球差是破坏性最强的模式(0.5λ RMS波前误差下准确率降至约65%),而离焦、像散和彗差的鲁棒性较好。

**4 循环DOCNN性能评估**
构建1~6层深度的DOCNN,在MNIST、Fashion-MNIST(FMNIST)和KMNIST上测试四种变体(仅卷积、加BSO、加池化、全配置)。全配置(卷积+BSO+池化)在所有深度和数据集上最优。深度增加对简单MNIST提升微弱,但对复杂FMNIST和KMNIST准确率提升更显著。在噪声条件下,深度增加带来的收益有限,说明物理噪声限制了深层光学处理的优势。

**5 噪声感知训练**
比较三类配置:干净训练+干净推理(理想基线)、干净训练+噪声推理(退化)、噪声感知训练+噪声推理(提出方法)。在FMNIST上,s=0.35时干净训练+噪声推理准确率从88.53%降至79.5%,而噪声感知训练恢复至86.87%;在MNIST上平均提升约4百分点,在KMNIST上平均提升约9百分点。噪声感知训练对更复杂数据集和更深网络的改善更显著。

**讨论与结论**
讨论部分指出BSO非线性对波长、强度、偏压等条件敏感,需要优化以满足高速推理;当前架构仍为光电混合系统,检测和最终分类依赖电子域,限制了全光学推理的实现;自由空间实现体积大、易失调。未来工作可探究光学域读出、集成化封装以及BSO响应时间优化(通过波长、强度、晶体厚度等)。结论部分总结:研究人员提出的自由空间光学CNN在4f相关器中执行卷积,利用BSO晶体强度相关相位响应结合光阑实现非线性,通过单凸透镜和孔径实现光学池化。网络深度通过循环DOCNN复用同一硬件实现。实验表明,完整架构(卷积+BSO激活+池化)一致优于消融变体。通过建模真实光学噪声并应用特征级噪声感知训练,显著降低了噪声推理下的准确率损失。这些结果表明,基于循环的光学CNN提供了一种紧凑、噪声感知且实用的深度光学推理方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号