基于循环的噪声鲁棒深度光学卷积神经网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于循环的噪声鲁棒深度光学卷积神经网络

《Photonics》：Noise-Robust Loop-Based Deep Optical Convolutional Neural Network

【字体：大中小】 时间：2026年06月10日 来源：Photonics 1.9

编辑推荐：

　　研究人员展示了一种基于循环的深度光学卷积神经网络（DOCNN），该网络通过重复使用单个自由空间光学硬件，经过多次传递实现网络深度。卷积通过可编程空间光调制器（SLM）与傅里叶平面核实现，非线性由硅酸铋（BSO）晶体的光折变相位响应提供，并通过空间滤波转换为有效

研究人员展示了一种基于循环的深度光学卷积神经网络（DOCNN），该网络通过重复使用单个自由空间光学硬件，经过多次传递实现网络深度。卷积通过可编程空间光调制器（SLM）与傅里叶平面核实现，非线性由硅酸铋（BSO）晶体的光折变相位响应提供，并通过空间滤波转换为有效的强度激活，池化通过使用光阑的缩小成像在光学上执行。在MNIST数据集上，基于BSO的非线性将测试准确率从90.8%（线性）提高到95.7%（最优操作）。研究人员对真实光学噪声（激光波动、像差、探测器失调和灰尘）进行了建模，并使用结构相似性指数（SSIM）归一化严重性度量进行比较。在Fashion-MNIST数据集上，噪声强度s=0.35时，准确率从88.53%（干净）下降到79.5%（噪声推理）；一种特征级噪声感知训练策略将性能恢复到86.87%。这些进展共同表明，一个紧凑的、基于循环的混合光学深度卷积神经网络（DOCNN），辅以简单的光学非线性、简化的池化和噪声感知学习，可以在真实条件下提高准确率。

**研究背景与问题**
卷积神经网络（CNN）在图像分类等任务中表现出色，但其计算成本随深度和图像尺寸急剧增长，尤其对嵌入式智能、物联网等低功耗场景构成挑战。光学计算凭借高速并行、低能耗的优势成为替代方案，但自由空间光学实现面临多重障碍：光学非线性元件稀缺使多层网络退化为线性模型；光学池化依赖固定掩模，缺乏灵活性且光损耗严重；真实系统中激光波动、像差、失调、灰尘等噪声会严重劣化推理精度。现有工作虽尝试噪声建模或训练策略，但多局限于单一噪声类型或小型数据集。为此，研究人员提出一种基于循环架构的深度光学卷积神经网络（DOCNN），通过重复使用单个4f光学相关器实现网络深度，集成光学非线性、简化池化及噪声感知训练，以提升实际条件下的鲁棒性与准确率。该论文发表在《Photonics》。

**关键技术方法**
研究人员采用以下主要技术：（1）基于4f光学系统的卷积操作，利用空间光调制器（SLM）在傅里叶平面显示可训练核，实现实时傅里叶变换滤波；（2）利用硅酸铋（BSO）晶体的光折变效应产生强度依赖的相位调制，结合后续空间滤波（有限光阑）将其转换为等效强度非线性激活函数；（3）基于单凸透镜的缩小成像实现光学池化，并置于透镜后焦平面的孔径光阑作为抗混叠低通滤波器，实现类似平均池化的降采样；（4）对四种物理噪声（激光波动、波前像差、探测器失调、灰尘遮挡）建立物理可解释模型，并使用结构相似性指数（SSIM）归一化严重性度量进行公平比较；（5）提出特征级噪声感知训练策略：保持光学编码器权重固定，将干净训练集通过含噪声的光学编码器生成损坏特征，用这些特征训练新的分类器，以减小训练-测试域差距。

**研究结果**
**2.1 & 2.2 光学卷积与非线性激活**
在4f系统中实现光学卷积，并通过BSO晶体与光阑组合实现非线性激活。实验表明，BSO非线性可将MNIST测试准确率从线性基线的90.8%提升至95.7%（最优工作点：光束半径0.40 mm、激光功率0.85 W）。与电子非线性（ReLU、sigmoid、tanh）相比，BSO准确率（95.05%~95.70%）低于理想电子激活（97.65%~97.80%），但证明了物理实现的光学非线性可减少对电子后处理的依赖。

**2.3 光学池化层**
通过单透镜缩小成像与傅里叶面光阑实现光学池化。在MNIST上扫描放大率M，最佳准确率94.9%出现在M=0.6。该池化过程完全在光学域完成，不引入额外数字浮点运算（FLOPs），且提升了泛化趋势。

**3 噪声理论与分析**
对四种噪声进行SSIM归一化比较。在归一化强度s下，激光波动对准确率影响最弱，球差和灰尘影响最强，探测器失调居中。同时应用所有噪声时退化加剧。Zernike像差分析表明，球差是破坏性最强的模式（0.5λ RMS波前误差下准确率降至约65%），而离焦、像散和彗差的鲁棒性较好。

**4 循环DOCNN性能评估**
构建1~6层深度的DOCNN，在MNIST、Fashion-MNIST（FMNIST）和KMNIST上测试四种变体（仅卷积、加BSO、加池化、全配置）。全配置（卷积+BSO+池化）在所有深度和数据集上最优。深度增加对简单MNIST提升微弱，但对复杂FMNIST和KMNIST准确率提升更显著。在噪声条件下，深度增加带来的收益有限，说明物理噪声限制了深层光学处理的优势。

**5 噪声感知训练**
比较三类配置：干净训练+干净推理（理想基线）、干净训练+噪声推理（退化）、噪声感知训练+噪声推理（提出方法）。在FMNIST上，s=0.35时干净训练+噪声推理准确率从88.53%降至79.5%，而噪声感知训练恢复至86.87%；在MNIST上平均提升约4百分点，在KMNIST上平均提升约9百分点。噪声感知训练对更复杂数据集和更深网络的改善更显著。

**讨论与结论**
讨论部分指出BSO非线性对波长、强度、偏压等条件敏感，需要优化以满足高速推理；当前架构仍为光电混合系统，检测和最终分类依赖电子域，限制了全光学推理的实现；自由空间实现体积大、易失调。未来工作可探究光学域读出、集成化封装以及BSO响应时间优化（通过波长、强度、晶体厚度等）。结论部分总结：研究人员提出的自由空间光学CNN在4f相关器中执行卷积，利用BSO晶体强度相关相位响应结合光阑实现非线性，通过单凸透镜和孔径实现光学池化。网络深度通过循环DOCNN复用同一硬件实现。实验表明，完整架构（卷积+BSO激活+池化）一致优于消融变体。通过建模真实光学噪声并应用特征级噪声感知训练，显著降低了噪声推理下的准确率损失。这些结果表明，基于循环的光学CNN提供了一种紧凑、噪声感知且实用的深度光学推理方法。

联系信箱：

粤ICP备09063491号

热点排行