利用SHERLOC拉曼光谱的深度学习技术辅助火星天体物质的识别

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Deep learning of SHERLOC Raman spectra for facilitating Mars Astromaterial identification

【字体: 时间:2026年06月02日 来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐:

  王立坤|田静|蔡梦娜|陈玉宗宁波大学药物发现技术研究所,中国宁波315211摘要拉曼光谱技术已被用于行星探索,特别是通过SHERLOC仪器来研究火星的宜居性和天体物质搜索任务。SHERLOC以及其他基于拉曼光谱的天体物质搜索任务主要依赖于对比分析拉曼峰和专家对已知光谱峰的解读。利

  
王立坤|田静|蔡梦娜|陈玉宗
宁波大学药物发现技术研究所,中国宁波315211

摘要

拉曼光谱技术已被用于行星探索,特别是通过SHERLOC仪器来研究火星的宜居性和天体物质搜索任务。SHERLOC以及其他基于拉曼光谱的天体物质搜索任务主要依赖于对比分析拉曼峰和专家对已知光谱峰的解读。利用机器学习(ML)和深度学习(DL)方法进行高性能的自动化天体物质识别是很有前景的。在这项工作中,我们首次对三种ML模型和两种DL模型进行了基准测试,以识别SHERLOC拉曼光谱中的六类矿物。使用两次科学考察(Crater Floor和Upper Fan)中专家标注的光谱数据,表现最佳的DL模型的识别准确率为89.3%,并且在类别不平衡的情况下仍保持了良好的分类性能。该DL模型还被应用于非诊断性和未标注的SHERLOC拉曼光谱数据,其预测结果与文献中报道的材料特性基本一致。这些结果表明,DL方法可以为行星探索中的自动化拉曼光谱天体物质识别和光谱解释提供支持。

引言

深空探索服务于多种科学目标,例如阐明天体的物质组成和地质结构,以及探索潜在的宜居环境和生命迹象[1]。为了实现这些目标,行星任务部署了一系列原位分析技术来表征天体物质,包括X射线衍射[2]、气相色谱-质谱[3]、激光诱导击穿光谱[4]、拉曼光谱和荧光光谱[5],[6],[7]。在这些方法中,拉曼光谱因其样品制备要求低、操作非破坏性以及对无机矿物和有机分子都具有敏感性而脱颖而出,例如火星毅力号探测器上搭载的SHERLOC仪器[8],[9]。
拉曼光谱编码了矿物和有机分子的振动特征,而基于数据库的光谱匹配仍然是广泛采用的拉曼光谱矿物识别方法[10],[11]。RRUFF数据库[12]中存档的大量矿物光谱,以及在与探测器类似条件下实验室生成的光谱库[13],[14],极大地支持了行星任务中天体物质的矿物学解释。然而,在行星表面获得的原位拉曼信号往往与标准参考光谱存在偏差,因为天然矿物样本通常是混合物,其光谱特征可能受到颗粒大小、晶体取向和晶格变化的影响[15]。因此,火星Jezero陨石坑中磨损区域的矿物识别主要依赖于光谱匹配和专家手动解释的结合[16],[17],[18]。
近年来,深度学习(DL)在化学研究[19]中得到了广泛应用,并在拉曼光谱分析[20],[21],[22],[23]方面展现出巨大潜力,已在环境科学[24]、生物医学[25]、细胞生物学[26]、公共卫生[27]和行星探索[28]等领域取得成功应用。通过自动提取和整合非线性光谱特征(如峰位、形状和强度),DL提高了光谱解释的效率,同时在高噪声或信号强度较弱的情况下仍能保持稳定的性能。例如,基于开放拉曼光谱数据库训练的卷积神经网络即使在低质量光谱下也能实现高精度矿物分类[29]。更先进的架构,如双注意力卷积长短期记忆网络,进一步提高了对光谱相似矿物的区分能力并增强了模型稳定性[30]。然而,DL方法在原位火星拉曼数据上的应用仍需进一步探索。
在这项研究中,我们首次使用SHERLOC仪器获得的原位拉曼光谱,对三种机器学习(ML)模型和两种DL模型进行了全面评估。这些模型在两次独立科学考察的数据集上进行了基准测试,以评估它们的分类准确性。其中一个DL模型在单次考察和跨考察实验中都表现良好。此外,还使用非诊断性和未标注的拉曼光谱进一步探讨了该模型的解释能力,其预测结果与文献中的观察结果基本一致。总体而言,这些结果表明,DL为行星探索中的拉曼光谱天体物质分析提供了一个有前景的工具。

章节片段

数据集

本研究使用的数据集来自NASA毅力号探测器在火星Jezero陨石坑上采集的原位深紫外拉曼光谱测量数据。Crater Floor和Upper Fan两次科学考察期间获得的光谱的矿物标签,分别对应于2020年火星任务的第一和第三次科学考察,通过与其他参考拉曼光谱的对比分析确定[16],[18]。这些光谱来自

两个数据集都存在明显的类别不平衡。图2a的上半部分显示了Crater Floor考察中单标签矿物拉曼数据集的类别分布。硫酸盐光谱占主导地位,而辉石光谱极为罕见,两者相差约27倍。为了避免由于样本代表性不足导致的训练偏差,辉石类别被排除在模型训练之外。图2a的下半部分显示了

结论

在这项工作中,我们使用Crater Floor和Upper Fan考察中标记的SHERLOC数据集训练和评估了多种ML和DL模型。专为拉曼光谱分析设计的双路径卷积框架实现了高分类准确性。在Upper Fan考察期间,硅酸盐光谱的固有异质性导致训练和预测过程中的模型稳定性降低。基于扰动的可解释性分析进一步证实了模型能够关注物理特性

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了浙江省研究项目(编号Y202559503)和宁波市顶尖人才项目(编号215-432094250)的支持。作者感谢倪炳伟和李彦国在本工作初期提供的有益讨论。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号