《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Research on multi modal corn seed vitality grading based on three branch cross attention fusion network
编辑推荐:
本研究提出一种基于高光谱成像、电子鼻和机器视觉的多模态融合方法用于玉米种子活力检测,通过三向交叉注意力机制有效整合互补信息,模型准确率达99.6%,显著优于单模态方法,为智能农业提供新技术基础。
Jieming Xie|Zheng Jian|Jiacheng Fu|Shunying Huang|Yimin Zhou|Xuqin Luo|Dan Dai|Yuezhong Mao|Qinghui Han
浙江农林大学,临安311300,中国
摘要
玉米是一种在全球范围内具有重要意义的粮食和饲料作物,其种子的活力直接影响发芽率和产量。在智能农业的背景下,迫切需要快速、无损且可量化的方法来评估种子活力。本研究提出了一种新颖的多模态融合方法,用于检测玉米种子的活力,该方法整合了高光谱成像(HSI)、电子鼻(ENS)和机器视觉(MV)技术。从经过不同程度人工加速老化的种子中系统地收集了多源数据,从而构建了一个包含五种不同活力水平的样本集。标准发芽测试被用作活力标记的基准。每种模式都经过了包括校准、去噪、特征提取和标准化在内的预处理步骤。处理后的数据被融合在一起,以构建用于模型开发的综合数据集。在单模态模型中,HSI、ENS和MV的分类准确率分别达到了91.8%、94.4%和92.0%。相比之下,基于三向交叉注意力(TCAF-Net)的特征融合网络有效地利用了光谱、嗅觉和形态特征之间的互补信息,该模型的准确率达到了99.6%,显示出在区分种子活力水平方面的卓越的鲁棒性和稳定性。结果验证了多模态数据融合在快速、无损评估玉米种子活力方面的有效性,并为智能农业和种子质量监测应用提供了有前景的技术基础。
引言
玉米是全球最重要的粮食作物之一,其年产量在主要谷物作物中位居首位。它被广泛用于食品加工、动物饲料、生物能源等领域。近年来,作为世界第二大玉米生产和最大消费国,中国的年玉米产量已超过2.9亿吨,总消费量已超过3亿吨。玉米在国家粮食安全和可持续农业发展中占据着核心战略地位[1]。在玉米产业链中,确保玉米生产的效率非常重要。种子质量,特别是种子活力,是评估种子生理状态以及田间条件下的发芽能力和生长潜力的关键指标。种子活力直接影响作物的出苗、早期生长表现和最终产量。然而,传统的种子活力评估方法往往具有破坏性、耗时且效率低下,因此无法满足现代农业对快速、无损和智能种子质量评估的日益增长的需求。因此,迫切需要新的技术来进行高效和准确的活力评估,以支持高质量种子的选择和使用。
当前的种子活力评估方法包括:(1)基于形态的检测,依赖于对大小、形状、颜色和完整性的视觉检查;(2)生物方法,使用DNA图谱分析、光谱学和化学分析,这些方法虽然精确但成本高、复杂且耗时,不适合大规模快速检测;(3)传统的机器视觉,分析外部特征,但容易受到环境因素的影响,无法捕捉内部生化变化,因此检测维度有限[2]。
近年来,高光谱成像(HSI)、电子鼻(ENS)、机器视觉(MV)及相关技术越来越多地应用于种子活力的快速和无损评估。例如,Wang [3] 使用近红外高光谱成像结合WT-NIRSNet模型快速分类核桃中的内源性杂质,测试集准确率达到99.03%。Fan [4] 利用高光谱成像和多尺度三维卷积神经网络区分单个种子的活力,准确率为90.67%。在另一项研究中,Fan [5] 应用近红外光谱技术检测小麦种子活力,并通过整合四种机器学习算法和特征降维构建分类模型,最大分类准确率达到88.9%。Cheng [6] 开发了一种基于电子鼻的距离概率联合决策支持向量机(SVM)模型,对不同等级的大泉米质量的识别准确率分别为90%、90%、96.88%和100%。Tang [7] 提出了一种基于电子鼻在不同温度和储存周期下测量的水稻挥发性气体特征的MSAM-Net模型,在40°C和35%相对湿度下的准确率为97.42%,F1分数为97.64%。Zhang [8] 也使用电子鼻评估人工老化的玉米种子,PLSR模型的R2为0.901,RMSEP为0.050。Higor [9] 将机器视觉图像的超像素分割(SLIC)与多层感知器模型结合,分别对活性和非活性番石榴种子的分类准确率达到了97.92%和96.32%。尽管这些单模态方法在种子活力检测方面表现出了良好的性能,但仍存在一些固有的局限性。例如,HSI在检测化学成分方面有效,但其模型稳定性容易受到品种、产地和储存条件的影响,并且数据维度高、图像分辨率低,对光照条件要求高[10];MV主要依赖于种子的外观特征,当外观差异不明显时,分类准确率较低,而HSI由于包含内部信息,具有更好的分类性能[11];ENS容易受到环境中的背景挥发物、光线、湿度和微生物活动的干扰,导致结果波动,限制了其在不同批次和环境中的稳定应用[12]。
尽管基于多模态融合的种子活力检测研究相对有限,但由于其提高检测准确性和鲁棒性的潜力,近年来这一主题受到了越来越多的关注。通过整合来自多种传感模式的互补信息,多模态融合提供了一种有效的方法来克服单模态方法的固有局限性。多项研究表明,基于多源数据融合的模型优于依赖单一模式的模型。例如,Li [13] 提出了一种MSCSVN模型,通过整合多种传感模式(包括机器视觉(MV)、拉曼光谱(RS)、热传感(TS)、荧光传感(FS)和光谱传感(SS)进行种子活力检测。MV、RS和FS数据的融合比单模态模型具有更好的性能,分类准确率提高了约10%。Zhang [14] 结合了高光谱成像(HSI)和机器视觉,他们的基于DCNN的决策融合模型在训练集和验证集上的准确率分别为94.3%和93.8%。在实际的小麦种子批量筛选中,高质量种子的比例从47.7%提高到了93.4%。Abdullah [15] 将高光谱数据与显著的颜色图像特征结合,构建了一个PLS-DA模型,在区分可存活和不可存活的水稻种子时,校准集和预测集的准确率分别为93.3%和90.9%。总体而言,多模态融合技术通过信息互补有效增强了特征表示,缓解了单模态感知导致的表示维度有限和易受干扰的问题,为实现更高的准确性和更强的鲁棒性提供了有前景的途径。
基于深度学习的特征提取已成为分析复杂、高维数据(如成像和光谱传感)的关键方法。Dong [16] 应用了一维卷积神经网络(1D-CNN)与支持向量机(SVM)来快速检测面粉中的偶氮二甲酰胺、滑石粉和石膏粉。通过级联波长选择(BiPLS-IBPSO和CARS-IBPSO)和偏最小二乘(PLS)回归,他们获得了0.9786%、0.9102%、0.9226%的验证集确定系数和0.0024%、1.3693%、1.6506%的相对均方根误差。类似地,Wei [17] 结合了近红外光谱(NIRS)和CNN-LSTM进行酒精含量和原始麦汁浓度的定量测量和真实性验证,确定系数>0.97,分类准确率为100%。
本研究的具体贡献如下:
1.提出了一种用于电子鼻时间信号的自编码模型。开发了一种基于多头注意力的架构,以重建电子鼻数据,有效表示原始信号中的时间特征。
2.提出了一种跨模态深度融合框架。该框架名为TCAF-Net,通过三分支交叉注意力特征融合网络整合了高光谱成像、电子鼻信号和机器视觉图像。交叉注意力机制促进了不同模式之间的有效交互,实现了互补信息的整合和关键特征的提取。这种设计克服了单模态表示在维度和稳定性方面的局限性,提高了种子活力检测的准确性和鲁棒性。
样本和制备
初步选择和预实验:从当地种子市场购买了三种玉米种子:Mixiangtiannuo 265、Kenuo 2和Jingkenuo 928。每种种子选择100粒外观相似且形态完整的种子,共计300粒,用于标准发芽测试。第二天记录了胚芽鞘破裂和种皮破裂的数量,第七天记录了种子发芽率。
MAC-AE在重建电子鼻序列方面的性能
在MAC-AE模型的训练和优化过程中,数据集被划分为训练集、测试集和验证集,比例为8:1:1。模型使用Adam优化器进行100次迭代。经过连续优化后,模型显著减少了原始电子鼻和重建电子鼻之间的误差。在数据采集过程中,由于ENS的手动暂停,测量时间(介于125到130秒之间)略有变化
重建电子鼻数据的优势
在深度学习中,重建和增强电子鼻数据至关重要[26],因为高质量的数据集可以大大提高模型性能,但获取成本较高。需要注意的是,本研究中的ENS数据重建主要是为了实现异构模式之间的样本级对齐,而不是为了增加数据多样性。由于没有引入额外的扰动或合成变化,这个过程不构成数据增强
结论
本研究提出了一种多分支交叉注意力深度融合模型,用于整合高光谱(HSI)、电子鼻(ENS)和机器视觉(MV)数据,以进行玉米种子活力的细粒度分类。通过构建平行的特征提取分支并引入交叉注意力,该模型实现了有效的语义对齐和异构特征的互补融合。T-SNE可视化表明,融合的特征空间表现出更强的聚类能力
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争财务利益或个人关系。
致谢
本研究得到了国家杰出青年科学基金(32301585、32271869)的资助。