基于深度学习的声学谱图在废物管理中的材料分类研究

《Array》:Deep learning-based material classification for waste management using acoustic spectrograms

【字体: 时间:2026年05月28日 来源:Array 4.5

编辑推荐:

  本文提出了一种用于废物管理中高效材料分类的稳健深度学习框架,重点对声学时频表示进行了比较分析。六种常见废弃物(塑料、纸板、钢铁、瓷器、玻璃器皿和铝)通过精心预处理的声音记录进行了表征。信号采用了四种技术进行变换:短时傅里叶变换(Short-Time Fouri

  
本文提出了一种用于废物管理中高效材料分类的稳健深度学习框架,重点对声学时频表示进行了比较分析。六种常见废弃物(塑料、纸板、钢铁、瓷器、玻璃器皿和铝)通过精心预处理的声音记录进行了表征。信号采用了四种技术进行变换:短时傅里叶变换(Short-Time Fourier Transform, STFT)、连续小波变换(Continuous Wavelet Transform, CWT)、梅尔频谱(Mel spectrogram)和恒定Q变换(Constant-Q Transform, CQT)。一种自定义设计的轻量化卷积神经网络(Convolutional Neural Network, CNN)在使用梅尔频谱时达到了97%的最高分类准确率,显著优于包括VGG19和MobileNet在内的既定预训练模型。为确保方法论的严谨性,该框架接受了5折交叉验证和统计显著性测试。此外,噪声鲁棒性分析表明,虽然梅尔频谱在低噪声环境中表现优异,但CQT表示在严重工业噪声(0 dB信噪比,Signal-to-Noise Ratio, SNR)下提供了更好的弹性。外部泛化能力使用公开数据集ESC-50进行了验证,其中少样本边缘校准协议成功使模型从初始域偏移中恢复,达到了77.50%的准确率。这些结果建立了一个面向硬件感知、仅基于声学的实时自动回收系统基础,展示了其在资源受限的边缘硬件上部署的高度适应性。
随着城市化进程加速和工业化快速发展,废物管理已成为现代社会面临的 paramount concern(首要关注问题)。传统的废物分类方法主要依赖人工或基于光学传感器的机械分选,这些方法不仅耗时、错误率高,而且成本高昂,难以满足资源回收和环境保护的需求。为了克服视觉识别在工业环境中易受光照变化、物理遮挡和表面污染(如泥土或油污)影响的局限性,研究人员探索了基于声学信号的材料分类技术。物体被敲击时产生的振动频率取决于其材料特性,通过分析声波可以确定材料类型。然而,目前缺乏一种能够整合不同感知输入并在实时废物分拣应用中发挥作用的全面架构,且针对声学信号预处理和特征工程(特别是时频表示的选择)的系统性研究尚不充分。鉴于此,本研究旨在通过比较不同的声学时频表示方法,开发一种高效、非侵入式且适用于边缘硬件部署的材料分类框架。

研究人员采集了塑料、纸板、钢铁、瓷器、玻璃器皿和铝六种常见废弃物的声音和超声波信号,构建了包含6000个样本的数据集。为了将一维声学信号转换为适合深度学习处理的二维图像,研究人员采用了四种时频变换技术生成谱图:短时傅里叶变换(STFT)、连续小波变换(CWT)、梅尔频谱(Mel spectrogram)和恒定Q变换(CQT)。在模型构建方面,研究人员设计了一种轻量级的自定义卷积神经网络(CNN),并将其与ResNet18、VGG19和MobileNet等预训练模型进行了性能对比。为了评估模型的鲁棒性和泛化能力,研究还进行了5折交叉验证、单因素方差分析(ANOVA)以及在不同信噪比下的噪声鲁棒性测试,并使用公开数据集ESC-50进行了外部泛化和少样本边缘校准实验。

研究结果如下:
在基础分类性能方面,经过5折交叉验证,采用梅尔频谱的自定义CNN模型取得了97.20%的平均准确率,显著高于STFT(95.15%)、CQT(94.80%)和CWT(86.63%)。单因素方差分析表明,不同的时频表示对分类性能的影响具有统计学意义(p<0.0001)。梅尔频谱由于其非线性频率尺度更贴近人耳听觉特性,能更好地捕捉材料特有的声学特征。相比之下,CWT虽然具有更好的时频局部化能力,但在本任务中表现略低。

在与预训练模型的对比中,自定义CNN以仅6.5M参数和52.23 MB的模型大小,实现了97%的准确率,优于VGG19(90%准确率,143.7M参数)、ResNet18(96%准确率,11.7M参数)和MobileNet(95%准确率,3.5M参数)。这表明针对特定任务设计的轻量化模型在保持高准确性的同时,具有更高的计算效率,更适合资源受限的边缘设备。

在噪声鲁棒性测试中,尽管梅尔频谱在受控低噪声环境下表现最佳,但在严重工业噪声(0 dB SNR)下,其准确率大幅下降至31.17%。相反,CQT由于采用对数频率分辨率和恒定Q因子,能有效隔离宽带噪声,在0 dB SNR下仍保持58.67%的准确率。这揭示了不同频谱技术在极端噪声环境下的适用性差异。

在外部泛化性验证中,研究人员使用ESC-50数据集模拟了严重的域偏移。在零样本设置下,模型准确率仅为21.50%,且预测倾向于Steel类。然而,通过采用少样本边缘校准协议(冻结卷积基,仅校准分类层),模型准确率迅速提升至77.50%,证明了该架构通过少量标注数据快速适应新声学域的能力。

在讨论部分,研究人员指出,引入超声波信号(40 kHz范围)并未带来显著的性能提升(增益小于1%),因为区分宏观废弃物的共振频率主要位于可听声谱(<20 kHz)。因此,仅使用高频声学分析即可满足废物分类需求,从而降低了硬件复杂性和数据带宽要求。此外,研究强调了硬件与软件协同设计的重要性,建议在受控环境中使用梅尔频谱,而在高噪声工业环境中使用CQT,并结合少样本校准以应对域偏移。

综上所述,本研究提出了一种基于声学频谱和轻量级CNN的高效废物材料分类框架。研究证实,梅尔频谱在低噪声环境下能提供最优的材料分类性能(97%准确率),而CQT在强噪声环境下更具鲁棒性。该框架无需超声波传感器,即可通过低成本麦克风实现高精度分类,且模型小巧,适合部署在边缘计算设备上。这项研究为自动化废物管理提供了一种非侵入式、可扩展且经济可行的解决方案,特别是在视觉分类受限的工业场景中具有重要的应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号