PISA-Net:一种基于物理先验的渐进式集成时空谱注意力网络,用于水下声学目标识别

《Expert Systems with Applications》:PISA-Net: Progressive integrated spatio-spectral attention network guided by physical priors for underwater acoustic target recognition

【字体: 时间:2026年04月30日 来源:Expert Systems with Applications 7.5

编辑推荐:

  赵荣尧|徐静|赵柳芳|于坤|胡健|陈佳如|刘峰|沈同生浙江大学海洋学院,舟山,316021,中国摘要水下声学目标识别(UATR)是各种海洋应用中的关键技术。这项任务面临着复杂且非静态的海洋声学环境的挑战,这通常会由于缺乏对特征表示的明确约束而限制深度学习模型的泛化能力。为了解决这

  
赵荣尧|徐静|赵柳芳|于坤|胡健|陈佳如|刘峰|沈同生
浙江大学海洋学院,舟山,316021,中国

摘要

水下声学目标识别(UATR)是各种海洋应用中的关键技术。这项任务面临着复杂且非静态的海洋声学环境的挑战,这通常会由于缺乏对特征表示的明确约束而限制深度学习模型的泛化能力。为了解决这个问题,我们提出了渐进式集成时空谱注意力网络(PISA-Net),该网络采用了一种渐进式细化主干网络(PRB)架构,模拟了从粗略到精细的分析过程。其核心组件是集成时空谱注意力(ISSA)模块,该模块旨在实现对关键特征属性的独立分析。具体来说,ISSA利用两个并行分支:双焦点稀疏注意力(DFSA)用于分析局部拓扑结构,多带自适应滤波注意力(MAFA)通过傅里叶变换捕获周期性特征。此外,我们还引入了基于物理信息的频率正则化器(PIFR),通过对网络施加特征平滑性先验来提供归纳偏差。在公开的ShipsEar和DeepShip数据集上的实验表明,PISA-Net取得了具有竞争力的性能。消融研究系统地验证了每个提出的组件的有效性,展示了渐进式细化策略、集成时空谱分析以及基于物理信息的正则化的优势。

引言

水下声学目标识别(UATR)是包括海洋遥感、海洋资源勘探和环境监测在内的广泛海洋应用的关键技术(Hummel, van der Mei, & Bhulai, 2024)。被动声纳系统通过分析目标的辐射噪声来识别目标,由于其隐蔽性而尤为重要。声学信号通常被转换为时频表示,如梅尔频谱图。这些表示揭示了丰富的特征,如谐波结构和调制线,这些特征是目标机械属性和运行状态的独特体现。因此,开发鲁棒且准确的UATR系统以自主解释这些声学特征仍然是一个活跃且重要的研究领域(Smith, Rigby, 2022, Vaccaro, 1998)。
尽管非常重要,UATR仍然是一个持续的挑战。海洋声学环境复杂且非静态。环境噪声和多径传播引起的信号失真会严重降低目标的声学特征(Chu et al., 2025)。深度学习的发展通过使模型能够从时频表示中自动学习层次化特征而推动了这一领域的发展(Doan, Huynh-The, Kim, 2020, Li, Yang, 2021, Wang, Qian, Chen, Zhou, Li, Xiao, 2025)。然而,这些模型的训练往往仅以最小化分类误差为目标。虽然这种方法很强大,但往往会导致对其内部特征表示缺乏明确的约束。这种无约束的方法限制了模型的泛化能力,因为它可能产生对噪声敏感且脆弱的特征,同时缺乏清晰的物理可解释性。
为了解决这些限制,本文介绍了渐进式集成时空谱注意力网络(PISA-Net)。我们的方法将人类专家的从粗略到精细的分析过程转化为基于三个核心机制的深度学习架构。首先,我们使用渐进式细化主干网络(PRB)来层次化集成多尺度特征。其次,我们设计了集成时空谱注意力(ISSA)模块,以实现学习到的特征的拓扑和周期性属性的独立分析。最后,我们引入了基于物理信息的频率正则化器(PIFR),通过对结构化信号固有特性的特征平滑性先验来提供归纳偏差。
本工作的主要贡献总结如下:
  • 我们提出了PISA-Net,这是一种通过渐进式细化策略有效集成多尺度特征的UATR架构。
  • 我们设计了ISSA模块,该模块利用并行分支分别分析深度特征的拓扑结构和周期性属性,从而实现更精确和可解释的时空谱分析。
  • 我们引入了PIFR,这是一种简单有效的基于物理信息的正则化器,通过对特征施加平滑性先验来增强模型对噪声的鲁棒性。
  • 我们在两个公开数据集ShipsEar和DeepShip上进行了广泛的实验,证明了PISA-Net的卓越性能,并通过深入的消融研究验证了每个提出组件的有效性。
本文的其余部分组织如下:第2节回顾了UATR和相关深度学习技术的相关工作。第3节详细介绍了提出的PISA-Net架构及其核心组件。第4节概述了实验设置。第5节展示了实验结果及其相应的分析。最后,第6节总结了本文并讨论了潜在的未来工作。

章节摘录

相关工作

传统的UATR方法依赖于从声学信号中提取手工制作的特征,这些特征通常基于频谱分析技术,如低频分析(LOFAR)或噪声上包络调制的检测(DEMON)(de B. A. Barros, Ebecken, 2022, Gao, Cain, Cooper, 2021, Li, Song, Feng, 2022)。然后使用机器学习算法(如隐马尔可夫模型(HMM))进行分类(Kü?ükbayrak, Güne?, Ar?ca, 2009, Mohammed, Hariharan, Kamal, 2018)

方法论

在本节中,我们介绍了提出的PISA-Net。首先,我们提供了整个架构的概述。随后,我们详细介绍了其核心组件:PRB、具有专门分支(DFSA和MAFA)的ISSA模块,以及PIFR。

数据集

我们的实验在UATR社区广泛使用的两个公开数据集上进行:ShipsEar(Santos-Domínguez, Torres-Guijarro, Cardenal-López, & Pena-Gimenez, 2016)和DeepShip(Irfan et al., 2021)。

结果与分析

在本节中,我们进行了一系列全面的实验来评估所提出的PISA-Net的性能。我们的主要评估是在大规模的DeepShip数据集上进行的,同时在ShipsEar数据集上也进行了补充分析。我们构建了分析框架,以多方面验证我们的模型。首先,我们将PISA-Net与几种代表性的基线方法进行比较,以确定其整体有效性。随后,我们进行了深入的消融研究

结论

在本文中,我们提出了一种新的方法来解决复杂噪声环境中UATR的持续挑战。我们引入了PISA-Net,这是一种基于领域特定原则设计的深度学习架构。该模型的有效性基于三个核心机制:用于鲁棒多尺度特征集成的PRB;能够独立分析特征拓扑和周期性的ISSA模块;以及用于增强泛化能力的PIFR,该模块通过对特征施加平滑性先验。

作者贡献

赵荣尧:概念化、方法论、软件、验证、形式分析、撰写——原始草稿、可视化。
徐静:资源、撰写——审阅与编辑。
赵柳芳:监督。
于坤:监督。
胡健:监督、形式分析。
陈佳如:监督。
刘峰:资源、撰写——审阅与编辑、项目管理。
沈同生:资源、监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号