水下声学目标识别(UATR)是包括海洋遥感、海洋资源勘探和环境监测在内的广泛海洋应用的关键技术(Hummel, van der Mei, & Bhulai, 2024)。被动声纳系统通过分析目标的辐射噪声来识别目标,由于其隐蔽性而尤为重要。声学信号通常被转换为时频表示,如梅尔频谱图。这些表示揭示了丰富的特征,如谐波结构和调制线,这些特征是目标机械属性和运行状态的独特体现。因此,开发鲁棒且准确的UATR系统以自主解释这些声学特征仍然是一个活跃且重要的研究领域(Smith, Rigby, 2022, Vaccaro, 1998)。
尽管非常重要,UATR仍然是一个持续的挑战。海洋声学环境复杂且非静态。环境噪声和多径传播引起的信号失真会严重降低目标的声学特征(Chu et al., 2025)。深度学习的发展通过使模型能够从时频表示中自动学习层次化特征而推动了这一领域的发展(Doan, Huynh-The, Kim, 2020, Li, Yang, 2021, Wang, Qian, Chen, Zhou, Li, Xiao, 2025)。然而,这些模型的训练往往仅以最小化分类误差为目标。虽然这种方法很强大,但往往会导致对其内部特征表示缺乏明确的约束。这种无约束的方法限制了模型的泛化能力,因为它可能产生对噪声敏感且脆弱的特征,同时缺乏清晰的物理可解释性。
为了解决这些限制,本文介绍了渐进式集成时空谱注意力网络(PISA-Net)。我们的方法将人类专家的从粗略到精细的分析过程转化为基于三个核心机制的深度学习架构。首先,我们使用渐进式细化主干网络(PRB)来层次化集成多尺度特征。其次,我们设计了集成时空谱注意力(ISSA)模块,以实现学习到的特征的拓扑和周期性属性的独立分析。最后,我们引入了基于物理信息的频率正则化器(PIFR),通过对结构化信号固有特性的特征平滑性先验来提供归纳偏差。
本工作的主要贡献总结如下:
- •
我们提出了PISA-Net,这是一种通过渐进式细化策略有效集成多尺度特征的UATR架构。
- •
我们设计了ISSA模块,该模块利用并行分支分别分析深度特征的拓扑结构和周期性属性,从而实现更精确和可解释的时空谱分析。
- •
我们引入了PIFR,这是一种简单有效的基于物理信息的正则化器,通过对特征施加平滑性先验来增强模型对噪声的鲁棒性。
- •
我们在两个公开数据集ShipsEar和DeepShip上进行了广泛的实验,证明了PISA-Net的卓越性能,并通过深入的消融研究验证了每个提出组件的有效性。
本文的其余部分组织如下:第2节回顾了UATR和相关深度学习技术的相关工作。第3节详细介绍了提出的PISA-Net架构及其核心组件。第4节概述了实验设置。第5节展示了实验结果及其相应的分析。最后,第6节总结了本文并讨论了潜在的未来工作。