《Advanced Intelligent Systems》:Interpreting How Neural Networks Infer Scatterer Geometry from Echolocation Echoes
编辑推荐:
人工回声定位旨在模拟生物声呐,从声学回波中推断形状(散射体几何)。许多有前景的方法采用卷积神经网络(Convolutional Neural Network, CNN),但这些网络如何做出决策仍不清楚,导致模型开发很大程度上依赖经验。本研究为一类机器人感知系统
人工回声定位旨在模拟生物声呐,从声学回波中推断形状(散射体几何)。许多有前景的方法采用卷积神经网络(Convolutional Neural Network, CNN),但这些网络如何做出决策仍不清楚,导致模型开发很大程度上依赖经验。本研究为一类机器人感知系统引入可解释性框架,该系统由多个专门的CNN(Specialized CNN, SCNN)集合组成,每个网络训练用于识别特定形状。通过利用浅层SCNN架构,将卷积特征映射到决策神经元,并定义特征重要性度量来揭示驱动分类的回波线索。分析表明,SCNN依赖于多个线索的相对强调,且扰动这些线索可预测地改变模型输出。此外,实测回波中降低的信噪比(Signal-to-Noise Ratio, SNR)会掩盖这些线索,解释了从合成数据到实测数据的泛化局限性。该框架将不透明分类器转化为透明分类器,为神经网络如何解析回声定位回波提供了新见解,并为设计更具可解释性和鲁棒性的机器人感知系统提供了指导。
## 研究背景与问题
解释复杂声学信号长期以来是科学与工程领域的核心挑战,因为这类信号编码了与成像、无损检测和导航相关的丰富信息。传统上,解析方法和数值反演方法被用于解码此类信号,在一维(1D)和二维(2D)等相对简单的场景中取得了相当的成功。然而,当处理更复杂的问题时,这些传统方法存在不足,例如有限尺寸物体的三维(3D)声学散射问题,其中波与几何的相互作用变得极为复杂。尽管已发展出多种信号处理技术来应对这些挑战,但其有效性仍然有限。
自然界在解析复杂声学信号方面极为先进。蝙蝠和海豚等回声定位哺乳动物通过发射超声脉冲并解释返回的回波,以极高精度导航和捕猎。它们复杂的神经生物学使其能够从回波中提取详细信息,实现精确的空间感知和目标识别。受这些自然能力的启发,研究人员致力于开发模拟回声定位机制的人工声学感知系统。机器学习算法因其模式识别能力而成为解释回波的有力工具。早期研究使用前馈神经网络利用超声回波识别目标,取得了超越当时信号处理方法的性能。近来,卷积神经网络(CNN)因其与生物神经处理的结构相似性而备受关注,在从声学信号中识别物体、材料属性和缺陷类型方面证明了有效性。然而,这些模型的内部工作机制——特别是它们如何解释输入回波并做出预测——在很大程度上仍不透明,很少被探索。这种认识不足常常迫使模型开发陷入临时性的架构调整和对大规模声学数据集的依赖,限制了原理化设计和泛化能力。
CNN的不透明性源于输入回波、卷积核与训练确定的全连接层权重之间的复杂相互作用。随着回波通过 successive 卷积、池化和非线性变换层,网络提取捕获有意义声学模式的分层特征。尽管特征提取处于核心地位,先前研究很少深入探究CNN模型从声学数据中提取了什么信息(即特征),或这些信息如何影响其预测(即特征重要性)。对这些内部机制的系统理解可以实现更高效的模型设计,指导数据集构建,并提供改进人工回声中性能与泛化的策略。
本研究正是针对这一不透明性问题,分析由并行专业CNN(SCNN)组成的机器人感知系统,每个网络负责从超声回波中识别特定的3D散射体形状。这种专业化与生物感知中的选择性信息处理 loosely 类似。这些完全在合成数据上训练的SCNN能够准确分类合成和物理回波中的形状。研究人员因此提出一个根本问题:这些模型为何成功以及如何成功?由于SCNN一次专注于一种形状,其结构较浅,允许对特征如何提取和在决策过程中如何加权进行机制性分析。
## 关键技术与方法
本研究采用的技术方法主要包括以下几个方面:
**专业化卷积神经网络架构与特征提取分析**:使用一维CNN模型,输入为600采样点的时域回波向量,经过四层卷积层提取特征,最终卷积层输出4通道特征图,经展平后连接至512神经元的首个全连接层(FC-1),再以2神经元二元分类层(FC-2)输出特定目标形状(Yes类)与其余形状(No类)的分类结果。系统包含SCNN-Sphere、SCNN-Cylinder和SCNN-Cube三个并行网络,平均推理时间为2.23 ms/样本,约448样本/秒,适用于实时机器人感知。
**特征重要性度量框架**:定义了时间样本位置上的特征重要性度量 *I*(*t*),量化了回波不同区域对SCNN分类决策的加权影响。该度量结合了最终卷积层的提取特征值与全连接层的权重矩阵,使特征重要性值可直接叠加在输入回波上,提供直观的可解释性。具体而言,设 *f*
c,p 为最终卷积层通道 *c* 和位置 *p* 的提取特征值,*W*
(1) 为至512个神经元的第一全连接层权重矩阵,*w*
(2) 为映射至最终Yes类输出神经元的权重向量,则 logit(原始类别分数)为各位置贡献之和。
**回波扰动实验**:为验证关键特征的直接因果作用,对圆柱回波中的次级散射成分进行选择性幅度缩放(缩放因子 *α* ∈ [0,1.5]),保持回波其余部分不变,观察模型输出的系统性变化。
**多数据集验证**:使用三类数据集进行分析:(1)合成数据集:通过数值声学仿真为球体、圆柱和立方体各生成50个回波,涵盖不同源-物距离 *h* 和方位角 *θ*;(2)扰动合成数据集:选择性修改合成圆柱回波的次级散射;(3)物理数据集:对 *h* = 0.5–1.5 m 和六种 (*h*, *θ*) 组合的球体、圆柱和立方体目标进行回声定位实验记录。
## 研究结果
2.1 特征重要性度量部分,研究人员分析了由并行SCNN组成的回声定位启发式机器人感知模型。每个SCNN专注于特定形状,架构相对简单但有效,中间激活直接可访问,与更深更复杂的模型形成对比。这些SCNN成功从合成训练数据泛化到实测回波,正确区分立方体、圆柱和球体等形状。为量化回波不同区域对分类决策的贡献,定义了时间样本上的特征重要性度量,该度量捕获特征激活和全连接层的加权影响。由于SCNN较浅,核大小为回波长度的1/40,且保持输入维度,特征重要性值可直接叠加在输入回波上,反映由卷积感受野定义的局部输入区域的贡献。研究首先聚焦球体和圆柱作为代表性案例,随后扩展至立方体以检验平面表面与曲面几何的区分。
2.2 解释合成回波部分,研究人员首先用合成回波分析训练后的SCNN。球体和圆柱回波在感知上相似,但存在系统性差异:两者均具有主散射(约索引100)和次级散射(圆柱:索引200–300;球体:200–400),圆柱的次级散射振幅相对主散射更高,部分球体回波还表现出背向散射(约索引500)。SCNN学习反映形状特异性散射模式的特征:SCNN-Cylinder在主散射和次级散射周围提取最显著的特征值,所有通道在约索引250处有特征激活;SCNN-Sphere则捕获超出主散射和次级散射的特征,包括次级散射的延伸尾部(至索引400)和背向散射(约索引500)。两网络在主散射表征上也存在差异:SCNN-Cylinder强调与波幅变化相关的包络,而SCNN-Sphere捕获波周期的振荡结构。
特征重要性分析揭示了驱动分类的提取特征:对于圆柱识别,主散射贡献为负(
SCNN-Cylinder < 0),次级散射贡献为正(
SCNN-Cylinder > 0),其他区域影响极小;球体识别则依赖更广泛特征集,主散射、延伸次级尾部和背向反射正向影响分数,而主-次级散射过渡区贡献为负,其余区域效应可忽略。SCNN-Cylinder几乎完全依赖次级散射进行正确形状识别,该特征在圆柱回波中具有独特特征:出现在主散射后不久、时宽较球体次级散射更窄、次级与主散射振幅比更高。当球体回波输入SCNN-Cylinder时,这些特征较弱或缺失,产生较低的正分数,防止误分类。SCNN-Sphere则依赖多个特征:虽然延伸次级尾部和背向散射有贡献,但其变异性和噪声敏感性使主散射成为最可靠的特征;当圆柱回波输入SCNN-Sphere时,次级散射产生强负重要性,使模型能正确识别输入为非球体。
通过分析logits(分类输出的原始分数),研究人员发现模型决策不仅由特征存在与否决定,而由其相对主导性和极性在习得的重要性景观中的分布决定。对于高分数圆柱回波(*h* = 0.7 m, *θ* = 0°),强次级散射超过主散射的负贡献,产生大正 ;低分数案例(*h* = 1.5 m, *θ* = 45°)中,次级散射大幅减弱,刚好足以克服主散射的负影响,总分略高于零。球体回波呈现类似模式,logits的大小和符号直接关联至分类结果。
2.3 模型对显著特征扰动的敏感性部分,研究人员通过操控圆柱回波中的次级散射幅度来验证关键洞察。将次级散射(索引185–285)幅度按因子 *α* 缩放,其中 *α* = 1 对应原始回波,*α* = 0 完全移除次级散射。结果显示,直至 *α* 降至0.8,模型预测无显著变化,SCNN-Cylinder继续将多数回波分类为圆柱,SCNN-Sphere识别为非球体,表明模型对关键声学特征相对强度约20%的变化具有鲁棒性。当 *α* 进一步减小(< 0.4),圆柱预测骤降至仅9个回波,球体预测小幅增加8个,其余为未知。完全移除次级散射(*α* = 0)时,两SCNN均无法分类多数回波但未产生错误预测,表明次级散射对圆柱预测至关重要,但其缺失不会误导网络。
值得注意的是,两SCNN对相同扰动表现出不同敏感性:SCNN-Cylinder单调响应,随单一关键特征减弱而丧失预测能力;SCNN-Sphere则因多显著特征的相互作用而呈现复杂非单调响应。这揭示了网络以不同方式内化形状信息:SCNN-Cylinder依赖主导线索,SCNN-Sphere通过整合多个声学特征的分布式表征。
关于SCNN-Sphere在中间幅度(*α* ≈ 0.4–0.6)出现球体预测峰值后又下降的现象,特征重要性分析揭示:当次级散射幅度减小时,纯散射振幅的负效应被最小化,而主-次级过渡区的负效应保留但强度降低,负特征区域整体收缩,使部分回波从非球体转为球体预测;但在 *α* = 0 时,过渡区持续存在且次级散射相关噪声消失,模型将更清晰的人工过渡区解读为更强负重要性特征,从而将多数回波归为非球体。
2.4 解释实测回波部分,研究人员考察SCNN在实测回波上的表现。尽管仅在合成数据上训练,这些模型在应用于真实测量时表现出鲁棒分类性能。SCNN的特征重要性值在很大程度上模拟了从仿真中学习到的模式:圆柱回波中主散射和次级散射分别正负贡献,球体回波中效应相反,SCNN-Sphere还捕获背向散射(延伸次级尾部在实测数据中因衰减和衍射而基本缺失)。特征强度随源-物距离 *h* 增加而减弱,因为信噪比降低:回波幅度随距离减弱,而背景实验噪声保持大致恒定。
近距离(*h* = 0.5 m)时,提取特征显著捕获形状特异性声学特征,重要性值准确反映这些特征;远距离(*h* = 1.5 m)时,训练后的核权重将噪声捕获为"非物理"特征,索引200–600处出现非零特征值。这些噪声诱导激活掩盖了关键特征(如索引200–250周围的次级散射),削弱或人为放大了其重要性值,降低了模型在低信噪比条件下可靠预测形状的能力。模型对正确形状预测的置信度从近距离的近1单调下降至远距离的≈0.5。非零方位角条件下的等效趋势也观察到:随着角偏移增加,回波因方向性散射和波束模式衰减而减弱,信噪比降低,梯类信息退化,模型置信度下降,误分类可能性增加。
2.5 解释平面面物体回波部分,研究人员将分析扩展至立方体作为平面面物体的代表。与圆柱和球体回波具有明确的主、次级散射不同,立方体回波在更宽的时间窗口内分布,源于立方体面与边缘的多重反射和衍射。SCNN-Cylinder对立方体回波赋予 predominantly 负重要性;SCNN-Sphere同样分配广泛负重要性,尽管部分段勉强类似球体或圆柱特征,但信号其余部分的成分导致 widespread 强负重要性。因此,两网络对几乎所有立方体回波产生负logits,正确拒绝立方体输入。
SCNN-Cube则对球体和圆柱回波的特征(主散射、次级散射、背向散射)赋予负重要性,而对其余区域赋予正重要性,这些区域跨越信号的更大部分。这表明SCNN-Cube学习与立方体回波扩展时间结构对齐的更分布式特征表征,编码类别身份不仅通过特征存在,还通过抑制与其他类别相关的特征。SCNN-Cube对几乎所有立方体回波产生正logits,正确识别之。
## 讨论与结论
本研究的核心贡献在于将不透明的神经网络分类器转化为透明的决策系统。通过分析专门化、浅层SCNN架构,研究人员建立了回波波形中形状特异性声学特征与用于分类的内部表征之间的直接联系,这在更深层的多类别模型中更为困难。
研究的关键发现是:每个SCNN学习对其目标形状最具诊断性的声学线索,而非依赖孤立的振幅峰值或局部波形成分,而是利用与几何散射相关的分布式模式,如形状依赖回波特征的相对强度和时序定位。SCNN-Cylinder主要使用次级散射相对于主脉冲的时机和显著性;SCNN-Sphere依赖主脉冲区域内更精细的峰谷结构,同时惩罚通向次级散射的过渡区;SCNN-Cube则抑制曲面几何特征,依赖平面表面产生的更广泛分布式回波结构。只要信噪比足以保持这些相对特征重要性,SCNN对回波振幅的中等变化和环境噪声保持鲁棒,这解释了其向物理测量的泛化能力以及在显著特征被掩蔽或衰减条件下的性能退化。集体而言,SCNN学习的是与几何链接的声学结构,而非记忆特定回波模板。
这些见解为构建可解释和可信赖的人工回声定位系统奠定了原理化基础。由于分类器决策可追踪至物理上有意义的回波结构,该框架支持系统性的模型细化、性能审计和感知策略的数据驱动评估。
更广泛地,该工作也为解释回声定位动物的适应性行为提供了视角。齿鲸根据任务难度调整回声定位策略,包括波束宽度、方向和发射率,研究结果提示这类调整可能服务于增强特定辨别挑战中最相关的回波特征,与SCNN学习的特征重要性策略 parallel。这些动物通常在物体辨别中成功但并非总是如此,表明存在固有感知限制。本研究开发的解释性模型可以帮助生成关于塑造自然生物声呐约束的可检验假设。
最后,该可解释性框架不限于SCNN或基于超声的形状感知。任何具有可分离卷积特征阶段和全连接决策层的浅层、任务专用架构均可使用相同的重要性公式进行分析。因此,该方法有潜力支持声学、雷达及其他基于波的领域中更广泛神经系统的可追溯性。