利用数据增强和迁移学习自动化检测动物发出的固定模式声音

《Scientific Reports》：Automated detection of stereotyped animal sounds using data augmentation and transfer learning

【字体：大中小】 时间：2026年04月24日 来源：Scientific Reports 3.9

编辑推荐：

　　**摘要** 基于深度学习的自动叫声检测器为解决在被动声学监测（PAM）产生的庞大数据集中分离动物声音这一劳动密集型和时间消耗高的问题提供了方案。然而，深度学习系统在PAM中的广泛应用受到了大规模、带标签训练数据集需求的制约，而这些数据集对于那些叫声很少被记录的物种来说并不存

　　**摘要**
基于深度学习的自动叫声检测器为解决在被动声学监测（PAM）产生的庞大数据集中分离动物声音这一劳动密集型和时间消耗高的问题提供了方案。然而，深度学习系统在PAM中的广泛应用受到了大规模、带标签训练数据集需求的制约，而这些数据集对于那些叫声很少被记录的物种来说并不存在。此外，训练许多深度学习检测器需要大量的计算资源，这在成本和能源使用方面都十分昂贵。我们提出了一种自动检测框架，旨在解决这些挑战，特别是针对那些发出固定模式的动物。首先，我们使用一种基于物理原理的数据增强流程生成了一个半合成训练数据集，为目标声音的重复记录引入了真实的变异性。其次，我们通过迁移学习对预训练的神经网络进行了微调，使其能够在消费级硬件上在几小时内完成训练。最后，我们在两种须鲸的发声上进行测试，并将检测结果与真实标注进行了对比。我们表现最佳的模型达到了99.4%的召回率、91.2%的精确度和95.1的F1分数，与类似检测器相当甚至更优，而这一切仅仅是在基于单个目标声音示例的数据集上训练得到的。我们认为，我们的框架提高了深度学习检测器在须鲸以及其他发出固定模式声音的稀有或难以捕捉动物的研究中的应用价值。训练好的模型及所有相关代码已公开提供，旨在降低使用深度学习检测器来研究数据稀缺的固定模式动物声音的门槛。

---

**引言**
无论是研究动物行为、交流、社会结构、种群分布、生态系统生物多样性还是保护工作，生态学研究本质上都是观察性的。如果研究对象的物种数量稀少、夜间活动、性格胆小，或者栖息地难以被人类进入，那么观察的机会将极为有限。这推动了遥感技术的发展，使得人们能够在野外自然环境中远程观察野生动物。被动声学监测（PAM）是一种利用音频记录设备在野外无人值守的情况下捕捉动物声音的遥感技术。PAM方法在90年代初开始流行起来，这得益于美国海军的“双重用途”计划支持的几项海洋动物研究，该计划允许民用研究使用海洋声音监测系统（SOSUS）。此后，PAM的应用范围从生态系统尺度扩展到个体尺度，并涵盖了各种生物群落和分类单元。近年来，音频电子组件的成本下降和体积缩小促进了PAM硬件系统的普及，从低成本、开源的DIY工具到价值数百万美元的全球监测系统（如全面禁止核试验条约组织的国际监测系统）。历史上，从这些录音中分离出单个动物叫声的任务一直由人工分析人员完成，主要通过视觉检查音频频谱图来实现，这一过程通常称为“标注”。目前有越来越多的PAM数据档案，无论是公开访问的还是专有的，这些数据最初是出于非生命科学目的收集的，其中一些涵盖了全球范围和数十年的时间尺度。对于生物学家和生态学家来说，这些数据具有巨大的挖掘潜力，近年来出现了重新分析存档PAM数据的趋势。由于许多数据集中的音频数据量远远超出人工分析人员的处理能力，自动叫声检测已成为一个关键的研究挑战。鉴于这些数据档案对生物声学研究的重要性以及获取过程中的高昂成本和复杂后勤，减少其再利用的障碍显得十分必要的。

---

**自动叫声检测器**
已经开发出了多种自动叫声检测器，它们的性能、实现复杂性和计算成本各不相同。这些检测器在如何将目标声音呈现给检测算法（例如，作为波形、频谱图、滤波器核、稀疏字典等）以及需要多少示例方面也存在很大差异。许多高性能检测器依赖于深度学习技术，而庞大的训练数据集需求成为广泛应用的障碍。训练通常需要数以万计的目标声音样本，对于那些稀有、难以捕捉或只存在于人类无法进入的栖息地的动物来说，数据稀缺可能成为实施这些方法的不可逾越的障碍。此外，基于深度学习的解决方案通常需要大量的计算资源，这不仅带来经济成本，还可能产生重大的环境影响。本研究的重点在于提高检测器的可复用性，并减少对计算资源和训练数据的需求。以下是对常见自动检测方法的简要回顾。有关更详细的检测器方法综述，请参阅Gibb等人的研究。

---

**音频信号处理方法**
早期的大部分PAM研究集中在鲸类发声上，因此须鲸的歌声成为早期自动检测器的常见目标，例如Stafford等人使用的时域匹配滤波器方法，用于检测东北太平洋蓝鲸（Balaenoptera musculus musculus）的歌声。他们测量了303个目标声音样本的时频特征，并利用平均值构建了匹配滤波器核。为了检测歌声，他们计算了滤波器核与录音之间的时域互相关函数，峰值表示检测结果。Mellinger和Clark也研究了这种方法，发现当背景噪声水平较高时（尤其是在噪声具有非平稳性和非平坦频谱特性时），该方法的表现不佳。Mellinger和Clark提出了一种基于时频域的类似方法，该方法通过计算音频录音的频谱图与表示目标声音的频谱图核之间的二维互相关来实现检测。他们使用弓头鲸的歌声进行了测试，发现该方法优于隐马尔可夫模型和匹配滤波器检测器。后续的研究也表明，频谱图相关性方法存在两个主要局限性：首先，频谱图核在处理目标声音的微小变化时通用性极差；其次，背景噪声水平较高时准确性会显著下降。

---

**经典机器学习**
Fagerlund（2007年）提出了一种使用支持向量机（SVM）检测和分类14种鸟类歌声的方法。SVM是一类寻找最佳分隔两个或多个数据类别边界的机器学习算法。他们利用测量的信号属性（如频谱质心）来表示目标声音，并在两个不同鸟类物种的测试数据集上分别取得了91%和98%的准确率。作者指出，他们的测试样本数量较少，暗示该方法可能难以应对真实数据中的物种内部变异。还有其他方法为了提高性能而牺牲了通用性，通过数学建模特定目标声音而非使用真实样本或经验设计的核函数。Socheleau等人提出了一种检测南极蓝鲸（B. m. intermedia）“Z叫声”的方法。这种叫声在频谱图上呈现“Z”形状，这种简单的结构使其非常适合用Sigmoid函数进行建模。他们发现该方法在干扰信号和噪声存在的情况下仍比频谱图相关性方法性能更优。然而，许多动物叫声无法用Sigmoid函数等封闭形式的分析函数表示，限制了该方法的应用范围。Socheleau和Samaran进一步扩展了这种方法，允许使用从训练数据中学习到的稀疏表示来建模更复杂的信号。他们使用东北太平洋蓝鲸的D叫声和西南印度洋（SWIO）侏儒蓝鲸的歌声进行了测试，结果显示D叫声的真正例率为90%，误报率为5次/小时；SWIO歌声的真正例率为95%，误报率为5次/小时。作者指出，他们的方法假设目标声音可以由原子（基本函数的线性组合）准确表示，但这可能不适用于高度非线性的声音或具有“确定性混沌”特征的声音（参见参考文献42），并且指出像神经网络一样，训练数据不足可能导致过拟合。

---

**浅层神经网络**
Potter等人提出了首个使用人工神经网络的动物叫声检测器。他们的系统以裁剪和降采样的频谱图作为输入，输出目标声音存在的概率。在测试弓头鲸的歌声时，他们的错误率为1.5%，尽管测试数据集包括了训练数据和未见数据。他们还指出，许多设计选择受到计算成本的限制。这项早期工作展示了机器学习方法的优势，但与后来的深度学习方法一样，对大量训练数据的需求仍是其局限性之一。神经网络也被应用于陆地生物声学研究，Chesmore的早期工作展示了检测和分类25种蟋蟀和10种鸟类声音的方法，准确率超过99%。当信噪比为40 dB时，他们对24种蟋蟀的检测准确率均超过99%；当信噪比降至10 dB时，某些物种的准确率降至10%以下。由于PAM数据中的信噪比往往低于10 dB，因此这种方法对实际噪声条件的鲁棒性有限。

---

**深度神经网络**
早期的浅层神经网络检测器大约有800个可学习参数，但近年来，如深度卷积神经网络（dCNN）等更大规模的架构变得越来越流行，其中一些架构的参数数量多达1.9×10^7个。参数数量与训练的计算成本呈至少二次方关系，这可能成为深度学习在实际应用中的障碍。Miller等人使用高效的dCNN（DenseNet）开发了一种用于检测南极蓝鲸D叫声的检测器，该模型在5,137个目标声音样本上进行了训练。他们将其性能与人工分析师进行比较，结果显示深度学习的检测准确率为90.1%，而人工分析师的准确率为74%。虽然他们的训练数据集规模在深度学习标准下属于中等，但对于研究资源稀缺的稀有动物而言，获取如此规模的训练数据可能仍然具有挑战性。像DenseNet这样的高效模型有助于预算有限的研究团队使用深度学习检测器，但即使是消费级GPU也需投入相当费用。

---

**递归深度神经网络**
dCNN通常期望输入特定大小的频谱图，这可能限制了其对付持续时间较短声音的能力。例如，Miller等人使用的模型要求输入为24×67矩阵的频谱图，而这些频谱图包含33个频率区间和67个时间区间，覆盖0-125 Hz的范围，持续时间为4.224秒。由于南极蓝鲸D叫声的时频结构相对简单（大约在80-30 Hz之间，持续时间为3秒），Miller等人能够通过去除无关频率区间来满足输入要求。然而，如果需要处理持续时间更长或更短的声音，可以采用以下策略之一：
1. 增加或减少网络的输入大小；
2. 增加或减少频谱图的时间步长；
3. 通过重采样和插值调整频谱图的大小；
4. 剪除重复的时间区间或用零填充空区间；
5. ...将频谱图分割成较短的视频帧，作为单独的输入。上述策略通常很有效，但它们的成功取决于目标叫声的特征，如果希望检测器能够广泛重复使用，那么没有一种策略适用于所有情况。(1) 方法通常是合理的，尽管计算成本会随着输入大小的增加而增加，因此效率也是一个因素。(2) 方法会牺牲时间或频率分辨率，可能会降低网络区分声音的能力。(3) 方法在图像分类中有效，因为图像中的对象通常是尺度不变的（即，狗的放大照片仍然可以被识别为狗）。在频谱图中，尺度具有物理意义（即持续时间和带宽），而调整大小会破坏这种映射。(4) 截断会导致信息丢失，零填充会用静音污染训练数据，从而降低性能。(5) 在图像分类中有效，因为自然图像展示出空间冗余性和局部自相似性——每个“块”都可能包含足够的鉴别结构来代表整个图像。然而，这种方法可能不适用于动物发声的音频频谱图，而且由于dCNN不保留关于前一个输入的信息，每个预测都必须基于频谱图中不完整的信息子集来进行。

许多研究讨论了这些问题，并提出了相同的解决方案；使用能够处理输入序列的网络，并返回具有时间依赖性的预测序列。卷积循环神经网络（CRNN）在dCNN的基础上增加了时间依赖性。虽然CNN为固定大小的单一频谱图输入返回一个预测，但CRNN为较长频谱图的每个“块”返回一个预测向量。因此，输入大小仅在频率维度上是固定的，允许输入具有任意和可变的持续时间。除了能够适应不同持续时间的对象外，CRNN捕获的额外时间上下文也有助于分类，因为许多动物发声是以一系列叫声的形式出现的，其中叫声序列的结构和时间可以提供区分信息。先前的研究表明，在针对鸟类叫声、长须鲸歌声和露脊鲸歌声的分类或检测任务中，具有时间依赖性的架构可能比CNN表现得更好。然而，应该注意的是，CRNN也有其自身的局限性；计算复杂性随输入序列长度的增加而增加，对于初级的CRNN，梯度消失问题会导致性能下降。更现代的循环架构，如使用长短期记忆（LSTM）或门控循环单元（GRU）的架构，在一定程度上可以缓解这个问题，但在训练或推理时使用非常长的输入序列时仍需注意。

克服深度学习的挑战
计算复杂性可能是深度学习方法的一个重大限制。已经开发出了将基于深度学习的检测器集成到电池供电的野外记录设备中的设备，在这种应用中，推理时间的计算效率是主要约束，因为训练在部署之前就已经完成。在实验室分析存档的数据集时，训练成为主要约束，并且会消耗大量的资金、努力和时间成本。一种减轻训练成本的方法是使用迁移学习，即对预先训练好的神经网络进行微调，使其能够在相关但不同的领域执行新任务，而不是从零开始训练。Tsalera等人使用迁移学习来微调图像分类dCNN，以对各种声音的频谱图进行分类，并报告了83.97%到97.22%的分类准确性。他们还尝试了对最初用于分类音频频谱图但目标声音不同的网络进行微调。在这些情况下，由于领域迁移较小，音频频谱图分类器的性能优于图像分类器，准确率达到了91.25%到100%。这些网络的重新训练时间大约为几分钟，虽然没有提供硬件规格，但这意味着与从零开始训练相比，训练成本大幅降低。此外，迁移学习通常需要的数据远少于从零开始训练；他们表现最好的模型仅使用来自“空气压缩机”数据集的约1,080个样本进行了训练，该数据集包含八种不同的声音类别。从中我们可以推断，该模型仅使用每个类别约135个训练样本就实现了100%的分类准确性。

数据增强和合成数据
虽然迁移学习减少了所需的训练数据量，但在被动声学（PAM）和生物声学应用中，收集足够的目标叫声样本仍然可能具有挑战性。例如，谢泼德喙鲸（Tasmacetus shepherdi）非常罕见，据我们所知，只有两次记录到它们的回声定位点击声。同样，澳大利亚夜鹦鹉（Pezoporus occidentalis）也非常稀有，首次记录是在2019年，后续项目指出数据稀缺是一个挑战。到目前为止，在这项工作中提到的许多动物产生的发声在个体间的时频结构上非常相似。这种现象称为“刻板印象”，可以在数据稀缺的情况下用于设计自动化检测器。如果知道或可以估计声音的可变性，则可以使用数据增强技术来增加训练样本的数量，通过复制现有目标声音的记录，并引入代表真实自然变化的受控、伪随机变化。数据增强技术在图像分类中已经得到了很好的应用，常见的操作包括随机旋转、平移、缩放、遮盖和高斯噪声添加。在北大西洋座头鲸（Megaptera novaeangliae）的歌声检测数据集中，已经使用频谱图的时间移位、噪声添加和遮盖来增加数据集的大小，并且这些方法被证明可以提高检测器的性能。还使用半合成频谱图来扩展用于分类褐鼠（Rattus norvegicus）超声发声的训练数据集。他们复制了真实的叫声频谱图，并对其进行了平滑的弹性变形，发现这种增强方法使分类器的性能达到了人类水平的准确性。相比之下，Nanni等人测试了一个在小数据集上训练的模型，以及使用图像增强和音频增强方法（在转换为频谱图之前对音频进行增强）扩展后的同一数据集，他们的结果表明，对于动物声音分类任务，图像增强方法可能不会带来改进，甚至会降低性能。P. Li等人使用合成数据方法进行增强，分析了普通海豚（Delphinus spp.）和宽吻海豚（Tursiops truncatus）的哨声在频谱图中的形状，并生成了一个具有相似形状的合成曲线库。然后将这些曲线叠加在真实的海洋背景噪声频谱图上。他们仅使用这些合成数据训练了一个CNN检测器，并取得了92.4%的精确度、69.3%的召回率和79.2的F1分数。虽然这种方法确实取得了很高的精确度分数，但相对较低的召回率表明这些曲线的变化不够充分，或者模型对新型曲线形状的泛化能力不强。此外，这种数据合成方法仅限于具有简单时频结构的动物声音。具有强非线性、谐波、幅度调制旁带或类噪声成分的复杂发声无法通过这些方法轻松合成。

近年来，基于机器学习的方法（如生成对抗网络GAN）已被提出用于生成合成训练数据。Kopets等人使用GAN生成了特定的抹香鲸（Physeter macrocephalus）点击声，以解决数据稀缺的问题。他们从81个点击声记录开始，然后使用传统的音频域和频谱域方法进行增强，生成了约6,500个样本来训练他们的GAN。他们表明，他们合成的点击声与真实记录非常相似，尽管他们没有训练和测试检测器或分类器。这种方法有两个限制：首先是训练GAN本身所需的数据量相当大——对于真正数据稀缺的物种，可能无法获得81个样本；其次是显著的资金和计算资源成本，以及系统复杂性的增加。将这种方法用于PAM数据分析意味着需要训练两个神经网络，而GAN通常需要大量的计算资源。尽管已经展示了高效的GAN架构，但在检测流程中使用第二个深度神经网络会增加复杂性和计算成本。

蓝鲸
国际自然保护联盟将蓝鲸（Balaenoptera musculus）列为濒危物种，估计野生环境中目前只有5,000-15,000只成熟的个体。尽管自IWC在1982年暂停商业捕鲸以来公众兴趣增加，但人们对蓝鲸的了解仍然很少，这阻碍了保护工作。它们的稀有性和远洋栖息地使得鲸类成为通过PAM方法研究的理想对象，近年来，这类研究提供了关于种群密度和分布、社会结构、迁徙和发声解剖的新见解。蓝鲸的分类学是一个开放的研究和讨论领域。目前海洋哺乳动物学会分类委员会认可五个亚种：北方蓝鲸（Balaenoptera musculus musculus）、南极蓝鲸（B. m. intermedia）、北印度洋蓝鲸（B. m. indica）、侏儒蓝鲸（B. m. brevicauda）以及尚未命名的智利蓝鲸，尽管最近的一项研究表明智利蓝鲸可能在基因上与B. m. musculus没有区别。每个亚种都可以进一步划分为声学种群，在每个群体内，所有个体都唱相同的歌声，每年个体间的频率变化≤3%，对于具有幅度调制叫声的种群，平均脉冲率的变化约为1.8%。如上所述，在设计自动化检测器时，刻板印象是一个有用的属性，因为可以设计检测器仅识别感兴趣的种群的歌声。或者，可以设计多叫声检测器来识别所有存在的种群，通过分析多个地点的数据，可以绘制每个群体的时空范围及其重叠部分。

文献中一致出现的反复出现的主题指出了当前检测方法面临的四个主要挑战：
1. 难以泛化到目标叫声的变化
2. 难以泛化到新的录制地点和声学条件
3. 计算成本高
4. 需要大量的训练语料库

在这里，我们提出了一个针对刻板印象动物声音的数据增强和检测器训练框架，该框架旨在通过使用半合成训练数据来微调预训练的循环深度卷积神经网络，以处理任意持续时间的目标准叫声。然后我们在两个带有注释的蓝鲸发声PAM数据集上评估了我们的检测器。

计算效率
该模型在配备64 GB内存的Dell Precision 3570笔记本电脑和4 GB V-RAM的NVIDIA T550 GPU上进行了微调。训练在GPU上运行，大约需要5小时完成。对一个时长为4小时、采样率为250 Hz、位深度为32位的音频文件进行推理大约需要90秒，包括预处理和后处理时间。

初步评估结果
以下是每个模型在与参考注释日志比较后的初始性能值。请注意，参考日志被发现不可靠，因此这些值并不代表检测器的真实性能，这里仅用于比较模型配置。选择了每个叫声召回率最佳的模型配置进行评估。最终的评估结果将在“评估后结果”部分给出。这些结果的激活阈值为0.5。其他后处理参数按照表1设置。

表1 不同模型配置针对每种目标动物叫声的性能指标。合成训练数据集中的信噪比范围因模型而异。此外，“小型”模型是在基于单个目标叫声样本构建的合成数据上训练的。**粗体值表示最高性能。**
**全尺寸表格**

** adjudication后的结果**
以下是 adjudication前结果中表现最佳的模型在 adjudication后的结果，包括ABWZ-C和CPBW-C。

**小表格2：**
使用模型配置ABWZ-C，在信噪比（SNR）范围为-10 dB至10 dB的数据上训练的南极蓝鲸Z叫声的adjudication后性能指标，该模型基于7个示例叫声建立。

**决策逻辑**
决策逻辑指的是将 adjudicated检测结果分类为真正例的三种不同标准，每种标准在处理合唱声（chorus）的存在时有所不同：
- **“包容性”逻辑**：任何被 adjudication分析师确认包含合唱声或独立叫声的检测都被视为真正例（见图1和图2）。
- **“仅独立叫声”逻辑**：任何被分析师确认包含独立叫声的检测都被视为真正例（无论是否包含合唱声）。
- **“严格独立叫声”逻辑**：只有那些被分析师确认包含独立叫声且没有合唱声的检测才被视为真正例（见图3）。

**图1**
此图像的替代文本可能是由人工智能生成的。

**图2**
此图像的替代文本可能是由人工智能生成的。

**图3**
使用模型配置CPBW-C-Small，在信噪比范围为-10 dB至10 dB的数据上训练的查戈斯侏儒蓝鲸歌声的adjudication后性能指标，该模型基于单个样本叫声建立。

**图4**
展示了CPBW-C-Small和ABWZ-C模型在adjudication前后真正例、假正例、假负例数量的变化。

**讨论**
使用“包容性”决策逻辑的adjudication后结果显示，即使在这些模型仅基于少量目标叫声的半合成数据集进行训练的情况下，它们也能实现高精度。表现最佳的南极蓝鲸Z叫声检测器（ABWZ-C）正确检测出了87%的目标叫声，精度为0.65；而表现最佳的查戈斯侏儒蓝鲸检测器（CPBW-C-Small）正确检测出了99.4%的目标叫声，假正例占比仅为9%（精度=0.91）。更令人印象深刻的是，CPBW-C-Small检测器即使在源数据极其稀缺的情况下也能取得这些成绩——其训练数据集仅基于一个目标叫声样本。

这些结果与adjudication前的结果形成对比：adjudication前的结果显示，两种检测器的性能都相对较低。最佳表现的ABWZ检测器（ABWZ-C）仅正确检测出66%的目标叫声，假正例非常多（精度=0.2）。精度为0.2意味着80%的检测结果都是假正例，在大多数应用中，这种假正例率过高，使得检测器被认为不适合使用。在adjudication之前，最佳表现的CPBW检测器（CPBW-C-Small）正确检测出了98%的目标叫声，但同样产生了大量假正例（精度=0.28）。通过手动检查音频频谱图、检测器输出和真实标签日志发现，许多假正例实际上是真实存在的但未被记录下来的叫声。基于这些调查以及先前研究的发现，参考标签被认定为不可靠，因此实施了 adjudication协议来解决真实标签与检测结果之间的分歧（详见“不可靠的真实标签”部分）。

两个目标的adjudication后结果表明，原本用于检测典型室内噪声条件下麦克风录音中人类语音的VADNet模型，通过迁移学习能够在高噪声的海洋环境中的水听器录音中学会检测鲸鱼叫声的任务。除了这种任务领域的迁移外，该模型还成功适应了新的音频采样率、工作频率范围、梅尔滤波器组带宽和分辨率以及短时傅里叶变换窗口和跳变大小。换句话说，GAVDNet模型能够准确解读与训练数据具有显著不同时间和频谱特征的声音频谱。

两种目标叫声结果的差异可能与它们在频谱图中呈现的复杂程度有关：CPBW具有复杂的时频结构，包含多个重叠的频率成分，同时具有振幅和频率调制；而ABWZ则由一个从稳定频率逐步下降到另一个频率的正弦波组成。对于人类分析师来说，这种简单结构使得ABWZ在频谱图中比CPBW的叫声更难以区分。我们认为这种差异也可能适用于基于神经网络的检测器。

两种录音地点的环境噪声条件在定量和定性上存在差异，也可能影响了检测结果：在采集CPBW数据的迪戈加西亚岛周边地区，2002年至2012年间5-30 Hz频段的每日噪声中值分别为88.2 dB re 1 μPa2/Hz和40-60 Hz频段的86.0 dB。2009年之前的数据记录显示噪声水平存在季节性变化，南半球冬季噪声水平较低，可能是由于季风降雨和南极蓝鲸的北迁所致；但在2009年后，这种波动减小，航运噪声成为该地区的主要噪声源。

ABWZ数据是在南极洲的Casey站记录的，虽然我们未能找到该地区的公开噪声水平数据，但有一项研究报告称斯科舍海地区的噪声中值在11-30 Hz频段约为105 dB，在31-50 Hz频段约为100 dB，存在约±5 dB的季节性变化。多项研究表明，海冰是南极水域噪声的主要来源，噪声水平的季节性变化与海冰破裂有关。Casey 2014年的数据记录于海冰范围创纪录的年份（2014年），当年9月海冰距离Casey站的水听器仅约170公里，而2月份时海冰最远距离为960公里，这可能导致数据集中环境噪声的特性和幅度存在显著年内变化。此外，南极水域的噪声水平还会因海冰的日变化而变化（这不太可能影响迪戈加西亚岛附近的热带水域）。因此，Casey 2014年的数据不仅噪声水平更高，而且噪声条件更为多变，这些挑战性因素可能是导致性能差异的原因之一（详见“检测属于开放集分类”部分）。

Leroy等人还描述了南极蓝鲸Z叫声存在周期性的年内频率变化（约0.1 Hz），并指出这种周期性变化与低温噪声水平高度相关。他们还在西南印度洋的鳍鲸和侏儒蓝鲸的叫声中观察到了类似的趋势。然而，查戈斯侏儒蓝鲸尚未出现这种年内频率变化，这看似可能是性能差异的原因之一。不过我们认为，由于我们在合成训练数据时应用了高达±2 Hz的随机频率变化，这种差异不太可能成立；同时也有理由假设CPBW也可能存在尚未被描述的年内频率变化，因为这种现象在须鲸中较为常见，且低温噪声尚未被确定为驱动因素。

SORP-IWC数据集中Z叫声的标注方式也可能影响了该声音的检测结果。如“真实标签参考数据集”部分所述，该数据集将完整的Z叫声与单独出现的A单元和B单元区分开来。由于检测器未被训练为拒绝这些单独单元，它们可能被误判为真正例（因为它们在时频结构上与部分记录的Z叫声相同）。在adjudication前的评估中，测试集标注会将这些情况视为误报，这也可能解释了adjudication前结果的一些差异。

**作为概率问题的检测**
自动呼叫检测通常被定义为二元过程，但机器学习检测器输出的是信号存在的概率流，而非二元结果。这不仅是因为机器学习系统的统计基础，也因为任务本身的概率特性。由于声传播条件、信号源与接收器之间的距离以及背景噪声水平的变化，录音可能以不同的准确度和完整性捕捉到目标声音。例如，录音可能无法捕捉到声音的所有高频 harmonics，或者声音的起始或结束部分缺失。这些部分可能因为未能以足够幅度传播到录音设备，或者被背景噪声掩盖。理想检测器的目标是回答“目标声音是否存在于该音频中”，但更实际的问题是“目标声音在该音频中占多大比例”。乍看之下，我们可以将这个问题重新表述为“信号是否在录音设备的拾取范围内”，但这很难回答，因为拾取范围取决于目标声音的幅度和频率、水听器的灵敏度、信号源与接收器的几何关系以及传播环境的特性，还有背景噪声的幅度和位置。然而，这些因素往往不确定或只能大致了解，且其中许多是随时间变化的。任务的概率特性与我们期望的二元结果之间存在矛盾，因为这迫使我们在后处理过程中使用经验法则将概率强制转换为二元（存在/不存在）结果（详见“概率后处理”部分）。因此，所有检测器都不可避免地会在精度和召回率之间做出某种权衡。

一篇最新论文提出了一种改进的概率后处理方法，称为边界提案网络（Boundary Proposal Network），该方法利用学习到的表示来控制检测器的输出。作者表明，与现有的蓝鲸叫声检测器结合使用时，该方法可提高16.8%的精度。不过这种方法的缺点是需要训练额外的神经网络以及相应的训练数据和计算成本。此外，如“不可靠的真实标签”部分所讨论的，真实标签的可靠性也可能存在问题。

Chambert等人提出了一种不需要神经网络的概率方法，因此成本相对较低。他们设计了一个分层的多重假正例模型，将总检测次数建模为两个泊松过程的总和：一个假正例过程和一个真正例过程。该方法通过考虑检测频率和通过小型测试集的人类 adjudication过程获得的检测器错误率来估计检测结果的真实性。模型中包含了影响检测概率的其他协变量，如一天中的时间、环境噪声指标以及检测器后处理阈值，并通过贝叶斯框架估算了这些参数的数值。虽然这个模型不适用于直接作为我们检测器框架中的后处理程序，但可以对其进行调整，这是一个未来改进的机会。

测量检测器性能的另一个难点是定义真实基准。由于被动声学监测本质上涉及无人值守的录音设备，因此没有人类观察者来确认声音来源；在海洋环境中，也没有足迹、粪便或其他能够证明发出录音声音的动物的物理证据。即使在音频系统旁边使用视频记录器，也并非可行的解决方案——高效的海洋声波传播几乎可以保证音频系统会记录到位于摄像机视觉范围之外的动物发出的声音。因此，实际上并没有真正的真实基准，任何自动生成真实基准的方法（例如使用现有检测器）都存在不确定性，并且可能不可靠。标准做法是使用人类生成的注释参考日志作为真实基准，因为人类注释被认为是最可靠的方法。然而，Leroy等人的研究表明，不同分析师之间以及同一分析师在长时间任务中的注释准确性存在显著差异。两名训练有素的分析师被要求对北大西洋露脊鲸和南极蓝鲸的叫声进行注释，分析结果显示他们的注释一致率低于50%。此外，信噪比（SNR）的降低与分析师之间一致性的下降相关。类似的研究使用了由高斯噪声组成的合成数据来模拟背景噪声，以及代表简单音调动物叫声的多项式相位信号。使用合成信号可以构建真实基准，从而客观评估对合成数据手动进行注释的五名分析师的准确性。结果显示，当信噪比为24 dB时，检测概率为95-100%，但随着信噪比的降低，这一概率迅速下降至6-41%。值得注意的是，在中大洋被动声学（PAM）录音的背景下，18 dB的信噪比已经算是较高的了。

Miller等人的进一步研究揭示了使用人类注释的参考日志作为真实基准来测试自动检测器时的陷阱。与我们的研究类似，他们的初步测试显示检测器性能并不突出，但当由经验丰富的分析师对检测器与参考日志之间的分歧进行裁决时，发现许多被标记为假阳性的检测实际上是真的阳性结果。同样，一些在参考日志中列出但被检测器遗漏的检测（假阴性结果）也被裁决者判断为真正的阴性结果。换句话说，检测器的准确性高于生成参考日志的人类分析师。这一结果与当前研究的结论一致。

ABWZ的测试集是由单一人类分析师注释的，没有进行验证；鉴于相关文献，注释不准确也就不足为奇了。CBBW模型的测试集则是由自动检测器注释的，并由经验丰富的人类分析师进行验证，这种两阶段过程可能提高了该测试集的可靠性，然而，人类验证并不能保证绝对的准确性。因此，预裁决结果高度依赖于不可靠的人类分析师的召回率和精确度以及所使用的检测器，只能作为初步结果，不能反映真正的性能。

ABWZ的测试集由单一人类分析师注释，没有经过验证，考虑到相关文献，注释不准确并不令人意外。CBBW模型的测试集则由自动检测器注释，并由经验丰富的人类分析师进行验证，这种两阶段过程可能提高了测试集的可靠性，但人类验证仍然不能保证绝对的准确性。因此，预裁决结果强烈依赖于不可靠的人类分析师的召回率和精确度以及所使用的检测器，应仅作为初步结果，不能代表真正的性能。

裁决过程本身也可能受到人类分析师可靠性的影响，尽管这项任务在某些重要方面与注释不同。注释通常涉及分析师浏览长时间的声音频谱图，找出目标叫声；而在裁决过程中，分析师需要查看固定时间段内的频谱图，并决定声音是否存在。虽然未经验证，但我们的直觉认为注释是一个开放性的任务，有更大的解释空间（“找到所有叫声”），而裁决则是一系列有明确界限的任务，需要给出二元答案（“这是叫声吗？”）。我们认为裁决可能比注释更不容易出错。为了防止裁决过程中的偏置，分析师没有被告知分歧是假阳性还是假阴性，也不允许自由浏览频谱图以在更广泛的背景下查看检测结果，后者被认为可能是偏置的来源。基于这些考虑，我们认为裁决结果在合理置信度范围内是可靠的，尽管可靠真实基准和最佳检测器性能测量方法仍需进一步研究。

在构建检测器时，一个关键的设计决策是明确在特定研究背景下什么是有效的检测。这个定义的细微差异可能会决定检测器在其应用中的表现是良好还是完全不适用。例如，是否将“合唱”视为有效检测就是一个例子。在无回声条件下录制的单个动物叫声会在频谱图中表现为一个局部能量集中区，具有明显的时间轴起点和终点。如果将单个动物定期重复发出这种声音的录音输入检测器，结果将是一系列具有清晰离散峰值或平台的概率时间序列，每个峰值对应一次目标声音的出现。然而，PAM录音远非无回声环境，通常会捕捉到多个个体同时发声的情况。当多个个体同时发出重复的声音序列时，就会形成合唱现象。这些声音与多路径反射和混响产生的能量叠加在频谱图中，表现为与目标声音相同带宽内的噪声样带，但几乎没有时间结构（见图5和图6）。研究表明，合唱现象显著影响人类分析师的判断准确性；根据应用需求，检测器可能需要拒绝合唱声，将其视为“非目标”。

ABWZ的测试集由单一人类分析师注释，没有进行验证；鉴于相关文献，注释不准确也就不足为奇了。CBBW模型的测试集由自动检测器注释，并由经验丰富的人类分析师进行验证，这种两阶段过程可能提高了测试集的可靠性，但人类验证仍不能保证绝对的准确性。因此，预裁决结果强烈依赖于不可靠的人类分析师的召回率和精确度，以及所使用的检测器，只能作为初步结果。

在裁决过程中，分析师被要求判断是否存在合唱现象。与注释不同，裁决过程中分析师看到的频谱图是固定时间的，必须通过决定声音是否存在来解决分歧。我们的直觉认为，注释是一个开放性任务，有更大的解释空间（“找到所有叫声”），而裁决是一系列有明确界限的任务，需要给出二元答案（“这是叫声吗？”）。我们认为裁决可能比注释更不容易出错。为了防止裁决过程中的偏见，分析师没有被告知哪些分歧是假阳性或假阴性，也不允许自由浏览频谱图以在更广泛的背景下查看检测结果。鉴于这些因素，我们认为裁决结果在合理置信度范围内是可靠的，尽管可靠真实基准和最佳检测器性能测量方法仍是需要进一步研究的领域。

在构建检测器时，一个关键的设计决策是明确特定研究背景下什么是有效的检测。这个定义的微妙差异可能会导致检测器在其应用中表现良好或完全不适用。例如，是否将“合唱”视为有效检测就是一个例子。在无回声条件下录制的单个动物叫声会在频谱图中表现为局部能量集中区，具有清晰的时间轴起点和终点。如果将单个动物定期重复发出的声音的录音输入检测器，结果将是一系列具有明显离散峰值的概率时间序列，每个峰值对应一次目标声音的出现。然而，PAM录音远非无回声环境，通常会同时捕捉到多个个体的声音。合唱现象发生在多个个体同时发出重复声音序列时。这些声音与多路径反射和混响产生的能量叠加，在频谱图中表现为与目标声音相同带宽内的噪声样带，但几乎没有时间结构（见图5和图6）。研究表明，合唱现象显著影响人类分析师的判断准确性；根据应用需求，检测器可能需要拒绝合唱声，将其视为“非目标”。

在裁决结果中，当裁决逻辑改为排除包含合唱声的检测时，检测器的精确度显著下降（ABWZ?? “包括合唱” 模型的检测率为65.3%，“仅限离散声” 模型为29.2%；CBW模型中分别为91.2% 和 33.6%，见图3和图4）。这表明，在预裁决结果中，合唱声是导致假阳性的主要来源，这并不奇怪，因为负类样本中没有包含合唱声。每当检测器遇到合唱声时，它认为合唱声与目标声音的相似度更高。预裁决结果和裁决结果（图3和图4）的比较还表明，对于ABWZ和CBW模型，使用“仅限离散声”逻辑的裁决结果与预裁决结果非常接近。这表明真实基准注释日志不仅将合唱声视为负类，还将伴随合唱声的离散叫声也视为负类。这支持了现有文献中的证据，即合唱现象显著影响人类注释的准确性。对于需要排除合唱声的应用，我们可以很容易地通过对合成训练序列中的噪声区域（即标记为“负类”的区域）加入合唱声来进行微调，以拒绝合唱声。在音频增强框架中加入合唱声生成器是一个需要进一步研究的领域。

自动叫声检测本质上是一个二元分类任务，类别为“目标”和“非目标”。普遍的直觉是这些任务比多标签分类简单，因为网络只需要学习两类。实际上，单个目标的检测是一个开放集分类（OSC）问题，可能比多标签分类更困难，因为所有可能的非目标声音的空间非常大且未知。在当前研究中，目标动物的声音只占总频率范围的相对较小部分，并且具有非常具体的时间-频率结构。数据中所有其他可能声音的空间非常庞大，即使可能性仅限于检测器的工作频率范围内。二元分类器并不试图区分所有这些其他可能的声音。这个问题可以通过将任务视为聚类分析来很好地说明：代表目标的声音的聚类在网络嵌入空间中占据了一个小而孤立的区域，而所有其他声音的空间则非常庞大，包围着目标聚类。换句话说，非目标类别是一个无边界、异质且无限变化的未知集合。在多标签分类任务中，有许多定义明确的target声音的孤立聚类，因此嵌入空间中更大比例的部分是已知且可识别的。将嵌入空间更细致地划分为更多明确的类别可能有助于模型做出准确的检测。

OSC问题是机器学习中的研究热点。Morgan和Braasch评估了提高属于OSC类别的鸟类叫声检测器性能的技术，其中两种技术涉及训练期间添加额外类别，三种是推理后的技术。所有方法的性能提升效果不一，且高度依赖于训练和测试数据中已知（标记）声音与未知（未标记）声音之间的相似性。Chen和Yang的最新研究分析了OSC任务中的目标/非目标区分，不是通过检测器性能，而是通过分析网络学习到的声音的内部表示。他们将高维嵌入简化为二维，然后进行聚类分析，比较不同类型分类器网络之间的聚类强度。他们发现，对于多标签分类任务，用额外新类别微调的网络表现出最强的聚类能力，但如果同一模型针对二元分类（即检测）进行微调，内部表示的聚类能力较弱，这些模型更难以区分目标和背景声音。值得注意的是，他们的某些测试还表明，最初为图像分类预训练的模型比为音频分类预训练的模型表现更好。这些发现表明，在使用迁移学习的二元分类任务中，为音频分类预训练的模型可能不如为图像分类预训练的模型适用。

改进我们的检测器最简单直接的方法可能是训练它来识别额外的声音。虽然有许多公开可用的音频数据集包含航运噪声和地震声音等声音，但使用在与目标动物自然活动范围不同的声学环境中录制的非目标训练样本的效果尚未经过测试。此外，将具有相似时间-频率结构的非目标动物声音添加到目标声音中也可能有益。在查戈斯群岛附近，除了查戈斯侏儒蓝鲸之外，还有至少7种须鲸活跃，它们的叫声之间存在相似性。尽管这些歌曲的标记训练数据可能不容易大量获得，但没有理由认为用于构建我们原始目标歌曲数据集的半合成流程不能也用于那些叫声的识别，只需要对网络架构进行相对较小的修改来适应额外的类别。这也是需要进一步研究的领域。

计算效率：
一旦完全解冻，GAVDNet的CRNN架构拥有109,700个可学习参数。作为参考，Miller等人使用的dCNN有54,000个参数，而流行的通用声音分类dCNN YAMNet有370万个参数，基于transformer的动物叫声检测器animal2Vec则有3.15亿个参数105。因此，我们选择的架构在参数数量上相对较少。网络架构的其他方面也可能影响效率；由于循环阶段的顺序依赖性，CRNN在处理较长输入序列时可能会增加推理延迟，这阻碍了并行化；此外，隐藏状态向量的积累会增加内存消耗。

我们使用GAVDNet的主要目的是分析实验室中现有的PAM数据集，因此虽然计算效率是一个目标，但我们并不追求那种需要部署在电池供电的野外记录设备上的检测器所需的极端效率。我们的计算效率目标是在实际应用中实现的。具体来说，1）训练和推理可以在消费级硬件上运行，2）训练可以在一两天内完成，而对4小时长的录音进行推理可以在几分钟内完成。鉴于这些目标以及我们的使用场景，我们认为结果在性能、数据效率、成本和通过适应不同持续时间的目标叫声而具有的通用性之间达到了一个令人满意的平衡。

适用于其他类群：
尽管这项研究使用须鲸歌曲验证了我们的方法，但它也可能适用于其他动物声音，尽管有一些严格的限制。该方法的适用性仅限于在时间和频率结构上有严格定型的叫声。没有迹象表明这种方法适用于非定型声音，如海豚的特征性哨声。增强流程使用了模拟声学传播效应（例如，传输损失、多路径传播、多普勒频移）和发声行为（例如，批量频率变化、振幅变化以及时间拉伸，近似于在106中观察到的叫声持续时间和脉冲率变化）的信号处理技术。然而，它并不是为了修改叫声本身的结构而设计的。例如，它不能在叫声单元之间添加或删除静默期，也不能改变重叠音调的频率间隔，或修改叫声单元内的频率轮廓。根据定义，定型叫声在这些方面没有显著的变化，因此目前构建的增强流程似乎足以对这些声音进行建模。如果将流程扩展到包括代表非定型叫声的额外信号修改，将提高GAVDNet对更广泛声音的适用性。

我们的结果表明，经过微调的预训练VADNet模型能够很好地泛化到我们的Mel频谱图上，尽管原始模型的中心频率范围大约在44到7500 Hz之间，而我们的目标频率范围大约在11到48 Hz之间。这种泛化能力与频率范围和分辨率无关，表明该方法的重复使用不限于低频声音。同样，VADNet和GAVDNet之间的频谱图时间分辨率差异表明它能够泛化到具有不同时间复杂度的声音。此外，与固定输入大小的架构不同，CRNN架构明确地为模型提供了灵活性，可以 targets 任意持续时间的声目标，而不会损失频谱图信息或时间背景。验证该方法对其他定型声音的适用性是未来研究的领域。

方法上的限制：
只要可能，增强参数范围是根据文献中的估计值设定的，例如游泳速度和频率变化范围。其他参数，如时间拉伸范围，则是相对任意设定的，尽管是保守地设定的，并且通过对增强信号的频谱图进行视觉检查作为非正式的检查，以确保增强信号能够代表真实的叫声。目前尚不清楚我们使用的所有增强操作是否确实都是获得高性能所必需的。先前的研究表明，仅使用少数增强方法，音频分类dCNN就已经能够显示出性能提升107,108，尽管那些研究仅使用数据增强来增加训练数据集的大小和多样性。我们的直觉是，从单个样本创建大型训练数据集可能需要更大和更多样化的物理驱动的增强操作，以便超越示例数据的泛化能力。为了简化流程，敏感性分析是未来需要探索的领域。

用于构建训练数据的六个Z-call示例来自与测试集完全不同的地点和年份。第七个示例来自Casey 2014数据集，这一偶然的疏忽导致训练集和测试集中有一个相同的叫声重叠（n=1091个叫声）。为了最小化过拟合的风险，未修改的示例从未用于训练，而是作为增强流程的种子，该流程应用了“数据增强”部分描述的随机音频效果组合。

为了调查数据泄露的可能性，我们分析了Casey 2014示例及其在训练集中的衍生物之间的相似性（n=26,600；增强后，加噪声之前）。我们还测量了所有七个ABWZ示例之间的相似性，以了解不同年份、地点和个体的真实叫声之间的相似性。我们使用的相似性度量标准是根据“训练数据组成”部分中的程序和参数生成的Mel频谱图之间的结构相似性指数（SSIM）。这里，$SSIM= 0$表示完全不相似的信号，而$SSIM= 1$表示完全相同的信号。七个示例叫声之间的SSIM平均值是$SSI{M}_{all exemplars}=0.507$，而Casey 2014示例与26,600个训练样本之间的SSIM平均值是$SSI{M}_{Casey exemplar \& all training}=0.522$。$SSI{M}_{all exemplars}$与$SSI{M}_{Casey exemplar \& all training}$之间的Cohen效应量是$d=-0.304$。这表明增强后的训练样本与未修改的Casey 2014示例之间的相似性仅略高于七个真实世界的独立示例之间的相似性。

尽管效应量很小，我们不能排除模型在检测作为示例使用的特定目标叫声时保留了一些小的优势。然而，任何潜在的优势仅限于测试集中的1,091个叫声中的单个叫声；其余1,090个叫声并没有因此获得优势，因为它们在训练过程中是未经见的。因此，对ABWZ-A、B和C的影响可能不会显著，用于训练ABWZ-C-Small模型的单个示例来自2014年Elephant Island数据集，因此训练数据与测试集完全独立。所有CBPW模型的训练数据都是从与测试集完全独立的示例中构建的，这些模型表现最佳。因此，使用出现在测试集中的叫声作为训练数据的示例代表了一个方法上的限制，但我们认为这对结果的影响可以忽略不计。

上述的相似性分析还有助于比较训练数据与真实叫声的多样性。26,600个训练样本之间的平均SSIM是$SSI{M}_{all training}= 0.496$，而7个示例之间的SSIM是$SSI{M}_{all exemplars}=0.507$。$SSI{M}_{all exemplars}$与$SSI{M}_{all training}$之间的效应量是$d=0.189$，尽管$SSI{M}_{all exemplars}$的样本量有限，使得这个估计具有不确定性。虽然这些结果的统计效力不强，并且计划在未来使用独立的真实叫声进行更严格的研究，但我们认为这些结果以及检测器的性能表明训练数据中的多样性代表了真实的鲸鱼叫声。

结论：
被动声学监测数据档案是生态学和生物学研究的宝贵资源，尽管在它们的分析方面已经取得了显著进展，但由于需要可靠的、准确的、易于使用的自动叫声检测工具，以及这些工具仅需最少的标记数据进行训练，并且可以在没有昂贵的高性能计算资源的情况下进行训练，因此它们的充分利用受到了限制。在这里，我们提出了一种用于训练数据合成、神经网络微调、推理和后处理的框架，该框架可以应用于须鲸叫声以及可能的其他定型动物声音。我们的系统可以在廉价的消费级硬件上运行，性能评估表明，即使在仅基于单个目标叫声示例构建的数据集上进行训练，也能实现>99%的召回率和>91%的精确度，使其成为研究数据稀缺动物的一种有前景的方法。然而，这一结果附带了一个警告：在定义目标和非目标声音时必须非常小心，才能达到如此高的性能。训练数据中的正面和负面类别应该反映实际部署中将会遇到的所有声音的多样性，如果合唱、低信噪比或部分捕获的叫声被视为非目标声音，则应在训练序列的非目标部分包含这些样本。此外，这项工作支持现有文献中的观点，即缺乏可靠的真实标记和最佳实践测试方法是生物声学检测器研究中的开放问题，这些领域需要更多的工作。

方法概述：
本文介绍的自动检测器框架由两个主要组成部分构成：一个是构建半合成训练数据和微调预训练神经网络的组件，另一个是执行推理和后处理概率向量的组件。数据合成使用传统的音频信号处理方法，不涉及机器学习技术。合成和训练的过程流程如图7所示，推理、后处理和性能评估的过程流程如图8所示。

**图7**
**图8**这首歌曲的总时长为34-35秒，其单元结构如图11所示。单元1的能量主要集中在25至45赫兹的频率范围内。图11中使用的替代文本可能是由人工智能生成的。

**查戈斯侏儒蓝鲸歌声的记录的频谱图，带有标注的单元。频谱图是通过乘性超级let变换计算的，频率间隔= [10, 60]；频率bin的数量= 100；超级let循环的初始次数= 3；超级分辨率阶数的间隔= [10, 40]。**

**用于测试检测器的两个参考数据集**
共使用了两个参考数据集来进行测试。每个数据集都包含了一组音频文件和一个标注的参考日志。ABWZ检测器在“Casey 2014”数据集上进行了测试，该数据集来自开放获取的IWC-SORP注释库113,114。音频是在南极洲Casey Station海岸录制的，坐标为纬度-63.7955，经度111.7871（图12），记录时间从2013年12月25日到2014年12月12日。音频采样率为1000赫兹（在当前研究中降采样到250赫兹），数据集包含了194小时的音频。注释由人类分析师完成，日志中记录了1091次ABW Z叫声。水听器的深度为2770米，虽然未指定固定方式，但深度和海底地形表明水听器是直接固定在海底的。图12中使用的替代文本可能是由人工智能生成的。

**IWC-SORP Casey 2014数据集的水听器位置，这是用于测试南极蓝鲸Z叫声检测器的音频数据集的来源。等深线以500米的间隔绘制。**

**CPBW检测器使用的数据来自全面禁止核试验条约组织的国际监测系统（CTBTO IMS），这些数据是在查戈斯群岛Diego Garcia岛南岸的水听器H08S1上记录的，坐标为纬度?7.6453，经度72.4744（图13），记录时间跨度为2007年。水听器固定在海底，并通过水下浮标悬挂在1413米的深度。音频采样率为250赫兹。**

**CPBW数据集的参考注释是在之前的研究中使用自动化检测器生成的，并由人类分析师手动审核，去除了误报。这个参考注释数据集之前已被其他研究使用，并被认为质量较高。** 完整的数据集包含了超过8000小时的音频，为了将其缩减到更适合测试的大小，编写了一个MATLAB程序来对数据进行了下采样，创建了一个平衡且具有代表性的子集。在18中使用的检测器（最初在99中描述）为每次检测返回信噪比（SNR）和信号与干扰加噪声比（SINR）的估计值，其中SINR是衡量被检测音频与目标叫声相似性的指标；实际上是检测置信度的度量。这些参数被用于下采样过程。首先，过滤了注释参考日志，移除了那些与缺失、损坏、没有有效音频或持续时间少于10分钟的音频文件相关的检测结果。根据过滤后的参考日志，音频文件被分为含有检测结果的文件和不含检测结果的文件。然后根据SNR、SINR、一天中的时间以及年份中的月份将检测结果分层到不同的组中。最终测试集从每个组中按比例抽取样本，以保持这些维度上的原始分布，直到达到500小时的测试集时长。最终数据集中1%的音频文件不含任何检测结果。最终测试数据集包含了500小时的测试音频和6843个CPBW歌曲的参考日志。**

**实验条件**
对于每个目标叫声，我们训练并测试了四个模型。每个模型都是在不同SNR范围内合成的样本上训练的，这使我们能够研究训练数据的SNR对性能的影响。模型及其数据合成参数列在表4中。为了评估精确度-召回率的 trade-off，我们还测试了每个模型在不同后处理激活阈值范围内的表现（见第5.13节）。测试的值列在表5中。总之，对于每种目标动物叫声，我们测试了4个模型和8个激活阈值，总共进行了64种实验条件。

**噪声库的编译**
为了构建真实的合成训练数据，需要噪声记录。假设噪声记录应该是特定地点的，因此为每个目标叫声编译了独立的噪声库。噪声记录来自与示例相同的记录数据集，但同样，测试集中使用的音频被排除在外。使用10个噪声记录的样本集非正式地比较了从噪声库中排除目标叫声的自动化方法。时域互相关和频谱图互相关方法显示出高误报率，导致太多目标叫声泄漏到噪声库中。最佳方法是使用从每个叫声的示例平均值生成的小波进行比较的小波相关检测器。示例波形被时间对齐并平均，以产生一个代表性的模板，同时平滑了年际频率偏移和其他自然变化。通过手动检查检测器输出发现噪声库中仍有一些剩余的目标叫声，主要是合声，而不是离散的叫声。作为最后的措施，构建了一个定制的MATLAB GUI程序，以便通过频谱图手动检查噪声库中的每个记录。任何包含目标叫声（无论是离散的还是合声）的记录，无论SNR如何，都被从噪声库中排除。尽管采取了这种验证程序，仍有可能一些非常低SNR的叫声进入了噪声库，但由于噪声库的源数据与测试集无关，因此不会导致训练数据污染。实际上，噪声库中出现目标叫声可能会降低性能，但没有迹象表明这种情况确实发生。此外，使用相同的示例进行训练和排除目标叫声在建立噪声库时存在循环性。我们不认为这是个问题，因为排除检测器仅作为一个粗略的过滤器来减少手动工作量，而不是训练或评估流程的组成部分。

**目标叫声示例**
Z叫声模型ABWZ-A、ABWZ-B和ABWZ-C的合成训练数据是从IWC-SORP库中选取的7个高SNR的目标声音示例构建的。其中一个示例来自Casey 2014数据集，其余六个来自其他录音地点和年份。ABWZ-C-Small模型的训练数据集是基于2014年8月26日在Elephant Island水听器记录的单个示例构建的（图14）。图14中使用的替代文本可能是由人工智能生成的。

**用于构建CPBW-C-Small模型配置的半合成训练数据的南极蓝鲸Z叫声示例的频谱图。左图：去噪之前的原始示例。右图：去噪后的示例。频谱图是通过乘性超级let变换计算的，频率间隔= [10, 60]；频率数量= 100；超级let循环的初始次数= 3；超级分辨率阶数的间隔= [10, 40]。**

**用于构建CPBW-A、CPBW-B和CPBW-C模型配置的合成训练数据共使用了12个示例。这些示例来自与测试数据相同的IMS数据集，但来自不同的年份。CPBW-C-Small模型配置的训练数据集是基于2005年8月19日记录的单个示例构建的（图15）。** 图15中使用的替代文本可能是由人工智能生成的。

**所有示例都是使用Izotope RX115中的频谱编辑工具在时频域中手动去噪的，并从开始处裁剪掉了任何静音部分。图14和图15显示了去噪前后的每个示例。** Z叫声的第一个单元（单元A）经常单独观察到，而不伴随随后的B和C单元，然而由于A单元结构简单，我们选择在整个ABW Z叫声上进行训练，假设添加B和C单元的结构会提高检测器的选择性。此外，IWC-SORP库将Z叫声与离散的A叫声和A-B叫声区分开来，因此我们也同样将它们视为不同的单元。CPBW歌曲的单元1包含最多的能量，先前的研究指出单元2和3有时会缺失，可能是由于传播效应、噪声掩盖或发声行为的变化。因此，我们选择仅对单元1进行CPBW检测器的训练，并从去噪后的示例中裁剪掉了其余部分。得到的示例作为“种子样本”，用来构建增强的副本。**

**去噪和裁剪后的示例进一步通过在对开始和结束部分应用0.2秒的半汉宁窗口来处理，以避免不连续性。然后对它们进行直流中心化和归一化到[-1, 1]的范围内。应用了一种动态范围压缩算法，将示例的动态范围缩小到目标范围2分贝。**

**数据增强**
为每种实验条件构建了独特的训练集，使用了不同数量的示例。示例被用作生成大量增强叫声副本的种子，从中构建了训练序列。未经修改的原始示例没有包含在训练数据中。对于由多个示例构建的训练集，从每个示例中生成了相等数量的增强叫声副本。例如，在CPBW-A条件下，数据集由12个示例构建，需要总共63,600个增强叫声副本，因此每个示例产生了5300个增强副本。**

**音频增强处理**
音频增强处理是基于物理原理的，模拟了声学传播现象和发声行为及解剖结构的变化，尽管没有使用任何传播模型。为了避免时间拉伸和音高移动操作引起的伪影，示例被上采样到1000赫兹，然后增强后再下采样回250赫兹。以下音频增强按以下顺序独立且依次应用：
1. 随机时间拉伸，速度因子在原始音频速度的0.94到1.06倍之间。时间尺度修改使用相位声码器实现，因此频率没有改变，相位锁定用于保持每个频率 bin 内的相位一致性。这种增强应用于任何给定样本的概率为50%。
2. 对100%的样本应用随机音高移动，每个样本在整个持续时间上向上或向下移动一定的固定频率。移动范围是根据示例样本记录年的平均频率、先前研究中报告的年度变化率（ABWZ = 0.135赫兹/年，CPBW = 0.33赫兹/年）以及合成训练数据的时间跨度（ABWZ = 2013-2015年，CPBW = 2006-2008年）计算的。另外添加了±2赫兹范围内的随机音高移动，以捕捉群体中的任何可能的异常值。同样使用相位声码器，因此音高移动不影响播放速度。
3. 使用Volterra核应用微妙的非线性失真，概率为50%，失真幅度在0.1到0.5之间。这个无单位的参数控制生成失真产品的幅度。本研究的目的是模拟在语音产生过程中非线性效应的行为或解剖学变化，以及有时在近场中对极高幅度声源产生的非线性传播效应。4. 使用随机声源速度（1至8.3米/秒）以50%的概率应用多普勒音高偏移（一种时变频率调制），声源沿直线轨迹移动，接收器保持静止。最大速度限制设定得略高于典型的须鲸游速5米/秒，以增加系统的鲁棒性并考虑异常行为。“通过时间”——即声源从接近变为远离的时刻——被随机设定在呼叫持续时间的35%到75%之间。5. 对于ABWZ声音，由于该声音由单一正弦波组成，因此未使用高通和低通滤波器；而对于CBWZ声音，则以50%的概率分别应用低通和高通滤波器，随机截止频率范围为37至50赫兹和10至33赫兹。这样做的目的是为了模拟多种频率依赖的衰减条件。6. 以50%的概率应用混响效果，并以50%的比例混合湿式和干式混响。混响衰减时间被随机设定在0.1至10秒之间，以模拟多路径反射和混响现象。7. 以50%的概率使用非周期随机振荡器来驱动幅度衰减，衰减因子在0.1到0.75之间，损失密度在0.1到0.5之间。密度参数决定了驱动幅度衰减的随机波形的占空比，0.5表示信号持续时间有50%的部分被随机衰减。这模拟了时变传输损失。8. 以50%的概率应用随机末端修剪，修剪持续时间在0.1到1秒之间。

训练数据集 each 由1200个时长为1800秒的音频序列和1200个相应的二进制掩码组成，每个音频样本都有一个元素指示目标的存在与否。这些掩码在训练中作为标签，即目标，有效地为每个序列中增强呼叫的位置提供了真实信息。每个序列是通过在从库中抽取的连续背景噪声段内随机放置多个增强呼叫来构建的，确保相邻呼叫之间的最小时间间隔（ABWZ = 1秒；CBWZ = 0.5秒）。每个呼叫都独立地根据配置的范围（表4）随机设定信号噪声比（SNR），其中SNR是在噪声录制的呼叫预定时间位置测量的10-50赫兹带宽内的信号功率与噪声功率之比。每个序列中放置的呼叫数量是根据增强呼叫的平均持续时间自动确定的，使得呼叫大约占序列的45%。数据集的大小和组成在表6中有详细描述。

音频预处理过程和设置对于训练和推理是相同的。音频序列被转换成梅尔刻度的频谱图，然后沿时间轴分割成帧。二进制掩码也被分割成相应的帧。预处理函数执行了以下操作：1. 将音频重新采样到目标采样频率；2. 计算短时傅里叶变换频谱图并平方幅度；3. 对频谱图应用梅尔滤波器组；4. 将梅尔频谱图从线性功率转换为对数功率；5. 将梅尔频谱图饱和到指定的动态范围内；6. 将梅尔频谱图分割成重叠的帧；7. 通过减去平均值并除以标准差来标准化每个帧的频率区间。噪声库中的录音包含罕见但持续时间极短的极高功率事件，如海底地震和冰山崩解。从信号功率的角度来看，这些事件是统计上的异常值，可能会掩盖相对低功率的目标动物呼叫，使其淹没在噪声背景中。将完整序列的频谱图分割成较短的帧并通过其局部统计数据标准化，确保每个帧（即每个训练输入）具有相同的平均值和标准差。此外，分帧不仅减少了任何给定训练样本包含高功率异常事件的可能性，还减少了可能被噪声背景掩盖的动物呼叫的数量。在训练和推理过程中都会进行帧缓冲。标签（即信号存在/不存在的掩码）也被分割成相同大小和重叠的帧。上述预处理过程中使用的参数在表7中给出，ABWZ和CBWZ使用相同的设置。

预处理器生成的最终频谱图的时间分辨率为0.05秒。梅尔刻度的频率区间宽度从最低频段的1.98赫兹（fc = 10.94赫兹）到最高频段的2.00赫兹（fs = 48.99赫兹）。

基础模型通过迁移学习进行预训练和微调。默认情况下，VADNet的卷积层和全连接层是可学习的，而GRU层是冻结的，在微调过程中不会更新。由于VADNet的原始任务（人类语音活动检测）涉及的时间尺度与我们的应用不同，我们解冻了GRU层以确保它们也能适应新的任务领域。时间尺度的差异来自于不同的采样率、频谱图窗口和跳变持续时间，以及目标信号和干扰信号的不同时间尺度。训练使用了ADAM优化器进行，小批量大小设置为12，初始学习率为0.005，学习率下降因子为0.5，下降周期为2个周期，L2正则化因子为1e-4。训练最多运行9个周期，每个周期进行10次验证，验证耐心值为8以用于提前停止。训练数据集每个周期都会被打乱。训练损失函数是二元交叉熵，定义为：$$BCE=-\frac{1}{N}\sum_{i=1}^{N}{y}_{i}\cdot \text{log}\left({\widehat{y}}_{i}\right)+\left(1-{y}_{i}\right)\cdot \text{log}\left(1-{\widehat{y}}_{i}\right)$$其中，$N$是训练数据集中的样本数量，${y}_{i}$是第$i$个样本的真实标签（即目标），如果目标信号存在则为$y=1$，否则$y=0$，${\widehat{y}}_{i}$是网络预测的第$i$个样本包含目标信号的概率。在训练和验证过程中还跟踪了召回率、精确度和F分数，F分数作为提前停止的验证标准。完成训练后，程序返回了具有最佳验证分数的模型。对于所有测试的模型，训练过程都满足验证标准，并在达到最大周期限制之前停止。

网络输入是一个代表梅尔刻度频谱图的矩阵，$\mathbf{\rm X} \in {\mathbb{R}}^{FxT}$，其中$F=40$是频率区间数，$T$是时间区间数。模型内部将$\mathbf{\rm X}$分割成子帧，${\mathbf{\rm X}}_{\text{t}} \in {\mathbb{R}}^{Fx4} t=\text{1,2},\dots ,T$。每个频谱图子帧通过一系列卷积层，然后进行展平操作，生成一系列特征向量，${\mathbf{f}}_{t}$：$${\mathbf{f}}_{t}=CNN({\boldsymbol{\rm X}}_{t}) \in {\mathbb{R}}^{d}$$其中$d$是特征维度。特征提取和嵌入后，特征向量通过双向门控循环单元处理，该单元捕获前后时间上下文以在每个时间帧产生隐藏状态表示。双向隐藏状态被连接起来形成最终的隐藏状态表示。

通过在完全连接层中使用Sigmoid激活函数，计算每个帧的目标信号存在的后验概率。注意，网络在输入之间不保留隐藏状态，确保了无关音频序列之间预测的独立性。在对长度为$n$的音频向量进行推理结束时，网络的最终输出是一个长度为$m$的概率向量，其中$m = \left[ {\frac{n - L}{H}} \right] + 1$，$L$是频谱图窗口长度（212个样本），$H$是频谱图跳跃大小（12个样本），每个元素对应一个频谱图时间区间。

编写了一个后处理函数，将网络返回的连续概率向量（其值介于0和1之间）转换为二进制决策和感兴趣区域的时间戳。离散阳性检测的起点和终点是根据用户定义的概率阈值和检测持续时间启发式方法确定的，旨在过滤掉可能为假阳性的概率尖峰。紧密相邻的高概率值序列可能属于同一个检测到的呼叫，因此会被合并。完整的后处理参数集在表8中给出。AT参数被遍历，并评估了每个值的性能（见“实验条件”部分）。

在每个实验条件下运行检测器后，结果与真实注释进行了比较。使用匈牙利算法将检测的时间戳与真实注释的时间戳进行匹配，以实现最优的一对一匹配，从而最小化时间不匹配。只有当时间不匹配小于30秒时，匹配才被视为有效。计算了真正例（TP）、假正例（FP）和假负例（FN）的数量，然后根据标准定义计算性能指标：$precision = \frac{TP}{{TP + FP}}$，$recall (aka. sensitivity)=\frac{TP}{TP+FN}$，以及$F1\,score = 2\;\left( {precision \cdot recall} \right) \hfill \\ /\left( {precision + recall} \right) \hfill $。分歧（FP和FN）被保存下来以供进一步分析。

作为真实基准的参考注释被发现有不可靠之处（见“不可靠的真实值”部分）。为了解决检测器与真实值之间的分歧，由经验丰富的分析师进行了仲裁程序。由于手动仲裁涉及大量时间，这只针对八个实验条件中的两个进行了仲裁——每个呼叫一个条件。在仲裁之前的非正式检查表明，大多数分歧是真实值错误地判定为假阳性的情况。基于此，我们认为预仲裁的召回率得分可能相对准确，但精确度得分可能人为偏低，因此选择了召回率最高的模型进行仲裁。分析师熟悉目标鲸歌，并提供了一个简单的GUI应用程序来显示频谱图并记录决策。显示给分析师的频谱图从检测时间戳前5秒开始，到检测开始时间后40秒结束，以较长者为准。为了避免偏见，分析师不允许知道显示的检测结果是假阳性、假阴性还是真阳性，也不允许来回滚动以获取额外的时间上下文。为了评估合唱对检测器性能的影响，分析师被要求对每个分歧做出四种选择之一：“存在离散呼叫”、“存在合唱”、“存在离散呼叫和合唱”或“没有呼叫或存在合唱”。所有的分歧都进行了仲裁。ABWZ的分歧包括2821个假阳性和376个假阴性，共计3,197个仲裁决定。CBWZ的分歧包括17,232个假阳性和141个假阴性，共计17,373个仲裁决定。仲裁在两个月的时间内分几次短会话进行，以减少分析师的疲劳。

用户界面用于仲裁应用程序。显示的频谱图显示了ABWZ呼叫的合唱部分。

热点排行