声谱图互相关、特征声学与YAMNet嵌入在奶牛发声检测中的评估：面向精准畜牧业的稳健性比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Electronics in Agriculture》：Assessment of spectrogram correlation, eigensounds, and YAMNet embeddings in detecting cattle vocalizations

【字体：大中小】 时间：2026年04月28日 来源：Computers and Electronics in Agriculture 8.9

编辑推荐：

　　为解决奶牛个体发声事件的自动化、高效率检测问题，研究人员开展了三种声学特征（声谱图互相关、特征声学PCA、YAMNet预训练嵌入）在隔离条件下奶牛发声检测性能的系统性比较研究。结果表明，YAMNet嵌入法精度最高（中位数0.88），特征声学法召回率最高（0.73）。该研究为构建高精度/高召回两阶段检测流水线、推进基于声学的奶牛健康与福利自动监测提供了关键方法学依据。

在现代化的奶牛养殖场，了解动物的健康状况和情绪状态是保障动物福利、提升生产效益的关键。传统的观察方法依赖人工，不仅耗时耗力，而且难以做到连续、客观的监测。动物，包括奶牛，会用声音表达各种信息，从求偶、呼救到表达不适。因此，奶牛的发声就像一部携带丰富信息的“生物声学日记”，记录着它们的生理和情绪变化。然而，在嘈杂的牛舍环境中——机器轰鸣、同伴走动、人员活动——如何从持续不断的背景噪音中，准确、自动地“听”出并识别出奶牛有意义的叫声，成为了精准畜牧业（Precision Livestock Farming, PLF）领域一个颇具挑战性的技术难题。

以往的研究尝试了多种方法，从基于模板匹配的经典信号处理，到需要大量标注数据训练的深度学习模型。但这些方法在精度（准确识别出发声，避免误报）和召回率（找出所有发声，避免漏报）之间往往需要艰难取舍，且对个体奶牛的声音差异、环境噪音的鲁棒性表现不一。究竟哪种方法更适合在真实的农场条件下，实现可靠、高效的奶牛发声自动检测？为了回答这个问题，一项发表在《Computers and Electronics in Agriculture》上的研究，对三种具有代表性的声学分析方法进行了一次“同台竞技”式的系统比较。

研究人员为了开展这项研究，主要应用了以下关键技术方法：研究使用20头荷斯坦多产泌乳奶牛的音频数据，这些奶牛在晨间挤奶后被单独隔离4小时，并录制其随后1小时内的声音，以获取清晰、单一来源的发声样本。随后，他们构建并比较了三条自动化检测流水线：第一条是基于声谱图互相关的传统方法，使用Praat/Parselmouth工具计算声音的频谱图，并通过滑动模板进行余弦相似度匹配。第二条是特征声学方法，基于主成分分析（PCA），从参考发声样本中提取主要频谱-时间模式（“特征声”），用于在新音频中检测相似模式。第三条是利用YAMNet预训练模型提取嵌入向量，通过计算其与参考发声嵌入的余弦相似度进行检测。所有方法的输出都经过统一的后处理步骤（如事件合并和持续时间上限设定）以生成最终检测结果，并在手动标注的真实数据上，以事件级别的精度和召回率为指标进行性能评估。

3.1. 性能评估

研究团队对三种方法在二十段一小时录音上的表现进行了量化评估。结果表明，三种方法呈现出截然不同的性能特征画像：

•
声谱图互相关法 表现最为中庸，中位数精度为0.54，召回率为0.28。其性能严重依赖模板的选择。当检测使用的声学模板来自被测奶牛自身时，性能最佳（例如对奶牛2400，精度和召回率分别达到73.47%和63.72%）；而使用来自其他奶牛的模板时，性能则 consistently 下降。这印证了奶牛发声存在显著的个体差异性。
•
特征声学（PCA）法 在召回率上表现突出，中位数召回率达到0.73，但精度相对较低，为0.57。该方法对不同个体奶牛的表现差异很大：对某些个体，提高检测阈值能有效提升精度而不过多损失召回率；但对另一些个体，提高阈值则会导致召回率大幅下降，精度却改善有限。这说明尽管PCA试图捕捉通用模式，但其线性特性仍对个体间的声学差异较为敏感。
•
YAMNet嵌入法 展现了最高的精度，中位数精度高达0.88，同时保持了0.59的竞争性召回率。该方法性能最为稳定，大多数测试样本的精度都高于0.8，召回率高于0.6。这得益于YAMNet模型在包含海量多样声音（包括动物声音）的AudioSet数据集上的大规模预训练，使其学习到的声音嵌入表示对背景噪声和录音条件的变化具有出色的鲁棒性。

研究还深入分析了后处理（事件合并与2秒时长上限）的影响。对于声谱图互相关法，后处理将误报减少了83%，中位数精度从0.26提升至0.57，但代价是召回率从0.45降至0.29，因为一些相邻的真实检测被合并了。这凸显了后处理策略在平衡碎片化误报和事件完整性方面的重要性。

3.2. 展望

基于上述发现，研究提出了一个实用的两阶段检测工作流构想：首先利用高召回率的特征声学法作为宽松的“候选事件生成器”，从长时音频中初步筛选出大量可能包含发声的片段；然后，利用高精度的YAMNet嵌入法作为严格的“确认阶段”，对这些候选片段进行二次筛选。这种组合可以支持高效的半自动化标注，人工只需对少量、高质量的候选片段做最终判断，从而加速标注数据集的积累。

研究也坦诚地指出了其局限性。数据来源于单独隔离的奶牛，这虽然保证了干净的单一声源，利于获取真实标注，但可能使发声样本偏向于与负面情绪（如隔离焦虑）相关的高频叫声，且无法反映群养环境下声音重叠、距离多变等复杂情况。因此，报告的性能指标应视为在受控条件下的“上限”参考。此外，YAMNet作为通用音频模型，并非为奶牛发声定制，未来通过领域特定数据微调有望获得进一步提升。

4. 结论

这项研究的核心贡献并非提出一个“终极”检测方案，而是通过系统性的“背对背”比较，清晰刻画了三种声学分析方法在检测奶牛发声任务上的性能权衡图谱。特征声学（PCA）法凭借最高的召回率，适合作为初步筛查工具；YAMNet嵌入法凭借来自大规模跨域预训练的鲁棒性，提供了最高的检测精度，适合作为确认工具；而传统的声谱图互相关法则在拥有个体专属模板时，可作为轻量级解决方案。

这些发现为构建适用于精准畜牧业的智能声学监测系统提供了关键的方法学洞察。未来的方向包括将研究扩展至群养环境、集成可穿戴麦克风进行个体化连续监测，以及利用积累的奶牛发声数据对YAMNet等模型进行领域自适应微调。最终，通过将稳健的自动检测技术与科学的声学解读相结合，我们有望真正“听懂”奶牛的“心声”，为提升动物福利和养殖管理智能化水平打开一扇新的窗户。

联系信箱：

粤ICP备09063491号

热点排行