PigACT：一个用于识别哺乳母猪行为的视听多模态融合框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biosystems Engineering》：PigACT: An audio-visual multimodal fusion framework for lactating sow behaviour recognition

【字体：大中小】 时间：2026年04月24日 来源：Biosystems Engineering 5.3

编辑推荐：

　　智能养殖环境下，基于PigACT框架通过多模态融合方法实现哺乳母猪行为的高精度识别，平均精度达95.3%。

作者：李波 | 朱佳颖 | 刘龙申 | 沈明霞

单位：南京农业大学三亚研究院，智能农业学院（人工智能学院），中国江苏省南京市

摘要

在工业化农场中自动监测哺乳母猪的行为对于健康评估和异常检测至关重要。本文提出了一种名为PigACT的音视频多模态融合框架，旨在基于监控音视频数据精确识别商业分娩室中的母猪行为。首先，采用三分支AVSlowFast时空模型作为基础网络，从视觉和听觉模态中提取行为特征。接着引入轻量级的四维偏斜高斯注意力（4D-SGA）机制来融合这三个分支的多模态特征图。通过4D-SGA，可以在不显著增加模型参数数量的情况下增强不同数据模态中的有用信息。实验使用从工业化养殖环境中收集的实际数据进行验证。定义了六种关键行为，以涵盖哺乳期间母猪的所有活动。实验结果表明，所提出的行为识别框架的平均精确度和召回率分别为95.3%和95.0%。这一发现相较于单模态行为识别方法有显著提升，为大规模畜牧业提供了一种有效的多模态行为监测方法。

部分摘录

Science4Impact声明

本文介绍了一种创新的音视频多模态融合框架PigACT，用于工业化养殖环境中哺乳母猪的关键行为识别。通过准确识别和监测哺乳、进食、饮水和撞围栏等关键行为，PigACT为农场管理者提供了实时数据，以帮助他们做出明智的决策。该框架有助于提高动物福利、降低劳动力成本并提升农场效率。

数据收集与数据集配置

本研究在江苏省常州市的丽华猪场进行。选取了产后三天内的十头哺乳长白猪作为实验对象。每头母猪及其仔猪被单独饲养，并与其他母猪分开。使用Hikvision 2CD3386 FWDV2-I摄像头和Hikvision DS-2FP1021音频记录器分别采集视频和音频数据。图1展示了猪场数据收集设备的布置情况。

实验设置与评估指标

所提出的PigACT框架在PyTorch框架内实现。用于模型训练和评估的深度学习平台配备了Intel i5-12400f处理器和NVIDIA GeForce RTX 3090显卡。在训练过程中，AVSlowFast的视频路径使用Kinetics-400预训练权重进行初始化，而音频路径则采用随机初始化。原始帧被随机采样为[256,320]像素大小，并裁剪为224×224像素。

结论

本文介绍了一种基于音视频数据识别哺乳母猪关键行为的多模态融合框架PigACT。通过在工业化农场收集的数据验证了PigACT的可靠性和有效性。针对单模态信息仅能捕捉行为特征某一方面的局限性，本研究的主要贡献如下：

●

与单模态行为识别方法相比，多模态方法能够更全面地分析行为特征

CRediT作者贡献声明

李波：撰写初稿、项目管理、方法论设计、数据采集、概念构建。朱佳颖：方法论设计、数据分析、概念构建。刘龙申：项目管理。沈明霞：概念构建。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究得到了中国海南省自然科学基金（项目编号326QN0702）和中央高校基本科研业务费（项目编号YDZX2024021）的支持。

联系信箱：

粤ICP备09063491号

摘要