动态-静态特征融合与多层次交互推理在群体活动识别中的应用
《Journal of Visual Communication and Image Representation》:Dynamic–static feature fusion and multi-level interaction reasoning for group activity recognition
【字体:
大
中
小
】
时间:2026年04月27日
来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
动态静态特征融合与多交互推理的群体活动识别方法提出,通过动作轨迹模块提取骨骼动态特征,结合GCN和Transformer分别建模 actor 交互和时空交互,利用一致性约束自适应调整关键演员注意力范围,实验在Volleyball和Collective数据集上分别达到94.1%和97.4%精度。
孙华军|唐超|胡硕生|王文健|任芳|童安阳
中国合肥大学人工智能与大数据学院
摘要
群体活动识别旨在理解集体行为。然而,现有方法面临挑战:静态特征缺乏动态信息,而基于光流的方法在提取此类信息时复杂且不稳定。此外,使用单一网络来模拟参与者和时空交互会限制模型的适应性,目前深度网络中的注意力机制在调整注意力焦点方面缺乏灵活性。为了解决这些问题,我们提出了一种基于动态-静态特征融合和多交互推理的新型群体活动识别方法。首先,运动轨迹模块处理骨骼数据以提取动态特征,补充静态特征。接下来,多个交互网络分别模拟参与者和时空交互,捕获详细的交互信息,并通过一致性约束确保跨交互的注意力范围可调且对齐。最后,将多个交互特征与动态特征融合,结合它们的得分用于群体活动识别。在排球和集体活动数据集上的实验分别实现了94.1%和97.4%的准确率。
引言
群体活动识别(GAR)在计算机视觉领域引起了广泛关注。目前,GAR在实际应用中表现出色。它可以实时监控异常行为,准确识别并捕捉视频区域内被监控对象的运动方向、速度和人数,并实现违规行为的检测和报警,这显著推动了智能监控的发展。它还可以协助裁判进行判断,分析运动员的动作和团队协作,为战术调整提供依据。因此,这项技术已广泛应用于体育赛事中。与个体动作识别相比,GAR更侧重于理解特定场景中人群的集体活动。
为了分析群体活动,需要提取每个参与者的特征。仅依赖静态特征很难从他们的完整动作中确定其行为,导致其特征描述不完整。因此,在个体动作分析中,需要同时提取动态和静态特征,以提高GAR的准确性。最近,一些方法[1]、[2]、[3]使用多模态数据来构建动态特征。Simonyan等人[3]使用光流数据提取参与者的动态特征作为静态特征的补充信息。Azar等人[2]使用人体骨骼节点位置来标注姿态特征,以弥补光流的不稳定性。为了以最低成本获得稳定的动态特征,我们选择将人体骨骼数据输入运动轨迹模块(MTM)以获取参与者的动态特征。
除了每个参与者的特征外,参与者之间的交互在整体层面连接了所有参与者的动作,在GAR中起着关键作用。同时,参与者所处的时空背景也对群体活动的判断具有指示和引导作用。因此,需要提取参与者交互和时空交互特征。早期的研究[4]、[5]使用深度神经网络来模拟参与者之间的空间关系。此外,还使用了循环神经网络(RNN)[6]和长短期记忆(LSTM)[7]等时间网络来模拟参与者之间的时间关系。基于LSTM的两阶段方法[8]、[9]、[10]专注于捕捉参与者之间的时空交互,但它们未能捕捉参与者之间的交互。图卷积网络(GCN)[11]可以从图结构数据中学习特征。通过GCN构建的参与者关系图(ARG)[12]可以动态学习参与者之间的交互,但它未能捕捉参与者的时空背景信息。然而,要全面分析群体活动,参与者之间的交互和时空交互都是不可或缺的部分。为了获得更清晰、更完整的参与者多重交互信息,我们分别使用GCN和Transformer网络来模拟参与者和时空交互。
此外,上述方法忽略了GAR中参与者之间不平等的交互。许多研究[13]、[14]、[15]、[16]通过设计注意力机制来关注与群体活动相关的关键参与者。一些研究[15]将RNN与注意力机制结合使用,以突出复杂时空交互中的关键参与者信息。Actor-Transformer[16]利用Transformer捕捉群体活动中最相关的参与者交互。然而,仅使用注意力机制来突出关键参与者的信息无法灵活调整注意力范围,并且在模型包含多个深度网络时无法标准化整个模型的注意力范围。因此,我们应用SAGpool[17]方法在参与者交互网络中提取关键参与者的信息,并将其作为时空交互网络的一致性约束输入。这种方法能够自适应地调整关键参与者的数量,并统一整个模型的注意力范围,从而提高模型的适应性和可维护性。
基于以上观察,本文提出了一个新的GAR框架。核心思想是分别模拟参与者交互和时空交互,以捕获更详细和完整的交互信息。在此基础上,将骨骼数据输入运动轨迹模块以提取参与者的动态信息,这比基于光流的方法更稳定和有效。此外,关键参与者信息作为多个交互的一致性约束,使交互网络能够自适应地调整关键参与者的数量,提高网络的灵活性和准确性。为了更好地说明这一点,图1展示了我们的多交互网络的基本思想。例如,在排球比赛中,R-spike和R-winpoint在参与者之间表现出相似的交互模式,但在时空背景上存在显著差异。相比之下,R-set和L-pass更多依赖于参与者之间的交互来区分动作。因此,独立且全面地模拟参与者之间的交互和时空交互至关重要,这可以使提取的特征更加互补。
总体而言,我们的新颖贡献总结如下:(1)本文提出了一种新的GAR框架,即基于动态-静态特征的多级交互(DSMI)。它可以提取多模态数据输入的参与者的动态和静态特征,用于多个交互网络,从而捕获参与者和时空交互特征,提高网络的表征能力和稳定性。(2)动态特征可以表征与群体活动高度相关的隐藏特征,如方向和速度。引入了运动轨迹模块(MTM)从局部到全局提取参与者的动态特征,旨在为单一静态特征提供补充信息,提高模型识别的准确性和稳定性。(3)创建了多个交互之间的关键参与者一致性约束,以在多个交互中突出关键参与者,使模型更灵活地适应分类任务。(4)在两个公开的GAR数据集上进行了广泛的实验,证明了我们方法的有效性和优越性。DSMI在集体活动数据集上获得了SOTA准确率,并在排球数据集上取得了有竞争力的性能。
本文的其余部分组织如下:第2节讨论了三种常见的GAR方法。第3节详细描述了本文提出的方法。第4节报告了我们的模型在排球和CAD数据集上的实验结果,以及对各种模块性能的一系列消融实验。第5节进行了讨论。
相关工作
相关工作
群体活动识别是基于动作识别[18]、[19]、[20]的扩展和发展。GAR方法可以分为传统方法和深度学习方法。传统方法通常使用基于手工制作特征的概率图模型[21]、[22]、[23]和AND-OR语法方法[24]、[25]、[26],这些方法在灵活性和可扩展性方面存在许多限制。基于深度学习的GAR方法可以分为三类:
提出的方法
所提出的框架包括三个主要阶段,如图2所示。首先描述了原始输入数据的预处理和动态及静态特征的提取方法。然后介绍了多级交互网络。接下来解释了选择关键参与者的规则和一致性约束的形成。最后,将多个交互特征结合在一起,然后将融合的特征与动态特征一起用于GAR。
数据集
排球数据集(VD) [10]:该数据集包含4830个视频片段(3493个用于训练/1337个用于测试),来自55个排球视频。每个片段都标注了8个群体活动类别中的一个。每个片段的中间帧标注了9个个体动作标签及其边界框。图7展示了一些VD的示例。
集体活动数据集(CAD) [45]:该数据集包含44个视频片段(2/3用于训练,1/3用于测试)。它包括5种不同的集体活动
结论
在本文中,我们提出了一种名为DSMI的新GAR框架。该框架利用Inception-v3网络和MTM捕获静态和动态特征,随后将这些特征输入参与者交互网络和时空交互网络以提取多个交互。此外,我们的方法更加重视关键参与者的交互,并通过引入一致性约束来自适应地调整注意力范围
CRediT作者贡献声明
孙华军:撰写——原始草案、可视化、验证、方法论。唐超:撰写——审阅与编辑。胡硕生:撰写——审阅与编辑。王文健:撰写——审阅与编辑。任芳:撰写——审阅与编辑。童安阳:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(62076154, U21A20513)、省级研究生学术创新项目(2023xscx145, 2024xscx153)、省级研究生创新创业实践项目(2023cxcysj191, 2023cxcysj192, 2024cxcysj201)、合肥大学研究生创新研究项目(2024Ycxsj01, 2024Yxscx01, 2024Yxscx06, 2024Yxscx07)以及安徽省大学生创新的支持
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号