基于两步距离的跳伞编队识别

《Image and Vision Computing》:Two-step distance-based skydiving formation recognition

【字体: 时间:2026年06月18日 来源:Image and Vision Computing 4.2

编辑推荐:

  阿尔吉曼塔斯·斯库奥迪斯|奥尔加·库拉索娃 立陶宛维尔纽斯大学数学与信息学院数据科学与数字技术研究所,阿卡德米奥斯街4号,维尔纽斯,LT-08412,立陶宛 摘要 本研究提出并评估了一种用于分类跳伞队形的二步法。这是系列研究中的又一进展,该系列研究致力于探索利用深度

  阿尔吉曼塔斯·斯库奥迪斯|奥尔加·库拉索娃
立陶宛维尔纽斯大学数学与信息学院数据科学与数字技术研究所,阿卡德米奥斯街4号,维尔纽斯,LT-08412,立陶宛

摘要
本研究提出并评估了一种用于分类跳伞队形的二步法。这是系列研究中的又一进展,该系列研究致力于探索利用深度学习模型来实现四人组跳伞(一种要求跳伞者在自由落体过程中完成预定队形动作的竞技项目)的实时近似评分。我们评估了这种二步法的三种变体:基于关键点的、基于距离的以及基于手腕距离的。每种方法都包含一个在跳伞队形图像上经过微调的YOLO11n-Pose人体姿态检测器,随后再使用队形分类器。在分类阶段,我们同时评估了传统机器学习方法与全连接神经网络。训练和分类均在我们改进后的跳伞数据集上进行,该数据集包含1,753张标注过的图像,这些图像被分为训练集和验证集,此外还有60张随机选取的测试图像。研究结果表明,基于关键点的变体无法可靠地分类队形(在测试集上的加权F1值为0.64),而基于手腕距离的变体结合全连接神经网络则能获得0.95的加权F1值——这一数值与我们之前在同一测试集上评估的最佳单步深度学习分类器相当,且所需的模型参数要少得多。这些结果表明,从人体姿态关键点中提取的距离特征足以实现可靠的队形分类,而原始关键点坐标则不够。

引言
队形跳伞是跳伞运动中的众多项目之一。这些项目可大致分为两类:降落伞项目与自由落体项目。自由落体指的是从飞机上跳出到降落伞打开之间的时间。根据跳出高度的不同,自由落体时间可能长达一分钟甚至更久。在室内跳伞中,自由落体效果是通过垂直气流来模拟的。在自由落体类项目中,跳伞者需要在规定时间内完成特定任务。有些项目涉及艺术元素,而另一些则要求一名或多名跳伞者按照特定顺序完成动作。当有多名跳伞者参与时,就称为队形跳伞。队形跳伞有多种形式,其区别在于参与的跳伞者人数不同。

在本研究中,我们重点关注四人组队形跳伞比赛。四人组队形跳伞有两种形式:室外和室内。在室外比赛中,四名跳伞者从4000米的高度从飞机上跳下,在35秒的自由落体时间内必须完成随机选定的队形动作。整个过程由摄影师拍摄,跳伞结束后呈现给裁判。室内四人组队形跳伞的唯一区别在于没有飞机参与,跳伞者在风洞中完成相同的随机队形动作,由固定摄像机记录下来。

在这两种形式中,比赛总共进行最多10轮。每轮会随机选定五到六种队形,跳伞者需在自由落体过程中重复这些队形。在室外队形跳伞中,有五名裁判负责评估每支队伍的表现;而在室内比赛中,则至少需要三名裁判。裁判通过观看录制的跳跃视频,为正确完成预定队形动作的队伍打分。在评估时,裁判会使用电子评分系统记录他们的评价结果,只有多数裁判同意才会给某支队伍的队形表现打分。

评分是一个繁琐且耗时的过程,因此每轮结束后需要一段时间才能给出所有队伍的最终得分。这意味着在跳跃结束后,观众和选手都无法立即知道自己的成绩或大致分数,这降低了这项运动对观众的吸引力。在室内队形跳伞中,这种情况尤为明显,因为观众可以观看队伍的现场表演,但却无法知晓结果。有时人们会采用实时近似评分的方法,即由额外裁判现场观察表演并打分,之后所有裁判再一起审核这些分数。这种实时评分方式引出了一个问题:是否有可能利用深度学习模型来实现实时评分?

本研究是我们之前在[1]中所做研究的延续,那项研究探讨了在队形跳伞中进行实时评分的可能性。在本研究中,我们进一步探讨了是否可以通过一种两步式队形识别方法来分类跳伞队形,即首先识别跳伞图像中的人体关键点,然后再根据这些关键点对队形进行分类。我们评估了基于标准化关键点坐标以及关键点间的欧几里得距离的分类方法,同时还研究了是否可以通过选择与该应用领域最相关的关键点来提升分类效果。

本研究的主要贡献如下:
• 一种两步式跳伞队形分类方法,我们将队形识别问题拆分为人体关键点识别与关键点分类两个独立步骤。通过采用两步式识别方法,我们可以分别调整每个部分,并以多种方式解读和分类关键点。
• 基于关键点坐标、关键点间的欧几里得距离以及与四人组队形跳伞最相关的关键点间欧几里得距离,对这种两步式队形分类方法进行了评估。

本文结构如下:第1节简要介绍四人组队形跳伞及其主要应用领域。第2节阐述了我们选择当前研究架构的动机以及本文所评估的两步式架构。第3节更深入地介绍这种两步式架构、其中的关键点检测器以及我们评估过的队形分类器。第4节介绍了我们用于评估该架构的新颖的领域专用数据集。第5节介绍了用于比较不同架构的评估指标,并给出了分类结果及相关分析。第6节对全文进行总结,同时指出研究的局限性及未来工作方向。

相关研究
据我们所知,目前还没有任何深度学习模型被应用于跳伞领域,尤其是在队形跳伞方面,也尚未有相关研究开展。虽然基于图像的真实场景人体姿态识别是一个活跃的研究领域,涵盖面部表情识别[2]以及为提升分类性能而进行的图像增强[3]等方向,但现有研究并未解决队形跳伞所面临的特殊挑战。

我们提出的两步式架构
我们设计的架构包括一个人体关键点检测器(图1中的第一步),随后是基于检测到关键点的跳伞队形分类器(图1中的第二步)。YOLO11n-Pose用于检测人体关键点及边界框,检测到的关键点会被保存在文件中,以便后续用于队形分类器的实验。在第二步中,这些关键点可以直接使用,也可以转换为所有关键点间的欧几里得距离,或是转换为每个跳伞者相对于其他跳伞者的欧几里得距离。

跳伞队形数据集
为了评估这种两步式架构,我们使用了在[1]中开始开发的同一数据集,但对其进行了多项改进:该数据集还经过了人工复查,错误标注或清晰度不足的图像已被剔除。我们还发现了之前标注中的错误,有些样本即使对于训练有素的人员来说也难以识别。拥有干净且质量良好的数据集对于当前及未来的研究至关重要。此外,为了获得更准确的评估结果……

结果与评估
我们采用了与[1]中相同的评估策略,使用每类任务的精确度、召回率及F1值,以及加权F1值和宏观平均F1值,对基于关键点的两步式方法、基于距离的两步式方法以及基于手腕距离的两步式方法在实验数据集上的表现进行了评估。

加权F1值(F1weighted)的计算方法如下:首先,计算每个类别的F1class值,公式为:
F1class=2×Precisionclass×Recallclass/(Precisionclass+Recallclass)
其中Precisionclass为该类别的精确度,Recallclass为该类别的召回率。

结论
本研究提出了一个问题,即是否以及如何能够利用基于YOLO11n-Pose的人体姿态关键点检测技术的两步式方法来准确分类跳伞队形。本文提供的结果为未来在这一领域的研究提供了宝贵见解。为回答这一问题,我们基于YOLO11n-Pose开发了一个人体姿态检测模型,该模型能够从跳伞图像数据集中提取关键点。利用该模型,我们已经成功提取了……

CRediT作者贡献声明
阿尔吉曼塔斯·斯库奥迪斯:撰写——初稿撰写、研究工作。奥尔加·库拉索娃:撰写——审稿与编辑。

利益冲突声明
作者声明自己不存在任何可能影响本文所述工作的已知财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号