基于时空信息的幼儿园学生鲁棒跟踪与重新识别：一种结合YOLOv8n和视觉Transformer（ViT）的混合深度学习框架 Md. Rahatul Islam, Yui Kataoka, Keisuke Teramoto, Keiichi Horio

《Journal of Imaging》：Spatially Time-Based Robust Tracking and Re-Identification of Kindergarten Students: A Hybrid Deep Learning Framework Combining YOLOv8n and Vision Transformer (ViT) Md. Rahatul Islam, Yui Kataoka, Keisuke Teramoto and Keiichi Horio

【字体：大中小】 时间：2026年03月31日 来源：Journal of Imaging 3.3

编辑推荐：

　　摘要：在幼儿园环境中，检测、跟踪和重新识别穿着相似制服的儿童是计算机视觉领域一个非常复杂的挑战。传统的监控系统或简单的卷积神经网络（CNN）模型往往无法在人群和遮挡情况下区分儿童。为了解决这一挑战，本研究提出了一种结合YOLOv8和Vision Transformer（ViT）的

　　摘要：在幼儿园环境中，检测、跟踪和重新识别穿着相似制服的儿童是计算机视觉领域一个非常复杂的挑战。传统的监控系统或简单的卷积神经网络（CNN）模型往往无法在人群和遮挡情况下区分儿童。为了解决这一挑战，本研究提出了一种结合YOLOv8和Vision Transformer（ViT）的新型混合框架。通过使用YOLOv8进行检测，ViT进行全局特征提取，我们在一个包含31,521张图像的定制数据集上训练了该模型，实现了93.75%的总体准确率；在包含28,630张图像的公开基准数据集MOT20上，实现了96.02%的总体准确率。我们的系统在跟踪性能方面表现出色，达到了86.7%的MOTA分数和99.7%的IDF1分数。这一高IDF1分数证明了该模型在防止身份混淆方面非常有效。本研究的主要创新之处在于对儿童行为进行了分析，超出了监控范围的限制，我们测量了他们的行走距离和轨迹以及屏幕使用时间。最后，通过与MOT20公开基准数据集的跨数据集比较，我们证明了我们提出的定制模型在克服特定环境（如幼儿园）中的领域差异方面比当前最先进的方法更为有效。

1. 引言
监控儿童的安全、身体发育和社会行为是当今教育和儿童发展研究中的关键课题[1,2,3]，尤其是对于幼儿园学生而言。操场是一个自由、独立且动态的环境。他们的移动、玩耍、奔跑、改变方向、分组以及相互互动——所有这些都可以迅速、随机且难以预测。如果能够收集到关于儿童在这种动态环境中每时每刻的位置、行走距离以及玩耍或奔跑时间的信息，那么将在教育、安全管理、健康监测和行为分析领域开辟新的方向。户外活动的频率与肥胖、抑郁风险的降低以及社交技能的提高有积极关联[4]。儿童肥胖影响了美国17%的儿童，即1250万儿童，加剧了儿童之间的健康不平等。近年来，2型糖尿病、哮喘、维生素D缺乏和注意力缺陷/多动障碍的发病率有所上升[2]。然而，真正的问题是教师或监护人并不总能充分关注儿童。当代儿童可能是第一代面临比父母更短寿命风险的孩子[5]。这种观察上的差距可能导致干预和支持的机会被错过。通过整合能够追踪这些动作的技术，我们可以使教育工作者和看护者更有效地响应儿童的需求，确保一个更安全、更吸引人的玩耍和学习环境。偶尔，会有许多儿童同时出现；他们迅速转身、奔跑、互相躲藏，然后再次出现。用肉眼几乎不可能进行连续、精确且无误的观察。此外，手动分析耗时较长，数据不完整，且容易出错。

基于计算机视觉和深度学习的技术，特别是对象检测[6,7]、人员重新识别（Re-ID）[8,9,10]和跟踪，可以同时使用来构建一个自动化、准确且可靠的监控系统。这为儿童特定的安全、健康监测[11]和行为分析[12]提供了坚实的基础。特别是在像操场这样的不受控制环境中，检测、重新检测和动态行为分析是计算机视觉中的一个重要且复杂的研究领域。尽管在过去十年中对象检测、多对象跟踪（MOT）[13]和人员Re-ID取得了巨大进展，但一个适用于儿童的全面、准确且实时的系统尚未建立。

多对象跟踪（MOT）和人员重新识别（Re-ID）已成为非常重要的研究领域。传统的CCTV摄像头仅记录视频，但现代基于AI的系统可以从视频中提取实时信息（例如，谁在哪里、走了多远）。将这项技术应用于幼儿园环境不仅可以确保儿童的安全，还可以帮助分析他们的身体活动数据[16]。然而，在幼儿园或拥挤环境中准确重新识别儿童是一项非常具有挑战性的任务[17,18]。主要原因如下：
(1) 遮挡：儿童在玩耍时经常躲藏或纠缠在一起，因此摄像头无法看到他们的整个身体[19,20]。
(2) 外观相似：大多数幼儿园儿童穿着相似的制服，使得通过颜色或纹理来区分他们变得困难[21,22]。
(3) 行动不规律：儿童的动作比成人更加不规律和迅速，这可能会混淆常见的跟踪算法[23,24]。

过去，基于卷积神经网络（CNN）的模型，如Faster R-CNN、SSD和YOLO（You Only Look Once）系列被广泛用于对象检测和跟踪[25,26,27,28]。YOLOv5和YOLOv7因其快速和准确而受到欢迎[29]。然而，传统的CNN模型更关注局部特征或图像的小部分，因此无法理解图像的全局上下文或远处像素的长期依赖性[30,31]。对于穿着相同制服的儿童来说，仅依靠局部特征是不够的；还需要分析全局特征，如他们的行走姿势或整体身体结构。为了克服这一限制，最近的研究中增加了使用Vision Transformer（ViT）[32,33]。Transformer架构最初用于自然语言处理（NLP），现在通过计算机视觉中的“自注意力”机制在全局特征提取方面取得了前所未有的成功[34,35]。ViT模型可以更关注重要部分，而不是给予图像的每个部分相同的重视，这对于重新识别非常有效[36]。在这项研究中，我们提出了一种用于监控幼儿园儿童的混合框架，使用YOLOv8进行检测，使用Vision Transformer（ViT）进行重新识别。我们的系统即使在拥挤和遮挡的环境中也能准确跟踪儿童，并测量他们的轨迹和行走距离。在本文中，我们提出了一种结合YOLOv8和Vision Transformer（ViT）的强大混合框架，以应对幼儿园环境的挑战——特别是由于制服相似导致的视觉模糊和频繁遮挡问题。虽然传统的监控系统仅关注识别，但我们的方法能够进行详细的行为分析。

本研究的主要贡献如下：
- 提出了一种强大的重新识别框架，结合了YOLOv8进行实时检测和ViT进行特征提取的新颖集成。这种混合架构有效解决了“同类内变异”问题，从而能够精确地重新识别穿着相同制服的儿童，这是传统基于CNN的方法经常难以完成的任务。
- 此外，我们还提出了创新的行为和社会分析方法。除了简单的跟踪之外，我们还提出了“社交互动热图”来量化儿童的互动情况，以及“屏幕时间分析”来评估个人参与程度。这种方法为儿童社会学领域做出了实质性贡献，有助于早期发现社交孤立和欺凌行为。
- 自动化身体活动监测：该系统采用自动化算法来跟踪每个儿童的移动模式并计算总行走距离。这为评估儿童的体力活动水平和整体健康状况提供了定量测量。
- 开发了一个高性能的、特定于领域的数据集，包含31,521张幼儿园儿童的图像。综合评估表明，我们的方法实现了93.75%的总体准确率和99.7%的IDF1分数，从而证明了其在整个跟踪过程中保持身份识别的有效性。

本文的后续部分结构如下：第2节提供了相关文献的回顾，第3节详细介绍了所提出的方法，第4节展示了实验结果和行为分析，第5节总结了研究结果并对未来的研究工作提出了建议。

2. 相关工作
计算机视觉和深度学习技术的最新突破彻底改变了视频监控和人类行为分析。自动化解决方案对于保护儿童和监测他们的身体和社会发展越来越重要，特别是在幼儿园或教育机构等敏感环境中。本节分析了与此特定问题相关的相关文献。该回顾将分析以往研究如何应对跟踪和监控儿童的挑战。

多对象检测、跟踪和Re-ID（Re-ID）是计算机视觉中的重要研究领域，特别是在分析拥挤环境中的人类运动、行走距离估计和完整轨迹确定方面。最初使用基于深度亲和网络（Deep Affinity Network）的关联模型来解决这个问题，其中Deep Affinity Network[37]建立了跟踪中的深度特征匹配概念；然而，尽管该框架在实时尺度上有效，但无法充分克服复杂环境中的身份混淆问题。后来，Abdullah Mohamed等人[38]提出了一种图卷积结构来理解人类社交互动和轨迹依赖性，这对未来的轨迹估计有所帮助，但不是一个整合了检测和Re-ID的框架。Alahi等人[39]为轨迹预测奠定了基础，其中使用基于LSTM的社会池化来建模人类运动。该模型可以在拥挤条件下预测短期未来轨迹，但没有考虑身份持久性和Re-ID。Ahmed Abdelgawwad等人[40]提出了基于轨迹的活动分析的现代深度公式，解释了通过时间序列变化检测行为差异的框架。

多对象跟踪的一个重大进展是FairMOT[41]模型的发布，其中检测和Re-ID在统一网络中共同训练。这种集成框架减少了检测偏差并提高了身份一致性；因此，在复杂环境中，特别是对于快速移动的人，跟踪准确性得到了提高。然而，FairMOT的局限性在于在小对象和拥挤情况下Re-ID的性能较低。后来，ByteTrack[42]通过引入低置信度检测彻底改变了数据关联方法。它在减少身份混淆和保持轨迹稳定方面表现优异。然而，ByteTrack缺乏Re-ID模块，因此仅限于基于视觉相似性的区分。Observation-Centric SORT（2022）[43]重新定义了传统的SORT方法，并提出了一个以观察为中心的框架；然而，缺乏Re-ID功能在长期跟踪方面存在问题。MOTR[44]为基于Transformer的端到端跟踪指明了方向，其中使用了无需检测的跟踪流程。尽管它能够更稳定地生成长期轨迹，但计算成本相对较高。Hybrid-SORT Online MOT[45]通过考虑箱形漂移、形状信息和基于历史的路径等弱线索提高了跟踪准确性。Motion-Perception MOT[46]提高了身份一致性、行走距离估计和长期轨迹分析，但大多数模型并未专门设计用于分析户外环境或不规则/随机运动中的儿童。MD Rahatul Islam等人[47]建立了YOLOv5s模型来检测人类活动，如坐、站、跑和睡。该模型在包含2375张图像的定制数据集上实现了97%的准确率。数据标签使用Makesense.AI完成，模型使用Google Colab V100 GPU进行训练。该模型能够在实时视频中快速准确地检测行为。Tiya Bisla等人[48]开发了YOLOv8s模型来识别幼儿园儿童的坐、站、跑、躺和跳等活动。该模型在包含6489张图像的定制KAR数据集上进行了训练，实现了88.7%的准确率。在分析一个特定儿童的跳跃行为时，共检测到572次跳跃，平均每秒2.18次。这项分析有助于评估儿童的力量、身体能力和行为。研究表明，YOLOv8是监测儿童活动的有效实时解决方案。

幼儿园操场是一个“不确定、动态且杂乱的环境”，传统的为成人或一般人群设计的模型可能并不总是能够正确工作。儿童的身高、体型、服装和步态都与成人不同，因此检测或跟踪并非易事。我们研究的主要动力是开发一种能够随时间识别和跟踪同一儿童，并分析他们的运动轨迹、行走距离和持续时间的流程。这将成为一个突破性的、数据驱动的监控系统，适用于幼儿园和小学阶段。在我们开始研究时，首先进行的是检测工作，即从视频的每一帧中找到儿童的身影。传统的基于区域的检测方法，如R-CNN、Faster R-CNN等，虽然非常准确，但在实时推理过程中速度较慢且计算效率低下。另一方面，单阶段检测器，尤其是YOLO（You Only Look Once）系列，更适合快速处理自然视频。在最新的高级版本中，YOLOv8结合了高效率和准确性。一组研究人员表明，即使使用较小的数据集，YOLOv8也能在物体检测方面取得令人满意的结果[49]。这表明，无需大量数据集或详尽的标注，也可以使用YOLOv8来检测儿童或小物体。然而，这只是第一步。如果一个儿童被识别出来后又消失了，然后再出现，那么追踪或分析其行为就会变得更加困难，因为必须将其重新识别为“新”的儿童。这就是为什么我们需要Re-ID（重新识别）技术的原因，它能够再次找到同一个人。

传统的Re-ID方法是基于CNN的，包括特征提取、池化、基于部分的匹配等步骤。但基于CNN的方法的一个主要局限性在于它们只能捕捉局部感受野特征，而池化/下采样会导致许多细节或全局结构信息的丢失。如果两个儿童穿着相同的衣服或携带相同的包/鞋子，CNN嵌入可能会产生混淆，尤其是在儿童的情况下。吴启立等人[50]提出了一种改进的YOLOv10模型，用于在复杂环境中检测小物体和被遮挡的物体。通过使用Mosaic-9数据增强技术，可以提高检测效果；使用BiFPN代替PANet可以增强多尺度特征融合并提高检测精度；添加SE注意力模块可以提高模型对遮挡物体的检测能力和鲁棒性。实验结果表明，该模型能够在保持高精度的同时实现实时处理。

为了克服这一局限性，最近人们开始研究基于Transformer的Backbone的Re-ID方法。例如TransRe-ID：基于Transformer的物体重新识别[51]，它使用纯ViT Backbone提出基于补丁的标记化、全局自注意力以及特殊模块Jigsaw Patch Module (JPM)和Side-Information Embedding (SIE)，通过利用补丁级别的变化性和重新排列来创建稳健的特征表示，同时SIE减少了基于相机/视角的偏差。这种方法比基于CNN的方法在遮挡和变化情况下表现更好。Thulasi Bikku等人[52]提出了一个基于深度学习的现代且强大的计算机视觉框架，通过结合CNN和Feature Pyramid Network (CNN-FPN)实现了多尺度物体检测的显著改进。实验结果表明，该模型比YOLOv8和EfficientDet提供了更准确和稳定的性能。由于其实时处理能力，它在自动驾驶车辆、监控系统和医学图像分析中非常有用。总体而言，这项研究为智能计算机视觉领域做出了重要的、面向未来的贡献。

Alexandra ?tefania Ghi??等人[53]提出了一种有效的解决方案，用于自动驾驶机器人和车辆的实时人物检测和重新识别问题。将轨迹预测与Re-ID系统结合使用，有效解决了遮挡和突然移动的问题。结合社会影响和环境信息的方法使研究更加现实。实验结果显示，在社交机器人和自动驾驶车辆领域都有显著的改进。总体而言，这是一项在计算机视觉和自动驾驶系统领域具有强大应用价值的研究。

3. 材料与方法
本研究的主要目标是自动且准确地从视频监控录像中检测和重新识别特定个体。为此，我们提出了一个混合深度学习框架。在该框架中，使用YOLOv8n（You Only Look Once）算法进行人物检测，使用ViT进行特征提取或特征分析。本章详细讨论了所提出模型的工作原理、数据处理、架构设计、数学模型和评估指标。

我们的研究方法主要分为四个步骤：
- 数据收集与预处理
- 混合模型架构设计
- 真实值生成
- 性能评估与分析

3.1. 数据收集与预处理
准确高质量的数据对于任何深度学习模型的成功至关重要。在本研究中，我们使用了真实世界的视频录像。

3.1.1. 视频输入
选择了一段高分辨率的视频片段作为研究对象。该视频包含多个人物及其动作，为多目标跟踪和Re-ID提供了合适的挑战。模型的输入参数是根据视频的帧率（FPS）和分辨率（高度×宽度）确定的。
- 相机与视频描述：
- 实时视图分辨率：1280 × 720像素，1920 × 1080像素
- 录制分辨率：1920 × 1080像素
- 帧率：每秒29.50帧
- 数据速率：1352 Kbps
- 总比特率：1480 Kbps

3.1.2. 帧提取与归一化
视频数据不能直接作为模型输入。因此，我们使用OpenCV库将视频逐帧转换为静态图像。每帧的像素值范围是0到255。我们对这些值进行了归一化，以加快模型的收敛速度。ViT模型需要固定大小的输入图像，因此将每个检测到的人物的图像裁剪并调整为224 × 224像素的分辨率。同时，颜色通道从BGR（OpenCV默认值）转换为RGB格式，因为预训练的ViT模型是在RGB数据上训练的。

3.1.3. 数据集描述
在本研究中，使用了两个不同的数据集进行模型训练和评估：一个是我们的自定义幼儿园数据集，另一个是著名的公共基准数据集MOT20。为了避免过拟合并使模型能够泛化到新数据，这些数据集被科学地划分为训练集、验证集和测试集。这些数据集在表1中详细列出。
- 表1. 数据集详情
- 自定义数据集：从幼儿园环境中收集的数据集，包含31,521张带有边界框和轨迹注释的图像，属于“人物”类别。其中73%（23,010张图像）用于训练模型，18%（5,674张图像）用于验证以优化模型的学习率和超参数，最后9%（2,837张图像）用于测试，以验证模型在训练过程中从未见过的新数据上的最终性能。
- MOT20数据集（基准数据集）：用于评估跨数据集性能和领域差异，该数据集包含28,630个检测到的图像。这个数据集也按照相同的比例划分为训练集（20,791张图像）、验证集（5,226张图像）和测试集（2,613张图像）。这种平衡的数据集分配确保了训练过程的无偏性，且结果对于任何真实的幼儿园环境都是可靠的。

3.2. 混合模型架构
我们提出的系统由两个强大的神经网络架构组成，下面将详细讨论它们的工作原理。

3.2.1. 人物检测
我们使用YOLOv8来确定视频中每个人物的位置和边界框。YOLO是一种单阶段物体检测器，速度快且能够实时工作。YOLO比传统的R-CNN或Fast R-CNN快得多。YOLOv8是这一系列的改进版本，它采用无锚点检测方法，直接预测物体的中心和大小，从而减少了后处理时间。
- 程序：
- 以完整帧作为输入。
- 将帧划分为网格并创建特征图。
- 检查每个单元是否包含“人物”（人物类别ID：0）。
- 输出四个坐标：??1, ??1, ??2, ??2以及置信度分数（见图1）。

3.2.2. 特征提取模型ViT
在检测到人物后，我们使用ViT（ViT-Base Patch16）模型进行重新识别。使用Transformer而不是传统的CNN（卷积神经网络）的主要原因是Transformer能够理解全局上下文。ViT基于NLP（自然语言处理）的Transformer架构，它将图像视为类似单词的标记。224 × 224的图像被划分为16 × 16大小的小块，每个块被转换成扁平向量，并添加位置嵌入。这是必要的，因为Transformer本身不知道图像的每个部分的位置。Transformer编码器包含多头自注意力（MSA）机制，用于发现图像各部分之间的关系。我们移除了ViT模型末端的分类头（通常用于标注类别名称，如“人物”），并添加了nn.Identity()层。结果，模型输出一个768维的特征向量（嵌入向量），而不进行任何分类。这个向量是该人物的数字指纹或唯一标识。

3.3. Re-ID与匹配机制
在这一步中，使用检测到的数据和提取的特征进行跟踪或Re-ID。为此，我们使用了数学距离公式。

3.3.1. 余弦相似度
我们使用余弦相似度来衡量两个向量（当前帧中的人物和数据库中的人物）的相似程度。余弦相似度比欧几里得距离更有效，因为它更重视向量的方向而非大小。即使光照条件发生变化，向量的方向也几乎保持不变。
- 数学公式[54]：
$$\mathbf{S}_{\text{imi}}(\mathbf{A}, \mathbf{B}) = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \cdot \|\mathbf{B}\|} = \sum_{n=1}^{\mathbf{A}\mathbf{i}} \mathbf{A}_i \cdot \mathbf{B}_i$$
结果介于-1和1之间，数值越接近1，相似度越高。

3.3.2. 匹配算法
我们通过四个步骤完成匹配算法：
- 提取每帧中检测到的人物的嵌入。
- 提取内存中每个已知ID（已知ID）与这个嵌入的余弦相似度。
- 如果最高相似度分数超过某个阈值（例如0.6或0.7），则将该ID分配给当前人物。
- 如果分数低于阈值，则视为“未知”或“新人物”（但根据我们的当前代码逻辑，我们将其视为不匹配）。

3.3.3. 距离估计
我们利用每帧中识别的边界框的质心来检查儿童的轨迹。我们使用欧几里得距离公式来量化连续两帧（t和t-1）之间的距离。
- 数学表达式：
设孩子在时间t的位置为（??_t, ??_t），时间t-1的位置为（??_{t-1}, ??_{t-1}），则移动的距离（以像素为单位）为：
$$\mathbf{d}_{pxi} = \sqrt{(x_t - x_{t-1})^2 + (y_t - y_{t-1})^2$$
接下来，我们使用一个比例因子将这个像素距离转换为实际米：
$$\mathbf{d}_{m} = \frac{\mathbf{d}_{pxi}}{\text{像素到米的转换比率}}$$
这里，k是“像素到米的转换比率”。由于这些视频材料是用“未校准”的标准相机录制的，并且没有相机的“内参矩阵”，我们采用了“参考物体”技术来确定k的值。假设游乐场的地面是平的（平面假设），并且相机是静止的。地面真实值生成
任何监督学习或评估都需要准确的数据或地面真实值。由于我们没有为自定义视频准备任何预标记的数据，因此我们创建了一个半自动化工具。我们执行了五个步骤来完成这个半自动化过程。系统播放视频输入，并使用YOLO检测人类。用户有机会为每个检测结果输入一个ID。用户手动确认“这个人是ID-1”和“那个人是ID-2”。这些手动标记的信息存储在一个JSON文件中（例如，frame_ids.json），其中包含时间戳和坐标。我们将这个JSON文件视为“黄金标准”或100%准确的数据，用于与我们的自动化模型进行比较。

3.5. 性能评估指标
为了衡量所提出的混合模型的性能，我们使用了Scikit-learn库进行了定量分析。通过比较地面真实值（y_true）和模型预测（y_pred）来计算以下指标：准确性、精确度、召回率、F1分数、MOTA、IDF1和Rank-1。

3.6. 硬件和软件环境
这项研究使用了强大的计算资源。ViT和YOLOv8n模型都需要图形处理单元（GPU）。

软件规格：
编程语言：Python 3.12
深度学习框架：PyTorch = 2.5.0 + cu124（用于ViT），Ultralytics = 8.4.18（用于YOLOv8n）
计算机视觉库：OpenCV = 4.13.0.92
数据分析：NumPy = 2.1.3，Pandas = 2.3.2，Scipy = 1.16.1
可视化：Matplotlib = 3.10.5，Seaborn = 0.13.x

硬件配置：
6. GPU：NVIDIA RTX A4000
7. GPU内存：专用16 GB + 共享15.8 GB
8. 处理器：Intel(R) Core (TM) i9-10900X CPU @ 3.70 GHz，3696 MHz，10个核心，20个逻辑处理器
9. 处理时间：30毫秒

本章全面概述了一个集成YOLOv8和ViT的混合系统。通过利用YOLO的快速检测能力和ViT的深度特征提取能力，构建了一个强大的重新识别（Re-ID）流程。此外，手动地面真实值生成和基于余弦相似度的评估方法确保了我们的研究结果在科学上是可接受和可靠的。基于这种方法的结果和分析将在下一章中呈现。

4. 结果与讨论
本项目的主要目标是创建一个集成系统，用于自动识别、跟踪和重新识别游乐场上的幼儿园学生。我们通过将“YOLOv8”人员检测模型与“ViT”Re-ID模型相结合的混合架构实现了这一目标。本章的目的是了解我们的方法在解决孩子们自由移动、经常被遮挡以及穿着相同衣服等问题上的效果。为此，我们使用视频作为输入。在输出视频中，每个孩子都被用一个特定的边界框标识，并且Re-ID模型为每个个体分配了一个固定的ID，该ID在整个视频中保持不变。该模型显著减少了ID切换，即使在孩子们行走、跑步、聚集或突然改变方向等不规则运动的情况下，也表现出高跟踪稳定性。视频中为每个ID绘制了一个独特的颜色轨迹，清楚地反映了每个孩子在场地上的方向、分布和位置变化。此外，每个孩子的总行走距离、活动时间和跟踪准确性通过屏幕上显示的叠加信息实时更新。这表明该系统能够有效测量超出基于场景识别的定量行为指标。

在本章中，我们将主要从两个方面分析实验结果：
- 定量分析：对模型的准确性、精确度、召回率和混淆矩阵进行数学解释。
- 定性和行为分析：对学生的轨迹、行走距离和屏幕时间等视觉数据进行解读。

4.1. 模型的定量性能评估
我们使用标准评估指标来验证模型的可靠性。结果显示，我们的系统在复杂环境中表现非常令人满意。图3展示了系统的输出，包括跟踪、重新识别、距离计算和轨迹。

4.1.1. 跨数据集性能评估：自定义数据集 vs. MOT20数据集
为了展示我们提出的YOLOv8 + ViT框架的泛化能力以及幼儿园数据集的必要性，我们进行了跨数据集评估。在这里，我们将我们的模型与著名的公共基准数据集MOT20的结果进行了比较。新的条形图提供了模型在两个不同数据集上的性能对比。分析结果（见图4）可以看出一个非常显著的权衡：

图4. YOLOv8-ViT模型在自定义数据集和MOT20数据集上的性能对比。每个条形上方的误差条表示从5次独立测试（视频数量=5）获得的95%置信区间（95% CI）。
- 自定义数据集性能：在我们的自定义数据集上，模型达到了93.75%的准确性、86.70%的精确度、85.98%的召回率和86.21%的F1分数。精确度（86.7%）和召回率（85.98%）都非常好。这意味着模型能够准确识别儿童，但也遗漏了一些儿童。这一高值是因为自定义数据集的图像质量和对象清晰度很好。
- MOT20数据集性能：另一方面，在MOT20数据集上，尽管模型的准确性提高到了96.02%，但其精确度（78.57%）、召回率（78.34%）和F1分数（78.45%）显著下降。这是一个非常具有挑战性的基准。精确度和召回率略低的主要原因是该数据集的人群密度高且遮挡频繁。在拥挤的地方，孩子们体型较小，经常被成人遮挡，使得检测变得困难。

为了确保结果的数学准确性，我们基于5次独立试验的数据计算了95%置信区间（CI）。图表中可见的误差条非常窄，这证明我们的模型不依赖于随机数据或权重初始化，而是非常稳定。尽管在MOT20数据集上的准确性略高，但我们的自定义数据集上的精确度（86.7%）和召回率（85.98%）远优于基准，证明了模型在现实环境中的有效性。

MOT20数据集高准确性的主要原因在于数据集的领域差异或结构差异。MOT20数据集主要由成人人群和城市街道数据组成。当这种配置应用于幼儿园环境时，模型经常难以区分体型较小且穿着与“人”相同制服的儿童（假阴性增加）。因此，检测召回率显著下降到78.34%。另一方面，MOT20的整体准确性（96.02%）较高，这得益于其强大的跟踪一致性。由于ViT的全局特征，模型在跟踪或重新识别它能够检测到的儿童数量方面几乎表现完美（称为真阴性或背景隔离）。

这种跨数据集分析强烈表明，仅使用标准公共数据集（例如MOT20）对于像幼儿园这样的特定和具有挑战性的环境是不够的。科学上非常合理且必要的是，在我们的自定义数据集上训练和微调模型，以成功跟踪每个孩子，同时保持高召回率和F1分数。

4.1.2. 不同数据集之间的跟踪与重新识别深度分析
为了理解我们的自定义数据集与公共MOT20基准之间的细微性能差异，我们将总体结果分为两个主要部分：（1）跟踪性能（MOTA、IDF1）和（2）重新识别性能（Rank-1、mAP），如图5所示。图5显示了跟踪与重新识别的性能总结。这种比较分析清楚地突出了所提模型的行为特征。

性能分析：如图所示，模型在MOT20数据集上的MOTA得分为91.2%，比自定义数据集上的86.7%略有提高。这表明模型能够在典型环境中轻松避免误报（例如交通拥堵）。然而，最显著的结果体现在IDF1得分上。模型在自定义数据集上的IDF1得分为99.7%，超过了MOT20数据集上的97.7%。IDF1本质上量化了身份持续的时间。在幼儿园环境中，由于儿童的制服和快速的身体活动，他们容易发生身份切换。模型在我们的自定义数据集中表现出色，几乎完美地保持了身份（99.7%）。

重新识别性能分析：在ReID性能上观察到了相反的趋势。模型在MOT20数据集上的Rank-1（93.5%）和mAP（95.0%）得分显著高于自定义数据集上的Rank-1（83.1%）和mAP（85.7%）得分。MOT20数据集中的人们的服装、颜色和体型存在较大的差异。因此，Vision Transformer（ViT）能够轻松提取和区分这些不同特征，这是高Rank-1和mAP得分的主要原因。另一方面，在幼儿园数据集中，所有孩子都穿着相同颜色的制服和帽子，因此它们之间的视觉模糊度很高。由于这种极端相似性，自定义数据集中的ReID指标略有下降（83.1% Rank-1），这在这类研究中是非常正常和现实的。这种分析清楚地表明，高ReID指标（例如MOT20的95.0% mAP）并不能自动保证在复杂环境（例如幼儿园）中的完美跟踪。相反，让模型适应自定义数据集以一致地跟踪穿着相同制服的儿童非常重要，这一点通过我们实现的99.7%改进的IDF1得分得到了科学证明。

4.2. 定性和行为分析
计算机视觉技术的价值不仅在于跟踪，还在于从跟踪数据中提取有意义的信息（洞察）。我们的系统成功分析了学生的玩耍风格、动作和社会行为。

4.2.1. 空间轨迹映射的定性评估
为了观察系统的跟踪一致性和领域差异的视觉影响，我们对来自自定义数据集和MOT20数据集的轨迹进行了定性评估。图6和图7展示了使用帧的像素坐标沿X轴和Y轴的每个孩子的运动空间分布。图表的比较分析展示了以下重要点：

图6. 自定义数据集的轨迹总结。
图7. MOT20数据集的轨迹总结。

自定义模型中的全面跟踪：自定义数据集的轨迹图清楚地显示了12个孩子（ID 1至ID 12）的独立且不间断的轨迹。该图表明，我们提出的YOLOv8 + ViT模型不仅检测到了孩子们，还成功地在整个游乐场中跟踪了他们，没有任何ID切换。这里，每条彩色线条都非常粗且连续，完美反映了孩子的实际身体运动。

MOT20中的领域差异的视觉证据：
另一方面，使用MOT20数据集生成的轨迹图显示出严重的局限性。最明显的是，只有9个孩子（ID 1至ID 9）可见。这意味着模型未能将剩余的3个孩子检测为人类（与我们之前的屏幕时间分析一致）。此外，MOT20中的轨迹缺乏连续性，线条非常碎片化，表明跟踪丢失或ID丢失频繁发生。

4.2.2. 早期儿童发展的行为洞察
这些轨迹图不仅限于算法评估；它们在分析儿童行为方面也起着重要作用。通过分析自定义轨迹图，教师可以轻松了解教室的哪些区域（游戏区）有更多的孩子，以及哪些孩子在整个场地内跑动（即延伸的线条）。另一方面，折叠或短的线条表示相对不活跃或安静坐着的孩子。这种定性轨迹分析直观地证实了我们之前的定量结论。它证明了使用特定领域或定制的模型（而不是通用的公共模型MOT20）来观察特定幼儿园环境中的儿童行为是必要的。**总行走距离与跟踪稳定性的比较分析**

为了评估跟踪一致性在监测儿童体力活动模型中的重要性，我们将自定义数据集中的“总行走距离”测量结果与MOT20数据集中的结果进行了比较（见图8）。图8显示了自定义数据集与MOT20数据集的总行走距离对比情况（N/D表示在MOT20数据集中特定ID未被检测到）。从对比分析中可以发现一个非常重要的技术细节，这与跟踪算法的ID分配和轨迹分割直接相关：

- **动态ID分配与分布差距**：图中显示的ID（1至12）是在两次不同的模型运行中动态分配的。因此，自定义数据集中的“ID 1”可能并不代表MOT20数据集中的“ID 1”。在MOT20数据集中，由于域间隙，模型在跟踪过程中反复出现混淆并丢失ID（ID切换），导致儿童的整个行走路径被分割成多个不同的ID。这就是为什么MOT20的数据（红色条形）显得杂乱无序，无法作为真实体力活动的准确测量依据。

- **自定义模型的轨迹一致性**：相比之下，我们提出的自定义模型（蓝色条形）保持了出色的跟踪稳定性。由于该模型的IDF1得分高达99.7%，它能够完整地映射每个儿童从开始到结束的轨迹，而不会丢失任何ID。例如，自定义模型中的ID 5记录的最大行走距离为14.99米，ID 6为12.11米，这都是单次完整跟踪会话的结果。

- **漏检的后果**：与之前的屏幕时间评估结果一致，图表进一步表明MOT20模型未能为ID 10、11和12生成任何数据（标记为N/D）。这一结果源于模型完全无法在给定帧内检测和跟踪这些儿童。相反，自定义模型成功地为所有十二名儿童提供了距离数据（例如，ID 10为6.0米，ID 11为3.91米）。

上述分析强调了在幼儿园早期发展（ECD）环境中量化敏感数据（包括物理距离）时保持ID一致性的重要性。以MOT20为代表的基准模型由于其轨迹分割和ID切换问题，不适合用于此类应用；而我们定制的混合框架则提供了一个可靠的替代方案。

**4.2.3 屏幕时间与检测可靠性的比较分析**

为了验证模型的跟踪一致性和行为分析的可靠性，我们对自定义数据集和MOT20数据集的屏幕时间或存在持续时间与“真实值”进行了彻底的比较分析。屏幕时间是一个精确的指标，用于衡量特定儿童在成功被跟踪期间在画面中的可见时间。

从图表对比分析中可以得出两个重要观察结果：
- 图9清楚地表明，基于我们自定义数据集训练的模型（蓝色条形）计算出的屏幕时间与实际值（绿色条形）非常接近。例如，对于ID 1，模型预测的屏幕时间为6.41秒；对于ID 2（7.25秒）、ID 3（10.0秒）和ID 12（3.53秒），模型的预测与真实值完全吻合。这证明了所提出的YOLOv8 + ViT框架即使在遮挡情况下也能准确跟踪儿童而不会丢失ID。

- 另一方面，使用MOT20数据集（红色条形）则显示了严重的“域间隙”效应。MOT20模型完全未能将ID 10、11和12识别为视频中的人类，这些ID在图中被标记为“未检测到”。这一观察结果进一步证实了模型仅能检测到最初的12个ID中的9个。

- 即使对于模型能够检测到的9名儿童，其跟踪一致性也非常差。例如，尽管ID 5和ID 8的实际屏幕时间为10.0秒（100%的时间内都可见），但MOT20模型分别仅能跟踪到6.85秒和6.51秒。

MOT20模型出现这种“时间分割”或跟踪不连续的主要原因是，当儿童相互遮挡或移动迅速时，模型会丢失他们的ID（跟踪丢失）。当儿童再次出现时，模型会给他们分配一个新的ID或需要时间来重新分配之前的ID，从而导致宝贵的屏幕时间被浪费。在儿童行为研究中使用这种不准确或分割的数据（例如，谁玩了多久或谁在与人社交）可能会得出完全错误的结果。这一图形分析明确证明了使用公共基准（如MOT20）来准确观察幼儿园环境中的儿童行为是不科学的。因此，我们提出的混合框架和自定义数据集是最可靠和及时的解决方案。

**4.2.4 所提方法与以往研究的比较分析**

为了展示我们提出的混合框架（YOLOv8 + ViT）在结构和定量上的自给自足性，我们在表2中提供了与以往研究的最终全面比较分析。该表考虑了系统能力和性能指标。分析表明，我们的研究具有三个主要优势：

- **全面且集成的架构**：查看表2中的“检测”、“跟踪”、“重新识别”和“轨迹分析”列可以看出，大多数以往的研究都是片面的或不完整的。例如，像ByteTrack [46]、OC-SORT [47] 和 Hybrid-SORT [48] 这些流行的跟踪模型虽然具有强大的检测和跟踪能力，但没有专门的“重新识别”模块。而TransRe-ID [55] 在重新识别方面表现良好，但缺乏检测或跟踪能力。我们提出的模型是唯一一个将这四个模块成功整合到单一流程中的框架，这对于实际监控至关重要。

- **无与伦比的ID保持能力（IDF-1）**：多目标跟踪的最大挑战是在跟踪过程中防止ID切换。根据表2，以往的最先进模型中，FairMOT [45] 的IDF-1最高为72.8%，ByteTrack [46] 为77.3%。即使是Hybrid-SORT [48] 也未能达到超过78.7%的IDF-1。相比之下，我们的模型在MOT20基准测试中的IDF-1得分为97.7%，在自定义数据集中的得分达到了99.7%。这清楚地表明，我们的方法在通过ViT进行全局特征提取来保持ID方面远超任何基于SORT或Transformer的跟踪器。

- **跨数据集的鲁棒性**：以往的大多数研究仅在特定的领域数据集（如仅MOT17或仅DanceTrack）上进行评估。我们的模型在通用人群数据集（MOT20）和高度视觉模糊的自定义幼儿园数据集上都进行了测试。在MOT20数据集上，我们的模型获得了91.2%的MOTA和93.5%的排名第一准确率，证明其在幼儿园以及任何复杂和拥挤的环境中同样有效。

总体而言，表2充分体现了本研究的主要“创新性”。这表明近年来文献中一直缺乏这种完美的、高性能的检测、跟踪、重新识别和轨迹分析的结合。

**5. 结论与未来工作**

本研究成功构建了一个强大的混合框架，结合了YOLOv8和Vision Transformer（ViT），以提高幼儿园环境中儿童的安全性，并分析他们的身体和社会行为。该模型有效减少了由于儿童穿着相似制服并在幼儿园内快速移动而产生的“视觉模糊”问题。实验结果显示，该系统在自定义数据集上的准确率达到94.08%。特别是在跟踪方面，模型的MOTA得分为86.7%，IDF1得分为99.7%，证明它能够在人群中准确识别儿童的身份。此外，我们通过与MOT20基准的跨数据集分析展示了域间隙的影响，并表明虽然通用人群（MOT20）模型在幼儿园环境中会失去召回率或检测能力，但我们的定制模型成功克服了这一限制。

除了技术突破外，这项研究还为儿童社会学分析增添了新的维度。该系统可以自动测量每个儿童的总行走距离、屏幕时间和互动热图，帮助教师发现欺凌行为或社交孤立现象。未来，我们计划使用轻量级Transformer架构（如Swin Transformer或MobileViT）将模型部署到实时边缘设备上，以进一步改进这项工作。此外，我们的下一个研究目标是通过多摄像头设置确保在学校范围内不间断地跟踪儿童。

热点排行