利用深度时空模型在视频流中早期检测具有攻击性的人类行为 Aida Issembayeva, Anargul Shaushenova, Ardak Nurpeisova, Aidar Ispussinov, Buldyryk Suleimenova, Anargul Bekenova, Aliya Satybaldieva, Aigul Zholmukhanova, Galiya Mauina

《Computers》：Early Detection of Aggressive Human Behavior in Video Streams Using Deep Spatiotemporal Models Aida Issembayeva, Anargul Shaushenova, Ardak Nurpeisova, Aidar Ispussinov, Buldyryk Suleimenova, Anargul Bekenova, Aliya Satybaldieva, Aigul Zholmukhanova and Galiya Mauina

【字体：大中小】 时间：2026年04月28日 来源：Computers 4.2

编辑推荐：

　　摘要：在本文中，我们提出了一种时空方法，用于对现实世界中的暴力与非暴力行为进行二分类。实验流程包括视频预处理、分层数据分割、生成时间结构化的片段以及对基线模型（包括卷积神经网络）的比较评估。我们还开发了一种残差自适应运动时空二值热网络模型，该模型结合了帧的颜色特征、残差运动描述、

　　摘要：在本文中，我们提出了一种时空方法，用于对现实世界中的暴力与非暴力行为进行二分类。实验流程包括视频预处理、分层数据分割、生成时间结构化的片段以及对基线模型（包括卷积神经网络）的比较评估。我们还开发了一种残差自适应运动时空二值热网络模型，该模型结合了帧的颜色特征、残差运动描述、时间特征融合、早期风险评估机制和可解释的定位图。实验是在包含2000个视频片段的平衡数据集上进行的。所提出的模型展示了最佳的早期预警性能：监督率为0.6，F1分数为0.9527，平衡准确率为0.9533。在完全监督的情况下，F1分数为0.9342，接收者操作特征曲线下的面积（AUC）为0.9871。这项工作的实际意义在于，所提出的方法可以用作决策支持工具，用于初步识别潜在危险的视频片段，并进行后续的手动验证，而无需假设在高风险场景中的自主使用。

1. 引言
从视频流中自动分析人类行为是现代计算机视觉中最受关注的任务之一，因为它涉及智能视频监控、公共安全系统、交通基础设施监控和数字快速响应平台[1,2]。近年来，由于从离线分析短片段转向连续监控的实际场景，人们对这一领域的兴趣显著增加，这些场景不仅需要识别已经发生的事件，还需要早期检测潜在危险行为的迹象[3,4]。在这方面，暴力识别、异常分析和早期事件预测的任务越来越多地被视为理解实时视频流的更广泛问题的一部分，其中准确性、计算效率和对抗场景噪声的鲁棒性至关重要[5,6]。尽管取得了进展，但早期检测攻击性行为的问题在实践中仍然具有挑战性。在现实世界的视频监控场景中，暴力事件通常具有较低的对象空间分辨率、部分遮挡、背景运动、可变的相机角度以及正常交互与危险交互之间的模糊边界[7,8]。此外，许多现代模型在片段完整可用时表现良好，但在必须根据视频序列的前20-60%做出决策时稳定性显著下降[9,10]。有限的可解释性提出了额外的挑战，因为对于应用的安全系统来说，了解帧的哪些区域以及事件的哪个阶段影响了模型的最终决策非常重要[11,12]。最近的文献展示了几种解决这一问题的可行方法。其中之一是开发计算效率高的实时暴力识别架构，包括轻量级模型和针对预训练视频基线的适应方案[13,14]。另一种方法专注于弱监督、开放词汇表的视频异常检测，旨在处理不完整的标注、罕见事件和更广泛的潜在危险场景[15,16]。此外，可解释的视频分析正在积极发展，伴随着检测生成视觉或文本解释，增加了对模型和结果的实用性的信心[17,18]。关于早期行为预测的研究也值得特别提及，这证实了即使在事件发展的早期阶段，部分观察也具有信息性[19,20]。然而，现有的方法通常要么关注视频片段的最终分类，要么关注一般异常检测，要么将决策解释作为单独的后处理步骤[21,22]。对于应用的安全系统来说，这是不够的，因为现实世界的分析框架需要一个能够同时考虑场景的视觉内容、帧间运动动态、风险的时间演变以及最显著区域的空间定位的模型[23,24]。这种方法论空白定义了本研究的科学和实际动机。本文提出了一种混合时空方法RAMT-BinaryHeatNet，它结合了RGB表示、残差运动编码、自适应特征融合、时间建模、预期风险估计和运动引导的定位。与主要关注单个分类输出的典型基线模型不同，所提出的架构生成了一个多组分解决方案，结合了二值行为分类、早期风险评估以及与攻击性交互相关区域的可解释空间定位。该研究的一个独特特点是，不仅在全观察模式下分析了模型的性能，还在具有不同观察比例的早期预警场景下进行了分析，从而能够评估其用于主动响应的适用性[25,26]。本工作的目标是开发和评估一种可解释的混合时空模型，用于实时监控视频流中攻击性人类行为的早期检测。为了实现这一目标，开发了一个可复制的视频数据准备流程，对基线架构和所提出的模型进行了比较训练，在部分和完整片段观察下检验了识别性能，并分析了模型的鲁棒性和可解释性。这项工作的科学和应用意义在于，所提出的方法不仅旨在提高二分类的最终质量，还旨在开发一个可解释的研究框架，用于决策支持，其中早期预警、评估的透明度以及对抗复杂场景的鲁棒性被认为是视频分析系统后续开发的重要属性。在本研究中，这些属性在受控制的实验设置中进行了评估，并不视为模型立即投入运营的充分确认[27,28,29]。

2. 材料与方法
方法论框架定义了开发实验框架、准备视频数据、构建输入时空表示和组织模型比较分析的原则。主要关注点在于开发一种可复制的早期检测视频流中攻击性行为的方法，将观察到的场景视为一系列相互关联的视觉和动态状态。方法论框架包括数据集选择和验证；视频片段的确定性预处理；训练集、验证集和测试集的构建；可比训练条件的配置；以及基线和所提出架构的描述。这种方法确保了实验设置的正确性、结果的可比性以及随后模型有效性分析的科学有效性。

2.1. 数据集描述
本研究的主要实验数据来源是公开可用的Real Life Violence and Non-Violence Dataset（https://www.kaggle.com/datasets/karandeep98/real-life-violence-and-nonviolence-data）（2026年2月25日访问），该数据集托管在Kaggle平台上，最初由M. Soliman等人提出。选择这个数据集有几个原因。首先，它是专门为识别真实的人际攻击场景而设计的，而不是 staged 或实验室环境中的行为。其次，视频涵盖了各种观看条件，包括不同的背景、相机角度、物体距离、运动动态和视觉噪声水平。第三，该数据集在专注于从视频数据中自动识别暴力的研究和工程研究中被广泛使用，使其成为可复制的比较分析的合适基线。根据官方来源描述，初始数据集包括1000个被分类为“暴力”的视频和1000个被分类为“非暴力”的视频，主要来自开源的YouTube视频。“暴力”类别包括在各种环境和拍摄条件下记录的真实街头斗殴和其他冲突情况。相比之下，“非暴力”类别反映了没有身体攻击迹象的日常中性行为。因此，该数据集形成了一个平衡的二分类问题，这在方法论上为构建潜在危险行为的早期检测系统提供了依据。应当注意的是，公开可用的Kaggle数据集还提供了从视频帧中提取的图像数据集的信息。然而，在本研究中，使用了视频格式的工作数据集，因为目标是模拟行为的时空动态，而不是静态分类单个帧。这个选择至关重要，因为攻击性行为不仅由单个图像的视觉内容决定，还由动作序列、姿势变化、人与人之间的互动强度以及事件随时间的发展决定。因此，为了正确构建视频分析问题，使用视频片段比仅使用提取的帧更为合理。在实验设计中，数据被组织成两个目标类别：非暴力（NonViolence）和暴力（Violence）。在训练之前，进行了强制性数据集验证步骤，包括检查两个类别的存在、文件完整性、视频序列读取的正确性以及每个视频的服务元数据的提取。对于每个视频，确定了帧率、总帧数、持续时间、空间分辨率和文件大小。损坏、为空或打开错误的视频被排除在进一步处理之外。这种方法使我们能够产生技术上干净的样本，并最小化由于有缺陷的源文件而导致的结果失真的风险。此外，还对数据集结构进行了初步分析，包括评估类别平衡、片段持续时间分布和分辨率变化。这一步骤不仅对于描述样本是必要的，还确保训练和测试在反映现实世界监控场景异质性的数据上进行。持续时间、物体规模和帧视觉质量的差异通过使评估条件更接近智能视频监控系统的实际场景，增强了实验的实际价值。为了构建一个可复制的实验协议，样本被划分为训练集、验证集和测试集，比例分别为70%/15%/15%。分区是按类别分层的，确保所有子集中暴力和非暴力之间的平衡。还监控了分区的完整性，以防止数据在子集之间的泄露。这种协议对于行为识别任务尤为重要，因为即使是训练和测试视频场景之间的部分重叠也可能导致对模型性能的高估。所使用的控制机制确保了实验评估的正确性。为了标准化输入数据并提高计算鲁棒性，在准备过程中所有视频片段都被转换成固定长度的片段。研究使用了8帧的短序列，重采样为96 × 96像素。这种选择是由于需要在保留必要动态信息和计算效率之间取得合理的折中。对于实时视频分析来说，这种格式是合理的，因为它不仅允许研究识别准确性，还允许研究模型在接近实时场景中的潜在适用性。重要的是要强调，所选的数据集与本研究的逻辑是一致的，因为它解决的不是多类动作识别的抽象问题，而是识别攻击性和非攻击性行为的实际二分类问题。因此，使用的数据集形成了一个平衡的二分类实验设置，便于在架构探索阶段进行受控的模型比较。然而，应该强调，这种样本结构并不代表操作环境中攻击性事件的真实频率，在那里阳性类别通常要少得多。因此，获得的指标应被视为模型在平衡协议内的区分能力特征，而不是对其在罕见事件下的操作准确性的直接评估。

2.2. 确定性视频数据准备流程和实验设计
本研究的方法论框架定义了视频序列处理的逻辑、分析框架的结构以及目标任务的形式化原则。重点在于开发一种整体方法来分析视频数据，将观察到的人类行为视为随时间展开的动态过程，不仅取决于单个视觉特征，还取决于帧序列中变化的性质。因此，工作的方法论组成部分侧重于整合准备输入数据、时空场景表示、识别信息丰富的运动模式以及随后分析检测到的行为状态的程序。正确的数据分析在本工作中尤为重要，因为视频流是一个复杂的多维信息来源，包括空间、时间和上下文组件。因此，本节不仅考虑了生成输入表示的技术方面，还考虑了确保研究的可重复性、可比性和适用性的一般原则。方法论的重点在于确保对具有不同动态、异质视觉结构和目标行为表现变化水平的视频场景进行客观评估。这种方法为构建分析模型提供了科学依据，在该模型中，视频数据被解释为一系列相互关联的事件，反映了观察到的行为场景随时间的发展。在研究的方法论组成部分中，对视频数据进行严格确定性的处理尤为重要，因为它确保了后续时空特征分析的正确性，并消除了不可控因素对输入样本结构的影响。所提出的方案概述了模型训练前生成实验数据的完整流程。它包括两个相互关联的阶段：数据集管理和分割协议，以及确定性预处理和张量表示的组装。实际上，这个方案关注的是数据准备的过程逻辑，这对于确保研究的可重复性和方法论透明度至关重要。

图1展示了RAMT-BinaryHeatNet数据准备流程，该流程反映了生成初始视频语料库、其监督分割、确定性预处理以及随后用于模型训练的张量组装的逻辑。第一阶段称为“数据集管理和分割协议”，涉及创建一个包含两个目标类别（非暴力与暴力）的二进制视频语料库。如图所示，总样本量为2000个标记的视频片段，对应于一种攻击性与非攻击性行为的二分类问题。接下来执行审计和元数据提取阶段，在此期间验证文件完整性，并分析帧率、时长、帧数和空间分辨率。此外，该方案还包括一个运动代理用于难度评分，即作为场景复杂性的辅助指标的运动强度的代理评估。因此，图1表明即使在初始阶段，不仅考虑了视频文件的正式特征，还考虑了视频内容动态的差异，这使得后续样本分割更加合理且方法上更为稳健。特别需要注意的是数据分割阶段的挑战识别，其中识别出10%的复杂度较高的子集，其余数据按照70%/10%/10%的比例分配到训练集、验证集和测试集中。一个关键要求是源身份保持分离，即属于同一来源的衍生片段不能跨越不同子集的边界。这一限制旨在防止数据泄露，因为它避免了同一视频的统计或视觉相似片段同时出现在训练集和验证集中的情况。

在第二阶段，称为“确定性预处理和张量组装”，该方案描述了一系列转换过程，将原始视频材料转换为标准化的张量表示。首先，通过均匀采样12个RGB帧来构建时间片段，每个帧重新采样为112 × 112像素。对于训练子集，只允许进行监督增强操作，如翻转、滚动和光度缩放，而验证和测试数据则使用固定协议进行处理。接下来进行归一化和运动编码：RGB数据缩放到[0, 1]范围内，然后根据ImageNet的平均/标准差方案进行归一化，并将帧间差异形成一个单独的运动张量。最后一步生成适用于CUDA的模型输入，包括一个T × 3 × H × W的RGB张量和一个(T ? 1) × 3 × H × W的运动张量，之后将小批量数据输入到训练计算电路中。

下面的解释性块强调了图表的方法论重要性。“分割完整性”块建立了一条规则，确保来自同一来源的所有衍生片段位于单个分区中。“训练时增强”块规定仅在训练期间允许随机变换。“确定性评估策略”块强调验证集、测试集和挑战子集使用固定的预处理条件，包括统一调整大小、均匀采样、ImageNet归一化和残差运动张量生成。因此，该图表表明研究使用了严格、可重复且方法上受控的数据准备流程，专注于最小化数据泄露，标准化输入表示，并确保后续实验评估的正确性。

图2显示了用于解决非攻击性和攻击性人类行为二分类问题的视频片段在非暴力与暴力类别之间的分布。如图所示，每个类别包含1000个视频片段，从而得到一个严格平衡的样本，没有偏向任何一个类别的定量偏差。这种数据集结构在方法论上非常重要，因为它消除了类别不平衡对模型训练和测试结果的影响。由于两个类别得到平等代表，分类质量的评估更加准确，相应的指标也更加透明、可比较和可重复。此外，所示的分布确认了该问题被明确表述为一种旨在区分两种对立行为状态的二分类问题。这种表述对于智能视频监控系统是合理的，因为其关键目标是快速分离潜在的危险行为和正常视频流。因此，该图表不仅描述了数据结构，还确认了原始实验基础的方法论有效性。

图3显示了在训练集、验证集和测试集中，非暴力与暴力类别的视频片段分布情况。如图所示，两个类别的分割结构完全对称。训练集每个类别包含700个视频片段，而验证集和测试集各包含150个视频片段。因此，整体的分配比例为训练70%、验证15%、测试15%，每个阶段都保持了类别平衡。从方法论角度来看，这种分配对于实验协议的有效性至关重要。首先，在每个类别中保持相同数量的样本可以防止模型在训练阶段和后续的质量评估中偏向某个类别。其次，训练集、验证集和测试集中等比例的类别确保了分层分割，从而保证了训练和质量控制条件的可比性。这对于涉及攻击性和非攻击性行为的二分类问题尤为重要，因为即使是微小的分布偏差也可能扭曲精确度、召回率和F1分数。此外，所示方案展示了实验设计的高可重复性。模型在具有足够代表性的样本子集上进行了训练，验证和测试子集在数量和质量上都保持平衡。结果，图3确认了使用的数据分割协议在统计上是稳定的，并为模型之间的客观比较提供了公平的基础。

这些结果基于统一的实验协议，旨在全面评估模型在视频流中早期检测攻击性行为的有效性。分析包括对基线架构和提出的RAMT-BinaryHeatNet模型的定量比较，以及考察它们在不同视频片段完整性水平上的性能特征。除了传统的二分类指标外，还考虑了早期警告参数、决策稳定性以及生成的时空表示的可解释性，从而能够全面评估所提出方法的有效性。

在实验工作中，使用了一套完全实现的模型进行训练和后续比较。这套模型包括紧凑的基线架构和更现代的官方视频模型，以及作者提出的RAMT-BinaryHeatNet配置。这套模型确保了几类解决方案的公平比较：2D-时空方法、经典的3D卷积网络、分解的时空架构、变换器视频模型以及具有定位功能的混合风险模型。重要的是要强调，所有模型都是在笔记本电脑上的单个计算循环中训练的，这意味着它们具有相同的输入片段长度、相同的优化方案、相同的验证阈值算法和相同的多次任务损失函数。

轻量级的基线CNN+BiLSTM实现了一个基于MobileNetV3-Small的逐帧RGB编码器，后面跟着一个双向LSTM。在这种配置中，隐藏表示的大小设置为128，LSTM使用双向处理，每个方向的内部维度为64，从而形成序列的128维时间描述。分类层包含一个双类线性层，额外的风险分支生成一个用于预测风险的单个logit。对于这个模型，MobileNet主干网络在冻结模式下使用，实际运行时报告了173,699个可训练参数。

官方视频基线组包括从torchvision下载的MC3-18、R3D-18、R(2+1)D-18、Swin3D-T和Swin3D-S模型。这些架构使用了官方预训练的权重，当存在这些权重时，主干网络被冻结。因此，训练主要集中在新的输出层上：dropout、双类线性分类器和一个单独的风险头。对于3D卷积架构，dropout值设置为0.15，输出分类层和风险层建立在最终的主干特征向量之上。在执行版本的笔记本中，MC3-18、R3D-18和R(2+1)D-18的可训练参数分别为1539个，而Swin3D-T和Swin3D-S的可训练参数分别为2307个。这表明比较不是在全精细调整模式下进行的，而是在监督的头层适应模式下进行的。值得注意的是，MViTv2-S模型在开发过程中进行了测试，但由于其位置结构与8帧紧凑协议（尺寸为96 × 96）不兼容，因此在最终的笔记本可执行版本中未被包含。因此，在最终的基准测试套件中，它被透明地替换为Swin3D-T和Swin3D-S，这两种模型也被认为是强大的官方视频基线，并且在采用的输入片段配置下能够正确工作。

提出的RAMT-BinaryHeatNet模型实现为一个混合风险感知架构。它基于MobileNetV3-Small作为RGB编码器，但与CNN+BiLSTM不同的是，它激活了最后三个可训练的主干块并将特征空间大小增加到160。该模型实现了两个空间头：一个注意力头和一个定位头，都是以1 × 1卷积实现的。对于运动分析，添加了一个单独的MotionEncoder，包括一系列卷积块（3 → 24 → 48 → 160），然后是一个时间1D深度逐点模块。通过融合门进行RGB和运动特征的时空融合，该融合门接受RGB向量、运动向量的连接及其绝对差分。接下来使用三个TemporalConvBlocks的级联，然后是一个具有5个头的MultiheadAttention和0.12的dropout。最终解决方案不仅使用了分类logits，还考虑了风险头部（risk head），其中可训练的系数risk_scale初始化为0.35。在完成的笔记本中，所提出模型的可训练参数数量为1,203,791个，使其成为所有考虑选项中可训练参数最多的模型。表1展示了用于所有比较模型的常见训练超参数和计算协议要素。为了确保对各种架构的公平比较，训练是在单一实验配置下进行的，该配置固定了8帧的剪辑长度和96 × 96像素的输入图像大小。所有实验都使用了15个训练周期、基础批量大小为16、初始学习率为3 × 10^-4的AdamW优化器以及1 × 10^-4的权重衰减。为了稳定过程，使用了梯度裁剪（梯度裁剪值为2.0）和基于torch автокаст（autocast）及GradScaler的混合精度技术，以及值为0.02的标签平滑处理。学习率调整采用了CosineAnnealingLR调度器，T_max设置为15。此外，所有模型都采用了基于验证集的单个决策阈值选择协议，阈值范围为0.20到0.80，共有61个候选值，并且在观察比率0.20、0.40、0.60、0.80和1.00时分析了早期识别能力。这种实验条件的统一性确保了结果的可比性，并使模型的比较分析在方法上是正确的。表1列出了所有模型使用的共同训练和计算协议超参数。在训练过程中，所有比较模型都遵循单一的多任务损失函数。基本的分类组件使用交叉熵函数进行计算，而风险分支则使用带有logits的二进制交叉熵进行训练，权重为0.40。对于RAMT-BinaryHeatNet模型，还激活了额外的专用损失组件，包括决策损失（0.30）、一致性损失（0.10）、定位二进制交叉熵（0.12）以及定位对齐和定位稀疏化正则化（分别为0.015和0.003）。这样的优化不仅针对最终的二元分类标准进行了优化，也提升了风险评估的一致性、最终决策和空间定位能力。表2展示了比较实验中使用的架构配置和模型超参数。该研究包括了紧凑的基线架构、官方现代视频模型以及作者提出的RAMT-BinaryHeatNet配置。这一设置确保了对多种解决方案类型的正确比较，涵盖了二维时间方法、经典的三维卷积网络、分解的时空架构、Transformer视频模型以及具有定位功能的混合风险模型。对于所有模型，表格列出了架构基础、关键配置、丢弃率、有效批量大小和可训练参数数量，从而能够从质量结果以及计算和参数复杂性的角度进行比较。表2显示，CNN+BiLSTM模型实现了一个轻量级的基线架构，它基于MobileNetV3 Small构建了逐帧RGB编码器，随后是双向长短期记忆网络。基线视频模型包括MC3 18、R3D 18、R(2+1)D 18、Swin3D T和Swin3D S架构，这些模型都加载了官方预训练权重，并在监督输出层适应模式下使用。所提出的RAMT-BinaryHeatNet模型具有最复杂的配置，结合了RGB编码器、独立的运动编码器、时空特征融合机制、注意力机制和多头注意力模块。因此，表2反映了比较模型之间的结构差异，并为后续分析它们在早期检测攻击性行为方面的性能提供了依据。这项研究利用了一套层次结构化的模型，每个架构类别都扮演了特定的比较角色。CNN+BiLSTM提供了一个轻量级的二维时间基线；MC3-18/R3D-18/R(2+1)D-18代表了经典的三维解决方案；Swin3D-T/Swin3D-S代表了现代的官方Transformer视频模型；RAMT-BinaryHeatNet则代表了作者提出的混合配置，该配置结合了运动特征集成、可学习的定位和基于风险的决策机制。这种设置使得架构比较在方法上透明、技术上可复现，并足以对实验部分进行同行评审级的描述。RAMT-BinaryHeatNet的提出架构（图4）是一个专为视频序列的二元分析设计的专用混合时空模型，生成了三个相互关联的输出：分类logits、预期风险分数和空间定位图。与主要关注单一分类输出的标准视频模型不同，该方案最初被构建为一个多组件分析电路，在该电路中，决策是基于RGB特征、帧间运动信息和内部风险分数的综合考虑而形成的。从结构上看，该方案分为四个逻辑阶段：输入表示、RGB和定位分析、运动处理及特征融合，以及时间头部和最终决策。图4显示了RAMT-BinaryHeatNet模型的架构图。在第一阶段（Stage I），模型接受两个匹配的输入。第一个是维度为B × T × 3 × H × W的RGB剪辑输入，其中实现的协议使用T = 8帧（通过ImageNet统计进行归一化）。第二个是维度为B × (T ? 1) × 3 × H × W的运动残差输入，计算方法为相邻RGB帧之间的差异。在输入层面，这种架构与许多基线视频模型的主要区别已经显现：它不仅分析了场景的视觉内容，还分析了一个明确指定的运动组件，这对于那些攻击性行为由交互动态而非静态空间特征决定的任务尤为重要。该方案还确定了基本张量大小：T = 8，H = W = 96，编码后的特征空间宽度设置为d = 160。在第二阶段（Stage II），从RGB流中提取特征，使用MobileNetV3小型骨干网络进行提取，随后进行Conv2d 576 → 160、1 × 1的变换。然后形成了两个专用头部：第一个是注意力头部，使用160 → 1的卷积和Sigmoid激活函数构建注意力图，并实现了注意力加权的池化；第二个是运动引导定位头，同样基于160 → 1的卷积，但还受到运动映射的调节，从而得到了按空间坐标标准化的定位热图。因此，该模型中的RGB分支不仅仅进行简单的特征平均，还同时执行了信息区域提取和空间一致的定位，这使其区别于传统的卷积和Transformer基线架构，在这些架构中，空间解释要么缺失，要么没有直接集成到主要计算图中。在第三阶段（Stage III，运动和融合），图中显示了一个独立的运动处理流程。空间运动编码器依次通过3 → 24 → 48 → 160的块对运动张量进行变换，结合了常规卷积和深度卷积以及BatchNorm2d和GELU。然后，将结果序列输入到时间运动编码器，在时间域中应用了深度卷积和点卷积以及归一化和非线性操作。之后，运动投影块将运动映射到与RGB分支相同的160维特征空间。这一阶段的中心元素是风险感知门控融合（Risk-Aware Gated Fusion），它结合了RGB特征和运动特征及其绝对差异。图表清楚地表明，最终的融合表示是由一个可训练的Sigmoid门计算的，可以实现视觉内容和运动动态的自适应加权。这一块是该模型的关键优势之一。它使用基于自适应控制的融合方法，而不是刚性特征求和，对静态内容和场景运动学之间的差异非常敏感。在最后阶段（Stage IV，时间头部和决策处理），通过几个连续步骤执行时间头部和决策处理。首先，融合序列通过LayerNorm和三个TemporalConvBlock块，实现确定性时间建模。接下来应用了具有五个头部的MultiHeadAttention，之后一个单独的时间分数头部使用softmax生成时间重要性分布。下一个块是时间池化（Temporal Pooling），它结合了加权平均池化和时间最大池化，形成了最终的320维描述符。这用于构建两个并行头部：预期风险头部（Anticipatory Risk Head），生成风险分数；以及分类头部（Classification Head），生成二元类别logits。最后一个块是决策融合和报告输出（Decision Fusion and Reported Outputs），展示了最终决策的原理：类别logits之间的差异通过risk_scale参数增加了风险分支的额外贡献，从而形成了决策logit。因此，该架构不仅对事件进行分类，还引入了基于风险的决策校正，这在概念上不同于仅基于单一分类头部的基线模型。从科学和方法论的角度来看，这个模型可以说是一个创新的架构，因为它在一个单一的可微分电路中结合了标准视频网络中通常缺失的多个组件：显式的残差运动输入、运动引导的定位、门控的RGB和运动融合、独立的预期风险头部以及涉及风险的最终决策融合。其优势不仅在于复杂性，还在于它更针对早期检测攻击性行为的任务进行了优化。与主要针对最终剪辑分类优化的标准3D-CNN和Transformer模型不同，RAMT-BinaryHeatNet被设计为一个能够同时识别空间显著区域、考虑运动的时间演变并基于内部风险评估来校正二元决策的架构。这就是为什么该图合理地反映了并非标准架构的另一种变体，而是一个针对应用目的独立提出的模型，专注于可解释的和风险敏感的视频分析。表3展示了按可训练参数数量和处理单个视频剪辑的延迟来比较的模型概况。这项分析使我们不仅能够从识别质量的角度比较各种架构，还能从计算可行性的角度进行比较，这对于诸如在接近实时条件下早期检测攻击性行为等任务尤为重要。需要强调的是，所呈现的值反映了实际的笔记本电脑配置，即这些值对应于模型在实验电路中使用的配置。因此，可训练参数数量的列应理解为当前配置模式下参与训练的参数数量，而不是整个架构的全部参数容量。这对于那些骨干网络被冻结并且优化主要作用于输出分类和风险导向头部的官方视频基线模型尤为重要。表3按可训练参数数量和处理单个视频剪辑的延迟展示了轻量级模型的概况。数据显示，这些模型不仅在架构类型上有所不同，在计算特性上也存在差异。Swin3D-S在这种实现中的延迟最低，为21.5001 ms/clip，其次是Swin3D-T（58.5502 ms/clip）和R3D-18（74.5958 ms/clip）。所提出的RAMT-BinaryHeatNet模型的延迟为85.7341 ms/clip，仍处于实际可接受的范围内，尽管它实现了包括运动处理、定位和基于风险的决策融合在内的更复杂的内部分析循环。在这种配置中，延迟最慢的模型是CNN+BiLSTM，其延迟为3419.6635 ms/clip，表明每个剪辑的计算效率显著较低。就可训练参数数量而言，RAMT-BinaryHeatNet的数量最多，达到1,203,791个，这与它的扩展混合结构一致。对于CNN+BiLSTM，可训练的部分显著较少，为173,699个参数。同时，MC3-18、R3D-18和R(2+1)D-18模型的可训练参数数量相同，为1539个，而Swin3D-T和Swin3D-S有2307个参数，这反映了具有冻结骨干网络的部分适应模式。因此，表格表明RAMT-BinaryHeatNet在速度方面处于中间位置，但在可训练专业部分的规模上显著优于其他模型，而官方基线架构则在更新参数数量上较少。这使得模型比较在方法上透明，并允许对它们之间的差异进行正确的解释。表4表明，识别质量不仅取决于模型架构，还取决于观察到的视频剪辑的比例。数据显示，对于大多数模型而言，将观察比率从0.2增加到1.0通常会带来F1分数、平衡准确率和ROC-AUC值的提升；然而，这种提升的程度并不均匀。CNN+BiLSTM在早期稳定性方面表现最弱：在观察比率为0.2000时，F1分数为0.8224；而当观察比率完全覆盖时，F1分数提升至0.8932。对于R3D-18模型，其性能变化也较为平缓：F1分数在0.8315到0.8822之间波动，表明其在事件发展的早期阶段识别能力相对有限。同时，有些模型更适合用于早期分析。例如，MC3-18在观察比率为0.2000时就已经实现了F1分数为0.8997和ROC-AUC值为0.9544；Swin3D-T在观察比率为0.4000时，F1分数为0.9333，平衡准确率也为0.9333。在该数据集中，表现最稳定的官方对比模型是Swin3D-S，在完全观察的情况下，其F1分数为0.9320，平衡准确率为0.9300，ROC-AUC值为0.9866。表4展示了不同模型在视频片段部分观察条件下的早期预警效果。从表中可以明显看出，RAMT-BinaryHeatNet在观察比率为0.6000时的早期预警性能最佳，F1分数和平衡准确率分别达到了0.9527和0.9533。这意味着在观察了视频片段的60%后，该模型的识别准确率高于所有其他对比模型。即使在观察了完整视频片段后，其性能依然强劲：F1分数为0.9342，平衡准确率为0.9333，ROC-AUC值为0.9871，是所有模型中最高的。因此，这些结果表明所提出的架构在视频片段部分或完全观察的条件下都具有较高的区分性能。然而，这些结果应被视为该模型在可疑视频片段早期检测方面的研究潜力的证明，而不能作为其在涉及纪律性、法律或其他重大后果的场景中独立使用的充分依据。正确解读这些结果的一个关键方面是分析训练过程在最终优化阶段的稳定性。为此，生成了表5，其中包含了过去五个周期内的验证F1分数和验证ROC-AUC平均值及标准差，以及最终训练-验证F1分数差值，后者反映了训练集和验证集之间性能的差异。这些数值不仅帮助我们评估最终的模型性能，还揭示了训练过程中模型的波动程度，以及是否存在过拟合或保守行为。

数据表明，对于大多数模型而言，将观察比率从0.2提高到1.0通常会导致F1分数、平衡准确率和ROC-AUC值的增加；不过这种增加的程度并不相同。CNN+BiLSTM在早期稳定性方面表现最弱：观察比率为0.2000时，F1分数为0.8224；在完全观察情况下，F1分数提升至0.8932。R3D-18模型的性能变化也较为平缓：F1分数在0.8315到0.8822之间波动，表明其在事件发展的早期阶段识别能力有限。同时，有些模型更适合用于早期分析。例如，MC3-18在观察比率仅为0.2000时，就已经实现了F1分数为0.8997和ROC-AUC值为0.9544；Swin3D-T在观察比率为0.4000时，F1分数为0.9333，平衡准确率也为0.9333。在这一数据集中表现最稳定的官方对比模型是Swin3D-S，在完全观察的情况下，F1分数为0.9320，平衡准确率为0.9300，ROC-AUC值为0.9866。表4总结了不同模型在视频片段部分观察条件下的早期预警效果。其中最重要的发现是RAMT-BinaryHeatNet在观察比为0.6000时的表现最佳，F1分数和平衡准确率分别达到了0.9527和0.9533。这意味着在观察了视频片段的60%后，该模型的识别准确率高于所有其他对比模型。即使在观察了完整视频片段后，其性能依然强劲：F1分数为0.9342，平衡准确率为0.9333，ROC-AUC值为0.9871，是所有模型中最高的。因此，这些结果表明所提出的架构在视频片段部分或完全观察的条件下具有较高的区分性能。然而，这些结果应被视为该模型在可疑视频片段早期检测方面的研究潜力的证明，而不能作为其在涉及纪律性、法律或其他重大后果的场景中独立使用的充分依据。正确解读这些结果的一个关键方面是分析训练过程在最终优化阶段的稳定性。为此，生成了表5，其中包含了过去五个周期内的验证F1分数和验证ROC-AUC平均值及标准差，以及最终训练-验证F1分数差值。这些数值有助于我们评估模型的最终性能以及训练过程中的波动程度，以及是否存在过拟合或保守行为。

数据表明，RAMT-BinaryHeatNet在验证过程中的平均性能指标最高：验证F1分数平均值为0.9446，验证ROC-AUC平均值为0.9804。标准差也较低（分别为0.0043和0.0013），表明在最终周期内模型表现稳定。最终训练-验证F1分数差值为0.0443，虽然为正值，但未超过可能表明过拟合的阈值；相反，这反映了模型在训练阶段的良好适应性以及在验证阶段的强泛化能力。在官方基准模型中，Swin3D-S和Swin3D-T的表现最为平稳。Swin3D-S的验证F1分数标准差为0.0000，而Swin3D-T的标准差为0.0013，表明在最终周期内验证性能几乎保持稳定。Swin3D-T的差值为0.0087，而Swin3D-S的差值为0.0132，这表明训练集和验证集之间的平衡性较好。MC3-18、R(2+1)D-18和R3D-18模型的训练-验证差值为负值，表明在最终阶段没有过拟合现象。R3D-18的表现最为脆弱，平均验证F1分数和ROC-AUC值最低，分别为0.8737和0.9328，F1分数的方差也最大（0.0050）。因此，表中确认RAMT-BinaryHeatNet在保持训练稳定性的同时，实现了最佳的总体验证性能；而Swin3D-S和Swin3D-T则是表现最平稳、统计上最稳健的官方基准模型。

所有模型的损失函数在不同训练周期内的变化趋势显示出相似的错误衰减模式。然而，后续稳定的性质、训练损失减少的程度以及训练曲线和验证曲线之间的差异显著不同。RAMT-BinaryHeatNet的训练损失减少最为显著：训练损失从第一周期的约0.75–0.80降至最后周期的约0.18–0.20。该模型的验证损失也随时间减少，尽管起初下降较快，但最终稳定在0.52–0.57之间，形成了训练曲线和验证曲线之间明显但可管理的差距。这种特征表明训练集存在严重过拟合，而在验证阶段保持稳定轨迹且没有明显性能下降。Swin3D-S和Swin3D-T的收敛更为平稳和一致：这两款模型的曲线逐渐下降并在训练结束时趋于稳定：训练损失约为0.31–0.33，验证损失约为0.37–0.38。这两种模型的曲线间距最小，与之前获得的高稳定性指标一致，表明它们在训练过程中收敛平衡且没有严重过拟合（图5）。MC3-18和R(2+1)D-18的训练曲线也呈稳定的下降趋势，但损失值仍高于变换器架构。MC3-18的训练损失在训练结束时约为0.42–0.44，验证损失约为0.36–0.38；R(2+1)D-18的训练曲线和验证曲线在0.43–0.45范围内收敛，差距较小。这表明模型的收敛过程较为平稳但较为保守。CNN+BiLSTM和R3D-18的训练曲线也呈稳定下降趋势，但损失值仍高于变换器架构。CNN+BiLSTM的训练损失在训练结束时约为0.42–0.44，验证损失约为0.36–0.38；R(2+1)D-18的训练曲线和验证曲线在0.43–0.45范围内收敛，差距较小。图5显示了不同模型在训练周期内训练损失和验证损失函数的变化情况。CNN+BiLSTM的训练损失降至约0.21–0.24，而验证损失较高，约为0.40–0.45，形成了与其他基准模型相比最为明显的差距。R3D-18的训练损失和验证损失下降幅度较小：到最后周期时，训练损失和验证损失分别为约0.48–0.50，这种收敛趋势表明优化程度有限。总体而言，RAMT-BinaryHeatNet实现了最高的训练损失减少幅度，Swin3D-S和Swin3D-T表现出最平稳且最平衡的稳定状态；而R3D-18、MC3-18和R(2+1)D-18的优化程度较为温和，最终损失函数水平也较低。

图6显示了不同模型在训练周期内F1分数的变化情况。所有模型在训练初期都达到了相对较高的F1分数。然而，增长速度、稳定程度以及训练曲线和验证曲线之间的差异显著不同。RAMT-BinaryHeatNet的最终F1分数最高：第一周期的训练F1分数约为0.80，到最后周期时提升至约0.98–0.99；验证F1分数稳定在0.94–0.95范围内。这表明其在所有模型中具有最高的绝对性能，同时在验证阶段保持稳定轨迹，没有明显性能下降。在官方基准模型中，Swin3D-S和Swin3D-T的曲线最为平稳和稳健。Swin3D-S的训练F1分数约为0.93–0.94，验证F1分数维持在0.92–0.92+，波动较小；Swin3D-T的训练F1分数升至0.92–0.93，验证F1分数也逐渐达到相近水平。这表明这两种模型在训练过程中保持了较小的差距，符合其高稳定性特征。MC3-18和R(2+1)D-18的曲线变化较为温和：Mc3-18的验证F1分数在整个训练过程中保持在0.90–0.92范围内，而训练曲线较低，最终约为0.87–0.89；R(2+1)D-18的验证F1分数在0.90–0.91范围内稳定，训练F1分数在0.86–0.89范围内波动。这种配置表明它们收敛平稳且没有过拟合。CNN+BiLSTM和R3D-18的表现也较为平稳，但验证损失略高于变换器架构。在CNN+BiLSTM中，训练F1分数约为0.95，验证F1分数约为0.89–0.90，形成了明显的正差距。在R3D-18中，两条曲线均低于其他模型：训练F1分数约为0.86–0.87，验证F1分数约为0.87–0.88。综上所述，RAMT-BinaryHeatNet实现了最佳的总体验证性能，Swin3D-S和Swin3D-T表现出最平稳和最稳健的稳定状态；R3D-18的最终性能指标相对较弱。

图7显示了不同模型在训练周期内验证ROC-AUC的变化情况。所有模型在训练初期都表现出较高的类别区分能力，但达到平台期的速度和最终指标值存在显著差异。RAMT-BinaryHeatNet的表现最为出色：第四周期时其ROC-AUC值上升至约0.979，并在整个训练过程中保持在0.978–0.982的狭窄范围内。这种动态表明其快速达到了高水平的区分能力，随后保持稳定且没有显著下降。Swin3D-T和MC3-18的表现也类似，但略低。最终周期时，Swin3D-T的ROC-AUC值稳定在约0.977–0.978；MC3-18的ROC-AUC值约为0.969–0.970。Swin3D-S的ROC-AUC值从第一周期的约0.949逐渐上升至最后周期的0.966–0.967。这表明这两种变换器模型产生了稳定且具有竞争力的类别排名性能，但在绝对性能上仍逊于所提出的架构。CNN+BiLSTM和R(2+1)D-18的ROC-AUC变化较为温和：CNN+BiLSTM的ROC-AUC从约0.935上升至0.966–0.967，中间阶段的曲线趋于水平；R(2+1)D-18的初始值接近0.907，随后逐步上升并稳定在0.956–0.958。基于所有结果，图表确认RAMT-BinaryHeatNet提供了最高且最稳定的ROC-AUC水平；Swin3D-S和Swin3D-T是最接近的强对比解决方案；R3D-18的最终性能指标最低。测试准确率结果显示，在最终独立样本上，所有模型都实现了较高的二分类正确率。然而，它们之间的绝对质量仍存在明显差异。RAMT-BinaryHeatNet的准确率最高，为0.933，是所有比较模型中最好的；其次是Swin3D-S，准确率为0.930，两者之间的差距仅为0.003，表明它们属于实验框架内的最高质量水平。R(2+1)D-18和MC3-18的准确率分别为0.913和0.910，略低于RAMT-BinaryHeatNet。Swin3D-T的最终准确率为0.903，虽然低于RAMT-BinaryHeatNet，但仍然保持了较高的识别水平。

图7显示了不同模型在训练周期内验证ROC-AUC的变化情况。所有模型在训练初期都体现了较高的类别区分能力，但达到平台期的速度和最终指标值存在显著差异。RAMT-BinaryHeatNet的表现最为出色：第四周期时其ROC-AUC值上升至约0.979，并在整个训练过程中保持在这一范围内。这表明其迅速具备了高水平的区分能力，随后稳定下来且没有显著下降。Swin3D-T和MC3-18的表现也类似，但略有下降。最终周期时，Swin3D-T的ROC-AUC值稳定在约0.977–0.978；MC3-18的ROC-AUC值约为0.969–0.970。Swin3D-S的ROC-AUC值从第一周期的约0.949逐渐上升至最后周期的0.966–0.967。这表明这两种变换器模型产生了稳定且具有竞争力的类别排名性能，但在绝对性能上略逊于RAMT-BinaryHeatNet。CNN+BiLSTM和R(2+1)D-18的ROC-AUC变化较为温和：CNN+BiLSTM的ROC-AUC从约0.935上升至0.966–0.967，中间阶段的曲线几乎呈水平；R(2+1)D-18的初始值接近0.907，随后逐步上升并稳定在0.956–0.958。R3D-18的ROC-AUC值最低，从约0.871开始最终降至0.932–0.934。综合来看，RAMT-BinaryHeatNet实现了最佳的总体验证性能，Swin3D-S和Swin3D-T表现出最平稳和最稳定的状态；R3D-18的优化程度相对温和，最终损失函数水平也较低。这意味着在这次比较中，最佳模型和最不准确模型之间的差距为0.050，即5个百分点。此外，即使是最小的结果对于二分类问题来说也相对较高，这证实了所研究的整套解决方案的整体性能。综合来看，呈现的数据表明RAMT-BinaryHeatNet在测试集上提供了最佳的泛化能力，Swin3D-S是其次的官方比较对象，而其余架构则表现出一致较低的准确率值。因此，在整体测试准确性方面，所提出的模型在所有考虑的选项中排名第一。图8展示了模型在独立样本上的最终测试准确性比较。图9中F1分数的结果证实了之前在其他综合质量指标中观察到的模型层次结构。然而，在这种情况下，重点转移到了攻击性和非攻击性视频场景的二分类中精确度和召回率之间的权衡上。RAMT-BinaryHeatNet展示了最高的F1分数，为0.934。这意味着该模型在正确识别正类和最小化误报和假阳性错误之间提供了最佳平衡。其次的是Swin3D-S，其分数为0.932，两个领先模型之间的差距仅为0.002，表明最终预测的一致性几乎相同。下一组包括R(2+1)D-18和MC3-18，它们的F1分数分别为0.917和0.911。它们的分数超过了0.91，但分别比领先模型低0.017和0.023。这表明这些架构在分类方面保留了相当强的能力，但在整体决策平衡上仍低于两个最佳模型。Swin3D-T的F1分数为0.908，介于更强大的Swin3D-S和经典的3D基线模型之间。因此，在官方比较模型中，Swin3D-S展示了最佳的总体F1分数。CNN+BiLSTM和R3D-18的分数最低，分别为0.893和0.882。最佳模型和最差模型之间的差距为0.052，即5.2个百分点。即使是最小的值对于实际的二分类设置来说也相对较高，这证实了所研究模型系列的总体有效性。综合来看，呈现的结果表明RAMT-BinaryHeatNet在最终测试F1分数中排名第一，在独立样本上提供了最平衡的识别能力，而Swin3D-S是最接近且最强的官方基线模型。图9展示了模型在独立样本上的最终测试F1分数比较。图10显示了F1分数依赖于观察到的视频片段比例的结果。这些模型在识别早期攻击性事件方面的能力存在显著差异。RAMT-BinaryHeatNet展现了最明显和有效的轨迹：即使在0.4的观察比率下，F1分数也达到了0.9110；在0.6的观察比率下，最高分数为0.9527，这是所有曲线中的最高点。之后，只有在0.8的观察比率下F1分数略微下降到0.9459，在完全观察时下降到0.9342，表明该模型在只有部分视频序列可用时的预测识别效率非常高。Swin3D-S显示出强烈但不太明显的趋势：其F1分数从0.2时的0.8723增加到1.0时的0.9320，增幅几乎是单调的。这表明随着观察片段的增加，辨别信息的积累是稳定的。相比之下，Swin3D-T的轨迹更不均匀：在0.4时达到0.9333的高水平，然后在0.6时下降到0.8968，之后又部分恢复。这种曲线形状表明其对早期片段的敏感性良好，但随着时间窗口的扩大，动态性不够稳定。MC3-18的特点是早期表现强劲（0.2时为0.8997），随后在0.8961–0.9195的范围内呈现振荡平台。相比之下，R(2+1)D-18显示出更平滑和一致的质量提升：从0.2时的0.8561增加到0.8时的0.9189，之后保持相似水平。CNN+BiLSTM和R3D-18位于较低的组别：前者模型从0.8224显著提高到0.8932，而后者在完全观察时仅为0.8822。综合来看，这些曲线证实RAMT-BinaryHeatNet是早期预警场景中的最佳模型，而Swin3D-S是观察到的视频片段比例增加时最稳定的官方基准模型。图10展示了模型在早期预警模式下F1分数随观察到的视频片段比例的变化。图11的结果显示，所有模型即使在观察的早期阶段也保持了相当高的分类能力，但在质量提升的速度和最终稳定程度上存在差异。RAMT-BinaryHeatNet展现了最强的轨迹：即使在0.2的观察比率下，模型的ROC-AUC也为0.9630，到了0.6时达到了0.9836，这是整个图表中的最高值之一。随后，该指标保持稳定：在0.8时为0.9803，在1.0时为0.9871。这种动态表明即使在部分事件观察的情况下也能保持高水平的类别分离，并证实了所提模型在视频场景结束前提取信息特征的能力。Swin3D-S展示了类似的结果，其ROC-AUC从0.2时的0.9534增加到1.0时的0.9866。与RAMT-BinaryHeatNet不同，这里的增长更为平滑且几乎是单调的。Swin3D-T在早期显示出明显的上升：在0.4时达到0.9812，但随后数值有所波动，最终达到0.9716。这表明该模型对早期片段非常敏感，但不如两个领先解决方案稳定。MC3-18和R(2+1)D-18展现出相似但较为温和的轨迹：MC3-18从0.9544增加到0.9784，而R(2+1)D-18从0.9543增加到0.9702。CNN+BiLSTM相对于起始点表现出最显著的改善：从0.9091增加到0.9577，表明其对观察到的片段的完整性有显著依赖性。R3D-18保持了最低的轨迹，其数值在几乎整个区间内都低于其他模型。综合来看，这些曲线证实RAMT-BinaryHeatNet是早期预警场景中的最佳模型，而Swin3D-S是观察到的视频片段比例增加时最稳定的官方基准模型。图11展示了RAMT-BinaryHeatNet、Swin3D-S、R(2+1)D-18、MC3-18、Swin3D-T、CNN+BiLSTM和R3D-18模型在早期预警模式下ROC-AUC的变化，取决于观察到的视频片段比例。为了全面评估每个架构组件的贡献，进行了消融研究，结果总结在表6中。从完整模型（A0）开始，逐步移除或简化关键模块，以分析它们对分类性能、定位质量和计算效率的个别影响。所有报告的值都是基于三次独立运行（n=3）的平均值±标准差（使用不同的随机种子42、73和101），在0.60的片段观察设置下进行。移除运动分支（A1）导致所有指标明显下降：F1分数从0.952下降到0.926，mIoU从0.604下降到0.403，强调了运动信息对分类和定位的重要性。同样，关闭运动引导的定位（A2）会降低定位质量，证实了显式运动线索对区域级预测的重要性。用简单连接替换监督融合（A3）导致所有评估指标的性能下降，表明了自适应加权对于有效多模态整合的重要性。当移除RGB和运动特征之间的绝对差异项（A8）时也观察到类似的退化，表明这一操作捕捉到了两种模态之间的信息性时间差异。这也表明时间建模组件至关重要。移除TemporalConvBlocks（A4）或多头注意力（A5）会导致一致的性能下降，其中移除注意力机制后降幅最大（F1 = 0.887），突显了其对建模长期时间依赖性的重要性。多任务学习的重要性在A7中尤为明显。当仅保留分类损失函数并移除定位/一致性目标时，定位性能急剧下降到mIoU = 0.138。移除风险分析模块和决策融合模块（A6）对分类性能的影响相对较小。然而，整体鲁棒性仍有轻微下降，而定位几乎保持不变。最后，移除融合模块（A9–A10）表明加权平均池化和最大池化的组合比单独使用任何一种策略都更有效，表明全局上下文信息和有意义的激活都对最终预测有贡献。表6展示了RAMT-BinaryHeatNet消融分析的结果。RAMT-BinaryHeatNet的标准化混淆矩阵（图12）结果表明，该模型在独立测试集上实现了高且平衡的二分类识别性能。矩阵的对角线元素包含最大值：对于非暴力类，正确预测的比例为0.92；对于暴力类，这一比例达到了0.95。这意味着模型正确识别了92%的非攻击性场景和95%的攻击性场景，证实了对目标危险类别的高敏感性，同时对中性类别保持了稳定的性能。非对角线元素的结构尤其重要。被错误分类为暴力场景的非攻击性视频片段的比例为0.08，而被错误分类为非暴力的攻击性场景的比例为0.05。因此，在测试协议中，该模型为暴力类别产生的假阴性少于非暴力类别的假阳性。从实际角度来看，这些结果表明开发的方法可以用作初步视频分析过滤系统的组成部分，以识别需要进一步操作员分析的片段。然而，目前的形式下，该工作并不将其视为用于做出最终决策的独立工具，因为其在罕见事件环境中的操作使用需要额外的定量评估假阳性、阈值校正、流行性敏感性分析和正式化的人类责任程序。图12展示了所提出的RAMT-BinaryHeatNet模型的标准化错误矩阵。比较这两行矩阵显示，类别识别性能的差异很小：0.95 - 0.92 = 0.03。这表明模型没有明显的偏向某一类别，并确认了类别之间的统计上一致的分离。同时，暴力类别的轻微优势与所提模型的预期应用一致，即可靠地识别潜在的危险行为。因此，混淆矩阵表明RAMT-BinaryHeatNet实现了高识别准确性、低攻击性漏报率和可接受的假阳性率，使其结果对于当前任务具有有效性和实际相关性。因此，比较分析结果表明，所提出的RAMT-BinaryHeatNet模型在关键特性方面占据最强位置，结合了高早期预警性能、最强的区分能力和显著更复杂的分析框架。此外，官方视频模型Swin3D-S和Swin3D-T在关键指标上展现了高训练稳定性和竞争性价值。同时，经典的3D卷积解决方案和CNN+BiLSTM作为更简单的基准，具有不同的计算和预测效率。综合来看，获得的数据证实，在RAMT-BinaryHeatNet中整合空间特征、运动信息、基于风险的分析和定位机制提供了最平衡的攻击性行为早期检测解决方案，并证明了向模型的可解释性进行后续视觉分析的合理性。3.2. RAMT-BinaryHeatNet模型的预测可视化和决策解释下面讨论的结果侧重于对所提出的RAMT-BinaryHeatNet模型的视觉和实质性分析，以提供对实验数据的更深入解释。图13中呈现的结果表明，所提出的RAMT-BinaryHeatNet模型在暴力互动视觉集中的帧区域生成了空间上一致且可解释的定位。图13展示了所提出的RAMT-BinaryHeatNet模型的训练后的运动引导定位示例。所有四个示例都在右侧显示了叠加的定位图。在所有情况下，最终的暴力分类得分均为0.99，这表明该模型在分析相应场景时具有很高的信心。激活区域并未在画面中随机分布，而是集中在与身体接触、挣扎、打击或强力约束区域相吻合的有限区域内。这种类型的检测尤为重要，因为它证实模型并非依赖于随机的背景元素，而是依赖于暴力事件中结构上较为显著的部分。在第一个例子中，最强烈的激活区域集中在场景的下部中央，那里观察到了剧烈的身体接触以及人身被按在物体表面的情况。在第二个和第三个例子中，激活区域向上半身和参与者之间的碰撞区域移動，对应于互动中最动态和充满冲突的部分。在第四个例子中，热区域位于场景底部的人的上方，即发生最明显强力行为的画面部分。在所有情况下，尽管背景物体、道路表面、汽车、空旷空间以及画面的其他区域在视觉上存在，但它们并没有成为主要的焦点。从科学角度来看，这些结果证实了RAMT-BinaryHeatNet中内置的基于运动的定位机制不仅能识别移动区域，还能识别出具有语义意义的暴力行为区域。这使该模型区别于传统的分类架构，后者在最终决策上缺乏明确的空间解释能力。因此，所示的例子表明，该模型结合了高水平的二分类置信度和对接触及冲突区域的精确定位，从而增强了结果的可解释性和实用性。

图14显示，RAMT-BinaryHeatNet的结果表明，该模型能够同时生成一个可靠的最终决策、一种预测性风险评估以及场景中最重要区域的空间定位。右上角的面板显示，该模型对该视频片段中的暴力行为给予高概率评估：暴力程度=0.98，风险=0.98。这表明，在分析的时间窗口内，系统就将观察到的群体动态解释为明显危险的情况，并一致地提升了分类和基于风险的输出。图底部的时间曲线特别具有启示性。暴力事件的概率并非突然增加，而是从低值开始逐渐上升，在大约3-4秒的观察后达到0.9以上。此外，预测性风险标志在更早的阶段（约2秒时）就已经出现，而此时主曲线尚未达到最大值。

图14展示了RAMT-BinaryHeatNet模型的一个外部验证案例，同时展示了原始视频流、热图定位、暴力类别的概率、预测性风险以及危险场景随时间发展的动态。这意味着该模型能够在主要决策完全稳定之前捕捉到危险场景的早期征兆。空间热图集中在人群的中心部分，而非画面边缘，这证实了定位的有意义性。

图15继续讨论了同一视频片段的外部验证案例，这次展示了事件发展的后期阶段。与前一幅图关注危险场景升级的早期阶段不同，这里我们观察到攻击性互动的稳步发展过程，这一点通过空间定位和概率的时间动态得到了验证。右上角的面板显示，模型的暴力程度和风险值持续保持在0.98和0.98，表明在较长的观察期内预测保持稳定。下方的时间曲线更为明显。与之前的图不同，这里清楚地显示出攻击行为的概率并非单调变化，而是呈现波动趋势，反映了激烈冲突、短暂缓和以及随后的再度升级的过程。尽管有局部下降，模型仍能反复回到接近0.9-1.0的高值，展示了其在复杂多变的人群动态中保持识别的能力。空间热图仍然集中在身体接触最频繁的中心区域，而非分散在画面边缘，进一步证实了在同一视频片段内定位的空间稳定性。

综上所述，综合结果表明，RAMT-BinaryHeatNet模型为视频流中攻击性行为的早期检测提供了最平衡的解决方案，结合了高水平的二分类性能、显著的早期预警效率、训练稳定性以及生成的时空表示的可解释性。与基线架构相比，尽管整体质量较高，但正是RGB特征、运动信息、基于风险的分析以及定位机制的整合使得该模型在关键指标和视觉激活的一致性方面取得了最佳效果。总体而言，这些结果证明所提出的方法不仅在定量上有效，而且在方法论上也适合实际应用于智能视频监控系统，专注于及时且可解释地检测潜在危险的场景。

4. 讨论
所获得的结果使我们能够将RAMT-BinaryHeatNet模型视为一种科学和实用的解决方案，用于实时监控环境中视频流中攻击性、潜在危险人类行为的早期检测。该模型解决的关键问题不仅是已完成事件的事后分类，还包括在系统仅获得部分视频序列时对冲突升级迹象的早期检测。这种问题的提出非常符合智能视频监控、交通安全、教育基础设施和公共监控系统的实际需求，因为在这些场景中，不仅要记录攻击行为，还要在仍可及时干预的阶段检测到其行为的发展。实验分析表明，在一系列关键指标中，所提出的架构在所有比较模型中表现出最佳的整体性能。在一个独立的测试集上，RAMT-BinaryHeatNet的准确率为0.933，F1值为0.934；而在进行完整片段观察的早期预警模式下，ROC-AUC达到了0.9871。特别值得注意的是，即使在部分视频场景观察（即观察比例为0.6）这样更为复杂且实际重要的环境中，该模型也实现了F1值0.9527和平衡准确率0.9533，显示出其在预测识别方面的强大能力。因此，这些结果证实了所开发架构不仅限于良好的最终类别分离，还能在事件完全发生之前识别出危险场景。这项工作的科学和应用创新性主要体现在它通过联合评估视频场景的三个相互关联的方面来解决攻击性行为识别问题：最终类别、内部预测性风险评估以及显著冲突区域的空间定位，而非仅仅通过传统的二分类方式。与标准的三维卷积神经网络（3D-CNN）和Transformer视频模型不同，RAMT-BinaryHeatNet结合了RGB表示、显式的残差运动输入、基于运动的定位、风险意识门控融合以及分类与风险之间的决策级融合。这使得模型不仅考虑了场景的外观，还考虑了帧间变化的动态，最终决策基于危险行为的早期征兆的严重程度。

提出的方法的可解释性值得特别关注。定位结果显示，模型始终将激活区域集中在直接的身体接触、挣扎、冲击或约束区域，而非随机的背景对象上。无论是在暴力类别测试案例还是外部验证程序中，这一点都得到了验证，热图区域始终与场景参与者之间最激烈互动的区域相吻合。因此，该架构不仅具有高精度，还具有显著的解释性，大大提升了其科学和应用价值。这对于同行评审的出版物尤为重要，因为现代智能安全系统的要求不仅限于简单的质量指标，还需要可解释的分析机制。

该工作的另一个优势在于，该模型不仅在主要测试集上进行了测试，还在包含各种攻击性和模糊行为场景的独立视频片段上进行了外部验证。在这些例子中，RAMT-BinaryHeatNet保持了较高的暴力程度和风险值，时间曲线显示出了合理的动态变化：攻击事件的概率并非随机增加，而是与视觉上观察到的冲突发展相一致，预测性风险标志在最终决策稳定之前就已经出现。这表明该模型不仅可以在实验室环境中运行，也可以在背景、参与者数量、摄像机角度和运动模式变化较大的室外环境中有效运作。

同样重要的是计算效率。尽管其内部结构较为复杂，RAMT-BinaryHeatNet仍保持了适度的延迟，比繁琐的解决方案更加实用，同时提供了更高的最终质量。这意味着该模型的新颖性不仅体现在参数数量的简单增加上，还体现在分析框架的更高效组织上，每个模块都针对特定的应用任务：场景特征提取、运动检测、定位、风险评估和最终解决方案的校正。因此，所提出的方法可以被视为适用于实际视频分析的紧凑型应用架构，而不仅仅是一个面向内部基准的实验设计。

这项评估是在一个受控的参考模型下进行的，以确保结果的可重复性和模型间的可比性。虽然该模型为评估所提出的架构提供了方法论上的一致基础，但它并不能涵盖所有现实世界观察场景的多样性。因此，这些结果应作为模型性能的可靠基准。同时，对独立数据集的进一步实验将进一步加强关于其在不同部署环境中的鲁棒性和泛化能力的结论。

为了学术上的完整性，有必要指出该研究的几个局限。实验评估是在二分类框架内进行的，依赖于一个公开可用的数据集，这确保了受控且可重复的条件，但并未完全反映现实世界视频监控环境的多样性。此外，一些基线架构是在“固定”架构模式下进行评估的，这保证了单一训练协议内的方法论一致性，同时也为通过全面微调提供了进一步扩展的空间。此外，从开放互联网来源收集的公开可用视频数据集可能包含一定程度的注释不确定性。在暴力识别方面，这可能源于模糊的互动边界、不完整的上下文信息或攻击行为的微妙视觉表现，这些都可能引入标签噪声，并影响优化动态和边界预测的解释。尽管本研究使用了官方参考注释来保持可比性，但在解释结果时仍需考虑这些因素。这些局限性并不削弱所得结果的有效性，反而指出了未来的工作方向，包括跨多个数据集的验证、在异构视频源上的更广泛定量评估、扩展到多类行为场景，以及开发抗噪声的学习策略。在这方面，所提出的RAMT-BinaryHeatNet模型应被视为一种可解释的决策支持系统，用于早期视频分析，结合了时空分类、初步风险评估和基于运动的定位，而不仅仅是一个适用于现实世界安全系统的即用型解决方案。**结论**
本文研究了在真实世界监控视频流中早期检测攻击性人类行为的问题，这一领域对于安全系统的智能视频分析具有重要意义。与仅关注最终视频片段分类的方法不同，所提出的RAMT-BinaryHeatNet模型采用了一种综合的时空分析方法，结合了RGB特征、残差运动描述、自适应特征融合、早期风险评估以及可解释的空间定位技术。该方法使我们能够从简单的视频片段分类，转向更有意义的早期识别可能存在危险互动的视频片段的任务，并由人工操作员进行后续验证。实验研究表明，在所有考虑的模型中，所提出的架构取得了最佳效果。在早期预警模式下，当观察比例为0.6时，该模型的F1分数为0.9527，平衡准确率为0.9533。即使在完整视频片段观测的情况下，RAMT-BinaryHeatNet依然保持了高性能，F1分数达到0.9342，ROC-AUC值为0.9871，证实了其在区分攻击性和非攻击性行为方面的强大辨别能力和鲁棒性。进一步的分析表明，该模型能够生成具有明确解释性的定位图，并能在主要决策完全形成之前检测到危险场景的早期预警信号。

从实际应用的角度来看，研究结果展示了该方法在 urban 监控系统、交通安全、教育基础设施等领域的应用潜力，这些领域对及时威胁检测、对复杂场景条件的鲁棒性以及自动化决策的可解释性要求较高。然而，研究也存在一些局限性，例如仅使用了单一的二元数据集、输入片段格式较为紧凑，以及实验配置固定。未来的发展方向可能包括在更多多样化的多场景视频数据集上测试该模型、将其适配到实时流处理中、扩展解释机制，并探索在开放环境中的更通用行为预测方法。因此，RAMT-BinaryHeatNet模型可以被视为一种方法论上健全的视频流中攻击性行为早期检测方法。虽然研究结果验证了所选架构方案的潜力，但仅凭这些结果本身尚不足以证明该模型能够在没有额外外部验证和严格人工干预的情况下自主应用于高错误率场景。

热点排行