
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TriPath3DNet:一种高效的实时模型,用于固定时长现实监控视频的多类分类任务
《Scientific Reports》:TriPath3DNet: an efficient real-time model for multi-class classification in real-life surveillance videos of fixed duration
【字体: 大 中 小 】 时间:2026年06月19日 来源:Scientific Reports 3.9
编辑推荐:
摘要本文介绍了一种名为TriPath3DNet的新型高效且可解释的3D CNN架构,该架构专为在复杂现实环境条件下——包括物体遮挡、光线变化、恶劣天气以及徘徊或区域入侵等细微的低运动异常情况——对短时长、由运动触发的监控视频片段进行实时多类别分类而设计。TriPath3DNet将
本文介绍了一种名为TriPath3DNet的新型高效且可解释的3D CNN架构,该架构专为在复杂现实环境条件下——包括物体遮挡、光线变化、恶劣天气以及徘徊或区域入侵等细微的低运动异常情况——对短时长、由运动触发的监控视频片段进行实时多类别分类而设计。TriPath3DNet将三种互补的时间路径——短期运动信息、长期上下文信息以及时间差编码技术——整合到轻量级的ResNet3D (R3D)-18框架中,从而共同建模瞬时动态与持续活动。在包括新整理的Virat1-RC、Virat2-RC、UCF-Crime以及我们自主研发的In-House Dataset (IHD)在内的四个数据集上进行的测试表明,TriPath3DNet取得了业界领先或接近领先的性能表现:在11GB容量的GPU上,其准确率可达95.37%,AUC值可达99.42%,每50帧视频的推理延迟为129至137毫秒(约合每帧2.6毫秒),且仅包含33.46百万个参数。值得注意的是,它在各项性能指标上都大幅优于基于CNN和Transformer的基准模型——包括MViTv1、MViTv2和VideoSwin——尤其是在UCF-Crime这类异常情况较多的数据集上,大多数视觉Transformer模型都难以取得良好性能。虽然MViTv2在IHD数据集上的准确率略高(91.87%对比89.46%),但TriPath3DNet的AUC值则显著更高(98.07%对比90.96%),这体现了其在关键异常检测方面的更优能力。消融实验表明,每个时间路径都对模型性能有重要贡献,而Grad-CAM可视化结果则展示了空间上精确且时间上连贯的注意力图。通过将架构设计与边缘设备及云端的部署限制以及工业监控的实际应用需求相结合,我们的工作弥合了学术研究与实际视频分析之间的差距。