《Intelligent Systems with Applications》:Real-time Dance Style Classification Using Ensemble of Deep Neural Networks
编辑推荐:
视频中舞蹈风格的实时识别在机器视觉和视频分析领域是一个具有挑战性的问题,其原因在于动作的多样性、视觉复杂性以及场景的快速变化。为此,本研究提出了一种新颖且高效的方法,用于实时舞蹈风格分类,该方法采用了智能集成的深度神经网络(Deep Neural Networ
视频中舞蹈风格的实时识别在机器视觉和视频分析领域是一个具有挑战性的问题,其原因在于动作的多样性、视觉复杂性以及场景的快速变化。为此,本研究提出了一种新颖且高效的方法,用于实时舞蹈风格分类,该方法采用了智能集成的深度神经网络(Deep Neural Networks, DNN)。所提出的方法首先对视频序列(帧)进行预处理。下一步,使用由卷积神经网络(Convolutional Neural Network, CNN)和双向长短时记忆(Bidirectional Long short-term memory, BiLSTM)神经网络组成的混合架构进行特征提取。CNN网络因其提取空间特征的高能力,被用于识别与舞蹈动作相关的视觉模式和结构。相比之下,BiLSTM网络通过分析帧的时间序列,侧重于提取与动作上下文及时间变化相关的特征。在由两个网络提取特征之后,通过拼接提取的特征来创建一个全面的特征向量。该特征向量包含了关于视频中舞蹈动作的完整信息。最后,将该特征向量作为多层感知机(Multilayer Perceptron, MLP)神经网络的输入。本部分特别值得注意的是使用了黑洞优化(Black Hole Optimization, BHO)来优化MLP网络的权重,从而提高了识别各种舞蹈风格的准确性和模型稳定性。仿真实验表明,所提出的方法在F-度量和准确率指标上优于对比方法,达到了3.1%的提升。这一显著改进反映出,作为一种整体与组合技术,所提出的方法能够准确高效地对视频中的舞蹈风格进行分类。
在视频分析与人机交互领域,对人类动作尤其是具有高度艺术表现力和复杂时空动态的舞蹈进行自动、精准的实时风格分类,一直是计算机视觉面临的重大挑战。现有的方法或受限于对空间特征的单一方面提取,或无法充分捕捉动作序列中长程的时间依赖性,难以在保证实时性的同时达到高精度的分类性能。此外,传统优化算法在训练分类器时易陷入局部最优,影响了模型的稳定性和最终性能。为解决这些技术瓶颈,研究人员提出了一种全新的集成深度学习框架,该框架创新性地融合了多种网络的优势,并采用先进的优化算法,旨在实现对舞蹈视频内容既快速又鲁棒的风格判别。这项研究不仅为舞蹈视频的智能分析提供了关键技术突破,其提出的混合特征提取与智能优化相结合的范式,对于更广泛的复杂人体动作识别任务也具有重要的启示和应用价值。
研究人员设计并实现了一个三阶段的端到端处理流程。首先,对输入视频序列进行智能预处理,包括基于运动变化的关键帧筛选、尺寸标准化以及将RGB色彩空间转换为HSI(Hue, Saturation, Intensity)色彩空间以消除光照强度信息的干扰,最终获得包含色调和饱和度信息的帧序列。核心的特征提取阶段采用了一种混合的CNN-BiLSTM架构:CNN部分通过卷积、激活和池化操作提取单帧的静态空间特征,捕捉身体姿态和结构;紧随其后的BiLSTM网络则对CNN输出的特征图序列进行双向扫描,建模动作帧之间的长短期时间依赖关系,从而理解动作的节奏、速度和过渡模式。最后,将CNN和BiLSTM分支分别提取的特征向量进行拼接,输入一个由BHO算法优化权重的MLP分类器中。BHO算法作为一种元启发式优化方法,通过模拟黑洞吞噬恒星的过程,在全局搜索空间中为MLP寻找到最优的权重组合,避免了传统梯度下降法可能陷入局部极小值的问题,从而增强了分类器的泛化能力和稳定性。研究使用了公开的“Let‘s Dance”数据集进行验证,该数据集包含10类共1000个舞蹈视频片段。
研究人员通过系统的实验评估验证了所提出方法的有效性。在与多种现有方法及自身组件变体的消融实验对比中,完整模型在准确率(91%)、精确率(0.9102)、召回率(0.9100)、F-度量(0.9097)以及曲线下面积(AUC = 0.9808)等关键指标上均取得了最优表现。相较于仅使用CNN或BiLSTM的单一特征提取方法,混合架构的性能提升显著,证明了空间与时间特征融合的互补性。混淆矩阵分析表明,该方法对于“华尔兹”、“弗拉门戈”等风格具有高识别率,而“方块舞”等风格因与其他风格存在部分子动作相似而存在轻微混淆,但整体表现稳健。优化算法对比实验显示,BHO算法相较于Adam、粒子群优化(PSO)和遗传算法(GA),在达到最高准确率的同时具有最低的标准差(0.68%),体现了更优的全局寻优能力和训练稳定性。在计算效率方面,在配备了NVIDIA GeForce RTX 4080显卡的测试平台上,模型处理一个50帧序列的端到端延迟约为34.2毫秒,吞吐量达到29.2帧/秒,满足实时应用的基本要求。特征融合分析通过计算互信息证实了CNN与BiLSTM特征间的低冗余度(0.142)及其与分类目标的高相关性(0.895)。此外,t-SNE可视化结果显示,所提取的融合特征在不同舞蹈风格类别之间形成了可区分良好的聚类,直观地解释了模型高精度的分类能力。
讨论部分指出,本研究提出的CNN-BiLSTM-MLP集成模型通过协同利用CNN的空间特征提取能力和BiLSTM的时间序列建模能力,结合BHO算法对MLP权重的智能优化,构建了一个用于视频舞蹈风格实时分类的强有力框架。该框架成功应对了动作复杂性高、场景变化快的挑战,在基准数据集上实现了相较于现有技术约3.1%的性能提升。研究结论认为,所提出的方法在实时性和准确性之间取得了优异平衡,为视频内容分析、交互式舞蹈系统以及虚拟舞蹈教学等高级应用提供了有效的技术支持。同时,作者也客观地讨论了研究的局限性,主要包括:模型目前仅在单一数据集(Let‘s Dance)上进行了验证,限制了其泛化能力的证明;预处理中去除强度通道的做法可能不适用于需要强度信息的其他领域;仅依赖视觉特征,未融合音频或多模态运动数据;在边缘设备上的部署可能需要进一步优化。未来工作将着眼于在更广泛、更复杂的数据集上测试模型,探索自适应预处理机制,并尝试融合多模态信息以提升系统的鲁棒性和应用范围。