融合生理特征与注意力机制的双流网络用于视障人士动作分类的研究

《Sensors》：Research on Two-Stream Networks Integrating Physiological Features and Attention Mechanisms for Motion Classification in Visually Impaired Individuals

【字体：大中小】 时间：2026年06月10日 来源：Sensors 3.5

编辑推荐：

　　为解决复杂行走环境中传统动作识别方法感知精度低、鲁棒性差的问题，研究人员利用包括心电(ECG)、光电容积脉搏波(PPG)和三轴惯性测量单元(IMU)在内的多模态数据进行分类。针对多模态数据滤波效率低的问题，提出一种基于长短期记忆网络(LSTM)的改进小波滤波算

为解决复杂行走环境中传统动作识别方法感知精度低、鲁棒性差的问题，研究人员利用包括心电(ECG)、光电容积脉搏波(PPG)和三轴惯性测量单元(IMU)在内的多模态数据进行分类。针对多模态数据滤波效率低的问题，提出一种基于长短期记忆网络(LSTM)的改进小波滤波算法。为进一步提升分类准确率，本文引入一种基于注意力机制的双流深度融合卷积神经网络(Attention-based Two-Stream Deep Fusion Convolutional Neural Network, ATS-DFCNN)用于蒙眼模拟视障出行的动作识别。该方法同步采集受试者的三轴运动信号与生理信号，构建双流异构特征提取架构：采用一维卷积神经网络(1D-CNN)捕获肢体运动的空间几何特征，采用混合CNN与门控循环单元(GRU)网络挖掘生理应激的时间演化模式；并在特征层引入注意力机制实现动态加权融合，增强关键运动特征并抑制环境噪声。实验招募10名模拟视障人士动作的受试者，涵盖行走、站立、上楼梯、下楼梯及跌倒五类典型动作。结果表明，所提自适应滤波算法AUC达0.942，较传统算法显著提升了特征区分度；ATS-DFCNN模型在五类活动上的平均识别准确率达92.2%，较单一IMU模态分类提升4.8%；尤其在跌倒检测中，模型借助生理反馈有效降低误报率并能准确推断运动意图，为智能助行系统的安全监测提供可靠技术支持。

论文解读：融合生理特征与注意力机制的双流网络用于视障人士动作分类的研究

该研究发表于《Sensors》。目前基于可穿戴传感器的盲人辅助系统中，单纯依靠惯性测量单元(IMU, Inertial Measurement Unit)进行人体活动识别(HAR, Human Activity Recognition)难以反映用户的生理负荷与心理应激状态，且视障人士的非典型步态及"主动停止"与"遇障急停"等行为在运动学特征上相似但风险不同，导致传统单模态方法准确率低、误报率高。此外，现有多模态融合多采用简单特征拼接或决策层融合并未深入建模跨模态深层语义特征。为此，研究人员构建了同步采集三轴加速度计、三轴陀螺仪、单导联ECG及耳垂PPG的多模态系统，提出小波-LSTM自适应去噪框架及基于注意力机制的双流深度融合卷积神经网络(ATS-DFCNN, Attention-based Two-Stream Deep Fusion Convolutional Neural Network)，以期为视障人士智能助行系统的行为监测与安全预警提供技术支撑。

为开展本研究，研究人员招募10名健康受试者蒙眼模拟视障出行，同步采集IMU(100 Hz)、ECG(512 Hz)、PPG(64 Hz)信号，经线性插值与Z-score归一化对齐至统一时基，采用2 s滑动窗口(步长1 s，50%重叠)切分样本；关键技术方法包括：(1)基于Pan-Tompkins算法的ECG特征(RR间期、RMSSD)与PPG特征(二阶导APG波、脉搏波传导时间PTT)提取；(2)Daubechies db4四层离散小波变换(DWT, Discrete Wavelet Transform)结合LSTM网络预测自适应软阈值对生理信号去噪；(3)双流网络—运动流经多层1D-CNN提取肢体加速度与角速度空间特征得128维向量，生理流经CNN提取波形形态特征后经双层双向门控循环单元(Bi-GRU, Bidirectional Gated Recurrent Unit)捕捉时序依赖得64维向量；(4)通过小型全连接网络计算Softmax归一化注意力权重对两流特征动态加权拼接为192维融合向量，送入全连接层与Softmax输出五类动作概率，以交叉熵损失函数训练并采用留一法(subject-independent)验证。

2. Signal Extraction and Preprocessing（信号提取与预处理）

研究人员对ECG采用Pan-Tompkins算法定位R波，计算RR间期均值(反映运动强度基线)及逐次心跳间期均方根(RMSSD, Root Mean Square of Successive Differences，反映副交感神经活动)；对PPG求二阶导数得加速光电容积脉搏波(APG, accelerated Photoplethysmogram)提取a/b/c/d/e波及波包络面积，并计算同一心动周期内ECG R波峰值至PPG波峰的时间——脉搏波传导时间(PTT, Pulse Transit Time)。IMU计算三轴加速度的信号幅度矢量(SMV, Signal Magnitude Vector)表征总运动强度，在滑动窗内提取时域(均值、标准差、过零率、偏度)与频域(快速傅里叶变换FFT提取功率谱密度及主频)特征。多模态信号经线性插值统一上采样至512 Hz实现时域同步，再经Z-score标准化与滑动窗口分帧。

2.3.2. Theoretical Analysis of Wavelet Transform（小波变换理论分析及小波-LSTM自适应去噪）

研究人员采用db4小波进行4层DWT，保留低频近似系数A₄，对高频细节系数D_j(j=1~4)由LSTM网络依据历史小波系数序列拟合出自适应阈值λ，再执行软阈值滤波，最后通过逆离散小波变换(IDWT, Inverse Discrete Wavelet Transform)重构去噪信号，以均方误差(MSE, Mean Squared Error)为损失函数训练LSTM，以传统小波去噪结果作为伪洁净参考信号进行监督学习。该框架在抑制运动伪影等非平稳噪声的同时保留了生理特征细节。

3. Attention-Based Two-Stream Deep Fusion Convolutional Neural Network（基于注意力的双流深度融合卷积神经网络）

研究人员设计并行双分支网络：运动流输入三轴Acc与Gyro经1D-CNN卷积、批归一化(BN, Batch Normalization)、ReLU激活及最大池化后由全局平均池化(GAP, Global Average Pooling)输出128维运动特征向量f_m；生理流输入ECG与PPG经1D-CNN提取局部形态特征后送入双层Bi-GRU捕捉心率变异性等时序依赖，输出64维生理特征向量f_p。注意力模块通过全连接层与Softmax计算运动流权重α_m与生理流权重α_p(α_m+α_p=1)，融合特征F=Concat(α_m·f_m, α_p·f_p)。融合向量经两层全连接(含Dropout率0.5)与Softmax输出五类动作概率分布，采用交叉熵损失与反向传播端到端更新所有参数，使网络自动依据当前运动状态(如跌倒瞬间)调整各模态贡献。

4.3. Analysis of Experimental Results（实验结果分析）

改进的小波-LSTM自适应去噪算法AUC为0.942，显著高于传统固定阈值小波去噪的AUC 0.630，表明LSTM学习的自适应阈值在噪声抑制与有用信号保留间取得更好平衡，提升了后续特征可分性。ATS-DFCNN在Subject-Independent验证协议下十名受试者平均五分类准确率为92.2%(各折范围90.1%~94.7%)，其中站立与行走超97%，跌倒达92.1%，较单一IMU模态(87.4%)提升4.8%，跌倒误报率降低11.2%。混淆矩阵显示上下楼梯相互略有混淆但整体性能稳定，表明模型具备良好的跨被试泛化能力。

4.4. Ablation Study（消融实验）

去除注意力机制或仅用单流结构时准确率下降，证实双流深度融合并行提取异构特征具互补性，注意力机制通过动态分配特征权重进一步强化关键判别信息，是性能提升的重要来源。

4.5. Comparative Experiments（对比实验）

与1D-ResNet、CNN-LSTM及ViT-1D等时序HAR主流模型相比，ATS-DFCNN取得最高整体识别准确率；模态递进对比显示IMU单独87.4%，加入ECG升至90.1%，再加入PPG升至91.2%，引入注意力融合后达92.2%，验证了生理信号对相似动作(如快速下蹲与跌倒)的鉴别补偿作用。

讨论与结论（翻译结论部分）

针对复杂环境下蒙眼模拟视障受试者行为监测与安全预警需求，研究人员提出并设计了一种基于注意力机制的双流深度融合卷积神经网络(ATS-DFCNN)模型。通过集成三轴加速度计、陀螺仪、ECG及PPG传感器构建了多模态运动与生理信号采集系统，有效克服了传统单模态检测方案在复杂步态模式下识别率低及误报频率高的问题。实验结果表明，所提出的双流架构可同时提取肢体运动的物理空间特征与人类应激反应的生理时间特征；通过在特征层引入注意力机制，模型实现了对异构信号的动态权重调整，在检测"跌倒"等突发危险事件时表现出良好的判别力，显著降低了将日常活动误判为危险信号的概率。测试结果显示，系统在行走、站立、上下楼梯及跌倒五类典型动作上的平均识别准确率达92.2%，较单一IMU模态提升4.8%，验证了多模态融合在辅助监测中的优越性。受限于概念验证阶段，实验对象为蒙眼健康受试者而非临床确诊视障人士，未来将扩大样本并纳入不同程度视障参与者以提升临床适用性；此外将引入可解释人工智能(XAI, eXplainable Artificial Intelligence)方法(如注意力可视化、SHAP、Grad-CAM)提升决策透明度，并优化模型轻量化以便在嵌入式终端部署，结合实时触觉反馈技术拓展至多模态可穿戴助视设备应用中。

热点排行