利用双LSTM网络从脑电图（EEG）中解码普通话动作动词：迈向实用的脑机辅助接口刘斌硕（Binshuo Liu）、陈庚标（Gengbiao Chen）、尹来荣（Lairong Yin）和刘静（Jing Liu）

《Sensors》：Decoding Mandarin Action Verbs from EEG Using a Dual-LSTM Network: Towards Practical Assistive Brain–Computer Interfaces Binshuo Liu, Gengbiao Chen, Lairong Yin and Jing Liu

【字体：大中小】 时间：2026年04月30日 来源：Sensors 3.5

编辑推荐：

　　摘要基于脑电图（EEG）的脑机接口（BCIs）为恢复交流提供了有希望的途径。由于同音词和复杂的时间动态，从EEG中解码像普通话这样的声调语言仍然具有挑战性。本研究调查了从EEG信号中解码六个高频普通话动作动词——吃（Chi）、喝（He）、穿（Chuan）、拿（Na）、看（Kan

　　摘要
基于脑电图（EEG）的脑机接口（BCIs）为恢复交流提供了有希望的途径。由于同音词和复杂的时间动态，从EEG中解码像普通话这样的声调语言仍然具有挑战性。本研究调查了从EEG信号中解码六个高频普通话动作动词——吃（Chi）、喝（He）、穿（Chuan）、拿（Na）、看（Kan）和穿（Dai）的过程。我们设计了一个基于视觉线索的显性语音产生实验，并收集了30名参与者在视觉引导下大声朗读动词时的EEG数据。我们实现了一个包含双重长短期记忆（LSTM）层的循环神经网络框架，以模拟EEG模式中的长距离时间依赖性。所提出的模型与传统的结合支持向量机（CSP-SVM）的基线方法进行了比较。我们的基于LSTM的模型在六类任务中的平均分类准确率为69.93% ± 3.07%，显著优于CSP-SVM基线（36.53% ± 3.17%）。在特定训练条件下，包括超过15次训练重复和38%的训练数据比例时，准确率超过了75%。此外，该模型仅使用了大约38%的可用试验数据进行训练，展示了数据效率。结果表明，LSTM架构能够有效捕捉与普通话动词处理相关的神经特征，为开发实用的基于EEG的辅助交流技术奠定了基础。训练后的模型推理延迟，即每次试验后的测试时间，低于2秒，支持接近实时的应用。

1. 引言
近年来，脑机接口（BCIs）的进步证明了从脑电图（EEG）信号中解码语音的可行性，为有言语运动障碍的人提供了变革潜力[1,2,3,4,5,6]。尽管在从EEG数据中解码英语音素方面取得了显著进展[7,8]，但由于普通话的语言复杂性，解码声调语言（如普通话）仍然很大程度上未被探索。普通话中大量的同音词和声调变化引入了神经编码中的大量歧义，导致认知处理时间延长和分类准确性降低[9]。语音的神经处理涉及专门的皮层区域，尤其是布罗卡区（Broca’s area）和韦尼克区（Wernicke’s area），它们分别负责语音产生和理解。从EEG中有效解码语音需要捕捉这些和其他语言相关网络生成的复杂、随时间变化的神经模式。然而，传统的EEG分析方法往往无法充分模拟这些持续和序列化的动态。目前关于普通话EEG-语音映射的研究主要集中在孤立的字符或音节上，产生的准确率较低（例如，四命令分类的准确率为38.2%[10]，无声阅读任务的准确率为70%[11]）。这些方法经常忽略了神经对连续同音词的时间动态反应——这对于开发现实世界的辅助交流系统是一个关键限制。除了分类准确性外，之前的EEG语音-BCI研究还强调了实际在线性能的重要性，包括在线隐蔽语音分类和基于语音想象的BCI系统[2,10]。
长短期记忆（LSTM）网络是一种特殊的循环神经网络（RNN），特别适合这一挑战。通过设计，LSTM单元减轻了梯度消失问题，使它们能够学习和保留长距离的时间依赖性。这种能力对于区分普通话同音词至关重要，因为它允许模型整合从听觉皮层的早期感觉反应到语言特定区域（如布罗卡区）的后续持续激活的整个感知和语义处理序列的神经活动。传统方法，如结合支持向量机（SVM）的常见空间模式（CSP），难以模拟由普通话动词引发的EEG模式的非平稳特性。虽然卷积神经网络（CNNs）在EEG分类任务中显示出潜力[12,13,14,15,16,17,18]，但其平移不变架构限制了它们捕捉语音诱发神经活动内在的序列依赖性的能力。循环神经网络（RNNs），特别是长短期记忆（LSTM）架构，特别适合这项任务，因为它们能够利用长距离的时间相关性[19,20,21]。然而，它们在普通话EEG解码中的应用仍然处于起步阶段，且没有先前的工作系统地解决了同音词效应问题。
为了填补这一空白，我们提出了一个改进的LSTM增强型RNN框架，用于高精度解码六个高频普通话动作动词：吃（Chi）、喝（He）、穿（Chuan）、拿（Na）、看（Kan）和穿（Dai）。

2. 相关工作
2.1. 从神经信号中解码语言的挑战
从非侵入性脑记录中解码可理解的语言仍然是神经科学和脑机接口（BCI）研究中的一个重大挑战。核心难点在于弥合低带宽、噪声较大的神经信号与语言的高级结构语义之间的差距。最近的开创性工作证明了利用现代语言模型的上下文能力，可以从非侵入性功能性磁共振成像（fMRI）数据中重建连续的语言语义[22]。这项工作强调了一个关键范式：先进的计算模型，特别是来自人工智能的模型，对于解释语音和语言的复杂神经表征至关重要。将这一范式应用于更实际但噪声更大的脑电图（EEG）信号领域，特别是对于像普通话同音词这样的复杂语言结构，是这一研究方向的自然且重要的扩展。
2.2. 大型语言模型的基础性和变革性作用
随着大型语言模型（LLMs）的出现，自然语言处理领域经历了一场革命。Transformer架构的发展提供了自注意力的基础机制，使得以前所未有的效率对文本中的长距离依赖性进行建模成为可能[23]。在此基础上，像GPT-3这样的模型证明了扩大语言模型规模可以产生显著的少样本学习和零样本学习能力，使AI系统更接近于无需特定任务微调的一般语言理解[24]。随后发布的高效开源基础模型如LLaMA进一步加速了该领域的创新和可访问性[25]。这些LLMs在语言生成、理解和上下文推理方面展示了以前无法实现的能力[26]。它们从提示或稀疏输入生成连贯、符合上下文的文本的能力为辅助技术带来了变革性机会。
2.3. 朝着集成神经假体的方向：将神经解码器与语言模型相结合
将神经解码器与这些强大的LLMs直接集成是实用BCI系统的一个有吸引力的前沿。传统的BCI专注于对有限的一组离散命令进行分类，不足以恢复自然、流畅的交流。新兴的范式设想了一种混合架构，其中神经解码器从脑活动中提取用户的核心意图或语义标记，而LLM作为复杂的“语言后端”将这些意图转化为流畅、符合语法的句子。这种集成的早期概念证明来自高性能的侵入性神经假体，其中解码的语音表示用于驱动语音合成器和对话语言模型，以控制虚拟形象，显著增强了交流输出的丰富性[27]。同样，利用深度学习模型从颅内信号进行语音合成的研究指向了使用AI将神经代码转换为复杂、用户所需输出的更广泛趋势[4]。本文的工作与此集成愿景的第一部分一致并做出了贡献。通过开发一个高效的基于LSTM的普通话动作动词解码器，我们解决了从EEG信号中准确提取关键语义元素（动词）这一关键子问题。这为下游的LLM提供了可靠且必要的输入流，后者可以执行句子形成的语言重担，从而更接近于实用的、非侵入性的思想到文本的交流系统。

3. CSP-SVM基线方法
3.1. CSP特征提取
常见空间模式（CSP）是一种广泛使用的空间过滤技术，旨在增强EEG信号中的区分特征。它通过最大化两个信号类别之间的方差差异来实现这一点，从而提高分类准确性[28]。CSP将原始的多通道EEG数据转换为强调不同条件之间变化的空间组件。按照标准的CSP程序，对于大小为N × T（N个通道，T个时间点）的给定试验数据矩阵D(i)，计算归一化协方差矩阵C：
(1)
然后从每个类别对的平均协方差矩阵的广义特征值分解中得出复合空间滤波器。过滤后的信号组件的特征向量fj计算如下：
(2)
标准CSP方法的一个主要限制是它本质上是为二元分类任务设计的。为了解决这个问题，已经开发了几种多类分类的扩展方法，包括一对一CSP[29]和一对多CSP[30]。在本研究中，我们采用了一对一CSP方法，它有效地将每个类别与其他所有类别配对，而不会显著增加计算复杂性。图1展示了多类EEG识别过程。六个中文字符——“吃”（Chi）、“喝”（He）、“穿”（Chuan）、“拿”（Na）、“看”（Kan）和“穿”（Dai）分别表示为A、B、C、D、E和F。使用CSP处理EEG数据以获得15个成对的空间滤波器。然后使用这些滤波器提取空间特征，随后使用支持向量机（SVM）进行分类。图1. 一对一CSP多类算法流程。
3.2. SVM分类和识别
支持向量机（SVM）是广泛使用的监督学习算法，特别是在涉及有限样本量的分类任务中非常有效。SVM旨在识别最大化不同类别之间边际的最优超平面，从而提高分类的鲁棒性和准确性[31]。
在本研究中，SVM方法的应用如下：设xi表示空间域中第i个样本的EEG特征向量（xi, yi）（i = 1, 2, …, n），yi表示相应的目标类别，n表示样本总数。通过解决以下优化问题得出最优决策函数f(x)：
(3)
(4)
(5)
(6)
其中，和是通过学习获得的最优分类系数；K(x,xi)是选定的径向基核函数，它有效地将EEG特征向量映射到更高维的空间，从而提高分类性能；g是控制函数适用范围的宽度系数；c是指定的常数系数；是松弛因子。

4. 基于中文字符语音映射的RNN识别
所提出的双LSTM网络用于EEG基动词解码的整个处理流程如图2所示。该框架从从语言相关皮层区域获取的多通道EEG信号开始。随后，原始信号经过预处理，包括带通滤波和伪影去除。清理后的时间序列数据被格式化为序列段，用于模型输入。这些序列数据被输入到双层LSTM网络：第一层LSTM旨在捕捉EEG模式中的短期时间依赖性，而第二层LSTM模拟长距离的上下文动态。最后，LSTM层提取的高级特征被传递到一个全连接层进行六类动词分类。这种结构化的 workflows 体现了本研究的核心方法论贡献。图2. 基于EEG信号的普通话动词解码的双LSTM框架流程。
4.1. 语音转录
梅尔频率倒谱系数（MFCC）[32]是语音信号处理中广泛采用的特征，提供了紧凑而信息丰富的声音频谱表示。通过捕捉语音的频谱特性，MFCC有助于语音分析和识别。MFCC提取过程如图3所示。图3. MFCC特征提取过程。为了指导RNN训练，获得了参考语音特征。对口语动词的音频记录进行处理，以每帧提取13维的梅尔频率倒谱系数（MFCCs），遵循标准流程：预加重、帧定、窗口化、快速傅里叶变换（FFT）[33]、梅尔滤波器组应用和离散余弦变换（DCT）。
4.2. RNN深度学习模型
循环神经网络（RNNs）专门设计用于处理序列数据，通过保持先前输入的记忆，使它们特别适用于时间序列数据[34]。RNNs在捕捉时间依赖性和动态模式方面表现出色，这对于建模EEG信号中的时变特性至关重要。本研究中实现的RNN架构如图4所示，是使用TensorFlow开发的。它由一个输入层、三个全连接隐藏层和两个长短期记忆（LSTM）层组成[35]。LSTM单元的引入减轻了传统RNN中固有的梯度消失和爆炸问题，使模型能够更好地捕捉EEG信号数据中的长距离时间依赖性。图4. 基于RNN识别的流程图。在本研究中，网络架构改编自一个先前建立的模型，具有三个全连接层和两个长短期记忆（LSTM）层。每个隐藏层由多个神经元组成，输入经过线性矩阵变换。让Xi（i = 1, 2, …, 7）表示神经网络第i层的EEG数据。第i层和第（i + 1）层之间的权重矩阵表示为Wi(i+1)，第i层的偏置项表示为bi。因此，第i层和第（i + 1）层之间的数据流可以表示为：(7) 形成第五层和第六层的LSTM单元利用输入（）、遗忘（）、输出（）和输入调制（）门来调节信息流并减轻梯度消失问题，如下所述：(8) 其中表示两个矩阵对应元素的乘法；表示第i层中第j个LSTM神经元的状态。通过控制这些门的信息流，LSTM有助于防止梯度消失问题并提高模型捕捉长距离时间依赖性的能力。可以得到以下结果：(9) 其中和分别表示相应的权重，b表示相应的偏差。表1总结了所提出的RNN模型的基本配置，包括框架、网络架构、输入设置、输出类别、参考目标、损失函数、学习率和评估设置。提供这些信息是为了提高所提出方法的清晰度和可重复性。图4中，RNN的输入是一系列EEG信号向量，网络的最终输出是六个普通话动作动词中的预测标签。口语记录被处理以提取13维Mel频率倒谱系数（MFCCs），这些系数被用作目标动词的参考声学表示。然而，所提出框架的最终解码任务是一个六类动词分类任务，而不是直接的MFCC序列预测。在训练过程中，通过网络参数最小化预测类别概率和真实动词标签之间的交叉熵损失来优化网络参数[36]。在每个训练步骤中，使用随机数据子集来计算损失，并将梯度反向传播以更新模型参数。交叉熵损失函数[37]量化了预测的MFCC序列和实际观察值之间的差异。该函数定义为：(10) 其中x是样本，a是预测值，y是实际观察值，n是总样本数。在训练过程中最小化交叉熵损失有助于调整模型的权重，以提高预测EEG信号特征的准确性。学习率的选择将对RNN模型的训练结果产生一定影响。基于梯度下降方法的经验公式，本研究根据最大化损失函数值的标准选择了最佳学习率。它满足以下公式：(11) 其中和分别表示第c次和第（c + 1）次迭代的参数，f是损失函数，是第c次迭代的学习率，是最小化损失函数的学习率。根据公式(12)：(12) 其中和分别表示和的梯度。可以看出，最小化损失函数的条件是两个相应的梯度向量相互垂直。5. 实验 5.1. 实验对象当前的数据集和代码可以通过OSF仓库公开获取，网址为https://doi.org/10.17605/OSF.IO/NMKE5 [38]。研究包括30名大学生（15名男性和15名女性），他们都是右撇子，身体健康和心理健康状况良好，平均年龄为23 ± 1.4岁。参与者被要求在实验前24小时内避免饮酒和其他刺激物。在实验过程中，参与者坐在距离显示屏1米远的放松环境中，尽量减少身体运动。实验前，所有参与者都提供了知情同意书。值得注意的是，核心实验范式涉及中文字符的视觉呈现，参与者进行视觉提示的朗读。在EEG记录任务期间，没有呈现或要求受试者感知任何外部听觉刺激。因此，与听觉感知相关的参数，如个体听觉特征、声压级、音调和mel刻度，不适用于本研究的设计和解释，因为本研究关注的是来自视觉语言识别和显性言语产生的神经信号的解码。表2提供了参与者队列的人口统计特征摘要。表2. 实验和参与者摘要。根据实验设计，完整的数据集包括13,500个EEG试验段（30名参与者×6个动词×每个动词75次试验），相当于每个参与者450个试验段，每个动词2250个试验段。在图5中报告的数据效率分析中，用于模型训练的试验段比例逐渐增加；当训练比例达到38%时，RNN总共使用了大约5130个试验段（每个参与者大约171次试验，或每个参与者内大约28-29次试验），而剩余的受试内试验段用于离线验证/测试。因此，本研究使用了特定于受试者的、数据集内的评估设置，而不是跨受试者的转移设置。图5. 重复训练次数对RNN分类准确性的影响。5.2. 数据采集和处理本实验使用六个基本的功能性中文字符——“Chi”、“He”、“Chuan”、“Na”、“Kan”和“Dai”作为实验数据集。参与者坐在距离21英寸CRT电脑屏幕大约70厘米的安静房间里（刷新率为100 Hz）。在每次试验中，一个字符会短暂出现在电脑屏幕上。实验的时间安排和信号采集过程如图6所示，详细顺序如图7所示。在每次试验开始时，屏幕显示2秒的黄色空闲时间。接着是1秒的红色显示，提示参与者准备。然后目标中文字符显示4秒，同时参与者大声朗读。之后是2秒的休息时间，期间屏幕变白，表示试验结束。每个中文字符在一组实验中随机显示15次。每个参与者完成了5组实验，组与组之间有5分钟的休息时间。总共每个字符提示收集了75个数据点。图6. 信号采集流程图。图7. 实验序列的单次采集图。由于EEG信号固有的信噪比较低，数据采集容易受到各种噪声的干扰。因此，需要预处理步骤来去除可能干扰信号质量的伪迹。本实验主要针对去除的伪迹包括眼电图（EOG）信号、肌电图（EMG）活动、心电图（ECG）信号和电源线干扰。EEG数据是使用Neuroscan 4.3软件控制的SynAmps系统采集的，64个导电（湿式）电极固定在弹性帽（Electro Cap International）中，并按照国际10/20系统[39]放置。所有电极的阻抗保持在5 kΩ以下，接地电极位于前额以最小化50 Hz的电源线干扰。EEG信号以250 Hz的采样率采样，并使用4–45 Hz的带通滤波器过滤以捕获相关频率带（（4~7 Hz）、（8~15 Hz）和（16~31 Hz），过滤后的信号被数字化存储。同时，通过专用的24 kHz麦克风通道记录语音和音频信号，使用的是头戴式Shure SM35-LC心形电容麦克风（频率响应：40 Hz–20 kHz），该麦克风与EEG信号时间对齐。布罗卡区和韦尼克区是语言处理的核心枢纽。布罗卡区主要负责语言产生，而韦尼克区参与语言理解。在本研究中，收集了来自布罗卡区（F5、FT7、FC5、FC3）和韦尼克区（TP7、CP5、CP3、P5）的脑活动[40]，以增加捕获相关数据的可能性，同时减少数据通道的数量。6. 结果分析两种方法的性能是通过整个实验的平均识别准确性来量化的。由于训练和测试数据来自同一数据集，因此可以直接比较性能。如图8所示，CSP + SVM方法的平均分类准确率为36.53 ± 3.17%，而基于语音映射的RNN识别方法的平均分类准确率为69.93 ± 3.07%。这些结果表明，基于RNN的语音映射方法比CSP + SVM方法实现了显著更高的准确性。图8. CSP + SVM和RNN之间的平均分类准确性比较。为了明确评估协议，总体准确率是在试验级别计算的，即正确分类的试验段数与六类任务中测试的试验段总数的比率。对于分类级别的评估，精确度、召回率和F1分数是根据混淆矩阵计数以一对一的方式为每个动词定义的：(13) (14) (15) (16) 本研究获得的识别准确性与其他表3中列出的先进方法相当。然而，这里提出的基于RNN的语音映射方法特别适合多类分类场景，并表现出更好的泛化能力。表3. 与其他先进方法的识别准确性比较。然后探讨了实现高性能目标所需的数据量。图5展示了使用循环神经网络（RNN）方法的四名参与者的平均分类准确率与重复训练次数之间的关系。随着训练次数的增加，所有参与者的分类准确性都有所提高。当重复次数超过15次时，分类准确性超过了75%，达到了机器翻译性能可接受的阈值。分析了数据重复和数据集大小对模型准确性的影响。如图9所示，增加训练数据量会导致准确性逐渐提高。当训练数据的比例达到38%时，准确性超过了75%。进一步增加训练数据比例只会导致准确性的边际提高，这表明随着迭代次数的增加，本研究采用的方法对数据集大小的依赖性降低。图9. 训练数据比例与RNN分类准确性和训练时间之间的关系。总体而言，深度学习模型完成任务需要大量时间，这可能限制了它们在某些场景中的实际应用性。该模型的训练时间显示在图9的右侧垂直轴上。随着训练数据集大小的线性增加，训练时间不超过1200秒，模型训练后的测试时间保持在2秒以内。在本研究中，实时性能是通过训练后的测试时间（即，训练后的推理延迟）来量化的，该时间用于训练后的RNN输出一个试验段的预测动词标签。这个指标是与离线训练时间分开评估的；因此，图5中报告的值反映了模型训练后的推理效率，而不是端到端模型优化时间。在所有测试的训练数据比例中，这个训练后的推理时间保持在2秒以下。学习率是深度学习中的一个关键参数，决定了每次迭代的步长，并直接影响损失函数是否收敛到最小值以及收敛的速度[47]。在本研究中，使用平均中文单词错误率（WER）来量化性能。在理想情况下，WER应该是0%。图10展示了不同学习率对RNN模型性能的影响。较小的学习率保证了收敛，但会导致训练速度变慢，消耗更多时间。相反，较大的学习率会增加训练期间损失函数的波动，可能会阻碍收敛。实验结果表明，学习率为0.005的RNN模型获得了最低的WER，产生了最佳的分类性能。图10. RNN学习率与分类准确性之间的关系。7. 讨论在本研究中，提出的双LSTM框架在六类任务中的平均分类准确率为69.93% ± 3.07%，远优于CSP-SVM基线（36.53% ± 3.17%）。此外，在特定的操作条件下，模型准确率超过了75%，这些条件包括超过15次的训练重复和38%的训练数据比例。所取得的测试结果与最近基于EEG的语音解码研究相比表现良好，这些研究涉及的类别数量相似[10,11]。LSTM模型的卓越性能可以归因于其固有的建模时间依赖性的能力。动词的处理是一个随时间展开的过程，从早期的视觉感知引发一系列神经事件，到后来的语义和运动相关激活。与CSP（提取静态空间特征的方法）或CNN（具有有限时间感受野的模型）不同，LSTM的循环连接使其能够整合整个刺激持续时间（在我们的范式中为4秒）内的信息。这使得它特别适合捕捉与动词理解相关的持续和演变的神经模式，这对于区分语音相似的普通话单词至关重要。此外，该模型还展示了良好的数据效率，仅使用38%的训练试验次数就达到了最佳性能。这一特性对于开发实用的BCI系统非常有利，因为它减少了用户（尤其是那些有运动障碍的用户）进行长时间校准的负担。训练后的每次试验推理时间不到2秒，证实了接近实时应用的可行性。然而，所提出方法与理想准确率之间的性能差距突显了基于EEG的语音解码仍面临的挑战。EEG信号的非平稳性质以及神经反应的显著个体间差异仍然是重要的障碍。从神经生理学的角度来看，处理普通话动作动词涉及一系列时间延长的神经事件，包括从时间区域的早期感知到后来的语义检索和运动-言语准备，可能涉及布罗卡区和韦尼克区。我们的双LSTM架构特别适合建模这种复杂的时间动态。与静态空间滤波器（例如CSP）或时间感受野有限的模型（例如CNN）不同，LSTM的循环连接和门控机制使其能够在整个刺激持续时间内学习和整合区分性神经模式，有效地捕捉到区分普通话同音词所需的关键神经特征。LSTM的计算能力与语音处理的神经生理特性之间的这种匹配是模型卓越性能的基础。

8. 结论
总之，所提出的双LSTM框架在六类基于EEG的普通话动词解码任务中实现了平均分类准确率为69.93% ± 3.07%，显著优于传统的CSP + SVM基线。此外，当训练重复次数超过15次时，模型准确率超过了75%，当训练数据比例增加到38%时，也达到了相当的性能水平。这些发现表明，所提出的方法可以用相对有限的训练数据实现有竞争力的性能。此外，训练时间随着训练数据比例的增加而线性增加，但从未超过1200秒。一旦训练完成，模型的每次试验推理时间始终保持在2秒以下。通过引入长短期记忆（LSTM）层，该模型有效地捕捉了EEG信号中的长距离时间依赖性，解决了普通话同音词的问题。这些进展突显了基于RNN的EEG解码在增强辅助通信技术方面的潜力，特别是对于有言语运动障碍的个体[48]。此外，本研究实现了一个双LSTM网络架构，用于从EEG中解码普通话动词，专门设计用于捕捉与区分语音相似单词相关的持续和序列神经模式。该框架在临床环境中显示出潜在的适用性，尤其是在校准数据稀缺的情况下。建立了一个从EEG分析到动词分类的全面处理流程，推理时间符合实际辅助通信设备的延迟要求。

8.1. 临床意义
训练后每次试验的2秒推理延迟，以及观察到在特定训练条件下模型准确率可以超过75%的事实，表明所提出的框架在接近实时的辅助通信应用中具有潜在的可行性。然而，目前的发现是在特定受试者、数据集内部的离线评估环境中获得的。在实际临床应用之前，还需要在在线、闭环和以患者为中心的场景中进行额外的验证。

8.2. 局限性和未来工作
尽管结果很有前景，但这项研究仍存在一些局限性，指出了未来的研究方向。首先，词汇量仅限于六个高频动作动词。为了向实用的通信设备迈进，系统必须扩展以识别更大的词汇库，包括名词、形容词和功能词，这些可能会带来不同的神经编码挑战。其次，实验是在受控的安静实验室环境中进行的。必须评估系统在嘈杂的现实世界环境（例如医院房间）中的性能，并需要整合对抗环境干扰的鲁棒性算法。第三，当前模型是针对每个受试者进行训练和测试的。下一步的关键是研究跨受试者和会话间的泛化。迁移学习、领域适应或开发更不变的神经特征等技术对于创建一个几乎不需要用户特定校准的即插即用系统至关重要。最后，本研究中使用的显性视觉提示的言语产生与纯言语想象不同。未来的工作应该明确比较这些范式，并探索将EEG与其他模态（如近红外光谱）融合，以提供更稳健的言语意图解码。

热点排行