《Frontiers in Human Neuroscience》:The current status of foundation models in decoding inner speech from non-invasive brain signals: a mini review
编辑推荐:
内心言语(Inner Speech, IS),即无外显发音的想象言语,是针对闭锁综合征等严重言语障碍人群实现交流功能恢复的脑机接口(Brain–Computer Interface, BCI)的重要研究方向。基础模型(Foundation Model, FM)
内心言语(Inner Speech, IS),即无外显发音的想象言语,是针对闭锁综合征等严重言语障碍人群实现交流功能恢复的脑机接口(Brain–Computer Interface, BCI)的重要研究方向。基础模型(Foundation Model, FM)通常依托大规模数据集,采用自监督学习(Self-Supervised Learning, SSL)范式进行训练,为从神经信号中学习可迁移且鲁棒的特征表征提供了新的技术路径。本小型综述系统梳理了面向非侵入式神经影像模态的内心言语解码基础模型方法,涵盖功能性磁共振成像(functional Magnetic Resonance Imaging, fMRI)、脑电图(Electroencephalography, EEG)、脑磁图(Magnetoencephalography, MEG)及功能性近红外光谱(Functional Near-Infrared Spectroscopy, fNIRS),重点分析了架构演进趋势、预训练策略及模型适配技术。研究人员指出,近期模型正逐步突破任务特定分类的局限,向可扩展表征学习与语义级解码方向发展。尽管取得上述进展,该领域仍面临多重挑战:神经信号本身具有弱信号、强噪声与非平稳特性;数据采集存在个体差异与协议不统一问题;同时在数据集规模、标准化程度、计算资源、模型可解释性及评估指标体系方面存在明显局限。此外,伦理与隐私议题亦不可忽视。总体而言,基础模型为非侵入式内心言语解码提供了极具前景的技术范式,但要构建可扩展且可靠的脑机接口系统,仍需系统性解决神经生理学、方法论及伦理层面的各类挑战。
1 引言
言语是日常交流的核心媒介,但神经系统疾病、创伤及退行性病变均可导致言语功能受损。内心言语,亦称言语思维或隐蔽自我对话,指无外显或亚发声发音的内部语言体验,涵盖沉默或意图言语(尝试发音但不产生声音)、发音运动想象及语音复述(为支持工作记忆而对语音进行内部重复)等相关范式。这些范式激活不同的神经系统并产生差异化的信号特征,直接影响解码性能。本综述采纳维果茨基模型,将内心言语定义为纯粹意义的内部化思维过程,区别于运动想象或语音复述。从非侵入式脑信号中解码内心言语,有望为闭锁综合征等严重功能障碍患者恢复交流能力提供可行方案。
内心言语可诱发言语相关脑区活动,其神经基础已通过多种神经影像模态得到验证,包括功能性磁共振成像、脑电图、脑磁图、功能性近红外光谱及皮层脑电图(Electrocorticography, ECoG)。其中,皮层脑电图可提供高时空分辨率的颅内神经活动记录,已有多项研究利用其优势实现了较高解码性能。然而,该方法依赖侵入式电极植入,限制了其可扩展性与泛化能力。相比之下,非侵入式模态虽整体性能较低,但具备良好的可扩展性,并在内心言语解码中展现出可观潜力。不同模态在信号原理、时空分辨率及权衡取舍方面存在显著差异,这些差异直接影响解码表现,并推动多模态融合与先进分析方法的发展,以提升解码可靠性。
近年来,机器学习与算力进步显著加强了认知神经科学与实际应用之间的联系,例如从脑信号中解码内心言语。传统解码方法包括经典机器学习分类器与深度学习模型。支持向量机、随机森林与梯度提升机等传统技术被用于基于特征的内心言语分类。深度学习模型则无需人工特征提取,卷积神经网络、循环神经网络及其混合架构已取得显著成果。然而,监督式深度学习依赖大规模标注数据集,限制了模型的鲁棒性与泛化能力。基础模型通过无标注数据的 pretext 任务训练,可迁移至多个下游任务,已在脑信号鲁棒表征学习中取得成功,并逐步应用于内心言语解码。
本综述系统梳理了2022至2025年间代表性非侵入式神经影像基础模型研究及其在内心言语解码中的潜在应用,检索数据库包括IEEE Xplore、PubMed、Scopus及Google Scholar。鉴于自监督学习是多数基础模型的核心,相关研究也被纳入分析。研究人员重点讨论了推动鲁棒且可迁移内心言语解码系统发展的关键技术进展、现存挑战与未来方向。
2 神经信号处理基础模型框架
基础模型已成为人工智能领域的重要范式,能够从大规模无标注数据中学习,并适配多种下游任务。其整体框架包括预处理(可选)、自监督预训练、下游适配及任务依赖型评估指标。
输入数据层面,模型需在广泛且常为非结构化的数据集上训练,以捕获通用表征。脑信号数据集具有高维性、丰富时间动态、强噪声及显著的被试间与采集条件差异。虽然基础模型可降低对昂贵人工标注的依赖,但神经记录(如EEG与fMRI)的高度不规则性与动态性,使得为其预训练施加一致结构十分困难。
自监督学习是基础模型的核心训练策略,通过设计生成式或对比式 pretext 任务(如预测掩码输入或重建损坏信号)利用数据内在信息,学习有信息量的隐表征。对比学习作为自监督学习的重要子类,通过正负样本对学习数据的判别性表征。基础模型依托自监督或无监督技术在大规模数据集(大语言模型、视频、图像、脑信号及结构化数据)上训练,以实现下游任务的灵活适配。
架构设计是影响基础模型从原始信号中捕获与编码相关信息的关键因素。神经信号基础模型需实现三个目标:捕获局部信号模式、建模跨通道交互并保持对噪声与伪迹的鲁棒性、扩展至长时程上下文以学习更广依赖关系。典型架构包含分词层、局部表征学习模块、时空注意力机制及下游任务头。针对神经信号的非平稳特性,模型可采用信号分割方法将连续时间序列转换为结构化表征,即分词。分词策略(窗口长度、重叠与非重叠片段等)可针对计算效率与建模性能进行优化。同时,分词可能削弱时空信息,因此通常引入位置嵌入并叠加至投影输入,以保留时间与空间结构。
神经信号基础模型通常由多个非线性Transformer块组成,可同时捕获局部模式与长程依赖,且Transformer模型支持高效的模型并行,适合大规模数据集训练。但非Transformer架构(如CNN或CNN-Transformer混合模型)可利用卷积的空间归纳偏置,避免过拟合。此外,基础模型可配置为仅编码器架构或编码器-解码器混合架构。仅编码器模型由骨干编码器与最终全连接层构成,骨干作为特征提取器将输入转换为低维表征,再经任务头输出分类或回归结果。编码器-解码器混合模型则增加解码器模块,基于编码器表征生成输出,适用于生成式或重建类任务(如神经信号到文本或神经信号到语音嵌入)。
模型适配阶段,预训练骨干支持跨下游任务的神经信号表征复用与迁移,适配程度可根据数据可用性与域偏移进行调整。例如,骨干可完全冻结仅作为特征提取器,或通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法仅更新少量参数。
3 非侵入式神经影像与内心言语解码中的基础模型
近期研究日益将基础模型原则应用于EEG、MEG、fMRI及fNIRS等非侵入式模态。本综述依据大规模预训练、自监督学习范式及跨下游任务可迁移性,将模型分为基础模型与自监督学习/非基础模型两类。虽然仅有部分研究直接针对内心言语解码,其余模型因具备可迁移表征也被纳入。此外,内心言语研究的任务复杂度差异显著,从闭集分类到连续开放词汇生成,后者对非侵入式解码尤为困难。
在EEG与MEG等电生理模态中,LaBraM与LBLM等大规模预训练模型旨在从异质多被试数据集中学习通用可迁移表征,并已适配分类与内心言语解码等任务。在此基础上,基于Transformer的架构也被探索用于EEG内心言语解码。例如,有研究应用预训练轻量BERT模型进行六类内心言语分类,但性能接近随机水平,表明当前EEG解码仍受限。其他方法如CET-MAE引入了语言对齐表征学习,将EEG嵌入映射到与文本表征共享的语义空间。近期预训练范式(如未来谱时预测)与生成框架(如NeuroTalk)进一步探索了面向有限词汇场景的可迁移表征学习。一项MEG研究也表明,扩大数据与自监督学习规模可提升跨被试言语解码性能,虽主要针对感知言语而非内心言语,但对跨被试内心言语解码技术发展具有重要参考价值。
在fMRI研究中,同样呈现出向表征学习的趋势。BrainLM、Brain-JEPA、SLIM-Brain及NeuroSTORM等模型标志着从任务特定预测转向学习通用皮层表征。fMRI-LM进一步结合大规模多被试预训练,并与预训练语言模型对齐,提升了跨被试可迁移性。已有证据表明,自监督语音模型(如wav2vec 2.0)的层级表征与分布式皮层语音处理模式存在对齐,说明此类模型能够捕获生物学意义明确且结构分层的语音表征。
除fMRI外,血流动力学神经影像中也出现了基础模型探索。例如,fNIRS模型表明可扩展预训练策略可推广至血流动力学模态。近期系统如MindSpeech结合了预训练语言模型,实现了连续、开放词汇且语义引导的解码,但词汇准确率较低,语义相似度中等,尚未达到临床可用阈值。这些局限凸显了单模态解码的不足,推动了统一多模态框架的发展,以整合互补的非侵入式神经模态。例如,BrainOmni旨在泛化至EEG与MEG记录,学习共享时空表征,该跨模态框架有望促进内心言语解码的知识迁移。
4 讨论
尽管基础模型在脑机接口中的应用进展迅速,但在实现可扩展且可靠的内心言语解码方面,仍存在结构性、方法论与实践性障碍。
4.1 规模、计算约束与数据异质性
基础模型依赖海量多样数据集,通过自监督目标学习神经数据中的潜在结构模式。然而,神经影像数据收集成本高昂且规模有限。此外,在高维神经影像数据上训练高容量时空模型对计算资源要求极高。
除规模限制外,神经数据本身具有异质性与非平稳性。采集协议、扫描参数、预处理流程与实验范式的差异,增加了数据聚合与大规模预训练的复杂度。神经记录还易受伪迹干扰,进一步影响鲁棒性。这些问题在多模态场景下尤为突出,因为EEG、MEG、fMRI与fNIRS的信号在时空特性上存在本质差异。
近期的大规模数据集(如LibriBrain与MOUS)是迈向可扩展神经语音建模的重要进展,但专门针对内心言语的数据集通常限于单模态与小样本,同步多模态神经数据采集的研究极少。此外,现有内心言语数据集在语言多样性方面也存在不足。语言形态复杂性、声调结构与词语切分等语言学属性可能导致不同的皮层激活模式。因此,需要标准化数据共享、统一预处理流程、采用BIDS等标准数据格式、规范实验范式,并发展面向神经影像数据的可扩展训练策略。克服这些限制,是实现有效大规模基础模型、促进跨被试与跨语言泛化,并最终学习鲁棒、不变且可泛化的内心言语神经表征的关键。
4.2 内心言语的神经生理学约束及其对基础模型的影响
从复杂神经活动中解码内心言语的内容面临多重任务特异性挑战。首先,内心言语相关神经信号通常弱于外显或尝试言语信号,且噪声更高。虽然内心言语与传出副本等内部运动预测相关,但缺乏外显发音导致外部时间标记缺失,降低了神经信号的可预测性。
此外,非侵入式内心言语解码受限于低信噪比(如头皮EEG)、言语编码的分布式与复杂性,以及显著的被试间差异。从基础模型角度看,这要求自监督学习方法能够从弱、嘈杂且非平稳的神经信号中学习不变的时空表征。同时,开发能够区分由神经系统疾病(如卒中与闭锁综合征)及认知特征差异引起的神经表征变异的鲁棒解码器,仍是该领域的核心挑战。
4.3 评估指标与可解释性
传统性能指标(如分类准确率与F1值)适用于闭集分类任务,但不足以捕捉句子级解码的语义保真度。生成式框架中,BLEU与ROUGE等指标可评估文本匹配程度,但无法全面反映语义保真度。为此,METEOR与BERTScore等更具语义导向的指标被引入。实际脑机接口系统还需关注比特率、字符错误率、词错误率、平均词符错误率及延迟等衡量通信效率与实时可用性的指标。然而,目前仍缺乏能够可靠反映深层概念含义并简洁汇总模型性能的标准化评估协议,阻碍了内心言语解码研究的公平比较。
另一瓶颈在于基础模型解码器的可解释性。深度学习模型捕获的复杂非线性模式难以从神经科学角度解释,常表现为“黑箱”系统。这种不透明性结合皮层复杂性与被试间差异,限制了可解释性,并引发信任与伦理部署担忧。注意力与显著性可视化等方法虽能提供一定决策洞察,但通常不足以揭示模型决策机制,且缺乏神经科学基础。更具神经科学导向的方法(如表征相似性分析)可比较模型嵌入与皮层活动模式的相似性结构。发展内在可解释的框架,使其输出透明且反馈清晰,并与神经科学原理保持一致,仍是重要挑战。
4.4 连续与实时内心言语解码
现实脑机接口应用要求基础模型解码器能够实时处理弱且非平稳的神经信号。然而,内心言语缺乏外显行为锚点,使得起始检测困难,成为连续开放词汇解码的根本挑战。此外,非侵入式模态对神经活动的测量间接且空间粗糙,限制了对与言语产生相关的高频发音表征的捕获能力。设计在计算效率、鲁棒性与适应性之间取得平衡的基础模型,仍是可扩展脑机接口系统的开放性问题。
相比之下,基于皮层脑电图的侵入式脑机接口已实现连续言语解码,并在部分场景中接近实时运行,性能与词汇量均显著更高。这些系统利用与言语产生直接相关的皮层高频活动,获得远高于非侵入式的信号保真度。尽管多数结果来自外显或尝试言语而非内心言语,但已确立了性能上限,凸显了侵入式与非侵入式方法之间的差距,也反映出非侵入式基础模型在实现连续内心言语解码方面的关键局限。
4.5 伦理与隐私考量
伦理与隐私问题是内心言语解码技术发展的核心。神经数据高度敏感,受严格隐私与制度约束。与其他生物医学信号不同,脑源数据不仅可能泄露言语内容,还可能暴露被试的心理状态。这对内心言语解码尤为重要,因为内心言语被广泛视为内在私密心理过程,个体借此进行规划、反思并编码指导行为的表征。因此,必须建立强有力的隐私保障与透明框架。新兴技术方案(如联邦学习)可在不集中数据共享的前提下实现协作模型训练,生物信息驱动的合成数据增强可减少对原始神经记录的依赖。透明度与可解释性对增强公众信任、缓解“读心术”担忧至关重要。健全的知情同意框架、用户自主权与清晰的隐私边界,是负责任部署的前提条件。
随着技术向现实应用转化,更广泛的伦理与社会议题日益凸显。准入公平性、监管与负责任使用必须得到审慎对待,尤其需防范潜在偏见、不平等准入及现有社会不平等的放大。应对这些挑战需要工程师、伦理学家、临床医生与政策制定者的跨学科合作,确保技术进步与适当的治理框架及负责任部署保持一致。
综上所述,基础模型正日益应用于非侵入式神经影像内心言语解码。通过大规模自监督预训练与可迁移表征,其为数据密集型监督方法提供了有前景的替代方案。这类模型有望改善跨被试泛化能力、捕获上下文依赖,并缓解数据稀缺问题。然而,数据集规模有限、神经生理学约束、评估指标不一致(尤其是语义解码方面)、可解释性及伦理关切仍是关键挑战。实现连续、实时的内心言语解码,并构建鲁棒、透明且隐私保护系统依然困难重重。融合基础模型、神经科学与人机交互的进展,将是发展可扩展且值得信赖的内心言语解码系统的必由之路。