安静与背景噪声下母语与非母语语音的听觉皮层神经编码：针对浊音与送气特征的研究

《Frontiers in Neuroscience》：Neural encoding of native and non-native speech sounds in quiet and in background noise

【字体：大中小】 时间：2026年05月26日 来源：Frontiers in Neuroscience 3.2

编辑推荐：

　　背景（Background）：语音中浊音（voicing）特征的神经编码在单语母语听者中已有较多研究，但关于送气（aspiration）特征、非母语语音特征的神经编码及噪声对该过程影响的研究较少。目的（Purpose）：本研究考察印地语（Hindi）、美式英语

背景（Background）：语音中浊音（voicing）特征的神经编码在单语母语听者中已有较多研究，但关于送气（aspiration）特征、非母语语音特征的神经编码及噪声对该过程影响的研究较少。目的（Purpose）：本研究考察印地语（Hindi）、美式英语（American English）及泰米尔语（Tamil）听者对含英语与印地语浊音及送气特征的双唇塞擦音（bilabial stops）/ba/、/pa/、/pha/在安静与信噪比0的背景噪声下诱发之听觉诱发电位（Auditory Evoked Potentials，AEPs），测量中央电极位点FCz处P1、N1、P2、N2峰值。方法（Method）：共48名受试者（每组16人：印地语、美式英语、泰米尔语母语者，年龄20–45岁），使用插入式耳机以70 dB SPL呈现自然数字化印地语/ba/、/pa/、/pha/及美式英语/ba/、/pa/，记录AEPs。结果（Results）：印地语受试者对印地语辅音–元音（consonant–vowel，CV）刺激的P1与P2峰值振幅显著大于美式英语与泰米尔语受试者；印地语/pha/的波形形态近似英语/pa/，印地语/pa/形态近似英语/ba/；噪声下P1振幅增大、P2振幅减小；美式英语听者对印地语/pa/的N2峰值潜伏期略长于对印地语/pha/。结论（Conclusion）：P1与P2存在跨语言差异，支持自动语音知觉（Automatic Speech Perception，ASP）模型；结果增进了对母语与非母语听者皮层神经编码及噪声调制早期加工阶段的理解。

论文解读：《Neural encoding of native and non-native speech sounds in quiet and in background noise——安静与背景噪声下母语与非母语语音的听觉皮层神经编码：针对浊音与送气特征的研究》（发表于Frontiers in Neuroscience）

研究背景与立项依据

既往研究表明，听觉诱发电位（Auditory Evoked Potentials，AEPs）中的P1–N1–P2复合波可反映语音声学–语音学（acoustic-phonetic）特征的精细编码，但对送气（aspiration）这一音系特征在早期皮层听觉加工中的神经编码研究极少。现有跨语言AEP研究多聚焦浊音（voicing）的嗓音起始时间（Voice Onset Time，VOT）范畴知觉，且多在安静条件下进行，未系统比较母语、第二语言（L2）及无该音系对立语言（如泰米尔语中无声带振动与送气的音位对立）听者对含送气塞音的神经响应差异，亦缺乏背景噪声下此类对比。自动选择性知觉（Automatic Selective Perception，ASP）模型预测非母语听者在次优听音条件（如噪声）下语音线索加工受损。因此，研究人员开展此项三语组、双条件（安静/噪声）、含送气对立辅音–元音（consonant–vowel，CV）刺激的AEP研究，检验早期皮层电位是否受母语经验调制及噪声如何影响其加工。

主要关键技术方法

研究人员招募48名正常听力成人（印地语母语者16人、美式英语母语者16人、泰米尔语母语者16人）。使用自然录制之印地语女声/ba/[带prevoicing，VOT≈?90 ms]、/pa/[短滞VOT≈10 ms]、/p^ha/[长滞VOT≈45 ms，送气≈46 ms]及美式英语女声/ba/[VOT≈19 ms]、/pa/[VOT≈107 ms，强送气≈81 ms]，将爆破释放对齐于93 ms并以静音填充。同时制作对应元音单独（V-only）刺激用于后验减除（CV–V）以分离辅音响应。刺激以70 dB SPL双耳呈现，条件为安静及四说话人多话者言语嘈杂（four-talker speech babble）衍生宽带噪声（Broadband Noise，BBN），信噪比（Signal-to-Noise Ratio，SNR）=0。EEG采用32通道按10–20系统放置，参考鼻尖，FCz为主要分析电极，每试次275次重复。离线降眼电、基线校正（?100~0 ms）、1–30 Hz FIR滤波、±100 μV伪迹剔除，以减去V-only响应获得辅音成分；在总平均波形设定时间窗测定P1、N1、P2、N2峰值振幅与潜伏期，混合设计方差分析（ANOVA）检验组别（Group）×刺激（Stimulus）×条件（Condition）效应。

研究结果

形态学（Morphology of the MGFP waveforms）

三组语言群之平均全脑场功率（Mean Global Field Power，MGFP）波形总体相似。印地语/p^ha/与英语/pa/（均具长滞VOT及送气）CV响应形态近似，印地语/pa/（短滞）与英语/ba/形态近似；CV–V减除波形中印地语/p^ha/显现更明显辅音相关峰，表明送气成分被编码。噪声下所有成分（除P1）振幅衰减、潜伏期延长，P1在噪声下振幅反而增大。

P1峰值振幅与潜伏期（P1 peak amplitudes and latencies at FCz）

印地语CV刺激之P1振幅在印地语听者（均值≈1.036 μV）显著大于美式英语听者与泰米尔语听者（组别主效应p<0.001，partial η2=0.058）；英语CV刺激之P1振幅在美式英语听者最小，印地语听者最大（p=0.028）。噪声下P1振幅整体大于安静（印地语刺激：p<0.001；英语刺激：p<0.001），潜伏期噪声下延长（p<0.001）。刺激主效应显示印地语/ba/P1潜伏期最短（含prevoicing早触发），/p^ha/最长（p<0.001）。表明母语经验可增强P1辅音编码幅度，P1部分反映声学细节及噪声能量。

N1峰值振幅与潜伏期（N1 peak amplitudes and latencies at FCz）

N1振幅与潜伏期无组别主效应（p>0.05），三组反应相当，支持早期N1主要编码声学–时间特征。条件主效应显著：噪声下N1潜伏期延长（印地语刺激F(1,270)=847.50，p<0.001；英语刺激F(1,180)=1085.18，p<0.001）。刺激主效应显著：印地语/p^ha/N1潜伏期最长，/ba/最短（p<0.001）；英语/pa/N1晚于/ba/（p<0.001）。印地语/ba/CV响应可见N1区额外负峰，对应prevoicing，与既往长滞VOT双N1报道一致。

P2峰值振幅与潜伏期（P2 peak amplitudes and latencies at FCz）

CV波形P2振幅无组别差异，但CV–V（辅音成分）中印地语听者P2振幅显著大于两组非母语听者（p=0.010），表明母语经验增强辅音引发之后期正向活动。条件主效应：安静下P2振幅大于噪声（印地语刺激p<0.001；英语刺激p<0.001），噪声下潜伏期延长（p<0.001）。刺激主效应：/p^ha/P2潜伏期最长（p<0.001），与长VOT及送气能量相关。

N2峰值振幅与潜伏期（N2 peak amplitudes and latencies at FCz）

N2振幅无组别差异。条件主效应：安静N2振幅大于噪声（p<0.001），噪声下潜伏期延长（印地语刺激p<0.001；英语刺激p<0.001）。刺激主效应显著：印地语/p^ha/N2潜伏期长于/pa/，/ba/最短（p<0.001）；英语/pa/N2迟于/ba/（p<0.001）。组别×刺激交互显著（p=0.046）：美式英语听者对印地语/pa/N2潜伏期略长于印地语/p^ha/（相反于印地语与泰米尔语听者），反映非母语听者对非对立塞音之感知同化（Perceptual Assimilation Model for L2，PAM-L2）。条件×刺激交互：印地语/ba/N2在噪声与安静下潜伏期相近，而/pa/与/p^ha/N2噪声下明显延迟，提示送气与短滞VOT线索较prevoicing更易受噪声掩蔽。

讨论与结论翻译（Conclusion部分浓缩直译）

本研究表明，印地语、美式英语及泰米尔语听者之AEP（P1–N1–P2–N2）总平均波形形态大体相似，包括泰米尔语听者（其母语无声带振动与送气音位对立），说明声带振动与送气之声学属性即便不被母语音系范畴使用，仍可在皮层水平被编码。背景噪声系统性改变皮层响应：P1振幅在噪声下增大（与噪声能量增加及P1之 obligatory 性质一致），P2等在噪声下振幅减小、潜伏期延长（与行为辨识下降关联）。印地语听者对母语CV刺激较大之P1振幅及辅音减除波较大之P2振幅表明母语经验可锐化声学–语音特征之编码。结果显示早期中线中央电极位点之皮层响应主要受声学–语音表征驱动，但P1与辅音成分P2存在跨语言差异，支持ASP模型。综上，本研究增进了不同音系系统听者对浊音与送气特征皮层编码及噪声调制早期加工阶段之理解。

热点排行