测试周期性与可预测性在听觉节律性线索呈现并发语音中的差异效应

《Frontiers in Human Neuroscience》：Testing differential effects of periodicity and predictability in auditory rhythmic cueing of concurrent speech

【字体：大中小】 时间：2026年05月30日 来源：Frontiers in Human Neuroscience 2.7

编辑推荐：

　　感知夹带与时间预测有助于在安静与嘈杂环境中进行语音感知。等时、周期性的听觉节律线索能够促进神经夹带与时间预期，从而有利于目标语音的编码与感知。然而，大多数使用等时线索的研究将周期性与可预测性混为一谈。为此，研究人员通过系统性地改变刺激速率、目标相位、周期性以及

感知夹带与时间预测有助于在安静与嘈杂环境中进行语音感知。等时、周期性的听觉节律线索能够促进神经夹带与时间预期，从而有利于目标语音的编码与感知。然而，大多数使用等时线索的研究将周期性与可预测性混为一谈。为此，研究人员通过系统性地改变刺激速率、目标相位、周期性以及夹带声音前驱的可预测性等声学维度的参数，刻画了这些变化如何影响随后并发语音目标的识别。目标并发元音对之前呈现了节律性的木鱼线索，这些线索分为三类：周期性-可预测（PP，等时节律）、非周期性-可预测（AP，加速节律）或非周期性-不可预测（AU，随机节律）。每种节律的脉冲数量被随机调整，以进一步操纵可预测性。刺激还在呈现速率（2.5、4.5、6.5 Hz）以及目标语音相对于先前夹带节律的相位（同相，0°；异相，-90°，180°）上存在变化。研究人员还测量了参与者的音乐脉冲延续能力与标准化的噪声语音感知能力。研究人员未观察到刺激节律、速率或目标相位对目标语音识别准确率的任何影响。然而，在名义语音速率（4.5 Hz）下反应时最慢，并且在PP节律之后的异相呈现对反应时的干扰最大。双元音任务表现与更强的音乐脉冲延续能力相关，但与噪声语音感知无关。研究结果支持以下观点：依赖于节律线索的感知夹带受益于自上而下的加工，因此当刺激可预测性未知时，其效应相对减弱。此外，研究人员发现，音乐脉冲感知的个体差异可能是节律线索呈现对后续语音感知产生益处的基础。

语音感知中，时间背景至关重要。听者利用自然语音节奏以多种方式促进理解，包括将语音分割成有意义的单元、预测后续的时间模式，以及将目标语音从背景噪声中分离出来（Ding et al., 2014; McAuley et al., 2020; Smith et al., 2024）。这种能力可能由神经夹带支持，即将持续的低频神经振荡与外部刺激（如语音）的周期性锁定（Ding and Simon, 2014）。对语音的神经夹带是跨听觉环境成功理解语音的基础（Peelle and Davis, 2012; Riecke et al., 2018; Etard and Reichenbach, 2019）。因此，新兴的文献研究了先前节律线索对神经夹带及后续语音材料感知的有益影响。“前向夹带”指的是这样一种现象：已与外部刺激耦合的神经振荡在刺激停止后仍会持续短暂窗口（最多几个周期）（Lakatos et al., 2019; Saberi and Hickok, 2022, 2023）。这种效应增强了在噪声中进行音高检测和音高辨别时的感知敏感性（Jones et al., 2002; Hickok et al., 2015; Farahbod et al., 2020; Solli et al., 2025），可能是通过振荡耦合和将注意力导向时间上的显著点（即动态注意理论；Jones and Boltz, 1989; Large and Jones, 1999）实现的。类似地，节律线索已被证明有益于安静和噪声环境下的语音处理（Falk et al., 2017; Fernández-Merino et al., 2025; te Rietmolen et al., 2025），但关于节律线索参数如何影响语音感知的研究尚少。大多数研究使用类似节拍器的完美等时线索（Jones et al., 2002; te Rietmolen et al., 2025）。这在增强语音感知方面可能混淆了线索的周期性与可尝试解决这个问题，Solli等人（2025）在噪声中音高辨别任务的音调探测之前，呈现了周期性、可预测（PP，类似节拍器）、非周期性但可预测（AP，以稳定的刺激间隔比率加速）以及非周期性、不可预测（AU，随机）的线索。虽然PP和AP线索都增强了目标音高的感知，但只有PP线索促进了神经夹带。虽然该研究表明周期性相比可预测性为感知提供了额外益处，但节律刺激始终包含相同数量的夹带脉冲；因此，在某种程度上，所有刺激在某种程度上都是可预测的，因为每次都可以“倒数”刺激。不幸的是，这种刺激设计无法区分周期性与可预测性对任务促进作用的相对益处；在固定数量的事件之后，目标始终在某种程度上高度可预测。对语音的神经夹带似乎在4–5 Hz时得到增强（He et al., 2023, 2024; Momtaz and Bidelman, 2024），这被认为是跨世界许多语言观察到的“理想”音节速率（Assaneo and Poeppel, 2018; Assaneo et al., 2019; Doelling et al., 2019）。一些节律线索研究显示，当线索速率匹配音节速率和较慢的“音步”速率时，噪声中的语音理解得到改善（te Rietmolen et al., 2025）。另一些研究表明，当线索与后续语音目标的音节结构匹配时，节律线索促进了语音-大脑的一致性（Fernández-Merino et al., 2025）。因此，根据其速率的不同，节律可能以不同方式促进语音处理。语音本身也具有准周期性，这意味着对语音的神经夹带可能对目标时间的微小差异更具鲁棒性。事实上，Solli等人（2025）发现，当目标音高相对于基于线索刺激间隔（ISI）的预期时间以预期相位（0°）呈现时，PP线索引发了特定相位的益处，这与动态注意理论的预测一致（Jones and Boltz, 1989; Large and Jones, 1999）。然而，对于AP线索，未观察到这种相位特异性。因此，虽然改变目标语音相位可能会增强或破坏节律线索对后续听觉感知的益处，但这种效应似乎与即将到来的刺激的可预测性密切相关。在此，研究人员通过呈现类似的构建（PP、AP和AU）线索于语音目标之前，扩展了Solli等人（2025）的发现，以测试先前的节律周期性和可预测性如何影响后续的语音感知。研究人员选择双元音（DV）混合物作为语音目标（Assmann and Summerfield, 1989, 1990），因为这些刺激已广泛用于听觉感知研究，以调查短期和长期听觉经验对快速并发语音感知的影响，且未观察到天花板效应（Alain et al., 2007; Yellamsetty and Bidelman, 2018, 2019; MacLean et al., 2024; MacLean et al., 2025）。为了参数化测试速率效应，研究人员在2.5、4.5和6.5 Hz之间变化节律的速率。为了测试线索-目标相位的影响，研究人员以与先前节律同相（0°）或异相（-90° 早期，180° 晚期）的方式呈现DV目标。关键的是，研究人员还调整了先前节律线索中的脉冲数量，以防止听者仅仅在固定数量的事件后预测语音信号。这在以前的研究中未得到良好控制（例如，Hickok et al., 2015; Solli et al., 2025）。总体而言，研究人员的设计试图区分刺激周期性（自下而上的神经夹带）和可预测性（自上而下的预测加工）对目标语音识别的影响。研究人员招募了24名年轻成人参与者（年龄18-35岁；均值 ± 标准差：22.04 ± 3.30，16名女性）。样本量是事先确定的，以确保拉丁方平衡的两个完整重复，并与节奏线索语音感知中的类似研究相匹配（样本量n = 17-32; Falk et al., 2017; Steffman, 2021; Berthault et al., 2024）。所有参与者在250至8,000 Hz倍频程频率范围内具有双侧正常听阈（<25 dB HL），精通美式英语，并报告无精神病或神经系统疾病史。参与者有不同程度的自报音乐训练经历（范围：0-23年；均值 ± 标准差：7.83 ± 7.06年）。利手性通过爱丁堡利手问卷评估（范围：-15至100%；均值 ± 标准差：64.79 ± 32.98%）（Oldfield, 1971）。所有研究程序，包括书面知情同意，均按照印第安纳大学机构审查委员会批准的方案进行（#23256）。研究人员移除了一名无法完成全部任务的参与者的数据，最终得到23名参与者的数据集。实验任务中，每次试验的目标语音之前呈现三种节律线索之一，以2.5、4.5或6.5 Hz的速率呈现。目标也可能与先前的节律同相或异相出现。试验按速率分块；节律线索和相位在速率内随机排序。每个条件有24次试验，总共648次试验（= 3个速率 × 3个相位 × 3个节律 × 24次重复）。研究人员使用拉丁方在参与者之间随机化分块顺序。在每次试验中，参与者通过键盘按键识别目标（双元音）。测量了准确率（两个元音正确识别的百分比）和反应时。听觉刺激通过ER-2插入式耳机以79 dB声压级双耳呈现，使用由MATLAB控制的TDT RZ6接口。目标刺激由双元音对组成。每对包含两个稳态元音（/a/、/e/ 和 /i/）同时呈现三种独特组合。单个元音声音是通过MATLAB中的Klatt合成器创建的。每个元音持续100毫秒，具有10毫秒的余弦平方升/降斜坡以防止频谱泄露。元音对包含一个基频为150 Hz的元音和另一个基频为190 Hz的元音。在主要任务之前，研究人员要求所有参与者以100%的准确率识别单个元音，以确保任务表现测量的是并发语音识别而非孤立的声音标记。实际实验任务要求参与者识别一对中的两个元音才能算正确。每个节律旨在操纵先前节律线索对后续目标语音检测的周期性和/或可预测性。节律由100毫秒木鱼线索的序列构建。节律以三种不同的名义速率呈现，以评估刺激速率在诱导感知夹带方面的影响。每个节律条件包含7-9个木鱼声音，在试验间随机调整以防止参与者预测即将到来的双元音目标。对于给定速率，有三种类型的节律线索呈现在目标之前。对于特定的速率，周期性-可预测（PP）节律由以固定刺激间隔呈现的木鱼序列组成，基于该分块的刺激速率具有相同的周期。非周期性-可预测（AP）节律从比名义速率慢1.5倍开始，脉冲刺激间隔加速，最终在序列结束时达到名义速率。AP刺激去除了刺激周期性但保留了可预测性。非周期性-不可预测（AU）节律是PP线索的伪随机抖动版本，刺激间隔围绕名义速率抖动。AU刺激既缺乏周期性也缺乏可预测性，因此预期对目标感知无信息量。无论如何，在同相条件下，整个节律序列和双元音目标之间的时间总是等于给定速率的名义刺激间隔，以便在异相条件下操纵目标的相位。除了速率和节律周期性/可预测性，研究人员还改变了目标相对于先前节律的相对相位，以进一步检验感知夹带对语音感知的假定效应。目标元音对相对于先前节律序列中最后一个脉冲以三种相位呈现：同相（0°）、异相早期（-90° 提前）或异相晚期（180° 滞后）相对于先前的刺激间隔。研究人员使用广义线性混合模型分析了因变量。所有模型使用了节律条件、速率和相位的固定预测因子及其全部双向和三向交互作用。模型包含了受试者的随机截距和允许模型收敛的速率随机斜率。试验水平的准确率数据被编码为二元数据，并使用具有二项链接函数的基线逻辑模型拟合。研究人员使用了Wald卡方检验来评估预测因子的显著性。为了评估噪声语音和音乐能力对模型的贡献，研究人员拟合了额外模型，包含标准化的QuickSIN分数、标准化的BDAT分数以及正式音乐训练年限作为连续固定效应。包含BDAT分数的模型显示出显著优于基线模型的拟合度，而其他协变量并未改善模型拟合。因此，研究人员只讨论包含BDAT的模型结果。对于反应时，仅分析了正确的试验。反应时也进行了调整以考虑刺激间隔，并通过对数变换进行正态化。研究人员使用lmer模型分析连续反应时数据。事后成对比较使用Tukey校正进行调整。效应量报告为对数优势比或偏η2。自由度使用Satterthwaite方法计算。研究人员进行了偏相关分析以评估双变量关系。研究结果显示，在试次水平上，Wald检验揭示准确率不受目标相位、速率、节律条件及其交互作用的影响。然而，研究人员发现BDAT分数正向预测任务准确率；更好的音乐脉冲延续分数预测了节律线索呈现后更大的双元音识别准确率。对于语音识别的反应时，反应时受到目标相位与节律类型交互作用的调节，这是由于在-90°（异相早期）目标位置相对于180°（异相晚期）和0°（同相）位置反应时更长，尤其是在PP节律条件下。反应时也受到先前节律速率的调节，主要是由于4.5 Hz刺激速率相对于2.5 Hz的反应时更长。未观察到其他主效应或交互作用。研究人员在语音感知准确率（跨任务条件合并）、噪声语音感知表现（QuickSIN）、音乐脉冲延续能力（BDAT）和音乐训练年限之间进行了偏相关分析。研究人员观察到音乐训练年限与BDAT分数之间存在显著关系，复制了先前的发现。QuickSIN信噪比损失分数与任务准确率、反应时或BDAT分数均无相关性。偏相关矩阵中的所有其他关系均不显著。
研究人员通过在节奏线索并发元音范式中操纵速率、周期性和目标相位，旨在评估先前的音乐节奏（诱导感知夹带）对后续语音感知的影响。研究人员发现：（a）并发元音识别的反应时（即速度），而非准确率，受到节律线索操纵的影响（相位与节律交互作用；速率主效应）；（b）音乐脉冲延续能力的外部测量与任务准确率正相关，并与听者的音乐训练量相关；（c）线索化的语音感知与噪声语音感知的外部测量无关。研究人员未发现感知夹带对语音识别准确率的影响。并发元音识别准确率不受刺激速率、节律周期性/可预测性或目标相位操纵的影响。尽管先前的节律线索已被证明会影响后续的听觉检测和语音感知，但这种效应并非普遍观察到。研究人员认为，其刺激操纵未能引发感知准确率益处的可能原因包括：（a）节律线索的随机调整；（b）可能缺乏对节律线索的注意；（c）缺乏分级校准的刺激难度。研究人员认为，节律线索随机调整可能破坏了线索可预测性，先前从节律线索看到的益处可能更多地依赖于对感知的自上而下的预期效应，而非自下而上的神经夹带本身。或者，改变夹带声音的数量可能会破坏线索较快速率（此处为4.5 Hz）在振荡层级中与较慢速率的嵌套。至少，研究结果表明随机调整是未来前向夹带实验的关键补充；随机调整的加入可以进一步区分周期性/可预测性与可能同样对节律线索促进听觉感知负责的简单预期效应。研究人员指出，对夹带刺激的主动注意对于持续的神经夹带可能至关重要。没有对先前节律的强烈注意捕获，参与者可能不会体验到与注意相关的神经夹带增强，从而减弱对并发元音感知的益处。由于研究人员随机调整了刺激，参与者可能部分忽略了木鱼线索，这将降低节律线索的认知动态注意益处。然而，研究人员认为参与者只是“忽略”了节律线索的简单解释不太可能，因为反应时决策速度确实随着先前节律速率的变化而变化。这证实了节律启动影响了后续语音感知，尽管效应较弱。与假设相反，AP和PP条件通过节律线索提供的额外可预测性和周期性并未有益于并发元音识别。这与使用类似节律线索进行音高识别的先前工作形成对比。然而，之前的这项研究在噪声中呈现目标音调，并测量个性化的信噪比阈值以在75%准确率下平衡听者之间的表现。相比之下，研究人员使用安静环境下的双元音混合物，未进行表现分级校准。但研究人员注意到，任务中的听者达到了大致相似的表现水平（75-80%）。除双元音刺激的语音叠加特性外，研究表明夹带节律线索在困难或嘈杂的听觉环境中或在近阈值检测中存在水平不确定性时可能最有帮助。因此，任务中缺乏噪声或量身定制的难度也可能解释了节律性对语音感知准确率缺乏强烈影响的原因。与准确率不同，目标语音识别的决策速度受到启动节律速率的调节。研究人员原本预期在4.5 Hz时反应时更快，因为该速率下神经夹带选择性增强。然而，结果显示，在4.5 Hz节律之后，反应时比更快（6.5 Hz）或更慢（2.5 Hz）的速率更慢。研究人员推测，非语音木鱼线索与目标双元音混合物之间的速率相似性可能在4.5 Hz的“理想”语音速率下引发了更多的感知混淆（即认知失调）。或者，2.5和6.5 Hz可能根据典型的唤醒/疲劳表现模型引发了同样更快的反应时。由于速率分块顺序在参与者之间得到控制，三分之二的参与者以“非理想”速率条件开始实验；这种时间背景可能在初始速率条件中促进了语音识别，但以牺牲后续速率为代价，影响了4.5 Hz条件。无论如何，研究结果表明4.5 Hz的节律线索处理存在差异，值得进一步研究。研究人员还观察到相位与节律类型之间存在交互作用；在PP节律条件下，反应时在异相早期（-90°）条件下最慢。因此，对于完美周期性的节律，早期相位（目标出现在其预期位置之前四分之一间隔处）对后续语音感知最具破坏性。相比之下，180°相位可能被视为反拍，这是许多西方流行音乐风格的定义特征，因此可能不那么具有破坏性。这种交互作用发生在PP节律条件下，偏离了预期的节律类型主效应，表明该节律通过其高周期性和可预测性建立了最强的时间预期，也许可以解释为什么该条件比AP/AU条件表现出更大的反应时干扰。研究人员发现的反应时改善幅度与先前研究一致，这些研究同样显示40-100毫秒的反应时变化。几项研究同样在反应时范式中显示了前向夹带的效应，无论感知准确率是否发生变化。更好的音乐脉冲延续能力（通过BDAT测量）预测了研究人员感知夹带任务中更好的语音识别准确率。这一发现表明存在领域一般的夹带能力，支持音乐节拍和节律线索的时间信息的感知延续。这种节律夹带可能通过振荡机制运作，形成一种预测加工。BDAT的解释力表明，具有强大内部音乐脉冲的个体在节奏线索语音感知中表现更好。由于研究人员的任务没有不包含节律线索的条件，其数据无法回答通用脉冲延续能力是否更广泛地解释并发语音感知。然而，非典型节律能力与语言障碍中的发育缺陷之间的联系支持了听觉时间处理与接受性语音交流之间的一般关联。研究人员也复制了先前研究，证明音乐脉冲延续表现与音乐训练正相关。拥有更多自报音乐训练经历的听者表现出更好的音乐节拍内部心理表征。这一结果增加了大量证据，表明训练有素的音乐家具有更强的听觉感知技能和改善的时间处理能力。由于音乐训练与任务准确率不相关，似乎BDAT时间技能独立于正式音乐专业知识预测语音感知的某些方面。内部脉冲或神经夹带是否可以被专门训练以有益于噪声语音感知仍有待观察，尽管未来的纵向研究可以解决这个问题。基于先前的工作，研究人员预期双元音识别表现会与通过QuickSIN测量的噪声语音表现相关。尽管趋势符合预期方向，但QuickSIN分数与BDAT脉冲延续阈值或节律线索任务表现均无相关性。这表明研究人员的线索化语音任务依赖于与连续语音感知不同的机制。此外，完全可能甚至很可能的是，节律线索呈现可能在噪声退化下的连续语音感知以及在近阈值水平（其他促进信号噪声增强的机制可以发挥作用）时具有更强的效应。未来的研究需要验证这种可能性。研究人员通过操纵并发元音范式中的速率、周期性、可预测性和目标相位，旨在评估先前的音乐节奏（诱导感知夹带）对后续语音感知的影响。研究发现：并发元音识别的反应时（即速度），而非准确率，受到节律线索操纵的影响；音乐脉冲延续能力的外部测量与任务准确率正相关，并与听者的音乐训练量相关；线索化的语音感知与噪声语音感知的外部测量无关。研究人员未发现感知夹带对语音识别准确率的影响。这可能与节律线索的随机调整、对线索注意力的潜在缺乏以及任务未进行难度校准有关。研究结果表明，依赖于节律线索的感知夹带可能更依赖于自上而下的加工，因此当刺激可预测性未知时，其效应相对减弱。此外，音乐脉冲感知的个体差异可能是节律线索呈现对后续语音感知产生益处的基础。

热点排行