音节级韵律分析与自监督学习融合技术在约鲁巴语语音声调识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Syllable Level Prosody and Self-Supervised Learning Fusion for Tone Recognition in Yorùbá Speech

【字体：大中小】 时间：2026年06月03日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：对于约鲁巴语（Yorùbá）这种资源匮乏的声调语言来说，准确的声调识别仍然是一个难题，这主要是由于标注的语音数据有限，以及连续语音中中声调（Mid）和低声调（Low）之间的声学特征有显著重叠。最近的自监督学习（SSL）模型，如wav2vec 2.0，提供了丰富的声学表示；

摘要：

对于约鲁巴语（Yorùbá）这种资源匮乏的声调语言来说，准确的声调识别仍然是一个难题，这主要是由于标注的语音数据有限，以及连续语音中中声调（Mid）和低声调（Low）之间的声学特征有显著重叠。最近的自监督学习（SSL）模型，如wav2vec 2.0，提供了丰富的声学表示；然而，这些嵌入并没有明确编码音系或声调上下文信息。相比之下，传统的基于韵律的方法依赖于手工制作的声学线索，但这些线索往往容易受到说话者差异和语境变化的影响。为了解决这些问题，本研究提出了一种基于音节的、具有上下文意识的声调识别框架，该框架将显式的韵律特征与音节聚合的SSL嵌入结合在一个短序列BiLSTM模型中。音节被视为承载声调的基本单位，使模型能够捕捉到对于解决中低声调歧义特别重要的局部声调交互。在114,974个标注音节上进行的五折分组交叉验证实验表明，所提出的融合模型在性能上始终优于传统的和基于神经网络的基线模型。该系统的Macro-F1分数为0.903，准确率为0.901，同时将中声调到低声调和低声调到中声调的混淆率分别降低到了2.73%和5.99%。这些发现突显了在声调建模中基于语言学的设计选择的价值，并表明以音节为中心的融合策略为资源匮乏语言中的声调感知语音识别和合成提供了一种实用且可迁移的解决方案。

联系信箱：

粤ICP备09063491号

摘要：

热点排行