
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于阿姆哈拉语语音情感识别的频谱图和局部特征辅助卷积神经网络
《Scientific Reports》:A spectrogram and local feature-assisted convolutional neural network for Amharic speech emotion identification
【字体: 大 中 小 】 时间:2026年05月28日 来源:Scientific Reports 3.9
编辑推荐:
摘要语音情感识别(Speech Emotion Recognition, SER)在改善人机交互和人际交流方面发挥着重要作用。然而,在像阿姆哈拉语这样的资源匮乏的语言中,由于数据集的缺乏和语言多样性问题,语音情感识别仍然是一项具有挑战性的任务。本文提出了一种基于卷积神经网络(Co
语音情感识别(Speech Emotion Recognition, SER)在改善人机交互和人际交流方面发挥着重要作用。然而,在像阿姆哈拉语这样的资源匮乏的语言中,由于数据集的缺乏和语言多样性问题,语音情感识别仍然是一项具有挑战性的任务。本文提出了一种基于卷积神经网络(Convolutional Neural Network, CNN)的方法,该方法结合了频谱图特征和局部声学特征(如梅尔频率倒谱系数、色度、零交叉率、能量和音高),以实现高效的阿姆哈拉语语音情感识别。研究人员构建了一个包含1650个三秒长阿姆哈拉语语音样本的数据集,并将这些样本标注为五种情感类别:愤怒、恐惧、快乐、中性和悲伤。为了提高信号质量并加快训练速度,采用了频谱减法和小波去噪等高级预处理技术。实验结果表明,所提出的基于CNN的方法分类准确率为90%,优于其他基于循环神经网络的方法(长短期记忆网络Long Short-Term Memory的准确率为58.48%、双向长短期记忆网络Bidirectional Long Short-Term Memory的准确率为63.33%、门控循环单元Gated Recurrent Unit的准确率为40%),以及单一特征模型(局部声学特征的准确率为73%、频谱图特征的准确率为79%)。这些结果证实,在CNN架构中整合频谱图和局部声学特征可以提高资源匮乏语言中语音情感识别的准确性和效率,为未来的阿姆哈拉语语音情感识别研究树立了新的标准。