互补标准与逆功率归一化伽马啁啾倒谱方法在抗噪声扬声器识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Complementary Standard and Inverted Power Normalized Gammachirp Cepstral Approach for Noise-Robust Speaker Identification

【字体：大中小】 时间：2026年05月28日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：尽管人类在嘈杂环境中具有识别说话者的自然能力，但自动说话者识别系统在这种条件下仍会面临显著的性能下降。本文提出了一种补充的特征提取方法，该方法将“反向功率归一化Gammachirp倒谱”（invPNGC）系数与原始PNGC系数相结合，以提高在具有挑战性的声学环境中的说话

摘要：

尽管人类在嘈杂环境中具有识别说话者的自然能力，但自动说话者识别系统在这种条件下仍会面临显著的性能下降。本文提出了一种补充的特征提取方法，该方法将“反向功率归一化Gammachirp倒谱”（invPNGC）系数与原始PNGC系数相结合，以提高在具有挑战性的声学环境中的说话者识别鲁棒性。invPNGC方法整合了两个关键创新：（1）“反向Gammachirp滤波器组”（invGcFB），使用“反向等效矩形带宽”（invERB）比率尺度在高频率下提供高分辨率，有效捕获传统方法常忽略的说话者特定辅音信息；（2）受人类听觉掩蔽启发的“噪声抑制模块”（NSM）。此外，这两种系数的结合产生了cmpPNGC，从而能够捕捉到全面的频谱表示。在混合了AURORA噪声类型的TIMIT数据库上进行的全面实验表明，所提出的方法使用“高斯混合模型-通用背景模型”（GMM-UBM）进行说话者建模时，显著优于基线技术（PNGC、PNCC、MFCC、FDLP和FDLP-Mel）。例如，在展览噪声环境中，cmpPNGC、invPNGC和PNGC的平均识别准确率分别为77.38%、73.87%和66.75%（0-30dB信噪比），而PNCC为50.35%，MFCC为48.43%，FDLP为49.96%，FDLP-Mel为36.45%。这些结果证实了优先考虑高频频谱线索对于鲁棒的说话者识别的重要性。这些发现表明，cmpPNGC特征为在具有挑战性的噪声条件下部署的生物特征认证和法医语音分析系统提供了可靠的解决方案。

联系信箱：

粤ICP备09063491号

摘要：

热点排行