互补标准与逆功率归一化伽马啁啾倒谱方法在抗噪声扬声器识别中的应用

《IEEE Access》:Complementary Standard and Inverted Power Normalized Gammachirp Cepstral Approach for Noise-Robust Speaker Identification

【字体: 时间:2026年05月28日 来源:IEEE Access 3.6

编辑推荐:

   摘要: 尽管人类在嘈杂环境中具有识别说话者的自然能力,但自动说话者识别系统在这种条件下仍会面临显著的性能下降。本文提出了一种补充的特征提取方法,该方法将“反向功率归一化Gammachirp倒谱”(invPNGC)系数与原始PNGC系数相结合,以提高在具有挑战性的声学环境中的说话

  

摘要:

尽管人类在嘈杂环境中具有识别说话者的自然能力,但自动说话者识别系统在这种条件下仍会面临显著的性能下降。本文提出了一种补充的特征提取方法,该方法将“反向功率归一化Gammachirp倒谱”(invPNGC)系数与原始PNGC系数相结合,以提高在具有挑战性的声学环境中的说话者识别鲁棒性。invPNGC方法整合了两个关键创新:(1)“反向Gammachirp滤波器组”(invGcFB),使用“反向等效矩形带宽”(invERB)比率尺度在高频率下提供高分辨率,有效捕获传统方法常忽略的说话者特定辅音信息;(2)受人类听觉掩蔽启发的“噪声抑制模块”(NSM)。此外,这两种系数的结合产生了cmpPNGC,从而能够捕捉到全面的频谱表示。在混合了AURORA噪声类型的TIMIT数据库上进行的全面实验表明,所提出的方法使用“高斯混合模型-通用背景模型”(GMM-UBM)进行说话者建模时,显著优于基线技术(PNGC、PNCC、MFCC、FDLP和FDLP-Mel)。例如,在展览噪声环境中,cmpPNGC、invPNGC和PNGC的平均识别准确率分别为77.38%、73.87%和66.75%(0-30dB信噪比),而PNCC为50.35%,MFCC为48.43%,FDLP为49.96%,FDLP-Mel为36.45%。这些结果证实了优先考虑高频频谱线索对于鲁棒的说话者识别的重要性。这些发现表明,cmpPNGC特征为在具有挑战性的噪声条件下部署的生物特征认证和法医语音分析系统提供了可靠的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号