超越简单的重新标记:一种用于在分类和回归任务中纠正噪声标签的样本检查框架

《Journal of Data and Information Quality》:Beyond one-time relabeling: A sample inspection framework for correcting noisy labels in both classification and regression tasks

【字体: 时间:2026年04月22日 来源:Journal of Data and Information Quality

编辑推荐:

  标签噪声是监督学习的核心挑战,现有方法假设单次人工修正即可纠错,但忽视了人类判断的固有缺陷。本文提出通用标注修正框架,借鉴工业样本检测技术,通过迭代的不确定性采样与目标检测机制,结合多数投票(分类)和平均校正(回归)策略,系统性优化标注噪声。实验表明,该框架在合成数据集和真实图像数据集上均显著优于基线方法,尤其与XGBoost等强学习者结合时效果更佳,验证了样本检测机制在分类和回归任务中的可扩展性与成本效益优势。

  
要查看此由AI生成的摘要,您必须具有高级访问权限。

摘要

摘要

标签噪声仍然是监督学习中的一个根本性挑战,它经常降低模型性能和数据可靠性。尽管许多现有方法假设人类注释者的一次重新标记操作就足以纠正错误,但这种假设忽略了人类判断的固有缺陷。在本文中,我们提出了一个通用框架,将重新标记视为一个迭代且不完美的过程,这一框架的灵感来自工业样本检测技术。我们的方法将不确定性采样与有针对性的检测相结合,通过重复的注释和聚合来识别和修正错误标记的数据。关键的是,该框架将标签校正扩展到了不仅仅是分类任务,还包括实值回归任务。对于分类数据,我们使用多数投票来解决注释冲突;而对于连续标签,我们引入了一种基于平均的校正策略,在连续的重新标记轮次中逐步逼近真实值。这种设计使得在噪声环境下能够系统地细化离散和连续标签。我们通过两阶段评估来验证我们的方法。首先,在带有合成噪声的干净基准数据集上,我们在各种不确定性指标和模型能力方面展示了显著的改进。其次,在一个标签本身就带有噪声的真实世界图像数据集上,我们的方法继续优于基线策略,尤其是在与XGBoost等强大学习器结合使用时。我们的研究结果表明,样本检测是一种可扩展且成本效益高的机制,即使在高错误率或计算资源有限的情况下,也能在分类和回归领域实现鲁棒的标签校正。

AI摘要

AI生成的摘要(实验性)

此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍然是文章的官方总结。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由AI生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号