超越简单的重新标记:一种用于在分类和回归任务中纠正错误标签的样本检查框架

《Journal of Data and Information Quality》:Beyond one-time relabeling: A sample inspection framework for correcting noisy labels in both classification and regression tasks

【字体: 时间:2026年04月06日 来源:Journal of Data and Information Quality

编辑推荐:

  标签噪声是监督学习中的核心挑战,传统方法假设单次人工重标注即可修正错误,但忽视了人类判断的固有缺陷。本文提出一种通用框架,将重标注建模为迭代且不完美的过程,借鉴工业抽样技术,通过不确定性采样与目标检测,分阶段修正分类和回归任务中的标签冲突。分类任务采用多数投票解决标注分歧,回归任务引入基于平均值的修正策略,逐步逼近真实值。实验表明,该方法在合成数据集和真实图像数据集上均优于基线,尤其与XGBoost结合时效果显著,验证了样本检验机制在跨领域标签修正中的有效性。

  
要查看此由人工智能生成的摘要,您必须拥有高级访问权限。

摘要

摘要

标签噪声仍然是监督学习中的一个基本挑战,它经常降低模型性能和数据可靠性。虽然许多现有方法假设人类注释者的一次重新标记操作就足以纠正错误,但这种假设忽视了人类判断的固有缺陷。在本文中,我们提出了一个通用框架,将重新标记视为一个迭代且不完美的过程,该框架借鉴了工业样本检测技术的灵感。我们的方法结合了不确定性采样和有针对性的检测,通过重复的注释和聚合来识别和修正错误标记的数据。关键的是,该框架将标签修正扩展到了不仅仅是分类任务,还包括实值回归任务。对于分类数据,我们使用多数投票来解决注释冲突;而对于连续标签,我们引入了一种基于平均值的修正策略,在连续的重新标记轮次中逐步逼近真实值。这种设计使得在噪声环境下系统地完善离散和连续标签成为可能。我们通过两阶段评估来验证我们的方法。首先,在带有合成噪声的干净基准数据集上,我们展示了在各种不确定性指标和模型能力下重新标记效率的显著提升。其次,在一个标签本身就带有噪声的真实世界图像数据集上,我们的方法继续优于基线策略,尤其是与像XGBoost这样的强大学习器结合使用时。我们的研究结果表明,样本检测是一种可扩展且成本效益高的机制,即使在高错误率或计算资源有限的情况下,也能在分类和回归领域实现稳健的标签修正。

人工智能摘要

人工智能生成的摘要(实验性)

此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍然是文章的官方总结。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的简单语言摘要,您必须拥有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号