超越简单的重新标记：一种用于在分类和回归任务中纠正错误标签的样本检查框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Data and Information Quality》：Beyond one-time relabeling: A sample inspection framework for correcting noisy labels in both classification and regression tasks

【字体：大中小】 时间：2026年04月06日 来源：Journal of Data and Information Quality

编辑推荐：

　　标签噪声是监督学习中的核心挑战，传统方法假设单次人工重标注即可修正错误，但忽视了人类判断的固有缺陷。本文提出一种通用框架，将重标注建模为迭代且不完美的过程，借鉴工业抽样技术，通过不确定性采样与目标检测，分阶段修正分类和回归任务中的标签冲突。分类任务采用多数投票解决标注分歧，回归任务引入基于平均值的修正策略，逐步逼近真实值。实验表明，该方法在合成数据集和真实图像数据集上均优于基线，尤其与XGBoost结合时效果显著，验证了样本检验机制在跨领域标签修正中的有效性。

要查看此由人工智能生成的摘要，您必须拥有高级访问权限。

了解更多登录

摘要

标签噪声仍然是监督学习中的一个基本挑战，它经常降低模型性能和数据可靠性。虽然许多现有方法假设人类注释者的一次重新标记操作就足以纠正错误，但这种假设忽视了人类判断的固有缺陷。在本文中，我们提出了一个通用框架，将重新标记视为一个迭代且不完美的过程，该框架借鉴了工业样本检测技术的灵感。我们的方法结合了不确定性采样和有针对性的检测，通过重复的注释和聚合来识别和修正错误标记的数据。关键的是，该框架将标签修正扩展到了不仅仅是分类任务，还包括实值回归任务。对于分类数据，我们使用多数投票来解决注释冲突；而对于连续标签，我们引入了一种基于平均值的修正策略，在连续的重新标记轮次中逐步逼近真实值。这种设计使得在噪声环境下系统地完善离散和连续标签成为可能。我们通过两阶段评估来验证我们的方法。首先，在带有合成噪声的干净基准数据集上，我们展示了在各种不确定性指标和模型能力下重新标记效率的显著提升。其次，在一个标签本身就带有噪声的真实世界图像数据集上，我们的方法继续优于基线策略，尤其是与像XGBoost这样的强大学习器结合使用时。我们的研究结果表明，样本检测是一种可扩展且成本效益高的机制，即使在高错误率或计算资源有限的情况下，也能在分类和回归领域实现稳健的标签修正。

人工智能摘要

人工智能生成的摘要（实验性）

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性，并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要，后者仍然是文章的官方总结。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的简单语言摘要，您必须拥有高级访问权限。

联系信箱：

粤ICP备09063491号

摘要

摘要

人工智能摘要

人工智能生成的摘要（实验性）

热点排行