填补东南亚甲状腺癌AI研究空白:高质量印尼人群PTC病理图像数据集PathoTiroid的构建与验证

《BMC Research Notes》:PathoTiroid dataset: Indonesian collection (PTIC)—a histopathology image dataset for papillary thyroid carcinoma

【字体: 时间:2026年04月22日 来源:BMC Research Notes 1.7

编辑推荐:

  本研究针对东南亚人群高质量、图像级标注的甲状腺乳头状癌(PTC)病理数据集稀缺的问题,构建了PathoTiroid印尼队列(PTIC)。该数据集包含来自46张全玻片图像的1,006张高分辨率病理图,经多阶段严格验证,分为PTC样和非PTC样两类,旨在为PTC的AI模型开发、评估与基准测试提供可重复利用的资源,推动计算病理学发展。

  
在人工智能(AI)席卷医疗领域的今天,计算病理学(Computational Pathology)正成为变革癌症诊断与研究的关键力量。然而,这条通往精准医疗的道路并非坦途,尤其是在全球健康研究的大图景下,一个突出的“数据鸿沟”问题日益凸显:绝大多数用于训练和验证AI模型的医学图像数据都来源于北美、欧洲等发达地区的人群,而来自东南亚、非洲等地区的人群数据则严重缺乏代表性。这种偏差可能导致开发的AI模型在特定人群上“水土不服”,诊断性能下降,从而加剧全球健康不平等。具体到甲状腺癌——全球最常见的内分泌恶性肿瘤,其中甲状腺乳头状癌(Papillary Thyroid Carcinoma, PTC)是最主要的亚型——尽管其病理诊断相对成熟,但高质量、图像级别标注的PTC组织病理学数据集,特别是来源于代表性不足人群的数据集,仍然是一块亟待填补的空白。没有这样的数据基石,针对特定人群开发稳健、可重复的AI模型就无异于空中楼阁,阻碍了计算病理学在更广泛人群中的应用与验证。
为了解决这一关键瓶颈,一项发表在《BMC Research Notes》上的研究应运而生。研究人员致力于构建一个专为PTC AI研究设计的、高质量、可重复利用的病理图像数据集,以支持可重复的AI模型开发和基准测试。这项工作的核心成果是“PathoTiroid数据集:印度尼西亚队列(PathoTiroid Dataset: Indonesian Collection, PTIC)”。该研究并非旨在提出一个新的AI算法,而是为整个研究社区打造一个可靠的数据基础设施。通过创建这个经过专家严格验证的数据集,研究团队旨在促进PTC识别AI模型的开发与评估,并为其提供一个有价值的比较基准,从而推动计算病理学,尤其是在服务不足人群中的公平发展。
为了构建这一数据集,研究人员采用了多项关键技术方法。首先,数据采集来源于印度尼西亚的国家转诊医院,确保了数据的临床相关性和地域代表性。核心数据形式为高分辨率数字病理全玻片图像(Whole-Slide Images, WSIs)。研究人员从46张WSIs中提取了总计1,006个高质量的图像区域。最关键的技术环节在于实施了“严格的多阶段验证流程”,这涉及到病理学专家对图像进行逐级审核与标注,其核心目的是最大限度地减少“标注噪声”,从而提升数据集在监督式深度学习应用中的效用。最终,所有图像被结构化地分为“PTC样”和“非PTC样”两大类,为分类任务提供了清晰的监督信号。
数据描述
该部分详细阐述了PTIC数据集的具体构成与属性。数据集是一个经过精心策划和专家验证的PTC组织病理学图像集合,源自从印度尼西亚国家转诊医院获取的样本。其核心规模为1,006张高分辨率图像,这些图像均从46张全玻片图像(WSIs)中提取得来。研究强调了所采用的严格多阶段验证流程,该流程旨在最小化标注噪声,从而增强数据集对于监督式深度学习应用的实用性。在结构上,数据集被组织成两个主要类别,分别对应于PTC样和非PTC样类别。这一设计直接服务于AI模型进行分类训练与测试的根本需求。
目标
该部分明确了创建此数据集的根本目的与研究意义。数据集创建的首要目标是支持在PTC组织病理学研究中实现“可重复的人工智能模型开发与基准测试”。它是作为一个更广泛研究项目的一部分而产生的,该项目专注于构建和评估用于PTC分类的深度学习模型。研究明确指出,此举是为了解决甲状腺癌,特别是那些来自东南亚代表性不足人群的高质量、图像级注释组织病理学数据集可用性方面的特定空白。此外,数据集被设计为可重复用于各种AI下游任务,包括分类、领域适应、染色标准化和甲状腺病理学中的模型可解释性研究。
归纳整个研究,其核心结论是成功构建并发布了PathoTiroid印尼队列(PTIC)数据集。这个数据集通过提供经过严格质量控制的、来自代表性不足地区(东南亚/印尼)的PTC病理图像资源,直接应对了当前AI医疗研究中存在的数据偏见与空白问题。讨论部分强调了该数据集的多重意义:它不仅是开发PTC分类AI模型的宝贵训练与测试资源,更重要的是,它为解决AI模型在不同人群中的泛化能力问题提供了一个关键的研究基准。通过促进在不同数据上进行公平比较,该数据集有望推动开发出更稳健、更公平的AI辅助诊断工具,最终助力于提升全球,特别是医疗服务不足地区的甲状腺癌病理诊断与研究水平。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号