基于图神经网络的人体健康半监督多标签分类

《Journal of Computational Science》:Semi supervised multi label classification of human health based on Graph Neural Network

【字体: 时间:2026年04月21日 来源:Journal of Computational Science 3.7

编辑推荐:

  针对医疗领域多标签分类中标注数据稀缺的问题,本文提出半监督框架DisenGAT,通过动态图构建(基于RBF核)和分解特征表示,结合多任务损失函数(含监督损失、一致性损失、标签传播损失和互信息最大化损失),有效融合标注与未标注数据。实验表明在3500样本的12类医疗数据集上,DisenGAT的F1分数达0.8291,较基线方法提升显著。

  
年福忠|莫晓琳
兰州工业大学计算机与人工智能学院人工智能研究所,中国兰州730050

摘要

在医学领域分析复杂的健康状况时,多标签分类非常重要,但标签数据的稀缺严重限制了分类性能。为了解决这个问题,本文提出了一种新颖的半监督多标签分类框架DisenGAT,该框架专注于从标记和未标记数据中学习监督模型和非监督模型。与传统的方法(如依赖手动特征的MLP或基于简单图结构的GCN)不同,DisenGAT通过基于径向基函数(RBF)核的动态图构建、解耦的特征表示和标签相关性正则化,有效地捕捉样本之间的局部关系以及标签之间的共同疾病依赖性。具体来说,我们设计了一个解耦图编码器来生成监督模型和非监督模型的因子图表示,并通过多任务损失函数(包括监督损失、一致性损失、标签传播损失和InfoMax损失)对模型进行训练,以确保信息从非监督到监督的有效传递。为了验证DisenGAT的有效性,我们在一个包含3500个样本(500个标记样本、80个特征维度和12个健康状况类别)的数据集上进行了实验。结果表明,DisenGAT在测试集上取得了0.8115的准确率、0.8291的F1分数、0.9520的mAP和0.1885的汉明损失,明显优于基线方法(如GIN、MLP、GCN、APPNP、FAGCN等)。实验结果充分证明了DisenGAT在标签数据稀缺情况下的强大泛化能力,并为医学多标签分类任务提供了有效的解决方案。

引言

多标签分类在医学领域有重要的应用,特别是在疾病诊断和健康状况评估等场景中[1]。与传统的单标签分类不同,多标签分类能够同时处理多个共存的标签,这在医学实践中尤为常见。例如,一个患者可能同时患有高血压、糖尿病和心脏病,这些疾病之间可能存在相互作用[2]。此外,医学数据的复杂性体现在样本之间的依赖性上:具有相似病史、身体特征或生活方式的患者往往表现出相似的健康状况[3]。因此,多标签分类不仅需要准确预测多个标签,还需要能够捕捉样本之间的复杂关系,以支持更准确的诊断和治疗决策。然而,这项任务的复杂性——多个标签的共存和样本之间的依赖性——对分类模型提出了更高的要求,这通常是传统方法难以处理的[4],[5]。
尽管多标签分类在医学领域非常重要,但其实际应用面临一个重大瓶颈:标记数据的稀缺。在医学研究中,高质量的标记数据通常需要专业医生的诊断和验证,这是一个耗时且成本高昂的过程,导致标记样本的数量远少于未标记样本。例如,在某些医学数据集中,只有0.1–0.2的样本可能被可靠地标记,而剩余的大量未标记数据则被未充分利用[6]。传统的监督学习方法依赖于足够的标记数据,当标记样本不足时容易过拟合,从而限制了模型的泛化能力[7]。这种数据稀缺在医学领域尤为突出,因为医学数据的标记不仅需要专业知识,还可能受到患者隐私保护的进一步限制[8]。因此,半监督学习作为一种能够结合少量标记数据和大量未标记数据的方法,已成为解决这一问题的必要途径,为提高模型性能提供了新的可能性[9],[10]。
传统的半监督学习方法,如标签传播和自我训练,在多标签分类任务中显示出明显的局限性。首先,标签传播方法假设标签通过图结构平滑传播,但在多标签场景中,这种假设过于简单化,无法充分考虑标签之间的相关性[11]。例如,某些疾病(如糖尿病和心脏病)可能存在共病关系,而标签传播往往忽略了这些依赖性,导致预测结果不够准确。其次,自我训练方法通过迭代使用模型预测的伪标签来扩展训练集,但在多标签任务中,初始伪标签的错误可能会通过迭代被放大,特别是当没有对标签相关性进行建模时[12],[13]。此外,朱等人使用传统方法构建图结构时通常依赖于简单的相似性度量(如基于K最近邻的图),这种静态图设计难以适应医学数据中样本间关系的复杂性和多样性,从而限制了特征传播和模型整体性能的有效性[14]。
近年来,图神经网络(GNN)由于其在建模样本间依赖性方面的独特优势,逐渐成为半监督学习的研究热点[15]。通过在整个图结构上传播和聚合特征,GNN能够有效地利用未标记数据的信息,从而提高分类性能。然而,现有的GNN方法在医学领域的多标签分类任务中仍然存在不足[16]。首先,标准的GNN模型(如图卷积网络GCN和图注意力网络GAT)最初是为单标签分类任务设计的,无法在多标签任务中充分利用标签之间的相关性[17]。其次,现有方法在构建图结构时大多采用固定的相似性计算(如欧几里得距离),这缺乏对数据特征的动态适应性,导致图结构可能无法准确反映样本之间的真实关系[18]。此外,现有的多标签GNN模型在优化目标上往往过于简单,无法在标记数据稀缺的情况下充分利用未标记数据的潜在信息。这些限制限制了GNN在复杂医学任务中的性能,迫切需要新的改进方法。
因此,本文提出了一种新的学习框架DisenGAT,用于半监督多标签分类的解包图表示。该框架通过以语义上有意义的方式将学习任务的非监督表示融入监督预测任务中,从而增强了监督预测任务的效果。与直接使用从未标记数据学习到的纠缠表示进行预测的现有工作不同,我们的方法强调规范化的基本原则,明确利用监督任务和非监督任务之间的可转移因子信息。具体来说,我们提出了一种基于径向基函数(RBF)核的动态图构建方法来生成全局级别的拓扑语义解包图编码器。编码器首先将图数据分解为多个因子图,其中因子的数量由超参数n_factor控制(例如n_factor=4)。多通道消息传输层用于提取由因子解释的图表示。每个通道分别传播单个因子图中的特征,并通过单独的读出操作总结图中的不同方面的信息,例如捕捉样本之间的局部关系和标签之间的相互依赖关系。为了增强半监督学习能力,DisenGAT集成了MLSMOTE数据增强和标签传播模块,分别用于生成复合样本和假标签,从而丰富了未标记数据的使用。对于标记数据,我们使用监督目标函数进行训练;对于未标记数据,我们通过基于互信息(MI)的输入分解图及其相应的特征约束来确保解包表示的有效性。此外,我们在每个潜在因子下最大化MI,而不是在整个特征空间中进行解包一致性正则化。此外,结合多任务损失函数(包括监督损失、一致性损失、标签传播损失和InfoMax损失)来平衡标记数据和未标记数据的信息利用。与现有方法相比,这种新的因子分解MI估计策略结合了动态图构建和n_factor控制分解,确保正则化因子更适合当前的半监督多标签分类任务的需求,从而桥接了监督模型和非监督模型。更重要的是,我们证明了该框架可以形式化为通过对数似然最大化问题,通过期望最大化(EM)来解决,这显著提高了模型在标签数据稀缺情况下的泛化能力。
这项研究的创新和贡献主要体现在以下几个方面:
对于半监督多标签分类任务,我们提出了一种新的解包表示学习框架DisenGAT,它明确了模拟的监督模型和非监督模型之间的基本因素。通过引入由n_factor控制的因子分解和基于RBF核的动态图构建,该框架特别适用于医学等多标签稀疏数据场景,并提高了模型的可扩展性。
我们开发了一种基于RBF核心的解包图编码器,结合了由n_factor定义的因子图表示,并引入了MLSMOTE数据增强和标签传播模块来优化未标记数据的使用。此外,基于MI的约束和一致性正则化用于捕捉监督模型和非监督模型之间的特征差异和关系,多任务损失函数旨在优化模型性能。
我们在一个包含3500个样本(500个标记样本、80个特征维度和12个健康状况类别)的数据集上进行了实验。结果表明,DisenGAT在测试集上取得了0.8115的准确率、0.8291的F1分数、0.9520的mAP和0.1885的汉明损失,明显优于基线方法(如GIN的0.7496准确率和0.7368 F1分数、MLP的0.7165 F1分数、GCN的0.5397 F1分数)。此外,通过参数敏感性分析(如n_factor=4的实验),验证了因子分解在提高性能中的关键作用,并证明了其在标签数据稀缺情况下的效率和可解释性。
通过这些创新,DisenGAT在医学多标签分类任务中取得了显著的性能提升,为标签数据稀缺和多标签复杂性问题提供了有效的解决方案。

章节片段

多标签分类方法

多标签分类旨在为样本分配多个相关标签。传统的二元相关性(BR)和标签幂集(LP)方法在简单场景中是可行的,但在面对复杂的标签依赖性时存在局限性。
BR将多标签问题分解为多个独立的二元分类,每个标签对应一个分类器,这种方法实现简单、计算效率高且适合并行处理[19]。然而,它完全

概述

在这项研究中,我们提出了一种名为DisenGAT的新型半监督多标签分类方法。该方法旨在通过图神经网络和标签相关性正则化,充分利用标记数据和未标记数据的潜在信息。DisenGAT的核心概念是通过样本之间的图结构传播特征。它通过一致性约束和标签传播提高了未标记数据的利用效率,同时

数据集

自2020年以来,我们的团队成功开发了一种创新的医疗监测系统——多导体经络动态智能检测系统。该系统基于黄帝内经的中医理论,结合了现代人工智能技术,全面捕捉人体80个关键部位的生物电信号,实现个体健康状况的实时监测。
我们使用了多导体经络动态智能

结论

本文提出了一种名为DisenGAT的新半监督多标签分类框架,旨在解决医学领域多标签分类中标记数据稀缺的核心问题。该框架的目的是通过解包表示学习从标记数据和未标记数据中有效提取知识。具体来说,DisenGAT由一个监督模型和一个非监督模型组成。基于径向基函数的动态图构建方法

CRediT作者贡献声明

年福忠:研究、形式分析、概念化。莫晓琳:写作——审阅与编辑、写作——原始草稿、可视化、方法论、研究、形式分析、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(编号:62266030、61863025)的支持。
年福忠1998年在中国兰州西北师范大学(物理系)获得工程学士学位;2004年在中国兰州甘肃工业大学获得工程硕士学位;2011年在中国大连工业大学获得工程博士学位。他对数学建模、网络科学和控制理论在生物学、社会网络和混沌网络应用方面的研究感兴趣。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号