多标签分类在医学领域有重要的应用,特别是在疾病诊断和健康状况评估等场景中[1]。与传统的单标签分类不同,多标签分类能够同时处理多个共存的标签,这在医学实践中尤为常见。例如,一个患者可能同时患有高血压、糖尿病和心脏病,这些疾病之间可能存在相互作用[2]。此外,医学数据的复杂性体现在样本之间的依赖性上:具有相似病史、身体特征或生活方式的患者往往表现出相似的健康状况[3]。因此,多标签分类不仅需要准确预测多个标签,还需要能够捕捉样本之间的复杂关系,以支持更准确的诊断和治疗决策。然而,这项任务的复杂性——多个标签的共存和样本之间的依赖性——对分类模型提出了更高的要求,这通常是传统方法难以处理的[4],[5]。
尽管多标签分类在医学领域非常重要,但其实际应用面临一个重大瓶颈:标记数据的稀缺。在医学研究中,高质量的标记数据通常需要专业医生的诊断和验证,这是一个耗时且成本高昂的过程,导致标记样本的数量远少于未标记样本。例如,在某些医学数据集中,只有0.1–0.2的样本可能被可靠地标记,而剩余的大量未标记数据则被未充分利用[6]。传统的监督学习方法依赖于足够的标记数据,当标记样本不足时容易过拟合,从而限制了模型的泛化能力[7]。这种数据稀缺在医学领域尤为突出,因为医学数据的标记不仅需要专业知识,还可能受到患者隐私保护的进一步限制[8]。因此,半监督学习作为一种能够结合少量标记数据和大量未标记数据的方法,已成为解决这一问题的必要途径,为提高模型性能提供了新的可能性[9],[10]。
传统的半监督学习方法,如标签传播和自我训练,在多标签分类任务中显示出明显的局限性。首先,标签传播方法假设标签通过图结构平滑传播,但在多标签场景中,这种假设过于简单化,无法充分考虑标签之间的相关性[11]。例如,某些疾病(如糖尿病和心脏病)可能存在共病关系,而标签传播往往忽略了这些依赖性,导致预测结果不够准确。其次,自我训练方法通过迭代使用模型预测的伪标签来扩展训练集,但在多标签任务中,初始伪标签的错误可能会通过迭代被放大,特别是当没有对标签相关性进行建模时[12],[13]。此外,朱等人使用传统方法构建图结构时通常依赖于简单的相似性度量(如基于K最近邻的图),这种静态图设计难以适应医学数据中样本间关系的复杂性和多样性,从而限制了特征传播和模型整体性能的有效性[14]。
近年来,图神经网络(GNN)由于其在建模样本间依赖性方面的独特优势,逐渐成为半监督学习的研究热点[15]。通过在整个图结构上传播和聚合特征,GNN能够有效地利用未标记数据的信息,从而提高分类性能。然而,现有的GNN方法在医学领域的多标签分类任务中仍然存在不足[16]。首先,标准的GNN模型(如图卷积网络GCN和图注意力网络GAT)最初是为单标签分类任务设计的,无法在多标签任务中充分利用标签之间的相关性[17]。其次,现有方法在构建图结构时大多采用固定的相似性计算(如欧几里得距离),这缺乏对数据特征的动态适应性,导致图结构可能无法准确反映样本之间的真实关系[18]。此外,现有的多标签GNN模型在优化目标上往往过于简单,无法在标记数据稀缺的情况下充分利用未标记数据的潜在信息。这些限制限制了GNN在复杂医学任务中的性能,迫切需要新的改进方法。
因此,本文提出了一种新的学习框架DisenGAT,用于半监督多标签分类的解包图表示。该框架通过以语义上有意义的方式将学习任务的非监督表示融入监督预测任务中,从而增强了监督预测任务的效果。与直接使用从未标记数据学习到的纠缠表示进行预测的现有工作不同,我们的方法强调规范化的基本原则,明确利用监督任务和非监督任务之间的可转移因子信息。具体来说,我们提出了一种基于径向基函数(RBF)核的动态图构建方法来生成全局级别的拓扑语义解包图编码器。编码器首先将图数据分解为多个因子图,其中因子的数量由超参数n_factor控制(例如n_factor=4)。多通道消息传输层用于提取由因子解释的图表示。每个通道分别传播单个因子图中的特征,并通过单独的读出操作总结图中的不同方面的信息,例如捕捉样本之间的局部关系和标签之间的相互依赖关系。为了增强半监督学习能力,DisenGAT集成了MLSMOTE数据增强和标签传播模块,分别用于生成复合样本和假标签,从而丰富了未标记数据的使用。对于标记数据,我们使用监督目标函数进行训练;对于未标记数据,我们通过基于互信息(MI)的输入分解图及其相应的特征约束来确保解包表示的有效性。此外,我们在每个潜在因子下最大化MI,而不是在整个特征空间中进行解包一致性正则化。此外,结合多任务损失函数(包括监督损失、一致性损失、标签传播损失和InfoMax损失)来平衡标记数据和未标记数据的信息利用。与现有方法相比,这种新的因子分解MI估计策略结合了动态图构建和n_factor控制分解,确保正则化因子更适合当前的半监督多标签分类任务的需求,从而桥接了监督模型和非监督模型。更重要的是,我们证明了该框架可以形式化为通过对数似然最大化问题,通过期望最大化(EM)来解决,这显著提高了模型在标签数据稀缺情况下的泛化能力。
这项研究的创新和贡献主要体现在以下几个方面:
对于半监督多标签分类任务,我们提出了一种新的解包表示学习框架DisenGAT,它明确了模拟的监督模型和非监督模型之间的基本因素。通过引入由n_factor控制的因子分解和基于RBF核的动态图构建,该框架特别适用于医学等多标签稀疏数据场景,并提高了模型的可扩展性。
我们开发了一种基于RBF核心的解包图编码器,结合了由n_factor定义的因子图表示,并引入了MLSMOTE数据增强和标签传播模块来优化未标记数据的使用。此外,基于MI的约束和一致性正则化用于捕捉监督模型和非监督模型之间的特征差异和关系,多任务损失函数旨在优化模型性能。
我们在一个包含3500个样本(500个标记样本、80个特征维度和12个健康状况类别)的数据集上进行了实验。结果表明,DisenGAT在测试集上取得了0.8115的准确率、0.8291的F1分数、0.9520的mAP和0.1885的汉明损失,明显优于基线方法(如GIN的0.7496准确率和0.7368 F1分数、MLP的0.7165 F1分数、GCN的0.5397 F1分数)。此外,通过参数敏感性分析(如n_factor=4的实验),验证了因子分解在提高性能中的关键作用,并证明了其在标签数据稀缺情况下的效率和可解释性。
通过这些创新,DisenGAT在医学多标签分类任务中取得了显著的性能提升,为标签数据稀缺和多标签复杂性问题提供了有效的解决方案。