《Neurocomputing》:Federated multi-label feature selection via hybrid breeding optimization algorithm with manifold regularization and sparse constraints
编辑推荐:
多标签特征选择(FS)是降低复杂数据维度的关键技术。然而,在联邦学习框架内部署FS面临独特障碍,特别是在非独立同分布(Non-IID)数据上捕获全局标签相关性、平衡隐私保护与模型效用,以及确保特征质量鲁棒性等方面。为应对这些挑战,本文提出Fed-MFSHBO—
多标签特征选择(FS)是降低复杂数据维度的关键技术。然而,在联邦学习框架内部署FS面临独特障碍,特别是在非独立同分布(Non-IID)数据上捕获全局标签相关性、平衡隐私保护与模型效用,以及确保特征质量鲁棒性等方面。为应对这些挑战,本文提出Fed-MFSHBO——一种利用混合育种优化算法(HBO)、流形正则化与稀疏约束(MRSC)的联邦多标签FS方法。所提方法基于水平联邦学习架构与协作工作流运行。在服务器端,采用基于安全多方计算(SMPC)的安全聚合机制,在不解密原始数据的情况下更新全局特征权重,随后重新分发以指导本地优化。在客户端,HBO-MRSC执行三阶段优化过程:通过拉普拉斯矩阵构建特征-标签流形以捕获非线性关系,使用具有结构保持掩模的HBO演化特征子集,并通过L1/2-范数正则化强制稀疏性。这种迭代协同确保了收敛性与稳定性。在真实数据集上的实验结果表明,所提方法在多个关键性能指标上相比现有联邦与集中式基线方法取得了显著性能提升。
随着网络与通信技术的飞速发展,智能医疗、智能交通与物联网(IoT)等领域涌现出大量高维数据。在许多实际场景中——包括文本分类、图像标注和个性化推荐——一个实例往往关联多个语义标签,形成了多标签学习范式。然而,高维多标签数据通常包含冗余和无关特征,这既增加了计算成本,也带来了过拟合风险。因此,有效的特征选择(FS)已成为多标签学习中的一个基础问题。
与此同时,实际应用越来越要求在严格隐私约束下跨分布式数据孤岛进行协作建模。例如,在多疾病预测中,患者记录分布在不同医院,由于隐私法规限制无法直接共享。类似的挑战也出现在金融风险评估和其他跨组织分析任务中。联邦学习(FL)使得在不集中原始数据的情况下进行协同模型训练成为可能。然而,将FL与高维多标签FS相结合引入了严峻挑战:客户端数据的非独立同分布(Non-IID)特性导致有偏的本地更新,而捕获全局标签相关性和复杂特征交互的必要性使得传统FS方法易于导致冗余保留、优化不稳定和泛化能力下降。
现有的多标签FS方法在不同层面建模标签依赖。一阶策略将每个标签独立处理;二阶策略捕获成对标签关系;高阶方法建模更复杂的依赖但计算成本更高。尽管流形学习、图神经网络(GNN)、循环模型、半监督学习和增量学习在集中式环境中显示出有效性,但在分布式环境中面临可扩展性、隐私和优化挑战。元启发式算法——如遗传算法(GA)、蚁群优化(ACO)和粒子群优化(PSO)——提供了强大的全局搜索能力,并能有效平衡特征多样性与判别力。然而,这些算法主要为集中式数据处理设计,在部署到联邦环境时遇到重大障碍,尤其涉及隐私保护和通信效率。
近期研究试图将FL与多标签FS相结合,通常依赖互信息、模糊信息度量或因果推断。然而,这些方法可能难以捕获高阶结构关系,并且在Non-IID数据下仍易受冗余和低效影响。因此,迫切需要一种联邦多标签FS框架,能够同时保护隐私、保持通信效率,并有效建模标签相关性和特征交互。
为应对这些挑战,研究人员提出了一种新颖的联邦多标签FS方法Fed-MFSHBO,它建立在水平FL框架之上。该框架集成了混合育种优化算法(HBO)、流形正则化、稀疏约束、同态加密(HE)和安全多方计算(SMPC)。具体而言,客户端使用具有流形正则化和稀疏约束的HBO(HBO-MRSC)生成特征子集,用HE加密后传输至中央服务器。服务器随后使用SMPC聚合并解密这些子集,然后重新分发给客户端进行迭代评估直至收敛。受中国生物育种中“三系法”杂交机制的启发,HBO在有效保持种群多样性的同时,兼顾全局与局部优化。它已成功应用于多个领域,包括FS、入侵检测、0-1背包问题和经典工程任务。此外,流形正则化与稀疏约束的集成使HBO能够高效处理高维特征空间,并通过流形学习捕获局部标签相关性,从而增强FS的准确性与稳定性。
在多个领域的真实数据集上的实验结果验证了所提方法在若干关键性能指标上超越了现有的联邦与集中式基准方法,尤其在Non-IID场景下表现突出。本文的主要贡献如下:
• 提出了Fed-MFSHBO,一种具有联合加密机制的隐私保护水平FL框架,用于安全的联邦多标签FS。实验结果表明,与现有技术基线相比,该方法具有一致性提升,在Non-IID设置下平均精度(AP)提升约5.5%,宏F1分数(Macro-F1)和微F1分数(Micro-F1)分别提高约3-4%。
• 开发了HBO-MRSC,一种三阶段多标签FS算法,集成了流形正则化、具有结构保持掩模的混合育种优化以及L
1/2-范数稀疏性,以捕获标签相关性并减少特征冗余。
• 设计了联合HE-SMPC安全聚合协议,能够在不暴露原始数据的情况下实现加密的全局特征权重优化,确保在去中心化环境中的隐私保护。
论文的实验部分在真实数据集上展示了Fed-MFSHBO的有效性。研究结论指出,Fed-MFSHBO作为一种新颖的联邦多标签FS方法,通过集成HBO-MRSC,旨在解决分布式环境中的关键挑战,特别是在Non-IID设置下确保了强大的隐私保护、计算效率和准确的标签相关性建模。该方法通过利用HE和SMPC,在维护FS有效性的同时保护了敏感数据。所提出的HBO-MRSC框架通过系统地构建特征-标签流形、采用混合育种优化进行全局搜索以及施加稀疏约束,有效平衡了特征子集的代表性和紧凑性。研究人员认为,这项工作为隐私敏感和数据分布场景下的高维多标签数据处理提供了一个鲁棒且可扩展的解决方案。