基于Kolmogorov–Smirnov检验聚类的个性化联邦学习算法研究

《Engineering Applications of Artificial Intelligence》：Research on personalized federated learning algorithm based on Kolmogorov–Smirnov test clustering

【字体：大中小】 时间：2026年04月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　个性化联邦学习算法基于Kolmogorov-Smirnov模糊聚类，通过动态评估客户端数据特征分布相似性，优化多中心聚合机制，有效解决数据异构性问题，实验表明在图像分类任务中性能显著优于现有方法。

张睿|刘青高|杨思岩|王艳|游国东

天津科技大学电子信息与自动化学院，中国天津市300457

摘要

联邦学习允许多个客户端进行联合建模，以协作解决机器学习任务，同时保护数据隐私。然而，研究表明，当多个客户端的数据特征分布不同时，获得的全球模型的性能会下降，并且缺乏泛化能力。为了解决这个问题，本文提出了一种基于Kolmogorov–Smirnov检验的模糊聚类的个性化联邦学习算法。该算法在学习全局模型时，根据客户端本地模型参数的更新情况，自适应地对具有相似数据特征分布的客户端进行聚类和测试。与现有方法相比，所提出的算法可以动态估计每个客户端所属的簇数以及簇之间的模糊边界。我们在独立同分布、Dirichlet和混合三重分布的条件下进行了实验。实验表明，与现有的最先进的聚类联邦学习算法相比，所提出的算法在图像分类任务中表现出更高的准确性和稳定性，并弥补了传统联邦学习算法的缺点，后者在直接聚合具有不同特征分布的数据时效果不佳，导致性能下降。

引言

对于由分布式移动边缘设备生成的工业大数据，集中式训练可能会面临数据隐私和安全问题（Cai等人，2023年），而联邦学习可以更好地适应当前隐私条件下的数据驱动模型训练过程。联邦学习能够在多个客户端节点上分布的数据上进行模型训练，旨在与多个客户端协作构建更好的机器学习模型，同时确保数据不被共享。

现有的联邦学习研究主要集中在模型同质性的场景上。然而，在实际的联邦学习中，经常存在与客户端之间的异质性相关的挑战，例如数据分布、模型架构和硬件设备的差异。异质性是当今联邦学习面临的核心和根本性挑战之一（Li等人，2020年；Kairouz等人，2021年）。具体来说，工业大数据中普遍存在统计异质性，表现为客户端之间的数据特征分布存在显著差异。这种情况不满足传统联邦学习框架的假设，即多个客户端训练单一的全局模型。在存在统计异质性的情况下，当客户端之间的数据特征分布不一致且数据是非独立同分布（Non-IID）时（Gong等人，2022年；Li等人，2022年），使用单一的全局模型可能会对某些参与客户端产生不利影响，模型难以充分学习和平衡每个客户端的数据特征分布（T. Li等人，2021年）。在这种情况下，传统联邦学习方法的性能往往会显著下降。这是因为客户端之间数据特征分布的不一致性增加了全局模型的不确定性。

在本文中，我们专注于基于聚类的联邦学习来解决统计异质性问题。现有方法通过考虑本地模型参数或梯度更新参数的相似性来为所有客户端进行个性化聚类，使每个客户端的本地模型能够捕捉本地数据特征的变化，而不仅仅是全局数据特征的变化。这些个性化的聚类联邦学习方法使客户端能够相互受益，并更好地适应其本地数据特征分布，同时减少来自数据特征差异较大客户端的干扰。然而，在减轻由全局和本地特征分布不匹配引起的性能下降方面仍存在挑战。

首先，传统的基于聚类的联邦学习方法通常根据固定的簇边界来划分客户端。虽然这种方法可以在一定程度上捕捉客户端数据的相似性，但它未能充分考虑每个簇内的个体差异。每个客户端的数据分布中可能存在显著的变化，但传统的聚类方法往往无法动态调整或优化这些边界，导致某些客户端的聚类性能较差。

其次，尽管现有的聚类方法实现了簇边界的动态变化，但仍需要初始化固定数量的簇。这在处理数据分布复杂的客户端时可能导致不同程度的相似性偏差，从而影响模型在个性化任务中的性能稳定性。因此，这些方法缺乏适应客户端之间异构数据的灵活性，提供的个性化调整不足，从而无法有效解决数据异质性问题。

第三，由于真实的本地数据通常来自多个来源，它们可能包含多种数据特征分布的混合。然而，一些软聚类联邦学习方法（Ruan和Joe-Wong，2022a）缺乏满足不同混合分布下客户端个性化模型实际需求所需的细粒度模型调整能力。

总之，当前基于聚类的联邦学习方法在处理异质性方面的局限性源于它们忽视了客户端的个性化需求、动态变化以及簇内知识共享机制的约束。它们无法有效适应客户端之间的多样化数据特征。因此，为了解决联邦学习框架中的统计异质性挑战，我们提出了一种基于Kolmogorov–Smirnov模糊聚类（KSFCM）的新颖个性化联邦学习框架。假设可以根据客户端的数据特征分布将它们划分为不同的簇，每个簇的成员具有相似性。中央服务器根据它们本地模型的相似性将客户端分组，而无需访问任何客户端数据。

在每轮通信后，服务器会对所有参与客户端上传的训练模型参数进行聚类。通过引入K-S非参数假设检验，我们改进了模糊C均值聚类算法。使用软聚类方法，它可以自适应地对具有相似数据特征分布的客户端进行聚类。计算客户端发送的梯度更新参数之间的K-S距离，以重新组织簇或其成员。一旦聚类计算停止，所有客户端将形成重叠的簇。同时，采用EM优化算法来定义簇边界，并通过多中心客户端聚合机制促进聚合和分布过程。然后客户端使用正则化来训练聚合模型，从而生成个性化模型。最终，该算法旨在尽可能让具有相似数据特征分布的客户端聚集在一起，从而从这个协作过程中受益。

我们的框架消除了预先设置簇数的需要，能够自适应地处理具有不同数据分布特征的客户端。此外，它支持在整个学习过程中进行连续的聚类更新，有效应对现实世界的统计异质性挑战，并提高本地模型的准确性。

本文的主要贡献有三个方面：

(1) 我们提出了一种创新的个性化聚类联邦学习算法KSFCM。该算法不仅消除了预先设置簇数的需要，还根据客户端数据的统计异质性动态估计和划分最优簇及其成员，有效解决了非独立同分布（Non-IID）分布带来的挑战。

(2) 为了解决非独立同分布数据的挑战，我们设计了一种多中心客户端聚合机制。该机制从三个维度构建和分析模型：客户端聚合过程、相似性测试和模糊聚类。目标是让每个客户端同时属于多个簇，从而更有效地处理数据分布不均的问题。

(3) 我们对不同特征分布场景下的本地客户端数据进行了数据划分，并选择了三个基准图像数据集进行评估。实验结果表明，与现有的联邦学习方法相比，我们提出的方法具有更高的有效性。

本文的其余部分组织如下：第2节介绍相关工作。第3节描述了系统模型的整体框架，并解释了设计的多中心客户端聚合机制。第4节提出了一种基于Kolmogorov–Smirnov模糊聚类的新颖个性化聚类联邦学习算法。第5节展示了实验结果，第6节得出了结论。

系统模型和问题表述

在本节中，我们将首先描述所提出的聚类联邦学习方法的系统框架，包括客户端与中央服务器之间的通信过程，然后定义并数学表述这一过程中的簇间交互和簇内成员聚合方面，作为一个多中心客户端聚合机制。

直觉

客户端吸收与其他类似客户端的知识，这种计算相似性的方法通常使用本地模型梯度向量方向相似性度量或参数间相关性度量来实现，但仅考虑梯度向量之间的方向和幅度相关性作为聚类原则可能存在缺陷。如图3(a)所示，考虑了具有三种不同高斯分布的本地数据的客户端

数据集分布

为了验证所提出方法的有效性，本文分别在MNIST、EMNIST和CIFAR10数据集上进行了实验。我们设置了三种场景来测试在不同联邦算法应用下客户端端本地模型的平均准确性，以衡量本地模型的个性化程度。

独立同分布（IID）场景：数据集在每个客户端之间均匀分配，原始训练数据集和测试数据集是随机选择的

结论

本文提出了一种基于聚类联邦学习的多客户端个性化方法，主要解决了现实世界场景中客户端私有数据异质性的挑战。提出了一种基于K-S检验的模糊聚类算法，它可以自适应地划分具有数据分布相似性的多个客户端。

CRediT作者贡献声明

张睿：撰写 – 审稿与编辑，撰写 – 原稿，方法论，资金获取，概念化。刘青高：撰写 – 审稿与编辑，软件，形式分析。杨思岩：撰写 – 原稿，验证，软件，形式分析。王艳：监督，资源。游国东：验证，软件。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了内蒙古自治区重点研发与成果转化计划项目（项目编号：2023YFJM0007、2025YFSH0070、2026YFHH0043）以及内蒙古自治区自然科学基金（项目编号：2024ZD26）的资助。

摘要

引言

相关工作

相关工作

系统模型和问题表述

直觉

数据集分布

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行