大规模容错流水线执行的协调联邦表格合成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

大规模容错流水线执行的协调联邦表格合成

《Neurocomputing》：Orchestrating federated tabular synthesis at scale with fault-tolerant pipeline execution

【字体：大中小】 时间：2026年05月31日 来源：Neurocomputing 6.5

编辑推荐：

　　跨孤岛表格数据集支持众多机器学习应用，但法规和治理通常禁止集中原始记录。在差分隐私（DP）下进行合成表格的联邦合成提供了一种实用替代方案；然而，数据分区增加了局部统计的方差，且每个站点的DP噪声在聚合器处累积，产生信噪比（SNR）瓶颈，损害保真度。本文提出Fe

跨孤岛表格数据集支持众多机器学习应用，但法规和治理通常禁止集中原始记录。在差分隐私（DP）下进行合成表格的联邦合成提供了一种实用替代方案；然而，数据分区增加了局部统计的方差，且每个站点的DP噪声在聚合器处累积，产生信噪比（SNR）瓶颈，损害保真度。本文提出FedForge，一种容错流水线，用于协调多方工作负载引导的DP合成。该系统不是联合高维神经网络权重，而是估计并安全聚合低维噪声直方图边际，并在聚合数据上训练生成模型，这限制了在DP下随模型大小增长的敏感度增长。该设计整合了自适应通信与错误反馈量化、用于协调器可扩展性的分层聚合、当参与方断开连接时基于缓存的恢复检查点，以及当工作负载演变时的增量更新。在八个公共表格基准测试中，与五个联邦和集中式基线相比，基于边际的FedForge提高了工作负载准确性，相较于基于权重的联邦生成器和联邦扩散训练；同时，自适应编码减少了通信量，相比朴素传输。结果一致表明，跨方分布异质性是与仅隐私噪声相比的主要残差误差来源，为异构联盟中的隐私预算选择提供了信息。源代码公开以支持可重复性。

数据保护法规（包括GDPR [1]、CCPA和HIPAA）的扩散在数据驱动组织中制造了一个悖论：大量表格数据存在于机构孤岛中，但跨组织分析在法律和实践上均不可行。合成数据生成提供了一个吸引人的解决方案，产生统计上忠实的替代品，在不暴露个体记录的情况下保留分析效用 [2], [3]。当与差分隐私（DP）[4], [5]结合时，合成数据提供了形式化、可量化的隐私保证，满足监管要求。联邦学习 [6], [7] 使模型训练无需集中原始数据，近期工作已将此范式扩展到合成数据生成 [8], [9]。具体而言，在聚合噪声边际上训练扩散模型可以生成针对特定查询工作负载优化的合成数据，同时保持每方差分隐私。然而，联邦引入了基本的信噪比（SNR）瓶颈：每方仅持有总数据的一小部分，这放大了局部经验边际的方差，而针对局部灵敏度校准的每方DP噪声进一步降低了信号。当参与方数量K=10时，有效噪声基底相比集中机制处理池化数据时大致翻倍，使得谨慎的通信设计、容错聚合和隐私预算管理对实际效用至关重要。除统计瓶颈外，现实部署必须应对不可靠的网络连接、异构方能力、变化的数据分布和演化的分析工作负载——这些挑战无现有研究原型能解决。考虑一个具体动机场景。一个由五家区域医院组成的联盟寻求生成统一的合成患者数据集用于流行病学研究。每方持有10,000到500,000条记录，模式完整性不一。在48小时的合成运行中，一家医院经历六小时网络中断，另一家运行在带宽受限的VPN后，研究团队在过程中添加新分析查询。无现有联邦合成系统能在此场景下处理而不从头重启，且联邦的SNR退化意味着每个浪费的隐私预算单位——无论是冗余通信、失败方还是粗量化——直接转化为合成数据质量降低。研究人员注意到估计噪声边际并在聚合数据上训练生成模型的想法源于集中工作——特别是AIM [2]和PrivSyn [3]。本文未声称基于边际的合成原语本身的新颖性。相反，贡献在于使此原语在联邦、多方部署中可靠高效运行所需的系统工程：具有检查点恢复的容错协调、具有错误反馈量化的自适应通信、用于协调器可扩展性的分层聚合，以及用于演化分析需求的流式工作负载适应。这些工程挑战——集中管道中缺失——构成了核心技术新颖性。本文提出FedForge，一种容错、水平可扩展的数据工程系统，将联邦表格合成从研究原语转变为生产就绪管道。该系统协调整个生命周期——从模式发现、隐私预算分配、边际估计、安全聚合、基于扩散的合成到质量验证——作为有向无环图（DAG）的流水线阶段。本工作贡献如下。首先，提出自适应通信协议，应用量化和增量编码到边际更新，将传输压缩29–71%，相比朴素传输（平均60%）。其次，设计具有检查点恢复语义的容错协调机制，当方断开连接时允许优雅降级——系统回退到缓存边际而非重启流水线。再次，引入分层聚合架构，随参与方数量线性扩展，验证最多100方。然后，流式工作负载适应模块允许当新查询到达时增量优化合成输出，避免昂贵的完整重合成。最后，跨八个基准数据集与五个基线——涵盖输出平均、联邦GAN、联邦扩散和集中方法——的广泛评估确立基于边际的聚合始终优于基于权重的方法，主要质量瓶颈是方间分布异质性而非隐私噪声。本文剩余部分组织如下。第2节调查相关工作。第3节回顾差分隐私、联邦合成和工作负载感知生成。第4节呈现系统架构和流水线设计。第5节详细通信、容错和聚合的核心算法。第6节提供隐私组合和通信复杂性的理论分析。第7节报告跨八个基准数据集的实验评估。第8节讨论局限性，第9节结论。相关工作差分隐私合成数据。在差分隐私下生成合成数据已得到广泛研究。MWEM [10]迭代选择最差近似查询并更新合成分布。FEM [11]通过更高效使用指数机制改进MWEM。PrivSyn [3]从噪声边际构建图形模型并采样合成记录。AIM [2]自适应选择要测量的边际，实现最先进质量。基于GAN的差分隐私差分隐私（DP）[4], [5]提供量化隐私损失的严格数学框架。随机机制M满足(ε,δ)-差分隐私，如果对于所有相邻数据集D和D'（相差单条记录）和所有可测集S：Pr[M(D)∈S]≤e^ε?Pr[M(D')∈S]+δ。参数ε控制隐私-效用权衡，较小值提供更强隐私。集中差分隐私（CDP）[30], [31]提供更紧的组合边界，表达概述FedForge结构为协调器-based联邦系统，四个主要组件：(1)协调器节点协调流水线、管理方注册和维护检查点；(2)方代理在每个数据持有者本地执行，计算噪声边际并参与聚合；(3)合成引擎在聚合统计上运行扩散模型并具有工作负载引导损失；(4)质量监视器持续验证合成数据。自适应通信协议通信成本在多方和高维边际的联邦系统中占主导。FedForge中的自适应通信协议采用三种互补技术减少带宽。量化。每个浮点边际条目量化为降低位宽表示。对于边际向量h∈R^d，条目在[h_min,h_max]中，量化表示使用b位每条目：h?_i = h_min + round((h_i - h_min) / (h_max - h_min) ? (2^b - 1)) / (2^b - 1) ? (h_max - h_min)。标准32位浮点被隐私组合每方的隐私损失由其回答的边际查询和针对每个查询校准的噪声决定。在zCDP组合下，方k的总隐私成本为：ρ_k^total = ∑_{j=1}^m ρ_{k,j} + ρ_k^{stream}, 其中ρ_{k,j}是为边际M_j消耗的预算，ρ_k^{stream}考虑任何流式工作负载更新。转换为(ε,δ)-DP使用标准公式ε = ρ + 2√(ρ ln(1/δ)) [30]。定理1 每方隐私保证如果每个方k对每个边际M_j添加高斯噪声，方差σ_j^2 / N_k^2，且安全聚合协议揭示设置数据集。八个基准表格数据集用于评估，总结于表1。这些涵盖不同领域，包括人口普查数据、财务记录、医疗调查和生态观察。详细数据集描述见附录D。基线。比较五个基线，涵盖输出平均、基于权重的联邦和集中范式。(1) Indep. Ensemble [14]在每个方训练独立CTGAN并平均生成输出——输出级别讨论和局限性虽然FedForge推进了联邦DP合成的操作就绪性，几个局限性值得坦诚讨论。最显著的局限性是下游ML效用下限，研究人员明确承认边际TV距离和工作负载误差——而非ML F1——是最符合系统设计目标的指标。表2显示对于八个数据集中的五个（bank, acs_pums, credit, shopping, diabetes），ML F1分数在所有方法中聚集在0.05附近，包括结论本文介绍了FedForge，一种用于联邦表格合成数据生成的差分隐私（DP）下生产级数据工程系统。主要发现是基于边际的聚合从根本上优于基于权重的联邦方法（FedAvg with DP-SGD）用于表格合成，因为直方图灵敏度有界且低维——将隐私成本与模型复杂性解耦。与涵盖输出平均、基于权重的联邦和集中方法的五个基线的经验比较表明，基于边际的聚合在工作负载准确性上始终更优，而通信压缩和容错机制增强了可扩展性和鲁棒性。方间分布异质性被确定为剩余误差的主要来源，而非隐私噪声本身，这指导了异构联盟中的隐私预算分配。FedForge的架构——整合自适应量化、检查点恢复和分层聚合——使联邦合成从研究原型转变为实用工具，适用于如医疗联盟等场景，其中可靠性和数据隐私至关重要。未来工作应探索扩展到更复杂数据类型和进一步降低ML效用下限。利益冲突声明作者声明无已知竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

热点排行