基于过滤机制的差分隐私多维数据合成方法FilterLDPSyn

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Big Data Mining and Analytics》：FilterLDPSyn: Locally Differentially Private Data Synthesis Based on Measurements Filtering

【字体：大中小】 时间：2026年05月28日 来源：Big Data Mining and Analytics 6.2

编辑推荐：

　　针对本地差分隐私（Local Differential Privacy, LDP）下多维数据合成中噪声累积与弱相关测量干扰的问题，研究人员提出了一种基于过滤机制的私有数据合成框架FilterLDPSyn。该方法首先通过一维信息熵估计筛选强相关属性对，避免直接计

针对本地差分隐私（Local Differential Privacy, LDP）下多维数据合成中噪声累积与弱相关测量干扰的问题，研究人员提出了一种基于过滤机制的私有数据合成框架FilterLDPSyn。该方法首先通过一维信息熵估计筛选强相关属性对，避免直接计算二维互信息带来的高额隐私预算消耗与精度损失；其次基于一维频率分布对低频次数值进行区间合并，降低大域下的稀疏噪声；随后采用迭代采样策略动态分配用户资源至误差较高的二维边缘分布，并通过一致性后处理优化一维与二维频率分布的兼容性。实验结果表明，该方法在ADULT、TPC-E及US Accident数据集上的边缘发布、范围聚合与分类任务中均优于现有主流方法，尤其在低隐私预算与高维场景下表现出显著的效用优势。

研究背景与意义

随着大数据挖掘与分析需求的不断增长，如何在保护用户隐私的前提下发布高质量的合成数据集成为学术界与工业界共同关注的焦点。本地差分隐私（Local Differential Privacy, LDP）作为一种无需可信第三方的隐私保护模型，通过在客户端扰动原始数据后再上传至服务器，被广泛应用于实际数据采集系统中。然而，在多维数据场景下，现有LDP合成方法面临三大核心挑战：一是高维属性对的联合分布估计需要消耗大量隐私预算，导致噪声严重累积；二是弱相关或低频次属性对不仅对分布重构贡献有限，反而会引入无效噪声；三是传统方法依赖二维联合频率估计进行相关性判断，在低预算下精度极低。因此，如何在不牺牲隐私的前提下提升合成数据的可用性，成为亟待解决的关键科学问题。本文提出的FilterLDPSyn方法正是针对上述问题展开研究，旨在构建一种高效、高可用的LDP多维数据合成框架，相关研究成果发表于《Big Data Mining and Analytics》。

关键技术方法

研究人员主要采用四项关键技术：1）基于最优一元编码（Optimal Unary Encoding, OUE）的一维频率与熵估计，通过用户分组避免隐私预算拆分；2）基于一维熵上限的属性对筛选机制，替代直接估计二维互信息；3）基于一维频率的二维值域分区策略，通过合并低频区间降低噪声方差；4）迭代采样与一致性后处理，动态分配采样资源并修复一维与二维分布的不一致性。实验数据来源于ADULT、TPC-E及US Accident三个公开数据集，涵盖人口统计、金融交易与交通记录三类典型多维数据场景。

研究结果

阶段1：基于熵的边缘过滤

研究人员指出，直接估计所有属性对的互信息（Mutual Information, MI）成本高达O(d2)且精度低。为此，提出以一维信息熵的最小值作为互信息的上界，仅需O(d)复杂度即可完成属性重要性评估。理论分析表明，该熵估计量在OUE机制下近似无偏，其方差随用户数增加而降低。基于此，算法筛选出包含至少一个高熵属性的“高-任意”（HX）型属性对，剔除双低熵的弱相关对，在保证相关性的同时大幅减少待估计的二维边缘数量。

阶段2：基于频率的值域过滤

针对大域二维边缘中低频次项易被噪声淹没的问题，研究人员提出基于一维频率的分区策略。通过分析发现，两个低频值的联合频率必然低于任一单独频率，因此可直接基于一维估计结果识别并合并低频区间。算法以噪声减少量与合并引入的非均匀误差之差作为收益指标，贪心地迭代合并相邻区间，在控制误差增长的同时显著降低LDP噪声方差。

阶段3：分布估计

在二维值收集阶段，研究人员设计了迭代采样机制。每一轮根据当前估计的噪声误差与依赖误差动态调整各边缘的采样用户数，将更多资源分配给误差较大的边缘。在服务器端完成频率估计后，通过一致性后处理优化问题，最小化一维分布、二维分布与优化后联合分布之间的L₁距离，确保边缘一致性。

实验验证

研究人员在三个数据集上进行了边缘发布、范围聚合与分类三类任务。结果显示，在3-way边缘发布任务中，FilterLDPSyn的平均总变差距离（AvgTVD）显著低于SamPrivSyn、LoPub等方法，且在ε=0.1的低预算下优势更为明显。在范围聚合查询中，COUNT、SUM与AVG查询的均方误差（MSE）分别降低了18%、22%与15%。在SVM分类任务中，该方法的误分类率较次优方法平均降低7.3%。效率测试表明，尽管增加了筛选阶段的优化开销，但总体运行时间与现有方法相当，且在高维场景下扩展性良好。消融实验进一步证实，边缘筛选贡献了最大的性能提升，分区与后处理分别在聚合与分类任务中发挥关键作用。

讨论与结论

研究人员总结指出，FilterLDPSyn通过“过滤-估计-合成”的三阶段框架，有效解决了LDP多维数据合成中的噪声累积与弱相关干扰问题。该方法的核心创新在于利用一维统计量作为二维分布的代理，避免了昂贵的二维联合估计，从而在低预算下仍能保持较高的估计精度。实验结果充分验证了其在高维、大数据量场景下的实用性与优越性。未来的研究将进一步探索函数依赖等更复杂数据特征的隐私保护合成方法，以持续提升合成数据的质量与应用价值。

联系信箱：

粤ICP备09063491号

热点排行