《IEEE Data Descriptions》:Data Deduplication Method Based on CSP-DLP Asymmetric Homomorphic Encryption Algorithm for High-Density Scenarios
编辑推荐:
摘要:随着物联网(IoT)和车联网(V2X)等高密度场景中数据规模的持续增长,海量数据的重复存储和频繁传输不仅造成计算和存储资源的浪费,还显著增加了敏感信息泄露的风险。因此,本研究创新性地提出了一种集成非对称同态加密(HE)和联邦学习(FL)的数据去重方法。首
摘要:随着物联网(IoT)和车联网(V2X)等高密度场景中数据规模的持续增长,海量数据的重复存储和频繁传输不仅造成计算和存储资源的浪费,还显著增加了敏感信息泄露的风险。因此,本研究创新性地提出了一种集成非对称同态加密(HE)和联邦学习(FL)的数据去重方法。首先,利用共轭搜索问题(CSP)和离散对数问题(DLP)设计了一种新型非对称同态加密算法。该算法在保证密文不可区分性的同时,为密文状态下的数据可比性提供了密码学基础,解决了隐私保护与数据去重之间的固有冲突。在此基础上,将提出的加密算法与联邦学习框架相结合,构建了一种支持密文去重的高效数据处理流程,实现了冗余隐私数据的secure identification and filtering。实验结果表明,在128位安全强度下,所提加密算法的加密成本仅为传统Paillier方案的62.5%,密文大小减少了约42.4%。在车联网场景中进行去重测试时,该方法在百万级数据集上实现了97.4%的重复检测率。此外,在保持全加密处理的情况下,存储需求平均降低了38.6%,跨节点通信开销减少了约29.4%。综上所述,所提方法在高密度场景中结合了高安全性、高检测率和低开销,实现了隐私保护与数据去重效率之间的平衡。本研究提供了一种可扩展、可部署且具有实际工程价值的安全数据去重技术。
论文解读
本研究针对物联网(IoT)和车联网(V2X)等高密度场景中数据规模爆炸式增长带来的挑战,深入探讨了数据隐私保护与系统性能优化之间的平衡问题。随着云计算和人工智能技术的进步,结构化与非结构化数据呈指数级增长,这对存储系统的性能和可靠性提出了更高要求。特别是在车联网场景中,车辆节点在高速移动过程中持续收集位置、速度等敏感数据,并通过开放式无线信道上传至路侧单元(RSU)。这种开放性使得用户轨迹和身份信息等隐私数据极易被拦截或非法使用。同时,在交通高峰期,多辆车上传相似的位置信息导致大量重复数据,不仅浪费存储资源,还引发通信拥堵。现有基于同态加密(HE)的联邦学习(FL)方法虽能保护隐私,但传统的HE算法通常引入噪声机制以混淆明文,这在FL框架下会导致噪声累积误差,影响模型收敛;此外,传统加密要求密文不可区分,而去重需要密文可比性,二者存在根本性冲突。因此,如何在保护隐私的前提下有效降低数据传输和存储开销,成为提升系统整体性能的关键。鉴于此,研究人员开展了一项旨在解决高密度场景下冗余隐私数据去重问题的研究,并发表了《IEEE Data Descriptions》。
研究人员主要采用了以下关键技术与方法:基于共轭搜索问题(CSP)和离散对数问题(DLP)设计新型非对称同态加密算法;构建车联网定位服务(LBS)信息检索服务系统架构,结合FL框架实现密文状态下的数据处理;利用T-Drive出租车轨迹数据集和SUMO仿真平台生成百万级位置记录数据集,模拟不同RSU覆盖区域的车辆数据上传场景,验证算法正确性及去重效率。
在研究结果方面,首先对基于CSP-DLP的非对称HE算法的正确性进行了严格证明,包括同态加法、减法和乘法,证实了其在密文状态下进行运算后解密能还原明文。其次,进行了性能测试。在相同硬件环境下,对比了CSP-DLP、Paillier和BGV算法。结果显示,CSP-DLP算法的平均加密时间为0.15秒,解密时间为0.17秒,优于Paillier(0.24秒/0.28秒)和BGV(0.22秒/0.23秒),加密成本仅为Paillier的62.5%。在空间优化方面,CSP-DLP生成的平均密文大小为72字节,仅为Paillier(125字节)的57.6%,密文大小减少约42.4%,存储扩展率为1.125,显著低于其他算法。在去重方法仿真测试中,研究人员选取隐私预算ε=0.6和梯度敏感度Δf=0.5为默认配置。对比无去重、明文去重和本文提出的密文去重三种配置,密文去重方法仅使收敛轮次增加13轮,最终准确率下降0.6%,证明了加密操作对模型训练影响极小。在传输开销方面,启用CSP-DLP与FL的去重方法后,车辆节点向RSU传输数据的平均时间降至0.16秒(减少33.3%),RSU向云服务器传输的带宽利用率降至50%(减少28.6%)。在百万级数据集上,重复检测率达97.4%,存储需求平均降低38.6%,跨节点通信开销降低约29.4%。即使在75%重复率下,检测率仍保持在88.3%。
在讨论部分,研究人员分析了确定性的公钥比较机制可能带来的侧信道攻击风险,指出由于RSU环境可控、信息泄露粒度有限(仅知是否为重复,不知具体值)及工程加固措施,该机制在设定威胁模型下是合理有效的。同时,研究承认实验数据存在一定偏差(重复率人为控制在50%-75%),但符合高密度场景特征。研究结论表明,该方法通过结合CSP-DLP非对称HE与FL框架,有效解决了密文不可区分性与可比性的矛盾,在确保数据隐私和系统安全的同时,显著降低了高密度场景下的计算、存储和通信开销,具有极高的工程应用价值。未来工作将聚焦于大规模数据下的算法优化及在工业物联网等更多场景的适用性评估。