CATS:一种基于LLM的表格数据合成增强框架,通过相关性增强实现改进

《Expert Systems with Applications》:CATS: An Enhanced Framework in LLM-Based Tabular Data Synthesis by Correlation Augmentation

【字体: 时间:2026年04月30日 来源:Expert Systems with Applications 7.5

编辑推荐:

  陈璐宇|姜明轩|戴子月|刘森|柴洪峰复旦大学计算机科学与人工智能学院,上海,200438,中国摘要随着人工智能(AI)技术的进步,金融和医疗保健等行业越来越多地采用AI工具。然而,由于使用AI所带来的隐私问题以及真实数据收集的高成本,生成逼真的表格数据以替代原始数据已成为解决这些

  
陈璐宇|姜明轩|戴子月|刘森|柴洪峰
复旦大学计算机科学与人工智能学院,上海,200438,中国

摘要

随着人工智能(AI)技术的进步,金融和医疗保健等行业越来越多地采用AI工具。然而,由于使用AI所带来的隐私问题以及真实数据收集的高成本,生成逼真的表格数据以替代原始数据已成为解决这些限制的流行方法。尽管现有的表格数据生成算法的输出似乎与原始数据的分布相匹配,但它们往往无法保留原始数据中的相关性。这种疏忽可能会对下游任务产生重大负面影响。本文提出了一种基于大型语言模型(LLM)的表格数据合成增强框架,即C相关性增表格数据合成(CATS),该框架强调在保留原始数据特征相关性的同时提高生成表格数据的质量。我们探讨了CATS框架的技术细节,并证明了与基线方法相比,CATS在七个基准数据集上实现了最先进的性能。此外,它将现有基于强LLM的表格数据生成器的性能平均提高了4.7%以上。

引言

人工智能(AI)的发展推动了各个领域的变革性变化,例如金融(Cao, 2022)和医疗保健(Shaheen, 2021)。然而,在处理数据时,使用AI技术可能会引发隐私问题(Elliott & Soifer, 2022;Regulation, 2016)。此外,由于表格数据是AI应用的主要格式(Borisov, Sessler, Leemann, Pawelczyk, & Kasneci, 2023),由于数据稀缺(Babbar & Sch?lkopf, 2019)和数据收集成本高昂(Gilardi, Alizadeh, & Kubli, 2023),获取高质量的数据集仍然是一个重大挑战。合成数据已成为应对这些挑战的有希望的解决方案(Li et al., 2024;Liu et al., 2024b;Nikolenko, 2021)。
在表格数据应用的背景下,特征相关性是促进下游预测任务的重要信息来源(Gao et al., 2025;Liu, Qiu, & Zhang, 2024a;Muroga et al., 2024)。尽管现有的数据合成方法能够生成与原始分布一致的数据,但它们主要关注单个特征的统计属性,而忽略了特征间相关性的保留。为了说明这一点,我们以GReaT和TabDDPM为例(Borisov et al., 2023;Kotelnikov, Baranchuk, Rubachev, & Babenko, 2023)。我们计算了它们生成的数据的特征间相关性,并与原始数据进行了比较,如图1所示。显然,合成数据未能保留潜在的统计相关性,这表现为计算出的相关值的不稳定性和随机性,从而限制了其在现实世界场景中的适用性。例如,在数据分析领域,合成数据中的错误相关性可能会误导大型语言模型(LLM),导致数据解释不准确,最终向用户提供有缺陷的分析结果(Zhou, Zhao, & Li, 2024)。
为了解决生成数据中相关性的丢失问题,我们分析了当前的基于LLM的表格数据合成方法,发现仅反映原始数据的输入文本无法使LLM有效学习特征之间的潜在相关性(Isomura, Shimizu, & Goto, 2025;Wolf et al., 2020)。具体来说,当前的表格数据合成方法将表格数据的每一行转换为一句话。然后,Transformer模型对这些文本序列进行分词,导致原始数据被分割(Selva Birunda & Kanniga Devi, 2021),使得自注意力机制难以有效捕捉原始表格数据中的相关性(Shaw, Uszkoreit, & Vaswani, 2018;Zhang et al., 2024)。
为了解决数据相关性丢失的问题,本文介绍了一种基于LLM的新颖相关性增强框架,即C相关性增表格数据合成(CATS2。如图2所示,基于LLM的方法解决了传统模型在捕捉表格数据语义信息方面的局限性。此外,作为可插拔模块开发的CATS框架通过使基于LLM的表格数据生成方法能够生成既在语义上忠实又在特征间保持相关性的数据,从而增强了这些方法的能力。我们明确地将特征相关性编码到提示中,使LLM在数据生成过程中有意加强其对特征依赖性的理解和保留。具体来说,我们首先对表格数据进行统计分析,然后使用LLM得出这些相关性的最合适的文本表示。最后,将这些表示与表格数据编码方法结合,以构建更有效的表格数据生成器。
总之,本文的主要贡献如下:
  • 我们发现了当前主流表格数据生成算法中的一个关键问题,即它们都无法保留原始数据的相关性。这种相关性的缺失会对下游任务产生重大负面影响,导致生成的数据具有误导性。
  • 我们提出了一个新颖的框架CATS。这个简单而有效的框架通过在表格数据编码阶段加入相关性描述来解决上述挑战,同时它也与现有的基于LLM的表格数据生成器兼容,并提高了它们的性能。
  • 我们通过七个数据集的实验证明,CATS框架显著提高了主流表格数据合成算法生成的数据质量,同时保持了原始数据的相关性。我们讨论并设计了CATS框架下最有效的编码方法,并证明了其优于其他最先进(SOTA)方法的性能。

部分摘录

经典方法

在之前的表格数据合成工作中,采用了各种模型,例如CTGAN(Xu, Skoularidou, Cuesta-Infante, & Veeramachaneni, 2019;Zhao, Kunar, Birke, Van der Scheer, & Chen, 2024),这是一种用于创建表格数据的生成模型。CTGAN通过引入数据预处理步骤并利用GAN的架构来工作。另一种方法TabDDPM(Kotelnikov et al., 2023)利用扩散模型来生成表格数据。这种方法通过逐渐添加噪声来生成数据

方法论

在本节中,我们介绍了两个主要组成部分。首先,在第3.1节中介绍了CATS框架,该框架将表格数据中的特征间相关性信息明确传递给LLM,从而支持后续的数据生成任务。然后,在第3.2节中,我们进行了广泛的实验和讨论,以构建更有效的相关性描述,并基于此提出了一种最佳方法。

数据集

我们在七个真实世界的表格数据集上测试了所有需要评估的算法。为了提供更全面的评估,选定的数据集包括分类和回归任务。这些数据集的样本量范围也很广,从少于1,000个样本的小数据集到70,000个样本的大数据集。此外,所有这些数据集都曾在之前的表格数据生成研究中使用过(Borisov et al., 2023;Kotelnikov et al., 2023)。Cardio, Travel

结论

在本文中,我们提出了CATS,这是一种基于LLM的表格数据合成框架。通过在微调过程中明确加入相关性描述,CATS使LLM不仅能够理解表格的语义,还能保留特征间的关系,从而生成质量更高的合成数据集。实验结果表明,CATS实现了最先进的性能。此外,我们验证了CATS可以作为即插即用的模块来增强其他

CRediT作者贡献声明

陈璐宇:概念化、方法论、数据整理、初稿撰写、审阅与编辑、可视化。姜明轩:方法论、调查、软件开发、初稿撰写、审阅与编辑。戴子月:软件开发、验证、可视化。刘森:项目管理、监督。柴洪峰:监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号