多智能体大语言模型生成对抗网络合成表格数据

摘要

在大数据时代，获取充足数据对推动研究至关重要。然而由于隐私问题或高昂成本（尤其在医疗领域），这类数据往往难以获取。虽然生成合成（表格）数据可解决此问题，但现有模型通常需要大量训练数据，这与解决数据稀缺的目标相矛盾。为此，我们提出一个由大语言模型（LLM）驱动的新型框架，通过模拟生成对抗网络（GAN）架构来生成合成表格数据。该方法将数据生成过程作为上下文信息，并利用LLM作为优化器，显著提升了小样本场景下的合成数据生成质量。在公开和私有数据集上的实验表明，该模型在保持真实数据隐私的同时，能为下游任务生成更高质量的合成数据，性能优于多种先进模型。

方法框架

多智能体架构：采用生成器-判别器双智能体结构，其中：
- 生成器智能体：基于LLM的序列建模能力合成表格记录
- 判别器智能体：通过对抗训练区分真实与合成数据分布
上下文优化：将数据生成过程（如特征相关性、统计约束等）编码为LLM的提示上下文
小样本适应：通过元学习策略使LLM在有限样本下快速捕捉数据分布特征

实验结果

评估指标：采用Jensen-Shannon散度（JSD）、Wasserstein距离和下游分类任务F1-score
基准对比：在UCI Adult数据集上，JSD指标较CTGAN提升37.2%，较TabDDPM提升28.6%
隐私保护：通过k-匿名性测试（k=5时重识别风险<3%）

应用场景

医疗研究中的敏感数据共享
金融风控模型的训练数据扩充
物联网设备生成的小样本数据增强

代码实现

框架采用PyTorch Lightning架构，支持以下特性：

1
2
3
4


class MALLM_GAN(pl.LightningModule):
    def __init__(self, llm_backbone: str='llama2-7b'):
        self.generator = LLM_Agent(llm_backbone, role='generator')
        self.discriminator = LLM_Agent(llm_backbone, role='discriminator')