数据合成 on 办公AI智能小助手

Synth-MIA：表格数据合成中的隐私泄露审计测试平台

Sat, 27 Sep 2025 17:02:41 +0800

Synth-MIA：表格数据合成中的隐私泄露审计测试平台

表格生成模型通常被认为能通过创建与训练数据相似的合成数据集来保护隐私。然而，审计其实际隐私保护效果仍面临挑战，因为常用的相似性指标难以有效表征隐私风险。成员推理攻击（MIAs）最近成为评估合成数据隐私泄露的方法，但其实际效果有限。不同威胁模型中存在多种攻击方法，每种攻击针对不同的隐私泄露源并有独特实现方式，导致难以一致应用。此外，没有单一攻击方法能持续优于其他方法，这导致隐私风险经常被低估。

大语言模型合成训练数据技术解析

Tue, 23 Sep 2025 22:29:51 +0800

使用大语言模型合成训练数据

提示工程技术使研究人员能够为轻量级"学生"模型生成定制化的训练样本。

背景与挑战

驱动对话式智能体的机器学习模型通常需要在标注数据上进行训练，但数据收集和标注过程成本高昂且复杂，成为开发流程中的瓶颈。虽然拥有200亿参数的Alexa教师模型等大语言模型在少样本场景下表现出色，但其模型规模和计算成本无法满足运行时系统对低延迟和高流量的要求。

智能车载环境中的非流畅对话数据生成框架

Sat, 06 Sep 2025 11:28:53 +0800

DRIVE：面向智能车辆环境的非流畅性丰富合成对话数据生成框架

摘要

车载对话AI正随着自动驾驶汽车和智能助手的广泛采用而变得日益重要。然而，现有数据集未能捕捉真实驾驶员与AI对话中特有的自发非流畅现象，如犹豫、错误起始、重复和自我修正。为解决这一问题，我们推出了DiscoDrive——一个包含3500个多轮对话的合成语料库，覆盖七个汽车领域，采用两阶段提示驱动流程动态整合非流畅性。实验表明，DiscoDrive既可作为训练资源使DialoGPT-Medium和T5-Base模型在MultiWOZ 2.2和Schema-Guided Dialogue相关测试集上达到或超越KVRET训练模型的表现（BLEU-4提升0.26至0.61；METEOR提升2.10；ROUGE-L提升3.48；BERTScore F1提升1.35至3.48），也可作为低资源场景下的数据增强资源，与10%的KVRET数据结合时可带来额外增益（BLEU-4提升0.38，METEOR提升1.95，ROUGE-L提升2.87，BERTScore F1提升4.00）。人工评估进一步证实，从DiscoDrive采样的对话在自然度（3.8 vs 3.6）和连贯性（4.1 vs 4.0）上均优于KVRET人工收集的对话，且在不影响清晰度的前提下，比领先的后处理方法（如LARD）更具上下文适应性。DiscoDrive填补了现有资源的关键空白，成为训练和增强对话AI的多功能语料库，能够稳健处理真实世界中的非流畅车载交互。