合成数据 on 办公AI智能小助手

Fara7B展现合成数据扩展如何变革计算机使用智能体

Wed, 31 Dec 2025 06:56:58 +0800

Fara7B展现合成数据扩展如何变革计算机使用智能体

引言

训练计算机使用智能体模型历来很困难。这主要是因为数据瓶颈——确实没有现成的大型真实人机交互数据集可用。考虑到达到当今大语言模型性能所需的文本数据量，以及我们如何克服高质量文本数据匮乏的问题，如何推进计算机使用智能体的发展可能对你们中的一些人来说是显而易见的……如果你想到的是合成数据生成，那么你绝对正确。

合成数据生成技术研讨会聚焦隐私保护与机器学习

Wed, 17 Sep 2025 16:29:05 +0800

某中心协助举办合成数据生成研讨会

在ICLR 2021会议上于2021年5月7日在线举办了首届合成数据生成研讨会。合成数据是解决数据限制和隐私风险两大问题的强大方案。在标记数据有限的情况下，合成数据可用于增强训练数据，减轻过拟合问题。在隐私保护方面，数据管理者可以共享合成数据而非真实数据，既能保护用户隐私，又能保持原始数据的实用性。

开源工具CoSyn实现GPT-4V级视觉AI平民化

Tue, 16 Sep 2025 11:34:24 +0800

CoSyn：开源工具实现GPT-4V级视觉AI平民化

某大学与某人工智能研究机构的研究人员开发出一项突破性工具，使开源AI系统能够匹配或超越GPT-4V和Gemini 1.5 Flash等专有模型的视觉理解能力，可能重塑开源与封闭AI开发之间的竞争格局。

合成数据生成技术研讨会揭秘

Sun, 14 Sep 2025 11:30:43 +0800

合成数据生成技术研讨会揭秘

某中心协助举办了首届关于合成数据生成的研讨会，该研讨会于2021年5月7日在ICLR 2021线上举行。合成数据是解决两个不同问题的强大方案：数据限制和隐私风险。在标记数据有限的情况下，合成数据可用于增强训练数据，减轻过拟合。在保护隐私方面，数据管理者可以共享合成数据而非真实数据，既保护用户隐私，又保留原始数据的实用性。尽管这两种场景共享类似的技术挑战，如质量和公平性，但它们通常被分开研究。本次研讨会旨在加深对这两种场景下合成数据生成挑战的理解。

合成数据贝叶斯推断一致性研究

Fri, 12 Sep 2025 03:13:43 +0800

关于合成数据的一致性贝叶斯推断

摘要

生成合成数据（无论是否采用差分隐私技术）作为解决数据可用性与数据主体隐私之间困境的潜在方案，已引起广泛关注。多项研究表明，要实现合成数据下游分析的一致性（包括准确的不确定性估计），必须考虑合成数据生成过程。目前实现该目标的方法很少，且大多针对频率主义分析。本文研究如何从合成数据执行一致性贝叶斯推断。

基于张量网络矩阵乘积态（MPS）的合成数据生成与差分隐私技术

Wed, 10 Sep 2025 11:18:03 +0800

合成数据生成与差分隐私使用张量网络的矩阵乘积态（MPS）

合成数据生成是现代人工智能中的关键技术，解决了数据稀缺性、隐私约束以及在训练鲁棒模型时对多样化数据集的需求。在这项工作中，我们提出了一种使用张量网络（特别是矩阵乘积态，MPS）生成隐私保护的高质量合成表格数据的方法。我们将基于MPS的生成模型与最先进的模型（如CTGAN、VAE和PrivBayes）进行基准测试，重点关注保真度和隐私保护能力。

合成数据揭秘：优势、风险与技术挑战

Mon, 08 Sep 2025 04:32:34 +0800

什么是合成数据？优势、风险与技术挑战

共享数据通常能够实现引人注目的应用和分析。然而，宝贵的数据集往往包含敏感信息，共享它们可能会危及用户和组织的隐私。

研究界日益关注的一个替代方案是共享合成数据。其理念是发布人工生成的数据集，这些数据集与真实数据相似——更准确地说，具有相似的统计特性。

合成语音训练语音识别器的技术突破

Sat, 06 Sep 2025 17:49:31 +0800

近年来，大多数商业自动语音识别（ASR）系统已开始从混合系统（包含独立的声学模型、词典和语言模型）转向端到端神经网络模型，这些模型以声学信号作为输入并输出文本。端到端模型在性能和灵活性方面具有优势，但需要比混合系统更多的训练数据。在训练数据稀缺的情况下（例如当前事件引入新术语"冠状病毒"或模型需要适应新应用时），这可能成为问题。