某中心协助举办合成数据生成研讨会
在ICLR 2021会议上于2021年5月7日在线举办了首届合成数据生成研讨会。合成数据是解决数据限制和隐私风险两大问题的强大方案。在标记数据有限的情况下,合成数据可用于增强训练数据,减轻过拟合问题。在隐私保护方面,数据管理者可以共享合成数据而非真实数据,既能保护用户隐私,又能保持原始数据的实用性。
虽然这两种场景面临相似的技术挑战(如质量和公平性),但它们通常被分开研究。本次研讨会旨在深化对两种场景下合成数据生成挑战的理解。
跨领域专家团队组织
研讨会由来自学术界和工业界的研究人员团队组织,团队成员在隐私、公平性、医疗健康和机器学习鲁棒性等领域具有专业知识。团队包括来自某中心的两名科学家、哈佛大学研究人员、韩国科学技术院专家、谷歌DeepMind研究员、某信息安全中心学者以及哥伦比亚大学教授。
研讨会内容安排
研讨会包含邀请报告、投稿报告、海报展示和小组讨论环节,汇集了多元化的研究者和实践者。七场特邀报告涵盖以下主题:
- 机器学习能否革新医疗保健?合成数据或是答案
- 图像合成的生成模型
- 使用生成对抗网络的差分隐私合成数据生成
- 金融合成数据的发展方向
- 深度生成模型的偏见与泛化
- 音乐生成的生成建模
- 生成式AI的伦理考量
研究成果展示
研讨会收录了24篇论文,每篇论文都有单独的海报展示环节。其中七篇论文进行口头报告,主题包括:
- 用于模型选择的合成数据
- GAN集成生成合成训练数据
- 通过张量幻觉进行少样本学习
- 利用公共数据实现实用私有查询发布
- 快速、公平和私密的数据生成
- 通过医学图像生成克服数据共享障碍
- GAN加剧面部数据偏见的 implications
研讨会最后以特邀演讲者的小组讨论和颁奖典礼结束。
研究领域:机器学习、安全隐私与滥用防护
技术标签:合成数据生成、ICLR、差分隐私