合成数据生成技术研讨会揭秘

本文介绍了在ICLR 2021举办的合成数据生成研讨会,探讨了如何通过合成数据解决机器学习中的数据限制和隐私风险问题,包括技术挑战、应用场景及多位专家的特邀演讲和论文分享。

合成数据生成技术研讨会揭秘

某中心协助举办了首届关于合成数据生成的研讨会,该研讨会于2021年5月7日在ICLR 2021线上举行。合成数据是解决两个不同问题的强大方案:数据限制和隐私风险。在标记数据有限的情况下,合成数据可用于增强训练数据,减轻过拟合。在保护隐私方面,数据管理者可以共享合成数据而非真实数据,既保护用户隐私,又保留原始数据的实用性。尽管这两种场景共享类似的技术挑战,如质量和公平性,但它们通常被分开研究。本次研讨会旨在加深对这两种场景下合成数据生成挑战的理解。

研讨会由来自学术界和工业界的研究团队组织,团队成员在隐私、公平性、医疗保健和机器学习鲁棒性等领域拥有专业知识。团队包括来自某中心的两名科学家、哈佛大学的Haipeng Chen、韩国科学技术院的Edward Choi、Google DeepMind的Jamie Hayes、CISPA亥姆霍兹信息安全中心的Mario Fritz以及哥伦比亚大学的Rachel Cummings。

研讨会内容包括特邀演讲、贡献演讲、海报展示和小组讨论,吸引了多样化的研究人员和实践者参与。以下是七场特邀演讲(按出场顺序):

  • 机器学习能否彻底改变医疗保健?合成数据可能是答案 - Mihaela van der Schaar,剑桥大学、艾伦图灵研究所、加州大学洛杉矶分校
  • 图像合成的生成模型 - Jan Kautz,NVIDIA
  • 使用生成对抗网络生成差分隐私合成数据 - Jinsung Yoon,Google Cloud AI
  • 迈向金融合成数据 - Manuela M. Veloso,J. P. Morgan、卡内基梅隆大学
  • 深度生成模型的偏见和泛化 - Stefano Ermon,斯坦福大学
  • 音乐生成的生成建模 - Sander Dieleman,DeepMind
  • 生成式AI的伦理考虑 - Emily Denton,Google伦理AI团队

研讨会展示了24篇被接受的论文,每篇论文都有单独的分会场进行海报展示。其中以下七篇论文进行了口头报告:

  • 用于模型选择的合成数据 - Matan Fintz(某中心)等
  • GAN集成用于合成训练数据生成 - Gabriel Eilertsen(林雪平大学)等
  • 通过张量幻觉进行少样本学习 - Michalis M. L. Lazarou(帝国理工学院)等
  • 利用公共数据进行实用私有查询发布 - Terrance Liu(卡内基梅隆大学)等
  • FFPDG:快速、公平和私密的数据生成 - Weijie Xu(某中心)等
  • 通过医学图像生成克服数据共享障碍:全面评估 - August DuMont Schütte(马克斯·普朗克智能系统研究所)等
  • 不完美的图像生成:GAN加剧面部数据偏见的影响 - Niharika Jain(亚利桑那州立大学)等

研讨会以特邀演讲者的小组讨论和颁奖典礼结束。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计