2023年AI与计算技术重大突破综述

本文详细介绍了2023年在人工智能和计算技术领域的重要进展,包括多模态模型Gemini、算法优化AlphaDev、量子计算突破、医疗AI应用Med-PaLM以及气候预测系统GraphCast等技术突破,涵盖模型架构、系统优化和实际应用等多个方面。

产品与技术进展

生成式AI在今年展现出前所未有的创造力,从图像生成到音乐创作均取得显著突破。二月份推出的Bard工具能够生成文本、翻译语言并创作各类内容。

五月份发布的PaLM 2大型语言模型通过计算最优缩放、改进数据集混合和模型架构,在高级推理任务中表现卓越。通过对PaLM 2进行微调,将其集成到多个产品中:

  • Bard升级:支持40多种语言和230多个国家地区,可通过扩展获取日常工具信息
  • 搜索生成体验:使用LLM重新构想信息组织方式,实现更流畅的对话式搜索交互
  • MusicLM:基于AudioLM和MuLAN的文本到音乐模型,支持从文本、哼唱、图像或视频生成音乐
  • Duet AI:在Workspace和Cloud中提供写作、图像创建、电子表格分析和代码部署协助

六月份发布的Imagen Editor支持使用区域掩码和自然语言提示交互式编辑生成图像。随后推出的Imagen 2通过基于人类偏好的专业图像美学模型改进输出质量。

十月份推出的语言练习功能采用新型深度学习模型Deep Aligner,将平均对齐错误率从25%降低到5%。

十一月份与YouTube合作推出Lyria音乐生成模型,推出DreamTrack和音乐AI工具实验。

十二月份推出最强大的多模态AI模型Gemini,支持文本、音频、图像和视频处理。Gemini系列包含三种规格:

  • Nano:最轻量级模型,适用于设备端体验
  • Pro:高性能模型,适用于广泛任务扩展
  • Ultra:最大型模型,处理高度复杂任务

在技术报告中,Gemini Ultra在32个学术基准中的30个超越现有最佳结果,在MMLU上以90.04%的分数首次超越人类专家,在MMMU基准上达到59.4%的最新水平。

基于AlphaCode的AlphaCode 2使用专门版Gemini,解决能力提升1.7倍,性能超过85%的比赛参与者。Bard通过集成Gemini Pro获得重大升级,在八项基准中的六项超越GPT-3.5。

机器学习与AI研究

Transformer模型架构作为最先进ML模型的核心,已扩展到计算机视觉、音频、基因组学等多个领域。今年在视觉Transformer扩展方面展示了在各种视觉任务中的最先进结果。

通过算法提示新方法,教语言模型通过演示算法步骤进行推理,在中学数学基准上准确率从25.9%提高到61.1%。

在视觉问答领域,结合视觉模型和语言模型,通过合成程序执行多步推理来回答复杂视觉问题。

使用通用模型理解软件开发生命周期各个方面,自动生成代码审查评论、响应审查意见、提供性能改进建议。

与地图团队多年合作,扩展逆向强化学习并应用于改善超过10亿用户的路线建议,全球路线匹配率相对提高16-24%。

在神经网络剪枝方面,设计近似算法能够从图像分类模型中剪枝70%的边缘,同时保持几乎全部准确性。

在设备端扩散模型加速方面,应用多种优化到注意力机制、卷积核和操作融合,使高质量图像生成模型在设备上运行成为可能。

算法与优化

引入AlphaDev AI系统,使用强化学习发现增强的计算机科学算法。AlphaDev发现了更快的排序算法,在LLVM libc++排序库中实现改进,较短序列速度提高达70%,超过25万元素的序列速度提高约1.7%。

开发新模型预测大图属性,发布TPUGraphs数据集加速该领域开放研究。

开发新的负载均衡算法Prequal,最小化飞行请求组合并估计延迟。多个系统部署显著节省CPU、延迟和RAM。

改进最先进的聚类和图算法,开发计算最小割、近似相关聚类和大规模并行图聚类的新技术。

引入TeraHAC,用于万亿边图的新层次聚类算法,设计文本聚类算法实现更好可扩展性同时保持质量。

设计最有效的Chamfer距离近似算法,提供超过50倍的加速,扩展到数十亿点。

继续优化大型嵌入模型,开发统一嵌入和顺序注意力等新技术。

研究复杂设置中的拍卖设计,包括多购买机制、异质投标人拍卖、合约设计,并创新稳健的在线投标算法。

提出新的令牌拍卖模型,其中LLM在协作AI创作中竞标影响力。

科学与社会

可持续性与气候变化

在绿灯项目中与全球13个城市合作改善交叉口交通流,减少停走排放。早期数据显示可能减少30%的停车和10%的排放。

在凝迹工作中分析大规模天气数据、历史卫星图像和过往航班,训练AI模型预测凝迹形成位置并相应重新路由飞机。演示凝迹减少54%。

开发新技术驱动方法帮助社区应对气候变化影响,将洪水预报覆盖扩展到80个国家,直接影响超过4.6亿人。

发起多项研究努力帮助减轻日益增加的野火危险,包括使用卫星图像实时跟踪野火边界,改进紧急疏散计划。

开发更好的长时间范围天气预报模型。在MetNet-3工作中,现在在24小时内超越传统数值天气模拟。在中短期全球天气预报领域,GraphCast工作显示相比HRES具有显著更好的预测准确性。

健康与生命科学

Med-PaLM模型首个能够在美国医疗执照考试中达到及格分数。更新的Med-PaLM 2模型进一步改进19%,达到86.5%的专家级准确性。

展示多模态版本Med-PaLM的研究,能够解释医学图像、文本数据和其他模态。

展示将深度学习与可解释性方法结合可以为临床医生产生新见解。自监督学习能够将训练临床相关医学成像模型所需的去标识化数据量减少3-100倍。

发布开源移动数据收集平台,为慢性病患者提供工具。

AI系统还可以在现有医学数据形式中发现全新信号和生物标志物。演示可以从外部眼部照片预测多个器官系统的系统生物标志物。

结合视网膜图像和基因组信息帮助识别衰老的一些潜在因素。

在基因组学领域,与60个机构的119名科学家合作创建新的人类基因组图谱。更公平的泛基因组更好代表全球人群的基因组多样性。

在AlphaFold突破性工作基础上,AlphaMissense工作提供所有7100万个可能错义变体中89%的预测目录。

分享下一代AlphaFold进展更新,最新模型现在可以为蛋白质数据库中几乎所有分子生成预测,经常达到原子精度。

量子计算

在开发大规模、有用量子计算机方面迈出重要一步。首次演示量子错误纠正,显示在增加量子比特数量的同时减少错误是可能的。

负责任AI研究

责任设计

引入基于上下文的三层框架,全面评估AI系统的社会和道德风险。与霍华德大学合作构建高质量非裔美国人英语数据集。

研究全球包容性文化代表性和发布Monk肤色量表推进对所有人的公平代表承诺。

在生成图像模型发展中,公平和包容的人物代表仍然是最高优先级。在开发管道中努力放大 underrepresented 声音并更好整合社会上下文知识。

使用分类器和过滤器、仔细的数据集分析以及模型中缓解措施主动解决潜在危害和偏见。

开发新的最先进可解释性方法识别训练数据对模型行为的作用。通过将训练数据归因方法与敏捷分类器结合,能够识别错误标记的训练示例。

发起多项努力改进在线内容的安全性和透明度。引入SynthID,用于水印和识别AI生成图像的工具。

推出"关于此图像"帮助人们评估图像可信度,显示图像历史、在其他页面上的使用方式以及可用元数据。

隐私保护

继续改进最先进的隐私保护学习算法DP-FTRL,开发DP交替最小化算法实现具有严格隐私保护的个性化推荐。

定义新的通用范式减少许多聚合和学习任务的隐私成本。提出审核差分隐私机器学习系统的方案。

演示DP-SGD在大模型微调机制中提供实用解决方案,显示DP扩散模型生成的图像对一系列下游任务有用。

提出DP训练大型嵌入模型的新算法,在TPU上提供高效训练而不影响准确性。

与广泛学术和工业研究人员合作组织首届机器遗忘挑战,解决训练图像被遗忘以保护个人隐私或权利的场景。

分享可提取记忆机制和参与式系统,让用户对其敏感数据有更多控制。

继续扩展世界最大的非典型语音录音库到超过100万条语句,训练通用语音模型在真实基准上更好识别非典型语音37%。

为有阅读障碍的学生构建有声读物推荐系统。

对抗测试

与历史上边缘化社区的社区声音合作,确保代表使用我们模型的多样化社区,并与外部用户接触识别生成模型输出中的潜在危害。

建立专门的AI红队,测试AI模型和产品的安全性、隐私和滥用风险。

展示"投毒"或对抗样本等攻击可以应用于生产模型,并表面其他风险,如图像和文本生成模型中的记忆。

演示防御此类攻击可能具有挑战性,因为仅仅应用防御可能导致其他安全性和隐私泄漏。

引入极端风险模型评估,如攻击性网络能力或强大操纵技能。

通过工具和教育民主化AI

发布MakerSuite(现为AI Studio),基于Web的工具使AI开发人员能够快速迭代和构建轻量级AI驱动应用。

发布LIT 1.0,最先进的开源机器学习模型调试器。

Colab工具帮助开发人员和学生在Web浏览器中访问强大计算资源,达到超过1000万用户。刚刚为所有用户免费添加AI驱动的代码协助。

引入FunSearch新方法,使用进化方法和大型语言模型在数学科学中生成可验证真实知识。

为AI工程师和产品设计师更新人员+AI指南,包含生成式AI最佳实践,继续设计AI可探索项。

社区参与

今年发表超过500篇论文,在ICML、ICLR、NeurIPS、ICCV、CVPR、ACL、CHI和Interspeech等会议上保持强大存在。

支持全球研究人员,参与深度学习Indaba、Khipu等活动,支持拉丁美洲博士奖学金。

与33个学术实验室的合作伙伴合作,汇集22种不同机器人类型的数据,创建开放X-体现数据集和RT-X模型。

在MLCommons标准组织下领导行业范围的AI安全基准开发工作,多个生成式AI领域主要参与者参与。

与行业其他公司共同创立前沿模型论坛,专注于确保前沿AI模型的安全和负责任开发。

与FMF合作伙伴和其他慈善组织共同启动1000万美元AI安全基金,推进社会有效测试和评估最有能力AI模型的工具持续开发研究。

与联合国合作构建联合国可持续发展目标数据共享中心,跟踪17个可持续发展目标的指标,支持非政府组织、学术机构和社会企业使用AI加速可持续发展目标进展的项目。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计