Featured image of post 谷歌发布最强多模态AI模型Gemini

谷歌发布最强多模态AI模型Gemini

谷歌推出新一代多模态AI模型Gemini,具备文本、代码、音频、图像和视频理解能力,在32个学术基准测试中30项超越现有模型,支持从数据中心到移动设备的高效部署,将推动AI技术在各领域的创新应用。

引入Gemini:某机构最具能力的人工智能模型

技术架构与特性

Gemini是首个从零开始构建的多模态模型,能够无缝理解和处理文本、代码、音频、图像及视频等多种信息类型。该模型采用原生多模态预训练架构,相比传统拼接式多模态模型具有更强的复杂推理能力。

模型提供三个优化版本:

  • Gemini Ultra:针对高度复杂任务的最大规模模型
  • Gemini Pro:适用于广泛任务扩展的最佳模型
  • Gemini Nano:专为设备端任务设计的高效模型

突破性性能表现

在大型语言模型研发使用的32个学术基准测试中,Gemini Ultra在30个测试项目上超越当前最先进水平:

  • 在MMLU(大规模多任务语言理解)测试中获得90.0%的分数,首次超越人类专家表现
  • 在新MMMU多模态基准测试中达到59.4%的state-of-the-art成绩
  • 在图像理解任务中无需OCR辅助即实现领先性能

先进编码能力

Gemini支持Python、Java、C++和Go等主流编程语言的高质量代码理解、解释和生成:

  • 在HumanEval编码评估基准中表现卓越
  • 驱动新一代代码生成系统AlphaCode 2,在竞争性编程问题解决中超越85%的参赛者
  • 支持开发者通过定义代码属性约束进行协作编程

基础设施与部署

模型基于定制TPU v4/v5e加速器训练,提供行业领先的推理效率:

  • 新一代Cloud TPU v5p系统专门为训练尖端AI模型设计
  • 支持从数据中心到移动设备的高效部署
  • Android 14设备可通过AICore系统能力集成Gemini Nano

安全与责任保障

采用分层安全架构确保模型负责任部署:

  • 实施最全面的安全评估体系,包括偏见和毒性检测
  • 采用对抗测试技术提前识别关键安全问题
  • 构建专用安全分类器过滤暴力和负面刻板印象内容
  • 通过MLCommons和前沿模型论坛等行业组织建立安全基准

技术可用性

  • Gemini Pro现已通过API向开发者和企业用户开放
  • Gemini Ultra将于明年初完成安全验证后发布
  • 模型已集成至多款产品中,包括增强版Bard和Pixel 8 Pro设备功能

该模型代表人工智能发展的重大里程碑,通过原生多模态架构和突破性性能表现,为科学发现、创意增强和知识扩展开启新的可能性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计