谷歌发布最强多模态AI模型Gemini

谷歌推出新一代多模态AI模型Gemini，具备文本、代码、音频、图像和视频理解能力，在32个学术基准测试中30项超越现有模型，支持从数据中心到移动设备的高效部署，将推动AI技术在各领域的创新应用。

引入Gemini：某机构最具能力的人工智能模型

技术架构与特性

Gemini是首个从零开始构建的多模态模型，能够无缝理解和处理文本、代码、音频、图像及视频等多种信息类型。该模型采用原生多模态预训练架构，相比传统拼接式多模态模型具有更强的复杂推理能力。

模型提供三个优化版本：

Gemini Ultra：针对高度复杂任务的最大规模模型
Gemini Pro：适用于广泛任务扩展的最佳模型
Gemini Nano：专为设备端任务设计的高效模型

突破性性能表现

在大型语言模型研发使用的32个学术基准测试中，Gemini Ultra在30个测试项目上超越当前最先进水平：

在MMLU（大规模多任务语言理解）测试中获得90.0%的分数，首次超越人类专家表现
在新MMMU多模态基准测试中达到59.4%的state-of-the-art成绩
在图像理解任务中无需OCR辅助即实现领先性能

先进编码能力

Gemini支持Python、Java、C++和Go等主流编程语言的高质量代码理解、解释和生成：

在HumanEval编码评估基准中表现卓越
驱动新一代代码生成系统AlphaCode 2，在竞争性编程问题解决中超越85%的参赛者
支持开发者通过定义代码属性约束进行协作编程

基础设施与部署

模型基于定制TPU v4/v5e加速器训练，提供行业领先的推理效率：

新一代Cloud TPU v5p系统专门为训练尖端AI模型设计
支持从数据中心到移动设备的高效部署
Android 14设备可通过AICore系统能力集成Gemini Nano

安全与责任保障

采用分层安全架构确保模型负责任部署：

实施最全面的安全评估体系，包括偏见和毒性检测
采用对抗测试技术提前识别关键安全问题
构建专用安全分类器过滤暴力和负面刻板印象内容
通过MLCommons和前沿模型论坛等行业组织建立安全基准

技术可用性

Gemini Pro现已通过API向开发者和企业用户开放
Gemini Ultra将于明年初完成安全验证后发布
模型已集成至多款产品中，包括增强版Bard和Pixel 8 Pro设备功能

该模型代表人工智能发展的重大里程碑，通过原生多模态架构和突破性性能表现，为科学发现、创意增强和知识扩展开启新的可能性。

comments powered by Disqus