新一代AI模型Gemini 2.0发布
某中心正式推出Gemini 2.0系列模型的首个版本——Gemini 2.0 Flash实验模型。该模型基于1.5 Flash架构升级,在保持低延迟的同时显著提升性能,关键基准测试表现甚至超越前代Pro版本,响应速度提升两倍。
多模态与工具调用能力
Gemini 2.0 Flash支持多模态输入(图像、视频、音频)和输出(原生生成图像与文本混合内容、可调控多语言文本转语音),并能原生调用工具链包括搜索引擎、代码执行及第三方用户自定义函数。
开发者接入与产品集成
开发者现可通过AI工作室和Vertex AI平台访问Gemini 2.0 Flash实验模型,多模态输入和文本输出功能面向所有开发者开放,文本转语音和原生图像生成功能限早期合作伙伴使用。正式版本将于明年1月发布,同时推出更多模型规格。
同步推出的多模态实时API支持实时音视频流输入及多工具组合调用,助力开发者构建动态交互应用。全球Gemini用户即日起可在桌面端和移动网页端选择体验2.0 Flash优化版本,移动应用版本即将推出。
智能体技术研究突破
Gemini 2.0 Flash通过原生用户界面操作能力、多模态推理、长上下文理解、复杂指令跟随、组合式函数调用等技术的协同,开启新型智能体体验:
Project Astra智能助手
- 支持多语言及混合语言对话,提升口音和生僻词识别能力
- 集成搜索引擎、视觉识别和地图工具
- 会话记忆延长至10分钟,支持历史对话个性化回溯
- 通过流式处理和原生音频理解实现近似人类对话的延迟
Project Mariner浏览器代理
- 通过实验性浏览器扩展理解屏幕像素、网页元素(文本/代码/图像/表单)
- 在WebVoyager基准测试中以单代理配置达成83.5%的端到端任务完成率
- 实施安全防护机制:仅限活动标签页操作,敏感行为需用户最终确认
Junes代码开发代理
- 实验性GitHub集成工具,可规划并执行开发任务
- 在开发者监督下处理完整代码工作流
游戏与跨领域应用
基于Gemini 2.0构建的游戏代理能实时解析屏幕画面并提供策略建议,目前正与知名游戏开发商合作测试策略类与模拟类游戏应用。同时探索将空间推理能力应用于机器人技术的物理世界交互。
安全与责任开发
采用渐进式开发策略,通过内部责任安全委员会评估风险,利用AI辅助红队测试自动生成安全评估数据。针对多模态输出复杂性加强图像和音频安全训练,在智能体原型中内置隐私控制(会话删除功能)和反恶意指令注入防护。
技术基础设施
Gemini 2.0全面运行于第六代TPU芯片Trillium,该定制硬件支撑100%的模型训练与推理计算,现已正式向企业用户开放。