某中心发布Gemini 2.0 AI模型:开启智能体时代

某中心推出新一代Gemini 2.0 AI模型,具备原生多模态输出和工具调用能力,支持图像、音频生成及代码执行,同时展示Project Astra智能助手、Project Mariner浏览器代理和Jules代码代理等研究原型,推动智能体技术发展。

新一代AI模型Gemini 2.0发布

某中心正式推出Gemini 2.0系列模型的首个版本——Gemini 2.0 Flash实验模型。该模型基于1.5 Flash架构升级,在保持低延迟的同时显著提升性能,关键基准测试表现甚至超越前代Pro版本,响应速度提升两倍。

多模态与工具调用能力

Gemini 2.0 Flash支持多模态输入(图像、视频、音频)和输出(原生生成图像与文本混合内容、可调控多语言文本转语音),并能原生调用工具链包括搜索引擎、代码执行及第三方用户自定义函数。

开发者接入与产品集成

开发者现可通过AI工作室和Vertex AI平台访问Gemini 2.0 Flash实验模型,多模态输入和文本输出功能面向所有开发者开放,文本转语音和原生图像生成功能限早期合作伙伴使用。正式版本将于明年1月发布,同时推出更多模型规格。

同步推出的多模态实时API支持实时音视频流输入及多工具组合调用,助力开发者构建动态交互应用。全球Gemini用户即日起可在桌面端和移动网页端选择体验2.0 Flash优化版本,移动应用版本即将推出。

智能体技术研究突破

Gemini 2.0 Flash通过原生用户界面操作能力、多模态推理、长上下文理解、复杂指令跟随、组合式函数调用等技术的协同,开启新型智能体体验:

Project Astra智能助手

  • 支持多语言及混合语言对话,提升口音和生僻词识别能力
  • 集成搜索引擎、视觉识别和地图工具
  • 会话记忆延长至10分钟,支持历史对话个性化回溯
  • 通过流式处理和原生音频理解实现近似人类对话的延迟

Project Mariner浏览器代理

  • 通过实验性浏览器扩展理解屏幕像素、网页元素(文本/代码/图像/表单)
  • 在WebVoyager基准测试中以单代理配置达成83.5%的端到端任务完成率
  • 实施安全防护机制:仅限活动标签页操作,敏感行为需用户最终确认

Junes代码开发代理

  • 实验性GitHub集成工具,可规划并执行开发任务
  • 在开发者监督下处理完整代码工作流

游戏与跨领域应用

基于Gemini 2.0构建的游戏代理能实时解析屏幕画面并提供策略建议,目前正与知名游戏开发商合作测试策略类与模拟类游戏应用。同时探索将空间推理能力应用于机器人技术的物理世界交互。

安全与责任开发

采用渐进式开发策略,通过内部责任安全委员会评估风险,利用AI辅助红队测试自动生成安全评估数据。针对多模态输出复杂性加强图像和音频安全训练,在智能体原型中内置隐私控制(会话删除功能)和反恶意指令注入防护。

技术基础设施

Gemini 2.0全面运行于第六代TPU芯片Trillium,该定制硬件支撑100%的模型训练与推理计算,现已正式向企业用户开放。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计