下一代模型:Gemini 1.5
突破性的长上下文理解能力
Gemini 1.5采用创新的混合专家(Mixture-of-Experts)架构,显著提升模型效率。该架构将传统单一神经网络划分为多个专门的"专家"神经网络,根据输入类型选择性激活最相关的专家路径。
百万级token上下文窗口
模型支持高达100万token的上下文窗口,可同时处理:
- 1小时视频内容
- 11小时音频数据
- 超过30,000行代码
- 超过700,000字文本
在研究中已成功测试处理高达1000万token的内容。
多模态理解能力
复杂推理能力
能够无缝分析、分类和总结大量内容。例如,给定402页的阿波罗11号任务记录,模型可以推理文档中的对话、事件和细节。
视频理解
可对44分钟的无声电影进行准确分析,识别情节点和容易被忽略的细节。
代码处理
在超过10万行代码的提示下,能够进行相关问题解决任务,提供修改建议并解释代码工作原理。
性能表现
在文本、代码、图像、音频和视频评估中,1.5 Pro在87%的大型语言模型开发基准测试中优于1.0 Pro。在"大海捞针"评估中,在100万token数据块中准确找到嵌入文本的成功率达到99%。
安全与伦理测试
模型经过严格的内容安全和代表性危害评估,采用红队测试技术检测潜在风险。持续开发新的评估方法来测试其新颖的长上下文能力。
开发者预览
通过AI Studio和Vertex AI向开发者和企业客户提供有限预览版,标准版本将提供128,000 token上下文窗口,未来将推出支持百万级token的定价层级。