新一代生成式媒体模型与工具解析

新一代生成式媒体模型与工具

今日宣布推出突破性的生成式媒体模型，能够创造令人惊叹的图像、视频和音乐，赋能艺术家实现创作愿景。这些模型同时为普通用户提供了强大的自我表达工具。

Veo 3：视频与音频的融合

Veo 3作为新一代视频生成模型，不仅提升了Veo 2的画质，更首次实现音频生成功能——可生成城市街道的背景交通噪声、公园鸟鸣声甚至角色对话。该模型在文本/图像提示理解、真实物理模拟和精准唇形同步方面表现卓越，能够根据简短文字描述生成生动视频片段。目前面向美国Ultra订阅用户通过Gemini应用和Flow工具开放，企业用户可通过Vertex AI平台使用。

Veo 2功能升级

基于创作者反馈，Veo 2新增多项专业功能：

参考视频生成：通过上传角色、场景或风格参考图像实现更高可控性
摄像机控制：支持精确设定旋转、推移和变焦等镜头运动
画面扩展：智能扩展画幅比例（如竖屏转横屏）
对象编辑：基于物理理解（尺度、交互、阴影）实现对象自然添加/移除参考视频生成与摄像机控制功能已在Flow工具中上线，所有新功能将于数周内通过Vertex AI API开放。

Flow：AI电影制作工具

Flow整合了最先进的Veo、Imagen和Gemini模型，允许通过自然语言指令创建电影级内容。用户可集中管理故事要素（角色、场景、对象、风格），并将叙事转化为视觉场景。目前面向美国AI Pro/Ultra计划用户开放。

Imagen 4：极致画质与排版能力

最新图像生成模型在细节渲染（复杂织物、水滴、动物毛发）和抽象风格表现上显著提升，支持多种宽高比和2K分辨率输出。其革命性的排版能力支持创建贺卡、海报及漫画等含文字元素的作品。该模型已部署于Gemini应用、Whisk、Vertex AI及Workspace套件，即将推出比Imagen 3快10倍的加速版本。

Lyria 2：音乐创作探索

通过Music AI Sandbox为音乐人提供实验性工具集，支持在YouTube Shorts和Vertex AI平台进行创作。同步开放的Lyria RealTime模型支持通过API和AI Studio进行实时交互式音乐生成与表演。

责任创作与行业协作

SynthID技术已为超过100亿份媒体文件添加AI生成水印。新推出的SynthID Detector检测门户支持用户验证内容是否包含AI生成成分。所有生成模型均致力于在保障责任使用的前提下，加速创意实现进程。