新一代生成式媒体模型与工具解析

本文详细介绍了最新的生成式媒体模型技术,包括Veo 3视频生成模型、Imagen 4图像生成模型以及Flow电影制作工具,涵盖音频合成、物理模拟、唇形同步等突破性功能,并探讨了在Vertex AI平台的企业级应用。

新一代生成式媒体模型与工具

今日宣布推出突破性的生成式媒体模型,能够创造令人惊叹的图像、视频和音乐,赋能艺术家实现创作愿景。这些模型同时为普通用户提供了强大的自我表达工具。

Veo 3:视频与音频的融合

Veo 3作为新一代视频生成模型,不仅提升了Veo 2的画质,更首次实现音频生成功能——可生成城市街道的背景交通噪声、公园鸟鸣声甚至角色对话。该模型在文本/图像提示理解、真实物理模拟和精准唇形同步方面表现卓越,能够根据简短文字描述生成生动视频片段。目前面向美国Ultra订阅用户通过Gemini应用和Flow工具开放,企业用户可通过Vertex AI平台使用。

Veo 2功能升级

基于创作者反馈,Veo 2新增多项专业功能:

  • 参考视频生成:通过上传角色、场景或风格参考图像实现更高可控性
  • 摄像机控制:支持精确设定旋转、推移和变焦等镜头运动
  • 画面扩展:智能扩展画幅比例(如竖屏转横屏)
  • 对象编辑:基于物理理解(尺度、交互、阴影)实现对象自然添加/移除 参考视频生成与摄像机控制功能已在Flow工具中上线,所有新功能将于数周内通过Vertex AI API开放。

Flow:AI电影制作工具

Flow整合了最先进的Veo、Imagen和Gemini模型,允许通过自然语言指令创建电影级内容。用户可集中管理故事要素(角色、场景、对象、风格),并将叙事转化为视觉场景。目前面向美国AI Pro/Ultra计划用户开放。

Imagen 4:极致画质与排版能力

最新图像生成模型在细节渲染(复杂织物、水滴、动物毛发)和抽象风格表现上显著提升,支持多种宽高比和2K分辨率输出。其革命性的排版能力支持创建贺卡、海报及漫画等含文字元素的作品。该模型已部署于Gemini应用、Whisk、Vertex AI及Workspace套件,即将推出比Imagen 3快10倍的加速版本。

Lyria 2:音乐创作探索

通过Music AI Sandbox为音乐人提供实验性工具集,支持在YouTube Shorts和Vertex AI平台进行创作。同步开放的Lyria RealTime模型支持通过API和AI Studio进行实时交互式音乐生成与表演。

责任创作与行业协作

SynthID技术已为超过100亿份媒体文件添加AI生成水印。新推出的SynthID Detector检测门户支持用户验证内容是否包含AI生成成分。所有生成模型均致力于在保障责任使用的前提下,加速创意实现进程。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计