新一代生成式媒体模型与工具助力创意实现

本文介绍了最新推出的Veo 3视频生成模型、Imagen 4图像生成模型以及Flow电影制作工具,这些技术突破实现了音频视频同步生成、精准镜头控制和智能场景扩展等功能,为创作者提供强大的AI辅助创作能力。

新一代生成式媒体模型与工具助力创意实现

今日宣布推出突破性的新一代生成式媒体模型,能够创建令人惊叹的图像、视频和音乐,赋能艺术家实现创作愿景,同时为大众提供卓越的自我表达工具。

Veo 3:视频与音频的融合

Veo 3作为新一代视频生成模型,不仅在画质上超越前代,更首次实现音频同步生成——包括城市街景的背景交通噪声、公园鸟鸣声,甚至角色对话声。该模型在文本/图像提示理解、真实物理模拟和精准唇形同步方面表现卓越,可通过简短故事描述生成生动视频片段。即日起面向美国Ultra订阅用户通过特定应用提供,企业用户可通过Vertex AI获取。

Veo 2功能升级

基于创作者反馈,Veo 2新增四大功能:

  • 参考视频生成:通过上传角色、场景或风格参考图实现更高创作一致性
  • 摄像机控制:支持旋转、推拉和变焦等精确运镜设置
  • 画幅扩展:智能扩展画面比例(如竖屏转横屏)
  • 对象编辑:基于对尺度、交互和阴影的理解,自然添加或移除视频对象

Flow:AI电影制作工具

Flow整合了最先进的生成模型,允许通过自然语言描述生成电影级片段。用户可统一管理故事要素(角色、场景、对象和风格),并将叙事转化为精美场景。目前面向美国AI Pro和Ultra计划用户开放。

Imagen 4:卓越画质与排版能力

最新图像生成模型在细节呈现(如复杂织物、水珠和动物毛发)方面显著提升,支持多种宽高比和2K分辨率输出。其文本渲染能力大幅增强,适用于贺卡、海报和漫画创作。可通过多个平台使用,即将推出速度提升10倍的快速版本。

Lyria 2:音乐创作探索

通过Music AI Sandbox为音乐人提供实验性工具,支持通过YouTube Shorts和Vertex AI进行创作。Lyria RealTime模型已开放API接口,支持实时交互式音乐生成与表演。

负责任创作与行业协作

SynthID技术已为超过100亿个媒体文件添加数字水印,新推出的检测器门户可验证内容是否包含AI生成标识。所有生成模型均持续采用水印技术,旨在降低错误信息和误 attribution 风险。

这些技术进步致力于释放人类创造力,帮助艺术家更快速、更轻松地将创意理念转化为现实作品。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计