谷歌发布Veo和Imagen 3生成式AI工具

谷歌在I/O 2024推出Veo高清视频生成模型和Imagen 3文本到图像模型,支持1080p视频生成和逼真图像渲染,包含数字水印等安全措施,为创作者提供新一代AI媒体生成工具。

Veo:最先进的视频生成模型

Veo能够生成高质量1080p分辨率视频,支持多种电影和视觉风格,时长可超过一分钟。该模型具有对自然语言和视觉语义的深度理解能力,能够准确捕捉提示词的语调,并在长提示中呈现细节。

模型提供前所未有的创意控制水平,理解"延时摄影"、“航拍景观"等专业术语。Veo生成的视频片段保持连贯一致,人物、动物和物体的运动都呈现真实感。

该模型基于多年生成式视频模型研究,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等技术,通过架构创新、扩展定律和其他新颖技术提升质量和输出分辨率。

Veo改进了模型学习理解视频内容、渲染高清图像、模拟物理世界等方面的技术。这些进展将推动AI研究发展,帮助构建更有用的产品,使人们能够以新方式进行交互和沟通。

目前Veo通过等待名单向选定创作者提供私人预览版,未来还将把部分功能引入YouTube Shorts和其他产品。

Imagen 3:最高质量的文本到图像模型

Imagen 3是最高质量的文本到图像模型,能够生成极其详细的照片级真实图像,相比之前模型显著减少了干扰性视觉伪影。

该模型更好地理解自然语言、提示意图,并能融入长提示中的细节内容。模型的先进理解能力使其能够掌握多种风格。

在文本渲染方面取得重大突破,解决了图像生成模型长期面临的挑战。这一能力为生成个性化生日消息、演示文稿标题幻灯片等应用开辟了新可能性。

Imagen 3目前通过ImageFX向选定创作者提供私人预览版,即将登陆Vertex AI平台。

与音乐界的合作

作为持续探索AI在艺术和音乐创作中作用的一部分,正在与YouTube合作,与众多杰出音乐人、词曲作者和制作人开展合作。

这些合作也为生成式音乐技术的发展提供参考,包括Lyria——最先进的AI音乐生成模型。为此开发了一套名为Music AI Sandbox的音乐AI工具,这些工具旨在开辟新的创意空间,允许人们从头创建新的乐器部分,以新方式转换声音等。

目前与格莱美获奖音乐人Wyclef Jean、格莱美提名词曲作者Justin Tranter和电子音乐人Marc Rebillet继续音乐实验,他们正在YouTube频道发布使用音乐AI工具创建的新演示录音。

从设计到部署的责任考量

在推进技术前沿的同时,始终关注负责任的发展。采取措施应对生成式技术带来的挑战,帮助个人和组织负责任地使用AI生成内容。

为每项技术都与创意社区和其他外部利益相关者合作,收集见解并听取反馈,以确保以安全负责任的方式改进和部署技术。

持续进行安全测试,应用过滤器,设置防护栏,并将安全团队置于开发核心位置。团队还开创了SynthID等工具,可将不可感知的数字水印嵌入AI生成的图像、音频、文本和视频中。从今天开始,VideoFX上由Veo生成的所有视频都将带有SynthID水印。

生成式AI的创意潜力巨大,期待看到全球用户如何使用新模型和工具将创意变为现实。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计