基于谷歌云生成式媒体模型的迅猛发展势头

2025年10月3日 Michael Gerstenhaber Vertex AI产品管理副总裁

看到我们最新图像编辑模型Nano Banana在Gemini 2.5 Flash Image中的功能迅速走红，确实令人兴奋。通过这些变革性工作流程，原因显而易见：

使用Gemini 2.5 Flash Image进行地理空间推理和理解
使用Gemini 2.5 Flash Image进行迭代优化
使用Gemini 2.5 Flash Image进行上下文感知的对话式编辑

惊人的反响清楚地表明：企业现在能够比以往更快地创建和完善跨多种格式和渠道的高质量媒体，同时不影响吸引力、一致性或安全性。

这就是为什么我们很高兴宣布我们生成式媒体模型套件的重大更新——包括Gemini 2.5 Flash Image（现已正式上市！）、Veo、Imagen和Gemini 2.5文本转语音——在Vertex AI上。这些更新帮助您更快地创作，拥有更多控制权，并覆盖所有最重要的格式：视觉、声音和动态。让我们来看看。

Gemini 2.5 Flash Image在Vertex AI上正式上市

我们很高兴宣布Gemini 2.5 Flash Image正式上市。我们最先进的图像生成和编辑模型现已为生产环境做好准备，并得到谷歌云企业级基础设施和安全性的支持。此外，该模型现在可以创建多种宽高比的图像，并支持批量处理。

我们已经看到Gemini 2.5 Flash Image获得了惊人的采用率。以下是一些公司如何推动Gemini 2.5 Flash Image创意边界的示例：

“Gemini 2.5 Flash Image和如此高质量的AI工具意味着，毫不夸张地说，不再有任何限制。因此，我们的团队比以往任何时候都更具创造力。我们正在合作构思想法，能够更快地将其可视化，并在几天内启动活动，而不是几周。我们的核心使命始终是为创作者和企业提供最先进的AI工具，将Gemini 2.5 Flash Image交到他们手中实现了这一承诺。毫无疑问，这是成为创作者最激动人心的时刻。” - Shahar Aizenberg, Artlist.io首席营销官

“Gemini 2.5 Flash Image重新定义了Mercado Libre摄影工作室的可能性。该模型的创造力、美学质量和精确的指令遵循提升了我们的产品列表，并释放了新的可能性。今天，我们唯一的限制是想象力。” - Franco Seia, Mercado Libre软件开发经理

Veo：以更大控制力梦想新格式的创作

Veo 3是我们最新的视频生成模型，具有原生音频和对话功能，已被希望以前所未有的控制力将故事变为现实的创作者迅速采用。我们一直在听取您的反馈，并很高兴宣布在Vertex AI上使Veo 3更强大的新功能：

输出社交媒体垂直格式：您告诉我们您想创建垂直视频，我们听取了！Veo 3和Veo 3 Fast现在支持9:16宽高比。创作者可以制作更大、更沉浸式的视觉效果，这些效果针对社交媒体平台的垂直方向进行了优化。告别尴尬的裁剪！
控制故事的流程和时间：通过4秒、6秒或8秒的持续时间选项，您可以无缝调整视频内容以进行过渡和交叉剪辑场景，让您根据需要制作更灵活的叙事。

我们的客户已经在利用Veo改变他们的创意工作流程，并以强大的新方式与受众建立联系。

“对于Palo Alto Networks的’成为天才，勇敢部署’活动，我们证明您不再需要在速度、创意和成本之间做出选择。使用Gemini和Veo 3，您可以同时获得这三者。像我们的客户一样，我们正在驾驭AI革命的惊人前景。在这个新时代，最聪明的举措不仅仅是采用AI，而是要安全地做到这一点。” - Kelly Waldher, Palo Alto Networks首席营销官

“我们一直相信创意的未来是创意人员与技术之间的动态合作伙伴关系。这就是为什么我们将视频、图像和音频领域的最佳AI模型直接整合到我们无限制的Envato订阅中。早期迹象表明，像Veo 3这样的模型使用率很高，加速了我们社区的创造力，并在此过程中赋予他们蓬勃发展的能力。” - Hichame Assi, Envato首席执行官

Imagen 4在Vertex AI上正式上市

我们领先的文本到图像模型Imagen 4专为创意和速度而设计。它提供逼真的图像、清晰的清晰度以及文本渲染和排版，比以往更快地将您的想象力变为现实。它在Vertex AI上正式上市并为生产环境做好准备。

Shutterstock是一家提供可扩展创意和生成式AI解决方案的品牌家族，正在使用谷歌的Imagen 4模型来提供高质量、商业就绪的AI图像。

“在Shutterstock，我们的使命是为企业提供必要、通用的要素，使他们的工作更有效。通过将谷歌的Imagen 4模型引入我们的AI图像生成器，我们使团队比以往任何时候都更容易在几秒钟内从想法到产生影响，并获得市场就绪的视觉效果。Imagen 4使我们能够提供满足客户期望标准的高质量、商业就绪的输出。这种集成确保Shutterstock客户始终配备最先进、面向未来的创意AI工具。” - Keenan Kadam, Shutterstock高级产品经理

Gemini 2.5 TTS（文本转语音）在Vertex AI上正式上市

我们强大的生成式媒体功能也包括音频。利用Gemini 2.5文本转语音创建高保真语音应用程序，所有这些都具备Vertex AI的安全性和可扩展性。

我们很高兴地宣布，Gemini 2.5文本转语音（TTS）现在在Pro和Flash模型上都正式上市。该模型优先考虑类似人类的表达和控制，改变了您构建语音应用程序的方式：

工作室质量对话，现已正式上市：不再依赖断断续续的单扬声器系统。Gemini 2.5 Flash和Gemini 2.5 Pro TTS现已为生产环境做好准备，使您能够在单个API调用中为播客、有声读物和丰富的对话式客户服务生成动态的多扬声器对话。
高级风格和音调控制：利用自然语言提示来指导表演，而不仅仅是文本。您现在可以控制声音的音调、情感表达和口音，确保您的品牌声音以完美的保真度传递。
全球覆盖，完美交付：Gemini 2.5 Flash和Gemini 2.5 Pro TTS现在在70多种语言中可用，保证您的全球受众无论地区如何都能获得相同高质量、富有表现力的语音体验。

使用哪种生成式媒体模型以及何时使用

我们有一套企业级工作的选项，因为我们知道在为项目选择正确模型时，选择很重要。如果您不确定从哪里开始，这里有一个快速参考指南：

选择Veo 3：如果您的工作流程需要动态、高质量的视频创作，并对场景、角色和叙事流程进行精细控制。它非常适合社交媒体内容、营销活动以及任何通过动态将故事变为现实的关键项目。您的输入可以是文本、图像或组合。有关最新的Veo 3定价，请访问此处。
选择Gemini 2.5 Flash Image：作为图像创作的起点，或者如果您的工作流程是迭代的，需要创建或编辑具有强视觉一致性的图像。它是对话式编辑、草图到图像任务、风格迁移和调整现有视觉效果的合适选择。您的输入通常是图像和文本提示的组合。
选择Imagen 4：如果您的工作流程专注于从文本快速生成全新图像并具有更高分辨率。它专为高容量的文本到图像应用而构建，其中速度和分辨率是您的主要关注点。
选择Gemini 2.5 Flash或Gemini 2.5 Pro TTS（文本转语音）：如果您的工作流程专注于通过高质量、情感丰富的音频将文本变为现实。它是创建逼真的语音代理、为播客和电子学习等内容进行专业叙述（包括多扬声器合成）以及为游戏和娱乐创建动态角色声音的合适选择。您的输入是文本。

开始在Vertex AI上体验企业级创意

Gemini 2.5 Flash Image、Veo 3、Imagen 4和Gemini 2.5 TTS现已在Vertex AI上可用。

立即进入Vertex AI Studio开始使用Gemini 2.5 Flash Image和Gemini 2.5 TTS。对于Veo 3和Imagen 4，请在Vertex AI Media Studio中开始使用。