新型图像与视频生成模型技术解析
某中心最新推出的Nova Canvas和Nova Reel模型采用扩散变换器(diffusion transformers)架构,能够根据文本提示生成工作室级别的图像和视频内容。
核心功能特性
Nova Canvas模型支持五大功能:
- 文本到图像生成:输入文本提示生成全新图像
- 图像编辑:支持修复(添加视觉元素)、外绘(移除视觉元素)、基于文本的自动编辑和背景移除
- 图像变体生成:输入1-5张图像和可选文本提示,生成保持原内容但改变风格背景的新图像
- 图像条件生成:结合参考图像的布局与文本提示的内容生成新图像
- 色彩引导生成:通过十六进制色码列表控制生成图像的配色方案
Nova Reel模型支持两种视频生成模式:
- 纯文本到视频生成
- 文本+图像到视频生成 生成视频规格:1280×720分辨率,24帧/秒,时长6秒
模型架构技术细节
两款模型均采用基于变换器的潜在扩散模型架构,主要包含三个核心组件:
- 变分自编码器(VAE):在原始像素和视觉标记之间进行双向映射,通过瓶颈层产生低维潜在表示
- 文本编码器:将输入文本转换为文本标记序列
- 基于变换器的去噪网络:负责迭代去除视觉标记中的噪声
推理流程
- 文本编码器将输入文本转换为文本标记
- 以文本标记为引导,去噪网络从随机初始化的视觉标记中迭代去除噪声
- VAE解码器将去噪后的视觉标记转换为彩色图像/视频帧
训练方法论
训练过程分为两个阶段:
- 预训练阶段:建立基础模型,在通用任务上展现高性能
- 微调阶段:进一步提升视觉质量及文本-图像/视频对齐效果,特别是在高价值领域
推理优化技术
针对扩散变换器迭代推理过程计算量大的特点,采用多项优化技术:
- 提前(AOT)编译
- 多GPU推理
- 模型蒸馏
- 自适应采样策略(仅在必要时密集采样解决方案轨迹)
这些优化技术根据各模型的具体需求精心选择和定制,实现了更快速高效的推理过程。