扩散变换器驱动的图像视频生成新技术

介绍基于扩散变换器架构的新型图像视频生成模型技术细节,包括变分自编码器、文本编码器和去噪网络的工作机制,以及训练过程中的两阶段优化和推理效率提升方案。

新型图像与视频生成模型技术解析

某中心最新推出的Nova Canvas和Nova Reel模型采用扩散变换器(diffusion transformers)架构,能够根据文本提示生成工作室级别的图像和视频内容。

核心功能特性

Nova Canvas模型支持五大功能:

  • 文本到图像生成:输入文本提示生成全新图像
  • 图像编辑:支持修复(添加视觉元素)、外绘(移除视觉元素)、基于文本的自动编辑和背景移除
  • 图像变体生成:输入1-5张图像和可选文本提示,生成保持原内容但改变风格背景的新图像
  • 图像条件生成:结合参考图像的布局与文本提示的内容生成新图像
  • 色彩引导生成:通过十六进制色码列表控制生成图像的配色方案

Nova Reel模型支持两种视频生成模式:

  1. 纯文本到视频生成
  2. 文本+图像到视频生成 生成视频规格:1280×720分辨率,24帧/秒,时长6秒

模型架构技术细节

两款模型均采用基于变换器的潜在扩散模型架构,主要包含三个核心组件:

  1. 变分自编码器(VAE):在原始像素和视觉标记之间进行双向映射,通过瓶颈层产生低维潜在表示
  2. 文本编码器:将输入文本转换为文本标记序列
  3. 基于变换器的去噪网络:负责迭代去除视觉标记中的噪声

推理流程

  1. 文本编码器将输入文本转换为文本标记
  2. 以文本标记为引导,去噪网络从随机初始化的视觉标记中迭代去除噪声
  3. VAE解码器将去噪后的视觉标记转换为彩色图像/视频帧

训练方法论

训练过程分为两个阶段:

  • 预训练阶段:建立基础模型,在通用任务上展现高性能
  • 微调阶段:进一步提升视觉质量及文本-图像/视频对齐效果,特别是在高价值领域

推理优化技术

针对扩散变换器迭代推理过程计算量大的特点,采用多项优化技术:

  • 提前(AOT)编译
  • 多GPU推理
  • 模型蒸馏
  • 自适应采样策略(仅在必要时密集采样解决方案轨迹)

这些优化技术根据各模型的具体需求精心选择和定制,实现了更快速高效的推理过程。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计