新型图像与视频生成模型的技术解析
模型架构
图像生成模型与视频生成模型均采用基于变换器的潜在扩散模型(扩散变换器)。扩散模型通过迭代去噪训练逐步还原被添加噪声的样本,而潜在扩散模型在表征空间执行去噪过程。
核心组件包含:
- 变分自编码器(VAE):将原始像素映射为视觉标记(编码器)并执行反向转换(解码器),通过瓶颈层强制生成低维潜在表征
- 文本编码器:处理输入文本提示
- 基于变换器的去噪网络:执行核心去噪操作
推理流程
- 文本编码器将输入文本转换为文本标记序列
- 以文本标记为引导,去噪网络从随机初始化的视觉标记中迭代去除噪声
- VAE解码器将去噪后的视觉标记转换为彩色图像/视频帧
训练机制
训练采用两阶段方案:
- 预训练阶段:建立基础模型,在通用任务上展现高性能
- 微调阶段:提升视觉质量及文本-图像/视频对齐能力,针对重点领域进行优化
训练过程中,VAE编码器将视觉信号映射为视觉标记,文本编码器转换提示文本。通过预定义噪声调度程序在不同采样时间步添加人工噪声,去噪网络基于文本标记条件预测每个时间步注入视觉标记的噪声量。
推理优化
针对扩散变换器迭代推理过程的高计算需求,采用多项优化技术:
- 提前(AOT)编译
- 多GPU并行推理
- 模型蒸馏
- 高效采样策略(仅在必要时密集采样解轨迹)
这些优化技术根据各模型特定需求精心选择和定制,实现更快速高效的推理过程。
功能特性
图像生成模型支持:
- 文本到图像生成
- 图像编辑(修复、扩展、文本引导自动编辑、背景移除)
- 图像变体生成(1-5张输入图像+可选文本提示)
- 图像条件生成(参考图像布局+文本提示内容)
- 色彩引导内容生成(1-10个十六进制颜色代码+文本提示)
视频生成模型支持:
- 文本到视频生成
- 文本+图像到视频生成
- 输出规格:1280×720分辨率,24帧/秒,6秒时长