模型功能特性
图像生成模型
- 文本到图像生成:输入文本提示生成全新图像
- 图像编辑功能:支持修复(添加视觉元素)、扩展(移除视觉元素)、基于文本提示的自动编辑及背景移除
- 图像变体生成:输入1-5张图像及可选文本提示,生成保留内容但改变风格和背景的新图像
- 图像条件控制:根据参考图像的布局结构和文本提示的内容要求生成图像
- 色彩引导生成:通过1-10个十六进制颜色代码及文本提示控制生成图像的配色方案
视频生成模型
支持两种生成模式:
- 纯文本到视频生成
- 文本结合图像到视频生成 输出规格:1280×720分辨率,24帧/秒,时长6秒
模型架构
采用潜在扩散模型与变换器骨干网络(扩散变换器)的混合架构。核心组件包括:
-
变分自编码器(VAE)
- 编码器:将原始像素映射为视觉标记
- 解码器:将视觉标记重构为彩色图像/视频帧
- 通过瓶颈层产生低维潜在表示
-
文本编码器
- 将输入文本转换为文本标记序列
-
基于变换器的去噪网络
- 迭代消除随机初始化视觉标记中的噪声
推理流程
- 文本编码器转换输入文本为文本标记
- 以文本标记为引导,去噪网络迭代清理视觉标记
- VAE解码器将净化后的视觉标记转换为最终输出
训练机制
两阶段训练策略
- 预训练阶段:建立通用任务基础模型
- 微调阶段:提升视觉质量及文本-视觉对齐能力
训练过程
- 使用图像-文本/视频-文本对训练数据
- VAE编码器映射视觉信号至视觉标记
- 通过预定义噪声调度器添加人工噪声
- 去噪网络基于文本标记预测噪声注入量
推理优化
针对扩散变换器迭代推理的计算需求,采用多项优化技术:
- 提前编译(AOT)技术
- 多GPU并行推理
- 模型蒸馏压缩
- 自适应采样策略(仅在必要时密集采样)
这些优化技术根据模型特性定制实现,显著提升推理效率和速度。