将扩散模型推广至多模态多任务场景
一种新型损失函数和多模态输入数据聚合方法,在部分测试数据上实现了显著改进。
模型架构
在国际学习表征会议(ICLR)发表的论文中,我们提出构建多模态多任务扩散模型的通用方法。在输入侧,使用模态特定编码器将数据映射到共享扩散空间;在输出侧,使用多个任务特定解码器将通用表征映射到具体输出。
理论创新
论文对扩散模型通用化到多模态多任务场景的问题进行理论分析,并基于此提出对典型扩散模型损失函数的多项改进。在四项多模态或多任务数据集上的实验表明,该方法均能匹配或超越单用途模型的性能。
损失函数设计
标准扩散模型的损失函数包含衡量前向过程与反向学习过程概率分布距离的两项。我们修改这些项使分布以数据模态为条件,即不同模态数据的分布可以不同。新增的L2项确保反向过程能正确恢复数据模态。
多模态融合
为融合训练模型使用的多模态信息,我们通过基于输入模态的加权平均计算前向过程转移分布的均值:
$$\mu_t = \frac{\sum_{i=1}^N w_t(i)E_i(x_i)}{\sum_{i=1}^N w_t(i)}$$
基于前向过程的转移概率,可计算噪声表征的边际分布和反向过程的后验分布。
实验评估
在四个任务上测试该方法,其中两个为多任务任务,两个为多模态任务:
视觉多任务实验
- 联合生成视觉数据及对应分割掩码
- 新颖的多任务预训练任务:扩散生成模型同时学习填充输入图像的掩码区域
多模态实验
- 联合生成图像及其标签
- 联合生成图像及其在表征空间中的嵌入(如CLIP嵌入)
定量结果
在掩码预训练任务中,使用学习感知图像块相似度(LPIPS)作为指标,该方法显著优于仅针对重建任务训练的基线模型,错误率在某些情况下比基线模型低近一个数量级。
在联合生成图像和标签任务中,模型性能与最佳基线视觉语言模型相当,精确度略高,召回率略低。
展望
当前实验分别评估多任务和多模态性能,每个实验仅涉及两种模态或任务。但该模型的潜力在于其通用性,后续工作将同时评估两种以上模态或任务,以及同步多模态和多任务训练。
研究领域:计算机视觉、机器学习
标签:扩散建模、多模态交互、生成式AI