将扩散模型推广至多模态多任务场景

一种新型损失函数和多模态输入数据聚合方法，在部分测试数据上实现了显著改进。

模型架构

在国际学习表征会议（ICLR）发表的论文中，我们提出构建多模态多任务扩散模型的通用方法。在输入侧，使用模态特定编码器将数据映射到共享扩散空间；在输出侧，使用多个任务特定解码器将通用表征映射到具体输出。

论文对扩散模型通用化到多模态多任务场景的问题进行理论分析，并基于此提出对典型扩散模型损失函数的多项改进。在四项多模态或多任务数据集上的实验表明，该方法均能匹配或超越单用途模型的性能。

标准扩散模型的损失函数包含衡量前向过程与反向学习过程概率分布距离的两项。我们修改这些项使分布以数据模态为条件，即不同模态数据的分布可以不同。新增的L2项确保反向过程能正确恢复数据模态。

为融合训练模型使用的多模态信息，我们通过基于输入模态的加权平均计算前向过程转移分布的均值：

$$\mu_t = \frac{\sum_{i=1}^N w_t(i)E_i(x_i)}{\sum_{i=1}^N w_t(i)}$$

基于前向过程的转移概率，可计算噪声表征的边际分布和反向过程的后验分布。

在四个任务上测试该方法，其中两个为多任务任务，两个为多模态任务：

在掩码预训练任务中，使用学习感知图像块相似度（LPIPS）作为指标，该方法显著优于仅针对重建任务训练的基线模型，错误率在某些情况下比基线模型低近一个数量级。

在联合生成图像和标签任务中，模型性能与最佳基线视觉语言模型相当，精确度略高，召回率略低。

当前实验分别评估多任务和多模态性能，每个实验仅涉及两种模态或任务。但该模型的潜力在于其通用性，后续工作将同时评估两种以上模态或任务，以及同步多模态和多任务训练。

研究领域：计算机视觉、机器学习
标签：扩散建模、多模态交互、生成式AI