将扩散模型推广到多模态多任务场景
一种新颖的损失函数和多模态输入数据聚合方法,在部分测试数据上实现了显著改进。
多模态多任务训练的优势
机器学习革命带来的启示之一是,在多数据类型或多任务上训练模型可能比单一用途模型获得更好的性能。例如,在多语言上训练的模型可以学习到某种语言中细微但在另一种语言中明显的区别;在目标分割任务上训练的模型可能学习到有助于深度感知的视觉场景特性。
然而,在多任务和多模态训练的优势方面,扩散模型领域的探索相对较少。扩散模型通过逐步去噪经过逐步加噪的样本进行训练,使得输入随机噪声能产生语义连贯的随机化输出。
在国际学习表征会议(ICLR)上发表的论文中,描述了一种构建多模态多任务扩散模型的通用方法:在输入侧使用模态特定编码器将数据映射到共享扩散空间;在输出侧使用多个任务特定解码器将通用表征映射到特定输出。
模型架构与损失函数改进
论文对将扩散模型推广到多模态多任务设置的问题进行了理论分析,并基于此提出了对典型扩散模型损失函数的若干修改。
在标准扩散建模场景中,模型编码器将输入映射到表征空间;在该空间内,前向过程迭代地向输入表征添加噪声,反向过程则迭代地去除噪声。
损失函数包含两个衡量前向过程概率分布与学习到的反向过程概率分布之间距离的项:一项比较两个过程在前向方向的边缘分布,另一项比较反向过程的后验表征。对这些项进行修改,使分布以数据模态为条件,即不同模态数据的分布可以不同。
损失函数还包含一个新项,关注给定模态输入产生特定表征的概率,这有助于确保反向过程正确恢复数据模态。
多模态信息融合方法
为融合用于训练模型的多模态信息,考虑前向方向的转移分布(决定向给定数据表征添加多少噪声)。为计算该分布的均值,定义了多模态输入编码的加权平均值,权重基于输入模态。
基于前向过程的转移概率,可以计算噪声表征的边缘分布和反向过程的后验分布(对应损失函数中的子损失L0和L1)。
实验评估
在四个任务上测试了该方法,其中两个是多任务,两个是多模态。多任务实验均在视觉领域:一个涉及联合生成视觉数据和相关分割掩码,另一个是新颖的多任务预训练任务,扩散生成模型还学习填充输入图像的掩码区域。
多模态实验涉及图像和其他模态:一个训练模型联合生成图像及其标签,另一个训练模型联合生成图像及其在表征空间中的嵌入(如CLIP嵌入)。
使用学习感知图像块相似度(LPIPS)作为指标评估掩码预训练模型在重建掩码图像区域任务上的表现。该方法显著优于仅针对重建任务(而非同时针对扩散任务)训练的基线模型,在某些情况下误差率几乎比基线模型低一个数量级。
在联合生成图像和标签的任务上,该方法性能与最佳基线视觉语言模型相当,精确度略高,召回率略低。
未来展望
这些初步实验分别评估多任务和多模态性能,每个实验仅涉及两种模态或任务。但该模型的潜力在于其可推广性,当前正在对超过两种模态或任务以及同时进行多模态和多任务训练进行评估。
研究领域:计算机视觉、机器学习
标签:扩散建模、多模态交互、生成式AI