教神经网络压缩图像
几乎所有在互联网上传输的图像都会经过压缩以节省带宽,而通常执行压缩的编解码器(如JPG)都是手工设计的。理论上,基于机器学习的编解码器能够比手工编解码器提供更好的压缩效果和更高的图像质量。但机器学习模型需要通过最小化某种损失指标来训练,而现有的损失指标(如PSNR和MS-SSIM)与人类对相似性的感知并不一致。
在一月份的IEEE冬季计算机视觉应用会议上,我们提出了一种用于学习型图像压缩的感知损失函数,以解决这一问题。
七种不同压缩方案(包括学习型和手工设计)在相同比特率下的重建图像对比。我们的方法能更准确地重建图像细节,与原始(未压缩)图像更为接近。
我们还描述了如何将显著性融入学习型编解码器。当前的图像编解码器,无论是传统型还是学习型,往往对图像的所有区域进行同等压缩。但大多数图像都存在显著区域(如人脸和文本),这些区域的精确重建比其他区域(如天空和背景)更为重要。将更多比特分配给显著区域而非低重要性区域的压缩编解码器,往往能产生令人类观看者更满意的图像。我们的模型能够从训练数据中自动学习如何在图像的显著和非显著区域之间进行比特分配的权衡。
我们用于计算深度感知损失的系统架构。F是从图像排序任务中学习得到的编码器。下游处理对编码器输出进行归一化,并计算它们之间的距离。
我们利用这一观察结果创建了适用于训练图像压缩模型的损失函数。换句话说,为了训练我们的图像压缩模型,我们使用了由另一个神经网络计算的损失函数。我们称之为深度感知损失。
首先,我们使用二选一强制选择方法创建了一个压缩训练集。标注者会看到同一图像通过不同压缩方法(包括传统和学习型编解码器)重建的两个版本,原始图像位于中间。他们被要求选择更接近原始图像的版本。平均而言,标注者在每个样本上花费56秒。
我们将这些数据分为训练集和测试集,并训练一个网络来预测人类标注者更喜欢每对重建图像中的哪一个。然后,我们提取了生成输入图像向量表示的编码器,并将其作为计算相似度得分系统的基础。
我们的相似度度量比其前身更接近人类判断,MS-SIM和PSNR得分最低。
在右侧表格中,我们可以看到,与其他指标相比,我们的方法最接近人类判断。人类判断得分低于100,因为人类标注者有时对图像质量的相对评价存在分歧。另请注意,MS-SSIM和PSNR损失是得分最低的指标。
压缩模型
有了良好的感知损失度量,我们就可以训练神经编解码器。为了使其能够学习利用显著性判断,我们的编解码器包含一个现成的显著性模型,该模型在一个包含10,000张标注了显著区域的图像数据集上训练。编解码器基于训练数据独立学习如何使用显著性模型的输出。
我们的神经压缩编解码器架构。标有“比特串”的两个模块中较短的是输入的压缩版本。在训练过程中,输入既被压缩又被解压缩,以便我们可以根据新的损失度量评估原始图像和重建图像之间的相似性。
在我们的论文中,我们报告了一项广泛的人类评估研究,该研究在四种不同的每像素比特值下将我们的方法与五种其他压缩方法进行了比较。在三种最低比特率下,受试者认为我们模型的重建图像最接近原始图像。在每像素1.0比特的比特率下,BPG方法是表现最佳者。
我们进行了另一项实验,使用传统和学习型图像压缩方法压缩了基准COCO数据集中的图像。然后,我们将这些压缩图像用于其他任务,例如实例分割和物体识别。由于我们的方法能更好地保留图像中的显著方面,因此我们方法的重建图像在所有任务中都表现出色。
在各种压缩率下保留图像重要方面的压缩算法以多种方式使某中心的客户受益,例如降低云存储成本和加快某中心照片存储图像的下载速度。为我们的客户提供这些具体成果是这项工作的动机。
研究领域
计算机视觉
标签
压缩
会议
WACV 2021
相关出版物
显著性驱动的感知图像压缩