神经网络图像压缩技术突破

本文介绍了一种基于神经网络的新型图像压缩技术,通过结合感知损失函数和显著性检测模块,在保持图像质量的同时实现更高压缩率。该方法在人类感知评估和下游计算机视觉任务中均优于传统编解码器。

教神经网络压缩图像

在互联网上传输的图像几乎都经过压缩以节省带宽,而通常执行压缩的编解码器(如JPG)是手工设计的。理论上,基于机器学习的编解码器可以提供比手工编解码器更好的压缩效果和更高的图像质量。但机器学习模型通过最小化某些损失指标进行训练,而现有指标(如PSNR和MS-SSIM)与人类对相似性的感知并不一致。

在今年1月的IEEE冬季计算机视觉应用会议(WACV)上,提出了一种用于学习型图像压缩的感知损失函数以解决该问题。

显著性整合

当前图像编解码器(无论是传统还是学习型)往往对图像所有区域进行同等压缩。但大多数图像存在显著性区域(如人脸和文本),这些区域的精确重建比其他区域(如天空和背景)更为重要。将更多比特分配给显著性区域的压缩编解码器往往能产生更令人满意的图像效果。该模型能够从训练数据中自动学习如何权衡图像显著与非显著区域的比特分配。

模型驱动损失

研究表明,用于训练神经网络作为压缩编解码器的损失函数与人类质量判断不一致。例如,在四个压缩重建图像中,人类始终认为右起第二个最忠实原图,尽管按MS-SSIM损失指标它仅排名第三。

然而研究也发现,在任意计算机视觉任务(如物体识别)上训练的神经网络所计算的中间值,比传统损失指标更符合人类相似性判断。即经过计算机视觉任务训练的神经网络会为每个输入图像生成固定长度的向量表示,该向量值之间的距离能够有效预测人类相似性判断。

基于该观察,创建了适用于训练图像压缩模型的损失函数——深度感知损失。首先采用二选一强制选择(2AFC)方法创建压缩训练集:标注者需要从两种不同压缩方法重建的图像中选择更接近原图的版本。平均每个样本耗时56秒。

将数据分为训练集和测试集后,训练网络预测人类标注者偏好,随后提取生成输入图像向量表示的编码器作为计算相似度评分系统的基础。

压缩模型架构

采用优质感知损失指标后,可训练神经编解码器。为利用显著性判断,编解码器包含一个现成的显著性模型(基于10,000张标注显著性区域的数据集训练)。编解码器根据训练数据独立学习如何使用显著性模型的输出。

在论文中报道了广泛的人类评估研究:在四种不同比特率(0.23, 0.37, 0.67, 1.0 bpp)下将本方法与五种其他压缩方法对比。在三个最低比特率下,受试者认为本方法重建的图像最接近原图。在1.0 bpp时,BPG方法表现最佳。

另一实验中,使用传统和学习型图像压缩方法压缩COCO数据集图像,并将压缩图像用于实例分割和物体识别等任务。本方法重建的图像在所有任务中均表现优异,因其能更好地保留图像显著性特征。

能够在不同压缩率下保留图像重要特征的压缩算法为某中心客户带来多重益处,包括降低云存储成本和加速某中心照片的图像下载。为客户提供这些具体成果是本研究工作的初衷。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计