神经网络图像压缩技术新突破
技术背景
互联网中传输的图像普遍采用压缩编解码器(如JPG)以节省带宽。传统编解码器为手工设计,而基于机器学习的编解码器理论上能提供更好的压缩效果和图像质量。然而,现有损失度量指标(如PSNR和MS-SSIM)与人类感知相似性存在偏差。
核心创新
1. 深度感知损失函数
在IEEE冬季计算机视觉应用会议(WACV)上提出了一种针对学习式图像压缩的感知损失函数。研究表明,经过计算机视觉任务(如目标识别)训练的神经网络产生的中间值,比传统损失度量更符合人类相似性判断。该方法通过以下步骤实现:
- 采用二选一强制选择(2AFC)方法构建压缩训练集
- 训练网络预测人类标注者偏好的重建图像
- 提取编码器生成输入图像的向量表示作为相似度计算基础
实验数据显示,该方法(LPIPS-Comp VGG PSNR)与人类判断的一致性达81.9%(人类自身一致性为82.06%),显著优于MS-SSIM和PSNR等传统指标。
2. 显著性驱动的压缩架构
创新性地将显著性模型整合到神经编解码器中:
- 采用经过10,000张标注图像训练的现成显著性模型
- 编解码器根据训练数据自主学习如何利用显著性输出
- 对图像重要区域(如人脸、文本)分配更多比特位,背景区域分配较少比特位
系统架构
神经压缩编解码器包含双模块结构:
- 编码器:将输入图像转换为压缩比特串
- 解码器:重建压缩图像 训练过程中同时执行压缩和解压缩,基于新损失度量评估原始图像与重建图像的相似度。
实验验证
人类感知研究
在每像素比特率低于1bit时,该方法在四种不同比特率(0.23, 0.37, 0.67, 1.0)下与五种压缩方法对比,在三个较低比特率下被受试者评为最接近原始图像。
下游任务测试
使用COCO数据集图像进行传统和学习式压缩方法对比,压缩后的图像用于实例分割和目标识别任务。该方法重建的图像在所有任务中均表现优异,因其更好地保留了图像中的显著性特征。
实际应用价值
该技术能在不同压缩率下保留图像重要方面,为某中心客户带来多重益处:
- 降低云存储成本
- 加速某中心照片服务的图像下载速度
相关研究
会议:WACV 2021
关联论文:《显著性驱动的感知图像压缩》