机器学习在视频质量检测中的应用

本文介绍了某中心如何利用机器学习技术检测视频质量缺陷,包括块状损坏、音频伪影和音视频同步问题,通过残差神经网络和预训练音频模型实现高效自动化检测。

机器学习在视频质量检测中的应用

流媒体视频可能因录制、编码、封装或传输过程中的缺陷而受损。大多数订阅视频服务(如某中心Prime Video)会持续评估其流媒体内容的质量。手动内容审查(称为"玻璃眼测试")难以扩展,且存在审查员质量感知差异等挑战。业内更常见的是使用数字信号处理来检测视频信号中与缺陷相关的异常。

三年前,Prime Video的视频质量分析(VQA)小组开始使用机器学习来识别从游戏机、电视和机顶盒等设备捕获的内容中的缺陷,以验证新应用程序版本或编码配置文件的离线更改。最近,这些技术被应用于实时监控数千个频道和直播活动的质量,以及大规模分析新目录内容。

VQA团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题,如块状帧、意外黑帧和音频噪声。这使得能够处理数十万场直播活动和目录项目的视频。

面临的挑战是训练数据中阳性案例的缺乏,因为Prime Video产品中视听缺陷的患病率极低。通过模拟原始内容中的缺陷数据集来解决这一挑战。使用该数据集开发检测器后,通过在一组实际缺陷上测试它们来验证检测器是否适用于生产内容。

块状损坏检测

使用数字信号处理进行质量分析的缺点之一是难以区分某些类型的内容与有缺陷的内容。例如,对于信号处理器来说,人群场景或高运动场景可能看起来像具有块状损坏的场景,其中受损传输导致帧内像素块的位移或导致像素块全部采用相同的颜色值。

检测块状损坏使用了残差神经网络(ResNet),将ResNet18网络的最后一层替换为1x1卷积(conv6)。该层的输出是一个2D映射,其中每个元素是特定图像区域中块状损坏的概率。在初始版本中,将此映射二值化并计算损坏区域与总图像面积的比率。如果该比率超过某个阈值(0.07效果良好),则将帧标记为具有块状损坏。在当前版本中,将决策函数移入模型,使其与特征提取联合学习。

音频伪影检测

“音频伪影"是音频信号中不需要的声音,可能通过录制过程或数据压缩引入。检测视频中的音频伪影使用了无参考模型,意味着在训练期间无法访问干净音频作为比较标准。该模型基于预训练的音频神经网络,将一秒音频段分类为无缺陷、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。

音视频同步检测

另一个常见的质量问题是AV同步或唇同步缺陷,即音频与视频不同步。广播、接收和播放过程中的问题可能导致音频和视频不同步。

检测唇同步缺陷的LipSync检测器基于牛津大学的SyncNet架构。LipSync管道的输入是一个四秒的视频片段。它传递到镜头检测模型(识别镜头边界)、人脸检测模型(识别每帧中的人脸)和人脸跟踪模型(识别连续帧中属于同一个人的面孔)。人脸跟踪模型的输出(称为面部轨迹)和相关音频传递到SyncNet模型,该模型跨面部轨迹聚合以决定剪辑是同步、不同步还是不确定。

未来工作

这些只是检测工具中的几个例子。2022年将继续改进算法。在正在进行的工作中,使用主动学习(算法选择特别有信息的训练示例)不断重新训练已部署的模型。

为了生成合成数据集,正在研究EditGan,这是一种新方法,可以更精确地控制生成对抗网络(GAN)的输出。还使用定制的AWS云原生应用程序和SageMaker实现来扩展缺陷检测器,以监控所有直播活动和视频频道。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计