机器学习保障视频质量的技术解析

本文详细解析了某视频平台如何利用残差神经网络检测视频块损坏、无参考模型识别音频伪影,以及基于SyncNet架构的唇音同步检测技术,通过机器学习实现大规模视频质量自动化监控。

机器学习在视频质量保障中的应用

流媒体视频在录制、编码、封装或传输过程中可能产生缺陷,因此大多数订阅视频服务(如某中心Prime Video)会持续评估其流内容的质量。手动内容审查(称为玻璃眼测试)难以扩展,且存在评审员质量感知差异等挑战。行业更常见的是使用数字信号处理来检测视频信号中与缺陷相关的异常。

三年前,某视频平台视频质量分析(VQA)小组开始使用机器学习识别从游戏机、电视和机顶盒等设备捕获内容中的缺陷,以验证新应用程序版本或编码配置文件的离线更改。最近,该技术已应用于数千个频道和直播活动的实时质量监控,以及大规模分析新目录内容。

VQA团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题,例如块状帧、意外黑帧和音频噪声。这使得能够处理数十万直播活动和目录项目的视频规模。

面临的挑战是训练数据中阳性案例缺乏,因为某视频平台产品中视听缺陷的流行率极低。通过模拟原始内容中的缺陷数据集来解决这一挑战。使用该数据集开发检测器后,通过在一组实际缺陷上测试来验证检测器是否适用于生产内容。

块损坏检测

使用数字信号处理进行质量分析的一个缺点是难以区分某些类型的内容与有缺陷的内容。例如,对于信号处理器,人群场景或高运动场景可能看起来像具有块损坏的场景,其中受损传输导致帧内像素块位移或导致像素块全部采用相同颜色值。

初始版本的块损坏检测器使用残差神经网络生成指示特定图像位置损坏概率的映射,对该映射进行二值化,并计算损坏区域与总图像面积的比率。在当前版本中,将决策功能移至模型中,使其与特征提取联合学习。

音频伪影检测

“音频伪影”是音频信号中不需要的声音,可能通过录制过程或数据压缩引入。在后一种情况下,这相当于音频的损坏块。但有时出于创意原因也会引入伪影。

为了检测视频中的音频伪影,使用无参考模型,意味着在训练期间无法访问干净音频作为比较标准。该模型基于预训练的音频神经网络,将一秒音频段分类为无缺陷、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。

目前,该模型在专有模拟数据集上达到0.986的平衡准确率。更多关于模型的信息可在论文《使用预训练音频神经网络检测音频伪影的无参考模型》中找到,该论文在今年IEEE冬季计算机视觉应用会议上发表。

音视频同步检测

另一个常见的质量问题是AV同步或唇同步缺陷,即音频与视频不同步。广播、接收和播放过程中的问题可能导致音频和视频不同步。

为了检测唇同步缺陷,基于牛津大学的SyncNet架构构建了名为LipSync的检测器。LipSync管道的输入是一个四秒视频片段。它传递到镜头检测模型(识别镜头边界)、人脸检测模型(识别每帧中的人脸)和人脸跟踪模型(将连续帧中的人脸识别为属于同一个人)。

人脸跟踪模型的输出(称为人脸轨迹)和相关音频然后传递到SyncNet模型,该模型跨人脸轨迹聚合以决定剪辑是同步、不同步还是不确定(意味着未检测到人脸/人脸轨迹或同步和不同步预测数量相等)。

未来工作

这些只是现有检测器中的少数几个。2022年,继续致力于改进算法。在正在进行的工作中,使用主动学习(算法选择特别信息丰富的训练示例)来持续重新训练已部署的模型。

为了生成合成数据集,正在研究EditGan,这是一种新方法,可以更精确地控制生成对抗网络(GAN)的输出。还使用自定义云原生应用程序和SageMaker实现来扩展缺陷检测器,以监控所有直播活动和视频频道。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计