机器学习如何保障视频质量检测

本文详细介绍某中心视频服务平台如何利用机器学习技术检测视频质量缺陷,包括块状损坏、音频伪影和音视频同步问题,采用残差神经网络和预训练音频模型实现高效质量监控。

机器学习如何保障视频质量检测

流媒体视频在录制、编码、封装或传输过程中可能会引入缺陷,因此大多数订阅视频服务都会持续评估其流媒体内容的质量。手动内容审查无法很好地扩展,并且存在审查人员对质量感知差异等挑战。行业中更常见的是使用数字信号处理来检测视频信号中与缺陷经常相关的异常。

三年前,某中心视频平台的视频质量分析团队开始使用机器学习来识别从游戏机、电视和机顶盒等设备捕获内容中的缺陷,以验证新应用程序版本或编码配置文件的离线更改。最近,该团队将相同技术应用于数千个频道和直播活动的实时质量监控,以及大规模分析新目录内容。

视频质量分析团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题,例如块状帧、意外黑帧和音频噪声。这使他们能够处理数十万个直播活动和目录项目的视频规模。

块状损坏检测

使用数字信号处理进行质量分析的一个缺点是难以将某些类型的内容与有缺陷的内容区分开。例如,对于信号处理器来说,人群场景或高运动场景可能看起来像是有块状损坏的场景。

为了检测块状损坏,团队使用残差神经网络,该网络设计使较高层能够显式纠正下层遗漏的错误。他们将ResNet18网络的最后一层替换为1x1卷积。该层的输出是一个二维图,其中每个元素表示特定图像区域中存在块状损坏的概率。

在该工具的初始版本中,团队对二维图进行二值化,并计算损坏区域与总图像面积的比率。如果该比率超过某个阈值,则将帧标记为存在块状损坏。在当前版本中,团队将决策函数移入模型,使其与特征提取联合学习。

音频伪影检测

“音频伪影"是音频信号中不需要的声音,可能通过录制过程或数据压缩引入。为了检测视频中的音频伪影,团队使用无参考模型,该模型基于预训练的音频神经网络,将一秒音频段分类为无缺陷、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。

目前,该模型在专有模拟数据集上实现了0.986的平衡准确率。

音视频同步检测

另一个常见的质量问题是AV同步或唇形同步缺陷,即音频与视频不同步。为了检测唇形同步缺陷,团队基于某大学开发的SyncNet架构构建了名为LipSync的检测器。

LipSync管道的输入是一个四秒的视频片段。它经过镜头检测模型、面部检测模型和面部跟踪模型处理。面部跟踪模型的输出与相关音频一起传递到SyncNet模型,该模型跨面部轨迹聚合以决定剪辑是同步、不同步还是不确定。

未来工作

这些只是团队武器库中的部分检测器。团队继续致力于改进算法,在正在进行的工作中使用主动学习来持续重新训练已部署的模型。

为了生成合成数据集,团队正在研究EditGan,这是一种新方法,可以更精确地控制生成对抗网络的输出。团队还使用定制的云原生应用程序和SageMaker实现来扩展缺陷检测器,以监控所有直播活动和视频频道。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计