构建300频道视频编码服务器:NETINT与Ampere处理器的技术革新

本文详细介绍了NETINT联合Supermicro和Ampere Computing如何通过Quadra VPU与Ampere Altra Max处理器构建高性能视频编码服务器,实现20倍吞吐量提升和80%成本降低的技术方案与优化过程。

构建300频道视频编码服务器

快照

组织: NETINT、Supermicro和Ampere® Computing
问题: 高质量直播视频流需求激增,传统x86处理器难以满足现代流媒体处理需求
解决方案: NETINT通过Quadra VPU与Ampere Altra Max处理器结合,创建更小、更快、更经济高效的服务器架构

关键特性

  • 高性能: 同时转码多路视频流(95路1080i30、195路720i30)
  • 成本效益: 相比传统x86方案降低80%运营成本
  • 高级处理: 支持去隔行、软件解码和AI推理任务
  • 灵活控制: 通过FFmpeg、GStreamer、SDK或Bitstreams Edge接口管理

技术创新

  • 定制ASIC: NETINT专有ASIC实现高质量低成本视频处理
  • Ampere Altra Max处理器: 为密集计算环境优化的高效能处理器
  • 优化软件: 采用最新FFmpeg版本和Arm64 NEON SIMD指令实现性能提升

引言

直播视频流需求呈指数级增长。NETINT与Supermicro、Ampere Computing合作重新设计视频转码服务器,开创了新的视频处理能力。

该架构的独特之处在于:NETINT VPU处理密集型视频编码和转码,而强大的主机CPU执行VPU硬件不支持的附加功能(如去隔行和软件解码)。此外,主机CPU还能执行AI推理任务。NETINT近期宣布业界首个使用OpenAI Whisper的自动字幕功能,优化用于Ampere® Altra® Max处理器,实现直播的准确实时转录。

NETINT愿景

针对客户对CPU处理能力有限和电力成本飙升的担忧,NETINT开发定制ASIC以实现最高质量、最低成本的视频处理和编码。通过将Quadra VPU与Ampere Altra Max处理器结合,创建了运营成本降低80%、吞吐量提高20倍的服务器。

为什么选择Ampere处理器

Ampere Altra Max云原生处理器专为新时代计算和能源受限环境设计,提供前所未有的效率和性能。其优势包括改进的效率和可扩展性,与NETINT高性能高能效VPU形成良好协同。

性能挑战与优化

团队最初使用FFmpeg 5.0的性能结果未达目标。通过研究FFmpeg中的去隔行滤波器和Arm64优化,发现使用Arm64 NEON SIMD指令的优化汇编实现,在FFmpeg 6.0中使视频去隔行性能提升达2.9倍。

性能分析过程中,团队使用多种工具进行深入调查:

  • 使用mpstat工具分析系统利用率
  • 使用BCC softirq工具测量软件中断延迟
  • 使用perf工具测量PMU计数器以定位性能瓶颈

通过分析发现内核函数alloc_and_insert_iova_range在性能不佳时消耗40倍更多CPU周期,最终通过使用iommu.passthrough=1内核启动选项解决性能随时间下降的问题。

成果

最终实现的NETINT 300频道直播视频服务器Ampere版可在单台1U服务器中同时转码:

  • 95路1080i30流
  • 195路720i30流
  • 365路576i30流
  • 或混合100x576i、100x720i、10x1080i、40x1080p30、40x720p30和10x576p流

技术规格

  • 服务器型号: Supermicro MegaDC SuperServer ARS-110M-NR 1U
  • 处理器: Ampere Altra Max 96核处理器
  • 视频处理: NETINT Quadra VPU
  • 软件支持: FFmpeg 6.0、GStreamer、SDK
  • 特色功能: AI推理处理、自动字幕生成

应用场景

该服务器特别适合运行需要高性能CPU处理的视频工作负载,包括:

  • 大规模直播视频转码
  • AI推理处理任务
  • 实时自动字幕生成
  • 高密度视频处理环境

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计