构建300频道视频编码服务器
快照
组织: NETINT、Supermicro和Ampere® Computing
问题: 高质量直播视频流需求激增,传统x86处理器难以满足现代流媒体处理需求
解决方案: NETINT通过Quadra VPU与Ampere Altra Max处理器结合,创建更小、更快、更经济高效的服务器架构
关键特性
- 高性能: 同时转码多路视频流(95路1080i30、195路720i30)
- 成本效益: 相比传统x86方案降低80%运营成本
- 高级处理: 支持去隔行、软件解码和AI推理任务
- 灵活控制: 通过FFmpeg、GStreamer、SDK或Bitstreams Edge接口管理
技术创新
- 定制ASIC: NETINT专有ASIC实现高质量低成本视频处理
- Ampere Altra Max处理器: 为密集计算环境优化的高效能处理器
- 优化软件: 采用最新FFmpeg版本和Arm64 NEON SIMD指令实现性能提升
引言
直播视频流需求呈指数级增长。NETINT与Supermicro、Ampere Computing合作重新设计视频转码服务器,开创了新的视频处理能力。
该架构的独特之处在于:NETINT VPU处理密集型视频编码和转码,而强大的主机CPU执行VPU硬件不支持的附加功能(如去隔行和软件解码)。此外,主机CPU还能执行AI推理任务。NETINT近期宣布业界首个使用OpenAI Whisper的自动字幕功能,优化用于Ampere® Altra® Max处理器,实现直播的准确实时转录。
NETINT愿景
针对客户对CPU处理能力有限和电力成本飙升的担忧,NETINT开发定制ASIC以实现最高质量、最低成本的视频处理和编码。通过将Quadra VPU与Ampere Altra Max处理器结合,创建了运营成本降低80%、吞吐量提高20倍的服务器。
为什么选择Ampere处理器
Ampere Altra Max云原生处理器专为新时代计算和能源受限环境设计,提供前所未有的效率和性能。其优势包括改进的效率和可扩展性,与NETINT高性能高能效VPU形成良好协同。
性能挑战与优化
团队最初使用FFmpeg 5.0的性能结果未达目标。通过研究FFmpeg中的去隔行滤波器和Arm64优化,发现使用Arm64 NEON SIMD指令的优化汇编实现,在FFmpeg 6.0中使视频去隔行性能提升达2.9倍。
性能分析过程中,团队使用多种工具进行深入调查:
- 使用mpstat工具分析系统利用率
- 使用BCC softirq工具测量软件中断延迟
- 使用perf工具测量PMU计数器以定位性能瓶颈
通过分析发现内核函数alloc_and_insert_iova_range
在性能不佳时消耗40倍更多CPU周期,最终通过使用iommu.passthrough=1
内核启动选项解决性能随时间下降的问题。
成果
最终实现的NETINT 300频道直播视频服务器Ampere版可在单台1U服务器中同时转码:
- 95路1080i30流
- 195路720i30流
- 365路576i30流
- 或混合100x576i、100x720i、10x1080i、40x1080p30、40x720p30和10x576p流
技术规格
- 服务器型号: Supermicro MegaDC SuperServer ARS-110M-NR 1U
- 处理器: Ampere Altra Max 96核处理器
- 视频处理: NETINT Quadra VPU
- 软件支持: FFmpeg 6.0、GStreamer、SDK
- 特色功能: AI推理处理、自动字幕生成
应用场景
该服务器特别适合运行需要高性能CPU处理的视频工作负载,包括:
- 大规模直播视频转码
- AI推理处理任务
- 实时自动字幕生成
- 高密度视频处理环境