大规模高效部署NVIDIA BlueField DPU:MAAS 3.7的全新BMC支持方案

本文详细介绍了如何利用MAAS 3.7新特性,通过基板管理控制器直接高效、大规模地配置NVIDIA BlueField DPU,实现了与主机解耦的独立部署,提升了数据中心自动化管理水平。

使用MAAS大规模配置NVIDIA BlueField DPU的更好方法

MAAS 3.7已正式发布,它包含了一系列酷炫的新功能。其中,最突出的能力无疑是支持通过基板管理控制器直接对NVIDIA BlueField DPU进行配置。

但是,什么是BlueField DPU?这引出了一个更广泛的问题:什么是DPU和智能网卡,以及为什么能够通过BMC配置它们是一项重大进步?

让我们深入探讨这一切。

DPU与智能网卡

当今的数据中心面临着日益增长的需求:更高的吞吐量、更多的租户、日益增长的安全威胁以及云原生环境日益增长的复杂性。当网络、存储和安全功能消耗越来越多本应用于应用程序的CPU周期时,传统服务器不堪重负。

这一趋势推动了行业朝着基础设施硬件加速的方向发展,即由专门的处理器处理传统上由主机CPU执行的任务。

智能网卡是合乎逻辑的解决方案,它是一种通过板载计算和加速硬件增强的网络接口卡。与传统网卡只负责移动数据包不同,智能网卡可以在数据到达主机CPU之前,直接在卡上进行处理、过滤和加速。

数据处理单元更进一步。它实际上是一个安装在PCIe卡上的小型、功能齐全的服务器,拥有自己的CPU内核、内存、操作系统、安全功能和硬件卸载引擎。DPU旨在接管整个基础设施平面,使主机CPU能够完全专注于应用程序工作负载。

DPU在云计算、电信和AI训练云等高性能环境中越来越普遍。典型的应用场景包括:

  • 网络加速/卸载:为OpenStack、LXD/MicroCloud、Kubernetes和裸机实施软件定义网络,包括分布式防火墙功能。
  • 存储加速/卸载:运行代理(如Ceph RBD),将分布式存储呈现为标准设备。
  • 安全信任根:提供身份验证、证明和隔离,并监控主机的进程和网络连接。
  • 在DPU上运行Kubernetes:将DPU用作工作节点,用于打包和编排网络、存储及安全功能。

NVIDIA Bluefield

NVIDIA BlueField系列是NVIDIA的DPU产品线。该系列展示了NVIDIA如何从最初的智能网卡概念扩展成为一个完整的平台,不仅支持基础设施卸载,还支持高级遥测、安全分析和以AI为中心的工作负载,所有这些都旨在释放主机CPU,并加速现代和分布式数据中心的核心运营。

BlueField-3在这里尤为相关。它是该系列中第一款集成了基板管理控制器的DPU,允许对DPU进行远程监控和控制。BMC是嵌入在服务器主板上(此处是嵌入在DPU上)的专用、独立的微控制器,提供带外管理功能。它使管理员能够远程监控硬件健康状况、控制服务器的电源状态,并访问控制台。

正是这种独立性,使得纯净、自动化的配置成为可能。

如何配置DPU:通过BMC还是主机?

过去,DPU是通过主机进行配置的。主机操作系统首先启动,运行供应商工具,然后配置或为DPU刷写镜像。虽然这种方法适用于早期部署,但它将DPU的生命周期与主机紧密耦合,使恢复更加困难,并在大规模时变得操作上脆弱。

有了内置的BMC,就有了第二种选择:直接通过BMC配置DPU。在这种模式下,DPU被当作独立的服务器对待。BMC可以独立于主机为其上电、刷写固件、安装操作系统、运行配置工作流,并使其可运行。

基于BMC的配置的优点包括:

  • 一致的“第0天”初始化
  • 与主机无关的工作流(不依赖于运行中的操作系统)
  • 更轻松的恢复和重新配置
  • 主机工作负载和基础设施功能之间更清晰的分离,实现了零信任部署模型
  • 更适合大规模或零接触环境

这就是MAAS现在支持的配置方法。

MAAS现已支持通过BMC配置BlueField

MAAS是Canonical的开源平台,用于通过类似云的自动化管理物理服务器。它提供了一个集中场所来发现、验机、部署和重新利用机器。它提供可重复的工作流,使大规模基础设施更易于操作,并采用基础设施即代码的方法,以编程方式自动化整个数据中心。

随着MAAS 3.7的发布,现在可以直接通过其BMC配置BlueField DPU。这使得MAAS能够将DPU视为独立的服务器,而无需依赖主机操作系统来初始化或配置它。在幕后,MAAS处理电源控制、设备关系以及正确启动主机和DPU所需的操作顺序。

在此版本之前,MAAS仅支持通过主机方式配置BlueField,这意味着MAAS需要先配置并使主机可运行,然后才能配置DPU。虽然功能上可行,但这种方法使得DPU的生命周期管理依赖于主机,并限制了在大型环境中的自动化。

这个新的工作流为操作员提供了一个更清晰、更可预测的DPU管理方式。通过将BlueField配置集成到标准的MAAS流程中,在数据中心中采用DPU并与硬件舰队其他部分保持一致地维护它们变得更加简单。

开始使用MAAS 3.7

您可以通过安装或升级到MAAS 3.7,立即开始尝试BlueField配置。开始使用MAAS的最简单方法是遵循全面的30分钟教程。

有关DPU配置的详细信息和受支持的工作流,请查看MAAS文档和专门的BlueField配置指南。

试试看,并告诉我们它在您的环境中的运行情况。

如果您有兴趣获得Canonical对MAAS的支持和合规性服务,可以了解Ubuntu Pro,或与我们的团队联系。

延伸阅读

  • Canonical MAAS
  • 使用Multipass在Ubuntu上30分钟内构建MAAS和LXD环境
  • MAAS 文档
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计