机器学习测试规模持续扩大
某中心在MLPerf推理基准测试中保持领先
机器学习领域快速发展,衡量其进展的标准也需紧跟步伐。MLPerf这项被称为"AI奥运会"的半年一度机器学习竞赛引入了三项新基准测试,反映了该领域的新方向。
“最近很难跟上该领域的发展,“某机构工程师兼MLPerf推理工作组联合主席Miro Hodak表示。“我们看到模型变得越来越大,在最近两轮测试中,我们引入了有史以来最大的模型。”
新基准测试标准
上一轮MLPerf引入了其最大的基准测试——基于Llama 3.1-403B的大型语言模型。本轮MLPerf再次超越自己,引入了基于DeepSeek-R1 671B模型的基准测试,参数数量比之前最大基准测试多出1.5倍以上。
作为推理模型,DeepSeek-R1在处理查询时会经过多步思维链提示。这意味着在推理过程中发生的计算比正常LLM操作要多得多,使得该基准测试更具挑战性。
除了有史以来最大的LLM基准测试外,MLPerf还引入了基于Llama 3.1-8B的最小基准测试。MLPerf推理任务组主席Taran Iyengar解释说,行业对低延迟、高精度推理的需求日益增长,小型LLM可以满足这一需求,是文本摘要和边缘应用等任务的绝佳选择。
硬件性能竞赛
某中心领先地位
在某中心GPU基于的系统中,每个加速器在每个基准测试上都取得了最佳性能。某中心还发布了Blackwell Ultra,在两个最大基准测试:Llama 3.1-405B和DeepSeek-R1推理中位居榜首。
Blackwell Ultra是Blackwell架构的更强大迭代,具有显著更大的内存容量、注意力层加速翻倍、AI计算能力提高1.5倍,以及更快的内存和连接性。它专为更大的AI工作负载设计,如测试的两个基准测试。
除了硬件改进外,某中心加速计算产品总监Dave Salvator将Blackwell Ultra的成功归因于两个关键变化。首先是使用专有的4位浮点数格式NVFP4。“我们可以提供与BF16等格式相当的精度,“Salvator说,同时使用更少的计算能力。
第二是所谓的分离服务。分离服务背后的理念是推理工作负载有两个主要部分:预填充,即查询及其整个上下文窗口被加载到LLM中;以及生成/解码,即实际计算输出。这两个阶段有不同的要求。预填充是计算密集型的,而生成/解码更依赖于内存带宽。Salvator表示,通过将不同的GPU组分配给两个不同的阶段,性能提升了近50%。
某机构紧追不舍
某机构最新的加速器芯片MI355X于7月发布。该公司仅在允许对模型进行软件修改的"开放"类别中提供了结果。与Blackwell Ultra一样,MI355X支持4位浮点数,并扩展了高带宽内存。某机构数据中心GPU产品营销高级总监Mahesh Balasubramanian表示,MI355X在开放Llama 2.1-70B基准测试中的表现比其前身MI325X提高了2.7倍。
某芯片制造商进入GPU竞赛
过去,某芯片制造商一直坚持认为不需要GPU来进行机器学习。确实,使用某芯片制造商Xeon CPU的提交在目标检测基准测试中与某中心L4表现相当,但在推荐系统基准测试中落后。
本轮首次有某芯片制造商GPU亮相。Intel Arc Pro于2022年首次发布。MLPerf提交的特色是一款名为MaxSun Intel Arc Pro B60 Dual 48G Turbo的显卡,包含两个GPU和48GB内存。该系统在小型LLM基准测试中与某中心的L40S表现相当,在Llama 2-70b基准测试中稍逊一筹。