存储性能基准测试升级
MLCommons近日发布MLPerf Storage v2.0基准测试套件结果,该套件以架构中立的方式评估机器学习工作负载的存储系统性能。测试数据显示,当前存储系统支持加速器数量较v1.0版本提升约两倍。
检查点测试应对系统故障
v2.0版本新增AI训练系统检查点测试功能。随着AI模型参数规模突破万亿级,十万量级加速器集群的硬件故障已成为显著挑战:
- 10万加速器集群全负荷运行时预计每半小时发生一次故障
- 百万级集群故障间隔缩短至3分钟
- 单节点故障可导致整个训练集群停滞
技术方案多元化发展
26家参与机构提交的200余项测试结果显示行业技术多样性:
- 6种本地存储方案
- 2种存储内加速方案
- 13种软件定义方案
- 12种块存储系统
- 16种本地共享存储方案
- 2种对象存储方案
基准测试价值
该基准测试由35家机构历时3年联合开发,通过模拟加速器"思考时间"生成真实存储模式,无需实际运行训练任务。结果有助于用户:
- 评估存储系统检查点吞吐性能
- 优化PyTorch/TensorFlow等框架的故障恢复机制
- 选择匹配业务场景的存储方案