每小时损失4万美元的宕机事件如何改变我们对AI的思考

凌晨2:17，警报响起

CPUThrottlingHigh。我的手机在床头柜上震动。还没来得及打开笔记本电脑，另一个警报又响了：GPUMemoryExhausted。

我们的实时欺诈检测API——保护数百万美元交易的服务——彻底宕机了。每分钟过去，我们都在因欺诈交易损失1.5万美元。

我惊恐地看着我们的Kubernetes自动扩缩器，它无视真正的问题，像惊慌的赌徒拉动老虎机杠杆一样开始启动新的GPU节点。不到一小时，我们就烧掉了4万美元的紧急AWS支出。

我们陷入了现代工程中最昂贵的陷阱：我们认为扩展问题的答案是更多的GPU。

我们错了。完全错了。

大规模服务AI不是硬件问题，而是架构问题

那次宕机是我们的谷底。随后的六个月重建是我们的救赎。我们现在每秒处理超过10万个请求（RPS），并将推理成本降低了83%。

这是拯救我们的操作手册。

几乎毁掉我们的架构：堵车中的法拉利

要阅读完整故事，请创建账户。

作者仅向Medium会员提供此故事。

如果你是新用户，请创建新账户来阅读这个故事。

在应用中继续或者，在移动网页中继续

使用Google注册使用Facebook注册使用电子邮件注册

已经有账户？登录

关于作者 Sandesh | DevOps | AWS | K8 | Dev “InfraDecodedOps” Pub所有者，DevOps工程师（5年以上经验）撰写关于DevOps简化、AWS、IaC、Kubernetes、Terraform、赚钱技巧等主题