每小时损失4万美元的宕机事件如何改变我们对AI的思考
凌晨2:17,警报响起
CPUThrottlingHigh。我的手机在床头柜上震动。还没来得及打开笔记本电脑,另一个警报又响了:GPUMemoryExhausted。
我们的实时欺诈检测API——保护数百万美元交易的服务——彻底宕机了。每分钟过去,我们都在因欺诈交易损失1.5万美元。
我惊恐地看着我们的Kubernetes自动扩缩器,它无视真正的问题,像惊慌的赌徒拉动老虎机杠杆一样开始启动新的GPU节点。不到一小时,我们就烧掉了4万美元的紧急AWS支出。
我们陷入了现代工程中最昂贵的陷阱:我们认为扩展问题的答案是更多的GPU。
我们错了。完全错了。
大规模服务AI不是硬件问题,而是架构问题
那次宕机是我们的谷底。随后的六个月重建是我们的救赎。我们现在每秒处理超过10万个请求(RPS),并将推理成本降低了83%。
这是拯救我们的操作手册。
几乎毁掉我们的架构:堵车中的法拉利
要阅读完整故事,请创建账户。
作者仅向Medium会员提供此故事。
如果你是新用户,请创建新账户来阅读这个故事。
在应用中继续 或者,在移动网页中继续
使用Google注册 使用Facebook注册 使用电子邮件注册
已经有账户?登录
关于作者 Sandesh | DevOps | AWS | K8 | Dev “InfraDecodedOps” Pub所有者,DevOps工程师(5年以上经验) 撰写关于DevOps简化、AWS、IaC、Kubernetes、Terraform、赚钱技巧等主题