HubSpot 2025年8月7日事故报告:系统配置变更引发的服务中断

2025年8月7日,HubSpot CRM系统因配置更新与代码部署不同步导致大规模服务中断,约95%请求失败。报告详细分析了事故原因、时间线及改进措施,包括加强配置验证和完善部署流程。

HubSpot 事故报告:2025年8月7日

2025年8月7日星期四下午1:45至2:05(美国东部时间),HubSpot客户在访问CRM记录时遭遇大面积错误。在影响高峰期约95%的请求失败,导致所有记录页面、对象预览和工作区预览侧边栏显示"All is not lost"错误。

此次问题由程序化系统配置变更引起,该变更依赖于其他服务中的代码更新,但这些更新尚未在所有需要的地方完成部署。在此期间未发生数据丢失。

我们理解可靠访问CRM数据对日常工作流程至关重要,对此造成的中断深表歉意。以下是事件经过、原因分析及我们为防止类似问题再次发生所采取的措施。

事件经过

我们向CRM系统部署了一项配置更新,该更新依赖于跨多个服务的相关代码变更。然而,这些支持性变更尚未在所有相关服务中完全部署。虽然该变更在我们的测试和生产环境中都通过了标准验证检查,但这些验证并未确认依赖代码是否已在所有相关服务中完全部署。

由于CRM服务缺乏处理不完整配置推出的防御性保护措施,一旦部署到生产环境,该变更导致所有依赖更新配置的请求均返回错误。

事件时间线(全部为美国东部时间)

  • 8月7日下午1:33 – 配置变更部署至生产环境
  • 8月7日下午1:42 – 生产环境错误警报触发
  • 8月7日下午1:55 – 工程团队开始调查
  • 8月7日下午2:05 – 生产环境部署回滚,客户影响结束
  • 8月7日下午2:06 – 确认影响已解决

改进措施

1. 防御性服务加固

  • 加固CRM服务中的配置处理,使其能够优雅地处理不完整的配置变更

2. 改进验证和部署保护

  • 增强验证检查,在批准配置变更前确认所有依赖代码变更已在相关服务中完全部署
  • 对关键CRM更新实施更慢、更渐进的推出策略,并在每个阶段加强监控
  • 加强自动化测试,在跨服务依赖问题影响客户前将其捕获
  • 提高面向客户关键功能的服务警报灵敏度

展望未来

此次事件使我们能够改进验证和推出具有跨服务代码依赖的配置变更的方式。通过加强验证、改进防御性编程以及缩小未来部署的影响范围,我们正在降低类似事件发生的可能性。

我们深知此次中断影响了客户的工作流程,我们致力于进行改进,以提高HubSpot平台更新的可靠性和安全性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计