HubSpot 2025年3月2日事件报告
HubSpot允许用户连接第三方收件箱(如Outlook)来同步邮件并发送1:1消息。当发生连接错误时,HubSpot会将其分类为可恢复错误或永久错误:
- 可恢复错误无需用户干预即可解决
- 永久错误需要手动重新认证,通常由密码更改或用户在第三方提供商处手动断开收件箱连接触发
当发生永久错误时,HubSpot会自动断开收件箱连接并通过电子邮件通知用户,提示他们手动重新连接。
事件经过
2025年3月1日星期六UTC时间晚上8:40,全球微软服务中断导致HubSpot尝试同步Outlook收件箱时出现永久性认证错误。这造成:
- 大量已连接的Outlook收件箱从HubSpot中断开
- 自动电子邮件通知告知受影响用户断开连接,并提示他们手动重新连接
- 服务中断期间无法同步传入邮件,也无法发送预定的1:1邮件
微软在UTC时间晚上9:45恢复服务后,HubSpot致力于开发自动解决方案,在无需用户干预的情况下重新连接收件箱。考虑到我们电子邮件基础设施的规模,拥有超过170万个连接收件箱,每天处理超过1.05亿封邮件,恢复所有断开的收件箱需要额外时间,以确保每个重新连接都成功且不会引入进一步的不稳定性。我们的优先事项是安全地恢复服务并防止任何额外的中断。
到2025年3月2日星期日UTC时间早上6:22,所有受影响的收件箱均已成功恢复。
3月3日星期一,许多客户收到了自动电子邮件通知,提示他们采取行动重新连接收件箱。这导致了一些困惑,因为我们已经代表他们重新连接了收件箱。
事件时间线(所有时间均为UTC)
- 3月1日晚上8:40:微软报告影响Microsoft 365服务的全球中断
- 3月1日晚上8:40:HubSpot检测到永久性授权错误,断开Outlook收件箱连接,并向受影响客户发送自动电子邮件通知
- 3月1日晚上9:45:微软报告中断已解决
- 3月2日凌晨1:12:HubSpot发布了与事件相关的状态页面
- 3月2日凌晨1:40:HubSpot工程师开始实施自动收件箱重新连接解决方案
- 3月2日早上6:22:所有受影响的收件箱均已重新连接到HubSpot
经验总结与采取的措施
我们对所有事件进行详细的事后审查,以确保我们对情况做出适当和相称的响应。我们利用这些审查来确定减少类似事件发生可能性的机会,并将经验教训应用于未来的产品可靠性工作。
改进中断检测
- 问题:HubSpot未能正确识别这是第三方服务中断,导致不必要的收件箱断开、客户通知和混乱
- 措施:我们正在增强中断检测机制,防止在外部服务经历广泛中断时自动断开收件箱连接
加快中断恢复
- 问题:完全恢复收件箱连接所需的时间超过了微软中断的持续时间
- 措施:我们正在改进自动收件箱恢复流程,确保在第三方服务恢复后立即重新连接收件箱
更清晰的客户沟通
- 问题:客户收到了提示手动重新连接收件箱的自动电子邮件,即使该操作在中断期间不可用,且大多数收件箱在中断后已自动重新连接
- 措施:我们正在改进中断期间和之后连接收件箱状态的可见性,确保用户能够清楚了解其收件箱状态以及是否需要采取行动
最后,我们要重申可靠性是HubSpot的核心原则,并重申我们的承诺:每天努力工作,确保我们的客户拥有他们发展所需的工具。