HubSpot Outlook连接中断事件分析与系统恢复方案

本文详细记录了2025年3月2日因微软全球服务中断导致的HubSpot Outlook连接大规模故障,包括故障检测机制、自动恢复流程、系统架构优化方案以及客户沟通改进措施,涉及170万连接邮箱和日均1.05亿邮件的处理规模。

HubSpot 2025年3月2日事件报告

HubSpot允许用户连接第三方收件箱(如Outlook)来同步邮件并发送1:1消息。当发生连接错误时,HubSpot会将其分类为可恢复错误或永久错误:

  • 可恢复错误无需用户干预即可解决
  • 永久错误需要手动重新认证,通常由密码更改或用户在第三方提供商处手动断开收件箱连接触发

当发生永久错误时,HubSpot会自动断开收件箱连接并通过电子邮件通知用户,提示他们手动重新连接。

事件经过

2025年3月1日星期六UTC时间晚上8:40,全球微软服务中断导致HubSpot尝试同步Outlook收件箱时出现永久性认证错误。这造成:

  • 大量已连接的Outlook收件箱从HubSpot中断开
  • 自动电子邮件通知告知受影响用户断开连接,并提示他们手动重新连接
  • 服务中断期间无法同步传入邮件,也无法发送预定的1:1邮件

微软在UTC时间晚上9:45恢复服务后,HubSpot致力于开发自动解决方案,在无需用户干预的情况下重新连接收件箱。考虑到我们电子邮件基础设施的规模,拥有超过170万个连接收件箱,每天处理超过1.05亿封邮件,恢复所有断开的收件箱需要额外时间,以确保每个重新连接都成功且不会引入进一步的不稳定性。我们的优先事项是安全地恢复服务并防止任何额外的中断。

到2025年3月2日星期日UTC时间早上6:22,所有受影响的收件箱均已成功恢复。

3月3日星期一,许多客户收到了自动电子邮件通知,提示他们采取行动重新连接收件箱。这导致了一些困惑,因为我们已经代表他们重新连接了收件箱。

事件时间线(所有时间均为UTC)

  • 3月1日晚上8:40:微软报告影响Microsoft 365服务的全球中断
  • 3月1日晚上8:40:HubSpot检测到永久性授权错误,断开Outlook收件箱连接,并向受影响客户发送自动电子邮件通知
  • 3月1日晚上9:45:微软报告中断已解决
  • 3月2日凌晨1:12:HubSpot发布了与事件相关的状态页面
  • 3月2日凌晨1:40:HubSpot工程师开始实施自动收件箱重新连接解决方案
  • 3月2日早上6:22:所有受影响的收件箱均已重新连接到HubSpot

经验总结与采取的措施

我们对所有事件进行详细的事后审查,以确保我们对情况做出适当和相称的响应。我们利用这些审查来确定减少类似事件发生可能性的机会,并将经验教训应用于未来的产品可靠性工作。

改进中断检测

  • 问题:HubSpot未能正确识别这是第三方服务中断,导致不必要的收件箱断开、客户通知和混乱
  • 措施:我们正在增强中断检测机制,防止在外部服务经历广泛中断时自动断开收件箱连接

加快中断恢复

  • 问题:完全恢复收件箱连接所需的时间超过了微软中断的持续时间
  • 措施:我们正在改进自动收件箱恢复流程,确保在第三方服务恢复后立即重新连接收件箱

更清晰的客户沟通

  • 问题:客户收到了提示手动重新连接收件箱的自动电子邮件,即使该操作在中断期间不可用,且大多数收件箱在中断后已自动重新连接
  • 措施:我们正在改进中断期间和之后连接收件箱状态的可见性,确保用户能够清楚了解其收件箱状态以及是否需要采取行动

最后,我们要重申可靠性是HubSpot的核心原则,并重申我们的承诺:每天努力工作,确保我们的客户拥有他们发展所需的工具。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计