HubSpot邮件系统故障深度解析：HBase热点写入导致的服务延迟

事件概述

2025年3月27日星期四，大约在15:00 UTC至17:50 UTC期间，部分HubSpot客户经历了邮件发送延迟，包括营销邮件、测试发送、注册验证和双因素认证邮件。该问题仅影响了我们在北美基础设施的一部分。

我们理解及时邮件送达对您业务运营的重要性，对此事件造成的任何中断和不便表示诚挚歉意。在HubSpot，可靠性是我们的首要任务，我们承诺从这次事件中吸取教训，改进我们的系统以防止未来发生类似问题。

事件经过

3月27日约15:00 UTC起，负责处理邮件发送的内部组件开始发送异常的大规模原子写入模式。这导致我们用于关键邮件操作的分布式数据存储Apache HBase出现特定区域的热点问题。

这种集中式的大规模写入活动给HBase集群带来了巨大压力，由于受影响区域中某些关键元数据表和数据表的不利共置，影响了性能。这迅速导致底层数据基础设施承压，造成邮件处理积压。

虽然触发组件很快被暂停，但初始的数据库不稳定引发了邮件发送系统其他部分的过度重试。这意味着恢复过程不仅需要处理原始积压，还需要处理大量重试请求，进一步加重了受影响数据集群的压力并延长了事件持续时间。

我们的工程团队在问题开始后不久即收到警报。以下是事件时间线：

15:02 UTC：监控系统检测到邮件发送管道异常。随着底层数据基础设施开始经历高需求，导致积压。邮件开始出现延迟。
15:00 UTC - 16:30 UTC：在此期间发送的大部分邮件因系统过载进入重试队列。
15:39 UTC：确定了潜在根本原因，团队立即采取措施稳定系统，包括谨慎管理受影响基础设施的负载并调整资源以缓解压力。
15:58 UTC：HubSpot发布状态页面和应用内横幅通知客户此事件。
17:20 UTC：系统稳定，新发送的邮件开始正常处理，无显著延迟。
17:52 UTC：事件期间延迟的邮件积压完全处理并发送完毕。

此次事件中最大邮件发送延迟约为1小时53分钟，中位延迟约为1小时25分钟。17:20 UTC后发送的大多数邮件均无延迟送达，但少量需要重试的邮件可能在17:50 UTC积压清除前仍有延迟。

改进措施

经过对此事件的彻底审查，我们确定了几个关键改进领域以使邮件发送基础设施更具韧性：

增强可见性和告警：我们正在提升系统可见性，以便更早发出邮件基础设施潜在压力的警告。这将使团队能够更快响应并在影响客户前主动管理资源。

提高系统韧性：我们正在实施变更，使邮件发送管道能更好地处理意外负载激增。包括改进系统管理队列和重试的方式，确保在压力下更平稳运行。

改进负载管理：我们正在优化邮件系统内部的负载均衡和资源分配流程。包括探索更好地隔离和优先处理不同类型邮件流量的方法，以最小化单个组件出现问题的影响。

基础设施优化：我们正在对支持邮件服务的底层存储和基础设施组件进行更深入审查，以识别长期性能和稳定性提升机会。

我们的改进承诺不仅限于自身系统。当我们发现增强所依赖的开源技术的机会时，我们会将发现和修复贡献给社区。

作为响应的一部分，我们正积极为此次事件涉及的Apache HBase项目做出贡献。这些项目旨在提高数据库对高要求工作负载的韧性，并增强系统操作可见性，帮助我们和更广泛的社区在未来更快识别和解决潜在问题。您可在此公开查看部分工作：HBASE-29231、HBASE-29229、HBASE-29090。

未来展望

我们认识到此类事件影响您与客户连接的能力，并非常严肃地对待提供可靠平台的责任。我们正投入工程资源实施上述改进，并将继续投资于HubSpot平台的稳定性和性能。

感谢您的耐心和对HubSpot的持续信任。我们致力于为您提供发展所需的可靠工具。