优化高写入数据库工作负载以实现低延迟

高写入数据库工作负载带来了一系列与读密集型工作负载截然不同的挑战。例如：

虽然成本很重要，但在许多情况下，这不是我们在此要讨论的主题。相反，让我们重点关注团队常遇到的性能相关复杂性，并讨论应对这些问题的选项。

什么是"实时高写入工作负载"？

首先，让我们澄清"实时高写入"工作负载的含义。我们指的是：

在现实世界中，它们出现在从在线游戏到实时证券交易所的各种场景中。一些具体示例：

存储引擎架构的选择从根本上影响数据库的写入性能。存在两种主要方法：LSM树和B树。

已知能高效处理写入的数据库，如ScyllaDB、Apache Cassandra、HBase和Google BigTable，使用日志结构合并树。这种架构非常适合处理大量写入。由于写入立即追加到内存中，这允许非常快速的初始存储。

使用B树结构，每个写入操作都需要定位和修改树中的节点——这涉及顺序和随机I/O。随着数据集的增长，树可能需要额外的节点和重新平衡，导致更多的磁盘I/O，从而影响性能。B树通常更适合涉及连接和临时查询的工作负载。

负载大小也会影响性能。对于小负载，吞吐量良好，但CPU处理是主要瓶颈。随着负载大小的增加，整体吞吐量降低，磁盘利用率也会增加。

对于高写入工作负载，磁盘利用率是需要密切关注的事项。压缩有助于控制这一点——因此请明智选择压缩策略。更快的压缩速度对于高写入工作负载很重要，但也要考虑可用的CPU和内存资源。

对于基于LSM的数据库，选择的compaction策略也会影响写入性能。Compaction涉及将多个SSTable合并为更少、更有组织的文件，以优化读取性能、回收磁盘空间、减少数据碎片并保持整体系统效率。

选择compaction策略时，可以追求低读取放大，使读取尽可能高效。或者，可以通过避免compaction过于激进来追求低写入放大。或者，可以优先考虑低空间放大，并让compaction尽可能高效地清除数据。

对于高写入工作负载，我们警告用户不惜一切代价避免分层compaction。该策略专为读密集型用例设计。使用它可能导致令人遗憾的40倍写入放大。

在像ScyllaDB和Cassandra这样的数据库中，批处理实际上可能是一个陷阱——特别是对于高写入工作负载。如果习惯于关系数据库，批处理可能看起来是处理大量写入的好选择。但如果不小心操作，它实际上可能会减慢速度。

对于高写入情况，请仔细构建批处理，以避免大型跨节点批处理可能引入的延迟。

我们提供了相当多的警告，但不用担心。很容易编译经验教训列表，因为许多团队在处理实时高写入工作负载方面非常成功。现在您知道了他们的许多秘密，而无需经历他们的错误。:-)