Chrome如何在Android上实现Speedometer分数翻倍

今日发布的《The Fast and the Curious》系列文章将介绍Chrome如何在移动设备上实现行业领先的Speedometer分数，从而为Android用户带来更快、更流畅的网络体验。

Chrome一直以速度为核心。无论是快速加载页面、流畅运行复杂网络应用，还是提供无缝浏览体验，性能始终是我们浏览器的核心。我们一直在寻找让Chrome更快速的方法。

过去两年中，我们一直致力于为Android设备进行多项性能改进。我们很高兴与大家分享我们取得的部分进展。

Android上的Speedometer

我们用来追踪Chrome性能的关键指标之一是Speedometer基准测试。该基准测试是与其他主要网络浏览器引擎合作开发的，用于测量Chrome完成与网页交互的速度，包括解析/渲染HTML或CSS以及运行JavaScript。

自Chrome M112发布以来，我们在Android设备上观察到Speedometer 2.1分数显著提升[1]。事实上，在许多设备上，分数翻了一倍多，最新的Snapdragon® 8 Elite移动平台创下了移动设备Speedometer性能的新纪录！这些巨大成就不仅证明了Chrome和Android团队的工作成果，也体现了我们与芯片和SoC合作伙伴的协作成果。

自Chrome M112以来，许多Android设备上的Speedometer 2.1分数翻了一倍多。[1]

我们是如何实现的？

这些改进源于多项变更，包括：

构建优化：我们对Chrome的构建方式进行了多项更改，从而实现了针对现代高端Android设备和SoC调优的更快速代码执行。
V8和Blink改进：对JavaScript引擎（V8）和渲染引擎（Blink）的许多改进进一步提升了性能。
调度、操作系统和SoC：我们与Android合作伙伴密切合作，优化了Chrome与操作系统的交互方式及其线程调度，以充分利用设备上的芯片。

让我们更详细地了解这些领域。

构建优化

Android设备生态系统非常多样化。从入门级手机到最新的高端手机，Chrome需要在所有设备上良好运行。直到去年，我们向所有这些不同的Android设备提供相同的Chrome构建版本。入门级设备上的内存和磁盘大小限制导致Chrome必须优先考虑较小的二进制文件大小。因此，许多现代构建优化无法实现，因为它们会导致更大的二进制文件。

从M113开始，Chrome终于能够通过Google Play Store为高端Android设备提供单独的高性能构建版本。虽然我们仍向其他设备提供二进制大小受限的构建版本，但这种方法使我们能够将一些现代优化应用到新的高端构建中：

通过定位64位Arm而非32位Arm，我们可以利用更高效的Arm指令集功能和更大的64位操作。
由于在拥有大磁盘和充足内存的高端设备上，二进制大小不那么重要，我们现在可以编译针对速度优化（-O2 / -O3）而非大小优化（-Oz）的C++代码。
此外，我们调整了编译器使用的内联阈值，以在热代码中（模块内部和跨模块）启用更多内联，同时更新了另一个编译器通道（MLGO）使用的模型和策略，以减少冷代码中的内联。
我们现在还将配置文件引导优化（PGO）技术应用于构建，以进一步改进热代码的代码布局和优化级别。
最后，我们通过将Chrome的orderfile生成与新的64位构建对齐，改进了跨函数代码排序。我们现在还在用于生成orderfile的工作负载中包括了Speedometer 3，这是行业标准浏览器速度基准测试的最新版本。

这些构建优化共同贡献了整体Speedometer分数改进的一半以上。我们与Arm的合作促进了这一进展，他们提供了宝贵的见解和改进，包括识别和解决Chrome的PGO设置和内联中的低效问题。

V8和Blink改进

Chrome持续改进其JavaScript和网络渲染引擎V8和Blink的性能。大多数优化在个体影响上很小，但叠加在一起，这些改进累积起来，贡献了剩余Speedometer影响的大部分！值得注意的包括：

我们现在使用优化的快速路径HTML解析器来解析innerHTML属性。
V8推出了其Sparkplug编译器层级，这是一个超快速的基线编译器，位于其Ignition解释器之上，能够非常快速地生成非优化代码。后来，V8还推出了Maglev，一个新的中间层级编译器，生成半优化代码。它比Sparkplug花费更长时间，但比V8的超优化编译器层级Turbofan少得多。所有这些新的层级结构使V8能够更逐步地升级，从而提高了性能和功耗。
我们调整了决定垃圾回收时机的启发式方法，针对渲染引擎空闲时或用户离开页面时。
我们实现了许多其他增量优化，例如对V8以及我们的解析、样式、布局和文本渲染引擎的优化。

调度和操作系统

为了实现最佳性能，Android合作伙伴大力调整操作系统的线程调度和频率缩放策略，并改进芯片本身的性能。

我们与合作伙伴密切合作，改进他们对Chrome和Speedometer的调优。特别是，我们与高通的合作非常富有成果：通过将优化的调度策略与改进的硬件性能相结合，他们最新的Snapdragon 8 Elite移动平台在Speedometer 3.0上相比其前代产品实现了60-80%的改进，达到了行业领先的网络性能。这次合作还突出了Chrome代码中的重要瓶颈，例如需要改进PGO以及V8中的机会。

Speedometer 3.0在Snapdragon 8 Gen 3（左）与Snapdragon 8 Elite（右）上的对比，Chrome M131

为什么这些改进很重要？

更快的Speedometer分数转化为真实用户与网络内容交互的改进，例如更快的页面加载和交互。回到M112时，在Pixel Tablet上加载Google Docs文档比今天多花费50%以上的时间——这就是Speedometer分数翻倍的效果！

Chrome M112与M129在Pixel Tablet上加载Google Doc的对比（帧数）

[1] Speedometer 3在M122期间发布，因此提供Speedometer 2.1的结果以获取完整画面。图表中显示的测量数据是在Pixel Tablet上采集的。

发布者：Eric Seckler，Chrome软件工程师

Chrome在Android上实现Speedometer性能翻倍的技术突破

本文详细介绍了Chrome团队如何通过构建优化、V8和Blink引擎改进以及与Android合作伙伴的深度协作，在Android设备上实现Speedometer基准测试分数翻倍的技术细节和实现路径。