NIST停电事故揭秘:5微秒时间偏差背后的时间同步技术与冗余架构

本文详细解析了NIST因停电导致其原子钟组与协调世界时产生5微秒偏差的事件始末,探讨了NTP时间服务器的运行机制、备份电源系统的故障响应,以及GPS、铷原子钟等多元时间源构成的脆弱而关键的国家授时基础设施。

NIST 在上周停电后与 UTC 存在 5 微秒偏差

如果你今天迟到了 5 微秒,可以怪 NIST。 他们位于科罗拉多州博尔德市的设施停电了数天。在一台备用发电机失效后,他们的主原子钟组失去了与协调世界时的同步。 但即使你使用了他们运行的 NTP 时间服务器,其偏差也从未超过 5 微秒。

5 微秒可能看起来微不足道。但对于依赖 NIST 更专业授时信号的科学家和大学来说,这意义重大。 不过,你无需恐慌。是的,他们现在已经控制住了局面。 但我想回顾一下发生了什么、这意味着什么,以及我们可以从 NIST 这次近乎中断的事件中学到什么。

视频

这篇博文是我最新 YouTube 视频的轻微编辑版本:

发生了什么

分发互联网时间、运营着六个最流行 NTP 服务器的 NIST 园区,在上周三断电了。 由于风速超过每小时 100 英里(160 公里/小时),电力公司被迫切断了电源。电线被吹倒,他们不想冒险引发野火。 整个园区为了安全而封锁,因此无人可以进出。

他们拥有备用发电机。那些发电机本应工作…但显然其中一台在几天后发生了故障。具体来说,是为 NTP 服务器提供动力的主原子钟组供电的那台发电机。 上周五情况变得岌岌可危,他们无法让更多员工进入修复。 事态发展到 NIST 时间实现与分发小组的负责人杰夫·谢尔曼考虑关闭为时间服务器供电的备用发电机。那样做可以防止他们发出不准确的时间,对于许多应用来说,这比完全没有时间更糟糕。 NTP 的设计使得你可以查看多个服务器,如果一个失效,不会导致你失去时间。 幸运的是,对于 NIST 来说,他们在博尔德园区有另一栋大楼,里面有更多的时钟,如果需要,那栋大楼可以将时间传递回遭遇停电的那栋楼。

但昨天杰夫发布了另一个更新:电力已经恢复,显然现场还有一些员工保住了时钟。 在主备用发电机停机后,他们能够重新路由应急电力。 电池备份,我猜是一些大型 UPS,能够填补空白,直到他们启动了备用的备用电源。 当一切尘埃落定,他们的监测显示与 UTC 的偏差小于 5 微秒。 看到所有这些情况,杰夫和 NIST 的团队决定让他们的时间服务器保持在线。

但他们为什么要这样做,如果时间不准了?嗯,这里的时间尺度很重要。如果你像我一样使用 Mac,进入终端并运行 sntp time-a-b.nist.gov。 这个命令或者在 Linux 上类似的 ntpdate 命令会返回一个误差范围,显示你的计算机与 NTP 时间服务器之间的延迟。

1
2
$ sntp time-a-b.nist.gov
+0.005771 +/- 0.035081 time-a-b.nist.gov 132.163.96.1

在我的情况下,它显示 0.035 秒。那是 35 毫秒,或者说 35,000 微秒。5 微秒在那里甚至算不上一个波动。 因此,NIST 没有关闭服务器(这可能会引起更多问题),而是让它们保持在线。

但杰夫说,NIST 的时间通常比这精确大约 5000 倍。如果你是依赖 NIST 进行授时的大学或航空航天公司之一,5 微秒的差异可能确实很重要。 因此,他们将直接与这些机构合作。但对于大多数人来说,他们永远不会注意到。 杰夫在邮件的结尾提到,美国 GPS 系统成功地故障切换到了 WWV-柯林斯堡园区。所以,再次强调,对几乎所有人来说,没有任何问题,系统设计的冗余性按预期发挥了作用。

时间是脆弱的

我整个周末都在密切关注这件事。我的工作室里有两个树莓派 GPS 时钟。一个运行我的主 Stratum 0 NTP 服务器,另一个我作为测试备份运行。(是的,我知道为了良好的仲裁,我应该运行 4 个以上。) 它们都连接到我室外的 GPS 天线,该天线信号分发到我的机架室和工作室,用于时间研究。 和我的工作室一样,大多数需要精确时间的地方都依赖 GPS。而这可能是个问题! 我很高兴冗余措施防止了 GPS 时间漂移——我不知道如果 GPS 时间消失会发生什么,但那不会是好结果!但我认为主要的启示是:授时基础设施是脆弱的。 CISA 曾指出美国过度依赖 GPS 存在很多风险。 正因为如此,美国今年早些时候宣布正在尝试为 PNT 寻找良好的替代方案。

我实际上参加了 NAB 的一个会议,撰写那两篇 NIST 更新的科学家杰夫·谢尔曼在会上谈到了 BPS。广播定位系统将为我们提供冗余,即使 GPS 失效。 但即使有多个时间源,一些地方需要更多。我的工作室里有两个铷原子钟,包括一个放在高级的 GPS 驯服振荡器里的那个。这对于保持时间很有用。即使有人干扰我的信号,或者我的 GPS 天线坏了,我也可以在一段时间内将时间精确度保持在纳秒级,几个月内保持在毫秒级。这对我来说足够了。 (说实话,这实际上有些过度了,但我现在已经掉进了时间爱好者的兔子洞——如果你懂,你就懂。)

但有些地方确实需要纳秒级精度,用于科学实验、射频、媒体或金融。他们可能会运行自己更精确的时钟。但他们仍然会将时间追溯到 NIST,至少在美国大多数是这样。 因此,当 NIST 的灾难响应经受考验时,所有人都在关注。 上周,当我们离灾难只有微秒之遥时,NIST 的团队修复了它,以至于几乎没有人注意到。

延伸阅读

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计