DNS故障给管理员的三个重要教训

作者：Tony Perez | 2021年5月5日

你很少会一觉醒来就想：“不知道我的DNS今天怎么样了？“但我可以保证，它曾是一两个不眠之夜的根源，“啊，又是DNS……唉”。

没有比今天Register.com和Network Solutions的故障更好的例子了，客户被告知预计会有24-48小时的停机时间。想象一下，向你的高管团队解释——“抱歉，我们的网站、我们的服务以及其间的一切将停机一天左右。“在系统管理领域，这是一个难以理解的概念。

我们能做些什么来建立自己的弹性来应对这样的问题？我们都知道，这些事情会发生，我们没有假装它们不存在的奢侈，往往只是时间问题。因此，让我们看看作为管理员，我们可以做三件事来提高这种弹性。

构建网络弹性

多年来，我在与组织合作识别和修复安全事件时曾谈到这一点，管理基础设施也没有什么不同。它仍然是安全三要素——机密性、完整性和可用性的关键支柱。

对于域名，分离服务将意味着划分两个关键组件的责任——注册商和权威DNS。不，它们不是一回事。

大多数管理员没有意识到它们不必绑定在一起。虽然注册商可能会让你难以使用或试图说服你利用他们的权威DNS，但这不是必须的。将这两个功能的责任分开有助于消除依赖性并提高弹性。

任何值得信赖的注册商都会允许你作为域名所有者引入第三方Auth-DNS服务来帮助应对这种情况。故障转移Auth-DNS允许你在发生中断时优雅地响应。

这次故障展示了没有这样的设置的影响。在这个具体实例中，用户只能等待整个平台重新上线。有了故障转移Auth-DNS服务，用户将能够利用故障转移服务通过相应地重新路由流量来缓解中断，直到主服务恢复在线。

你可以通过向现有注册商添加备份名称服务器来实现这一点，该服务器将在第三方Auth-DNS上复制你的记录，该Auth-DNS在需要之前处于空闲状态。你从不认为需要它，直到你需要它，但当你需要时，实施已经太晚了。

接下来要考虑的是整体可用性。中断发生在整个堆栈中，很少有管理员意识到权威DNS的真正力量。专门解决DNS中断只是第一步，现在利用这个机会仔细考虑你的域端点（例如服务器）的可用性。

与利用最新DNS技术的Auth-DNS服务提供商合作，确保它使你能够自动检测和响应端点中断。该技术应识别堆栈中的故障，并以编程方式调整你的网络，以确保最佳可用性，而无需你的干预。

这是一个无私的插播广告，但上述所有内容都是我们在NOC.org构建来解决的。我们构建了一个平台来补充你现有的堆栈，而不是替换它。

只要你的注册商允许自定义名称服务器，你就可以选择利用NOC.org来实现DNS中断弹性。你还可以选择使用我们的自动化故障检测和恢复功能，在中断恢复后将你的资产移回。

发布类别：安全