DNS故障给管理员的三个重要启示

作者：Tony Perez | 2021年5月5日

很少有人会早上醒来就想：“不知道我的DNS今天运行得怎么样？“但我可以保证，这已经是一两个不眠之夜的根源了，“啊，又是DNS…… grrrrr”。

没有比今天Register.com和Network Solutions的中断更好的例子了，客户被告知预计中断时间长达24-48小时。想象一下，向你的执行团队解释——“抱歉，我们的网站、我们的服务以及其间的一切，将停机一天左右。”

在系统管理领域，这是一个不可想象的概念。

我们能做些什么来建立自己的弹性来应对这样的问题？我们都知道，这些事情会发生，我们没有假装它们不存在的奢侈，通常只是时间问题。因此，让我们看看作为管理员我们可以做的三件事来提高这种弹性。

构建网络弹性

多年来，我在与组织合作识别和修复安全事件时一直在谈论这一点，管理基础设施也没有什么不同。它仍然是安全三要素——机密性、完整性和可用性的关键支柱。

对于域名，分离服务将意味着划分两个关键组件的责任——注册商和权威DNS。不，它们不是一回事。

大多数管理员没有意识到它们不必绑定在一起。虽然注册商可能会让利用其权威DNS变得困难，或努力说服你，但这不是必须的。分离这两个功能的职责有助于消除依赖性并提高弹性。

任何有价值的注册商都会允许你作为域名所有者引入第三方Auth-DNS服务来帮助处理此类情况。故障转移Auth-DNS允许你在发生中断时优雅地响应。

这次中断展示了没有此类设置的后果。

在这个特定实例中，用户只能等待整个平台重新上线。使用故障转移Auth-DNS服务，用户将能够利用故障转移服务通过相应地重新路由流量来缓解中断，直到主服务恢复在线。

你可以通过向现有注册商添加备份名称服务器来实现这一点，该服务器将在第三方Auth-DNS上复制你的记录，该Auth-DNS处于空闲状态，直到需要它。你从不认为需要它，直到你需要它，但当你需要它时，实施已经太晚了。

接下来要考虑的是可用性作为一个整体。中断发生在整个堆栈中，很少有管理员意识到权威DNS的真正威力。专门解决DNS中断只是第一步，现在利用这个机会仔细考虑域名端点（例如服务器）的可用性。

与利用最新DNS技术的Auth-DNS服务提供商合作，确保它使你能够自动检测和响应端点中断。该技术应识别堆栈中的故障，并以编程方式调整你的网络以确保最佳可用性，而无需你的干预。

这是一个无私的插播，但上面描述的一切都是我们在NOC.org构建来解决的。我们构建了一个平台来补充你现有的堆栈，而不是替换它。

只要你的注册商允许自定义名称服务器，你就可以选择利用NOC.org来实现DNS中断弹性。你还可以选择使用我们的自动故障检测和恢复功能，在中断恢复后将你的资产移回。

发布类别：安全