DNS故障给管理员的三个重要教训
作者:Tony Perez | 2021年5月5日
你很少会一觉醒来就想:“不知道我的DNS今天怎么样了?“但我可以保证,它曾是一两个不眠之夜的根源,“啊,又是DNS……唉”。
没有比今天Register.com和Network Solutions的故障更好的例子了,客户被告知预计会有24-48小时的停机时间。想象一下,向你的高管团队解释——“抱歉,我们的网站、我们的服务以及其间的一切将停机一天左右。“在系统管理领域,这是一个难以理解的概念。
我们能做些什么来建立自己的弹性来应对这样的问题?我们都知道,这些事情会发生,我们没有假装它们不存在的奢侈,往往只是时间问题。因此,让我们看看作为管理员,我们可以做三件事来提高这种弹性。
构建网络弹性
1 - 服务的功能隔离
多年来,我在与组织合作识别和修复安全事件时曾谈到这一点,管理基础设施也没有什么不同。它仍然是安全三要素——机密性、完整性和可用性的关键支柱。
对于域名,分离服务将意味着划分两个关键组件的责任——注册商和权威DNS。不,它们不是一回事。
大多数管理员没有意识到它们不必绑定在一起。虽然注册商可能会让你难以使用或试图说服你利用他们的权威DNS,但这不是必须的。将这两个功能的责任分开有助于消除依赖性并提高弹性。
2 - 故障转移权威DNS
任何值得信赖的注册商都会允许你作为域名所有者引入第三方Auth-DNS服务来帮助应对这种情况。故障转移Auth-DNS允许你在发生中断时优雅地响应。
这次故障展示了没有这样的设置的影响。在这个具体实例中,用户只能等待整个平台重新上线。有了故障转移Auth-DNS服务,用户将能够利用故障转移服务通过相应地重新路由流量来缓解中断,直到主服务恢复在线。
你可以通过向现有注册商添加备份名称服务器来实现这一点,该服务器将在第三方Auth-DNS上复制你的记录,该Auth-DNS在需要之前处于空闲状态。你从不认为需要它,直到你需要它,但当你需要时,实施已经太晚了。
3 - 自动化故障检测和响应
接下来要考虑的是整体可用性。中断发生在整个堆栈中,很少有管理员意识到权威DNS的真正力量。专门解决DNS中断只是第一步,现在利用这个机会仔细考虑你的域端点(例如服务器)的可用性。
与利用最新DNS技术的Auth-DNS服务提供商合作,确保它使你能够自动检测和响应端点中断。该技术应识别堆栈中的故障,并以编程方式调整你的网络,以确保最佳可用性,而无需你的干预。
NOC.org权威DNS平台
这是一个无私的插播广告,但上述所有内容都是我们在NOC.org构建来解决的。我们构建了一个平台来补充你现有的堆栈,而不是替换它。
只要你的注册商允许自定义名称服务器,你就可以选择利用NOC.org来实现DNS中断弹性。你还可以选择使用我们的自动化故障检测和恢复功能,在中断恢复后将你的资产移回。
发布类别:安全