DNS故障给管理员的三个重要启示
作者:Tony Perez | 2021年5月5日
很少有人会早上醒来就想:“不知道我的DNS今天运行得怎么样?“但我可以保证,这已经是一两个不眠之夜的根源了,“啊,又是DNS…… grrrrr”。
没有比今天Register.com和Network Solutions的中断更好的例子了,客户被告知预计中断时间长达24-48小时。想象一下,向你的执行团队解释——“抱歉,我们的网站、我们的服务以及其间的一切,将停机一天左右。”
在系统管理领域,这是一个不可想象的概念。
我们能做些什么来建立自己的弹性来应对这样的问题?我们都知道,这些事情会发生,我们没有假装它们不存在的奢侈,通常只是时间问题。因此,让我们看看作为管理员我们可以做的三件事来提高这种弹性。
构建网络弹性
1 - 服务的功能隔离
多年来,我在与组织合作识别和修复安全事件时一直在谈论这一点,管理基础设施也没有什么不同。它仍然是安全三要素——机密性、完整性和可用性的关键支柱。
对于域名,分离服务将意味着划分两个关键组件的责任——注册商和权威DNS。不,它们不是一回事。
大多数管理员没有意识到它们不必绑定在一起。虽然注册商可能会让利用其权威DNS变得困难,或努力说服你,但这不是必须的。分离这两个功能的职责有助于消除依赖性并提高弹性。
2 - 故障转移权威DNS
任何有价值的注册商都会允许你作为域名所有者引入第三方Auth-DNS服务来帮助处理此类情况。故障转移Auth-DNS允许你在发生中断时优雅地响应。
这次中断展示了没有此类设置的后果。
在这个特定实例中,用户只能等待整个平台重新上线。使用故障转移Auth-DNS服务,用户将能够利用故障转移服务通过相应地重新路由流量来缓解中断,直到主服务恢复在线。
你可以通过向现有注册商添加备份名称服务器来实现这一点,该服务器将在第三方Auth-DNS上复制你的记录,该Auth-DNS处于空闲状态,直到需要它。你从不认为需要它,直到你需要它,但当你需要它时,实施已经太晚了。
3 - 自动故障检测和响应
接下来要考虑的是可用性作为一个整体。中断发生在整个堆栈中,很少有管理员意识到权威DNS的真正威力。专门解决DNS中断只是第一步,现在利用这个机会仔细考虑域名端点(例如服务器)的可用性。
与利用最新DNS技术的Auth-DNS服务提供商合作,确保它使你能够自动检测和响应端点中断。该技术应识别堆栈中的故障,并以编程方式调整你的网络以确保最佳可用性,而无需你的干预。
NOC.org 权威DNS平台
这是一个无私的插播,但上面描述的一切都是我们在NOC.org构建来解决的。我们构建了一个平台来补充你现有的堆栈,而不是替换它。
只要你的注册商允许自定义名称服务器,你就可以选择利用NOC.org来实现DNS中断弹性。你还可以选择使用我们的自动故障检测和恢复功能,在中断恢复后将你的资产移回。
发布类别:安全