DNS故障给管理员的三大启示
作者:Tony Perez | 2021年5月5日
很少有人会清晨醒来就想:“今天我的DNS运行得怎么样?”但我敢保证,它确实曾是一两个不眠之夜的根源——“唉,又是DNS……真是气人”。
最典型的例子就是Register.com和Network Solutions最近的故障,用户被告知预计需要24到48小时才能恢复。想象一下,向你的高管团队解释:“抱歉,我们的网站、服务以及一切相关功能将宕机一天左右。”在系统管理领域,这是不可接受的概念。
我们该如何构建自己的弹性来应对此类问题?我们都知道这些事情会发生,不能假装它们不存在,往往只是时间问题。让我们看看作为管理员可以采取的三个措施来提高弹性。
构建网络弹性
1. 服务功能隔离
多年来我在帮助组织识别和修复安全事件时一直在强调这一点,基础设施管理也不例外。它仍然是安全三要素——机密性、完整性和可用性的关键支柱。
对于域名而言,服务分离意味着划分两个关键组件的责任:注册商和权威DNS。不,它们不是同一个东西。
大多数管理员没有意识到它们不必绑定在一起。虽然注册商可能会让操作变得困难,或者说服你使用他们的权威DNS,但这并不是必须的。将这两个功能的责任分开有助于消除依赖性并提高弹性。
2. 故障转移权威DNS
任何值得信赖的注册商都会允许你作为域名所有者引入第三方权威DNS服务来应对此类情况。故障转移权威DNS使你能在服务中断时优雅地响应。
这次故障展示了没有此类措施的后果。在这个具体案例中,用户只能等待整个平台恢复在线。而有了故障转移权威DNS服务,用户可以通过相应重定向流量来缓解中断,直到主服务恢复在线。
实现方式是在现有注册商处添加备份名称服务器,该服务器会在第三方权威DNS上复制你的记录,这些记录在需要之前处于空闲状态。你从不认为需要它,直到真正需要时,但那时实施已经为时已晚。
3. 自动故障检测与响应
下一个需要考虑的是整体可用性。中断会发生在整个技术栈中,很少有管理员意识到权威DNS的真正威力。专门解决DNS中断只是第一步,现在利用这个机会思考域名端点(例如服务器)的可用性。
与采用最新DNS技术的权威DNS服务提供商合作,确保它能够让你自动检测和响应端点中断。该技术应能识别技术栈中的故障,并通过编程方式调整网络以确保最佳可用性,而无需你的干预。
NOC.org权威DNS平台
这虽然是个无私的推广,但上述所有内容正是我们在NOC.org构建的解决方案。我们打造了一个平台来补充你现有的技术栈,而不是取代它。
只要你的注册商允许自定义名称服务器,你就可以选择利用NOC.org来实现DNS中断弹性。你还可以使用我们的自动故障检测和恢复功能,在中断恢复后将资产移回原处。
发布类别:安全