释放权威DNS的强大力量
作者:Tony Perez | 2020年8月10日
这是一个异常漫长的一周,你在午夜左右才得以入睡。作为一名系统管理员,你的核心工作是确保系统持续运行。今晚你处于待命状态,如果出现问题,你将第一个知晓并负责响应。
你特别负责确保公司网站的可用性。与其他网站不同,你的公司运营着一个在线商务商店,服务全球用户。公司每小时产生1万美元的新销售额。客户能够访问你的网站至关重要。
凌晨2点,你的手机开始像圣诞树一样亮起。PagerDuty正在崩溃,而你正处在接收端。Slack通知达到了通知阈值。短信不断涌入。
混乱之中,你忘了打开通知。你平静地躺着,以为世界一切正常。
闪烁的灯光和振动终于引起了你的狗的注意,它开始对这种不便发出低吼。夜晚噪音的中断引起了你的注意。你睁开疲惫的眼睛,看到手机在夜晚的迷糊中舞动。
你突然意识到问题。你抓起手机,瞬间明白发生了什么——你的服务宕机了。
介绍NOC.org
在过去的10年里,这是Daniel和我所生活的世界,也是我们通过项目持续面对的现实。我们通过CDN/WAF为全球数十万家各种规模的企业提供事件检测、漏洞缓解服务和可用性保证。但在整个经历中,宕机仍然发生……这是网络工作的残酷现实。
我们意识到需要一个更好的解决方案来检测、缓解和从这些可用性事件中恢复。这就是我们推出NOC.org的原因。
通过NOC.org,上述场景将通过平台的一些智能路由功能为用户无缝识别和缓解。
自动化事件检测、问题缓解和无缝恢复
监控可用性事件的最大弱点之一是几乎总是需要手动干预。不是因为技术不存在,而是用户往往缺乏实施适当缓解控制的知识和专业知识。更多情况下是因为平台本身使其过于复杂。
NOC.org通过整合技术来现代化这种方法。类似的工具,但集成在一起帮助用户做出更好的决策。如果这些年我们学到一件事,那就是世界并不缺乏工具,而是缺乏解析噪音和做出决策的能力。
使用权威DNS和NOC.org的智能路由功能,用户能够创建增强的记录。这些记录允许你在两个节点之间创建故障转移和恢复结构,在任何事件中为你工作。
NOC.org如何响应可用性事件
在以下图示中,我将展示在上述场景中会发生什么:
1 – 正常流量流向你的Web服务器…… Web流量命中Web服务器的简化图示
2 – NOC.org检测到主节点问题,在几分钟内将流量重定向到故障转移: NOC.org检测问题,重新路由所有流量
2 – NOC.org检测到恢复,并进行恢复: NOC.org在中断缓解时自动恢复
为此,NOC.org合并了不同的技术来a)检测问题,以及b)自动代表组织响应和恢复。所有这些都是通过使用权威DNS和智能路由功能实现的。
将监控与权威DNS服务绑定
处理可用性事件的一种方法是利用域名系统(DNS),特别是权威DNS(DNS快速入门)。
权威DNS是网络工作原理的关键部分。它们包含与域相关的所有信息,称为记录。这些记录存储在一个称为区域的容器中。
每个域(例如,perezbox.com)都有一组记录。这些记录告诉网络在哪里找到域的信息。
例如,我使用tony@perezbox.com作为我的电子邮件。我在我的域区域文件中使用所谓的MX记录来告诉网络如何将电子邮件路由到我的收件箱。此外,我有一个网站,使用A记录告诉互联网在哪里找到我的网站内容。这就是我对区域的深入程度,但要理解每个域都有一个,而控制这些区域的DNS生态系统部分被称为权威DNS。
这些区域通常是嵌入在注册商或CDN提供商等平台中的功能。
注册商是那些向你出售域名的公司,比如NameCheap。而内容分发网络(CDN)有助于确保性能和可用性,比如我们的母校Sucuri。两者都有自己保留域区域信息的原因,并因此将其视为嵌入式功能。
注意:一些CDN不允许你使用其他权威DNS提供商。虽然这是一种过时的方法,但这将使其无法与NOC.org一起使用。
作为域所有者,你有权选择谁管理你的区域。你可以将权威DNS移动到另一个提供商。这样做通常有助于提供故障转移和冗余,特别是当你把所有鸡蛋放在一个篮子里时——注册商、DNS、CDN、WAF等……
一切都很顺利,直到出现问题。
确保业务连续性
服务会宕机,这是我们在运行自己的CDN/WAF多年后学到的艰难教训。你可以尽一切努力确保服务从不中断,但墨菲经常有其他计划。无论是合作伙伴中断,还是像PR期间的疏忽这样无害的事情。
利用独立的权威DNS可以为严重依赖在线存在的组织带来指数级的安心。
NOC.org在这里帮助提供这一点。将我们视为补充解决方案,而不是替代品。
发布在安全类别,标签为网络管理与安全