构建高效灾备与业务连续性计划的技术指南

本文详细介绍了构建现代灾难恢复和业务连续性计划的关键技术步骤,包括数据备份策略、AI技术应用、业务影响分析和自动化测试方法,帮助企业应对各种中断风险。

灾难恢复与业务连续性:如何制定有效计划

核心原则与技术演进

灾难恢复(DR)和业务连续性的核心原则数十年来相对稳定:识别风险、进行业务影响分析、设定恢复时间目标(RTOs)、创建备份和恢复计划、执行定期测试。

在更简单的时代,数据存储在本地,网络威胁不够复杂,自然灾害罕见,组织可能承受持续数小时甚至数天的中断,每周备份就足够,数据泄露法规几乎不存在。

如今,企业数据量爆炸性增长且无处不在(公有云、SaaS、边缘、物联网、运营技术、大语言模型);AI生成的勒索软件攻击即将来临;由于气候变化,自然灾害发生频率更高;业务部门希望能在几分钟内恢复运行;未能及时报告网络攻击或未能保护客户数据的处罚严厉。

关键技术组件与策略

如果您的灾难恢复和业务连续性计划一直尘封在架,现在是时候进行全面重建了。

关键组件包括最小可行业务(MVB)等策略;AI和生成式AI等新兴技术;以及集成威胁狩猎、自动化数据发现和分类、连续备份、不可变数据和游戏化桌面测试练习等战术流程和方法。

备份即服务(BaaS)和灾难恢复即服务(DRaaS)也越来越受欢迎,因为企业希望利用“即服务”模型相关的可扩展性、云存储选项和易用性。事实上,Gartner预测,到2029年,85%的大型企业将采用BaaS以及客户管理的部署来备份云和本地工作负载,而2025年这一比例仅为25%。

构建有效计划的六个技术步骤

步骤1:建立高管支持、获取资金、创建团队

有效的灾难恢复/业务连续性需要大量的前期工作和持续关注。在额外存储资源、软件工具以及员工时间和精力方面成本高昂。

安永全球网络情报主管Ryan Whelan表示,他最近调查了零售和酒店行业的CISO们的优先事项,发现灾难恢复和业务连续性从2024年“甚至不在前十名”飙升至2025年的第三名。

根据Forrester的《2025年韧性状况报告》,37%的受访者预计未来12个月资金将增加,而只有4%预计会减少。其余预计资金持平。

一旦获得高管支持,下一个关键步骤是建立一个常设团队,包括安全、数据中心、存储、合规、法律、风险管理、业务流程以及内部和外部通信。组织需要打破孤岛,创建一个跨学科小组,该小组将持续运作,不断演变以应对新威胁。

具体角色包括事件报告员(负责与利益相关者沟通)、计划经理(确保每个人执行分配的任务)和资产经理(负责保护关键资产并在整个事件过程中报告其状态)。

步骤2:识别风险并定位所有数据

在大型分布式企业中识别风险是一项复杂任务。风险无处不在,从网络攻击(包括内部攻击)开始,还包括人为错误、系统故障(硬件、软件、网络)、自然灾害以及与供应链、云服务提供商和SaaS提供商相关的第三方漏洞。

当Forrester要求调查受访者确定其DR/业务连续性计划调用的根本原因时,主要原因是IT故障、自然灾害、IT安全事件、供应链中断和停电。每种风险都需要不同的应对计划。

FTI咨询公司网络安全实践高级董事总经理Todd Renner表示,组织常常难以回答“我的数据在哪里?”和“谁拥有数据?”等基本问题。他补充道:“系统越复杂,识别系统所有者和数据存储位置(包括结构化和非结构化数据)就越困难。”

好消息是,有AI驱动的软件工具可以扫描结构化和非结构化企业数据以识别漏洞、执行数据发现并对数据进行分类。

Gartner预测,到2029年,90%的备份和数据保护平台产品将集成生成式AI以改进管理和支持运营,而2025年这一比例不到25%。

步骤3:进行业务影响分析

数据并非为其本身而存在;它是为了支持业务,因此企业需要了解灾难的业务影响,并仅备份必要内容。尽管如此,当组织通过练习识别复杂业务流程的所有细节时,可能会变得不堪重负,尤其是在充满微服务、容器、API、身份和访问控制、SaaS应用等的混合或多云环境中。

安永的Whelan表示,与其在灾难发生时尝试恢复整个业务,更好的方法可能是创建一个业务的骨架复制品,即最小可行业务(MVB),可以立即启动以保持关键任务流程运行,同时进行传统的备份和恢复工作。

这种“开箱即用”的故障转移系统可以包括电子邮件等核心功能,使组织能够内部和外部沟通,同时恢复其他时间敏感性较低的功能,如ERP。

Whelan表示,这种MVB方法需要业务部门和技术团队之间的紧密集成。他们需要共同努力进行依赖关系映射,旨在识别关键业务功能及与该功能相关的技术组件。

步骤4:备份策略从3-2-1转向3-2-1-1-0

多年来作为标准的基本3-2-1备份策略已不再足够。将数据三个副本存储在两种不同备份介质上,其中一个副本异地存储的理念正被3-2-1-1-0取代。

两个额外元素是:一个离线、不可变或空气隔离的备份,使组织能够在勒索软件攻击中恢复;以及零错误的目标。不可变数据是“黄金标准”,但正确实施存在复杂性。例如,在灾难发生时,企业如何知道最后一次快照发生的时间?企业如何验证保存在不可变数据存储中的数据是准确且未损坏的?

“我们仍然发现数据清洁度和来源是组织的主要问题,”他补充道。

FTI的Renner指出,AI驱动的备份和恢复平台可以持续扫描企业数据的准确性,并就应多久执行一次快照、数据应存储在哪里以及哪些数据需要备份提出建议。

Gartner估计,到2029年,35%的企业将实施代理AI以执行自主备份操作,而2025年这一比例不到2%。

步骤5:创建计划并测试

创建实际计划文档有许多模板,AI系统可以自动化此过程。计划需要清晰,并需记录事件检测和报告、与内部和外部利益相关者沟通、自然灾害应急响应、IT恢复、业务连续性以及相关方角色和责任的程序。

但计划必须经过测试。根据Forrester报告,“不幸的是,测试情况自2008年以来基本未变。对于所有测试类型,大多数组织每年仅测试一次计划演练和桌面练习,并且随着测试变得更加广泛,测试频率下降——41%的受访者表示他们从未执行过完整模拟。”

Renner表示,具有前瞻性的公司正试图通过从静态PowerPoint演示切换到交互式、游戏化的体验来使桌面练习更有效,这些体验更现实、更引人入胜。“我从未见过桌面练习在教导某人他们事先未考虑到的业务部分方面无效,”他补充道。

步骤6:管理后果

拼图的最后一块是事后分析,在灾难后果中进行评估。组织需要准确找出问题所在,并确定未来如何预防。

Gartner分析师Michael Hoeck认为,企业数据的备份副本不必只是闲置;它们可以充分利用。他预测,到2029年,30%的企业将利用数据备份副本进行分析和推理,而2025年这一比例不到5%。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计