灾难恢复与业务连续性:如何制定有效计划
核心原则与技术演进
灾难恢复(DR)和业务连续性的核心原则数十年来相对稳定:识别风险、进行业务影响分析、设定恢复时间目标(RTO)、创建备份和恢复计划、定期测试。
在更简单的时代,数据存储在本地,网络威胁不够复杂,自然灾害罕见,组织可以承受持续数小时甚至数天的中断,每周备份就足够,数据泄露法规几乎不存在。
如今,企业数据量激增且无处不在(公有云、SaaS、边缘、物联网、运营技术、大语言模型);AI生成的勒索软件攻击即将来临;由于气候变化,自然灾害发生频率更高;业务部门希望能在几分钟内恢复运行;未能及时报告网络攻击或未能保护客户数据的处罚严厉。
关键技术组件与策略
如果您的灾难恢复和业务连续性计划一直被束之高阁,现在需要从头开始全面重建。
关键组件包括最小可行业务(MVB)等策略;AI和生成式AI等新兴技术;以及集成威胁狩猎、自动化数据发现和分类、持续备份、不可变数据和游戏化桌面测试练习等战术流程和方法。
备份即服务(BaaS)和灾难恢复即服务(DRaaS)也越来越受欢迎,因为企业希望利用"即服务"模型相关的可扩展性、云存储选项和易用性。事实上,Gartner预测,到2029年,85%的大型企业将采用BaaS以及客户管理的部署来备份云和本地工作负载,而2025年这一比例仅为25%。
构建成功计划的六个技术步骤
步骤1:建立高层支持、获取资金、创建团队
有效的灾难恢复/业务连续性需要大量的前期工作和持续关注。在额外的存储资源、软件工具以及员工时间和精力方面成本也很高。
根据Forrester的《2025年韧性状况》报告,37%的受访者预计未来12个月资金将增加,而只有4%预计会减少。其余人预计资金持平。
获得高层支持后,下一个关键步骤是建立一个常设团队,包括安全、数据中心、存储、合规、法律、风险管理、业务流程以及内部和外部通信。组织需要打破孤岛,创建一个跨学科小组,该小组将持续作为一个实体运作,不断演变以应对新威胁。
具体角色包括事件报告员(负责与利益相关者沟通)、计划经理(确保每个人执行分配的任务)和资产经理(负责保护关键资产并在整个事件过程中报告其状态)。
步骤2:识别风险并定位所有数据
在大型分布式企业中识别风险是一项复杂任务。风险无处不在,从网络攻击(包括内部攻击)开始,还包括人为错误、系统故障(硬件、软件、网络)、自然灾害以及与供应链、云服务提供商和SaaS提供商相关的第三方漏洞。
当Forrester要求调查受访者确定其DR/业务连续性计划调用的根本原因时,主要原因是IT故障、自然灾害、IT安全事件、供应链中断和停电。每种风险都需要不同的应对计划。
好消息是,有AI驱动的软件工具可以扫描结构化和非结构化企业数据,以识别漏洞、执行数据发现并对数据进行分类。
Gartner预测,到2029年,90%的备份和数据保护平台产品将集成生成式AI以改进管理和支持运营,而2025年这一比例不到25%。
步骤3:进行业务影响分析
数据并非为其本身而存在;它是为了支持业务而存在,因此企业需要了解灾难的业务影响,并仅备份必要内容。当组织通过识别复杂业务流程的所有细节时,特别是在充满微服务、容器、API、身份和访问控制、SaaS应用程序等的混合或多云环境中,可能会变得不堪重负。
与其在灾难发生时尝试恢复整个业务,更好的方法可能是创建一个业务的骨架复制品,即最小可行业务(MVB),可以立即启动以保持关键任务流程运行,同时进行传统的备份和恢复工作。
这种"开箱即用"的故障转移系统可以包括电子邮件等核心功能,使组织能够内部和外部通信,同时恢复其他时间敏感性较低的功能(如ERP)。
这种MVB方法需要业务部门和技术团队之间的紧密集成。他们需要共同努力进行依赖关系映射,旨在识别关键业务功能以及与该功能相关的技术组件。
步骤4:备份策略从3-2-1转向3-2-1-1-0
多年来标准的3-2-1基本备份策略不再足够。将数据三个副本存储在两种不同备份格式上,其中一个副本存储在异地的想法正被3-2-1-1-0取代。
两个额外元素是:一个离线、不可变或空气隔离的备份,使组织能够在发生勒索软件攻击时恢复运行;以及零错误目标。不可变数据是"黄金标准",但正确实施存在复杂性。例如,在发生灾难时,企业如何知道最后一次快照发生的时间?企业如何验证保存在不可变数据存储中的数据是准确的且未损坏?
AI驱动的备份和恢复平台可以持续扫描企业数据的准确性,并就应多久拍摄快照、数据应存储在哪里以及需要备份哪些数据制定建议。
Gartner估计,到2029年,35%的企业将实施代理AI执行自主备份操作,而2025年这一比例不到2%。
步骤5:创建计划并测试
创建实际计划文档有许多模板,AI系统可以自动化此过程。计划需要清晰,并需要记录事件检测和报告、与内部和外部利益相关者沟通、自然灾害应急响应、IT恢复、业务连续性以及相关方角色和责任的程序。
但计划必须经过测试。根据Forrester报告,“不幸的是,测试情况自2008年以来基本未变。对于所有测试类型,大多数组织每年只测试一次计划演练和桌面练习,并且随着测试变得更加广泛,测试频率下降——41%的受访者表示他们从未执行过完整模拟。”
前瞻性公司正试图通过从静态PowerPoint演示切换到交互式、游戏化的体验,使桌面练习更有效、更现实、更引人入胜。
步骤6:管理后果
拼图的最后一块是事后分析,在灾难后果中进行评估。组织需要精确找出问题所在,并确定未来如何预防。
Gartner分析师Michael Hoeck认为,企业数据的备份副本不必只是闲置;它们可以充分利用。他预测,到2029年,30%的企业将利用数据备份副本进行分析和推理,而2025年这一比例不到5%。