クラウドのサービス障害に備える重要性

本記事は、Cyber Trusブログ“The Importance of Planning for Services Failure in the Cloud”（2012年9月21日公開）を翻訳した記事です。

クラウドサービスに関して言えば、サービス障害は起こるもので、生じるかどうかという問題ではなく、いつ生じるかという問題だと思っています。事態が複雑になるほど、障害を想定したり予測することが難しくなります。そのため、信頼を構築してお客様との長期的な関係を維持するためには、障害に耐えうるサービスを設計し、サービスを速やかに復旧させるためのプランを整えておくことが極めて重要です。

私の経験上、基本的にクラウドサービスの障害の主な原因には、次の3点が挙げられます：

人為的なミス
デバイスやインフラストラクチャの障害
ソフトウェアの脆弱性

こうした障害は必ず起こるものと想定する一方で（実際、上記の3つは恒常的な脅威です）、過去の記事で説明したような組織の目標を堅持していれば、自ずとサービス障害に備えることがいかに大切かが見えてきます。クラウドサービスプロバイダーは、障害が起きたときのお客様への影響を最小限に抑えるために万策と尽くす必要があります。

復旧指向コンピューティング（ROC）では、上記の3点に起因する潜在的な問題を軽減するためにクラウドサービスの設計および実装に適用される研究分野として、次の6つを定義しています：

復旧プロセスの訓練: 開発時と実運用時の両方で、復旧プロセスの訓練を日常的に実施して修復メカニズムをテストする。
診断補助: 診断補助を使用して障害の根本的な原因を分析する。
障害ゾーン: クラウドサービスを障害ゾーンに分離して障害を封じ込め、速やかに復旧できるようにする。
自動ロールバック: 運用のさまざまな面で自動ロールバックが実行されるシステムを構築する。
多層防御: 多層防御アプローチを採用して、障害が最初の保護層に隔離されなくても、封じ込められるようにする。
冗長性: システムに障害を乗り切る冗長性を構築する。冗長システムが障害を速やかに検出し、復旧中はその障害を隔離するFailFastコンポーネントを設計する。

サービスの信頼性に関する最近のホワイトペーパーをダウンロードして、これらの信頼性のトピックの詳細を確認することをお勧めします。

デビッド・ビルズ
信頼できるコンピューティング、信頼性主任ストラテジスト

云服务故障应对策略与恢复导向计算架构解析

本文探讨云服务故障的三大根本原因（人为错误、设备故障、软件漏洞）及六项恢复导向计算（ROC）设计原则，包括故障隔离、自动回滚和多层防御机制，为企业构建高可用云架构提供技术指导。

クラウドのサービス障害に備える重要性