高可用性でダウンタイムを最小化

※この記事は翻訳されたものです。本記事の原文はこちら

現代の企業にとって、ダウンタイムはかつてないほどコストがかかるようになっています。ITIC 2021のHourly Cost of Downtime Survey（ダウンタイムの時間当たりのコストに関する調査）によると、91%の組織で、ビジネスクリティカルなシステム、データベース、アプリケーションのダウンタイム1時間のコストは平均で30万ドルを超え、大企業の18%では、ダウンタイム1時間のコストは500万ドルを超えていることがわかりました。

高可用性（HA）とは、長時間にわたって継続的に信頼性を持って動作するように設計されたシステム、データベース、アプリケーションの属性のことです。高可用性の目標は、重要なアプリケーションの予期せぬダウンタイムを削減または排除することであり、これはビジネスに不可欠なシステム、データベース、アプリケーションの設計に冗長化されたコンポーネントやその他のテクノロジーを組み込むことによって、単一障害点を排除することで実現できます。

Contents hide

SLAとHAの指標
HAクラスタリング
災害が起きる前に

SLAとHAの指標

サービスレベルアグリーメント（SLA）とは、サービスプロバイダーが、顧客のビジネスクリティカルなシステム、データベース、アプリケーションを、ビジネスが必要とする時に稼働させつづけておくことを保証するためのものです。

IDCは、アップタイムの要件を以下の5つのレベルで定義したSLAモデルを作成しました。

AL4（継続的な可用性 – システムのフォールトトレランス）：計画ダウンタイムおよび計画外のダウンタイムが年間5分15秒以内（99.999％、「ファイブナイン」の可用性）
AL3（高い可用性 – 従来のクラスタリング）： 計画ダウンタイムおよび計画外のダウンタイムが年間52分35秒以内（99.99％、「フォーナイン」の可用性）
AL2（リカバリー – データの複製とバックアップ）：計画ダウンタイムおよび計画外のダウンタイムが年間8時間45分56秒以内（99.9％、「スリーナイン」の可用性
AL1（信頼性 – コンポーネントがホットスワップ可能）：計画ダウンタイムおよび計画外のダウンタイムが年間87時間39分29秒以内（99％、「ツーナイン」の可用性）
AL0（保護されていないサーバー）：可用性またはアップタイムの保証なし

ITICによると、調査対象企業の89％が、ビジネスクリティカルなシステム、データベース、アプリケーションに対して「フォーナイン」の可用性を求めており、さらにそのうちの35％が「ファイブナイン」の可用性の達成を追求しているということです。

アップタイムと可用性に加え、HAの指標として他に重要なのは、目標復旧時間（RTO）と目標復旧時点（RPO）です。

RTOはあらゆるシステム停止の最大許容時間、RPOは障害発生時に許容できるデータ損失の最大量です。一般的に数時間や数日で定義されるディザスターリカバリーのRTOやRPOの指標とは異なり、ビジネスクリティカルなシステム、データベース、アプリケーションのRTOやRPOの指標は、わずか数秒（RTO）やゼロ（RPO）であることが多くなっています。

HAクラスタリング

HAクラスタリングは通常、サーバーノード、ストレージ、およびクラスタリングソフトウェアで構成されます。

従来のクラスタリング

従来のオンプレミスのHAクラスターは、共有ストレージ（通常はストレージエリアネットワーク、SAN）に接続され、同じOS、データベース、アプリケーションで構成された2台以上のサーバーノードのグループです（図1参照）。

図1：共有ストレージを使用した従来のサーバークラスタリング

1台をプライマリーノード（またはアクティブノード）、もう1台をセカンダリーノード（またはスタンバイノード）として指定します。プライマリーノードに障害が発生した場合、クラスタリングにより、システム、データベース、またはアプリケーションは1つ以上のセカンダリーノードに自動的にフェイルオーバーされ、中断を最小限に抑えて運用を継続できます。セカンダリーノードは同じストレージに接続されているため、データを損失することなく運用を続行できます。

ただし、従来のクラスタリングモデルで共有ストレージを使用する場合、次のような問題が生じます。

共有ストレージ自体が単一障害点になり、クラスター内の接続されたノードすべてをオフラインにしてしまう可能性がある。
SANストレージは所有と管理にコストがかかり、複雑になる。
クラウド上の共有ストレージは、不必要なコストと複雑さを増大させる可能性があり、クラウドプロバイダーによっては共有ストレージのオプションすら提供していないところもある。

SANlessクラスタリング

SANlessまたは「シェアードナッシング」クラスター（図2参照）は、共有ストレージに関連する課題を解決するものです。このような構成では、各クラスターノードに独自のローカルストレージがあります。ホストベースの効率的なブロックレベルのレプリケーションにより、クラスターノード上のストレージを同期させ、同一の状態を維持します。フェイルオーバー時には、セカンダリーノードはプライマリーノードが使用しているストレージの同一コピーにアクセスします。

図2：SANlessまたは「シェアードナッシング」ストレージを使用したHAクラスタリング

クラスタリングソフトウェア

クラスタリングソフトウェアでは、サーバーをクラスターとして構成できるため、複数のサーバーが連携してHAを提供し、データ損失を防ぐことができます。Windows、Linux ディストリビューション、各種仮想マシンのハイパーバイザー向けに、さまざまなクラスタリングソフトウェアソリューションが提供されています。しかし、これらのソリューションはいずれも、柔軟性やデプロイの選択肢を制限し、技術的な複雑さや高価なライセンスなど、さまざまな課題をもたらします。

災害が起きる前に

ビジネスクリティカルなシステム、データベース、アプリケーションにとって、HAは非常に重要です。しかし、利用できるプラットフォームがあまりにも多いため、その複雑性は著しく増しています。そのため、アプリケーションを考慮したソリューションが非常に理にかなっているのです。そこで必要なのが、高可用性に関する豊富な専門知識を持つ信頼できるパートナー、すなわちSIOSのような、お客様のビジネスを確実に継続させるための技術的なノウハウを持つパートナーです。

あなたのシステムは、停電や災害が発生したとき、必要な可用性レベルを維持できるでしょうか。私たちSIOSは、あなたのシステムの可用性に関するご相談をお受けします。

高可用性でダウンタイムを最小化

SLAとHAの指標