クラウドの可用性に迫る2021年最大の罠

    寄稿:米国サイオス VP  Cassius Rhue
    ※この記事は翻訳されたものです。本記事の原文はこちら

    作家のCarey Nieuwhof氏のブログのテーマである「2021年最大の罠」に、私はすっかり夢中になってしまいました。HAに直接関係することではありませんが、このトピックを読んで2020年のトレンドについて考えてみました。

    クラウドのイノベーションは数多くあり、それはインフラの最も基本的なレベルから始まります。AI、機械学習、計算能力とアルゴリズム、メモリ管理と共有、バッテリーの進歩などは言うまでもありません。これらの進歩により、現世代のクラウドは最も堅牢で信頼性が高く、可用性の高いデータセンターとなっています。冗長化された電源、冷却、監視とアラートのための膨大なIoTデバイス、冗長化されたネットワーク、高速相互接続、大規模サーバー、ストレージ、ディスクで最適化されたこれらのセンターは素晴らしいものですが、2021年に迫りくる最大の罠である可能性が非常に高いのです。

    クラウドの可用性だけで高い可用性が得られている、またはそれだけで十分だと信じてしまうことが、2021年の最大の罠です。

    分析すると、これは複雑な罠です。多くのデータセンターのバックボーンを構成する一連の進歩は実に数多く、素晴らしいものですが、それはクラウドを推進するための技術革新のほんの一部にすぎません。では、この大規模な冗長化、大容量化、AI駆動型インフラのどこが罠なのかというと、ハードウェアとインフラの可用性によって、企業は危険に晒されているからです。

    クラウドの高可用性の最大のリスク

    ディスク

    ディスクはより速く、よりインテリジェントになりました。チップセット、アクセステクノロジー、製造、ストレージ容量、RAIDテクノロジーなどで目を見張るような進化を遂げたことで、クラウドベンダーは速度、アクセス、冗長性などで派手な数字を打ち出せるようになりました。これにより、ディスクインフラの単一障害点(SPOF)のリスクが軽減され、1台のディスクが故障したり、ディスクへの電力供給が一時的に停止したりしても、可用性が損なわれることはないと確信できるようになりました。

    ストレージアレイ

    ディスクへのアクセスを提供するデータセンター内のストレージアレイとエンクロージャーも大きく進化しています。点滅するライトやプロペラのように巨大なファンのように目を引くものではなくなり、小型ながら容量とパフォーマンスは向上しています。最新のシャーシでは、電源の冗長化、ディスクの冗長化、接続されたストレージユニット間、さらには遠く離れたユニット間でRPOがほぼ復旧時点になるレプリケーションができないものを探すのは難しいでしょう。さらにこれらのユニットには、故障の予測、先取りした問題解決、パフォーマンスのボトルネックを減らすためのワークロードの最適化などのAIの強みも追加されています。

    サーバー

    有名メーカーや技術評論家が、未来の風景を一変させるような革新的な技術を予測していたのが、ずいぶん昔のことのように思えます。フットプリントの縮小、より高速で複雑なチップセット、NVMe、バッテリーの効率化、冷却の進歩、ストレージの進化、インメモリと永続メモリの進化、GPU、ベアメタルプロビジョニングなど、サーバーテクノロジーの進化を予測していたのが、数十年前のことのようです。その未来はすでに到来し、さらにそれを超えています。サーバーは現在、クラウドコンピューティング機能の進化のペースを加速させ、冗長性、信頼性、堅牢性を促進するクラウドの能力を強化しています。

    ネットワーキング

    また、ネットワーキングソリューション、ツール、ソフトウェア、機器の進歩も、2020年のクラウドの可用性をより強固にするものとしてリストアップされています。ここ数年、ベンダー各社は、クラウド間およびクラウド内のネットワークの速度、可能なトポロジー、容量、距離の機能を拡張するソリューションをリリースしてきました。他の多くのテクノロジーと同様、ベンダーはAIや機械学習を活用してトラフィックのフローやパターンを自動化し、また製造の進歩を利用して、可用性と信頼性を実現するためのデバイスの冗長性を構築しています。

    アプリケーション

    アプリケーションは、保護されていない状態では、依然としてクラウドアーキテクチャの脆弱な部分となっています。アプリケーションを意識した高可用性モジュールやフレームワーク、またはSIOS Application Recovery Kit(ARK)によって保護されていないアプリケーションは、ビジネスのライフサイクルにおける最も重要な時間や瞬間にダウンするリスクがあります。SIOS ARKは、クラウド上のアプリケーションに、重要なアプリケーションを意識した監視と復旧、および障害発生時のフェールオーバーと災害復旧対応のオーケストレーションを提供します。

    データベース

    数多くのデータベースは堅牢性を高め、中にはレプリケーション機能を強化したものもありますが、これらのデータベースは依然としてそれ自体がリスクです。レプリケーション機能を備えたデータベースには、オーケストレーション、自動化、そしてデータベースを必要とするアプリケーションコンポーネントに対して高可用性を確保するためのインテリジェンスが必要です。プライマリーリージョンと可用性ゾーンでデータベースが順調に稼動していても、アプリケーションが別のリージョンやDRサイトで障害を起こしていたら意味がありません。サイオステクノロジーのHANA ARKとSAP認定のSAP S/4 HANA ARKの自動化とベストプラクティスにより、SAP HANAデータベースなどのレプリケーション機能を備えたデータベースを補完します。レプリケーション機能を持たない、または機能が限定されているデータベースを、SIOS Protection Suite、SIOS DataKeeper for Linux、および関連するARKの組み合わせで保護できます。

    ストレージ

    ディスクやストレージの分野では、ソフトウェアやハードウェアRAIDの容量、冗長性が高い可用性を意味すると考えるかもしれません。しかし、ストレージは、それを必要とするアプリケーションや仮想マシンがアクセスできて初めて利用可能となるのです。マウントされたクラウド共有と、EFSやANFなどのボリュームを監視・回復するために、どのようなテクノロジーを導入していますか?計画外のダウンタイムとそれに伴う混乱は、ユーザーによる意図しないアンマウントやオフライン操作などのように、身近なところで起こり得ます。

    仮想マシン

    ハイパーバイザーテクノロジーにより、仮想マシンの操作は簡単になりました。統合されたクラウドソリューションでは、仮想マシンが利用可能かどうかを監視し、再起動や移行などのオプションを提供することが約束されています。しかし、これらのソリューションは仮想マシンの問題すべてに対応するには十分ではなく、仮想マシンの停止、遅延、可用性の低下が起きる可能性があります。クラウドベンダーが提供するものに加えて、以下のようなVMの健全性を監視できる監視・可用性ソリューションが必要です。

    • ディスクのキャパシティ
    • CPUのデッドロック
    • メモリの競合とエラー
    • リソースの枯渇

    アプリケーションのリクエストを処理できない状態で実行されているVMの問題は、クラウドのみの監視では見逃されることがありますが、高可用性ソリューションの監視で見逃されることはありません。

    データセンター

    ちょっと現実を見てみましょう。データセンターの可用性、冗長性、信頼性が向上しても、単一障害点(SPOF)としてのデータセンターを排除する必要性は否定できません。カスタマーエクスペリエンス担当バイスプレジデントとして、私は大手パブリッククラウドベンダーのように、お客様と協力してプライベートクラウドのデータセンター内にクラス最高の冗長性を導入したことがあります。このお客様では、サイオステクノロジーが提供するHAクラスタ―「LifeKeeper」データレプリケーションソフト「DataKeeper」がなければ、ハリケーンが地域を襲い、電力、バックアップ発電機、冷却、ネットワークが破壊された際に、大きなダウンタイムが発生していたと思います。しかしサイオステクノロジーのソリューションを導入したことで、このお客様は嵐が来る前に、より内陸にあるデータセンターに先制的にフェールオーバーすることができました。冷却装置の故障、建設中の事故、そして人災や自然災害があるたびに、単一のデータセンターでは高可用性は実現できないということを実感します。

    最後に

    2021年の最大の罠に陥らないためには、クラウドですべてが網羅されているとは思わずに、真の高可用性を確保するようにしてください。
    クラウド上での可用性に不安を感じた方にぴったりの資料を紹介しますので是非ご活用ください。

    SNSでもご購読できます。