クラスタリング対象のコンピューターを「ノード」、死活監視のための応答の仕組みを「ハートビート」と呼ぶほか、「フェイルオーバー」「フェイルバック」など、クラスタリングでは、独特な用語が数多く使われています。このようなクラスタリング関連の基本用語を取り上げて、その概要を紹介します。
>>仮想環境(VMware)の導入前に検討すべきことを知っていますか?標準機能による障害復旧を正しく理解して適切な対策を取りましょう
●クラスタリング
クラスタリングの語源でもある英語の「クラスター(Cluster)」の意味を辞書で引くと、ブドウやサクランボ、フジの花などの「房」とか、同種類のもの・人の「群れ・集団」などと解説されています。複数のコンピューターが連結された状態が、ブドウの房をイメージさせることからクラスタリングと呼ばれています。
●ノード
クラスタリングを構成するコンピューターやサーバーをノードと呼びます。ノードを辞書で引くと、「結び(目)」「交点」「結節点」などと解説されています。
●HA(High Availability:ハイアベイラビリティ)
一般的には、「高可用性」と訳されます。クラスタリング環境では、99%~99.99%までの稼働率をHA、99.999%以上の稼働率を「フォールトトレランス」と呼んでいます。
●ファイブナイン
稼働率「99.999%」の別名です。ファイブナインを時間に換算すると、1年間で約5分のダウンタイムになります。
●HPC(High Performance Computing:ハイパフォーマンスコンピューティング)
スーパーコンピューターで処理する科学技術計算や大規模シミュレーション、CAE解析、並列処理などの分野です。
●負荷分散
クラスタリング環境を構成するノードに処理を均等に振り分けることを負荷分散と呼びます。振り分け方として、「ラウンドロビン方式」と「ダイナミック(動的)負荷分散方式」の大きく2つの方法があります。ラウンドロビン方式は処理を順番にノードに振り分ける方法で、ダイナミック負荷分散は、ロードバランサーが最も負荷の少ないノードを自動的に判断して処理を振り分ける方式です。また、障害の発生したノードを切り離すことで、ノードの障害がシステム全体に影響することを防ぐことができます。
●ロードバランサー
負荷分散を実現するためのネットワーク機器です。
●スケールアップ/スケールアウト
1台のコンピューターの中でCPUの数を増やすのがスケールアップで、コンピューターを複数台つなぐのがスケールアウトです。スケールアップでは、将来的に予測される処理のピークを見極めた投資が必要です。一方、スケールアウトは、その都度、状況に応じた投資が可能です。
●単一障害点(SPOF:Single Point of Failure)
故障や障害により停止してしまうと、システム全体に影響を及ぼしてしまうポイントのことです。ネットワーク機器、ロードバランサー、サーバー、電源、データベースなどがSPOFになるポイントです。サーバーの内部においても、電源やネットワークアダプターなどがSPOFになることもあります。
●ハートビート
その名のとおり「鼓動」意味します。クラスタリング環境において、各ノードが正常に稼働していることをほかのノードに知らせるために定期的に信号を送信する仕組みです。
●フェイルオーバー/フェイルバック
稼働系ノードが停止した場合に、待機系ノードが処理を引き継ぐことで、処理を継続する仕組みがフェイルオーバーです。稼働系ノードが復旧し、待機系ノードで継続していた処理を戻す仕組みがフェイルバックです。
●OSジッタ
ノード数が数千を超えるHPCクラスタリング環境において、プロセッサー間における同期処理のタイミングが少しずつずれてしまう問題がOSジッタです。
●ツリー型トポロジー
スイッチに複数のノードがぶら下がって構成されるのがツリー型トポロジーです。ツリー型トポロジーででは、ノードの上から下までの通信に何段階かが必要になるため、なるべく少ない階層になるように設計することが必要です。また、1つのスイッチが故障した場合に、ネットワークが2つに分断されてしまう課題もあります。
●オール・ツー・オール型トポロジー
ノード(N)をつなぐインターコネクトの数(L)が「L=N×(N-1)÷2」となるため、ノード数が増えるたびにネットワーク構成が複雑になるという課題があります。たとえば、3ノードのクラスタリング環境では、計算式は「7×(7-1)÷2」となり、21のインターコネクトを管理しなければなりません。
●ハイパーキューブ
ノードを立方体に連結するトポロジーです。ノードが3本のインターコネクトで連結されていれば3次元、4本なら4次元のハイパーキューブです。ハイパーキューブでは、ノード間が常に最短の経路で接続できるので、高いレイテンシーを実現できます。また、ツリー型トポロジーのようにネットワークが1箇所切れても、ネットワークが分断されることがないので耐障害性の側面でもメリットがあります。さらに、オール・ツー・オール型トポロジーのように、スイッチを贅沢に使用することもなく、少ない投資で高いパフォーマンスを実現できます。
4回にわたり、クラスターの基本について紹介してきました。少しでも、皆さまの参考になれば幸いです。