LTN Blog 〜 Lenovo Technology Network 〜

レノボのソリューション・サーバー製品に関する技術情報、お役立ち情報をお届けします

Nutanixのデータ保護について覚えてみよう~Metro Availability と Near Syncの違いについて~

皆さん、こんにちは レノボ・エンタープライズ・ソリューションズ 小宮です。

今回はNutanixのデータ保護について取り上げたいと思います。

 

Nutanixのデータ保護については、Metro Availability (完全同期型)Near Sync(ほぼ同期)の2種類があります。今回はその違いについてお話するわけですが、まず一般的にビジネス継続性の観点でSLAを起点考えるわけですが、一般的にどのように定義するのか見ることにしましょう。

f:id:t_komiya:20180526224138p:plain

インシデントレベルでRPO(Recovery Point ObjectiveRTO(Recovery Time Objective)決めていくわけですが、マイナーレベルであれば通常のバックアップのソリューションで対応できますが、重大インシデントでも停止がありえないシステムではDisaster Recoveyテクノロジー(同期レプリケーション)が必要となります。

ではNutanixにおいてはDRをどのように対応するのかを見てみましょう。

f:id:t_komiya:20180526224726p:plain

DR施策としてマイナーインシデントであればローカルスナップショットやCloud Connectなどを利用すると良いでしょう。ただし重大インシデントについては、非同期レプリケーションもしくはNearSync(この二つは定義する時間が違います。後ほどご説明いたします)になります。RPO/RTOゼロを求められる場合は、完全にMetro Availabilityしかありません。

バックアップについては、ローカルスナップショットもしくは3rdパーティのバックアップソフトウェアを使うしかありません。

こちらはあくまでデータのリカバリの観点のお話でしたので、実際にインフラ上で動いているアプリケーションやハイパーバイザー・ストレージの観点で見るとどうなるでしょうか?

f:id:t_komiya:20180526225925p:plain

こちらにまとめているのが、それぞれの視点で見たデータ退避のテクノロジーになります。アプリケーション(特にデータベース系)についてはすでにベンダー側での実装がされています。ハイパーバイザーについてもマイクロソフト・VMwareとも同期レプリケーションのテクノロジーが対応できていますし、Nutanixにおいてもストレージにおいては対応できております。

ここで、あれ?と思う人がいると思いますが、AHVの記載がありません。。。

実はAHVではまだ同期レプリケーションが対応できていません。ただし、その代わりとしてNear Syncという技術で現状は対応しています。

 

それではここからはMetro AvailabilityとNear Syncについての説明を行いたいと思います。

・Metro Availabilityとは?

f:id:t_komiya:20180526232233p:plain

Metro Availabilityとは両サイト間で低遅延のネットワークで構成した上でお互いのコンテナでデータ同期処理を行うことができ、障害時にも自動に切り替えられる機能のことです。構成も非常にシンプルで同期するにあたりオーバーヘッドもないため、ストレージ部分のサイジングも苦労はありません。しかしながら、データの同期処理を行う必要があることから、5ms以内の遅延を要求されます。(5ms以上の遅延でもNGになるわけではないが、保証はしない)

そのMetroAvailabilityについてどのような背景で必要になったのかを説明したいと思います。

f:id:t_komiya:20180526232658p:plain

Metro Availabilityが必要になった背景は災害対策とワークロードのモビリティです。災害対策は当然のことでお分かりだと思いますが、NutanixはもともとApp Mobilityという概念の元で別サイトでのワークロード起動も考えています。

あとはミッションクリティカルのアプリケーションを動かすお客様にとっては運用停止時間は極力短くする必要がありますので、その実現も含めて考えなければいけません。

また、こちらのMetro Availabilityについては、ESXiの環境が必須になります。

f:id:t_komiya:20180526233151p:plain

こちらにガイドラインを載せておきますが、こちらの内容についてはNutanixのPortalサイトにあるMetro Availabilityのガイドラインの一部を日本語訳してあります。

f:id:t_komiya:20180526233354p:plain

Metro Availabilityのセットアップについては上記のようにProtection Domainでコンテナ名を揃えておく必要があります。

f:id:t_komiya:20180526234000p:plain

f:id:t_komiya:20180526233603p:plain

f:id:t_komiya:20180526233643p:plain

こちらの3つの図については、仮想マシンからWrite/Read要求をCVMがどのように応答しているのかを記載しております。Writeデータはデータローカリティとデータの冗長化でコンテナ内で同期を取りつつ、他サイトのコンテナでも同期処理を行います。

次にメンテナンスに関しての説明を行いたいと思います。

f:id:t_komiya:20180526234124p:plain

アニメーションを利用したほうがわかりやすかったのですが、そこまで漫画を作る時間がなかったため、文字で説明したいと思います。まず行う必要があるのがアフィニティルールのアップデートです。その後仮想マシンを他のサイトへvMotionを行いスタンバイサイトをプライマリに昇格して、プライマリサイトをスタンバイサイトに降格させます。この流れでメンテナンスを行うことができます。

f:id:t_komiya:20180526234726p:plain

計画外の障害のときの挙動について説明します。

サイト1が停電してしまった場合にどう機能するかを記載していますが、サイト2側がサイト1の停電を検出するとWitnessサーバがロックされてしまいます。ロックされた場合はスタンバイサイトのProtection Domainがプライマリに昇格することになります。ハイパーバイザーのHA機能で、サイト2側で仮想マシンが再起動しますが、この際管理者の操作は一切ありません。

ここまでがMetro Availabilityのお話になりますが、仮にMetro Availabilityが使えない場合はどうなるのか?というお話もあると思いますので、以下に想定できる理由も含めて記載しておきます。

f:id:t_komiya:20180526235315p:plain

もしこちらの内容に該当してしまうようであれば、Near Syncも含めてご検討ください。

 

・Near Syncレプリケーションについて

f:id:t_komiya:20180526235658p:plain

Near Syncレプリケーションとは非同期レプリケーションですが、間隔が短く連続的に行うレプリケーションになります。アーキテクチャは既存のNutanixのスナップショットの技術を利用していますが、スナップショット領域にあたるOplog領域を短い間隔で利用します。

f:id:t_komiya:20180526235915p:plain

Near Syncの登場により同期できない環境でもほぼゼロに近いRPO/RTOを実現したいときに利用できます。データの損失は多少あるものの、それを最小限に抑えるのがこのソリューションの特徴になります。

f:id:t_komiya:20180609105244p:plain

f:id:t_komiya:20180527000204p:plain

f:id:t_komiya:20180527000822p:plain

Near Syncの設定条件をこちらに記載しておりますが、注意事項として一番重要なことはSSDの容量を多めに取らなければいけないことです。最小1分単位でスナップショットを所得できることになるので、Oplog領域を多量に消費します。そのため1.2TBは最小要件ですが、推奨は2x1.9TBになります。容量には十分に注意して下さい。

それ以外の項目ではHyper-Vはサポート外となります。また、サイト間で異なる機種クラスタでも対応可能です。(Near Syncでなくても同様です)その他は上記をご確認ください。

f:id:t_komiya:20180527000935p:plain

f:id:t_komiya:20180527001010p:plain

こちらはスナップショットの動きについて紹介をしております。vDiskがスナップショットを取るタイミングのDiskイメージになります。スナップショットを取るタイミングについては次のスライドで説明します。

f:id:t_komiya:20180527001224p:plain

こちらがスナップショットのスケジューリングです。たとえば1分間隔で15世代分で15分対応可能ですが、16分以降の設定はできません。ほかの時間間隔でも設定不可の領域はあります。

f:id:t_komiya:20180527001436p:plain

こちらはデータ保護したもののどうやって自動化するのか?というところで、ワークフローを行うとこうなりますという図になります。先ほどのMetro Availabilityは自動化はシンプルにできますが、どのポイントに戻すのか?などの時間の指定なども明確化しなければなりませんのでワークフローで一度定義して、それを自動化するというフローです。Metro Availabilityのような自動化とは若干異なります。

f:id:t_komiya:20180527001740p:plain

最後にMetro AvailabilityとNear Syncの違いを記載しておきました。

最後の項目以外は今までに説明してきた内容になりますので省略します。両機能ともUltimate Editionが必要となりますので、ご注意ください。

 

DR環境を構築する際の参考情報として確認していただけると幸いです。

宜しくお願い致します。