LTN Blog 〜 Lenovo Technology Network 〜

レノボのソリューション・サーバー製品に関する技術情報、お役立ち情報をお届けします

気をつけよう!HCIに潜む落とし穴~知っておくとちょっと得をします~

[3/20 内容修正]

Nutanixの場合、3ノードの状態から障害が発生した後、障害ノードを修復した場合には自己修復します。しかしながら、2ノードで長時間稼動させることはクラスタの状態としてよくありませんので、2ノードの状態になった場合には、早期復旧をするように心がけてください。

 

皆さん、こんにちは レノボ・エンタープライズ・ソリューションズ 小宮です。

本日は知っておくと少しを得をするかも知れないネタをお話します。

長年HCIに携わっている方はご存知かも知れませんが、ご存知でない方はこれを機に覚えて頂ければと思います。

 

HCIが日本に根付いて5年が経ちそろそろ本格的にHCIの導入を考えているお客様もいらっしゃると思います。運用面で非常に効果的である反面、何か問題点もあるのではないかと思うかも知れません。そこで今回はその落とし穴とも思われる点をお話したいと思います。

 

1. NutanixやvSANは実は3ノードが最小ノードではない!?

この内容を見たときにちょっとコメントおかしくない?と思った方がいらっしゃるかと思います。確かにNutanixもvSANもベンダーから3ノードが最小ノード数とお話を必ずします。でも、なぜこれが話題になるのか・・・まさにここが落とし穴になります。

そこで構成例から話をいたします。

 

f:id:t_komiya:20180310222609p:plain

 こちらはvSANもしくはNutanixで構成するクラスタの図になります。3ノード/4ノードで構成したときのデータの配置を記しています。1台のホストのデータを残り2台に分散するようにするのがHCIの基本動作です。これが障害が起きた場合どうなるのかを見てみましょう。

f:id:t_komiya:20180310224405p:plain

 3ノードの場合、1台のホストが落ちてもデータを損失はありません。

同様に4ノードの場合においても、1台のホストが落ちてもデータを失うことはありません。大きく違うのは3ノードの場合について、3ノードが正常のクラスタと動作するHCIにおいて、2ノードで動作することになります。

すなわちクラスタとしては正常動作をしているわけではありません。この場合は早急にシステムの復旧を行わなければ、また別のトラブルのときに完全にシステムがおかしくなります。クラウドライクに運用できて止まらないのが売りなのに非常におかしな話です。

これが4ノードの場合はどうでしょうか?1台のホストが障害にあったとしても、レプリケーションされていないもう一台からデータをリビルドする処理が行われることになりますので、1台ホストがいなくなったとしても問題ありません。

f:id:t_komiya:20180310225036p:plain

もう少しわかりやすくした資料がこちらになります。3ノードで運用した場合はクラスタから取り外しが出来なくなるというのが一番の原因になります。

業務影響も考えると4ノードを初めから提案することがオススメです。

 

ただ3ノードの構成が提案としてまったくNGという話ではありません。

たとえば検証用機材DRサイトのノードについてはそのような提案もアリだと考えます。NutanixのSizerで3ノードにして構成を小さくして金額を下げる提案することも可能ですが、本当にその提案で問題ないのか、お客様との合意の上で提案しているのか?どうか含めて提案していく必要があります。時には4ノードにして一台あたりのスペックを小さくすることにより増設ユニットにおける投資金額を下げるメリットもありますので、是非ご一読頂ければと思います。

 

2. 2U4Nodeの高密度モデルはあまりオススメではない!?

私もお客様から言われる話がありますが、「ハイパーコンバージドは2U4Nodeが当たり前!」 ということをたまに言われます。これは一昔前にあったVMwareにEVO RAILが事の発端にあると思っています。このころのハイパーコンバージドはすでに高密度サーバ(2U4N)が主流であったこともあり、当時(2014年あたり)はNutanixも2U4Nがラインナップとして出していたことから、その頃からハイパーコンバージドを見ていた人は少し意識があるのかも知れません。

今回はそれを少し技術的な観点からご説明したいと思います。

f:id:t_komiya:20180311005918p:plain

 まずは1Uのラックサーバと高密度サーバの違いを挙げてみました。

見た目だけで判断すると、1Uサーバに比べ高密度サーバのほうがラックスペースをとらないということから優位に見えるかも知れませんが、そのほかのスペックを見てください。CPUも1つあたりの最大電力値が高密度サーバのほうが低いことがわかります。またディスクの本数もPCIのスロットも同様です。たとえば利用用途でVDIなどはLinked Clone方式を利用することによりDisk本数を少なくすることは取ることが出来ますが、それくらいがメリットであるため、ディスクを利用する仮想マシンのリソース用にはオススメしないです。またLenovoの2U4Nについては基本的には200Vのみのサポートです。

 

またデータセンターに設置する際にラック搭載するときにどうなるのかを考えて見ましょう。

f:id:t_komiya:20180311013604p:plain

一般的なデータセンターの1ラックあたりの耐加重は約500kg~800kgです。まれに1tのところもありますが、今回は上記のデータに当てはめて検討してみました。

実際、1Uサーバであればラックを埋めることが出来ます。(実際にこのような搭載はあまりしませんが)

2U4Nに関してはどうでしょうか。埋まりきらず少し隙間が出来てしまいます。

また、200V指定ということから、DCではない環境においてはあまり設置するメリットが少ない可能性があります。

 

次にデータ配置の観点からコメントします。

1において、データの配置でRF2(Nutanix)やFTT=1(vSAN)の場合に1Uのときと高密度において大きく異なります。

f:id:t_komiya:20180311020448p:plain

1Uサーバにおいてはデータのレプリカが筐体障害において損失がない構成で組むことが出来るのに対して、高密度サーバはエンクロージャ障害があった場合はデータは全滅になります。そのため、筐体外にレプリカを取るようにしなければなりません。f:id:t_komiya:20180311020805p:plain

このように筐体外のノードにレプリカを取ることでエンクロージャ障害にも対応可能になります。これを「Block Awareness」と言います。高密度サーバの耐障害性については、少ないノードで対応するのではなく、最低3エンクロージャで対応することをオススメいたします。もちろん、スモールスタートでBlock Awarenessなしで対応して後からBlock Awarenessを利用することも可能ですが、導入規模感で1Uサーバにするか2U4Nの構成にするかは検討されたほうが良いと考えます。

 

1Uサーバも高密度サーバ(2U4N)もそれぞれメリット・デメリットがあります。

規模感や目的に合わせてハイパーコンバージドの選択を是非ご検討ください。

 

宜しくお願い致します。