LTN Blog 〜 Lenovo Technology Network 〜

レノボのソリューション・サーバー製品に関する技術情報、お役立ち情報をお届けします

サイロ化されている仮想インフラの障害切り分けをシンプル化~Uilaによる仮想化データセンターのアプリケーションとインフラストラクチャの一元管理の実現~

皆さん、こんにちは レノボ・エンタープライズ・ソリューションズ 小宮です。

今回は先週ご紹介したDPI(Deep Packet Inspection)に対応したソリューションのUilaをご紹介いたします。

※本記事については、Uila日本総代理店の東陽テクニカ社の許可を頂いて掲載しておりますので、スライドおよび画像の無断利用は固くお断りいたします。

 

Uilaという製品ですが、どのようなことをしてくれるのかというと 仮想化データセンターのアプリケーションとインフラストラクチャの一元管理を行います。

実際の画面については以下のようなダッシュボードで操作します。

f:id:t_komiya:20180520020949p:plain

画面イメージが見ずらかったため注釈をつけておきましたが、ダッシュボードでアプリケーション、ネットワーク、CPU/ストレージ/メモリの使用量がひと目で分かるようになっています。赤くなっているところが危険な状態を示していることで、クリックしていくことでドリルダウンしてRootCause(根本原因)が把握できるということになります。

まず、こちらのUilaについての説明を行いたいたいと思います。

1.仮想インフラにおける課題について

f:id:t_komiya:20180520021512p:plain

仮想インフラは物理環境と目に見えない環境です。構成も複雑になりがちで管理も難しいです。また、トラブルシューティングにおいても仮想サーバ、ネットワーク、ストレージで異なるHWで担当して管理すると、仮想マシンのパフォーマンスが遅いとユーザからクレームが来た場合に、瞬時にどこが悪いのかも分からずに結局担当者同士のたらいまわしという状況に陥ることが多くなります。そのような運用の問題点を解決するにはサイロ化された環境をしっかり監視できるようなツールが必要となります。

2.どのように監視したらよいのか?

f:id:t_komiya:20180520022046p:plain

仮想インフラを監視するには上記のようなレイヤで監視する必要があります。アプリケーションのレイヤでAPM(Application Performance Management)ツール、仮想レイヤでIPM(Infrastructure Performance Management)ツール、物理レイヤでNPM(Network Performance Management)ツールです。仮想レイヤの場合、通常vCenterなどの管理ツールで監視できますし、アプリケーションについてはWindowsやLinuxのCredential(ユーザ)情報で対応できますし、ネットワークについてはSNMPで対応できるかと思います。

では、これらで足りないのはなぜか?それはこの次にお話します。

3.Uilaを使う理由について

f:id:t_komiya:20180520022819p:plain

上記のようなことをUilaは行ってくれますが、たとえばHTTPの80番ポートで通信するアプリが何か影響を与えているということになった場合、80番ポートを通信するのは普通のWebブラウザもあれば、アプリケーションで80番を使うことがあります。先日のDPIの説明でもありましたが、IPアドレスとポート番号だけでは、どのようなものが通信しているのが分からないことから、データの部分のパケットについても分析して何のアプリケーションが通信しているのかを特定しまうことで、根本原因を突き止めます。

4.Uilaの特徴について

f:id:t_komiya:20180520023327p:plain

Uilaのアーキテクチャについてお話します。Uilaは3つのコンポーネントから構成されます。

1.ネットワークをキャプチャーするコントローラ(vST)

2.仮想化関連の情報収集用コントローラ(vIC)

3.データベース&解析システム(UMAS)

今回キーになる機能はネットワークをキャプチャーするvSTになります。こちらですがコントローラを仮想マシンのアプライアンスとして提供しています。その後vICでキャプチャーデータとvCenterの情報を収集用のコントローラに集約して、最終的にはUMASにてデータの分析を行います。このUMASについてはオンプレで構築することもできますが、クラウド上で利用することもできますので、収集用の設備を構築する必要もありません。(データ分析はUilaで行います)

5.Uilaのスペックについて

f:id:t_komiya:20180520024443p:plain

要求されるスペックは上記のようになっておりますが、vSTについてはホスト毎に構築することになりますので、ご注意ください。

 

それでは、画面で説明したいと思います。

6.アプリケーションパフォーマンスについて

f:id:t_komiya:20180520024927p:plain

こちらアプリケーションパフォーマンスのダッシュボードを拡大した画面になります。

円で表示されているのはデータセンター・クラスタ・ホスト・仮想マシンの順番で内側から表示されています。

たとえば左上のOracle関連の仮想マシンで赤くなっているところにカーソルを持っていきます。

f:id:t_komiya:20180520025334p:plain

ここでmysqlのサービスのレスポンスタイムが悪く表示されているので、このmysqlについてクリックしてドリルダウンしてみましょう。

f:id:t_komiya:20180520025610p:plain

f:id:t_komiya:20180520025720p:plain

クリックすると2つの分割されていますが、これらが一つの画面で表示されます。下側の項目ですが、レスポンスタイムが悪いプロセスがひと目で分かるようになっています。ここからプロセスを調査することも一つの手ですが、上側の赤くなっているところでCPUの状態が悪いことが見て分かります。これをさらにドリルダウンするためにさらに赤くなっているところをクリックします。

f:id:t_komiya:20180520030258p:plain

ドリルダウンしたら根本原因にあたる内容が記載されています。ここではmysqlのアプリケーションのCPUリソースが使われすぎていることが原因で仮想マシンが遅くなっていることが分かります。これの原因ついてはアプリ設定にも問題があるかも知れませんが、もしするとVMware側でKnowledgeBaseがすでに存在する場合があるかも知れません。その場合があるかどうかを調べるには、プロセスのところに「ヘルプフルリンク」ということ項目がありますので、そちらをクリックしてみます。

f:id:t_komiya:20180520030751p:plain

ヘルプフルリンクにVMwareのKBの表示がありました。こちらをクリックするとKBのページにブラウジングしますので、KBを適用することも対策になります。このようにドリルダウンしていくことで根本原因にたどりつくことができます。

 

7.ネットワーク解析について

f:id:t_komiya:20180520032601p:plain

次にネットワークの解析の画面説明を行います。左側のタブの「ネットワーク解析」をクリックします。

f:id:t_komiya:20180520033002p:plain

こちらがネットワーク解析の画面になります。左からホスト・分散仮想スイッチ・ポートグループ・仮想マシン・アプリケーションの順番で表示されています。ここでESXホストのネットワークが悪い状態で表示されています。これをよく調べていくと仮想マシンにも影響があることが分かります。こちらも先ほど同様でマウスで合わせると以下のように表示されます。

f:id:t_komiya:20180520033422p:plain

対象のポートグループをクリックしましたが、それに関連するパートがすべてクローズアップされます。このようにネットワークの関連からネットワークのレスポンスタイムをキーに問題箇所を特定できます。

8.メモリ解析について【CPUやDiskも同様の表示なります】

f:id:t_komiya:20180520033924p:plain

f:id:t_komiya:20180520034609p:plain

左側のタブでメモリ解析をクリックします。メモリ解析を見るビューがいくつかありますが、サークルパッキング(円でメモリ利用量を表示)・ツリー・テーブル・アラームの表示を合わせてみて見ましょう。サークルパッキングはデータセンター・クラスタ・ホスト・仮想マシンの順番で表示しており、今回も選択した仮想マシンでmysqlのメモリ容量が逼迫しているところが表示されております。

今回はそれ以外のツリー・テーブル・アラームがどのような表示されるのか見てみましょう。

f:id:t_komiya:20180520034136p:plain

f:id:t_komiya:20180520034233p:plain

f:id:t_komiya:20180520034335p:plain

f:id:t_komiya:20180520035248p:plain

ツリーはホストレベルまでしか表示されていませんが、ホストから詳細のところにまでたどっていくことは可能です。テーブルは円グラフでの表示になります。アラームについてはCriticalやWarningなどのアラームをベースにテーブル表示します。

 

このようにいろいろな視点で障害の可視化を行うことができます。

最後にレポート機能を紹介します。

9.レポートについて

 左側のタブからレポートを選択します。

f:id:t_komiya:20180520035350p:plain

レポートについては手動のレポートと定期的に出力が可能な方式から選択が可能です。ここでは手動レポートを選択します。

f:id:t_komiya:20180520035539p:plain

新規レポート作成をクリックすると、タイプを選択する画面が表示されます。

ここでは仮想マシンのリソースの使用率を選択します。

f:id:t_komiya:20180520035817p:plain

ここで日時を指定します。今回はリアルタイムで収集しているのでこのまま進めます。

f:id:t_komiya:20180520035954p:plain

こちらではデータセンターを指定します。対象のデータセンターを未選択の項目から選択済みに移動させます。

f:id:t_komiya:20180520040138p:plain

レポート名を指定します。その後PDFでレポートが出力されます。

f:id:t_komiya:20180520040302p:plain

ファイル名をクリックするとPDFファイルの中身が表示されます。

f:id:t_komiya:20180520040512p:plain

このようにレポートも自動的に作成してくれますので、非常に便利なツールです。

仮想環境の障害対応にお困りなお客様は是非こちらの製品をご検討頂ければと思います。

 

宜しくお願い致します。