LTN Blog 〜 Lenovo Technology Network 〜

レノボのソリューション・サーバー製品に関する技術情報、お役立ち情報をお届けします

Telemetryによるクラウド型ネットワークの可視化

皆さん、こんにちは

レノボ・エンタープライズ・ソリューションズ 小宮です。

 

本日はネットワークの可視化についてお話したいと思います。

例えば、普通に業務していて昨日まではストレスなくネットワークが利用できていたはずなのに、いつの間にか今日になってネットワークが遅くなったりしたりすることがあると思います。ある日突然ネットワークが遅くなるわけではなく、遅延を起こす場合は基本的にその前に予兆があるはずです。その予兆を検知して、トラブルになる前に対処できればすごく便利だと思いませんか?

今日はそのようなソリューションをお話します

 

・テレメトリ(Telemetry)とは? 

突然ですが、Telemetryという言葉をご存知でしょうか?

Telemetryをgoogleなどで検索すると「遠隔測定法」という言葉で結果が表示されます。Wikipediaの中では、以下のような説明が書かれております。

-----------------------------------------------------------------------------------------------------

観測対象から離れた地点から様々な観測を行い、そのデータを取得する技術である。観測地点に常駐することが物理的・経済的あるいは安全上困難な場合や、観測対象が移動する場合に使用される。テレメトリー (telemetry) あるいはテレメタリング (telemetering) ということもある。 装置そのものは、テレメータ (telemeter) と呼ばれる。

-----------------------------------------------------------------------------------------------------

 

つまり、ネットワーク機器から別なノードで定期的な監視を行って、取得したデータから分析を行うことです。以下のように図で示すとこのようになります。

f:id:t_komiya:20180113225556p:plain

通常の監視ソフトウェアでもできるように思えますが、監視ソフトウェアで分析まで行っているソフトウェアは多くありません。分析するにあたりストレージやDBも必要となりますし、何より分析するための機能がそもそもサポートしている必要があります。Cisco社(Tetration)、Arista社はTelemetryを対応するソリューションをすでにリリースしております。

レノボにもTelemetryを実現できるネットワーク機器をThinkSystem NEシリーズでリリースをしております。しかしながら、レノボで機器は出しているものの解析できるようなソフトウェアがあるかというと・・・これからです。

https://www3.lenovo.com/jp/ja/data-center/networking/ethernet-rackswitch/ThinkSystem-NE1072T-RackSwitch/p/WMD00000327

 

Lenovoも今後はネットワークに力を入れていくことを是非覚えて頂ければと思います。

 

・テレメトリのビジョンについて

一般的なTelemetryのビジョンをここに示します。

f:id:t_komiya:20180113231216p:plain

ネットワークのトラブルが起きた時にどの部分から対処するかという話になりますが、まずトラブルが起こってからでは遅いです。前の方にも記載しましたが、トラブルいきなり発生するわけではありません。トラブルになる予兆が必ずあるため、予兆が発生した段階から早期に対応する必要があります。

そのため、ネットワーク機器のステータスを定期的に収集し、そのデータを統計的に解析していくことにより、ネットワークスイッチのあるトランク・ポートのトラフィックが溢れることが分かってきたりします。そこから、ネットワークが遅くなる兆候が分かったりします。早期に発見し、トラフィック増の対応ができることで、お客様(ユーザ)が利用しやすいネットワークが提供できることになり、ネットワーク管理者として負担を軽減することになります。

 

また、今後のトラフィック増の対応に関しては、どうでしょうか。

仮に実際に現状問題なく利用できたとしても、この先どの時点でトラフィックが溢れるかわからず、トラブルが起こってから急遽設備の増設するようではサービスの品質を起こすだけです。そのため、事前に閾値を設定して非常時に備えておく必要があり、そのような分析もしていく必要があります。

最近では、NutanixのPrismなどで将来予測をできるようなAI機能が入っています。今後クラウドなどの対応ではこのような機能は必須になると思います。(VMwareでもLogInsightを利用して同様のことはできます)

 

Telemetryを実現することにより最終的なゴールとしては、「データセンターの投資を保護し最大化」することです。

 

・テレメトリのアーキテクチャ

次にアーキテクチャを簡単に説明します。

文字が書くと文章が長くなるので、図を以下に載せておきます。

f:id:t_komiya:20180114015157p:plain

先ほどネットワーク機器から情報を取得して、分析を行うという説明をしたかと思いますが、ネットワークスイッチからAPIを経由してネットワーク機器の情報を取得します。情報を取得する際にやり取りするのがテレメトリエージェントになります。こちらの情報をサーバ側のコレクタに収集します。この情報を分析し長期期間保存するためにストレージも必要(とは言っても一年間貯めても数百TBとかになることはあまりありません)となります。分析データを元に例えば閾値を超えた場合は何かネットワークに対してアクションする場合は、Ansibleなどと連携して自動化させることも可能です。

このようにして、SDNのコントローラのようなものが分析するサーバで必要になります。一般的にはJuniper社のOpencontrailなどもようなプラットフォームがありますが、今後データセンターのネットワーク運用には必要となってきます。

 

ハイパーコンバージドやクラウドは比較的容易にシステムが管理・運用ができるように思われがちですが、物理ホストや仮想マシンのリソースだけに注意を払っているとネットワークがボトルネックになることが気づかないことがあります。NutanixやvSANなどのHCIを導入するときに一度検討してみてはいかがでしょうか。

 

宜しくお願い致します。