JP7720005B2

JP7720005B2 - 異常箇所推定装置、異常箇所推定方法、及びプログラム

Info

Publication number: JP7720005B2
Application number: JP2024505678A
Authority: JP
Inventors: 洋一松尾; 敬志郎渡辺
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2025-08-07
Anticipated expiration: 2042-03-07
Also published as: JPWO2023170760A1; WO2023170760A1

Description

本発明は、通信ネットワークから収集したログから、通信ネットワークの異常箇所を推定する技術に関連するものである。

通信事業者にとって、通信ネットワーク内に発生する異常に対して、異常の状態の把握や迅速な対応は重要である。こうした中で、通信ネットワーク内の異常を早期に検知するための研究や、異常箇所の推定を行う研究が行われている。

異常箇所を推定する手法として、ベイジアンネットワークを用いて、異常箇所とそれによって引き起こされる通信ネットワーク内のデータ（観測データと呼ぶ）の変化の関係性をモデル化（因果モデルと呼ぶ）し、異常時の観測データから異常箇所を推定する手法が提案されている（非特許文献１）。

通信ネットワークはiBGP（https://datatracker.ietf.org/doc/html/rfc4271）やOSPF（https://datatracker.ietf.org/doc/html/rfc5340）などの自律システム(AS)内のルーティングを行うInterior Gateway Protocol（IGP）の通信プロトコルによって運用されており、ルータ間で通信ができなくなると、対向ルータと通信できなくなったことを表すｓｙｓｌｏｇが生成されるため、エキスパートオペレーターは異常時にはルータから発生するリンクダウンに関するｓｙｓｌｏｇを用いて、ルータの正常・異常を判定することができる。

従来技術では、エキスパートオペレーターの知識から、ルータの異常は、異常状態になったルータの観測データと隣接しているルータの観測データのみに影響があるという仮定をもとに、通信ネットワーク内の機器に対して、各機器の状態を表す機器ノードと、その機器からリンクダウンに関するｓｙｓｌｏｇが発生したかどうかを表す観測ノードからなる因果モデルを構築し、異常箇所の判定を行っている。

Srikanth Kandula, Dina Katabi, and Jean-philippe Vasseur. Shrink: A tool for failure diagnosis in IP networks. Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 173-178, 2005.

従来技術では、ルータの異常は、異常状態になったルータの観測データと隣接しているルータの観測データのみに影響があるという仮定をもとに因果モデルを作成していたが、通信ネットワークの異常においては、異常状態となったルータがリンクダウンを表すｓｙｓｌｏｇを生成できるとは限らない。

例えば、ＣＰＵチップの故障などでは、故障が発生したそのルータではプログラムを処理できなくなるため、ｓｙｓｌｏｇを生成できなくなる。そのため、従来技術では、因果モデルへの入力（観測データ）が、仮定に反する（隣接ルータからはリンクダウンに関するｓｙｓｌｏｇが発生するが、異常ルータからはｓｙｓｌｏｇが発生しない）ものとなる場合があり、結果として異常箇所の推定精度が下がるという課題がある。

本発明は上記の点に鑑みてなされたものであり、通信ネットワークから収集したログを利用して、通信ネットワークの異常箇所推定を行う技術において、異常箇所の推定精度を向上させることを目的とする。

開示の技術によれば、複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
第１の機器と通信できなくなったことを示す、第２の機器から発生したログを収集する観測データ収集部と、
各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第１の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する因果モデル推論部と
を備える異常箇所推定装置が提供される。

開示の技術によれば、通信ネットワークから収集したログを利用して、通信ネットワークの異常箇所推定を行う技術において、異常箇所の推定精度を向上させることが可能となる。

異常箇所推定装置の構成図である。装置のハードウェア構成例を示す図である。通信ネットワークの構成例を示す図である。因果モデルを示す図である。因果モデルへの入力を示す図である。因果モデルへの入力を示す図である。

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

（装置構成例）
図１に、本実施の形態における異常箇所推定装置１００の構成例を示す。図１に示すように、異常箇所推定装置１００は、因果モデル構築エンジン１１０、因果モデル推論エンジン１２０、観測データ収集エンジン１３０、観測データＤＢ１４０、及び出力インターフェース１５０を有する。

なお、因果モデル構築エンジン１１０、因果モデル推論エンジン１２０、観測データ収集エンジン１３０をそれぞれ、因果モデル構築部１１０、因果モデル推論部１２０、観測データ収集部１３０と呼んでもよい。また、因果モデル構築エンジン１１０、因果モデル推論エンジン１２０、観測データ収集エンジン１３０をそれぞれ、因果モデル構築回路１１０、因果モデル推論回路１２０、観測データ収集回路１３０と呼んでもよい。異常箇所推定装置１００の動作概要は下記のとおりである。

観測データ収集エンジン１３０は、通信ネットワークムから観測データ（機器から発生するログ等）を収集し、リンクダウンに関するログの発生状況を観測データＤＢ１４０へ格納する。以降、本実施の形態では、ログとしてｓｙｓｌｏｇを例に挙げて説明する。

因果モデル構築エンジン１１０は、エキスパートの知識等を入力とし、観測データ収集エンジン１３０から取得された通信ネットワークの情報に基づいて、因果モデルを構築する。因果モデル推論エンジン１２０は観測データＤＢ１４０へ格納されたリンクダウンに関するｓｙｓｌｏｇの発生状況をもとに、観測ノードの値を決定し、異常箇所の推定を実施し、出力インターフェース１５０に推定結果である異常箇所を出力する。

出力インターフェース１５０は、利用者に対して通信ネットワークの中の異常発生箇所とその際の最大事後確率等を表示する。また、出力インターフェース１５０は、運用システムに新たにマシンが追加された際などは、因果グラフへのノードの追加を行なったり、また、それに伴う因果関係の変化を利用者に修正させることもできる。

（ハードウェア構成例）
異常箇所推定装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

すなわち、異常箇所推定装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、異常箇所推定装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

図２は、上記コンピュータのハードウェア構成例を示す図である。図２のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インターフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、異常箇所推定装置１００に係る機能を実現する。インターフェース装置１００５は、ネットワークに接続するためのインターフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

（動作例）
以下では、異常箇所推定装置１００の動作を、より具体的な例を用いて説明する。なお、本実施の形態では、ルータにより構成される通信ネットワークを示しているが、これは一例である。本発明は、通信ネットワークを構成するノードの種類に依らずに適用可能である。

＜因果モデルについて＞
図３に、観測データ収集エンジン１３０が観測データを収集する対象となる通信ネットワークの例を示す。図３に示すように、この通信ネットワークは、ルータ１～６が図示するとおりに接続されたネットワークである。例えば、ルータ１とルータ２は直接に接続されたおり、これらは互いに隣接関係にある。ルータ１とルータ４は直接には接続されておらず、これらは隣接関係にない。

因果モデル構築エンジン１１０は、エキスパートオペレーターの知識等に基づいて、図３に示す通信ネットワークに対して、図４に示す因果モデルを構築する。因果モデルは、通信ネットワーク内の機器（ルータ）に対して、各機器の状態を表す機器ノードと、その機器からリンクダウンに関するｓｙｓｌｏｇが発生したかどうかを表す観測ノードからなる。つまり、観測ノードは、各機器の観測結果を表す。なお、因果モデルをベイジアンネットワークと呼んでもよい。

図３の通信ネットワークに対する因果モデルは、図４に示すとおりとなる。例えば、図４の因果モデルにおいて、機器ノードのルータ１は、観測ノードのルータ１、２と接続されている。これは、ルータ１に異常が発生した場合に、ルータ１の観測データとルータ２の観測データに影響する可能性があるということを示している。

また、例えば、図４の因果モデルにおいて、機器ノードのルータ２は、観測ノードのルータ１、２、３、６と接続されている。これは、ルータ２に異常が発生した場合に、ルータ１、２、３、６のそれぞれの観測データに影響する可能性があるということを示している。

＜因果モデルへの入力について＞
本実施の形態では、ＩＧＰプロトコルより生成されるｓｙｓｌｏｇの中身を考慮して、因果モデルの観測ノードへの入力を定義することで、異常箇所の推定精度を向上させる。詳細は以下のとおりである。

なお、本実施の形態では、ＩＧＰプロトコルのｉＢＧＰとＯＳＰＦを例にとって説明するが、他のプロトコルに対しても同様に実施可能である。また、本実施の形態では、ｉＢＧＰとＯＳＰＦが生成するｓｙｓｌｏｇを例にとって説明するが、通信ネットワークの監視においては、生成されたｓｙｓｌｏｇを基にメッセージ等を正規化し新たなログとして生成しオペレーターへ通知する場合や、ｐｉｎｇ等のツールを用いて死活監視を実施し、その結果をアラームとしてオペレーターへ通知する場合もある。その場合のアラームにおいてもメッセージ内に対向ルータ（あるルータに隣接する他のルータ）の情報がある限り、本発明に係る技術を実施可能である。

まず、ｉＢＧＰとＯＳＰＦのｓｙｓｌｏｇについて説明する。ｉＢＧＰやＯＳＰＦでは通信ネットワークの異常により、あるルータから隣接ルータに疎通できない場合、ｓｙｓｌｏｇが生成される。ｓｙｓｌｏｇメッセージの一例を以下に示す。

2021-12-21 13:00:00 Router1 192.168.10.1 OSPF neighbor down (Router2 192.168.10.2）
ｓｙｓｌｏｇはｉＢＧＰ／ＯＳＰＦのバージョンや、ｉＢＧＰ／ＯＳＰＦのｓｙｓｌｏｇを加工して生成されるアラームなどにより違いはあるものの、上記のように、タイムスタンプ、ホスト名、ホスト情報（ＩＰアドレスなど）、疎通できなくなった対向ルータの情報（対向ルータのホスト名やＩＰアドレスなど）、などが記載されている。

本実施の形態では、対向ルータの情報をもとに観測ノードの値を定義することで、課題を解決する。

ここで、異常箇所推定の対象となるシステム（通信ネットワーク）の因果モデルにおける機器ノードをｘ_ｉ、観測ノードをｙ_ｉ、ｉ∈（１，…Ｎ）とする。Ｎは機器数である。

各ｘ_ｉは０（正常状態）か１（異常状態）の値を取るとする。なお、０か１の２値ではなく、３値以上の多値を取ることも可能であり、その場合は最小値が正常状態、最大値が異常状態、その間の値ｃは、「ｃ／（最大値－最小値）」の割合で異常となっていることを意味する値、などのように定義する。

各ｙ_ｉは０か１の値を取るとし、ｉ番目のルータと疎通できなくなったことを表すＢＧＰ／ＯＳＰＦのｓｙｓｌｏｇがｉ番目以外のルータで発生していた場合、ｙ_ｉを１とし、そうでない場合を０とすることとする。なお、０か１の２値ではなく、３値以上の多値を取ることも可能であり、その場合はｉ番目のルータのリンクダウンに関するｓｙｓｌｏｇの他ノードでの発生件数を値とするなどのように定義する。

上記の因果モデルへの入力値については、因果モデル推論エンジン１２０が、観測データＤＢ１４０から読み出したｓｙｓｌｏｇから決定（計算）する。あるいは、観測データ収集エンジン１３０が、収集したｓｙｓｌｏｇから入力値を決定し、それを観測データＤＢ１４０に格納してもよい。この場合、因果モデル推論エンジン１２０は、観測データＤＢ１４０から読み出した値をｙ_ｉの値としてそのまま使用できる。

因果モデルへの入力に関して、従来技術（非特許文献１）と本発明に係る技術との違いを図５、図６を用いて説明する。ここでは、ルータ１、３，６において、対向ルータ（ルータ２）と疎通できないことを示すｓｙｓｌｏｇが発生した場合の観測ノードへの入力を説明する。図５、図６の観測ノードにおいて、網掛けのされたノードが値１（異常状態）を示し、網掛けなしのノードが値０（正常状態）を示す。

図５は、従来技術での因果モデルへの入力を示している。図５に示すとおり、ｓｙｓｌｏｇを観測したルータ１、３、６の観測ノードとしての入力値が１となり、異常が発生した可能性が高いと考えられるルータ２の観測ノードとしての入力値が０となる。

図６は、本発明に係る技術での因果モデルへの入力を示している。図６に示すとおり、ｓｙｓｌｏｇを観測したルータ１、３、６の観測ノードとしての入力値が０となり、異常が発生した可能性が高いと考えられるルータ２の観測ノードとしての入力値が１となる。このように、実際に発生した可能性が高い事象に合った入力値を得ることができるので、推定精度を高めることができる。

＜因果モデルを用いた推論＞
因果モデルを用いた推論自体は従来技術（例えば非特許文献１）と同じであり、事前確率Ｐ（ｘ_ｉ）と条件付き確率Ｐ（ｙ_ｊ｜ｘ_ｉ）を規定し、推論を行う。以下、因果モデルを用いた推論処理の概要を説明する。

図４に示した因果モデル（どのノード間をエッジで接続するかを示す情報）は、通信ネットワークから得られる情報に基づいて、因果モデル構築エンジン１１０が作成し、因果モデル推論エンジン１２０へ渡す。なお、因果モデル（どのノード間をエッジで接続するかを示す情報）を予め作成しておき、因果モデル推論エンジン１２０が備える記憶部（メモリ等）に格納しておくこととしてもよい。

事前確率Ｐ（ｘ_ｉ）は予め定めておき、例えば、因果モデル推論エンジン１２０が備える記憶部（メモリ等）に格納しておく。

ここで、Ｘ＝（ｘ_ｉ，ｘ_２，…，ｘ_Ｎ），ｘ_ｉ∈｛０，１｝、Ｙ＝（ｙ_ｉ，ｙ_２，…，ｙ_Ｎ），ｙ_ｉ∈｛０，１｝とする。Ｘは機器ノード、すなわち推定対象であり、Ｙは観測ノード、すなわちログに基づき得られた観測結果の値である。

因果モデル推定エンジン１２０は、観測結果（因果モデルへの入力値Ｙ）を用いて、下記の式で示されるＸ'を求める。下記の式のａｒｇｍａｘはＸについてのａｒｇｍａｘであり、Ｘ'は事後確率Ｐ（Ｘ｜Ｙ）を最大にするＸである。

Ｘ'＝ａｒｇｍａｘＰ（Ｘ｜Ｙ）＝ａｒｇｍａｘ（Ｐ（Ｙ｜Ｘ）Ｐ（Ｘ））
条件付き確率Ｐ（ｙ_ｊ｜Ｘ）の計算については、例えば、観測ノードｙ_ｊに接続する全ての機器ノードの状態が正常であれば、観測ノードｙ_ｊが０（正常）になる確率はほぼ１であり、観測ノードｙ_ｊに接続する全ての機器ノードのうちの一部の機器ノードのみの状態が正常であれば、観測ノードｙ_ｊが０（正常）になる確率は、全ての機器ノードのうちの正常な機器ノードの数に依存する値になる、といった計算ができる方法であればどのような方法で計算してもよい。

因果モデル推定エンジン１２０により得られた推定結果に関して、出力インターフェース１５０は、値が１の機器を推定故障個所として出力してもよいし、値が１の機器と、当該機器に接続される対向機器との間のリンクを推定故障個所として出力してもよい。

（効果について）
上記のように、あるルータｉと疎通できないことを示す別のルータで発生したログにより、そのルータｉの観測ノードの入力値（ｙ_ｉの値）を定めるので、ｉ番目のルータが異常状態になり、リンクダウンに関するｓｙｓｌｏｇを生成できない場合においても、正常状態の対向ルータからの情報により異常箇所の推定が可能となり、異常箇所推定の精度向上が可能となる。

（付記）
以上の実施形態に関し、更に以下の付記項を開示する。
（付記項１）
複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
第１の機器と通信できなくなったことを示す、第２の機器から発生したログを収集し、
各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第１の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
異常箇所推定装置。
（付記項２）
前記プロセッサは、前記第１の機器に対応する観測ノードへの入力値として、異常を示す値を決定する
付記項１に記載の異常箇所推定装置。
（付記項３）
複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置として使用されるコンピュータが実行する異常箇所推定方法であって、
第１の機器と通信できなくなったことを示す、第２の機器から発生したログを収集し、
各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第１の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
異常箇所推定方法。
（付記項４）
コンピュータに、付記項１又は２に記載の異常箇所推定装置における各処理を実行させるプログラムを記憶した非一時的記憶媒体。

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００異常箇所推定装置
１１０因果モデル構築エンジン
１２０因果モデル推論エンジン
１３０観測データ収集エンジン
１４０観測データＤＢ
１５０出力インターフェース
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インターフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

Claims

複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
第１の機器と通信できなくなったことを示す、第２の機器から発生したログを収集する観測データ収集部と、
各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第１の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する因果モデル推論部と
を備える異常箇所推定装置。
前記因果モデル推論部は、前記第１の機器に対応する観測ノードへの入力値として、異常を示す値を決定する
請求項１に記載の異常箇所推定装置。
複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置として使用されるコンピュータが実行する異常箇所推定方法であって、
第１の機器と通信できなくなったことを示す、第２の機器から発生したログを収集し、
各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第１の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
異常箇所推定方法。
コンピュータを、請求項１又は２に記載の異常箇所推定装置における各部として機能させるためのプログラム。