WO2022259496A1

WO2022259496A1 - 分析装置、分析方法、および、分析プログラム

Info

Publication number: WO2022259496A1
Application number: PCT/JP2021/022220
Authority: WO
Inventors: 正紀篠原; 高明小山; 幸雄永渕; 真紀子青柳; 泰大寺本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-15
Anticipated expiration: 2023-12-10
Also published as: AU2021450034B2; US20240256376A1; US12524292B2; AU2021450034A1; CN117397218A; JP7582469B2; EP4333377A1; EP4333377A4; JPWO2022259496A1

Abstract

分析サーバ（１０）は、正常な通信の特徴を示すモデルに基づき、正常な通信ではないと判定された通信のアラートを記憶部（１２）に蓄積する。そして、分析サーバ（１０）は、蓄積されたアラートから、モデルの学習に用いた通信データとカテゴリ変数が異なるアラートを除外したアラートを対象として、アラートに含まれる通信の特徴量を用いてクラスタリングを行う。その後、分析サーバ（１０）は、クラスタリングにより生成されたクラスタそれぞれについて、クラスタが同種のアラートにより構成されているか否かを判定する。そして、分析サーバ（１０）は、クラスタリングの結果と、クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する。

Description

分析装置、分析方法、および、分析プログラム

　本発明は、通信の異常を示すアラートを分析するための、分析装置、分析方法、および、分析プログラムに関する。

　従来技術において、正常な通信の特徴を示すモデルに基づき、通信の異常検知を行う場合、検知対象の通信に新たな通信が追加されると、追加された通信が正常な通信であっても異常として検知（過検知）されてしまう。その結果、同じようなアラートが大量に発生してしまう可能性がある。ここで、運用者は、アラートが過検知か否かの判断を端末機器ごとアラートごとに行う。このため、アラートが大量に発生すると、運用者の作業が膨大になる。

　そこで、運用者の作業負荷を削減するため、いくつかの技術が提案されている。例えば、検知システムがアラートを提示する際に、アラートの示す脅威のタイプ、端末機器ID、プロトコル、ポート番号等のカテゴリ変数が同じものをまとめて提示する技術がある（非特許文献１参照）。また、検知システムが、アラートの示すＩＰアドレス、ポート番号、プロトコル番号等のカテゴリ変数や、通信開始日時をキーとしてアラートをフィルタリングする技術がある（特許文献１，２参照）。

特開２０２０－００５１８４号公報特開２０２０－１３５６５５号公報

NOZOMI　Guardian、［2021年5月25日検索］、インターネット＜URL：https://www.exclusive-networks.com/fr/wp-content/uploads/sites/17/2020/12/FR-VR-Nozomi-Networks-Guardian.pdf＞

　しかし、上記した技術はいずれも、アラートのうち、通信先等の特徴が同じでデータ量等が異なる通信のアラートについては、グルーピングができない。また、上記した技術により、データ量に基づいてアラートのグルーピングを行おうとしても、グルーピングの対象の特徴量の項目数が多くなると、各グループの特徴が不明確になってしまう。そのため、従来技術によりアラートをグルーピングしたとしても、アラートが過検知によるものか否かの判断に膨大な作業を要する。

　そこで、本発明は、前記した問題を解決し、アラートが過検知によるものか否かの判断に要する作業を削減することを課題とする。

　前記した課題を解決するため、本発明は、正常な通信の特徴を示すモデルに基づき、正常な通信ではないと判定された通信のアラートを蓄積する蓄積部と、前記蓄積されたアラートに含まれる通信の特徴量を用いて、前記アラートのクラスタリングを行うクラスタリング部と、前記クラスタリングにより生成されたクラスタそれぞれについて、前記クラスタが同種のアラートにより構成されているか否かを判定する判定部と、前記クラスタリングの結果と、前記クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する結果出力部と、を備えることを特徴とする。

　本発明によれば、アラートが過検知によるものか否かの判断に要する作業を削減することができる。

図１は、分析システムの構成例および概要を説明するための図である。図２は、分析サーバがアラートのクラスタリングに用いる項目の例を示す図である。図３は、分析サーバによるクラスタリングの例を示す図である。図４は、分析サーバの処理手順の例を示すフローチャートである。図５は、分析サーバの処理手順の例を示すフローチャートである。図６は、分析サーバによるアラートのクラスタリングの結果を用いた、運用者によるアラートの対応例を示す図である。図７は、分析サーバによるアラートのクラスタリングの結果と、同種のアラートの判定結果の例を示す図である。図８は、分析プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に説明する実施形態に限定されない。

［概要］
　まず、図１を参照しながら、分析サーバ（分析装置）１０を含む分析システム１の動作概要を説明する。

　分析システム１は、センシング装置２と分析サーバ１０とを備える。センシング装置２は、端末機器（例えば、IoT機器）の通信を観測する。

　例えば、センシング装置２は、端末機器が接続するＮＷ（ネットワーク）機器のミラー設定により、当該端末機器の通信を観測する。そして、センシング装置２は、端末機器の通信の観測結果を加工した情報（加工情報）を生成し、その加工情報から通信の特徴量を生成し、分析サーバ１０へ送信する。

　なお、上記の通信の特徴量は、例えば、当該通信を行う端末機器のＩＰアドレス、セッションの送信元ＩＰアドレス、セッションの送信先ＩＰアドレス、セッションの送信先ポート番号、プロトコル番号、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数、逆方向総パケット数等を示した情報である。

　分析サーバ１０は、センシング装置２から送信された通信の特徴量と、正常な通信の特徴を示すモデルとに基づき、当該通信が正常な通信か否かを判定し、当該通信が異常であると判定した場合、アラートを出力する。

　例えば、分析サーバ１０は、センシング装置２から送信された通信の特徴量と、正常な通信の特徴を示すモデルとの乖離を示すアノマリスコアを算出し、アノマリスコアが所定の閾値を超える場合、アラートを出力する。その後、分析システム１の運用者は、アラートの内容を確認し、当該アラートが過検知であればその旨をフィードバックする。ここでのフィードバックは、例えば、運用者が、当該アラートが過検知であることを分析サーバ１０に登録することで、分析サーバ１０において同種の特徴量については以後はアラートが発生しないようにする作業である。

　ここで、大量のアラートが発生すると、運用者による上記の確認作業が膨大になる。そこで、運用者が上記の確認作業を効率的に行える（同種のアラートの確認作業をまとめて行える）よう、分析サーバ１０は、各クラスタの特徴が明確に現れるような、アラートのクラスタリングを行う。

　例えば、分析サーバ１０は、アラートのクラスタリングを行う際、上記のモデルの学習に用いられた通信データに含まれない通信（例えば、新規の端末機器による通信）のアラートを、クラスタリングの対象から除外する。また、分析サーバ１０は、通信の特徴が現れやすい特徴量の項目（例えば、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数、逆方向総パケット数等）を用いて、アラートをクラスタリングする。さらに、分析サーバ１０は、アラートのクラスタリングを行う際、アラートに示される端末機器ごとに、項目ごとに、モデルの学習に用いられた値との差分をとり、正規化を行った値でクラスタリングを行う。

　このようにすることで、分析サーバ１０は、各クラスタの特徴が明確に現れるようなアラートのクラスタリングを行うことができる。

　また、分析サーバ１０は、クラスタそれぞれについて同種のアラートから構成されるか否かの判定結果を出力する。これにより、運用者は、クラスタのうち、同種のアラートから構成されるため、一度の過検知判断で済ませられるクラスタを識別することができる。その結果、アラートが過検知によるものか否かの判断に要する作業を削減することができる。

　また、分析サーバ１０は、アラートのクラスタリングを行う際、特定のペイロードに依存したペイロード情報も利用しないため、暗号化された通信のアラートのクラスタリングにも対応することができる。

［構成例］
　次に、図１を参照しながら、分析サーバ１０の構成例を説明する。分析サーバ１０は、記憶部１２と、特徴量受付部１３１と、学習部１３２と、分析部（蓄積部）１３３と、画面表示処理部１３４と、クラスタリング部１３５と、判定部１３６と、結果出力部１３７とを備える。

　記憶部１２は、分析サーバ１０が各種処理を実行する際に参照する情報や、各種処理の実行結果を記憶する。

　例えば、記憶部１２は、センシング装置２から取得した通信の特徴量、学習部１３２により学習された正常な通信の特徴を示すモデル、モデルの学習に用いられた特徴量の通信タプル（初期タプル）、分析部１３３による通信の分析結果（例えば、上記のアノマリスコア）、上記のモデルに基づき正常な通信ではないと判定された通信のアラート群等を記憶する。

　なお、以下の説明において、特徴量に含まれるカテゴリ変数の一部を通信タプルと呼ぶ。このうち、モデルの学習に用いた特徴量の通信タプルを初期タプルと呼ぶ。初期タプルは、例えば、モデルの学習に用いられた特徴量に含まれる、端末機器のＩＰアドレス、セッションの送信元ＩＰアドレス、セッションの送信先ＩＰアドレス、セッションの送信先ポート番号、プロトコル番号等であるが、上記の５つに限定されない。

　特徴量受付部１３１は、センシング装置２から通信の特徴量を受け付ける。そして、特徴量受付部１３１は、受け付けた通信の特徴量を記憶部１２に蓄積する。例えば、特徴量受付部１３１は、まず、モデルの学習用の通信の特徴量（正常な通信の特徴量）を受け付け、記憶部１２に蓄積する。その後、特徴量受付部１３１は、検知対象の通信の特徴量を受け付け、記憶部１２に蓄積する。

　学習部１３２は、記憶部１２に蓄積された通信の特徴量（正常な通信の特徴量）を用いて、正常な通信の特徴を示すモデルの学習を行う。その後、学習部１３２は、学習されたモデルの各パラメータ、モデルの学習に用いたデータ（例えば、初期タプル等）を、記憶部１２に記憶する。

　分析部１３３は、学習部１３２により学習されたモデルを用いて、検知対象の通信の分析を行う。例えば、分析部１３３は、検知対象の通信の特徴量と上記のモデルとの乖離を示すアノマリスコアを算出する。そして、分析部１３３は、アノマリスコアが所定の閾値を超える場合（つまり、正常な通信ではない可能性が高い場合）、アラートを出力する。アラートは、例えば、アラートの対象となった通信の識別情報、当該通信の発生日時等を含む。出力されたアラートは、記憶部１２に蓄積される。

　画面表示処理部１３４は、記憶部１２に蓄積されたアラートを画面表示する。例えば、画面表示処理部１３４は、運用者の指示入力に基づき、記憶部１２に蓄積されたアラートの一覧を画面表示する。これにより、運用者は、どのようなアラートが出力されたかを画面上で確認することができる。

　クラスタリング部１３５は、記憶部１２に蓄積されたアラートに含まれる通信の特徴量に基づき、アラートのクラスタリングを行う。

　例えば、クラスタリング部１３５は、記憶部１２から、アラートと、当該アラートの対象となっている通信の特徴量とを取得する。そして、クラスタリング部１３５は、取得した通信の特徴量に基づきアラートのクラスタリングを行う。ここで、クラスタリング部１３５は、各クラスタの特徴が明確に現れるように、アラートの対象となっている通信の特徴量のうち、クラスタリングに用いる特徴量の項目の絞り込みと正規化を行う。

　例えば、クラスタリング部１３５は、モデルの学習に用いられた特徴量の通信タプル（初期タプル）と異なる通信タプルのアラートを、クラスタリングの対象から除外する。例えば、クラスタリング部１３５は、モデルの学習に用いたられた特徴量の通信タプル（初期タプル）と、アラートに含まれる通信の特徴量の通信タプルとを比較し、カテゴリ変数（端末機器自身のＩＰアドレス、セッションの送信元ＩＰアドレス、セッションの送信先ＩＰアドレス、セッションの送信先ポート番号およびプロトコル番号の組み合わせ）が異なるアラートをクラスタリングの対象から除外する。

　このようにすることで、クラスタリング部１３５は、例えば、新規の端末機器からの通信等、アラートの理由が明確なアラートをクラスタリングの対象から除外することができる。

　また、クラスタリング部１３５は、アラートに含まれる情報のうち、通信の発生日時、アノマリスコア等の情報を除外してクラスタリングを行う。例えば、クラスタリング部１３５は、アラートに含まれる通信の特徴量のうち、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数、および、逆方向総パケット数の少なくともいずれかを用いて、アラートのクラスタリングを行う。

　さらに、クラスタリング部１３５は、端末機器ごとに、モデルの学習に用いられた通信の特徴量の値（初期学習時の値）と、アラートに含まれる当該通信の特徴量の値との差分を正規化した値を用いて、アラートのクラスタリングを行う。

　例えば、クラスタリング部１３５は、端末機器ごとに、アラートの通信の特徴量のうち、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数、逆方向総パケット数の値それぞれについて、初期学習時の値との差分を算出する。そして、クラスタリング部１３５は、その差分を対数スケールに変換した値を用いて、アラートのクラスタリングを行う（図２参照）。

　クラスタリング部１３５によるクラスタリングの結果の例を、図３の符号３０１に示す。ここでは、クラスタリング部１３５が、５つの端末機器（Iot-A、Iot-B、Iot-C、Iot-D、Iot-E）に関する165個のアラートを、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数および逆方向総パケット数の５つの特徴量に基づきクラスタリングした結果（cluster0～cluster7）を示す。なお、符号３０１は、上記のクラスタリングの結果を、セッション持続時間および逆方向総バイト数を軸とする方向から見た状態を示している。

　なお、クラスタリング部１３５が用いるクラスタリングアルゴリズムは、例えば、Birch、k-means等である。クラスタリング部１３５がどのようなクラスタリングアルゴリズムを用いるかは、分析サーバ１０のユーザが設定可能である。

　図１の説明に戻る。判定部１３６は、クラスタリング部１３５により生成された各クラスタが同種のアラートにより構成されているか否かを判定する。

　例えば、判定部１３６は、全アラートに対する各クラスタのアラート数の比率、各クラスタにおけるアラートの対象となった端末機器の数、各クラスタの密度等に基づき、各クラスタが同種のアラートから構成されているか否かを判定する。

　例えば、判定部１３６は、クラスタごとに、（当該クラスタを構成するアラートの数／全アラートの数）の値を算出し、その値が所定の閾値（例えば、70％）以上のクラスタを、同種のアラートのアラートにより構成されるクラスタと判定する。

　また、例えば、判定部１３６は、クラスタごとに、当該クラスタにアラートの対象となった端末機器が何台含まれるかを算出し、算出した台数が、所定の閾値以下（例えば、１台）であるクラスタを、同種のアラートにより構成されるクラスタと判定する。

　また、例えば、判定部１３６は、クラスタの散布図を作成し、散布図上のクラスタの面積と、当該クラスタに含まれるアラート数とを用いて、当該クラスタの密度を算出し、算出した密度が、所定の閾値以上のクラスタを、同種のアラートから構成されるクラスタと判定する。例えば、判定部１３６は、クラスタごとに、（当該クラスタを構成するアラートの数／当該クラスタの面積）を算出し、算出した値が、所定の閾値（例えば、1000）以上であるクラスタを、同種のアラートにより構成されるクラスタと判定する。

　例えば、判定部１３６が、図３の符号３０１に示すクラスタ（cluster1～cluster7）について、符号３０２に示す情報に基づき、以下の（１）～（３）のいずれかの条件を満たすクラスタを、同種のアラートから構成されるクラスタと判定する場合について説明する。

　（１）全アラート数に対する当該クラスタのアラート数の比率が70％以上
　（２）当該クラスタにおけるアラートの対象となった端末機器の数が１台
　（３）当該クラスタの密度が1000以上

　なお、符号３０２に示す情報は、符号３０１に示すクラスタ（cluster0～cluster7）ごとに、各端末機器（Iot-A、Iot-B、Iot-C、Iot-D、Iot-E）のアラート数、面積、密度を示した情報である。

　符号３０２に示す情報を参照すると、全アラートの対する当該クラスタのアラート数の比率が70％以上のクラスタは存在しない。ただし、クラスタ０（cluster0）は、Iot-Cのアラートのみのクラスタであり、密度も1000以上である。また、クラスタ３（cluster3）も、Iot-Eのアラートのみのクラスタであり、密度も1000以上である。よって、判定部１３６は、cluster0およびcluster3を、同種のアラートにより構成されるクラスタと判定する。

　図１の説明に戻る。結果出力部１３７は、クラスタリング部１３５によるクラスタリングの結果と、判定部１３６によるクラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する。

　例えば、結果出力部１３７は、図３の符号３０１に示すクラスタリングの結果と、符号３０１に示す各クラスタ（cluster1～cluster7）のうち、cluster0およびcluster3が同種のアラートにより構成されているクラスタである旨の情報とを出力する。

　このような分析サーバ１０によれば、アラートのクラスタリングを行う際に、各クラスタの特徴が明確に現れたクラスタを生成することができる。また、分析サーバ１０は、クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果を出力する。これにより、運用者は、一度の過検知判断で済ませられるクラスタを識別することができる。その結果、アラートが過検知によるものか否かの判断に要する作業を削減することができる。

［処理手順の例］
　次に、図４、図５を用いて、分析サーバ１０の処理手順の例を説明する。まず、図４を用いて、分析サーバ１０がアラートを蓄積する処理を説明し、次に、図５を用いて、分析サーバ１０が蓄積されたアラートのクラスタリングを行う処理を説明する。

　まず、分析サーバ１０の特徴量受付部１３１は、センシング装置２から送信された通信の特徴量（正常な通信の特徴量）を記憶部１２に蓄積する（図４のＳ１）。次に、学習部１３２は、Ｓ１で蓄積された通信の特徴量を用いて、正常な通信の特徴を示すモデルの学習（初期学習）を行う（Ｓ２）。

　Ｓ２のモデルの学習が完了すると、特徴量受付部１３１は、検知対象の通信の特徴量を記憶部１２に蓄積する（Ｓ３）。そして、分析部１３３は、検知対象の通信の特徴量と、Ｓ２で学習したモデルとの乖離を示すアノマリスコアを算出する（Ｓ４）。

　ここで、分析部１３３は、Ｓ４で算出したアノマリスコアが所定の閾値を超えると判定した場合（Ｓ５でＹｅｓ）、当該通信のアラートを生成し、記憶部１２に蓄積する（Ｓ６）。そして、まだいずれかの検知対象の通信に対し、処理を実行していなければ（Ｓ７でＮｏ）、分析サーバ１０は、まだ処理を実行していない検知対象の通信について、Ｓ４以降の処理を実行する。一方、全ての検知対象の通信に対し、処理を実行済みであれば（Ｓ７でＹｅｓ）、分析サーバ１０は処理を終了する。

　また、分析部１３３が、Ｓ４で算出したアノマリスコアが所定の閾値以下と判定し（Ｓ５でＮｏ）、まだいずれかの検知対象の通信に対し処理を実行済みでなければ（Ｓ７でＮｏ）、まだ処理を実行していない検知対象の通信について、Ｓ４以降の処理を実行する。

　次に、図５を用いて、分析サーバ１０が蓄積されたアラートのクラスタリングを行う処理を説明する。

　まず、分析サーバ１０のクラスタリング部１３５は、記憶部１２に蓄積されたアラートのうち、モデルの学習に用いた特徴量の通信タプル（初期タプル）と異なる通信タプルのアラートをクラスタリングの対象から除外する（図５のＳ１１）。

　例えば、クラスタリング部１３５は、モデルの学習に用いた通信タプル（初期タプル）と、アラートに含まれる通信の特徴量の通信タプルとを比較し、初期タプルとカテゴリ変数（端末機器のＩＰアドレス、セッションの送信元ＩＰアドレス、セッションの送信先ＩＰアドレス、セッションの送信先ポート番号およびプロトコル番号の組み合わせ）が異なるアラートをクラスタリングの対象から除外する。

　Ｓ１１の後、クラスタリング部１３５は、アラートに含まれる通信の特徴量のうち、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数、逆方向総パケット数に基づき、アラートをクラスタリングする（Ｓ１２）。

　Ｓ１２の後、判定部１３６は、Ｓ１２のクラスタリングにより生成されたクラスタそれぞれについて、当該クラスタが同種のアラートにより構成されているか否かを判定する（Ｓ１３）。

　Ｓ１３の後、結果出力部１３７は、Ｓ１２のクラスタリングの結果と、Ｓ１３におけるクラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する（Ｓ１４）。

［運用者によるアラートの対応例］
　次に、図６を用いて、分析サーバ１０が出力した、アラートのクラスタリングの結果と、クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを用いた、運用者によるアラートの対応例について説明する。

　例えば、分析サーバ１０は、アラートの発生後、アラートのクラスタリングと、クラスタそれぞれが同種のアラートにより構成されているか否かの判定とを行う（Ｓ１０１：クラスタリング）。

　そして、運用者は、上記のアラートのクラスタリングの結果と、クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを用いてアラートの確認を行う。例えば、運用者は、１つのアラートごと、もしくはクラスタ単位で、Ｓ１０２～Ｓ１０８に示すアラートの確認処理を未確認のアラートが無くなるまで行う。

　まず、運用者は、アラートの対象となっている通信パターンが、モデルの学習時には無かった新たな通信パターンか否かの確認を確認する（Ｓ１０２）。また、運用者は、アラートの対象となっている通信パラメータが、学習済みの通信パターンの新たな通信パラメータか否かを確認する（Ｓ１０３）。運用者は、上記の確認結果に基づき、アラートの対象となった端末機器の所轄の部署へ問合わせを行う（Ｓ１０４）。そして、問合わせの結果、端末機器に異常がある場合（Ｓ１０５でＹｅｓ）、運用者は、当該異常に応じた対処を行う（Ｓ１０６）。そして、アラートの確認処理を終える。その後、分析サーバ１０は監視を継続する。

　一方、問合わせの結果、端末機器に異常がなかった場合（Ｓ１０５でＮｏ）、運用者は、当該アラートが過検知によるものか否かを判断する（Ｓ１０７）。そして、運用者が、当該アラートは過検知によるものと判断した場合（Ｓ１０７でＹｅｓ）、過検知のフィードバックを実施する（Ｓ１０８）。このとき、運用者は、同種のアラートのクラスタについては、まとめて過検知のフィードバックを実施する。

　一方、運用者が、当該アラートは過検知によるものではないと判断した場合（Ｓ１０７でＮｏ）、対処は行わず、アラートの確認処理を終える。そして、分析サーバ１０は、端末機器の通信の監視を継続する。

　このように分析サーバ１０がアラートのクラスタリングの結果と、クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力することで、運用者は、同種のアラートのクラスタについては、クラスタ単位で過検知の判断を行い、フィードバックを実施することができる。その結果、アラートが過検知によるものか否かの判断に要する作業を削減することができる。

［クラスタリングの実験結果］
　次に、図７を用いて、分析サーバ１０による、アラートのクラスタリングの実験結果を説明する。ここでは、分析サーバ１０が、処理対象とする通信に、正常状態の通信と比較して、正差分の小さな負荷２種類（10^0.2倍、10^0.4倍）、正差分の大きな負荷４種類（10¹倍、10^1.2倍、10^1.4倍、10^1.6倍）、負差分の小さな負荷３種類（10^-0.2倍、10^-0.4倍、10^-0.6倍）、相違通信タプルの負荷（カテゴリ変数による差異）の10パターンの負荷（通信に対する変更）を印加し、アラートを生成した。また、分析サーバ１０は、アラートのクラスタリングアルゴリズムにBirchを用い、クラスタ数は最大で10個となるよう設定した。

　上記の条件に基づき、分析サーバ１０が、上記の10パターンの通信に関するアラートをクラスタリングした結果を図７に示す。図７に示すように、相違通信タプルによるアラートを除く828件のアラートのうち、アラート比率が70％を超える最大クラスタに含まれるアラート数は643件であった。

　ここで、分析サーバ１０が、上記のアラート比率が70％を超える最大クラスタを同種のアラートから構成されるクラスタと判定し、その判定結果を出力することにより、運用者は当該クラスタについての過検知の判断を一括して行うことができる。これにより、上記の643件のアラートが9件（負荷ごとに1件）に圧縮されるため、運用者が過検知の判断とする件数は、939件から305件に削減される（67.5%減）。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した分析サーバ１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を分析サーバ１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal　Handyphone　System）等の移動体通信端末、さらには、PDA（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　また、分析サーバ１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図８は、分析プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ROM（Read　Only　Memory）１０１１及びRAM（Random　Access　Memory）１０１２を含む。ROM１０１１は、例えば、BIOS（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の分析サーバ１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、分析サーバ１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSD（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local　Area　Network）、WAN（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１　分析システム
２　センシング装置
１０　分析サーバ
１２　記憶部
１３１　特徴量受付部
１３２　学習部
１３３　分析部（蓄積部）
１３４　画面表示処理部
１３５　クラスタリング部
１３６　判定部
１３７　結果出力部

Claims

　正常な通信の特徴を示すモデルに基づき、正常な通信ではないと判定された通信のアラートを蓄積する蓄積部と、
　前記蓄積されたアラートに含まれる通信の特徴量を用いて、前記アラートのクラスタリングを行うクラスタリング部と、
　前記クラスタリングにより生成されたクラスタそれぞれについて、前記クラスタが同種のアラートにより構成されているか否かを判定する判定部と、
　前記クラスタリングの結果と、前記クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する結果出力部と、
　を備えることを特徴とする分析装置。
　前記クラスタリング部は、
　前記モデルの学習に用いた通信の特徴量と、前記アラートに含まれる通信の特徴量とを比較し、前記通信の端末機器のＩＰアドレス、セッションの送信元ＩＰアドレス、セッションの送信先ＩＰアドレス、セッションの送信先ポート番号およびプロトコル番号の組み合わせが異なるアラートを、前記クラスタリングの対象から除いてクラスタリングを行うこと
　を特徴とする請求項１に記載の分析装置。
　前記クラスタリング部は、
　前記アラートに含まれる通信の特徴量のうち、セッション持続時間、正方向総バイト数、正方向総パケット数、逆方向総バイト数および逆方向総パケット数の少なくともいずれかを用いて、前記アラートのクラスタリングを行うこと
　を特徴とする請求項１に記載の分析装置。
　前記クラスタリング部は、
　端末機器ごとに、前記モデルの学習に用いられた通信の特徴量の値と、前記アラートに含まれる当該通信の特徴量の値との差分を算出し、前記特徴量の差分の値を対数スケールに変換した値を用いて、前記アラートのクラスタリングを行うこと
　を特徴とする請求項１に記載の分析装置。
　前記判定部は、
　前記生成されたクラスタごとに、当該クラスタを構成するアラートの数の、全アラートの数に対する比率が、所定の閾値以上のクラスタを、同種のアラートのアラートにより構成されるクラスタと判定する
　ことを特徴とする請求項１に記載の分析装置。
　前記判定部は、
　前記生成されたクラスタごとに、当該クラスタにアラートの対象となった端末機器が何台含まれるかを算出し、前記算出した台数が、所定の閾値以下であるクラスタを、同種のアラートのアラートにより構成されるクラスタと判定する
　ことを特徴とする請求項１に記載の分析装置。
　前記判定部は、
　前記生成されたクラスタの散布図を作成し、前記散布図上のクラスタの面積と、当該クラスタに含まれるアラート数とを用いて、当該クラスタの密度を算出し、前記算出した密度が、所定の閾値以上のクラスタを、同種のアラートから構成されるクラスタと判定する　ことを特徴とする請求項１に記載の分析装置。
　分析装置により実行される分析方法であって、
　正常な通信の特徴を示すモデルに基づき、正常な通信ではないと判定された通信のアラートを蓄積する工程と、
　前記蓄積されたアラートに含まれる通信の特徴量を用いて、前記アラートのクラスタリングを行うクラスタリングを行う工程と、
　前記クラスタリングにより生成されたクラスタそれぞれについて、前記クラスタが同種のアラートにより構成されているか否かを判定する工程と、
　前記クラスタリングの結果と、前記クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する工程と、
　を含むことを特徴とする分析方法。
　正常な通信の特徴を示すモデルに基づき、正常な通信ではないと判定された通信のアラートを蓄積する工程と、
　前記蓄積されたアラートに含まれる通信の特徴量を用いて、前記アラートのクラスタリングを行うクラスタリングを行う工程と、
　前記クラスタリングにより生成されたクラスタそれぞれについて、前記クラスタが同種のアラートにより構成されているか否かを判定する工程と、
　前記クラスタリングの結果と、前記クラスタそれぞれが同種のアラートにより構成されているか否かの判定結果とを出力する工程と、
　をコンピュータに実行させるための分析プログラム。