JP7713146B2

JP7713146B2 - 異常検知装置、異常検知方法、および、異常検知プログラム

Info

Publication number: JP7713146B2
Application number: JP2023567408A
Authority: JP
Inventors: 友貴山中
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2025-07-25
Anticipated expiration: 2041-12-15
Also published as: EP4432619A1; AU2021478370A1; US12457065B2; US20250038899A1; AU2021478370B2; WO2023112227A1; CN118476203A; JPWO2023112227A1; EP4432619A4

Description

本発明は、異常検知装置、異常検知方法、および、異常検知プログラムに関する。

従来、産業系・ビル系のネットワーク制御システムで用いられる通信に対する異常検知システムや侵入検知システムに注目が集まっている。制御系の通信は、例えば、温度の設定値が一桁変わってしまうだけでも重大な事故につながるおそれがある。このため、通信内容（ペイロード）の1byteの不正な書き換えも見逃さずに検知出来る必要がある。したがって、産業系・ビル系のネットワーク制御システムを対象とした異常検知システムでは、ペイロード内容の精緻な分析が必要不可欠である。

このような分析を行う技術として、例えば、BERT（Bidirectional Encoder Representations from Transformers）等の自然言語処理技術をパケット分析に応用することで、任意のプロトコルのペイロードから情報を抽出し、異常検知を行う技術がある。

山中友貴他、BERTを用いたパケットペイロードの特徴抽出、2021年度人工知能学会全国大会（第35回）

しかし、上記の非特許文献１には、異常検知のアラートを発出するための異常度に対するしきい値をどう設定するかという手法については触れられていない。一般的には、しきい値は、正常データと異常データの両方を用意し、それぞれデータの異常度を区切る値に調整するべきであるが、実際のサイバー攻撃のデータ（異常データ）を用意することは難しい。そのため、例えば、正常データの異常度の平均値に所定値を加えた値をしきい値とする方法がとられてきたが、この方法で得られたしきい値は、必ずしも、正常データおよび異常データの異常度を適切に区切る値ではない。その結果、異常検知システムは、異常パケットを精度よく検知することができないという問題があった。

そこで、本発明は、異常パケットを検知するための適切なしきい値を設定することを課題とする。

前記した課題を解決するため、本発明は、正常パケットを用いて学習されたBERT（Bidirectional Encoder Representations from Transformers）モデルに、正常パケットを入力し、前記正常パケットのエンコードを行う際の各バイト箇所に対するAttentionの大きさを取得するAttention取得部と、取得された前記正常パケットの各バイト箇所のAttentionの大きさに基づき、前記正常パケットの重要バイト箇所をサンプリングし、前記サンプリングした重要バイト箇所をランダムなバイトに書き換えることにより、疑似異常パケットを生成する疑似異常パケット生成部と、生成された疑似異常パケット群および正常パケット群の異常度に基づき、異常パケットを検知するための異常度のしきい値を決定するしきい値決定部とを備えることを特徴とする。

本発明によれば、異常パケットを検知するための適切なしきい値を設定することできる。

図１は、パケットのバイト箇所ごとのAttentionの強さの例を示す図である。図２は、疑似異常パケットの生成手順の例を示すフローチャートである。図３は、異常検知装置の構成例を示す図である。図４は、異常検知装置が行う処理手順の例を示すフローチャートである。図５は、従来技術により決定されたしきい値と、異常検知装置により決定されたしきい値との比較結果を示す図である。図６は、異常検知プログラムを実行するコンピュータの構成例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［BERTのAttention機構］
まず、本実施形態の異常検知装置が、パケットの異常度のしきい値の決定に用いるBERTのAttention機構について簡単に説明する。BERT等で用いられるAttention機構は、各トークン（例えば、文章ならば単語、パケットならばバイトに相当）に対する重みを付与する。ここでAttentionが強く働けば、BERTはそのAttentionが強く働いたトークンを重要視して固定長のベクトルへの変換を行うようになる。

Attention機構は、BERTのPre-training taskであるMasked Language ModelingおよびNext Sentence Predictionの学習を経て、重要なトークンに対して大きな重みを付与するように最適化される。

図１は、BERTモデルに入力されたパケットのバイト箇所ごとのAttentionの強さの例を示す図である。図１において、ハッチングの濃さはAttentionの強さを示す。図１に示すように、パケットのfunction code、データ部等、パケット内の重要である可能性の高いバイト箇所は強くAttentionされる。

［概要］
異常検知装置は、上記のAttention機構を用いて、正常パケットで強くAttentionされるバイト箇所（＝重要である可能性の高いバイト箇所）を重点的に書き換えることで、品質の高い疑似異常パケットを生成する。図２に、疑似異常パケットの生成手順の例を示す。

まず、異常検知装置は、収集した正常パケットを用いてBERTモデルのPre-trainingを行う（Ｓ１）。次に、異常検知装置は、正常パケットをBERTモデルに入力し、エンコードを行い、その際の各バイトに対するAttentionを得る（Ｓ２）。ここで、Attention機構は、例えば、Layer方向、Head方向に平均化等の処理を行い、BERTモデルへ入力した正常パケットのバイト数と同じ次元を持つ１次元ベクトルのAttentionを得る。

次に、異常検知装置は、Ｓ２で得たAttentionの重みを用いて、正常パケットから、Ｍ回、バイト箇所を重み付けランダムサンプリングする（Ｓ３）。異常検知装置は、Ｓ３でランダムサンプリングしたバイト箇所をランダムなバイト(例えば、0x00-0xff)に書き換える（Ｓ４）。つまり、異常検知装置は、正常パケットからサンプリングされた重要バイト箇所を書き換えることにより、疑似異常パケットを生成する。

Ｓ４の後、未処理の正常パケットがあれば（Ｓ５でＹｅｓ）、Ｓ２に戻り、未処理の正常パケットがなければ（Ｓ５でＮｏ）、処理を終了する。

このようにすることで異常検知装置は、正常パケットの数×Ｍ個の疑似異常パケットを生成する。そして、異常検知装置は、生成した疑似異常パケット群と、正常パケット群とを用いて、パケットの異常を検知するための異常度のしきい値を決定する。しきい値の決定方法は、例えば、F1最適化等である。

そして、異常検知装置は、上記のようにして決定したしきい値を設定することにより、異常パケットを検知する。例えば、異常検知装置は、検知対象のパケットの異常度が、上記のしきい値を超える場合、当該パケットを異常パケットとして検知する。

このような異常検知装置によれば、異常パケットを検知するための適切なしきい値を設定することができるので、異常パケットの検知を精度よく行うことができる。

［構成例］
次に、図３を用いて異常検知装置１０を説明する。なお、異常検知装置１０は、例えば、検知対象のネットワークまたは機器ごとに適切な単位で配置される。そして、異常検知装置１０は、その単位に対応したBERTモデル、VAEモデルおよび正常パケットを記憶部に保持する。

異常検知装置１０は、例えば、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４および制御部１５を備える。

入力部１１は、例えば、キーボードやマウス等の入力デバイスからの入力操作を受け付けるインタフェースである。出力部１２は、例えば、液晶ディスプレイ等の表示装置、プリンター等の印刷装置等にデータを出力するためのインタフェースである。

通信制御部１３は、例えば、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネット等の電気通信回線を介した外部の装置と制御部１５との通信を制御する。

記憶部１４は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、異常検知装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等が予め記憶され、あるいは処理の都度一時的に記憶される。

記憶部１４は、例えば、制御部１５により学習されたBERTモデルおよびVAE（Variational AutoEncoder）モデル、正常パケット等を記憶する。また、制御部１５により、異常パケットを検知するためのしきい値が決定されると、記憶部１４は、決定されたしきい値を記憶する。

BERTモデルは、１つのパケットを１つの固定長ベクトルへ変換する規則を学習したモデルである。言い換えると、BERTモデルは、正常パケットにおける内部のバイト列の順序等の頻出パターンを学習したモデルである。

例えば、BERTモデルは、パケット内のある位置のバイトを、周辺のバイトから予測する、という補助タスクを解くことで、パケットの特徴を反映した中間表現、すなわち、固定長ベクトルを習得する。また、BERTモデルは、パケット内のある位置のバイトを、周辺のバイトから予測することで、パケットの特徴を反映したベクトル表現を獲得する。

VAEモデルは、BERTモデルにより変換されたパケットの固定長ベクトルに対して、当該パケットの異常度を割り振るモデルである。

制御部１５は、例えば、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図３に例示するように、学習部１５１、Attention取得部１５２、疑似異常パケット生成部１５３、しきい値決定部１５４、検知部１５５として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。

学習部１５１は、正常パケットを用いて、BERTモデルおよびVAEモデルの学習（生成、更新）を行う。例えば、学習部１５１は、正常パケットを用いて、Masked Language ModelingとNext Sentence Predictionの２つのタスクを解くことで、BERTモデルの学習を行う。

なお、本実施形態におけるMasked Language Modelingは、正常パケットのバイトをランダムにマスクし、マスクされる前のバイトを当てるタスクである。また、Next Sentence Predictionは、２つのパケットを入力し、これらが連続したパケットか否かを当てるタスクである。

Attention取得部１５２は、学習済みのBERTモデルに、正常パケットを入力し、正常パケットのエンコードを行う際における各バイト箇所に対するAttentionの大きさを取得する。

疑似異常パケット生成部１５３は、正常パケットから疑似異常パケットを生成する。例えば、疑似異常パケット生成部１５３は、Attention取得部１５２により取得された正常パケットの各バイト箇所のAttentionの大きさに基づき、当該正常パケットの重要バイト箇所をサンプリング（例えば、ランダムサンプリング）する。そして、疑似異常パケット生成部１５３は、サンプリングした重要バイト箇所のランダムなバイト（例えば、0x00-0xffのバイト）に書き換える。そして、疑似異常パケット生成部１５３は、正常パケットの重要バイト箇所の書き換えを行ったパケットを疑似異常パケットとする。

なお、しきい値の決定に用いる疑似異常パケットの数と正常パケットの数が等しいことが好ましい場合、疑似異常パケット生成部１５３は、生成する疑似異常パケットの数が正常パケットの数と同じ数になるよう、サンプリング数を調整する。

しきい値決定部１５４は、正常パケットと、疑似異常パケット生成部１５３により生成された疑似異常パケットを用いて、パケットを異常パケットとして検知するための異常度のしきい値を決定する。

例えば、しきい値決定部１５４は、上記のBERTモデルおよびVAEモデルに基づき、正常パケットおよび疑似異常パケットの異常度を算出する。次に、しきい値決定部１５４は、算出した正常パケットおよび疑似異常パケットの異常度に、F1最適化等を適用して異常度のしきい値を決定する。その後、しきい値決定部１５４は、決定した異常度のしきい値を記憶部１４に記憶する。

検知部１５５は、しきい値決定部１５４により決定されたしきい値を用いて、異常パケットの検知を行う。例えば、検知部１５５は、検知対象のパケットの入力を受け付けると、BERTモデルにより当該パケットの特徴を反映した固定長ベクトルに変換する。次に、検知部１５５は、VAEモデルにより各固定長ベクトルに異常度を割り振る。そして、検知部１５５は、固定長ベクトルに割り振られた異常度が、上記のしきい値を超える場合、当該固定長ベクトルに対応するパケットを異常パケットとして検知する。その後、検知部１５５は、異常パケットの検知結果を出力する。

［処理手順の例］
次に、図４を用いて、異常検知装置１０が行う処理手順の例を説明する。まず、異常検知装置１０の学習部１５１は、正常パケットを用いて、BERTモデル、VAEモデルの生成または更新を行う（Ｓ１１）。その後、疑似異常パケット生成部１５３は、正常パケット群を用いて疑似異常パケット群を生成する（Ｓ１２）。

Ｓ１２の後、しきい値決定部１５４は、BERTモデル、VAEモデルを用いて、疑似異常パケット群および正常パケット群の異常度を算出する（Ｓ１３）。そして、しきい値決定部１５４は、Ｓ１３で算出した疑似異常パケット群および正常パケット群の異常度に基づき、異常パケットを検出するためのしきい値を決定する（Ｓ１４）。その後、検知部１５５は、Ｓ１４で決定されたしきい値を用いて、異常パケットを検知する（Ｓ１５）。その後、検知部１５５は、異常パケットの検知結果を出力する。

このような異常検知装置１０によれば、正常パケットから品質の高い疑似異常パケットを生成することができる。これにより、異常検知装置１０は、異常パケットを検知するための適切なしきい値を設定することができる。その結果、異常検知装置１０は、異常パケットを精度よく検知することができる。

［比較結果］
次に、図５を用いて、異常パケットの検知に、本実施形態の異常検知装置１０により決定したしきい値を用いた場合と、従来技術により決定したしきい値（正常パケットの異常度＋３＊正常パケットの異常度の標準偏差）を用いた場合（比較例）との比較結果を説明する。

なお、異常検知装置１０は、疑似異常パケットおよび正常パケットの異常度のF1最適化によりしきい値を決定した。また、評価に用いた機械学習モデルは、BERTモデルおよびVAEモデルを用いて、入力されたパケットのクラスが、Positive（異常）かNegative（正常）かを予測するモデルである。

図５に示すように、機械学習モデルが、パケットのクラスがPositive（異常）かNegative（正常）かを予測する際、従来技術により決定されたしきい値を用いた場合よりも、異常検知装置１０により決定されたしきい値を用いた場合の方が、Accuracy、RecallおよびF値について良好な値であった。このことから、異常検知装置１０により決定されたしきい値は、従来技術よりも異常パケットの検知に適したしきい値であることが確認できた。

［システム構成等］
また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
前記した異常検知装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム（異常検知プログラム）を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を異常検知装置１０として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等の端末等がその範疇に含まれる。

図６は、異常検知プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の異常検知装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、異常検知装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０異常検知装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１５制御部
１５１学習部
１５２ Attention取得部
１５３疑似異常パケット生成部
１５４しきい値決定部
１５５検知部

Claims

正常パケットを用いて学習されたBERT（Bidirectional Encoder Representations from Transformers）モデルに、正常パケットを入力し、前記正常パケットのエンコードを行う際の各バイト箇所に対するAttentionの大きさを取得するAttention取得部と、
取得された前記正常パケットの各バイト箇所のAttentionの大きさに基づき、前記正常パケットの重要バイト箇所をサンプリングし、前記サンプリングした重要バイト箇所をランダムなバイトに書き換えることにより、疑似異常パケットを生成する疑似異常パケット生成部と、
生成された疑似異常パケット群および正常パケット群の異常度に基づき、異常パケットを検知するための異常度のしきい値を決定するしきい値決定部と
を備えることを特徴とする異常検知装置。
前記しきい値決定部は、
F1最適化法により前記異常度のしきい値を決定する
ことを特徴とする請求項１に記載の異常検知装置。
検知対象のパケットの異常度が、前記しきい値を超える場合、前記パケットを異常パケットとして検知する検知部と
をさらに備えることを特徴とする請求項１に記載の異常検知装置。
前記疑似異常パケット生成部は、
取得された前記正常パケットの各バイト箇所のAttentionの大きさに基づき、前記正常パケットの重要バイト箇所をランダムサンプリングし、前記ランダムサンプリングした重要バイト箇所をランダムなバイトに書き換えることにより、前記疑似異常パケットを生成する
ことを特徴とする請求項１に記載の異常検知装置。
異常検知装置により実行される異常検知方法であって、
正常パケットを用いて学習されたBERT（Bidirectional Encoder Representations from Transformers）モデルに、正常パケットを入力し、前記正常パケットのエンコードを行う際の各バイト箇所に対するAttentionの大きさを取得する工程と、
取得した前記正常パケットの各バイト箇所のAttentionの大きさに基づき、前記正常パケットの重要バイト箇所をサンプリングし、前記サンプリングした重要バイト箇所をランダムなバイトに書き換えることにより、疑似異常パケットを生成する工程と、
生成した疑似異常パケット群および正常パケット群の異常度に基づき、異常パケットを検知するための異常度のしきい値を決定する工程と
を含むことを特徴とする異常検知方法。
正常パケットを用いて学習されたBERT（Bidirectional Encoder Representations from Transformers）モデルに、正常パケットを入力し、前記正常パケットのエンコードを行う際の各バイト箇所に対するAttentionの大きさを取得する工程と、
取得した前記正常パケットの各バイト箇所のAttentionの大きさに基づき、前記正常パケットの重要バイト箇所をサンプリングし、前記サンプリングした重要バイト箇所をランダムなバイトに書き換えることにより、疑似異常パケットを生成する工程と、
生成した疑似異常パケット群および正常パケット群の異常度に基づき、異常パケットを検知するための異常度のしきい値を決定する工程と
をコンピュータに実行させるための異常検知プログラム。