JP4819014B2

JP4819014B2 - ログ解析方法、ログ格納装置及びプログラム

Info

Publication number: JP4819014B2
Application number: JP2007243570A
Authority: JP
Inventors: 友洋中村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-09-20
Filing date: 2007-09-20
Publication date: 2011-11-16
Anticipated expiration: 2027-09-20
Also published as: JP2009075817A

Description

本発明は、高信頼なコンピュータシステムを実現するために、異常検出もしくは異常予測を実現するログ解析技術に関する。

コンピュータシステムは、社会の様々な分野で利用され、社会活動に欠かせないものとなっている。それに伴って、コンピュータシステムの高信頼化に対する要求も高まっている。しかし、Ｗｅｂ３層システム（業務システム）のような複数の計算機からなる複雑なシステムでは、高信頼化を実現する上で欠かせない、システムの異常の検出や予測の実現が難しくなっている。最近ではＷｅｂ３層等のシステムを構成するハードウェア及びソフトウェアのマルチベンダ化や処理の分散化によって、この傾向はますます強まっている。

システムの異常を検出・予測するには、異常を検出するためのプローブをシステムに埋め込むか、システムから出力されるログから異常を検出するためのルールを用意するのが基本的な対策である。ところが、前記のようにシステムの複雑化やブラックボックス化によって、すべての異常に対してこのような対策がとれなくなっている。場合によっては、どのような異常が起こりえるかを列挙することも難しくなっている。しかしながら、コンピュータシステムの社会インフラストラクチャとしての重要性は増大しており、異常の検出・予測を迅速かつ正確に行う必要がある。

そこで、システムから出力されるログを、正常稼動時に出力されたログと比較して、変化が見られた場合に、システムの異常が起こった、もしくは起こる可能性があると判定する統計的手法を用いたログ解析技術を、異常の検出・予測に利用しようとする動きがある。例えば、非特許文献１や非特許文献２では、Ｗｅｂシステムのアクセスログに対して通常時のログと現在のログを比較して、Ｗｅｂシステムでの異常の発生を検出したり予測したりできることが開示されている。

非特許文献１や非特許文献２でも指摘されているが、このようなログ解析技術を利用したコンピュータシステムの異常の検出・予測では、フォールスポジティブ（以下では、誤報とフォールスポジティブを同義語とする）と呼ばれる現象が問題となることが知られている。フォールスポジティブとは、実際には異常が発生していないが、ログ解析結果では異常の発生を検出、もしくは予測してしまう現象である。フォールスポジティブが発生する理由はコンピュータシステムの構成や、ログ解析に利用するログの特性、ログ解析技術で利用するアルゴリズムなどにより異なり、様々であるが、大きく分けると以下の３つが挙げられる。
（Ａ）時々現れる異常ではないイベントによってフォールスポジティブが発生する場合
（Ｂ）ログ解析で利用する入力データ（ログ）に含まれているノイズによってフォールスポジティブが発生する場合
（Ｃ）ログ解析で利用するアルゴリズムやデータの前処理に不適切なものが含まれてフォールスポジティブが発生する場合
これらに対して、部分的な解決策が従来技術により与えられている。（Ａ）に対しては特許文献１および特許文献２が、（Ｂ）に対しては特許文献３が、（Ｃ）に対しては特許文献４、特許文献５および特許文献６がそれぞれ部分的な解決策を与えている。

上記（Ａ）の「時々現れる異常ではないイベントによってフォールスポジティブが発生する」問題に対しては、特許文献１の「時系列データ検索システム」（特開２００３−１３２０８８）で開示されるように、ウェーブレット変換を利用してデータ波形の特徴を保存し検索する時系列データ検索システムにより、時々現れる異常ではないイベントのログの特徴抽出をすることで部分的な解決が実現できる。また特許文献２の「障害原因発見装置、障害原因対策装置、及びそれらの方法」（特開平７−３１１６９１）で開示されているように、環境情報の変化と異常の発生原因及び対策の情報の組を用意して、環境情報の変化から異常の検出、対策を実行する方法において、異常の発生原因に対して正常なイベントであると登録することで、時々現れる異常ではないイベントによるフォールスポジティブの発生を低減することができる。

上記（Ｂ）の「ログ解析で利用する入力データ（ログ）に含まれているノイズによってフォールスポジティブが発生する」問題に対しては、特許文献３の「状態変化検出装置」（特開平７−３０１５４４）で開示されているように、ログを取得するサンプリング間隔の連続２区間で状態変化を検出したらノイズの影響と判定してサンプリング間隔を調整する方法により、ノイズによるフォールスポジティブの発生を低減することができる。

上記（Ｃ）の「ログ解析で利用するアルゴリズムやデータの前処理に不適切なものが含まれてフォールスポジティブが発生する」問題に対しては、特許文献４の「異常診断装置、異常予兆診断装置、及び不要事象検出装置」（特開２００３−２７１２３９）で開示されている、システムの正常時のパターンを覚えておいて正常時とのずれが一定量を超えたら異常と判定し、異常と判定されたときのパターンは記憶しない方法により、コンピュータシステムの異常を判定する学習アルゴリズムに異常時のログを学習させなくすることでフォールスポジティブの発生を低減することができる。また、特許文献５の「異常検出装置」（特開２００１−７４７９９）で開示されている、フーリエ変換を利用してデータの周波数成分の変化を検出して異常の有無を判定する方法により、時間成分に現れない異常を検出でき、検出アルゴリズムが改善され、フォールスポジティブの発生を低減することができる。さらに特許文献６の「ネットワーク監視システム及びその方法、プログラム」（特開２００５−２８５０４０）で開示されているように、異常の予兆を検出する監視によりシステムの異常を予測すると、その内容に応じたルールに従って詳細な情報を収集し、その結果異常ではないと判定したらその監視を止める方法により、複数の監視レベルを設けて実際に異常が発生しているか否かを詳細に判定することで、フォールスポジティブの発生を低減することができる。
特開２００３−１３２０８８公報特開平７−３１１６９１公報特開平７−３０１５４４公報特開２００３−２７１２３９公報特開２００１−７４７９９公報特開２００５−２８５０４０公報 P. Bodik、 G. Friedman、 L. Biewald、 H. Levine、 G. Candea、 K. Patel、 G. Tolle、 J. Hui、 A. Fox、 M. I. Jordan and D. Patterson、 "Combining Visualization and Statistical Analysis to Improve Operator Confidence and Efficiency for Failure Detection and Localization"、The 2nd IEEE International Conference on Autonomic Computing (ICAC '05)、 Seattle、 June 2005. 中村友洋、「Ｗｅｂアプリケーションの障害を予測する``アクセス時間解析方式''の提案」、情報処理学会論文誌、情報処理学会発行、2006年9月、コンピューティングシステム、Ｖｏｌ．４７、No. SIG12 (ACS15)、ｐｐ．３４９−３５７

本発明が対象とする、コンピュータシステムの高信頼化のための、ログ解析技術による異常の検出・予測では、異常の検出・予測の感度と精度のバランスをいかに取るかが課題となっている。一般に、異常の発生を逃さずに検出・予測しようとして検出・予測の感度を上げると、実際には異常が発生していない時にも異常の発生を検出したり予測したりしてしまうフォールスポジティブの発生が増加し、検出・予測の精度が低下してしまうというトレードオフが存在する。フォールスポジティブが増加するとログ解析技術を利用した異常の検出・予測に対する信頼が失われるため、フォールスポジティブを低減する必要がある。ただし、実際には異常が発生しているにも拘わらず異常の検出・予測がなされない状態をフォールスネガティブと呼ぶが、フォールスネガティブを発生させないことが前提となる。つまり、フォールスネガティブを発生させずに、いかにフォールスポジティブの発生を低減するかが課題である。

背景技術の項で説明したように、フォールスポジティブが発生する原因は、大きく分けて以下の３つがある。
（Ａ）時々現れる異常ではないイベントによってフォールスポジティブが発生する場合
（Ｂ）ログ解析で利用する入力データ（ログ）に含まれているノイズによってフォールスポジティブが発生する場合
（Ｃ）ログ解析で利用するアルゴリズムやデータの前処理に不適切なものが含まれてフォールスポジティブが発生する場合
この中で、（Ｂ）、（Ｃ）に関しては、背景技術で示した従来技術によってほぼ解決されているが、（Ａ）に関しては従来技術だけでは十分な解決ができていない。

そこで、本発明は、時々現れる異常ではないイベントによって発生するフォールスポジティブを低減し、異常の検出・予測に対する信頼を高めることを目的とする。

本発明は、ログ解析技術を利用したコンピュータシステムの異常の検出・予測におけるフォールスポジティブの発生を低減する方法および装置で、従来の異常の検出・予測方法および装置に加える形で実現する。

すなわち、計算機から出力されるログを解析して、計算機の異常を検出もしくは予測するログ解析方法において、前記計算機からログを受け付け、記受け付けたログを解析して、前記計算機に異常が発生したことを検出、または前記計算機に異常の発生を予測し、前記ログと、予め設定した誤報のルールとを比較して、前記計算機の異常の検出または異常の予測において誤報の発生を判定し、前記誤報の発生が判定されたときには、前記計算機の異常発生の検出または前記計算機の異常発生の予測において誤報の発生を低減する。

つまり、異常の検出・予測方法および装置の実現方法そのものは従来技術でよく、基本的にはどのようなログ解析技術を利用した異常の検出・予測方法であっても、本発明による方法および装置によってフォールスポジティブの発生を低減させることができる。

本発明により、従来技術で実現される異常の検出・予測方法および装置に加える部分は、大きく分けて５つのステップで構成される。５つのステップは必ずすべてが必要なわけではなく、一部だけでも本発明が解決しようとする課題の一部を解決できる。以下に５つのステップについて示す。

［ステップ１］フォールスポジティブの発生の通知もしくはフォールスポジティブの発生パターンの登録。異常の検出・予測結果がフォールスポジティブであった場合に、フォールスポジティブの発生を通知して、どのような場合にフォールスポジティブが発生するかを登録する。もしくは、例えば周期的にフォールスポジティブ発生することがわかっているような場合に、その周期を登録する。

［ステップ２］フォールスポジティブを起す状態の登録。フォールスポジティブが発生したときのログを登録する。登録するものは、ログそのものでなく、例えば通常時のログとの差分や、ログの発生頻度などの情報でもよい。またステップ１に示したフォールスポジティブの発生周期などの発生条件などでもよい。

［ステップ３］フォールスポジティブを起す状態の検出。フォールスポジティブ発生時のログや発生条件と、現在のログや状態を比較することで、フォールスポジティブの発生を検出・予測する。

[ステップ４] フォールスポジティブの発生可能性を低減する処理。例えば、フォールスポジティブの発生が検出・予測された場合に、ログ解析の結果を無効化したり、フォールスポジティブを起す可能性のあるログを削除したりする。

[ステップ５] 処理結果の通知。フォールスポジティブ発生可能性を低減する処理を行ったことを通知する。もしくは、フォールスポジティブ発生可能性を低減する処理を行った場合と、行わなかった場合の両方のログ解析結果を通知する。

したがって、課題を解決するための手段に示した５つのステップによれば、例えば、フォールスポジティブの発生時にフォールスポジティブを発生させたログの登録を行い、以降で同様のログが出力された場合にそれを検出し、そのログを削除することでログ解析結果がフォールスポジティブにならないようにすることが可能となる。つまり、本発明によれば、従来技術で実現されるログ解析技術を利用したコンピュータシステムの異常の検出・予測に関し、フォールスポジティブの発生を低減して異常の検出精度または予測精度を向上でき、ログ解析技術による異常の検出・予測に対する信頼を高め、コンピュータシステムの高信頼化を実現できる効果がある。

さらに、ログ解析技術による異常の検出・予測の精度向上により、異常の検出・予測を全自動化もしくは半自動化することが可能となるので、従来よりもコンピュータシステムの運用管理に要するコストを低減できる。

以下、本発明の一実施形態を添付図面に基づいて説明する。

本発明によるコンピュータシステムの異常検出における誤報発生（フォールスポジティブ）を低減するログ解析処理の一例を図１から図２０を使って説明する。

図１は、本発明を適用する計算機システムの基本的な構成を示すブロック図である。コンピュータシステム１０１は、異常の検出・予測を行う対象となるコンピュータシステムである。コンピュータシステム１０１は、１台以上の計算機１０２から構成される。計算機１０２は、演算処理を行うＣＰＵと、プログラムやデータを格納するメモリを備え、コンピュータシステム１０１が提供するサービスを実現するための処理を実行する。各計算機１０２は、１つ以上のログ生成部１０３を持つ。各ログ生成部１０３は、各計算機１０２を構成するハードウェアやソフトウェアの実行状態や、実行した処理や発生したエラーなどのイベント履歴などをログとして生成する。ログ生成部１０３で生成されたログは、各計算機１０２や、コンピュータシステム１０１内外に記録される。このログの記録は、例えば、各計算機１０２のストレージ装置や、コンピュータシステム１０１内のストレージ装置、あるいはコンピュータシステム１０１に接続されたネットワーク上のストレージ装置などに適宜書き込むことで実現できる。

ログ解析部１０５は、ログ生成部１０３で生成されたログをネットワーク１０４経由で取得し、ログを解析することで、コンピュータシステム１０１の異常の発生を検出または予測する。ログ解析部１０５は、取得したログからコンピュータシステム１０１の異常の検出または異常発生の予測を行う検出・予測部１０６と、コンピュータシステムの異常検出結果または異常の予測結果を出力する結果表示部１１１から構成される。なお、コンピュータシステム１０１の異常の検出とは、例えば、ハードウェアの停止や誤動作、ソフトウェアの停止や誤動作などの検出であり、異常の予測とは、例えば、ハードウェアリソースの不足（ストレージ装置やメモリの記憶領域の不足）やＣＰＵやネットワークの過負荷、通常とは異なる処理の実行など、コンピュータシステム１０１の停止や誤動作を引き起こす可能性のある状態を判定するものである。

さらに、異常検出・予測部１０６は、ログ収集部１０７、異常判定部１０８、結果出力部１０９から構成される。ログ収集部１０７は、ネットワーク１０４を介して、コンピュータシステム１０１の各計算機１０２のログ生成部１０３で生成されたログを収集する。異常判定部１０８は、ログ収集部１０７が収集したログから、コンピュータシステム１０１に異常が発生しているか判定する。異常の発生の判定方法については、上述の非特許文献１や非特許文献２等に記載の公知または周知の方法の他に、異常判定ルールに基づいて判定する方法などがある。ただし、異常の発生の判定方法について、これらに限定するものではない。

異常判定部１０８の判定結果は、結果出力部１０９から結果出力パス１１０を介して結果表示部１１１に伝達する。結果表示部１１１は、異常判定結果または異常の予測結果を表示する。

上記図１に示した構成は、コンピュータシステム１０１の異常の検出・予測を行うログ解析方法に関する、基本的な構成図であるが、本発明が対象とするログ解析方法は、この構成に限定するものではなく、コンピュータシステム１０１内で生成されたログを解析して異常の発生を検出・予測するすべての方法が対象となる。また、図１に示すログ解析部１０５は、後述の図２０のように計算機で構成される。

図２は、本発明の第１の実施形態による誤報発生時のログを利用した誤報発生の可能性を検出する方法を適用したコンピュータシステムの一例を示すブロック図である。

図２において、コンピュータシステム１０１は、図１に記載のコンピュータシステム１０１と同じであるが、コンピュータシステム１０１内に含まれる計算機１０２、ログ生成部１０３は図２では省略してある。以下の図でも同様に、コンピュータシステム１０１には、図１に示したように計算機１０２、ログ生成部１０３が含まれるものとする。

図２において、誤報検出部２０１は、コンピュータシステム１０１内で生成されたログを、ネットワーク１０４を介して取得し、誤報時ログ記憶部２０２に予め記録されている誤報発生時のログと照合することで、コンピュータシステム１０１の異常の検出・予測を行う、異常検出・予測部２０７の解析結果が誤報である可能性を検出する。

より具体的には、誤報検出部２０１は、比較器２０５を含み、比較器２０５はネットワーク１０４から入力されるコンピュータシステム１０１の現在のログと、誤報時ログ記憶部２０２から誤報時ログパス２０３を介して入力される誤報時のログを比較し、両者が一致もしくは類似した場合に誤報検出結果パス２０４に誤報発生の可能性を出力する。なお、現在のログと誤報時のログの類似は、例えば、現在のログの発生パターンと、誤報時のログの発生パターンを比較して、パターンが一致したときに双方のログが類似していると判定することができる。異常検出・予測部２０７は、誤報検出結果パス２０４から誤報発生の可能性に関する情報を得て、誤報の発生を抑止したり、結果表示部１１１に対して誤報発生の可能性を通知したりする。誤報検出結果の利用方法については、後で実施例を述べる。

また、図２に示すログ解析部２０６は、後述の図２０のように複数の計算機で構成することができる。そして、ログ解析部２０６は、図２０のように誤報検出部を実行する計算機と、異常検出・予測部を実行する計算機を独立させても良いし、これら２つの機能を同一の計算機で実行するようにしてもよい。また、比較器２０５で使用する誤報時のログは、予め設定した誤報のルールを用いてもよい。さらに、誤報時ログ記憶部２０２は、誤報検出部２０２を実行する計算機のストレージ装置などに格納しておけばよい。

図３（Ａ）、（Ｂ）は、本発明による図２に示した方法において、誤報発生時のログ（または誤報のルール）と現在のログとの比較方法の具体的な例を示す図である。まず、図３（Ａ）に基づいて誤報時ログ記憶部２０２に記録する誤報時ログの例３０３〜３０６の生成方法について説明する。

正常時のログ３０１は、コンピュータシステム１０１が正常に稼動しており、異常検出・予測部２０７での異常判定結果も誤報とならない場合のログの例である。この例では、ログはタイムスタンプとイベント名の組を１行で示しており、正常時のログ３０１では９：００：００から９：００：１２までにイベントＡとイベントＢが交互に合計７回発生している場合を示している。一方、誤報発生時のログ３０２は、コンピュータシステム１０１は正常に稼動しているが、異常検出・予測部２０７での異常判定結果では異常の発生を検出もしくは予測された場合のログの例である。つまり、誤報が発生した際のログである。この例では、９：３０：００から９：３０：１２までにイベントＡ、イベントＢ、イベントＣの３種類のイベントが順次に発生している。

誤報時ログ記憶部２０２には、正常時のログ３０１と誤報発生時のログ３０２から、例えば図中（例１）から（例４）に示すような誤報時ログ３０３〜３０６が登録される。

（例１）誤報時ログ３０３は、特定の時刻におけるイベントＣのログが誤報を発生させるログであることを示している。図３（Ａ）の例では、毎時３０分に起こるイベントＣが誤報発生の原因である場合、ＸＸ＝＊（任意）、ＹＹ＝３０、ＺＺ＝＊（任意）として登録する。なお、ＸＸは「時」を示し、ＹＹは「分」を示し、「ＺＺ」は秒を示す。

（例２）誤報時ログ３０４は、４秒間隔でイベントＣが発生すると誤報が発生する場合の登録方法である。

（例３）誤報時ログ３０５は、イベントＡ、イベントＢ、イベントＣが順番に、それぞれの時間間隔が、イベントＡの２秒後にイベントＢ、イベントＢの１秒後にイベントＣの場合にイベントＣがあることによって誤報が発生する場合の登録方法である。図３（Ａ）で記号＃は、＃のついたイベントが誤報を発生させる原因となっていることを示している。

（例４）誤報時ログ３０６は、時刻ではなく、ログに含まれるイベントＡ、イベントＢ、イベントＣの比が、１：１：１の時に誤報が発生することを示している。ここで、各イベントの比は、例えば、各イベントＡ〜Ｃの出現頻度の比などとすればよい。

次に、誤報検出部２０１での誤報検出方法の具体的な例について図３Ｂで説明する。ネットワーク１０４から入力される現在のログ３０７は、図３（Ｂ）において、１０：２０：３０から１０：２０：３８までのログで、７つのイベントを含んでいる。一方、誤報時ログ記憶部２０２から誤報時ログパス２０３を介して入力される誤報時ログ３０４は、イベントＣが４秒間隔で発生したときに、誤報が発生することを示している。誤報検出部２０１では、誤報検出時ログ３０８に示すように、現在のログの中から４秒間隔で並ぶイベントＣのログを比較器２０５によって検出して、１０：２０：３３と１０：２０：３７に誤報の発生可能性２０４を異常検出・予測部２０７へ出力する。誤報の発生可能性２０４を受信した異常検出・予測部２０７では、当該ログの無効化を行ってからログ解析を行って、コンピュータシステム１０１の異常の検出及び予測を行うことで、検出精度及び予測精度を向上させることができる。

なお、図３（Ａ），（Ｂ）に示した誤報時ログの例や誤報検出時ログなどは、一例を示したにすぎない。例えば、誤報時ログ記憶部２０２には、誤報が発生したときのログをそのまま登録するなどの方法も考えられる。

図４は、ログ解析部２０６で行われる処理の一例を示すフローチャートである。

最初にコンピュータシステム１０１から誤報検出部２０１でログを受信する（ステップ２３０２）。誤報検出部２０１は誤報時ログ記憶部２０２に記録されている誤報時ログと、ステップ２３０２で受信したログを比較して、誤報の発生可能性を検出する（ステップ２３０３）。

誤報の発生可能性の検出の有無によって処理が分岐する（ステップ２３０４）。誤報の発生可能性を検出しなかった場合は、異常検出・予測部２０７はログ収集部１０７でコンピュータシステム１０１からログを受信する（ステップ２３０５）。次に、異常検出・予測部２０７は異常判定部１０８で異常の発生の検出・予測を行う（ステップ２３０６）。異常検出・予測部２０７は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ２３０７）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ２３０８）。

一方、ステップ２３０４の判定で誤報の発生可能性を検出した場合、ステップ２３０４に続いてステップ２３０９が実行される。つまり、異常検出・予測部２０７に誤報検出部２０１は誤報検出結果２０４を送信する（ステップ２３０９）。異常検出・予測部２０７は、誤報検出結果に応じて異常判定結果の出力の無効化や、処理の停止などを行う（ステップ２３１０）。以上の処理フローによって、誤報検出部２０１を利用した誤報の発生の低減が実現される。これにより、異常検出の精度と異常予測の精度を高めることが可能となる。

図５は、本発明による誤報発生条件を利用した誤報発生の可能性を検出する方法を適用したコンピュータシステムのブロック図である。上記図２に示した誤報検出方法とは別の方法であるが、図２と図５に示した方法を同時に利用することもできる。図２に示した方法との主な違いは、誤報検出部４０１と誤報検出部４０１への入力の１つである誤報発生条件記憶部４０２である。

図５において、誤報検出部４０１は、コンピュータシステム１０１内で生成されたログを、ネットワーク１０４を介して取得し、誤報発生条件記憶部４０２に記録されている誤報条件と照合することで、コンピュータシステム１０１の異常の検出・予測を行う。より具体的には、誤報検出部４０１は、比較器４０８を含み、比較器４０８はネットワーク１０４から入力されるコンピュータシステム１０１の現在のログと、誤報発生条件記憶部４０２から誤報発生条件パス４０３を介して誤報発生条件を入力とする。ただし、現在のログについては、比較器入力パス４０７を介して比較器４０８へ入力する経路上にログ入力スイッチ４０６があり、誤報発生条件に含まれる誤報発生周期に関する情報によって、比較器４０８に現在のログ１０４を入力するか、しないかを選択できる。

誤報発生周期とは、例えば１日の中で午前０時から午前1時の間がコンピュータシステムの定期保守時間となっている場合、この１時間を除いた時間についてのみ、誤報検出を行いたい場合などに設定して利用する。これによって、誤報の発生可能性を検出する必要がない場合に、検出をしないようにすることができる。図５のその他の部分については、図２と同様の処理である。

図６（Ａ）、（Ｂ）は、本発明による図５に示した方法において、誤報発生条件と現在のログとの比較方法の具体的な例を示す図である。まず、誤報発生条件記憶部４０２に記録する誤報発生条件の例５０３〜５０６の生成方法について図６（Ａ）を参照しながら説明する。定期的に発生するログ５０１は、毎時００分にだけイベントＣが発生する例を示している。一定時間だけ発生するログ５０２は、午前０時から午前１時の間だけイベントＣが発生する例を示している。いずれの例でも、イベントＣは限られた回数もしくは時間帯にのみ発生するので、非特許文献１や非特許文献２に記載されているような、通常時のログと現在のログを比較して、その乖離が大きい場合に異常の発生を検出・予測するような手法では、イベントＣによって異常の発生が検出されたり予測されたりすることが起こりえる。しかし、定期的に発生するログ５０１のような毎時００分にだけ発生するようなイベントは、例えば定期的なデータのバックアップや、キャッシュのクリアなどでよく見られるケースであるし、一定時間だけ発生するログ５０２も、例えば、毎晩実行される定期保守や、毎朝・毎夕実行される起動・終了処理などよく見られるケースである。このように、実際には異常は発生していないものの、ログ解析による異常の発生の検出・予測では異常と判定される可能性がある条件を記録しておくのが、誤報発生条件記憶部４０２である。

（例１）誤報発生条件５０３は、特定の時刻に発生するイベントＣを誤報発生条件として登録する例である。

（例２）誤報発生条件５０４は、イベントＢの前後で発生するイベントＣを誤報発生条件として登録する例である。

（例３）誤報発生条件５０５は、特定の時間帯（ここでは１時間）のイベントＣを誤報発生条件として登録する例である。

（例４）誤報発生条件５０６は、イベントＡに対してイベントＣの発生回数が１％未満ならばイベントＣが誤報を発生させる可能性があることを誤報発生条件として登録する例である。

図６（Ａ）で示す記号＃は、＃のついたイベントが誤報を発生させる原因となっていることを示している。次に、誤報検出部４０１での誤報検出方法の具体的な例について図６（Ｂ）で説明する。

ネットワーク１０４から入力される現在のログ５０７は、２３：５９：５９から００：００：０５までのログで、７つのイベントを含んでいる。一方、誤報発生条件記憶部４０２から誤報発生条件パス４０３を介して入力される誤報発生条件５０８は、午前０時から午前１時の時間帯に発生するイベントＣは誤報を発生させる可能性があることを示している。逆にこの時間帯以外は、誤報の発生検出を行わなくても良いことになる。そこで、誤報発生周期パス４０５を介して、ログ入力スイッチ４０６を午前０時から午前１時までの間だけログを通す状態にする。すると誤報検出部４０１に入力される、選択されたログ５０９は６つのイベントだけになる。誤報検出部４０１では、誤報発生条件５０８に誤報を発生させる可能性のあるイベントとして登録されているイベントＣを検出する。誤報検出部４０１は、誤報の発生可能性４０４を異常検出・予測部４１０へ出力する。誤報の発生可能性４０４を受信した異常検出・予測部４１０では、当該ログの無効化を行ってからログ解析を行って、コンピュータシステム１０１の異常の検出及び予測を行うことで、検出精度及び予測精度を向上させることができる。

なお、ログ入力スイッチ４０６を省略し、誤報検出部４０１で午前０時から午前１時までの間のログだけを誤報検出する方法でもよい。

図７は、ログ解析部４０９で行われる処理の一例を示すフローチャートである。

最初にコンピュータシステム１０１から誤報検出部４０１でログを受信する（ステップ２４０２）。誤報検出部４０１は誤報発生条件記憶部４０２に記録されている誤報発生条件（誤報発生周期）と、ステップ２４０２で受信したログを比較して、誤報の発生可能性を検出する（ステップ２４０３）。受信したログが誤報発生条件４０３に合致していればステップ２４０４へ進み、合致していなければステップ２４０６に進む。

誤報の発生可能性を検出しなかった場合は、異常検出・予測部４１０はログ収集部１０７でコンピュータシステム１０１からログを受信する（ステップ２４０６）。次に、異常検出・予測部４１０は異常判定部１０８で異常の発生の検出・予測を行う（ステップ２４０７）。異常検出・予測部４１０は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ２４０８）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ２４０９）。

一方、ステップ２４０３の判定で誤報の発生可能性を検出した場合、ステップ２４０３に続いてステップ２４０４が実行される。ステップ２４０４では、誤報検出部４０１が誤報発生条件記憶部４０２に記録されている誤報発生条件（誤報発生周期）と、ステップ２４０２で受信したログを比較して、誤報の発生可能性を検出する。誤報の発生可能性があればステップ２４１０ヘ進み、そうでなければステップ２４０６へ進む。

ステップ２４１０では、誤報検出部４０１が異常検出・予測部４１０に誤報検出結果４０４を送信する（ステップ２４１０）。異常検出・予測部４１０は、誤報検出結果に応じて異常判定結果の出力の無効化や、処理の停止などを行う（ステップ２４１１）。以上の処理フローによって、誤報検出部４０１を利用した誤報の発生の低減が実現される。これにより、異常検出の精度と異常予測の精度を高めることが可能となる。

図８は誤報発生可能性を検出した際に異常検出・予測処理を無効化する方法を適用したコンピュータシステムを示すブロック図である。図８で誤報検出部６０１は、図２の誤報検出部２０１や図５の誤報検出部４０１と同じ方法で誤報の発生可能性を検出する。また、誤報時ログ・誤報発生条件記憶部６０２も、図２の誤報時ログ記憶部２０２や図５の誤報発生条件記憶部４０２を併せたもので、誤報時のログと誤報発生条件を格納したものである。なお、誤報時のログと誤報発生条件は、誤報検出のルールとすることができる。

誤報検出部６０１で誤報の発生可能性が検出されると、誤報検出結果パス６０４を介して異常検出・予測部６１３に含まれる制御部６０５に誤報検出結果が通知される。制御部６０５は、異常検出・予測部６１３のログ収集部１０７、異常判定部１０８、結果出力部１０９のすべてもしくは一部に対して誤報検出結果に基づいて処理の中止や処理結果の無効化を行う。誤報の発生可能性が検出された場合、制御部６０５はログ収集部１０７に対して、例えば、ログの収集処理の中止や収集してあるログの廃棄を指示する。また、制御部６０５は異常判定部１０８に対して、例えば、異常判定結果の無効化を指示する。制御部６０５は結果出力部１０９に対して、出力しようとする結果が、異常が発生したと検出もしくは予測を示している場合、例えばそれを無効化する。以上のような方法で、誤報の発生可能性が検出された場合に、異常検出・予測部６１３が異常の発生と検出もしくは予測していたとしても、結果表示部においては、異常の発生を検出もしくは予測したとは表示されず、誤報の発生を抑止することができる。誤報検出結果パス６０４を介して誤報検出部６０１から制御部６０５に通知される誤報検出結果６０９については、ある時点に誤報の発生の可能性が検出されたと通知する方法の他に、図８に示した誤報検出結果（例１）６１０のように、ある時点から１時間の間、異常検出・予測部６１３での異常判定処理をストップする指示を通知してもよい。また、誤報検出結果（例２）６１１のように、ある時点から１時間の間、異常検出・予測部６１３で判定した異常度を半減させる支持を通知することで、異常検出・予測の感度を低くし、誤報の発生を低減する方法なども含まれる。

図９は図８に示した方法において、誤報発生可能性を検出した際に異常検出・予測処理を無効化する方法を示す処理フローである。最初にコンピュータシステム１０１から誤報検出部６０１でログを受信する（ステップ７０２）。誤報検出部６０１は誤報時ログ・誤報発生条件記憶部６０２に記録されている誤報時ログ・誤報発生条件と、ステップ７０２で受信したログを比較して、誤報の発生可能性を検出する（ステップ７０３）。誤報の発生可能性の検出の有無によって処理が分岐する（ステップ７０４）。誤報の発生可能性を検出しなかった場合は、異常検出・予測部６１３はログ収集部１０７でコンピュータシステムからログを受信する（ステップ７０５）。

次に、異常検出・予測部６１３は異常判定部１０８で異常の発生の検出・予測を行う（ステップ７０６）。異常検出・予測部６１３は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ７０７）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ７０８）。誤報の発生可能性を検出した場合、ステップ７０４に続いてステップ７０９が実行される。つまり、異常検出・予測部６１３に誤報検出部６０１は誤報検出結果を送信する（ステップ７０９）。異常検出・予測部６１３の制御部６０５は、誤報検出結果に応じて異常判定結果の出力の無効化や、処理の停止などを行う（ステップ７１０）。以上の処理フローによって、誤報検出部６０１を利用した誤報の発生の低減が実現される。

図１０は誤報発生可能性を検出した際に誤報発生を起す可能性のあるログを削除する方法を適用したコンピュータシステムを示すブロック図である。

図１０は、図８で示した方法と目的は同じであるが、別の方法で目的を達成する方法である。図１０で誤報検出部８０１は、図２の誤報検出部２０１や図５の誤報検出部４０１と同じ方法で誤報の発生可能性を検知し、誤報時ログ・誤報発生条件記憶部８０２も、図２の誤報時ログ記憶部２０２や図５の誤報発生条件記憶部４０２と同じ方法で誤報時のログや誤報発生条件を格納したものである。

誤報検出部８０１で誤報の発生可能性が検出されると、誤報検出結果パス８０５を介してログ修正部８０４に誤報検出結果が通知される。ログ修正部８０４は、ネットワーク１０４を介してコンピュータシステム１０１内で生成されたログを受信するが、誤報検出結果に基づいてログの修正や削除を行う。例えば、ログに含まれる特定のイベントが誤報を発生する原因であることが、誤報時ログ・誤報発生条件記憶部８０２に記録されており、そのログの発生を誤報検出部８０１が検出した場合、誤報検出部８０１はそのログの削除をログ修正部８０４に対して指示し、ログ修正部８０４は該当するログの削除を実行する。修正後のログは異常検出・予測部８０７のログ収集部１０７に送信される。これにより、異常検出・予測部８０７では誤報を発生することがなくなり、異常検出の精度と異常予測の精度を高めることが可能となる。

図１０では、ログ収集部１０７はコンピュータシステム１０１からネットワーク１０４を介して直接ログを受信できるパスと、ログ修正部８０４から修正後のログを受信できるパスの２つのパスが１つのパスにまとめて記載されているが、これは２つのパス別々でも問題なく、さらに、ログ修正部８０４からの修正後のログを受信するパスだけでも良い。異常検出・予測部８０７および結果表示部１１１の処理方法については、図２や図５に示した方法と同じである。以上のような方法で、誤報の発生可能性が検出された場合に、ログ修正部８０４によって、誤報を発生する可能性のあるログを修正・削除できるため、誤報の発生を抑止することができる。

図１１は図１０に示した方法において、誤報発生可能性を検出した際に誤報発生を起す可能性のあるログを削除する方法を示す処理フローである。最初にコンピュータシステム１０１から誤報検出部８０１でログを受信する（ステップ９０２）。誤報検出部８０１は誤報時ログ・誤報発生条件記憶部８０２に記録されている誤報時ログ・誤報発生条件と、ステップ９０２で受信したログを比較して、誤報の発生可能性を検出する（ステップ９０３）。

誤報の発生可能性の検出の有無によって処理が分岐する（ステップ９０４）。誤報の発生可能性を検出しなかった場合は、異常検出・予測部８０７はログ収集部１０７でコンピュータシステムからログを受信する（ステップ９０５）。ステップ９０５では、ログ修正部８０４からログを受信しても良い。なぜならば、ステップ９０５は、誤報の発生可能性を検出しなかった場合であるので、ログ修正部８０４からログを受信しても、ネットワーク１０４を介して直接コンピュータシステム１０１からログを受信しても、ログに相違がないからである。次に、異常検出・予測部８０７は異常判定部１０８で異常の発生の検出・予測を行う（ステップ９０６）。異常検出・予測部８０７は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ９０７）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ９０８）。

誤報の発生可能性を検出した場合、ステップ９０４に続いてステップ９０９が実行される。つまり、ログ修正部８０４に誤報検出部６０１は誤報検出結果を送信する（ステップ９０９）。ログ修正部８０４はコンピュータシステム１０１からログを受信し、誤報検出結果に応じてログを修正・削除する（ステップ９１０）。異常検出・予測部８０７のログ収集部１０７は、ログ修正部８０４からログを受信する（ステップ９１１）。ステップ９１１では、ネットワーク１０４を介してコンピュータシステム１０１からもログを受信してよい。続いてステップ９１２からステップ９１４で異常検出予測部８０７と結果表示部１１１は、異常の発生の検出・予測を行い、結果を表示する。ステップ９１２からステップ９１４は、ステップ９０６からステップ９０８と同じである。

以上の処理フローによって、誤報検出部８０１とログ修正部８０４を利用した誤報の発生の低減が実現される。

図１２は誤報発生可能性を検出した際に誤報発生を起す可能性のあるログに印をつけて、異常検出・予測処理を変更する方法を適用したコンピュータシステムの一例を示すブロック図である。図１２は、図１０で示した方法と目的は同じであるが、別の方法で目的を達成する方法である。

図１２で誤報検出部１００１は、図２の誤報検出部２０１や図５の誤報検出部４０１と同じ方法で、誤報時ログ・誤報発生条件記憶部１００２も、図２の誤報時ログ記憶部２０２や図５の誤報発生条件記憶部４０２と同じ方法である。誤報検出部１００１で誤報の発生可能性が検出されると、誤報検出結果パス１００５を介してログ修正部１００４に誤報検出結果が通知される。

ログ修正部１００４は、ネットワーク１０４を介してコンピュータシステム１０１内で生成されたログを受信するが、誤報検出結果に基づいてログに印を付ける。例えば、ある時間帯のログが誤報を発生させる可能性が高い場合、誤報検出部１００１はその時間帯に入ったことを検出し、誤報検出部１００１はそのログに印を付けることをログ修正部１００４に対して指示し、ログ修正部１００４は該当するログに印を付ける。印は１種類である必要はなく、複数種類の印でも良い。

ログ修正部１００４で修正後のログはログスイッチ１００７に送信される。ログスイッチ１００７は、ログに印が付いているか、いないかによって異常検出・予測部１０１０に含まれる複数のログ収集部１０７のいずれにログを転送するかを決定する。ログに付加した印に応じてどのログ収集部１０７に転送するかを決めるために、誤報検出部１００１は誤報検出結果パス１００６を介してログスイッチ１００７に印と転送先のログ収集部１０７の関係について情報を送信する。これにより、異常検出・予測部１０１０では、誤報を起こす可能性のあるログと、それ以外のログで異常検出・予測の方法を変更したり、結果の出力を別々にしたりでき、誤報を起す可能性に応じて異常の発生の検出や予測の感度を変更したり、結果の表示方法を誤報の発生の可能性に応じて変更したりすることができ、誤報の発生を低減したり、誤報である可能性を通知したりすることができる。

異常検出・予測部１０１０は、複数のログ収集部１０７、異常判定部１０８、結果出力部１０９を持つ。これらの一部は共用しても良い。それぞれのログ収集部１０７、異常判定部１０８、結果出力部１０９での処理方法については、図２や図５に示した方法と同じである。

以上のような方法で、誤報の発生可能性が検出された場合に、ログ修正部１００４とログスイッチ１００７によって、異常検出・予測部１０１０における異常検出・予測方法を変更したり、結果の出力方法を変更したりできるので、誤報の発生を抑止することができる。なお、図８、図１０、図１２で示した方法は、このうちの１つだけを利用しても良いし、複数を組み合わせて利用しても良い。

図１３は図１２に示した方法において、誤報発生可能性を検出した際に誤報発生を起す可能性のあるログに印をつけて、異常検出・予測処理を変更する方法を示す処理フローである。

最初にコンピュータシステム１０１から誤報検出部１００１でログを受信する（ステップ１１０２）。誤報検出部１００１は、誤報時ログ・誤報発生条件記憶部１００２に記録されている誤報時ログ及び誤報発生条件と、ステップ１１０２で受信したログを比較して、誤報の発生可能性を検出する（ステップ１１０３）。誤報の発生可能性の検出の有無によって処理が分岐する（ステップ１１０４）。誤報の発生可能性を検出しなかった場合は、異常検出・予測部１０１０はログ収集部１０７でコンピュータシステム１０１からログを受信する（ステップ１１０５）。次に、異常検出・予測部１０１０は異常判定部１０８で異常の発生の検出・予測を行う（ステップ１１０６）。異常検出・予測部１０１０は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ１１０７）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ１１０８）。

誤報の発生可能性を検出した場合、ステップ１１０４に続いてステップ１１０９が実行される。つまり、ログ修正部１００４とログスイッチ１００７に誤報検出部１００１は誤報検出結果を送信する（ステップ１１０９）。ログ修正部１００４はコンピュータシステム１０１からログを受信し、誤報検出結果に応じてログに印を付ける（ステップ１１１０）。ログスイッチ１００７はコンピュータシステム１０１とログ修正部１００４からログを受信し、誤報検出結果とログに付いた印に応じて複数のログ収集部１０７の何れかひとつへログを転送する（ステップ１１１１）。ステップ１１１２からステップ１１１４は、ステップ１１０６からステップ１１０８と同じである。

以上の処理フローによって、誤報検出部１００１とログ修正部１００４、ログスイッチ１００７を利用した誤報の発生の低減が実現される。

図１４は異常検出・予測結果が誤報であることを通知する処理と、誤報発生時のログを記録する方法を適用したコンピュータシステムを示すブロック図である。

図１４で、誤報通知部１２０１は、誤報が発生した際に、誤報の発生を誤報記録部１２０３に通知する手段である。例えば、誤報が発生した時刻と、誤報の発生が終了した時刻を通知する方法などがある。誤報通知部１２０１では、どのような誤報であったかを通知内容に含めることもある。これは、同様の原因で発生した誤報に関して、誤報時ログをまとめて記録するのに利用できる。

誤報記録部１２０３は、コンピュータシステム１０１内で生成されたログを、ネットワーク１０４を介して受信する。さらに、誤報通知部１２０１から誤報通知パス１２０２を介して誤報の発生通知を受信し、誤報発生時には、受信しているログを利用して、誤報発生時のログを、誤報記録パス１２０４を介して誤報時ログ・誤報発生条件記憶部６０２に記録する。

誤報記録部１２０３の処理は、例えば、図３の説明で述べた、誤報時ログの生成方法である。図１４で誤報検出部６０１や異常検出予測部６１３、結果表示部１１１の処理は、図８に示した方法と同じである。なお、図１４では、図８の方法に対して、誤報通知部１２０１、誤報記録部１２０３などを加えた構成となっているが、図８に限らず、図１０や図１２の方法に対して誤報通知部１２０１、誤報記録部１２０３などを加えた構成も可能である。

図１５は図１４に示した方法において、異常検出・予測結果が誤報であることを通知する手段と、誤報発生時のログを記録する方法を示す処理フローである。

最初に誤報通知部１２０１で誤報の発生を通知する（ステップ１３０２）。誤報記録部１２０３は、誤報通知部１２０１から誤報の発生通知を受信すると、誤報発生時のログを誤報時ログ・誤報発生条件記憶部６０２に記録する（ステップ１３０３）。次にコンピュータシステム１０１から誤報検出部６０１でログを受信する（ステップ１３０４）。誤報検出部６０１は誤報時ログ・誤報発生条件記憶部６０２に記録されている誤報時ログ及び誤報発生条件と、ステップ１３０４で受信したログを比較して、誤報の発生可能性を検出する（ステップ１３０５）。誤報の発生可能性の検出の有無によって処理が分岐する（ステップ１３０６）。

誤報の発生可能性を検出しなかった場合は、異常検出・予測部６１３はログ収集部１０７でコンピュータシステムからログを受信する（ステップ１３０７）。次に、異常検出・予測部６１３は異常判定部１０８で異常の発生の検出・予測を行う（ステップ１３０８）。異常検出・予測部６１３は結果出力部１０９で異常の発生の検出・予測結果を送信する（ステップ１３０９）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ１３１０）。

誤報の発生可能性を検出した場合、ステップ１３０６に続いてステップ１３１１が実行される。つまり、異常検出・予測部６１３に誤報検出部６０１は誤報検出結果を送信する（ステップ１３１１）。異常検出・予測部６１３の制御部６０５は、誤報検出結果に応じて異常判定結果の出力の無効化や、処理の停止などを行う（ステップ１３１２）。

以上の処理フローによって、誤報検出部６０１を利用した誤報の発生の低減が実現される。

図１６は異常検出・予測において誤報が発生する可能性のある条件を設定する処理を含むログ解析方法を適用したコンピュータシステムを示すブロック図である。

図１６で、誤報発生条件登録部１４０１は、誤報が発生した際もしくは、誤報の発生条件が分かっている場合に、誤報の発生条件を誤報発生条件記録部１４０３に通知する処理である。例えば、コンピュータシステム１０１の定期保守を特定の時間帯に行う場合、その時間帯には誤報が発生する可能性が高くなることを登録する方法などがある。誤報発生条件登録部１４０１では、どのような誤報であるかを通知内容に含めることもある。これは、同様の原因で発生する誤報に関して、誤報発生条件をまとめて記録するのに利用できる。

誤報発生条件記録部１４０３は、誤報発生条件登録部１４０１から誤報発生条件通知パス１４０２を介して誤報の発生条件を受信し、誤報発生条件記録パス１４０４を介して誤報時ログ・誤報発生条件記憶部６０２に記録する。誤報発生条件登録部１４０１および誤報発生条件記録部１４０３の処理は、例えば、図６の説明で述べた、誤報発生条件の生成方法である。図１６に示す誤報検出部６０１や異常検出予測部６１３、結果表示部１１１の処理は、図８に示した方法と同じである。なお、図１６では、図８の方法に対して、誤報発生条件登録部１４０１、誤報発生条件記録部１４０３などを加えた構成となっているが、図８に限らず、図１０や図１２，図１４の方法に対して誤報発生条件登録部１４０１、誤報発生条件記録部１４０３などを加えた構成も可能である。

図１７は図１６に示した方法において、異常検出・予測において誤報が発生する可能性のある条件を設定する手段を含むログ解析方法を示す処理フローである。

最初に誤報発生条件登録部１４０１で誤報の発生条件を登録する（ステップ１５０２）。誤報発生条件記録部１４０３は、誤報発生条件登録部１４０１から誤報の発生条件を受信すると、誤報発生条件を誤報時ログ・誤報発生条件記憶部６０２に記録する（ステップ１５０３）。次にコンピュータシステム１０１から誤報検出部６０１でログを受信する（ステップ１５０４）。誤報検出部６０１は誤報時ログ・誤報発生条件記憶部６０２に記録されている誤報時ログ及び誤報発生条件と、ステップ１５０４で受信したログを比較して、誤報の発生可能性を検出する（ステップ１５０５）。誤報の発生可能性の検出の有無によって処理が分岐する（ステップ１５０６）。

誤報の発生可能性を検出しなかった場合は、異常検出・予測部６１３はログ収集部１０７でコンピュータシステムからログを受信する（ステップ１５０７）。次に、異常検出・予測部６１３は異常判定部１０８で異常の発生の検出・予測を行う（ステップ１５０８）。異常検出・予測部６１３は結果出力部１０９で異常の発生の検出・予測結果を結果表示部１１１へ送信する（ステップ１５０９）。そして結果表示部１１１で異常の発生の検出・予測結果を表示する（ステップ１５１０）。

誤報の発生可能性を検出した場合、ステップ１５０６に続いてステップ１５１１が実行される。つまり、異常検出・予測部６１３に誤報検出部６０１は誤報検出結果を送信する（ステップ１５１１）。異常検出・予測部６１３の制御部６０５は、誤報検出結果に応じて異常判定結果の出力の無効化や、処理の停止などを行う（ステップ１５１２）。

図１８は異常検出・予測結果に、誤報発生を起す可能性を検出してログ修正したことを示す情報を付加する処理を含むログ解析方法を適用したコンピュータシステムを示すブロック図である。

図１８で、誤報検出部８０１は、異常検出・予測部８０７の結果出力部１６０２に対して誤報検出結果パス１６０１を介して誤報の発生可能性を通知する。結果出力部１６０２は、誤報の発生可能性を受信すると、該当するログ解析の結果について、例えば誤報の発生可能性がある場合に、ログ修正部８０４でログが修正されたことを結果出力パス１６０３に出力する異常判定結果１６０５に含める。結果表示部１６０４は、異常判定結果がログ修正後の、つまり誤報の発生を低減させる処理を行った後の結果であることを表示する。以上の方法により、誤報検出部８０１とログ修正部８０４によって誤報の発生を低減させたことを結果表示部１６０４で確認することができるようになる。これによって誤報の発生を低減させる処理の妥当性の確認ができ、異常判定結果の精度をより高めることができる。図１８に示す誤報検出部８０１やログ修正部８０４などの処理は、図１０に示した方法と同じである。なお、図１８では、図１０の方法に対して、結果出力部１６０２に誤報検出結果パスを接続した構成となっているが、図１０に限らず、図８や図１２，図１４の方法に対して変更を加えた構成も可能である。

図１９は誤報発生を起す可能性を検出してログ修正する処理を含む異常検出・予測結果と、ログ修正を行わずに異常検出・予測結果の両方を結果表示する処理を含むログ解析方法を適用したコンピュータシステムを示すブロック図である。図１９で、異常検出・予測部１０１０は、ログ解析により異常の検出・予測を行うために少なくとも２つの検出部１７０２、１７０３を持ち、誤報検出部１００１は、一方の検出部１７０２へはネットワーク１０４を介してコンピュータシステム１０１内で生成されたログを直接入力し、もう一方の検出部１７０３へは修正ログ入力パス１７０１を介してログ修正部１００４で修正されたログが入力される。

結果出力部１７０６に対しては、検出部１７０２、１７０３毎に結果出力パス１７０４、１７０５が接続され、検出部１７０２、１７０３の両方の異常判定結果を表示することができる。以上の方法により、誤報検出部１００１やログ修正部１００４による誤報の発生を低減させる処理の有無による異常判定結果の差異を確認することができるようになる。

これによって誤報の発生を低減させる処理の妥当性の確認ができ、異常判定結果の精度をより高めることができる。

図１９に示した誤報検出部１００１やログ修正部１００４などの処理は、図１２に示した方法と同じである。なお、図１９では、図１２の方法に対して、複数の結果出力パスなどを接続した構成となっているが、図１２に限らず、図８や図１０，図１４の方法に対して変更を加えた構成も可能である。

ここまで第１の実施形態について図１から図１９を使って説明してきたが、本発明の方法は図１から図１９までに示した方法すべてを同時に行う必要はない。例えば、誤報の検出方法については、図２と図５に示した方法のいずれか一方でも、両方同時に行ってもよい。誤報の検出結果を利用した誤報の発生を低減させる処理については、図８、図１０、図１２に示した方法のいずれか１つもしくは２つでも、すべて同時に行ってもよい。誤報時のログや誤報の発生条件の登録方法については、図１４、図１６に示した方法のいずれか一方でも、両方同時に行ってもよい。さらに誤報時のログや誤報の発生条件の登録は予め行っておき、後から登録しない方法、つまり図１４に示した方法も図１６に示した方法も含まれない方法も考えられる。異常判定結果の出力・表示方法も、図１８、図１９に示した方法のいずれか一方でも、両方同時に行ってもよい。本発明には、上記の組み合わせによる方法も含まれている。

＜第２実施形態＞
本発明によるコンピュータシステムの異常検出における誤報発生を低減するログ解析装置の第２の実施形態を図２０から図２４を使って説明する。なお、ログ解析装置内部の処理方法については、前記第１実施形態に示した方法によって実施できるので、主に装置の外部仕様について説明する。

図２０は本発明のログ解析装置に関する基本的なシステム構成を示すブロック図である。計算機１８０１で生成されたログはネットワークパス１８０２、１８０４、ネットワーク装置１８０３を経由してログ解析装置１８０５に送られる。計算機１８０１は、ＣＰＵ、メモリ、ディスク装置などのハードウェアコンポーネントと、ＯＳやミドルウェア、アプリケーションソフトウェアなどのソフトウェアコンポーネントによって構成される装置である。計算機１８０１はハードウェアコンポーネントやソフトウェアコンポーネントの組み合わせによって、様々な種類のサービスを提供する。ネットワーク装置１８０３とは、接続されているネットワークパス間で、データやコマンドのやり取りを行う装置で、例えば、計算機から出力されたログを誤報検出装置１８０６に転送したりする。

ログ解析装置１８０５は、誤報検出装置１８０６、異常検出・予測装置１８０８、異常検出・予測結果出力装置１８１０、誤報通知・登録インタフェース装置１８１１から構成される。誤報検出装置１８０６は、計算機１８０１と同様の構成を持つ装置で、ＣＰＵ、メモリ１８１５とOS１８１６上に誤報検出ソフトウェア１８１７や、ログ修正ソフトウェア１８１８が動作しており、入出力インタフェース１８１３を介して、外部からのログや誤報発生条件などを入力したり、誤報検出結果や修正後のログを出力したりする。また、誤報時のログや、誤報発生条件を記憶するストレージ装置１８１４も含まれる。

誤報検出ソフトウェア１８１７は、例えば、図１２の誤報検出部１００１に示した方法を実現するソフトウェアである。ログ修正ソフトウェア１８１８は、例えば、図１２のログ修正部１００４に示した方法を実現するソフトウェアである。ストレージ装置１８１４は、例えば、図１２の誤報時ログ・誤報発生条件記憶部１００２を実現する装置である。図１２のログスイッチ１００７は、図２０ではログ修正ソフトウェア１８１８に含めて実現しても、異常検出・予測装置１８０８上にソフトウェアで実現してもよい。

異常検出・予測装置１８０８も誤報検出装置１８０６と同様に、ＣＰＵ、メモリ、ＯＳ、入出力インタフェース、ストレージ装置などから成り、例えばＯＳ上で異常検出・予測ソフトウェアが動作する。異常検出・予測ソフトウェアは、例えば、図１２の異常検出・予測部１０１０を実現するソフトウェアである。

異常検出・予測結果出力装置１８１０は、異常検出・予測装置１８０８で行うログ解析の結果出力を受けて異常通報の概要や詳細状況などを表示する装置である。例えば、図１２の結果表示部１１１を実現する装置である。図２０には記載されていないが、異常検出・予測結果出力装置１８１０に入出力装置を加えて、結果の表示方法を変更するなどできるようにすることも含まれる。

誤報通知・登録インタフェース装置１８１１は、誤報検出装置１８０６に誤報時ログや、誤報発生条件を登録するのに利用する。例えば、図１４の誤報通知部１２０１や図１６の誤報発生条件登録部１４０１を実現する装置である。図１４の誤報記録部１２０３や図１６の誤報発生条件記録部１４０３は、図２０では誤報通知・登録インタフェース装置１８１１上にソフトウェアで実現しても、誤報検出装置１８０６上にソフトウェアで実現してもよい。

図２０では、誤報検出装置１８０６、異常検出・予測装置１８０８などをそれぞれ1台ずつの計算機で実現しているが、これらを1台の計算機で実現してもよく、逆にそれぞれを複数台の計算機で実現してもよい。同様に、異常検出・予測結果出力装置１８１０と誤報通知・登録インタフェース装置１８１１も１台の装置で実現してもよい。

各装置間のパスで通信されるデータは、以下の通りである。ネットワークパス１８０２、１８０４では、計算機１８０１で生成されたログデータが通信される。誤報検出結果ネットワークパス１８０７では、誤報検出装置１８０６の誤報検出ソフトウェア１８１７で検出された誤報検出結果と、ログ修正ソフトウェア１８１８で修正を行ったログデータが通信される。誤報検出結果の例としては、図８に示した誤報検出結果６０９などが挙げられる。異常判定結果ネットワークパス１８０９では、異常検出・予測装置１８０８でログ解析した結果である異常判定結果が通信される。異常判定結果の例としては、図１８に示した異常判定結果１６０５などが挙げられる。誤報通知・登録ネットワークパス１８１２では、誤報発生を通知するデータや誤報発生条件が通信される。誤報発生を通知するデータとは、誤報が発生した時刻やその内容説明などであり、誤報発生条件の例としては、図６（Ａ）、（Ｂ）に示した誤報発生条件５０３〜５０６などが挙げられる。

なお、以上で説明した内容は、あくまでも１つの実装例であり、計算機１８０１とネットワーク装置１８０３の接続方法や、ログ解析装置１８０５内の装置の構成などは図２０に示した構成に限らない。

図２１は誤報発生通知インタフェースを含むログ解析装置のユーザインタフェースの実施例を示す図である。図２０に示した本発明のログ解析装置１８０５の構成において、異常検出・予測結果出力装置１８１０と誤報通知・登録インタフェース装置１８１１を１つの装置で実現した例である。

図２１は、タッチパネル機能付き液晶ディスプレイなどの表示画面１９０１に以下の４つのインタフェースを表示した例である。異常通報概要ウィンドウ１９０２には、異常検出・予測装置１８０８から出力される異常判定結果を元にコンピュータシステムに異常が発生しているかいないかを表示する。さらに、異常通報詳細ウィンドウ１９０３には、異常判定結果を元に、どのような異常であるかなどの異常に関する詳細な情報を表示する。誤報発生通知ボタン１９０４は、表示された異常が誤報であることを通知する入力インタフェースである。

誤報情報入力ボックス１９０５は、誤報の内容を入力するのに利用する入力インタフェースである。コンピュータシステムでの異常の発生を監視する際には、最初に異常通報概要ウィンドウ１９０２で異常の発生の検出・予測を確認し、その内容を異常通報詳細ウィンドウ１９０３で確認する。表示された異常が誤報であった場合には、誤報情報入力ボックス１９０５に誤報の内容を記入し、誤報発生通知ボタン１９０４を押すことで、誤報検出装置１８０６に誤報時ログや誤報発生条件が登録できる。

図２２は誤報発生条件を登録するインタフェースを含むログ解析装置のユーザインタフェースの実施例を示す図である。図２２は、ノートＰＣなどの入力インタフェース２００１に誤報発生条件登録用のウィンドウ２００２を表示した例である。誤報発生条件を入力するインタフェースとして、図２２では大きく分けて以下の３つのウィンドウがある。時間指定ウィンドウ２００３は、誤報が発生する時刻や発生の周期を登録する入力インタフェースである。発生条件ウィンドウ２００４は、誤報を発生させるログ条件、ログの発生順序によって誤報が発生する場合のログ順序条件、ログに含まれるイベントの発生比率によって誤報が発生する場合のログ比率条件を登録する入力インタフェースである。操作対象ログウィンドウ２００５は、誤報の発生可能性が検出された場合に修正や削除の対象となるログ種類を登録する入力インタフェースである。

これらの入力インタフェースとしては、直接条件や値・文字列などを入力することのできる入力ボックス２００６や、条件や値・文字列などを記入したファイルを指定して読み込む参照ボタン２００７などがある。

図２３は異常検出・予測結果に、誤報発生を起す可能性を検出してログを修正したことを示す情報を付加して表示する手段を含むログ解析装置１８０５のユーザインタフェースの一例を示す図である。

図２３は、液晶ディスプレイなどの表示画面２１０１に以下の４つのインタフェースを表示した例である。これらのインタフェースは、図１８に示した誤報発生を起す可能性を検出してログ修正したことを示すインタフェースを含む例である。図２３の例では、異常通報概要ウィンドウ２１０２に、異常検出・予測装置１８０８から出力された異常判定結果を元に、１０：００：００から１０：０２：５９までの間にコンピュータシステムに異常が発生しているかいないかを表示している。この例では異常の発生は無い。さらに、異常通報詳細ウィンドウ２１０３には、異常判定結果を元に、どのような異常であるかなどの異常に関する詳細な情報を表示している。

この例では、コンピュータシステムの異常度を定量化し、時系列に表示したグラフを示している。誤報発生可能性検出結果ウィンドウ２１０４には、誤報検出装置１８０６で誤報発生の可能性が検出されたいないかを表示している。この例では１０：０２：００〜１０：０２：５９に誤報の発生可能性が検出されたことを示している。誤報発生可能性によるログ修正ウィンドウ２１０５には、誤報検出装置１８０６でログ修正が実行されたかどうかを表示している。この例では、定期的なキャッシュクリアによって発生するログ種類Ｘのログを削除したことを表示している。

図２３に示したような表示インタフェースによって、異常の発生はないが、表示期間中に誤報の発生可能性を検出してログ修正をした結果として、異常の発生がないと検出・予測されていることを確認できる。

図２４は誤報発生を起す可能性を検出してログを修正する手段を含む異常検出・予測結果と、ログの修正を行わない異常検出・予測結果の両方を表示する手段を含むログ解析装置のユーザインタフェースの実施例を示す図である。図２４は、液晶ディスプレイなどの表示画面２２０１に大きく分けて以下の２つのインタフェースを表示した例である。これらのインタフェースは、図１９に示した誤報発生を起す可能性を検出してログ修正した場合としなかった場合の両方の異常判定結果を示すインタフェースを含む例である。図２４の例では、上側にログ修正をしなかった場合の異常判定結果を示すウィンドウ２２０２、下側に誤報の発生可能性を検出した場合にログ修正をした場合の異常判定結果を示すウィンドウ２２０３が表示されている。このウィンドウ２２０３には、図２３に示した４つのインタフェースが含まれ、この例では１０：０２：００〜１０：０２：５９に誤報の発生可能性が検出され、定期的なキャッシュクリアによって発生するログ種類Xのログを削除したこと、そしてその結果として１０：００：００〜１０：０２：５９の間にはコンピュータシステムに異常が発生していないと判定されたことを表示している。一方、ログ修正を行わなかった場合の異常判定結果を表示している上側のウィンドウ２２０２では、１０：０２：００に異常の発生が検出されたことが表示されている。図２４に示したような表示インタフェースによって、異常の発生が検出・予測されたが、その検出結果は誤報である可能性があり、誤報の発生を低減させる処理によって異常が発生していないと判定されること、また誤報の原因が何であるかを理解することができる。

＜補足＞
請求項１１乃至請求項１３のいずれかひとつに記載のログ解析装置であって、前記誤報検出部は、前記誤報の発生を判定したときには、前記ログ解析部の解析を停止または解析結果を無効化することを特徴とするログ解析装置。

本発明により、ログ解析技術を利用したコンピュータシステムの異常の検出・予測に関し、実際には異常が発生していないのに異常を検出・予測してしまうフォールスポジティブの発生を低減でき、検出・予測の精度を向上することができるので、ログ解析技術のコンピュータシステムの異常の検出・予測への適用範囲が広がり、結果としてコンピュータシステムの信頼度が向上する。本技術は、システム運用管理ツールの基盤技術として利用可能である。

本発明の適用対象とするログ解析方法用いたコンピュータシステムに関する基本的な構成を示すブロック図である。本願発明の第１の実施形態を示し、誤報発生時のログを利用して誤報発生の可能性を検出するコンピュータシステムのブロック図である。誤報発生時のログと現在のログとの比較方法の例を示す説明図で、（Ａ）はログの内容と誤報時のログの内容を示し、（Ｂ）は誤報時のログを用いて現在のログから誤報発生の可能性を検出する例を示す。誤報発生可能性を検出した際に異常検出・予測部へ誤報発生の可能性を通知する処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、誤報発生条件を利用して誤報発生の可能性を検出するコンピュータシステムのブロック図である。誤報発生条件を用いて現在のログとの比較方法の例を示す説明図で、（Ａ）はログの内容と誤報時のログの内容を示し、（Ｂ）は誤報時のログを用いて現在のログから誤報発生の可能性を検出する例を示す。誤報発生条件を用いて誤報発生可能性を検出した際に異常検出・予測部へ誤報発生の可能性を通知する処理の一例を示すフローチャートある。本願発明の第１の実施形態の他の例を示し、誤報発生可能性を検出した際に異常検出・予測部を無効化するコンピュータシステムのブロック図である。誤報発生可能性を検出した際に異常検出・予測部を無効化する場合の処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、誤報発生可能性を検出した際に誤報発生を起す可能性のあるログを削除するコンピュータシステムのブロック図である。誤報発生可能性を検出した際に誤報発生を起す可能性のあるログを削除する場合の処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、誤報発生可能性を検出した際に誤報発生を起す可能性のあるログに印をつけて、異常検出・予測部を変更するコンピュータシステムのブロック図である。誤報発生可能性を検出した際に誤報発生を起す可能性のあるログに印をつけて、異常検出・予測部を変更する場合の処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、異常検出・予測結果が誤報であることを通知し、誤報発生時のログを記録する方法を適用したコンピュータシステムを示すブロック図である。誤報発生可能性を検出した際に誤報発生を起す可能性のあるログに印をつけて、異常検出・予測部を変更する場合の処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、異常検出・予測において誤報が発生する可能性のある条件を設定する方法を適用したコンピュータシステムを示すブロック図である。異常検出・予測において誤報が発生する可能性のある条件を設定する場合の処理の一例を示すフローチャートである。本願発明の第１の実施形態の他の例を示し、異常検出・予測結果に、誤報発生を起す可能性を検出してログの修正を指令するコンピュータシステムを示すブロック図である。処理のしたことを誤報発生を起す可能性を検出してログ修正する手段を含む異常検出・予測結果と、ログ修正を含まない異常検出・予測結果の両方を結果表示する場合のログ解析方法を示すブロック図である。本発明の第２の実施形態を示し、ログ解析装置のシステムに関する基本的な構成を示すブロック図である。誤報発生通知インタフェースを含むログ解析装置のユーザインタフェースの実施例を示す図である。誤報発生条件を登録するインタフェースを含むログ解析装置のユーザインタフェースの実施例を示す説明図である。異常検出・予測結果に、誤報発生を起す可能性を検出してログ修を行うことを示す情報を付加して表示する手段を含むログ解析装置のユーザインタフェースの実施例を示す図である。誤報発生を起す可能性を検出してログ修正する手段を含む異常検出・予測結果と、含まない異常検出・予測結果の両方を表示する手段を含むログ解析装置のユーザインタフェースの実施例を示す図である。

符号の説明

１０１コンピュータシステム
１０２計算機
１０３ログ生成部
１０５、２０６、４０９、６１２、８０６、１００９、１２０５、１４０５、１６０６、１７０７ログ解析部
１０６、２０７、４１０、６１３、８０７、１０１０異常検出・予測部
１０７ログ収集部
１０８異常判定部
１０９、１６０２結果出力部
１１１、１６０４、１７０６結果表示部
２０１、４０１、６０１、８０１、１００１誤報検出部
２０２誤報時ログ記憶部
２０３誤報時ログパス
２０４、４０４、６０４、８０５、１００５、１００６、１６０１誤報検出結果パス
２０５、４０８比較器
３０１正常時ログ
３０２誤報発生時ログ
３０７、５０７現在ログ
３０８、５１０誤報検出時ログ
４０２誤報発生条件記憶部
４０３誤報発生条件パス
４０５誤報発生周期パス
４０６ログ入力スイッチ

Claims

計算機から出力されるイベント発生のログを解析して、計算機の異常を検出もしくは予測するログ解析方法であって、
前記イベントを識別するためのイベント識別情報と、前記イベントが発生する時刻であるイベント発生時刻と、を対応付けて前記ログの少なくとも一部として保持するステップと、
前記計算機の異常の検出または異常の予測において誤報が発生した場合における前記イベントである第１のイベントを少なくとも１以上含む複数の前記イベントについて、前記イベント識別情報の比較と、前記イベント発生時刻の比較と、を行って、前記第１のイベントの前記イベント発生時刻に関する規則性を示す規則性情報を生成するステップと、
新たに前記計算機からログを受け付けるステップと、
前記新たに受け付けたログを解析して、前記計算機に異常が発生したことを検出、または前記計算機に異常が発生することを予測するステップと、
前記新たに受け付けた前記計算機の異常の検出または異常の予測を行ったログに含まれる前記イベント識別情報と前記イベント発生時刻と、を抽出するステップと、
前記規則性情報を参照し、前記抽出した前記イベント識別情報が前記第１のイベントの前記識別情報と同じで、且つ前記抽出した前記イベント発生時刻が前記規則性を有する場合に、前記計算機の異常の検出または異常の予測において誤報の発生を判定するステップと、
前記誤報が発生と判定されたときには、前記計算機の異常発生の検出または前記計算機の異常発生の予測において誤報の発生を低減するステップと、
を含むことを特徴とするログ解析方法。
請求項１に記載のログ解析方法であって、前記規則性情報が、誤報の発生周期を含む予め設定した発生条件であることを特徴とするログ解析方法。
請求項１又は２に記載のログ解析方法であって、前記誤報の発生を低減するステップは、
前記誤報の発生が判定されたときには、前記異常の検出または予測の実行を停止し、もしくは、異常の検出結果もしくは予測結果を無効化することにより、誤報の発生を低減することを特徴とするログ解析方法。
請求項１又は２に記載のログ解析方法であって、前記誤報の発生を低減するステップは、
前記誤報の発生が判定されたときには、前記誤報の発生が予測されるログを前記ログの解析対象から除外することにより、誤報の発生を低減することを特徴とするログ解析方法。
請求項１又は２に記載のログ解析方法であって、前記誤報の発生を低減するステップは、
前記誤報の発生が判定されたときには、前記誤報を発生させる可能性のあるログに印を付加し、前記印に基づいて前記異常の検出または予測の実行を変更することにより、誤報の発生を低減することを特徴とするログ解析方法。
イベント発生のログを出力する計算機と、
前記計算機から出力されるログを解析して、前記計算機の異常を検出もしくは予測するログ解析部と、を備えたログ解析装置であって、
前記イベントを識別するためのイベント識別情報と、前記イベントが発生する時刻であるイベント発生時刻と、を対応付けて前記ログの少なくとも一部として保持するログ生成手段と、
前記新たに受け付けたログを解析して、前記計算機に異常が発生したことを検出、または前記計算機に異常が発生することを予測する異常検出・予測手段と、
前記計算機の異常の検出または異常の予測において誤報が発生した場合における前記イベントである第１のイベントを少なくとも１以上含む複数の前記イベントについて、前記イベント識別情報の比較と、前記イベント発生時刻の比較と、を行って、前記第１のイベントの前記イベント発生時刻に関する規則性を示す規則性情報を記録する誤報ログと、
前記計算機の異常の検出または異常の予測において誤報の発生を判定する誤報検出手段と、を備え
前記誤報検出手段は、
前記新たに受け付けた前記計算機の異常の検出または異常の予測を行ったログに含まれる前記イベント識別情報と前記イベント発生時刻と、を抽出し、
前記規則性情報を参照し、前記抽出した前記イベント識別情報が前記第１のイベントの前記識別情報と同じで、且つ前記抽出した前記イベント発生時刻が前記規則性を有する場合に、前記計算機の異常の検出または異常の予測において誤報の発生を判定し、前記誤報が発生と判定されたときには、誤報の発生を低減するよう前記受け付けたログを修正し、または前記ログ解析部を制御することを特徴とするログ解析装置。
計算機から出力されるイベント発生のログを解析して、計算機の異常を検出もしくは予測する処理をログ解析用計算機に実行させるためのプログラムであって、
前記イベントを識別するためのイベント識別情報と、前記イベントが発生する時刻であるイベント発生時刻と、を対応付けて前記ログの少なくとも一部として保持する手順と、
前記計算機の異常の検出または異常の予測において誤報が発生した場合における前記イベントである第１のイベントを少なくとも１以上含む複数の前記イベントについて、前記イベント識別情報の比較と、前記イベント発生時刻の比較と、を行って、前記第１のイベントの前記イベント発生時刻に関する規則性を示す規則性情報を生成する手順と、
新たに前記計算機からログを受け付ける手順と、
前記新たに受け付けたログを解析して、前記計算機に異常が発生したことを検出、または前記計算機に異常の発生を予測する手順と、
前記新たに受け付けた前記計算機の異常の検出または異常の予測を行ったログに含まれる前記イベント識別情報と前記イベント発生時刻と、を抽出する手順と、
前記規則性情報を参照し、前記抽出した前記イベント識別情報が前記第１のイベントの前記識別情報と同じで、且つ前記抽出した前記イベント発生時刻が前記規則性を有する場合に、前記計算機の異常の検出または異常の予測において誤報の発生を判定する手順と、
前記誤報の発生が判定されたときには、前記計算機の異常発生の検出または前記計算機の異常発生の予測において誤報の発生を低減する手順と、
をログ解析用計算機に実行させるためのプログラム。