以下に、本願に係る解析機能付与方法、解析機能付与装置及び解析機能付与プログラムの実施形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施形態により限定されるものではない。
[実施の形態]
実施の形態に係る解析機能付与装置は、スクリプトエンジンに適用できる解析機能付与装置である。
本実施の形態に係る解析機能付与装置は、スクリプトエンジンのバイナリを監視しながらテストスクリプトを実行して、ブランチトレースとメモリアクセストレースとを実行トレースとして取得する。
そして、解析機能付与装置は、この実行トレースに基づいて仮想機械を解析し、フックポイント、タップポイント、次に実行されるVM命令を指し示す変数である仮想プログラムカウンタ(VPC)、VM命令の境界、ディスパッチャのアーキテクチャ情報を取得する。なお、これらはいずれも、スクリプトエンジンの構成要素であり、アーキテクチャに関する情報であって、アーキテクチャ情報DB132(後述)に格納される。
さらに、解析機能付与装置は、テストスクリプトを実行してVM実行トレースを取得し、このVM実行トレースを用いて命令セットアーキテクチャを解析する。これによって、解析機能付与装置は、スクリプト内で分岐を発生させるVM命令である分岐VM命令を、アーキテクチャ情報として取得する。
そして、解析機能付与装置は、取得したアーキテクチャ情報を基に、スクリプトエンジンのフックポイントに、フックハンドラを用いてフックを挿入する。さらに、解析機能付与装置は、解析対象のスクリプトに、例外ハンドラを挿入し、例外処理機能を付与する。例外ハンドラは、例外の発生を捕捉した場合に、VM領域に強制的に処理を移す機能を有する。そして、フックハンドラには、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更することで、例外の発生した基本ブロックをスキップする機能が追加される。これによって、解析機能付与装置は、例外が発生した場合にはVM領域に処理を移行し、フックハンドラにおいて指示された、例外が発生した基本ブロックのスキップを行うことで、例外による実行の停止を抑制する。
図1は、例外ハンドラの一例を説明する図である。図2は、スクリプトAPIのフックを用いたハイパーバイザコールの一例を示す図である。解析機能付与装置は、図1に示すように、解析対象のスクリプトのエントリーポイントに対し、E1~E3の枠部分の内容を実行前に静的に追加する(図1の(1),(2))。
具体的には、解析機能付与装置は、図1に示すように、解析対象のスクリプトのエントリーポイントに対し、「try」及び「catch」のコードを追加し(枠E1,E2)、枠E3の3行目のように、例外が発生した場合には、スクリプトAPIをフックする「hooked_script_API(e)」コードを追加する。これによって、例外時には、スクリプトAPIをフックしハイパーバイザコールとして利用して例外のスキップを行う(図1の(3))。すなわち、解析機能付与装置は、図2に示すように、スクリプトAPIのフックによってハイパーバイザコール相当を実現する(図2の(1))ことで、例外が発生した場合にはVM領域に処理を移行し、フックハンドラにおいて指示された、例外が発生した基本ブロックのスキップを行う。
このように、解析機能付与装置は、例外を捕捉し、解析対象のスクリプトに例外ハンドラを挿入することで、例外の発生した箇所の先に強制的に実行を進めさせることで、意図しない実行の停止を防ぎつつ、解析を継続する。
[解析機能付与装置の構成]
続いて、図3を参照して、実施の形態に係る解析機能付与装置10の構成について具体的に説明する。図3は、実施の形態に係る解析機能付与装置の構成の一例を説明する図である。
図3に示すように、解析機能付与装置10は、入力部11、制御部12、記憶部13、出力部14を有する。そして、解析機能付与装置10は、テストスクリプト、スクリプトエンジンバイナリ及び解析対象スクリプトの入力を受け付ける。
入力部11は、キーボードやマウス等の入力デバイスで構成され、外部からの情報の入力を受け付け、制御部12に入力する。また、入力部11は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有し、他の装置から送信された情報の入力を受け付ける。入力部11は、テストスクリプト及びスクリプトエンジンバイナリの入力を受け付け、制御部12に出力する。テストスクリプトは、スクリプトエンジンを動的解析して実行トレース及びVM実行トレースを取得する際に、入力されるスクリプトである。なお、テストスクリプトの詳細は後述する。スクリプトエンジンバイナリは、スクリプトエンジンを構成する実行可能ファイルである。スクリプトエンジンバイナリは、複数の実行可能ファイルによって構成される場合がある。解析対象スクリプトは、解析対象のスクリプトである。
制御部12は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。制御部12は、仮想機械解析部121(第1の解析部)、命令セットアーキテクチャ解析部122(第2の解析部)及び機能付与部123(付与部)を有する。
仮想機械解析部121は、スクリプトエンジンのVMを解析する。仮想機械解析部121は、実行時の条件を変えて複数の実行トレースを取得し、差分実行解析を用いて複数の実行トレースを解析し、フックポイント、タップポイント、VPCを取得する。また、仮想機械解析部121は、スクリプトエンジンバイナリを解析して、VM命令の境界およびディスパッチャを取得する。仮想機械解析部121は、実行トレース取得部1211、フック・タップポイント検出部1212、VM命令境界検出部1213、仮想プログラムカウンタ検出部1214、ディスパッチャ検出部1215を有する。
実行トレース取得部1211は、テストスクリプト及びスクリプトエンジンバイナリを入力として受け付ける。実行トレース取得部1211は、スクリプトエンジンバイナリの実行を監視しながら、テストスクリプトを実行することで、実行トレースを取得する。
実行トレースは、ブランチトレースとメモリアクセストレースとによって構成される。ブランチトレースは、実行の際の分岐命令の種類と、分岐元アドレスと分岐先アドレスを記録する。メモリアクセストレースは、メモリ操作の種類と、操作対象のメモリアドレスを記録する。ブランチトレース及びメモリアクセストレースは、命令フックによって取得可能であることが知られている。実行トレース取得部1211が取得した実行トレースは、実行トレースDB131に格納される。
フック・タップポイント検出部1212は、実行トレース取得部1211によって取得された実行トレースに基づいて仮想機械を解析し、フックポイント、タップポイントを検出する。ここで、フックポイントとは、フックを施して解析用コードを挿入する箇所である。実施の形態においては、スクリプトエンジンの内部実装が持つ関数(内部関数と呼ぶ)を単位とし、フックはこの内部関数の先頭に施されるものとする。また、タップポイントとは、解析用コードによってログ出力するメモリ監視箇所であり、内部関数の引数のいずれかであるとする。
フック・タップポイント検出部1212は、実行トレースDB131に格納された実行トレースを取り出して解析し、フックポイントの候補を発見する。フック・タップポイント検出部1212は、実行トレースに対して、解析対象に関連したシステムAPIの呼び出しを探索し、そこからのバックトレースによってフックポイント候補を検出する。フック・タップポイント検出部1212は、解析対象の言語要素(たとえば、スクリプトAPI)に対応したシステムAPIからのバックトレースを適用してフックポイントを検出する。
フック・タップポイント検出部1212は、取得条件の異なる複数の実行トレースの差分を抽出し、特定の条件を満たす部分を発見することでフックポイント候補を検出する。フック・タップポイント検出部1212は、複数の条件を変えた実行トレースの間に見られる差分に基づいてフックポイントを検出する。この際、フック・タップポイント検出部1212は、相同性の高い系列が特定の回数出現することを検出するアルゴリズム(例えば、Smith-Watermanアルゴリズム)を用いてフックポイントを検出する。
フック・タップポイント検出部1212は、得られたフックポイント候補にフックを施し、そのフックが施された関数の引数のメモリを探索することで、タップポイントを検出する。フック・タップポイント検出部1212は、フックポイントでの監視に基づいて、解析用コードによってログ出力するメモリ監視箇所であるタップポイントを検出する。また、フック・タップポイント検出部1212は、タップポイントを持ったフックポイント候補を、フックポイントとして確定する。なお、フック・タップポイント検出部1212の処理の詳細は、国際公開2020/075335を参照されたい。
VM命令境界検出部1213は、実行トレースをクラスタリングして、各VM命令の境界を検出する。VM命令境界検出部1213は、実行トレースをクラスタリングして、実行回数が閾値以上のクラスタをVM命令として検出する。クラスタリングでは、複数回実行される連続したコード領域を検出する。これには、例えば、実行された命令間のコード上の距離が近いものをまとめてもよいし、実行されたコードブロックの共通部分列を探してもよいし、他の方法によってもよい。解析機能付与装置10は、検出したVM命令を構成する連続した命令列の開始点と終了点とを境界として検出する。ここで検出したVM命令の境界は、VPC検出、ディスパッチャ検出において用いられる。
仮想プログラムカウンタ検出部1214は、実行トレースDB131に格納された第1のテストスクリプトに対する実行トレースを取り出して解析し、VPCを検出する。仮想プログラムカウンタ検出部1214は、メモリの読み込み回数に着目した差分実行解析とVM命令境界検出部1213によって検出された各VM命令の境界とを用いて複数の実行トレースを解析し、VPCを検出する。仮想プログラムカウンタ検出部1214は、各VM命令の実行後には、必ずVPCを保持するメモリへの読み込みが発生することを利用し、この読み込み先を発見することで、VPCを検出する。
このため、仮想プログラムカウンタ検出部1214は、VPCの検出として、メモリの読み込み回数に着目した差分実行解析を用いる。仮想プログラムカウンタ検出部1214は、テストスクリプトを用いて取得された複数のテストスクリプトの実行トレースを比較し、メモリ読み込み回数が、繰り返される回数及び繰り返される文の数との双方の増減に比例して変化するメモリを発見する。そして、仮想プログラムカウンタ検出部1214は、VM命令境界検出部1213によって検出された各VM命令の境界を参照して、読み込んだメモリの値が常にVM命令の開始点を指しているものに絞り込む。仮想プログラムカウンタ検出部1214は、このメモリをVPCとして検出する。
ディスパッチャ検出部1215は、VM命令境界検出部1213が検出したVM命令の境界を基に、スクリプトエンジンバイナリから各VM命令部分を切り出し、各VM命令間で類似度が高い部分をディスパッチャとして検出する。前提として、ディスパッチャは、ポインタキャッシュの参照と次のVM命令ハンドラのポインタへのジャンプで実現される。ディスパッチャは、各々のVM命令ハンドラの後部に分散的に配置されており、一般にそれらのコードの同一性は高い。こうしたVM命令ハンドラの後部に存在し、同一性の高いコードを探すことで、解析機能付与装置は、所定の方法でディスパッチャを検出する。類似度の高い部分の検出には、たとえば系列アライメントアルゴリズムを用いてもよく、その他の方法によってもよい。
命令セットアーキテクチャ解析部122は、VMの命令の体系である命令セットアーキテクチャを解析する。命令セットアーキテクチャ解析部122は、VM実行トレース取得部1221(第1の取得部)及び分岐VM命令検出部1222(第1の検出部)を有する。
VM実行トレース取得部1221は、実行トレース取得部1211と同じく、テストスクリプト及びスクリプトエンジンバイナリを入力として受け付ける。VM実行トレース取得部1221は、VPCの監視と、ディスパッチャがディスパッチするVM命令ハンドラのポインタの監視により、VM実行トレースを取得する。VM実行トレース取得部1221は、スクリプトエンジンバイナリの実行を監視しながら、テストスクリプトを実行することで、VM上で実行された実行トレースであるVM実行トレースを取得する。VM実行トレース取得部1221は、分岐VM命令の検出において、多数のテストスクリプトを実行して、VM実行トレースを取得する。VM実行トレース取得部1221は、VM命令へのポインタとVM命令とを紐づけ、各々に識別子としてVMオペコードを仮想的に割り振る。
VM実行トレースは、実行されたVM命令ハンドラのポインタと、VPCを記録したものである。具体的には、VM実行トレースは、実行されたVM命令ごとのVPCとVMオペコードで構成される。VPCの記録は、仮想プログラムカウンタ検出部1214で検出されたVPCのメモリを監視することで実現できる。VMオペコードは、VM命令へのポインタとVM命令とを紐づけた各々に仮想的に割り振られた識別子である。VM実行トレース取得部1221が取得したVM実行トレースは、VM実行トレースDB133に格納される。
分岐VM命令検出部1222は、VM実行トレースDB133に格納されたVM実行トレースを取り出して解析し、分岐VM命令を検出する。分岐VM命令検出部1222は、識別子として割り振られたVMオペコードごとに、その実行の前後でのVPCの変化量を収集する。VMオペコードが分岐VM命令以外のものの場合、VPCの変化量は、ほぼ一定である。一方、VMオペコードが分岐VM命令のものの場合、VPCは分岐先によってばらつきが生じる。
そこで、分岐VM命令検出部1222は、VM実行トレースのVMオペコードごとの仮想プログラムカウンタの変化量のばらつきによって、分岐VM命令を検出する。分岐VM命令検出部1222は、分岐VM命令とそれ以外のVM命令とではVPCの値のばらつきの大きさが異なることに着目し、閾値を決めて、よりVPCの値のばらつきの大きいものを分岐VM命令として検出する。具体的には、分岐VM命令検出部1222は、VMオペコードごとVPCの変化量のばらつきを分散で評価し、分散が一定の閾値以上のものを、分岐VM命令として検出する。
また、分岐VM命令検出部1222は、精緻な制御フローグラフの構築のために、分岐VM命令のうち、条件分岐VM命令であるものを判定する。条件分岐の際には、分岐先を決定するために、必ず条件分岐フラグへのアクセスが発生する。そのため、各分岐VM命令の実行の際に、条件分岐フラグにアクセスしているかを検証することで、条件分岐VM命令を判定できる。言い換えると、分岐VM命令の実行の際に、条件分岐フラグにアクセスしていれば条件分岐VM命令であり、アクセスしていなければ、条件分岐VM命令ではないと判定できる。そこで、分岐VM命令検出部1222は、VM実行トレースとメモリアクセストレースに基づいて、分岐VM命令のうち、条件分岐フラグへのアクセスを伴うものを、条件分岐VM命令と判定する。
さらに、分岐VM命令検出部1222は、コールおよびリターンのVM命令も判定する。コールVM命令による分岐では、呼び出し元のバイトコード上での直後のアドレスが保存され、呼び出されたサブルーチンの実行後には、リターンVM命令によって、その保存されたアドレスに戻ってくる特徴がある。そこで、分岐VM命令検出部1222は、ある分岐VM命令を命令1とし、以後の他の分岐VM命令を命令2として、命令2によって命令1のバイトコード上での直後のアドレスに戻る場合に、命令1と命令2の組を、コールおよびリターンのVM命令と判定する。
機能付与部123は、取得したアーキテクチャ情報を基に、スクリプトエンジンにフックを挿入し、解析対象のスクリプトに、例外ハンドラを挿入し、例外処理機能を付与する。機能付与部123は、仮想機械解析部121及び命令セットアーキテクチャ解析部122による解析によって得られたアーキテクチャ情報である、VPC及び分岐VM命令に基づいて、スクリプトエンジンのフックポイントに、例外が発生した場合には、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更する処理を含むフックを施して解析機能を付与する。機能付与部123は、フック挿入部1231及び例外ハンドラ挿入部1232を有する。
フック挿入部1231は、スクリプトエンジンにフックを挿入する。フック挿入部1231は、仮想機械解析部121及び命令セットアーキテクチャ解析部122による解析によって得られたアーキテクチャ情報に基づいて、スクリプトエンジンにフックを施す。フック挿入部1231は、フックポイント及びタップポイントを受け取り、フックポイント及びタップポイントに基づいて、スクリプトエンジンに、フックハンドラを用いてフックを挿入して解析機能を付与する。フックハンドラは、VM領域において、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更する処理を含む。
具体的には、フック挿入部1231は、フックハンドラに、VMブランチトレース構築処理(第1の処理)、制御フローグラフ構築処理(第2の処理)、及び、例外の発生した基本ブロックをスキップする基本ブロックスキップ処理(第3の処理)を追加する。これによって、フックには、VPCの指す先を、例外が発生した基本ブロックのこの基本ブロックの直後の基本ブロックの先頭に変更し、例外の発生した基本ブロックをスキップする機能が追加される。VMブランチトレース構築処理では、分岐VM命令の実行前後のVPCを対応付けたVMブランチトレースを構築する。制御フローグラフ構築処理では、VMブランチトレースを用いて、基本ブロックをノードとし、分岐VM命令の実行による分岐をエッジとした制御フローグラフを構築する。
例外ハンドラ挿入部1232は、解析対象のスクリプトに、例外ハンドラを挿入し、例外処理機能を付与する。例外ハンドラは、例外の発生を捕捉した場合に、VM領域に強制的に処理を移す機能を有する。例外ハンドラ挿入部1232は、解析対象のスクリプトを解析し、各エントリーポイントに、エントリーポイント以降のコードでの例外を捕捉できるようして例外ハンドラのコード(例えば、図1参照)を追加することで、例外ハンドラを挿入する。
記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、解析機能付与装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部13は、実行トレースデータベース(DB)131、VM実行トレースDB133、及び、仮想機械解析部121及び命令セットアーキテクチャ解析部122によって取得されたアーキテクチャ情報を記憶するアーキテクチャ情報DB132を有する。
実行トレースDB131及びVM実行トレースDB133は、それぞれ実行トレース取得部1211及びVM実行トレース取得部1221によって取得された実行トレース及びVM実行トレースを格納する。実行トレースDB131及びVM実行トレースDB133は、解析機能付与装置10によって管理される。もちろん、実行トレースDB131及びVM実行トレースDB133は、他の装置(サーバ等)によって管理されていてもよく、この場合には、実行トレース取得部1211及びVM実行トレース取得部1221は、出力部14の通信インタフェースを介して、取得した実行トレース及びVM実行トレースを、実行トレースDB131及びVM実行トレースDB133の管理サーバ等に出力して、実行トレースDB131及びVM実行トレースDB133に記憶させる。
出力部14は、例えば、液晶ディスプレイやプリンタ等であって、解析機能付与装置10に関する情報を含む各種情報を出力する。また、出力部14は、外部装置との間で、各種データの入出力を司るインタフェースであってもよく、外部装置に各種情報を出力してもよい。
[テストスクリプトの構成]
テストスクリプトについて説明する。テストスクリプトは、スクリプトエンジンを動的解析する際に入力されるスクリプトである。このテストスクリプトは、分岐命令の実行やメモリ読み書きの回数に着目し、異なる回数のテストスクリプトを実行したときに生じるスクリプトエンジンの挙動の差分を捉えるために用いられる。このテストスクリプトは、解析の事前に準備するものであり、手動で作成するものである。この作成には、対象のスクリプト言語の仕様に関する知識が必要となる。
図4は、VPCの検出に用いるテストスクリプト(第1のテストスクリプト)の一例を示す図である。第1のテストスクリプトでは、繰り返し処理を用いる(2行目)。第1のテストスクリプトでは、テストスクリプト内の繰り返し回数(2行目)や繰り返される文の数(3行目から5行目)を増減させることで、実行時の条件を変更し、差分を発生させる。
図5は、分岐VM命令検出に用いるテストスクリプト(第2のテストスクリプト)の一例を示す図である。第2のテストスクリプトでは、複数回の条件分岐を用いる(4行目から8行目)。第2のテストスクリプトにおいて、この複数回の条件分岐では、特定の順序のパターンで分岐がなされたり、なされなかったりするように、分岐条件を制御する(1行目、5行目)。第2のテストスクリプトでは、条件分岐の回数や、分岐の成否の順序パターンを変更し、差分を発生させる。
[実行トレースの構成]
次に、実行トレースについて説明する。図6は、実行トレースの一例を示す図である。実行トレースは、前述の通り、ブランチトレースとメモリアクセストレースによって構成されている。図6は、実行トレースの一部を切り出したものである。以降、図6を用いて実行トレースの構成を示す。
実行トレースは、traceという要素を有する。traceには、そのログ行がブランチトレースか、メモリアクセストレースかが示される。
ブランチトレースのログ行は、例えば、図6の1行目から10行目に記載の書式になっており、type、src、dstの三つの要素からなる。typeは、実行された分岐命令がcall命令によるものか、jmp命令によるものか、ret命令によるものかを示す。また、srcは、分岐元のアドレスを示し、dstは、分岐先のアドレスを示す。
メモリアクセストレースのログ行は、たとえば、図6の11行目から13行目に記載の書式になっており、type、target、valueの三つの要素からなる。typeは、メモリアクセスが読み込みか書き込みかを示す。targetは、メモリアクセスの対象となるメモリアドレスを示す。また、valueには、メモリアクセスの結果の値が格納される。
[VM実行トレースの構成]
次に、VM実行トレースについて説明する。図7は、VM実行トレースの一例を示す図である。VM実行トレースは、前述の通り、VMオペコードとVPCとを記録したものである。図7は、VM実行トレースの一部を切り出したものである。以降、図7を用いてVM実行トレースの構成を示す。
VM実行トレースのログ行は、たとえば、図7に記載の書式になっており、vpc及びvmop(vm opcode)の二つの要素からなる。vpcは、VPCの値を示す。また、vmopは、ポインタキャッシュから取得された、実行されるVM命令ハンドラの先頭を指すポインタごとに仮想的に割り振られたVMオペコードの値を示す。
[VM命令境界検出部の処理]
次に、VM命令境界検出部1213の処理について説明する。図8は、VM命令境界検出部1213の処理を説明する図である。
VM命令境界検出部1213は、各VM命令の境界を検出する。この時、VM命令境界検出部1213は、インタプリタループを持たないためにVM命令の境界の把握が難しいスレッデッドコード型VMのために、VM命令とその境界の検出を行う。具体的には、VM命令境界検出部1213は、実行トレースDB131から実行トレースを取り出す。そして、図8に示すように、VM命令境界検出部1213は、実行トレースを、所定の方法でクラスタリングして、実行回数が閾値以上のクラスタをVM命令(例えば、VM命令ハンドラ1~3)として検出する。VM命令境界検出部1213は、VM命令を構成する連続した命令列の開始点と終了点とを境界として検出する。
[仮想プログラムカウンタ検出部の処理]
次に、仮想プログラムカウンタ検出部1214の処理について説明する。仮想プログラムカウンタ検出部1214は、VPC、ポインタキャッシュの検出を行う。仮想プログラムカウンタの検出は、取得した実行トレースのメモリアクセストレースのログを解析することで実現される。仮想プログラムカウンタ検出部1214は、メモリの読み込み回数に着目した差分実行解析を用いる。図9は、仮想プログラムカウンタ検出部1214の処理を説明する図である。
仮想プログラムカウンタ検出部1214は、実行トレースDB131から第1のテストスクリプトによる実行トレースを一つ取り出す。VPCの読み込みの回数は、テストスクリプト内の繰り返し回数及び、繰り返し処理の中の文の数に比例する。繰り返しの回数をN、繰り返される文の数をMとしたとき、概ねMN程度のVPCの読み込みが発生する。このため、仮想プログラムカウンタ検出部1214は、N及びMをそれぞれ2Nと2M、3Nと3Mと増やした第1のテストスクリプトに対する実行トレースにおいて、4MN、9MNという増え方をしたメモリを抽出する。具体的には、図9に示すように、仮想プログラムカウンタ検出部1214は、1VM命令実行毎にRead/Writeがあり、単調増加するメモリ領域を抽出する(図9の(1))。
そして、仮想プログラムカウンタ検出部1214は、読み込んだメモリの値が常にVM命令の開始点を指しているものを、VPCとして検出する。具体的には、仮想プログラムカウンタ検出部1214は、VPCの指し先とVM命令ハンドラのアドレスとを照合して、一致するメモリ領域に絞り込む(図9の(2))。
[ディスパッチャ検出部の処理]
次に、ディスパッチャ検出部1215の処理について説明する。ディスパッチャ検出部1215は、スクリプトエンジンのバイナリを所定の手法で解析することで、ディスパッチャを検出する。図10は、ディスパッチャ検出部1215の処理を説明する図である。
ディスパッチャ検出部1215は、ディスパッチャの検出を行う。ディスパッチャ検出部1215は、VM命令境界検出部1213が検出したVM命令の境界を基に、スクリプトエンジンバイナリから各VM命令部分を切り出す。そして、ディスパッチャ検出部1215は、ディスパッチャのコードの類似性は高いとした仮定の基(図10の(1))、各VM命令間でコード間の類似度を算出し、全VM命令間で類似度が高い部分を、ディスパッチャとして検出する。ディスパッチャ検出部1215は、VM命令の後半部で共通的に実行されるコードを、ディスパッチャとして検出できる(図10の(1))。
[分岐VM命令検出部の処理]
次に、分岐VM命令検出部1222の処理について説明する。分岐VM命令検出部1222は、取得したVM実行トレースのログを解析することで分岐VM命令を検出する。ここでのテストスクリプトは、分岐VM命令が含まれていればよいため、分岐の制御構文を含むスクリプトでありさえすればどのようなものでもよい。例えば、インターネット上から収集したり、公式ドキュメントから取得したりしてテストスクリプトを準備する。
まず、分岐VM命令検出部1222は、VM実行トレースDB133の各VM実行トレースに対し、VM命令へのポインタとVM命令とを紐づけ、各々に識別子として、VMオペコードを仮想的に割り振る。図11は、分岐VM命令検出部1222の処理を説明する図である。
ここで、あるVM命令が分岐命令のとき、VPCの進みは、分岐先に依存して変化する。一方、分岐命令以外のときは、VPCの進みは、VM命令のサイズに依存して変化する。このため、VM命令のオペコードとVM命令へのポインタとの組を収集し、オペコードごとにVPCの進みを見たとき、分岐命令であれば分岐先によってVPCの進みにばらつきがみられる。
したがって、分岐VM命令検出部1222は、このVM命令へのポインタのばらつきを評価するため、分散を用いる。分岐VM命令検出部1222は、VMオペコード毎にVPCの変化量の分散を算出し、算出した分散が閾値よりも大きいVMオペコードのみに絞り込む。これによって、分岐VM命令検出部1222は、ポインタとVM命令を対応付けつつ、VPCの進みにばらつきのあるVM命令(図11の例では、VM命令ハンドラ3)を、分岐VM命令として検出する(図11の(1))。
あるオペコードに対するVPCの進みの集合OをO={o0,o1,・・・,oN}(VPCoの平均は(1)式を参照)とし、tを閾値としたとき、分岐命令か否かは、分散s((2)式を参照)を基に、(3)式のように判定される。これによって、分岐VM命令検出部1222は、分岐VM命令を検出する。
なお、分岐以外のVM命令では、ばらつきがほとんど見られず、分岐VM命令とそれ以外のVM命令との境界は明確であることが多い。このため、閾値として、例えば、得られた分散の値を数直線上にプロットして、できた二つの群を分割可能な値が設定される。
[フック挿入部の処理]
次に、フック挿入部1231の処理を説明する。フック挿入部1231は、スクリプトエンジンバイナリと、ここまでの処理で検出されたフックポイント及びタップポイントを入力として受け付ける。フック挿入部1231は、スクリプトエンジンに対して、フックポイントにフックハンドラを用いたフックを挿入する。
ここで、フック挿入部1231は、フック時に、フックに対応したスクリプトAPIが実行された際に、VM領域でのフックハンドラの処理に実行が遷移するように、解析用のコードを挿入する。この解析用のコードは、フックポイントとタップポイントとが判明していれば、容易に生成できる。これによって、フックしたスクリプトAPIをスクリプトから呼び出すことで、VM領域に実装されたフックハンドラの機能をハイパーバイザコールとして呼び出せるようになり、解析機能の付与が実現される。
この際、フック挿入部1231は、フックハンドラに、VMブランチトレースを構築するVMブランチトレース構築処理、制御フローグラフを構築する制御フローグラフ構築処理、及び、例外の発生した基本ブロックをスキップする基本ブロックスキップ処理を追加する。
図12は、VMブランチトレース構築処理を説明する図である。VMブランチトレース構築処理では、図12に示すように、実行されたVM命令のオペコードと、VPCを記録したVM実行トレース41から分岐VM命令を検出する(図12の(1))。分岐VM命令は、分岐VM命令検出部1222によって検出された分岐VM命令リスト42を参照することで認識することができる。
そして、VMブランチトレース構築処理では、検出した分岐VM命令の実行前後のVPCを対応付けたVMブランチトレース43を構築する(図12の(2))。VMブランチトレース構築処理では、例えば、VM実行トレースの行R41から分岐VM命令「0x1f」を検出し、行R41及び行R42の次の行R42を基に、行R61に示すVMブランチトレースを構築する。すなわち、VMブランチトレース構築処理では、行R41の分岐元のVPC「0x555c7e48」と、行R42の分岐元のVPC「0x555c82a0」とを対応付ける。
同様に、VMブランチトレース構築処理では、VM実行トレースの行R51から分岐VM命令「0x21」を検出すると、この行R51及び次の行R52を基に、行R51のVPC「0x555c832c」と、行R52のVPC「0x555c7514」とを対応付ける(行R71)。
図13は、制御フローグラフ構築処理を説明する図である。制御フローグラフ構築処理では、VMブランチトレース構築処理において構築したVMブランチトレース43を用いて、基本ブロックをノードとし、VMブランチトレース43の各分岐をエッジとした制御フローグラフを構築する(図13の(1))。
具体的には、制御フローグラフ構築処理では、VMブランチトレース43の行R61に示す分岐をエッジE61とし、エッジE61の分岐元の基本ブロックをノードN61とし、エッジE61の分岐先の基本ブロックをノードN62とする。
そして、VMブランチトレース43の行R71に示す分岐をエッジE71とし、エッジ71の分岐元の小本ブロックをノードN71とし、エッジE71の分岐先の基本ブロックをノードN72とする。なお、図13の制御フローグラフの例では、ノードN71には、エッジE71のほかにエッジE72に示す分岐があり、この分岐先の基本ブロックはノードN73で示されている。このように、制御フローグラフ構築処理では、VMブランチトレースを基に、基本ブロックの分岐をグラフ構造で表現した制御フローグラフを構築する。
図14は、基本ブロックスキップ処理を説明する図である。基本ブロックスキップ処理では、定常的にVPCを追跡し、例外が発生した場合に、この例外が、制御フローグラフ構築処理において構築した制御フローグラフのどの箇所に該当するかを判別する。そして、基本ブロックスキップ処理では、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更することで、例外の発生した基本ブロックをスキップする処理(図14の(1))。具体的には、基本ブロックスキップ処理では、図14の例では、VPCの指す先を、例外が発生したノードの直後の先頭のノードN71に変更する。そして、ノードN71の実行内容に応じて、エッジE71またはエッジE72に分岐して処理が進む。
したがって、機能付与部123は、例外ハンドラを解析対象のスクリプトに挿入し、フックハンドラに基本ブロックスキップ処理を追加することで、解析対象のスクリプトに、例外スキップ機能を付与することができる。
[解析機能付与装置の処理手順]
次に、解析機能付与装置10による解析機能付与処理の処理手順について説明する。図15は、実施の形態に係る解析機能付与処理の処理手順を示すフローチャートである。
まず、入力部11は、テストスクリプト及びスクリプトエンジンバイナリを入力として受け取る(ステップS1)。
そして、実行トレース取得部1211は、スクリプトエンジンのバイナリを監視しながらテストスクリプトを実行してブランチトレースとメモリアクセストレースを取得する実行トレース取得処理を行う(ステップS2)。
フック・タップポイント検出部1212は、実行トレース取得部1211によって取得された実行トレースに基づいて仮想機械を解析し、フックポイント、タップポイントを検出するフック・タップポイント検出処理を行う(ステップS3)。
VM命令境界検出部1213は、VM命令を検出し、VM命令の境界を検出するVM命令境界検出処理を行う(ステップS4)。仮想プログラムカウンタ検出部1214は、実行トレースDB131に格納された第1のテストスクリプトに対する実行トレースを取り出して解析し、VPCを発見する仮想プログラムカウンタ検出処理を行う(ステップS5)。
ディスパッチャ検出部1215は、スクリプトエンジンバイナリから各VM命令部分を切り出し、各VM命令間で類似度が高い部分をディスパッチャとして検出するディスパッチャ検出処理を行う(ステップS6)。
VM実行トレース取得部1221は、テストスクリプト及びスクリプトエンジンバイナリを入力として受け付け、スクリプトエンジンバイナリの実行を監視しながら、テストスクリプトを実行することで、VM実行トレースを取得するVM実行トレース取得処理を行う(ステップS7)。分岐VM命令検出部1222は、VM実行トレースDB133に格納されたVM実行トレースを取り出して解析し、分岐VM命令を検出する分岐VM命令検出処理を行う(ステップS8)。
フック挿入部1231は、ステップS1~ステップS6の処理において取得されたアーキテクチャ情報を基に、スクリプトエンジンにフックを挿入するフック挿入処理を行う(ステップS9)。そして、例外ハンドラ挿入部1232は、解析対象のスクリプトに、例外ハンドラを挿入し、例外処理機能を付与する例外ハンドラ挿入処理を行う(ステップS10)。そして、出力部124は、例外スキップ機能が付与されたスクリプトエンジンバイナリを出力する(ステップS11)。
[実行トレース取得処理の処理手順]
次に、図15に示す実行トレース取得処理の流れについて説明する。図16は、図15に示す実行トレース取得処理の処理手順を示すフローチャートである。
まず、実行トレース取得部1211は、テストスクリプト及びスクリプトエンジンバイナリを入力として受け取る(ステップS21)。そして、実行トレース取得部1211は、受け取ったスクリプトエンジンに対して、ブランチトレースを取得するためのフックを施す(ステップS22)。また、実行トレース取得部1211は、受け取ったスクリプトエンジンに対して、メモリアクセストレースを取得するためのフックも施す(ステップS23)。
そして、実行トレース取得部1211は、その状態で受け取ったテストスクリプトをスクリプトエンジンに入力して実行させ(ステップS24)、それによって取得される実行トレースを実行トレースDB131に格納する(ステップS25)。
実行トレース取得部1211は、入力されたテストスクリプトを全て実行し終えているか否かを判定する(ステップS26)。実行トレース取得部1211は、入力されたテストスクリプトを全て実行し終えている場合(ステップS26:Yes)、処理を終了する。これに対し、実行トレース取得部1211は、入力されたテストスクリプトを全て実行していない場合(ステップS26:No)、ステップS24のテストスクリプトの実行に戻って処理を続ける。
[フック・タップポイント検出処理の処理手順]
図17は、図15に示すフック・タップポイント検出処理の処理手順を示すフローチャートである。
図17に示すように、フック・タップポイント検出処理において、フック・タップポイント検出部1212は、フックポイント候補を検出する(ステップS31)。フック・タップポイント検出部1212は、フックポイント候補が検出された場合(ステップS32:Yes)、ステップS35に進む。一方、フックポイント候補が検出されなかった場合(ステップS32:No)、フック・タップポイント検出部1212は、複数の条件を変えた実行トレースの間に見られる差分に基づいてフックポイントを検出する差分実行解析処理を実施する(ステップS33)。
そして、フック・タップポイント検出部121210は、フックポイント候補が検出されなかった場合(ステップS34:No)、フックポイント候補がないため、処理を終了する。一方、フック・タップポイント検出部1212は、フックポイント候補が検出された場合(ステップS34:Yes)、ステップS35に進む。フック・タップポイント検出部1212は、タップポイントを検出する(ステップS35)。
[VM命令境界検出処理の処理手順]
次に、図15に示すVM命令境界検出処理の流れについて説明する。図18は、図15に示すVM命令境界検出処理の処理手順を示すフローチャートである。
まず、VM命令境界検出部1213は、実行トレースDB131から実行トレースを取り出す(ステップS41)。VM命令境界検出部1213は、実行トレースを所定の方法でクラスタリングする(ステップS42)。クラスタリングは、いずれの手法を用いてもよい。
VM命令境界検出部1213は、実行回数が閾値以上のクラスタをVM命令として検出する(ステップS43)。そして、VM命令境界検出部1213は、VM命令を構成する連続した命令列の開始点と終了点とを境界とする(ステップS44)。VM命令境界検出部1213は、VM命令の境界を返り値として出力して(ステップS45)、VM命令境界検出処理を終了する。
[仮想プログラムカウンタ検出処理の処理手順]
次に、図15に示す仮想プログラムカウンタ検出処理の流れについて説明する。図19は、図15に示す仮想プログラムカウンタ検出処理の処理手順を示すフローチャートである。
まず、仮想プログラムカウンタ検出部1214は、実行トレースDB131から第1のテストスクリプトによる実行トレースを一つ取り出す(ステップS51)。続いて、仮想プログラムカウンタ検出部1214は、実行トレースのうちのメモリアクセストレースに着目し、メモリ読み込み先ごとに読み込み回数を数え上げる(ステップS52)。
仮想プログラムカウンタ検出部1214は、実行トレースの取得に用いた第1のテストスクリプトを入力として受け取り(ステップS53)、その第1のテストスクリプトを解析して繰り返しの回数と繰り返される文の数とを取得する(ステップS54)。
続いて、仮想プログラムカウンタ検出部1214は、実行トレースDB131から、繰り返し回数や繰り返される文の数の異なる第1のテストスクリプトによる実行トレースを、さらに一つ取り出す(ステップS55)。そして、仮想プログラムカウンタ検出部1214は、メモリアクセストレースに着目し、メモリ読み込み先ごとに読み込み回数を数え上げる(ステップS56)。また、仮想プログラムカウンタ検出部1214は、実行トレースの取得に用いた第1のテストスクリプトを入力として受け取り(ステップS57)、テストスクリプトを解析して、繰り返しの回数と繰り返される文の数とを取得する(ステップS58)。
ここで、仮想プログラムカウンタ検出部1214は、繰り返し回数や繰り返される文の増減に比例して読み込み回数が変化するメモリ読み込み先のみに絞り込む(ステップS59)。さらに、仮想プログラムカウンタ検出部1214は、ステップS59において絞り込んだメモリ読み込み先を、読み込んだメモリの値が常にVM命令の開始点を指しているものに絞り込む(ステップS60)。
そして、仮想プログラムカウンタ検出部1214は、メモリ読み込み先を一つのみに絞り込めたか否かを判定する(ステップS61)。仮想プログラムカウンタ検出部1214は、メモリ読み込み先を一つのみに絞り込めていない場合(ステップS61:No)、ステップS55に戻り、次の実行トレースを一つ取り出して処理を継続する。一方、仮想プログラムカウンタ検出部1214は、メモリ読み込み先を一つのみに絞り込めた場合(ステップS61:Yes)、絞り込まれたメモリ読み込み先を仮想プログラムカウンタとしてアーキテクチャ情報DB132に格納して(ステップS62)、処理を終了する。
[ディスパッチャ検出処理の処理手順]
次に、図15に示すディスパッチャ検出処理の流れについて説明する。図20は、図15に示すディスパッチャ検出処理の処理手順を示すフローチャートである。
まず、ディスパッチャ検出部1215は、スクリプトエンジンバイナリを入力として受け取る(ステップS71)。ディスパッチャ検出部1215は、VM命令境界検出部1213から、VM命令の境界を受け取る(ステップS72)。
ディスパッチャ検出部1215は、VM命令境界検出部1213から受け取ったVM命令の境界を基に、スクリプトエンジンバイナリから各VM命令部分を切り出す(ステップS73)。ディスパッチャ検出部1215は、各VM命令間でコード間の類似度を所定の方法で算出する(ステップS74)。類似度の算出手法は、コード間の類似度を算出できる手法であれば、どの手法でもよい。
ディスパッチャ検出部1215は、ステップS74において算出した類似度を基に、全VM命令間で類似度が高い部分を取り出す(ステップS75)。そして、ディスパッチャ検出部1215は、VM命令の終端部分であるかを判定する(ステップS76)。
VM命令の終端部分でない場合(ステップS76:No)、ディスパッチャ検出部1215は、ステップS75に戻り処理を続ける。また、VM命令の終端部分である場合(ステップS76:Yes)、ディスパッチャ検出部1215は、取り出した部分をディスパッチャとして出力して(ステップS77)、処理を終了する。
[VM実行トレース取得処理の処理手順]
次に、図15に示すVM実行トレース取得処理の流れについて説明する。図21は、図15に示すVM実行トレース取得処理の処理手順を示すフローチャートである。
まず、VM実行トレース取得部1221は、テストスクリプト及びスクリプトエンジンバイナリを入力として受け取る(ステップS81)。そして、VM実行トレース取得部1221は、受け取ったスクリプトエンジンに対して、VPC及びVMオペコードを記録するためのフックを施す(ステップS82)。
VM実行トレース取得部1221は、その状態で受け取ったテストスクリプトをスクリプトエンジンに入力して実行させ(ステップS83)、それによって取得されるVM実行トレースをVM実行トレースDB133に格納する(ステップS84)。
VM実行トレース取得部1221は、入力されたテストスクリプトを全て実行したか否かを判定する(ステップS85)。VM実行トレース取得部1221は、入力されたテストスクリプトを全て実行し終えている場合(ステップS85:Yes)、処理を終了する。VM実行トレース取得部1221は、入力されたテストスクリプトを全て実行し終えていない場合(ステップS85:No)、ステップS83のテストスクリプトの実行に戻って処理を続ける。
[分岐VM命令検出処理の処理手順]
次に、図15に示す分岐VM命令検出処理の流れについて説明する。図22は、図15に示す分岐VM命令検出処理の処理手順を示すフローチャートである。
まず、分岐VM命令検出部1222は、VM実行トレースDB133から、VM実行トレースを一つ取り出す(ステップS91)。分岐VM命令検出部1222は、VM命令へのポインタとVM命令を紐付け、各々に識別子としてVMオペコードを割り振る(ステップS92)。そして、分岐VM命令検出部1222は、VMオペコードごとに、実行の前後でのVPCの変化量を集計する(ステップS93)。
分岐VM命令検出部1222は、VM実行トレースDB133の全てのVM実行トレースを処理し終えたか否かを判定する(ステップS94)。VM実行トレースDB133の全てのVM実行トレースを処理し終えていない場合(ステップS94:No)、分岐VM命令検出部1222は、ステップS91に戻り、次のVM実行トレースを一つ取り出して処理する。
VM実行トレースDB133の全てのVM実行トレースを処理し終えている場合(ステップS94:Yes)、分岐VM命令検出部1222は、VMオペコードごとにVPCの変化量の分散を算出する(ステップS95)。そして、分岐VM命令検出部1222は、閾値を入力として受け取る(ステップS96)。分岐VM命令検出部1222は、分散が閾値よりも大きいVMオペコードのみに絞り込み(ステップS97)、それらを分岐VM命令としてアーキテクチャ情報DB132に格納して(ステップS98)、処理を終了する。
[フック挿入処理]
次に、図15に示すフック挿入処理の流れについて説明する。図23は、図15に示すフック挿入処理の処理手順を示すフローチャートである。
まず、フック挿入部1231は、フック・タップポイント検出部1212によって検出されたフックポイント及びタップポイントを入力として受け取り、(ステップS101)、フックハンドラを準備する(ステップS102)。
フック挿入部1231は、フックハンドラにVMブランチトレース構築処理を追加する(ステップS103)。フック挿入部1231は、フックハンドラに制御フローグラフ構築処理を追加する(ステップS104)。フック挿入部1231は、フックハンドラに基本ブロックスキップ処理を追加する(ステップS105)。フック挿入部1231は、フックポイントにフックハンドラを用いたフックを挿入する(ステップS106)。
[VMブランチトレース構築処理]
図24は、VMブランチトレース構築処理の処理手順を示すフローチャートである。VMブランチトレース構築処理では、VM実行トレースとVM分岐命令リストとを入力として受け取る(ステップS111)。
VMブランチトレース構築処理では、VM実行トレースのエントリを取り出す(ステップS112)。VMブランチトレース構築処理では、VMオペコードがVM分岐命令リストに存在するか判定する(ステップS113)。
VMブランチトレース構築処理では、VMオペコードがVM分岐命令リストに存在する場合(ステップS113:Yes)、VPCを分岐元とし、次のエントリのVPCを分岐先としてVMブランチトレースに保存する(ステップS114)。
VMブランチトレース構築処理では、VMオペコードがVM分岐命令リストに存在しない場合(ステップS113:No)、または、ステップS114終了後、VM実行トレースの全てのエントリを処理したか否かを判定する(ステップS115)。
VMブランチトレース構築処理では、VM実行トレースの全てのエントリを処理していない場合(ステップS115:No)、VM実行トレースの次のエントリを取り出す(ステップS116)。そして、VMブランチトレース構築処理では、ステップS113に戻り、次のエントリについて、VMオペコードがVM分岐命令リストに存在するか判定する。
一方、VMブランチトレース構築処理では、VM実行トレースの全てのエントリを処理した場合(ステップS115:Yes)、フックポイントにフックハンドラを用いたフックを挿入する(ステップS117)。
[制御フローグラフ構築処理]
図25は、制御フローグラフ構築処理の処理手順を示すフローチャートである。制御フローグラフ構築処理では、VMブランチトレースを入力として受け取ると(ステップS121)、VMブランチトレースのエントリを取り出す(ステップS122)。
制御フローグラフ構築処理では、分岐先アドレスを起点とする基本ブロックをノードとして制御フローグラフに追加する(ステップS123)。制御フローグラフ構築処理では、分岐元アドレスから分岐先アドレスへのエッジを制御フローグラフに追加する(ステップS124)。制御フローグラフ構築処理では、VMブランチトレースの全てのエントリを処理したか否かを判定する(ステップS125)。
制御フローグラフ構築処理では、VMブランチトレースの全てのエントリを処理していない場合(ステップS125:No)、VM実行トレースの次のエントリを取り出す(ステップS126)。そして、制御フローグラフ構築処理では、ステップS123に戻り、次のエントリについて、分岐先アドレスを起点とする基本ブロックをノードとして制御フローグラフに追加する。
制御フローグラフ構築処理では、VMブランチトレースの全てのエントリを処理した場合(ステップS125:Yes)、構築した制御フローグラフを出力する(ステップS127)。
[基本ブロックスキップ処理]
図26は、基本ブロックスキップ処理の処理手順を示すフローチャートである。基本ブロックスキップ処理では、制御フローグラフ構築処理において構築された制御フローグラフを入力として受け取る(ステップS131)。
基本ブロックスキップ処理では、VPCが現在(例外発生時)に指しているノードを確認する(ステップS132)。基本ブロックスキップ処理では、現在指しているノードからエッジを辿り、次のノードを取り出す(ステップS133)。
基本ブロックスキップ処理では、次のノードが複数存在するか否かを判定する(ステップS134)。基本ブロックスキップ処理では、次のノードが複数存在する場合(ステップS134:Yes)、一つのノードを次のノードとして選択し、他のノードは次回実行時に選択する対象とする(ステップS135)。次のノードに対する選択ルールは、予め設定される。
基本ブロックスキップ処理では、次のノードが複数存在しない場合(ステップS134:No)、または、ステップS135処理終了後、VPCの値を、次のノードの先頭を指すように変更する(ステップS136)。
[例外ハンドラ挿入処理]
図15に示す例外ハンドラ挿入処理の流れについて説明する。図27は、図15に示す例外ハンドラ挿入処理の処理手順を示すフローチャートである。
例外ハンドラ挿入部1232は、解析対象のスクリプトを入力として受け取る(ステップS141)。例外ハンドラ挿入部1232は、解析対象のスクリプトを所定の方法で解析し、エントリーポイントを取り出す(ステップS142)。
例外ハンドラ挿入部1232は、エントリーポイントを一つ取り出す(ステップS143)。例外ハンドラ挿入部1232は、エントリーポイント以降のコードでの例外を捕捉できるようにして例外ハンドラのコード(例えば、図1参照)を追加する(ステップS144)。
例外ハンドラ挿入部1232は、全てのエントリーポイントに例外ハンドラを追加したか否かを判定する(ステップS145)。全てのエントリーポイントに例外ハンドラを追加していない場合(ステップS145:No)、例外ハンドラ挿入部1232は、次のエントリーポイントを取り出し(ステップS146)、ステップS144に進んで、例外ハンドラのコードを追加する。
例外ハンドラ挿入部1232は、全てのエントリーポイントに例外ハンドラを追加した場合(ステップS145:Yes)、処理を終了する。
[実施の形態の効果]
このように、実施の形態に係る解析機能付与装置10は、スクリプトエンジンのバイナリを監視しながらテストスクリプトを実行し、ブランチトレースとメモリアクセストレースを実行トレースとして取得する。解析機能付与装置10は、その実行トレースに基づいて仮想機械を解析し、フックポイント、タップポイント、VPC、VM命令境界、ディスパッチャのアーキテクチャ情報を取得する。さらに、解析機能付与装置10は、テストスクリプトを実行してVM実行トレースを取得し、そのVM実行トレースを用いて命令セットアーキテクチャを解析して分岐VM命令をアーキテクチャ情報として取得する。
そして、解析機能付与装置10は、得られたアーキテクチャ情報を基に、スクリプトエンジンのフックポイントに、例外が発生した場合には、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更する処理を含むフックを施して、例外処理機能を含む解析機能を付与する。
具体的には、解析機能付与装置10では、解析対象のスクリプトに、例外の発生を捕捉した場合に、VM領域に強制的に処理を移す例外ハンドラを挿入することで例外処理機能を付与する。解析機能付与装置10では、VM領域において、VPCの指す先を、例外が発生した基本ブロックの直後の基本ブロックの先頭に変更する処理を含むフックハンドラを用いて、フックを施す。これによって、解析機能付与装置10は、例外の発生した基本ブロックをスキップすることで、例外による実行の停止を抑制する。
これによって、解析機能付与装置10は、バイナリのみしか手に入らないプロプライエタリなスクリプトエンジンに対しても、実行トレース及びVM実行トレースの取得に基づく解析により、各種アーキテクチャ情報を検出し、人手でのリバースエンジニアリングを要することなく、例外処理機能の付与を実現できる。
また、解析機能付与装置10では、多様なスクリプトエンジンに対して、テストスクリプトさえ用意すれば自動で例外処理機能を付与できるため、個別の設計や実装を要することなく、例外処理機能の付与を実現できる。
上述したように、解析機能付与装置10は、多種多様なスクリプト言語で記述される悪性スクリプトの挙動の解析に有用であり、解析の途上で例外によって実行が停止してしまう悪性スクリプトに対して、その影響を受けずに、挙動を解析することに適している。このため、解析機能付与装置10を用いて、様々なスクリプトエンジンに例外処理機能を付与することで、例外があった場合であっても、例外による実行の停止を抑制しながら、悪性スクリプトの挙動を解析できるため、検知などの対策に生かすことが可能である。
なお、解析機能付与装置10は、実行経路の強制によるマルチパス実行においても同様に、例外を捕捉し、意図しない実行の停止を防ぎつつ解析を継続することが可能である。
[実施形態のシステム構成について]
図3に示す解析機能付与装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、解析機能付与装置10の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、解析機能付与装置10においておこなわれる各処理は、全部または任意の一部が、CPU及びCPUにより解析実行されるプログラムにて実現されてもよい。また、解析機能付与装置10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
図28は、プログラムが実行されることにより、解析機能付与装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、解析機能付与装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、解析機能付与装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等はすべて本発明の範疇に含まれる。