JP2003108187A - 類似性評価方法及び類似性評価プログラム - Google Patents

類似性評価方法及び類似性評価プログラム

Info

Publication number
JP2003108187A
JP2003108187A JP2001299218A JP2001299218A JP2003108187A JP 2003108187 A JP2003108187 A JP 2003108187A JP 2001299218 A JP2001299218 A JP 2001299218A JP 2001299218 A JP2001299218 A JP 2001299218A JP 2003108187 A JP2003108187 A JP 2003108187A
Authority
JP
Japan
Prior art keywords
probability
similarity
information
types
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001299218A
Other languages
English (en)
Inventor
Makihiko Satou
眞木彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001299218A priority Critical patent/JP2003108187A/ja
Priority to AU27731/02A priority patent/AU765400B2/en
Priority to US10/107,204 priority patent/US20030065510A1/en
Priority to EP02252615A priority patent/EP1298534A3/en
Publication of JP2003108187A publication Critical patent/JP2003108187A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 確率モデル間の類似性を高速に(少ない計算
量で)判定することが出来る類似性評価プログラムを、
提供する。 【解決手段】 コンピュータを、複数種類の確率データ
からなる確率情報を複数個含む確率モデル情報間の類似
性を評価するための装置であって、類似性を評価すべき
2つの確率モデル情報の中の一方の確率モデル情報に含
まれる確率情報と他方の確率モデル情報に含まれる確率
情報との間の類似性を示す類似値を、経路の選択のため
の指標として用いたダイナミック・プログラミング法に
基づく演算処理を行なうダイナミック・プログラミング
処理部23を備える類似性評価装置20として動作させ
ることが出来るように、類似性評価プログラムを作成し
ておく。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、確率モデル間の類
似性を判定するための類似性評価方法及び類似性評価プ
ログラムに、関する。
【0002】
【従来の技術】音声認識やバイオインフォマティクスと
いった分野では、発生パターンやホモロジーグループを
数学的に表すために確率モデル(主に、隠れマルコフモ
デル)が使用されている。確率モデルは、主として、或
る発生パターンがどの単語を発生したものであるかや、
或る配列が、どのホモロジーグループに属するものであ
るかを求めるために使用されるものであるが、確率モデ
ル間の類似性を評価したい場合もある。このため、類似
性の評価法の研究も盛んに行なわれており、例えば、以
下に記すeq.1〜eq.3を用いて、確率モデル間の
類似性の評価が試みられている。
【0003】
【数1】
【0004】なお、eq.1〜eq.3にて算出されて
いる値は、それぞれ、相対エントロピー(kulleback-Li
eber Distance)、相互情報量(mutual informatio
n)、同時発生確率(co-emmision propability)と呼ば
れているものである。
【0005】
【発明が解決しようとする課題】上記した各式は、確率
論的に良く定義されたものであるので、いずれかの式を
用いれば、確率モデル間の類似性の評価を正確に行なう
ことが出来ることになる。しかしながら、いずれの式を
用いて確率モデル間の類似性の評価を行なう場合にも、
膨大な量の計算が必要となるため、上記のような式によ
る確率モデル間の類似性の評価を、音声認識用の確率モ
デルに対して実施することは可能であるが、配列長が1
000程度になることがあるタンパク質に関する確率モ
デルに対して実施することは実際上不可能であった。
【0006】そこで、本発明の課題は、確率モデル間の
類似性を高速に(少ない計算量で)判定することが出来
る類似性評価方法と、そのような類似性評価方法による
確率モデル間の類似性判定をコンピュータに行なわせる
ことが出来る類似性評価プログラムとを、提供すること
にある。
【0007】
【課題を解決するための手段】上記課題を解決するため
に、本発明の類似性評価方法では、複数種類の確率デー
タからなる確率情報を複数個含む確率モデル情報間の類
似性を評価するに際して、類似性を評価すべき2つの確
率モデル情報のうちの一方の確率モデル情報に含まれる
確率情報と他方の確率モデル情報に含まれる確率情報と
の間の類似性を示す類似値が、経路の選択のための指標
値として用いられて、ダイナミック・プログラミング法
に基づく演算処理が行なわれるステップ構成が、採用さ
れる。
【0008】このような構成の本発明の類似性評価方法
によれば、高速に完了するダイナミック・プログラミン
グ法に基づく演算処理にて、確率モデル情報間の類似性
の評価が行なえることになるので、確率モデル情報間の
類似性の評価を短時間で行なえることになる。
【0009】なお、本発明の類似性評価方法を実現する
に際しては、評価対象とする確率モデル情報を、隠れマ
ルコフモデルに関する確率モデル情報とすることができ
る。そして、その場合には、類似値が、2つの確率情報
のうちの一方の確率情報に含まれる複数種類の出力確率
データと、他方の確率情報に含まれる複数種類の出力確
率データとに基づき、算出されるようにすることが出来
る。
【0010】また、類似値が、2つの確率情報のうちの
一方の確率情報に含まれる複数種類の出力確率データ及
び複数種類の遷移確率データと、他方の確率情報に含ま
れる複数種類の出力確率データと複数種類の遷移確率デ
ータとに基づき、算出されるように、例えば、類似値
が、一方の確率情報に含まれる複数種類の出力確率デー
タからなる出力確率ベクトルと他方の確率情報に含まれ
る複数種類の出力確率データからなる出力確率ベクトル
とがなす角度の余弦値の二乗値に、一方の確率情報に含
まれる複数種類の遷移確率データからなる遷移確率ベク
トルと他方の確率情報に含まれる複数種類の遷移確率デ
ータからなる遷移確率ベクトルとがなす角度の余弦値の
二乗値を乗じた結果とされるように、することが出来
る。そして、本発明の類似性評価方法、類似性評価装置
を、遷移確率データが考慮されて類似値が算出されるも
のとしておいた場合には、Iノード、Dノードの存在を
考慮した形で、隠れマルコフモデルに関する確率モデル
情報間の類似性を評価できる方法を実現できることにな
る。
【0011】一方、本発明の類似性評価プログラムは、
コンピュータに、本発明の類似性評価方法による類似性
評価を実行させることが出来るように作成される。従っ
て、本発明の類似性評価プログラムを用いれば、コンピ
ュータに、確率モデル情報間の類似性の評価を短時間で
行なわせることが出来ることになる。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して詳細に説明する。
【0013】図1に、本発明の一実施形態に係る類似性
評価装置10の機能ブロック図を示す。
【0014】図示したように、類似性評価装置10は、
確率モデル情報取得部21、確率モデル情報記憶部2
2、ダイナミック・プログラミング処理部23、評価結
果記憶部24及び評価結果提示処理部25を、備える。
【0015】確率モデル情報記憶部22は、類似性が評
価されるべき2つの確率モデル(本実施形態では、プロ
ファイルHMM〔hidden Markov model;隠れマルコフ
モデル〕)の定義情報(以下、確率モデル情報と表記す
る)を一時記憶するためのユニットである。確率モデル
情報取得部21は、操作者が指定したファイル内の確率
モデル情報、或いは、操作者が入力した確率モデル情報
を、確率モデル情報記憶部22に記憶するユニットであ
る。この確率モデル情報取得部21は、操作者から、確
率モデル間の類似性の評価を第1〜第3評価モード(詳
細は後述)のいずれで行なうかについての指示も取得す
る。
【0016】ダイナミック・プログラミング処理部23
は、確率モデル情報記憶部22に記憶されている2つの
確率モデル情報に基づき、確率モデルの類似性を評価す
るための演算処理を操作者が指定した評価モードで行な
うユニットである。詳細は後述するが、このダイナミッ
ク・プログラミング処理部23が実行する演算処理は、
ペアワイズ・アライメントのために従来より行なわれて
いるダイナミック・プログラミング法による演算処理
を、変形したものとなっている。
【0017】評価結果記憶部24は、ダイナミック・プ
ログラミング処理部23による最終的な演算結果が記憶
されるユニットである。評価結果提示処理部25は、評
価結果記憶部24に記憶された情報(演算結果)に基づ
き、操作者に評価結果を提示する処理(評価結果を表示
する処理、評価結果をプリンタに印刷させるためのデー
タを出力する処理)を、行なうユニットである。
【0018】なお、本実施形態に係る類似性評価装置1
0は、比較的に高機能なコンピュータに、類似性評価プ
ログラムをインストールすることによって実現した装置
となっており、確率モデル情報記憶部22、評価結果記
憶部24は、それぞれ、当該コンピュータに備えられた
RAM、ハードディスクに相当している。また、確率モ
デル情報取得部21、ダイナミック・プログラミング処
理部23及び評価結果提示処理部25は、それぞれ、類
似性評価プログラムの特定の部分が実行されいる状態に
おける当該コンピュータ(CPUを中心とした部分)に
相当している。
【0019】以上のことを前提に、以下、本類似性評価
装置10の動作を具体的に説明する。
【0020】まず、本類似性評価装置10を用いて類似
性の評価が行なえる確率モデルであるプロファイルHM
Mの概要を、説明する。
【0021】プロファイルHMMは、塩基配列やアミノ
酸配列などを表すHMMであり、図2に例示したよう
に、遷移確率(図では、矢印)を介して関連づけられた
Mノード、Iノード、Dノード、Sノード及びEノード
からなる。
【0022】プロファイルHMMを構成するMノード及
びIノードは、いずれも、配列(配列アライメント)の
或る要素の状態を表すノードであり、Mノードには、記
号の出力確率(塩基配列を表すHMMでは、A、G、
C、Tといった4種の記号についての4種の出力確率、
アミノ酸配列を表すHMMでは、20種の出力確率)
と、幾つかの他ノード(Mノード、Iノード及びDノー
ド)への遷移確率とが、対応づけられている。また、I
ノードには、Mノードと同様に、複数の記号の出力確率
と幾つかの遷移確率とが対応づけられている。ただし、
Iノードには、他Iノードへの遷移確率ではなく自Iノ
ードへの遷移確率が対応づけられている。
【0023】一方、Dノードは、出力確率が対応づけら
れていいないダミーノードである。Dノードには、幾つ
かのノードへの遷移確率のみが対応づけられている。S
ノードは、このプロファイルHMMの初期状態を表すノ
ードであり、Sノードには、幾つかの他ノードへの遷移
確率のみが対応づけられている。また、Eノードは、こ
のプロファイルHMMの初期状態を表すノードであり、
Eノードには、出力確率のみが対応づけられている。
【0024】次に、ペアワイズ・アライメントのために
従来より行なわれているダイナミック・プログラミング
法による演算処理の説明(換言すれば、ダイナミック・
プログラミング処理部23の動作原理の説明)を、行な
う。
【0025】ペアワイズ・アライメントとは、簡単に言
えば、与えられた2つの配列の適当な場所にギャップを
入れることにより、要素の並び方が最も類似した2つの
配列を得る操作(処理)のことである。
【0026】以下、“AIMS”及び“AMOS”とい
う2つの配列(文字列)に対してペアワイズ・アライメ
ントが行なわれる場合を例に、ダイナミック・プログラ
ミング法によるペアワイズ・アライメントの概要を、説
明する。
【0027】この場合、図3に模式的に示したような、
5×5のノード(白丸)を含み、縦方向に並んだノード
群には、アライメントを求めるべき一方の配列(以下、
第1配列と表記する;図では、“AIMS”)の特定の
要素が対応づけられ、横方向に並んだノードには、アラ
イメントを求めるべき2配列の他方の配列(以下、第2
配列と表記する;図では、“AMOS”)の特定の要素
が対応づけられているマトリックスの存在が、想定され
る。
【0028】そして、ダイナミック・プログラミング法
によってペアワイズ・アライメントを求める際には、こ
のマトリックスの左上端のノードから右下端のノードま
での、矢印に従った各移動経路が、1つのアライメント
(2配列に関する1つの調整結果)として解釈される。
具体的には、右方向矢印に従った移動は、第1配列に関
しては、移動後のノードに対応づけられている要素(文
字)を調整結果の要素として出力する操作と解釈され、
第2配列に関しては、ギャップを調整結果の要素として
出力する操作と解釈される。また、斜め方向矢印に従っ
た移動は、第1配列、第2配列の双方に関して、移動後
のノードに対応づけられている要素(文字)を調整結果
の要素として出力する操作と解釈される。そして、下方
向矢印に従った移動は、第1配列に関しては、ギャップ
を調整結果の要素として出力する操作と解釈され、第2
配列に関しては、移動後のノードに対応づけられている
要素(文字)を調整結果の要素として出力する操作と解
釈される。
【0029】すなわち、図中、点線矢印で示された経路
は、“−AIMS”及び“AMOS−”を示すものとし
て解釈され、太線矢印で示された経路は、“AIM−
S”及び“A−MOS”を示すものとして解釈される。
【0030】このマトリックスが表し得る全ての調整結
果の中から最も類似したものを見出せば、最適アライメ
ントが得られる訳であるが、全ての調整結果について、
調整後の2配列がどの程度類似しているかを評価してい
たのでは、目的とするアライメントを得るために時間が
かかることになる。この時間を短縮するために用いられ
ているのがダイナミック・プログラミング法(小さな問
題の最適解を求め,その最適解を拡大しながら次第に大
きな問題の解を求める方法)であり、ダイナミック・プ
ログラミング法によってペアワイズ・アライメントを求
める際には、以下に記す(1)式(i,jに関する漸化
式)が用いられている。
【0031】
【数2】
【0032】この(1)式において、Vi,jは、第1配
列の要素#iと第2配列の要素#jとに対応づけられた
ノードまでの経路に対する評価点(評価値)であり、d
は、ギャップペナルティ或いはギャップコストと呼ばれ
る対応要素の欠失に対する評価点である。また、wi,j
は、第1配列の要素#iと第2配列の要素#jとの類似
性に関する評価点である。なお、このwi,jとしては、
塩基配列を対象とする場合には、両要素が一致している
か否かに応じた値(予め用意された2値のうちのいずれ
か)が用いられており、アミノ酸配列を対象とする場合
には、2つのアミノ酸の各組み合わせに対するw値を保
持したテーブルから読み出した値が、用いられている。
【0033】そして、ダイナミック・プログラミング法
にてペアワイズ・アライメントを求める際には、この
(1)式による計算が、i,jを増加させながら各ノー
ドについて行なわれる。また、その際、どの経路(複数
のこともあり得る)をたどった場合に最適であったかが
記憶され、全ての演算が完了した後、右下端から最適経
路を逆向きにたどる(トレースバックする)ことにより
最適アライメントが求められている。
【0034】要するに、ダイナミック・プログラミング
法によってペアワイズ・アライメントを求める際には、
1つのノードについてV値の計算を行う度に、最終的な
評価点(調整後の2配列の評価点)の算出を行わない経
路が増えていく(max関数により、そのノードに至るこ
とが出来る3種の経路の中の2個の経路が、最終的な評
価点の算出を行わない経路とされてしまう)手順の処理
(換言すれば、少ない計算量で目的とする結果が得られ
る処理)が行なわれるので、ダイナミック・プログラミ
ング法によるペアワイズ・アライメントは、高速に完了
するのである。
【0035】次に、類似性評価装置10のダイナミック
・プログラミング処理部23及び判定結果提示部25の
動作を、説明する。
【0036】ダイナミック・プログラミング処理部23
は、ペアワイズ・アライメントを求めるために行なわれ
ている上記した処理と同一原理の処理を、プロファイル
HMMに対して行なうものとなっている。また、ダイナ
ミック・プログラミング処理部23は、上述したよう
に、3つの評価モードを有するものとなっている。
【0037】このため、まず、従来の処理手順と異なる
部分を中心に、第1評価モードでの第1ダイナミック・
プログラミング処理部23の動作を、説明することにす
る。
【0038】第1評価モードは、2つのプロファイルH
MMの比較が、各プロファイルHMMのMノードに付与
されている出力確率のみを用いて行なわれるモードであ
る。この第1評価モードでは、(imax+1)×(jmax
+1)個のノードからなり、ノード〔i,j〕が、HM
M#0に関するi番目のMノードの出力確率ベクトルと
HMM#1に関するj番目のMノードの出力確率ベクト
ルとに対応づけられたマトリックス(図3参照;以下、
評価値マトリックスと表記する)が、想定される。な
お、imaxは、類似性の評価が行なわれるべき2プロフ
ァイルHMMのうちの一方のプロファイルHMM(以
下、HMM#0と表記する)のMノードの数であり、j
maxは、他方のプロファイルHMM(以下、HMM#1
と表記する)のMノードの数である。
【0039】この第1評価モードでの評価を指示された
場合、ダイナミック・プログラミング処理部23は、評
価値マトリックスのノード〔i,j〕の評価値Vi,j
を、以下に記す(2)式を用いて算出する。
【0040】
【数3】
【0041】この(2)式において、dは、いわゆるギ
ャップコスト(ギャップペナルティ)であり、L、
L′、L″は、ノード〔i,j〕に至るまでに通過して
きたノードの数である。なお、L、L′及びL″を導入
しているのは、ギャップが多く挿入された経路の評価値
が、相対的に小さな値となるようにするためである。
【0042】また、Miは、HMM#0のノードMiに関
する出力確率ベクトルであり、MjHMM#1のノード
jに関する出力確率ベクトルである。S(Mi,Mj)
は、出力確率ベクトルMiと出力確率ベクトルMjとか
ら、それらの類似性を示す数値情報である類似度を求め
る関数である。このS(Mi,Mj)としては、Mi,Mj
同一のものであるときに、最大値(例えば、“1”)を
とり、Mi,Mjが全く異なったものである(Mi,Mj
直交している)ときに、最小値(例えば、“0”)をと
る関数であればどのようなものでも用いることもでき
る。すなわち、このS(Mi,Mj)としては、図4に示し
たように、ベクトルMi,Mj間の角度Θの余弦cos(Θ)
や、角度Θの余弦の二乗値cos2(Θ)等を用いることが出
来るのであるが、本実施形態のダイナミック・プログラ
ミング処理部23は、このS(Mi,Mj)として、角度Θ
の余弦の二乗値cos2(Θ)が用いられたものとなってい
る。
【0043】以下、図5及び図6を用いて、この第1評
価モードでの評価を指示された場合のダイナミック・プ
ログラミング処理部23の動作を、より具体的に説明す
る。
【0044】第1評価モードでの評価を指示された形で
動作を開始したダイナミック・プログラミング処理部2
3は、図5に示したように、まず、モデル情報記憶部2
2に記憶されている2つの確率モデル情報に基づき、ノ
ード毎に、類似度の計算を行なう(ステップS10
1)。
【0045】例えば、類似性を評価すべき確率モデル
(プロファイルHMM)として、それぞれ、図6
(a)、(b)に示した内容の確率モデルH0,H1が
与えられた場合、ダイナミック・プログラミング処理部
23は、ステップS101において、図6(c)に示し
たように、16個の類似度の計算を行なう。なお、確率
モデルH0は、“AAAA”と“AAAA”とからなる
ホモロジーグループに対して作成されたものであり、確
率モデルH1は、“AAGA”と“ACAA”とからな
るホモロジーグループに対して作成されたものである。
【0046】そして、ダイナミック・プログラミング処
理部23は、(2)式を用いた逐次演算により各ノード
の評価値を算出して内部に記憶するとともに、各ノード
について、評価値の算出に用いられた経路を示す経路情
報を内部に記憶する処理を行なう(ステップS10
2)。図6に示したケースでは、このステップS102
にて、図6(d)に示したような評価値群が算出、記憶
されるとともに、図6(e)に示したような状態を表す
経路情報群が、記憶される。なお、図6(e)は、斜
め、右、下の経路で評価値が算出されたノードに、それ
ぞれ、“\”、“←”、“↑”を対応づけた図となって
いる。
【0047】ステップS102の完了後、ダイナミック
・プログラミング処理部23は、バックトレースを行な
って、その結果を、判定結果提示部25が必要とする情
報(バックトレースがされなかった部分に関する経路情
報)とともに、判定結果記憶部24に記憶(図5:ステ
ップS103)して、図示した処理を終了する。
【0048】この後、評価結果提示処理部25によっ
て、評価結果記憶部24に記憶された情報に基づき、操
作者に評価結果を提示する処理(評価結果を表示、印刷
させるための処理)が、行なわれ、例えば、図7に示し
たような内容のグラフ(記号をマトリックス状に並べた
もの)と、バックトレースによって得られた最適アライ
メントのV値とが表示する処理が行なわれる。
【0049】なお、この図7は、本件出願時点における
Pfam(http://pfam.wsustl.edu)のエントリーBig1(Bacte
rial Ig-like domein(group1)):length108と、Big2 (B
acterial Ig-like domein(group2)):length88とに対し
て、第1評価モードによる評価を行なった結果を示した
図であり、図中、“\”、“|”、“=”は、各記号が
記された部分が、バックトレースされた部分であって、
それぞれ、斜め上、上、横(左)から接続されている部
分であることを、示している。また、“+”、“:”、
“−”は、各記号が記された部分が、バックトレースさ
れなかった部分であって、それぞれ、斜め上、上、横
(左)から接続されている部分であることを、示してい
る。また、この図のバックトレースされた部分(すなわ
ち、アライメント)の類似度(評価値)は、0.392255と
計算されている。
【0050】次に、第2評価モードでのダイナミック・
プログラミング処理部23の動作を、第1評価モードで
のダイナミック・プログラミング処理部23の動作との
違いを中心に、説明する。
【0051】第2評価モードでは、2つのプロファイル
HMMの比較が、各プロファイルHMMのMノードに付
与されている出力確率及び遷移確率を用いて行なわれ
る。
【0052】この第2評価モードでの評価を指示された
場合、ダイナミック・プログラミング処理部23は、評
価値マトリックスのノード〔i,j〕の評価値Vi,j
を、以下に記す(3)式を用いて算出する。
【0053】
【数4】
【0054】この(3)式において、Tiは、HMM#
0のノードMiに関する遷移確率ベクトルであり、T
jは、HMM#1のノードMjに関する遷移確率ベクトル
である。S(Ti,Tj)は、それら2つの遷移確率ベクト
ル間の類似度(2ベクトルのなす角の余弦の二乗値)で
ある。
【0055】以下、図8を用いて、この(3)式が有効
である理由を簡単に説明する。
【0056】周知のように、ある配列群から作成できる
プロファイルHMMは、1つに限られない。例えば、
“ACT”、“AGT”、“A−T”、“A−T”とい
ったマルチプル・アライメントからは、図8に模式的に
示したような内容の2つのプロファイルHMM(簡単に
言えば、同じ部分が、それぞれ、Mノード、Iノードと
して扱われている2つのプロファイルHMM)を、作成
することが出来る。
【0057】そして、この2つのプロファイルHMMの
類似性の判定が行われた場合、「上側に記してあるプロ
ファイルHMMの1番目、2番目のMノードと、下側に
記してあるプロファイルHMMの1番目、3番目のMノ
ードとが対応しており、これらのプロファイルHMM
は、極めて類似している」といった結果が得られるべき
である。しかしながら、上記した第1評価モードでは、
Iノードの存在が完全に無視されているので、極めて類
似しているという結果が得られないことや、Mノード間
の対応関係が誤って解釈されることが有り得る。
【0058】これに対して、この第2評価モードでは、
斜め方向の移動に対する評価値が、S(Ti,Tj)・S
(Mi,Mj)とされている。S(Ti,Tj)は、Iノード、
Dノードの存在を直接的に示す値ではないが、図8に示
したような関係が生じている部分に関するS(Ti,Tj)
は、かなり小さな値となる(図8の、左端に示してある
2つのMノードに関するS(Ti,Tj)は、0.25)。
従って、この第2評価モードによれば、横方向或いは縦
方向の移動が選択されるべき部分で、斜め方向の移動が
選択されることが少なくなり、その結果として、第1評
価モードよりも正確な類似性の判定が行なえることにな
る。
【0059】次に、第3評価モードにおけるダイナミッ
ク・プログラミング処理部23の動作を、上記した第2
評価モードにおけるダイナミック・プログラミング処理
部23の動作との違いを中心に、説明する。
【0060】第3評価モードは、Iノード、Dノードの
存在がより積極的に考慮された評価モードであり、この
第3評価モードでの評価を指示された場合、ダイナミッ
ク・プログラミング処理部23は、評価値マトリックス
のノード〔i,j〕の評価値Vi,j を、以下に記す
(4)〜(7)式を用いて算出する。
【0061】
【数5】
【0062】これらの式において、Tmi、Tii、Td
iは、それぞれ、HMM#0のMノード#iに関するM
ノードへの遷移確率、Iノードへの遷移確率、Dノード
への遷移確率である。Tmj、Tij、Tdjは、それぞ
れ、HMM#1のMノード#jに関するMノードへの遷
移確率、Iノードへの遷移確率、Dノードへの遷移確率
ある。また、Iiは、HMM#0のノードIiに関する出
力確率ベクトルであり、Ijは、HMM#1のノードIj
に関する出力確率ベクトルである。
【0063】すなわち、この第3評価モードでは、斜め
方向の移動に対する評価値として、(5)式で示されて
いるように、2つのMノードの出力確率ベクトルの類似
度(“S(Mi、Mj)”)、2つのIノードの出力確率ベ
クトルの類似度(“S(Ii、Ij)”)、及び、2つのM
ノードの遷移確率ベクトル(“Tmi、Tii、Tdi
と“Tmj、Tij、Tdj”)の関数が、使用される。
なお、(5)式におけるS(Mi,Mj) 、S(Ii,Ij)
を、それぞれ、“1”に置換することによって得られる
式が、遷移確率ベクトルTi、Tjのなす角度Θの余弦co
s(Θ)を示す式であることから明らかなように、
(5)式によって算出されるSimijは、“0”〜
“1”の範囲内の値となる。
【0064】また、(6)、(7)式で定義されている
D1i,j、D2i,jは、Iノード或いはDノードの存在
が、経路選択時により積極的に考慮されるようにするた
めに導入した関数である。
【0065】すなわち、図8に用いて行なった説明から
明らかなように、プロファイルHMM間の比較では、一
方のプロファイルHMMのIノード或いはDノードを経
由させた方が良いケースがある。そのような結果が得ら
れるようにするためには、いわゆるギャップコスト
((3)式のd値)が、存在しているIノード及びDノ
ードの状態に応じた値となるようにしてやれば良い。
【0066】そして、HMM#1のMノードと類似する
IノードがHMM#0に存在する場合に、大きな値を取
る関数(演算式)としては、Tii・Tmj・S(Ii
j)(逆の場合は、Tij・Tmi・S(Ij、Mi))
が考えられる。また、Dノードへの遷移確率が高いMノ
ードが存在するHMM#0に対して、そのMノードに関
して大きくなる関数(演算式)としては、Tmi・Tdj
(逆の場合は、Tmj・Tdi)が、考えられる。このた
め、横方向の移動に対する評価値として、(6)式で定
義されているD1i,j値とd値との中の大きな方の値が
用いられ、縦方向の移動に対する評価値として、(7)
式で定義されているD1i,j値とd値との中の大きな方
の値が、用いられるようにしているのである。
【0067】以下、本類似性評価装置10による実際の
評価結果を幾つか紹介することにする。
【0068】まず、“AACAA”、“AACAA”、
“AA−AA”、“AA−AA”というマルチプル・ア
ライメントから作成された図9(A)、(B)に示した
内容のHMM#0、HMM#1に対する第1評価モード
での評価結果と第2評価モードでの評価結果とを説明す
る。
【0069】この場合、第2評価モードでのバックトレ
ース結果は、図10に示したものとなり、両HMMの類
似度(評価値)としては、0.962821が算出された。一
方、第1評価モードでのバックトレース結果は、図10
に示したものと同様のものであるが、類似度としては、
0.85が算出された。
【0070】このことから、第2評価モードの方が、第
1評価モードよりも、信頼できる類似度を算出できる評
価モードとなっていると言うことができる。
【0071】ただし、大量にデータがあるHMMに関し
ては、第1評価モードでも十分な類似性判定が行なえる
ことも確認されている。
【0072】具体的には、4つのホモロジーグループの
アミノ酸配列から、それぞれ、5H1A_M7、5H1B_D7、5HT_BO
6、5HT_HE6と名付けたプロファイルHMMを作成し、そ
れらの全ての組み合わせに対して、第1評価モードで評
価を行なった。その結果、図11〜図17に示した判定
結果を得ることが出来た。
【0073】なお、これらの図のうち、図11は、各組
み合わせに対して得られた類似度(評価値)を示した図
であり、図12は、5H1A_M7と5H1B_D7との間のバックト
レース結果を示した図である。図13は、5H1A_M7と5HT
_BO6との間のバックトレース結果を示した図であり、図
14は、5H1A_M7と5HT_HE6との間のバックトレース結果
を示した図である。図15は、5H1B_D7と5HT_BO6との間
のバックトレース結果である。図16は、5H1B_D7と5HT
_HE6との間のバックトレース結果を示した図である。そ
して、図17は、5HT_BO6と5HT_HE6との間のバックトレ
ース結果を示した図である。また、図12〜図17中、
“\”、“|”、“=”は、各記号が記された部分が、
バックトレースされた部分であって、それぞれ、斜め
上、上、横(左)から接続されている部分であること
を、示しており、“+”、“:”、“−”は、各記号が
記された部分が、バックトレースされなかった部分であ
って、それぞれ、斜め上、上、横(左)から接続されて
いる部分であることを、示している。
【0074】このように、第1評価モードの評価結果か
らも、5H1A_M7と5H1B_D7が極めて似ていること、5HT_BO
6と5HT_HE6が極めて似ていること、5H1B_D7の後半部分
に、5H1A_M7と極めて類似した部分が含まれることなど
を、十分に読取ることが出来る。
【0075】以上、詳細に説明したように、本実施形態
に係る類似性評価装置10は、確率モデル間の類似度
を、ダイナミック・プログラミング法により求めること
が出来るように構成されているので、この類似性評価装
置10を用いれば、従来よりも高速に確率モデル間の類
似性の判定が行なえることになる。
【0076】<変形形態>上記した類似性評価装置10
は、各種の変形が可能である。例えば、実施形態に係る
ダイナミック・プログラミング処理部23が、第3評価
モードで動作しているときに処理に使用するD1、D2
値は、DノードとIノードの存在の双方が考慮された値
であったが、Dノード経由時の評価値(評価関数)とI
ノード経由時の評価値(評価関数)とが算出され、それ
らとd値の中の最大値が、横方向或いは縦方向の移動に
対する評価値とようにしておいても良い。
【0077】また、類似性評価装置10は、コンピュー
タに類似性評価プログラムをインストールした装置であ
ったが、ダイナミック・プログラミング処理部23をI
Cとしてもよいことや、類似性評価装置10で用いられ
ている技術を、HMM以外の確率モデルに適用しても良
いことは、当然である。
【0078】
【発明の効果】本発明の類似性評価方法によれば、従来
よりも高速に確率モデル間の類似性の判定が行なえるこ
とになる。また、本発明の類似性評価プログラムによれ
ば、コンピュータを、従来よりも高速に確率モデル間の
類似性の判定が行なえる装置として動作させことが可能
となる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る類似性評価装置の
機能ブロック図である。
【図2】 実施形態に係る類似性評価装置が処理対象と
する確率モデルであるプロファイルHMMを説明するた
めの図である。
【図3】 ダイナミック・プログラミング法によるペア
ワイズ・アライメントを説明するための図である。
【図4】 ダイナミック・プログラミング処理部によっ
て算出される類似度の説明図である。
【図5】 ダイナミック・プログラミング処理部の動作
手順を示したフローチャートである。
【図6】 ダイナミック・プログラミング処理部の動作
を説明するための図である。
【図7】 ダイナミック・プログラミング処理部の動作
結果を説明するための図である。
【図8】 ダイナミック・プログラミング処理部の動作
内容を説明するための図である。
【図9】 ダイナミック・プログラミング処理部の動作
を説明するための図である。
【図10】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図11】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図12】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図13】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図14】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図15】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図16】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【図17】 ダイナミック・プログラミング処理部の動
作結果を説明するための図である。
【符号の説明】
10 類似性評価装置 21 確率モデル情報取得部 22 確率モデル情報記憶部 23 ダイナミック・プログラミング処理部 24 評価結果記憶部 25 評価結果提示処理部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 複数種類の確率データからなる確率情報
    を複数個含む確率モデル情報間の類似性を評価するため
    の類似性評価方法であって、 類似性を評価すべき2つの確率モデル情報のうちの一方
    の確率モデル情報に含まれる任意の確率情報と、他方の
    確率モデル情報に含まれる任意の確率情報とに基づき、
    それらの確率情報間の類似性を示す類似値を算出するた
    めの類似値算出ステップと、前記2つの確率モデル情報
    の類似性を評価するために、前記類似値算出ステッ プにより算出された類似値を経路の選択のための指標値
    として用いたダイナミック・プログラミング法に基づく
    演算処理を行なう評価ステップとを、含むことを特徴と
    する類似性評価方法。
  2. 【請求項2】 前記確率モデル情報が、隠れマルコフモ
    デルに関する確率モデル情報であり、 前記類似値算出ステップは、前記2つの確率情報のうち
    の一方の確率情報に含まれる複数種類の出力確率データ
    と、他方の確率情報に含まれる複数種類の出力確率デー
    タとに基づき、前記類似値を算出することを特徴とする
    請求項1記載の類似性評価方法。
  3. 【請求項3】 前記確率モデル情報が、隠れマルコフモ
    デルに関する確率モデル情報であり、 前記類似値算出ステップは、前記2つの確率情報のうち
    の一方の確率情報に含まれる複数種類の出力確率データ
    及び複数種類の遷移確率データと、他方の確率情報に含
    まれる複数種類の出力確率データと複数種類の遷移確率
    データとに基づき、前記類似値を算出することを特徴と
    する請求項1記載の類似性評価方法。
  4. 【請求項4】 前記類似値算出ステップは、前記一方の
    確率情報に含まれる複数種類の出力確率データからなる
    出力確率ベクトルと前記他方の確率情報に含まれる複数
    種類の出力確率データからなる出力確率ベクトルとがな
    す角度の余弦値の二乗値に、前記一方の確率情報に含ま
    れる前記複数種類の遷移確率データからなる遷移確率ベ
    クトルと前記他方の確率情報に含まれる前記複数種類の
    遷移確率データからなる遷移確率ベクトルとがなす角度
    の余弦値の二乗値を乗じた結果を、前記類似値として算
    出することを特徴とする請求項3記載の類似性評価方
    法。
  5. 【請求項5】 前記評価ステップが行なった演算処理の
    結果に基づき、前記2つの確率モデル情報間の確率情報
    単位での類似関係を示す情報を出力する類似関係情報出
    力ステップを、さらに含むことを特徴とする請求項1乃
    至請求項4のいずれかに記載の類似性評価方法。
  6. 【請求項6】 複数種類の確率データからなる確率情報
    を複数個含む確率モデル情報間の類似性を評価させるこ
    とを目的として、 コンピュータに、 類似性を評価すべき2つの確率モデル情報のうちの一方
    の確率モデル情報に含まれる任意の確率情報と、他方の
    確率モデル情報に含まれる任意の確率情報とに基づき、
    それらの確率情報間の類似性を示す類似値を算出するた
    めの類似値算出ステップと、 前記2つの確率モデル情報の類似性を評価するために、
    前記類似値算出ステップにより算出された類似値を経路
    の選択のための指標値として用いたダイナミック・プロ
    グラミング法に基づく演算処理を行なう評価ステップと
    を、実行させることを特徴とする類似性評価プログラ
    ム。
  7. 【請求項7】 前記確率モデル情報が、隠れマルコフモ
    デルに関する確率モデル情報であり、 前記類似値算出ステップは、前記2つの確率情報のうち
    の一方の確率情報に含まれる複数種類の出力確率データ
    と、他方の確率情報に含まれる複数種類の出力確率デー
    タとに基づき、前記類似値を算出することを特徴とする
    請求項6記載の類似性評価プログラム。
  8. 【請求項8】 前記確率モデル情報が、隠れマルコフモ
    デルに関する確率モデル情報であり、 前記類似値算出ステップは、前記2つの確率情報のうち
    の一方の確率情報に含まれる複数種類の出力確率データ
    及び複数種類の遷移確率データと、他方の確率情報に含
    まれる複数種類の出力確率データと複数種類の遷移確率
    データとに基づき、前記類似値を算出することを特徴と
    する請求項6記載の類似性評価プログラム。
  9. 【請求項9】 前記類似値算出ステップは、前記一方の
    確率情報に含まれる複数種類の出力確率データからなる
    出力確率ベクトルと前記他方の確率情報に含まれる複数
    種類の出力確率データからなる出力確率ベクトルとがな
    す角度の余弦値の二乗値に、前記一方の確率情報に含ま
    れる前記複数種類の遷移確率データからなる遷移確率ベ
    クトルと前記他方の確率情報に含まれる前記複数種類の
    遷移確率データからなる遷移確率ベクトルとがなす角度
    の余弦値の二乗値を乗じた結果を、前記類似値として算
    出することを特徴とする請求項8記載の類似性評価プロ
    グラム。
  10. 【請求項10】 前記コンピュータに、 前記評価ステップが行なった演算処理の結果に基づき、
    前記2つの確率モデル情報間の確率情報単位での類似関
    係を示す情報を出力する類似関係情報出力ステップを、
    さらに実行させることを特徴とする請求項6乃至請求項
    9のいずれかに記載の類似性評価プログラム。
JP2001299218A 2001-09-28 2001-09-28 類似性評価方法及び類似性評価プログラム Pending JP2003108187A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001299218A JP2003108187A (ja) 2001-09-28 2001-09-28 類似性評価方法及び類似性評価プログラム
AU27731/02A AU765400B2 (en) 2001-09-28 2002-03-27 Similarity evaluation method, similarity evaluation program and similarity evaluation apparatus
US10/107,204 US20030065510A1 (en) 2001-09-28 2002-03-28 Similarity evaluation method, similarity evaluation program and similarity evaluation apparatus
EP02252615A EP1298534A3 (en) 2001-09-28 2002-04-12 Method and apparatus for Similarity evaluation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001299218A JP2003108187A (ja) 2001-09-28 2001-09-28 類似性評価方法及び類似性評価プログラム

Publications (1)

Publication Number Publication Date
JP2003108187A true JP2003108187A (ja) 2003-04-11

Family

ID=19120005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001299218A Pending JP2003108187A (ja) 2001-09-28 2001-09-28 類似性評価方法及び類似性評価プログラム

Country Status (4)

Country Link
US (1) US20030065510A1 (ja)
EP (1) EP1298534A3 (ja)
JP (1) JP2003108187A (ja)
AU (1) AU765400B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612882B1 (ko) 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822614B2 (en) * 2003-12-05 2010-10-26 Kabushikikaisha Kenwood Device control, speech recognition device, agent device, control method
JP2007047575A (ja) * 2005-08-11 2007-02-22 Canon Inc パターンマッチング方法およびその装置、および音声情報検索システム
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
JP7662953B2 (ja) * 2021-02-15 2025-04-16 日本電信電話株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX9706407A (es) * 1995-03-07 1997-11-29 British Telecomm Reconocimiento del lenguaje.
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612882B1 (ko) 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치

Also Published As

Publication number Publication date
AU2773102A (en) 2003-04-03
AU765400B2 (en) 2003-09-18
EP1298534A3 (en) 2005-01-19
EP1298534A2 (en) 2003-04-02
US20030065510A1 (en) 2003-04-03

Similar Documents

Publication Publication Date Title
JP3585523B2 (ja) テキスト状画像認識方法
Sato et al. RNA secondary structural alignment with conditional random fields
CN110930993B (zh) 特定领域语言模型生成方法及语音数据标注系统
JP3447762B2 (ja) 画像生成器及び画像認識システム
US20110022380A1 (en) Phrase-based statistical machine translation as a generalized traveling salesman problem
CN109670190B (zh) 翻译模型构建方法和装置
JP2008532176A (ja) 認識グラフ
JP2009528604A (ja) 第一のコンピュータ援用3dモデルを第二のコンピュータ援用3dモデルと比較するための方法
Zhu et al. A system for automatic animation of piano performances
WO2025241278A1 (zh) 基于图文模态融合的文档信息抽取方法、装置及存储介质
CN109977085A (zh) 一种识别模型构件文件重复的方法和装置
Bujny et al. Hybrid evolutionary approach for level set topology optimization
JP2003108187A (ja) 類似性評価方法及び類似性評価プログラム
KR20230082792A (ko) 소스코드 보안 취약점의 종류를 구별하는 인공지능 기반의 구별 모델의 생성을 통해 소스코드에 대한 보안 취약점의 종류를 확인할 수 있도록 지원하는 전자 장치 및 그 동작 방법
US8069026B2 (en) Clock gating analyzing apparatus, clock gating analyzing method, and computer product
CN116013278B (zh) 基于拼音对齐算法的语音识别多模型结果合并方法及装置
JP2003256435A (ja) 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム
JP2019016163A (ja) 磁性体シミュレーション装置、磁性体シミュレーションプログラム、及び磁性体シミュレーション方法
CN110070120B (zh) 基于判别采样策略的深度度量学习方法及系统
Zhang et al. On the robustness of diffusion inversion in image manipulation
JP2022103676A (ja) 情報処理装置、情報処理方法、プログラム
CN114882515B (zh) 基于神经网络模型的表格类型判定方法、设备及介质
WO2015030016A1 (ja) 非構造化データ処理システム、非構造化データ処理方法および記録媒体
JPWO2009151002A1 (ja) パターン識別方法、装置およびプログラム
JP7687527B2 (ja) 画像処理装置、方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060926