JPH08202384A

JPH08202384A - 音声認識方法及び装置

Info

Publication number: JPH08202384A
Application number: JP7024521A
Authority: JP
Inventors: Nobuyuki Saito; 伸行斎藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1995-01-20
Filing date: 1995-01-20
Publication date: 1996-08-09

Abstract

(57)【要約】【目的】音声処理結果としての有向グラフを高速且つ
高精度に作成し、延いては、実時間処理をも可能ならし
める音声認識を実現する。【構成】音声信号を認識候補の系列として認識し、そ
の結果を有向グラフ型のデータ構造を用いて表現する音
声認識方法において、認識候補の系列を認識する処理と
有向グラフを生成する処理とを時間的に同期して統合的
に行う。また、これら処理が発話の区切りに到達した後
に後戻り処理を行って、有向グラフの認識候補間のノー
ドの確定及びアーク毎のスコア演算、他の認識候補の採
用及び確定、最適経路のスコアの演算等を行い、有向グ
ラフのデータ構造を確定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、認識の途中または最終
結果として得られる音素、音節、単語等の認識候補系列
を有向グラフ型のデータ構造を用いて表現する音声認識
方法及び装置に関する。

【０００２】

【従来の技術】連続的に発話された音声を装置で自動的
に認識する音声認識の技術においては、音声の信号とし
ての処理（音声処理）と記号としての処理（言語処理）
とをどのように結びつけるかということが重要な課題と
なっている。従来では、連続した音声信号の中からスポ
ッティングの技術を用いて音素、音節、単語等として尤
もらしい認識候補を複数個抽出し、これら認識候補のラ
ティスを作成したり、或いは、比較的低次の言語的制約
を用いて複数個の単語候補の系列（Ｎ−ｂｅｓｔ解）を
求める等といった処理を音声処理として行い、その結果
をもとに、より高次の言語的な処理を行うといった手法
が主に採られていた。

【０００３】しかしながら、このような従来の手法で
は、音声処理の不確実性を出来るだけ回避しようとする
と、ラティスやＮ−ｂｅｓｔの”Ｎ”をかなり大きくす
る必要があるため、認識候補系列のデータが莫大なもの
となって言語処理へのデータ受渡の際に過大なオーバー
ヘッドが生じるという不具合がある。これに対し、近年
では、音声処理と言語処理を有向グラフ型のデータ構造
を用いて結びつける手法が提案されている。有向グラフ
型のデータ構造は、莫大な数の音素、音節、単語等の認
識候補の系列をコンパクトに表現できるため、上記した
従来の手法における不具合を解決することができる。

【０００４】図３には、有向グラフの一例として音節の
認識候補系列を表現した有向グラフを示してある。一般
に、グラフは、ノード（節点）の集合と、二つのノード
を結ぶアーク（枝）の集合として定義され、アークに向
きのついているものが特に有向グラフと呼ばれる。そし
て、音声処理と言語処理とのインターフェースとして有
向グラフ型のデータ構造を用いる場合には、通常、ノー
ドは時刻又は時刻と状態の組を属性として持ち、アーク
は認識候補の音素、音節、単語等を示すラベル（ｏ、ｍ
ｏ、ｓｉ、ｒｏ、ｉ、無音を表す＃等）とそのスコア
（確からしさ）という属性を持つ。なお、各アークの始
まりを表すノードはそのアークのインノード、各アーク
の終わりを表すノードはアウトノードと呼ばれ、発話開
始時刻のノードを開始ノード、発話終了（或いは、発話
の区切り）時刻のノードは終了ノードと呼ばれる。

【０００５】有向グラフでは、隣り合ったアークをアー
クの向きに従ってつないでいくことで、ノードとノード
を結ぶ経路（パス）を考えることができる。グラフが音
声処理の結果を表している時には、アークとノードの属
性から、一つのパスには認識候補の系列、この系列に対
する累積スコア（そのパス上のアークのスコアの和）及
びこの系列がいつからいつまで存在するかというデータ
が一意に対応している。特に、開始ノードと終了ノード
を結ぶパスは一つの音声認識結果を表すものとして重要
であり、このようなパスが複数存在する場合には、各パ
スを累積スコアにより順序付けることで、対応する音
素、音節、単語等の認識候補の系列の中から認識結果と
して妥当なものを求めることができる。

【０００６】なお、有向グラフは特殊な形態としてツリ
ー状であることもあり、このようなツリー形態の有向グ
ラフでは、異なったアークが共通のアウトノードを持た
ない構造となっている。また、有向グラフの特殊な場合
として、開始ノードと終了ノードを結ぶパスが一つしか
ないということもある。

【０００７】ここで、従来より、音声処理の結果を上記
のような有向グラフとして表現する方法がいくつか提案
されている。第１の方法は、単語の単位で音声を認識し
て有向グラフを作成するものであり、単語仮説を生成す
る処理と有向グラフを最適化する処理を分離して処理を
二段階のものとしている。そして、単語仮説をつなげて
単語列仮説とする処理、単語間の最適な境界位置を見つ
ける処理、同じ時刻に相当する単語境界を一つのノード
としてまとめる処理、同じ単語候補の系列を含む部分的
なグラフを一つにまとめる処理を、全て最適化処理の中
で行なっている。（M.Oerder and H.Ney, "Word graphs
: An efficient interface between continuous-speec
h recognitionand language understanding", Proc. IC
ASSP-93, vol.II, pp.119-122）

【０００８】また、第２の方法は、スポッティングの技
術により抽出したモーラ（言語のリズムの単位）を基に
モーラグラフを作成するものであり、各モーラ（実施例
では半モーラ）が或る時刻で終了すると仮定した場合
の、その時刻までの累積スコアとそのモーラの開始時刻
を時間的に同期して計算し、発話の終了後、得られたデ
ータテーブルを発話の開始時刻方向に後戻りしながら、
認識候補として確からしい複数個のモーラ系列をグラフ
型のデータ構造としてまとめている。（特開平５−２６
５４８３号公報）

【０００９】また、第３の方法は、単語単位の有向グラ
フを作成するための処理を三段階にしたものである。ま
ず、発話の終了後、発話の開始方向に向かって、各音素
が次に或る音素が続くという条件の下で或る時刻から始
まるとした時の累積スコアとその存在区間を計算する。
その後、今度は発話の開始から終了方向に向かって、各
単語がどのような音素の並びになっているかという知識
と、単語の接続に関する知識を用いて、時間とは非同期
で（単語に同期で）単語単位の有向グラフを作成する。
最後に、再び発話の終了から開始方向に向かって、単語
に同期して有向グラフの最適化を行う。（P.Kenny,et a
l. "New graph search techniques forspeech recognit
ion", Proc. ICASSP-94, vol.I, pp.553-556）

【００１０】

【発明が解決しようとする課題】有向グラフ型のデータ
構造は、莫大な数の音素、音節、単語等の認識候補系列
をコンパクトな形で表現できるため、音声処理と言語処
理とを効率的に結び付けることができる。しかしなが
ら、音声処理の結果を有向グラフとして表現する従来の
方法にあっては、有向グラフの作成に要する処理量が多
く迅速な処理が行えないという問題や、作成された有向
グラフの精度が不十分なものとなってしまうという問題
があった。

【００１１】すなわち、上記の第１の方法は、単語仮説
をつなげて単語列仮説とする処理、単語間の最適な境界
位置を見つける処理、同じ時刻に相当する単語境界を一
つのノードとしてまとめる処理、同じ単語候補の系列を
含む部分的なグラフを一つにまとめる処理を、全て最適
化処理の中で行なっているため、生成される仮説の数が
増えた場合には、最適化処理の負担がかなり重くなって
しまうものであった。また、上記の第２の方法は、認識
候補のモーラをスポッティング技術で抽出するものであ
るため、各モーラ間の境界位置の検出精度が不十分なも
のとなる危険性があり、これに基づいて作成された有向
グラフの精度が不十分なものとなってしまう虞がある。
また、上記の第３の方法では、認識候補間の境界位置の
検出精度を上げるためには、発話終了後の処理量をかな
り多くしなければならなかった。

【００１２】本発明は上記従来の事情に鑑みなされたも
ので、音声処理結果としての有向グラフを、高速且つ高
精度に作成し、延いては、実時間処理をも可能ならしめ
る音声認識方法を提供することを目的とする。また、本
発明は、アークのスコアや、各ノードから開始ノードや
終了ノードに至る最適な（最もスコアの高い）パスのス
コア等をデータ構造に加えることで、従来では困難な課
題とされてきた、大量の語彙や未知の単語等を含む言語
的に多様な発話に対しても、高速且つ高精度な認識を可
能ならしめる音声認識方法を提供することを目的とす
る。また、本発明は、このような音声認識方法を実施す
るための音声認識装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】上記目的を達成するた
め、本発明では、有向グラフ型のデータ構造を作成する
処理の内の、音素、音節、単語等の認識候補を生成する
処理、認識候補をつないで音素、音節、単語等の系列と
そのスコアを生成する処理、認識候補間の境界位置を最
適化する処理、同じ時刻（又は、時刻と状態の組）に相
当する境界位置を一つのノードにまとめる処理を、時間
的に同期して統合的に行う。すなわち、本発明では、有
向グラフ型のデータ構造を作成するための処理の大部分
を時間に同期した処理で行う。

【００１４】また、本発明では、有向グラフを作成した
後に後戻り処理を行って当該有向グラフを確定させる。
すなわち、発話の区切り（又は、発話の終了）が検出さ
れた後に後戻り処理を行って、認識候補間の境界位置を
時間に同期した処理で求められたものの中から最も確か
らしいものを選択して確定する。そして、有向グラフの
各認識候補に対応するアークのスコアを、確定した認識
候補間の境界位置と、有向グラフの作成時に求められて
いる認識候補系列の累積スコアとから簡単な計算により
求める。

【００１５】すなわち、請求項１の音声認識方法は、音
声信号を音素、音節、単語等の認識候補の系列として認
識し、その途中又は最終結果を有向グラフ型のデータ構
造を用いて表現する音声認識方法において、前記認識候
補の系列を認識する処理と前記有向グラフを生成する処
理とを時間的に同期して統合的に行うことを特徴とす
る。

【００１６】また、請求項２の音声認識方法は、請求項
１の音声認識方法において、前記有向グラフを生成する
処理では隠れマルコフモデルを用いて認識候補毎のトレ
リスを連鎖的に作成し、前記認識候補の系列を認識する
処理ではトレリスが示す認識候補の開始時刻とトレリス
の連鎖に沿った累積スコアを求めることを特徴とする。

【００１７】また、請求項３の音声認識方法は、請求項
１又は請求項２の音声認識方法において、前記時間的に
同期して統合的に行われる認識候補の系列の認識処理と
有向グラフの生成処理とが発話の区切りに到達した後、
有向グラフの認識候補間のノードの確定及びアーク毎の
スコア演算を有向グラフの発話の区切り側から発話の開
始側へ向う後戻り処理で順次行い、当該有向グラフのデ
ータ構造を確定することを特徴とする。

【００１８】また、請求項４の音声認識方法は、請求項
３の音声認識方法において、前記時間的に同期して統合
的に行われる処理の過程では単一の認識候補として扱っ
た認識候補であっても、前記後戻り処理の過程でその存
在区間が異なる候補が複数存在し得る場合には、これら
候補を別々の認識候補として有向グラフのデータ構造を
確定することを特徴とする。

【００１９】また、請求項５の音声認識方法は、請求項
３又は請求項４の音声認識方法において、前記後戻り処
理の過程で、発話開始に対応するノードから有向グラフ
中の各ノードまでの最適経路のスコアと、有向グラフ中
の各ノードから発話の区切りに対応するノードまでの最
適経路のスコアとを求め、これらスコアを有向グラフ型
のデータ構造に保持させることを特徴とする。

【００２０】また、請求項６の音声認識方法は、請求項
５の音声認識方法において、前記最適経路のスコアが、
認識候補の系列の音響的尤度、又は当該音響的尤度と認
識候補の連鎖に関する言語的尤度との組合せにより求め
られていることを特徴とする。

【００２１】また、請求項７の音声認識装置は、音声信
号を音素、音節、単語等の認識候補の系列として認識
し、その途中又は最終結果を有向グラフ型のデータとし
て構成する音声認識装置において、入力された音声信号
を分析して特徴パラメータ系列を得る音響分析手段と、
音響モデル及び音響モデルの連鎖に関するモデルを保持
するモデル保持手段と、特徴パラメータ系列に対して前
記モデルを用いて認識候補に対応するトレリスを生成す
るトレリス作成手段と、トレリスに対する累積スコア及
び開始時刻を時間的に同期して演算する演算手段と、ト
レリスに対応して累積スコア及び開始時刻を格納するグ
ラフデータ格納手段と、前記グラフデータ格納手段に格
納されている開始時刻及び累積スコアに基づいて認識候
補間のノードの確定及び認識候補に対応するアーク毎の
スコア演算を行う後戻り処理手段と、を備え、前記トレ
リス作成手段は更に前記演算手段の演算結果に基づいて
後続するトレリスを順次同期して作成し、前記後戻り処
理手段は発話の区切りまで前記累積スコア及び開始時刻
が前記グラフデータ格納手段に格納されたところで前記
処理を行って当該処理結果をグラフデータ格納手段に格
納することを特徴とする。

【００２２】

【作用】有向グラフ型のデータ構造を作成する処理は、
音素、音節、単語等の認識候補とそのスコアを生成する
処理、認識候補をつないだ系列とそのスコアを生成する
処理、認識候補間の最適な境界位置を見つける処理、同
じ時刻（又は、時刻と状態の組）に相当する境界を一つ
のノードとしてまとめる処理、同じ系列を表す部分的な
グラフを一つにまとめる処理に大きくわけることができ
るが、請求項１の発明では、これらの部分的な処理を時
間に同期して統合的に行う。

【００２３】音声信号を音響的な特徴から音素、音節、
単語等の認識候補として認識し、認識候補及びその系列
の確からしさ（スコア）を求めるために、ＨＭＭ（隠れ
マルコフモデル）に基づく方法が一般によく用いられ
る。ＨＭＭ法では、音素、音節、単語等の認識候補毎に
モデルの状態と時間とを二軸とする、トレリスと呼ばれ
る二次元の作業空間を使用する。特に、音声信号を認識
候補の系列として認識する連続音声認識においては、こ
れらのトレリスをお互いに接続して連鎖させ、認識候補
の系列を表現した大きな作業空間が設定される。

【００２４】請求項２の発明では、トレリス上の各点
（時刻、トレリス番号、状態）における発話開始からそ
の点までの累積スコアや、そのトレリスが示す音素、音
節、単語等の認識候補（ラベル）の開始時刻を、トレリ
スの連鎖に沿って求めていくことによって有向グラフの
作成処理を行う。これら累積スコアや開始時刻の演算処
理は各トレリス系列の間で時間的に同期して進められ
る。なお、トレリスが互いに接続されているときには、
この処理の過程で各トレリスが示す認識候補間の境界位
置は最適化される。また、発話終了時刻で各トレリス連
鎖の最終状態における累積スコアの値を比較すれば、認
識結果として確からしい認識候補の系列を求めることが
できる。

【００２５】上記のような処理で求めたトレリスのグラ
フは、未だ、これを音声処理の結果とするには不十分で
ある。例えば、生成されたグラフの中には、発話終了時
刻における累積スコアがかなり低いトレリスが含まれて
いることもあり得るし、また、トレリスに対応する各ア
ークのスコアも未確定である。そこで、請求項３の発明
では、発話の区切り（発話の終了）を検出した後に、後
戻り処理を行って有向グラフの型のデータ構造を確定す
る。後戻り処理では、認識候補間の境界位置（ノード）
の確定と、各アークのスコア計算が行われ、有向グラフ
型のデータ構造としてまとめられる。

【００２６】なお、時間に同期した処理の過程では単一
のトレリス（認識候補）であっても、後戻り処理の過程
で、その存在区間が異なる複数の認識候補系列が現れる
ことがある。請求項４の発明では、このような場合に、
これら認識候補系列のスコアを正しく評価するために、
これらトレリスを別々のアークとする有向グラフを確定
する。

【００２７】また、請求項５の発明では、上記の後戻り
処理において、有向グラフの発話開始に対応するノード
から各ノードまでの最適経路のスコア、及び、各ノード
から発話の区切りに対応するノードまでの最適経路のス
コアを求め、これらスコアを有向グラフ型のデータ構造
に保持させて、後の言語処理での利用に供する。また、
請求項６の発明では、これら最適経路のスコアを認識候
補間の連鎖に関する言語的知識を反映させて求める。上
記のような後戻り処理で演算するデータ量は、通常、時
間的に同期して有向グラフを作成する処理のデータ量に
比べてはるかに小さいため、時間的に同期した処理を発
話中に終えることができれば、発話の区切りとほとんど
同時に認識結果としての確定した有向グラフ型データを
得ることができる。

【００２８】請求項７の音声認識装置では、認識候補に
対応するトレリスを作成してこのトレリスに対する累積
スコア及び開始時刻を時間的に同期して演算する。ま
た、このトレリスには後続する認識候補に対応する複数
のトレリスが時間に同期して接続され、認識候補に対応
してグラフ或いはツリー状に連鎖されたトレリス系列が
順次構成される。これらトレリス系列に対しても累積ス
コア及び開始時刻の演算は同様に時間的に同期して行わ
れる。したがって、認識候補系列に対応したトレリス系
列を設定して行く処理と、トレリス系列に対応した有向
グラフ型のデータを生成して行く処理とが、総じて時間
的に同期して進められる。そして、このようにして得ら
れた各データはグラフデータ格納手段に格納されるが、
上記の処理が発話の終了等に該当する発話の区切りに達
したところで、これら格納した開始時刻及び累積スコア
に基づいて認識候補間のノードの確定及び認識候補に対
応するアーク毎のスコア演算を後戻り処理して求め、有
向グラフ型のデータ構造を確定する。

【００２９】

【実施例】本発明の実施例を図面を参照して説明する。
本実施例はＨＭＭ法を用いたものであり、音響モデル及
び認識単位を音節としたものである。まず、本実施例に
係る音声認識装置を図１及び図２を参照して説明する。
本実施例の音声認識装置は、大まかに分けて、音声信号
を入力するための入力手段１と、入力手段１からの音声
信号を分析して特徴パラメータ系列を得る音響分析手段
２と、音響分析手段２からの特徴パラメータ系列を音節
の認識候補系列として認識して、認識結果を有向グラフ
型のデータ構造にまとめる認識グラフ化手段３と、認識
グラフ化手段３による認識結果を格納するグラフデータ
格納手段４と、発話の区切りを検出してグラフデータ格
納手段４に格納されている認識結果のデータ構造を確定
する処理を行う後戻り処理手段５と、を備えている。な
お、得られた有向グラフ型の認識結果は、言語処理手段
６で文法的な制約等に基づいた言語処理が施されて出力
される。

【００３０】認識グラフ化手段３は、音節の音響モデル
としてＨＭＭ及び音響モデルの連鎖に関するモデルを保
持したモデル保持手段１１と、音響分析手段２からの特
徴パラメータ系列に対してモデル保持手段１１のＨＭＭ
を用いて認識候補に対応するトレリスを設定するトレリ
ス作成手段１２と、設定されたトレリスに対する累積ス
コア及び開始時刻を時間的に同期して演算する演算手段
１３と、を備えており、演算して得た各トレリスに対応
した累積スコア及び開始時刻等の認識結果をグラフデー
タ格納手段４に順次格納する。

【００３１】トレリス作成手段１２は、発話開始時刻で
の無音を示すトレリスを設定した後、音声信号（特徴パ
ラメータ系列）の入力に同期して後続する認識候補を示
すトレリスを順次設定する。この際、トレリス作成手段
１２は、演算手段１３の演算結果を利用して、累積スコ
アの高い認識候補系列に対応するトレリスには新しいト
レリスをツリー状乃至グラフ状に後続させる一方、累積
スコアの低い認識候補系列に対してはそれ以上のトレリ
ス連鎖を展開させない。すなわち、累積スコアの低い認
識候補系列に対しては演算手段１３での演算処理を途中
で打ち切らせる。また、トレリス作成手段１２は、後続
するトレリスをツリー状に展開しながら、重複した部分
ツリーが生成されることのないように連鎖をグラフの形
にまとめていく共有化処理も時間に同期して行う。

【００３２】これらトレリス作成手段１２で行われる、
各時刻において認識の途中結果（認識候補の系列）をト
レリスのグラフとして表現する処理、各時刻における認
識候補のトレリスをツリーに展開する処理、新たに付け
加えられるトレリスを既に展開されているものと共有化
する処理等は、演算手段１３で行われるトレリス上の各
点における累積スコアや開始時刻の演算処理と時間的に
同期して進められる。

【００３３】後戻り処理手段５はグラフデータ格納手段
４に格納されている有向グラフ型データに基づいて認識
候補間のノードの確定及び認識候補に対応するアーク毎
のスコア演算を行うものであり、所定のトレリス（アー
ク）を検索するトレリス検索手段１５と、所定のノード
を確定するノード確定手段１６と、アーク毎のスコア演
算等を行う演算手段１７とを備えている。すなわち、後
戻り処理手段５は、発話の区切りに達した時点でトレリ
ス検索手段１５が発話の区切りに対応するアークを検索
し、そのインノードをノード確定手段１６が確定させ、
当該インノードをアウトノードとするアークをトレリス
検索手段１５が発話開始の方向へ検索して調べ、検索さ
れたアークのインノードをノード確定手段１６が確定さ
せるという処理を発話開始のノードに至るまで繰り返し
行う。そして、この処理に同期して演算手段１７が個々
のアークのスコア等を演算し、この演算結果をグラフデ
ータ格納手段４に格納する。

【００３４】ここで、音節の音響モデルとして用いるＨ
ＭＭ（隠れマルコフモデル）の説明をしておく。図４に
は音節ＨＭＭの一例を示してあり、ＨＭＭの状態１〜３
が矢印実線で示すように遷移する様子を表している。こ
のＨＭＭは状態間の遷移と音声信号の特徴パラメータの
受理を繰り返すというように動作する。状態遷移と特徴
パラメータの受理は確率的であり、状態遷移確率ａ^m _i、j
と特徴パラメータを受理する確率ｂ^m _j（Ｏ_k）で表され
る。ＨＭＭは各音節毎に設定され、各音節ＨＭＭの確率
の値は、それぞれが対応する音節の特徴パラメータ系列
を最もよく受理するように、学習用の音声データにより
予め求められている。なお、未知の音節は、その特徴パ
ラメータ系列を最もよく受理する音節ＨＭＭを求めるこ
とで認識することができる。

【００３５】なお、上記の記号及び図４中の記号で、Ｏ
_iは、音声信号の特徴パラメータ系列（ここに、ｉ＝
１，２，・・・，Ｉ）、ａ^m _i、jは、音節ｍのＨＭＭで状
態ｉから状態ｊへ遷移する確率の対数値（ここに、ｉ＝
１，２，・・・，Ｓ、ｊ＝１，２，・・・，Ｓ＋１、ｍ
＝１，２，・・・，Ｍであり、Ｊ＝Ｓ＋１は次の音節へ
の遷移に対応している）、ｂ^m _j（Ｏ_k）は、音節ｍのＨ
ＭＭで状態ｊにおいて特徴パラメータＯ_kを受理する確
率の対数値（ここに、ｊ＝１，２，・・・，Ｓ、ｍ＝
１，２，・・・，Ｍ、ｋ＝１，２，・・・，Ｉ）、Ｓｙ
ｌＬａｂｅｌ（ｊ）は、トレリスｊが示す音節、をそれ
ぞれ表している。

【００３６】次に、認識グラフ化手段３で行われる音節
列の認識及びグラフ化の処理を説明する。まず、認識及
びグラフ化の処理は発話の開始時刻で起こり得る音節に
対するトレリスを設定することから始まるが、本実施例
では発話を無音（＃）によって挟まれた区間であると扱
って、まず、無音を示すトレリスを設定する。そして、
以下の演算処理で使用する変数を初期化して、トレリス番号ｊ＝０・・・（式１）、ＳｙｌＬａｂｅｌ（ｊ）＝”＃” ・・・（式２）、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝｛０．０：（ｉ，ｊ，ｋ）＝（０，０，０）の場合、−∞：それ以外の場合｝・・・（式３）、ＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝｛１：（ｉ，ｊ，ｋ）＝（０，０，０）の場合、−１：それ以外の場合｝・・・（式４）、とする。

【００３７】なお、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，
ｋ）は、照合開始点（フレーム０，トレリス番号０，状
態０）から（フレームｉ，トレリス番号ｊ，状態ｋ）に
至るまでの累積スコア（Ｖｉｔｅｒｂｉスコア）、Ｉｎ
ｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）は、或る点（フレーム
ｉ，トレリス番号ｊ，状態ｋ）から見たときのトレリス
ｊが示す音節ＳｙｌＬａｂｅｌ（ｊ）の開始フレーム、
をそれぞれ表している。ここに、フレームとは特徴パラ
メータが抽出された時刻である。

【００３８】すなわち、初期状態では、累積スコア（対
数表示の確率）は式３において”０”、それ以外ではエ
ラー（−∞）に設定し、開始フレーム（開始時刻）は式
４において”１”、それ以外ではエラー（−１）に設定
する。

【００３９】次いで、トレリスが設定されている音節と
特徴パラメータ系列との照合をＶｉｔｅｒｂｉサーチに
よって行う。一般的には、フレームｉ＝１，２，・・
・，Ｉ、トレリス番号ｊ＝１，２，・・・，Ｍ、状態ｋ
＝１，２，・・・，Ｓ、について下記の式５及び式６を
演算することとなるが、ここでは、上記によって無音の
トレリスのみが設定されているので、ｊ＝０として当該
無音のトレリスの上で式５及び式６の演算を行う。

【００４０】ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ（ｉ− １，ｊ，ｋ−１）＋ａ^SylLabel(j) _k-1、k、ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｊ，ｋ）＋ａ^SylLabel(j) _k、k｝＋ｂ^SylLabel(j) _k（Ｏ_i）・・・（式５）、ＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝ＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，ｋ− １）又はＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，ｋ）・・・（式６）、但し、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝Ａｃｃｕ
ｍＳｃｏｒｅ（ｉ−１，ｊ，ｋ−１）＋ａ^SylLabel(j)
_k-1、k＋ｂ^SylLabel(j) _k（Ｏ_i）の場合にはＩｎｉｔＦｒ
ａｍｅ（ｉ，ｊ，ｋ）＝ＩｎｉｔＦｒａｍｅ（ｉ−１，
ｊ，ｋ−１）、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝ＡｃｃｕｍＳｃ
ｏｒｅ（ｉ−１，ｊ，ｋ）＋ａ^SylLabel(j) _k、k＋ｂ
^SylLabel(j) _k（Ｏ_i）の場合にはＩｎｉｔＦｒａｍｅ
（ｉ，ｊ，ｋ）＝ＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，
ｋ）である。

【００４１】例えば、図５に示すトレリスｊにおいて、
ＡｃｃｕｍＳｃｏｒｅ（３，ｊ，２）及びＩｎｉｔＦｒ
ａｍｅ（３，ｊ，２）を求める場合に、点（３，ｊ，
２）ではＡｃｃｕｍＳｃｏｒｅ（２，ｊ，１）＋ａ
^SylLabel(j) _1、2＞ＡｃｃｕｍＳｃｏｒｅ（２，ｊ，２）
＋ａ^SylLabel(j) _2、2とすると、ＡｃｃｕｍＳｃｏｒｅ（３，ｊ，２）＝ＡｃｃｕｍＳｃ
ｏｒｅ（２，ｊ，１）＋ａ^SylLabel(j) _1、2＋ｂ
^SylLabel(j) ₂（Ｏ₃）、ＩｎｉｔＦｒａｍｅ（３，ｊ，２）＝ＩｎｉｔＦｒａｍ
ｅ（２，ｊ，１）、となる。すなわち、状態遷移確率及
び特徴パラメータ受理確率の高い経路（図５中では太い
矢印線）に沿って順次スコアを累積してＡｃｃｕｍＳｃ
ｏｒｅを演算し、この処理を当該トレリスｊの最終点
（６，ｊ，３）まで行う。

【００４２】上記のような音節の照合処理は、設定され
ているトレリスの各点における値（ＡｃｃｕｍＳｃｏｒ
ｅ（ｉ，ｊ，ｋ）とＩｎｉｔＦｒａｍｅ（ｉ，ｊ，
ｋ））を、時間に同期して求めていくことで進められ
る。従って、或る程度時間がたつと、照合開始点から無
音ＨＭＭの最終点（ｉ，ｊ，Ｓ）に至る経路のスコアＡ
ｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，Ｓ）が高くなる。

【００４３】このように無音を示すトレリスの最終点に
おけるスコアが高くなると、図６に示すように、この無
音を示すトレリス（ｊ＝０）に認識候補としての次の音
節（”Ｘ”と”Ｙ”）を示すトレリス（ｊ＝１、２）を
接続する。なお、一般的には認識候補は多数考えられ、
接続するトレリスもそれに応じた数（Ｍ個）設定される
が、図６には簡単のため二つの音節（”Ｘ”と”Ｙ”）
のみを示してある。

【００４４】次いで、増加した全てのトレリス上におけ
る最終点までの経路のスコア及び開始フレームを式５及
び式６と同様にして演算する。但し、新しく接続された
トレリスの上で音節照合する場合には、ＡｃｃｕｍＳｃ
ｏｒｅ（ｉ，ｊ，ｋ）とＩｎｉｔＦｒａｍｅ（ｉ，ｊ，
ｋ）の値はその前のトレリスにおける値を反映させる必
要がある。図６に示す場合であれば、新しく接続された
トレリスの初期状態（ｋ＝１）での値を、フレームｉ＝
１，２，・・・，Ｉ、トレリス番号ｊ＝１，２，・・
・，Ｍ、について式７及び式８に基づいて演算すればよ
い。なお、状態ｋ＝２，・・・，Ｓ、については式５及
び式６と同様にして演算する。

【００４５】ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ（ｉ− １，０，Ｓ）＋ａ^SylLabel(j) _S、S+1、ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｊ，ｋ）＋ａ^SylLabel(j) _k、k｝＋ｂ^SylLabel(j) _k（Ｏ_i）・・・（式７）、ＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝ｉ又はＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，ｋ）・・・（式８）、但し、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝Ａｃｃｕ
ｍＳｃｏｒｅ（ｉ−１，０，Ｓ）＋ａ^SylLabel(j) _S、S+1
＋ｂ^SylLabel(j) _k（Ｏ_i）の場合にはＩｎｉｔＦｒａｍ
ｅ（ｉ，ｊ，ｋ）＝ｉ、ＡｃｃｕｍＳｃｏｒｅ（ｉ，
ｊ，ｋ）＝ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｊ，ｋ）＋
ａ^SylLabel(j) _k、k＋ｂ^SylLabel(j) _k（Ｏ_i）の場合には
ＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝ＩｎｉｔＦｒａｍ
ｅ（ｉ−１，ｊ，ｋ）である。

【００４６】なお、音響的なスコアに言語的なスコア
（音節間の遷移確率）を加える場合には、式７及び式８
に加えて、トレリス番号ｊ＝１，２，・・・，Ｍ、につ
いて式９及び式１０の演算を行えばよい。ＬａｎｇＳｃｏｒｅ（０）＝０・・・（式９）、ＬａｎｇＳｃｏｒｅ（ｊ）＝ＬａｎｇＳｃｏｒｅ（０）＋ＳｙｌＢｉｇｒａｍ（ＳｙｌＬａｂｅｌ（０）、ＳｙｌＬａｂｅｌ（ｊ））・・・（式１０）、この結果、累積スコアはＡｃｃｕｍＳｃｏｒｅ（ｉ，
ｊ，ｋ）＋ｗＬａｎｇＳｃｏｒｅ（ｊ）となる。ここ
に、ＬａｎｇＳｃｏｒｅ（ｊ）は、最初の音節からトレ
リスｊが示す音節ＳｙｌＬａｂｅｌ（ｊ）までの言語的
スコア、ＳｙｌＢｉｇｒａｍ（ｉ，ｊ）は、音節ｉから
音節ｊに遷移する確率、ｗは、言語的スコアに対して付
けられた重み、をそれぞれ表す。

【００４７】上記のように認識候補毎にトレリスを設定
して連鎖させ、スコア及び開始フレームを演算する処理
を続けると、図７に示すように、音節連鎖に対応したツ
リー状のトレリスが形成される。なお、ツリーの枝を伸
ばしていく過程で、認識スコアの低い音節列に対応する
ツリー上にあるトレリスは以後の照合処理の対象から外
す枝刈りの操作を行ってもよい。

【００４８】このように後続するトレリスを順次ツリー
状に連鎖させて行く処理において、トレリスの最終状態
におけるスコアが十分高く、且つ、このトレリスに未だ
後続するトレリスが接続されていない時でも、新しいト
レリスを後続させて設定しない場合がある。例えば、既
に生成されているトレリスのツリーの内で、後続するト
レリスを既に接続したトレリスが示す音節が、後続する
トレリスを未だ接続していないトレリスが示す音節と同
一であり、且つ、これら音節が同一時刻に始まっている
と仮定できる場合には、後者のトレリスに新しいトレリ
スを後続させて設定しない。そして、この後者のトレリ
スに後続するトレリスには、前者のトレリスに後続する
トレリスを共通して接続させ、演算処理の対象となるト
レリスを減らして処理の迅速化を図る。

【００４９】例えば、図７に示す連鎖構造の後、或るフ
レームｉで番号６のトレリスの最終状態におけるスコア
が十分高くなった場合を考える。通常は、図８に示すよ
うに、番号６のトレリスに後続するトレリス（番号９’
〜１１’）が新しく設定される。ところが、番号６のト
レリスに後続するトレリスが示す音節（ＳｙｌＬａｂｅ
ｌ（６））と同じ音節”Ｘ”を示す番号３のトレリスが
既に設定されていて、且つ、番号３のトレリスは後続す
るトレリス（番号９〜１１）を持っている。更に加え
て、番号３のトレリスが示す音節の開始フレームＩｎｉ
ｔＦｒａｍｅ（ｉ，３，Ｓ）と、番号６のトレリスが示
す音節の開始フレームＩｎｉｔＦｒａｍｅ（ｉ，６，
Ｓ）とが等しい。このような場合には、番号６のトレリ
スは自身に後続するトレリスとして、図９に示すよう
に、番号３のトレリスに後続するトレリス（番号９〜１
１）を示すようにし、番号３のトレリスと番号６のトレ
リスとで後続するトレリスを共通化する。

【００５０】このような共通化処理は所定の条件を満た
す時に随時行われ、これによって、認識処理の途中にお
いてトレリス連鎖の形態は動的に変化する。なお、共通
化する条件としては、上記した音節の同一性及び音節の
同一時刻性の両方を要求せずとも、音節の同一時刻性だ
けであっても可能である。

【００５１】ここで、上記のように後続トレリスを共有
化した場合には、音節照合処理を若干修正しなければな
らない。トレリスがツリー状に展開される通常の場合に
は、各トレリスに先行するトレリスは一つしかないが、
後続するトレリスが共通化される場合には、共通化され
たトレリスに先行するトレリスは複数個（ｎ）存在する
ことになる。したがって、具体的には、共通化されたト
レリスｊの初期状態での値を、先行するトレリスがｎ個
（＝１，２，・・・，Ｎ）のときは、フレームｉ＝１，
２，・・・，Ｉ、状態ｋ＝１、について式１１及び式１
２に基づいて演算し、先行するトレリスの内の最大スコ
アを継承させるようにすればよい。

【００５２】ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝ｍａｘ｛ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｎ，Ｓ）｝｜^N _n=1＋ａ^SylLabel(j) _S、S+1、ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｊ，ｋ）＋ａ^SylLabel(j) _k、k｝＋ｂ^SylLabel(j) _k（Ｏ_i）・・・（式１１）、ＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝ｉ又はＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，ｋ）・・・（式１２）、但し、ＡｃｃｕｍＳｃｏｒｅ（ｉ，ｊ，ｋ）＝ｍａｘ
｛ＡｃｃｕｍＳｃｏｒｅ（ｉ−１，ｎ，Ｓ）｝｜^N _n=1＋
ａ^SylLabel(j) _S、S+1＋ｂ^SylLabel(j) _k（Ｏ_i）の場合に
はＩｎｉｔＦｒａｍｅ（ｉ，ｊ，ｋ）＝ｉ、Ａｃｃｕｍ
Ｓｃｏｒｅ（ｉ，ｊ，ｋ）＝ＡｃｃｕｍＳｃｏｒｅ（ｉ
−１，ｊ，ｋ）＋ａ^SylLabel(j) _k、k＋ｂ
^SylLab ^el(j) _k（Ｏ_i）の場合にはＩｎｉｔＦｒａｍｅ
（ｉ，ｊ，ｋ）＝ＩｎｉｔＦｒａｍｅ（ｉ−１，ｊ，
ｋ）である。なお、ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ｝｜
^N _n=1は、ｎ＝１〜Ｎの間の最大のＡｃｃｕｍＳｃｏｒｅ
を示す。

【００５３】上記のような音節照合処理とトレリスを連
鎖させるグラフ化処理は、発話の区切りが検出されるま
で、フレームに同期して進められ、発話の最終フレーム
までに形成された有向グラフは例えば図１０に示すよう
なものとなる。そして、グラフデータ格納手段４には上
記の一連の処理で得られた、各トレリスの番号、そのト
レリスに先行するトレリスの番号、認識候補名（ラベ
ル）ＳｙｌＬａｂｅｌ、累積スコアＡｃｃｕｍＳｃｏｒ
ｅ、開始フレームＩｎｉｔＦｒａｍｅ、等が互いに対応
付けて格納される。しかしながら、このようなして形成
されたトレリスのグラフであっても、累積スコアがかな
り小さい部分を含んでいる、各トレリスに対応する各ア
ークのスコアが求められていない等、音声処理の結果と
するには十分とはいえない点もある。

【００５４】そこで、形成された有向グラフのデータに
基づいて、後戻り処理手段５によってグラフの余分な部
分を削除するとともに、認識候補間の境界位置（ノー
ド）の確定及びアークのスコア演算、更には、各ノード
と開始ノード及び終了ノードとの間の最適経路のスコア
演算を行い、有向グラフとしてのデータ構造を確定させ
る。

【００５５】なお、以下に説明する後戻り処理で用いる
記号を説明すると、ＴｒｅｌｌｉｓＩＤ（ｐ）は、アー
クｐに対応するトレリス番号、ＡｒｃＬａｂｅｌ（ｐ）
は、アークｐが示す音節名、ＡｒｃＩｎＮｏｄｅ（ｐ）
は、アークｐのインノード、ＡｒｃｏＯｕｔＮｏｄｅ
（ｐ）は、アークｐのアウトノード、ＡｒｃＳｃｏｒｅ
（ｐ）は、アークｐのスコア、ＮｏｄｅＴｉｍｅ（ｑ）
は、ノードｑが示すフレーム、ＦｗＳｃｏｒｅ（ｑ）
は、開始ノードからノードｑまでの最適経路のスコア、
ＢｗＳｃｏｒｅ（ｑ）は、ノードｑから終了ノードまで
の最適経路のスコア、をそれぞれ表す。

【００５６】後戻り処理は、まず、図１１に示すように
有向グラフの終了ノード（番号＝０）を設定するところ
から始まる。なお、このノードでは、ＢｗＳｃｏｒｅ
（０）＝０となり、グラフデータ格納手段４に格納され
る。次いで、形成されたトレリスの有向グラフから、こ
の終了ノードをアウトノードとするトレリスを選び出
す。この選択処理では、最終フレームＩで設定されてい
る全てのトレリスｊについて、その最終状態Ｓにおける
累積スコアＡｃｃｕｍＳｃｏｒｅ（Ｉ，ｊ，Ｓ）の高い
ものを選択すればよい。また、発話が無音によって区切
られる時には、更に、そのトレリスが示す音節が無音で
あるという制約を加えればよい。

【００５７】そして、選択されたトレリスが示す音節の
ラベルをアークの属性として継承し、アークのインノー
ドとアウトノードを設定し、インノードの属性であるフ
レームの値を設定する処理を行う。具体的には、選択さ
れたＮ個のトレリスの番号をｊ、対応するＮ個のアーク
の番号をｐ＝０，１，・・Ｎ−１、各アークのインノー
ドをｑ（＝ｐ＋１）とすると、例えば次のようになる。ＴｒｅｌｌｉｓＩＤ（ｐ）＝ｊ、ＡｒｃＬａｂｅｌ（ｐ）＝ＳｙｌＬａｂｅｌ（ｊ）
（＝”＃”）、ＡｒｃＩｎＮｏｄｅ（ｐ）＝ｑ、ＡｒｃＯｕｔＮｏｄ
ｅ（ｐ）＝０、ＮｏｄｅＴｉｍｅ（ｑ）＝ＩｎｉｔＦｒａｍｅ（ｉ，
ｊ，Ｓ）、

【００５８】この結果、図１１に例示すように、終了ノ
ードにアークが接続され、各アークに対応したＴｒｅｌ
ｌｉｓＩＤ、ＡｒｃＬａｂｅｌ、ＡｒｃＩｎＮｏｄｅ、
ＡｒｃＯｕｔＮｏｄｅがグラフデータ格納手段４に格納
される。すなわち、このようにアークが確定すると、こ
れに対応したインノード等も確定する。なお、図１１に
示す例では、図１０に示したトレリスの連鎖の内の、番
号１３と番号１６のトレリスだけが選択されている。

【００５９】また、このように終了ノードに接続するア
ークが確定したことで、開始ノードから終了ノードまで
のパスのスコアの最大値を確定することができ、このス
コアＦｗＳｃｏｒｅ（０）を次式に基づいて演算する。ＦｗＳｃｏｒｅ（０）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ
（Ｉ，ＴｒｅｌｌｉｓＩＤ（ｐ），Ｓ）｝｜^N-1 _p=0、すなわち、Ｎ個のアークの内の最大の累積スコアを有す
るものをＦｗＳｃｏｒｅ（０）とする。なお、ＦｗＳｃ
ｏｒｅ（０）の値は上記した有向グラフを作成する処理
において既に求められているため、発話の区切りが検出
された時点でこれを設定してもよい。

【００６０】なお、音響的なスコアに言語的なスコアを
加えた場合には、ＦｗＳｃｏｒｅ（０）の値は例えば次
式のようにして演算することができる。ＦｗＳｃｏｒｅ（０）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ
（Ｉ，ＴｒｅｌｌｉｓＩＤ（ｐ），Ｓ）＋ｗＬａｎｇＳ
ｃｏｒｅ（ＴｒｅｌｌｉｓＩＤ（ｐ））｝｜^N-1 _p=0、

【００６１】次いで、アークの確定により既に確定され
たインノードの中から、未だアウトノードになっていな
いものを一つ選び、これをアウトノードとするトレリス
を求める。図１１に示した例では、例えば番号１のノー
ドが選択され、図１０に示した対応するトレリスのグラ
フから番号１１と番号１４のトレリスが求められる。

【００６２】次いで、求めたトレリスについて、上記と
同様な処理を行って、アークとノードを確定する。具体
的には、上記と同様に、選択されたノードの番号をｑ、
これまでに確定されたアークとノードの数をそれぞれＬ
とＫ、ノードｑをアウトノードに持つアークをｒ＝Ｌ，
Ｌ＋１，・・，Ｌ＋Ｎ−１、このアークのインノードを
ｓ＝Ｋ，Ｋ＋１，・・，Ｋ＋Ｎ−１、対応するトレリス
をｊとすると、次のようになる。ＴｒｅｌｌｉｓＩＤ（ｒ）＝ｊ、ＡｒｃＬａｂｅｌ（ｒ）＝ＳｙｌＬａｂｅｌ（ｊ）、ＡｒｃｌｎＮｏｄｅ（ｒ）＝ｓ、ＡｒｃＯｕｔＮｏｄ
ｅ（ｒ）＝ｑ、ＮｏｄｅＴｉｍｅ（ｓ）＝ＩｎｉｔＦｒａｍｅ（Ｎｏｄ
ｅＴｉｍｅ（ｑ）−１、ＴｒｅｌｌｉｓＩＤ（ｒ）、
Ｓ）、

【００６３】このようにして、ノードｑをアウトノード
とするアークが求められたことで、ノードｑをインノー
ドに持つアークｐの属性と、ノードｑの持つフレーム以
外の属性の設定を行うことができる。すなわち、アーク
ｐのスコアＡｒｃＳｃｏｒｅ（ｐ）、開始ノードからノ
ードｑまでの経路（パス）のスコアの最大値ＦｗＳｃｏ
ｒｅ（ｑ）、ノードｑから終了ノードまでの経路（パ
ス）のスコアの最大値ＢｗＳｃｏｒｅ（ｑ）、を次式に
基づいた演算によって求めてグラフデータ格納手段４に
格納する。ＦｗＳｃｏｒｅ（ｑ）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ
（ＮｏｄｅＴｉｍｅ（ｑ）−１，ＴｒｅｌｌｉｓＩＤ
（ｒ），Ｓ）｝｜^N _r=1、ＡｒｃＳｃｏｒｅ（ｐ）＝ＡｃｃｕｍＳｃｏｒｅ（Ｎｏ
ｄｅＴｉｍｅ（ＡｒｃＯｕｔＮｏｄｅ（ｐ））−１，Ｔ
ｒｅｌｌｉｓＩＤ（ｐ），Ｓ）−ＦｗＳｃｏｒｅ
（ｑ）、ＢｗＳｃｏｒｅ（ｑ）＝ＡｒｃＳｃｏｒｅ（ｐ）＋Ｂｗ
Ｓｃｏｒｅ（ＡｒｃＯｕｔＮｏｄｅ（ｐ））、なお、これらの属性が既に設定されている場合（後述す
る、別々のアークが同一のインノードを持つ場合）に
は、上記のようにして設定し直す必要はない。

【００６４】なお、音響的なスコアに言語的なスコアを
加えた場合には、ＦｗＳｃｏｒｅ（ｑ）とＢｗＳｃｏｒ
ｅ（ｑ）の値はそれぞれ次のようになる。ＦｗＳｃｏｒｅ（ｑ）＝ｍａｘ｛ＡｃｃｕｍＳｃｏｒｅ
（ＮｏｄｅＴｉｍｅ（ｑ）−１，ＴｒｅｌｌｉｓＩＤ
（ｒ），Ｓ）＋ｗＬａｎｇＳｃｏｒｅ（Ｔｒｅｌｌｉｓ
ＩＤ（ｒ））｝｜^N _r=1、ＢｗＳｃｏｒｅ（ｑ）＝ＡｒｃＳｃｏｒｅ（ｐ）＋ｗＳ
ｙｌＢｉｇｒａｍ（ＳｙｌＬａｂｅｌ（Ｔｒｅｌｌｉｓ
ＩＤ（ｒ））、ＳｙｌＬａｂｅｌ（ＴｒｅｌｌｉｓＩＤ
（ｐ）））＋ＢｗＳｃｏｒｅ（ＡｒｃＯｕｔＮｏｄｅ
（ｐ））、

【００６５】ここで、上記の後戻り処理において、確定
処理を行おうとするアークに対応するトレリスと有向グ
ラフを作成する処理の中で同時に展開されたトレリスに
対応するアークが、既にアークとして確定していること
もある。このような時には、既に確定しているアークの
インノードに対応するフレームと、確定しようとするア
ークのインノードに対応するフレームが同じという条件
の下に、新たに確定しようとするアークのインノードを
既に確定しているアークのインノードと同じになるよう
にする必要がある。

【００６６】すなわち、条件を満たす場合には、図１２
に示すように、番号１のノードに接続する番号３のアー
ク（対応するトレリス番号は１４）のインノードを、ア
ーク番号１（対応するトレリス番号は１３）のインノー
ドと等しくする。上記のアーク及びノードの確定処理
は、このようなインノードの統一化を図りつつ進めら
れ、図１３に示すように発話開始の方向へ向けて順次ア
ーク及びノードを確定して行く。

【００６７】一方、同時に展開されたトレリスであって
も上記の条件が満たされない時（すなわち、その音節が
異なったフレームで始まる時）には、別々のインノード
を設定する。例えば、図１３に示す番号４のノードに接
続するアークは図１０のトレリスグラフから番号２のト
レリスに対応し、この番号２のトレリスはグラフ作成処
理において番号０のトレリスから番号１のトレリスと同
時に展開されたものである。したがって、通常の確定処
理では、図１４に破線で示すようなアークができること
になる。しかしながら、これらのトレリス（番号１と番
号２）が示す音節の開始時刻ＩｎｉｔＦｒａｍｅ（Ｎｏ
ｄｅＴｉｍｅ（５）−１，１，Ｓ）とＩｎｉｔＦｒａｍ
ｅ（ＮｏｄｅＴｉｍｅ（４）−１，２，Ｓ）が等しくな
い時には、図１５に示すように、それぞれのアーク（番
号７と番号８）のインノード（番号６と番号７）は二つ
に分けて確定処理を行う。

【００６８】このようにノードが二つに分けられる場合
には、これらのノードをアウトノードに持つアークも対
応するトレリスを分割する形で確定される。すなわち、
時間的に同期して統合的に行われるグラフ作成処理の過
程では単一のトレリス（認識候補）として扱った場合で
あっても、後戻り処理の過程でその存在区間が異なるア
ーク（認識候補）が複数存在し得る時には、図１６に示
すように、これらアークを別々のアークとして有向グラ
フのデータ構造を確定する。このように存在し得る認識
候補に応じてアークを複数に分割することで、音節境界
の違う音節列のスコアを正しく評価することができる。

【００６９】上記の後戻り処理によるアーク及びノード
の確定処理はスコアの高い経路を選択して行われるた
め、結果として確定される有向グラフは図１７に太線で
示すトレリスに対応したスコアの高い部分だけとなり、
更に、この確定処理においてアークのスコアや最適経路
のスコアも求められることから、大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても後の言語処理
等を迅速に行わしめることができる。

【００７０】なお、上記の実施例では音節を認識候補の
単位とした例を示したが、本発明は音素や単語を認識候
補の単位とした場合にも勿論適用することができる。ま
た、上記の実施例ではＨＭＭ法を用いた例を示したが、
本発明ではＤＰマッチング法やニューラルネットワーク
法等の他の認識方法を用いることもできる。なお、この
場合には、ＨＭＭ法のトレリスの代わりに標準パターン
又は単位素子（ニューロン）と未知音声の時間を二軸と
する作業空間を設定し、確率に関する（最大値）演算を
距離に関する（最小値）演算や素子出力に関する（最大
値）演算に置き換える等の変更を行えばよい。

【００７１】

【発明の効果】以上説明したように、本発明によれば、
従来では困難な課題とされてきた大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても、高速且つ高
精度な音声認識を可能ならしめることができる。特に、
請求項１或いは請求項２の発明によれば、認識候補の系
列を認識する処理と前記有向グラフを生成する処理とを
時間的に同期して統合的に行うようにしたため、有向グ
ラフを高速且つ高精度に作成し、延いては、実時間処理
をも可能ならしめることができる。

【００７２】また、請求項３の発明によれば、上記の効
果に加え、有向グラフの認識候補間のノードの確定及び
アーク毎のスコア演算を後戻り処理で行い、当該有向グ
ラフのデータ構造を確定するようにしたため、余分な部
分を削除した利用価値の高い有向グラフを得ることがで
きる。また、請求項４の発明によれば、上記の効果に加
え、有向グラフの作成処理では単一の認識候補として扱
った認識候補であっても、後戻り処理の過程で異なる候
補が存在し得る場合には、これら候補を別々の認識候補
として有向グラフのデータ構造を確定するようにしたた
め、境界の違う認識候補列のスコアを正しく評価するこ
とができる。

【００７３】また、請求項５の発明によれば、上記の効
果に加え、後戻り処理の過程で最適経路のスコアを求
め、これらスコアを有向グラフ型のデータ構造に保持さ
せるようにしたため、後の言語的処理等を高速且つ高精
度に実現することができる。また、請求項６の発明によ
れば、上記の効果に加え、最適経路のスコアを認識候補
の系列の音響的尤度又は当該音響的尤度と認識候補の連
鎖に関する言語的尤度との組合せにより求めるようにし
たため、後の言語的処理等を種々な条件に応じて高速且
つ高精度に実現することができる。また、請求項７の発
明によれば、音声認識方法を実施して、上記のような有
用な効果を得ることができる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音声認識装置の構成
図である。

【図２】本発明の一実施例に係る音声認識装置の構成
図である。

【図３】音節有向グラフの一例を示す概念図である。

【図４】音節ＨＭＭの一例を示す概念図である。

【図５】トレリスとＨＭＭスコア計算の演算を説明す
る概念図である。

【図６】トレリス連鎖が時間的に発展する様子を示す
概念図である。

【図７】トレリス連鎖が時間的に発展する様子を示す
概念図である。

【図８】トレリス連鎖が時間的に発展する様子を示す
概念図である。

【図９】トレリス連鎖が時間的に発展する様子を示す
概念図である。

【図１０】トレリス連鎖が時間的に発展する様子を示
す概念図である。

【図１１】有向グラフの確定経過を説明する概念図で
ある。

【図１２】有向グラフの確定経過を説明する概念図で
ある。

【図１３】有向グラフの確定経過を説明する概念図で
ある。

【図１４】有向グラフの確定経過を説明する概念図で
ある。

【図１５】有向グラフの確定経過を説明する概念図で
ある。

【図１６】有向グラフの確定経過を説明する概念図で
ある。

【図１７】有向グラフとして確定されたトレリス連鎖
を説明する概念図である。

【符号の説明】

２音響分析手段、３認識グラフ化手段、４グ
ラフデータ格納手段、５後戻り処理手段、１１モ
デル保持手段、１２トレリス作成手段、１３演算
手段、１５トレリス検索手段、１６ノード確定
手段、１７演算手段、

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 9/10 ３０１Ｃ

Claims

【特許請求の範囲】

【請求項１】音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータ構造を用いて表現する音声認識方法にお
いて、前記認識候補の系列を認識する処理と前記有向グ
ラフを生成する処理とを時間的に同期して統合的に行う
ことを特徴とする音声認識方法。
【請求項２】前記有向グラフを生成する処理では隠れ
マルコフモデルを用いて認識候補毎のトレリスを連鎖的
に作成し、前記認識候補の系列を認識する処理ではトレ
リスが示す認識候補の開始時刻とトレリスの連鎖に沿っ
た累積スコアを求めることを特徴とする請求項１に記載
の音声認識方法。
【請求項３】前記時間的に同期して統合的に行われる
認識候補の系列の認識処理と有向グラフの生成処理とが
発話の区切りに到達した後、有向グラフの認識候補間の
ノードの確定及びアーク毎のスコア演算を有向グラフの
発話の区切り側から発話の開始側へ向う後戻り処理で順
次行い、当該有向グラフのデータ構造を確定することを
特徴とする請求項１又は請求項２に記載の音声認識方
法。
【請求項４】前記時間的に同期して統合的に行われる
処理の過程では単一の認識候補として扱った認識候補で
あっても、前記後戻り処理の過程でその存在区間が異な
る候補が複数存在し得る場合には、これら候補を別々の
認識候補として有向グラフのデータ構造を確定すること
を特徴とする請求項３に記載の音声認識方法。
【請求項５】前記後戻り処理の過程で、発話開始に対
応するノードから有向グラフ中の各ノードまでの最適経
路のスコアと、有向グラフ中の各ノードから発話の区切
りに対応するノードまでの最適経路のスコアとを求め、
これらスコアを有向グラフ型のデータ構造に保持させる
ことを特徴とする請求項３又は請求項４に記載の音声認
識方法。
【請求項６】前記最適経路のスコアが、認識候補の系
列の音響的尤度、又は当該音響的尤度と認識候補の連鎖
に関する言語的尤度との組合せにより求められているこ
とを特徴とする請求項５に記載の音声認識方法。
【請求項７】音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータとして構成する音声認識装置において、入力された音声信号を分析して特徴パラメータ系列を得
る音響分析手段と、音響モデル及び音響モデルの連鎖に
関するモデルを保持するモデル保持手段と、特徴パラメ
ータ系列に対して前記モデルを用いて認識候補に対応す
るトレリスを生成するトレリス作成手段と、トレリスに
対する累積スコア及び開始時刻を時間的に同期して演算
する演算手段と、トレリスに対応して累積スコア及び開
始時刻を格納するグラフデータ格納手段と、前記グラフ
データ格納手段に格納されている開始時刻及び累積スコ
アに基づいて認識候補間のノードの確定及び認識候補に
対応するアーク毎のスコア演算を行う後戻り処理手段
と、を備え、前記トレリス作成手段は更に前記演算手段の演算結果に
基づいて後続するトレリスを順次同期して作成し、前記後戻り処理手段は発話の区切りまで前記累積スコア
及び開始時刻が前記グラフデータ格納手段に格納された
ところで前記処理を行って当該処理結果をグラフデータ
格納手段に格納することを特徴とする音声認識装置。