JPH08202384A - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置Info
- Publication number
- JPH08202384A JPH08202384A JP7024521A JP2452195A JPH08202384A JP H08202384 A JPH08202384 A JP H08202384A JP 7024521 A JP7024521 A JP 7024521A JP 2452195 A JP2452195 A JP 2452195A JP H08202384 A JPH08202384 A JP H08202384A
- Authority
- JP
- Japan
- Prior art keywords
- trellis
- recognition
- processing
- node
- directed graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 145
- 230000001186 cumulative effect Effects 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000013500 data storage Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 230000007704 transition Effects 0.000 description 9
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241001417093 Moridae Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】
【目的】 音声処理結果としての有向グラフを高速且つ
高精度に作成し、延いては、実時間処理をも可能ならし
める音声認識を実現する。 【構成】 音声信号を認識候補の系列として認識し、そ
の結果を有向グラフ型のデータ構造を用いて表現する音
声認識方法において、認識候補の系列を認識する処理と
有向グラフを生成する処理とを時間的に同期して統合的
に行う。また、これら処理が発話の区切りに到達した後
に後戻り処理を行って、有向グラフの認識候補間のノー
ドの確定及びアーク毎のスコア演算、他の認識候補の採
用及び確定、最適経路のスコアの演算等を行い、有向グ
ラフのデータ構造を確定する。
高精度に作成し、延いては、実時間処理をも可能ならし
める音声認識を実現する。 【構成】 音声信号を認識候補の系列として認識し、そ
の結果を有向グラフ型のデータ構造を用いて表現する音
声認識方法において、認識候補の系列を認識する処理と
有向グラフを生成する処理とを時間的に同期して統合的
に行う。また、これら処理が発話の区切りに到達した後
に後戻り処理を行って、有向グラフの認識候補間のノー
ドの確定及びアーク毎のスコア演算、他の認識候補の採
用及び確定、最適経路のスコアの演算等を行い、有向グ
ラフのデータ構造を確定する。
Description
【0001】
【産業上の利用分野】本発明は、認識の途中または最終
結果として得られる音素、音節、単語等の認識候補系列
を有向グラフ型のデータ構造を用いて表現する音声認識
方法及び装置に関する。
結果として得られる音素、音節、単語等の認識候補系列
を有向グラフ型のデータ構造を用いて表現する音声認識
方法及び装置に関する。
【0002】
【従来の技術】連続的に発話された音声を装置で自動的
に認識する音声認識の技術においては、音声の信号とし
ての処理(音声処理)と記号としての処理(言語処理)
とをどのように結びつけるかということが重要な課題と
なっている。従来では、連続した音声信号の中からスポ
ッティングの技術を用いて音素、音節、単語等として尤
もらしい認識候補を複数個抽出し、これら認識候補のラ
ティスを作成したり、或いは、比較的低次の言語的制約
を用いて複数個の単語候補の系列(N−best解)を
求める等といった処理を音声処理として行い、その結果
をもとに、より高次の言語的な処理を行うといった手法
が主に採られていた。
に認識する音声認識の技術においては、音声の信号とし
ての処理(音声処理)と記号としての処理(言語処理)
とをどのように結びつけるかということが重要な課題と
なっている。従来では、連続した音声信号の中からスポ
ッティングの技術を用いて音素、音節、単語等として尤
もらしい認識候補を複数個抽出し、これら認識候補のラ
ティスを作成したり、或いは、比較的低次の言語的制約
を用いて複数個の単語候補の系列(N−best解)を
求める等といった処理を音声処理として行い、その結果
をもとに、より高次の言語的な処理を行うといった手法
が主に採られていた。
【0003】しかしながら、このような従来の手法で
は、音声処理の不確実性を出来るだけ回避しようとする
と、ラティスやN−bestの”N”をかなり大きくす
る必要があるため、認識候補系列のデータが莫大なもの
となって言語処理へのデータ受渡の際に過大なオーバー
ヘッドが生じるという不具合がある。これに対し、近年
では、音声処理と言語処理を有向グラフ型のデータ構造
を用いて結びつける手法が提案されている。有向グラフ
型のデータ構造は、莫大な数の音素、音節、単語等の認
識候補の系列をコンパクトに表現できるため、上記した
従来の手法における不具合を解決することができる。
は、音声処理の不確実性を出来るだけ回避しようとする
と、ラティスやN−bestの”N”をかなり大きくす
る必要があるため、認識候補系列のデータが莫大なもの
となって言語処理へのデータ受渡の際に過大なオーバー
ヘッドが生じるという不具合がある。これに対し、近年
では、音声処理と言語処理を有向グラフ型のデータ構造
を用いて結びつける手法が提案されている。有向グラフ
型のデータ構造は、莫大な数の音素、音節、単語等の認
識候補の系列をコンパクトに表現できるため、上記した
従来の手法における不具合を解決することができる。
【0004】図3には、有向グラフの一例として音節の
認識候補系列を表現した有向グラフを示してある。一般
に、グラフは、ノード(節点)の集合と、二つのノード
を結ぶアーク(枝)の集合として定義され、アークに向
きのついているものが特に有向グラフと呼ばれる。そし
て、音声処理と言語処理とのインターフェースとして有
向グラフ型のデータ構造を用いる場合には、通常、ノー
ドは時刻又は時刻と状態の組を属性として持ち、アーク
は認識候補の音素、音節、単語等を示すラベル(o、m
o、si、ro、i、無音を表す#等)とそのスコア
(確からしさ)という属性を持つ。なお、各アークの始
まりを表すノードはそのアークのインノード、各アーク
の終わりを表すノードはアウトノードと呼ばれ、発話開
始時刻のノードを開始ノード、発話終了(或いは、発話
の区切り)時刻のノードは終了ノードと呼ばれる。
認識候補系列を表現した有向グラフを示してある。一般
に、グラフは、ノード(節点)の集合と、二つのノード
を結ぶアーク(枝)の集合として定義され、アークに向
きのついているものが特に有向グラフと呼ばれる。そし
て、音声処理と言語処理とのインターフェースとして有
向グラフ型のデータ構造を用いる場合には、通常、ノー
ドは時刻又は時刻と状態の組を属性として持ち、アーク
は認識候補の音素、音節、単語等を示すラベル(o、m
o、si、ro、i、無音を表す#等)とそのスコア
(確からしさ)という属性を持つ。なお、各アークの始
まりを表すノードはそのアークのインノード、各アーク
の終わりを表すノードはアウトノードと呼ばれ、発話開
始時刻のノードを開始ノード、発話終了(或いは、発話
の区切り)時刻のノードは終了ノードと呼ばれる。
【0005】有向グラフでは、隣り合ったアークをアー
クの向きに従ってつないでいくことで、ノードとノード
を結ぶ経路(パス)を考えることができる。グラフが音
声処理の結果を表している時には、アークとノードの属
性から、一つのパスには認識候補の系列、この系列に対
する累積スコア(そのパス上のアークのスコアの和)及
びこの系列がいつからいつまで存在するかというデータ
が一意に対応している。特に、開始ノードと終了ノード
を結ぶパスは一つの音声認識結果を表すものとして重要
であり、このようなパスが複数存在する場合には、各パ
スを累積スコアにより順序付けることで、対応する音
素、音節、単語等の認識候補の系列の中から認識結果と
して妥当なものを求めることができる。
クの向きに従ってつないでいくことで、ノードとノード
を結ぶ経路(パス)を考えることができる。グラフが音
声処理の結果を表している時には、アークとノードの属
性から、一つのパスには認識候補の系列、この系列に対
する累積スコア(そのパス上のアークのスコアの和)及
びこの系列がいつからいつまで存在するかというデータ
が一意に対応している。特に、開始ノードと終了ノード
を結ぶパスは一つの音声認識結果を表すものとして重要
であり、このようなパスが複数存在する場合には、各パ
スを累積スコアにより順序付けることで、対応する音
素、音節、単語等の認識候補の系列の中から認識結果と
して妥当なものを求めることができる。
【0006】なお、有向グラフは特殊な形態としてツリ
ー状であることもあり、このようなツリー形態の有向グ
ラフでは、異なったアークが共通のアウトノードを持た
ない構造となっている。また、有向グラフの特殊な場合
として、開始ノードと終了ノードを結ぶパスが一つしか
ないということもある。
ー状であることもあり、このようなツリー形態の有向グ
ラフでは、異なったアークが共通のアウトノードを持た
ない構造となっている。また、有向グラフの特殊な場合
として、開始ノードと終了ノードを結ぶパスが一つしか
ないということもある。
【0007】ここで、従来より、音声処理の結果を上記
のような有向グラフとして表現する方法がいくつか提案
されている。第1の方法は、単語の単位で音声を認識し
て有向グラフを作成するものであり、単語仮説を生成す
る処理と有向グラフを最適化する処理を分離して処理を
二段階のものとしている。そして、単語仮説をつなげて
単語列仮説とする処理、単語間の最適な境界位置を見つ
ける処理、同じ時刻に相当する単語境界を一つのノード
としてまとめる処理、同じ単語候補の系列を含む部分的
なグラフを一つにまとめる処理を、全て最適化処理の中
で行なっている。(M.Oerder and H.Ney, "Word graphs
: An efficient interface between continuous-speec
h recognitionand language understanding", Proc. IC
ASSP-93, vol.II, pp.119-122)
のような有向グラフとして表現する方法がいくつか提案
されている。第1の方法は、単語の単位で音声を認識し
て有向グラフを作成するものであり、単語仮説を生成す
る処理と有向グラフを最適化する処理を分離して処理を
二段階のものとしている。そして、単語仮説をつなげて
単語列仮説とする処理、単語間の最適な境界位置を見つ
ける処理、同じ時刻に相当する単語境界を一つのノード
としてまとめる処理、同じ単語候補の系列を含む部分的
なグラフを一つにまとめる処理を、全て最適化処理の中
で行なっている。(M.Oerder and H.Ney, "Word graphs
: An efficient interface between continuous-speec
h recognitionand language understanding", Proc. IC
ASSP-93, vol.II, pp.119-122)
【0008】また、第2の方法は、スポッティングの技
術により抽出したモーラ(言語のリズムの単位)を基に
モーラグラフを作成するものであり、各モーラ(実施例
では半モーラ)が或る時刻で終了すると仮定した場合
の、その時刻までの累積スコアとそのモーラの開始時刻
を時間的に同期して計算し、発話の終了後、得られたデ
ータテーブルを発話の開始時刻方向に後戻りしながら、
認識候補として確からしい複数個のモーラ系列をグラフ
型のデータ構造としてまとめている。(特開平5−26
5483号公報)
術により抽出したモーラ(言語のリズムの単位)を基に
モーラグラフを作成するものであり、各モーラ(実施例
では半モーラ)が或る時刻で終了すると仮定した場合
の、その時刻までの累積スコアとそのモーラの開始時刻
を時間的に同期して計算し、発話の終了後、得られたデ
ータテーブルを発話の開始時刻方向に後戻りしながら、
認識候補として確からしい複数個のモーラ系列をグラフ
型のデータ構造としてまとめている。(特開平5−26
5483号公報)
【0009】また、第3の方法は、単語単位の有向グラ
フを作成するための処理を三段階にしたものである。ま
ず、発話の終了後、発話の開始方向に向かって、各音素
が次に或る音素が続くという条件の下で或る時刻から始
まるとした時の累積スコアとその存在区間を計算する。
その後、今度は発話の開始から終了方向に向かって、各
単語がどのような音素の並びになっているかという知識
と、単語の接続に関する知識を用いて、時間とは非同期
で(単語に同期で)単語単位の有向グラフを作成する。
最後に、再び発話の終了から開始方向に向かって、単語
に同期して有向グラフの最適化を行う。(P.Kenny,et a
l. "New graph search techniques forspeech recognit
ion", Proc. ICASSP-94, vol.I, pp.553-556)
フを作成するための処理を三段階にしたものである。ま
ず、発話の終了後、発話の開始方向に向かって、各音素
が次に或る音素が続くという条件の下で或る時刻から始
まるとした時の累積スコアとその存在区間を計算する。
その後、今度は発話の開始から終了方向に向かって、各
単語がどのような音素の並びになっているかという知識
と、単語の接続に関する知識を用いて、時間とは非同期
で(単語に同期で)単語単位の有向グラフを作成する。
最後に、再び発話の終了から開始方向に向かって、単語
に同期して有向グラフの最適化を行う。(P.Kenny,et a
l. "New graph search techniques forspeech recognit
ion", Proc. ICASSP-94, vol.I, pp.553-556)
【0010】
【発明が解決しようとする課題】有向グラフ型のデータ
構造は、莫大な数の音素、音節、単語等の認識候補系列
をコンパクトな形で表現できるため、音声処理と言語処
理とを効率的に結び付けることができる。しかしなが
ら、音声処理の結果を有向グラフとして表現する従来の
方法にあっては、有向グラフの作成に要する処理量が多
く迅速な処理が行えないという問題や、作成された有向
グラフの精度が不十分なものとなってしまうという問題
があった。
構造は、莫大な数の音素、音節、単語等の認識候補系列
をコンパクトな形で表現できるため、音声処理と言語処
理とを効率的に結び付けることができる。しかしなが
ら、音声処理の結果を有向グラフとして表現する従来の
方法にあっては、有向グラフの作成に要する処理量が多
く迅速な処理が行えないという問題や、作成された有向
グラフの精度が不十分なものとなってしまうという問題
があった。
【0011】すなわち、上記の第1の方法は、単語仮説
をつなげて単語列仮説とする処理、単語間の最適な境界
位置を見つける処理、同じ時刻に相当する単語境界を一
つのノードとしてまとめる処理、同じ単語候補の系列を
含む部分的なグラフを一つにまとめる処理を、全て最適
化処理の中で行なっているため、生成される仮説の数が
増えた場合には、最適化処理の負担がかなり重くなって
しまうものであった。また、上記の第2の方法は、認識
候補のモーラをスポッティング技術で抽出するものであ
るため、各モーラ間の境界位置の検出精度が不十分なも
のとなる危険性があり、これに基づいて作成された有向
グラフの精度が不十分なものとなってしまう虞がある。
また、上記の第3の方法では、認識候補間の境界位置の
検出精度を上げるためには、発話終了後の処理量をかな
り多くしなければならなかった。
をつなげて単語列仮説とする処理、単語間の最適な境界
位置を見つける処理、同じ時刻に相当する単語境界を一
つのノードとしてまとめる処理、同じ単語候補の系列を
含む部分的なグラフを一つにまとめる処理を、全て最適
化処理の中で行なっているため、生成される仮説の数が
増えた場合には、最適化処理の負担がかなり重くなって
しまうものであった。また、上記の第2の方法は、認識
候補のモーラをスポッティング技術で抽出するものであ
るため、各モーラ間の境界位置の検出精度が不十分なも
のとなる危険性があり、これに基づいて作成された有向
グラフの精度が不十分なものとなってしまう虞がある。
また、上記の第3の方法では、認識候補間の境界位置の
検出精度を上げるためには、発話終了後の処理量をかな
り多くしなければならなかった。
【0012】本発明は上記従来の事情に鑑みなされたも
ので、音声処理結果としての有向グラフを、高速且つ高
精度に作成し、延いては、実時間処理をも可能ならしめ
る音声認識方法を提供することを目的とする。また、本
発明は、アークのスコアや、各ノードから開始ノードや
終了ノードに至る最適な(最もスコアの高い)パスのス
コア等をデータ構造に加えることで、従来では困難な課
題とされてきた、大量の語彙や未知の単語等を含む言語
的に多様な発話に対しても、高速且つ高精度な認識を可
能ならしめる音声認識方法を提供することを目的とす
る。また、本発明は、このような音声認識方法を実施す
るための音声認識装置を提供することを目的とする。
ので、音声処理結果としての有向グラフを、高速且つ高
精度に作成し、延いては、実時間処理をも可能ならしめ
る音声認識方法を提供することを目的とする。また、本
発明は、アークのスコアや、各ノードから開始ノードや
終了ノードに至る最適な(最もスコアの高い)パスのス
コア等をデータ構造に加えることで、従来では困難な課
題とされてきた、大量の語彙や未知の単語等を含む言語
的に多様な発話に対しても、高速且つ高精度な認識を可
能ならしめる音声認識方法を提供することを目的とす
る。また、本発明は、このような音声認識方法を実施す
るための音声認識装置を提供することを目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するた
め、本発明では、有向グラフ型のデータ構造を作成する
処理の内の、音素、音節、単語等の認識候補を生成する
処理、認識候補をつないで音素、音節、単語等の系列と
そのスコアを生成する処理、認識候補間の境界位置を最
適化する処理、同じ時刻(又は、時刻と状態の組)に相
当する境界位置を一つのノードにまとめる処理を、時間
的に同期して統合的に行う。すなわち、本発明では、有
向グラフ型のデータ構造を作成するための処理の大部分
を時間に同期した処理で行う。
め、本発明では、有向グラフ型のデータ構造を作成する
処理の内の、音素、音節、単語等の認識候補を生成する
処理、認識候補をつないで音素、音節、単語等の系列と
そのスコアを生成する処理、認識候補間の境界位置を最
適化する処理、同じ時刻(又は、時刻と状態の組)に相
当する境界位置を一つのノードにまとめる処理を、時間
的に同期して統合的に行う。すなわち、本発明では、有
向グラフ型のデータ構造を作成するための処理の大部分
を時間に同期した処理で行う。
【0014】また、本発明では、有向グラフを作成した
後に後戻り処理を行って当該有向グラフを確定させる。
すなわち、発話の区切り(又は、発話の終了)が検出さ
れた後に後戻り処理を行って、認識候補間の境界位置を
時間に同期した処理で求められたものの中から最も確か
らしいものを選択して確定する。そして、有向グラフの
各認識候補に対応するアークのスコアを、確定した認識
候補間の境界位置と、有向グラフの作成時に求められて
いる認識候補系列の累積スコアとから簡単な計算により
求める。
後に後戻り処理を行って当該有向グラフを確定させる。
すなわち、発話の区切り(又は、発話の終了)が検出さ
れた後に後戻り処理を行って、認識候補間の境界位置を
時間に同期した処理で求められたものの中から最も確か
らしいものを選択して確定する。そして、有向グラフの
各認識候補に対応するアークのスコアを、確定した認識
候補間の境界位置と、有向グラフの作成時に求められて
いる認識候補系列の累積スコアとから簡単な計算により
求める。
【0015】すなわち、請求項1の音声認識方法は、音
声信号を音素、音節、単語等の認識候補の系列として認
識し、その途中又は最終結果を有向グラフ型のデータ構
造を用いて表現する音声認識方法において、前記認識候
補の系列を認識する処理と前記有向グラフを生成する処
理とを時間的に同期して統合的に行うことを特徴とす
る。
声信号を音素、音節、単語等の認識候補の系列として認
識し、その途中又は最終結果を有向グラフ型のデータ構
造を用いて表現する音声認識方法において、前記認識候
補の系列を認識する処理と前記有向グラフを生成する処
理とを時間的に同期して統合的に行うことを特徴とす
る。
【0016】また、請求項2の音声認識方法は、請求項
1の音声認識方法において、前記有向グラフを生成する
処理では隠れマルコフモデルを用いて認識候補毎のトレ
リスを連鎖的に作成し、前記認識候補の系列を認識する
処理ではトレリスが示す認識候補の開始時刻とトレリス
の連鎖に沿った累積スコアを求めることを特徴とする。
1の音声認識方法において、前記有向グラフを生成する
処理では隠れマルコフモデルを用いて認識候補毎のトレ
リスを連鎖的に作成し、前記認識候補の系列を認識する
処理ではトレリスが示す認識候補の開始時刻とトレリス
の連鎖に沿った累積スコアを求めることを特徴とする。
【0017】また、請求項3の音声認識方法は、請求項
1又は請求項2の音声認識方法において、前記時間的に
同期して統合的に行われる認識候補の系列の認識処理と
有向グラフの生成処理とが発話の区切りに到達した後、
有向グラフの認識候補間のノードの確定及びアーク毎の
スコア演算を有向グラフの発話の区切り側から発話の開
始側へ向う後戻り処理で順次行い、当該有向グラフのデ
ータ構造を確定することを特徴とする。
1又は請求項2の音声認識方法において、前記時間的に
同期して統合的に行われる認識候補の系列の認識処理と
有向グラフの生成処理とが発話の区切りに到達した後、
有向グラフの認識候補間のノードの確定及びアーク毎の
スコア演算を有向グラフの発話の区切り側から発話の開
始側へ向う後戻り処理で順次行い、当該有向グラフのデ
ータ構造を確定することを特徴とする。
【0018】また、請求項4の音声認識方法は、請求項
3の音声認識方法において、前記時間的に同期して統合
的に行われる処理の過程では単一の認識候補として扱っ
た認識候補であっても、前記後戻り処理の過程でその存
在区間が異なる候補が複数存在し得る場合には、これら
候補を別々の認識候補として有向グラフのデータ構造を
確定することを特徴とする。
3の音声認識方法において、前記時間的に同期して統合
的に行われる処理の過程では単一の認識候補として扱っ
た認識候補であっても、前記後戻り処理の過程でその存
在区間が異なる候補が複数存在し得る場合には、これら
候補を別々の認識候補として有向グラフのデータ構造を
確定することを特徴とする。
【0019】また、請求項5の音声認識方法は、請求項
3又は請求項4の音声認識方法において、前記後戻り処
理の過程で、発話開始に対応するノードから有向グラフ
中の各ノードまでの最適経路のスコアと、有向グラフ中
の各ノードから発話の区切りに対応するノードまでの最
適経路のスコアとを求め、これらスコアを有向グラフ型
のデータ構造に保持させることを特徴とする。
3又は請求項4の音声認識方法において、前記後戻り処
理の過程で、発話開始に対応するノードから有向グラフ
中の各ノードまでの最適経路のスコアと、有向グラフ中
の各ノードから発話の区切りに対応するノードまでの最
適経路のスコアとを求め、これらスコアを有向グラフ型
のデータ構造に保持させることを特徴とする。
【0020】また、請求項6の音声認識方法は、請求項
5の音声認識方法において、前記最適経路のスコアが、
認識候補の系列の音響的尤度、又は当該音響的尤度と認
識候補の連鎖に関する言語的尤度との組合せにより求め
られていることを特徴とする。
5の音声認識方法において、前記最適経路のスコアが、
認識候補の系列の音響的尤度、又は当該音響的尤度と認
識候補の連鎖に関する言語的尤度との組合せにより求め
られていることを特徴とする。
【0021】また、請求項7の音声認識装置は、音声信
号を音素、音節、単語等の認識候補の系列として認識
し、その途中又は最終結果を有向グラフ型のデータとし
て構成する音声認識装置において、入力された音声信号
を分析して特徴パラメータ系列を得る音響分析手段と、
音響モデル及び音響モデルの連鎖に関するモデルを保持
するモデル保持手段と、特徴パラメータ系列に対して前
記モデルを用いて認識候補に対応するトレリスを生成す
るトレリス作成手段と、トレリスに対する累積スコア及
び開始時刻を時間的に同期して演算する演算手段と、ト
レリスに対応して累積スコア及び開始時刻を格納するグ
ラフデータ格納手段と、前記グラフデータ格納手段に格
納されている開始時刻及び累積スコアに基づいて認識候
補間のノードの確定及び認識候補に対応するアーク毎の
スコア演算を行う後戻り処理手段と、を備え、前記トレ
リス作成手段は更に前記演算手段の演算結果に基づいて
後続するトレリスを順次同期して作成し、前記後戻り処
理手段は発話の区切りまで前記累積スコア及び開始時刻
が前記グラフデータ格納手段に格納されたところで前記
処理を行って当該処理結果をグラフデータ格納手段に格
納することを特徴とする。
号を音素、音節、単語等の認識候補の系列として認識
し、その途中又は最終結果を有向グラフ型のデータとし
て構成する音声認識装置において、入力された音声信号
を分析して特徴パラメータ系列を得る音響分析手段と、
音響モデル及び音響モデルの連鎖に関するモデルを保持
するモデル保持手段と、特徴パラメータ系列に対して前
記モデルを用いて認識候補に対応するトレリスを生成す
るトレリス作成手段と、トレリスに対する累積スコア及
び開始時刻を時間的に同期して演算する演算手段と、ト
レリスに対応して累積スコア及び開始時刻を格納するグ
ラフデータ格納手段と、前記グラフデータ格納手段に格
納されている開始時刻及び累積スコアに基づいて認識候
補間のノードの確定及び認識候補に対応するアーク毎の
スコア演算を行う後戻り処理手段と、を備え、前記トレ
リス作成手段は更に前記演算手段の演算結果に基づいて
後続するトレリスを順次同期して作成し、前記後戻り処
理手段は発話の区切りまで前記累積スコア及び開始時刻
が前記グラフデータ格納手段に格納されたところで前記
処理を行って当該処理結果をグラフデータ格納手段に格
納することを特徴とする。
【0022】
【作用】有向グラフ型のデータ構造を作成する処理は、
音素、音節、単語等の認識候補とそのスコアを生成する
処理、認識候補をつないだ系列とそのスコアを生成する
処理、認識候補間の最適な境界位置を見つける処理、同
じ時刻(又は、時刻と状態の組)に相当する境界を一つ
のノードとしてまとめる処理、同じ系列を表す部分的な
グラフを一つにまとめる処理に大きくわけることができ
るが、請求項1の発明では、これらの部分的な処理を時
間に同期して統合的に行う。
音素、音節、単語等の認識候補とそのスコアを生成する
処理、認識候補をつないだ系列とそのスコアを生成する
処理、認識候補間の最適な境界位置を見つける処理、同
じ時刻(又は、時刻と状態の組)に相当する境界を一つ
のノードとしてまとめる処理、同じ系列を表す部分的な
グラフを一つにまとめる処理に大きくわけることができ
るが、請求項1の発明では、これらの部分的な処理を時
間に同期して統合的に行う。
【0023】音声信号を音響的な特徴から音素、音節、
単語等の認識候補として認識し、認識候補及びその系列
の確からしさ(スコア)を求めるために、HMM(隠れ
マルコフモデル)に基づく方法が一般によく用いられ
る。HMM法では、音素、音節、単語等の認識候補毎に
モデルの状態と時間とを二軸とする、トレリスと呼ばれ
る二次元の作業空間を使用する。特に、音声信号を認識
候補の系列として認識する連続音声認識においては、こ
れらのトレリスをお互いに接続して連鎖させ、認識候補
の系列を表現した大きな作業空間が設定される。
単語等の認識候補として認識し、認識候補及びその系列
の確からしさ(スコア)を求めるために、HMM(隠れ
マルコフモデル)に基づく方法が一般によく用いられ
る。HMM法では、音素、音節、単語等の認識候補毎に
モデルの状態と時間とを二軸とする、トレリスと呼ばれ
る二次元の作業空間を使用する。特に、音声信号を認識
候補の系列として認識する連続音声認識においては、こ
れらのトレリスをお互いに接続して連鎖させ、認識候補
の系列を表現した大きな作業空間が設定される。
【0024】請求項2の発明では、トレリス上の各点
(時刻、トレリス番号、状態)における発話開始からそ
の点までの累積スコアや、そのトレリスが示す音素、音
節、単語等の認識候補(ラベル)の開始時刻を、トレリ
スの連鎖に沿って求めていくことによって有向グラフの
作成処理を行う。これら累積スコアや開始時刻の演算処
理は各トレリス系列の間で時間的に同期して進められ
る。なお、トレリスが互いに接続されているときには、
この処理の過程で各トレリスが示す認識候補間の境界位
置は最適化される。また、発話終了時刻で各トレリス連
鎖の最終状態における累積スコアの値を比較すれば、認
識結果として確からしい認識候補の系列を求めることが
できる。
(時刻、トレリス番号、状態)における発話開始からそ
の点までの累積スコアや、そのトレリスが示す音素、音
節、単語等の認識候補(ラベル)の開始時刻を、トレリ
スの連鎖に沿って求めていくことによって有向グラフの
作成処理を行う。これら累積スコアや開始時刻の演算処
理は各トレリス系列の間で時間的に同期して進められ
る。なお、トレリスが互いに接続されているときには、
この処理の過程で各トレリスが示す認識候補間の境界位
置は最適化される。また、発話終了時刻で各トレリス連
鎖の最終状態における累積スコアの値を比較すれば、認
識結果として確からしい認識候補の系列を求めることが
できる。
【0025】上記のような処理で求めたトレリスのグラ
フは、未だ、これを音声処理の結果とするには不十分で
ある。例えば、生成されたグラフの中には、発話終了時
刻における累積スコアがかなり低いトレリスが含まれて
いることもあり得るし、また、トレリスに対応する各ア
ークのスコアも未確定である。そこで、請求項3の発明
では、発話の区切り(発話の終了)を検出した後に、後
戻り処理を行って有向グラフの型のデータ構造を確定す
る。後戻り処理では、認識候補間の境界位置(ノード)
の確定と、各アークのスコア計算が行われ、有向グラフ
型のデータ構造としてまとめられる。
フは、未だ、これを音声処理の結果とするには不十分で
ある。例えば、生成されたグラフの中には、発話終了時
刻における累積スコアがかなり低いトレリスが含まれて
いることもあり得るし、また、トレリスに対応する各ア
ークのスコアも未確定である。そこで、請求項3の発明
では、発話の区切り(発話の終了)を検出した後に、後
戻り処理を行って有向グラフの型のデータ構造を確定す
る。後戻り処理では、認識候補間の境界位置(ノード)
の確定と、各アークのスコア計算が行われ、有向グラフ
型のデータ構造としてまとめられる。
【0026】なお、時間に同期した処理の過程では単一
のトレリス(認識候補)であっても、後戻り処理の過程
で、その存在区間が異なる複数の認識候補系列が現れる
ことがある。請求項4の発明では、このような場合に、
これら認識候補系列のスコアを正しく評価するために、
これらトレリスを別々のアークとする有向グラフを確定
する。
のトレリス(認識候補)であっても、後戻り処理の過程
で、その存在区間が異なる複数の認識候補系列が現れる
ことがある。請求項4の発明では、このような場合に、
これら認識候補系列のスコアを正しく評価するために、
これらトレリスを別々のアークとする有向グラフを確定
する。
【0027】また、請求項5の発明では、上記の後戻り
処理において、有向グラフの発話開始に対応するノード
から各ノードまでの最適経路のスコア、及び、各ノード
から発話の区切りに対応するノードまでの最適経路のス
コアを求め、これらスコアを有向グラフ型のデータ構造
に保持させて、後の言語処理での利用に供する。また、
請求項6の発明では、これら最適経路のスコアを認識候
補間の連鎖に関する言語的知識を反映させて求める。上
記のような後戻り処理で演算するデータ量は、通常、時
間的に同期して有向グラフを作成する処理のデータ量に
比べてはるかに小さいため、時間的に同期した処理を発
話中に終えることができれば、発話の区切りとほとんど
同時に認識結果としての確定した有向グラフ型データを
得ることができる。
処理において、有向グラフの発話開始に対応するノード
から各ノードまでの最適経路のスコア、及び、各ノード
から発話の区切りに対応するノードまでの最適経路のス
コアを求め、これらスコアを有向グラフ型のデータ構造
に保持させて、後の言語処理での利用に供する。また、
請求項6の発明では、これら最適経路のスコアを認識候
補間の連鎖に関する言語的知識を反映させて求める。上
記のような後戻り処理で演算するデータ量は、通常、時
間的に同期して有向グラフを作成する処理のデータ量に
比べてはるかに小さいため、時間的に同期した処理を発
話中に終えることができれば、発話の区切りとほとんど
同時に認識結果としての確定した有向グラフ型データを
得ることができる。
【0028】請求項7の音声認識装置では、認識候補に
対応するトレリスを作成してこのトレリスに対する累積
スコア及び開始時刻を時間的に同期して演算する。ま
た、このトレリスには後続する認識候補に対応する複数
のトレリスが時間に同期して接続され、認識候補に対応
してグラフ或いはツリー状に連鎖されたトレリス系列が
順次構成される。これらトレリス系列に対しても累積ス
コア及び開始時刻の演算は同様に時間的に同期して行わ
れる。したがって、認識候補系列に対応したトレリス系
列を設定して行く処理と、トレリス系列に対応した有向
グラフ型のデータを生成して行く処理とが、総じて時間
的に同期して進められる。そして、このようにして得ら
れた各データはグラフデータ格納手段に格納されるが、
上記の処理が発話の終了等に該当する発話の区切りに達
したところで、これら格納した開始時刻及び累積スコア
に基づいて認識候補間のノードの確定及び認識候補に対
応するアーク毎のスコア演算を後戻り処理して求め、有
向グラフ型のデータ構造を確定する。
対応するトレリスを作成してこのトレリスに対する累積
スコア及び開始時刻を時間的に同期して演算する。ま
た、このトレリスには後続する認識候補に対応する複数
のトレリスが時間に同期して接続され、認識候補に対応
してグラフ或いはツリー状に連鎖されたトレリス系列が
順次構成される。これらトレリス系列に対しても累積ス
コア及び開始時刻の演算は同様に時間的に同期して行わ
れる。したがって、認識候補系列に対応したトレリス系
列を設定して行く処理と、トレリス系列に対応した有向
グラフ型のデータを生成して行く処理とが、総じて時間
的に同期して進められる。そして、このようにして得ら
れた各データはグラフデータ格納手段に格納されるが、
上記の処理が発話の終了等に該当する発話の区切りに達
したところで、これら格納した開始時刻及び累積スコア
に基づいて認識候補間のノードの確定及び認識候補に対
応するアーク毎のスコア演算を後戻り処理して求め、有
向グラフ型のデータ構造を確定する。
【0029】
【実施例】本発明の実施例を図面を参照して説明する。
本実施例はHMM法を用いたものであり、音響モデル及
び認識単位を音節としたものである。まず、本実施例に
係る音声認識装置を図1及び図2を参照して説明する。
本実施例の音声認識装置は、大まかに分けて、音声信号
を入力するための入力手段1と、入力手段1からの音声
信号を分析して特徴パラメータ系列を得る音響分析手段
2と、音響分析手段2からの特徴パラメータ系列を音節
の認識候補系列として認識して、認識結果を有向グラフ
型のデータ構造にまとめる認識グラフ化手段3と、認識
グラフ化手段3による認識結果を格納するグラフデータ
格納手段4と、発話の区切りを検出してグラフデータ格
納手段4に格納されている認識結果のデータ構造を確定
する処理を行う後戻り処理手段5と、を備えている。な
お、得られた有向グラフ型の認識結果は、言語処理手段
6で文法的な制約等に基づいた言語処理が施されて出力
される。
本実施例はHMM法を用いたものであり、音響モデル及
び認識単位を音節としたものである。まず、本実施例に
係る音声認識装置を図1及び図2を参照して説明する。
本実施例の音声認識装置は、大まかに分けて、音声信号
を入力するための入力手段1と、入力手段1からの音声
信号を分析して特徴パラメータ系列を得る音響分析手段
2と、音響分析手段2からの特徴パラメータ系列を音節
の認識候補系列として認識して、認識結果を有向グラフ
型のデータ構造にまとめる認識グラフ化手段3と、認識
グラフ化手段3による認識結果を格納するグラフデータ
格納手段4と、発話の区切りを検出してグラフデータ格
納手段4に格納されている認識結果のデータ構造を確定
する処理を行う後戻り処理手段5と、を備えている。な
お、得られた有向グラフ型の認識結果は、言語処理手段
6で文法的な制約等に基づいた言語処理が施されて出力
される。
【0030】認識グラフ化手段3は、音節の音響モデル
としてHMM及び音響モデルの連鎖に関するモデルを保
持したモデル保持手段11と、音響分析手段2からの特
徴パラメータ系列に対してモデル保持手段11のHMM
を用いて認識候補に対応するトレリスを設定するトレリ
ス作成手段12と、設定されたトレリスに対する累積ス
コア及び開始時刻を時間的に同期して演算する演算手段
13と、を備えており、演算して得た各トレリスに対応
した累積スコア及び開始時刻等の認識結果をグラフデー
タ格納手段4に順次格納する。
としてHMM及び音響モデルの連鎖に関するモデルを保
持したモデル保持手段11と、音響分析手段2からの特
徴パラメータ系列に対してモデル保持手段11のHMM
を用いて認識候補に対応するトレリスを設定するトレリ
ス作成手段12と、設定されたトレリスに対する累積ス
コア及び開始時刻を時間的に同期して演算する演算手段
13と、を備えており、演算して得た各トレリスに対応
した累積スコア及び開始時刻等の認識結果をグラフデー
タ格納手段4に順次格納する。
【0031】トレリス作成手段12は、発話開始時刻で
の無音を示すトレリスを設定した後、音声信号(特徴パ
ラメータ系列)の入力に同期して後続する認識候補を示
すトレリスを順次設定する。この際、トレリス作成手段
12は、演算手段13の演算結果を利用して、累積スコ
アの高い認識候補系列に対応するトレリスには新しいト
レリスをツリー状乃至グラフ状に後続させる一方、累積
スコアの低い認識候補系列に対してはそれ以上のトレリ
ス連鎖を展開させない。すなわち、累積スコアの低い認
識候補系列に対しては演算手段13での演算処理を途中
で打ち切らせる。また、トレリス作成手段12は、後続
するトレリスをツリー状に展開しながら、重複した部分
ツリーが生成されることのないように連鎖をグラフの形
にまとめていく共有化処理も時間に同期して行う。
の無音を示すトレリスを設定した後、音声信号(特徴パ
ラメータ系列)の入力に同期して後続する認識候補を示
すトレリスを順次設定する。この際、トレリス作成手段
12は、演算手段13の演算結果を利用して、累積スコ
アの高い認識候補系列に対応するトレリスには新しいト
レリスをツリー状乃至グラフ状に後続させる一方、累積
スコアの低い認識候補系列に対してはそれ以上のトレリ
ス連鎖を展開させない。すなわち、累積スコアの低い認
識候補系列に対しては演算手段13での演算処理を途中
で打ち切らせる。また、トレリス作成手段12は、後続
するトレリスをツリー状に展開しながら、重複した部分
ツリーが生成されることのないように連鎖をグラフの形
にまとめていく共有化処理も時間に同期して行う。
【0032】これらトレリス作成手段12で行われる、
各時刻において認識の途中結果(認識候補の系列)をト
レリスのグラフとして表現する処理、各時刻における認
識候補のトレリスをツリーに展開する処理、新たに付け
加えられるトレリスを既に展開されているものと共有化
する処理等は、演算手段13で行われるトレリス上の各
点における累積スコアや開始時刻の演算処理と時間的に
同期して進められる。
各時刻において認識の途中結果(認識候補の系列)をト
レリスのグラフとして表現する処理、各時刻における認
識候補のトレリスをツリーに展開する処理、新たに付け
加えられるトレリスを既に展開されているものと共有化
する処理等は、演算手段13で行われるトレリス上の各
点における累積スコアや開始時刻の演算処理と時間的に
同期して進められる。
【0033】後戻り処理手段5はグラフデータ格納手段
4に格納されている有向グラフ型データに基づいて認識
候補間のノードの確定及び認識候補に対応するアーク毎
のスコア演算を行うものであり、所定のトレリス(アー
ク)を検索するトレリス検索手段15と、所定のノード
を確定するノード確定手段16と、アーク毎のスコア演
算等を行う演算手段17とを備えている。すなわち、後
戻り処理手段5は、発話の区切りに達した時点でトレリ
ス検索手段15が発話の区切りに対応するアークを検索
し、そのインノードをノード確定手段16が確定させ、
当該インノードをアウトノードとするアークをトレリス
検索手段15が発話開始の方向へ検索して調べ、検索さ
れたアークのインノードをノード確定手段16が確定さ
せるという処理を発話開始のノードに至るまで繰り返し
行う。そして、この処理に同期して演算手段17が個々
のアークのスコア等を演算し、この演算結果をグラフデ
ータ格納手段4に格納する。
4に格納されている有向グラフ型データに基づいて認識
候補間のノードの確定及び認識候補に対応するアーク毎
のスコア演算を行うものであり、所定のトレリス(アー
ク)を検索するトレリス検索手段15と、所定のノード
を確定するノード確定手段16と、アーク毎のスコア演
算等を行う演算手段17とを備えている。すなわち、後
戻り処理手段5は、発話の区切りに達した時点でトレリ
ス検索手段15が発話の区切りに対応するアークを検索
し、そのインノードをノード確定手段16が確定させ、
当該インノードをアウトノードとするアークをトレリス
検索手段15が発話開始の方向へ検索して調べ、検索さ
れたアークのインノードをノード確定手段16が確定さ
せるという処理を発話開始のノードに至るまで繰り返し
行う。そして、この処理に同期して演算手段17が個々
のアークのスコア等を演算し、この演算結果をグラフデ
ータ格納手段4に格納する。
【0034】ここで、音節の音響モデルとして用いるH
MM(隠れマルコフモデル)の説明をしておく。図4に
は音節HMMの一例を示してあり、HMMの状態1〜3
が矢印実線で示すように遷移する様子を表している。こ
のHMMは状態間の遷移と音声信号の特徴パラメータの
受理を繰り返すというように動作する。状態遷移と特徴
パラメータの受理は確率的であり、状態遷移確率am i、j
と特徴パラメータを受理する確率bm j(Ok)で表され
る。HMMは各音節毎に設定され、各音節HMMの確率
の値は、それぞれが対応する音節の特徴パラメータ系列
を最もよく受理するように、学習用の音声データにより
予め求められている。なお、未知の音節は、その特徴パ
ラメータ系列を最もよく受理する音節HMMを求めるこ
とで認識することができる。
MM(隠れマルコフモデル)の説明をしておく。図4に
は音節HMMの一例を示してあり、HMMの状態1〜3
が矢印実線で示すように遷移する様子を表している。こ
のHMMは状態間の遷移と音声信号の特徴パラメータの
受理を繰り返すというように動作する。状態遷移と特徴
パラメータの受理は確率的であり、状態遷移確率am i、j
と特徴パラメータを受理する確率bm j(Ok)で表され
る。HMMは各音節毎に設定され、各音節HMMの確率
の値は、それぞれが対応する音節の特徴パラメータ系列
を最もよく受理するように、学習用の音声データにより
予め求められている。なお、未知の音節は、その特徴パ
ラメータ系列を最もよく受理する音節HMMを求めるこ
とで認識することができる。
【0035】なお、上記の記号及び図4中の記号で、O
iは、音声信号の特徴パラメータ系列(ここに、i=
1,2,・・・,I)、am i、jは、音節mのHMMで状
態iから状態jへ遷移する確率の対数値(ここに、i=
1,2,・・・,S、j=1,2,・・・,S+1、m
=1,2,・・・,Mであり、J=S+1は次の音節へ
の遷移に対応している)、bm j(Ok)は、音節mのH
MMで状態jにおいて特徴パラメータOkを受理する確
率の対数値(ここに、j=1,2,・・・,S、m=
1,2,・・・,M、k=1,2,・・・,I)、Sy
lLabel(j)は、トレリスjが示す音節、をそれ
ぞれ表している。
iは、音声信号の特徴パラメータ系列(ここに、i=
1,2,・・・,I)、am i、jは、音節mのHMMで状
態iから状態jへ遷移する確率の対数値(ここに、i=
1,2,・・・,S、j=1,2,・・・,S+1、m
=1,2,・・・,Mであり、J=S+1は次の音節へ
の遷移に対応している)、bm j(Ok)は、音節mのH
MMで状態jにおいて特徴パラメータOkを受理する確
率の対数値(ここに、j=1,2,・・・,S、m=
1,2,・・・,M、k=1,2,・・・,I)、Sy
lLabel(j)は、トレリスjが示す音節、をそれ
ぞれ表している。
【0036】次に、認識グラフ化手段3で行われる音節
列の認識及びグラフ化の処理を説明する。まず、認識及
びグラフ化の処理は発話の開始時刻で起こり得る音節に
対するトレリスを設定することから始まるが、本実施例
では発話を無音(#)によって挟まれた区間であると扱
って、まず、無音を示すトレリスを設定する。そして、
以下の演算処理で使用する変数を初期化して、 トレリス番号j=0 ・・・(式1)、 SylLabel(j)=”#” ・・・(式2)、 AccumScore(i,j,k)={0.0:(i,j,k)=(0,0 ,0)の場合、−∞:それ以外の場合} ・・・(式3)、 InitFrame(i,j,k)={1:(i,j,k)=(0,0,0) の場合、−1:それ以外の場合} ・・・(式4)、とする。
列の認識及びグラフ化の処理を説明する。まず、認識及
びグラフ化の処理は発話の開始時刻で起こり得る音節に
対するトレリスを設定することから始まるが、本実施例
では発話を無音(#)によって挟まれた区間であると扱
って、まず、無音を示すトレリスを設定する。そして、
以下の演算処理で使用する変数を初期化して、 トレリス番号j=0 ・・・(式1)、 SylLabel(j)=”#” ・・・(式2)、 AccumScore(i,j,k)={0.0:(i,j,k)=(0,0 ,0)の場合、−∞:それ以外の場合} ・・・(式3)、 InitFrame(i,j,k)={1:(i,j,k)=(0,0,0) の場合、−1:それ以外の場合} ・・・(式4)、とする。
【0037】なお、AccumScore(i,j,
k)は、照合開始点(フレーム0,トレリス番号0,状
態0)から(フレームi,トレリス番号j,状態k)に
至るまでの累積スコア(Viterbiスコア)、In
itFrame(i,j,k)は、或る点(フレーム
i,トレリス番号j,状態k)から見たときのトレリス
jが示す音節SylLabel(j)の開始フレーム、
をそれぞれ表している。ここに、フレームとは特徴パラ
メータが抽出された時刻である。
k)は、照合開始点(フレーム0,トレリス番号0,状
態0)から(フレームi,トレリス番号j,状態k)に
至るまでの累積スコア(Viterbiスコア)、In
itFrame(i,j,k)は、或る点(フレーム
i,トレリス番号j,状態k)から見たときのトレリス
jが示す音節SylLabel(j)の開始フレーム、
をそれぞれ表している。ここに、フレームとは特徴パラ
メータが抽出された時刻である。
【0038】すなわち、初期状態では、累積スコア(対
数表示の確率)は式3において”0”、それ以外ではエ
ラー(−∞)に設定し、開始フレーム(開始時刻)は式
4において”1”、それ以外ではエラー(−1)に設定
する。
数表示の確率)は式3において”0”、それ以外ではエ
ラー(−∞)に設定し、開始フレーム(開始時刻)は式
4において”1”、それ以外ではエラー(−1)に設定
する。
【0039】次いで、トレリスが設定されている音節と
特徴パラメータ系列との照合をViterbiサーチに
よって行う。一般的には、フレームi=1,2,・・
・,I、トレリス番号j=1,2,・・・,M、状態k
=1,2,・・・,S、について下記の式5及び式6を
演算することとなるが、ここでは、上記によって無音の
トレリスのみが設定されているので、j=0として当該
無音のトレリスの上で式5及び式6の演算を行う。
特徴パラメータ系列との照合をViterbiサーチに
よって行う。一般的には、フレームi=1,2,・・
・,I、トレリス番号j=1,2,・・・,M、状態k
=1,2,・・・,S、について下記の式5及び式6を
演算することとなるが、ここでは、上記によって無音の
トレリスのみが設定されているので、j=0として当該
無音のトレリスの上で式5及び式6の演算を行う。
【0040】 AccumScore(i,j,k)=max{AccumScore(i− 1,j,k−1)+aSylLabel(j) k-1、k、AccumScore(i−1,j, k)+aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・(式5)、 InitFrame(i,j,k)=InitFrame(i−1,j,k− 1)又はInitFrame(i−1,j,k) ・・・(式6)、 但し、AccumScore(i,j,k)=Accu
mScore(i−1,j,k−1)+aSylLabel(j)
k-1、k+bSylLabel(j) k(Oi)の場合にはInitFr
ame(i,j,k)=InitFrame(i−1,
j,k−1)、 AccumScore(i,j,k)=AccumSc
ore(i−1,j,k)+aSylLabel(j) k、k+b
SylLabel(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。
mScore(i−1,j,k−1)+aSylLabel(j)
k-1、k+bSylLabel(j) k(Oi)の場合にはInitFr
ame(i,j,k)=InitFrame(i−1,
j,k−1)、 AccumScore(i,j,k)=AccumSc
ore(i−1,j,k)+aSylLabel(j) k、k+b
SylLabel(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。
【0041】例えば、図5に示すトレリスjにおいて、
AccumScore(3,j,2)及びInitFr
ame(3,j,2)を求める場合に、点(3,j,
2)ではAccumScore(2,j,1)+a
SylLabel(j) 1、2>AccumScore(2,j,2)
+aSylLabel(j) 2、2とすると、 AccumScore(3,j,2)=AccumSc
ore(2,j,1)+aSylLabel(j) 1、2+b
SylLabel(j) 2(O3)、 InitFrame(3,j,2)=InitFram
e(2,j,1)、となる。すなわち、状態遷移確率及
び特徴パラメータ受理確率の高い経路(図5中では太い
矢印線)に沿って順次スコアを累積してAccumSc
oreを演算し、この処理を当該トレリスjの最終点
(6,j,3)まで行う。
AccumScore(3,j,2)及びInitFr
ame(3,j,2)を求める場合に、点(3,j,
2)ではAccumScore(2,j,1)+a
SylLabel(j) 1、2>AccumScore(2,j,2)
+aSylLabel(j) 2、2とすると、 AccumScore(3,j,2)=AccumSc
ore(2,j,1)+aSylLabel(j) 1、2+b
SylLabel(j) 2(O3)、 InitFrame(3,j,2)=InitFram
e(2,j,1)、となる。すなわち、状態遷移確率及
び特徴パラメータ受理確率の高い経路(図5中では太い
矢印線)に沿って順次スコアを累積してAccumSc
oreを演算し、この処理を当該トレリスjの最終点
(6,j,3)まで行う。
【0042】上記のような音節の照合処理は、設定され
ているトレリスの各点における値(AccumScor
e(i,j,k)とInitFrame(i,j,
k))を、時間に同期して求めていくことで進められ
る。従って、或る程度時間がたつと、照合開始点から無
音HMMの最終点(i,j,S)に至る経路のスコアA
ccumScore(i,j,S)が高くなる。
ているトレリスの各点における値(AccumScor
e(i,j,k)とInitFrame(i,j,
k))を、時間に同期して求めていくことで進められ
る。従って、或る程度時間がたつと、照合開始点から無
音HMMの最終点(i,j,S)に至る経路のスコアA
ccumScore(i,j,S)が高くなる。
【0043】このように無音を示すトレリスの最終点に
おけるスコアが高くなると、図6に示すように、この無
音を示すトレリス(j=0)に認識候補としての次の音
節(”X”と”Y”)を示すトレリス(j=1、2)を
接続する。なお、一般的には認識候補は多数考えられ、
接続するトレリスもそれに応じた数(M個)設定される
が、図6には簡単のため二つの音節(”X”と”Y”)
のみを示してある。
おけるスコアが高くなると、図6に示すように、この無
音を示すトレリス(j=0)に認識候補としての次の音
節(”X”と”Y”)を示すトレリス(j=1、2)を
接続する。なお、一般的には認識候補は多数考えられ、
接続するトレリスもそれに応じた数(M個)設定される
が、図6には簡単のため二つの音節(”X”と”Y”)
のみを示してある。
【0044】次いで、増加した全てのトレリス上におけ
る最終点までの経路のスコア及び開始フレームを式5及
び式6と同様にして演算する。但し、新しく接続された
トレリスの上で音節照合する場合には、AccumSc
ore(i,j,k)とInitFrame(i,j,
k)の値はその前のトレリスにおける値を反映させる必
要がある。図6に示す場合であれば、新しく接続された
トレリスの初期状態(k=1)での値を、フレームi=
1,2,・・・,I、トレリス番号j=1,2,・・
・,M、について式7及び式8に基づいて演算すればよ
い。なお、状態k=2,・・・,S、については式5及
び式6と同様にして演算する。
る最終点までの経路のスコア及び開始フレームを式5及
び式6と同様にして演算する。但し、新しく接続された
トレリスの上で音節照合する場合には、AccumSc
ore(i,j,k)とInitFrame(i,j,
k)の値はその前のトレリスにおける値を反映させる必
要がある。図6に示す場合であれば、新しく接続された
トレリスの初期状態(k=1)での値を、フレームi=
1,2,・・・,I、トレリス番号j=1,2,・・
・,M、について式7及び式8に基づいて演算すればよ
い。なお、状態k=2,・・・,S、については式5及
び式6と同様にして演算する。
【0045】 AccumScore(i,j,k)=max{AccumScore(i− 1,0,S)+aSylLabel(j) S、S+1、AccumScore(i−1,j,k) +aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・(式7)、 InitFrame(i,j,k)=i又はInitFrame(i−1,j ,k) ・・・(式8)、 但し、AccumScore(i,j,k)=Accu
mScore(i−1,0,S)+aSylLabel(j) S、S+1
+bSylLabel(j) k(Oi)の場合にはInitFram
e(i,j,k)=i、AccumScore(i,
j,k)=AccumScore(i−1,j,k)+
aSylLabel(j) k、k+bSylLabel(j) k(Oi)の場合には
InitFrame(i,j,k)=InitFram
e(i−1,j,k)である。
mScore(i−1,0,S)+aSylLabel(j) S、S+1
+bSylLabel(j) k(Oi)の場合にはInitFram
e(i,j,k)=i、AccumScore(i,
j,k)=AccumScore(i−1,j,k)+
aSylLabel(j) k、k+bSylLabel(j) k(Oi)の場合には
InitFrame(i,j,k)=InitFram
e(i−1,j,k)である。
【0046】なお、音響的なスコアに言語的なスコア
(音節間の遷移確率)を加える場合には、式7及び式8
に加えて、トレリス番号j=1,2,・・・,M、につ
いて式9及び式10の演算を行えばよい。 LangScore(0)=0 ・・・(式9)、 LangScore(j)=LangScore(0)+SylBigram (SylLabel(0)、SylLabel(j)) ・・・(式10)、 この結果、累積スコアはAccumScore(i,
j,k)+wLangScore(j)となる。ここ
に、LangScore(j)は、最初の音節からトレ
リスjが示す音節SylLabel(j)までの言語的
スコア、SylBigram(i,j)は、音節iから
音節jに遷移する確率、wは、言語的スコアに対して付
けられた重み、をそれぞれ表す。
(音節間の遷移確率)を加える場合には、式7及び式8
に加えて、トレリス番号j=1,2,・・・,M、につ
いて式9及び式10の演算を行えばよい。 LangScore(0)=0 ・・・(式9)、 LangScore(j)=LangScore(0)+SylBigram (SylLabel(0)、SylLabel(j)) ・・・(式10)、 この結果、累積スコアはAccumScore(i,
j,k)+wLangScore(j)となる。ここ
に、LangScore(j)は、最初の音節からトレ
リスjが示す音節SylLabel(j)までの言語的
スコア、SylBigram(i,j)は、音節iから
音節jに遷移する確率、wは、言語的スコアに対して付
けられた重み、をそれぞれ表す。
【0047】上記のように認識候補毎にトレリスを設定
して連鎖させ、スコア及び開始フレームを演算する処理
を続けると、図7に示すように、音節連鎖に対応したツ
リー状のトレリスが形成される。なお、ツリーの枝を伸
ばしていく過程で、認識スコアの低い音節列に対応する
ツリー上にあるトレリスは以後の照合処理の対象から外
す枝刈りの操作を行ってもよい。
して連鎖させ、スコア及び開始フレームを演算する処理
を続けると、図7に示すように、音節連鎖に対応したツ
リー状のトレリスが形成される。なお、ツリーの枝を伸
ばしていく過程で、認識スコアの低い音節列に対応する
ツリー上にあるトレリスは以後の照合処理の対象から外
す枝刈りの操作を行ってもよい。
【0048】このように後続するトレリスを順次ツリー
状に連鎖させて行く処理において、トレリスの最終状態
におけるスコアが十分高く、且つ、このトレリスに未だ
後続するトレリスが接続されていない時でも、新しいト
レリスを後続させて設定しない場合がある。例えば、既
に生成されているトレリスのツリーの内で、後続するト
レリスを既に接続したトレリスが示す音節が、後続する
トレリスを未だ接続していないトレリスが示す音節と同
一であり、且つ、これら音節が同一時刻に始まっている
と仮定できる場合には、後者のトレリスに新しいトレリ
スを後続させて設定しない。そして、この後者のトレリ
スに後続するトレリスには、前者のトレリスに後続する
トレリスを共通して接続させ、演算処理の対象となるト
レリスを減らして処理の迅速化を図る。
状に連鎖させて行く処理において、トレリスの最終状態
におけるスコアが十分高く、且つ、このトレリスに未だ
後続するトレリスが接続されていない時でも、新しいト
レリスを後続させて設定しない場合がある。例えば、既
に生成されているトレリスのツリーの内で、後続するト
レリスを既に接続したトレリスが示す音節が、後続する
トレリスを未だ接続していないトレリスが示す音節と同
一であり、且つ、これら音節が同一時刻に始まっている
と仮定できる場合には、後者のトレリスに新しいトレリ
スを後続させて設定しない。そして、この後者のトレリ
スに後続するトレリスには、前者のトレリスに後続する
トレリスを共通して接続させ、演算処理の対象となるト
レリスを減らして処理の迅速化を図る。
【0049】例えば、図7に示す連鎖構造の後、或るフ
レームiで番号6のトレリスの最終状態におけるスコア
が十分高くなった場合を考える。通常は、図8に示すよ
うに、番号6のトレリスに後続するトレリス(番号9’
〜11’)が新しく設定される。ところが、番号6のト
レリスに後続するトレリスが示す音節(SylLabe
l(6))と同じ音節”X”を示す番号3のトレリスが
既に設定されていて、且つ、番号3のトレリスは後続す
るトレリス(番号9〜11)を持っている。更に加え
て、番号3のトレリスが示す音節の開始フレームIni
tFrame(i,3,S)と、番号6のトレリスが示
す音節の開始フレームInitFrame(i,6,
S)とが等しい。このような場合には、番号6のトレリ
スは自身に後続するトレリスとして、図9に示すよう
に、番号3のトレリスに後続するトレリス(番号9〜1
1)を示すようにし、番号3のトレリスと番号6のトレ
リスとで後続するトレリスを共通化する。
レームiで番号6のトレリスの最終状態におけるスコア
が十分高くなった場合を考える。通常は、図8に示すよ
うに、番号6のトレリスに後続するトレリス(番号9’
〜11’)が新しく設定される。ところが、番号6のト
レリスに後続するトレリスが示す音節(SylLabe
l(6))と同じ音節”X”を示す番号3のトレリスが
既に設定されていて、且つ、番号3のトレリスは後続す
るトレリス(番号9〜11)を持っている。更に加え
て、番号3のトレリスが示す音節の開始フレームIni
tFrame(i,3,S)と、番号6のトレリスが示
す音節の開始フレームInitFrame(i,6,
S)とが等しい。このような場合には、番号6のトレリ
スは自身に後続するトレリスとして、図9に示すよう
に、番号3のトレリスに後続するトレリス(番号9〜1
1)を示すようにし、番号3のトレリスと番号6のトレ
リスとで後続するトレリスを共通化する。
【0050】このような共通化処理は所定の条件を満た
す時に随時行われ、これによって、認識処理の途中にお
いてトレリス連鎖の形態は動的に変化する。なお、共通
化する条件としては、上記した音節の同一性及び音節の
同一時刻性の両方を要求せずとも、音節の同一時刻性だ
けであっても可能である。
す時に随時行われ、これによって、認識処理の途中にお
いてトレリス連鎖の形態は動的に変化する。なお、共通
化する条件としては、上記した音節の同一性及び音節の
同一時刻性の両方を要求せずとも、音節の同一時刻性だ
けであっても可能である。
【0051】ここで、上記のように後続トレリスを共有
化した場合には、音節照合処理を若干修正しなければな
らない。トレリスがツリー状に展開される通常の場合に
は、各トレリスに先行するトレリスは一つしかないが、
後続するトレリスが共通化される場合には、共通化され
たトレリスに先行するトレリスは複数個(n)存在する
ことになる。したがって、具体的には、共通化されたト
レリスjの初期状態での値を、先行するトレリスがn個
(=1,2,・・・,N)のときは、フレームi=1,
2,・・・,I、状態k=1、について式11及び式1
2に基づいて演算し、先行するトレリスの内の最大スコ
アを継承させるようにすればよい。
化した場合には、音節照合処理を若干修正しなければな
らない。トレリスがツリー状に展開される通常の場合に
は、各トレリスに先行するトレリスは一つしかないが、
後続するトレリスが共通化される場合には、共通化され
たトレリスに先行するトレリスは複数個(n)存在する
ことになる。したがって、具体的には、共通化されたト
レリスjの初期状態での値を、先行するトレリスがn個
(=1,2,・・・,N)のときは、フレームi=1,
2,・・・,I、状態k=1、について式11及び式1
2に基づいて演算し、先行するトレリスの内の最大スコ
アを継承させるようにすればよい。
【0052】 AccumScore(i,j,k)=max{max{AccumScor e(i−1,n,S)}|N n=1+aSylLabel(j) S、S+1、AccumScore( i−1,j,k)+aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・( 式11)、 InitFrame(i,j,k)=i又はInitFrame(i−1,j ,k) ・・・(式12)、 但し、AccumScore(i,j,k)=max
{AccumScore(i−1,n,S)}|N n=1+
aSylLabel(j) S、S+1+bSylLabel(j) k(Oi)の場合に
はInitFrame(i,j,k)=i、Accum
Score(i,j,k)=AccumScore(i
−1,j,k)+aSylLabel(j) k、k+b
SylLab el(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。なお、max{AccumScore}|
N n=1は、n=1〜Nの間の最大のAccumScore
を示す。
{AccumScore(i−1,n,S)}|N n=1+
aSylLabel(j) S、S+1+bSylLabel(j) k(Oi)の場合に
はInitFrame(i,j,k)=i、Accum
Score(i,j,k)=AccumScore(i
−1,j,k)+aSylLabel(j) k、k+b
SylLab el(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。なお、max{AccumScore}|
N n=1は、n=1〜Nの間の最大のAccumScore
を示す。
【0053】上記のような音節照合処理とトレリスを連
鎖させるグラフ化処理は、発話の区切りが検出されるま
で、フレームに同期して進められ、発話の最終フレーム
までに形成された有向グラフは例えば図10に示すよう
なものとなる。そして、グラフデータ格納手段4には上
記の一連の処理で得られた、各トレリスの番号、そのト
レリスに先行するトレリスの番号、認識候補名(ラベ
ル)SylLabel、累積スコアAccumScor
e、開始フレームInitFrame、等が互いに対応
付けて格納される。しかしながら、このようなして形成
されたトレリスのグラフであっても、累積スコアがかな
り小さい部分を含んでいる、各トレリスに対応する各ア
ークのスコアが求められていない等、音声処理の結果と
するには十分とはいえない点もある。
鎖させるグラフ化処理は、発話の区切りが検出されるま
で、フレームに同期して進められ、発話の最終フレーム
までに形成された有向グラフは例えば図10に示すよう
なものとなる。そして、グラフデータ格納手段4には上
記の一連の処理で得られた、各トレリスの番号、そのト
レリスに先行するトレリスの番号、認識候補名(ラベ
ル)SylLabel、累積スコアAccumScor
e、開始フレームInitFrame、等が互いに対応
付けて格納される。しかしながら、このようなして形成
されたトレリスのグラフであっても、累積スコアがかな
り小さい部分を含んでいる、各トレリスに対応する各ア
ークのスコアが求められていない等、音声処理の結果と
するには十分とはいえない点もある。
【0054】そこで、形成された有向グラフのデータに
基づいて、後戻り処理手段5によってグラフの余分な部
分を削除するとともに、認識候補間の境界位置(ノー
ド)の確定及びアークのスコア演算、更には、各ノード
と開始ノード及び終了ノードとの間の最適経路のスコア
演算を行い、有向グラフとしてのデータ構造を確定させ
る。
基づいて、後戻り処理手段5によってグラフの余分な部
分を削除するとともに、認識候補間の境界位置(ノー
ド)の確定及びアークのスコア演算、更には、各ノード
と開始ノード及び終了ノードとの間の最適経路のスコア
演算を行い、有向グラフとしてのデータ構造を確定させ
る。
【0055】なお、以下に説明する後戻り処理で用いる
記号を説明すると、TrellisID(p)は、アー
クpに対応するトレリス番号、ArcLabel(p)
は、アークpが示す音節名、ArcInNode(p)
は、アークpのインノード、ArcoOutNode
(p)は、アークpのアウトノード、ArcScore
(p)は、アークpのスコア、NodeTime(q)
は、ノードqが示すフレーム、FwScore(q)
は、開始ノードからノードqまでの最適経路のスコア、
BwScore(q)は、ノードqから終了ノードまで
の最適経路のスコア、をそれぞれ表す。
記号を説明すると、TrellisID(p)は、アー
クpに対応するトレリス番号、ArcLabel(p)
は、アークpが示す音節名、ArcInNode(p)
は、アークpのインノード、ArcoOutNode
(p)は、アークpのアウトノード、ArcScore
(p)は、アークpのスコア、NodeTime(q)
は、ノードqが示すフレーム、FwScore(q)
は、開始ノードからノードqまでの最適経路のスコア、
BwScore(q)は、ノードqから終了ノードまで
の最適経路のスコア、をそれぞれ表す。
【0056】後戻り処理は、まず、図11に示すように
有向グラフの終了ノード(番号=0)を設定するところ
から始まる。なお、このノードでは、BwScore
(0)=0となり、グラフデータ格納手段4に格納され
る。次いで、形成されたトレリスの有向グラフから、こ
の終了ノードをアウトノードとするトレリスを選び出
す。この選択処理では、最終フレームIで設定されてい
る全てのトレリスjについて、その最終状態Sにおける
累積スコアAccumScore(I,j,S)の高い
ものを選択すればよい。また、発話が無音によって区切
られる時には、更に、そのトレリスが示す音節が無音で
あるという制約を加えればよい。
有向グラフの終了ノード(番号=0)を設定するところ
から始まる。なお、このノードでは、BwScore
(0)=0となり、グラフデータ格納手段4に格納され
る。次いで、形成されたトレリスの有向グラフから、こ
の終了ノードをアウトノードとするトレリスを選び出
す。この選択処理では、最終フレームIで設定されてい
る全てのトレリスjについて、その最終状態Sにおける
累積スコアAccumScore(I,j,S)の高い
ものを選択すればよい。また、発話が無音によって区切
られる時には、更に、そのトレリスが示す音節が無音で
あるという制約を加えればよい。
【0057】そして、選択されたトレリスが示す音節の
ラベルをアークの属性として継承し、アークのインノー
ドとアウトノードを設定し、インノードの属性であるフ
レームの値を設定する処理を行う。具体的には、選択さ
れたN個のトレリスの番号をj、対応するN個のアーク
の番号をp=0,1,・・N−1、各アークのインノー
ドをq(=p+1)とすると、例えば次のようになる。 TrellisID(p)=j、 ArcLabel(p)=SylLabel(j)
(=”#”)、 ArcInNode(p)=q、 ArcOutNod
e(p)=0、 NodeTime(q)=InitFrame(i,
j,S)、
ラベルをアークの属性として継承し、アークのインノー
ドとアウトノードを設定し、インノードの属性であるフ
レームの値を設定する処理を行う。具体的には、選択さ
れたN個のトレリスの番号をj、対応するN個のアーク
の番号をp=0,1,・・N−1、各アークのインノー
ドをq(=p+1)とすると、例えば次のようになる。 TrellisID(p)=j、 ArcLabel(p)=SylLabel(j)
(=”#”)、 ArcInNode(p)=q、 ArcOutNod
e(p)=0、 NodeTime(q)=InitFrame(i,
j,S)、
【0058】この結果、図11に例示すように、終了ノ
ードにアークが接続され、各アークに対応したTrel
lisID、ArcLabel、ArcInNode、
ArcOutNodeがグラフデータ格納手段4に格納
される。すなわち、このようにアークが確定すると、こ
れに対応したインノード等も確定する。なお、図11に
示す例では、図10に示したトレリスの連鎖の内の、番
号13と番号16のトレリスだけが選択されている。
ードにアークが接続され、各アークに対応したTrel
lisID、ArcLabel、ArcInNode、
ArcOutNodeがグラフデータ格納手段4に格納
される。すなわち、このようにアークが確定すると、こ
れに対応したインノード等も確定する。なお、図11に
示す例では、図10に示したトレリスの連鎖の内の、番
号13と番号16のトレリスだけが選択されている。
【0059】また、このように終了ノードに接続するア
ークが確定したことで、開始ノードから終了ノードまで
のパスのスコアの最大値を確定することができ、このス
コアFwScore(0)を次式に基づいて演算する。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)}|N-1 p=0、 すなわち、N個のアークの内の最大の累積スコアを有す
るものをFwScore(0)とする。なお、FwSc
ore(0)の値は上記した有向グラフを作成する処理
において既に求められているため、発話の区切りが検出
された時点でこれを設定してもよい。
ークが確定したことで、開始ノードから終了ノードまで
のパスのスコアの最大値を確定することができ、このス
コアFwScore(0)を次式に基づいて演算する。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)}|N-1 p=0、 すなわち、N個のアークの内の最大の累積スコアを有す
るものをFwScore(0)とする。なお、FwSc
ore(0)の値は上記した有向グラフを作成する処理
において既に求められているため、発話の区切りが検出
された時点でこれを設定してもよい。
【0060】なお、音響的なスコアに言語的なスコアを
加えた場合には、FwScore(0)の値は例えば次
式のようにして演算することができる。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)+wLangS
core(TrellisID(p))}|N-1 p=0、
加えた場合には、FwScore(0)の値は例えば次
式のようにして演算することができる。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)+wLangS
core(TrellisID(p))}|N-1 p=0、
【0061】次いで、アークの確定により既に確定され
たインノードの中から、未だアウトノードになっていな
いものを一つ選び、これをアウトノードとするトレリス
を求める。図11に示した例では、例えば番号1のノー
ドが選択され、図10に示した対応するトレリスのグラ
フから番号11と番号14のトレリスが求められる。
たインノードの中から、未だアウトノードになっていな
いものを一つ選び、これをアウトノードとするトレリス
を求める。図11に示した例では、例えば番号1のノー
ドが選択され、図10に示した対応するトレリスのグラ
フから番号11と番号14のトレリスが求められる。
【0062】次いで、求めたトレリスについて、上記と
同様な処理を行って、アークとノードを確定する。具体
的には、上記と同様に、選択されたノードの番号をq、
これまでに確定されたアークとノードの数をそれぞれL
とK、ノードqをアウトノードに持つアークをr=L,
L+1,・・,L+N−1、このアークのインノードを
s=K,K+1,・・,K+N−1、対応するトレリス
をjとすると、次のようになる。 TrellisID(r)=j、 ArcLabel(r)=SylLabel(j)、 ArclnNode(r)=s、 ArcOutNod
e(r)=q 、 NodeTime(s)=InitFrame(Nod
eTime(q)−1、TrellisID(r)、
S)、
同様な処理を行って、アークとノードを確定する。具体
的には、上記と同様に、選択されたノードの番号をq、
これまでに確定されたアークとノードの数をそれぞれL
とK、ノードqをアウトノードに持つアークをr=L,
L+1,・・,L+N−1、このアークのインノードを
s=K,K+1,・・,K+N−1、対応するトレリス
をjとすると、次のようになる。 TrellisID(r)=j、 ArcLabel(r)=SylLabel(j)、 ArclnNode(r)=s、 ArcOutNod
e(r)=q 、 NodeTime(s)=InitFrame(Nod
eTime(q)−1、TrellisID(r)、
S)、
【0063】このようにして、ノードqをアウトノード
とするアークが求められたことで、ノードqをインノー
ドに持つアークpの属性と、ノードqの持つフレーム以
外の属性の設定を行うことができる。すなわち、アーク
pのスコアArcScore(p)、開始ノードからノ
ードqまでの経路(パス)のスコアの最大値FwSco
re(q)、ノードqから終了ノードまでの経路(パ
ス)のスコアの最大値BwScore(q)、を次式に
基づいた演算によって求めてグラフデータ格納手段4に
格納する。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)}|N r=1、 ArcScore(p)=AccumScore(No
deTime(ArcOutNode(p))−1,T
rellisID(p),S)−FwScore
(q)、 BwScore(q)=ArcScore(p)+Bw
Score(ArcOutNode(p))、 なお、これらの属性が既に設定されている場合(後述す
る、別々のアークが同一のインノードを持つ場合)に
は、上記のようにして設定し直す必要はない。
とするアークが求められたことで、ノードqをインノー
ドに持つアークpの属性と、ノードqの持つフレーム以
外の属性の設定を行うことができる。すなわち、アーク
pのスコアArcScore(p)、開始ノードからノ
ードqまでの経路(パス)のスコアの最大値FwSco
re(q)、ノードqから終了ノードまでの経路(パ
ス)のスコアの最大値BwScore(q)、を次式に
基づいた演算によって求めてグラフデータ格納手段4に
格納する。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)}|N r=1、 ArcScore(p)=AccumScore(No
deTime(ArcOutNode(p))−1,T
rellisID(p),S)−FwScore
(q)、 BwScore(q)=ArcScore(p)+Bw
Score(ArcOutNode(p))、 なお、これらの属性が既に設定されている場合(後述す
る、別々のアークが同一のインノードを持つ場合)に
は、上記のようにして設定し直す必要はない。
【0064】なお、音響的なスコアに言語的なスコアを
加えた場合には、FwScore(q)とBwScor
e(q)の値はそれぞれ次のようになる。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)+wLangScore(Trellis
ID(r))}|N r=1、 BwScore(q)=ArcScore(p)+wS
ylBigram(SylLabel(Trellis
ID(r))、SylLabel(TrellisID
(p)))+BwScore(ArcOutNode
(p))、
加えた場合には、FwScore(q)とBwScor
e(q)の値はそれぞれ次のようになる。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)+wLangScore(Trellis
ID(r))}|N r=1、 BwScore(q)=ArcScore(p)+wS
ylBigram(SylLabel(Trellis
ID(r))、SylLabel(TrellisID
(p)))+BwScore(ArcOutNode
(p))、
【0065】ここで、上記の後戻り処理において、確定
処理を行おうとするアークに対応するトレリスと有向グ
ラフを作成する処理の中で同時に展開されたトレリスに
対応するアークが、既にアークとして確定していること
もある。このような時には、既に確定しているアークの
インノードに対応するフレームと、確定しようとするア
ークのインノードに対応するフレームが同じという条件
の下に、新たに確定しようとするアークのインノードを
既に確定しているアークのインノードと同じになるよう
にする必要がある。
処理を行おうとするアークに対応するトレリスと有向グ
ラフを作成する処理の中で同時に展開されたトレリスに
対応するアークが、既にアークとして確定していること
もある。このような時には、既に確定しているアークの
インノードに対応するフレームと、確定しようとするア
ークのインノードに対応するフレームが同じという条件
の下に、新たに確定しようとするアークのインノードを
既に確定しているアークのインノードと同じになるよう
にする必要がある。
【0066】すなわち、条件を満たす場合には、図12
に示すように、番号1のノードに接続する番号3のアー
ク(対応するトレリス番号は14)のインノードを、ア
ーク番号1(対応するトレリス番号は13)のインノー
ドと等しくする。上記のアーク及びノードの確定処理
は、このようなインノードの統一化を図りつつ進めら
れ、図13に示すように発話開始の方向へ向けて順次ア
ーク及びノードを確定して行く。
に示すように、番号1のノードに接続する番号3のアー
ク(対応するトレリス番号は14)のインノードを、ア
ーク番号1(対応するトレリス番号は13)のインノー
ドと等しくする。上記のアーク及びノードの確定処理
は、このようなインノードの統一化を図りつつ進めら
れ、図13に示すように発話開始の方向へ向けて順次ア
ーク及びノードを確定して行く。
【0067】一方、同時に展開されたトレリスであって
も上記の条件が満たされない時(すなわち、その音節が
異なったフレームで始まる時)には、別々のインノード
を設定する。例えば、図13に示す番号4のノードに接
続するアークは図10のトレリスグラフから番号2のト
レリスに対応し、この番号2のトレリスはグラフ作成処
理において番号0のトレリスから番号1のトレリスと同
時に展開されたものである。したがって、通常の確定処
理では、図14に破線で示すようなアークができること
になる。しかしながら、これらのトレリス(番号1と番
号2)が示す音節の開始時刻InitFrame(No
deTime(5)−1,1,S)とInitFram
e(NodeTime(4)−1,2,S)が等しくな
い時には、図15に示すように、それぞれのアーク(番
号7と番号8)のインノード(番号6と番号7)は二つ
に分けて確定処理を行う。
も上記の条件が満たされない時(すなわち、その音節が
異なったフレームで始まる時)には、別々のインノード
を設定する。例えば、図13に示す番号4のノードに接
続するアークは図10のトレリスグラフから番号2のト
レリスに対応し、この番号2のトレリスはグラフ作成処
理において番号0のトレリスから番号1のトレリスと同
時に展開されたものである。したがって、通常の確定処
理では、図14に破線で示すようなアークができること
になる。しかしながら、これらのトレリス(番号1と番
号2)が示す音節の開始時刻InitFrame(No
deTime(5)−1,1,S)とInitFram
e(NodeTime(4)−1,2,S)が等しくな
い時には、図15に示すように、それぞれのアーク(番
号7と番号8)のインノード(番号6と番号7)は二つ
に分けて確定処理を行う。
【0068】このようにノードが二つに分けられる場合
には、これらのノードをアウトノードに持つアークも対
応するトレリスを分割する形で確定される。すなわち、
時間的に同期して統合的に行われるグラフ作成処理の過
程では単一のトレリス(認識候補)として扱った場合で
あっても、後戻り処理の過程でその存在区間が異なるア
ーク(認識候補)が複数存在し得る時には、図16に示
すように、これらアークを別々のアークとして有向グラ
フのデータ構造を確定する。このように存在し得る認識
候補に応じてアークを複数に分割することで、音節境界
の違う音節列のスコアを正しく評価することができる。
には、これらのノードをアウトノードに持つアークも対
応するトレリスを分割する形で確定される。すなわち、
時間的に同期して統合的に行われるグラフ作成処理の過
程では単一のトレリス(認識候補)として扱った場合で
あっても、後戻り処理の過程でその存在区間が異なるア
ーク(認識候補)が複数存在し得る時には、図16に示
すように、これらアークを別々のアークとして有向グラ
フのデータ構造を確定する。このように存在し得る認識
候補に応じてアークを複数に分割することで、音節境界
の違う音節列のスコアを正しく評価することができる。
【0069】上記の後戻り処理によるアーク及びノード
の確定処理はスコアの高い経路を選択して行われるた
め、結果として確定される有向グラフは図17に太線で
示すトレリスに対応したスコアの高い部分だけとなり、
更に、この確定処理においてアークのスコアや最適経路
のスコアも求められることから、大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても後の言語処理
等を迅速に行わしめることができる。
の確定処理はスコアの高い経路を選択して行われるた
め、結果として確定される有向グラフは図17に太線で
示すトレリスに対応したスコアの高い部分だけとなり、
更に、この確定処理においてアークのスコアや最適経路
のスコアも求められることから、大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても後の言語処理
等を迅速に行わしめることができる。
【0070】なお、上記の実施例では音節を認識候補の
単位とした例を示したが、本発明は音素や単語を認識候
補の単位とした場合にも勿論適用することができる。ま
た、上記の実施例ではHMM法を用いた例を示したが、
本発明ではDPマッチング法やニューラルネットワーク
法等の他の認識方法を用いることもできる。なお、この
場合には、HMM法のトレリスの代わりに標準パターン
又は単位素子(ニューロン)と未知音声の時間を二軸と
する作業空間を設定し、確率に関する(最大値)演算を
距離に関する(最小値)演算や素子出力に関する(最大
値)演算に置き換える等の変更を行えばよい。
単位とした例を示したが、本発明は音素や単語を認識候
補の単位とした場合にも勿論適用することができる。ま
た、上記の実施例ではHMM法を用いた例を示したが、
本発明ではDPマッチング法やニューラルネットワーク
法等の他の認識方法を用いることもできる。なお、この
場合には、HMM法のトレリスの代わりに標準パターン
又は単位素子(ニューロン)と未知音声の時間を二軸と
する作業空間を設定し、確率に関する(最大値)演算を
距離に関する(最小値)演算や素子出力に関する(最大
値)演算に置き換える等の変更を行えばよい。
【0071】
【発明の効果】以上説明したように、本発明によれば、
従来では困難な課題とされてきた大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても、高速且つ高
精度な音声認識を可能ならしめることができる。特に、
請求項1或いは請求項2の発明によれば、認識候補の系
列を認識する処理と前記有向グラフを生成する処理とを
時間的に同期して統合的に行うようにしたため、有向グ
ラフを高速且つ高精度に作成し、延いては、実時間処理
をも可能ならしめることができる。
従来では困難な課題とされてきた大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても、高速且つ高
精度な音声認識を可能ならしめることができる。特に、
請求項1或いは請求項2の発明によれば、認識候補の系
列を認識する処理と前記有向グラフを生成する処理とを
時間的に同期して統合的に行うようにしたため、有向グ
ラフを高速且つ高精度に作成し、延いては、実時間処理
をも可能ならしめることができる。
【0072】また、請求項3の発明によれば、上記の効
果に加え、有向グラフの認識候補間のノードの確定及び
アーク毎のスコア演算を後戻り処理で行い、当該有向グ
ラフのデータ構造を確定するようにしたため、余分な部
分を削除した利用価値の高い有向グラフを得ることがで
きる。また、請求項4の発明によれば、上記の効果に加
え、有向グラフの作成処理では単一の認識候補として扱
った認識候補であっても、後戻り処理の過程で異なる候
補が存在し得る場合には、これら候補を別々の認識候補
として有向グラフのデータ構造を確定するようにしたた
め、境界の違う認識候補列のスコアを正しく評価するこ
とができる。
果に加え、有向グラフの認識候補間のノードの確定及び
アーク毎のスコア演算を後戻り処理で行い、当該有向グ
ラフのデータ構造を確定するようにしたため、余分な部
分を削除した利用価値の高い有向グラフを得ることがで
きる。また、請求項4の発明によれば、上記の効果に加
え、有向グラフの作成処理では単一の認識候補として扱
った認識候補であっても、後戻り処理の過程で異なる候
補が存在し得る場合には、これら候補を別々の認識候補
として有向グラフのデータ構造を確定するようにしたた
め、境界の違う認識候補列のスコアを正しく評価するこ
とができる。
【0073】また、請求項5の発明によれば、上記の効
果に加え、後戻り処理の過程で最適経路のスコアを求
め、これらスコアを有向グラフ型のデータ構造に保持さ
せるようにしたため、後の言語的処理等を高速且つ高精
度に実現することができる。また、請求項6の発明によ
れば、上記の効果に加え、最適経路のスコアを認識候補
の系列の音響的尤度又は当該音響的尤度と認識候補の連
鎖に関する言語的尤度との組合せにより求めるようにし
たため、後の言語的処理等を種々な条件に応じて高速且
つ高精度に実現することができる。また、請求項7の発
明によれば、音声認識方法を実施して、上記のような有
用な効果を得ることができる。
果に加え、後戻り処理の過程で最適経路のスコアを求
め、これらスコアを有向グラフ型のデータ構造に保持さ
せるようにしたため、後の言語的処理等を高速且つ高精
度に実現することができる。また、請求項6の発明によ
れば、上記の効果に加え、最適経路のスコアを認識候補
の系列の音響的尤度又は当該音響的尤度と認識候補の連
鎖に関する言語的尤度との組合せにより求めるようにし
たため、後の言語的処理等を種々な条件に応じて高速且
つ高精度に実現することができる。また、請求項7の発
明によれば、音声認識方法を実施して、上記のような有
用な効果を得ることができる。
【図1】 本発明の一実施例に係る音声認識装置の構成
図である。
図である。
【図2】 本発明の一実施例に係る音声認識装置の構成
図である。
図である。
【図3】 音節有向グラフの一例を示す概念図である。
【図4】 音節HMMの一例を示す概念図である。
【図5】 トレリスとHMMスコア計算の演算を説明す
る概念図である。
る概念図である。
【図6】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
概念図である。
【図7】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
概念図である。
【図8】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
概念図である。
【図9】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
概念図である。
【図10】 トレリス連鎖が時間的に発展する様子を示
す概念図である。
す概念図である。
【図11】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図12】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図13】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図14】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図15】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図16】 有向グラフの確定経過を説明する概念図で
ある。
ある。
【図17】 有向グラフとして確定されたトレリス連鎖
を説明する概念図である。
を説明する概念図である。
2 音響分析手段、 3 認識グラフ化手段、 4 グ
ラフデータ格納手段、5 後戻り処理手段、 11 モ
デル保持手段、 12 トレリス作成手段、13 演算
手段、 15 トレリス検索手段、 16 ノード確定
手段、17 演算手段、
ラフデータ格納手段、5 後戻り処理手段、 11 モ
デル保持手段、 12 トレリス作成手段、13 演算
手段、 15 トレリス検索手段、 16 ノード確定
手段、17 演算手段、
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/10 301 C
Claims (7)
- 【請求項1】 音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータ構造を用いて表現する音声認識方法にお
いて、前記認識候補の系列を認識する処理と前記有向グ
ラフを生成する処理とを時間的に同期して統合的に行う
ことを特徴とする音声認識方法。 - 【請求項2】 前記有向グラフを生成する処理では隠れ
マルコフモデルを用いて認識候補毎のトレリスを連鎖的
に作成し、前記認識候補の系列を認識する処理ではトレ
リスが示す認識候補の開始時刻とトレリスの連鎖に沿っ
た累積スコアを求めることを特徴とする請求項1に記載
の音声認識方法。 - 【請求項3】 前記時間的に同期して統合的に行われる
認識候補の系列の認識処理と有向グラフの生成処理とが
発話の区切りに到達した後、有向グラフの認識候補間の
ノードの確定及びアーク毎のスコア演算を有向グラフの
発話の区切り側から発話の開始側へ向う後戻り処理で順
次行い、当該有向グラフのデータ構造を確定することを
特徴とする請求項1又は請求項2に記載の音声認識方
法。 - 【請求項4】 前記時間的に同期して統合的に行われる
処理の過程では単一の認識候補として扱った認識候補で
あっても、前記後戻り処理の過程でその存在区間が異な
る候補が複数存在し得る場合には、これら候補を別々の
認識候補として有向グラフのデータ構造を確定すること
を特徴とする請求項3に記載の音声認識方法。 - 【請求項5】 前記後戻り処理の過程で、発話開始に対
応するノードから有向グラフ中の各ノードまでの最適経
路のスコアと、有向グラフ中の各ノードから発話の区切
りに対応するノードまでの最適経路のスコアとを求め、
これらスコアを有向グラフ型のデータ構造に保持させる
ことを特徴とする請求項3又は請求項4に記載の音声認
識方法。 - 【請求項6】 前記最適経路のスコアが、認識候補の系
列の音響的尤度、又は当該音響的尤度と認識候補の連鎖
に関する言語的尤度との組合せにより求められているこ
とを特徴とする請求項5に記載の音声認識方法。 - 【請求項7】 音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータとして構成する音声認識装置において、 入力された音声信号を分析して特徴パラメータ系列を得
る音響分析手段と、音響モデル及び音響モデルの連鎖に
関するモデルを保持するモデル保持手段と、特徴パラメ
ータ系列に対して前記モデルを用いて認識候補に対応す
るトレリスを生成するトレリス作成手段と、トレリスに
対する累積スコア及び開始時刻を時間的に同期して演算
する演算手段と、トレリスに対応して累積スコア及び開
始時刻を格納するグラフデータ格納手段と、前記グラフ
データ格納手段に格納されている開始時刻及び累積スコ
アに基づいて認識候補間のノードの確定及び認識候補に
対応するアーク毎のスコア演算を行う後戻り処理手段
と、を備え、 前記トレリス作成手段は更に前記演算手段の演算結果に
基づいて後続するトレリスを順次同期して作成し、 前記後戻り処理手段は発話の区切りまで前記累積スコア
及び開始時刻が前記グラフデータ格納手段に格納された
ところで前記処理を行って当該処理結果をグラフデータ
格納手段に格納することを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7024521A JPH08202384A (ja) | 1995-01-20 | 1995-01-20 | 音声認識方法及び装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7024521A JPH08202384A (ja) | 1995-01-20 | 1995-01-20 | 音声認識方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08202384A true JPH08202384A (ja) | 1996-08-09 |
Family
ID=12140478
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7024521A Pending JPH08202384A (ja) | 1995-01-20 | 1995-01-20 | 音声認識方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08202384A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007233148A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 発話区間検出装置及び発話区間検出プログラム |
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP2015121709A (ja) * | 2013-12-24 | 2015-07-02 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
-
1995
- 1995-01-20 JP JP7024521A patent/JPH08202384A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP2007233148A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 発話区間検出装置及び発話区間検出プログラム |
| JP2015121709A (ja) * | 2013-12-24 | 2015-07-02 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
| US5515475A (en) | Speech recognition method using a two-pass search | |
| US6243679B1 (en) | Systems and methods for determinization and minimization a finite state transducer for speech recognition | |
| JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
| Kenny et al. | A*-admissible heuristics for rapid lexical access | |
| JPWO2001065541A1 (ja) | 音声認識装置及び音声認識方法、並びに記録媒体 | |
| JP2002082689A (ja) | 語彙ツリーを用いた認識システム | |
| JPH10105189A (ja) | シーケンス取出し方法及びその装置 | |
| Ney | A comparative study of two search strategies for connected word recognition: Dynamic programming and heuristic search | |
| JPH08202384A (ja) | 音声認識方法及び装置 | |
| JPH08248980A (ja) | 音声認識装置 | |
| JP3440840B2 (ja) | 音声認識方法及びその装置 | |
| US20040148163A1 (en) | System and method for utilizing an anchor to reduce memory requirements for speech recognition | |
| JPH06266386A (ja) | ワードスポッティング方法 | |
| JP3559479B2 (ja) | 連続音声認識方法 | |
| JP3873418B2 (ja) | 音声スポッティング装置 | |
| JP3369121B2 (ja) | 音声認識方法および音声認識装置 | |
| JPH10161693A (ja) | 音声認識方法および装置 | |
| JP3583299B2 (ja) | 連続音声認識用の探索装置および連続音声認識用の探索方法 | |
| JP3818154B2 (ja) | 音声認識方法 | |
| JPH10198392A (ja) | 音声認識方法 | |
| JPH0962290A (ja) | 音声認識装置 | |
| JPH08221090A (ja) | 音声認識方法 | |
| JPH08123479A (ja) | 連続音声認識装置 | |
| JPH11272288A (ja) | 連続音声認識装置 |