JPH0632014B2

JPH0632014B2 - 単語検出方式

Info

Publication number: JPH0632014B2
Application number: JP61307047A
Authority: JP
Inventors: 香一郎畑崎
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1986-12-22
Filing date: 1986-12-22
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS63158597A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は単語検出装置に関し、特に音声認識、音声入力
装置等において入力音声中に含まれる単語を検出する単
語検出装置に関する。

（従来の技術）音声認識装置、音声入力装置等においては、入力音声中
の単語を検出する方法のひとつとして、入力音声を音
節、音素、音素クラスのカテゴリの列と見なし、入力音
声から検出したカテゴリを用いて作成したカテゴリ列が
単語辞書に記憶されている単語のカテゴリ列に対応すれ
ばその単語を検出結果とするという方法がある。

一般に、上述したカテゴリは、その発声時間長が短いこ
とや類似するカテゴリが存在することなどから、入力音
声中から正しいカテゴリだけを誤りなく検出することが
困難である。そこで従来から、入力音声中の各カテゴリ
区間に対して複数個のカテゴリ候補を検出したのち、単
語辞書を参照して単語に対応するカテゴリ候補列を見つ
けるという方法を用いている。しかしながらこの場合に
も、発声のなまけや隣接するカテゴリ例えば音節どうし
の調音結合等の原因によって、あるカテゴリ区間の存在
が検出できなかったり、あるいはカテゴリ区間に正しい
カテゴリ候補が検出できない場合がある。

そこで、特願昭６１−１９０２５８，１９０２５９，１
９０２６０，１９０２６１の「単語検出方式」に述べら
れている方式のように、入力音声中のカテゴリ候補を検
出したのち単語辞書中の単語のカテゴリ並びに従ってカ
テゴリ候補を選択するとともに、単語中のあるカテゴリ
が検出されなかった場合にはその前後のカテゴリに対応
するカテゴリ候補を手掛かりにして単語のカテゴリ列に
対応するカテゴリ候補列を見つけている。また、対応す
るカテゴリ候補列が見つかった単語については、そのカ
テゴリ候補列のスコアを計算して単語のスコアとすると
いう手段をとっている。

一方、多数の単語のうちからスコアの良い単語を選択す
る場合には、それぞれの単語について個別に上述の方法
で対応するカテゴリ候補列及びスコアを求めるとする
と、特に単語辞書中の単語数が多い場合には多大な計算
量を必要とし現実的でない。

そこで、スコアの良いカテゴリ候補列を優先して求める
ことにより、すべての単語について対応するカテゴリ候
補列を求めることなく、スコアの良い単語を求めるよう
にしている。すなわち、単語のカテゴリ列をその始端か
ら辿ってその途中までの一部分に対応するカテゴリ候補
列を求めたうえそこまでのカテゴリ候補列のスコアを求
める。そして、各時点でもっともスコアの良いカテゴリ
候補列を選び、それに対応するカテゴリ列をさらに先に
辿る。この処理を繰り返しつつある単語の終端に達した
ときにその単語を結果として出力する。この結果、スコ
アの良いカテゴリ候補列に対応する単語が優先して求め
られることになる。

ここで、カテゴリ候補列のスコアとしてはそのカテゴリ
候補列を構成するカテゴリ候補のスコアの平均値が与え
られることが常である。

（発明が解決しようとする問題点）上述のように、カテゴリ列の始端から途中までに対応す
るカテゴリ候補列のスコアをそのカテゴリ候補列を構成
するカテゴリ候補のスコアの平均値から求めた場合、正
しい単語のカテゴリ列の始端に近いカテゴリに対応する
候補のスコアが他の候補に比べて大幅に悪いときにはそ
の単語がなかなか検出されないことが多いという欠点が
ある。

第３図は入力音声から抽出された音声候補の一例を示す
説明図である。例えば、カテゴリとして音節を用い、
「ザイセイ」という音声が入力されたときにその各音節
に対して第３図に示されるような音節候補が得られたと
する。ここで、各音節候補に記されている数字はその音
節候補のスコアで、その値が小さいほど良い、すなわち
より信頼できるとする。このとき、単語「セイゲン（制
限）」、「ザイゲン（財源）」、「ゼイセイ（税
制）」、「ザイセイ（財政）」の各単語に対応する音節
候補列を第３図の音節候補を用いて作成するとそのスコ
アは、セイゲン：（３＋７＋８＋４）／４＝５．５ザイゲン：（８＋７＋８＋４）／４＝６．７５ゼイセイ：（１２＋７＋１＋１）／４＝５．２５ザイセイ：（８＋７＋１＋１）／４＝４．２５となり、正しい単語である「ザイセイ」のスコアが最も
小さく、従って最も良いスコアとなる。ところが、これ
らの各単語の音節列の始端から途中までの、長さがｎ
（ｎ＝１，２，３，４）の部分音節列に対応する音節候
補列のスコアを、同じく各音節候補のスコアの平均値と
して求めると、次のようになる。

セ：３／１＝３セイ：（３＋７）／２＝５セイゲ：（３＋７＋８）／３＝６セイゲン：（３＋７＋８＋４）／４＝５．５ザ：８／１＝８ザイ：（８＋７）／２＝７．５ザイゲ：（８＋７＋８）／３＝７．６６ザイゲン：（８＋７＋８＋４）／４＝６．７５ゼ：１２／１＝１２ゼイ：（１２＋７）／２＝９．５ゼイセ：（１２＋７＋１）／３＝６．６６ゼイセイ：（１２＋７＋１＋１）／４＝５．２５ザ：８／１＝８ザイ：（８＋７）／２＝７．５ザイセ：（８＋７＋１）／３＝５．３３ザイセイ：（８＋７＋１＋１）／４＝４．２５従って、上述のようにスコアの最も良い音節候補列を選
びながら音節列を辿るとすると、上の４単語の音節列は
次の順序で辿られることになる。ここで、コロン（：）
右側に記す数字はその音節列に対応する音節候補列のス
コアである。

まず、この４単語の各々の先頭の音節に対応する音節候
補列を求める。

セ：３ザ：８ザ：８ゼ：１２次に、この中でスコアのもっとも良い（小さい）音節候
補列を選び先に辿るという処理を繰り返す。すると、以
下の順序で音節候補列が作成される。

セイ：５セイゲ：６セイゲン：５．５ザイ：７．５ザイゲ：７．６６ザイゲン：６．７５ザイ：７．５ザイセイ：４．２５このように、単語「セイゲン」、「ザイゲン」の音節列
を辿り終えてから、初めて単語「ザイセイ」の音節列を
得ることにより、誤った単語「制限」、「財源」が正し
い単語「財政」よりも先に検出されてしまう。これは
「ザイセイ」の先頭の「ザ」に対応する音節候補のスコ
ア８と悪いために、８よりも良いスコアの音節候補列が
なくなるまで「ザイゲン」の「ザ」が選ばれないことに
起因する。

本発明の目的は、上述した欠点を除去し、このように正
しい単語のカテゴリ列の始端に近いカテゴリに対応する
候補のスコアが他の候補に比べて大幅に悪いときにも正
しい単語をより先にかつ少ない処理量で検出することを
可能にする単語検出方式を提供することにある。

（問題点を解決するための手段）本発明の単語検出方式は、音節、音素、音素クラス等の
カテゴリの列である入力音声から複数個のカテゴリ候補
およびこれらカテゴリ候補の検出評価における信頼度の
尺度としてのスコアの位置情報とを抽出するとともに単
語辞書に記憶されている単語のカテゴリ列を辿りながら
単語のカテゴリ列に対応するカテゴリ候補列を求めるこ
とによって入力音声中の単語を検出する単語検出方式に
おいて、ｎ個のカテゴリ候補からなるカテゴリ候補列の
スコアをｎがあらかじめ定めた数Ｎ以上のときにはｎ個
のカテゴリ候補のスコアの平均値を用いて算出しｎがＮ
未満のときにはｎ個のカテゴリ候補にｎおよびＮに依存
しあらかじめ設定する関数としての個数ｍ個の仮想的な
カテゴリ候補を加えた（ｎ＋ｍ）個のカテゴリ候補のス
コアの平均値を用いて算出して常にこのスコアが最も良
いカテゴリ候補列を求めるように前記単語辞書中の単語
のカテゴリ列を辿る手段を備えて構成される。

（作用）上述の例においては、音節列「ザイセイ」に対応する音
節候補列のスコアは４．２５と他の単語のスコアよりも
良いのにもかかわらず、その先頭の音節「ザ」に対応す
る音節候補のスコアが８と悪い。一方、音節列「セイゲ
ン」に対応する音節候補列のスコアは５．５と単語「ザ
イセイ」よりも悪いが、その先頭の音節「セ」に対応す
る音節候補のスコアは３と単語「ザイセイ」の先頭の音
節候補のスコアよりも良くなっている。

このように、単語全体のカテゴリ列に対応するカテゴリ
候補列から算出したスコアとしてはその単語の信頼性を
正しく評価しているが、従来技術では単語の一部分のカ
テゴリ列に対応するカテゴリ候補列だけから算出したス
コアを単語のスコアとして扱っているために、その一部
分に偶然悪いスコアのカテゴリ候補が含まれている場合
にその単語のスコアが悪くなってしまう。

一方、単語の一部分のカテゴリ列にしか対応するカテゴ
リ候補列が定まっていない段階では、単語全体のカテゴ
リ列に対応するカテゴリ候補列のスコアを用いることは
できない。

そこで本発明の方法では、単語のカテゴリ列中のカテゴ
リのうち、まだ対応するカテゴリ候補が定まっていない
カテゴリに対しては、ある平均的なスコアを持つカテゴ
リ候補を仮想する。すなわち、カテゴリ候補列のスコア
を求める際に、その長さｎがあらかじめ定めた長さＮよ
りも短い場合には、そのカテゴリ候補列は単語の一部分
のカテゴリ列に対応するものであると判断し、ｎ及びＮ
に依存するしあらかじめ設定する関数としての個数のカ
テゴリ候補を仮想する。この結果、対応するカテゴリ候
補列の一部分に悪いスコアのカテゴリ候補が含まれてい
た場合にも、仮想されたカテゴリ候補列のスコアによっ
て平均化されることにより、単語のスコアはそれほど悪
くならない。従って、その単語に対応するカテゴリ候補
列をすばやく求めることができる。

（実施例）次に図面を参照して本発明を詳細に説明する。

第１図は本発明の一実施例を示すブロック図である。第
１図に示す実施例では日本語の音声が入力されるものと
し、またカテゴリとしては音節を用いている。

音節候補抽出部１０１は入力音声中の音節候補を検出
し、その候補をそのスコアの入力音声中での位置ととも
に音節候補記憶部１０２に記憶する。

第２図は音節候補抽出部１０１の一例を示すブロック図
である。第２図において、入力音声は音声パッファ２０
１に一旦格納される。まず、母音候補検出部２０２が音
声バッファ２０１に格納された音声中の母音候補を検出
し母音候補記憶部２０３に格納する。母音候補の検出は
母音パタン記憶部２０４にあらかじめ格納されている各
母音の音声標準パタンと入力音声の各区間とを照合する
ことによって行われる。母音の音声信号は比較的定常で
あるので検出は容易ある。各母音は少なくとも母音名の
ほか、入力音声中での位置の情報を保持している。

母音候補の検出が終了した後、子音候補検出部２０５に
よって子音候補が次に述べるようにして検出される。日
本語においては、音節は子音（Ｃ）−母音（Ｖ）の組で
ある。従って入力音声中では、２個の母音に挾まれた区
間のうちのある時間長以下の区間（以下これをＶＣＶ区
間と呼ぶ）及び入力音声の始端からある時間長以内にあ
る区間（以下これをＣＶ区間と呼ぶ）までの各に１個の
子音が存在するといえる。子音候補検出部２０４は母音
候補検出部２０３に記憶されている母音候補から作られ
るすべてのＶＣＶ区間及びＣＶ区間の各々に対して、あ
らかじめ子音パタン記憶部２０６に記憶されているＶＣ
Ｖ及びＣＶ標準音声パタンとの照合を行い、類似度の高
い複数個の音声パタンの名前を子音候補とする。以上で
決定された母音候補と子音候補とを組み合わせて音節候
補とし、入力音声中での位置と共に音節候補記憶部１０
２に記憶する。

例として、「ザイセイ（財政）」という音声が入力され
たとする。この場合、音節認識結果として例えば第３図
に示されるような音節候補が抽出される。第３図におい
ては、各音節区間に複数個の音節候補が抽出されてお
り、各音節候補に記されている数字がその候補のスコア
である。

単語記憶部１０３には検出すべき単語の音節列が記憶さ
れている。いま、単語記憶部１０３には「セイゲン（制
限）」、「ザイゲン（財源）」、「ゼイセイ（税制）」
「ザイセイ（財政）」の４単語が記憶されているとす
る。

音節候補列生成部１０４は、まず、単語記憶部１０３の
各単語の先頭に対応する音節候補を音節候補記憶部１０
２に記憶されている音節候補から選し、各々を長さ１の
音節候補列とする。次にスコア計算部１０５によってそ
れぞれの音節候補列のスコアを計算する。本実施例で
は、Ｎ＝４とし、ｎおよびＮに依存してあらかじめ設定
する関数としてのｍは、ｍ＝Ｎ−ｎを利用し、仮想する
音節候補のスコアは１としている。

例えば、単語「セイゲン」の先頭の音節「セ」に対応す
る音節候補セ「３」だけからなる音節候補列のスコア
は、この音節候補と３個のスコア１の仮想的な音節候補
の計４個の音節候補のスコアの平均値であるから、（３
＋１＋１＋１）／４＝１．５となる。

これらの音節候補列は、そのスコアと対応する単語と共
に、音節候補列記憶部１０６に記憶される。この結果、
音節候補列記憶部１０６には、セ：１．５「セイゲン」ザ：２．７５「ザイゲン」ゼ：３．７５「ゼイセイ」ザ：２．７５「ザイセイ」の４個の音節候補列が記憶されている。ここで「」の
中は対応する単語である。

次に、音節候補列選択部１０７は、音節候補列記憶部１
０６中の音節候補列のうち、もっともスコアの良い、即
ちその値の小さい音節候補列を取り出し、その音節候補
列及び単語を音節候補列生成部１０４に送る。音節列候
補列生成部１０４は受け取った音節候補列を、単語の音
節列に従って更に延長し、改めてそのスコアをスコア計
算部１０５で計算した後、音節候補列記憶部１０６に記
憶する。

いまの場合、セ：１．５「セイゲン」が取り出され、新たに、セイ：３「セイゲン」が音節列記憶部１０６に記憶される。この結果、音節候
補列記憶部１０６には、ザ：２．７５「ザイゲン」ゼ：３．７５「ゼイセイ」：２．７５「ザイセイ」セイ：３「セイゲン」が記憶されている。従って次に、この中でもっとも良い
スコアを持つ音節候補列である、ザ：２．７５「ザイゲン」が取り出される。

以上の処理を繰り返すと、次に示す音節候補列が作られ
ていく。

ザイ：４．２５「ザイゲン」ザイ：４．２５「ザイセイ」セイゲ：４．７５「セイゲ」ザイゲ：６「ザイゲン」ザイセ：４．２５「ザイセイ」ザイセイ：４．２５「ザイセイ」ここで、音節候補列は単語「ザイセイ」の終端に達し
ているので、音節候補列選択部１０７はこの単語を検出
結果として出力する。

このように、正しい単語「ザイセイ」が最初に検出され
る。しかも従来の方法では前述のように１３の音節候補
を作成した段階で「ザイセイ」が検出されたのに対し
て、本発明の方法では１１個の音節候補列を作成した段
階で検出されている。

以上、本発明の一実施例を説明した。この実施例では説
明を簡単にするために音節認識の段階で音節認識誤りが
起こらなかった場合、すなわち入力されたすべての音節
に対して少なくとも正しい音節候補が抽出された場合に
ついて述べたが、音節認識誤りが生じた場合にも、前述
した特願昭６１−１９０２５８，１９０２５９，１９０
２６０，１９０２６１の「単語検出方式」に述べられて
いる方式を用いることによって、上記実施例と同様に効
率よく正しい単語を検出することができる。

なお、検出対象の単語が多数存在するときには、それら
の単語を木構造形式で表現することにより、すなわち音
節を節点とし、根節点から葉節点までの節点列が各の単
語の音節列を表わすことが一般的であるが、その場合に
も各の音節列についてみれば、本発明の方法を適用する
と上記の実施例と同様の結果となる。

（発明の効果）以上説明したように本発明によれば、正しい単語のカテ
ゴリ列の始端に近いカテゴリに対応する候補のスコアや
他の候補に比べて大幅に悪いときにも、正しい単語を他
の単語よりも先に検出し、しかも生成されるカテゴリ候
補列の数が少なく、効率の良い単語検出を行うことが可
能となる単語検出方式が実現できるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図の実施例における音節候補抽出部の一例を示すブ
ロック図、第３図は入力音声から抽出された音節候補の
一例を示す説明図である。１０１……音節候補抽出部、１０２……音節候補記憶
部、１０３……単語記憶部、１０４……音節候補列生成
部、１０５……スコア計算部、１０６……音節候補列記
憶部、１０７……音節候補列選択部、２０１……音声バ
ッファ、２０２……母音候補検出部、２０３……母音候
補記憶部、２０４……母音パタン記憶部、２０５……子
音候補検出部、２０６……子音パタン記憶部。

Claims

【特許請求の範囲】

【請求項１】音節、音素、音素クラス等のカテゴリの列
である入力音声から複数個のカテゴリ候補およびこれら
カテゴリ候補の検出評価における信頼度の尺度としての
スコアと位置情報とを抽出するとともに単語辞書に記憶
されている単語のカテゴリ列を辿りながら単語のカテゴ
リ列に対応するカテゴリ候補列を求めることによって入
力音声中の単語を検出する単語検出方式において、ｎ個のカテゴリ候補からなるカテゴリ候補列のスコアを
ｎがあらかじめ定めた数Ｎ以上のときにはｎ個のカテゴ
リ候補のスコアの平均値を用いて算出しｎがＮ未満のと
きにはｎ個のカテゴリ候補にｎおよびＮに依存しあらか
じめ設定する関数としての個数ｍ個の仮想的なカテゴリ
候補を加えた（ｎ＋ｍ）個のカテゴリ候補のスコアの平
均値を用いて算出して常にこのスコアが最も良いカテゴ
リ候補列を求めるように前記単語辞書中の単語のカテゴ
リ列を辿る手段を備えて成ることを特徴とする単語検出
方式。