JPH0632015B2

JPH0632015B2 - 単語検出装置

Info

Publication number: JPH0632015B2
Application number: JP61307048A
Authority: JP
Inventors: 香一郎畑崎
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1986-12-22
Filing date: 1986-12-22
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS63158598A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は単語検出装置に関し、特に音声認識、音声入力
装置等において入力音声中に含まれる単語を検出する単
語検出装置に関する。

（従来の技術）音声認識装置、音声入力装置等においては、入力音声中
の単語を検出する方法のひとつとして、入力音声を音
節、音素、音素クラス等のカテゴリの列と見なし、入力
音声から検出したカテゴリを用いて作成したカテゴリ列
が、単語辞書に記憶されている単語のカテゴリ列に対応
すれば、その単語を検出結果とするという方法がある。

一般に上述したカテゴリは、その発声時間長が短いこと
や類似するカテゴリが存在することなどから、入力音声
中から正しいカテゴリだけを誤りなく検出することは困
難である。そこで従来から、入力音声中の各カテゴリ区
間に対して複数個のカテゴリ候補を検出したのち、単語
辞書を参照して、単語に対応するカテゴリ候補列を見つ
けるという方法を用いている。しかしながらこの場合に
も、発声のなまけや隣接するカテゴリ例えば音節どうし
の調音結合等の原因によって、あるカテゴリ区間の存在
が検出できなかったり、あるカテゴリ区間に正しいカテ
ゴリ候補が検出できない場合がある。

そこで、特願昭６１−１９０２５８，１９０２５９，１
９０２６０，１９０２６１の「単語検出方式」に述べら
れている方式のように、入力音声中のカテゴリ候補を検
出したのち単語辞書中の単語のカテゴリ並びに従ってカ
テゴリ候補を選択するとともに、単語中のあるカテゴリ
が検出されなかった場合にはその前後のカテゴリに対応
するカテゴリ候補を手掛かりにして、単語のカテゴリ列
に対応するカテゴリ候補列を見つけ、また、対応するカ
テゴリ候補列が見つかった単語についてはそのスコアを
計算するという手段をとっている。

一方、多数の単語のうちからスコアの良い単語を選択す
る場合に、それぞれの単語について個別に上述の方法で
対応するカテゴリ候補列及びスコアを求めるとすると、
特に単語辞書中の単語数が多い場合には多大な計算量を
必要とし現実的でない。

そこで、通常、多数の単語のカテゴリ列をいわゆるツリ
ー（tree）構造で表現する木構造形式の単語辞書を用い
る。このような単語辞書では、節点間の枝がカテゴリに
対応し、木の根節点から葉節点に至る枝列すなわちカテ
ゴリ列のそれぞれが単語のカテゴリ列を表す。また、複
数個の単語が同じカテゴリ列で始まるときには、その同
じカテゴリ列は木の上で共有され、これによって、同じ
カテゴリ列を何度も辿る必要がなくなる。

また、木の根節点から途中節点まで辿り終えたカテゴリ
列のそれぞれになんらかの基準で検出評価における信頼
度の尺度としてのスコアを与え、常に、スコアの良いす
なわち信頼度の高いカテゴリ列を選択して更に先に辿る
ことにより、最終的にスコアの良いカテゴリ列に対応す
る単語を得ることができる。この方法は一般に、最良優
先探索法として呼ばれている。

この方法によれば、すべての単語のカテゴリ列を辿るこ
となくスコアの良いカテゴリ列に対応する単語を求める
ことができる。この場合、カテゴリ列のスコアとして
は、そのカテゴリ列に対応するカテゴリ候補列中のカテ
ゴリ候補のスコアの平均値が与えられることが常であ
る。

（発明が解決しようとする問題点）上述のようにカテゴリ列のスコアを対応するカテゴリ候
補列中のカテゴリ候補のスコアの平均値から求めた場合
には、正しい単語のカテゴリ列の始端に近いカテゴリに
対応する候補のスコアが他の候補に比べて大幅に悪いと
きは、その単語がなかなか検出されないという欠点があ
る。

第３図は入力音声から抽出された音声候補の一例を示す
説明図である。例えば、第３図に示す如くカテゴリとし
て音節を用い、「ザイセイ」という音声が入力されたと
きにその各音節に対してそれぞれ音節候補が得られたと
する。ここで、各音節候補に記されている数字はその音
節候補のスコアで、その値が小さいほど良い、すなわち
より信頼できるとする。このとき、単語「セイゲン（制
限）」、「ザイゲン（財源）」、「ゼイセイ（税
制）」、「ザイセイ（財政）」の各単語に対応する音節
候補列を第３図の音節候補を用いて作成するとそのスコ
アは、セイゲン：（３＋７＋８＋４）／４＝５．５ザイゲン：（８＋７＋８＋４）／４＝６．７５ゼイセイ：（１２＋７＋１＋１）／４＝５．２５ザイセイ：（８＋７＋１＋１）／４＝４．２５となり、正しい単語である「ザイセイ」のスコアが最も
小さく、従って最も良いスコアとなる。ところが、これ
らの各単語の音節列の始端から途中までの、長さがｎ
（ｎ＝１，２，３，４）の部分音節列のスコアを、上述
のように対応する音節候補列中の音節候補のスコアの平
均値として求めると、次のようになる。

セ：３／１＝３セイ：（３＋７）／２＝５セイゲ：（３＋７＋８）／３＝６セイゲン：（３＋７＋８＋４）／４＝５．５ザ：８／１＝８ザイ：（８＋７）／２＝７．５ザイゲ：（８＋７＋８）／３＝７．６６ザイゲン：（８＋７＋８＋４）／４＝６．７５ゼ：１２／１＝１２ゼイ：（１２＋７）／２＝９．５ゼイセ：（１２＋７＋１）／３＝６．６６ゼイセイ：（１２＋７＋１＋１）／４＝５．２５ザ：８／１＝８ザイ：（８＋７）／２＝７．５ザイセ：（８＋７＋１）／３＝５．３３ザイセイ：（８＋７＋１＋１）／４＝４．２５このように、正しい単語「ザイセイ」の先頭の音節
「ザ」だけからなる音節列のスコアは、単語「セイゲ
ン」、「ザイゲン」のどの部分音節列のスコアよりも良
くない。すなわち、単語「セイゲン」、「ザイゲン」の
カテゴリ列を辿り終えたあとで初めて正しい単語「ザイ
セイ」のカテゴリ列が辿られることになりこのぶん正し
い単語の検出が遅れることになる。

本発明の目的は、上述した欠点を除去し、正しい単語の
カテゴリ列の始端に近いカテゴリに対応する候補のスコ
アが他の候補に比べて大幅に悪い場合でも正しい単語を
より早くかつ少ない処理量で検出することを可能にする
単語検出装置を提供することにある。

（問題点を解決するための手段）本発明の単語検出装置は、音節、音素、音素クラス等の
カテゴリの列である入力音声から複数個のカテゴリ候補
およびカテゴリ候補の検出評価における信頼度の尺度と
してのスコアの位置情報とを抽出して記憶するカテゴリ
候補抽出手段と、節点間の枝がカテゴリに対応し根節点
から葉節点までの枝列としてのカテゴリ列を検出対象の
単語のカテゴリ列として木構造形式の単語辞書と、前記
単語辞書に含まれる少なくとも１個のカテゴリからなる
カテゴリとこれに対応するカテゴリ候補列との組を少な
くとも１個格納するカテゴリ列記憶手段と、前記カテゴ
リ列記憶手段中のカテゴリ列のスコアを対応するカテゴ
リ候補列中のカテゴリ候補の数ｎがあらかじめ定めた数
Ｎ以上のときにはｎ個のカテゴリ候補のスコアの平均値
を用いて算出しｎがＮ未満のときにはｎ個のカテゴリ候
補にｎおよびＮに依存しあらかじめ設定する関数として
の個数ｍ個の仮想的なカテゴリ候補を加えた（ｎ＋ｍ）
個のカテゴリ候補のスコアの平均値を用いて算出するス
コア計算手段と、前記カテゴリ列記憶手段に記憶されて
いるカテゴリ列のうちで最もスコアの良いカテゴリ列と
これに対応するカテゴリ候補列とを取り出し前記最もス
コアの良いカテゴリ列が単語辞書の葉節点に達している
場合にはそのカテゴリ列に対応する単語を検出結果とし
て出力するとともに単語辞書の葉節点に達してない場合
にはそのカテゴリ列とカテゴリ候補列とを未検出結果と
して出力するカテゴリ選択手段と、前記カテゴリ候補選
択手段から未検出結果を受取ってカテゴリ列の終端の節
点から単語辞書をさらに辿りより長いカテゴリ列とこれ
に対応するカテゴリ候補列の組を１個以上生成したうえ
それらを前記カテゴリ列記憶手段に追加するカテゴリ列
生成手段とを有することを特徴とする。

（作用）上述の例においては、音節列「ザイセイ」に対応する音
節候補列のスコアは４．２５と他の単語のスコアよりも
良いのにもかかわらず、その先頭の音節「ザ」に対応す
る音節候補のスコアが８と悪い。一方、音節列「セイゲ
ン」に対応する音節候補列のスコアは５．５と単語「ザ
イセイ」よりも悪いが、その先頭の音節「セ」に対応す
る音節候補のスコアは３と単語「ザイセイ」の先頭の音
節候補のスコアよりも良くなっている。

このように、単語全体のカテゴリ列に対応するカテゴリ
候補列全体のスコアから算出したスコアとしてはその単
語の信頼性を正しく評価しているが、従来技術では単語
の一部分のカテゴリ列に対応するカテゴリ候補列だけか
ら算出したスコアを単語のスコアとして扱っているため
に、その一部分に偶然悪いスコアのカテゴリ候補が含ま
れている場合にその単語のスコアが悪くなってしまう。

一方、単語の一部分のカテゴリ列にしか対応するカテゴ
リ候補列が定まっていない段階では、単語全体のカテゴ
リ列に対応するカテゴリ候補列のスコアを用いることは
できない。

そこで本発明の方法では、単語のカテゴリ列中のカテゴ
リのうち、まだ対応するカテゴリ候補が定まっていない
カテゴリに対しては、ある平均的なスコアを持つカテゴ
リ候補を仮想する。すなわち、カテゴリ候補列のスコア
を求める際に、その長さｎがあらかじめ定めた長さＮよ
りも短い場合には、そのカテゴリ候補列は単語の一部分
のカテゴリ列に対応するものであると判断し、ｎおよび
Ｎに依存する個数ｍ個のカテゴリ候補を仮想する。この
結果、対応するカテゴリ候補列の一部分に悪いスコアの
カテゴリ候補が含まれていた場合にも、仮想されたカテ
ゴリ候補列のスコアによって平均化されることにより、
単語のスコアはそれほど悪くならないという手法をとっ
ている。従って、その単語に対応するカテゴリ候補列を
すばやく求めることができる。

例えば、Ｎ＝４とし、ｎおよびＮに依存しあらかじめ設
定する関数としてのｍは、ｍ＝Ｎ−ｎ、また仮想的な音
節候補のスコアを１とすると、上述の例における各単語
の部分的なカテゴリ例のスコアは次のようになる。

セ：（３＋１＋１＋１）／４＝１．５セイ：（３＋７＋１＋１）／４＝３セイゲ：（３＋７＋８＋１）／４＝４．７５セイゲン：（３＋７＋８＋４）／４＝５．５ザ：（８＋１＋１＋１）／４＝２．７５ザイ：（８＋７＋１＋１）／４＝４．２５ザイゲ：（８＋７＋８＋１）／４＝６ザイゲン：（８＋７＋８＋４）／４＝６．７５ゼ：（１２＋１＋１＋１）／４＝３．７５ゼイ：（１２＋７＋１＋１）／４＝５．２５ゼイセ：（１２＋７＋１＋１）／４＝５．２５ゼイセイ：（１２＋７＋１＋１）／４＝５．２５ザ：（８＋１＋１＋１）／４＝２．７５ザイ：（８＋７＋１＋１）／４＝４．２５ザイセ：（８＋７＋１＋１）／４＝４．２５ザイセイ：（８＋７＋１＋１）／４＝４．２５従って、このスコアの順に音節列を辿ると、次の順に辿
ることになる。ここで「」内は対応する単語である。

セ：１．５「セイゲン」ザ：２．７５「ザイゲン」ザ：２．７５「ザイセイ」セイ：３「セイゲン」ザイ：４．２５「ザイゲン」ザイ：４．２５「ザイセイ」セイゲ：４．７５「セイゲン」ザイゲ：６「ザイゲン」ザイセ：４．２５「ザイセイ」ザイセイ：４．２５「ザイセイ」このように、正しい単語「ザイセイ」のカテゴリ列を最
初に辿り終えることができる。また、辿るべきカテゴリ
の数も少なくなる。

（実施例）次に、図面を参照しつつ本発明を詳細に説明する。

第１図は本発明の一実施例を示すブロック図である。第
１図に示す実施例では日本語の音声が入力されるものと
し、またカテゴリとして音節を用いる。

音節候補抽出部１０１は入力音声中の音節候補を検出
し、その候補をそのスコアと入力音声中での位置ととも
に音節候補記憶部１０２に記憶する。

第２図は音節候補抽出部１０１の一例を示すブロック図
である。第２図において、入力音声は音声バッファ２０
１に一旦格納される。まず、母音候補検出部２０２が音
声バッファ２０１に格納された音声中の母音候補を検出
し母音候補記憶部２０３に格納する。母音候補の検出
は、母音パタン記憶部２０４にあらかじめ格納されてい
る各母音の音声標準パタンと入力音声の各区間とを照合
することによって行われる。母音の音声信号は比較的定
常であるので検出は容易である。各母音は、少なくとも
母音名のほか、入力音声中での位置の情報を保持してい
る。

母音候補の検出が終了した後、子音候補検出部２０５に
よって子音候補が次に述べるようにして検出される。日
本語においては、音節は子音（Ｃ）−母音（Ｖ）の組で
ある。従って入力音声中では、２個の母音に挾まれた区
間のうちのある時間長以下の区間（以下これをＶＣ区間
と呼ぶ）及び入力音声の始端からある時間長以内にある
区間（以下これをＣＶ区間と呼ぶ）までの各に１個の子
音が存在するといえる。子音候補検出部２０４は母音候
補記憶部２０３に記憶されている母音候補から作られる
すべてのＶＣＶ区間及びＣＶ区間の各々に対して、あら
かじめ子音パタン記憶部２０６に記憶されているＶＣＶ
及びＣＶ標準音声パタンとの照合を行い、類似度の高い
複数個の音声パタンの名前を子音候補とする。以上で決
定された母音候補と子音候補とを組み合わせて音節候補
とし、入力音声中での設置と共に音節候補記憶部１０２
に記憶する。

例として、「ザイセイ（財政）」という音声が入力され
たとする。この場合、音節認識結果として例えば第３図
に示されるような音節候補が抽出される。第３図におい
ては各音節区間に複数個の音節候補が抽出されており、
各音節候補に記されている数字がその候補のスコアであ
る。

単語辞書１０３には検出すべき単語の音節列が木構造形
式で記憶されている。いま、単語辞書１０３には「ケイ
サン（計算）」、「ザイゲン（財源）」、「ザイサン
（財産）」、「セイゲン（制限）」「セイジ（政
治）」、「ゼイセイ（税制）」の７単語が記憶されてい
るとする。この様子を第４図に示す。第４図は第１図の
実施例における単語辞書の記憶内容の一例を示す説明図
である。枝に付けられている数字は以降の説明で用いる
ための枝番号を示す。

音節候補列生成部１０４は、まず始めに、単語辞書１０
３の根節点に続く枝の音節のそれぞれについて、その音
節に対応する音節候補が音節候補記憶部１０２に記憶さ
れている場合には、その音節を長さ１の音節列として、
対応する音節候補と共に音節列記憶部１０５に記憶す
る。さらに、スコア計算部１０６がそれらの音節列に対
してそのスコアを計算して付与する。本実施例では、Ｎ
＝４，ｍ＝Ｎ−ｎ、仮想的な音節候補のスコアを１とす
る。

例えば、枝セ（１３）に対応する音節候補はセ〔３〕で
あり、この音節列のスコアは、この音節候補のスコアの
平均値であるから、（３＋１＋１＋１）／４＝１．５と
なる。

この結果、今の場合、音節列記憶部１０５には次の３個
の音節列が記憶されることになる。ここで、各音節列に
対して順に、音節列番号、音節列のスコア、音節列、対
応する音節候補列を示す。また、（）内は枝番号、
〔〕内は音節候補のスコアである。

２．７５ザ（５）ザ〔８〕１．５セ（１３）セ〔３〕３．７５ゼ（１８）ゼ〔１２〕次に、音節列選択部１０７は、音節列記憶部１０５中の
音節列のうち、もっともスコアの良い、すなわちその値
の小さい音節列を取り出し、その音節列及び音節候補列
を音節列生成部１０４に送る。音節列生成部１０４は受
け取った音節列をその終端点から更に延長し、より長い
音節列を生成する。すなわち、単語辞書１０３中でその
終端節点に続く枝に対応する音節候補が音節候補記憶部
１０２に含まれ、かつその音節候補が現在の音節候補列
に接続し得るならば、その音節候補を現在の音節候補列
に接続する。生成された音節列と音節候補列は音節記憶
部１０５に記憶さ、そのスコアがスコア計算部１０６に
よって計算される。

今の場合、音節列が延長される。この結果、音節候補列３セ（１３）−イ（１４）セ〔３〕−イ〔７〕が音節列記憶部１０５に記憶される。この結果、音節列
記憶部には次の音節列が記憶されていることになる。

２．７５ザ（５）ザ〔８〕３．７５ゼ（１８）ゼ〔１２〕３セ（１３）−イ（１４）セ〔３〕−イ〔７〕同様に、音節列記憶部１０５の内容は次のように変更さ
れていく。

音節列から音節列が生成される。

３．７５ゼ（１８）ゼ〔１２〕３セ（１３）−イ（１４）セ〔３〕−イ〔７〕４．２５（５）−イ（６）ザ〔８〕−イ〔７〕音節列から音節列が生成される。

３．７５ゼ（１８）ゼ〔１２〕４．２５ザ（５）−イ（６）ザ〔８）−イ〔７〕４．７５セ（１３）−イ（１４）−ゲ（１５）セ〔３）−イ〔７〕−ゲ〔８〕音節列から音節列が生成される。

４．２５ザ（５）−イ（６）ザ〔８〕−イ〔７〕４．７５セ（１３）−イ（１４）−ゲ（１５）セ〔３〕−イ〔７〕−ゲ〔８〕５．２５ゼ（１８）−イ（１９）ゼ〔１２〕−イ〔７〕音節列から音節列，が生成される。

４．７５セ（１３）−イ（１４）−ゲ（１５）セ〔３〕−イ〔７〕−ゲ〔８〕５．２５ゼ（１８）−イ（１９）ゼ〔１２〕−イ〔７〕６ザ（５）−イ（６）−ゲ（７）ザ〔８〕−イ〔７〕−ゲ〔８〕４．２５ザ（５）−イ（６）−セ（１１）ザ〔８〕−イ〔７〕−セ〔１〕音節列から音節列が生成される。

４．７５セ（１３）−イ（１４）−ゲ（１５）セ〔３）−イ〔７〕−ゲ〔８〕５．２５ゼ（１８）−イ（１９）ゼ〔１２〕−イ〔７〕６ザ（５）−イ（６）−ゲ（７）ザ〔８〕−イ〔７〕−ゲ〔８〕４．２５ザ（５）−イ（６）−セ（１１）−イ
（１２）ザ〔８〕−イ〔７〕−セ〔１〕−イ〔１〕ここで、音節列の終端は単語辞書１０３の葉節点に達
しているので、音節列選択部１０７はこの単語「ザイセ
イ」を検出結果として出力する。

このように、正しい単語「ザイセイ」が最初に検出され
る。本実施例では説明を簡単にするために、音節認識の
段階で音節認識誤りが起こらなかった場合、すなわち入
力されたすべての音節に対して少なくとも正しい音節候
補が抽出された場合について述べたが、音節認識誤りが
生じた場合にも、前述した特願昭６１−１９０２５８，
１９０２５９，１９０２６０，１９０２６１の「単語検
出方式」に述べられている方式を用いることによって上
記実施例と同様に効率よく正しい単語を検出することが
できる。

（発明の効果）以上説明したように本発明によれば、正しい単語のカテ
ゴリ列の始端に近いカテゴリに対応する候補のスコアが
他の候補に比べて大幅に悪いときにも、正しい単語を他
の単語よりも先に検出し、しかも生成されるカテゴリ列
の数が少なく効率の良い単語検出を行うことが可能とな
る単語検出装置が実現することができるという効果があ
る。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図の実施例における音節候補抽出部の一例を示すブ
ロック図、第３図は入力音声から抽出された音節候補の
一例を示す説明図、第４図は第１図実施例における単語
辞書の記憶内容一例を示す説明図である。１０１……音節候補抽出部、１０２……音節候補記憶
部、１０３……単語辞書、１０４……音節列生成部、１
０５……音節列記憶部、１０６……スコア計算部、１０
７……音節列選択部、２０１……音声バッファ、２０２
……母音候補検出部、２０３……母音候補記憶部、２０
４……母音パタン記憶部、２０５……子音候補検出部、
２０６……子音パタン記憶部。

Claims

【特許請求の範囲】

【請求項１】音節、音素、音素クラス等のカテゴリの列
である入力音声から複数個のカテゴリ候補およびこれら
カテゴリ候補の検出評価における信頼度の尺度としての
スコアと位置情報とを抽出して記憶するカテゴリ候補抽
出手段と，節点間の枝がカテゴリに対応し根節点から葉節点までの
枝列としてのカテゴリ列を検出対象の単語のカテゴリ列
とした木構造形式の単語辞書と、前記単語辞書に含まれる少なくとも１個のカテゴリから
なるカテゴリ列とこれに対応するカテゴリ候補列との組
を少なくとも１個格納するカテゴリ列記憶手段と、前記カテゴリ列記憶手段中のカテゴリ列のスコアを対応
するカテゴリ候補列中のカテゴリ候補の数ｎがあらかじ
め定めた数Ｎ以上のときにはｎ個のカテゴリ候補のスコ
アの平均値を用いて算出しｎがＮ未満のときにはｎ個の
カテゴリ候補にｎおよびＮに依存しあらかじめ設定する
関数としての個数ｍ個の仮想的なカテゴリ候補を加えた
（ｎ＋ｍ）個のカテゴリ候補のスコアの平均値を用いて
算出するスコア計算手段と、前記カテゴリ列記憶手段に記憶されているカテゴリ列の
うちで最もスコアの良いカテゴリ列とこれに対応するカ
テゴリ候補列とを取り出し前記最もスコアの良いカテゴ
リ列が単語辞書の葉節点に達している場合にはそのカテ
ゴリ列に対応する単語を検出結果として出力するととも
にカテゴリ列が単語辞書の葉節点に達してない場合には
そのカテゴリ列とカテゴリ候補列とを未検出結果として
出力するカテゴリ選択手段と、前記カテゴリ候補選択手段から未検出結果を受取ってカ
テゴリ列の終端の節点から単語辞書をさらに辿りより長
いカテゴリ列とこれに対応するカテゴリ候補列の組を１
個以上生成したうえそれらを前記カテゴリ列記憶手段に
追加するカテゴリ列生成手段とを有して単語を検出する
ことを特徴とする単語検出装置。