JPH0632015B2 - 単語検出装置 - Google Patents
単語検出装置Info
- Publication number
- JPH0632015B2 JPH0632015B2 JP61307048A JP30704886A JPH0632015B2 JP H0632015 B2 JPH0632015 B2 JP H0632015B2 JP 61307048 A JP61307048 A JP 61307048A JP 30704886 A JP30704886 A JP 30704886A JP H0632015 B2 JPH0632015 B2 JP H0632015B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- string
- candidate
- syllable
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は単語検出装置に関し、特に音声認識、音声入力
装置等において入力音声中に含まれる単語を検出する単
語検出装置に関する。
装置等において入力音声中に含まれる単語を検出する単
語検出装置に関する。
(従来の技術) 音声認識装置、音声入力装置等においては、入力音声中
の単語を検出する方法のひとつとして、入力音声を音
節、音素、音素クラス等のカテゴリの列と見なし、入力
音声から検出したカテゴリを用いて作成したカテゴリ列
が、単語辞書に記憶されている単語のカテゴリ列に対応
すれば、その単語を検出結果とするという方法がある。
の単語を検出する方法のひとつとして、入力音声を音
節、音素、音素クラス等のカテゴリの列と見なし、入力
音声から検出したカテゴリを用いて作成したカテゴリ列
が、単語辞書に記憶されている単語のカテゴリ列に対応
すれば、その単語を検出結果とするという方法がある。
一般に上述したカテゴリは、その発声時間長が短いこと
や類似するカテゴリが存在することなどから、入力音声
中から正しいカテゴリだけを誤りなく検出することは困
難である。そこで従来から、入力音声中の各カテゴリ区
間に対して複数個のカテゴリ候補を検出したのち、単語
辞書を参照して、単語に対応するカテゴリ候補列を見つ
けるという方法を用いている。しかしながらこの場合に
も、発声のなまけや隣接するカテゴリ例えば音節どうし
の調音結合等の原因によって、あるカテゴリ区間の存在
が検出できなかったり、あるカテゴリ区間に正しいカテ
ゴリ候補が検出できない場合がある。
や類似するカテゴリが存在することなどから、入力音声
中から正しいカテゴリだけを誤りなく検出することは困
難である。そこで従来から、入力音声中の各カテゴリ区
間に対して複数個のカテゴリ候補を検出したのち、単語
辞書を参照して、単語に対応するカテゴリ候補列を見つ
けるという方法を用いている。しかしながらこの場合に
も、発声のなまけや隣接するカテゴリ例えば音節どうし
の調音結合等の原因によって、あるカテゴリ区間の存在
が検出できなかったり、あるカテゴリ区間に正しいカテ
ゴリ候補が検出できない場合がある。
そこで、特願昭61−190258,190259,1
90260,190261の「単語検出方式」に述べら
れている方式のように、入力音声中のカテゴリ候補を検
出したのち単語辞書中の単語のカテゴリ並びに従ってカ
テゴリ候補を選択するとともに、単語中のあるカテゴリ
が検出されなかった場合にはその前後のカテゴリに対応
するカテゴリ候補を手掛かりにして、単語のカテゴリ列
に対応するカテゴリ候補列を見つけ、また、対応するカ
テゴリ候補列が見つかった単語についてはそのスコアを
計算するという手段をとっている。
90260,190261の「単語検出方式」に述べら
れている方式のように、入力音声中のカテゴリ候補を検
出したのち単語辞書中の単語のカテゴリ並びに従ってカ
テゴリ候補を選択するとともに、単語中のあるカテゴリ
が検出されなかった場合にはその前後のカテゴリに対応
するカテゴリ候補を手掛かりにして、単語のカテゴリ列
に対応するカテゴリ候補列を見つけ、また、対応するカ
テゴリ候補列が見つかった単語についてはそのスコアを
計算するという手段をとっている。
一方、多数の単語のうちからスコアの良い単語を選択す
る場合に、それぞれの単語について個別に上述の方法で
対応するカテゴリ候補列及びスコアを求めるとすると、
特に単語辞書中の単語数が多い場合には多大な計算量を
必要とし現実的でない。
る場合に、それぞれの単語について個別に上述の方法で
対応するカテゴリ候補列及びスコアを求めるとすると、
特に単語辞書中の単語数が多い場合には多大な計算量を
必要とし現実的でない。
そこで、通常、多数の単語のカテゴリ列をいわゆるツリ
ー(tree)構造で表現する木構造形式の単語辞書を用い
る。このような単語辞書では、節点間の枝がカテゴリに
対応し、木の根節点から葉節点に至る枝列すなわちカテ
ゴリ列のそれぞれが単語のカテゴリ列を表す。また、複
数個の単語が同じカテゴリ列で始まるときには、その同
じカテゴリ列は木の上で共有され、これによって、同じ
カテゴリ列を何度も辿る必要がなくなる。
ー(tree)構造で表現する木構造形式の単語辞書を用い
る。このような単語辞書では、節点間の枝がカテゴリに
対応し、木の根節点から葉節点に至る枝列すなわちカテ
ゴリ列のそれぞれが単語のカテゴリ列を表す。また、複
数個の単語が同じカテゴリ列で始まるときには、その同
じカテゴリ列は木の上で共有され、これによって、同じ
カテゴリ列を何度も辿る必要がなくなる。
また、木の根節点から途中節点まで辿り終えたカテゴリ
列のそれぞれになんらかの基準で検出評価における信頼
度の尺度としてのスコアを与え、常に、スコアの良いす
なわち信頼度の高いカテゴリ列を選択して更に先に辿る
ことにより、最終的にスコアの良いカテゴリ列に対応す
る単語を得ることができる。この方法は一般に、最良優
先探索法として呼ばれている。
列のそれぞれになんらかの基準で検出評価における信頼
度の尺度としてのスコアを与え、常に、スコアの良いす
なわち信頼度の高いカテゴリ列を選択して更に先に辿る
ことにより、最終的にスコアの良いカテゴリ列に対応す
る単語を得ることができる。この方法は一般に、最良優
先探索法として呼ばれている。
この方法によれば、すべての単語のカテゴリ列を辿るこ
となくスコアの良いカテゴリ列に対応する単語を求める
ことができる。この場合、カテゴリ列のスコアとして
は、そのカテゴリ列に対応するカテゴリ候補列中のカテ
ゴリ候補のスコアの平均値が与えられることが常であ
る。
となくスコアの良いカテゴリ列に対応する単語を求める
ことができる。この場合、カテゴリ列のスコアとして
は、そのカテゴリ列に対応するカテゴリ候補列中のカテ
ゴリ候補のスコアの平均値が与えられることが常であ
る。
(発明が解決しようとする問題点) 上述のようにカテゴリ列のスコアを対応するカテゴリ候
補列中のカテゴリ候補のスコアの平均値から求めた場合
には、正しい単語のカテゴリ列の始端に近いカテゴリに
対応する候補のスコアが他の候補に比べて大幅に悪いと
きは、その単語がなかなか検出されないという欠点があ
る。
補列中のカテゴリ候補のスコアの平均値から求めた場合
には、正しい単語のカテゴリ列の始端に近いカテゴリに
対応する候補のスコアが他の候補に比べて大幅に悪いと
きは、その単語がなかなか検出されないという欠点があ
る。
第3図は入力音声から抽出された音声候補の一例を示す
説明図である。例えば、第3図に示す如くカテゴリとし
て音節を用い、「ザイセイ」という音声が入力されたと
きにその各音節に対してそれぞれ音節候補が得られたと
する。ここで、各音節候補に記されている数字はその音
節候補のスコアで、その値が小さいほど良い、すなわち
より信頼できるとする。このとき、単語「セイゲン(制
限)」、「ザイゲン(財源)」、「ゼイセイ(税
制)」、「ザイセイ(財政)」の各単語に対応する音節
候補列を第3図の音節候補を用いて作成するとそのスコ
アは、 セイゲン:(3+7+8+4)/4=5.5 ザイゲン:(8+7+8+4)/4=6.75 ゼイセイ:(12+7+1+1)/4=5.25 ザイセイ:(8+7+1+1)/4=4.25 となり、正しい単語である「ザイセイ」のスコアが最も
小さく、従って最も良いスコアとなる。ところが、これ
らの各単語の音節列の始端から途中までの、長さがn
(n=1,2,3,4)の部分音節列のスコアを、上述
のように対応する音節候補列中の音節候補のスコアの平
均値として求めると、次のようになる。
説明図である。例えば、第3図に示す如くカテゴリとし
て音節を用い、「ザイセイ」という音声が入力されたと
きにその各音節に対してそれぞれ音節候補が得られたと
する。ここで、各音節候補に記されている数字はその音
節候補のスコアで、その値が小さいほど良い、すなわち
より信頼できるとする。このとき、単語「セイゲン(制
限)」、「ザイゲン(財源)」、「ゼイセイ(税
制)」、「ザイセイ(財政)」の各単語に対応する音節
候補列を第3図の音節候補を用いて作成するとそのスコ
アは、 セイゲン:(3+7+8+4)/4=5.5 ザイゲン:(8+7+8+4)/4=6.75 ゼイセイ:(12+7+1+1)/4=5.25 ザイセイ:(8+7+1+1)/4=4.25 となり、正しい単語である「ザイセイ」のスコアが最も
小さく、従って最も良いスコアとなる。ところが、これ
らの各単語の音節列の始端から途中までの、長さがn
(n=1,2,3,4)の部分音節列のスコアを、上述
のように対応する音節候補列中の音節候補のスコアの平
均値として求めると、次のようになる。
セ:3/1=3 セイ:(3+7)/2=5 セイゲ:(3+7+8)/3=6 セイゲン:(3+7+8+4)/4=5.5 ザ:8/1=8 ザイ:(8+7)/2=7.5 ザイゲ:(8+7+8)/3=7.66 ザイゲン:(8+7+8+4)/4=6.75 ゼ:12/1=12 ゼイ:(12+7)/2=9.5 ゼイセ:(12+7+1)/3=6.66 ゼイセイ:(12+7+1+1)/4=5.25 ザ:8/1=8 ザイ:(8+7)/2=7.5 ザイセ:(8+7+1)/3=5.33 ザイセイ:(8+7+1+1)/4=4.25 このように、正しい単語「ザイセイ」の先頭の音節
「ザ」だけからなる音節列のスコアは、単語「セイゲ
ン」、「ザイゲン」のどの部分音節列のスコアよりも良
くない。すなわち、単語「セイゲン」、「ザイゲン」の
カテゴリ列を辿り終えたあとで初めて正しい単語「ザイ
セイ」のカテゴリ列が辿られることになりこのぶん正し
い単語の検出が遅れることになる。
「ザ」だけからなる音節列のスコアは、単語「セイゲ
ン」、「ザイゲン」のどの部分音節列のスコアよりも良
くない。すなわち、単語「セイゲン」、「ザイゲン」の
カテゴリ列を辿り終えたあとで初めて正しい単語「ザイ
セイ」のカテゴリ列が辿られることになりこのぶん正し
い単語の検出が遅れることになる。
本発明の目的は、上述した欠点を除去し、正しい単語の
カテゴリ列の始端に近いカテゴリに対応する候補のスコ
アが他の候補に比べて大幅に悪い場合でも正しい単語を
より早くかつ少ない処理量で検出することを可能にする
単語検出装置を提供することにある。
カテゴリ列の始端に近いカテゴリに対応する候補のスコ
アが他の候補に比べて大幅に悪い場合でも正しい単語を
より早くかつ少ない処理量で検出することを可能にする
単語検出装置を提供することにある。
(問題点を解決するための手段) 本発明の単語検出装置は、音節、音素、音素クラス等の
カテゴリの列である入力音声から複数個のカテゴリ候補
およびカテゴリ候補の検出評価における信頼度の尺度と
してのスコアの位置情報とを抽出して記憶するカテゴリ
候補抽出手段と、節点間の枝がカテゴリに対応し根節点
から葉節点までの枝列としてのカテゴリ列を検出対象の
単語のカテゴリ列として木構造形式の単語辞書と、前記
単語辞書に含まれる少なくとも1個のカテゴリからなる
カテゴリとこれに対応するカテゴリ候補列との組を少な
くとも1個格納するカテゴリ列記憶手段と、前記カテゴ
リ列記憶手段中のカテゴリ列のスコアを対応するカテゴ
リ候補列中のカテゴリ候補の数nがあらかじめ定めた数
N以上のときにはn個のカテゴリ候補のスコアの平均値
を用いて算出しnがN未満のときにはn個のカテゴリ候
補にnおよびNに依存しあらかじめ設定する関数として
の個数m個の仮想的なカテゴリ候補を加えた(n+m)
個のカテゴリ候補のスコアの平均値を用いて算出するス
コア計算手段と、前記カテゴリ列記憶手段に記憶されて
いるカテゴリ列のうちで最もスコアの良いカテゴリ列と
これに対応するカテゴリ候補列とを取り出し前記最もス
コアの良いカテゴリ列が単語辞書の葉節点に達している
場合にはそのカテゴリ列に対応する単語を検出結果とし
て出力するとともに単語辞書の葉節点に達してない場合
にはそのカテゴリ列とカテゴリ候補列とを未検出結果と
して出力するカテゴリ選択手段と、前記カテゴリ候補選
択手段から未検出結果を受取ってカテゴリ列の終端の節
点から単語辞書をさらに辿りより長いカテゴリ列とこれ
に対応するカテゴリ候補列の組を1個以上生成したうえ
それらを前記カテゴリ列記憶手段に追加するカテゴリ列
生成手段とを有することを特徴とする。
カテゴリの列である入力音声から複数個のカテゴリ候補
およびカテゴリ候補の検出評価における信頼度の尺度と
してのスコアの位置情報とを抽出して記憶するカテゴリ
候補抽出手段と、節点間の枝がカテゴリに対応し根節点
から葉節点までの枝列としてのカテゴリ列を検出対象の
単語のカテゴリ列として木構造形式の単語辞書と、前記
単語辞書に含まれる少なくとも1個のカテゴリからなる
カテゴリとこれに対応するカテゴリ候補列との組を少な
くとも1個格納するカテゴリ列記憶手段と、前記カテゴ
リ列記憶手段中のカテゴリ列のスコアを対応するカテゴ
リ候補列中のカテゴリ候補の数nがあらかじめ定めた数
N以上のときにはn個のカテゴリ候補のスコアの平均値
を用いて算出しnがN未満のときにはn個のカテゴリ候
補にnおよびNに依存しあらかじめ設定する関数として
の個数m個の仮想的なカテゴリ候補を加えた(n+m)
個のカテゴリ候補のスコアの平均値を用いて算出するス
コア計算手段と、前記カテゴリ列記憶手段に記憶されて
いるカテゴリ列のうちで最もスコアの良いカテゴリ列と
これに対応するカテゴリ候補列とを取り出し前記最もス
コアの良いカテゴリ列が単語辞書の葉節点に達している
場合にはそのカテゴリ列に対応する単語を検出結果とし
て出力するとともに単語辞書の葉節点に達してない場合
にはそのカテゴリ列とカテゴリ候補列とを未検出結果と
して出力するカテゴリ選択手段と、前記カテゴリ候補選
択手段から未検出結果を受取ってカテゴリ列の終端の節
点から単語辞書をさらに辿りより長いカテゴリ列とこれ
に対応するカテゴリ候補列の組を1個以上生成したうえ
それらを前記カテゴリ列記憶手段に追加するカテゴリ列
生成手段とを有することを特徴とする。
(作用) 上述の例においては、音節列「ザイセイ」に対応する音
節候補列のスコアは4.25と他の単語のスコアよりも
良いのにもかかわらず、その先頭の音節「ザ」に対応す
る音節候補のスコアが8と悪い。一方、音節列「セイゲ
ン」に対応する音節候補列のスコアは5.5と単語「ザ
イセイ」よりも悪いが、その先頭の音節「セ」に対応す
る音節候補のスコアは3と単語「ザイセイ」の先頭の音
節候補のスコアよりも良くなっている。
節候補列のスコアは4.25と他の単語のスコアよりも
良いのにもかかわらず、その先頭の音節「ザ」に対応す
る音節候補のスコアが8と悪い。一方、音節列「セイゲ
ン」に対応する音節候補列のスコアは5.5と単語「ザ
イセイ」よりも悪いが、その先頭の音節「セ」に対応す
る音節候補のスコアは3と単語「ザイセイ」の先頭の音
節候補のスコアよりも良くなっている。
このように、単語全体のカテゴリ列に対応するカテゴリ
候補列全体のスコアから算出したスコアとしてはその単
語の信頼性を正しく評価しているが、従来技術では単語
の一部分のカテゴリ列に対応するカテゴリ候補列だけか
ら算出したスコアを単語のスコアとして扱っているため
に、その一部分に偶然悪いスコアのカテゴリ候補が含ま
れている場合にその単語のスコアが悪くなってしまう。
候補列全体のスコアから算出したスコアとしてはその単
語の信頼性を正しく評価しているが、従来技術では単語
の一部分のカテゴリ列に対応するカテゴリ候補列だけか
ら算出したスコアを単語のスコアとして扱っているため
に、その一部分に偶然悪いスコアのカテゴリ候補が含ま
れている場合にその単語のスコアが悪くなってしまう。
一方、単語の一部分のカテゴリ列にしか対応するカテゴ
リ候補列が定まっていない段階では、単語全体のカテゴ
リ列に対応するカテゴリ候補列のスコアを用いることは
できない。
リ候補列が定まっていない段階では、単語全体のカテゴ
リ列に対応するカテゴリ候補列のスコアを用いることは
できない。
そこで本発明の方法では、単語のカテゴリ列中のカテゴ
リのうち、まだ対応するカテゴリ候補が定まっていない
カテゴリに対しては、ある平均的なスコアを持つカテゴ
リ候補を仮想する。すなわち、カテゴリ候補列のスコア
を求める際に、その長さnがあらかじめ定めた長さNよ
りも短い場合には、そのカテゴリ候補列は単語の一部分
のカテゴリ列に対応するものであると判断し、nおよび
Nに依存する個数m個のカテゴリ候補を仮想する。この
結果、対応するカテゴリ候補列の一部分に悪いスコアの
カテゴリ候補が含まれていた場合にも、仮想されたカテ
ゴリ候補列のスコアによって平均化されることにより、
単語のスコアはそれほど悪くならないという手法をとっ
ている。従って、その単語に対応するカテゴリ候補列を
すばやく求めることができる。
リのうち、まだ対応するカテゴリ候補が定まっていない
カテゴリに対しては、ある平均的なスコアを持つカテゴ
リ候補を仮想する。すなわち、カテゴリ候補列のスコア
を求める際に、その長さnがあらかじめ定めた長さNよ
りも短い場合には、そのカテゴリ候補列は単語の一部分
のカテゴリ列に対応するものであると判断し、nおよび
Nに依存する個数m個のカテゴリ候補を仮想する。この
結果、対応するカテゴリ候補列の一部分に悪いスコアの
カテゴリ候補が含まれていた場合にも、仮想されたカテ
ゴリ候補列のスコアによって平均化されることにより、
単語のスコアはそれほど悪くならないという手法をとっ
ている。従って、その単語に対応するカテゴリ候補列を
すばやく求めることができる。
例えば、N=4とし、nおよびNに依存しあらかじめ設
定する関数としてのmは、m=N−n、また仮想的な音
節候補のスコアを1とすると、上述の例における各単語
の部分的なカテゴリ例のスコアは次のようになる。
定する関数としてのmは、m=N−n、また仮想的な音
節候補のスコアを1とすると、上述の例における各単語
の部分的なカテゴリ例のスコアは次のようになる。
セ:(3+1+1+1)/4=1.5 セイ:(3+7+1+1)/4=3 セイゲ:(3+7+8+1)/4=4.75 セイゲン:(3+7+8+4)/4=5.5 ザ:(8+1+1+1)/4=2.75 ザイ:(8+7+1+1)/4=4.25 ザイゲ:(8+7+8+1)/4=6 ザイゲン:(8+7+8+4)/4=6.75 ゼ:(12+1+1+1)/4=3.75 ゼイ:(12+7+1+1)/4=5.25 ゼイセ:(12+7+1+1)/4=5.25 ゼイセイ:(12+7+1+1)/4=5.25 ザ:(8+1+1+1)/4=2.75 ザイ:(8+7+1+1)/4=4.25 ザイセ:(8+7+1+1)/4=4.25 ザイセイ:(8+7+1+1)/4=4.25 従って、このスコアの順に音節列を辿ると、次の順に辿
ることになる。ここで「 」内は対応する単語である。
ることになる。ここで「 」内は対応する単語である。
セ:1.5「セイゲン」 ザ:2.75「ザイゲン」 ザ:2.75「ザイセイ」 セイ:3「セイゲン」 ザイ:4.25「ザイゲン」 ザイ:4.25「ザイセイ」 セイゲ:4.75「セイゲン」 ザイゲ:6「ザイゲン」 ザイセ:4.25「ザイセイ」 ザイセイ:4.25「ザイセイ」 このように、正しい単語「ザイセイ」のカテゴリ列を最
初に辿り終えることができる。また、辿るべきカテゴリ
の数も少なくなる。
初に辿り終えることができる。また、辿るべきカテゴリ
の数も少なくなる。
(実施例) 次に、図面を参照しつつ本発明を詳細に説明する。
第1図は本発明の一実施例を示すブロック図である。第
1図に示す実施例では日本語の音声が入力されるものと
し、またカテゴリとして音節を用いる。
1図に示す実施例では日本語の音声が入力されるものと
し、またカテゴリとして音節を用いる。
音節候補抽出部101は入力音声中の音節候補を検出
し、その候補をそのスコアと入力音声中での位置ととも
に音節候補記憶部102に記憶する。
し、その候補をそのスコアと入力音声中での位置ととも
に音節候補記憶部102に記憶する。
第2図は音節候補抽出部101の一例を示すブロック図
である。第2図において、入力音声は音声バッファ20
1に一旦格納される。まず、母音候補検出部202が音
声バッファ201に格納された音声中の母音候補を検出
し母音候補記憶部203に格納する。母音候補の検出
は、母音パタン記憶部204にあらかじめ格納されてい
る各母音の音声標準パタンと入力音声の各区間とを照合
することによって行われる。母音の音声信号は比較的定
常であるので検出は容易である。各母音は、少なくとも
母音名のほか、入力音声中での位置の情報を保持してい
る。
である。第2図において、入力音声は音声バッファ20
1に一旦格納される。まず、母音候補検出部202が音
声バッファ201に格納された音声中の母音候補を検出
し母音候補記憶部203に格納する。母音候補の検出
は、母音パタン記憶部204にあらかじめ格納されてい
る各母音の音声標準パタンと入力音声の各区間とを照合
することによって行われる。母音の音声信号は比較的定
常であるので検出は容易である。各母音は、少なくとも
母音名のほか、入力音声中での位置の情報を保持してい
る。
母音候補の検出が終了した後、子音候補検出部205に
よって子音候補が次に述べるようにして検出される。日
本語においては、音節は子音(C)−母音(V)の組で
ある。従って入力音声中では、2個の母音に挾まれた区
間のうちのある時間長以下の区間(以下これをVC区間
と呼ぶ)及び入力音声の始端からある時間長以内にある
区間(以下これをCV区間と呼ぶ)までの各に1個の子
音が存在するといえる。子音候補検出部204は母音候
補記憶部203に記憶されている母音候補から作られる
すべてのVCV区間及びCV区間の各々に対して、あら
かじめ子音パタン記憶部206に記憶されているVCV
及びCV標準音声パタンとの照合を行い、類似度の高い
複数個の音声パタンの名前を子音候補とする。以上で決
定された母音候補と子音候補とを組み合わせて音節候補
とし、入力音声中での設置と共に音節候補記憶部102
に記憶する。
よって子音候補が次に述べるようにして検出される。日
本語においては、音節は子音(C)−母音(V)の組で
ある。従って入力音声中では、2個の母音に挾まれた区
間のうちのある時間長以下の区間(以下これをVC区間
と呼ぶ)及び入力音声の始端からある時間長以内にある
区間(以下これをCV区間と呼ぶ)までの各に1個の子
音が存在するといえる。子音候補検出部204は母音候
補記憶部203に記憶されている母音候補から作られる
すべてのVCV区間及びCV区間の各々に対して、あら
かじめ子音パタン記憶部206に記憶されているVCV
及びCV標準音声パタンとの照合を行い、類似度の高い
複数個の音声パタンの名前を子音候補とする。以上で決
定された母音候補と子音候補とを組み合わせて音節候補
とし、入力音声中での設置と共に音節候補記憶部102
に記憶する。
例として、「ザイセイ(財政)」という音声が入力され
たとする。この場合、音節認識結果として例えば第3図
に示されるような音節候補が抽出される。第3図におい
ては各音節区間に複数個の音節候補が抽出されており、
各音節候補に記されている数字がその候補のスコアであ
る。
たとする。この場合、音節認識結果として例えば第3図
に示されるような音節候補が抽出される。第3図におい
ては各音節区間に複数個の音節候補が抽出されており、
各音節候補に記されている数字がその候補のスコアであ
る。
単語辞書103には検出すべき単語の音節列が木構造形
式で記憶されている。いま、単語辞書103には「ケイ
サン(計算)」、「ザイゲン(財源)」、「ザイサン
(財産)」、「セイゲン(制限)」「セイジ(政
治)」、「ゼイセイ(税制)」の7単語が記憶されてい
るとする。この様子を第4図に示す。第4図は第1図の
実施例における単語辞書の記憶内容の一例を示す説明図
である。枝に付けられている数字は以降の説明で用いる
ための枝番号を示す。
式で記憶されている。いま、単語辞書103には「ケイ
サン(計算)」、「ザイゲン(財源)」、「ザイサン
(財産)」、「セイゲン(制限)」「セイジ(政
治)」、「ゼイセイ(税制)」の7単語が記憶されてい
るとする。この様子を第4図に示す。第4図は第1図の
実施例における単語辞書の記憶内容の一例を示す説明図
である。枝に付けられている数字は以降の説明で用いる
ための枝番号を示す。
音節候補列生成部104は、まず始めに、単語辞書10
3の根節点に続く枝の音節のそれぞれについて、その音
節に対応する音節候補が音節候補記憶部102に記憶さ
れている場合には、その音節を長さ1の音節列として、
対応する音節候補と共に音節列記憶部105に記憶す
る。さらに、スコア計算部106がそれらの音節列に対
してそのスコアを計算して付与する。本実施例では、N
=4,m=N−n、仮想的な音節候補のスコアを1とす
る。
3の根節点に続く枝の音節のそれぞれについて、その音
節に対応する音節候補が音節候補記憶部102に記憶さ
れている場合には、その音節を長さ1の音節列として、
対応する音節候補と共に音節列記憶部105に記憶す
る。さらに、スコア計算部106がそれらの音節列に対
してそのスコアを計算して付与する。本実施例では、N
=4,m=N−n、仮想的な音節候補のスコアを1とす
る。
例えば、枝セ(13)に対応する音節候補はセ〔3〕で
あり、この音節列のスコアは、この音節候補のスコアの
平均値であるから、(3+1+1+1)/4=1.5と
なる。
あり、この音節列のスコアは、この音節候補のスコアの
平均値であるから、(3+1+1+1)/4=1.5と
なる。
この結果、今の場合、音節列記憶部105には次の3個
の音節列が記憶されることになる。ここで、各音節列に
対して順に、音節列番号、音節列のスコア、音節列、対
応する音節候補列を示す。また、( )内は枝番号、
〔 〕内は音節候補のスコアである。
の音節列が記憶されることになる。ここで、各音節列に
対して順に、音節列番号、音節列のスコア、音節列、対
応する音節候補列を示す。また、( )内は枝番号、
〔 〕内は音節候補のスコアである。
2.75 ザ(5) ザ〔8〕 1.5 セ(13) セ〔3〕 3.75 ゼ(18) ゼ〔12〕 次に、音節列選択部107は、音節列記憶部105中の
音節列のうち、もっともスコアの良い、すなわちその値
の小さい音節列を取り出し、その音節列及び音節候補列
を音節列生成部104に送る。音節列生成部104は受
け取った音節列をその終端点から更に延長し、より長い
音節列を生成する。すなわち、単語辞書103中でその
終端節点に続く枝に対応する音節候補が音節候補記憶部
102に含まれ、かつその音節候補が現在の音節候補列
に接続し得るならば、その音節候補を現在の音節候補列
に接続する。生成された音節列と音節候補列は音節記憶
部105に記憶さ、そのスコアがスコア計算部106に
よって計算される。
音節列のうち、もっともスコアの良い、すなわちその値
の小さい音節列を取り出し、その音節列及び音節候補列
を音節列生成部104に送る。音節列生成部104は受
け取った音節列をその終端点から更に延長し、より長い
音節列を生成する。すなわち、単語辞書103中でその
終端節点に続く枝に対応する音節候補が音節候補記憶部
102に含まれ、かつその音節候補が現在の音節候補列
に接続し得るならば、その音節候補を現在の音節候補列
に接続する。生成された音節列と音節候補列は音節記憶
部105に記憶さ、そのスコアがスコア計算部106に
よって計算される。
今の場合、音節列が延長される。この結果、 音節候補列 3 セ(13)−イ(14) セ〔3〕−イ〔7〕 が音節列記憶部105に記憶される。この結果、音節列
記憶部には次の音節列が記憶されていることになる。
記憶部には次の音節列が記憶されていることになる。
2.75 ザ(5) ザ〔8〕 3.75 ゼ(18) ゼ〔12〕 3 セ(13)−イ(14) セ〔3〕−イ〔7〕 同様に、音節列記憶部105の内容は次のように変更さ
れていく。
れていく。
音節列から音節列が生成される。
3.75 ゼ(18) ゼ〔12〕 3 セ(13)−イ(14) セ〔3〕−イ〔7〕 4.25 (5)−イ(6) ザ〔8〕−イ〔7〕 音節列から音節列が生成される。
3.75 ゼ(18) ゼ〔12〕 4.25 ザ(5)−イ(6) ザ〔8)−イ〔7〕 4.75 セ(13)−イ(14)−ゲ(15) セ〔3)−イ〔7〕−ゲ〔8〕 音節列から音節列が生成される。
4.25 ザ(5)−イ(6) ザ〔8〕−イ〔7〕 4.75 セ(13)−イ(14)−ゲ(15) セ〔3〕−イ〔7〕−ゲ〔8〕 5.25 ゼ(18)−イ(19) ゼ〔12〕−イ〔7〕 音節列から音節列,が生成される。
4.75 セ(13)−イ(14)−ゲ(15) セ〔3〕−イ〔7〕−ゲ〔8〕 5.25 ゼ(18)−イ(19) ゼ〔12〕−イ〔7〕 6 ザ(5)−イ(6)−ゲ(7) ザ〔8〕−イ〔7〕−ゲ〔8〕 4.25 ザ(5)−イ(6)−セ(11) ザ〔8〕−イ〔7〕−セ〔1〕 音節列から音節列が生成される。
4.75 セ(13)−イ(14)−ゲ(15) セ〔3)−イ〔7〕−ゲ〔8〕 5.25 ゼ(18)−イ(19) ゼ〔12〕−イ〔7〕 6 ザ(5)−イ(6)−ゲ(7) ザ〔8〕−イ〔7〕−ゲ〔8〕 4.25 ザ(5)−イ(6)−セ(11)−イ
(12) ザ〔8〕−イ〔7〕−セ〔1〕−イ〔1〕 ここで、音節列の終端は単語辞書103の葉節点に達
しているので、音節列選択部107はこの単語「ザイセ
イ」を検出結果として出力する。
(12) ザ〔8〕−イ〔7〕−セ〔1〕−イ〔1〕 ここで、音節列の終端は単語辞書103の葉節点に達
しているので、音節列選択部107はこの単語「ザイセ
イ」を検出結果として出力する。
このように、正しい単語「ザイセイ」が最初に検出され
る。本実施例では説明を簡単にするために、音節認識の
段階で音節認識誤りが起こらなかった場合、すなわち入
力されたすべての音節に対して少なくとも正しい音節候
補が抽出された場合について述べたが、音節認識誤りが
生じた場合にも、前述した特願昭61−190258,
190259,190260,190261の「単語検
出方式」に述べられている方式を用いることによって上
記実施例と同様に効率よく正しい単語を検出することが
できる。
る。本実施例では説明を簡単にするために、音節認識の
段階で音節認識誤りが起こらなかった場合、すなわち入
力されたすべての音節に対して少なくとも正しい音節候
補が抽出された場合について述べたが、音節認識誤りが
生じた場合にも、前述した特願昭61−190258,
190259,190260,190261の「単語検
出方式」に述べられている方式を用いることによって上
記実施例と同様に効率よく正しい単語を検出することが
できる。
(発明の効果) 以上説明したように本発明によれば、正しい単語のカテ
ゴリ列の始端に近いカテゴリに対応する候補のスコアが
他の候補に比べて大幅に悪いときにも、正しい単語を他
の単語よりも先に検出し、しかも生成されるカテゴリ列
の数が少なく効率の良い単語検出を行うことが可能とな
る単語検出装置が実現することができるという効果があ
る。
ゴリ列の始端に近いカテゴリに対応する候補のスコアが
他の候補に比べて大幅に悪いときにも、正しい単語を他
の単語よりも先に検出し、しかも生成されるカテゴリ列
の数が少なく効率の良い単語検出を行うことが可能とな
る単語検出装置が実現することができるという効果があ
る。
第1図は本発明の一実施例を示すブロック図、第2図は
第1図の実施例における音節候補抽出部の一例を示すブ
ロック図、第3図は入力音声から抽出された音節候補の
一例を示す説明図、第4図は第1図実施例における単語
辞書の記憶内容一例を示す説明図である。 101……音節候補抽出部、102……音節候補記憶
部、103……単語辞書、104……音節列生成部、1
05……音節列記憶部、106……スコア計算部、10
7……音節列選択部、201……音声バッファ、202
……母音候補検出部、203……母音候補記憶部、20
4……母音パタン記憶部、205……子音候補検出部、
206……子音パタン記憶部。
第1図の実施例における音節候補抽出部の一例を示すブ
ロック図、第3図は入力音声から抽出された音節候補の
一例を示す説明図、第4図は第1図実施例における単語
辞書の記憶内容一例を示す説明図である。 101……音節候補抽出部、102……音節候補記憶
部、103……単語辞書、104……音節列生成部、1
05……音節列記憶部、106……スコア計算部、10
7……音節列選択部、201……音声バッファ、202
……母音候補検出部、203……母音候補記憶部、20
4……母音パタン記憶部、205……子音候補検出部、
206……子音パタン記憶部。
Claims (1)
- 【請求項1】音節、音素、音素クラス等のカテゴリの列
である入力音声から複数個のカテゴリ候補およびこれら
カテゴリ候補の検出評価における信頼度の尺度としての
スコアと位置情報とを抽出して記憶するカテゴリ候補抽
出手段と, 節点間の枝がカテゴリに対応し根節点から葉節点までの
枝列としてのカテゴリ列を検出対象の単語のカテゴリ列
とした木構造形式の単語辞書と、 前記単語辞書に含まれる少なくとも1個のカテゴリから
なるカテゴリ列とこれに対応するカテゴリ候補列との組
を少なくとも1個格納するカテゴリ列記憶手段と、 前記カテゴリ列記憶手段中のカテゴリ列のスコアを対応
するカテゴリ候補列中のカテゴリ候補の数nがあらかじ
め定めた数N以上のときにはn個のカテゴリ候補のスコ
アの平均値を用いて算出しnがN未満のときにはn個の
カテゴリ候補にnおよびNに依存しあらかじめ設定する
関数としての個数m個の仮想的なカテゴリ候補を加えた
(n+m)個のカテゴリ候補のスコアの平均値を用いて
算出するスコア計算手段と、 前記カテゴリ列記憶手段に記憶されているカテゴリ列の
うちで最もスコアの良いカテゴリ列とこれに対応するカ
テゴリ候補列とを取り出し前記最もスコアの良いカテゴ
リ列が単語辞書の葉節点に達している場合にはそのカテ
ゴリ列に対応する単語を検出結果として出力するととも
にカテゴリ列が単語辞書の葉節点に達してない場合には
そのカテゴリ列とカテゴリ候補列とを未検出結果として
出力するカテゴリ選択手段と、 前記カテゴリ候補選択手段から未検出結果を受取ってカ
テゴリ列の終端の節点から単語辞書をさらに辿りより長
いカテゴリ列とこれに対応するカテゴリ候補列の組を1
個以上生成したうえそれらを前記カテゴリ列記憶手段に
追加するカテゴリ列生成手段とを有して単語を検出する
ことを特徴とする単語検出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61307048A JPH0632015B2 (ja) | 1986-12-22 | 1986-12-22 | 単語検出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61307048A JPH0632015B2 (ja) | 1986-12-22 | 1986-12-22 | 単語検出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS63158598A JPS63158598A (ja) | 1988-07-01 |
| JPH0632015B2 true JPH0632015B2 (ja) | 1994-04-27 |
Family
ID=17964419
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61307048A Expired - Lifetime JPH0632015B2 (ja) | 1986-12-22 | 1986-12-22 | 単語検出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0632015B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19842405A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
-
1986
- 1986-12-22 JP JP61307048A patent/JPH0632015B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS63158598A (ja) | 1988-07-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR910007531B1 (ko) | 음성인식장치 | |
| US8065142B2 (en) | Synchronization of an input text of a speech with a recording of the speech | |
| US20020049590A1 (en) | Speech data recording apparatus and method for speech recognition learning | |
| US10803858B2 (en) | Speech recognition apparatus, speech recognition method, and computer program product | |
| JPH0713594A (ja) | 音声合成において音声の質を評価するための方法 | |
| EP0074769A1 (en) | Recognition of speech or speech-like sounds using associative memory | |
| JPH0632015B2 (ja) | 単語検出装置 | |
| CN114519998B (zh) | 差分抽取装置、方法以及程序 | |
| JPH0632014B2 (ja) | 単語検出方式 | |
| RU2101782C1 (ru) | Способ распознавания слов в слитной речи и система для его реализации | |
| US20250365360A1 (en) | Method and apparatus for providing voice dial | |
| JPH0415503B2 (ja) | ||
| JPH0464077B2 (ja) | ||
| JPS63158599A (ja) | 単語検出方式 | |
| JPS63158600A (ja) | 単語検出装置 | |
| KR960001950B1 (ko) | 음성인식방법 및 그 장치 | |
| KR100212448B1 (ko) | 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법 | |
| JPH07113925B2 (ja) | 文字表記結果の対応関係判定システム | |
| JPS60225273A (ja) | 単語検索方式 | |
| JPH0552507B2 (ja) | ||
| JPH0290384A (ja) | 文字認識装置の後処理方式 | |
| JPS62285189A (ja) | 文字認識後処理方式 | |
| JPS62206597A (ja) | 音声認識用単語予備選択方式 | |
| JPS60217490A (ja) | 文字認識装置 | |
| JPS60158496A (ja) | 音声認識装置 |