JPH02275497A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH02275497A JPH02275497A JP1096706A JP9670689A JPH02275497A JP H02275497 A JPH02275497 A JP H02275497A JP 1096706 A JP1096706 A JP 1096706A JP 9670689 A JP9670689 A JP 9670689A JP H02275497 A JPH02275497 A JP H02275497A
- Authority
- JP
- Japan
- Prior art keywords
- input
- pattern
- matching
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 abstract description 17
- 238000007781 pre-processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は音声認識して目的の電気機器を制御し得るよう
になした音声認識装置に関する。
になした音声認識装置に関する。
(ロ) 従来の技術
近年、音声認識装置に於ける音声認識率の向上に伴い、
音声制御できる電子機器、例えばオートダイヤルできる
電話機が実用化されつつある(特開昭62−81152
号)。
音声制御できる電子機器、例えばオートダイヤルできる
電話機が実用化されつつある(特開昭62−81152
号)。
例えば、音声認識オートダイヤル電話機の場合、その音
声認識装置としては、第1ステツプでダイヤル先名称(
個人名、会社名等)を音声認識し、第2ステツプで指令
音声(ダイヤル、キャンセル停)を音声認識する2段階
認識処理方式を採用したものが最も現実的である。
声認識装置としては、第1ステツプでダイヤル先名称(
個人名、会社名等)を音声認識し、第2ステツプで指令
音声(ダイヤル、キャンセル停)を音声認識する2段階
認識処理方式を採用したものが最も現実的である。
即ち、2段階認識処理は、話者が発声したダイヤル先名
称を認識した結果で直ちにダイヤル先の1話番号をダイ
ヤルするのではなく、この認識結果を表示、あるいは合
成音声出力で話者に確認させ、誤認識が無い時に、音声
によるダイヤル指令を与えるので、音声の誤認識による
ダイヤル誤りを未然に貼止できる。
称を認識した結果で直ちにダイヤル先の1話番号をダイ
ヤルするのではなく、この認識結果を表示、あるいは合
成音声出力で話者に確認させ、誤認識が無い時に、音声
によるダイヤル指令を与えるので、音声の誤認識による
ダイヤル誤りを未然に貼止できる。
このような2段階認識処理を行なうパタンマツチング手
法の音声認識装置は、第1ステツプではそのステップに
しか要求されない語の音声、例えば複数のダイヤル先名
称の音声、を認識するために、これ等ダイヤル先名称の
音声の標準パタン群(第1のグループ)を用い、第2ス
テツプでは複数の指令音声を認識するために、これ等指
令音声の標準パタン群(第2グループ)を用いる事にな
る。
法の音声認識装置は、第1ステツプではそのステップに
しか要求されない語の音声、例えば複数のダイヤル先名
称の音声、を認識するために、これ等ダイヤル先名称の
音声の標準パタン群(第1のグループ)を用い、第2ス
テツプでは複数の指令音声を認識するために、これ等指
令音声の標準パタン群(第2グループ)を用いる事にな
る。
これ等第1グループ、第2グループの標準パタンを分類
しないで、1つのグループとして、上述の第1、第2の
両ステップの音声認識処理に同様に用いる事もできるが
、この場合には、各ステップの音声認識の為のパタンマ
ツチング(入力音声のパタンと、標準パタンとの誤差計
算)処理量が大きくなり、しかも誤認識発生の確率を増
す事になるので、これを回避するために、上述の如く標
準音声パタンはステップ毎の認識処理に対応してグルー
プ分けきれている。
しないで、1つのグループとして、上述の第1、第2の
両ステップの音声認識処理に同様に用いる事もできるが
、この場合には、各ステップの音声認識の為のパタンマ
ツチング(入力音声のパタンと、標準パタンとの誤差計
算)処理量が大きくなり、しかも誤認識発生の確率を増
す事になるので、これを回避するために、上述の如く標
準音声パタンはステップ毎の認識処理に対応してグルー
プ分けきれている。
(ハ)発明が解決しようとする課題
上述の如く、多段階ステップで音声認識処理を行なう従
来の音声認識装置に於ては、例えばオートダイヤル電話
機に於いては、第1ステツプで話者が発声したダイヤル
先名称の認識結果が誤認識であった場合、次の第2ステ
ツプで話者が発声した指令音声1キヤンセル」を認識さ
せ、この認識が正しく行なわれることを条件に第1ステ
ツプにもどしてから、ダイヤル先名称を再発声してこれ
の認識を行なわせる必要がある。このような音声の再入
力のための手順は、非常に煩雑であり、音声入力する話
者への負担が大きくなる欠点があった。
来の音声認識装置に於ては、例えばオートダイヤル電話
機に於いては、第1ステツプで話者が発声したダイヤル
先名称の認識結果が誤認識であった場合、次の第2ステ
ツプで話者が発声した指令音声1キヤンセル」を認識さ
せ、この認識が正しく行なわれることを条件に第1ステ
ツプにもどしてから、ダイヤル先名称を再発声してこれ
の認識を行なわせる必要がある。このような音声の再入
力のための手順は、非常に煩雑であり、音声入力する話
者への負担が大きくなる欠点があった。
本発明は断る欠点を解消すべくなされたものであり、第
1ステツプに誤認識があった場合、第2ステツプから第
1ステツプへもどる事なく、第2ステツプでも第1ステ
ツプの再度の音声認識処理を可能とした音声認識装置を
実現するものである。
1ステツプに誤認識があった場合、第2ステツプから第
1ステツプへもどる事なく、第2ステツプでも第1ステ
ツプの再度の音声認識処理を可能とした音声認識装置を
実現するものである。
(ニ)課題を解決するための手段
本発明の音声認識装置は、少なくとも2グループに分類
された標準パタンをグループ別に格納した標準パタン記
憶手段と、最新の入力音声の入力パタンを記憶しておく
入力パタン記憶手段と、第1グループの上記標準パタン
記憶手段の各標準パタンと上記入力パタン記憶手段の入
力音声パタンとをパタンマツチングにより比較して類似
度計算を行う第1段マツチング手段と、第2グループの
上記標準パタン記憶手段の各標準パタンと上記入力パタ
ン記憶手段の入力音声パタンとをパタンマツチングによ
り比較して類似度計算を行う第2段マツチング手段と、
上記第1段マツチング手段で認識した音声を報知する報
知手段、上記第2段マツチング処理で得られる最大類似
度値が所定の閾値より小さい場合に、この時の入力パタ
ン記憶手段の入力パタンを保存した状態で、第2マツチ
ング手段のマツチング処理から上記第1段マツチング手
段のマツチング処理に差し戻す制御を司る制御手段を備
えてなるものである。
された標準パタンをグループ別に格納した標準パタン記
憶手段と、最新の入力音声の入力パタンを記憶しておく
入力パタン記憶手段と、第1グループの上記標準パタン
記憶手段の各標準パタンと上記入力パタン記憶手段の入
力音声パタンとをパタンマツチングにより比較して類似
度計算を行う第1段マツチング手段と、第2グループの
上記標準パタン記憶手段の各標準パタンと上記入力パタ
ン記憶手段の入力音声パタンとをパタンマツチングによ
り比較して類似度計算を行う第2段マツチング手段と、
上記第1段マツチング手段で認識した音声を報知する報
知手段、上記第2段マツチング処理で得られる最大類似
度値が所定の閾値より小さい場合に、この時の入力パタ
ン記憶手段の入力パタンを保存した状態で、第2マツチ
ング手段のマツチング処理から上記第1段マツチング手
段のマツチング処理に差し戻す制御を司る制御手段を備
えてなるものである。
(ホ)作用
本発明の音声認識装置は、各段マツチング処理で認識で
きる入力計重がそれぞれ制限きれている少なくとも2段
のマツチング処理が行える装置であり、第1段マツチン
グで認識した音声が誤認識であると判った時に、該誤認
識音声を再入力することにより、次の2段マツチング処
理で得られる最大類似度値が所定の閾値より小さくなる
ので、この時の入力パタン記憶手段の入力パタンを保存
した状態で、第2段マツチング処理から前段の第1段マ
ツプ・ング処理に自動的に戻すことができる。
きる入力計重がそれぞれ制限きれている少なくとも2段
のマツチング処理が行える装置であり、第1段マツチン
グで認識した音声が誤認識であると判った時に、該誤認
識音声を再入力することにより、次の2段マツチング処
理で得られる最大類似度値が所定の閾値より小さくなる
ので、この時の入力パタン記憶手段の入力パタンを保存
した状態で、第2段マツチング処理から前段の第1段マ
ツプ・ング処理に自動的に戻すことができる。
(へ)実施例
第1図に本発明の音声、認識装置の構成を示す。
同図の本発明装置は、音声を入力する入力部(1)と、
入力音声から特徴パラメータを抽出する前処理部(2)
と予め作成しである2種類のグループの標準パタンで、
第一の入力音声との間でマツチングを行なう標準パタン
(5)と、第二の入力音声との間でマツチングを行なう
標準パタン(6)と、これらの標準パタンと前処理部(
2)によって特徴抽出された入力パタンとの間で距離(
誤差と等しく類似度とは逆数的関係にある)計算を行な
って、最小距離のパタンを!5識結果として出力する識
別部(4)を基本構成としている。
入力音声から特徴パラメータを抽出する前処理部(2)
と予め作成しである2種類のグループの標準パタンで、
第一の入力音声との間でマツチングを行なう標準パタン
(5)と、第二の入力音声との間でマツチングを行なう
標準パタン(6)と、これらの標準パタンと前処理部(
2)によって特徴抽出された入力パタンとの間で距離(
誤差と等しく類似度とは逆数的関係にある)計算を行な
って、最小距離のパタンを!5識結果として出力する識
別部(4)を基本構成としている。
更に同図実施例構成を以下に詳述する。
まず、第一の音声が入力部(1)に入力されると入力さ
れた音声は前処理部(2)で特徴パラメータが抽出され
、標準パタン(5)との距離計算が識別部(4)で行な
われ、認識結果が結果格納部(7)に格納される。そこ
で制御部(9)は音声指令のための第二の音声入力待ち
状態にし、第二の音声が入力部(1)に入力されると前
処理部(2)で特徴パラメータが抽出された後、入力パ
タン格納部(3)にその特徴パタンか格納される。そし
て、標準パタン(6)との距離計算が識別部(4)で行
なわれ、その時のマツチング距離が距離比較部(8)で
、予め定められたしきい値と比較きれる。即ち、距離が
小さい程、類似度は大きい事になる。従って、この距離
が所定のしきい値より大きい場合(類似度が所定の値よ
り小さい場合〉には、制御部(9)に対して認識結果無
効信号を出し、それを受は取った制御部(9)は結果格
納部(7)に対して消去信号を出して、第一の入力音声
に対する認識結果を消去する。さらに、入力パタン格納
部(3)に対して入力パタン出力信号を出し、識別部(
4)において標準パタン(5)との間で距離計算を行な
い、その結果を結果格納部(7)に格納する。
れた音声は前処理部(2)で特徴パラメータが抽出され
、標準パタン(5)との距離計算が識別部(4)で行な
われ、認識結果が結果格納部(7)に格納される。そこ
で制御部(9)は音声指令のための第二の音声入力待ち
状態にし、第二の音声が入力部(1)に入力されると前
処理部(2)で特徴パラメータが抽出された後、入力パ
タン格納部(3)にその特徴パタンか格納される。そし
て、標準パタン(6)との距離計算が識別部(4)で行
なわれ、その時のマツチング距離が距離比較部(8)で
、予め定められたしきい値と比較きれる。即ち、距離が
小さい程、類似度は大きい事になる。従って、この距離
が所定のしきい値より大きい場合(類似度が所定の値よ
り小さい場合〉には、制御部(9)に対して認識結果無
効信号を出し、それを受は取った制御部(9)は結果格
納部(7)に対して消去信号を出して、第一の入力音声
に対する認識結果を消去する。さらに、入力パタン格納
部(3)に対して入力パタン出力信号を出し、識別部(
4)において標準パタン(5)との間で距離計算を行な
い、その結果を結果格納部(7)に格納する。
一方、しきい値より小さい場合(類似度が所定の値より
大きい場合)には第二の音声の認識結果が制御部(9)
に送られ、それに対応した制御信号を出力する。
大きい場合)には第二の音声の認識結果が制御部(9)
に送られ、それに対応した制御信号を出力する。
次に、本発明の音声認識装置をオートダイヤルT話機に
採用した場合の一例を以下に示す。
採用した場合の一例を以下に示す。
まず、第1標準パタンメモリ(5)の第1グループ標準
パタンとして下記茨の多数のダイヤル先名称、第2N4
準パタンメモリ(6)の第2グループ標準パタンとして
下記表の2語の音声指令を月意しておく。
パタンとして下記茨の多数のダイヤル先名称、第2N4
準パタンメモリ(6)の第2グループ標準パタンとして
下記表の2語の音声指令を月意しておく。
表:標準パタン化された音声
なお、上表の音声指令の1ソウシユツ」は[送出コ(ダ
イヤル先名称に対応したダイヤルを送出する)、「コウ
ホ、は[候補](認識結果の次候補を出力する)を示し
ている。
イヤル先名称に対応したダイヤルを送出する)、「コウ
ホ、は[候補](認識結果の次候補を出力する)を示し
ている。
まず、発声者が第1ステツプで、第一の音声(相手先、
即ちダイヤル先名称)「サンヨウ」を発声し、上記第1
標準パタンメモリ(5)の第1グループ標準パタンを用
いて認識処理(距離計算)した結果が1マツシタ」と間
違った場合、次のステップで第二の音声(音声指令)1
候補」を発声し、上記第2標準パタンメモリ(6)の第
1グループ標準パタンを用いて認識処理して次候補を出
力すればよいわけであるが、目的の1サンヨウ、が下位
候補からなかなか出てこない場合がある。そのような場
合に例えば、従来装置のように1キヤンセル、等の指示
語によって第1ステツプにもどして第一の音声入力待ち
状態にし、再度ダイヤル先名称を発声するのは面倒であ
る。
即ちダイヤル先名称)「サンヨウ」を発声し、上記第1
標準パタンメモリ(5)の第1グループ標準パタンを用
いて認識処理(距離計算)した結果が1マツシタ」と間
違った場合、次のステップで第二の音声(音声指令)1
候補」を発声し、上記第2標準パタンメモリ(6)の第
1グループ標準パタンを用いて認識処理して次候補を出
力すればよいわけであるが、目的の1サンヨウ、が下位
候補からなかなか出てこない場合がある。そのような場
合に例えば、従来装置のように1キヤンセル、等の指示
語によって第1ステツプにもどして第一の音声入力待ち
状態にし、再度ダイヤル先名称を発声するのは面倒であ
る。
本発明に於いては、上記第2ステツプでの音声指令入力
待ちの状態でいきなり1サンヨウ、と発声すると、この
入力音声のパタンか入力パタン格納部(3〉に格納され
た状態で、この入力パタンと第2グループ標準パタンの
[送出コ、[候補コのパタンとの間で夫々マツチングを
行なうが、そのマ/ナング距離があらかじめ定められた
値より大きくなるので、対象とする標準パタンを第2標
準パタンメモリ(6)の第2グループ標準パタンから’
$ljM準パタンメモリ(5)の第2 Il準パタンに
切り替えて、再度マツチングを行ない、その結果を出力
する。この場合、音声指令のための対象語は2語だけな
ので、しきい値をきびしく()Jlさく)シておけばよ
い。
待ちの状態でいきなり1サンヨウ、と発声すると、この
入力音声のパタンか入力パタン格納部(3〉に格納され
た状態で、この入力パタンと第2グループ標準パタンの
[送出コ、[候補コのパタンとの間で夫々マツチングを
行なうが、そのマ/ナング距離があらかじめ定められた
値より大きくなるので、対象とする標準パタンを第2標
準パタンメモリ(6)の第2グループ標準パタンから’
$ljM準パタンメモリ(5)の第2 Il準パタンに
切り替えて、再度マツチングを行ない、その結果を出力
する。この場合、音声指令のための対象語は2語だけな
ので、しきい値をきびしく()Jlさく)シておけばよ
い。
(ト)発明の効果
本発明の音声認識装置によれば、認識対象語によって標
準パタンをグループ分けすることで、認識の時のしきい
値をきびしくしても高性能な認識率を得ることができる
。また、語鵞の選択のための認識と音声指令のための認
識という2段階制御を行なう場合に、異なる標準パタン
のどちらとマツチングをとるかを予め選択するための音
声指令を行なう必要がないので使用者の負担が軽減でき
る。
準パタンをグループ分けすることで、認識の時のしきい
値をきびしくしても高性能な認識率を得ることができる
。また、語鵞の選択のための認識と音声指令のための認
識という2段階制御を行なう場合に、異なる標準パタン
のどちらとマツチングをとるかを予め選択するための音
声指令を行なう必要がないので使用者の負担が軽減でき
る。
第1図は本発明の音声認識装置のブロンク図である。
(1)・・・入力部、(2)・・・前処理部、(3・・
・入力パタン格納部、(4)・・・識別部、(5・・・
第1標準パタンメモリ、 (6・・・第2標準パタンメモリ、 (7・・・結果格納部、(8)・・・距離比較部、(9
)・・・制御部。
・入力パタン格納部、(4)・・・識別部、(5・・・
第1標準パタンメモリ、 (6・・・第2標準パタンメモリ、 (7・・・結果格納部、(8)・・・距離比較部、(9
)・・・制御部。
Claims (1)
- (1)入力音声パタンと予じめ用意された多数の標準音
声パタンとを比較して最も類似した標準パタンの音声を
入力音声と認識する音声認識装置に於て、 少なくとも2グループに分類された標準パタンをグルー
プ別に格納した標準パタン記憶手段と、最新の入力音声
の入力パタンを記憶しておく入力パタン記憶手段と、第
1グループの上記標準パタン記憶手段の各標準パタンと
上記入力パタン記憶手段の入力音声パタンとをパタンマ
ッチングにより比較して類似度計算を行う第1段マッチ
ング手段と、第2グループの上記標準パタン記憶手段の
各標準パタンと上記入力パタン記憶手段の入力音声パタ
ンとをパタンマッチングにより比較して類似度計算を行
う第2段マッチング手段と、上記第1段マッチング手段
で認識した音声を報知する報知手段、上記第2段マッチ
ング処理で得られる最大類似度値が所定の閾値より小さ
い場合に、この時の入力パタン記憶手段の入力パタンを
保存した状態で、第2段マッチング手段のマッチング処
理から上記第1段マッチング手段のマッチング処理に差
し戻す制御を司る制御手段を備えてなる音声認識装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1096706A JPH02275497A (ja) | 1989-04-17 | 1989-04-17 | 音声認識装置 |
| US07/896,414 US5301227A (en) | 1989-04-17 | 1992-06-10 | Automatic dial telephone |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1096706A JPH02275497A (ja) | 1989-04-17 | 1989-04-17 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02275497A true JPH02275497A (ja) | 1990-11-09 |
Family
ID=14172199
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1096706A Pending JPH02275497A (ja) | 1989-04-17 | 1989-04-17 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02275497A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000348187A (ja) * | 1999-03-29 | 2000-12-15 | Sony Corp | 画像処理装置および画像処理方法、並びに記録媒体 |
-
1989
- 1989-04-17 JP JP1096706A patent/JPH02275497A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000348187A (ja) * | 1999-03-29 | 2000-12-15 | Sony Corp | 画像処理装置および画像処理方法、並びに記録媒体 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3150085B2 (ja) | マルチモーダル電話機 | |
| US5165095A (en) | Voice telephone dialing | |
| US5917889A (en) | Capture of alphabetic or alphanumeric character strings in an automated call processing environment | |
| JP3204632B2 (ja) | 音声ダイヤルサーバー | |
| EP0601876A1 (en) | Method and system preventing entry of confusingly similar phrases in a voice recognition system vocabulary list | |
| US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
| CA2058644C (en) | Voice activated telephone set | |
| KR20050033248A (ko) | 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법 | |
| JPH02275497A (ja) | 音声認識装置 | |
| US6801890B1 (en) | Method for enhancing recognition probability in voice recognition systems | |
| JPH03248199A (ja) | 音声認識方式 | |
| JPS5823097A (ja) | 音声認識装置 | |
| EP1187441A2 (en) | Audio recognition method and device for sequence of numbers | |
| Martin | Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices | |
| JP2788658B2 (ja) | 音声ダイヤル装置 | |
| JPS6361300A (ja) | 音声認識方式 | |
| JP3112556B2 (ja) | 音声ダイヤラ | |
| JPH0432900A (ja) | 音声認識装置 | |
| KR100230972B1 (ko) | 전전자교환기의 화자종속 음성인식서비스 장치 및 방법 | |
| JPS638798A (ja) | 音声認識装置 | |
| JPS605337A (ja) | 音声入力方式 | |
| JPH03157696A (ja) | 音声応答認識方式 | |
| JPH03180897A (ja) | 音声認識装置 | |
| TWM645251U (zh) | 互動式語音應答服務系統 | |
| JP2005159395A (ja) | 電話受け付け翻訳システム |