JPH08160988A

JPH08160988A - 音声認識装置

Info

Publication number: JPH08160988A
Application number: JP6303336A
Authority: JP
Inventors: Masanori Omote; 雅則表; Masao Watari; 雅男渡; Kazuo Ishii; 和夫石井; Yasuhiko Kato; 靖彦加藤; Hiroaki Ogawa; 浩明小川; Kazuo Watanabe; 一夫渡辺; Katsuki Minamino; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-12-07
Filing date: 1994-12-07
Publication date: 1996-06-21

Abstract

(57)【要約】【目的】利用者に、装置の認識対象語彙を容易に理解
させることができるようにする。【構成】類似度計算部５において、マイク１に入力さ
れた音声と、単語辞書に登録されている単語との類似度
を示すスコアが計算される。そして、出力装置７では、
そのスコアの高い順に所定数の単語が表示され、それに
続けて、認識辞書に登録されているその他の単語も表示
される。出力装置７の表示は、キー入力装置８を操作す
ることによりスクロールさせることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、発話された単語を認識
する音声認識装置に関する。

【０００２】

【従来の技術】音声認識装置は、それ自体単独で用いら
れることは少なく、通常は、他の装置に組み込まれ、例
えばその装置を動作させる命令などを、音声で入力する
ための入力装置として用いられる場合が多い。

【０００３】ところで、音声認識装置で１００％の認識
率を達成するのは困難であり、従って、発話者に対して
認識結果の確認を行わずに、その認識結果に対応する命
令を実行することは、誤った処理を行うことになる。即
ち、例えば駅の自動券売機に、駅名を認識対象単語とす
る離散単語音声認識装置を組み込み、認識結果の確認を
行わず発券するようにした場合、認識結果が誤っている
ときには、利用者が意図していない乗車券の発行がされ
ることになる。この場合、利用者および駅の職員の両方
に、乗車券の再発行手続という手間をかけさせることに
なる。

【０００４】そこで、複数の認識結果候補を、例えばタ
ッチパネル付きの画面に表示し、その中から、利用者
に、正しい駅名を選択させる、音声認識装置付き自動券
売機の公開実験などが行われている。

【０００５】

【発明が解決しようとする課題】ところで、従来の離散
単語音声認識装置としては、例えば数１０乃至数１００
程度の単語を認識対象とするものが一般的であるが、そ
の利用にあたっては、利用者が、その認識対象語彙（単
語）を容易に知り得ることが重要である。上述したよう
に、音声認識装置を自動券売器に組み込んだ場合には、
利用者は、認識対象語彙が駅名であると判断することが
できる。従って、利用者は、駅名を発声すれば良いこと
を容易に認識することができる。さらに、通常、自動券
売機の近くには、駅名と運賃とが記載された運賃表が掲
示されているので、利用者は、それを見て、自身が希望
する駅名を発声すれば良い。

【０００６】しかしながら、このように認識対象語彙を
容易に知り得ない場合に、誤った認識結果が得られたと
きには、利用者は、それが装置の誤認識によるものなの
か、あるいは、発話した単語が認識対象語彙となってい
なかったことによるものなのか分からず、従って同一単
語を繰り返し発話する必要があった。

【０００７】さらに、例えば利用者が風邪などで声の調
子が悪い場合や、利用者と音声認識装置との相性が悪い
場合、また装置の使い方を誤った場合などでも、誤った
認識結果が得られることがあるが、このような場合で
も、やはり利用者には、それが装置の誤認識によるもの
なのか、あるいは、発話した単語が認識対象語彙となっ
ていなかったことによるものなのか分からず、装置の使
い勝手が悪かった。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、装置の認識対象語彙を利用者に容易に認
識させることにより、装置の使い勝手を向上させること
ができるようにするものである。

【０００９】

【課題を解決するための手段】本発明の音声認識装置
は、認識対象単語が登録されている単語辞書（例えば、
図１に示す認識辞書など）と、入力された音声と、単語
辞書に登録されている単語との類似度を表すスコアを計
算し、そのスコアの高い順に所定数の単語を出力するス
コア計算手段（例えば、図１に示す類似度計算部５な
ど）と、スコア計算手段より出力された所定数の単語
と、それに続けて単語辞書に登録されている単語とを表
示する表示手段（例えば、図１に示す出力装置７など）
と、表示手段に表示された単語の中から、音声の認識結
果を選択するときに操作される操作手段（例えば、図１
に示すキー入力装置８など）とを備えることを特徴とす
る。

【００１０】表示手段は、操作手段の操作に対応してス
クロールさせることができる。また、表示手段には、操
作手段の操作に対応してページを切り替えさせることが
できる。さらに、表示手段には、スコア計算手段により
出力された所定数の単語を、スコアの高い順に表示させ
ることができる。また、表示手段には、単語辞書に登録
されている他の単語を、文字コード順に表示させること
ができる。さらに、表示手段には、単語辞書に登録され
ている他の単語を、登録順に表示させることができる。
また、表示手段には、単語辞書に登録されている他の単
語を、５０音順に表示させることができる。また、認識
対象単語は、地名とすることができる。

【００１１】認識対象単語が地名である場合、表示手段
には、単語辞書に登録されている他の単語である地名
を、ＪＩＳコード順に表示させることができる。

【００１２】

【作用】上記構成の音声認識装置においては、入力され
た音声と、単語辞書に登録されている単語とのスコアが
計算され、そのスコアの高い順に所定数の単語が表示さ
れるとともに、単語辞書に登録されている他の単語も表
示される。そして、表示された単語の中から、音声の認
識結果が選択される。従って、利用者は、装置の認識対
象語彙を容易に認識することができるので、装置の使い
勝手を向上させることができる。

【００１３】

【実施例】図１は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。マイク１は、音声を電気
信号としての音声信号に変換するようになされている。
特徴抽出部２は、マイク１からの音声信号をＡ／Ｄ変換
してディジタル信号とし、さらにその音声信号を、所定
のフレーム単位（例えば、１０ｍｓ単位など）で音響分
析して、音声の特徴パラメータを抽出するようになされ
ている。即ち、特徴抽出部２は、例えば複数のＢＰＦで
なるフィルタバンクを有し、各ＢＰＦの整流平滑化出力
を特徴パラメータとして出力するようになされている。
さらに、特徴抽出部２は、音声信号のゼロクロス数など
も算出するようになされている。

【００１４】なお、特徴抽出部２には、その他、例えば
自己相関分析やＬＰＣ分析などを行わせて、特徴パラメ
ータを抽出させるようにしても良い。

【００１５】区間検出部３は、特徴抽出部２で求められ
た特徴パラメータ（特徴ベクトル）の大きさや、ゼロク
ロス数などに基づいて音声区間を判定（検出）し、音声
区間における特徴パラメータのみをベクトル量子化部４
に供給するようになされている。ベクトル量子化部４
は、区間検出部３から供給される特徴パラメータ（特徴
ベクトル）を、あらかじめ作成されたコードブックを参
照してベクトル量子化するようになされている。ベクト
ル量子化の結果得られたコード（シンボル）は、類似度
計算部５に供給されるようになされている。

【００１６】類似度計算部５は、所定の音声認識アルゴ
リズムにしたがって、認識辞書に登録されている単語
（それぞれ）と、マイク１に入力された音声との類似度
を表すスコアを計算するようになされている。即ち、類
似度計算部５は、例えば離散型ＨＭＭ（Hidden Markov
Models）法にしたがい、モデルセットおよび認識辞書を
参照して、ベクトル量子化部４から供給されるコードが
観測される尤度を算出するようになされている。

【００１７】ここで、モデルセットには、あらかじめ学
習により得られたモデル（例えば、音韻モデルなど）が
記憶されており、認識辞書には、認識対象語彙とされて
いる単語が登録されている。類似度計算部５は、認識辞
書に登録されている単語を構成するように、モデルセッ
トに記憶されている音韻モデルを接続し、そのモデルか
ら、ベクトル量子化部４より出力されるコードが観測さ
れる尤度を計算するようになされている。

【００１８】なお、ここでは、尤度は、例えばビタビ
（Viterbi）法によって計算されるようになされてい
る。但し、尤度は、その他、例えばフォワード（Forwar
d）法によって計算するようにしても良い。また、認識
辞書に登録されている単語と、マイク１に入力された音
声との類似度を表すスコアは、離散ＨＭＭ法以外の、例
えば連続ＨＭＭ法や、ＤＰ（Dynamic Programing）マッ
チング法に代表されるＤＴＷ（Dynamic Time Warping）
法などの音声認識アルゴリズムにしたがって計算するよ
うにすることが可能である。例えば連続ＨＭＭ法を用い
る場合には、モデルセットに連続モデルを記憶させ、区
間検出部３からの特徴パラメータをベクトル量子化せず
にそのまま用いるようにすれば良い。

【００１９】表示選択制御部６は、類似度計算部５で計
算された尤度（以下、適宜、スコアという）の高い順
に、所定数の単語を、認識結果候補として認識辞書から
読み出し、出力装置７に供給して表示させるようになさ
れいている。さらに、表示選択制御部６は、認識辞書に
登録されているその他の単語も読み出し、認識結果候補
に続けて、出力装置７に供給して表示させるようになさ
れている。

【００２０】キー入力装置８は、例えばジョイスティッ
クやカーソルキー（例えば、上カーソルキーと下カーソ
ルキーなど）などの、少なくともカーソルを上下に移動
させるキーと、カーソルが指示している位置を確定する
確定キーとで構成されている。そして、キー入力装置８
は、出力装置７に表示された単語を選択したり、また出
力装置７の表示をスクロールさせたり、あるいはページ
を切り替えさせるときに操作される。キー入力装置８の
操作に対応する操作信号は、表示選択制御部６に供給さ
れ、表示選択制御部６では、キー入力装置８からの操作
信号に対応して、出力装置７の表示が制御されるように
なされている。

【００２１】出力装置７は、例えばＬＣＤやＣＲＴなど
でなり、表示選択制御部６の制御にしたがった表示を行
うようになされている。

【００２２】次に、図２のフローチャートを参照して、
その動作について説明する。まず最初にステップＳ１で
は、音声認識が行われる。即ち、マイク１に音声が入力
され、特徴抽出部２で、その音声から特徴パラメータが
抽出される。この特徴パラメータは、区間検出部３を介
してベクトル量子化部４に供給され、そこでベクトル量
子化される。ベクトル量子化により得られたコードは、
類似度計算部５に出力され、そこで、そのコード系列
が、認識辞書に登録されている単語から観測される尤度
が計算される。即ち、入力された音声と、認識辞書に登
録されている単語との類似度を表すスコアが計算され
る。

【００２３】そして、ステップＳ２に進み、表示選択制
御部６で、計算結果であるスコアがが昇順にソートさ
れ、そのうちの上位数個の単語が、認識辞書から読み出
されて、結果リストとされて記憶される。その後、表示
選択制御部６では、ステップＳ３に進み、認識辞書に登
録されている、その他の単語（エントリ）が、例えば登
録順に、結果リストに追加される。

【００２４】以上のようにして、結果リストの最初の部
分には、スコアの計算に基づく単語が記憶され、それ以
降には、認識辞書に登録されているその他の単語が記憶
される。

【００２５】そして、ステップＳ４に進み、結果リスト
に記憶された単語のうち、最初の部分に記憶されている
もの、即ちスコアの上位の単語が、出力装置７に供給さ
れて表示される。なお、このとき、出力装置７には、カ
ーソルキーも表示される。

【００２６】その後は、キー入力装置８の操作に対応し
て、結果リストに記憶された単語が適宜表示される。即
ち、ステップＳ５においては、キー入力装置８が上方向
に操作されたか否か（キー入力装置８を構成する上キー
（上方向カーソルキー）が操作されたか否か）が判定さ
れる。ステップＳ５において、上キーが操作されたと判
定された場合、ステップＳ６に進み、カーソルキーが上
方向に移動され、ステップＳ４に戻る。なお、この場
合、カーソルキーが、出力装置７の画面の最上行に位置
しているときには、画面が下方向にスクロール（あるい
は、前ページにページ切り替え）され、ステップＳ４に
戻る。これにより、結果リストにおいて、いま表示され
ている単語より前に記憶されている単語が表示される。

【００２７】また、ステップＳ５において、上キーが操
作されていないと判定された場合、ステップＳ７に進
み、キー入力装置８が下方向に操作されたか否か（キー
入力装置８を構成する下キー（下方向カーソルキー）が
操作されたか否か）が判定される。ステップＳ７におい
て、下キーが操作されたと判定された場合、ステップＳ
８に進み、カーソルキーが下方向に移動され、ステップ
Ｓ４に戻る。なお、この場合、カーソルキーが、出力装
置８の画面の最下行に位置しているときには、画面が上
方向にスクロール（あるいは、次ページにページ切り替
え）され、ステップＳ４に戻る。これにより、結果リス
トにおいて、いま表示されている単語より後に記憶され
ている単語が表示される。

【００２８】一方、ステップＳ７において、下キーが操
作されていないと判定された場合、ステップＳ９に進
み、キー入力装置８を構成する確定キーが操作されたか
否かが判定される。ステップＳ９において、確定キーが
操作されていないと判定された場合、ステップＳ５に戻
る。また、ステップＳ９において、確定キーが操作され
たと判定された場合、ステップＳ１０に進み、所定の確
定動作が行われ、処理を終了する。即ち、確定キーが操
作されたときにカーソルが位置していた単語が、例えば
図示せぬ他の装置に供給され、処理を終了する。

【００２９】図３は、認識対象語彙を地名として、例え
ば「岡山市」と発話があった場合の出力装置７における
表示例を示している。なお、図３では、認識結果が、ス
コアの高い順に５個表示されるようになされている。

【００３０】この場合、「和歌山市」、「岡山市」、
「徳山市」、「福山市」、「館山市」の順で、高いスコ
アが得られており、最初は、最もスコアの高い「和歌山
市」の部分に、カーソル１１が位置している。発話した
地名が、例えば「和歌山市」である場合には、この状態
でキー入力装置８の確定キーを操作すれば、「和歌山
市」が音声認識結果として得られる。また、発話した地
名が、例えば「岡山市」である場合には、キー入力装置
８の下キーを１回操作した後、確定キーを操作すれば、
「岡山市」を得ることができる。

【００３１】ここで、発話した地名が、例えば「高山
市」である場合には、「高山市」が認識辞書に登録され
ていれば、キー入力装置８を操作して画面をスクロール
させることにより「高山市」が表示される。従って、こ
の場合、「高山市」を表示させた後、カーソルをその位
置に移動し、確定キーを操作すれば、「高山市」を得る
ことができる。即ち、スコアの計算からは得られなかっ
た単語であっても、認識辞書に登録されていれば得るこ
とができる。

【００３２】以上のように、この音声認識装置において
は、スコアの計算の結果得られた単語（スコアが高い順
に所定数の単語）だけでなく、認識対象として登録され
ている他の単語も表示されるので、発話した単語が、ス
コアの計算の結果表示されなくても、認識辞書に登録さ
れていれば、利用者は、キー入力装置８を操作すること
により、その単語を得ることができる。さらに、発話し
た単語が表示されない場合には、それが誤認識によるも
のではなく、認識対象単語となっていないことによるも
のであることを、容易に理解することができるので、利
用者は、精神的な不安を抱くことなく（安心して）、装
置を利用することができる。

【００３３】さらに、例えば利用者が風邪などで声の調
子が悪い場合や、利用者と音声認識装置との相性が悪い
場合、また装置の使い方を誤った場合などに、誤った認
識結果が得られたとしても、発話した単語が、認識辞書
に登録されていれば、キー入力装置８を操作することに
より、正しい単語を得ることができるので、装置の使い
勝手を向上させることができる。

【００３４】以上、本発明の音声認識装置について説明
したが、本発明は、例えば認識対象語彙が１００程度
で、可搬型の装置である、例えばカーナビゲーションシ
ステムなどに適用可能である。この場合、目的地とし
て、例えば観光地などの、一般的には認識対象となって
いるかどうかが不明な名称（地名）を音声入力したとき
でも、利用者は、それが認識対象単語となっているかど
うかを容易に知ることができる。

【００３５】なお、本実施例においては、認識辞書に登
録された単語を、登録順に表示するようにしたが、その
他、例えば文字コード順や、５０音順などに表示するよ
うにすることなどが可能である。また、認識辞書に登録
された単語が地名である場合には、その地名を、例えば
ＪＩＳコード順に表示するようにすることも可能であ
る。

【００３６】

【発明の効果】以上の如く、本発明によれば、利用者
に、装置の認識対象語彙を容易に理解させることがで
き、装置の使い勝手を向上させることができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図２】図１の実施例の動作を説明するフローチャート
である。

【図３】図１の出力装置７の表示例を示す図である。

【符号の説明】

１マイク２特徴抽出部３区間検出部４ベクトル量子化部５類似度計算部６表示選択制御部７出力装置８キー入力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者加藤靖彦東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小川浩明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者渡辺一夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者南野活樹東京都品川区北品川６丁目７番35号ソニー株式会社内

Claims

【特許請求の範囲】

【請求項１】認識対象単語が登録されている単語辞書
と、入力された音声と、前記単語辞書に登録されている単語
との類似度を表すスコアを計算し、そのスコアの高い順
に所定数の単語を出力するスコア計算手段と、前記スコア計算手段より出力された前記所定数の単語
と、それに続けて前記単語辞書に登録されている他の単
語とを表示する表示手段と、前記表示手段に表示された単語の中から、前記音声の認
識結果を選択するときに操作される操作手段とを備える
ことを特徴とする音声認識装置。
【請求項２】前記表示手段は、前記操作手段の操作に
対応してスクロールすることを特徴とする請求項１に記
載の音声認識装置。
【請求項３】前記表示手段は、前記操作手段の操作に
対応してページを切り替えることを特徴とする請求項１
に記載の音声認識装置。
【請求項４】前記表示手段は、前記スコア計算手段に
より出力された前記所定数の単語を、前記スコアの高い
順に表示することを特徴とする請求項１乃至３のいずれ
かに記載の音声認識装置。
【請求項５】前記表示手段は、前記単語辞書に登録さ
れている前記他の単語を、文字コード順に表示すること
を特徴とする請求項１乃至４のいずれかに記載の音声認
識装置。
【請求項６】前記表示手段は、前記単語辞書に登録さ
れている前記他の単語を、登録順に表示することを特徴
とする請求項１乃至４のいずれかに記載の音声認識装
置。
【請求項７】前記表示手段は、前記単語辞書に登録さ
れている前記他の単語を、５０音順に表示することを特
徴とする請求項１乃至４のいずれかに記載の音声認識装
置。
【請求項８】前記認識対象単語は、地名であることを
特徴とする請求項１乃至７のいずれかに記載の音声認識
装置。
【請求項９】前記認識対象単語は、地名であり、前記表示手段は、前記単語辞書に登録されている前記他
の単語である地名を、ＪＩＳコード順に表示することを
特徴とする請求項１乃至４のいずれかに記載の音声認識
装置。