JPH11143487A

JPH11143487A - 音声文字変換方法と音声文字変換装置

Info

Publication number: JPH11143487A
Application number: JP9308252A
Authority: JP
Inventors: Hiroyuki Ono; 弘幸大野; Tadashi Teramine; 正寺峰
Original assignee: Osaka Gas Co Ltd
Current assignee: Osaka Gas Co Ltd
Priority date: 1997-11-11
Filing date: 1997-11-11
Publication date: 1999-05-28

Abstract

(57)【要約】【課題】同じ言葉を何度も繰り返すことなく正しい文
字データに変換することが可能な変換する音声文字変換
技術を提供すること。【解決手段】入力された音声を複数のセグメントに分
割して各セグメントに対して１以上の音素を割り当てる
音素認識手段(3) と、前記音素に基づいて１以上の単語
を決定する文字列変換手段(4) と、記憶部(51)に格納さ
れた前記単語の１つを確定単語としてモニター(52)に表
示するとともに確定単語以外の単語を表示の次候補とす
る確定単語選択手段(6) とが備えられている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された音声信
号を認識して、文字データに変換する音声文字変換技術
に関する。

【０００２】

【従来の技術】ファクトリー・オートメーション、オフ
ィス・オートメーション、ホームオートメーションが進
むとともに、数多くの機械が職場や家庭に導入されてい
るが、これらの機械へ命令を伝達する入力インタフェー
スとして、キーボードやマウスなどのポインティングデ
ィバイスが主に利用されている。しかしながら、キーボ
ードを通じての命令の入力は、キーボード操作が不得手
のものにとって、非常にわずらわしく、入力エラーがつ
きまとう。より、ユーザーフレンドリーなインターフェ
ースとしてアイコンやイラストを用いたグラフィックイ
ンターフェースがあり、そこでは、マウス等を用いて表
示されるメニューから所望の命令を選択する。この場
合、命令の数が少なければよいが、命令がある程度の数
となれば、メニューの階層が深くなり、所望の命令にた
どり着くのに多くの時間を要することになる。このよう
な欠点を解消すべく音声認識を用いた音声入力方式が登
場し始めている。音声認識のもつ利点は、入力に熟練を
要しないことや、目や手を用いないので他の作業を行っ
ている間に入力が行えることなどがあり、その期待は大
きい。

【０００３】

【発明が解決しようとする課題】しかしながら、現状の
音声認識の技術は高い信頼性をもって確立しているとは
言えず、しばしば誤認識が生じる。特に、不特定話者連
続音声認識では、話し手のくせなどにより同じような誤
認識が続いたり、同じ言葉を意識して口調を変えながら
発音しなければ正しく認識されないということが頻繁に
生じる。本発明の目的は、同じ言葉を何度も繰り返すこ
となく正しい文字データに変換することが可能な変換す
る音声文字変換方法と音声文字変換装置を提供すること
である。

【０００４】

【課題を解決するための手段】上記目的を達成するた
め、本発明による音声文字変換方法は、入力された音声
を複数のセグメントに分割して音素認識し、各セグメン
トに対して１以上の音素を割り当て、この音素に基づい
て決定された１以上の単語を記憶部に格納し、格納され
た単語の１つを確定単語として出力するとともに前記確
定単語以外の単語を次候補とすることを特徴とする。

【０００５】この方法では、それ自体は公知な音素認識
手法を用いて割り当てられた音素に対して１以上の単語
を対応付けて記憶部に格納し、１以上の単語から選択さ
れた１つの単語を確定単語として制御コマンドとすると
ともに、確定単語以外の単語を表示次候補とし、確定単
語が正しくない場合は表示次候補が確定単語として繰り
上げられる。確定単語が正しいものかどうかをチェック
するためには、例えば、確定単語をモニターに表示して
オペレータの判断を仰ぐことができるし、確定単語を音
声出力してオペレータの判断を仰ぐことも可能である。
いずれにしても、例えば、最初の確定単語が正しくなけ
れば、なんらかの次候補の表示のためのコマンドを送る
ことにより次候補が次の確定単語として出力されるの
で、正しい音声認識を求めてオペレータが何度も同じ言
葉を繰り返しても、誤まっている同じ単語を繰り返して
出力するということは回避できる。

【０００６】確定単語と表示次候補とを区分けする好ま
しい方法として、例えば、前記音素に基づいて決定され
た単語には音素適合確率値をもって前記記憶部に格納さ
れ、高い確率値をもった単語から順に確定単語とするこ
とが提案される。音素に対応する単語には音素適合確率
値がリンクされているので、その確率値の高い順に単語
を表示していくことにより、同じ文字データが繰り返さ
れるというエラーがなくなるだけでなく、少ない選択回
数で正しい変換文字データに遭遇する可能性が高くな
る。

【０００７】さらに、本発明の好適な実施形態として、
所定時間以内に同じ音声が入力された場合次候補を確定
単語として出力する、例えばモニターに表示するような
方式を採用することが提案される。この場合、所定時間
以内の同じ音声の入力が先に確定単語に代えて次候補を
確定単語として出力するためのトリガーとなっているの
で、音声文字変換が正しくない場合でも、繰り返し発音
することで、順次異なる単語が確定単語として出力され
ていくので、繰り返し発音が同じ誤変換を繰り返すとい
う従来生じていたようなストレスをオペレータに与える
ことはなくなる。

【０００８】別な次候補出力トリガー方法として、例え
ば、予め最も認識されやすい音声を次候補の出力コマン
ドとして設定しておき、出力された単語が誤って認識さ
れていた場合、その次候補出力コマンドとしての音声を
発音することで次候補を順次表示させることも可能であ
る。

【０００９】上記目的を達成するため、本発明による音
声文字変換装置は、入力された音声を複数のセグメント
に分割して各セグメントに対して１以上の音素を割り当
てる音素認識手段と、前記音素に基づいて１以上の単語
を決定する文字列変換手段と、前記決定された単語を格
納する記憶部と、前記格納された単語の１つを確定単語
として出力するとともに前記確定単語以外の単語を表示
の次候補とする確定単語選択手段とを備えている。

【００１０】この装置では、文字列変換手段が割り当て
られた音素に対して１以上の単語を対応付けて記憶部に
格納し、確定単語選択手段が選択された１つの単語を確
定単語として出力して制御コマンドとして用いられると
ともに、出力された確定単語以外の単語を先の確定単語
の次候補として準備しておく。なんらかの次候補の確定
単語としての出力のためのコマンドを受け取ると、次候
補が先の確定単語に代えて出力されるので、正しい音声
認識を求めてオペレータが何度も同じ言葉を繰り返して
も、誤まっている同じ単語を繰り返して表示するという
ことは回避できる。もちろん、確定単語のチェックのた
めには、確定単語をモニターに表示することなどが提案
される。

【００１１】この音声文字変換装置においても、前記提
案された方法で述べたように、単語適合確率値をもって
記憶部に格納された単語に対して、確定単語選択手段が
高い確率値をもった単語から順に確定単語として選択す
ることにより、その確率値の高い順に単語が出力される
ことになるので、同じ文字データが繰り返されるという
エラーがなくなるだけでなく、少ない選択回数で正しい
変換文字データに遭遇する可能性が高くなる。

【００１２】また、所定時間以内に入力された音声が同
一であるかどうかを判定する入力音声評価手段が備えら
れ、所定時間以内に同じ音声が入力されたと判定された
場合、前記確定単語選択手段は前記次候補を確定単語と
して出力する（例えばモニターに表示する）構成を採用
するならば、音声文字変換が正しくない場合でも、繰り
返し発音することで、順次異なる単語は表示されていく
ので、繰り返し発音が同じ誤変換を繰り返すというスト
レスをオペレータに与えることはなくなる。本発明によ
るその他の特徴及び利点は、以下図面を用いた実施例の
説明により明らかになるだろう。

【００１３】

【発明の実施の形態】図１に本発明による音声文字変換
技術を用いた音声コマンド入力システムの機能ブロック
図が示されている。このシステムでは、オペレータがコ
マンドを発声することにより、プラント現場に配置され
た監視カメラが操作される。例えば、オペレータが「Ｌ
ＮＧ気化器１号」と発声すると、監視カメラがＬＮＧ気
化器１号に照準をあわせるべく作動して、モニターにＬ
ＮＧ気化器１号の様子を表示するのである。

【００１４】このシステムには、オペレータの発した音
声をアナログ音声信号に変換するマイク１、マイク１か
ら送られてきたアナログ音声信号をデジタル音声信号に
変換するＡ／Ｄ変換部２、音声信号を分析処理して発音
記号に似たような音素に置き換えていく音素認識手段
３、辞書ファイル４１にアクセスしながら音素列に適当
な単語を割り当てていく文字列変換手段４、割り当てら
れた単語を一時的に格納する記憶部５１、記憶部５１に
格納された単語から最適なものを確定単語として選択す
る確定単語選択手段６が備えられている。さらに、確定
単語選択手段６によって確定単語として選択された単語
はモニター５２に表示されるとともに、監視カメラ制御
手段７にも引き渡される。監視カメラ制御手段７を構成
するコマンド認識部７１は、監視カメラ制御手段７に引
き渡された確定単語からコマンド辞書ファイル７２にア
クセスして対応する制御コマンドを引き出し、この制御
コマンドはドライバー７３によって監視カメラ７４の駆
動モータを作動する制御信号に変換される。

【００１５】音素認識手段３は、それ自体は公知の音韻
認識アルゴリズムを用いたものであり、デジタル音声信
号から経時的な音声スペクトルを分析してその特徴パラ
メータを抽出する音響特徴抽出部３１と、この特徴パラ
メータから音韻コードを生成する音韻コード変換部３２
と、音韻コードに対応する音素を与える音素変換部３３
とを備えている。音素変換部３３で、音韻コードに対応
する音素を選択する際、一義的に音素が決定される場合
（つまり音素適合確率値が１）を除いて、複数の音素が
その音素適合確率値付きで選択される。文字列変換手段
４は、この音素適合確率値の高いものから順次組み合わ
せて制御コマンドとしての１つ以上の単語を生成し、記
憶部５１に格納する。その際、生成された単語には属性
値として単語適合確率値がリンクされる。単語適合確率
値は、例えば、その単語の元となった音素の音素適合確
率値を乗算して簡単に得ることができる。確定単語選択
手段６は、ある音声に対して複数の単語が存在する時に
はまず最も高い単語適合確率値をもった単語を確定単語
として、モニター５２に表示するとともに、これをカメ
ラ制御手段７に送り込み、監視カメラの操作をスタート
させる。

【００１６】ここで、もしモニター５２に表示された単
語がオペレータが発音したものと異なる場合、この確定
単語を取り消して正しい単語が認識されるようにしなけ
ればならないが、例えば、誤認識の原因がオペレータの
発音の癖などであれば、再度オペレータが再度正しい制
御コマンドを発音しても、必ずしも正しく音声認識され
るとは限らない。このため、本発明では、誤認識した場
合のために、先に決定された確定単語以外の単語、つま
り２番目に高い単語適合確率値をもった単語が次候補と
して用意されているので、この次候補を確定単語とすれ
ばよい。このような確定単語の入れ替えを正しい確定単
語が出力されるまで、順次やっていけばよいのである。

【００１７】この実施の形態では、次候補を確定単語と
するトリガーとして、所定時間（例えば２秒）以内にオ
ペレータが再度同じ制御コマンドを繰り返すこと、つま
りこのシステムに同じ音声信号が入力されることを利用
しており、そのために、入力音声評価手段８が備えられ
ている。この入力音声評価手段８は、Ａ／Ｄ変換部２か
ら入力された音声信号を所定時間前に入力された音声信
号と比較して、２つの信号が一致した場合単語替えコマ
ンドを確定単語選択手段に出力する。単語替えコマンド
を受け取った確定単語選択手段６は、次候補の単語を確
定単語とし、さらに次に高い単語適合確率をもつ単語を
次候補とする。もちろん、所定時間経過後にオペレータ
によって発音された音声は新たに音声認識される。

【００１８】以下図２を用いて、オペレータが「ＬＮＧ
気化器１号」と発声したことを例にとって、この音声コ
マンド入力システムの作用を説明する。マイク１から入
力された音声はゲインコントロールされた後、１６ｋＨ
ｚサンプリングと１６ビット量子化でデジタル信号化さ
れる。さらに、約６．６ミリ秒のフレーム毎に２０チャ
ンネルのフィルターバンクなどを用いて２３の音響特徴
パラメータ表現に変換される。この音響特徴パラメータ
は、２段階の決定木からなる音韻エンコーダによって音
韻コードに変換される。

【００１９】この２段階の決定木において、第１段の決
定木では、約６．６ミリ秒の各フレームの特徴量とし
て、そのフレームの２３の音響特徴量と、その前後のフ
レームの音響特徴量との関係から導かれる１６１の特徴
量を合わせた計１８４の特徴量を入力ベクトルとして用
いる。この第１段の決定木の出力は、次の段階でセグメ
ンテーションを行うための０番から８番までの９クラス
である。この９クラスをセグメントクラスと呼ぶ。第２
段の決定木では、特徴量として、そのセグメントのセグ
メントクラスや、そのセグメントを構成するフレームの
音響特徴量の平均などの特徴量と、その前後のセグメン
トの特徴量との関係から導かれる特徴量を合わせた計２
８２の特徴量を入力ベクトルとして用いる。この第２段
の決定木の出力は、音素よりさらに小さい単位である約
１８００種類の音韻コードである。

【００２０】得られた音韻コード列は、各音韻コードに
対して複数の音素を確率付きで割り当てた音韻コードフ
ァイルを参照しながら、音素適合確率付きで音韻コード
／音素変換される。各セグメント毎に所定の確率値以上
をもつ１つ以上の音素が選択される。この音素リスト
は、文法を参照しながら単語に変換されていくが、その
際例えば、”ＬＰＧ”という単語には単語適合確率値＝
０．６４が与えられ、”ＬＮＧ”という単語には、単語
適合確率値＝０．３６が与えられている。このように、
変換された単語は、記憶部５１に格納される。

【００２１】上述したように音声認識され、文字に変換
された単語は、確定単語選択手段６によって、その確率
値が大きいものを組み合わせて最も確からしいものから
順に確定単語、次候補とする。この例では、最も確率値
が大きかった”ＬＰＧ気化器１号”が最初の確定単語で
あり、”ＬＮＧ気化器１号”が次候補で、”ＬＰＧ気化
器２号”がこれに続く。よって、モニター５２には、図
３に示すように”ＬＰＧ気化器１号”が表示され、監視
カメラ７４はＬＰＧ気化器１号を撮影すべく作動し始め
る。

【００２２】しかしながら、オペレータが発音したのは
「ＬＮＧ気化器１号」であり、この結果は誤認識である
ので、オペレータは１秒後に再度「ＬＮＧ気化器１号」
と発音する。入力音声評価手段８は、誤認識のための再
入力を意味する所定時間、ここでは２秒以内での同じ音
声信号の入力を確認し、新たな音声認識処理をせずに或
いは新たな音声認識処理をしたとしてもその結果は無視
して、確定単語選択手段６に作用して、次候補である”
ＬＮＧ気化器１号”を確定単語として、モニター５２に
表示し、その結果、監視カメラ７４はＬＮＧ気化器１号
を撮影すべく作動を変更する。今度は正しい制御コマン
ドが送られたことになるので、必要の場合、オペレータ
は、少なくとも２秒の経過を待って、次の制御コマンド
を送るべく発音する。

【００２３】ここでの実施形態では、次候補表示のトリ
ガーとして同じ内容をもう１度発音することにしたが、
その他の方法、例えば、予め最も認識されやすい音声を
次候補の表示コマンドとして設定しておき、表示された
単語が誤って認識されていた場合、その次候補表示コマ
ンドとしての音声を発音することで次候補を順次表示さ
せることも可能である。

【００２４】また、確定単語のチェックのために、確定
単語はモニター５２に表示される構成に代えて、確定単
語を音声で出力することで、オペレータのチェックを受
けるようにしてもよい。

【００２５】本発明の重要な点は、何度も同じように誤
って音声認識されることを避けるため、１度行った音声
認識での結果で得られる他の言葉を次候補として利用す
ることである。この主旨から外れない限り、音声認識方
法としてその他の公知の方法を用いることも本発明の枠
内に入るものである。

【図面の簡単な説明】

【図１】本発明による音声文字変換技術を用いた音声コ
マンド入力システムの機能ブロック図

【図２】本発明による音声文字変換の流れを示す説明図

【図３】本発明による音声文字変換における記憶部とモ
ニター画面の様子を示す説明図

【符号の説明】

２Ａ／Ｄ変換部３音素認識手段４文字列変換手段６確定単語選択手段７カメラ制御手段８入力音声評価手段５１記憶部５２モニター

Claims

【特許請求の範囲】

【請求項１】入力された音声を複数のセグメントに分
割して音素認識し、各セグメントに対して１以上の音素
を割り当て、この音素に基づいて決定された１以上の単
語を記憶部に格納し、格納された単語の１つを確定単語
として出力するとともに前記確定単語以外の単語を次候
補とすることを特徴とする音声文字変換方法。
【請求項２】前記確定単語はモニターに表示させるた
めにモニターに出力されることを特徴とする請求項１に
記載の音声文字変換方法。
【請求項３】前記音素に基づいて決定された単語は音
素適合確率値をもって前記記憶部に格納され、高い確率
値をもった単語から順に確定単語とすることを特徴とす
る請求項１又は２に記載の音声文字変換方法。
【請求項４】所定時間以内に同じ音声が入力された場
合、前記次候補を確定単語として出力することを特徴と
する請求項１〜３のいずれか１項に記載の音声文字変換
方法。
【請求項５】入力された音声を複数のセグメントに分
割して各セグメントに対して１以上の音素を割り当てる
音素認識手段と、前記音素に基づいて１以上の単語を決
定する文字列変換手段と、前記決定された単語を格納す
る記憶部と、前記格納された単語の１つを確定単語とし
て出力するとともに前記確定単語以外の単語を表示の次
候補とする確定単語選択手段とを備えている音声文字変
換装置。
【請求項６】前記確定単語の確認のために前記確定単
語を表示するモニターが備えられていることを特徴とす
る請求項５に記載の音声文字変換装置。
【請求項７】前記音素に基づいて決定された単語は単
語適合確率値をもって前記記憶部に格納され、前記確定
単語選択手段は高い確率値をもった単語から順に確定単
語として選択することを特徴とする請求項５又は６に記
載の音声文字変換装置。
【請求項８】所定時間以内に入力された音声が同一で
あるかどうかを判定する入力音声評価手段が備えられて
おり、所定時間以内に同じ音声が入力されたと判定され
た場合、前記確定単語選択手段は前記次候補を確定単語
として出力することを特徴とする請求項５〜７のいずれ
か１項に記載の音声文字変換装置。