JPH0229231B2

JPH0229231B2 -

Info

Publication number: JPH0229231B2
Application number: JP59042661A
Authority: JP
Inventors: Mitsuhiro Toya; Shin Kamya
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1984-03-05
Filing date: 1984-03-05
Publication date: 1990-06-28
Also published as: JPS60185999A

Description

【発明の詳細な説明】

＜発明の技術分野＞本発明は入力された音声を音節単位に認識する
日本語音声入力装置の改良に関し、更に詳細には
入力時に発声された音声の認識結果にもとずい
て、誤認識に関与した特徴標準パターンを消去す
るように成したものである。＜発明の技術的背景とその問題点＞従来の音声認識装置においては、音声の特徴標
準パターンを登録する登録モードと、入力音声を
認識する認識モード（入力モード）とを分け、再
登録という形式での音節特徴パターンの入れ換え
を行なうことは出来ても、認識モードにおいて誤
認識に関与した特徴標準パターンを消去すること
が出来なかつた。このことは単語の認識を単位と
する場合にはあまり問題とならないが、音節を単
位とする場合には音節間の特徴パターンの差が小
さいため、切り出し位置等の影響により、特徴標
準パターンとして不適当なものがあつた場合に
は、認識性能の低下が生じるという問題点があつ
た。＜発明の目的＞本発明は上記の点に鑑みて成されたものであ
り、一つの音節に対して複数の特徴標準パターン
を備えるようにした日本語音声入力装置におい
て、誤認識に関与した不適当な特徴標準パターン
を消去することによつて、認識性能を向上させる
ことを目的とし、この目的を達成するため、本発
明の日本語音声入力装置は、入力時に発声された
音声の認識結果にもとずいて、誤認識に関与した
特徴標準パターンを消去する消去手段を備えるよ
うに構成されている。しかも本発明によれば入力した音声を記憶して
おくことにより、誤認識に関与した特徴標準パタ
ーンの消去を指示したときの、対応する部分の入
力音声を再生出力して、正確に音節として切り出
されたか否かを入力者自身が確認でき、間違つて
特徴標準パターンを消去しないように成されてい
る。＜発明の実施例＞以下、図面を参照して本発明を、連続的に発声
された音声を音節単位に認識し、この認識結果を
キーボード等の入力装置で修正した後に、単語等
の単位で外部装置に転送する機能を有する日本語
音声入力装置を一例として説明する。第１図は本発明の一実施例装置の構成を示すブ
ロツク図である。第１図において、発声され入力された音声はマ
イクロホン１等を介してアナログ入力部２に入力
され、該アナログ入力部２内の増幅器３によつて
増幅された後、アナログ／デジタル変換部４によ
つてデジタル信号に変換され、そのデジタル信号
が音声分析部５及び音節セグメンテーシヨン部６
に入力される。音声分析部５では入力音声を16ms程度のフレ
ームに分け、スペクトル分析を行ない、8ms程度
の間隔で音節セグメンテーシヨン部６に特徴パタ
ーンと、音節セグメンテーシヨンに必要な情報
（パワー、零交差数等）を転送する。音節セグメンテーシヨン部６では、音声分析部
５からの種合の情報を用いて、入力音声から音節
を切り出す。その切り出した部分の特徴パターン
と、その区間の音声波形を波形・特徴パターン一
時メモリ７にたくわえる。そして、音声を切り出
したことをCPU８に伝達すると共に波形・特徴
パターン一時メモリ７内のアドレスも同時に伝達
する。波形・特徴パターン一時メモリ７は複数の音節
をたくわえることができるように構成されてい
る。音節セグメンテーシヨン部６の処理はCPU８
からの命令により、開始・停止がコントロールさ
れるように構成されている。９は単音節認識部であり、該単音節認識部９で
は、CPU８からの命令によりパターンメモリ１
０内の特徴パターンメモリ１０ａと標準パターン
メモリ１０ｂとの間で距離計算等を行ない、その
結果をCPU８に戻す。そして、CPU８はその結
果を、認識結果格納メモリ１１にたくわえ、表示
装置１２に表示する。認識結果格納メモリ１１に
は、複数の音節に対する認識結果をたくわえるこ
とができるように構成されている。１３は音声出力制御部であり、該音声出力制御
部１３では、CPU８の命令により、波形・特徴
パターン一時メモリ７の任意の部分に記憶された
情報をアナログ出力部１４に送る。そしてアナロ
グ出力部１４では音声のデジタル信号をデジタ
ル／アナログ変換部１４ａ及び増幅器１４ｂによ
つて音声波形に再生し出力するように構成されて
いる。なお、上記パターンメモリ１０は二つの部分に
分かれており、１０ａは特徴パターンメモリであ
り入力された音節に対応する特徴パターンを一個
分だけ記憶できる。後の一つの１０ｂは特徴標準
パターン用メモリであり複数の音節の特徴パター
ンが記憶されている。上記音節の特徴パターン用メモリ１０ｂは後述
するように各音節名をコードで記憶するエリア、
登録の有無を記憶するフラグエリア及び特徴標準
パターンデータを記憶する特徴標準パターンエリ
アより構成されている。また１５はキーボード等により構成された入力
部であり、例えば第２図に示すようにカナキー１
５ａ、登録モードキー１５ｂ、認識モードキー１
５ｃ、音節消去キー１５ｄ等が備えられている。また１６は認識結果を外部装置に転送する際の
データの送受信の制御を行なうＩ／Ｆ部である。次に、上記の如く構成された装置の動作を登録
モード及び認識モードについて説明する。登録モードの説明第３図は登録モードにおけるCPU８の処理
フローを示したものである。第３図において、装置本体が、登録モードキ
ー１５ｂの操作によつて登録モードに設定され
るとまずステツプｎ１においてパターンメモリ
１０が初期化され、標準パターンが総て消去さ
れる。第１表は標準パターンメモリ１０ｂの構
成を示したものである。

【表】ステツプｎ１における初期化の処理は標準パ
ターンメモリ１０ｂの登録の有無のフラグエリ
アに「０」を入れることで実現される。次にステツプｎ２に移行して発声すべき単音
節が表示装置１２に次のように表示される。「あ₁」ここで添字の「１」は「あ」のパターンの中
の一番目であることを示している。オペレータはこの表示装置１２の表示を見
て、所定の単音節の音声を発声して入力する。この音声入力に応じてステツプｎ３に移行し
て音節セグメンテーシヨン部６に音声の切り出
しの開始の指示を行ない、音節セグメンテーシ
ヨン部６は単音節を切り出し、その中間の波形
及び音声分析部５で得られた特徴パターンを波
形・特徴パターン一時メモリ７に記憶させる。ステツプｎ４では音節セグメンテーシヨン部
６で単音節が切り出されたかどうかのチエツク
を行ない、切り出されると次のステツプ５に移
行する。ステツプｎ５では音節セグメンテーシヨン部
６に切り出し処理の停止を命令し登録の処理を
継続する。ステツプｎ６では今切り出された音節に対応
する音声部分を波形・特徴パターン一時メモリ
７より読み出して音声出力制御部１３を介して
アナログ出力部１４より再生出力させる。ステツプｎ７では再生出力された音声にもと
ずいてオペレータが正確に切り出されたかどう
かを判定し、その結果のキーボード１５による
指示に従い、再切り出しか登録の実行かを決定
する。このステツプｎ７において、オペレータ
が再生出力を聞いて正確に切り出されたと判断
した場合には実行キー１５ｉを操作することに
なり、その結果ステツプｎ８に移行し、オペレ
ータが再切り出しを指示する場合には、解除キ
ー１５ｈの操作に応じて、ステツプｎ３に戻る
ことになる。ステツプｎ８では表示装置１２に表示されて
いる音節に対応する特徴標準パターンメモリ１
０ｂの位置に特徴標準パターンを記憶させると
共に対応する登録の有無を示すフラグに「１」
をセツトする。ステツプｎ９では全標準パターンの登録が終
了されたかどうかの判断を行ない、終了してい
なければステツプｎ２に戻り、次の単音節の表
示、例えば「あ₂」を表示し、同様の処理を行
なう。このようにして、登録が終了すると標準パタ
ーンメモリ１１ｂには総ての単音節の特徴標準
パターンが数個ずつ登録されることになる。次に認識モードの動作を説明する。認識モードの説明第４図は、認識モードにおけるCPU８の処
理フローを示したものである。まず、認識モードキー１５ｃの操作によつて
装置が認識モードに設定され、オペレータが認
識するべく音声を発声すると、この入力音声に
応じてステツプｎ１１では音節セグメンテーシ
ヨン部６に音節の切り出し開始の命令を与え
る。そして、音節セグメンテーシヨン部６は波
形・特徴パターン一時メモリ７を初期化し、以
後切り出した音節に対応する特徴パターンと波
形を先頭番地から入れていき、各音節の波形及
び特徴パターンの始端と終端番地の情報を
CPU８に与える。ステツプｎ１２では音節が切り出されたかど
うかのチエツクを行ない、切り出されるとステ
ツプｎ１３に移る。ステツプｎ１３では、波
形・特徴パターン一時メモリ７の特徴パターン
をパターンメモリ１０の特徴パターンメモリ１
０ａの領域に転送して認識を行なう。即ち単音
節認識部９に認識の命令を与えることにより特
徴パターンメモリ１０ａの内容と標準パターン
メモリ１０ｂの内容の照合により認識が行なわ
れ、その結果を認識結果格納メモリ７に入れる
とともに、表示装置１２に表示する（ステツプ
ｎ１４）。例えば、入力音声として「かいもの」と発声
したときの認識結果の第１位が「もぎもの」で
あれば表示装置１２にはもぎもの_- と表示され、また認識結果格納メモリ１１に
は、各音節に対する複数の認識結果候補が例え
ば第２表に示すように格納される。

【表】上記第２表において、アンダーラインを付し
たものは各音節名での上位の認識結果であり、
「音節次候補」キー１５ｅの操作によつて順次、
表示装置１２に表示され、また、本発明にした
がつて消去の対象となり得る特徴標準パターン
に対応したものである。上記の「かいもの」といつた単語の入力が終
わると、オペレータはキーボード等の入力部１
５の「終了」キー１５ｇを操作する。この結
果、音節セグメンテーシヨン部６に切り出しの
停止が命令される（ステツプｎ１５，ｎ１６）。
そして、全文字列が正解であれば「転送」のキ
ー１５ｊを入力することにより、Ｉ／Ｆ部１６
を介して外部装置にカナ文字を出力することが
できる（ステツプｎ１８，ｎ１９）。また認識結果の表示を見て、ほとんどの文字
が間違つていたり、言い間違いをしたときには
「取消」キー１５ｆを入力することにより、ス
テツプｎ１７の判断により、初期状態に戻すこ
とができる。また、一部の認識結果が違つている場合に
は、ステツプｎ２０に示すように、オペレータ
がキーによる修正を行なうことになる。キーによる修正には二種類の方法がある。まず、修正したい位置にカーソル移動キー１
５ｋ，１５ｌ「→」「←」を用いて、修正したい
文字のところにカーソルを持つていく。例えば
第２文字目の「ぎ」を修正したい場合には、カ
ーソル移動キー「←」１５ｌの操作により表示
は次のようになる。もぎもの一つの方法としては、このカーソル位置でキ
ーボード１５のカナキー１５ａで文字を入れる
ことにより、次のように修正する。＜キー入力＞「い」もいものもう一つの方法としては、キーボード１５の
「音節次候補」のキー１５ｅを入力することに
よつて＜キー入力＞「音節次候補」もにもの「音節次候補」もいもののように修正ができる。なお、このとき同一音
節名のものは一度しか表示されないように構成
されている。即ち第２音節の認識結果の候補は
「ぎ₃、に₁、ぎ₂、い₂、…」であるが、「ぎ₂」は
表示されないように成されている。上記のような手順によつて認識結果の修正が
行なわれるが、本発明による特徴標準パターン
の消去が次の手順によつて行なわれる。上記した「かいもの」の例でいえば、入力音
声「か」に対する認識結果として「も」が出現
することは、音節の類似度の点から異常だと考
えられる。そこで表示装置１２上のカーソルを
カーソル移動１５ｋ，１５ｌ「←」「→」を用い
て、最初の「も」の位置に移動させて表示画面
を次のようにする（ｎ２０）もいものここで、この「も」の特徴標準パターンを消
去する場合には「音節消去」キー１５ｄを操作
する（ステツプｎ２１）。もし、「も」以外の特
徴標準パターンを消去したい場合には「音節次
候補」キー１５ｅを操作して音節候補を順次選
択して表示させ、表示に現われたときに「音節
消去」キー１５ｄを操作して消去したい音節を
指示することになる。上記表示のときに、「音節消去」キー１５ｄ
を入力することにより、ステツプｎ２１の判断
でステツプｎ２２に移り、音声出力制御部１３
に再生すべき音節の波形の始端と終端の番地が
指示され、波形・特徴パターン一時メモリ７よ
り該当部分の波形が読み出されて、音声出力制
御部１３を介してアナログ出力部１４に与えら
れ、該アナログ出力部１４から「か」に対応す
る音声が再生出力される。オペレータはこの再生音声を聞くことによ
り、入力者自身によつて切り出し位置が正確か
どうかの判断を下し、「実行」キー１５ｉある
いは「解除」キー１５ｈを入力することになる
が、「実行」キー１５ｉが押されるとステツプ
ｎ２３からステツプｎ２４に進み、「解除」キ
ー１５ｈが押されるとステツプｎ１７に進むこ
とになる。ステツプｎ２３からｎ２４に移行すると
CPU８は指示された認識結果（今の場合は
「も₁」）に対応する音節特徴標準パターンをパ
ターンメモリ１０の標準パターンメモリ１０ｂ
から消去すると共に該当音節名部分の登録の有
無フラグを「０」にする。上記の例では、特徴
標準パターンの「も₁」の消去を行なうので、
音節名「も₁」の登録有無のフラグに「０」を
入れることによつて実現される。もし、その音節名の登録の有無フラグが総て
「０」になつてしまつた場合には（ステツプｎ
２５の判断による）、再登録を促すために次の
ような表示を行なう（ステツプｎ２６）。「も」のパターンは総て消去されました。オペレータはこの表示を見て、装置をを登録
モードに設定して、「も」の標準パターンの登
録を行なうことになる。上記実施例では、標準パターンメモリ１０ｂ
の記憶内容の一部を入力者自らの判断だけで消
去するように成しているが、本発明はこれに限
定されるものではなく、例えば標準パターンの
良否を判定することにより認識に貢献している
特徴標準パターンは消去できないようになして
も構わない。標準パターンの良否の判定方法としては、例
えば本出願人が先に特願昭57−217296号「音声
認識装置」として提案した方法、即ち特徴標準
パターン毎にカウンタ手段を設け、入力音声の
認識判定結果に応じて、そのカウンタ値を増減
させ、このカウンタ値に応じて認識に貢献して
いる特徴標準パターンを判定する方法等があ
る。以上のようにして、上記した実施例によれば、
一つの音節に対して複数の特徴標準パターンを持
つ音声入力装置において、誤認識に関与した不適
当な特徴標準パターンを消去することにより、認
識性能を向上させることができる。したがつて、
例えば音声入力装置を使用していると、登録時の
操作ミス等によつて特徴標準パターンとして不適
当なものが登録され、入力音声とかけはなれた音
節が認識結果として出現することがあり、例えば
「い」と発声しても常に「にや」が認識結果とし
て一位に出現し、その度に修正を行なわなければ
ならない場合が生じるが、本発明の実施例によれ
ば、誤認識に関与した特徴標準パターンの「に
や」を消去することにより、以後は「にや」が一
位に出現することがなくなり、認識性能が向上す
ることになる。また。例えば「かいもの」と発声したときの
「か」を「も」に誤認識した場合、入力した音声
を記憶しておくことにより、この「も」の特徴標
準パターンの消去を指示したときに、入力音声
「か」に対応する部分の音声を再生出力して、正
確に音節として切り出されたか否かを入力者自身
が確認でき、また消去を指示した特徴標準パター
ンが正常な入力音声に対する認識結果であるか否
かを判断することが出来、認識に貢献している特
徴標準パターンを間違つて消去することを避ける
ことが出来る。＜発明の効果＞以上のように、本発明によれば入力された音声
を予め登録された複数種類の音節の特徴標準パタ
ーンと照合して音節単位に認識する日本語音声入
力装置において、入力時に発声された音声データ
を一時記憶する一時記憶手段と、前記音声の認識
結果を表示する表示手段と、前記表示手段に表示
された認識結果にもとづいて誤認識に関与した特
徴標準パターンを消去する消去手段を備え、前記消去手段は、上記表示手段に表示された認
識結果の中の消去したい文字を選択する選択手段
と、消去キーと、前記選択手段と消去キーの操作
に基づいて選択手段で選択された文字に対応する
音声データを上記一時記憶手段から読出して音声
出力させる手段と、前記音声出力による確認後に
前記選択手段で選択された文字の特徴標準パター
ンの消去を実行させるための実行キー及びその消
去を解除するキーを含むことを特徴としており、
そのため消去を指示した特徴標準パターンが目的
とする入力音声に対する認識結果であるか否かを
判断することができ、認識に貢献している特徴標
準パターンを間違つて消去するといつた不都合を
回避でき、もつて不適当な特徴標準パターンの消
去で、認識性能を向上させることができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の構成を示すブ
ロツク図、第２図はキーボード等の入力部の一例
を示す平面図、第３図は登録モードの動作を説明
するための処理フロー図、第４図は認識モードの
動作を説明するための処理フロー図である。５…音声分析部、７…波形・特徴パターン一時
メモリ、８…CPU、９…単音節認識部、１０…
パターンメモリ、１０ａ…特徴パターンメモリ、
１０ｂ…標準パターンメモリ、１１…認識結果格
納メモリ、１５…キーボード、１５ｂ…登録モー
ドキー、１５ｃ…認識モードキー、１５ｄ…音節
消去キー。

Claims

【特許請求の範囲】１入力された音声を予め登録された複数種類の
音節の特徴標準パターンと照合して音節単位に認
識する日本語音声入力装置において、入力時に発声された音声データを一時記憶する
一時記憶手段と、前記音声の認識結果を表示する
表示手段と、前記表示手段に表示された認識結果
にもとづいて誤認識に関与した特徴標準パターン
を消去する消去手段を備え、前記消去手段は、上記表示手段に表示された認
識結果の中の消去したい文字を選択する選択手段
と、消去キーと、前記選択手段と消去キーの操作
に基づいて選択手段で選択された文字に対応する
音声データを上記一時記憶手段から読出して音声
出力させる手段と、前記音声出力による確認後に
前記選択手段で選択された文字の特徴標準パター
ンの消去を実行させるための実行キー及びその消
去を解除するキーを含むことを特徴とする日本語
音声入力装置。