JPH0632005B2

JPH0632005B2 - 日本語音声入力装置

Info

Publication number: JPH0632005B2
Application number: JP59040935A
Authority: JP
Inventors: 充宏斗谷; 文雄外川
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1984-03-02
Filing date: 1984-03-02
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS60184297A

Description

【発明の詳細な説明】＜発明の技術分野＞本発明は入力された音声を音節単位に認識する日本語音
声入力装置の改良に関し、更に詳細には１つの音節に対
して単音節音声で入力された特徴パターンと、発声され
た連続音声より得られた特徴パターンとを特徴標準パタ
ーンとして備え、連続音声の認識に適した日本語音声入
力装置としたものである。

＜発明の技術的背景とその問題点＞従来の音声認識装置においては、音声の特徴標準パター
ンを登録する登録モードと、入力音声を認識する認識モ
ード（入力モード）とを分け、認識モードで入力された
音声を分析して得られた特徴パターンを特徴標準パター
ンとして登録することが出来なかった。このことは単語
を認識の単位とする場合にはあまり問題とならないが、
音節を単位とする場合には、各音節が前後の音節の影響
を受け（調音結合）、また単語あるいは文節内の音節位
置による音声の強弱・高低の差もはげしくこの結果認識
性能の低下が生じるという問題点があった。

このような問題点を解決するため、従来は登録時に一つ
の音節を数回登録して、多くの特徴標準パターンを持つ
ことによって対応していたが、調音結合や声の強弱，高
低は人により様々であり、総ての場合の音節環境につい
ての特徴標準パターンを予め登録することは不可能であ
った。

＜発明の目的＞本発明は上記の点に鑑みて成されたものであり一つの音
節に対して複数の特徴標準パターンを備えるようにした
音声入力装置において、予め登録した特徴標準パターン
に対して認識モードの入力時に取り込んだ連続音声を分
析して得られた特徴パターンの所望音節の特徴パターン
を登録ができるようにすることによって認識性能を向上
させることを目的とし、この目的を達成するため、本発
明の日本語音声入力装置は、音声の特徴標準パターンを
登録する登録モード時に単音節音声で入力された単音節
の特徴標準パターンが登録される第１のメモリと、入力
音声を認識する認識モード時に、入力された語句の連続
音声の各音節の波形と特徴パターンを一時記憶する一時
記憶メモリと、前記入力音声の認識結果を表示する表示
手段と、必要に応じて前記認識結果を修正する修正手段
と、前記認識モード時に，入力された語句の連続音声の
中の所望の音節の特徴パターンを特徴パターンとして登
録指示する指示手段と，前記指示手段により指示された
音節に対応する一時記憶メモリの波形を読み出して音声
出力させる再生出力手段と，前記再生出力手段の再生後
に，前記指示手段により指示した音節の特徴パターンの
登録を実行指示するための実行指示手段と，前記実行指
示手段の指示に基づき，連続音声をを分析して得られた
一時記憶メモリの特徴標準パターンが，特徴標準パター
ンとして登録される第２のメモリとを備え，認識モード
時に入力された語句の中の所望音節を表示修正し再生確
認した後、この特徴パターンを特徴標準パターンとして
登録できるようになしたものである。

また、本発明の実施例によれば、特徴標準パターンとし
ての登録を指示された音声の認識結果を用いることによ
って登録可能な特徴標準パターンの音節を限定し、極端
に異なった音声特徴パターンが特徴標準パターンになら
ないように成されており、更に入力した音声を記憶して
おくことにより、特徴標準パターンとしての登録を指示
した音節に対応する部分の音声を再生出力して、正確に
音節として切り出されたか否かを入力者自身が確認でき
るように成されている。

＜発明の実施例＞以下、図面を参照して本発明を、連続的に発声された音
声を音節単位に認識し、この認識結果をキーボード等の
入力装置で修正した後に、単語等の単位で外部装置に転
送する機能を有する日本語音声入力装置を一例として説
明する。

第１図は本発明の一実施例装置の構成を示すブロック図
である。

第１図において、発声され入力された音声はマイクロホ
ン１等を介してアナログ入力部２に入力され、該アナロ
グ入力部２内の増幅部３によって増幅された後、アナロ
グ／デジタル変換部４によってデジタル信号に変換さ
れ、そのデジタル信号が音声分析部５及び音節セグメン
テーション部６に入力される。

音声分析部５では入力音声を１６ｍｓ程度のフレームに
分け、スペクトル分析を行ない、８ｍｓ程度の間隔で音
節セグメンテーション部６に特徴パターンと、音節のセ
グメンテーションに必要な情報（パワー、零交差数等）
を転送する。

音節セグメンテーション部６では、音声分析部５からの
種々の情報を用いて、入力音声から音節を切り出す。そ
の切り出した部分の特徴パターンと、その区間の音声波
形を波形・特徴パターン一時メモリ７にたくわえる。そ
して、音節を切り出したことをＣＰＵ８に伝達すると共
に波形・特徴パターン一時メモリ７内のアドレスも同時
に伝達する。

波形・特徴パターン一時メモリ７は複数の音節をたくわ
えることができるように構成されている。

音節セグメンテーション部６の処理はＣＰＵ８からの命
令により、開始・停止がコントロールされるように構成
されている。

９は単音節認識部であり、該単音節認識部９では、ＣＰ
Ｕ８からの命令によりパターンメモリ１０内の特徴パタ
ーンメモリ１０ａと標準パターンメモリ１０ｂ及び１０
ｃとの間で距離計算等を行ない、その結果をＣＰＵ８に
戻す。そして、ＣＰＵ８はその結果を、認識結果格納メ
モリ１１にたくわえ、表示装置１２に表示する。認識結
果格納メモリ１１は、複数の音節に対する認識結果をた
くわえることができるように構成されている。

１３は音声出力制御部であり、該音声出力制御部１３で
は、ＣＰＵ８の命令により、波形・特徴パターン一時メ
モリ７の任意の部分に記憶された情報をアナログ出力部
１４に送る。そしてアナログ出力部１４では音声のデジ
タル信号をデジタルアナログ変換部１４ａ及び増幅器１
４ｂによって音声波形に再生し出力するように構成され
ている。

なお、上記パターンメモリ１０は三つの部分に分かれて
おり、１０ａは特徴パターンメモリであり入力された音
節に対応する特徴パターンを一個分だけ記憶できる。後
の二つの１０ｂ及び１０ｃは特徴標準パターン用メモリ
であり、１０ｂのエリアは登録モードで登録する音節の
特徴パターン用のメモリであり、１０ｃのエリアは本特
許で実現される認識（入力）モードで登録される音節の
特徴パターン用のメモリである。

上記音節の特徴パターン用メモリ１０ｂ及び１０ｃは後
述するようにそれぞれ各音節名をコードで記憶するエリ
ア、登録の有無を記憶するフラグエリア及び特徴標準パ
ターンデータを記憶する特徴標準パターンエリアより構
成されている。

また１５はキーボード等により構成された入力部であ
り、例えば第２図に示すようにカナキー１５ａ，登録モ
ードキー１５ｂ，認識モードキー１５ｃ，音節登録キー
１５ｄ等が備えられている。

また１６は認識結果は外部装置に転送する際のデータの
送受信の制御を行なうI/F部である。

次に、上記の如く構成された装置の動作を登録モード及
び認識モードについて説明する。

Ｉ．登録モードの説明第３図は、登録モードにおけるＣＰＵ８の処理フローを
示したものである。

第３図において、装置本体が登録モードキー１５ｂの操
作によって登録モードに設定されるとまずステップｎ１
においてパターンメモリ１０が初期化され、標準パター
ンが総て消去される。第１表は標準パターンメモリ１０
ｂの構成を示したものであり、標準パターンメモリ１０
ｃも同様に構成されている。

ステップｎ１における初期化の処理は標準パターンメモ
リ１０ｂ及び１０ｃの登録の有無のフラグエリアに
「０」を入れることで実現される。次にステップｎ２に
移行して発声すべき単音節が表示装置１２に次のように
表示される。

「あ_１」ここで添字の「１」は「あ」のパターンの中の一番目で
あることを示している。

オペレータはこの表示装置１２の表示を見て、所定の単
音節の音声を発声して入力する。

この音声入力に応じてステップｎ３に移行して音節セグ
メンテーション部６に音声の切り出しの開始の指示を行
ない、音節セグメンション部６は単音節を切り出し、そ
の区間の波形及び音声分析部５で得られた特徴パターン
を波形・特徴パターン一時メモリ７に記憶させる。

ステップｎ４で音節セグメンテーション部６で単音節が
切り出されたかどうかのチエックを行ない、切り出され
ると次のステップｎ５に移行する。

ステップｎ５では音節セグメンテーション部６に切り出
し処理の停止を命令し登録の処理を継続する。

ステップｎ６では今切り出された音節に対応する音声部
分を波形・特徴パターン一時メモリ７より読み出して音
声出力制御部１３を介してアナログ出力部１４より再生
出力させる。

ステップｎ７では再生出力された音声にもとずいてオペ
レータが正確に切り出されたかどうかを判定し、その結
果のキーボード１５による指示に従い、再切り出しか登
録の実行かを決定する。このステップｎ７において、オ
ペレータが再生出力を聞いて正確に切り出されたと判断
した場合には実行キー１５ｉを操作することになってス
テップｎ８に移行し、オペレータが再切り出しを指示す
る場合には、解除キー１５ｈの操作に応じて、ステップ
ｎ３に戻ることになる。

ステップｎ８では表示装置１２に表示されている音節に
対応する特徴標準パターンメモリ１０ｂの位置に特徴標
準パターンを記憶させると共に対応する登録の有無を示
すフラグに「１」をセットする。

ステップｎ９では全標準パターンの登録が終了されたか
どうかの判断を行ない、終了していなければステップｎ
２に戻り、次の単音節の表示、例えば「あ_２」を表示
し、同様の処理を行なう。

このようにして、登録が終了すると標準パターンメモリ
１１ｂには総ての単音節の特徴標準パターンが数個ずつ
登録されることになる。

次に認識モードの動作を説明する。

II．認識モードの説明第４図は、認識モードにおけるＣＰＵ８の処理フローを
示したものである。

まず、認識モードキー１５ｃの操作によって装置が認識
モードに設定され、オペレータが認識すべき音声を発声
すると、この入力音声に応じてステップｎ１１では音節
セグメンテーション部６に音節の切り出し開始の命令を
与える。そして、音節セグメンテーション部６は波形・
特徴パターン一時メモリ７を初期化し、以後切り出した
音節に対応する特徴パターンと波形を先頭番地から入れ
ていき、各音節の波形及び特徴パターンの始端と終端番
地の情報をＣＰＵ８に与える。

ステップｎ１２では音節が切り出されたかどうかのチエ
ックを行ない、切り出されるとステップｎ１３に移る。

ステップｎ１３では、波形・特徴パターン一時メモリ７
の特徴パターンをパターンメモリ１０の特徴パターンメ
モリ１０ａの領域に転送して認識を行なう。即ち単音節
認識部９に認識の命令を与えることにより特徴パターン
メモリ１０ａの内容と標準パターンメモリ１０ｂ，１０
ｃの内容の照合により認識が行なわれ、その結果を認識
結果格納メモリ７に入れるとともに、表示装置１２に表
示する（ステップｎ１４）。

例えば、入力音声として「かいもの」と発声したときの
認識結果の第１位が「かぎもも」であれば表示装置１２
にはかぎももと表示され、また認識結果格納メモリ１１には、各音節
に対する複数の認識結果候補が例えば第２表に示すよう
に格納される。

上記の「かいもの」といった単語の入力が終わると、オ
ペレータはキーボード入力部１５の「終了」キー１５ｇ
を入力する。そうすると、音節セグメンテーション部６
に切り出しの停止が命令される（ステップｎ１５，ｎ１
６）。そして、全文字列が正解であれば「転送」のキー
１５ｊを入力することにより、I/F部１６を介して外部
装置にカナ文字を出力することができる（ステップｎ１
８，ｎ１９）。

また認識結果の表示を見て、ほとんどの文字が間違って
いたり、言い間違いをしたときには「取消」キー１５ｆ
を入力することにより、ステップｎ１７の判断により、
初期状態に戻すことができる。

また、一部の認識結果が違っている場合には、ステップ
ｎ２０に示すように、オペレータがキーによる修正を行
なうことになる。

キーによる修正には二種類の方法がある。

まず、修正したい位置にカーソル移動キー１５ｋ，１５
ｌ「→」「←」を用いて、修正したい文字のところにカ
ーソルを持っていく。例えば第２文字目の「ぎ」を修正
したい場合には、カーソル移動キー「←」１５ｌの操作
による表示は次のようになる。

かぎもも一つの方法としては、このカーソル位置でキーボード１
５のカナキー１５ａで文字を入れることにより、次のよ
うに修正する。

もう一つの方法としては、キーボード１５の「音節次候
補」のキー１５ｅを入力することによってのように修正ができる。

ここで、この「い」の入力音声を本発明にしたがって標
準パターンとして登録を行なう場合には「音節登録」キ
ー１５ｄを入力することにより、ステップｎ２１の判断
でステップｎ２２に移り、音声出力制御部１３に再生す
べき音節の波形の始端と終端の番地が指示され、波形・
特徴パターン一時メモリ７より該当部分の波形が読み出
されて音声出力制御部１３を介してアナログ出力部１４
に与えられ、該アナログ出力部１４から「い」に対応す
る音声が再生出力される。

オペレータはこの再生音声を聞くことにより、入力者自
身によって切り出し位置が正確かどうかの判断を下し、
「実行」キー１５ｉあるいは「解除」キー１５ｈを入力
することになるが、「実行」キー１５ｉが押されるとス
テップｎ２３からステップｎ２４に進み、「解除」キー
１５ｈが押されるとステップｎ１７に進むことになる。

ステップｎ２３からステップｎ２４に移行するとＣＰＵ
８は指定された音声に対応する音節特徴パターンとして
波形・特徴パターン一時メモリ７内に記憶された該当音
節の特徴パターンをパターンメモリ１０の標準パターン
メモリ１０ｃに登録する。この時、認識結果の音節候補
群以外の音節としては登録ができないように成されてい
る。即ち波形・特徴パターン一時メモリ７に記憶された
各音節に対する特徴パターンは認識結果の各音節候補に
対する特徴標準パターンとしてしか登録できないように
成されている。したがって、例えば今の例では第１音節
の特徴パターンは「か」，「た」，「が」，「は」以外
の特徴標準パターンとして登録できないようになされて
いる。

第３表は標準パターンメモリ１０ｃの構成例を示したも
のである。

上記例では、入力音声を「い」として登録を行なうの
で、音節名「い」のエリアで登録の無いところ、すなわ
ち「い_ｃ」に特徴パターンを転送し登録の有無を「１」
にする。

もし登録の有無が総て「１」の場合、例えば第３表の
「あ」の場合には、「あ_ｃ」までが登録されているの
で、一番時間的に古い「あ_ａ」のエリアのデータを消し
てから、その場所に登録する。上記実施例では、標準パ
ターンメモリを１０ｂ及び０ｃに分けて登録したが、本
発明はこれに限定されるものではなく、例えば標準パタ
ーンの良否を判定することにより最も悪い特徴標準パタ
ーンを消して、そのエリアに入力時の音節を登録するよ
うになしても構わない。

標準パターンの良否の判定方法としては、例えば本発明
者等が先に特願昭５７−２１７２９６号「音声認識装
置」として提案した方法、即ち特徴標準パターン毎にカ
ウンタ手段を設け、入力音声の認識判定結果に応じて、
そのカウンタ値を増減させ、このカウンタ値に応じて最
も悪い特徴標準パターンを判定する方法等がある。

以上のようにして、上記した実施例によれば、一つの音
節に対して複数の特徴標準パターンを持つ音声入力装置
において、その特徴標準パターンに入力時に取り込んだ
音声の特徴パターンを追加あるいは入れ換えを行なうこ
とにより、認識性能を向上させることができる。

また、特徴標準パターンとしての登録を指示された音声
の認識結果を用いることにより、登録可能な特徴標準パ
ターンの音節を限定し、極端に異なった音声特徴パター
ンが特徴標準パターンにならないようにすることができ
る。これは音声から音節を切り出す時に、妥当な位置で
切り出しているかどうかのチェックとなるものであり、
例えば入力として「かいもの」と発声した時の第３音節
の「も」を登録したい時、その第１位の認識結果に
「ぎ」、第２位に「り」、以下「い」「み」という結果
になったとすると、この音声の特徴パターンを「も」の
特徴標準パターンとして登録すると不都合が生じると考
えられるが、本発明の実施例によれば、認識結果の候補
として表示される音節のみに登録可能としているため、
このような不都合は生じない。

更に、入力した音声を記憶しておくことにより前述の例
でいえば「も」を特徴標準パターンとしての登録を指示
した時に、その音節に対応する部分の音声を再生出力
し、正確に音節として切り出されたかどうかを入力者自
身が確認でき、誤った特徴標準パターンを登録すること
を避けることができる。

＜発明の効果＞以上のように、本発明によれば入力された音声を予め登
録された複数種類の音節の特徴標準パターンと照合して
音節単位に認識する日本語音声入力装置において、音声
の特徴標準パターンを登録する登録モード時に単音節音
声で入力された単音節の特徴標準パターンが登録される
第１のメモリと、入力音声を認識する認識モード時に、
入力された語句の連続音声の各音節の波形と特徴パター
ンを一時記憶する一時記憶メモリと，前記入力音声の認
識結果を表示する表示手段と、必要に応じて前記認識結
果を修正する修正手段と、前記認識モード時に，入力さ
れた語句の連続音声の中の所望の音節の特徴パターンを
特徴パターンとして登録指示する指示手段と，前記指示
手段により指示された音節に対応する一時記憶メモリの
波形を読み出して音声出力させる再生出力手段と，前記
再生出力手段の再生後に，前記指示手段により指示した
音節の特徴パターンの登録を実行指示するための実行指
示手段と，前記実行指示手段の指示に基づき，連続音声
を分析して得られた一時記憶メモリの特徴標準パターン
が，特徴標準パターンとして登録される第２のメモリと
を備え，認識モード時に入力された語句の中の所望音節
を表示修正し再生確認した後、この特徴パターンを特徴
標準パターンとして登録できるようになしたことを特徴
とするものであり、予め登録している特徴標準パターン
に対して、入力時に取り込んだ音声の特徴パターンを標
準パターンとして追加あるいは入れ換えることが出来、
その結果認識性能を向上させることが出来る。

即ち、音声入力装置を使用していると、どうしても入力
しにくい音節が出現することがあり、例えば、単独で発
声した「い」は「い」と認識できるが、「かいもの」と
発声した時の「い」は常に「ぎ」と誤認識されるという
ような現象が起こることがある。この「い」は前に
「か」後ろに「も」の音節を持ち、四音節からなる単語
の第二音節であり、そして単独で発声した「い」よりも
高い声で発声するというような音節環境にあるが、本発
明にあってはこの音節環境で発声された「い」の特徴パ
ターンを標準パターンに入れることが可能となり、以降
の同一あるいはよく似た音節環境で発声された「い」を
正確に認識することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の構成を示すブロック
図、第２図はキーボード等の入力部の一例を示す平面
図、第３図は登録モードの動作を説明するための処理フ
ロー図、第４図は認識モードの動作を説明するための処
理フロー図である。５……音声分析部、７……波形・特徴パターン一時メモ
リ、８……ＣＰＵ、９……単音節認識部、１０……パタ
ーンメモリ、１０ａ……特徴パターンメモリ、１０ｂ及
び１０ｃ……標準パターンメモリ、１１……認識結果格
納メモリ、１５……キーボード、１５ｂ……登録モード
キー、１５ｃ……認識モードキー、１５ｄ…音節登録キ
ー。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭58−62699（ＪＰ，Ａ) 特開昭58−62739（ＪＰ，Ａ) 特開昭58−195955（ＪＰ，Ａ) 特開昭58−220197（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】入力された音声を予め登録された複数種類
の音節の特徴標準パターンと照合して音節単位に認識す
る日本語音声入力装置において，音声の特徴標準パター
ンを登録する登録モード時に，単音節音声で入力された
単音節の特徴標準パターンが登録される第１のメモリ
と，入力音声を認識する認識モード時に，入力された語句の
連続音声の各音節の波形と特徴パターンを一時記憶する
一時記憶メモリと，前記入力音声の認識結果を表示する表示手段と、必要に応じて前記入力音声の認識結果を修正する修正手
段と、前記認識モード時に入力された語句の連続音声の中の所
望の音節の特徴パターンを特徴標準パターンとして登録
指示する指示手段と，前記指示手段により指示された音
節に対応する一時記憶メモリの波形を読み出して音声出
力させる再生出力手段と，前記再生出力手段の再生後に，前記指示手段により指示
した音節の特徴パターンの登録を実行指示するための実
行指示手段と，前記実行指示手段の指示に基づき，連続音声を分析して
得られた一時記憶メモリの特徴パターンが，特徴標準パ
ターンとして登録される第２のメモリとを備え，認識モード時に入力された語句の中の所望音節を表示修
正し再生確認した後、この特徴パターンを特徴標準パタ
ーンとして登録できるようにしたことを特徴とする日本
語音声入力装置。