JPH0458634B2 - - Google Patents

Info

Publication number
JPH0458634B2
JPH0458634B2 JP61078821A JP7882186A JPH0458634B2 JP H0458634 B2 JPH0458634 B2 JP H0458634B2 JP 61078821 A JP61078821 A JP 61078821A JP 7882186 A JP7882186 A JP 7882186A JP H0458634 B2 JPH0458634 B2 JP H0458634B2
Authority
JP
Japan
Prior art keywords
syllable
input
pattern
feature
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP61078821A
Other languages
English (en)
Other versions
JPS62235990A (ja
Inventor
Fumio Togawa
Hiroyuki Iwahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61078821A priority Critical patent/JPS62235990A/ja
Priority to US07/034,060 priority patent/US4908864A/en
Publication of JPS62235990A publication Critical patent/JPS62235990A/ja
Publication of JPH0458634B2 publication Critical patent/JPH0458634B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は、入力されたた音声を音節単位に認識
する日本語音声入力装置などに有利に用いられる
音声認識方式に関する。 背景技術 一般に音声を認識するにあたつては、一音一音
を句切つて発声される音声は高精度で認識するこ
とができる。しかし、連続音声においては、各音
節が前後の音節の影響を受け(調音結合)、また
単語や文節あるいは文章内の音節の位置による音
声の強弱、高低の差も激しく、結果として認識精
度の低下が生じるという問題点がある。これは、
連続音声中では特定の人であつても異なる文脈位
置から抽出される音節の特徴パターンが様々に変
形するからである。これらに対処するため、従来
では登録時に多くの特徴標準パターンを持つこと
によつて対応したり、さらに登録時に作成された
特徴標準パターン入力時に認識率の悪い特徴標準
パターンを様々な音節環境にある音節の特徴パタ
ーンで置き換えて特徴標準パターンを更新してい
くことで対処していた。 発明が解決しようとする問題点 上記先行技術では、登録される特徴標準パター
ンが音節の入力頻度に強く依存するため、平均的
には認識精度が高まつたが、余り現れない文節
や、文章が入力されたときの音節の認識精度が落
ちていた。 本発明の目的は、上述の技術的課題を解決し、
入力頻度の小さい音節の特徴標準パターンをも効
率よく修正・更新することができ、音節の認識精
度を向上することができるようにした音節認識方
式を提供することである。 問題点を解決するための手段 本発明は、入力された音声を予め登録された複
数種類の音節の特徴標準パターンとの類似度計算
によつて音節単位に認識し、その結果を辞書との
照合もしくはキーボードなどの外部指示操作によ
つて修正して最終的な入力を得るようにした音声
認識方式において、 音節の各特徴標準パターン毎に、その特徴パタ
ーンが音声中から切り出された前後の少なくとも
一方側の音韻環境を表す情報を持たせ、 入力時に発声された音声を分析して得られた音
節の特徴パターンを標準特徴パターンとして追
加、あるいはその入力特徴パターンを用いて標準
特徴パターンを修正して入力時に登録を行なう場
合に、その入力特徴パターンが切り出された前後
の少なくとも一方側の音韻環境と同じ環境情報を
もつ標準特徴パターンに対して追加修正による更
新の操作を行なうようにしたことを特徴とする音
声認識方式である。 作 用 本発明に従えば、音節の直前や直後の音韻を表
す情報を各特徴標準パターンに対応づけて付加し
特徴標準パターンとととに記憶して、入力された
音節の特徴パターンを特徴標準パターンとして追
加、あるいはその特徴パターンを用いて特徴標準
パターンを修正するとき、入力された音節と同じ
音韻環境情報をもつ特徴標準パターンに対して修
正を行なう。このように音韻的な配置に基づいて
音節の特徴標準パターンを更新していくことによ
つて、入力頻度の高い音節環境(たとえば「かい
(kai)」や「さい(sai)」の「ai」にみられるよ
うな音節「い」の直前の音韻「a」など)から抽
出される特徴パターンで特徴標準パターンが形成
されて類似した特徴パターンがだぶつくことを防
ぎ、また出現頻度の低い音節環境から抽出される
特徴パターンを保持しながら特徴標準パターンの
更新が遂行される。 実施例 本発明は、音節環境という概念を利用したもの
であり、先ずこの音節環境について説明する。音
節の前後の音韻環境による音節特徴パターンの変
形について「ないのわ」について分析した結果を
第1表、第2表および第3表に示す。また「のん
でも」についての分析結果を第4表に示す。これ
は、たくさんの文節音声中の様々な音韻環境から
取り出した同種類の音節の特徴パターンについて
類似度を比較したものである。なお、第1表には
入力音声「ないのわ」の「い」についてのパター
ン距離が示されており、第2表には入力音声「な
いのわ」の「の」についてのパターン距離が示さ
れており、第3表には入力音声「ないのわ」の
「わ」についてのパターン距離が示されており、
また第4表には入力音声「のんでも」の「の」に
ついてのパターン距離が示されている。 この第1表〜第4表では、パターン距離は16進
数表記で示されている。
【表】
【表】
【表】
【表】 「ないのわ(nainowa)」の「の」は、「がらす
の(garasuno)」の「の」より、「においの
(nioino)」、「かんじの(kanjino)」などの「の」
とよく類似している。つまり直前の母音が「i」
である「の」と似ている。このように、音節の特
徴パターンはその切り出された前後、とくに直前
の音韻に強く影響を受けて変形することがわか
る。これらの変形は音節環境と相関があり、この
点を本発明は利用したものである。 とこで日本語の音節は、基本的には子音
(Consonant)と母音(Vowel)の一対構造から
なる単音節である。第5表の記号に従うと、たと
えば「しやかいの」は「sja−ka−i−no」、
「C1C2V−C1V−V−C1V」、「CV−CV−V−
C」に分解され4つの単音節からできていること
がわかる。そして子音と母音との間に半母音があ
つたり、母音の後に連母音、長音、促音などがあ
つたりする。
【表】
【表】
【表】 そこで音素を第6表に示されるように16進数で
コード化し、これらを用いて日本語音節構造を8
ビツトで表現して前後の音節環境をコード化して
いる。 第1図は本発明の一実施例の日本語音声入力装
置1の構成を示すブロツク図であり、第2図は日
本語音声入力装置1における音声認識処理の手順
を示すフローチヤートである。この日本語音声入
力装置1は、連続的に発声された音声を音節単位
に認識し、この認識結果を辞書によつて修正した
後、単語などの単位で外部装置に転送する機能を
有している。 先ず、ステツプn1からステツプn2に移り、音
声信号が入力される。すなわち発声され入力され
た音声は、マイクロホン2を介してアナログ入力
部3に入力され、このアナログ入力部3内の増幅
器4によつて増幅された後、アナログ/デジタル
変換器5によつてデジタル信号に変換され、その
デジタル信号が音声分析部6および音節セグメン
テーシヨン部7に入力される。 次にステツプn2からステツプn3に移り、音響
音節の切り出し処理が行なわれる。すなわち音声
分析部6では、入力音声を16ms程度のフレーム
に分けスペクトル分析を行ない、8ms程度の間隔
で音節セグメンテーシヨン部7に音節のセグメン
テーシヨンに必要な特徴パラメータを転送する。
音節セグメンテーシヨン部7では、音声分析部6
からの種々の特徴パラメータをリング状の特徴パ
ターンバツフア8に一時記憶しながら音節を切り
出して各音節の特徴をパターン化してステツプ
n4で特徴パターンメモリ9に記憶する。特徴パ
ターンバツフア8は複数の音節を記憶することが
できるように構成されている。音節セグメンテー
シヨン部7の処理は、中央処理装置(以下CPU
と言う)10からの命令により開始・停止が制御
されるように構成されている。 次にステツプn5で音節の認識処理が行なわれ、
ステツプn6では認識結果候補が選ばれる。すな
わち、音節認識部11では、各音節の特徴パター
ンと、予め標準として記憶している総ての特徴標
準パターンメモリ12とのパターン距離計算を行
ない、類似頻度の高い順に候補を出す。そして特
徴標準パターンメモリ16に記憶しているラベル
にしたがつて同種の音節名を持つ候補を統合し音
節認識結果として認識結果メモリ13に記憶す
る。 次にステツプn7で音節認識結果の誤りを修正
処理し、ステツプn8で確定された音節認識結果
を導き出す。すなわち音節認識部11内の修正処
理部11aでは、言語処理用辞書メモリ14に記
憶した辞書を用いて音節認識結果の誤りを自動的
に修正する。あるいは操作者自身がキーボード1
5によつて、入力音声に対する認識候補から正し
い候補を選択したり、また誤り箇所を直接修正す
る場合もある。このようにして確定された正しい
結果は、漢字に変換されて文字列として出力され
る。たとえば入力音声が「かいわ」の場合に、第
7表に示すパターンマツチングが行なわれ、第8
表に示す同一音節の結合が行なわれ、第9表に示
す修正処理が行なわれて、確定文字列「かいわ」
が出力される。
【表】
【表】
【表】 次にステツプn8で学習処理が行なわれ、ステ
ツプn9で処理が終了する。 なお、音声分析部6以外は、すべてCPU10
によつて制御されている。 第3図は前記ステツプn8の標準パターン学習
処理のさらに詳細な処理手順を示すフローチヤー
トである。音節が確定した後、ステツプn8から
ステツプm1、ステツプm2に移り、音節認識部1
1内の学習制御部11bで、最近の正/誤傾向な
どの情報を用いて、入力された各音節の特徴パタ
ーンを学習(その特徴パターンを用いて特徴標準
パターンを更新することを言う)するか否かを判
定する。たとえば自動修正された音節列「かい
わ」と音節認識結果とを比較すると、「い」の音
節が「ぴ」と誤認識されている。 次にこの入力音節「い」の特徴パターンを学習
すると判定された場合を示す。そこでステツプ
m3で、音節認識部11内の更新パターン限定部
11cが、入力音節と同一の音節ラベルでその入
力音節が切り出された音韻環境と同じ環境情報
(特徴標準パターンメモリ18に記憶されている)
をもつ特徴標準パターンに更新の対象を限定す
る。たとえば音節の直前の音韻を第10表に示す8
つのクラスに分類して、そのクラスの番号(単音
節の8ビツトコードの下位3ビツトを使用)を音
節環境情報として記憶している。
【表】 「*」;無音(語頭や促音「つ」) 「N」;撥音「ん」 入力音節「い」の直前の母音が「a」であり、
音節環境情報は第10表から1となる。ここでM個
の特徴標準パターンの構成と内容が第11表に示め
されている。
【表】
【表】 この第11表より、更新の対象となる特徴標準パ
ターンはP7、P11、P13の3つである。 ステツプm4において、音節認識部11内の更
新部11bは、選定された特徴標準パターンの中
で最も悪いパターンを入力された音節の特徴パタ
ーンで第1式により置換、あるいはその特徴パタ
ーンを用いて第2式により平均化の操作を行なつ
てその特徴標準パターンの更新を終了する。 P′11=Pin …(1) P′11=(P11+Pin)/2 …(2) ここでPinは、入力特徴パターンを示し、P′11
は、特徴標準パターンP11が更新されたときの新
たな特徴標準パターンを示している。 たとえば、認識貢献度を示す認識カウンタ(特
徴標準パターンメモリ16に記憶されている)の
値が最も小さい(すなわち認識への貢献度が最も
小さい)パターンP11が第12表に示すように更新
される。同時に認識カウンタの値は、リセツトさ
れている。
【表】 こうして1個の音節の更新が終了したときに
は、ステツプm5で次ぎの音節があるか否かが判
断され、次の音節があるときにはステツプm1に
もどる。こうしてステツプm1〜ステツプm5の動
作が繰り返されて入力音節が更新される。ステツ
プm5で次の音節がないときは、ステツプn10に移
り、処理が完全に終了する。 なお、音声分析部6以外は、全てCPU10で
制御されている。 本発明では、一種の音節がもつ特徴標準パター
ンの数が数10個以上と非常に多い場合、音節環境
クラスを細かく設定すればさらにその効果がでる
ものと思われる。 前述の実施例では、直前の音韻を使つたが、前
後の音韻で音節環境を設定してもよい。 第4図は、ある音節の更新後の特徴標準パター
ンの分布の違いを概念的に示したものである。本
発明では第4図1で示すように各環境毎にパター
ンが配置されて音韻距離空間にまばらに分布する
のに対して、従来技術では第4図2のように入力
頻度の高いパターンに偏つた分布をしているとい
える。なお、この第4図では数字1〜6は標準パ
ターン番号を示し、記号a〜eは音節の環境を示
す。 効 果 以上のように本発明によれば以下の効果を奏
す。 (1) 同じような調音を行なう人間の生理的な動作
を音声中の音韻と対応づけて音節の前後の環境
として定義した情報を使つて特徴標準パターン
が良く整理されているため、特徴標準パターン
が効率良く修正され更新されて最終的に高い認
識率が得られる(高精度の認識)。 (2) 音節の入力頻度に強く束縛されることなく速
く最終の認識精度に到達できる(高い収束性)。
【図面の簡単な説明】
第1図は本発明の一実施例の日本語音声入力装
置1の構成を示すブロツク図であり、第2図は日
本語音声入力装置1における音声認識処理の手順
を示すフローチヤート、第3図は前記ステツプ
n8の標準パターン学習処理のさらに詳細な処理
手順を示すフローチヤート、第4図は、ある音節
の更新後の特徴標準パターンの分布の違いを概念
的に示した図である。 1……日本語音声入力装置、2……マイクロホ
ン、6……音声分析部、7……音節セグメンテー
シヨン部、8……特徴パターンバツフア、9……
特徴パターンメモリ、10……CPU、11……
音節認識部、12,16,18……特徴標準パタ
ーンメモリ、13……認識結果メモリ、14……
言語辞書メモリ、15……キーボード。

Claims (1)

  1. 【特許請求の範囲】 1 入力された音声を予め登録された複数種類の
    音節の特徴標準パターンとの類似度計算によつて
    音節単位に認識し、その結果を辞書との照合もし
    くはキーボードなどの外部指示操作によつて修正
    して最終的な入力を得るようにした音声認識方式
    において、 音節の各特徴標準パターン毎に、その特徴パタ
    ーンが音声中から切り出された前後の少なくとも
    一方側の音韻環境を表す情報を持たせ、 入力時に発声された音声を分析して得られた音
    節の特徴パターンを標準特徴パターンとして追
    加、あるいはその入力特徴パターンを用いて標準
    特徴パターンを修正して入力時に登録を行なう場
    合に、その入力特徴パターンが切り出された前後
    の少なくとも一方側の音韻環境と同じ環境情報を
    もつ標準特徴パターンに対して追加修正による更
    新の操作を行なうようにしたことを特徴とする音
    声認識方式。
JP61078821A 1986-04-05 1986-04-05 音声認識方式 Granted JPS62235990A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61078821A JPS62235990A (ja) 1986-04-05 1986-04-05 音声認識方式
US07/034,060 US4908864A (en) 1986-04-05 1987-04-02 Voice recognition method and apparatus by updating reference patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61078821A JPS62235990A (ja) 1986-04-05 1986-04-05 音声認識方式

Publications (2)

Publication Number Publication Date
JPS62235990A JPS62235990A (ja) 1987-10-16
JPH0458634B2 true JPH0458634B2 (ja) 1992-09-18

Family

ID=13672494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61078821A Granted JPS62235990A (ja) 1986-04-05 1986-04-05 音声認識方式

Country Status (1)

Country Link
JP (1) JPS62235990A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统

Also Published As

Publication number Publication date
JPS62235990A (ja) 1987-10-16

Similar Documents

Publication Publication Date Title
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP5282737B2 (ja) 音声認識装置および音声認識方法
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JPS62235998A (ja) 音節識別方式
WO2002029616A1 (en) Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP4966324B2 (ja) 音声翻訳装置、および方法
JPH0261700A (ja) 音声認識装置
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH0458634B2 (ja)
JP3378547B2 (ja) 音声認識方法及び装置
JP2975542B2 (ja) 音声認識装置
JPH0229799A (ja) 音素を単位とした音声認識装置
JP2000099070A (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3090204B2 (ja) 音声モデル学習装置及び音声認識装置
JPH1097270A (ja) 音声認識装置
JPH0736481A (ja) 補完音声認識装置
Stouten et al. Dealing with cross-lingual aspects in spoken name recognition
JPS6180298A (ja) 音声認識装置
JPH0415960B2 (ja)
JP2528105B2 (ja) 音声認識装置
JPH0827640B2 (ja) 音声認識装置
JPH0160159B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees