JPH0257320B2

JPH0257320B2 -

Info

Publication number: JPH0257320B2
Application number: JP58170248A
Authority: JP
Inventors: Yasuo Sato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-09-14
Filing date: 1983-09-14
Publication date: 1990-12-04
Also published as: JPS6061799A

Description

【発明の詳細な説明】 (A) 発明の技術分野本発明は音声認識装置、特に認識対象の各項目
について複数の標準特徴パターンが登録された辞
書をそなえた音声認識装置において、例えば誤つ
て発声された音声情報にもとづいて登録されてし
まつた標準特徴パターンを、登録／練習モード時
または認識モード時に自動的に削除し、辞書の品
質を向上させるようにした音声認識装置に関する
ものである。

(B) 従来技術と問題点一般に音声認識において、認識率を向上させる
ためには、音声情報からどのような特徴パラメー
タを抽出し照合に用いるかが重要であるが、その
システムで定められた特徴抽出により、各項目を
代表する標準特徴パラメータとして、いかに最適
なものを辞書に用意するかについても重要であ
る。特徴の抽出のし方や照合のし方が、いかに優
れていても、辞書中に登録される標準特徴パター
ンに、雑音付加パターン、不明瞭発声パターン等
の不良標準特徴パターンや、例えば「ａ」を登録
すべきときに「ｉ」と発声してしまう等の発声誤
りによる誤り標準特徴パターンが多ければ、認識
率は向上しない。

標準特徴パターンは、辞書中にデイジタル情報
で記憶され、その数が多く、機械部品のように目
にみえるわけではなく、またすべての標準特徴パ
ターンが一律に使用されるわけではないので、一
旦登録されてしまうと、上記不良標準特徴パター
ン、誤り標準特徴パターン等の検出は、容易では
ない。

従来、一旦登録した標準特徴パターンはすべて
正しいものとして扱い、認識誤りが生じた場合、
認識させようとする入力音声が悪いか、または認
識の限界であつて、止む得ないものとされるのが
一般的であつた。また、誤認識を生じさせた入力
音声から抽出された入力特徴パターンと、既に登
録されている標準特徴パターンとのいわゆる平均
化により、辞書の品質を改良していく学習方式等
も提案されているが、登録済みの標準特徴パター
ンが、ある程度正しいという前提のもとにとられ
る方式であつて、標準特徴パターンが誤つている
場合には、収束が遅いという問題があつた。

(C) 発明の目的と構成本発明は上記問題点の解決を図り、登録ないし
練習モード時、または認識モード時に、妥当でな
い標準特徴パターンがあるとき、それを検出し
て、自動削除することにより、辞書作成者もしく
は使用者にできるだけ負担をかけることなく、辞
書の品質を向上させ、認識率を高めることを目的
としている。そのため、本発明の音声認識装置
は、認識すべき各項目に対応して１または複数の
標準特徴パターンが格納された辞書をそなえ、未
知入力音声を音響分析して得られた入力特徴パタ
ーンと上記辞書中の標準特徴パターンとの照合に
よつて認識を行う音声認識装置において、認識結
果の誤りを検出する誤り検出部と、該誤り検出部
が認識誤りを検出した際に入力特徴パターンに最
も類似した最類似標準特徴パターンと該最類似標
準特徴パターンの属する項目の他の標準特徴パタ
ーンとの類似度および上記最類似標準特徴パター
ン入力音声に対応する正しい項目の標準特徴パタ
ーンとの類似度を比較する類似性判定部と、該類
似性判定部の判定結果にもとづいて、上記類似度
の差または比が所定の基準値よりも大きい場合
に、上記最類似標準特徴パターンを上記辞書から
削除する登録パターン削除部とをそなえたことを
特徴としている。以下図面を参照しつつ実施例に
従つて説明する。

(D) 発明の実施例第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図、第２図は本発明
による処理概要を説明するための図、第３図は本
発明の一実施例構成、第４図ないし第６図は類似
性判定部の各一実施例処理説明図、第７図はパタ
ーン削除部の一実施例処理説明図を示す。

第１図において、Ａ，Ｂ，Ｃの実線で囲まれた
部分は、パターン空間における実際の音声パター
ンの分布を示し、A₁およびA₂は単語Ａ（単音節を
含む。以下同様。）に対する登録された標準特徴
パターン、B₁ないしB₃は単語Ｂに対する標準特
徴パターン、C₁は単語Ｃに対する標準特徴パタ
ーンを表わしている。図示Ｃのように、１つの単
語項目について、１つの標準特徴パターンでカバ
ーする場合もあるが、通常、図示Ａ，Ｂのよう
に、１つの項目について複数の標準特徴パターン
を用意し、認識すべき音声パターンの分布範囲を
カバーするのが普通である。例えば、未知入力音
声の入力特徴パターンＸが抽出されると、その入
力特徴パターンＸと各標準特徴パターンA₁，A₂，
B₁，…とのマツチング距離の演算を行い、距離
の小さい標準特徴パターンの属する項目を認識結
果とする。

もし、辞書に登録された標準特徴パターンの中
に、音声パターンの分布から外れた不良標準特徴
パターンや誤り標準特徴パターン等があれば、認
識率は劣化することとなる。本発明は、このよう
な妥当でない標準特徴パターンを削除することに
よつて、認識率を向上させようとするものであ
る。

例えば、第２図図示の如く、単語「渋谷」の音
声パターンの分布が、図示Ｓであり、単語「日比
谷」の音声パターンの分布が図示Ｈであつたとす
る。辞書の作成にあたつて、それぞれ複数個の標
準特徴パターンを登録するとき、操作ミスまたは
発声ミスによつて、「シブヤ」と発声すべきとこ
ろを、誤つて「ヒビヤ」と発声し、この標準特徴
パターンＳ３を登録してしまつたとする。標準特
徴パターンＳ３は、実際には「ヒビヤ」の音声パ
ターンであるにもかかわらず、辞書においては単
語「渋谷」に属するものとして記憶されることに
なる。

１度、上記のように登録されてしまうと、例え
ば「シブヤ」の発声に対する認識にあたつては、
標準特徴パターンＳ１およびＳ２だけがマツチン
グし、パターンＳ３はマツチングしない。しか
し、パターンＳ３が誤つていることは、検知され
ず、単にパターンＳ３に該当する発声がなされな
いとして扱われる。一方、例えば第２図図示の如
く、「ヒビヤ」について入力特徴パターンＸの発
声がなされたとする。入力特徴パターンＸと標準
特徴パターンＳ３との距離d₁は、標準特徴パター
ンＨ３との距離d₂よりも小さいため、パターンＸ
は、単語「渋谷」と認識されることとなる。この
場合、従来の学習方式等によれば、標準特徴パタ
ーンＳ３が誤つているというよりも、むしろ、単
語「日比谷」の標準特徴パターンH₁，H₂，H₃が
適当でないと判断し、「目比谷」に属する標準特
徴パターンの追加、修正を行うようにされてい
た。そのため、誤り標準特徴パターンＳ３は、そ
のまま辞書中に放置されることとなる。

本発明の場合、認識誤りが検出されると、次の
ように標準特徴パターンＳ３が妥当なものである
かどうかのチエツクを行い、妥当でない場合に、
標準特徴パターンＳ３を辞書中から消去するよう
にされる。なお、認識誤りが生じたかどうかは、
登録モードまたは練習モード時には、入力単語が
何であるかをシステムは知つているので、直ちに
検出できる。また、認識モードにおいても、認識
誤りや正答内容を指示する手段があれば、使用者
の指示により、誤りを検知できる。

入力特徴パターンＸについての音声認識が誤り
であることが判ると、その原因となつた最類似標
準特徴パターンＳ３について、まず同種辞書項目
中の標準特徴パターンS₁，S₂との類似性と、異種
辞書項目中の標準特徴パターンH₁，H₂，H₃との
類似性とが調べられる。そして、これらの類似性
によつて、標準特徴パターンＳ３についての妥当
性の判断を行う。類似性の基準として、例えば第
２図図示距離D₁、距離D₂の平均値と、距離D′₁、
距離D′₂、距離D′₃の平均値とを用い、これらの平
均値の差または比が、所定の基準値よりも大きい
かどうかによつて、パターンＳ３の妥当性を判断
する。

また、例えば、類似性の基準として、距離D₁、
距離D₂のうちの最小値と、距離D′₁、距離D′₂、距
離D′₃のうちの最小値とを用いてもよい。こうし
て、パターンＳ３が妥当でないことが検知される
と、パターンＳ３を辞書中から抹消する。このと
き、例えば登録削除の条件として、使用者への確
認その他の種々の条件をもうけてもよい。

第３図は、本発明の一実施例構成を示すブロツ
ク図である。図中、１はマイクロホン、２は音響
分析部、３はパターン抽出部、４は切替部、５は
パターン追加部、６は辞書、７は照合判定部、８
は結果表示部、９はキーボード、１０は誤り検出
部、１１は類似性判定部、１２はパターン削除部
を表わす。

マイクロホン１から入力された音声信号は、音
響分析部２において周波数分析される。音響分析
部２は、例えば帯域フイルタ群、パラメータ抽出
回路等を有しており、入力音声の特徴量（パラメ
ータ）、例えば第１ホルマント周波数に相当する
モーメントM₁や、第２ホルマント周波数に相当
するモーメントM₂や、さらには、低域電力や高
域電力などを抽出し、これらの特徴量に関するサ
ンプル点を決定して、特徴量の時系列情報を得
る。

音響分析部２において得られたパラメータ時系
列情報は、パターン抽出部３に入力される。パタ
ーン抽出部３は、このパラメータ時系列情報か
ら、入力音声の特徴を表わす入力特徴パターンを
抽出する。切替部４は、パターン情報の登録また
は照合を、例えばキーボード９からのモード切替
指示により切り替えるものである。パターン追加
部５は、登録指示があつた場合に、パターン抽出
部３が抽出した入力特徴パターンを、その項目名
に対応させて、辞書６に追加登録するものであ
る。辞書６は、例えば磁気デイスク装置等の外部
記憶装置であつて、認識対象の項目名と標準特徴
パターンの情報とを記憶して保持する。

認識を行う場合、パターン抽出部３の出力は、
照合判定部７に供給される。照合判定部７は、辞
書６の内容を順次読出し、入力特徴パターンと辞
書に登録されている標準特徴パターンとを、例え
ば周知のダイナミツク・プログラミング（DP）
マツチング等により照合する。認識結果は、デイ
スプレイ等の結果表示部８に表示される。使用者
は、表示結果を見て、自分の入力した音声が正し
く認識されたかどうかを確認することができる。
誤つている場合、使用者は、例えばキーボード９
から、認識結果が誤つていることと、正答が何ん
であるかを指示する。これによつて、誤り検出部
１０は、認識誤りを検出できる。なお、登録／練
習モードであつて、予め入力される音声の単語が
判つている場合等には、誤り検出部１０は、照合
判定部７の判定結果から、直ちに誤りであること
を検出することもできる。

誤り検出部１０は、認識誤りを検出すると、そ
の旨、類似性判定部１１に通知する。類似性判定
部１１は、例えば第４図または第５図のフローチ
ヤートに示すような処理を実行し、入力特徴パタ
ーンに最も類似する標準特徴パターンについての
妥当性のチエツクを行う。妥当性の判断の基準値
T_Ldは、システムで統一的に定めてもよいし、予
め２種の辞書項目に応じて定めておくようにして
もよい。第２図で説明した平均距離または最小距
離等の類似性を示す度合の差または比などが、０
以上の所定の基準値T_Ldよりも大きい場合には、
パターン削除部１２を起動する。また、間違つて
正しい標準特徴パターンを削除してしまう危険性
を少なくするために、例えば第６図に示す如く、
まず認識誤りに関連した最類似標準特徴パターン
について、認識誤り時に選択された回数Ｎをカウ
ントしておき、この回数Ｎが所定の規定値N_Lを
超えた場合にのみ、パターンの削除が行われるよ
うにしてもよい。なお、この認識誤りが複数回生
じた場合にのみ、標準特徴パターンを削除するた
めの判定処理は、類似性判定部１１ではなく、他
の処理部で実行するようにしてもよい。

パターン削除部１２は、類似性判定部１１から
通知された最類似標準特徴パターンを辞書６から
削除する。そして、必要に応じて、削除した旨を
結果表示部８へ表示する。ところで、例えば入力
音声が不明瞭な場合や雑音の多い環境のもとで認
識が行われる場合等、無暗にパターンの削除機能
が働かないようにするために、パターンの登録削
除を許可する状態またはパターンの登録削除を禁
止する状態のいずれかを、例えばキーボード９か
ら指示できれば便利である。そのため、現在、登
録削除許可状態であるか、禁止状態であるかを記
憶する状態記憶部（図示省略）を設けるとよい。
この場合、パターン削除部１２は、例えば第７図
図示の如く、上記状態記憶部を参照し、現在、削
除許可状態であることを確認してから、最類似標
準特徴パターンの登録削除を行う。なお、この状
態判定処理は、他の処理部で実行してもよい。

上記標準特徴パターンを削除するための処理
は、登録／練習モードのときにのみ行われるよう
にしてもよいし、また、通常の認識モード時に実
行されるようにしてもよい。

(E) 発明の効果以上説明した如く本発明によれば、雑音付加パ
ターン、不明瞭発生パターン等の不良標準特徴パ
ターンや登録時の誤り発声による誤り標準特徴パ
ターンを自動的に削除できるようになり、辞書の
品質を向上させ、認識率を向上させることが可能
となる。

【図面の簡単な説明】

第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図、第２図は本発明
による処理概要を説明するための図、第３図は本
発明の一実施例構成、第４図ないし第６図は類似
性判定部の各一実施例処理説明図、第７図はパタ
ーン削除部の一実施例処理説明図を示す。図中、２は音響分析部、３はパターン抽出部、
６は辞書、７は照合判定部、１０は誤り検出部、
１１は類似性判定部、１２はパターン削除部を表
わす。

Claims

【特許請求の範囲】１認識すべき各項目に対応して１または複数の
標準特徴パターンが格納された辞書をそなえ、未
知入力音声を音響分析して得られた入力特徴パタ
ーンと上記辞書中の標準特徴パターンとの照合に
よつて認識を行う音声認識装置において、認識結果の誤りを検出する誤り検出部と、該誤り検出部が認識誤りを検出した際に入力特
徴パターンに最も類似した最類似標準特徴パター
ンと該最類似標準特徴パターンの属する項目の他
の標準特徴パターンとの類似度および上記最類似
標準特徴パターンと入力音声に対応する正しい項
目標準特徴パターンとの類似度を比較する類似性
判定部と、該類似性判定部の判定結果にもとづいて、上記
類似度の差または比が所定の基準値よりも大きい
場合に、上記最類似標準特徴パターンを上記辞書
から削除する登録パターン削除部とをそなえたことを特徴とする音声認識装置。２上記類似性判定部は、上記類似度の比較にあ
たつて、上記最類似標準特徴パターンに関し、同
種辞書項目中の標準特徴パターンとの平均距離ま
たは最小距離と、異種辞書項目中の標準特徴パタ
ーンとの平均距離または最小距離の差または比を
用いることを特徴とする特許請求の範囲第１項記
載の音声認識装置。３上記標準特徴パターンごとに認識誤りの回数
を記憶し、認識誤りが所定の回数以上になつた場
合に、該当する上記最類似標準特徴パターンを削
除するように構成したことを特徴とする特許請求
の範囲第１項記載の音声認識装置。４上記認識誤り検出部、上記類似性判定部また
は上記登録パターン削除部は、登録削除許可状態
または登録削除禁止状態のいずれかを選択する手
段をそなえ、上記登録削除許可状態のときにのみ
上記最類似標準特徴パターンの削除が行なわれる
ように構成したことを特徴とする特許請求の範囲
第１項記載の音声認識装置。