JPH0331274B2

JPH0331274B2 -

Info

Publication number: JPH0331274B2
Application number: JP58168795A
Authority: JP
Inventors: Yasuo Sato; Takayuki Fujimoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-09-13
Filing date: 1983-09-13
Publication date: 1991-05-02
Also published as: JPS6060696A

Description

【発明の詳細な説明】 (A) 発明の技術分野本発明は音声認識装置、特に、標準特徴パター
ンの修正または追加に際し、他の辞書項目の標準
特徴パターンとの類似性にもとづいて、既登録標
準特徴パターンまたは新たに登録する標準特徴パ
ターンの妥当性を判断し、辞書の品質を向上させ
ることができるようにした音声認識装置に関する
ものである。

(B) 従来技術と問題点一般に音声認識において、認識率を向上させる
ためには、音声情報からどのような特徴パラメー
タを抽出し照合に用いるかが重要であるが、その
システムで定められた特徴抽出により、各項目を
代表する標準特徴パラメータとして、いかに最適
なものを辞書に用意するかについても重要であ
る。特徴の抽出のし方や照合のし方が、いかに優
れていても、辞書中に登録される標準特徴パター
ンに、雑音付加パターン、不明瞭発声パターン等
の不良標準特徴パターンた、例えば「ａ」を登録
すべきときに「ｉ」と発声してしまう等の発声誤
りによる誤り標準特徴パターンが多ければ、認識
率は向上しない。

標準特徴パターンは、辞書中にデイジタル情報
で記憶され、その数が多く、機械部品のように目
にみえるわけではなく、またすべての標準特徴パ
ターンが一律に使用されるわけではないので、一
旦登録されてしまうと、上記不良標準特徴パター
ン、誤り標準特徴パターン等の検出は容易ではな
い。

従来、一旦登録した標準特徴パターンはすべて
正しいものとして扱い、認識誤りが生じた場合、
認識させようとする入力音声が悪いか、または認
識の限界であつて、止む得ないものとされるのが
一般的であつた。また、誤認識を生じさせた入力
音声から抽出された入力特徴パターンと、既に登
録されている標準特徴パターンとのいわゆる平均
化により、辞書の品質を改良していく学習方式等
も提案されているが、このとき学習のための入力
音声が悪いと、かえつて辞書の品質を劣化させる
ことになるという問題があつた。

(C) 発明の目的と構成本発明は上記問題点の解決を図り、登録モード
ないし練習モード等において、発声誤りや雑音等
による不良特徴パターンの登録を防止し、辞書の
品質を向上させて、音声認識率を向上させること
ができるようにすることを目的としている。その
ため、本発明の音声認識装置は、未知入力音声を
音響分析して得られる入力特徴パターンと、予め
辞書中の各項目に対応して格納された標準特徴パ
ターンとの照合によつて音声認識を行う音声認識
装置において、標準特徴パターンの追加／修正に
際して入力した音声から抽出した入力特徴パター
ンと、該入力特徴パターンと異なる辞書項目中の
最も類似する標準特徴パターンとの類似度が、当
該入力特徴パターンと同じ辞書項目に属する標準
特徴パターンと、上記最も類似する標準特徴パタ
ーンとの類似度よりも、所定の値以上大きいか否
かを判定するパターン追加判定部と、上記類似度
の差が所定の値よりも小さい場合に当該入力特徴
パターンを標準特徴パターンの追加／修正に用い
るパターン修正追加部と、上記類似度の差が所定
の値よりも大きい場合に上記２種の辞書項目の標
準特徴パターンを再登録する再登録部とをそなえ
たことを特徴としている。

もう１つの本発明である音声認識装置は、未知
入力音声を音響分析して得られる入力特徴パター
ンと、予め辞書中の各項目に対応して格納された
標準特徴パターンとの照合によつて音声認識を行
う音声認識装置において、標準特徴パターンの追
加／修正に際して入力した音声について仮の認識
を行い認識誤りを検出する誤り検出部と、認識誤
りを生じさせた入力特徴パターンと誤認識結果と
なつた辞書項目との類似度が所定の値より大きい
か否かを判定するパターン追加判定部と、該パタ
ーン追加判定部により上記類似度が所定の値より
も小さいと判定された場合に当該入力特徴パター
ンに関連する標準特徴パターンの修正または追加
を行うパターン修正追加部とをそなえたことを特
徴としている。以下図面を参照しつつ説明する。

(D) 発明の実施例第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図を示す。

第１図において、Ａ，Ｂ，Ｃの実線で囲まれた
部分は、パターン空間における実際の音声パター
ンの分布を示し、A₁およびA₂は単語Ａ（単音節を
含む。以下同様。）に対する登録された標準特徴
パターン、B₁ないしB₂は単語Ｂに対する標準特
徴パターン、C₁は単語Ｃに対する標準特徴パタ
ーンを表わしている。図示Ｃのように、１つの単
語項目について、１つの標準特徴パターンでカバ
ーする場合もあるが、通常、図示Ａ，Ｂのよう
に、１つの項目について複数の標準特徴パターン
を用意し、認識すべき音声パターンの分布範囲を
カバーするのが普通である。例えば、未知入力音
声の入力特徴パターンＸが抽出されると、その入
力特徴パターンＸと各標準特徴パターンA₁，A₂，
B₁……とのマツチング距離の演算を行い、距離
の小さい標準特徴パターンの属する項目を認識結
果とする。

第２図および第３図は本発明による処理概要を
説明するための図、第４図は本発明の一実施例構
成を示す。

第１図の説明からわかるように、もし、辞書に
登録された標準特徴パターンの中に、音声パター
ンの分布から外れた不良標準特徴パターンや誤り
標準特徴パターンがあれば、認識率は劣化するこ
ととなる。本発明は、このような妥当でない標準
特徴パターンの登録を次のように防止する。

例えば、第２図図示の如く、辞書項目各「渋
谷」について、標準特徴パターンA₁が登録され、
辞書項目名「日比谷」について、標準特徴パター
ンB₁が既に登録されていたとする。この状態で、
さらに「渋谷」の標準特徴パターンの修正または
追加のため、項目名「渋谷」についての発声が入
力され、その入力特徴パターンがA₂であつたと
する。まず、項目名「渋谷」以外の辞書項目の中
で、入力特徴パターンA₂に最も類似する標準特
徴パターンが捜し出される。これが例えば項目名
「日比谷」の標準特徴パターンB₁であつたとする
と、次に各特徴パターンA₁，A₂，B₁の妥当性を
チエツクするために、標準特徴パターンA₁およ
びB₁の類似度と、標準特徴パターンB₁および入
力特徴パターンA₂の類似度との差が演算される。
もし、パターンB₁およびA₂の類似度が、パター
ンA₁およびB₁の類似度よりも、所定の閾値以上
大きい場合には、パターンA₁，B₁およびA₂のう
ち、少なくともそれかが、正常な音声パターン分
布から外れている可能性が大きい。従つて、この
ような場合には、項目名「渋谷」および「日比比
谷」について、再発声を依頼し、標準特徴パター
ンA₁およびB₁の登録をやり直す。この再登録に
よつて、発声誤り等の最初の登録時における登録
ミスがあれば、訂正されることとなる。なお、上
記類似度の比較にあたつて用いられる閾値は、シ
ステムで予め一律に定めてもよいが、対比される
各２種の辞書項目に対して、予め音韻の共通性等
を考慮し、適当に定めておくことが望ましい。

特に再登録の場合、また不良標準特徴パターン
等が登録されないようにするために、例えば次の
ように再登録する標準特徴パターンを決定すれば
よい。１つの辞書項目の１標準特徴パターンの登
録に対して、複数回の発声を入力する。そして、
例えば第３図イないしハで説明するように、平均
的パターンの選別などを行う。

例えば、４回の発声からそれぞれ抽出した入力
特徴パターンが、P₁，P₂，P₃，P₄であつたとす
る。第３図イ図示の場合、パターン空間におい
て、パターンP₁，P₂，P₃，P₄の重心を概略演算
し、その重心に最も近いパターンP₃を登録すべ
き標準特徴パターンとして選出している。第３図
ロ図示の場合、４つの特徴パターンP₁，P₂，P₃，
P₄の平均値を求め、その平均的パターンP_nを標
準特徴パターンとして登録する。また、第３図ハ
図示の場合、他のパターンから大きく離れたパタ
ーンP₂を除去し、残りのパターンP₁，P₃，P₄の
平均的パターンP′_nを求めて登録している。この
ように複数回の発声から１つの標準特徴パターン
を選出または作成することによつて、再登録され
る標準特徴パターンは、良好なものとなる。

第４図は本発明の一実施例構成を示すブロツク
図であつて、図中、符号１はマイクロホン、２は
音響分析部、３はパターン抽出部、４は切替部、
５はパターン追加判定部、６はパターン修正追加
部、７は辞書部、８は再登録部、９は表示部、１
０は照合判定部を表わす。

マイクロホン１から入力された音声信号は、音
響分析部２において周波数分析される。音響分析
部２は、例えば帯域フイルタ群、パラメータ抽出
回路等を有しており、入力音声の特徴量（パラメ
ータ）、例えば第１ホルマント周波数に相当する
モーメントM₁や、第２ホルマント周波数に相当
するモーメントM₂や、さらには、低域電力や高
域電力などを抽出し、これらの特徴量に関するサ
ンプル点を決定して、特徴量の時系列情報を得
る。

音響分析部２において得られたパラメータ時系
列情報は、パターン抽出部３に入力される。パタ
ーン抽出部３は、このパラメータ時系列情報か
ら、入力音声の特徴を表わす入力特徴パターンを
抽出する。切替部４は、パターン情報の登録また
は照合を、例えばキーボードからの切替指示によ
り、切替えるものである。

パターン追加判定部５は、例えば各辞書項目に
対して、少なくとも１パターン宛の登録が終了し
た後、さらに標準特徴パターンの修正または追加
をする際に起動されるものである。パターン追加
判定部５は、パターン抽出部３が抽出した追加な
いし修正用の入力特徴パターンに関して、第２図
を参照して説明したような、妥当性のチエツクを
行う。当該入力特徴パターンとの類似度との関連
において、既登録標準特徴パターンが妥当なもの
であると判断されると、当該入力特徴パターン
が、パターン修正追加部６へ引き渡される。パタ
ーン修正追加部６は、引き渡された入力特徴パタ
ーンと既登録の同種項目の標準特徴パターンとの
いわゆる平均化操作により、標準特徴パターンの
修正を行つたり、新規標準特徴パターンとして追
加登録する処理を実行する。

パターン追加判定部５における判定で、既登録
標準特徴パターンが正しくない可能性があると判
断された場合、再登録部８が呼び出される。再登
録部８は、例えばCRTデイスプレイ等の表示部
９へ、疑いのある辞書項目名を表示し、登録音声
の再入力を指示する。例えば複数回の発声から、
それぞれ再登録のための入力特徴パターンが、パ
ターン抽出部３によつて抽出されると、再登録部
８は、例えば第３図で説明したような処理を実行
して、再登録すべき標準特徴パターンを決定し、
パターン修正追加部６を経由して、辞書部７へ再
登録する。辞書部７は、例えば磁気デイスク装置
等の外部記憶装置であつて、認識対象の項目名と
標準特徴パターンとを対応させて記憶し、保持す
る。

未知入力音声について認識を行う場合、パター
ン抽出部３の出力は、照合判定部１０に供給され
る。照合判定部１０は、辞書部７の内容を順次読
み出し、入力特徴パターンと標準特徴パターンと
を、例えば周知のダイナミツク・プログラミング
（DP）、マツチング等により照合し、認識結果を
出力する。

第５図は第２の本発明の処理概要を説明するた
めの図、第６図は第２の本発明の一実施例構成を
示す。

例えば、第５図図示の如く、辞書項目「渋谷」
について標準特徴パターンA₁が登録されており、
辞書項目「日比谷」について標準特徴パターン
B₁，B₂が登録されていたとする。登録モードま
たは練習モード等において、例えばパターンA₂
に対応する音声「シブヤ」が入力されると、項目
「日比谷」と誤認識されることとなる。このとき
従来、パターンA₂を項目「渋谷」に追加登録し
たり、既登録の標準特徴パターンA₁とのいわゆ
る平均化操作をしたりすることが、一般に行われ
ている。しかし、必ずしもパターンA₂の基礎と
なつた音声「シブヤ」が正しく発声されたもので
あるとは、断言できない。もし、発声誤り等があ
つた場合、パターンA₂を標準特徴パターンに反
映させると、かえつて辞書の品質は劣化する。本
発明の場合、パターンA₂と既登録の標準特徴パ
ターンとの類似性を考慮することにより、次のよ
うにパターンA₂の妥当性をチエツクする。

まず、入力特徴パターンA₂にいつて、仮の認
識を行う。認識誤りが生じた場合、入力特徴パタ
ーンA₂と、誤認識の結果となつた辞書項目、例
えば「日比谷」との類似度を計算する。類似度と
しては、例えば辞書項目「日比谷」に含まれる標
準特徴パターンB₁，B₂との平均距離または最小
距離などを用いる。この類似度が、各辞書項目に
対して予め定められた閾値よりも大きい場合、す
なわち上記平均距離または最小距離が、所定の値
よりも小さい場合には、パターンA₂が誤りであ
る可能性が大きいと判断できるので、パターン
A₂を標準特徴パターンの追加または修正に利用
することなく、棄却する。このようにして、発声
誤り等による音声の特徴パターンが辞書に反映さ
れるのを防止する。

第６図は第２の本発明の一実施構成を示すブロ
ツク図であつて、図中、符号１ないし７，１０は
第４図に対応し、１１は誤り検出部、１２はキー
ボードを表わす。

登録モードまたは練習モード等において、マイ
クロホン１から音声が入力されると、音響分析さ
れ、パターン抽出部３によつて特徴パターンが抽
出される。この入力特徴パターンは、切替部４を
経由して、誤り検出部１１に通知されるととも
に、照合判定部１０にも供給される。照合判定部
１０は、通常の認識と同様に辞書部７から標準特
徴パターンを順次読み出し、仮の認識を行う。こ
の認識結果は、図示省略したデイスプレイ等に表
示される。誤り検出部１１は、この表示に対し、
例えばキーボード１２から入力される誤り指示を
検出する。誤り指示がなく、認識結果が正しい場
合には、従来と同様な処理が続行される。

誤り指示が検出された場合、パターン追加判定
部５へ、誤つて認識された項目名と、入力特徴パ
ターンが通知される。パターン追加判定部５は、
第５図を参照して説明したように、入力特徴パタ
ーンと、誤つて認識結果とされた辞書項目との類
似度を演算し、所定の閾値と比較して、当該入力
特徴パターンについての妥当性をチエツクする。
上記類似度が所定の閾値よりも大きいと判定され
た場合には、当該入力特徴パターンは、不良であ
る可能性が大きいので、辞書部７に追加したり、
既存の標準特徴パターンと平均化操作して修正し
たりすることを中止する。上記類似度が所定の閾
値よりも小さい場合にのみ、パターン修正追加部
６は、辞書部７への当該入力特徴パターンの追加
登録みたは既存の標準特徴パターンとの平均化操
作等による修正を行う。

(E) 発明の効果以上説明した如く、本発明によれば、例えば発
声誤り等による妥当でない音声のパターンが、辞
書中に入り込むことが防止され、辞書の品質が向
上するので、認識率が向上する。

【図面の簡単な説明】

第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図、第２図および第
３図は本発明による処理概要を説明するための
図、第４図は本発明の一実施例構成、第５図は第
２の本発明の処理概要を説明するための図、第６
図は第２の本発明の一実施例構成を示す。図中、１はマイクロンホン、２は音響分析部、
３はパターン抽出部、４は切替部、５はパターン
追加判定部、６はパターン修正追加部、７は辞書
部、８は再登録部、１０は照合判定部、１１は誤
り検出部を表わす。

Claims

【特許請求の範囲】１未知入力音声を音響分析して得られる入力特
徴パターンと、予め辞書中の各項目に対応して格
納された標準特徴パターンとの照合によつて音声
認識を行う音声認識装置において、標準特徴パターンの追加／修正に際して入力し
た音声から抽出した入力特徴パターンと、該入力
特徴パターンと異なる辞書項目中の最も類似する
標準特徴パターンとの類似度が、当該入力特徴パ
ターンと同じ辞書項目に属する標準特徴パターン
と、上記最も類似する標準特徴パターンとの類似
度よりも、所定の値以上大きいか否かを判定する
パターン追加判定部と、上記類似度の差が所定の値よりも小さい場合に
当該入力特徴パターンを標準特徴パターンの追
加／修正に用いるパターン修正追加部と、上記類似度の差が所定の値よりも大きい場合に
上記２種の辞書項目の標準特徴パターンを再登録
する再登録部とをそなえたことを特徴とする音声認識装置。２上記再登録部は、各辞書項目に対して複数回
の発声を入力し、それらの入力特徴パターンの重
心に最も近いパターンを標準特徴パターンとして
登録することを特徴とする特許請求の範囲第１項
記載の音声認識装置。３上記再登録部は、各辞書項目に対して複数回
の発声を入力し、それらの入力特徴パターンの平
均的パターンを標準特徴パターンとして登録する
ことを特徴とする特許請求の範囲第１項記載の音
声認識装置。４上記再登録部は、各辞書項目に対して複数回
の発声を入力し、それらの入力特徴パターンの中
で他のパターンから大きく離れたパターンを除い
たものの平均的パターンを標準特徴パターンとし
て登録することを特徴とする特許請求の範囲第１
項記載の音声認識装置。５未知入力音声を音響分析して得られる入力特
徴パターンと、予め辞書中の各項目に対応して格
納された標準特徴パターンとの照合によつて音声
認識を行う音声認識装置において、標準特徴パターンの追加／修正に際して入力し
た音声について仮の認識を行い認識誤りを検出す
る誤り検出部と、認識誤りを生じさせた入力特徴パターンと誤認
識結果となつた辞書項目との類似度が所定の値よ
り大きいか否かを判定するパターン追加判定部と該パターン追加判定部により上記類似度が所定
の値よりも小さいと判定された場合に当該入力特
徴パターンに関連する標準特徴パターンの修正ま
たは追加を行うパターン修正追加部とをそなえたことを特徴とする音声認識装置。６上記類似度として辞書項目中の標準特徴パタ
ーンとの平均距離または最小距離を用いることを
特徴とする特許請求の範囲第５項記載の音声認識
装置。