JPH0331275B2

JPH0331275B2 -

Info

Publication number: JPH0331275B2
Application number: JP58168797A
Authority: JP
Inventors: Yasuo Sato; Takayuki Fujimoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-09-13
Filing date: 1983-09-13
Publication date: 1991-05-02
Also published as: JPS6060698A

Description

【発明の詳細な説明】 (A) 発明の技術分野本発明は音声標準特徴パターン作成処理装置、
特に、未知入力音声から得られる入力特徴パター
ンとの照合し用いられる標準特徴パターンに関す
る登録音声を、再生して使用者に聞かせるように
し、誤つた発声による標準特徴パターンの登録を
簡単に削除できるようにした音声標準特徴パター
ン作成処理装置に関するものである。

(B) 従来技術と問題点一般に音声認識において、認識率を向上させる
ためには、音声情報からどのような特徴パラメー
タを抽出し照合に用いるかが重要であるが、その
システムで定められた特徴抽出により、各項目を
代表する標準特徴パラメータとして、いかに最適
なものを辞書に用意するかについても重要であ
る。特徴の抽出のし方や照合のし方が、いかに優
れていても、辞書中に登録される標準特徴パター
ンに、雑音付加パターン、不明瞭発声パターン等
の不良標準特徴パターンや、例えば「ａ」を登録
すべきときに「ｉ」と発声してしまう等の発声誤
りによる誤り標準特徴パターンが多ければ、認識
率は向上しない。

標準特徴パターンは、辞書中にデイジタル情報
で記憶され、その数が多く、機械部品のように目
にみえるわけではなく、またすべての標準特徴パ
ターンが一律に使用されるわけではないので、一
旦登録されてしまうと、上記不良標準特徴パター
ン、誤り標準特徴パターン等の検出は容易ではな
い。

従来、一旦登録した標準特徴パターンはすべて
正しいものとして扱い、認識誤りが生じた場合、
認識させようとする入力音声が悪いか、または認
識の限界であつて、止むを得ないものとされるの
が一般的であつた。また、誤認識を生じさせた入
力音声から抽出された入力特徴パターンと、既に
登録されている標準特徴パターンとのいわゆる平
均化により、辞書の品質を改良していく学習方式
等も提案されているが、登録済みの標準特徴パタ
ーンが、ある程度正しいという前提のもとにとら
れる方式であつて、標準特徴パターンが誤つてい
る場合には、収束が遅いという問題があつた。

登録しようとする標準特徴パターンまたは既に
登録されている標準特徴パターンが適当なもので
はない場合、それを検出して再登録できるように
することが望まれる。

ところで、従来、音声の認識結果を音声で出力
する方式は考えられていたが、認識結果として出
力される音声の情報は、各項目に対応して用意さ
れているものであつて、各標準特徴パターンに対
応して用意されているものではなかつた。そのた
め、誤認識が生じた場合等に、出力音声を聞いて
も、それによつて標準特徴パターンの良否を決定
することはできなかつた。

(C) 発明の目的と構成本発明は上記問題点の解決を図り、認識モード
時に、現在着目されている標準特徴パターンのも
とになつた登録音声を再生して出力することによ
り、使用者が誤つた発声による登録であることを
認知できるようにし、妥当でない標準特徴パター
ンについては、再登録することにより、辞書の品
質を向上させ、認識率を高めることを目的として
いる。そのため、本発明の音声標準特徴パターン
作成処理装置は、未知入力音声を音響分析して得
られる入力特徴パターンと、予め辞書中の各項目
に対応して格納された標準特徴パターンとの照合
によつて、音声認識を行う音声認識システムにお
ける音声標準特徴パターン作成処理装置であつ
て、上記辞書は上記標準特徴パターンに対応して
音声情報を記憶する音声情報記憶部をそなえ、音
声認識時または認識誤りが生じた際に上記辞書中
の該当する上記音声情報にもとづいて音声を再生
して出力する音声再生部と、登録削除の指示によ
り当該認識時に選択された標準特徴パターンの登
録を辞書中から削除する登録削除部とをそなえた
ことを特徴としている。以下図面を参照しつつ、
実施例に従つて説明する。

(D) 発明の実施例第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図、第２図は本発明
による処理概要を説明するための図、第３図は本
実施例に関係する参考技術の例、第４図は第３図
図示実施例における音声再生についての説明図を
示す。

第１図において、Ａ，Ｂ，Ｃの実線で囲まれた
部分は、パターン空間における実際の音声パター
ンの分布を示し、A₁およびA₂は単語Ａ（単音節を
含む。以下同様。）に対する登録された標準特徴
パターン、B₁ないしB₃は単語Ｂに対する標準特
徴パターン、C₁は単語Ｃに対する標準特徴パタ
ーンを表わしている。図示Ｃのように、１つの単
語項目について、１つの標準特徴パターンでカバ
ーできる場合もあるが、通常、図示Ａ，Ｂのよう
に、１つの項目について複数の標準特徴パターン
を用意し、認識すべき音声パターンの分布範囲を
カバーするのが普通である。例えば、未知入力音
声の入力特徴パターンＸが抽出されると、その入
力特徴パターンＸと各標準特徴パターンA₁，A₂，
B₁……とのマツチング距離の演算を行い、距離
の小さい標準特徴パターンの属する項目を認識結
果とする。

もし、辞書に登録された標準特徴パターンの中
に、音声パターンの分布から外れた不良標準特徴
パターンや誤り標準特徴パターン等があれば、認
識率は劣化することとなる。本発明は、このよう
な妥当でない標準特徴パターンを登録後に削除す
ることによつて、認識率を向上させようとするも
のである。

例えば、第２図図示の如く、単語「渋谷」の音
声パターンの分布が、図示Ｓであり、単語「日比
谷」の音声パターンの分布が図示Ｈであつたとす
る。辞書の作成にあたつて、それぞれ複数個の標
準特徴パターンを登録するとき、操作ミスまたは
発声ミスによつて、「シブヤ」と発声すべきとこ
ろを、誤つて「ヒビヤ」と発声し、この標準特徴
パターンS₃を登録してしまつたとする。標準特徴
パターンS₃は、実際には「ヒビヤ」の音声パター
ンであるにもかかわらず、辞書においては単語
「渋谷」に属するものとして記憶されることにな
る。

１度、上記のように登録されてしまうと、例え
ば「ジブヤ」の発声に対する認識にあたつては、
標準特徴パターンS₁およびS₂だけがマツチング
し、パターンS₃はマツチングしない。しかし、パ
ターンS₃が誤つていることは、検知されず、単に
パターンS₃に該当する発声がなされないとして扱
われる。一方、例えば第２図図示の如く、「ヒビ
ヤ」について入力特徴パターンＸの発声がなされ
たとする。入力特徴パターンＸと標準特徴パター
ンS₃との距離d₁は、標準特徴パターンH₃との距
離d₂よりも小さいため、パターンＸは、単語「渋
谷」と認識されることとなる。この場合、従来の
学習方式等によれば、標準特徴パターンS₃が誤つ
ているというよりも、むしろ、単語「日比谷」の
標準特徴パターンH₁，H₂，H₃が適当でないと判
断し、「日比谷」に属する標準特徴パターンの追
加、修正を行うようにされていた。そのため、誤
り標準特徴パターンS₃は、そのまま辞書中に放置
されることとなる。

第３図に示す参考技術の場合、標準特徴パター
ンを登録録しようとして入力した音声を、その場
で再生して出力することにより、その出力音声が
登録を意図したものと同じであるかどうかを閉き
わけることができるようにし、上記標準特徴パタ
ーンS₃のような誤り標準特徴パターンの登録が、
未然に防止されるようにする。さらに本発明は、
第５図を参照して後述する如く、間違つて上記誤
り標準特徴パターンS₃が登録されてしまつたとし
ても、その標準特徴パターンS₃が認識侯補に用い
られたとき、パターンS₃に関する登録音声を再生
して出力することにより、該標準特徴パターンS₃
が妥当なものであるか否かを判断できるようにす
る。これによつて、不良標準特徴パターン等を検
出し、辞書中から排除できることとなる。

第３図は、本実施例に関係する参考技術を示す
ブロツク図であつて、図中、符号１はマイクロホ
ン、２は音響分析部、３はパターン抽出部、４は
切替部、５は音声再生部、６はスピーカ、７は入
力パターン・バツフア、８は選択キー、９は誤り
指示部、１０はパターン追加部、１１は登録棄却
部、１２は辞書、１３は照合判定部を表わす。

マイクロホン１から入力された音声信号は、音
響分析部２において周波数分析される。音響分析
部２は、例えば帯域フイルタ群、パラメータ抽出
回路等を有しており、入力音声の特徴量（パラメ
ータ）、例えば第１ホルマント周波数に相当する
モーメントM₁や、第２ホルマント周波数に相当
するモーメントM₂や、さらには、低域電力や高
域電力などを抽出し、これらの特徴量に関するサ
ンプル点を決定して、特徴量の時系列情報を得
る。

音響分析部２において得られたパラメータ時系
列情報は、パターン抽出部３に入力される。パタ
ーン抽出部３は、このパラメータ時系列情報か
ら、入力音声の特徴を表わす入力特徴パターンを
抽出する。切替部４は、パターン情報の登録また
は照合を、例えばキーボード（図示省略）からの
モード切替指示により、切り替えるものである。

登録モードが指示されている場合、上記入力特
徴パターンは、入力パターン・バツフア７に保持
される。音声再生部５は、登録のための入力音声
を、音声合成等により再生して、スピーカ６から
出力する。これによつて、例えば「シブヤ」と発
声すべきところ、誤つて「ヒビヤ」と発声した場
合に、登録前にその発声を耳で確認できるため、
誤りを検知できる。選択キー８は、登録するかし
ないかを選択するためのキーである。誤り指示部
９は、登録の場合には、パターン追加部１０を起
動し、発声誤りのため、登録しない場合には、登
録棄却部１１を起動する。パターン追加部１０
は、入力パターン・バツフアに格納された入力特
徴パターンを、標準特徴パターンとして、辞書１
２へ追加登録する。登録棄却部１１は、入力パタ
ーン・バツフア７上の入力特徴パターンを棄却
し、再発声入力を促す。照合判定部１３は、認識
モード時に、入力特徴パターンと、辞書中の標準
特徴パターンとを照合し、認識結果を出力するも
のである。

なお、第３図において、パターン追加部１０
は、無条件にパターンの追加登録を行い、後に誤
り指示部９からの指示により、登録棄却部１１が
その登録を抹消するようにしてもよい。

音声再生部５は、例えば第４図図示の如くにし
て、入力音声を再生し、スピーカ６に出力するこ
とができる。第４図イ図示の場合、登録音声を音
響分析して得られた特徴パラメータ時系列をもと
に、音声合成することにより、音声を出力してい
る。なお、この音声合成は、周知の技術により実
現できるので、ここではこの程度の説明にとどめ
る。

第４図ロ図示の場合、登録音声をアナログ／デ
ジタル変換したデイジタル音声を、そのまま音声
バツフアに蓄え、音声再生部において、デイジタ
ル／アナログ変換を行つて出力する。第４図ハ図
示の場合、登録音声をアナログ・デジタル変換し
たデイジタル音声を、音声符号化して、音声バツ
フアに保持し、それを復号してデイジタル／アナ
ログ変換することにより、音声を再生している。

第５図は本発明の一実施例構成、第６図は第５
図図示実施例の音声再生方式説明図を示す。図
中、符号１ないし６，１２，１３は第３図に対応
し、２０はパターン・音声登録部、２１は誤認識
指示キー、２２は登録削除指示キー、２３は誤認
識指示部、２４は登録削除部、２５は音声情報記
憶部を表わす。

第３図図示実施例の技術では、登録時に登録音
声を再生して出力するが、第５図図示実施例の場
合、認識時に常時または認識誤りが生じた際に、
選択された標準特徴パターンに関する登録音声を
再生して出力する。従つて、登録後にも、誤り標
準特徴パターンの検出および再登録が可能であ
る。

音響分析部２、パターン抽出部３、切替部４
は、第３図で説明したものと同様である。パター
ン・音声登録部２０は、登録モード時に、音録音
声の入力特徴パターンとともに、第６図を参照し
て後述する音声情報を、辞書１２中の音声情報記
憶部２５へ、標準特徴パターンに対応させて登録
する。

認識モード時、照合判定部１３は、入力特徴パ
ターンと各標準特徴パターンとの距離を演算し、
照合を行う。そして、距離の小さなものを認識結
果として出力する。使用者は、認識結果が誤つて
いる場合に、誤認識指示キー２１を押下する。誤
認識指示部２３は、誤認識指示キー２１の押下を
検出して、認識誤りを辞書１２の処理部または音
声再生部５へ通知する。音声再生部５は、認識侯
補第１位または所定の範囲内もしくは使用者の要
求範囲内の標準特徴パターンに対応する音声情報
を、音声情報記憶部２５から読出し、音声を再生
してスピーカ６から出力する。

一般に誤認識が生じる原因として、未知入力音
声が不明瞭である場合と、標準特徴パターンが適
当でない場合とがある。本発明の場合、音声再生
部５による音声出力によつて、認識時に選択され
た標準特徴パターンの妥当性がチエツク可能とな
る。もし、標準特徴パターンが妥当なものでない
場合、使用者は、登録削除指示キー２２を押下す
る。この押下によつて、登録削除部２４は、辞書
１２中の当該標準特徴パターンおよびその音声情
報を削除する。そして、必要であれば、登録モー
ドに切替えて、正しい標準特徴パターンを再登録
する。なお、音声再生部５は、上述の如く、認識
誤りが生じたときだけ、音声を再生して出力して
もよいし、また、照合判定部１３が認識結果を出
力する際、その結果に従つて、認識誤りの有無に
かかわらず音声を出力するようにしてもよい。

次に、第６図を参照して、音声再生の処理につ
いて説明する。例えば第６図イ図示の如く、登録
時に、登録音声を音響分析して得られた特徴パラ
メータ時系列を、辞書１２に記憶する。音声再生
部５は、その特徴パラメータ時系列を読出して、
音声を合成し、スピーカ６へ出力する。また、第
６図ロ図示の如く、登録音をアナログ／デイジタ
ル変換したデイジタル音声を、そのままの形で辞
書１２へ格納しておき、認識時に読出して、デイ
ジタル／アナログ変換を行い、音声を再生しても
よい。さらに第６図ハ図示の如く、辞書１２の記
憶領域を削減するため、登録音声をアナログ／デ
イジタル変換後に音声符号化し、その符号化情報
を辞書１２へ記憶し、認識時に復号して音声を再
生し出力するようにしてもよい。

(E) 発明の効果以上説明した如く、本発明によれば、雑音付加
パターン、不明瞭発声パターン等の不良特徴パタ
ーンや、誤り発声による誤り標準特徴パターンの
登録削除が容易にできるようになり、辞書の品質
を向上させて、認識率を良好にすることが可能と
なる。

【図面の簡単な説明】

第１図は音声パターンの分布と標準特徴パター
ンとの関係を説明するための図、第２図は本発明
による処理概要を説明するための図、第３図は本
実施例に関係する参考技術の例、第４図は第３図
図示実施例における音声再生についての説明図、
第５図は本発明の一実施例構成、第６図は第５図
図示実施例の音声再生方式説明図を示す。図中、３はパターン抽出部、５は音声再生部、
９は誤り指示部、１１は登録棄却部、１２は辞
書、１３は照合判定部、２３は誤認識指示部、２
４は登録削除部、２５は音声情報記憶部を表わ
す。

Claims

【特許請求の範囲】１未知入力音声を音響分析して得られる入力特
徴パターンと、予め辞書中の各項目に対応して格
納された標準特徴パターンとの照合によつて、音
声認識を行う音声認識システムにおける音声標準
特徴パターン作成処理装置であつて、上記辞書は上記標準特徴パターンに対応して音
声情報を記憶する音声情報記憶部をそなえ、音声認識時または認識誤りが生じた際に上記辞
書中の該当する上記音声情報にもとづいて音声を
再生して出力する音声再生部と、登録削除の指示により当該認識時に選択された
標準特徴パターンの登録を辞書中から削除する登
録削除部とをそなえたことを特徴とする音声標準特徴パター
ン作成処理装置。２上記辞書に記憶される音声情報は、登録音声
から抽出した特徴パラメータ時系列、または登録
音声をＡ／Ｄ変換したデイジタル情報もしくはそ
の音声符号化情報であることを特徴とする特許請
求の範囲第１項記載の音声標準特徴パターン作成
処理装置。