JPH045399B2

JPH045399B2 -

Info

Publication number: JPH045399B2
Application number: JP358584A
Authority: JP
Priority date: 1984-01-13
Filing date: 1984-01-13
Publication date: 1992-01-31
Also published as: JPS60147798A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する音声認識方法に関す
るものである。

（従来例の構成とその問題点）第１図は従来の単語認識方法１つ（第１の従来
例）を実施する装置の機能の概略を示すブロツク
図であり、第２図はＪ区間における中域の帯域パ
ワーと高域及び低域の帯域パワーの比の、Ｊ区間
における変化を示す図である。

第１図において、１はパラメータ抽出部、２は
音素セグメンテーシヨン部、３は音素認識部、４
は単語辞書部、５はコンフユージヨンマトリクス
部、６は単語認識部である。単語辞書部４は認識
すべき全単語を音素で表記した単語辞書を記憶し
ているものであり、その単語辞書には、例えば単
語「サツポロ」、「アサヒカワ」、「ギヨーダ」、「ゾ
ーダ」は、「SAQPORO」、「ASAHIKAWA」、
「GJOODA」、「ZOODA」等と表記されている。
コンフユージヨンマトリクス部５は、辞書の表記
に用いられる各種音素が、実際の音素認識で何と
認識されるかの確率、例えばＡがＡと認識される
確率は85％、Ａが０と認識される確率は７％、セ
グメンテーシヨン誤りによりＡが認識音素系列上
から脱落してしまう確率は５％…等の値を示すコ
ンフユージヨンマトリクスを記憶しているもので
ある。

次に上記従来例の動作について説明する。パラ
メータ抽出部１により入力音声を10ｍｓのフレー
ム毎に分析し、パラメータを抽出し、音素セグメ
ンテーシヨン部２でフレーム毎の音声の性質、パ
ラメータの変化等に基づき、音素セグメンテーシ
ヨン（入力音声を音素毎の区間に区切ること）を
行ない、音素認識部３でこのセグメンテーシヨン
された区間毎に音素認識を行なう。単語認識部６
では、音素認識部３により得られた認識音素系列
と、単語辞書部６に記憶されている各辞書項目と
の類似度をコンフユージヨンマトリクス部５内の
コンフユージヨンマトリクスを用いて計算し、最
大類似度となる単語（辞書項目）を認識単語とし
ていた。本従来例におけるヤ行母音（以下Ｊで表
わす）のセグメンテーシヨン法は、入力音声の中
域（600〜1500Hz）の帯域パワーP_M、高域（1500
〜4000Hz）の帯域パワーP_H及び低域（250〜600
Hz）の帯域パワーP_Lの下式に示す比R_MM R_MM△＝P_M ²／P_H×P_L …… が、第２図に示すように谷形となる区間をＪの区
間としてセグメンテーシヨンするものであつた。
これは、R_MMが、Ｊ区間における第１及び第２フ
オルマント周波数の変化に対応して谷形に推移す
る性質を利用したものであるが、下記の欠点を有
していた。すなわちR_MMはＪ区間以外でもフオル
マント周波数の変化に応じ変動する量であるため
Ｊ区間以外の区間でもR_MMの谷は生じ、その区間
をＪ区間と誤らないためにR_MMの谷の深さに、あ
るスレツシヨルドを設け、谷の深さがそのスレツ
シヨルドを越えた時にはその谷をＪ区間としてセ
グメンテーシヨンし、それ以外の浅い谷は無視し
ていた。そのため、Ｊ区間が正しくセグメンテー
シヨンされる割り合いは70％程度にとどまり、単
語誤認識も多いという欠点があつた。例えば、第
１図において、入力単語がGJOODA（ギヨーダ）
である時、このＪはしばしば前記のような理由で
セグメンテーシヨンされず、また第１図に示す例
において、Ｇの音素認識結果はＢと誤り、得られ
た認識音素系列はBOODAとなつて、単語辞書の
各辞書項目との類似度計算の結果、単語認識結果
はZOODAに誤つた。本従来例においては、上記
に示すような単語誤認識が多いという欠点があつ
た。

次に第２の従来例を第３図とともに述べる。第
３図において、パラメータ抽出部１および単語辞
書部４は第１図に示す第１の従来例と同様であ
る。第２の従来例において、パラメータ抽出部１
で入力部を10ｍｓのフレーム毎に分析、パラメー
タ抽出を行ない、単語辞書部７では、パラメータ
抽出部１で得られたパラメータ時系列を直接、単
語辞書と照合し、各辞書項目毎にその入力音声が
その辞書項目を発声したものであると仮定してそ
の辞書項目の辞書音素系列に従い、１音素ずつセ
グメンテーシヨンし、そのセグメンテーシヨンさ
れた区間が、辞書音素系列のその音素から生成さ
れたものである確からしさを表わす尺度である尤
度を計算し、尤度の平均値として、その辞書項目
と入力音声との類似度を求めることにより単語を
認識していた。ここで、第２の従来例において辞
書音素系列上のＪに対応してＪ区間のセグメンテ
ーシヨンを行なう場合、フレーム毎に求めた各母
音標準パターンとの距離において、この距離が一
番近い母音の種類が、「ヤ」ではＩ→Ａ、「ユ」で
はＩ→Ｕ、「ヨ」ではＩ→Ｏと変化する性質を利
用して、Ｊ区間をセグメンテーシヨンしていた。
しかし第２の従来例において、非常に明瞭に発声
した場合以外は、Ｊ区間で、Ｉの性質がはつきり
しないことが多く、その場合Ｊ区間のセグメンテ
ーシヨンができない、つまり「Ｊ区間は含まな
い」という判断になりがちで、単語誤認識の原因
となつていた。

（発明の目的）本発明は上記従来例の欠点を除去するものであ
り、Ｊ区間を正しくセグメンテーシヨンできるよ
うにして、単語認識率を向上させることを目的と
する。

（発明の構成）本発明による音声認識方法は、入力音声を認識
すべき単語を音素で表記した単語辞書の各辞書項
目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメントするとと
もに、ヤ行半母音のセグメンテーシヨンに際して
は、入力音声の中域の帯域パワーP_Mと高域、低
域の帯域パワーP_H，P_Lの比R_ML△＝P_M ²／P_H×P_Lの時間変化をも照合し、その比R_MLが極小となる区間で
あるときにヤ行半母音としてセグメンテーシヨン
を行ない、その後各セグメンテーシヨンされた音
声の区間がその音素を発生したものである確らし
さを示す尺度である尤度を算出し、この尤度の値
を用いて各辞書項目と入力音声の類似度を求め
て、入力音声の単語を認識することを特徴とす
る。この特徴により、本発明はセグメンテーシヨ
ンを確実に行なうことができ、高い単語認識率を
得ることができるものである。

（実施例の説明）以下に本発明の一実施例について、図面ととも
に説明する。本実施例の方法を実施するのに用い
る装置の基本構成は第２の従来例と同様に、第３
図のブロツク図により示される。第３図において
パラメータ抽出部１および単語辞書部４は、前記
第１の従来例、及び第２の従来例と同様である。

本実施例の動作について説明する。先ずパラメ
ータ抽出部１により入力音声を10ｍｓのフレーム
毎に分析、パラメータ抽出を行ない、単語認識部
７では、パラメータ抽出部１で得られたパラメー
タ時系列を直接、単語辞書部４の単語辞書と照合
し、各辞書項目毎に、その入力音声がその辞書項
目を発声したものであると仮定して、その辞書項
目の辞書音素系列に従い、１音素ずつセグメンテ
ーシヨンし、そのセグメンテーシヨンされた区間
が、辞書音素系列のその音素から生成されたもの
である確からしさを表わす尺度である尤度を計算
し、尤度の平均値として、その辞書項目と入力音
声との類似度を求めることにより単語を認識す
る。この時、本実施例においては、辞書音素系列
上のＪに対応してＪ区間のセグメンテーシヨンを
行なう場合、前記式に示す、入力音声の中域の
帯域パワーと高域及び低域の帯域パワーの比R_MM
が、第２図に示すように谷形となる区間をＪの区
間としてセグメンテーシヨンを行なう。

本実施例においては、Ｊ区間以外の所でR_MMの
谷が生じても、ちようどその部分で入力単語と異
る辞書項目のＪのセグメンテーシヨンがなされな
ければ全く問題はなく、またもしそのような誤つ
たセグメンテーシヨンがなされても、尤度計算時
に低い尤度となるように他のパラメータも用いた
尤度計算を行なうことにより、正しいＪ区間のセ
グメンテーシヨンとは区別できる。従つて、Ｊ区
間のセグメンテーシヨンにR_MMの谷を用いても、
第１の従来例とは異り、谷の深さにスレツシヨル
ドを設ける必要がなく、R_MMの谷が浅くてもＪ区
間を正しくセグメンテーシヨンできるようにな
り、単語認識率も向上する。また、Ｊ区間におい
てR_MMが谷を成さないことはほとんどないため、
第２の従来例と比べてもＪ区間を正しくセグメン
テーシヨンできる割り合いははるかに高く、単語
認識率も向上するという効果がある。例えば、第
３図に例を示すように入力単語がGJOODAであ
る時、Ｊのセグメンテーシヨンは確実になされ、
単語認識結果も正しくGJOODAとなつた。

（発明の効果）本発明は上記のような構成であり、以下に示す
効果が得られるものである。入力音声を各辞書項
目の辞書音素系列に従つてセグメンテーシヨンす
る時、Ｊのセグメンテーシヨンを、入力音声の中
域の帯域パワーP_Mと、高域及び低域の帯域パワ
ーP_H、P_Lの比R_MM△＝P_M ²／P_H×P_LがＪ区間で谷となることを利用して行なうことにより、Ｊ区間が確実
にセグメンテーシヨンされることなり、単語認識
率が向上するという利点を有する。

【図面の簡単な説明】

第１図は第１の従来例における音声認識方法を
実施するのに用いる装置の機能の概略を示すブロ
ツク図、第２図は、Ｊ区間における中域の帯域パ
ワーと高域及び低域の帯域パワーの比の、Ｊ区間
における変化を示す図、第３図は、第２の従来
例、及び本発明の実施例における音声認識方法を
実施するのに用いる装置の機能の概略を示すブロ
ツク図である。１……パラメータ抽出部、４……単語辞書部、
７……単語認識部。

Claims

【特許請求の範囲】１入力音声を認識すべき単語を音素で表記した
単語辞書の各辞書項目と照合し、各辞書項目を構
成する辞書音素系列に従い各音素毎に入力音声を
セグメントするとともに、ヤ行半母音のセグメン
テーシヨンに際しては、入力音声の中域の帯域パ
ワーP_Mと高域および低域の帯域パワーP_H，P_Lの
比（R_MM△＝P_M ²／P_H×P_L）の時間変化をも照合し、その比R_MMが極小となる区間であるときにヤ行半母
音としてセグメンテーシヨンを行ない、その後各
セグメンテーシヨンされた音声の区間がその音素
を発声したものである確かさを示す尺度である尤
度を算出し、この尤度の値を用いて各辞書項目と
入力音声の類似度を求めて、入力音声の単語を認
識することを特徴とする音声認識方法。