JPH0160160B2

JPH0160160B2 -

Info

Publication number: JPH0160160B2
Application number: JP56174115A
Authority: JP
Inventors: Kazunaga Yoshida
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-10-30
Filing date: 1981-10-30
Publication date: 1989-12-21
Also published as: JPS5876894A

Description

【発明の詳細な説明】本発明は区切つて発声された日本語のかな文字
等に対応する単音節を認識する音声認識装置の改
良に関する。

従来、区切つて発声された単音節を認識する方
法としてパタンマツチングを用いる方法があつ
た。代表的な方法としては、以下のような方法が
ある。通常、日本語の単音節は、ほとんどが子音
＋母音の形をしているため、両者を分けて認識す
る手法が用いられる。まず、入力された音声を分
析して得られた音声パタンの子音部と母音部を切
り出す。母音部の音声パタン、すなわち母音パタ
ンを、あらかじめ登録されている母音標準パタン
とパタンマツチングして母音カテゴリを決定す
る。

つぎに、子音パタンとあらかじめ登録されてい
る子音標準パタンとをパタンマツチングして、子
音カテゴリを決定し、単音節の認識結果を決定す
る。母音部は一般に安定したパタンが得られるた
め、切り出す方法及びパタンマツチングの方法
は、あまり問題とならない。一方、子音パタンを
切り出す方法及びパタンマツチングの方法は、さ
まざまな変形がある。

たとえば、１つの方法として、音声の始端から
ある定まつたフレーム数の音声パタンを切り出し
これを子音パタンとする方法が考えられる。この
方法は、定まつたフレーム数のパタン同士を比較
するため、時間軸を伸縮させる必要はない。この
ため少ない計算量で認識することができる。

しかし、子音の時間長は、それぞれの発声また
はカテゴリの違いにより大きく異なることがあ
る。この時のフレーム数を時間長の長い子音の長
さに合わせると標準パタン記憶のために多くのメ
モリ量を必要とすることとなる。また、この方法
では時間長の短い子音同士の比較の場合、長いフ
レーム数で比較するため特徴が、うすめられるお
それがある。一方、時間長の短い子音の長さにフ
レーム数を合せると長い時間長の子音が認識しに
くくなるという欠点もある。

２番目の方法として、子音の長さに合せて子音
部を切り出し、子音パタンと子音標準パタンをダ
イナミツク・プログラミング法を用いて時間軸を
非線形に伸縮させてマツチングする方法が考えら
れる。この方法を用いれば、長さの異なるパタン
同士を、きめ細かくマツチングすることができ
る。

しかし、このダイナミツク・プログラミング法
は、かなりの計算量を必要とする。また、単語認
識の場合と異なり、単音節認識の場合は、時間軸
の非線形伸縮の効果は少ないと考えられるので、
必らずしも最適な方法とは言えない。

本発明の目的は単音節の認識を、少ない標準パ
タンメモリ量及び少ない計算量で行ない、高い認
識性能を得ることにある。この目的を達成するた
めに、本発明による単音節認識装置は、区切つて
発声された単音節をパタン化し、音声パタンとす
る分析部と、前記音声パタンより子音部分と母音
部分を切り出し、子音パタン及び母音パタンとす
る音声切り出し部と、あらかじめ発声された単音
節の子音パタン及び母音パタンを、それぞれ子音
標準パタン、母音標準パタンとして記憶しておく
標準パタンメモリ部と、入力された母音パタンと
前記母音標準パタンをマツチングし母音カテゴリ
を決定する母音マツチング部と、入力された子音
パタンと前記子音標準パタンをマツチングする際
に両者の時間長が異なる場合、短い方の子音パタ
ンの後に母音パタンを付加してマツチングする子
音マツチング部とを有して構成される。

以下、本発明による一実施例について、図と共
に説明する。第１図は本発明による一実施例全体
の構成を示すブロツク図である。マイクロフオン
１より入力された音声は、分析部２で分析され、
音声パタンＰとして出力される。音声パタンＰよ
り音声切り出し部３において子音パタンＣ及び母
音パタンＶが、切り出される。標準パタン登録時
には、これらのパタンが、それぞれ子音標準パタ
ンメモリ４と母音標準パタンメモリ５の中に保持
される。認識時には、まず母音パタンＶを母音マ
ツチング部６において、母音標準パタンVRとマ
ツチングをとる。このマツチング方法は母音パタ
ンどうしの距離を求めればよい。これにより／
ａ／、／ｉ／、ｕ／、／ｅ／、／ｏ／等の母音カ
テゴリを認識し結果を母音カテゴリVCとして出
力する。子音マツチング部７では子音部のマツチ
ングを行ない、認識結果を／ｋ／、／ｓ／等の子
音カテゴリCCとして出力する。子音マツチング
部７の動作原理を説明する。第２図は子音マツチ
ング部７の動作例を説明するための概念図であ
る。入力された子音パタン１１（図は５フレーム
のパタンの例である）と子音標準パタン１２（図
は８フレームのパタンの例である）の間の距離を
求めるとする。それぞれの音声パタンは右方向を
時間方向とするベクトルの時系列である。音声の
始端から５フレーム目までは、矢印１３で示すよ
うに入力された子音パタンと子音標準パタンの同
じ位置のフレームどうしを比較し距離を求める。
５フレーム目以降は、子音標準パタン１２を入力
された音声の１フレーム分の母音パタン１５と矢
印１４で示すように対応させ距離を求める。子音
パタンの後部は通常母音パタンと、ほぼ連続して
おり、母音パタンは時間的にほぼ一定である。こ
のため、短いほうの子音パタンのあとに母音パタ
ンを連続させることにより、もとのパタンを再現
させることができる。

この方法により長さの異なるパタン同士も簡単
にマツチングさせることができる。また、標準パ
タンとしては子音部と母音部のパタンを分けて必
要なだけ記憶していればよいため、標準パタンの
メモリ量も少なくてすむ。ここに示した例は入力
された子音パタンのほうが、子音標準パタンより
短い場合を示したが、逆の場合でも両方を入れか
えるだけで、以上の手順と全く同じことを行なえ
ばよい。

第３図は子音マツチング部７の回路の具体的な
構成例を示すブロツク図である。入力された音声
の子音パタンＣは子音バツフア２１に母音パタン
Ｖは母音バツフア２２に保持される。また、子音
標準パタンCRは、子音標準パタンバツフア２３
に母音標準パタンVRは母音標準パタンバツフア
２４に保持される。入力パタンフレームカウンタ
２５は子音バツフア２１にフレームアドレスIA
を出力する。このアドレスにしたがつてフレーム
ごとの子音パターンCFが子音バツフア２１より
出力される。同様に標準パタンフレームカウンタ
２６は子音標準パタンバツフア２３にフレームア
ドレスRAを出力する。このアドレスにしたがつ
てフレームごとの子音標準パタンCRFが子音標
準パタンバツフア２３より出力される。この入力
パタンフレームカウンタ２５及び標準パタンフレ
ームカウンタ２６は同期して１よりカウントアツ
プし、それぞれのフレーム数に等しい値となつた
ら、等しい値となつたほうのカウンタのカウント
が止まる。データセレクタ２７及び２８は、フレ
ームカウンタがカウントを続けている間は子音パ
タンCF及び子音標準パタンCRFを選択し、距離
計算部２９に出力する。距離計算部２９では、フ
レームごとの２つのパタン間の距離が計算され
る。このフレームごとの距離はアキユムレータ３
０で１パタン分の距離が積算される。

子音パタンのフレーム数が子音標準パタンより
小さい場合について説明する。入力パタンフレー
ムカウンタ２５の値が子音パタンのフレーム数ま
で達してカウントが止まると、データセレクタ２
７により母音パタンバツフア２２からの母音フレ
ームデータVFが選択され、距離計算部２９に出
力される。標準パタンフレームカウンタ２６の値
が子音標準パタンのフレーム数まで達すると両パ
タン間の距離が求まつたことになり、距離積算値
ｄがアキユムレータ３０より出力される。以上は
入力された子音パタンのフレーム数のほうが、小
さい場合であるが、逆に子音標準パタンのフレー
ム数が小さい場合も同様に動作する。子音標準パ
タンCRFのうしろには母音標準パタンVRFが付
加される。この距離積算値ｄは標準パタンのカテ
ゴリごとに最小値計算部３１に入力される。ここ
では全子音カテゴリにおける最小値を計算し、最
小値をとる子音カテゴリCCが認識結果として出
力される。

以上、述べてきた実施例は、説明の便宜上選択
した、ほんの一例であつて本発明はこの実施例の
みに限定されるものではない。

【図面の簡単な説明】

第１図は本発明の一実施例について示したブロ
ツク図で、第２図は子音マツチング部の動作例を
示す説明するための概念図、第３図は子音マツチ
ング部の具体的な回路の一例を示すブロツク図で
ある。図中、１はマイクロフオン、２は分析部、３は
音声切り出し部、４は子音標準パタンメモリ、５
は母音標準パタンメモリ、６は母音マツチング
部、７は子音マツチング部、１１は子音パタン、
１２は子音標準パタン、１５は母音パタン、２１
は子音バツフア、２２は母音バツフア、２３は子
音標準パタンバツフア、２４は母音標準パタンバ
ツフア、２５は入力パタンフレームカウンタ、２
６は標準パタンフレームカウンタ、２７，２８は
データセレクタ、２９は距離計算部、３０はアキ
ユムレータ、３１は最小値計算部である。

Claims

【特許請求の範囲】

１区切つて発声された単音節をパタン化し、音
声パタンとする分析部と、前記音声パタンより子
音部分と母音部分を切り出し、子音パタン及び母
音パタンとする音声切り出し部と、あらかじめ発
声された単音節の子音パタン及び母音パタンを、
それぞれ子音標準パタン、母音標準パタンとして
記憶しておく標準パタンメモリ部と、入力された
母音パタンと、前記母音標準パタンをマツチング
し、母音カテゴリを決定する母音マツチング部
と、入力された子音パタンと前記子音標準パタン
をマツチングする際に両者の時間長が異なる場
合、短い方の子音パタンの後に母音パタンを付加
してマツチングする子音マツチング部とを有して
成ることを特徴とする単音節認識装置。