JPH0160160B2 - - Google Patents
Info
- Publication number
- JPH0160160B2 JPH0160160B2 JP56174115A JP17411581A JPH0160160B2 JP H0160160 B2 JPH0160160 B2 JP H0160160B2 JP 56174115 A JP56174115 A JP 56174115A JP 17411581 A JP17411581 A JP 17411581A JP H0160160 B2 JPH0160160 B2 JP H0160160B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- consonant
- vowel
- patterns
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Description
【発明の詳細な説明】
本発明は区切つて発声された日本語のかな文字
等に対応する単音節を認識する音声認識装置の改
良に関する。
等に対応する単音節を認識する音声認識装置の改
良に関する。
従来、区切つて発声された単音節を認識する方
法としてパタンマツチングを用いる方法があつ
た。代表的な方法としては、以下のような方法が
ある。通常、日本語の単音節は、ほとんどが子音
+母音の形をしているため、両者を分けて認識す
る手法が用いられる。まず、入力された音声を分
析して得られた音声パタンの子音部と母音部を切
り出す。母音部の音声パタン、すなわち母音パタ
ンを、あらかじめ登録されている母音標準パタン
とパタンマツチングして母音カテゴリを決定す
る。
法としてパタンマツチングを用いる方法があつ
た。代表的な方法としては、以下のような方法が
ある。通常、日本語の単音節は、ほとんどが子音
+母音の形をしているため、両者を分けて認識す
る手法が用いられる。まず、入力された音声を分
析して得られた音声パタンの子音部と母音部を切
り出す。母音部の音声パタン、すなわち母音パタ
ンを、あらかじめ登録されている母音標準パタン
とパタンマツチングして母音カテゴリを決定す
る。
つぎに、子音パタンとあらかじめ登録されてい
る子音標準パタンとをパタンマツチングして、子
音カテゴリを決定し、単音節の認識結果を決定す
る。母音部は一般に安定したパタンが得られるた
め、切り出す方法及びパタンマツチングの方法
は、あまり問題とならない。一方、子音パタンを
切り出す方法及びパタンマツチングの方法は、さ
まざまな変形がある。
る子音標準パタンとをパタンマツチングして、子
音カテゴリを決定し、単音節の認識結果を決定す
る。母音部は一般に安定したパタンが得られるた
め、切り出す方法及びパタンマツチングの方法
は、あまり問題とならない。一方、子音パタンを
切り出す方法及びパタンマツチングの方法は、さ
まざまな変形がある。
たとえば、1つの方法として、音声の始端から
ある定まつたフレーム数の音声パタンを切り出し
これを子音パタンとする方法が考えられる。この
方法は、定まつたフレーム数のパタン同士を比較
するため、時間軸を伸縮させる必要はない。この
ため少ない計算量で認識することができる。
ある定まつたフレーム数の音声パタンを切り出し
これを子音パタンとする方法が考えられる。この
方法は、定まつたフレーム数のパタン同士を比較
するため、時間軸を伸縮させる必要はない。この
ため少ない計算量で認識することができる。
しかし、子音の時間長は、それぞれの発声また
はカテゴリの違いにより大きく異なることがあ
る。この時のフレーム数を時間長の長い子音の長
さに合わせると標準パタン記憶のために多くのメ
モリ量を必要とすることとなる。また、この方法
では時間長の短い子音同士の比較の場合、長いフ
レーム数で比較するため特徴が、うすめられるお
それがある。一方、時間長の短い子音の長さにフ
レーム数を合せると長い時間長の子音が認識しに
くくなるという欠点もある。
はカテゴリの違いにより大きく異なることがあ
る。この時のフレーム数を時間長の長い子音の長
さに合わせると標準パタン記憶のために多くのメ
モリ量を必要とすることとなる。また、この方法
では時間長の短い子音同士の比較の場合、長いフ
レーム数で比較するため特徴が、うすめられるお
それがある。一方、時間長の短い子音の長さにフ
レーム数を合せると長い時間長の子音が認識しに
くくなるという欠点もある。
2番目の方法として、子音の長さに合せて子音
部を切り出し、子音パタンと子音標準パタンをダ
イナミツク・プログラミング法を用いて時間軸を
非線形に伸縮させてマツチングする方法が考えら
れる。この方法を用いれば、長さの異なるパタン
同士を、きめ細かくマツチングすることができ
る。
部を切り出し、子音パタンと子音標準パタンをダ
イナミツク・プログラミング法を用いて時間軸を
非線形に伸縮させてマツチングする方法が考えら
れる。この方法を用いれば、長さの異なるパタン
同士を、きめ細かくマツチングすることができ
る。
しかし、このダイナミツク・プログラミング法
は、かなりの計算量を必要とする。また、単語認
識の場合と異なり、単音節認識の場合は、時間軸
の非線形伸縮の効果は少ないと考えられるので、
必らずしも最適な方法とは言えない。
は、かなりの計算量を必要とする。また、単語認
識の場合と異なり、単音節認識の場合は、時間軸
の非線形伸縮の効果は少ないと考えられるので、
必らずしも最適な方法とは言えない。
本発明の目的は単音節の認識を、少ない標準パ
タンメモリ量及び少ない計算量で行ない、高い認
識性能を得ることにある。この目的を達成するた
めに、本発明による単音節認識装置は、区切つて
発声された単音節をパタン化し、音声パタンとす
る分析部と、前記音声パタンより子音部分と母音
部分を切り出し、子音パタン及び母音パタンとす
る音声切り出し部と、あらかじめ発声された単音
節の子音パタン及び母音パタンを、それぞれ子音
標準パタン、母音標準パタンとして記憶しておく
標準パタンメモリ部と、入力された母音パタンと
前記母音標準パタンをマツチングし母音カテゴリ
を決定する母音マツチング部と、入力された子音
パタンと前記子音標準パタンをマツチングする際
に両者の時間長が異なる場合、短い方の子音パタ
ンの後に母音パタンを付加してマツチングする子
音マツチング部とを有して構成される。
タンメモリ量及び少ない計算量で行ない、高い認
識性能を得ることにある。この目的を達成するた
めに、本発明による単音節認識装置は、区切つて
発声された単音節をパタン化し、音声パタンとす
る分析部と、前記音声パタンより子音部分と母音
部分を切り出し、子音パタン及び母音パタンとす
る音声切り出し部と、あらかじめ発声された単音
節の子音パタン及び母音パタンを、それぞれ子音
標準パタン、母音標準パタンとして記憶しておく
標準パタンメモリ部と、入力された母音パタンと
前記母音標準パタンをマツチングし母音カテゴリ
を決定する母音マツチング部と、入力された子音
パタンと前記子音標準パタンをマツチングする際
に両者の時間長が異なる場合、短い方の子音パタ
ンの後に母音パタンを付加してマツチングする子
音マツチング部とを有して構成される。
以下、本発明による一実施例について、図と共
に説明する。第1図は本発明による一実施例全体
の構成を示すブロツク図である。マイクロフオン
1より入力された音声は、分析部2で分析され、
音声パタンPとして出力される。音声パタンPよ
り音声切り出し部3において子音パタンC及び母
音パタンVが、切り出される。標準パタン登録時
には、これらのパタンが、それぞれ子音標準パタ
ンメモリ4と母音標準パタンメモリ5の中に保持
される。認識時には、まず母音パタンVを母音マ
ツチング部6において、母音標準パタンVRとマ
ツチングをとる。このマツチング方法は母音パタ
ンどうしの距離を求めればよい。これにより/
a/、/i/、u/、/e/、/o/等の母音カ
テゴリを認識し結果を母音カテゴリVCとして出
力する。子音マツチング部7では子音部のマツチ
ングを行ない、認識結果を/k/、/s/等の子
音カテゴリCCとして出力する。子音マツチング
部7の動作原理を説明する。第2図は子音マツチ
ング部7の動作例を説明するための概念図であ
る。入力された子音パタン11(図は5フレーム
のパタンの例である)と子音標準パタン12(図
は8フレームのパタンの例である)の間の距離を
求めるとする。それぞれの音声パタンは右方向を
時間方向とするベクトルの時系列である。音声の
始端から5フレーム目までは、矢印13で示すよ
うに入力された子音パタンと子音標準パタンの同
じ位置のフレームどうしを比較し距離を求める。
5フレーム目以降は、子音標準パタン12を入力
された音声の1フレーム分の母音パタン15と矢
印14で示すように対応させ距離を求める。子音
パタンの後部は通常母音パタンと、ほぼ連続して
おり、母音パタンは時間的にほぼ一定である。こ
のため、短いほうの子音パタンのあとに母音パタ
ンを連続させることにより、もとのパタンを再現
させることができる。
に説明する。第1図は本発明による一実施例全体
の構成を示すブロツク図である。マイクロフオン
1より入力された音声は、分析部2で分析され、
音声パタンPとして出力される。音声パタンPよ
り音声切り出し部3において子音パタンC及び母
音パタンVが、切り出される。標準パタン登録時
には、これらのパタンが、それぞれ子音標準パタ
ンメモリ4と母音標準パタンメモリ5の中に保持
される。認識時には、まず母音パタンVを母音マ
ツチング部6において、母音標準パタンVRとマ
ツチングをとる。このマツチング方法は母音パタ
ンどうしの距離を求めればよい。これにより/
a/、/i/、u/、/e/、/o/等の母音カ
テゴリを認識し結果を母音カテゴリVCとして出
力する。子音マツチング部7では子音部のマツチ
ングを行ない、認識結果を/k/、/s/等の子
音カテゴリCCとして出力する。子音マツチング
部7の動作原理を説明する。第2図は子音マツチ
ング部7の動作例を説明するための概念図であ
る。入力された子音パタン11(図は5フレーム
のパタンの例である)と子音標準パタン12(図
は8フレームのパタンの例である)の間の距離を
求めるとする。それぞれの音声パタンは右方向を
時間方向とするベクトルの時系列である。音声の
始端から5フレーム目までは、矢印13で示すよ
うに入力された子音パタンと子音標準パタンの同
じ位置のフレームどうしを比較し距離を求める。
5フレーム目以降は、子音標準パタン12を入力
された音声の1フレーム分の母音パタン15と矢
印14で示すように対応させ距離を求める。子音
パタンの後部は通常母音パタンと、ほぼ連続して
おり、母音パタンは時間的にほぼ一定である。こ
のため、短いほうの子音パタンのあとに母音パタ
ンを連続させることにより、もとのパタンを再現
させることができる。
この方法により長さの異なるパタン同士も簡単
にマツチングさせることができる。また、標準パ
タンとしては子音部と母音部のパタンを分けて必
要なだけ記憶していればよいため、標準パタンの
メモリ量も少なくてすむ。ここに示した例は入力
された子音パタンのほうが、子音標準パタンより
短い場合を示したが、逆の場合でも両方を入れか
えるだけで、以上の手順と全く同じことを行なえ
ばよい。
にマツチングさせることができる。また、標準パ
タンとしては子音部と母音部のパタンを分けて必
要なだけ記憶していればよいため、標準パタンの
メモリ量も少なくてすむ。ここに示した例は入力
された子音パタンのほうが、子音標準パタンより
短い場合を示したが、逆の場合でも両方を入れか
えるだけで、以上の手順と全く同じことを行なえ
ばよい。
第3図は子音マツチング部7の回路の具体的な
構成例を示すブロツク図である。入力された音声
の子音パタンCは子音バツフア21に母音パタン
Vは母音バツフア22に保持される。また、子音
標準パタンCRは、子音標準パタンバツフア23
に母音標準パタンVRは母音標準パタンバツフア
24に保持される。入力パタンフレームカウンタ
25は子音バツフア21にフレームアドレスIA
を出力する。このアドレスにしたがつてフレーム
ごとの子音パターンCFが子音バツフア21より
出力される。同様に標準パタンフレームカウンタ
26は子音標準パタンバツフア23にフレームア
ドレスRAを出力する。このアドレスにしたがつ
てフレームごとの子音標準パタンCRFが子音標
準パタンバツフア23より出力される。この入力
パタンフレームカウンタ25及び標準パタンフレ
ームカウンタ26は同期して1よりカウントアツ
プし、それぞれのフレーム数に等しい値となつた
ら、等しい値となつたほうのカウンタのカウント
が止まる。データセレクタ27及び28は、フレ
ームカウンタがカウントを続けている間は子音パ
タンCF及び子音標準パタンCRFを選択し、距離
計算部29に出力する。距離計算部29では、フ
レームごとの2つのパタン間の距離が計算され
る。このフレームごとの距離はアキユムレータ3
0で1パタン分の距離が積算される。
構成例を示すブロツク図である。入力された音声
の子音パタンCは子音バツフア21に母音パタン
Vは母音バツフア22に保持される。また、子音
標準パタンCRは、子音標準パタンバツフア23
に母音標準パタンVRは母音標準パタンバツフア
24に保持される。入力パタンフレームカウンタ
25は子音バツフア21にフレームアドレスIA
を出力する。このアドレスにしたがつてフレーム
ごとの子音パターンCFが子音バツフア21より
出力される。同様に標準パタンフレームカウンタ
26は子音標準パタンバツフア23にフレームア
ドレスRAを出力する。このアドレスにしたがつ
てフレームごとの子音標準パタンCRFが子音標
準パタンバツフア23より出力される。この入力
パタンフレームカウンタ25及び標準パタンフレ
ームカウンタ26は同期して1よりカウントアツ
プし、それぞれのフレーム数に等しい値となつた
ら、等しい値となつたほうのカウンタのカウント
が止まる。データセレクタ27及び28は、フレ
ームカウンタがカウントを続けている間は子音パ
タンCF及び子音標準パタンCRFを選択し、距離
計算部29に出力する。距離計算部29では、フ
レームごとの2つのパタン間の距離が計算され
る。このフレームごとの距離はアキユムレータ3
0で1パタン分の距離が積算される。
子音パタンのフレーム数が子音標準パタンより
小さい場合について説明する。入力パタンフレー
ムカウンタ25の値が子音パタンのフレーム数ま
で達してカウントが止まると、データセレクタ2
7により母音パタンバツフア22からの母音フレ
ームデータVFが選択され、距離計算部29に出
力される。標準パタンフレームカウンタ26の値
が子音標準パタンのフレーム数まで達すると両パ
タン間の距離が求まつたことになり、距離積算値
dがアキユムレータ30より出力される。以上は
入力された子音パタンのフレーム数のほうが、小
さい場合であるが、逆に子音標準パタンのフレー
ム数が小さい場合も同様に動作する。子音標準パ
タンCRFのうしろには母音標準パタンVRFが付
加される。この距離積算値dは標準パタンのカテ
ゴリごとに最小値計算部31に入力される。ここ
では全子音カテゴリにおける最小値を計算し、最
小値をとる子音カテゴリCCが認識結果として出
力される。
小さい場合について説明する。入力パタンフレー
ムカウンタ25の値が子音パタンのフレーム数ま
で達してカウントが止まると、データセレクタ2
7により母音パタンバツフア22からの母音フレ
ームデータVFが選択され、距離計算部29に出
力される。標準パタンフレームカウンタ26の値
が子音標準パタンのフレーム数まで達すると両パ
タン間の距離が求まつたことになり、距離積算値
dがアキユムレータ30より出力される。以上は
入力された子音パタンのフレーム数のほうが、小
さい場合であるが、逆に子音標準パタンのフレー
ム数が小さい場合も同様に動作する。子音標準パ
タンCRFのうしろには母音標準パタンVRFが付
加される。この距離積算値dは標準パタンのカテ
ゴリごとに最小値計算部31に入力される。ここ
では全子音カテゴリにおける最小値を計算し、最
小値をとる子音カテゴリCCが認識結果として出
力される。
以上、述べてきた実施例は、説明の便宜上選択
した、ほんの一例であつて本発明はこの実施例の
みに限定されるものではない。
した、ほんの一例であつて本発明はこの実施例の
みに限定されるものではない。
第1図は本発明の一実施例について示したブロ
ツク図で、第2図は子音マツチング部の動作例を
示す説明するための概念図、第3図は子音マツチ
ング部の具体的な回路の一例を示すブロツク図で
ある。 図中、1はマイクロフオン、2は分析部、3は
音声切り出し部、4は子音標準パタンメモリ、5
は母音標準パタンメモリ、6は母音マツチング
部、7は子音マツチング部、11は子音パタン、
12は子音標準パタン、15は母音パタン、21
は子音バツフア、22は母音バツフア、23は子
音標準パタンバツフア、24は母音標準パタンバ
ツフア、25は入力パタンフレームカウンタ、2
6は標準パタンフレームカウンタ、27,28は
データセレクタ、29は距離計算部、30はアキ
ユムレータ、31は最小値計算部である。
ツク図で、第2図は子音マツチング部の動作例を
示す説明するための概念図、第3図は子音マツチ
ング部の具体的な回路の一例を示すブロツク図で
ある。 図中、1はマイクロフオン、2は分析部、3は
音声切り出し部、4は子音標準パタンメモリ、5
は母音標準パタンメモリ、6は母音マツチング
部、7は子音マツチング部、11は子音パタン、
12は子音標準パタン、15は母音パタン、21
は子音バツフア、22は母音バツフア、23は子
音標準パタンバツフア、24は母音標準パタンバ
ツフア、25は入力パタンフレームカウンタ、2
6は標準パタンフレームカウンタ、27,28は
データセレクタ、29は距離計算部、30はアキ
ユムレータ、31は最小値計算部である。
Claims (1)
- 1 区切つて発声された単音節をパタン化し、音
声パタンとする分析部と、前記音声パタンより子
音部分と母音部分を切り出し、子音パタン及び母
音パタンとする音声切り出し部と、あらかじめ発
声された単音節の子音パタン及び母音パタンを、
それぞれ子音標準パタン、母音標準パタンとして
記憶しておく標準パタンメモリ部と、入力された
母音パタンと、前記母音標準パタンをマツチング
し、母音カテゴリを決定する母音マツチング部
と、入力された子音パタンと前記子音標準パタン
をマツチングする際に両者の時間長が異なる場
合、短い方の子音パタンの後に母音パタンを付加
してマツチングする子音マツチング部とを有して
成ることを特徴とする単音節認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56174115A JPS5876894A (ja) | 1981-10-30 | 1981-10-30 | 単音節認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56174115A JPS5876894A (ja) | 1981-10-30 | 1981-10-30 | 単音節認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5876894A JPS5876894A (ja) | 1983-05-10 |
| JPH0160160B2 true JPH0160160B2 (ja) | 1989-12-21 |
Family
ID=15972896
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56174115A Granted JPS5876894A (ja) | 1981-10-30 | 1981-10-30 | 単音節認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5876894A (ja) |
-
1981
- 1981-10-30 JP JP56174115A patent/JPS5876894A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5876894A (ja) | 1983-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108305634B (zh) | 解码方法、解码器及存储介质 | |
| EP0109190B1 (en) | Monosyllable recognition apparatus | |
| EP0319140B1 (en) | Speech recognition | |
| US4962535A (en) | Voice recognition system | |
| JPH0422276B2 (ja) | ||
| JPH086587A (ja) | 動的特徴を使用した音声認識方法及び装置 | |
| US4790017A (en) | Speech processing feature generation arrangement | |
| JPH0160160B2 (ja) | ||
| JP2004534275A (ja) | 音声認識における高速検索 | |
| JPH1124693A (ja) | 音声認識装置 | |
| JP3315565B2 (ja) | 音声認識装置 | |
| JP3148322B2 (ja) | 音声認識装置 | |
| JP3039453B2 (ja) | 音声認識装置 | |
| JP2615643B2 (ja) | 単語音声認識装置 | |
| JP2615649B2 (ja) | 単語音声認識装置 | |
| KR100349341B1 (ko) | 유사단어 및 문장 인식시의 인식율 개선 방법 | |
| JP3355248B2 (ja) | 連続音声認識方式 | |
| JP3009709B2 (ja) | 日本語音声認識方法 | |
| JPS62144200A (ja) | 連続音声認識装置 | |
| JPH09212190A (ja) | 音声認識装置及び文認識装置 | |
| JPH08305389A (ja) | 音声認識装置 | |
| JPH0695684A (ja) | 音声認識システム | |
| Hu et al. | Tone recognition of Chinese dissyllables using hidden Markov models | |
| JPH07302098A (ja) | 単語音声認識装置 | |
| JPH09244688A (ja) | 音声認識方法 |