JPS62265699A - 単語音声認識装置 - Google Patents
単語音声認識装置Info
- Publication number
- JPS62265699A JPS62265699A JP61108676A JP10867686A JPS62265699A JP S62265699 A JPS62265699 A JP S62265699A JP 61108676 A JP61108676 A JP 61108676A JP 10867686 A JP10867686 A JP 10867686A JP S62265699 A JPS62265699 A JP S62265699A
- Authority
- JP
- Japan
- Prior art keywords
- word
- pattern
- speech
- frame
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
認識対象入力単語音声パターンを単音節標準パターンか
ら作成された擬似単語標準パターンと照合する単語音声
認識装置において、照合時の各経路が、認識対象入力単
語音声パターン中の各音声区間の各区分点に対応する擬
似単語標準パターン中の各単音節連結点に基づいて選定
される特定の点を通る様にする。これにより、認識率を
向上させると共に、処理量を低減させることが出来る。
ら作成された擬似単語標準パターンと照合する単語音声
認識装置において、照合時の各経路が、認識対象入力単
語音声パターン中の各音声区間の各区分点に対応する擬
似単語標準パターン中の各単音節連結点に基づいて選定
される特定の点を通る様にする。これにより、認識率を
向上させると共に、処理量を低減させることが出来る。
本発明は、単語音声を認識する単語音声認識装置、特に
、未知入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合して入力単語音
声を認識する単語音声認識装置において、照合時の経路
の通過点に制限を付けることにより、認識率を向上させ
ると共に処理量を低減させる様に改良した単語音声認識
装置に関する。
、未知入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合して入力単語音
声を認識する単語音声認識装置において、照合時の経路
の通過点に制限を付けることにより、認識率を向上させ
ると共に処理量を低減させる様に改良した単語音声認識
装置に関する。
未知入力単語音声を認識する場合、入力単語音声から作
成された入力単語音声パターンを予め登録されている単
語標準パターンと照合する認識方式が多く用いられてい
る。
成された入力単語音声パターンを予め登録されている単
語標準パターンと照合する認識方式が多く用いられてい
る。
この単語音声認識方式において単語標準パターンを登録
する場合、実際に発声された単語音声より作成された単
語標準パターンを用いる方式と、予め登録されている単
音節標準パターンを連結して作成された擬似単語標準パ
ターンを用いる方式前者の単語標準パターンを用いる方
式は、認識率は良好であるが、認識対象となる単語の数
だけ単語標準パターンを登録する必要がある為、認識単
語数が増加すると、登録作業に多くの手間と時間が掛り
、且つ、認識対象となる単語群のカテゴリが変更される
と、再び登録をやり直さねばならないという不都合があ
る。
する場合、実際に発声された単語音声より作成された単
語標準パターンを用いる方式と、予め登録されている単
音節標準パターンを連結して作成された擬似単語標準パ
ターンを用いる方式前者の単語標準パターンを用いる方
式は、認識率は良好であるが、認識対象となる単語の数
だけ単語標準パターンを登録する必要がある為、認識単
語数が増加すると、登録作業に多くの手間と時間が掛り
、且つ、認識対象となる単語群のカテゴリが変更される
と、再び登録をやり直さねばならないという不都合があ
る。
こ、れに対し、後者の擬似単語標準パターンを用いる方
式は、認識率の点では前者の方式より一般的に劣るが、
約100種類程の単音節標準パターンを登録するだけで
、任意の凝似単語標準パターンを作成することが可能で
あり、認識対象となる単語群のカテゴリが変更になって
も再登録する必要がないので、登録作業が筒車で済む利
点がある。
式は、認識率の点では前者の方式より一般的に劣るが、
約100種類程の単音節標準パターンを登録するだけで
、任意の凝似単語標準パターンを作成することが可能で
あり、認識対象となる単語群のカテゴリが変更になって
も再登録する必要がないので、登録作業が筒車で済む利
点がある。
なお、各単語は音節(シラブル)から成り立ち、音節は
音素から成り立っている。音素は音声の最小基本単位で
、母音と子音がある。各音節は、通常11[1i1の母
音と1ないし2個の子音が結合して形成され、日本語の
場合、約100種の音節がある。
音素から成り立っている。音素は音声の最小基本単位で
、母音と子音がある。各音節は、通常11[1i1の母
音と1ないし2個の子音が結合して形成され、日本語の
場合、約100種の音節がある。
本発明は、後者の擬似単語標準パターンを用いる単語音
声認識方式に関する。
声認識方式に関する。
第8図は、従来の単音節標準パターンから作成された擬
似単語標準パターンによる単語音声認識方式の基本構成
をブロック図で示したものである。
似単語標準パターンによる単語音声認識方式の基本構成
をブロック図で示したものである。
第8図において、未知の入力単語音声が図示しないマイ
クロホンから入力されると、音声分析部210は、入力
単語音声の特徴を表すパラメタや各音節の区間検出等を
行って音節対応の入力単語音声パターンを作成し、単語
認識部220に入力する。
クロホンから入力されると、音声分析部210は、入力
単語音声の特徴を表すパラメタや各音節の区間検出等を
行って音節対応の入力単語音声パターンを作成し、単語
認識部220に入力する。
一方、単音W標準パターン辞書230には、各単音W標
準パターンが予め登録されており、認識対象となる単語
群のカテゴリが決ると、単音節標準パターン辞書230
から単音節標準パターンを取り出して連結することによ
り、認識対象カテゴリに属する各単語に対応する擬似単
語標準パターンが作成され、擬似単語標準パターン辞書
240に格納される。
準パターンが予め登録されており、認識対象となる単語
群のカテゴリが決ると、単音節標準パターン辞書230
から単音節標準パターンを取り出して連結することによ
り、認識対象カテゴリに属する各単語に対応する擬似単
語標準パターンが作成され、擬似単語標準パターン辞書
240に格納される。
単語認識部220は、音声分析部210より入力された
入力単語音声パターンを擬([1語標準パターン辞書2
40中の各擬似単語標準パターンと照合し、距離の最も
小さい擬似単語標準パターンの単語を認識単語とする。
入力単語音声パターンを擬([1語標準パターン辞書2
40中の各擬似単語標準パターンと照合し、距離の最も
小さい擬似単語標準パターンの単語を認識単語とする。
単語認識部220における、前述の単語認識処理は、D
P法(Dynamic programming n
atching )によって行われる。
P法(Dynamic programming n
atching )によって行われる。
第9図(8)は、単語認識部220において行われるD
Pマツチング方式を示したもので、横軸は入力単語音声
パターンであり、縦軸は単音節標準パターンを連結して
作成された擬似単語標準パターンである。
Pマツチング方式を示したもので、横軸は入力単語音声
パターンであり、縦軸は単音節標準パターンを連結して
作成された擬似単語標準パターンである。
いま、単語音声“イシカワ(石川);i /ika
wa”が入力され、擬似単語標準パターン“イシカワ
(i /i ka wa) ”とマツチングし
たとき、そのDPパスは、図示の様に始端PからQ’
、R’ 、S’ の各点を通り終端Tに終る経路を
とる。
wa”が入力され、擬似単語標準パターン“イシカワ
(i /i ka wa) ”とマツチングし
たとき、そのDPパスは、図示の様に始端PからQ’
、R’ 、S’ の各点を通り終端Tに終る経路を
とる。
このDPパスは、入力単語音声パターンにおける“イ(
i)、′シ(/i)″及び“カワ(ka wa)
”が、擬似単語標準パターンの“イ (i)”、′シ(
/i)”及び“カワ(kawa)”に正しくマツチング
したときのDPパス、即ちP。
i)、′シ(/i)″及び“カワ(ka wa)
”が、擬似単語標準パターンの“イ (i)”、′シ(
/i)”及び“カワ(kawa)”に正しくマツチング
したときのDPパス、即ちP。
Q、R,S及びTの各点を通る正しいDPパスからずれ
たものとなっている。この為、認識率が低下するという
問題が生じる。
たものとなっている。この為、認識率が低下するという
問題が生じる。
DPパスが正しい経路からずれる原因の1つとして、入
力単語音声パターン中には無音区間(第9図(a)では
、“シ(/i)”と“カワ(ka wa)”の間の区
間)が存在するのに対し、擬似単語標準パターンには、
一般にこの様な無音区間が存在しないことが挙げられる
。即ち、無音区間を含んだ入力単語音声パターンと無音
区間を含まない擬似単語標準パターンとを照合する際、
無理なりP等の非線形伸縮を行って対応付ける為、マツ
チング時のDPババス、第9図(a)に示す様に、正し
いDPパスからずれたものとなる。
力単語音声パターン中には無音区間(第9図(a)では
、“シ(/i)”と“カワ(ka wa)”の間の区
間)が存在するのに対し、擬似単語標準パターンには、
一般にこの様な無音区間が存在しないことが挙げられる
。即ち、無音区間を含んだ入力単語音声パターンと無音
区間を含まない擬似単語標準パターンとを照合する際、
無理なりP等の非線形伸縮を行って対応付ける為、マツ
チング時のDPババス、第9図(a)に示す様に、正し
いDPパスからずれたものとなる。
この問題を解決する為に、同じ出願人は、入力単語音声
パターンより無音区間パターンを除去し、各有音区間パ
ターンを詰めて作成された圧縮単語音声パターンを用い
て擬似単語標準パターンと照合さ・仕る単語音声認識方
式を提案した(この単語音声認識方式については、本発
明の詳細な説明の中で合わせて説明する)。
パターンより無音区間パターンを除去し、各有音区間パ
ターンを詰めて作成された圧縮単語音声パターンを用い
て擬似単語標準パターンと照合さ・仕る単語音声認識方
式を提案した(この単語音声認識方式については、本発
明の詳細な説明の中で合わせて説明する)。
この様な圧縮単語音声パターンを用いて擬似単語標準パ
ターンと照合すると、無音区間が存在しないことから、
R,R’S、S’ の4点が共通となることが許され良
好な照合が行われ、認識率を向上さ廿ることが出来る。
ターンと照合すると、無音区間が存在しないことから、
R,R’S、S’ の4点が共通となることが許され良
好な照合が行われ、認識率を向上さ廿ることが出来る。
然しながら、無音区間の両側の有音区間パターンの影を
等により第9図(blに示す様に、マツチング時のDP
ハスは、正しい経路点RsからずれたRs’点を通るこ
とが許されており、誤認識の原因となる。
等により第9図(blに示す様に、マツチング時のDP
ハスは、正しい経路点RsからずれたRs’点を通るこ
とが許されており、誤認識の原因となる。
又、マツチング時のDPパスが正しいRs点を通った場
合でも、“イ (+) ”及び“シ(11)”のDP
パスは変らないので、第9図(alの様に、そのDPパ
スが正しい経路点QからずれたQ′を通る場合には、圧
縮単語音声パターンを用いた場合も、第4図(b)に示
す様に、DPパスはQ′点を通ることになる。
合でも、“イ (+) ”及び“シ(11)”のDP
パスは変らないので、第9図(alの様に、そのDPパ
スが正しい経路点QからずれたQ′を通る場合には、圧
縮単語音声パターンを用いた場合も、第4図(b)に示
す様に、DPパスはQ′点を通ることになる。
従来の入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合する単語音声認
識方式は、前述の様に、マツチング時のDPパスが正し
いパスからずれたものとなって正しい照合が行われない
為に、認識率が低下するという問題があった。
作成された擬似単語標準パターンと照合する単語音声認
識方式は、前述の様に、マツチング時のDPパスが正し
いパスからずれたものとなって正しい照合が行われない
為に、認識率が低下するという問題があった。
本発明は、入力単語音声パターンを単音節標準パターン
から作成された擬似単語標準パターンと照合して入力単
語音声を認識する単語音声認識装置において、マツチン
グ時のDPパスとして、音声学上不自然なパスを許さな
い様にすることにより認識率を向上させると共に処理量
を低減させる様にした単語音声認識装置を提供すること
を目的とする。
から作成された擬似単語標準パターンと照合して入力単
語音声を認識する単語音声認識装置において、マツチン
グ時のDPパスとして、音声学上不自然なパスを許さな
い様にすることにより認識率を向上させると共に処理量
を低減させる様にした単語音声認識装置を提供すること
を目的とする。
従来の入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合する単語音声認
識方式においては、マツチング時のDPパスが正しいD
Pパスからずれる現象が生じるが、それは、DPパスが
入力単語音声パターン中の各音節区分点に対応する擬似
単語標準パターン中の各音節連結点を通ることが、従来
のDPマツチング方式においては何等保証されていない
ことに原因がある。叩ち、従来のDPマツチング方式で
は、始端と終端は保証されているが、その途中において
DPパスが成る特定の点を通ることは何ら保証されてい
ない。このことは、圧縮単語音声パターンを用いた場合
も同様である。
作成された擬似単語標準パターンと照合する単語音声認
識方式においては、マツチング時のDPパスが正しいD
Pパスからずれる現象が生じるが、それは、DPパスが
入力単語音声パターン中の各音節区分点に対応する擬似
単語標準パターン中の各音節連結点を通ることが、従来
のDPマツチング方式においては何等保証されていない
ことに原因がある。叩ち、従来のDPマツチング方式で
は、始端と終端は保証されているが、その途中において
DPパスが成る特定の点を通ることは何ら保証されてい
ない。このことは、圧縮単語音声パターンを用いた場合
も同様である。
本発明は、この点に着目し、DPパスが認識対象となる
入力単語音声パターン(圧縮単語音声パターンである場
合も含む)中の各音声区間の区分点に対応する擬似単語
標準パターン中の各音節連結点を通る様に条件付けて、
認識対象入力車音声パターンと擬似単語標準パターンと
の照合を行わせる様にしたものである。
入力単語音声パターン(圧縮単語音声パターンである場
合も含む)中の各音声区間の区分点に対応する擬似単語
標準パターン中の各音節連結点を通る様に条件付けて、
認識対象入力車音声パターンと擬似単語標準パターンと
の照合を行わせる様にしたものである。
以下、従来の単語音声認識方式における前述の問題点を
解決する為に本発明が講じた手段を、第1図を参照して
説明する。
解決する為に本発明が講じた手段を、第1図を参照して
説明する。
第1図は、本発明の基本構成をブロック図で示したもの
である。
である。
第1図において、110は認識用音声区間検出手段で、
入力単語音声パターンから各音声区間の区分点の検出及
び認識対象となる単語音声パターン、即ち、認識対象入
力単語音声パターンの作成を行う。
入力単語音声パターンから各音声区間の区分点の検出及
び認識対象となる単語音声パターン、即ち、認識対象入
力単語音声パターンの作成を行う。
!20は、擬似単語標準パターン作成手段で、各単音節
標準パターンより認識対象となるカテゴリの単語群に属
する各単語の擬似単語標準パターンを作成する。
標準パターンより認識対象となるカテゴリの単語群に属
する各単語の擬似単語標準パターンを作成する。
130は照合経路通過点選定手段で、認識用音声区間検
出手段110により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
される各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。
出手段110により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
される各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。
140は単語認識手段で、照合経路通過点選定子Vi1
30によって選定された照合経路通過点を通る経路によ
り認識対象単語音声パターンと各擬似巾語標準パターン
とを照合して単語認識を行う。
30によって選定された照合経路通過点を通る経路によ
り認識対象単語音声パターンと各擬似巾語標準パターン
とを照合して単語認識を行う。
入力単語音声から作成された入力単語音声パターンが入
力されると、認識用音声区間検出部110は、入力単語
音声パターンから各音声区間の区分点を検出すると共に
、認識対象となる認識対象入力小話音声パターンを作成
する。この認識対象入力単語音声パターンには、入力単
語音声パターンより無音区間パターンを除去し、各有音
区間パターンを詰めて作成された圧縮単語音声パターン
も含まれるものである。又、各音声区間は、通常1個の
音節で形成されるが、複数個の音節を含む場合もある。
力されると、認識用音声区間検出部110は、入力単語
音声パターンから各音声区間の区分点を検出すると共に
、認識対象となる認識対象入力小話音声パターンを作成
する。この認識対象入力単語音声パターンには、入力単
語音声パターンより無音区間パターンを除去し、各有音
区間パターンを詰めて作成された圧縮単語音声パターン
も含まれるものである。又、各音声区間は、通常1個の
音節で形成されるが、複数個の音節を含む場合もある。
一方、擬似ff!語標準パターン作成手段120には、
各単音節標準パターンより認識対象となるカテゴリの単
語群に屈する各単語の擬似単語標準パターンが、予め作
成されている。
各単音節標準パターンより認識対象となるカテゴリの単
語群に屈する各単語の擬似単語標準パターンが、予め作
成されている。
照合経路通過点選定手段゛130は、認識用音声区間検
出手段110により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
された各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。
出手段110により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
された各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。
これにより、照合時の各経路は、認識対象単語音声パタ
ーン中の各音声区間の区分点に対応する擬似単語標準パ
ターン中の各単音節連結点に基づいて選定された特定の
点を通る様に条件付けられる。
ーン中の各音声区間の区分点に対応する擬似単語標準パ
ターン中の各単音節連結点に基づいて選定された特定の
点を通る様に条件付けられる。
単語認識手段140は、照合経路通過点選定手段130
.によって選定された照合経路通過点を通る経路により
認識対象単語音声パターンと各擬似単語標準パターンと
を照合して単語認識を行う。
.によって選定された照合経路通過点を通る経路により
認識対象単語音声パターンと各擬似単語標準パターンと
を照合して単語認識を行う。
以上の様にすることにより、認識対象単語音声パターン
を各擬似単語標準パターンと照合するときの各経路は、
認識対象入力単語音声パターン中の各音声区間の区分点
に対応する擬似単語標準パターン中の各単音節連結点に
基づいて選定された特定の点を通る様に条件付けられる
ので、正しい照合が行われ、認識率を向上させることが
出来る。
を各擬似単語標準パターンと照合するときの各経路は、
認識対象入力単語音声パターン中の各音声区間の区分点
に対応する擬似単語標準パターン中の各単音節連結点に
基づいて選定された特定の点を通る様に条件付けられる
ので、正しい照合が行われ、認識率を向上させることが
出来る。
又、各照合経路の共通の通過点が特定されるので、認識
対象単語音声パターンを各擬似単語標準パターンと照合
する際の照合領域が削減され、照合時の処理量を低減さ
せることが出来る。
対象単語音声パターンを各擬似単語標準パターンと照合
する際の照合領域が削減され、照合時の処理量を低減さ
せることが出来る。
本発明の実施例を、第2図〜第7図を参照して説明する
。
。
第2図は本発明の一実施例の構成のプロツク説明図、第
3図は同実施例における区間検出方式の説明図、第4図
は同実施例における第1の照合経路通過点選定方式の説
明図、第5図は同実施例におけるDPマツチング方式の
説明図、第6図は本発明における第2の照合経路通過点
選定方式の説明図、第7図は本発明における第3の照合
経路通過点選定方式の説明図である。
3図は同実施例における区間検出方式の説明図、第4図
は同実施例における第1の照合経路通過点選定方式の説
明図、第5図は同実施例におけるDPマツチング方式の
説明図、第6図は本発明における第2の照合経路通過点
選定方式の説明図、第7図は本発明における第3の照合
経路通過点選定方式の説明図である。
(A)実施例の構成
第2図において、認識用音声区間検出手段11O1擬似
単語標準パターン作成手段120、照合経路通過点選定
手段130、単語認識手段140・については、第1図
で説明した通りである。
単語標準パターン作成手段120、照合経路通過点選定
手段130、単語認識手段140・については、第1図
で説明した通りである。
150はマイクロホンで、話者(図示せず)の発声した
単語音声又は単音節音声が入力される。
単語音声又は単音節音声が入力される。
160はパラメタ抽出部で、マイクロホン150から入
力された単語音声又は単音節音声の特徴を表すパラメタ
を抽出して、入力単語音声パターン又は入力単音節音声
パターンを作成する。
力された単語音声又は単音節音声の特徴を表すパラメタ
を抽出して、入力単語音声パターン又は入力単音節音声
パターンを作成する。
170は切替え回路で、入力単語音声パターンと入力単
音節音声パターンに応じた切替えを行う、認識用音声区
間検出手段110において、111は、認識用音声区間
検出部で、入力単語音声−パターンから各音声区間の区
分点を検出すると共に、認識対象となる認識対象入力単
語音声パターンを作成する。 ・ − 112はバタ、−ン圧縮部で、認識用区間検出部111
から入力された各音声区間の区分点情報及び認識対象入
力単語音声パターンに基づいて圧縮FD語音声パターン
を作成する。
音節音声パターンに応じた切替えを行う、認識用音声区
間検出手段110において、111は、認識用音声区間
検出部で、入力単語音声−パターンから各音声区間の区
分点を検出すると共に、認識対象となる認識対象入力単
語音声パターンを作成する。 ・ − 112はバタ、−ン圧縮部で、認識用区間検出部111
から入力された各音声区間の区分点情報及び認識対象入
力単語音声パターンに基づいて圧縮FD語音声パターン
を作成する。
擬似単語標準パターン作成手段120において、121
は登録用区間検出部で、登録用の単音節音声パターンの
区間検出を行って単音節標準パターンを作成する。
は登録用区間検出部で、登録用の単音節音声パターンの
区間検出を行って単音節標準パターンを作成する。
122は単音節標準パターン辞書で、作成された各単音
節標準パターンが登録される。
節標準パターンが登録される。
123は単語辞書で、各単語の音節情報が格納されてい
る。
る。
124は擬似単語標準パターン作成部で、単語辞712
3より認識対象となる小諸群のカテゴリに屈する各単語
を取り出し、各単語の音節情報に基づいて単音節標準パ
ターン辞書122より所定の各単音節標準パターンをを
り出し、各単語毎の1疑似型話標準パターンを作成する
。 。
3より認識対象となる小諸群のカテゴリに屈する各単語
を取り出し、各単語の音節情報に基づいて単音節標準パ
ターン辞書122より所定の各単音節標準パターンをを
り出し、各単語毎の1疑似型話標準パターンを作成する
。 。
照合経路通過点選定手段130において、131は、フ
レーム間距−離計算部で、パターン圧lit %112
より入力された圧縮単語音声パターンの各フレーノ、と
擬似単語標準パ、ターン作成部124の作成した各擬似
単語標準パターンの各フレームとのフレーム間距離を計
算する。
レーム間距−離計算部で、パターン圧lit %112
より入力された圧縮単語音声パターンの各フレーノ、と
擬似単語標準パ、ターン作成部124の作成した各擬似
単語標準パターンの各フレームとのフレーム間距離を計
算する。
132は、照合経路通過点選定部で、特定区間における
フレーム間距離を変更することによりDPババス通る特
定の点を選定する。
フレーム間距離を変更することによりDPババス通る特
定の点を選定する。
単語認識手段140において、141は累積距離計算部
で、認識対象入力単語音声パターン(この実施例では圧
縮単語音声パターン)と各擬似単語音声パターン間の累
積距離の計算を、照合経路通過点選定部132によって
選定された特定の通過点を通るDPパスによって計算す
る。
で、認識対象入力単語音声パターン(この実施例では圧
縮単語音声パターン)と各擬似単語音声パターン間の累
積距離の計算を、照合経路通過点選定部132によって
選定された特定の通過点を通るDPパスによって計算す
る。
142は判定部で、累積距離計算部141によって計算
された各累積距離の中で最小値を与える単語を認識単語
とする。
された各累積距離の中で最小値を与える単語を認識単語
とする。
(B)実施例の動作
実施例の動作を、第2図〜第5図を参照し、各動作に分
けて説明する。
けて説明する。
(B−1)登録動作
話者の発声した単語音声に対する認識処理が行われる前
に、単音節標準パターン辞書122には各単音節の標準
パターンが登録され、更に、擬似単語標準パターンが作
成される。
に、単音節標準パターン辞書122には各単音節の標準
パターンが登録され、更に、擬似単語標準パターンが作
成される。
単音節標準パターン辞書122に各単音節標準パターン
を登録する場合は、切替え回路170を登録用区間検出
部121側に接続し、マイクロホン150より単音節音
声をパラメタ抽出部160に入力する。
を登録する場合は、切替え回路170を登録用区間検出
部121側に接続し、マイクロホン150より単音節音
声をパラメタ抽出部160に入力する。
パラメタ抽出部160は、入力された単音節音声の特徴
を表すパラメタを抽出して、入力単音節音声パターンS
Pを作成する。
を表すパラメタを抽出して、入力単音節音声パターンS
Pを作成する。
作成された単音節音声パターンSPは、各フレーム毎の
特徴ベクトルの時系列であり、各特徴ベクトルは、9個
(例えば16個)の帯域フィルタのパワースペクトルを
q次のベクトル量で表したものである。従って、横軸に
時間tをとり、縦軸にパワーをとると、入力単音節パタ
ーンSPは、第3図1M)に示す様なパターンを形成す
る。
特徴ベクトルの時系列であり、各特徴ベクトルは、9個
(例えば16個)の帯域フィルタのパワースペクトルを
q次のベクトル量で表したものである。従って、横軸に
時間tをとり、縦軸にパワーをとると、入力単音節パタ
ーンSPは、第3図1M)に示す様なパターンを形成す
る。
この入力単音節音声パターンSPに対し、2種類の闇値
h1及ブh2を設ける。閾値hlは、雑音レベルよりは
高く、各入力単音節音声パターンのパワーの最大値の中
で最も低い値の近傍に選定される。h2は雑音レベル、
即ち無音区間パターンのパワーレベルの最大値の近傍に
選定される。
h1及ブh2を設ける。閾値hlは、雑音レベルよりは
高く、各入力単音節音声パターンのパワーの最大値の中
で最も低い値の近傍に選定される。h2は雑音レベル、
即ち無音区間パターンのパワーレベルの最大値の近傍に
選定される。
登録用区間検出部121は、入力待ちになってから、入
力単音節音声パターンのパワーが閾値h1を初めて越え
たフレーム(f* )を探し、このフレームroから両
側でパワーが閾値h2以上である連続した区間(始端f
s〜終端fe)を単音節標準パターンの音声区間として
検出する(第3図(a)参照)。
力単音節音声パターンのパワーが閾値h1を初めて越え
たフレーム(f* )を探し、このフレームroから両
側でパワーが閾値h2以上である連続した区間(始端f
s〜終端fe)を単音節標準パターンの音声区間として
検出する(第3図(a)参照)。
これにより、雑音N1=83を除いた、始端fSから終
端fe間の入力単音節音声パターン部分が登録用の単音
節標準パターンとして抽出されて、単音節標準パターン
辞書122に登録される。
端fe間の入力単音節音声パターン部分が登録用の単音
節標準パターンとして抽出されて、単音節標準パターン
辞書122に登録される。
認識対象となる単語群のカテゴリが決まると、擬似単語
標準パターン作成部124は、単語辞書123より認識
対象となる単語群のカテゴリに淀する各単語を取り出し
、各単語の音節情報に基づいて単音節標準パターン辞書
122より所定の各単音節標準パターンを取り出し、各
単語毎の擬似単語標準パターンを作成する。
標準パターン作成部124は、単語辞書123より認識
対象となる単語群のカテゴリに淀する各単語を取り出し
、各単語の音節情報に基づいて単音節標準パターン辞書
122より所定の各単音節標準パターンを取り出し、各
単語毎の擬似単語標準パターンを作成する。
(B−2)認識対象入力単語音声パターン作成動作入力
された単語音声パターンに対する認識処理を行う場合は
、切替え回路170を認識用音声区間検出部lll側に
接続し、認識対象入力単語音声パターンとしての圧縮単
語音声パターンの作成が行われる。
された単語音声パターンに対する認識処理を行う場合は
、切替え回路170を認識用音声区間検出部lll側に
接続し、認識対象入力単語音声パターンとしての圧縮単
語音声パターンの作成が行われる。
マイクロホン150より未知単語音声が入力されると、
前述の単音節標準パターンの登録の場合と同様にして、
パラメタ抽出部160は、入力単語音声パターンWPを
作成して認識用音声区間検出部111に入力する。
前述の単音節標準パターンの登録の場合と同様にして、
パラメタ抽出部160は、入力単語音声パターンWPを
作成して認識用音声区間検出部111に入力する。
作成された入力単語音声パターンwpは、入力単音節音
声パターンと同様に、各フレーム毎の特徴ベクトルの時
系列であり、各特徴ベクトルは9個の帯域フィルタのパ
ワースペクトルをq次のべクトル量で表したものである
。従って、横軸に時間tをとり、縦軸にパワーをとると
、入力単語音声パターンWPは、第3図山)に示す様な
パターンを形成する。
声パターンと同様に、各フレーム毎の特徴ベクトルの時
系列であり、各特徴ベクトルは9個の帯域フィルタのパ
ワースペクトルをq次のべクトル量で表したものである
。従って、横軸に時間tをとり、縦軸にパワーをとると
、入力単語音声パターンWPは、第3図山)に示す様な
パターンを形成する。
この入力単語音声パターンwpに対し、前述の登録用区
間検出部121の場合と同様な閾値h1及びh2が設定
される(第3図(bl参照)。
間検出部121の場合と同様な閾値h1及びh2が設定
される(第3図(bl参照)。
認識用音声区間検出部111は、入力待ちになってから
、入力単語音声パターンWPのパワーが閾値h+を初め
て越えたフレーム(fo )を探し、このフレームfo
から両側でパワーが閾値62以上の区間(始端f 3〜
f 1 、 f 2〜f 3 、 f 4 ’%d
fe)を探す。その際、閾値h2以下になる区間(fo
〜f2 、fa 〜f< )が所定の長さLsより小
さいときは、無音区間として入力単語音声パターンに含
ませ、Lsを越えた場合(例えばr。1〜fs 、fe
”fn2)は、雑音として無視する。
、入力単語音声パターンWPのパワーが閾値h+を初め
て越えたフレーム(fo )を探し、このフレームfo
から両側でパワーが閾値62以上の区間(始端f 3〜
f 1 、 f 2〜f 3 、 f 4 ’%d
fe)を探す。その際、閾値h2以下になる区間(fo
〜f2 、fa 〜f< )が所定の長さLsより小
さいときは、無音区間として入力単語音声パターンに含
ませ、Lsを越えた場合(例えばr。1〜fs 、fe
”fn2)は、雑音として無視する。
Lsは、各単語音声中に含まれる各無音区間中の最大値
に基づいて選定される。
に基づいて選定される。
これにより、始端fsから終端fe間の入力単語音声パ
ターン部分が、認識対象となる入力単語音声パターンと
して抽出される。
ターン部分が、認識対象となる入力単語音声パターンと
して抽出される。
認識用音声区間検出部111は、更に、この認識対象入
力単語音声パターンにおいて、そのパワーレベルが閾値
62以上である区間、即ち有音区間(fs=f+ 、
12〜fz 、fo 〜fe)と閾値h2より低い区
間、即ち無音区間(f+〜「2)(f3〜f4)及びそ
の各区分点(fs=fe)を検出する(第3図(1))
参照)。
力単語音声パターンにおいて、そのパワーレベルが閾値
62以上である区間、即ち有音区間(fs=f+ 、
12〜fz 、fo 〜fe)と閾値h2より低い区
間、即ち無音区間(f+〜「2)(f3〜f4)及びそ
の各区分点(fs=fe)を検出する(第3図(1))
参照)。
パターン圧縮部112は、認識用音声区間検出部111
の検出した有音区間及び無音区間情報に基づいて、圧縮
対象となる入力単語音声パターンより無音区間(fo
”fa 、f3〜f−)のパターンを取り除き、各有
音区間(f s−r l* r 2〜r*、r*〜fe
)の各パターンを詰めて、圧縮単語音声パターンWPc
を作成する。
の検出した有音区間及び無音区間情報に基づいて、圧縮
対象となる入力単語音声パターンより無音区間(fo
”fa 、f3〜f−)のパターンを取り除き、各有
音区間(f s−r l* r 2〜r*、r*〜fe
)の各パターンを詰めて、圧縮単語音声パターンWPc
を作成する。
以上の様に圧縮単語音声パターンWPcを用いることに
より、入力単語音声パターン中に存在する無音区間パタ
ーンによる悪影響が除去されて擬似単語標準パターンと
の照合が正しく行われ、入力単語音声の認識率を向上さ
せることが出来る。
より、入力単語音声パターン中に存在する無音区間パタ
ーンによる悪影響が除去されて擬似単語標準パターンと
の照合が正しく行われ、入力単語音声の認識率を向上さ
せることが出来る。
なお、各音声区間の区分点は、前述のパワーディップの
存在によって検出する方法の他、パターン変動量のピー
クの存在によって検出する方法、公知の各種の方法によ
って検出することが出来る。
存在によって検出する方法の他、パターン変動量のピー
クの存在によって検出する方法、公知の各種の方法によ
って検出することが出来る。
(B−3)照合経路通過点選定動作
第1の照合経路通過点選定方式による照合経路通過点選
定動作を、第4図を参照して説明する。
定動作を、第4図を参照して説明する。
フレーム間距離計算部131は、パターン圧縮部112
より入力された圧縮単語音声パターンWPcの各フレー
ムと擬似単語標準パターン作成部124で作成した各擬
似単語標準パターンの各フレームとのフレーム間距離を
計算する。以下、圧縮単語音声パターンWPCのiフレ
ームと擬似単語標準パターンのjフレームとのフレーム
間距離をd(isj)で表すことにする。
より入力された圧縮単語音声パターンWPcの各フレー
ムと擬似単語標準パターン作成部124で作成した各擬
似単語標準パターンの各フレームとのフレーム間距離を
計算する。以下、圧縮単語音声パターンWPCのiフレ
ームと擬似単語標準パターンのjフレームとのフレーム
間距離をd(isj)で表すことにする。
照合経路通過点選定部132は、特定区間におけるフレ
ーム間距離を変更することにより、DPパスが通る特定
の点を選定する。
ーム間距離を変更することにより、DPパスが通る特定
の点を選定する。
第4図において、横軸は圧縮単語音声パターンWPCで
、数字はそのフレーム番号を表している。
、数字はそのフレーム番号を表している。
縦軸は擬似単語標準パターンで、数字はそのフレーム数
を表している。
を表している。
圧縮単語音声パターンWPcとして“イシカワ(石川)
:i /i kawa”が例示されている。この場
合、“シ(/i)”と“カワ(k a wa)”の間に
存在していた無音区間パターンが除去されて圧縮され、
“イ(i) ”、“シ(/i) ”及び“カワ(kaw
a) ”の3音声パターンで形成される。フレーム6
と7の境界点11が、“イロ)”と“シ(/i) ”の
区分点となり、フレーム14と15の境界点12が、“
シ(/i) ”と“カワ(kawa)”の区分点とな
っている“力(ka)”と“ワ(Wa)”の間はパワー
ディップが少いので、区分点が検出されず、両者が一体
となって一つの音声区間を形成している。
:i /i kawa”が例示されている。この場
合、“シ(/i)”と“カワ(k a wa)”の間に
存在していた無音区間パターンが除去されて圧縮され、
“イ(i) ”、“シ(/i) ”及び“カワ(kaw
a) ”の3音声パターンで形成される。フレーム6
と7の境界点11が、“イロ)”と“シ(/i) ”の
区分点となり、フレーム14と15の境界点12が、“
シ(/i) ”と“カワ(kawa)”の区分点とな
っている“力(ka)”と“ワ(Wa)”の間はパワー
ディップが少いので、区分点が検出されず、両者が一体
となって一つの音声区間を形成している。
縦軸には、“イ(i)11.IIシ(/i) 、“力
(ka) ”及び“ワ(wa) ”の各歯音節を連
結した擬似単語標準パターン“イシカワ(石川):i
7i ka wa”が例示されている。この場合
、フレーム6と7の境界点CIが“イ (i)”と“シ
(Ii) ”の連結点となり、フレーム12と13の
境界点C2が1シ(、Ii)”と“力(ka) ”の
連結点となり、フレーム18と19の境界点C3が“力
(ka) ”と“ワ(wa) ”の連結点となってい
る。
(ka) ”及び“ワ(wa) ”の各歯音節を連
結した擬似単語標準パターン“イシカワ(石川):i
7i ka wa”が例示されている。この場合
、フレーム6と7の境界点CIが“イ (i)”と“シ
(Ii) ”の連結点となり、フレーム12と13の
境界点C2が1シ(、Ii)”と“力(ka) ”の
連結点となり、フレーム18と19の境界点C3が“力
(ka) ”と“ワ(wa) ”の連結点となってい
る。
照合経路通過点選定部132は、認識用区間検出部11
1より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部131で求められた圧WJ単語音
声パターンWPcとi*(12単語標準パターンの各フ
レーム間距離d (i、j)の中、圧縮単語音声パター
ン中の各音声区間パターン(有音区間のパターン)の先
頭フレームと擬似fl’ AM 標’% パターンの各
フレームとのフレーム間距離を、各端音節標準パターン
の先頭フレームを除き唖に置換する。ここで、りは、計
算上表現し得る最大値で、例えば、d(ltj)を・2
バイトで表現している場合は、“FFFF(16進)”
に置換する。
1より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部131で求められた圧WJ単語音
声パターンWPcとi*(12単語標準パターンの各フ
レーム間距離d (i、j)の中、圧縮単語音声パター
ン中の各音声区間パターン(有音区間のパターン)の先
頭フレームと擬似fl’ AM 標’% パターンの各
フレームとのフレーム間距離を、各端音節標準パターン
の先頭フレームを除き唖に置換する。ここで、りは、計
算上表現し得る最大値で、例えば、d(ltj)を・2
バイトで表現している場合は、“FFFF(16進)”
に置換する。
この置換処理により、第4図に示す様に、圧縮単語標準
パターンWPcの音声区間パターン“シ(Ii) ”
の先頭フレーム(フレーム7)と擬似Qi 語+M m
パターンの各フレームとのフレーム間距門td(7,j
)は、d (7,7)、d (7,13)及びd(7,
19)を除き(即ち、j=1〜24、但し、j≠7.1
3.19)、唖となる。
パターンWPcの音声区間パターン“シ(Ii) ”
の先頭フレーム(フレーム7)と擬似Qi 語+M m
パターンの各フレームとのフレーム間距門td(7,j
)は、d (7,7)、d (7,13)及びd(7,
19)を除き(即ち、j=1〜24、但し、j≠7.1
3.19)、唖となる。
同様に、圧縮単語標準パターンWPcの音声区間パター
ン“カワ(kawa)”の先頭フレーム(フレーム15
)と擬似単語標準パターンの各フレームとのフレーム間
距離d(15,j)は、d(15,7)、d (15,
13)及びd(15゜19)を除き(即ち、j=1〜2
4、但し、j≠7.1.3.19)、唖となる。
ン“カワ(kawa)”の先頭フレーム(フレーム15
)と擬似単語標準パターンの各フレームとのフレーム間
距離d(15,j)は、d(15,7)、d (15,
13)及びd(15゜19)を除き(即ち、j=1〜2
4、但し、j≠7.1.3.19)、唖となる。
以上の様にすることにより、圧縮単語音声パターンWP
Cの各音声区間の区分点1o−12及び擬似単語標準パ
ターンの連結点co−C3に基づいて定まるlcoo=
ilcgが、照合経路通過候補点として選定される。
Cの各音声区間の区分点1o−12及び擬似単語標準パ
ターンの連結点co−C3に基づいて定まるlcoo=
ilcgが、照合経路通過候補点として選定される。
DPパスの通過点は、照合時の時間伸縮率や擬似単語標
準パターンの特性等を考慮して、前述の照合経路通過候
補点1!coosylc32の全部又は任意の一部から
適宜選定される。例えば、時間伸縮率が図示のe、及び
C2の範囲に設定されたとすると、D’Pパスの通過点
は、l Co ) 1−Cl2slc22及びl’c2
3に一選定される。
準パターンの特性等を考慮して、前述の照合経路通過候
補点1!coosylc32の全部又は任意の一部から
適宜選定される。例えば、時間伸縮率が図示のe、及び
C2の範囲に設定されたとすると、D’Pパスの通過点
は、l Co ) 1−Cl2slc22及びl’c2
3に一選定される。
以上の照合経路通過点選定処理が、他の擬似単語標準パ
ターンと圧・縮単語音声パターンWPcとの間で行われ
る。
ターンと圧・縮単語音声パターンWPcとの間で行われ
る。
(B−4)単語認識動作
累積距離計算部141は、照合経路通過点選定部132
より入力された圧縮単語音声パターンの各フレームと各
擬似単語標準パターンにおける各フレームとのフレーム
間距離に基づいて、圧縮単語音声パターンWPcと各擬
似単語標準パターン間の累積距離を計算する。
より入力された圧縮単語音声パターンの各フレームと各
擬似単語標準パターンにおける各フレームとのフレーム
間距離に基づいて、圧縮単語音声パターンWPcと各擬
似単語標準パターン間の累積距離を計算する。
この累積距離計算は、公知のDP法によって行われる。
第4図において、各唖点を通るDPパスよる累積距離は
当然のとなるので、実線で例示される様に、照合経路通
過点選定部132に劣って選定された通過点1cu 、
lc、+2.lc々及びlc6を通るDPパスによる累
積距離が求められることになる。なお、D、Pパスは、
一般には、非直線特性である。
当然のとなるので、実線で例示される様に、照合経路通
過点選定部132に劣って選定された通過点1cu 、
lc、+2.lc々及びlc6を通るDPパスによる累
積距離が求められることになる。なお、D、Pパスは、
一般には、非直線特性である。
1す足部142は、累積距離計算部141によって計算
された各累積距離の中で最小値を与える単語−を認識単
語とする。第4図の実施例においては、明らかに始端T
s 、 I C111、l(22及び終端T8eを通る
DPパスによる累積距離が最小値を与えるので、正しい
照合が・行われ、単語“イシカワ(石川)”が入力単語
音声−とじて誤りなく認識される。
された各累積距離の中で最小値を与える単語−を認識単
語とする。第4図の実施例においては、明らかに始端T
s 、 I C111、l(22及び終端T8eを通る
DPパスによる累積距離が最小値を与えるので、正しい
照合が・行われ、単語“イシカワ(石川)”が入力単語
音声−とじて誤りなく認識される。
又、DPパス数が削X減されるので、照合時の処理量を
低減させることが出摩る。このことは、次に説明する他
の実施例についても同様である。、第5図は、圧縮単語
音声パターン“イシカワ(i 7i ka wa
) ”が擬似単語標準パターン“イシカワ(i f
i、ka wa)’と77チングした状態及びその
ときのDPパスを示したものである。
低減させることが出摩る。このことは、次に説明する他
の実施例についても同様である。、第5図は、圧縮単語
音声パターン“イシカワ(i 7i ka wa
) ”が擬似単語標準パターン“イシカワ(i f
i、ka wa)’と77チングした状態及びその
ときのDPパスを示したものである。
(C)他の実施例
本発明の照合経路通過点は、次の各方式によって選定す
ることが出来る。
ることが出来る。
(C−1)第2の照合経路通過点選定方式圧縮単語音声
パターンの音声区間パターンの語長(フレーム数)が単
音節の語長に相当する場合、その音声区間パターンが擬
似単語標準パターンの2個の単音節標準パターンの連結
パターンとマツチングすると、誤った認識が行われる。
パターンの音声区間パターンの語長(フレーム数)が単
音節の語長に相当する場合、その音声区間パターンが擬
似単語標準パターンの2個の単音節標準パターンの連結
パターンとマツチングすると、誤った認識が行われる。
即ち、第4図において、fcuとl1c33を通るDP
パスは誤ったパスであり、この様なパスが許されると、
違う標準パターンWPcとの距離が小さくなり誤った認
識結果を与える原因となる。
パスは誤ったパスであり、この様なパスが許されると、
違う標準パターンWPcとの距離が小さくなり誤った認
識結果を与える原因となる。
第2の方式は、この様な誤認識が生じない様にする為に
有効な照合経路通過点選定方式であり、第6図を参照し
て説明する。
有効な照合経路通過点選定方式であり、第6図を参照し
て説明する。
第6図の横軸及びその圧縮単語音声パターンWPc並び
に縦軸及びその擬似単語標準パターンの内容は、第4図
の場合と同じである。
に縦軸及びその擬似単語標準パターンの内容は、第4図
の場合と同じである。
照合経路通過点選定部132は、認識用区間検出部11
1より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部131で求められた圧縮単語音声
パターンWPcと擬似単語標準パターンの各フレーム間
距離d (i l J)の中、擬似単語標準パターン中
の各単音節標準パターンの先頭フレームと圧縮単語音声
パターンの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き唖に置換する。
1より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部131で求められた圧縮単語音声
パターンWPcと擬似単語標準パターンの各フレーム間
距離d (i l J)の中、擬似単語標準パターン中
の各単音節標準パターンの先頭フレームと圧縮単語音声
パターンの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き唖に置換する。
第6図には、擬似単語標準パターン中の単音節標準パタ
ーン“力(ka) ”の先頭フレーム(フレーム13
)と圧縮単語音声パターンの各フレームとのフレーム間
距離d(i、13)を、音声区間パターン“イ(i)
、“シ(/i)”及び“カワ(kawa) ”の先頭
フレーム(フレームl。
ーン“力(ka) ”の先頭フレーム(フレーム13
)と圧縮単語音声パターンの各フレームとのフレーム間
距離d(i、13)を、音声区間パターン“イ(i)
、“シ(/i)”及び“カワ(kawa) ”の先頭
フレーム(フレームl。
7.15)を除き(即ち、i−1〜26、i≠1.7.
15)K)にした場合が示されている。
15)K)にした場合が示されている。
これにより、DPパスは、1cr2又は1c−12を通
るものに限定され、/c12とJC22の間を通るDP
パスは排除されることになる。この結果、圧縮単語音声
パターンWPcの音声区間パターン“シ(/i)”が2
個の単音節標準パターン“シ(/i) ”及び“力(
ka) ”の連結パターンとマツチングすることがな
(なり、認識率を向上させることが出来る。
るものに限定され、/c12とJC22の間を通るDP
パスは排除されることになる。この結果、圧縮単語音声
パターンWPcの音声区間パターン“シ(/i)”が2
個の単音節標準パターン“シ(/i) ”及び“力(
ka) ”の連結パターンとマツチングすることがな
(なり、認識率を向上させることが出来る。
なお、DPパスの通過点は、以上の様にして求められた
各通過点候補の中から、その全部又は任意の一部から適
宜選定される。
各通過点候補の中から、その全部又は任意の一部から適
宜選定される。
即ち、第2の実施例は、図示の場合に限定されるもので
なく、擬似単語標準パターンの他の単音節標準パターン
の先頭フレームと圧縮単語音声パターンの各フレーム間
距離についても、同様に音声区間パターンの先頭フレー
ムを除き力に置換した場合も含むものである。
なく、擬似単語標準パターンの他の単音節標準パターン
の先頭フレームと圧縮単語音声パターンの各フレーム間
距離についても、同様に音声区間パターンの先頭フレー
ムを除き力に置換した場合も含むものである。
擬似単語標準パターンを形成する単音節標準パターン中
に無声破裂子音(例えば、/p/s/l/l/に/9/
lS/等)を先頭フレームとするものがある場合は、こ
の無声破裂子音部の先頭フレームと圧縮単語音声パター
ンWPcの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き力とすると良好な認識
結果が得られる。
に無声破裂子音(例えば、/p/s/l/l/に/9/
lS/等)を先頭フレームとするものがある場合は、こ
の無声破裂子音部の先頭フレームと圧縮単語音声パター
ンWPcの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き力とすると良好な認識
結果が得られる。
(C−2)第3の照合経路通過点選定方式第1の実施例
では、圧縮単語音声パターン中の一つの音声区間パター
ンが、それよりも音節数の多い単音節標準パターンを連
結したものとマツチングする恐れがあり、第2の実施例
では、逆に、圧縮小話音声パターン中の複数の音声区間
パターンが、一つ単音節標準パターンとマツチングする
惣れがある。
では、圧縮単語音声パターン中の一つの音声区間パター
ンが、それよりも音節数の多い単音節標準パターンを連
結したものとマツチングする恐れがあり、第2の実施例
では、逆に、圧縮小話音声パターン中の複数の音声区間
パターンが、一つ単音節標準パターンとマツチングする
惣れがある。
第3の実施例は、この様なミスマツチングを阻止するに
有効な照合経路通過点選定方式であり、第7図を参照し
て説明する。
有効な照合経路通過点選定方式であり、第7図を参照し
て説明する。
第7図の横軸及びその圧縮単語音声パターンWPc並び
に縦軸及びその擬似単語標準パターンの内容は、第4図
及び第6図の場合と同じである。
に縦軸及びその擬似単語標準パターンの内容は、第4図
及び第6図の場合と同じである。
照合経路通過点選定部132は、認識用音声区間検出部
111より入力された各音声区間の区分点情報に基づい
て、フレーム間距離計算部!31で求められた圧縮単語
音声パターンW P、 cと擬似単語標準パターンの各
フレーム量比i’ettd (i 、 j )の中、擬
似単語標準パターン中の各単音節標準パターンの先頭フ
レームと圧縮単語音声パターンの各フレームとのフレー
ム間距離を、各音声区間パターンの先頭フレームを除き
唖に置換すると共に、圧縮単語音声パターン中の各音声
区間パターンの先頭フレームと擬似単語標準パターンの
各フレームとのフレーム間距離を、各単音節標準パター
ンの先頭フレームを除き(転)に置換する。
111より入力された各音声区間の区分点情報に基づい
て、フレーム間距離計算部!31で求められた圧縮単語
音声パターンW P、 cと擬似単語標準パターンの各
フレーム量比i’ettd (i 、 j )の中、擬
似単語標準パターン中の各単音節標準パターンの先頭フ
レームと圧縮単語音声パターンの各フレームとのフレー
ム間距離を、各音声区間パターンの先頭フレームを除き
唖に置換すると共に、圧縮単語音声パターン中の各音声
区間パターンの先頭フレームと擬似単語標準パターンの
各フレームとのフレーム間距離を、各単音節標準パター
ンの先頭フレームを除き(転)に置換する。
以上の置換処理により、第7図に示す様に、圧縮単語音
声パターンWPcの各音声区間の区分点1 +)〜12
及び擬似単語標準パターンの連結点CI)−C3に基づ
いて定まる1coc)z1c32が、照合経路通過候補
点として選出される。
声パターンWPcの各音声区間の区分点1 +)〜12
及び擬似単語標準パターンの連結点CI)−C3に基づ
いて定まる1coc)z1c32が、照合経路通過候補
点として選出される。
DPパスの通過点は、これらの照合経路通過候補点の中
から、照合時の許容時間伸縮や擬似単語標準パターンの
特性等を考慮して、それらの全部又は任意の一部から適
宜選定される。
から、照合時の許容時間伸縮や擬似単語標準パターンの
特性等を考慮して、それらの全部又は任意の一部から適
宜選定される。
なお、前述の置換処理は、一部について行う様にしでも
よい。第7図には、擬似単語標準パターン中の単音節標
準パターンの先頭フレームと圧縮fQ語標準パターンW
Pcの各フレームとのフレーム間距離については、単音
節標準パターン“力(ka)”の先頭フレーム(フレー
ム13)とJEf縮単語標準ハターンWPcの各フレー
ムとのフレーム間距離を、各音声区間パターンの先頭フ
レームを除き唖に置換する場合が例示されている。
よい。第7図には、擬似単語標準パターン中の単音節標
準パターンの先頭フレームと圧縮fQ語標準パターンW
Pcの各フレームとのフレーム間距離については、単音
節標準パターン“力(ka)”の先頭フレーム(フレー
ム13)とJEf縮単語標準ハターンWPcの各フレー
ムとのフレーム間距離を、各音声区間パターンの先頭フ
レームを除き唖に置換する場合が例示されている。
この様に、置換をどこまで行うかは、未知入力の各音節
の先頭がどれだけ検出出来るかにかかっている。通常、
有声子音の/w/、/n/、/m/。
の先頭がどれだけ検出出来るかにかかっている。通常、
有声子音の/w/、/n/、/m/。
/j/、/r/、/g/、/b/*/d/等は検出が困
難であるが、/p/、/l/、/に/等は容易に検出す
ることが出来るので、第7図の例は、本発明の典型的な
実施例といえる。
難であるが、/p/、/l/、/に/等は容易に検出す
ることが出来るので、第7図の例は、本発明の典型的な
実施例といえる。
以上の様にすることにより、誤認識及び処理量を更に少
なくすることが出来る。
なくすることが出来る。
以上説明した様に、本発明によれば、次の諸効果が得ら
れる。
れる。
(イ)照合時の各経路が、認識対象入力単語音声パター
ン中の各音声区間の各区分点に対応する擬似1!語標準
パターン中の各単音節連結点に基づいて選定された特定
の点を通る様に条件付けられるので、正しい照合が行わ
れ、認識率を向上させることが出来る。
ン中の各音声区間の各区分点に対応する擬似1!語標準
パターン中の各単音節連結点に基づいて選定された特定
の点を通る様に条件付けられるので、正しい照合が行わ
れ、認識率を向上させることが出来る。
(ロ)照合時の各経路の共通の通過点が選定されるので
、認識対象単語音声パターンを各擬似単語標準パターン
と照合する際の照合領域が削減され、照合時の処理量を
低減させること、が出来る。
、認識対象単語音声パターンを各擬似単語標準パターン
と照合する際の照合領域が削減され、照合時の処理量を
低減させること、が出来る。
第1図・・・本発明の基本構成の説明図、第2図・・・
本発明の一実施例の構成の説明図、第3図・・・同実施
例における区間検出方式の説明図、 第4図・・・同実施例における第1の照合経路通過点選
定方式の説明図、 第5図・・・同実施例におけるDPマツチング方式第6
図・・・本発明における第2の照合経路通過点選定方式
の説明図、 第7図・・・本発明における第3の照合経路通過点選定
方式の説明図、 第8図・・・従来の擬似単語標準パターンによる単語音
声認識方式、 第9図・・・従来の擬似単語標準パターンによる単語音
声認識方式におけるDPマツチン グ方式の説明図。 第1図及び第2図において、 110・・・認識用音声区間検出手段、120・・・擬
似単語標準パターン作成手段、130・・・照合経路通
過点選定手段、140・・・単語認識手段、150・・
・マイクロホン、160・・・パラメタ抽出部、170
・・・切替え回路。
本発明の一実施例の構成の説明図、第3図・・・同実施
例における区間検出方式の説明図、 第4図・・・同実施例における第1の照合経路通過点選
定方式の説明図、 第5図・・・同実施例におけるDPマツチング方式第6
図・・・本発明における第2の照合経路通過点選定方式
の説明図、 第7図・・・本発明における第3の照合経路通過点選定
方式の説明図、 第8図・・・従来の擬似単語標準パターンによる単語音
声認識方式、 第9図・・・従来の擬似単語標準パターンによる単語音
声認識方式におけるDPマツチン グ方式の説明図。 第1図及び第2図において、 110・・・認識用音声区間検出手段、120・・・擬
似単語標準パターン作成手段、130・・・照合経路通
過点選定手段、140・・・単語認識手段、150・・
・マイクロホン、160・・・パラメタ抽出部、170
・・・切替え回路。
Claims (5)
- (1)入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合して入力単語音
声を認識する単語音声認識装置において、 (a)入力単語音声パターンから各音声区間の区分点の
検出及び認識対象入力単語音声パターンの作成を行う認
識用音声区間検出手段(110)と、 (b)各単音節標準パターンより認識対象となるカテゴ
リの単語群に属する各単語の擬似単語標準パターンを作
成する擬似単語標準パターン作成手段(120)と、 (c)認識用音声区間検出手段(110)により検出さ
れた認識対象入力単語音声パターンの各音声区間の区分
点と各擬似単語標準パターンにおける各単音節標準パタ
ーンの連結点に基づいて選出された各照合経路通過候補
点中から、特定の点を照合経路通過点として選定する照
合経路通過点選定手段(130)、 (d)照合経路通過点選定手段(130)によって選定
された照合経路通過点を通る経路により認識対象入力単
語音声パターンと各擬似単語標準パターンとを照合して
単語認識を行う単語認識手段(140)、 を備えたことを特徴とする単語音声認識装置。 - (2)照合経路通過点選定手段(130)によって選出
される各照合経路通過候補点が、認識対象入力単語音声
パターン中の各音声区間パターンの先頭フレームと擬似
単語標準パターンの各フレームとのフレーム間距離を、
各単音節標準パターンの先頭フレームを除き最大距離に
置換することによって選出されるものであることを特徴
とする特許請求の範囲第1項記載の単語音声認識装置。 - (3)照合経路通過点選定手段(130)によって選出
される各照合経路通過候補点が、擬似単語標準パターン
中の各単音節標準パターンの先頭フレームと認識対象入
力単語音声パターンの各フレームとのフレーム間距離を
、各音声区間パターンの先頭フレームを除き最大距離に
置換することによって選出されるものであることを特徴
とする特許請求の範囲第1項記載の単語音声認識装置。 - (4)照合経路通過点選定手段(130)によって選出
される各照合経路通過候補点が、擬似単語標準パターン
中の各単音節標準パターンの先頭フレームと認識対象入
力単語音声パターンの各フレームとのフレーム間距離を
、各音声区間パターンの先頭フレームを除き最大距離に
置換すると共に、認識対象入力単語音声パターン中の各
音声区間パターンの先頭フレームと擬似単語標準パター
ンの各フレームとのフレーム間距離を、各単音節標準パ
ターンの先頭フレームを除き最大距離に置換することに
より選出されるものであることを特徴とする特許請求の
範囲第1項記載の単語音声認識装置。 - (5)認識対象入力単語音声パターンが、入力単語音声
パターンより無音区間パターンを取り除き、各有音区間
パターンを詰めて作成された圧縮単語音声パターンであ
ることを特徴とする、特許請求の範囲第1項又は第2項
又は第3項又は第4項記載の単語音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61108676A JPS62265699A (ja) | 1986-05-14 | 1986-05-14 | 単語音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61108676A JPS62265699A (ja) | 1986-05-14 | 1986-05-14 | 単語音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62265699A true JPS62265699A (ja) | 1987-11-18 |
| JPH0469959B2 JPH0469959B2 (ja) | 1992-11-09 |
Family
ID=14490847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61108676A Granted JPS62265699A (ja) | 1986-05-14 | 1986-05-14 | 単語音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62265699A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01321498A (ja) * | 1988-06-23 | 1989-12-27 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
| WO2021117219A1 (ja) * | 2019-12-13 | 2021-06-17 | 三菱電機株式会社 | 情報処理装置、検出方法、及び検出プログラム |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56138798A (en) * | 1980-03-31 | 1981-10-29 | Nippon Electric Co | High speed voice recognition device |
| JPS597998A (ja) * | 1982-07-06 | 1984-01-17 | 日本電気株式会社 | 連続音声認識装置 |
| JPS614118A (ja) * | 1984-06-18 | 1986-01-10 | イリノイ ツ−ル ワ−クス インコ−ポレイテツド | 低電圧電気スイツチ装置 |
| JPS62255999A (ja) * | 1986-04-30 | 1987-11-07 | 富士通株式会社 | 単語音声認識装置 |
-
1986
- 1986-05-14 JP JP61108676A patent/JPS62265699A/ja active Granted
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56138798A (en) * | 1980-03-31 | 1981-10-29 | Nippon Electric Co | High speed voice recognition device |
| JPS597998A (ja) * | 1982-07-06 | 1984-01-17 | 日本電気株式会社 | 連続音声認識装置 |
| JPS614118A (ja) * | 1984-06-18 | 1986-01-10 | イリノイ ツ−ル ワ−クス インコ−ポレイテツド | 低電圧電気スイツチ装置 |
| JPS62255999A (ja) * | 1986-04-30 | 1987-11-07 | 富士通株式会社 | 単語音声認識装置 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01321498A (ja) * | 1988-06-23 | 1989-12-27 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
| WO2021117219A1 (ja) * | 2019-12-13 | 2021-06-17 | 三菱電機株式会社 | 情報処理装置、検出方法、及び検出プログラム |
| JPWO2021117219A1 (ja) * | 2019-12-13 | 2021-06-17 | ||
| CN114746939A (zh) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | 信息处理装置、检测方法和检测程序 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0469959B2 (ja) | 1992-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| White et al. | Speech recognition experiments with linear predication, bandpass filtering, and dynamic programming | |
| EP1376537B1 (en) | Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech | |
| JPS62265699A (ja) | 単語音声認識装置 | |
| KR100673834B1 (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| JP3291073B2 (ja) | 音声認識方式 | |
| JPS62255999A (ja) | 単語音声認識装置 | |
| KR100476337B1 (ko) | 음성인식기의유사단어인식방법 | |
| JPS59143200A (ja) | 連続音声認識装置 | |
| JPS62144200A (ja) | 連続音声認識装置 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JPH0632006B2 (ja) | 音声認識装置 | |
| KR100339525B1 (ko) | 1,2단계중심어인식방법을이용한생활정보안내장치 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPS63798B2 (ja) | ||
| JPS5977500A (ja) | 単語音声認識方式 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPS60182499A (ja) | 音声認識装置 | |
| Niimi et al. | Speaker adaptation of a code book of vector quantization | |
| JPS58159598A (ja) | 単音節音声認識方式 | |
| JPH04269799A (ja) | 音声セグメンテーション装置 | |
| JPH03145167A (ja) | 音声認識方式 | |
| JPH0553597A (ja) | 音声認識装置およびパターン比較方法 | |
| JPS6356699A (ja) | 連続音声認識装置 | |
| JPH05241592A (ja) | 連続単語認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |