JPS62265699A

JPS62265699A - 単語音声認識装置

Info

Publication number: JPS62265699A
Application number: JP61108676A
Authority: JP
Inventors: 教幸藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-05-14
Filing date: 1986-05-14
Publication date: 1987-11-18
Also published as: JPH0469959B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕認識対象入力単語音声パターンを単音節標準パターンか
ら作成された擬似単語標準パターンと照合する単語音声
認識装置において、照合時の各経路が、認識対象入力単
語音声パターン中の各音声区間の各区分点に対応する擬
似単語標準パターン中の各単音節連結点に基づいて選定
される特定の点を通る様にする。これにより、認識率を
向上させると共に、処理量を低減させることが出来る。

〔産業上の利用分野〕

本発明は、単語音声を認識する単語音声認識装置、特に
、未知入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合して入力単語音
声を認識する単語音声認識装置において、照合時の経路
の通過点に制限を付けることにより、認識率を向上させ
ると共に処理量を低減させる様に改良した単語音声認識
装置に関する。

未知入力単語音声を認識する場合、入力単語音声から作
成された入力単語音声パターンを予め登録されている単
語標準パターンと照合する認識方式が多く用いられてい
る。

この単語音声認識方式において単語標準パターンを登録
する場合、実際に発声された単語音声より作成された単
語標準パターンを用いる方式と、予め登録されている単
音節標準パターンを連結して作成された擬似単語標準パ
ターンを用いる方式前者の単語標準パターンを用いる方
式は、認識率は良好であるが、認識対象となる単語の数
だけ単語標準パターンを登録する必要がある為、認識単
語数が増加すると、登録作業に多くの手間と時間が掛り
、且つ、認識対象となる単語群のカテゴリが変更される
と、再び登録をやり直さねばならないという不都合があ
る。

こ、れに対し、後者の擬似単語標準パターンを用いる方
式は、認識率の点では前者の方式より一般的に劣るが、
約１００種類程の単音節標準パターンを登録するだけで
、任意の凝似単語標準パターンを作成することが可能で
あり、認識対象となる単語群のカテゴリが変更になって
も再登録する必要がないので、登録作業が筒車で済む利
点がある。

なお、各単語は音節（シラブル）から成り立ち、音節は
音素から成り立っている。音素は音声の最小基本単位で
、母音と子音がある。各音節は、通常１１［１ｉ１の母
音と１ないし２個の子音が結合して形成され、日本語の
場合、約１００種の音節がある。

本発明は、後者の擬似単語標準パターンを用いる単語音
声認識方式に関する。

〔従来の技術〕

第８図は、従来の単音節標準パターンから作成された擬
似単語標準パターンによる単語音声認識方式の基本構成
をブロック図で示したものである。

第８図において、未知の入力単語音声が図示しないマイ
クロホンから入力されると、音声分析部２１０は、入力
単語音声の特徴を表すパラメタや各音節の区間検出等を
行って音節対応の入力単語音声パターンを作成し、単語
認識部２２０に入力する。

一方、単音Ｗ標準パターン辞書２３０には、各単音Ｗ標
準パターンが予め登録されており、認識対象となる単語
群のカテゴリが決ると、単音節標準パターン辞書２３０
から単音節標準パターンを取り出して連結することによ
り、認識対象カテゴリに属する各単語に対応する擬似単
語標準パターンが作成され、擬似単語標準パターン辞書
２４０に格納される。

単語認識部２２０は、音声分析部２１０より入力された
入力単語音声パターンを擬（［１語標準パターン辞書２
４０中の各擬似単語標準パターンと照合し、距離の最も
小さい擬似単語標準パターンの単語を認識単語とする。

単語認識部２２０における、前述の単語認識処理は、Ｄ
Ｐ法（Ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ　　ｎ
ａｔｃｈｉｎｇ　）によって行われる。

第９図（８）は、単語認識部２２０において行われるＤ
Ｐマツチング方式を示したもので、横軸は入力単語音声
パターンであり、縦軸は単音節標準パターンを連結して
作成された擬似単語標準パターンである。

いま、単語音声“イシカワ（石川）；ｉ　　／ｉｋａ　
　ｗａ”が入力され、擬似単語標準パターン“イシカワ
（ｉ　　／ｉ　　ｋａ　　ｗａ）　　”とマツチングし
たとき、そのＤＰパスは、図示の様に始端ＰからＱ’　
　、Ｒ’　　、Ｓ’　の各点を通り終端Ｔに終る経路を
とる。

このＤＰパスは、入力単語音声パターンにおける“イ（
ｉ）、′シ（／ｉ）″及び“カワ（ｋａ　　ｗａ）　　
”が、擬似単語標準パターンの“イ　（ｉ）”、′シ（
／ｉ）”及び“カワ（ｋａｗａ）”に正しくマツチング
したときのＤＰパス、即ちＰ。

Ｑ、Ｒ，Ｓ及びＴの各点を通る正しいＤＰパスからずれ
たものとなっている。この為、認識率が低下するという
問題が生じる。

ＤＰパスが正しい経路からずれる原因の１つとして、入
力単語音声パターン中には無音区間（第９図（ａ）では
、“シ（／ｉ）”と“カワ（ｋａ　　ｗａ）”の間の区
間）が存在するのに対し、擬似単語標準パターンには、
一般にこの様な無音区間が存在しないことが挙げられる
。即ち、無音区間を含んだ入力単語音声パターンと無音
区間を含まない擬似単語標準パターンとを照合する際、
無理なりＰ等の非線形伸縮を行って対応付ける為、マツ
チング時のＤＰババス、第９図（ａ）に示す様に、正し
いＤＰパスからずれたものとなる。

この問題を解決する為に、同じ出願人は、入力単語音声
パターンより無音区間パターンを除去し、各有音区間パ
ターンを詰めて作成された圧縮単語音声パターンを用い
て擬似単語標準パターンと照合さ・仕る単語音声認識方
式を提案した（この単語音声認識方式については、本発
明の詳細な説明の中で合わせて説明する）。

この様な圧縮単語音声パターンを用いて擬似単語標準パ
ターンと照合すると、無音区間が存在しないことから、
Ｒ，Ｒ’Ｓ、Ｓ’　の４点が共通となることが許され良
好な照合が行われ、認識率を向上さ廿ることが出来る。

然しながら、無音区間の両側の有音区間パターンの影を
等により第９図（ｂｌに示す様に、マツチング時のＤＰ
ハスは、正しい経路点ＲｓからずれたＲｓ’点を通るこ
とが許されており、誤認識の原因となる。

又、マツチング時のＤＰパスが正しいＲｓ点を通った場
合でも、“イ　（＋）　　”及び“シ（１１）”のＤＰ
パスは変らないので、第９図（ａｌの様に、そのＤＰパ
スが正しい経路点ＱからずれたＱ′を通る場合には、圧
縮単語音声パターンを用いた場合も、第４図（ｂ）に示
す様に、ＤＰパスはＱ′点を通ることになる。

〔発明が解決しようとする問題点〕

従来の入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合する単語音声認
識方式は、前述の様に、マツチング時のＤＰパスが正し
いパスからずれたものとなって正しい照合が行われない
為に、認識率が低下するという問題があった。

本発明は、入力単語音声パターンを単音節標準パターン
から作成された擬似単語標準パターンと照合して入力単
語音声を認識する単語音声認識装置において、マツチン
グ時のＤＰパスとして、音声学上不自然なパスを許さな
い様にすることにより認識率を向上させると共に処理量
を低減させる様にした単語音声認識装置を提供すること
を目的とする。

〔問題点を解決する為の手段〕

従来の入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合する単語音声認
識方式においては、マツチング時のＤＰパスが正しいＤ
Ｐパスからずれる現象が生じるが、それは、ＤＰパスが
入力単語音声パターン中の各音節区分点に対応する擬似
単語標準パターン中の各音節連結点を通ることが、従来
のＤＰマツチング方式においては何等保証されていない
ことに原因がある。叩ち、従来のＤＰマツチング方式で
は、始端と終端は保証されているが、その途中において
ＤＰパスが成る特定の点を通ることは何ら保証されてい
ない。このことは、圧縮単語音声パターンを用いた場合
も同様である。

本発明は、この点に着目し、ＤＰパスが認識対象となる
入力単語音声パターン（圧縮単語音声パターンである場
合も含む）中の各音声区間の区分点に対応する擬似単語
標準パターン中の各音節連結点を通る様に条件付けて、
認識対象入力車音声パターンと擬似単語標準パターンと
の照合を行わせる様にしたものである。

以下、従来の単語音声認識方式における前述の問題点を
解決する為に本発明が講じた手段を、第１図を参照して
説明する。

第１図は、本発明の基本構成をブロック図で示したもの
である。

第１図において、１１０は認識用音声区間検出手段で、
入力単語音声パターンから各音声区間の区分点の検出及
び認識対象となる単語音声パターン、即ち、認識対象入
力単語音声パターンの作成を行う。

！２０は、擬似単語標準パターン作成手段で、各単音節
標準パターンより認識対象となるカテゴリの単語群に属
する各単語の擬似単語標準パターンを作成する。

１３０は照合経路通過点選定手段で、認識用音声区間検
出手段１１０により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
される各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。

１４０は単語認識手段で、照合経路通過点選定子Ｖｉ１
３０によって選定された照合経路通過点を通る経路によ
り認識対象単語音声パターンと各擬似巾語標準パターン
とを照合して単語認識を行う。

〔作　用〕

入力単語音声から作成された入力単語音声パターンが入
力されると、認識用音声区間検出部１１０は、入力単語
音声パターンから各音声区間の区分点を検出すると共に
、認識対象となる認識対象入力小話音声パターンを作成
する。この認識対象入力単語音声パターンには、入力単
語音声パターンより無音区間パターンを除去し、各有音
区間パターンを詰めて作成された圧縮単語音声パターン
も含まれるものである。又、各音声区間は、通常１個の
音節で形成されるが、複数個の音節を含む場合もある。

一方、擬似ｆｆ！語標準パターン作成手段１２０には、
各単音節標準パターンより認識対象となるカテゴリの単
語群に屈する各単語の擬似単語標準パターンが、予め作
成されている。

照合経路通過点選定手段゛１３０は、認識用音声区間検
出手段１１０により検出された認識対象入力単語音声パ
ターンの各音声区間の区分点と各擬似単語標準パターン
における各単音節標準パターンの連結点に基づいて選出
された各照合経路通過候補点中から、特定の点を照合経
路通過点として選定する。

これにより、照合時の各経路は、認識対象単語音声パタ
ーン中の各音声区間の区分点に対応する擬似単語標準パ
ターン中の各単音節連結点に基づいて選定された特定の
点を通る様に条件付けられる。

単語認識手段１４０は、照合経路通過点選定手段１３０
．によって選定された照合経路通過点を通る経路により
認識対象単語音声パターンと各擬似単語標準パターンと
を照合して単語認識を行う。

以上の様にすることにより、認識対象単語音声パターン
を各擬似単語標準パターンと照合するときの各経路は、
認識対象入力単語音声パターン中の各音声区間の区分点
に対応する擬似単語標準パターン中の各単音節連結点に
基づいて選定された特定の点を通る様に条件付けられる
ので、正しい照合が行われ、認識率を向上させることが
出来る。

又、各照合経路の共通の通過点が特定されるので、認識
対象単語音声パターンを各擬似単語標準パターンと照合
する際の照合領域が削減され、照合時の処理量を低減さ
せることが出来る。

〔実施例〕

本発明の実施例を、第２図〜第７図を参照して説明する
。

第２図は本発明の一実施例の構成のプロツク説明図、第
３図は同実施例における区間検出方式の説明図、第４図
は同実施例における第１の照合経路通過点選定方式の説
明図、第５図は同実施例におけるＤＰマツチング方式の
説明図、第６図は本発明における第２の照合経路通過点
選定方式の説明図、第７図は本発明における第３の照合
経路通過点選定方式の説明図である。

（Ａ）実施例の構成第２図において、認識用音声区間検出手段１１Ｏ１擬似
単語標準パターン作成手段１２０、照合経路通過点選定
手段１３０、単語認識手段１４０・については、第１図
で説明した通りである。

１５０はマイクロホンで、話者（図示せず）の発声した
単語音声又は単音節音声が入力される。

１６０はパラメタ抽出部で、マイクロホン１５０から入
力された単語音声又は単音節音声の特徴を表すパラメタ
を抽出して、入力単語音声パターン又は入力単音節音声
パターンを作成する。

１７０は切替え回路で、入力単語音声パターンと入力単
音節音声パターンに応じた切替えを行う、認識用音声区
間検出手段１１０において、１１１は、認識用音声区間
検出部で、入力単語音声−パターンから各音声区間の区
分点を検出すると共に、認識対象となる認識対象入力単
語音声パターンを作成する。　　　　　　・　− １１２はバタ、−ン圧縮部で、認識用区間検出部１１１
から入力された各音声区間の区分点情報及び認識対象入
力単語音声パターンに基づいて圧縮ＦＤ語音声パターン
を作成する。

擬似単語標準パターン作成手段１２０において、１２１
は登録用区間検出部で、登録用の単音節音声パターンの
区間検出を行って単音節標準パターンを作成する。

１２２は単音節標準パターン辞書で、作成された各単音
節標準パターンが登録される。

１２３は単語辞書で、各単語の音節情報が格納されてい
る。

１２４は擬似単語標準パターン作成部で、単語辞７１２
３より認識対象となる小諸群のカテゴリに屈する各単語
を取り出し、各単語の音節情報に基づいて単音節標準パ
ターン辞書１２２より所定の各単音節標準パターンをを
り出し、各単語毎の１疑似型話標準パターンを作成する
。　　　　　。

照合経路通過点選定手段１３０において、１３１は、フ
レーム間距−離計算部で、パターン圧ｌｉｔ　％１１２
より入力された圧縮単語音声パターンの各フレーノ、と
擬似単語標準パ、ターン作成部１２４の作成した各擬似
単語標準パターンの各フレームとのフレーム間距離を計
算する。

１３２は、照合経路通過点選定部で、特定区間における
フレーム間距離を変更することによりＤＰババス通る特
定の点を選定する。

単語認識手段１４０において、１４１は累積距離計算部
で、認識対象入力単語音声パターン（この実施例では圧
縮単語音声パターン）と各擬似単語音声パターン間の累
積距離の計算を、照合経路通過点選定部１３２によって
選定された特定の通過点を通るＤＰパスによって計算す
る。

１４２は判定部で、累積距離計算部１４１によって計算
された各累積距離の中で最小値を与える単語を認識単語
とする。

（Ｂ）実施例の動作実施例の動作を、第２図〜第５図を参照し、各動作に分
けて説明する。

（Ｂ−１）登録動作話者の発声した単語音声に対する認識処理が行われる前
に、単音節標準パターン辞書１２２には各単音節の標準
パターンが登録され、更に、擬似単語標準パターンが作
成される。

単音節標準パターン辞書１２２に各単音節標準パターン
を登録する場合は、切替え回路１７０を登録用区間検出
部１２１側に接続し、マイクロホン１５０より単音節音
声をパラメタ抽出部１６０に入力する。

パラメタ抽出部１６０は、入力された単音節音声の特徴
を表すパラメタを抽出して、入力単音節音声パターンＳ
Ｐを作成する。

作成された単音節音声パターンＳＰは、各フレーム毎の
特徴ベクトルの時系列であり、各特徴ベクトルは、９個
（例えば１６個）の帯域フィルタのパワースペクトルを
ｑ次のベクトル量で表したものである。従って、横軸に
時間ｔをとり、縦軸にパワーをとると、入力単音節パタ
ーンＳＰは、第３図１Ｍ）に示す様なパターンを形成す
る。

この入力単音節音声パターンＳＰに対し、２種類の闇値
ｈ１及ブｈ２を設ける。閾値ｈｌは、雑音レベルよりは
高く、各入力単音節音声パターンのパワーの最大値の中
で最も低い値の近傍に選定される。ｈ２は雑音レベル、
即ち無音区間パターンのパワーレベルの最大値の近傍に
選定される。

登録用区間検出部１２１は、入力待ちになってから、入
力単音節音声パターンのパワーが閾値ｈ１を初めて越え
たフレーム（ｆ＊　）を探し、このフレームｒｏから両
側でパワーが閾値ｈ２以上である連続した区間（始端ｆ
ｓ〜終端ｆｅ）を単音節標準パターンの音声区間として
検出する（第３図（ａ）参照）。

これにより、雑音Ｎ１＝８３を除いた、始端ｆＳから終
端ｆｅ間の入力単音節音声パターン部分が登録用の単音
節標準パターンとして抽出されて、単音節標準パターン
辞書１２２に登録される。

認識対象となる単語群のカテゴリが決まると、擬似単語
標準パターン作成部１２４は、単語辞書１２３より認識
対象となる単語群のカテゴリに淀する各単語を取り出し
、各単語の音節情報に基づいて単音節標準パターン辞書
１２２より所定の各単音節標準パターンを取り出し、各
単語毎の擬似単語標準パターンを作成する。

（Ｂ−２）認識対象入力単語音声パターン作成動作入力
された単語音声パターンに対する認識処理を行う場合は
、切替え回路１７０を認識用音声区間検出部ｌｌｌ側に
接続し、認識対象入力単語音声パターンとしての圧縮単
語音声パターンの作成が行われる。

マイクロホン１５０より未知単語音声が入力されると、
前述の単音節標準パターンの登録の場合と同様にして、
パラメタ抽出部１６０は、入力単語音声パターンＷＰを
作成して認識用音声区間検出部１１１に入力する。

作成された入力単語音声パターンｗｐは、入力単音節音
声パターンと同様に、各フレーム毎の特徴ベクトルの時
系列であり、各特徴ベクトルは９個の帯域フィルタのパ
ワースペクトルをｑ次のべクトル量で表したものである
。従って、横軸に時間ｔをとり、縦軸にパワーをとると
、入力単語音声パターンＷＰは、第３図山）に示す様な
パターンを形成する。

この入力単語音声パターンｗｐに対し、前述の登録用区
間検出部１２１の場合と同様な閾値ｈ１及びｈ２が設定
される（第３図（ｂｌ参照）。

認識用音声区間検出部１１１は、入力待ちになってから
、入力単語音声パターンＷＰのパワーが閾値ｈ＋を初め
て越えたフレーム（ｆｏ　）を探し、このフレームｆｏ
から両側でパワーが閾値６２以上の区間（始端ｆ　３〜
ｆ　１　　、　ｆ　２〜ｆ　３　　、　ｆ　４　’％ｄ
ｆｅ）を探す。その際、閾値ｈ２以下になる区間（ｆｏ
　〜ｆ２　、ｆａ　〜ｆ＜　）が所定の長さＬｓより小
さいときは、無音区間として入力単語音声パターンに含
ませ、Ｌｓを越えた場合（例えばｒ。１〜ｆｓ　、ｆｅ
”ｆｎ２）は、雑音として無視する。

Ｌｓは、各単語音声中に含まれる各無音区間中の最大値
に基づいて選定される。

これにより、始端ｆｓから終端ｆｅ間の入力単語音声パ
ターン部分が、認識対象となる入力単語音声パターンと
して抽出される。

認識用音声区間検出部１１１は、更に、この認識対象入
力単語音声パターンにおいて、そのパワーレベルが閾値
６２以上である区間、即ち有音区間（ｆｓ＝ｆ＋　　、
１２〜ｆｚ　　、ｆｏ　〜ｆｅ）と閾値ｈ２より低い区
間、即ち無音区間（ｆ＋〜「２）（ｆ３〜ｆ４）及びそ
の各区分点（ｆｓ＝ｆｅ）を検出する（第３図（１））
参照）。

パターン圧縮部１１２は、認識用音声区間検出部１１１
の検出した有音区間及び無音区間情報に基づいて、圧縮
対象となる入力単語音声パターンより無音区間（ｆｏ　
”ｆａ　　、ｆ３〜ｆ−）のパターンを取り除き、各有
音区間（ｆ　ｓ−ｒ　ｌ＊　ｒ　２〜ｒ＊、ｒ＊〜ｆｅ
）の各パターンを詰めて、圧縮単語音声パターンＷＰｃ
を作成する。

以上の様に圧縮単語音声パターンＷＰｃを用いることに
より、入力単語音声パターン中に存在する無音区間パタ
ーンによる悪影響が除去されて擬似単語標準パターンと
の照合が正しく行われ、入力単語音声の認識率を向上さ
せることが出来る。

なお、各音声区間の区分点は、前述のパワーディップの
存在によって検出する方法の他、パターン変動量のピー
クの存在によって検出する方法、公知の各種の方法によ
って検出することが出来る。

（Ｂ−３）照合経路通過点選定動作第１の照合経路通過点選定方式による照合経路通過点選
定動作を、第４図を参照して説明する。

フレーム間距離計算部１３１は、パターン圧縮部１１２
より入力された圧縮単語音声パターンＷＰｃの各フレー
ムと擬似単語標準パターン作成部１２４で作成した各擬
似単語標準パターンの各フレームとのフレーム間距離を
計算する。以下、圧縮単語音声パターンＷＰＣのｉフレ
ームと擬似単語標準パターンのｊフレームとのフレーム
間距離をｄ（ｉｓｊ）で表すことにする。

照合経路通過点選定部１３２は、特定区間におけるフレ
ーム間距離を変更することにより、ＤＰパスが通る特定
の点を選定する。

第４図において、横軸は圧縮単語音声パターンＷＰＣで
、数字はそのフレーム番号を表している。

縦軸は擬似単語標準パターンで、数字はそのフレーム数
を表している。

圧縮単語音声パターンＷＰｃとして“イシカワ（石川）
：ｉ　　／ｉ　　ｋａｗａ”が例示されている。この場
合、“シ（／ｉ）”と“カワ（ｋ　ａ　ｗａ）”の間に
存在していた無音区間パターンが除去されて圧縮され、
“イ（ｉ）　”、“シ（／ｉ）　”及び“カワ（ｋａｗ
ａ）　　”の３音声パターンで形成される。フレーム６
と７の境界点１１が、“イロ）”と“シ（／ｉ）　”の
区分点となり、フレーム１４と１５の境界点１２が、“
シ（／ｉ）　　”と“カワ（ｋａｗａ）”の区分点とな
っている“力（ｋａ）”と“ワ（Ｗａ）”の間はパワー
ディップが少いので、区分点が検出されず、両者が一体
となって一つの音声区間を形成している。

縦軸には、“イ（ｉ）１１．ＩＩシ（／ｉ）　　、“力
（ｋａ）　　”及び“ワ（ｗａ）　　”の各歯音節を連
結した擬似単語標準パターン“イシカワ（石川）：ｉ　
　７ｉ　　ｋａ　　ｗａ”が例示されている。この場合
、フレーム６と７の境界点ＣＩが“イ　（ｉ）”と“シ
（Ｉｉ）　　”の連結点となり、フレーム１２と１３の
境界点Ｃ２が１シ（、Ｉｉ）”と“力（ｋａ）　　”の
連結点となり、フレーム１８と１９の境界点Ｃ３が“力
（ｋａ）　　”と“ワ（ｗａ）　”の連結点となってい
る。

照合経路通過点選定部１３２は、認識用区間検出部１１
１より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部１３１で求められた圧ＷＪ単語音
声パターンＷＰｃとｉ＊（１２単語標準パターンの各フ
レーム間距離ｄ　（ｉ、ｊ）の中、圧縮単語音声パター
ン中の各音声区間パターン（有音区間のパターン）の先
頭フレームと擬似ｆｌ’　ＡＭ　標’％　パターンの各
フレームとのフレーム間距離を、各端音節標準パターン
の先頭フレームを除き唖に置換する。ここで、りは、計
算上表現し得る最大値で、例えば、ｄ（ｌｔｊ）を・２
バイトで表現している場合は、“ＦＦＦＦ（１６進）”
に置換する。

この置換処理により、第４図に示す様に、圧縮単語標準
パターンＷＰｃの音声区間パターン“シ（Ｉｉ）　　”
の先頭フレーム（フレーム７）と擬似Ｑｉ　語＋Ｍ　ｍ
パターンの各フレームとのフレーム間距門ｔｄ（７，ｊ
）は、ｄ　（７，７）、ｄ　（７，１３）及びｄ（７，
１９）を除き（即ち、ｊ＝１〜２４、但し、ｊ≠７．１
３．１９）、唖となる。

同様に、圧縮単語標準パターンＷＰｃの音声区間パター
ン“カワ（ｋａｗａ）”の先頭フレーム（フレーム１５
）と擬似単語標準パターンの各フレームとのフレーム間
距離ｄ（１５，ｊ）は、ｄ（１５，７）、ｄ　（１５，
１３）及びｄ（１５゜１９）を除き（即ち、ｊ＝１〜２
４、但し、ｊ≠７．１．３．１９）、唖となる。

以上の様にすることにより、圧縮単語音声パターンＷＰ
Ｃの各音声区間の区分点１ｏ−１２及び擬似単語標準パ
ターンの連結点ｃｏ−Ｃ３に基づいて定まるｌｃｏｏ＝
ｉｌｃｇが、照合経路通過候補点として選定される。

ＤＰパスの通過点は、照合時の時間伸縮率や擬似単語標
準パターンの特性等を考慮して、前述の照合経路通過候
補点１！ｃｏｏｓｙｌｃ３２の全部又は任意の一部から
適宜選定される。例えば、時間伸縮率が図示のｅ、及び
Ｃ２の範囲に設定されたとすると、Ｄ’Ｐパスの通過点
は、ｌ　Ｃｏ　）　１−Ｃｌ２ｓｌｃ２２及びｌ’ｃ２
３に一選定される。

以上の照合経路通過点選定処理が、他の擬似単語標準パ
ターンと圧・縮単語音声パターンＷＰｃとの間で行われ
る。

（Ｂ−４）単語認識動作累積距離計算部１４１は、照合経路通過点選定部１３２
より入力された圧縮単語音声パターンの各フレームと各
擬似単語標準パターンにおける各フレームとのフレーム
間距離に基づいて、圧縮単語音声パターンＷＰｃと各擬
似単語標準パターン間の累積距離を計算する。

この累積距離計算は、公知のＤＰ法によって行われる。

第４図において、各唖点を通るＤＰパスよる累積距離は
当然のとなるので、実線で例示される様に、照合経路通
過点選定部１３２に劣って選定された通過点１ｃｕ　、
ｌｃ、＋２．ｌｃ々及びｌｃ６を通るＤＰパスによる累
積距離が求められることになる。なお、Ｄ、Ｐパスは、
一般には、非直線特性である。

１す足部１４２は、累積距離計算部１４１によって計算
された各累積距離の中で最小値を与える単語−を認識単
語とする。第４図の実施例においては、明らかに始端Ｔ
ｓ　、　Ｉ　Ｃ１１１、ｌ（２２及び終端Ｔ８ｅを通る
ＤＰパスによる累積距離が最小値を与えるので、正しい
照合が・行われ、単語“イシカワ（石川）”が入力単語
音声−とじて誤りなく認識される。

又、ＤＰパス数が削Ｘ減されるので、照合時の処理量を
低減させることが出摩る。このことは、次に説明する他
の実施例についても同様である。、第５図は、圧縮単語
音声パターン“イシカワ（ｉ　　７ｉ　　ｋａ　　ｗａ
）　　”が擬似単語標準パターン“イシカワ（ｉ　　ｆ
　ｉ、ｋａ　　ｗａ）’と７７チングした状態及びその
ときのＤＰパスを示したものである。

（Ｃ）他の実施例本発明の照合経路通過点は、次の各方式によって選定す
ることが出来る。

（Ｃ−１）第２の照合経路通過点選定方式圧縮単語音声
パターンの音声区間パターンの語長（フレーム数）が単
音節の語長に相当する場合、その音声区間パターンが擬
似単語標準パターンの２個の単音節標準パターンの連結
パターンとマツチングすると、誤った認識が行われる。

即ち、第４図において、ｆｃｕとｌ１ｃ３３を通るＤＰ
パスは誤ったパスであり、この様なパスが許されると、
違う標準パターンＷＰｃとの距離が小さくなり誤った認
識結果を与える原因となる。

第２の方式は、この様な誤認識が生じない様にする為に
有効な照合経路通過点選定方式であり、第６図を参照し
て説明する。

第６図の横軸及びその圧縮単語音声パターンＷＰｃ並び
に縦軸及びその擬似単語標準パターンの内容は、第４図
の場合と同じである。

照合経路通過点選定部１３２は、認識用区間検出部１１
１より入力された各音声区間の区分点情報に基づいて、
フレーム間距離計算部１３１で求められた圧縮単語音声
パターンＷＰｃと擬似単語標準パターンの各フレーム間
距離ｄ　（ｉ　ｌ　Ｊ）の中、擬似単語標準パターン中
の各単音節標準パターンの先頭フレームと圧縮単語音声
パターンの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き唖に置換する。

第６図には、擬似単語標準パターン中の単音節標準パタ
ーン“力（ｋａ）　　”の先頭フレーム（フレーム１３
）と圧縮単語音声パターンの各フレームとのフレーム間
距離ｄ（ｉ、１３）を、音声区間パターン“イ（ｉ）　
　、“シ（／ｉ）”及び“カワ（ｋａｗａ）　”の先頭
フレーム（フレームｌ。

７．１５）を除き（即ち、ｉ−１〜２６、ｉ≠１．７．
１５）Ｋ）にした場合が示されている。

これにより、ＤＰパスは、１ｃｒ２又は１ｃ−１２を通
るものに限定され、／ｃ１２とＪＣ２２の間を通るＤＰ
パスは排除されることになる。この結果、圧縮単語音声
パターンＷＰｃの音声区間パターン“シ（／ｉ）”が２
個の単音節標準パターン“シ（／ｉ）　　”及び“力（
ｋａ）　　”の連結パターンとマツチングすることがな
（なり、認識率を向上させることが出来る。

なお、ＤＰパスの通過点は、以上の様にして求められた
各通過点候補の中から、その全部又は任意の一部から適
宜選定される。

即ち、第２の実施例は、図示の場合に限定されるもので
なく、擬似単語標準パターンの他の単音節標準パターン
の先頭フレームと圧縮単語音声パターンの各フレーム間
距離についても、同様に音声区間パターンの先頭フレー
ムを除き力に置換した場合も含むものである。

擬似単語標準パターンを形成する単音節標準パターン中
に無声破裂子音（例えば、／ｐ／ｓ／ｌ／ｌ／に／９／
ｌＳ／等）を先頭フレームとするものがある場合は、こ
の無声破裂子音部の先頭フレームと圧縮単語音声パター
ンＷＰｃの各フレームとのフレーム間距離を、各音声区
間パターンの先頭フレームを除き力とすると良好な認識
結果が得られる。

（Ｃ−２）第３の照合経路通過点選定方式第１の実施例
では、圧縮単語音声パターン中の一つの音声区間パター
ンが、それよりも音節数の多い単音節標準パターンを連
結したものとマツチングする恐れがあり、第２の実施例
では、逆に、圧縮小話音声パターン中の複数の音声区間
パターンが、一つ単音節標準パターンとマツチングする
惣れがある。

第３の実施例は、この様なミスマツチングを阻止するに
有効な照合経路通過点選定方式であり、第７図を参照し
て説明する。

第７図の横軸及びその圧縮単語音声パターンＷＰｃ並び
に縦軸及びその擬似単語標準パターンの内容は、第４図
及び第６図の場合と同じである。

照合経路通過点選定部１３２は、認識用音声区間検出部
１１１より入力された各音声区間の区分点情報に基づい
て、フレーム間距離計算部！３１で求められた圧縮単語
音声パターンＷ　Ｐ、　ｃと擬似単語標準パターンの各
フレーム量比ｉ’ｅｔｔｄ　（ｉ　、　ｊ　）の中、擬
似単語標準パターン中の各単音節標準パターンの先頭フ
レームと圧縮単語音声パターンの各フレームとのフレー
ム間距離を、各音声区間パターンの先頭フレームを除き
唖に置換すると共に、圧縮単語音声パターン中の各音声
区間パターンの先頭フレームと擬似単語標準パターンの
各フレームとのフレーム間距離を、各単音節標準パター
ンの先頭フレームを除き（転）に置換する。

以上の置換処理により、第７図に示す様に、圧縮単語音
声パターンＷＰｃの各音声区間の区分点１　＋）〜１２
及び擬似単語標準パターンの連結点ＣＩ）−Ｃ３に基づ
いて定まる１ｃｏｃ）ｚ１ｃ３２が、照合経路通過候補
点として選出される。

ＤＰパスの通過点は、これらの照合経路通過候補点の中
から、照合時の許容時間伸縮や擬似単語標準パターンの
特性等を考慮して、それらの全部又は任意の一部から適
宜選定される。

なお、前述の置換処理は、一部について行う様にしでも
よい。第７図には、擬似単語標準パターン中の単音節標
準パターンの先頭フレームと圧縮ｆＱ語標準パターンＷ
Ｐｃの各フレームとのフレーム間距離については、単音
節標準パターン“力（ｋａ）”の先頭フレーム（フレー
ム１３）とＪＥｆ縮単語標準ハターンＷＰｃの各フレー
ムとのフレーム間距離を、各音声区間パターンの先頭フ
レームを除き唖に置換する場合が例示されている。

この様に、置換をどこまで行うかは、未知入力の各音節
の先頭がどれだけ検出出来るかにかかっている。通常、
有声子音の／ｗ／、／ｎ／、／ｍ／。

／ｊ／、／ｒ／、／ｇ／、／ｂ／＊／ｄ／等は検出が困
難であるが、／ｐ／、／ｌ／、／に／等は容易に検出す
ることが出来るので、第７図の例は、本発明の典型的な
実施例といえる。

以上の様にすることにより、誤認識及び処理量を更に少
なくすることが出来る。

〔発明の効果〕

以上説明した様に、本発明によれば、次の諸効果が得ら
れる。

（イ）照合時の各経路が、認識対象入力単語音声パター
ン中の各音声区間の各区分点に対応する擬似１！語標準
パターン中の各単音節連結点に基づいて選定された特定
の点を通る様に条件付けられるので、正しい照合が行わ
れ、認識率を向上させることが出来る。

（ロ）照合時の各経路の共通の通過点が選定されるので
、認識対象単語音声パターンを各擬似単語標準パターン
と照合する際の照合領域が削減され、照合時の処理量を
低減させること、が出来る。

【図面の簡単な説明】

第１図・・・本発明の基本構成の説明図、第２図・・・
本発明の一実施例の構成の説明図、第３図・・・同実施
例における区間検出方式の説明図、第４図・・・同実施例における第１の照合経路通過点選
定方式の説明図、第５図・・・同実施例におけるＤＰマツチング方式第６
図・・・本発明における第２の照合経路通過点選定方式
の説明図、第７図・・・本発明における第３の照合経路通過点選定
方式の説明図、第８図・・・従来の擬似単語標準パターンによる単語音
声認識方式、第９図・・・従来の擬似単語標準パターンによる単語音
声認識方式におけるＤＰマツチング方式の説明図。第１図及び第２図において、１１０・・・認識用音声区間検出手段、１２０・・・擬
似単語標準パターン作成手段、１３０・・・照合経路通
過点選定手段、１４０・・・単語認識手段、１５０・・
・マイクロホン、１６０・・・パラメタ抽出部、１７０
・・・切替え回路。

Claims

【特許請求の範囲】

（１）入力単語音声パターンを単音節標準パターンから
作成された擬似単語標準パターンと照合して入力単語音
声を認識する単語音声認識装置において、（ａ）入力単語音声パターンから各音声区間の区分点の
検出及び認識対象入力単語音声パターンの作成を行う認
識用音声区間検出手段（１１０）と、（ｂ）各単音節標準パターンより認識対象となるカテゴ
リの単語群に属する各単語の擬似単語標準パターンを作
成する擬似単語標準パターン作成手段（１２０）と、（ｃ）認識用音声区間検出手段（１１０）により検出さ
れた認識対象入力単語音声パターンの各音声区間の区分
点と各擬似単語標準パターンにおける各単音節標準パタ
ーンの連結点に基づいて選出された各照合経路通過候補
点中から、特定の点を照合経路通過点として選定する照
合経路通過点選定手段（１３０）、（ｄ）照合経路通過点選定手段（１３０）によって選定
された照合経路通過点を通る経路により認識対象入力単
語音声パターンと各擬似単語標準パターンとを照合して
単語認識を行う単語認識手段（１４０）、を備えたことを特徴とする単語音声認識装置。
（２）照合経路通過点選定手段（１３０）によって選出
される各照合経路通過候補点が、認識対象入力単語音声
パターン中の各音声区間パターンの先頭フレームと擬似
単語標準パターンの各フレームとのフレーム間距離を、
各単音節標準パターンの先頭フレームを除き最大距離に
置換することによって選出されるものであることを特徴
とする特許請求の範囲第１項記載の単語音声認識装置。
（３）照合経路通過点選定手段（１３０）によって選出
される各照合経路通過候補点が、擬似単語標準パターン
中の各単音節標準パターンの先頭フレームと認識対象入
力単語音声パターンの各フレームとのフレーム間距離を
、各音声区間パターンの先頭フレームを除き最大距離に
置換することによって選出されるものであることを特徴
とする特許請求の範囲第１項記載の単語音声認識装置。
（４）照合経路通過点選定手段（１３０）によって選出
される各照合経路通過候補点が、擬似単語標準パターン
中の各単音節標準パターンの先頭フレームと認識対象入
力単語音声パターンの各フレームとのフレーム間距離を
、各音声区間パターンの先頭フレームを除き最大距離に
置換すると共に、認識対象入力単語音声パターン中の各
音声区間パターンの先頭フレームと擬似単語標準パター
ンの各フレームとのフレーム間距離を、各単音節標準パ
ターンの先頭フレームを除き最大距離に置換することに
より選出されるものであることを特徴とする特許請求の
範囲第１項記載の単語音声認識装置。
（５）認識対象入力単語音声パターンが、入力単語音声
パターンより無音区間パターンを取り除き、各有音区間
パターンを詰めて作成された圧縮単語音声パターンであ
ることを特徴とする、特許請求の範囲第１項又は第２項
又は第３項又は第４項記載の単語音声認識装置。