JPS6310840B2

JPS6310840B2 -

Info

Publication number: JPS6310840B2
Application number: JP57123801A
Authority: JP
Inventors: Yoshiteru Mifune; Satoru Kabasawa; Hidekazu Tsuboka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-07-15
Filing date: 1982-07-15
Publication date: 1988-03-09
Also published as: JPS5915298A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置における音韻識別方式に
関する。

従来例とその問題点従来の音声認識装置における音韻識別方式は、
はじめに入力音声の特徴ベクトルの時系列パター
ンに対して大まかな音韻区間の分類を行い、例え
ば非定常な子音区間と比較的定常な母音区間等の
分離を行つた後で、子音区間の各フレームについ
ては、全ての子音の標準パターンとの距離を計算
して子音を決定し、母音区間についても同様の計
算を行つて母音を決定していた。上記のような従
来の音声認識装置における大まかな音韻区間の分
類方式には、単純に系列の相関値等によつて子音
区間と母音区間の分類のみ行い、音韻の最終決定
は標準パターンとの比較によつて行つているもの
がある。しかしこの場合には大まかな分類自体の
精度も悪く、かつ標準パターンの集合も大規模と
なりパターンマツチングにおける計算量も莫大な
ものとなる。そこでこれらの欠点を改善するもの
として、大まかな音韻区間の分類を周波数の低域
あるいは高域に対する偏りに関する情報も利用し
て、子音区間もさらに有声子音区間と無声子音区
間に、またさらに精度の高い分類を行うものにつ
いては、無声子音区間も破裂音と摩擦音に分類す
るものがある。そして最終決定を行うべき標準パ
ターンの集合規模を小さくして、音韻の最終決定
を行うべき標準パターンとの比較回数を低減して
処理速度を向上させている。しかしこの場合にお
いても標準パターンとの比較回路は低減されるも
のの、大まかな分類に要する計算量が増加し、装
置全体として評価すると計算量は必ずしも低減さ
れることにはならず、音韻識別に要する計算時間
に問題がある。

発明の目的本発明は上記従来の欠点を解消するもので、標
準パターンと入力音声の特徴ベクトル間の距離計
算を簡略化し、音韻識別に要する処理時間を低
減、音声認識装置の実時間処理を可能とし、かつ
装置構成を簡略化することを目的とする。

発明の構成上記目的を達成するため、本発明の音韻識別方
式は、入力音声を特徴ベクトル｛〓_ti｝の時系列
パターン｛〓_t1、〓_t2、……〓_tN｝に変換する特徴
系列変換手段と、各音韻の特徴ベクトルの標準パ
ターンを記憶する標準パターン記憶手段と、入力
と標準パターンの特徴ベクトル間の距離を計算す
る距離判定手段とより成り、前記距離判定手段
を、入力の時系列パターンの定められたフレーム
｛〓_tk｝においては、すべての標準パターンとの
比較を行つて音韻を決定し、それ以後のフレーム
｛〓_t〓｝（但し、τ＞ｋ）については決定された標
準パターンとの距離が定められた閾値以下である
場合には、同一音韻として比較すべき特徴ベクト
ルのフレームを更新し、閾値以上である場合には
他のすべての標準パターンとの比較を行つて新し
い音韻を決定し、それ以後のフレーム｛〓_tn｝
（但し、ｍ＞τ）については同様な距離の閾値に
よる判定を繰り返して音韻識別を行う構成であ
る。

実施例の説明以下、本発明の一実施例を図面に基づいて説明
する。

本発明の処理概念を第１図を用いて説明する。

音韻識別手段は、入力音声時系列から一定時間
間隔ごとに特徴ベクトル系列｛〓_ti｝に変換する
特徴系変換列手段１と、特徴ベクトル系列から大
まかな音韻（無声子音、有声子音、母音等）を分
類する大分類手段２と、有声子音と母音の場合に
は、有声子音と母音の標準パターン４，４′との
距離を計算して音韻を決定する距離判定手段３，
３′と、音韻時系列を出力する音韻系列出力手段
５とからなる。

第１図の動作説明を行う。入力音声は、特徴系
列変換手段１によつて、特徴ベクトルの系列に変
換される。この特徴ベクトルは大分類手段２によ
つて例えば周波数の低域あるいは高域に対する偏
より等で、無声子音、有声子音、母音に大まかに
分類する。そして有声子音と母音の場合には、そ
れぞれ距離判定３，３′によつて有声子音と母音
の標準パターン４，４′との距離計算を実行し、
最も近い音韻を割り当てる。各々音韻が決定され
ると音韻系列出力手段５によつて音韻を時系列で
出力する。上記において無声子音を標準パターン
と比較しないのは、無声子音の非定常性によつて
いるからである。

次に本発明における距離判定手段３の詳細な構
成と処理の様子を第２図、第３図を用いて説明す
る。

距離判定手段３は、入力の特徴ベクトルを記憶
する特徴ベクトル記憶部６と、特徴ベクトルと標
準パターン４の１つの標準パターンベクトル４
の間の距離を計算する距離計算部７と、初めに定
められた特徴ベクトルとはすべての標準パターン
ベクトルの比較を行い一度音韻が決まると次に入
力される特徴ベクトルとは決められた音韻の標準
パターンのベクトルの比較を行い、その距離が一
定値以下であれば同一音韻とし、一定値以上であ
れば他のすべての標準パターンベクトルと比較を
行つて音韻を更新する比較制御部８からなる。

第３図は比較制御部８の詳細な動作を表わす。

第３図において特徴ベクトルは２次元（X_ti1、
X_ti2）で表わされている。音韻の標準パターンベ
クトル｜Ａ｜、｜ｉ｜、｜ｕ｜はそれらの重心が
９，１０，１１で表わされている。入力の特徴ベ
クトルは｛〓_tk｝を始端とし時系点（ｔ）の標本
として１２で表わされている。また各標準パター
ンベクトルに対応した一定の閾値がそれぞれr₁、
r₂、r₃で表わされている。比較制御部８は、ある
時間の特徴ベクトル｛〓_tk｝とすべての標準パタ
ーンベクトル９，１０，１１の距離を計算する。
第３図においては、母音｜ｉ｜が判定される。次
の特徴ベクトル｛〓_tk+1｝′は、｜ｉ｜の標準パタ
ーンベクトル１０との距離のみを計算し、一定の
閾値r₂とを比較し、この場合は以下となるから母
音｜ｉ｜とする。特徴ベクトル｛〓_tk+2｝につい
ても同様である。特徴ベクトル｛〓_tk+3｝につい
ては、一定の閾値r₂以上となるので他の標準パタ
ーンベクトル９，１０との距離を計算し、この場
合｜Ａ｜と判定する。特徴ベクトル｛〓_tk+4｝に
ついては、｜Ａ｜の標準パターンベクトル９との
距離がr₂以上なので他の標準パターンベクトル１
０，１１とも比較し、この場合も｜Ａ｜と判定す
る。特徴ベクトル｛〓_tk+5｝｛〓_tk+6｝｛〓_tk+7｝は
｜Ａ｜との距離がr₁以下なのですべて｜Ａ｜と判
定する。第３図の場合に、本発明によらない音韻
決定に要する距離計算回数は、８×３＝24回であ
り、本発明による距離計算回数は、５＋３×３＝
14回となりほぼ半分の計算回数となる。母音区間
では定常性が大きいためにこの方式における計算
回数の減少はより大きく期待できる。

発明の効果以上説明のように本発明によれば次の効果を得
ることができる。

本発明は入力音声の特徴ベクトルと標準パター
ンのパターンマツチングを、定められたフレーム
においては全ての標準パターンとの比較を行つて
決定し、それ以降の特徴ベクトルのフレームは、
決定された音韻との距離のみを計算し一定の閾値
以下の場合には同一音韻とし、一定の閾値以上の
場合には他のすべての標準パターンとの比較を行
つて音韻を更新し同様の操作を繰返し適用するこ
とで音韻識別をするため、音韻決定のパターンマ
ツチングに要する処理時間を短縮でき、かつ音声
認識装置における処理構成を簡略化できるもので
ある。

【図面の簡単な説明】

第１図は本発明における入力音声から音韻系列
を計算する音韻識別手段の具体的構成図、第２図
は本発明における音韻識別手段の中の特徴ベクト
ルと標準パターンの距離計算を行う距離判定手段
の具体的構成図、第３図は本発明における距離判
定手段の動作原理の説明図である。１……特徴系列変換手段、３……距離判定手
段、４……標準パターン。

Claims

【特許請求の範囲】

１入力音声を特徴ベクトル｛〓_ti｝の時系列パ
パターン｛〓_t1、〓_t2、……〓_tN｝に変換する特徴
系列変換手段と、各音韻の特徴ベクトルの標準パ
ターンを記憶する標準パターン記憶手段と、入力
と標準パターンの特徴ベクトル間の距離を計算す
る距離判定手段とより成り、前記距離判定手段
を、入力の時系列パターンの定められたフレーム
｛〓_tk｝においては、すべての標準パターンとの
比較を行つて音韻を決定し、それ以後のフレーム
｛〓_t〓｝（但しτ＞ｋ）については決定された標準
パターンとの距離が定められた閾値以下である場
合には、同一音韻として比較すべき特微ベクトル
のフレームを更新し、閾値以上である場合には他
のすべての標準パターンとの比較を行つて新しい
音韻を決定し、それ以後のフレーム｛〓_tn｝（但
し、ｍ＞τ）については同様な距離の閾値による
判定を繰り返して音韻識別を行うよう構成した音
韻識別方式。