JPH04220699A

JPH04220699A - 音声認識方法

Info

Publication number: JPH04220699A
Application number: JP2404866A
Authority: JP
Inventors: Masakatsu Hoshimi; 昌克星見; Maki Miyata; 宮田　麻紀; Katsuyuki Futayada; 二矢田　勝行; Seiji Hiraoka; 平岡　省二
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1990-12-21
Filing date: 1990-12-21
Publication date: 1992-08-11
Anticipated expiration: 2012-12-17
Also published as: JP2692382B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、１名から数名の小数話
者が発声した認識対象音声を用いて不特定話者の音声の
認識を可能とする音声認識方法に関するものである。

【０００２】

【従来の技術】従来から、不特定話者の音声認識を行な
うための音声標準パターンの作成には、あらかじめ多く
の話者が認識対象単語を発声したデータを用い、人間が
目視などで音声区間を切出して、それらを統計的に処理
していた。不特定話者を対象とした音声認識は、たとえ
ば、”ワードスポッティング手法を用いた不特定話者・
少数語向け音声認識装置”（電子通信情報学会　　ＳＰ
８８ー１８）に記載された構成が知られている。

【０００３】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に３３０名の話者が発声
した音声データを使用している。３３０名が１０数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ（ＬＰＣケプストラム係数）の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない３３０名分のデー
タの絶対値によって単語の標準パターンを作成する。未
知入力音声とこのようにして作成した標準パターンとの
照合を統計的距離尺度であるマハラノビス距離を用いて
行なうことによって、不特定話者の音声認識を可能にし
ている。この方法は、統計的距離尺度を用いて標準パタ
ーンとの照合、比較を行なうことによって、不特定話者
のスペクトル変動を統計的に吸収しようという考え方に
基づいている。しかし、統計的距離尺度のための標準パ
ターン作成には、１つの認識単語に対して数百名以上の
話者が発声したデータが必要である。

【０００４】不特定話者用認識の他の既存の方法として
、マルチ標準パターンを用いる方法がある。この方法は
、多くのデータを分析して、それらの中から代表的なも
のを複数個選択し、複数の標準パターンと未知入力の照
合を行なうことによって不特定話者のスペクトル変動に
対処しようとするものである。しかし、この方法におい
ても、複数の標準パターンを作成するためには、数百名
のデータの収集と分析を必要とする。

【０００５】

【発明が解決しようとする課題】しかしながら、前記既
存の方法のような構成では、認識対象音声の標準パター
ン作成には、データの収集、音声区間の切出しなどの膨
大な作業量があり、そのために容易に認識対象音声を変
更できないという課題を有していた。

【０００６】本発明は上記課題を解決するもので、１名
から数名の少数話者が発声した認識対象音声を用いて不
特定話者の音声の認識を可能にする方法に関するもので
、容易に認識対象音声を変更出来る音声認識方法の提供
を目的とするものである。

【０００７】

【課題を解決するための手段】本発明は上記目的を達成
するもので、その構成に至る本発明の考え方は次のよう
なものである。

【０００８】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など（こ
れらを調音器官と呼ぶ）で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、イ
、ウなどの音韻性は声道の形状として与えられる。無声
音は音源が声帯でない場合もあるが、音韻性はやはり声
道の形状で決められる。ところが、声道を形成する喉、
舌、歯、あご、唇などの形状や寸法は人ごとに微妙に異
なっているし、声帯の大きさも性別や年齢で異なる。こ
のために、人ごとの声の違いが生じることになる。つま
り、人の違いによる声の差異は調音器官の違いによると
ころが大きい。一方、声がア、イ、ウなど音韻としてで
はなく、単語や文として発せられるとき、声道の形が時
間的に変化する。すなわち、声道の時間的変化によって
言葉が形成される。たとえば、「赤い」（ａｋａｉ）と
発声する場合、声道は、あごが開き舌の後方に狭めのあ
る／ａ／の発声から喉頭部の閉鎖と急激な開放を伴う破
裂音／ｋ／に移り、さらに再び／ａ／の形状に戻ってか
ら徐々に舌を唇側に移動し、口を閉じた／ｉ／に移る。このような声道の変化パターンは発声しようとしている
言葉によって決るものであり、人の違いによる差異は少
ないと考えられる。このように言葉としての音声を静的
な声道の形状とその時間的な変化に分割して考えると、
前者のみが話者によって異なり、後者は話者による差は
小さいと見なすことが出来る。したがって、静的な声道
の形状の違いに基づく差異を何等かの方法で正規化でき
れば、不特定話者の認識が可能となる。

【０００９】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることである
。不特定話者用として作成された汎用的な標準パターン
を用いれば話者の違いに大きく左右されない類似度情報
を得ることが出来る。すなわち、スペクトルをパターン
マッチングによって類似度情報に変換することは、話者
間の差異を軽減することに相当する。一方、声道の変化
パターンは話者による差異がすくないのであるから、１
名から数名の少数話者の情報を用いれば十分である。したがって、少数話者の単語や文節などの発声を類似度
情報の時間パターンとして辞書に登録すれば、それは不
特定話者用の辞書である。

【００１０】このような考え方に基づく、上記目的を達
成するための本発明の技術的解決手段は、１名から数名
の話者が発声した認識対象音声を分析して得られる特徴
パラメータと、あらかじめ多数の話者で作成したｎ種類
の標準パターンと分析時間（１フレーム）毎にマッチン
グを行ない、得られるｎ次元の類似度ベクトルの時系列
を辞書として登録しておき、認識させたい入力音声も同
様にｎ種類の標準パターンとマッチングを行ない、得ら
れるｎ次元の類似度ベクトルの時系列を求め、前記辞書
との照合を行なうことによって不特定話者の音声認識を
行なうものである。

【００１１】

【作用】本発明は上記構成により、まず１名から数名の
少数の話者が発声した音声を分析して得られる特徴パラ
メータに対して多数の話者で作成したｎ種類の音素や音
節などの標準パターンとの類似度を単位時間毎（フレー
ム毎）に求める。この類似度は多数の話者で作成した汎
用性のある標準パターンとのマッチング結果なので、ｎ
種類の類似度値の相対関係は個人性の影響を受けにくい
。したがって、単位時間毎の類似度の相対関係をパラメ
ータとして使用すれば不特定話者に対して有効である。辞書として用意したｎ次元の類似度ベクトルの時系列と
、入力音声から得られる類似度ベクトルの時系列とを照
合することにより、少数の話者で作成した辞書で不特定
話者の音声を認識することができる。また、単位時間毎
の類似度として、最も信頼できるものを１つだけ用いる
のではなく、複数の候補を用いているのでより高い認識
率を得ることが出来る。なお、どのような言葉も音素や
音節の組合せで記述できるのでｎ種類の音素や音節の標
準パターンは１度作成しておけば、認識対象音声を変更
しても常に同じものが使用できる。辞書を変更して他の
音声を認識出来るようにする（すなわち認識語彙の変更
）には、少数の話者が発声するのみで良い。したがって
、簡単な手続きで不特定話者の音声認識が可能であり、
さらに、語彙の変更などに対して柔軟性のある認識装置
の実現が可能になる。

【００１２】

【実施例】（実施例１）以下、本発明の第一の実施例に
ついて説明する。

【００１３】図１は、本実施例の構成図である。図１に
おいて、１は音響分析部、２は特徴パラメータ抽出部、
３は類似度計算部、４は標準パターン格納部、５はパラ
メータ系列作成部、６は辞書格納部、７は認識部である
。

【００１４】本実施例では、１名の話者の音声を辞書に
登録する場合について最初に説明を行なう。

【００１５】図１において、入力音声が入力されると音
響分析部１で分析時間（フレームと呼ぶ、本実施例では
１フレーム＝１０ｍｓｅｃ）毎に線形予測係数（ＬＰＣ
）を求める。次に、特徴パラメータ抽出部２で、ＬＰＣ
ケプストラム係数（Ｃ０〜Ｃ８まで９個）を求める。標準パターン格納部４には　、あらかじめ多くの話者が
発声したデータから作成した２０種類の音素標準パター
ンを格納している。本実施例では、

【００１６】

【外１】

【００１７】の２０個の音素標準パターンを使用する。音素標準パターンは各音素の特徴部（その音素の特徴を
よく表現する時間的な位置）を目視によって正確に検出
し、この特徴フレームを中心とした特徴パラメータの時
間パターンを使用して作成する。

【００１８】本実施例では、時間パターンとして、特徴
フレームの前８フレーム、後３フレーム、計１２フレー
ム分のＬＰＣケプストラム係数（Ｃ０〜Ｃ８）を１次元
にしたパラメータ系列

【００１９】

【外２】

【００２０】を使用する。（数１）に

【００２１】

【外３】

【００２２】を示す。

【００２３】

【数１】

【００２４】ここで

【００２５】

【外４】

【００２６】は特徴部の第ｋフレームにおけるｉ番目の
ＬＰＣケプストラム係数である。多くのデータに対して
パラメータ系列を抽出し、各要素の平均値ベクトル

【０
０２７】

【外５】

【００２８】と要素間の共分散行列

【００２９】

【外６】

【００３０】を求め標準パターンとする。平均値ベクト
ル

【００３１】

【外７】

【００３２】は（数２）のようになる。

【００３３】

【数２】

【００３４】このように本実施例で用いている音素標準
パターンは複数フレームの特徴パラメータを使用してい
る。すなわちパラメータの時間的動きを考慮して標準パ
ターンを作成しているのが特徴である。

【００３５】入力と音素ｐの標準パターンとの類似度計
算のためのマハラノビス距離ｄｐは（数３）で表される
。

【００３６】

【数３】

【００３７】ここで共分散行列

【００３８】

【外８】

【００３９】を各音素共通とすると（数４）のように簡
単な式に展開できる．共通化された共分散行列を

【００
４０】

【外９】

【００４１】とする。

【００４２】

【数４】

【００４３】本実施例では、計算量の少ない（数４）を
用いる。

【００４４】

【外１０】

【００４５】、ｂｐが音素ｐに対する標準パターンであ
り標準パターン格納部４にあらかじめ格納されている。

【００４６】この２０種類の音素標準パターンと特徴抽
出部で得られた特徴パラメータ（ＬＰＣケプストラム係
数）と類似度計算部３でフレーム毎に類似度計算を行な
う。類似度計算部の結果から、パラメータ時系列作成部
５で類似度ベクトルの時系列を求める。類似度ベクトル
の時系列の例を図２に示す。図２は「赤い」（ａｋａｉ
）と発声した場合の例で、横軸が時間方向で縦軸が各時
間における類似度を示す。／ａ／の標準パターンについ
て説明すると、入力を１フレームずつシフトさせながら
標準パターンとマッチングを行ない類似度の時系列を求
める。図２の例では、４０、４６、６８、７４、６０、
．．．．．．．１０、１４、１６が類似度の時系列であ
る。この類似度を２０個の音素標準パターン全てに対し
て同様に求める。類似度ベクトルは図２の斜線で示した
部分を指す。図２で示したような類似度ベクトルの時系
列を認識部７に送る。

【００４７】辞書格納部６には、あらかじめ一人の話者
が発声した認識対象音声を分析し上記の２０個の標準パ
ターンとフレーム毎に類似度計算を行なった結果得られ
る類似度ベクトルの時系列（図２と同様な形式のもの）
を辞書に登録しておく。認識部１７では、辞書格納部に
ある類似度ベクトルの時系列と入力音声を分析して得ら
れる類似度ベクトルの時系列パターンとをマッチングし
最もスコアの大きい辞書項目を認識結果とする。マッチ
ング方法として本実施例ではＤＰマッチングを行なう。ＤＰマッチングを行なう漸化式の例を（数５）に示す。ここで、辞書の長さをＪフレーム、入力の長さをＩフレ
ーム、第ｉフレームと第ｊフレームの距離関数をｌ（ｉ
，ｊ），累積類似度をｇ（ｉ，ｊ）とする。

【００４８】

【数５】

【００４９】距離関数ｌ（ｉ，ｊ）の距離尺度は、ユー
クリッド距離、重み付ユークリッド距離、相関余弦距離
などが使用できる。本実施例では、距離尺度として相関
余弦を用いた場合について説明を行なう。入力音声のｉ
フレームにおける類似度ベクトルをａ＝（ａ１，ａ２，
．．．，ａ２０），辞書のｊフレームにおける類似度ベ
クトルをｂ＝（ｂ１，ｂ２，．．．，ｂ２０）とすると
、相関距離を用いた場合のｌ（ｉ，ｊ）は、（数６）の
様になる。

【００５０】

【数６】

【００５１】発声話者が２名の場合は、２名の発声した
同一音声を、認識する場合と同様にＤＰマッチングを行
ない時間整合を行なう。時間整合について図３を用いて
説明を行なう。図３は「赤い」（ａｋａｉ）と２名の話
者が発声した例である。話者によって発声の時間長が異
なるので、ＤＰマッチング法で時間整合行なう。時間整
合することによって、同じ音素の区間（／ａ／，／ｋ／
，／ａ／，／ｉ／）が整合するようになる。この時間的
に整合したフレーム間で各類似度の平均値を求める。この平均化した類似度ベクトルの時系列を辞書として登
録する。３名以上の場合は、同じ作業を繰返し複数話者
の平均化した類似度ベクトルの時系列を作成し辞書に登
録する。たとえば２名の話者の発声した音声で登録辞書
を作成する場合は、２名の話者の同一の認識対象音声間
でＤＰマッチングを行ない、その結果からＤＰパスを逆
トレースし時間整合を行なう。図３の斜線で示した話者
１の第ｉフレーム［類似度ベクトルをｃ＝（ｃ１，ｃ２
，．．．，ｃ２０）とする］と話者２の第ｊフレーム［
類似度ベクトルをｅ＝（ｅ１，ｅ２，．．．，ｅ２０）
とする］が時間的に整合する場合は、新しくｆ＝（（ｃ
１＋ｅ１）／２，（ｃ２＋ｅ２）／２，．．．，（ｃ２
０＋ｅ２０）／２）を求めこの類似度ベクトルｆを辞書
のｉフレームの類似度ベクトルとして登録する。こうすることによって、辞書の精度を向上させ、より高
い認識率を得ることが出来る。

【００５２】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録する方法について説明を行
なう。認識対象音声を複数話者が発声した音声の類似度
パターンをそのまま辞書として複数個登録する。この場
合は、辞書項目毎に複数個登録されている標準パターン
の中のどの辞書で認識されてもその辞書項目を認識した
ものとする。

【００５３】以上のような図１の構成において、以下そ
の動作について説明する。あらかじめ多数の話者で作成
した音素標準パターンは標準パターン格納部４に格納さ
れている。認識対象音声を１名または数名の少数話者が
発声し、分析して得られた類似度ベクトルの時系列が辞
書格納部６に登録されている（図１の破線）。未知音声
を認識する場合は、入力音声を音響分析部１で分析し、
特徴パラメータ抽出部２でＬＰＣケプストラム係数を求
める。このＬＰＣケプストラム係数と標準パターンとの
マッチングを類似度計算部３でフレームごとに行ない、
パラメータ作成部５で類似度ベクトルの時系列を求める
（図２の形式のもの）。この類似度ベクトルの時系列と
辞書格納部６に格納されいる認識対象音声の類似度ベク
トルの時系列とを認識部７でＤＰマッチングを行ない最
も類似度の大きい認識対象音声を認識結果とする。

【００５４】以上、本実施例を用いて２１２単語を発声
した２０名のデータを用いて認識実験を行なった。２０
名の中の１名が２１２単語を発声したデータを辞書とし
て登録し、他の１９名の発声した２１２単語を認識する
実験を行なった。実験の結果８８．７という認識率を得
ることが出来た。

【００５５】認識対象音声を２名が発声した音声から得
られる類似度ベクトルの時系列の平均化した時系列パタ
ーンを使用すると９３．４％という高い認識率が得られ
た。また、２名が発声した音声を平均化しないで２つと
も辞書として登録しマルチ標準パターンとする方法では
９３．２％　という認識率が得られた。

【００５６】本実施例の様に入力音声を分析して得られ
る特徴パラメータをそのまま使用せずに、多数の話者の
音声データで作成した標準パターンとの類似度計算から
得られる類似度ベクトルを入力ベクトルとしＤＰ法など
で認識を行なうことによって１名または数名の少数話者
の発声した音声データを辞書として登録するだけで不特
定話者の音声を精度良く認識することが出来るようにな
る。

【００５７】（実施例２）次に、回帰係数を併用する第
２の実施例について、図４を用いて説明を行なう。　　
図４において、８は音響分析部、９は特徴パラメータ抽
出部、１０は類似度計算部、１１は標準パターン格納部
、１２は回帰係数計算部、１３はパラメータ系列作成部
、１４は辞書格納部、１５は認識部である。

【００５８】本実施例においても、前記第１の実施例と
同様に類似度ベクトルの時系列を類似度計算部８で求め
る。各類似度の時系列に対して類似度の時間的変化量で
ある回帰係数（ｎ個）を回帰係数計算部９でフレーム毎
に求める。回帰係数は、フレームの前後２フレームの類
似度値（計５フレームの類似度値）の最小２乗近似直線
の傾き（類似度の時間的変化量）を使用する。図４を用
いて類似度の回帰係数について説明を行なう。たとえば
、音素／ａ／の標準パターンで説明すると、入力を１フ
レームずつシフトさせながら／ａ／の標準パターンとマ
ッチングを行ない類似度の時系列を求める。このフレー
ム毎の類似度をプロットしたのが図５である。図５にお
いて横軸がフレーム、縦軸が類似度である。第ｉフレー
ムを中心に第ｉ−２から第ｉ＋２フレームの最小二乗直
線の傾きを求め、これを第ｉフレームにおける類似度の
時間変化量（回帰係数）とする。回帰係数を求める式を
（数７）に示す。この回帰係数を１フレームごとに全フ
レームに対して求める。また、他の標準パターンに対し
ても同様にして回帰係数を全フレームに対して求める。

【００５９】

【数７】

【００６０】このフレーム毎に求められたｎ次元の類似
度ベクトルとｎ次元の回帰係数ベクトルの両方をパラメ
ータとして認識を行なう。前記実施例では、入力音声の
ｉフレームにおける類似度ベクトルと辞書のｊフレーム
における類似度ベクトルの距離として（数２）の相関距
離を使用していた。回帰係数を併用した場合の距離関数
ｌ（ｉ，ｊ）は，（数８）を用いる。ここで、入力音声
のｉフレームにおける回帰係数ベクトルをｃ＝（ｃ１，
ｃ２，．．．，ｃ２０），辞書のｊフレームにおける回
帰係数ベクトルをｄ＝（ｄ１，ｄ２，．．．，ｄ２０）
とする。

【００６１】

【数８】

【００６２】ｗは類似度と回帰係数の混合比率であり、
０．４から０．６がよい。以上の相関余弦を用いて前記
従来例と同様の方法でＤＰマッチングを行ない類似度を
求め最も類似度の大きい辞書項目を認識結果とする。

【００６３】第２の実施例を用いて２１２単語を発声し
た２０名のデータを用いて認識実験を行なった。２０名
の中の１名のデータを辞書として登録し、他の１９名の
発声した２１２単語を認識する実験を行なった。類似度
ベクトルと回帰係数ベクトルを併用すると、９１．８％
の単語認識率が得られた。これは、回帰係数を併用する
前より３．１％向上した。また、２名の話者の発声した
音声を平均化したデータを辞書として登録し残り１８名
を評価すると９５．９％の認識率が得られ、回帰係数を
併用する前より２．５％向上した。

【００６４】本発明は入力音声を分析して得られる特徴
パラメータをそのまま使用せずに、いったん多数の話者
の音声データで作成した標準パターンとのマッチングに
よって、類似度と類似度の回帰係数に変換し、これらを
入力ベクトルとしＤＰ法などで認識を行なうことによっ
て、１名または数名の少数の話者の発声した音声データ
を辞書として登録するだけで不特定話者の音声を精度良
く認識することが出来るようになる。

【００６５】

【発明の効果】以上の様に本発明は、音声を分析して得
られた特徴パラメータに対してあらかじめ多くの話者で
作成したｎ種類の標準パターンとの類似度計算を行なっ
て類似度を求め、ｎ次元の類似度ベクトルまたはｎ次元
の類似度ベクトルとｎ次元回帰係数ベクトルを音声認識
のための特徴パラメータとすることによって、１名から
数名の少数の話者が発声した認識対象音声を辞書として
登録するだけで、不特定話者の音声を精度良く認識する
ことが出来る手段を提供するものである。したがって、
辞書の作成が極めて容易であり、また認識対象音声を変
更したい場合には、１人または数名の少数の話者が発声
した音声データを辞書として登録するだけで辞書が更新
できる。そして高い認識率を得ることが出来る。このよ
うに本発明は不特定話者用音声認識装置の性能向上およ
びいろいろな用途え適用するための柔軟性の向上に対し
て極めて大きく貢献する。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識方法を
具現化する機能ブロック図

【図２】第１の実施例における類似度ベクトルの時系列
を説明する時系列図

【図３】第１の実施例における２名の話者の登録音声に
対する時間整合を説明する模式図

【図４】本発明の第２の実施例における音声認識方法を
具現化する機能ブロック図

【図５】第２の実施例における回帰係数を示す特性図

【符号の説明】

１　　音響分析部２　　特徴パラメータ抽出部３　　標準パターン格納部４　　類似度計算部５　　パラメータ系列作成部６　　辞書格納部７　　認識部８　　音響分析部９　　特徴パラメータ抽出部１０　　標準パターン格納部１１　　類似度計算部１２　　回帰係数計算部１３　　パラメータ系列作成部１４　　辞書格納部１５　　認識部

Claims

【特許請求の範囲】

【請求項１】　　認識対象音声を１名から数名の少数の
話者が発声し、分析時間（フレーム）毎に得られるｍ個
の特徴パラメータと、あらかじめ多数の話者で作成した
ｎ種類の標準パターンとマッチングを行ないｎ個の類似
度をフレーム毎に求め、この類似度ベクトルで作成した
時系列パターンを辞書としてあらかじめ登録しておき、
認識させたい入力音声を分析して得られるｍ個の特徴パ
ラメータと、前記ｎ種類の標準パターンとマッチングを
行ないｎ次元の類似度ベクトルの時系列を求め、辞書に
登録されている類似度ベクトルの時系列と照合すること
によって、認識対象音声を登録した話者およびその他の
入力音声を認識することを特徴とする音声認識方法。
【請求項２】　　ｎ種類の各類似度の時系列それぞれに
対して類似度の時間変化量をフレーム毎にｎ個求め、こ
の類似度の時間変化量のｎ次元ベクトルと類似度のｎ次
元ベクトルを併用して時系列パターンを作成することを
特徴とする請求項１記載の音声認識方法。
【請求項３】　　類似度の時間変化情報として回帰係数
を用いることを特徴とする請求項２記載の音声認識方法
。
【請求項４】　　同一の認識対象音声を２名以上の話者
が発声し、それぞれ分析して得られるｎ次元類似度ベク
トルの時系列に対して、ＤＰマッチングによって話者間
の時間整合を行ない、時間的に整合したフレーム間で各
類似度の平均値を求めその平均値の時系列パターンを辞
書に登録することを特徴とする請求項１記載の音声認識
方法。
【請求項５】　　同一の認識対象音声を２名以上の話者
が発声し、それぞれ分析して得られるｎ次元類似度ベク
トルとｎ次元回帰係数ベクトルの時系列に対して、ＤＰ
マッチングによって話者間の時間整合を行ない，時間的
に整合したフレーム間で各類似度と各類似度の時間変化
量の平均値を求めその平均値の時系列パターンを辞書に
登録することを特徴とする請求項１記載の音声認識方法
。
【請求項６】　　同一の認識対象音声を２名以上の話者
が発声し、それぞれ分析して得られるｎ次元類似度ベク
トルの時系列を複数個求め、これらを辞書として登録し
、マルチ標準パターンとして使用することを特徴とする
請求項１記載の音声認識方法。
【請求項７】　　同一の認識対象音声を２名以上の話者
が発声し、それぞれ分析して得られるｎ次元類似度ベク
トルとｎ次元の類似度の時間変化量ベクトルの時系列を
複数個求めこれらを辞書として登録し、マルチ標準パタ
ーンとして使用することを特徴とする請求項１記載の音
声認識方法。
【請求項８】　　辞書と入力音声を照合する方法として
ＤＰマッチングを用いることを特徴とする請求項１記載
の音声認識方法。
【請求項９】　　類似度ベクトル間または類似度の時間
変化ベクトル間の距離を求める距離尺度として、ユーク
リッド距離、重み付ユークリッド距離、相関余弦を用い
ることを特徴とする請求項１または２記載の音声認識方
法。
【請求項１０】　　標準パターンとして音素、音節、半
音節、音素片等の音響学的な基本単位に基ずくカテゴリ
ーの標準パターンを使用することを特徴とする請求項１
記載の音声認識方法。
【請求項１１】　　標準パターンとのマッチングの距離
尺度として、ベイズ判定に基ずく距離、マハラノビス距
離、各標準パターンの共分散行列を共通化したマハラノ
ビス距離、ニューラルネット、ＨＭＭ（隠れマルコフモ
デル）、ＬＶＱ（学習ベクトル量子化）を用いることを
特徴とする請求項１または２記載の音声認識方法。