JPH04233599A

JPH04233599A - 音声認識方法及び装置

Info

Publication number: JPH04233599A
Application number: JP2408935A
Authority: JP
Inventors: Junichi Tamura; 純一田村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1990-12-28
Filing date: 1990-12-28
Publication date: 1992-08-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置、特に任意
の話者が連続して発声した単語等の音声を、高い認識率
で認識する音声認識装置に関するものである。

【０００２】

【従来の技術】不特定話者認識に関する認識手法は、い
くつか考案されているが、現状で最も一般的な不特定話
者認識システムについて述べる。

【０００３】従来、不特定大語彙を目指した認識システ
ムは図１３に示すような構成になっている。音声入力部
１から入力された音声は音声分析部２により音声のパワ
ー項等を含むフイルタバンク出力、ＬＰＣケプストラム
等の特徴パラメータが求められ、ここでパラメータの圧
縮等（フイルタバンク出力の場合、Ｋ−Ｌ変換等による
次元圧縮）も行われる。（分析はフレーム単位で行われ
るので、以下、圧縮後の特徴パラメータを特徴ベクトル
と呼ぶ）。

【０００４】次に連続音声中から音素境界を決定するた
めの処理が音素境界検出部３により行われる。音素識別
部４では、統計的な手法により音素が決定される。５は
多数の音素サンプルから作成した音素標準パタンを格納
する音素標準パタン格納部。６は音素識別部４の出力結
果から単語辞書７あるいは出力された候補音素の中から
修正規則部８により修正を行って、最終的な認識結果を
出力する単語識別部、９は認識結果を表示する認識結果
表示部である。

【０００５】通常、音素境界検出部３では、判別関数等
を用いており、音素識別部４でも同様に判別される。こ
れら各構成要素の出力は一般的にある一定の閾値を満足
した候補が出力される。それぞれの候補について更に複
数の候補が出力されるが、７、８の様なＴｏｐ　　ｄｏ
ｗｎ的な情報等が用いられ最終的な単語に絞られる。

【０００６】

【発明が解決しようとしている課題】しかしながら、上
記従来例の認識装置は基本的な構成がボトム・アップ型
であるので、認識過程のある箇所で誤りが生じた場合、
後の過程に悪影響を及ぼし易い形になっている。（例え
ば、音素境界検出部３において、音素境界を誤った場合
、その誤り方によっては音素識別部４、単語識別部６に
与える影響は大きい）つまり、最終的な音声の認識率は
各過程の誤り率の積に比例して下がるので、高い認識率
が得られなかった。

【０００７】又、特に、不特定話者を対象とする認識装
置を構成する場合、各過程で判定の為の閾値の設定が非
常に難しい。少なくとも候補の中に目的とするものが存
在する様に閾値を設定すると、各過程における候補群の
数が多くなり、複数候補単語の中から目的とする単語を
正確に絞り込む方法が非常に難しくなっていた。また、
実環境下で認識装置を使用する場合、非定常ノイズ等が
かなり多く、少数単語の認識装置であっても認識率が低
く、実際、使いにくいものとなっていた。

【０００８】

【課題を解決する為の手段】上記課題を解決するために
、音声情報を入力し、該音声情報を認識する際に、基準
として用いる単語情報と、音声の特性によって分類した
音素情報を格納し、前記入力した音声情報の特性を判断
し、スポッティング法を用いて入力音声情報と単語情報
のマッチングを行ない、候補単語と該候補単語の音声区
間を導出し、該導出された音声区間に対して前記候補単
語に対応する音素情報を、前記判断された音声の特性に
従って前記格納手段から呼出し、前記入力音声とのマッ
チングを行なうことを特徴とする音声認識方法を提供す
る。

【０００９】上記課題を解決するために、音声情報を入
力する入力手段、該音声情報を認識する際に、基準とし
て用いる単語情報と音声の特性によって分類した音素情
報を格納する格納手段、前記入力した音声情報の特性を
判断する判断手段、スポッティング法を用いて入力音声
情報と単語情報のマッチングを行ない、候補単語と該候
補単語の音声区間を導出する導出手段、該導出された音
声区間に対して前記候補単語に対応する音素情報を、前
記判断された音声の特性に従って前記格納手段から呼出
し、前記入力音声とのマッチングを行なう音素認識手段
を有することを特徴とする音声認識装置を提供する。

【００１０】上記課題を解決するためには、好ましくは
前記音声の特性は、音声を発声する話者によって異なる
ものとする。

【００１１】

【実施例】（実施例１）図１は本発明による音声認識シ
ステムの基本構成図で、１００は音声入力部、１０１は
入力された音声を分析、圧縮し、特徴ベクトルの時系列
に変換する音声分析部、１０３は多数の話者が発声した
単語データから求めた標準パタンを音素表記と対応して
、格納する単語標準パタン格納部、１０２は音声分析部
１０１の特徴ベクトル系列と単語標準パタン格納部１０
３に格納されている各々の標準パタンを入力データのフ
レームごとに連続マハラノビスＤＰを用いて距離を算出
する連続マハラノビスＤＰによる単語距離計算部、１０
４は連続マハラノビスＤＰより求めた各フレーム単語標
準パタンとの距離の値により単語標準パタンの中から候
補となる単語を判別する候補単語判別部、１０５は候補
になった１つ以上の単語区間の特徴ベクトルのパラメー
タを格納するパラメータ格納部、１０６は多数話者の発
声した音声の中から音素単位で作成された標準パタンを
格納する音素標準パタン格納部、１０７は候補となった
単語の特徴ベクトル系列について音素単位で連続マハラ
ノビスＤＰにより入力データと音素標準パタンの距離計
算を行う連続マハラノビスＤＰによる音素距離計算部、
１０８は１つ以上の候補単語のそれぞれについてマッチ
ングされた各音素系列から最も適当な単語を識別して出
力する音素単位の認識結果による識別部。１０９は例え
ば音声応答等の手段により音声認識結果を出力する結果
出力部である。図中、第１部は音声区間の切り出しと供
に単語の候補の絞り込み、第２部は候補単語内での音素
単位認識部を示す。

【００１２】１１０は、複数話者による複数の標準パタ
ンに対応するように各々の話者の特徴に従って複数の音
素標準パタン郡を分類した話者カテゴリから現在音声を
入力中の話者に最適な話者カテゴリを識別するためのパ
タンが格納されている話者カテゴリ識別パタン格納部。

【００１３】１１１は、入力音声と、後述する最適話者
音素標準パタン格納部１０２によって比較する標準パタ
ンを選択し、図１に示した第２部における音素認識にお
いては、音素標準パタン格納部１０６から最適な音素郡
を選択して最適話者音素標準パタン格納部１１２に格納
するよう指示する処理選択部。

【００１４】１１２は、処理選択部１１１の指示により
最適な話者カテゴリの音素標準パタンを格納する最適話
者音素標準パタン格納部。

【００１５】次に動作の流れを説明する。まず音声入力
部１００は、マイクから音声信号を入力し、音声分析部
１０１に入力波形を転送する。音声入力部１００は音声
入力の受付時間中は常に音声又は周囲のノイズ信号等を
取り込み、音声入力波形をデイジタル値に変換した波形
として音声分析部１０１へ転送する。音声分析部１０１
では、常に入力されて来る波形を１０ｍｓｅｃ〜３０ｍ
ｓｅｃ程度の窓幅で分析を行い、２ｍｓｅｃ〜１０ｍｓ
ｅｃの長さを持つフレームごとに、特徴パラメータを求
める特徴パラメータの種類としては比較的高速に分析可
能なＬＰＣケプストラム、ＬＰＣメルケプストラム、高
精度にパラメータを抽出したい場合はＦＦＴケプストラ
ム、ＦＦＴメルケプストラム等が一般的で、他にフィル
タバンク出力値もある。

【００１６】また、正規化されたパワー情報を用いたり
、パラメータの各次元ごとに重み係数を掛けたりして、
システムの使用状況に最も適したパラメータで、フレー
ムごとに分析される。次に、分析された特徴パラメータ
の次元について圧縮を行う。ケプストラムパラメータは
、通常係数の１次の項〜１２次の項の中から必要な次元
数（例えば６次元）だけ抜き出し、これを特徴ベクトル
とする。

【００１７】また、スペクトルの差分情報、パワー情報
等をパラメータ化したものを、前記スペクトル情報から
得られたパラメータに合わせて、特徴ベクトルとしても
良い。

【００１８】フイルタバンク出力を特徴パラメータとし
た場合、例えばＫ−Ｌ変換、フーリエ変換等の直交変換
により次元圧縮し、低次項を用いる。これら圧縮された
１フレーム分のパラメータを特徴ベクトル、次元圧縮さ
れた後の特徴ベクトルの時系列を特徴ベクトルの系列（
或は、単にパラメータ）と呼ぶことにする。

【００１９】本実施例では分析窓長を２５．６ｍｓｅｃ
で分析し、フレーム周期１０ｍｓｅｃ、ＦＦＴスペクト
ルのピーク付近を通る様な包絡スペクトルから、メルケ
プストラム係数を求めた後、係数の１次〜８次を用いる
。

【００２０】更に、隣り合うメルケプストラムの差分情
報として１次の回帰係数を求め、先に求めたメルケプス
トラムの係数と同様に回帰係数の１次〜８次を用いて計
１６個の特徴を１フレーム分の特徴ベクトルとする。こ
こでメルケプストラムの０次項はパワーを表わす。（本
実施例では、パワー情報は用いない場合について示す）
次に、単語標準パタン格納部１０３に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた１０数字“ゼロ、サン、ニ、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、ク、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計１７単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では１単語の標準パタンを作成
するのに５０００人分の音声サンプルを用いる。（音声
サンプル数は多ければ多い程良い）なお、ここでは１７
単語のみの認識を目的とし、１７単語の標準パタンを作
成し、格納する例について述べるがこれは１７単語に限
るわけではなく、同様の方法で任意の数のパタンを作成
すれば、任意の音声を認識できるようになる。

【００２１】更に、単語標準パタンとして、音素標準パ
タンに格納されている各音素の平均をとったものを予め
定めた法則に従って結合し、単語を文節等の標準パタン
を作成したものを用いるようにすることも可能である。また、これらの標準パタンは話者別に複数あってもよい
。

【００２２】図２に、標準パタンの作成手順を表わすフ
ローチャートを示す。

【００２３】まず、音声サンプルから標準パタンを作成
する際の仮の比較対象となるコアパタン（核パタン）を
選択する（Ｓ２００）。選択方法は５０００単語の中で
発声時間長と発声パタンが最も平均的な単語を用いる。次に、サンプルの単語を入力し（Ｓ２０１）、入力単語
とコアパタンとの時間軸伸縮マッチングを行い、時間正
規化距離が最小となるマッチング経路に沿って、各フレ
ームごとに平均ベクトル、及び分散共分散行列を作成す
る（Ｓ２０２）。ここで時間軸伸縮マッチングの方法と
してＤＰマッチングを用いる。次に入力単語の話者番号
を次々変えてゆき（Ｓ２０４）５０００名分の単語Ｓｉ
（ｉ＝１〜５０００）について、各フレームごとに特徴
ベクトルの平均値及び、分散共分散行列を求める（Ｓ２
０３、Ｓ２０５）。この様にして計１７単語についてそ
れぞれ上記過程と同様にして単語標準パタンを作成し単
語標準パタン格納部１０３に格納しておく。

【００２４】１１０は、話者カテゴリ識別パタン格納部
である。

【００２５】本認識装置は、不特定の話者が発声した単
語、文章等を認識するが、実際に目的とする音声を認識
する前に、現在入力しようとしている話者が、どのカテ
ゴリ内に入るのかこれをあらかじめ学習し、第２部にお
いて複数の音素標準パタン群の中から最もその話者に適
した音素標準パタンを用いて認識する事により、認識精
度の高い認識装置が実現できる。以下に、話者カテゴリ
識別パタンの作成方法について図３に示したフローチャ
ートに従って述べる。まず、複数話者５０００人が“ア
イウエオ”とつなげてゆっくり発声した音声を分析して
得られた特徴ベクトル系列を任意の複数カテゴリに分類
する。ここでは、ｎクラスに分ける事にする。クラスの
分け方は、クラスタリングの手法として存在する。多種
多様な方法のうち、どれを用いても構わない。図３では
、まずＳ４０１〜Ｓ４０５で全５０００の話者の中で最
も平均的な話者を選択し、この話者の特徴ベクトルと最
もＤＰ距離の大きい特徴ベクトルの音声を発声した話者
を選択し、これをＩ２とする（Ｓ４０６）。

【００２６】次に、話者Ｉ１とＩ２のＤＰ距離（正規化
した値）が最も大きい話者Ｉ３を選択する…といった手
順を繰り返し、ＤＰ距離の値が例えば０．０５等、予め
定めた基準値以下となるまで繰り返す。本実施例では、
Ｉ１〜Ｉ９までの９話者が、カテゴリの代表サンプルと
して挙げられた。この話者カテゴリの概念図を図４に、
特徴ベクトルの記号での表現例を図５に示す。

【００２７】次にこれらのカテゴリの格となる話者（以
下、格話者と呼ぶ）の特徴ベクトル系列をコアパタンと
して図２に示すフローチャートに従って、連続発声単語
「アイウエオ」の標準パタンを作成する。２０２ではＤ
Ｐマッチングを行ないながらＤＰ経路に従って、対応フ
レームの分散、共分散ベクトルを求めるが、ＤＰ窓の制
限、ＤＰの傾斜制限等を少しきつくして標準パタンとし
て用いる。

【００２８】話者を制限すると、比較的分散の少ない良
好な標準パタンが格話者を中心とするカデゴリ別に生成
できる。

【００２９】また格話者をコアパタンとして、話者カテ
ゴリに対応する標準パタンを作成する時に用いられた話
者の集まりを以下カテゴリ話者群と呼ぶ。

【００３０】連続マハラノビスＤＰによる単語距離計算
部１０２では連続マハラノビスＤＰにより次々と入力さ
れる特徴ベクトルの時系列について単語標準パタン格納
部１０３、或いは、話者カテゴリ識別パターン格納部１
１０に格納されている全ての単語或いは音韻連鎖の標準
パタンとの連続マハラノビスＤＰによるマッチングを行
い、距離を計算する。

【００３１】ここで、処理選択部１１１は、現在入力中
の話者がどの話者カテゴリに属しているかを識別するた
めに入力音声とのマッチングの対象を、話者カテゴリ識
別パタン格納部１１０か、単語標準パタン格納部１０３
かを選択する。

【００３２】ここで、処理選択部１１１の動作を説明す
るための内部構成図を図６に示す。

【００３３】また、処理選択部１１１の処理動作を示す
フローチャートを、図７に示す。

【００３４】音声認識処理の立上時（Ｓ３０１）には、
話者識別モードとなっているのでＳ３０４へ進む。しか
し、途中で入力話者が替る時、或いは、再度話者識別モ
ードにしたい時のために、話者自身がモードフラグを設
定できるようになっている。そこで、モード切替部１２
１のモードフラグを読み込む（Ｓ３０２）。モードフラ
グが、単語認識モードであれば、モード切替部で単語認
定モードに切替え（Ｓ３０３）、先に述べたように入力
音声を目的単語とみなして、単語認識を行う（Ｓ３１０
）。話者識別モードと判断される（Ｓ３０３）場合、デ
ィスプレイや、音声合成等の指示手段により、「“アイ
ウエオ”と発声して下さい」といった指示を話者に行う
（Ｓ３０４）。最適話者カテゴリを探索し（Ｓ３０５）
、ここでは、その距離の値が、０．１以下になる様な、
制限を設けている（Ｓ３０６）。もしＳ３０６でリジェ
クトされれば、話者の発声長、強度等が極端に標準値と
異なると判断し、リトライ情報を付加して（Ｓ３０７）
、再度入力を促がす（Ｓ３０４）。この時の入力音声指
示部は、「“アイウエオ”のようにつづけてゆっくりと
発声して下さい。では、どうぞ」といった内容に変更し
、話者に指示を与える。このようにして、話者カテゴリ
Ｉ１〜Ｉ９の中からカテゴリを特定した後、そのカテゴ
リに戻す格話者と同一の話者をコアパタンとして作成し
た音素標準パタンを、音素標準パタン格納部１０６から
最適話者音素標準パタン格納部１１２に転送（格納）す
る（Ｓ３０８）。

【００３５】話者カテゴリが特定されたら、モードフラ
グを単語認識モードにセットし（Ｓ３０９）、単語認識
処理を始める（Ｓ３１０）。

【００３６】次に、連続マハラノビスＤＰについて説明
する。連続ＤＰの手法は一般的で、特定話者が連続に発
声した文章の中から目的とする単語、或は、音節等の単
位を探し出す方法である。これはワードスポッティング
と呼ばれ、目的とする音声区間の切り出しと同時に認識
も行ってしまうという画期的な方法である。本実施例で
は連続ＤＰ法の各々のフレーム内における距離にマハラ
ノビス距離を用いる事により、不特定性を吸収している
。

【００３７】図８は、“ゼロ”という単語の標準パター
ンと“ゼロ”という単語を発声した時の入力音声を無声
区間も含めて特徴ベクトルの時系列に分析したものとを
連続マハラノビスＤＰによりマッチングした結果を示し
たものである。図中、黒が濃く出ている所は標準パタン
と入力パタンの距離が大きい所、黒が薄く、白に近い所
は標準パタンと入力パタンの距離が小さいところである
。マッチングを行った結果の下には累積距離の時間変化
を示す。この累積距離はその時点が終端となるＤＰパス
の距離を示すもので、ＤＰパスを求めてその値をメモリ
に保存する。このメモリに保存したＤＰパスは、音声区
間の始端を求める為につかう。例えばこの図においては
距離が最小となった時のＤＰパスを示したが、標準パタ
ンと入力パタンが似ていた場合、累積距離が任意に定め
た閾値より小さくなり、その標準パタンの単語を候補単
語と認める。そして、入力パタンから音声区間を切り出
すために、累積距離が閾値より小さく、更に最小である
時点からＤＰパスをメモリから呼び出してバックトラッ
クすることにより、音声区間の始端が求められる。こう
して求められた音声区間の特徴ベクトルの時系列をパラ
メータ格納部１０５に格納する。

【００３８】今まで説明してきた処理系により、まず候
補単語と、その音声区間を分析した特徴ベクトルの系列
と、連続マハラノビスＤＰによる累積距離の結果が得ら
れる。ここで、候補単語の中で“シチ”と“シ”の様に
音声区間が重なっているものが複数選択された時、この
場合“シチ”の方を選択し“シ”は切り捨てる。“ロク
”と“ク”も同様に、“ク”の音声区間の大部分が（こ
こでは８０％以上とする）“ロク”に含まれている時は
、“ク”は切り捨てて“ロク”のみについて検証を行う
。

【００３９】本実施例では音素標準パタン格納部１０６
に母音（ａ、ｉ、ｕ、ｅ、ｏ）と子音（ｚ、ｓ、ｎ、ｒ
、ｇ、ｍ、ｓｈｉ、ｋ、ｈ、ｃｉ）について音素標準パ
タンを作成しておく。

【００４０】なお、本実施例では先に述べた１７単語の
認識を目的としている為、音素標準パタン格納部１０６
に格納する音素は上記１５種類だが、前にも述べたよう
に、認識対象を拡大し、標準パタンの数を増す場合には
、その標準パタンを構成する音素をすべて、同様の方法
で標準パタンを作成し、音素標準パタン格納部１０６に
格納する。

【００４１】ここでは、カテゴリ別標準パタン作成に用
いたカテゴリ話者群に分類し、その中の各話者が発声し
た単語の中から、各音素を切り出し、これらの同一の音
素集合について、クラスタリング等を行ない各クラスに
属する複数の音素標準パタンを作成して格納する。

【００４２】この様子を図９に示す。話者カテゴリに属
するカテゴリ話者群の中から、音素の部分を切り出す（
例えば音素／ａ／）更に、これをクラスタリング等の処
理を行ない、／ａ／の音素について、１以上の標準パタ
ンを作成する。図では話者カテゴリが１の場合、／ａ／
は、／ａ１／と／ａ２／、／ｕ／は／ｕ１／、／ｕ２／
、／ｕ３／の様に複数の音素クラスに対応する音素標準
パタン系列が格納されている。例えば／ａ１／は有声音
の“ア”／ａ２／は無声化した“ア”といったように、
同一の音素でも単語中における音素出現位置の相異によ
る周囲の音韻の違い（音韻環境）や、同一話者でも発声
の仕方等の相違により変形も激しい。

【００４３】本方法の様に、話者カテゴリ別に分類した
単語の中から音素を切り出し、この中で更にクラスタリ
ング等により複数の音素標準パタンを持つ事によって、
より確度の高い認識結果が得られる。

【００４４】また、最適話者音素標準パタン格納部１１
２には、前記話者カテゴリ識別パタン格納部１１０の中
から選択された最適な話者カテゴリに対応した音素標準
パタン群が音素標準パタン格納部１０６から処理選択部
１１１により転送され、格納される。

【００４５】連続マハラノビスＤＰによる音素距離計算
部１０７ではパラメータ格納部１０５に格納されている
候補単語として切り出された音声区間について各音素と
のマッチングを行う。

【００４６】連続マハラノビスＤＰによる単語距離計算
部１０２と同様に累積距離が最小となった位置からその
音素の区間を計算する。（候補単語判別部１０４と同様
、累積距離が最小となった時点をその音素の終端とし、
始端は連続ＤＰパスのバックトラックにより求める）本
実施例では例えば“ゼロ”→“ｚｅｒｏ”が候補単語の
場合その音声区間について“ｚ”、“ｅ”、“ｒ”、“
ｏ”の４種類の音素についてのみマッチングを行う。４
種の音素と上記“ｚｅｒｏ”と判別され、候補となった
音声区間のマッチングの結果、各音素の累積距離が最小
となる点についてその位置関係と、最小距離の平均値を
求めるこの様子を図１０に示す。

【００４７】各々の音素についてマッチングの結果の距
離の最小値と、その位置をフレームで表わし音素単位の
認識結果による認識部１０８に送る。この例では、“ｚ
”について最小値は“ｊ”、フレーム位置は“ｚｆであ
る。音素単位の認識結果による認識部１０８では、連続
マハラノビスＤＰによる音素距離計算部１０７から送ら
れてきたデータを基に最終的な単語の識別を行う。まず、候補単語の音素列の順番（フレームの位置）がｚ
ｆ＜ｅｆ＜ｒｆ＜ｏｆであるか否かを調べる。もしこの
順番であれば認識単語は“ゼロ”（ｚｅｒｏ）”平均認
識距離

【００４８】

【外１】を求めＸの値が閾値Ｈよりも小さいならば、認識結果と
して“ゼロ”を出力する。

【００４９】図１１は単語候補の出力結果（候補単語判
別部１０４の出力結果）を示したものである。■は単語
“ハチ”、■は単語“シチ”、■は単語“シ”が候補と
して出力される。が、ここで前に述べたように■は■の
区間に８０％以上含まれており、かつ同一の“シ”が■
の中に存在するので音素レベルでの識別は■■について
行なう。

【００５０】ケース■　　単語Ｓ１の音素列“／ｈ／ａ
／ｃ／ｉ／”と単語Ｓ２の音素列“／ｓｈ／ｉ／ｃ／ｉ
／”についてマッチングした結果、どちらも音素の順番
が、候補単語と等しい場合、かつ、個々の音素の距離が
Ｈ（閾値）より小さい場合→平均累積距離Ｘの小さい方
を出力する。

【００５１】ケース■　　どちらも順番が異なる個々の
音素の距離が閾値（Ｈ）より小さい場合→単語と音素列
の文字列によるＤＰマッチングを行い、その距離の閾値
（Ｉ）により決定する。

【００５２】ケース■　　順番が合っているか、個々の
音素の閾値が（Ｈ）をクリアしていない場合→リジェク
トケース■　　順番が異なり、音素の閾値もクリアして
いない場合→リジェクト音素単位の認識結果による単語
の識別方法は前記の方法に限らない。後に他の実施例で
も述べるが音素の単位をどの様な形で定義し、標準パタ
ンを作成しておくか、或は同一の音素でも複数用意する
事によって音素判別に用いる閾値Ｈの値、或は識別アル
ゴリズムは異なる。よって、平均累積距離と音素順位の
どちらを優先させるか等の識別アルゴリズムは一意に決
まらない。

【００５３】音素単位の認識結果による認識部１０８で
最終結果として出力した例えば音声（単語）を結果出力
部１０９で出力する。電話等の音声情報のみで認識させ
る場合、認識結果を「“ゼロ”ですね？」と例えば音声
合成手段を用いて確認する。単語の識別の結果、距離が
十分小さければ認識結果を確認せずに、それに対応した
次の処理へと移行する。

【００５４】なお、本実施例ではパターンマッチングの
方法として統計的に不特定性を吸収する距離尺度として
マハラノビス距離を用いた連続マハラノビスによるマッ
チング方法を用いたが、これに限定することなく、第２
部での認識においてはマルコルモデルのような確率を用
いて不特定性を吸収する距離を用いたマッチング方法が
あれば、どれを用いてもよいことはいうまでもない。

【００５５】なお、本実施例では話者群を識別するため
の音韻連鎖として「アイウエオ」と連続して発声した単
語を用いたが、話者群を識別する単語は、これに限らな
い。またこれは、複数であってもよい。例えば、単語Ａ
（母音を含む単語）で、話者の基本的特徴（ホルマント
ピークの長さ等）を分類し、更に、その中でも、話者ご
との特徴（１．濁音を発声する際、“バズ”を含みやす
いか、含みにくいか、２．“ｐ，ｔ，ｋ”等の子音の長
さ、３．平均的な発声速度等）等、話者を分類する上で
最も特徴が強く出る単語Ｂ、単語Ｃから、更に話者群を
分類するとよい。

【００５６】（実施例２）前記実施例１では、音素標準
パタン格納部に格納する音素として、本認識装置で認識
を行うのに必要な認識対象単語に含まれる音素に限定し
ていたが、常時格納しておく音素標準パタンは、（日本
語を認識する場合）日本語の全音素について、話者カテ
ゴリ、音素クラスごとに作成した音素標準パタンを作成
しておいても良い。これにより１０６のメモリは増える
が認識対象単語を変えた場合、その対象単語に使用され
て音素（複数）について、話者カテゴリに対応する標準
パタンを１１２に格納すれば良い。

【００５７】更に、音素として、日本語発声に必要な音
素だけでなく各国語（英語、仏語、独語、中国語…）等
に用いられる音素も全て格納しておき、この中から認識
対象語を選択しても良い。

【００５８】図１２の様に図２．４の音素種を増やし、
更にこれを国別に用意しておけば良い。

【００５９】

【発明の効果】以上説明した様に、本発明によれば、音
声認識の第１段階において単語単位のスポッティングを
行なって音声区間と候補単語を導出し、第２段階で音声
の特性によって複数用意された音素の標準パタンと比較
することにより、第２段階においてより細かな音声認識
が行なわれ、認識率が高くなるという効果が得られる。

【図面の簡単な説明】

【図１】本実施例の基本的なブロック図。

【図２】標準パターン作成フロー。

【図３】話者カテゴリ作成フロー。

【図４】話者カテゴリの概念図。

【図５】特徴ベクトルの表現例示図。

【図６】処理選択部の内部構成図。

【図７】全体の流れを示すフローチャート。

【図８】マハラノビス距離を用いたマッチングの例示図
。

【図９】話者カテゴリのデータフォーマット図。

【図１０】音素マッチングの例示図。

【図１１】複数の候補単語と入力信号の例示図。

【図１２】複数の言語についての話者カテゴリを有する
時のデータフォーマット図。

【図１３】従来の音声認識システムの構成図。

Claims

【特許請求の範囲】

【請求項１】　　音声情報を入力し、該音声情報を認識
する際に、基準として用いる単語情報と、音声の特性に
よって分類した音素情報を格納し、前記入力した音声情
報の特性を判断し、スポッティング法を用いて入力音声
情報と単語情報のマッチングを行い、候補単語と該候補
単語の音声区間を導出し、該導出された音声区間に対し
て前記候補単語に対応する音素情報を、前記判断された
音声の特性に従って前記格納手段から呼出し、前記入力
音声とのマッチングを行なうことを特徴とする音声認識
方法。
【請求項２】　　前記音声の特性は、音声を発声する話
者によって異なるものであることを特徴とする請求項１
に記載の音声認識方法。
【請求項３】　　音声情報を入力する入力手段、該音声
情報を認識する際に、基準として用いる単語情報と、音
声の特性によって分類した音素情報を格納する格納手段
、前記入力した音声情報の特性を判断する判断手段、ス
ポッティング法を用いて入力音声情報と単語情報のマッ
チングを行ない、候補単語と該候補単語の音声区間を導
出する導出手段、該導出された音声区間に対して前記候
補単語に対応する音素情報を、前記判断された音声の特
性に従って前記格納手段から呼出し、前記入力音声との
マッチングを行なう音素認識手段を有することを特徴と
する音声認識装置。
【請求項４】　　前記音声の特性は、音声を発声する話
者によって異なるものであることを特徴とする請求項３
に記載の音声認識装置。