JPH03228100A

JPH03228100A - 音声認識装置

Info

Publication number: JPH03228100A
Application number: JP2023205A
Authority: JP
Inventors: Junichi Tamura; 純一田村; Tetsuo Kosaka; 哲夫小坂; Atsushi Sakurai; 櫻井　穆
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1990-02-01
Filing date: 1990-02-01
Publication date: 1991-10-09
Anticipated expiration: 2014-03-03
Also published as: JP2862306B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識装置、特に任意の話者が連続して発声
した単語等の音声を、高い認識率で認識←−−目一≠す
る音声認識装置に関するものである。

〔従来の技術〕

不特定話者認識に関する認識手法は、いくつか考案され
ているが、現状で最も一般的かつ本提案に比較的近い構
成を持つ不特定話者認識システムの従来例について述べ
る。

従来、不特定大語量を目指した認識システムは第３図の
ような構成になっている。音声入力部１から入力された
音声は音声分析部２により音声のパワー項等を含むフィ
ルタバンク出力、ＬＰＣケプストラム等の特徴パラメー
タが求められ、ここでパラメータの圧縮等（フィルタバ
ンク出力の場合、Ｋ−Ｌ変換等による次元圧縮）も行わ
れる。

（分析はフレーム単位で行われるので、以下、圧縮後の
特徴パラメータを特徴ベクトルと呼ぶ）次に連続音声中
から音素境界を決定するための処理が音素境界検出部３
により行われる。音素識別部４では、統計的な手法によ
り音素が決定される。５は多数の音素サンプルから作成
した音素標準パタンを格納する音素標準パタン格納部。

６は音素識別部４の出力結果から単語辞書７あるいは出
力された候補音素の中から修正規則部８により修正を行
って、最終的な認識結果を出力する単語識別部、９は認
識結果を表示する認識結果表示部である。

通常、音素境界検出部３では、判別関数等を用いており
、音素識別部４でも同様に判別される。

これら各構成要素の出力は一般的にある一定の閾値を満
足した候補が出力される。それぞれの候補について更に
複数の候補が出力されるが、７．８の様なＴｏｐ　　ｄ
ｏｗｎ的な情報等が用いられ最終的な単語に絞られる。

〔発明が解決しようとしている課題〕

しかしながら、上記従来例の認識装置は基本的な構成が
ボトム・アップ型であるので、認識・過程のある箇所で
誤りが生じた場合、後の過程に悪影響を及ぼし易い形に
なっている。（例えば、音素境界検出部３において、音
素境界を誤った場合、その誤り方によっては音素識別部
４、単語識別部６に与える影響は大きい）つまり、最終
的な音声の認識率は各過程の誤り率の積に比例して下が
るので、高い認識率が得られなかった。

又、特に、不特定話者を対象とする認識装置を構成する
場合各過程での判定の為の閾値の設定が非常に難しい。

少な（とも候補の中に目的とするものが存在する様に閾
値を設定すると、各過程における候補群の数が多くなり
、複数候補単語の中から目的とする単語を正確に絞り込
む方法が非常に難しくなっていた。また、実環境下で認
識装置を使用しようとした場合、非定常ノイズ等がかな
り多く、少数単語の認識装置であっても認識率が低（、
実際、使いに（いものとなっていた。

〔課題を解決するための手段〕

本発明によれば、上記従来の課題を解決するために、ス
ポツティング法により単語単位の音声区間の切り出し、
候補単語の選出を行い、次に音素単位でマツチングを行
うという２段階を設けることにより、候補単語の選出と
音声区間の切り出しが一気にでき、また、候補単語の絞
り込みを容易にしたものである。

また、本発明によれば複数の環境下における音素の標準
パタンを用意することにより、単語の標準パタンを複数
の環境について用意するよりも少ない情報量で多（の状
況における入力音声を認識することが可能となる。

〔実施例１〕第１図は本発明による音声認識システムの基本構成図で
、１００は音声入力部、１０１は入力された音声を分析
、圧縮し、特徴ベクトルの時系列に変換する音声分析部
、１０３は多数の話者が発声した単語データから求めた
標準パタンを格納する単語標準パタン格納部、１０２は
音声分析部１０１の特徴ベクトル系列と単語標準パタン
格納部１０３に格納されている各々の標準パタンを入力
データのフレームごとに連続マハラノビスＤＰを用いて
距離を算出する連続マハラノビスアＤＰによる単語距離
計算部、１０４は連続マハラノビスＤＰより求めた各フ
レームと単語標準パタンとの距離の値により単語標準パ
タンの中から候補となる単語を判別する候補単語判別部
、１０５は候補になった１つ以上の単語区間の特徴ベク
トルのパラメータを格納するパラメータ格納部、１０６
は多数話者の発声した音声の中から音素単位で作成され
た標準パタンを格納する音素標準パタン格納部、１０７
は候補となった単語の特徴ベクトル系列について音素単
位で連続マハラノビスＤＰにより入力データと音素標準
パタンの距離計算を行う連続マハラノビスＤＰによる音
素距離計算部、１０８は１つ以上の候補単語のそれぞれ
についてマツチングされた各音素列から最も適当な単語
を識別して出力する音素単位の認識結果による識別部。

１０９は例えば音声応答等の手段により音声認識結果を
出力する結果出力部である。図中、第１部は音声区間の
切り出しと供に単語の候補の絞り込み、第２部は候補単
語内での音素単位の認識部を示す。

次に動作の流れを説明する。まず、音声入力部１００は
、マイクから音声信号を入力し、音声分析部１０１に入
力波形を転送する。音声入力部１００は音声入力の受付
時間中は常に音声又は周囲のノイズ信号等を取り込み、
音声入力波形をディジタル値に変換した波形として音声
分析部１０１へ転送する。音声分析部１０１では、常に
入力されて来る波形を１０ｍ５ｅｃ〜３０ｍ５ｅｃ程度
の窓幅で分析を行い、２ｍ５ｅｃ〜１０ｍ５ｅｃの長さ
を持つフレームごとに、特徴パラメータを求める特徴パ
ラメータの種類としては比較的高速に分析可能なＬＰＣ
ケプストラム、ＬＰＣメルケブストラム、高精度にパラ
メータを抽出したい場合はＦＦＴケプストラム、ＦＦＴ
メルケブストラム等が一般的で、他にフィルタバンク出
力値もある。

また、正規化されたパワー情報を用いたり、パラメータ
の各次元ごとに重み係数を掛けたりして、システムの使
用状況に最も適したパラメータで、フレームごとに分析
される。次に、分析された特徴パラメータの次元につい
て圧縮を行う。ケプストラムパラメータは、通常係数の
１次の項〜１２次の項の中から必要な次元数（例えば６
次元）だけ抜き出し、これを特徴ベクトルとする。

フィルタバンク出力を特徴パラメータとした場合、例え
ばに−Ｌ変換、フーリエ変換等の直交変換により次元圧
縮し、低次項を用いる。これら圧縮された１７レム分の
パラメータを特徴ベクトル、次元圧縮された後の特徴ベ
クトルの時系列を特徴ベクトルの系列（或は、単にパラ
メータ）と呼ぶことにする。

本実施例では分析窓長を２５．６ｍ５ｅｃで分析し、フ
レーム周期１０ｍ５ｅｃ、ＦＦＴスペクトルのピークを
通るスペクトル包絡から、メルケプストラム係数を求め
た後、係数の２次〜６次を用い、これを１フレ一ム分の
特徴ベクトルとする。ここでメルケブストラムの０次項
はパワーを表わす。

次に、単語標準パタン格納部１０３に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた１０数字“ゼロ、サン、二、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、夕、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計１７単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では１単語の標準パタンを作成
するのに５０人分の音声サンプルを用いる。（音声サン
プル数は多ければ多い程良い）第２図（ａ）に、標準パ
タンの作成手順を表わすフローチャートを示す。

まず、音声サンプルから標準パタンを作成する際の仮の
比較対象となるコアパタン（核パタン）を選択する（Ｓ
　２００）。選択方法は５０単語の中で発声時間長と発
声パタンか最も平均的な単語を用いる。次に、サンプル
の単語を入力しく５２０１）、入力単語とコアパタンと
の時間軸伸縮マツチングを行い、時間正規化距離が最小
となるマツチング経路に沿って、各フレームごとに平均
ベクトル、及び分散共分散行列を作成する（Ｓ２０２）
。ここで時間軸伸縮マツチングの方法としてＤＰマツチ
ングを用いる。次に入力単語の話者番号を次々変えてゆ
き（Ｓ２０４）５０名分の単語Ｓｉ　（ｉ＝１〜５０）
について、各フレームごとに特徴ベクトルの平均値及び
、分散共分散行列を求める（Ｓ２０３．５２０５）。こ
の様にして計１７単語についてそれぞれ上記過程と同様
にして単語標準パタンを作成し単語標準パタン格納部１
０３に格納しておく。

連続マハラノビスＤＰによる単語距離計算部１０２では
、連続マハラノビスＤＰにより次々と入力される特徴ベ
クトルの時系列について単語標準パタン格納部１０３に
格納されている全ての単語の標準パタンとの連続マハラ
ノビスＤＰによるマツチングを行い、距離を計算する。

ここで、連続マハラノビスＤＰについて説明する。連続
ＤＰの手法は一般的で、特定話者が連続に発声した文章
の中から目的とする単語、或は、音節等の単位を探し出
す方法である。これはワードスポツティングと呼ばれ、
目的とする音声区間の切り出しと同時に認識も行ってし
まうという画期的な方法である。本実施例では連続ＤＰ
法の各々のフレーム内における距離にマハラノビス距離
を用いる事により、不特定性を吸収している。

第２図（ｂ）は、“ゼロ　という単語の標準パタンと“
ゼロ”という単語を発声した時の入力音声を無声区間も
含めて特徴ベクトルの時系列に分析したものとを連続マ
ハラノビスＤＰによりマツチングした結果を示したもの
である。図中、黒が濃（出ている所は標準パタンと入力
パタンの距離が大きい所、黒が薄く、白に近い所は標準
パタンと入力パタンの距離が小さい所である。マツチン
グを行った結果の下には累積距離の時間変化を示す。こ
の累積距離はその時点が終端となるＤＰパスの距離を示
すもので、ＤＰパスを求めてその値をメモリに保存する
。このメモリに保存したＤＰパスを、音声区間の始端を
求める為につかう。例えばこの図においては距離が最小
となった時のＤＰパスを示したが、標準パタンと入力パ
タンが似ていた場合、累積距離が任意に定めた閾値より
小さ（なり、その標準パタンの単語を候補単語と認める
。そして、入力パタンから音声区間を切り出すために、
累積距離が闇値より小さく、更に最小である時点からＤ
Ｐパスをメモリから呼び出してバックトラックすること
により、音声区間の始端が求められる。こうして求めら
れた音声区間の特徴ベクトルの時系列をパラメータ格納
部１０５に格納する。

今まで説明してきた処理系により、まず候補単語と、そ
の音声区間を分析した特徴ベクトルの系列と、連続マハ
ラノビスＤＰによる累積距離の結果が得られる。ここで
、候補単語の中で“ンチ”と“シ”の様に音声区間が重
なっているものが複数選択された時、この場合“シチ”
の方を選択し“シ”は切り捨てる。　　ロク”と”り“
も同様に、“り”の音声区間の大部分が（ここでは８０
％以上とする）　ロク”に含まれている時は、“り”は
切り捨てて“ロク”のみについて検証を行う。

本実施例では音素標準パタン格納部１０６に母音（ａ；
　ｉ、ｕ、ｅ、ｏ）と子音（ｚ、ｓ、ｎ。

ｒＳｇ、ｍ）ｓｈ　ｉ、に、ｈ、ｃ　ｉ）につし１て音
素の標準パタンを作成しておく、作成方法は単語標準パ
タン格納部１０３と同様の方法であらかじめ作成してお
く。連続マハラノビスＤＰによる音素距離計算部１０７
ではパラメータ格納部１０５に格納されている候補単語
として切り出された音声区間について各音素とのマツチ
ングを行う。

連続マハラノビスＤＰによる単語距離計算部１０２と同
様に累積距離が最小となった位置からその音素の区間を
計算する。（候補単語判別部１０４と同様、累積距離が
最小となった時点をその音素の終端とし、始端は連続Ｄ
Ｐパスをバックトラックにより求める）本実施例では例えば“ゼロ”＃“ｚｅｒｏ“が候補単語
の場合その音声区間について“Ｚｅ”ｒ”　　０”の４
種類の音素についてのみマツチングを行う。４種の音素
と上記“ｚｅｒｏ”と判別され、候補となった音声区間
のマツチングの結果、各音素の累積距離が最小となる点
についてその位置関係と、最小距離の平均値を求めるこ
の様子を第２図（Ｃ）に示す。

各々の音素についてマツチングの結果の距離の最小値と
、その位置をフレームで表わし音素単位の認ぷ結果によ
る認識部１０８に送る。この例では“Ｚ”について最小
値は“Ｊ　１フレ一ム位置は“Ｚ、”である。音素単位
の認識結果による認識部１０８では、連続マハラノビス
ＤＰによる音素距離計算部１０７から送られてきたデー
タを基に最終的な単語の識別を行う。まず、候補単語の
音素列の順番（フレームの位置）がｚ、＜６．＜ｒ＋＜
Ｏ＋であるか否かを調べる。もしこの順番であれば認識
単語は“ゼロ　（ｚｅｒｏ）”平均Ｈよりも小さいなら
ば、認識結果として“ゼロを出力する。

第２図（ｄ）は単語候補の出力結果（候補単語判別部１
０４の出力結果）を示したものである。

■は単語“ハチ”、■は単語“シチ”、■は単語“ン”
が候補として出力される。が、ここで前に述べたように
■は■の区間に８０％以上含まれており、かつ同一のシ
”が■中に存在するので音素レベルでの識別は■■につ
いて行なう。

ケース■　単語Ｓ１の音素列“１ｈｌａｌｃ”と単語Ｓ
２の音素列“１ｓｈｌｉｃｌｉｌ”についてマツチングした結果、どちらも音素の順番が、候補単語と等しい場合、か
つ、個々の音素の距離がＨ（閾値）より小さい場合中平
均累積距離Ｘの小さい方、を出力する。

ケース■　どちらも順番が異なるが個々の音素の距離が
閾値（Ｈ）より小さい場合中単語と音素列の文字列によ
るＤＰマツチングを行い。その距離の閾値（１）により
決定する。

ケース■　順番が合っているか、個々の音素の閾値が（
Ｈ）をクリアしていない場合中リジェクトケース■　順番が異なり、音素の閾値もクリアしていな
い場合弁リジェクト音素単位の認識結果による単語の識別方法は前記の方法
に限らない。後に他の実施例でも述べるが音素の単位を
どの様な形で定義し、標準パタンを作成しておくか、或
は同一の音素でも複数用意する事によって音素判別に用
いる閾値Ｈの値、或は識別アルゴリズムは異なる。よっ
て、平均累積距離と音素順位のどちらを優先させるか等
の識別アルゴリズムは一意に決まらない。

）素中位の認忠結果による認識部１０８て最終結果とし
て出力した例えば音声（単語）を結果出力部１０９で出
力する。電話等の音声情報のみで認識さ−せる場合、認
識結果を「“ゼロ”ですね？」と、例えば音声合成手段
を用いて確認する。単語の識別の結果、距離が十分小さ
ければ認識結果を確認をせずに、それに対応した次の処
理へと移行する。

〔実施例２〕前記実施例１では、後半の音素単位の認識結果を、認識
対象とする単語に含まれる全ての音素について標準パタ
ンを作成しておいた。しかし、音素はその種類によって
は、周囲の音韻環境、話者等の相異により、変形も激し
い。よって同一の音素でもパタンの異なる音素はパタン
に応じ複数用意しておくと、より確度の高い認識結果が
得られる、例えば母音１１についてみると“イチ“ハチ
”シチ”に見られる様に話者によって無声化する事がか
なりある。音素レベルでの認識は候補となった単語と、
その音声区間において厳密に検定して結果を出さなけれ
ばならないので、母音ｆｉｌでも、有声の１１１、無声
化の１１それぞれについて、数種類の標準パタンを作っ
ておく、他の音素についても同様で、例えば１ｇなどバ
ス部が存在するものとしないものがある。

但しこれらの音素について標準パタンを作成する場合、
少なくとも１つの標準パタンを作成する為に、各フレー
ムの特徴ベクトルの次元数をｎとするとｎ２＋α個程度
の音声データを必要とする。

〔実施例３〕また、音素単位で識別する別の例として、音素の単位を
変えると更に良い結果となる。前記実施例１では、ｌａ
ｌ　　ｌｉｔ　　・・・　（ｍｎｌ　　ｌｒｌに示す様
に、音声の単位としてはかなり小さい母音、子音、を別
々に扱っていた。

実際、人間が発声する連続した単語音声はアナウンサー
等を別にして日常生活においては、個々の音素の特徴を
明確に発声している事は少ない。

データを見てもここがｌａｌでここが１ｍｌであると判
定出来る部分は時間的にもかなり短く、大部分は調音結
合部である。（調音結合部とは、例えば“イア”と発声
した場合“イ”の定常部がら“ア”の定常部に遷移する
（中途半端な）部分である。）よって、音素の単位を調音結合部を含むＶＣＶ型とし、
語頭に関してはＣＶを用いると、前記実施例１で述べた
複数候補の単語が出現した時も、順番が異なって来る場
合の割合が減少するため、最終出力単語の判別がしやす
い。（■・・・母音ＶｏｗｅｌＳＣ・・・子音Ｃｏｎ５
ｏｎａｎｔでｖＣｖは、母音−子音−母音、連鎖の事）
もちろん、ｖＣｖの標準パタンは、連続音声中から切り
出したサンプルから作成する。

［実施例４〕前記実施例では音素標準パタン格納部１０６に格納する
音素のパタンのマルチ化、音素単位の定義、方法につい
て述べた。

単語標準パタン格納部１０３についても同様の事が言え
る。しかし、単語標準パタンについては、厳密にパタン
をカテゴライズしようとするとパタンの数が多くなり過
ぎる場合がある。また、個々の単語について多数話者の
発声サンプルを集め、分析する事は容易でないので、こ
こでは、個々の単語の発声時間長によりカテゴライズを
行う。本認識システムの第１段階では、候補単語の中に
、目的とする単語が１００％入っている事が前提条件で
ある。本方式は基本的に時間伸縮マツチングを行ってい
るので、標準パタンから極端に外れた発声時間長の単語
だし、リジェクトされてしまう可能性が高いからである
。

よって、少なくとも認識装置に対し、協力的な話者が発
声する音声の時間長を調べ、その全時間長をカバーする
様、標準パタンをマルチ化する。

マルチ化する際、極端に長い発声のサンプルは得うレに
（いので、平均的な特徴ベクトルのフレーム数を第２図
（ｅ）に示す様に２倍、３倍に増やしても良い。

第２図（ｅ）では、音素ｌａ１ｍｌｕｌ　　”アム”を
単位とした基準パタンの発声時間長を２倍にした例を示
す。

発富時闇長を拡大する際、気をつけなければならない点
は、例えばｌｐｌ、Ｍｌ、ｌｋｌ等の破裂子音等を含む
場合である。この例に示す様に子音によっては発声時間
長が長くなっても、子音部の発声時間長はそれほど変わ
らない。よって、子音によって拡大の方法をテーブル等
により、個々に変える手段を持つと、簡易に正確かつ、
時間長の異なる標準パタンか作成できる。

実際に発声時間長の長い音声サンプルを集め、これらの
データから標準パタンを作成する方法がより良い標準パ
タンを作成できる。

第２図（ｆ）は、母音の１フレームを２倍、３倍、４倍
と重複させて標準パタン長を拡大した時、子音部のフレ
ームの重複倍率を示したテーブルである。第２図（ｇ）
に“ログの（母音の）倍率を“３倍”にした時の様子を
示す。

また、第１図の単語標準パタン格納部１０３は単語単位
に限らない。文節単位でも良いし、無意味音節の連鎖で
も良い。この場合単語標準パタン格納部１０３の単位を
（ＶＣＶ、ＶＣＶＣＶ、ｃｖ、ｖｖ、ｃｖｃｖ、　・−
・等）とし、音素標準パタン格納部１０６の単位（ＣＶ
、ＶＣ，Ｖ・・・等）にする事も可能である。

〔実施例５〕前記実施例１では、第１図に示す処理系基本構成の第２
部において第１部の出力として得た候補単語について更
に細かい音素単位（例えばＣ１Ｖ、ＣＶ、ｃｖｃＳｖｃ
ｖ等）で連続ＤＰ等のスポツティング処理を行い、結果
を出力する方法について述べた。しかし、本実施例にお
いては第１部の出力する候補単語を音素単位で認識する
方法として、スポツティング以外の方法を述べる。それ
は、複数の音声サンプルから得た音素標準パタンを候補
単語の音素系列に合わせて接続して作った単語と、音声
区間として切り出された入力音声の特徴ベクトルとのマ
ツチングを行うという方法である。この方法によっても
高い認識率が得られる。

本実施例における音素単位の認識処理系の基本構成を第
４図に示す。

第１図候補単語判別部１０．４において判別された候補
単語と音声区間として切り出された入力音声の特徴ベク
トルは以後第４図に示す構成において処理される。まず
、入力音声の特徴ベクトルはパラメータ格納部１０５に
、候補単語は標準パタン生成規則部１１０に送られる。

標準パタン生成規則部１１０では音素標準パタン格納部
１０６中の音素標準パタンを候補単語の音素系列に従っ
て接続し、これとパラメータ格納部１０５に格納してお
いた入力音声の特徴ベクトルのパタンマツチングをパタ
ンマツチング部１１１において行う。

パタンマツチングで得た音声の認識結果を結果出力部１
０９より出力する。

標準パタン生成規則部１１０の詳細な構成図を第５図に
示す。まず、第１部の結果として出力される候補単語の
音素系列と、音声区間として切り出された入力音声の特
徴ベクトルが出力される。

ここでは、例えば“ｔｏｋｕｓ　ｉｍａｓｉ　（徳島布
）”と入力した時に、候補単語として“ｔＯｋｕｓｉｍ
ａｓｉ　　　　ｆ　ｕｋｕｓ　ｉｍａｓ　１（福島布）
”　　”ｈｉｒｏｓｉｍａｓｉ　（広島布）”の３単語
が選出された場合の処理について述べる。まず、これら
の候補単語は標準パタン生成規則部１１０において、連
続音声認識に最適な音素に分割される。本実施例では、
語頭の音素とＣＶ（子音中母音）、語中、語尾の音素を
ＶＣＶ（母音半子音＋母音）としている。

次に、入力音声の特徴パラメータの長さを音素の数で割
り、１モーラ当たりの平均継続時間長を平均継続時間長
検出部１５２において求め、時間長の違い等により複数
種ある音素標準パタンの中から適した音素標準パタンを
選択する際に用いる。

第６図（ａ）は候補単語として出力された単語を音素分
割処理部１５０において音素記号列に分割した例である
。第６図（Ｃ）は各音素との標準パタンか格納されてい
るメモリのアドレスとの対応表である。音素位置ラベル
付加部１５１は候補単語の音素位置に対応させて複数の
音素標準パタンの中から選択するところであるが、アド
レスの表にを二り、−Ｄよ、Ｄ、］とすると、Ｄ１は音
素の種類、Ｄ２は音素標準パタンの時間長、Ｄ。

は音素標準パタンの複数の状況における種別であり、例
えば音素ｌａｌの標準パタンは、アドレス００１−１か
ら入っている。また、アドレス００１−１．１は、無声
化したｌａｌの標準パタンか入っている。１ａＳａ１の
ようなＶＣＶ型の音素は、アドレス９３１−１に入って
いる標準ものの他に、■ＣＶ全体が無声化した音（ＶＣ
Ｖ）が９３１−１．１に、ＶＣＶの中、ＣＶ音が無声化
した音（ＶＣＶ）が９３１−１．２に、ＶＣＶの中、Ｖ
Ｃ音が無声化した音（ＶＣＶ）が９３１−１．３に入っ
ている。また、これだけでなく１つの音素単位につき、
複数の標準パタンを持っている。

第６図（ｂ）は３つの候補単語の音素標準ノくタンの時
間長（Ｄ２）が１の時の音素を選択し、そのアドレスを
対応づけたものである。ここでは、「語頭・語尾は母音
部が無声化するパタンも含めて考える」という規則から
“ｔｏｋｕｓｉｍａｓｉ”という単語は、第６図（ｂ）
に示した音素のアドレスを使って第６図（ｄ）に示す４
通りのパタンの組み合わせができる。

ていないと接続できない。音素の標準パタンの種別、Ｄ
、により接続が可能な組み合わせを第６図（ｅ）に示す
。この第６図（ｅ）には、ある音素の標準パタンの時間
長Ｄ２と種別り、だけを示しである。例えば一番上の段
のｂ／ｂは、ある音素の標準パタンの、ある時間長（ｂ
＝とお（）であり有声であるもの、ｂ同志の接続を示す
。次の段のｂ／ｂ、２はある音素の標準パタンの、ある
時間長（＝ｂとおく）の有声であるものｂと、ある音素
の標準パタンの、ある時間長（ｂ−とおく）の前半が有
声音、後半が無声音のもの、ｂ、２との音素の前半が等
しければ良い訳だから、第６図（ｅ）にり、を示す必要
はなく、音素の標準パタンの時間長Ｄ２は１モ一ラ発声
時間長検出部１５２において１モーラ当たりの平均継続
時間長が求めであるので、これがｂとなり、その単語内
では一定である。

しかし、第６図（ｅ）に示したのは音素結合規則の一部
であり、他に音声を発声する際の音響的な音素結合規則
も多くある。第６図（ｄ）には、“ｔ　ｏｋｕ　ｓ　ｉ
ｍａ　ｓ　ｉ”の組み合わせのみを示したが、同様にし
て他の候補単語についても組み合わせを作成する。音素
標準パタンの組み合わせができたら、音素標準パタン接
続部１５３において音素標準パタンを接続し、単語標準
パタンを作成する。接続の方法は、直接接続、線形補間
等があるが、音素０．Ｐ、Ｑ、Ｒを接続する例を第５図
に示し、以下に説明する。

第７図の（ａ）は直接接続し、単語０ＰＱＲを生成する
例であり、（ｂ）は音素０．Ｐ、Ｑ、Ｒから補間部分と
して母音部分を数フレーム切り取ったものをＱ′、Ｐ′
、Ｑ′、Ｒ′とし、これの空白の部分を各次元のパラメ
ータの要素について線形補間しながら埋めていき、連続
した単語標準パタンを生成する例である。音素の補間方
法は、パラメータの性質によって適・不適があるので、
ここではパラメータに最適な補間法を用いる事にする。

最後に、音素標準パタン接続部１５３から出力された複
数の単語標準パタンと入力パタンをパタンマツチング部
１１１においてマツチングし、距離が最小となる単語を
結果出力部１０９より例えば音声として出力する。

パタンマツチング方式は、線形伸縮、ＤＰマツチング法
法要多数るが、ＤＰＰマツチング良い結果が得られる。

ここで、距離尺度はマハラノビス距離等を代表とする統
計的な距離尺度を用いる。

〔発明の効果〕

以上説明した様に、第１段階において単語単位で連続マ
ハラノビスＤＰによるワードスポツティングを行うこと
により、候補単語の選出と音声区間の切り出しを同時に
行うことが可能となる。

第２段階として音素単位でマツチングを行うことにより
、２段階で認識を行う為に高い認識率が得られる。

また、複数の環境下における標準パタンを単語単位では
な（音素単位にしているため、情報量が小さくしてすむ
という効果がある。

また第２段階においては候補単語に対応する音素のみを
マツチングする為、時間がかからなくてすむという効果
がある。

【図面の簡単な説明】

第１図は本発明の第１の実施例の処理系の基本構成図、第２図（ａ）は標準パタン作成の動作の流れを示すフロ
ーチャート、第２図（ｂ）は連続マハラノビスＤＰの様子を示す図、第２図（Ｃ）は音素マツチングの様子を示す図、第２図（ｄ）は複数の候補単語と入力信号との関係を示
す図、第２図（ｅ）は発声時間長を２倍にした標準パタンの様
子を示す図、第２図（ｆ）は発声時間長の倍率変化による音素に対応
した倍率を示す図、第２図（ｇ）は第１図（ｆ）の倍率に従って発声時間長
を３倍にした時の様子を示す図、第３図は従来の不特定
話者音声認識システムの構成図、第４図は本発明の第２の音素認識処理の構成図、第５図は標準パタン生成規則部の構成図、第６図（ａ）
は候補単語の音素分解の様子を示す図、第６図（ｂ）は候補単語の各音素の標準パタンのアドレ
スを示す図、第６図（Ｃ）は音素標準パタンの種類によるアドレス例
を示す図、第６図（ｄ）は生成された標準パタンの組み合わせを示
す図、第６図（ｅ）は接続可能な標準パタンの組み合わせ例を
示す図、第７図は補間方法を示す図である。図中、１は音声入力装置、２は音声分析部、３は音素境
界検出部、４は音素識別部、５は音素標準パタン格納部
、６は単語識別部、７は単語辞書、８は修正規則部、９
は認識結果表示部、１００は音声入力部、１０１は音声
分析部、１０２は連続マハラノビスＤＰによる距離計算
部、１０３は単語標準パタン格納部、１０４は候補単語
判別部、１０５はパラメータ格納部、１０６は音素標準
パタン格納部、１０７は連続マハラノビスＤＰによる距
離計算部、１０８は音素単位の認識結果による識別部、
１０９は結果出力部、１１０は標準パタン生成規則部、
１１１はパタンマツチング部、１５０は音素分割処理部
、１５１は音素ラベル付加部、１５２は１モ一ラ発声時
間長検出部、１５３は音素標準パタン接続部である。第１図処理系の基本構成「】エコ］＋０９第２図（ａ）標準パターンの作成フロー第２図（ｃ）音素マツチングの様子第２図（ｄ）複数の候補単語と入力信号との関係第２図（ｅ）発声時間長を２倍にした標準パタンの様子第２図（ｆ）発声時間長の倍率変化による音素に対応した倍率第２図
（９）発声時間長を３倍にした時の様子第４図本発明第二の音素認識処理の構成図第６図（ａ）候補単語の音素分解の様子第６図（ｂ）候補単語の各音素の標準パタンのアドレス第６図（ｄ）生成された標準パタンの組み合わせ第６図（ｅ）接続可能な標準パタンの組み合わせ例良−−−へへ−−レ（ａ）補間力 −Ｐ −Ｑ −Ｒ

Claims

【特許請求の範囲】

（１）入力音声を分析して特徴ベクトルの時系列を求め
る音声分析手段、複数の音声サンプルから得た単語標準パタンを格納する
単語標準パタン格納手段、前記入力音声特徴ベクトル時系列にスポツテイング法を用いることにより音声区間を検出し、前記
単語標準パタンの中から候補単語を選出する候補単語識
別手段、複数の音声サンプルから得た音素標準パタンを格納する
音素標準パタン格納手段、前記音声区間において前記入力音声の特徴ベクトルの時
系列と前記候補単語の前記音素標準パタンとのマッチン
グを行うことにより前記入力音声を認識する認識手段、前記認識手段により認識した結果を出力する出力手段を
有することを特徴とする音声認識装置。
（２）前記候補単語識別手段は更に統計的な距離尺度、
マハラノビス距離を用いて連続ＤＰを行い、ＤＰパスの
累積距離を計算する距離計算手段、前記ＤＰパスを記憶する記憶手段、前記累積距離が予め設定した閾値より小さく、かつ最小である時点を終端とする前記ＤＰパスを前
記記憶手段より呼び出し、該ＤＰパスの始端を求め、音声区間を認識する音声区間
認識手段を含むことを特徴とする請求項（１）に記載の
音声認識装置。
（３）前記入力音声とのマッチングは、前記候補単語に
対応する前記音素標準パタンを前記音声区間においてス
ポツテイング法を用いて行うことを特徴とする請求項（
１）に記載の音声認識装置。
（４）前記入力音声とのマッチングは、標準パタン生成
規則手段によって前記候補単語の音素列に従って前記音
素標準パタンを接続して生成した標準パタンと行うこと
を特徴とする請求項（１）に記載の音声認識装置。
（５）前記音素標準パタン格納手段に格納する音素の単
位は、ＣＶ（子音−母音）、ＶＣＶ（母音−子音−母音
）、ＶＶ（母音−母音）を用いることを特徴とする請求
項（１）に記載の音声認識装置。
（６）前記音素標準パタンは、話者、発声時間、発声環
境の要因による複数の標準パタンを持つことを特徴とす
る請求項（１）に記載の音声認識装置。