JPH03167600A

JPH03167600A - 音声認識装置

Info

Publication number: JPH03167600A
Application number: JP1306477A
Authority: JP
Inventors: Yoichi Takebayashi; 洋一竹林; Hiroyuki Tsuboi; 宏之坪井; Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-11-28
Filing date: 1989-11-28
Publication date: 1991-07-19
Anticipated expiration: 2015-01-31
Also published as: EP0430615B1; EP0430615A2; EP0430615A3; DE69026474T2; JP3004023B2; DE69026474D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は高騒音環境下における種々の雑音を伴った入力
音声や、単語音声等の前後に不本意な発声を伴った人力
音声を精度良く認識することのできる認識性能の高い音
声認識装置に関する。

（従来技術）従来より、単語や文節等を認識対象とした音声認識では
、その入力音声の始終端（音声区間を示す始端および終
端）を音声エネルギーの変化や音声ピッチの変化．或い
は零交差波等の簡単なパラメータ情報を用いて検出して
いる。そして検出された始終端点を基準として音声パタ
ーン（音声特徴ベクトル）を切り出し、この音声パター
ン（音声特徴ベクトル）と認識対象カテゴリについての
認識辞書とを照合して、前記入力音声が示す認識対象カ
テゴリを求めることで、人力音声を認識している。

このような入力音声の始終端検出（音声区間検出）によ
り、認識辞書との照合に用いる音声パターンを切り出す
処理は、音声パターンと音声認識辞書との照合処理に必
要とする演算量が非常に多大であり、その演算負担を軽
減すると共に、認識処理には直接寄与することのない冗
長な情報を省くことを目的としてなされる。

尚、入力音声の始終端検出（セグメンテーション）を行
い、その音声区間についての音声特徴ベクトルを抽出し
てパターン照合に供する手法は、動的計画法に基づ＜Ｄ
Ｐマッチング法によりパターン照合を行う場合や、ＨＭ
Ｍ　（Ｉｌｌｄｄｅｎ　ＭａｒｃｏｖＭｏｄｅｌ　）や
複合類似度法に基づくパターン照合を行う場合でも、従
来、一般的に採用されている。

ところが従来では音声エネルギーの変化等の簡単なパラ
メータにより音声区間検出を行っている。

この為、例えば高騒音環境下での入力音声を認識処理す
るような場合、ノイズ（周囲雉音）の悪影響を受けて、
人力音声に対する誤った始終端検出が行われることが多
々ある。また単語音声や文節音声の前後に「あ〜」　「
え〜」等の不本意な発声が伴うような場合にも始終端検
出が誤ってなされることが多々ある。これ故、人力音声
の始終端を如何にして高精度に検出するかが、音声認識
装置を実用化する上での大きな課題となっている。

一方、高騒音環境下における音声認識をロバストに、し
かも高精度に行うべく、従来のような入力音声に対する
始終端検出を行うことなく、その始終端点を非固定とし
たままで連続的にパターン照合を行うワードスポッティ
ング法が提唱されている。

このワードスポッティング法は、入力音声の始終端点が
或る区間のどこかに存在するものと仮定し、仮定された
複数の始端点および終端点の組み合わせ（音声区間候補
）毎に音声パターン（音声特徴ベクトル）を切り出して
認識辞書とのパターン照合を逐次的に行うものである。

これ故、従来のように予め音声区間を検出し、その音声
区間についての音声特徴ベクトルを抽出して認識辞書と
のパターン照合を行う手法に比較し、上記ワードスポッ
ティング法を用いた音声認識処理を行うには、膨大な回
数のパターン照合が必要となり、その処理時間も非常に
長くなると云う問題がある。

しかもワードスポッティング法によるパターン照合をリ
アルタイムに行う装置やＬＳＩを開発する際，所望とす
る性能を満足させる為にはそのハードウエアが大規模化
し、製作コストが増大することが否めない。このような
理由によりワードスポッティング法を導入する場合には
、・従来では専ら入力音声を分析して求められる音声特
徴パラメータの次数を低くしたり、音声特徴パラメータ
に対する時間方向のサンプル点を少なくする等してパタ
ーン照合に用いる音声特徴ベクトルの次元数を小さくす
ることが行われている。

然し乍ら、このようにして音声特徴ベクトルの次元数を
小さくすると、入力音声パターン（単語音声特徴ベクト
ル）の大局的特徴は表現できてもその微細な特徴構造を
表現することができなくなる。この結果、十分なる精度
でパターン照合を行うことができなくなり、誤った認識
結果が求められる要因となっている。

この点、前述した始終端検出（音声区間検出）により音
声特徴ベクトルを検出してパターン照合を行う手法によ
れば、パターン照合に必要な演算量が少ないので、その
音声特徴ベクトルの次元数を十分に高く設定して高精度
なパターン照合を行うことが可能である。しかし音声区
間の検出に誤まりが生じるとパターン照合に供される音
声特徴ベクトルが誤って求められると云う致命的な欠陥
がある。この為、音声区間検出に誤りが生じ易い高騒音
環境下での認識性能を高く保つことが非常に困難である
と云う問題があった。

（発明が解決しようとする課題）このように従来の音声認識装置では、高騒音環境下にお
ける人力音声からその音声始終端（音声区間）を精度良
く検出して認識辞書とのパターン照合に供する音声特徴
ベクトルを抽出することが非常に困難であると云う問題
があった。またワードスポッティングにより入力音声の
始終端を非固定のまま連続パターン照合により、入力音
声を認識処理するにしても、そのパターン照合に複合類
似度法等のパターン変形に強い強力な計算演算手法を導
入するには、そこでの計算量が非常に膨大化することか
ら、入力音声特徴ベクトルの次元数を低く抑えることが
必要となる。これ故、その認識率を高めることが非常に
困難であった。

本発明はこのような事情を考慮して′なされたもので、
その目的とするところは、高騒音環境下における人力音
声や、音声入力の際の問題となる「あ〜」　「え〜」等
の不用意な発声を伴う人力音声に対する認識性能（特に
不要語に対するリジェクト性能）を十分に高めることの
できる音声認識装置を提供することにある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識装置は、基本的には■　入力音声
を分析して求められる音声特徴パラメータの時系列から
、始終端検出を行うことなく次元数を小さく設定した入
力音声の全体的な大まかな特徴を示す第１の音声特徴ベ
クトルの時系列を求め、この第１の音声特徴ベクトルの
時系列と認識対象カテゴリについての第１の認識辞書と
を連続的に照合してその類似度値の時系列を求める第１
の音声認識手段と、 ■　前記音声特徴パラメータの時系列から検出される前
記人力音声の始終端に従って前記音声特徴パラメータの
時系列から次元数の高い前記入力音声の詳細な特徴を示
す第２の音声特徴ベクトルを抽出し、この第２の音声特
徴ベクトルと前記認識対象カテゴリについての第２の認
識辞書とを照合してその類似度値を求める第２の音声認
識手段と、■　前記第１の音声認識手段により求められ
た第１の類似度値の時系列と前記第２の音声認識手段に
より求められた第２の類似度値とに基づいて前記入力音
声に対する認識結果を求める手段とを具備したことを特
徴とするものである。

即ち、低次元の音声特徴ベクトルの時系列を用いてワー
ドスポッティングによる連続パターン照合により入力音
声の大まかな特徴に従う認識処理結果を求めると共に、
この連続パターン照合結果から求められる人力音声の始
終端情報に従って、人力音声区間の高次元の特徴ベクト
ルを用いて人力音声の詳細な特徴に従う認識処理結果を
求め、これらの認識結果を総合判定して人力音声に対す
る高精度な認識結果を求めるようにしたことを特徴とし
ている。

（作　用）本発明によれば、入力音声の全体的な大まかな特徴を示
す比較的次元数の少ない第１の音声特徴ベクトルの時系
列を用いることで、膨大なパターン照合回数を要するワ
ードスポッティングによる連続パターン照合の濱算量の
負荷を軽減して、音声区間検出を予め行うことなく入力
音声の大まかな特徴に基づく音声認識処理を行い、また
人力音声の詳細な特徴を表わす次元数の高い第２の単語
音声特徴ベクトルを音声区間（始終端）決定の後に抽出
して、詳細なパターン照合が行われる。

そしてこれらの各認識処理による認識結果を総合判定し
てその最終的な認識結果を求めるので、認識処理に要す
る演算量をさほど増加させずに、しかも音声の始終端の
検出能力に左右されることなく、例えば高騒音環境下に
おいても認識性能の高い音声認識処理を高速に実行する
ことが可能となる。つまり騒音や不明瞭な発声，不用意
な発声を伴う等の人力音声パターンの変形に対して、高
速に認識処理を実行してその認識結果を高い，認識率で
求めることを可能とする、信頼性の高い実用的な音声認
識装置を実現することが可能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認識
装置について説明する。

第１図は実施例装置の全体的な概略構成図で、ｌはマイ
クロホン等を介して入力される音声信号をディジタル信
号に変換して音声分析部２に与える音声人力部である。

この音声入力部１は、例えば第２図に例示するように人
力音声信号に含まれる３．６ＫＨｚ以上の高周波雑音成
分を除去するローバスフィルタ（ＬＰＦ）ｌａと、この
Ｌ　Ｐ　Ｆ　ｌａを介して取り込まれた人力音声（アナ
ログ信号）を、例えば標本化周波数；　８　ＫＨｚ　，
量子化ビット数；　１　２ｂｉｔｓでディジタル信号に
変換するＡ／Ｄ変換器１ｂと、このＡ／Ｄ変換器１ｂが
出力するディジタル信号処理に対して、例えば２　４　
ｍｓｅｃのハミング窓を設定してエンファシス処理を施
すプリエンファシス回路１ｃとにより構戊される。

尚、上述した入力音声のディジタル化処理については、
例えば１２ＫＨｚの標本化周波数にて量子化ビット数が
１６ｂｉｔｓのディジタル信号を求めるようにしても良
く、その仕様は入力音声に対して要求される認識性能等
に応じて定められる。

このような音声人力部ｌを介して入力された音声データ
を分析する音声分析部２は、基本的にはＦＦＴ分析やＬ
ＰＧ分析，スペクトラム分析，フィルタ分析等の手法を
用いて、例えば８　ｍｓｅｃ毎にその特徴パラメータを
求めるものである。このようにして音声分析部２にて求
められる特徴パラメータの時系列が後述する認識処理部
３における認識処理に用いられる。

しかして音声分析部２は、ここでは認識処理部３で用い
られる２種類の音声特徴パラメータを前記人力音声から
抽出する為の第１の分析部４と第２の分析部５とを備え
て構成されている。この第１の分析部４は、演算量が膨
大な始終端非固定による連続パターン照合処理に用いる
為の次元数の低い（周波数分解能の悪い）第１の特徴パ
ラメータを抽出する為のものである。また第２の分析部
５は、音声区間の詳細な特徴を利用したパターン照合処
理に用いる為の次元数の高い（周波数分解能の高い）第
２の音声特徴パラメータを抽出する為のものである。

これらの第１および第２の分析部４，５は、例えばフィ
ルタ分析によりその特徴パラメータを求める場合には、
第２図に例示するように８チャネルまたは１６チャネル
のバンドバスフィルタ（Ｂ　Ｐ　Ｆ）　４ａ，　５ａの
出力に対して、スクエア処理４ｂ，　５ｂ，スムージン
グ処理４ｃ，　５ｃ，対数圧縮化処理４ｄ，　５ｄを施
すことにより、８次元の第１の音声特徴パラメータと１
６次元の第２の音声特徴パラメータを求める如く構成さ
れる。

尚、ＦＦＴ分析（高速フーリエ変換による周波数分析）
により上記第１および第２の音声特徴パラメータをそれ
ぞれ求めるような場合には、第３図にその処理概念を模
式的に示すように、例えばＤＦＴ分析処理により１２Ｋ
ＩＩｚのサンプリング周期で２５６点の離散的フーリエ
変換を施し、１２８点の分解能を有する周波数スペクト
ル（ＤＦＴスペクトル）Ｘｋを求める。そしてこの周波
数スぺクトルＸｋのパワーＩＸｋｌ２を周波数方向に平
滑化し、周波数方向を８個または１６個に分割した８チ
ャネル（次元）または１６チャネル（次元）のフィルタ
バンク相当出力Ｚ　ｉ（１−１．２，〜８またはｉ−１
．２．〜１６）をそれぞれ求める。

具体的には、８チャネルのフィルタバンク相当出力Ｚ　
ｉ（ｉ−１．２，〜６）を求める場合には、１０として周波数方向に平滑化処理を施す。これらのフィル
タバンク相当出力Ｚ　Ｉ（１−１．２．〜６）を対数化
することにより、Ｇｉ　　−１０　　１ｏｇＺｉ　　　　　（１−１．２
．　　〜８　　）として８次元の第１の音声特徴パラメ
ータが求められる。

同様にして前述した周波数分解能の高い１６チャネルの
フィルタバンク相当出力Ｚ　Ｉ（＋−１．２．〜１Ｂ）
についても、前述した周波数スペクトルのバワーＸｋｌ
２を周波数方向に平滑化し、これを対数化することによ
り求められる。

尚、このようにして同じ周波数スペクトル（ＤＦＴスペ
クトル）から次元数を異にする第１および第２の音声特
徴パラメータを求めることは、その演算量の点で非常に
効率的であるが、全く別個のＦＦＴ分析処理にて第１お
よび第２の音声特徴パラメータをそれぞれ求めるように
しても良いことは云うまでもない。更には、ＬＰＧ分析
やケプスドラム分析により第１および第２の音声特徴パ
ラメータを求める場合にも同様に実施することができる
。

即ち、この音声分析部２では、後述する認識処理部３で
の、演算量が膨大な始終端非固定による連続パターン照
合処理に用いる為の第１の特徴パラメータとして次元数
の低い（周波数分解能の悪い）特徴パラメータを抽出し
、また認識処理部３での、音声区間の詳細な特徴を利用
したパターン照合処理に用いる為の第２の音声特徴パラ
メータとして次元数の高い（周波数分解能の高い）音声
特徴パラメータを抽出するものとなっている。

尚、このようにして第１および第２の音声特徴パラメー
タをそれぞれ求める為に必要な演算量は、後述する認識
処理部３でのパターン照合に必要な演算量に比較して遥
かに少ないものである。従って上述した如く２種類の音
声特徴パラメータを求めることは、装置全体にとってさ
ほど負担となることはない。

さて上述した如く求められた第１および第２の音声特徴
パラメータを用いて前記入力音声を認識処理する認識処
理部３は、第１の特徴パラメータを用いて始終端非固定
のまま連続的にて認識辞書６との間でパターン照合を行
う第１の音声認識手段と、第２の音声特徴パラメータを
用いてバターン照合する際の入力音声の始終端を検出し
、検出された始終端間の音声特徴ベクトルを求めて前記
認識辞書６との間でパターン照合を行う第２の音声認識
手段とを備えて構成される。

具体的には、第１の音声認識手段は、第１の特徴パラメ
ータの時系列を入力し、入力音声に苅する始終端非固定
のまま、例えば周波数方向に８次元，時間軸方向に１２
次元の音声特徴ベクトルの時系列を抽出して時間的に連
続して、前記認識辞書６に登録されている認識対象カテ
ゴリについての第１の認識辞書との間で連続的にパター
ン照合を行う連続パターン照合部７により構成されてい
る。

この連続パターン照合部７におけるワードスポッティン
グによる連続パターン照合は、基本的には第４図に例示
するように入力音声の特徴パラメータの系列から、その
特徴パラメータを求めた各サンプル・タイミング（分析
フレーム）を仮に設定される終端点とし、その終端点を
基準として或る音声区間条件を満たす複数の始端点を仮
設定する。そしてこれらの始終端点間で示される仮の音
声区間の特徴パラメータの系列を時間軸方向にリサンプ
ル処理し、音声区間を異にする所定の次元数の特徴ベク
トルを前記終端点を基準としてそれぞれ求める。このよ
うにして終端点を基準として求められる所定の次元数の
複数の特徴ベクトルを、前記終端点を時間軸方向にシフ
トしながら順次連続的に抽出し、これらの各特徴ベクト
ルと認識辞杏６との類似度をそれぞれ求めていく。

尚、この特徴ベクトルと認識辞書６との類似度を求める
演算処理は、例えば複合類似度演算の手法を用いる等し
て行われる。

しかして各特徴ベクトルについて求められた類似度値を
、例えば第５図に示すように相互に比較し、最大類似度
を得た認識対象カテゴリと、その音声区間の情報（最大
類似度値を得た特徴ベクトルの始終端の情報）を前記入
力音声に対する認識結果として求めるものである。

このようなワードスポッティングによる音声認識処理に
よれば、始終端の検出誤りに起因する前述した問題がな
くなるので、その分、認識性能を高めることが可能とな
る。しかし時間的に連続して人力音声の特徴ベクトルを
時系列に抽出し、これらの特徴ベクトルを時系列と認識
辞書との類似度を逐次計算することが必要となる。これ
故、その演算処理量が非常に膨大化することから、上記
特徴ベクトルの次元数をある程度低く抑えて、その計算
処理負担を軽減することが必要となる等の配慮が必要と
なる。そしてこのように特徴ベクトルの次元数を低くす
ると、この特徴ベクトルによって示される人力音声の特
徴はその全体に亘る大局的なものとなることが否めない
。従って、入力音声の詳細な特徴に従って、その人力音
声を高精度に認識する上で問題がある。

このような不具合を効果的に補うべく、認識処理部３で
は前述した第２の音声認識手段にて前記第２の音声特徴
パラメータから人力音声の詳細な特徴を表現し得る高次
元の特徴ベクトルを抽出し、この特徴ベクトルを用いて
認識辞書６との間でパターン照合を行うものとなってい
る。

即ち、始終端検出部８は、ここでは前記連続パターン照
合部７にて求められた人力音声の始終端情報に従って人
力音声に対する始終端を検出している。つまり連続パタ
ーン照合部７におけるワードスポッティングによる連続
パターン照合は、人力音声の始終端非固定のまま時間的
に連続してパターン照合を行い、人力音声の大局的な特
徴から認識候補を求めている。このようにして求められ
る認識候袖に着目すれば、その認識候補を得た第１の特
徴ベクトルの始終端は、人力音声の大局的な特徴から求
められる音声区間を示していると云える。始終端検出部
８はこのような観点に立脚して、前記連続パターン照合
部７によるパターン照合結果に基づいて入力音声の始終
端情報を求めている。

尚、この始終端検出については、入力音声のエネルギー
変化を調べて、或いは連続ＤＰマッチング処理等の手法
を用いることで、上述したワードスポッティングによる
連続パターン照合とは独立に行うことも可能である。

しかして単語特徴ベクトル抽出部９は上記始終端検出部
８にて検出された人力音声の始終端情報に従い、前記音
声分析部２の第２の分析部５にて求められた周波数方向
に次元数の高い第２の特徴パラメータから、当該始終端
情報により示される音声区間の特徴パラメータをリサン
プル抽出し、例えば第３図に示すように周波数方向に１
６次元，時間軸方向に１６次元の音声特徴ベクトルを求
める。このようにして求められる高次元数の第２の音声
特徴ベクトルがパターン照合部１０に与えられて認識辞
書６に登録されている認識対象カテゴリについての第２
の認識辞書との間でのパターン照合に供される。

このパターン照合部１０における第２の音声特徴ベクト
ルに対するパターン照合は、例えば前述した連続パター
ン照合部７におけるパターン照合と同様に複合類似度法
を用いて行われるが、ＨＭＭ照合，ＤＰ照合等の手法を
用いて行うこともｎＪ能である。

つまりこのパターン照合部ｌＯでは、始終端検出？果に
従って前記第２の音声特徴パラメータの時系列から抽出
される音声区間についての、入力音声の詳細な特徴を表
している高次元の第２の音声特徴ベクトルを用いて認識
辞書８とのパターン照合を行い、その類似度値から前記
入力音声に対する認識候補を求めるものとなっている。

この認識候補は、類似度値の高い幾つかの認識対象カテ
ゴリ名を求めることによってなされる。

このようにして認識処理部３では、低次元の特徴ベクト
ルの時系列を用い、第１の音声認識手段により入力単語
音声αについての始端点ｔ．．と終端点ｔ．■およびそ
の類似度Ｓ１■を求めている。

そしてこの第１の音声認識手段で求められた始端点ｔ　
ａｌｌと終端点ｔ．，とに従って高次元の第２の特徴ベ
クトルを抽出し、第２の音声認識手段により前記人力単
語音声αについての類似度Ｓ１２を求めている。つまり
始終端非固定の連続パターン照合による第１の認識処理
を核として、第２の認識処理により始終端検出後の特徴
ベクトルを用いた詳細なパターン照合を行うものとなっ
ている。

しかしてこのような認識処理部３で求められた認識結果
を総合判定して、前記入力音声に対する最終的な認識結
果を求める認識結果処理部１１は次のように構成されて
いる。即ち、この認識結果処理部ｌ１は第１図のブロッ
ク内に示すように、前記認識処理部３の連続パターン照
合部７　（第１の音声認識手段）にて求められた認識候
補に対する処理を行う第１の結果処理部１２と、前記認
識処理部３のパターン照合部１０（第２の音声認識手段
）にて求められた認識候補に対する処理を行う第２の結
果処理部｛３、そしてこれらの第１および第２の結果処
理部１２．１３にてそれぞれ求められた認識俟補に対す
る処理結果を総合判定して最終的な認識結果を求める統
合処理部ｌ４を備えて構成される。

このような認識結果処理部１１（統合処理部１４）にて
求められた最終的な認識結果が、認識結果出力部１５を
介して出，力され、所定の情報処理装置に与えられたり
、音声入力者に提示出力される。

次に認識結果処理部１１における前述した第１および第
２の音声認識手段による認識結果（認識候？）に対する
総合判定処理について説明する。

今、前記認識処理部３の連続パターン照合部７（第１の
音声認識手段）にて高い類似度値を得た上位３位の認識
対象カテゴリＣ　ｌ．ｃ　２．Ｃ　３が求められると、
第１の結果処理部ｌ２にはその認識対象カテゴリＣ１．
Ｃ２，Ｃ３のカテゴリ名と共に、これを得た類似度値Ｓ
　Ｃｌ＋　　Ｓ　Ｃ２＋　　Ｓ　Ｃ３がそれぞれ与えら
れる。この際、これらの類似度値”’ＣＩ＋　　ＳＣ２
＋ＳＣ３を得た第１の特徴ベクトルの始終端情報が第２
の音声認識手段に与えられ、第２の特徴ベクトル抽出処
理に利用される。

しかして第２の音声認識手段では上述した如く求められ
た認識対象カテゴリＣ　１．Ｃ　２，Ｃ　３についての
第２の特徴ベクトルを用いた詳細な特徴に基づくパター
ン照合により、その類似度値をＳ　’Ｃ　Ｉ　＋Ｓ′ｃ
■ｒｓ’ｃ３としてそれぞれ求めている。

認識結果処理部１１では、最も単純に上述した認識結果
に対する統合処理を行う場合には、上記第１および第２
の音声認識手段によりそれぞれ求められた認識対象カテ
ゴリＣｌ．Ｃ２，Ｃ３についての第１の類似度値Ｓ　Ｃ
ｌ＋　　Ｓ　Ｃ２＊　　ＳＣ３と第２の類似度値Ｓ　Ｃ
＋＋　　Ｓ　’Ｃ２＋　　Ｓ　’Ｃ３とを単純加算し、
ＳＴＣＩ　−　Ｓｃ＋＋　Ｓ’ｃ＋　　　（　ｉ　＝１
．２，３　）として類似度値の統合を行っている。そし
てこのようにして統合された前記各認識対象カテゴリＣ
Ｉ．Ｃ２．Ｃ３についての類似度値ＳＴＣＩ　＋　　Ｓ
ＴＣ２　＋Ｓ　ＴＣ３を相互に比較判定し、最も類似度
値の高い認識対象カテゴリを前記人力音声に対する最終
的な認識結果として求めている。

尚、第１および第２の音声認識手段によりそれぞれ求め
られた或る認識対象カテゴリについての類似度値を単純
に加算することに変えて、例えばＳＴＣＩ　　−ＷＳ（
＋＋（１−ｗ）　　Ｓ’ｃ＋　　（　ｊ　−４，２．３
　）のように所定の重み係数Ｗを用いて加重平均的に統
合された類似度値ＳＴＣＩを求めるようにすることも可
能である。この場合には、例えば［ｗ　−０．２］程度
に設定することにより、入力音声の詳細な特徴を表現し
た第２の特徴ベクトルを用いたパターン照合結果（類似
度値）に対する重み付けを高める等の配慮を施すことが
好ましい。

更には第２の特徴ベクトルに基づくパターン照合により
求められた認識対象カテゴリＣ　１．Ｃ　２．Ｃ３につ
いての第２の類似度値Ｓ　Ｃｌ＋　　Ｓ　’Ｃ２＊　　
Ｓ　’Ｃ３間の差を求め、第１位と第２位との差が大き
い場合には、第１の類似度値Ｓ。ｌ＋　　ｓｃ２．　　
ｓｃ３に拘りなく、第２の類似度値Ｓ　’ＣＩ＋　　Ｓ
　′ｃ２＋　　Ｓ　’Ｃ３だけに基づいて最終的な認識
結果を決定するようにしても良い。この場合には上記類
似度値の差が小さい場合にだけ、第１の類似度値Ｓ　Ｃ
＋＋　　Ｓ　Ｃ２＋　　Ｓ　Ｃ３を参照しながらその最
終的な認識結果の判定処理を行うことになる。

この他にも、例えば類似度値を確率的な尺度に変換して
認識結果を総合判定することも可能であり、第１および
第２の類似度値の分布を統計的に調べて最終的な認識結
果を判定するようにすることも可能である。

このような第１および第２の音声認識手段によりそれぞ
れ求められる認識結果の、上述した認識結果処理部１１
での統合処理により、前記人力音声に対する最終的な認
識結果が求められる。

第６図はこのように構成された実施例装置における全体
的な処理手続きの流れを示している。この図に示される
ように実施例装置では、音声分析部２にて求められた周
波数方向に次元数の低い第１の特徴パラメータの時系列
から次元数の低い特徴ベクトルを求めて始終端非固定に
よる連続パターン照合処理を実行し（ステップＡ）、こ
の連続パターン照合により求められる第１の類似度の時
系列から類似度値の高い単語候補（認識対象カテゴリ）
とその始終端候補を求める（ステップＢ）。

しかる後、上述した連続パターン照合による第１の音声
認識処理にて求められる始終端候補に従って音声区間を
切り出し、その音声区間についての次元数の高い第２の
特徴ベクトルを求め（ステップＣ）、この第２の特徴ベ
クトルについてパターン照合処理を実行して第２の類似
度値を求める（ステップＤ）。

その後、これらの第１および第２の類似度値を総合的に
判断することで前記入力音声に対する最終的な認識結果
を求めるものとなっている（ステップＥ）。

この処理手続きに示されるように、実施例装置では人力
音声を分析して求められる低次元数の第１の特徴パラメ
ータから始終端非固定で時間的に連続して求められる低
次元数の第１の特徴ベクトルを用いて連続パターン照合
を実行することで、人力音声の大略的な特徴に基づく認
識結果を求め、その認識結果を得た第１の特徴ベクトル
によって示される始終端情報に従って切り出される音声
区間についての、前記人力音声を分析して求められる高
次元数の第２の特徴パラメータから抽出される高次元数
の第２の特徴ベクトルを用いたパターン照合により、人
力音声の詳細な特徴に基づく認識結果を求めるものとな
っている。

そしてこれらの認識結果を総合判定して前記入力音声に
対する最終的な認識結果を求めるので、仮に人力音声が
高騒音環境下で求められたものであって、雑音に埋もれ
ているような場合であっても、連続パターン照合により
入力音声の大略的な特徴から雑音に左右されることのな
い第１の認識結果を求め、その上で、この第１の認識結
果に伴って検出される音声区間の情報に従って人力音声
の詳細な特徴に基づく認識処理が行われるので、その認
識性能を飛躍的に高めることが可能となる。

つまり第７図（ａ）に示すような人力音声パターンが雑
音に埋もれて第７図（ｂ）に示すような音声パターンと
して与えられるような場合であっても、その雑音成分の
影響を受けることなしに、その入力音声を性能良く認識
することが可能となる。

尚、上述したようにして人力音声を認識処理するに際し
ては、例えば第８図に示すように第１の音声認識手段に
より求められた認識対象カテゴリについての類似度値が
所定の閾値θｌ以上で、且つ最大類似度値Ｓ　ｍａｘと
の類似度値差がＪθｌ以下のものだけを認識候補として
求め、上記条件を満たす認識候補が得られなかった場合
には、これを認識リジエクトする。

そして第１の音声認識手段にて上記条件を満たす認：Ｊ
４候補が得られた場合にのみ、その認識候補について第
２の音声認識手段にて第２の音声特徴ベクトルに従う詳
細なパターン照合を行い、この第２の音声認識手段によ
り求められた類似度値が所定の閾値０２以上で、且つそ
の最大類似度値Ｓ　ｗａｘとの類似度値差がＪθ２以下
のものだけを認識候補として求めるようにしても良い。

このようにすれば不要話に対するリジエクト性能の向上
が図られるので、音声認識の実用化に大きく貢献できる
。

また第１の音声認識手段（連続パターン照合）により求
められる始終端情報に従って第２の音声特徴パラメータ
からその特徴ベクトルを抽出するに際しては、必ずしも
その始終端情報が人力音声の始終端を正確に示している
とは限らない。従って、例えば上記第１の音声認識手段
（連続パターン照合）により求められた始終端の前後数
点を始終端候補としてそれぞれ求め、これらの各始終端
候補により示される音声区間の第２の音声特徴ベクトル
を求めて詳細なパターン照合を行うようにすれば良い。

また或いはある認識対象カテゴリの類似度を大きくする
上位複数の始終端候補を求め、これらの各始終端候補に
より示される音声区間の第２の音声特徴ベクトルを求め
て詳細なパターン照合を行うようにしても良い。

また実施例では、第１および第２の音声認識処理をそれ
ぞれ１種類の特徴ベクトルを用いて行うものとしたが、
周波数方向および時間方向に次元数の異なる複数種類の
特徴ベクトルをそれぞれ用いて上述した第１および第２
の音声認識処理をそれぞれ実行することも可能である。

このようにすれば計算処理負担が増えるものの、その認
識性能を更に高めることが可能となる。その他、パター
ン照合の手法や、パターン照合に用いる音声特徴ベクト
ルの次元数等については、その要旨を逸脱しない範囲で
種々変形して実施することができる。

次に上述した音声認識処理に用いられる認識辞書６の学
習について説明する。

第９図は認識辞書６に対する辞書学習部の概略構成を示
す図である。この辞書学習部は、雑音のないクリーンな
環境下で収集された種々の認識対象カテゴリについての
音声パターンを学習用音声データとして蓄積した音声デ
ータファイル２ｌと、種々の雑音データを収集した学習
用雑音データファイル２２を備えている。この学習用雑
音データファイル２２に収集される雑音データは、例え
ば街頭や駅構内等の、所謂雑音環境下で収集された雑多
な音情報を含むデータからなる。

音声データ合底部２３は、学習対象とする認識対象カテ
ゴリの音声データを前記学習用音声データファイル２ｌ
から読み出し、これに前記学習用雑音データファイル２
２から求められる雑音データを重畳させて上記音声デー
タに人工的なパターン変形を加えるものである。このパ
ターン変形の度合いは、例えば音声データに混入する雑
音データのレベルを可変する等して調節される。このよ
うして雑音データが加えられた音声データが前記音声分
析部２に与えられて第１および第２の音声特徴パラメー
タが求められる。

前述した認識処理部３における連続パターン照合部７は
、このようにして入力される学習用の音声データについ
て、上記第１の特徴パラメータから第１の特徴ベクトル
の時系列を求め、同様にして連続パターンマッチング処
理を実行して第１の類似度の時系列を求める。

尚、この場合には学習対象とするカテゴリが予め判って
いることから、その認識対象カテゴリについての認識辞
書パターンとの間でだけパターン照合を行っても良い。

或いは類似カテゴリとの識別性を高めるような認識辞書
の学習効果も期待する場合には、これらの類似カテゴリ
についての辞書パターンとの間でもパターン照合を行う
ことが望ましい。また類似カテゴリ（誤認識される虞れ
のあるカテゴリ）が不明な場合には、認識モードの場合
と同様に、全ての認識対象カテゴリの辞書パターンとの
間でパターン照合するようにすることも勿論可能である
。

しかして学習用特徴ベクトル抽出部２４は、認識処理部
３　（連続パターン照合部７）にて前記学習用音声デー
タについて求められた類似度の時系列に基づいて、例え
ば学習対象カテゴリの辞書に対する最大類似度値１１ａ
ＸＳ＋１を基準とし、この最大類似度１８ＸＳ＋１との
差が所定の閾値θ以下の類似度Ｓ．となっている第１の
特徴ベクトルについての始端点ｔ．および終端点ｔ．を
それぞれ求める。

そしてその第１の特徴ベクトルＸ．と始端点ｔｅｌ終端
点ｔ．．およびこの第１の特徴ベクトルＸを抽出する根
拠となった類似度値Ｓ．を、学習用音声特徴ベクトルの
抽出候補として求める。

しかる後、学習用音声特徴ベクトル抽出部２４は、例え
ば上記学習対象とするカテゴリの音声データについての
始終端に関する情報を用いて、上記抽出候補として与え
られた特徴ベクトルについての始終端に関して検定する
。そしてこの検定に合格した始終端候補に従って前記音
声分析部２で求められた第１および第２の音声特徴パラ
メータからその音声区間についての第１および第２の音
声特徴ベクトルを第１１図に示すようにそれぞれ求める
。認識辞書作成部２５は、このようにして求められる第
１および第２の音声特徴ベクトルに従って認識辞書を作
威し、前記音声認識辞書６に格納されている認識辞書パ
ターンを学習更新する。

この認識辞書の学習について説明すると、例えば複合類
似度法による場合には、抽出された学習用音声特徴ベク
トルＸ．を用いて辞書パターンの共分散行列を更新し、
しかる後、この共分散行列をＫＬ展開してその固有値λ
と固有ベクトルφを求め、この固有値λと固有ベクトル
φを認識辞書として更新登録することにより行われる。

第１０図はこのような認識辞書６の学習処理手続きの流
れを示す図である。

この学習処理は、先ず音声データに対する雑音データの
割合（Ｓ／Ｎ）を設定し（ステップａ）、設定されたＳ
／Ｈに従って学習対象とするカテゴリの音声データに所
定の雑音データを加えて人工的なパターン変形を与え（
ステップｂ）、これを学習用の音声データとすることか
ら行われる。このようにして作成される学習データを分
析して第１および第２の音声特徴パラメータをそれぞれ
求め、次元数の低い第１の音声特徴パラメータから求め
られる第１の音声特徴ベクトルの時系列について、認識
辞書に予め登録されている辞書パターンを参照してワー
ドスポッティング法に基づく連続パターン照合処理を実
行し、その類似度の時系列を求める（ステップＣ）。

しかる後、この類似度の時系列に従い、例えば学習対象
カテゴリの辞書との最大類似度値Ｓ　ｗａｘとの差が所
定の閾値θ以内の類似度値をとる特徴ベクトルの始端点
と終端点とをそれぞれ人力音声データに対する始端候補
および終端候補として求める。この処理においては上述
した閾値θの設定にもよるが、必ずしも１つの特徴ベク
トルに対する始端候補および終端候補だけが抽出される
と云う保証はなく、一般的には複数組の始端候補および
終端候補が求められる。

ちなみに本発明者等が先に提唱した、例えば特願平１−
５７９７８号における特徴ベクトルの抽出処理は、上述
した連続パターン照合によって求められる類似度の時系
列中の、学習対象カテゴリについての最大類似度値Ｓ　
ｗａｘに着目して学習用の音声特徴ベクトルの抽出を行
っている。

これに対してここでは、例えば上述した類似度の時系列
から求められる複数の特徴ベクトルの始端点と終端点を
それぞれ始端候補および終端候補とし、学習対象とする
音声データについて予め求められている始端点と終端点
の情報に従って上記始端候補および終端候補を絞り込み
処理し、最も信頼性の高い始端候補および終端候補を求
める。

即ち、連続パターン照合によって求められた類似度の時
系列に基づいて求められた数組の始端候補および終端候
補はそれぞれその音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合しているか否かの検定を行い、始端候補
および終端候補の絞り込みを行う。具体的には、始端候
補および終端候補により示される音声区間が音声データ
の最小継続時間以上で、且つ最大継続時間以内であるか
の検定を行う。

また求められた音声区間に対する音声データの最大・最
小継続時間による検定については、類似度の時系列を求
める際の始終端非固定の連続パターン照合時、つまりワ
ードスポッティング時に行うようにしても良い。つまり
ワードスポッティングを行う際、その音声区間が最大継
続時間以下で、最小継続時間以上となるような始終端に
ついてのみその類似度演算を行うようにしても良い。こ
のようにすれば上述した学習用音声特徴ベクトルの抽出
処理を行う際での音声区間幅のずれに対する検定を省略
することが可能となる。

しかしてこのような音声区間に対する検定を行った後、
次に上記始端候補および終端候浦が標準的な始端点およ
び終端点に対して所定のずれ幅以内に収まっているかの
検定を行い、その始端候補および終端候補の絞り込みを
行う。

このような検定処理により、前述した如く求められた始
終端候補が上述した継続時間幅の条件に適合するか否か
を調べ、この条件に該当しない始終端候補を特徴ベクト
ルの抽出対象から除外する。

また始終端のずれに対する検定により、その始終端が許
容ずれ範囲内に収まっているか否かを調べ、これによっ
てその条件に適合しない始終端候補を特徴ベクトルの抽
出対象から除外する。

このような始終端に関する検定により始終端候補を絞り
込むことで、真に信頼性の高い［ｉだけが残されること
になる。

しかる後、その信頼性の高い、最大類似度を得る区間の
始終端の情報に従い、前述した第１および第２の音声特
徴パラメータからその音声区間についての第１および第
２の音声特徴ベクトルを第１１図に示すようにそれぞれ
抽出する（ステップｄ）。この結果、認識辞書６を学習
する為の音声特徴ベクトルが前述した雑音の影響を受け
ることなしに精度良く、しかも高い信頼性をもって抽出
される。しかる後、この抽出された第１および第２の音
声特徴ベクトルを用いて前記認識辞書６の学習処理が行
われ（ステップｅ）、認識辞書６の性能が効果的に高め
られる。

このような認識辞書θの学習処理は、学習対象としてい
る全ての認識対象カテゴリについての学習処理が行われ
るまで、繰り返し実行される（ステップｆ）。

かくしてこのような認識辞書の学習機能を備えた音声認
識装置によれば、人工的に雑音が加えられた学習用音声
データを用いて第１および第２の音声認識手段によるパ
ターン照合にそれぞれ供される認識辞書の性能を非常に
効果的に高めていくことが可能となる。しかも始終端非
固定の連続パターン照合による認識結果に基づいて求め
られる始終端情報に従ってその音声区間の特徴ベクトル
を正確に抽出して認識梓書６の学習を行い、その性能を
高めていくことができる。

この結果、前述した音声認識処理の手法と相俟って、そ
の認識性能を飛躍的に高めることが可能となる。

尚、本発明は上述した実施例に限定されるものではない
。例えば実施例では人力音声を単語を単位として認識処
理する例について示したが、音韻や音節を処理単位とし
て認識処理することも可能であり、他のセグメント単位
や記号処理を基本として入力音声を認識処理することも
可能である。

また認識対象も上述した単語のみならず、文節や連続単
語，文等であっても良い。更には認識処理に用いる音声
特徴ベクトルの次元数やパターン照合の手法についても
特に限定されることはない。

本発明のポイントは始終端非固定の連続パターン照合と
始終端決定後のパターン照合によるハイブリッドシステ
ムであり、その要旨を逸脱しない範囲で種々変形して失
施することかできる。

［発明の効果コ以上説明したように本発明によれば、連続パターン照合
による入力音声の大略的な特徴に越づく認識結果と、始
終端検出後の高次元な特徴ベクトルを用いたパターン照
合による人力音声の詳細な特徴に基づく認識結果とを総
合判定してその人力音声に対する認識結果を求めるので
、その認識性能を飛躍的に高めることができる。しかも
演算量の多い連続パターン照合による認識処理について
は次元数の低い音声特徴ベクトルを用い、始終端検出後
のパターン照合については、その演算量が少ないことか
ら次元数の高い特徴ベクトルを用いて認識処理を行うの
で、その演算量をさほど増加させずに認識性能を高める
ことができる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

図は本発明の一実施例に係る音声認識装置について示す
もので、第１図は実施例装置の全体的な概略構威図、第
２図は実施例装置における音声入力部と音声分析部の構
成例を示す図、第３図は音声分析部における第１および
第２の音声特徴パラメータの抽出概念を示す図、第４図
および第５図はワードスポッティングによる連続パター
ン照合処理による音声認識処理の基本概念を示す図、第
６図は実施例装置での音声認識処理手続きの流れを示す
図である。また第７図は人力音声パターンの例を示す図、第８図は
音声認識処理手続きの変形例を示す図、第９図は認識辞
書の学習機能を示す図、第１０図は認識辞書の学習処理
手続きの流れを示す図、第１１図は人力音声パターンか
ら抽出される学習用音声特徴ベクトルの概念を示す図で
ある。１・・・音声入力部、２・・・音声分析部、３・・・認
識処理部、４・・・第１の分析部（第１の音声特徴パラ
メ−タの抽出手段）、５・・・第２の分析部（第２の音
声特徴パラメータの抽出手段）、６・・・認識辞書、７
・・・連続パターン照合部（始終端非固定の第１の音声
特徴ベクトル）　　８・・・始終端検出部、９・・・単
語特徴ベクトル抽出部（第２の音声特徴ベクトル）、ｌ
Ｏ・・・パターン照合部、ｌ１・・・認識結果処理部、
１２・・・第１の結果処理部、ｌ３・・・第２の結果処
理部、１４・・・統合処理部、ｌ５・・・認識結果出力
部、２ｌ・・・音声データファイル、２２・・・雑音デ
ータファイル、２３・・・音声データ合或部、２４・・
・学習用特徴ベクトル抽出部、２５・・・認識辞書作成
部。

Claims

【特許請求の範囲】

（１）入力音声を分析して音声特徴パラメータの時系列
を求める手段と、この音声特徴パラメータの時系列から
始終端検出を行うことなく求められる第１の音声特徴ベ
クトルの時系列と認識対象カテゴリについての第１の認
識辞書とを照合してその類似度値の時系列を求める第１
の音声認識手段と、前記入力音声の始終端を検出する手
段と、この手段により検出された始終端に従って前記音
声特徴パラメータの時系列から第２の音声特徴ベクトル
を抽出する手段と、この手段により求められた第２の音
声特徴ベクトルと前記認識対象カテゴリについての第２
の認識辞書とを照合してその類似度値を求める第２の音
声認識手段と、前記第１の音声認識手段により求められ
た第１の類似度値の時系列と前記第２の音声認識手段に
より求められた第２の類似度値とに基づいて前記入力音
声に対する認識結果を求める手段とを具備したことを特
徴とする音声認識装置。
（２）第１の音声特徴ベクトルの次元数は、第２の音声
特徴ベクトルの次元数より小さいことを特徴とする請求
項（１）に記載の音声認識装置。
（３）第１の音声認識手段は、ワードスポッティング法
により第１の音声特徴ベクトルの時系列と第１の音声認
識辞書とを照合して類似度値の時系列を求めることを特
徴とする請求項（１）に記載の音声認識装置。
（４）入力音声の始終端を検出する手段は、第１の音声
認識手段により得られる類似度値の時系列に基づいて入
力音声の始終端を検出することを特徴とする請求項（１
）に記載の音声認識装置。
（５）第１および第２の音声認識手段における音声特徴
ベクトルと認識辞書との照合は、同一の計算方式により
上記音声特徴ベクトルと認識辞書との類似度値を計算し
て行われることを特徴とする請求項（１）に記載の音声
認識装置。
（６）請求項（１）に記載の音声認識装置において、第
１および第２の認識辞書に対する学習機能を備えたこと
を特徴とする音声認識装置。
（７）第１および第２の認識辞書の学習処理は、音声デ
ータに人工的なパターン変形を加えて学習用音声データ
を作成し、第１の音声認識手段を用いてワードスポッテ
ィング法により求められる類似度値の時系列に基づいて
求められる学習用音声データの始終端に従って、前記学
習用音声データを分析して求められる音声特徴パラメー
タの時系列から第１および第２の音声特徴パラメータを
それぞれ抽出して行われることを特徴とする請求項（６
）に記載の音声認識装置。