JPH03118600A

JPH03118600A - 音声認識装置

Info

Publication number: JPH03118600A
Application number: JP1255270A
Authority: JP
Inventors: Hiroshi Kanazawa; 博史金澤; Yoichi Takebayashi; 洋一竹林; Hiroyuki Tsuboi; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-10-02
Filing date: 1989-10-02
Publication date: 1991-05-21
Anticipated expiration: 2015-02-21
Also published as: JP3011421B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的コ（産業上の利用分野）本発明は音声パターンの認識処理に用いられる複数の認
識対象カテゴリについての辞書パターンを効果的に学習
し得る学習機能を備えた音声認識装置に関する。

（従来の技術）音声データの認識処理は、基本的には入力音声エネルギ
ーの時間的な変化等に着目してその始終端検出を行い、
その始終端間の音声特徴パラメータを抽出して認識辞書
に予め登録されている複数の認識対象カテゴリについて
の辞書パターンとの間で照合することによりなされる。

このパターン照合の手法としては、ＤＰマツチング法や
ＨＭ　Ｍ　（！ｌ１ｄｄｅｎ　Ｍａｒｃｏｖ　Ｍｏｄｅ
ｌ）法、複合類似度法（部分空間法）等が用いられる。

このような音声パターンの照合による音声認識にあって
は、入力音声の始終端を如何に精度良く検出するか、ま
た認識辞書を如何に高性能化しておくかが、その認識性
能（認識率）を高める上で重要な課題となる。

ところで入力音声データの認識処理に用いられる認識辞
書は、専らクリーンな環境下で収集された音声データに
基づいて作成されることが多い。

これに対して認識対象とする音声データは、一般的に種
々の雑音環境下で入力されることが多く、そのＳ／Ｈに
よって認識性能が左右され易い。例えば雑音に起因して
入力音声データの始終端検出に誤りが生じたり、また認
識辞書との類似度が低くなって誤認識されることが多く
なる。

そこで認識辞書を作成する際、例えば第９図（ａＥに示
すようにクリーンな環境下で収集された音声データＳに
、第９図（ｂ）に示すような雑音データＮを人工的に加
えて雑音成分が重畳した学習用音用データＡを生成し、
この学習用音声データＡを用いて認識辞書の学習を行う
ことにより、その高性能化を図ることが考えられている
。

しかし雑音を重畳した音声の始終端検出は、上述した音
声エネルギーの時間的な変化等を用いても、雑音のエネ
ルギーの時間的な変化を受けるので、これを高精度に検
出ることは非常に困難であった。特に第９図（ｃ）に示
すようにその音声区間を外れた位置に特異なピークＰを
持っているような場合には、その始終端検出自体に誤り
が生じ易い等の不具合が生じた。

そこで本発明者等は、特願平１−５７９７８号にて入力
音声データの始終端を検出することなく、始終端非固定
のままで入力音声の特徴パラメータの系列を連続的にパ
ターンマツチングしてその類似度の時系列を求め、この
類似度の時系列を判定し、学習大正カテゴリの辞書との
間で最大類似度を与えた入力音声の特徴ベクトルを学習
用音声データとして抽出する手法を提唱した。

即ち、この連続パターンマツチングの手法は、所謂ワー
ドスポツティングと称されるもので、第１０図に例示す
るように入力音声の特徴パラメータの系列から、その特
徴パラメータを求めた各サンプル・タイミングをそれぞ
れ基準とする所定の次元数の特徴ベクトルを順次連続的
に抽出し、これらの各特徴ベクトルと認識辞書との類似
度をそれぞれ求めていく。そして各特徴ベクトルについ
て求められた類似度値を相互に比較し、最大類似度を得
た認識対象カテゴリを前記入力音声に対する認識結果と
して求めるものである。また学習対象カテゴリの辞書と
の間で最大類似度をとる特徴ベクトルを、その始終端が
正しく切り出された音声区間のものであるとして判定し
、その特徴ベクトルを認識辞書の学習用として抽出する
ものである。

このようなワードスポツティングによる音声認識処理に
よれば、連続的に入力音声の特徴ベクトルを抽出してそ
の類似度を逐次求めることが必要なので、演算処理量が
増えるものの始終端の検出誤りに起因する問題がなくな
り、その分、認識性能を高めることが可能となる。また
始終端検出を行う場合に比較して認識辞書の学習に用い
る特徴ベクトルをある程度正しく切り出すことができる
ので、認識辞書の性能を効果的に高めることが可能とな
る。

然し乍ら、音声データＳに加える雑音データＮが第９図
（ｅ）に示すように、その音声区間を外れた位置に特異
なビークＰを持っているような場合、偶然的にそのピー
クノイズ部分を含む区間での特徴ベクトルに対する類似
度が高くなることがある。

従ってこのような場合には、誤った区間の特徴ベクトル
が認識辞書学習用として抽出されることになり、認識辞
書の性能に悪影響が及ぶ。そしてその認識辞書性能が劣
化する等の不具合が生じた。

（発明が解決しようとする課題）このように音声データの始終端検出を行うことな（、ワ
ードスポツティングによる連続パターンマツチングによ
り認識辞書の学習に用いる特徴ベクトルを抽出する場合
であっても、非定常な雑音や特異な雑音が音声データに
加わった場合には、類似度に基づいて抽出される特徴ベ
クトルの始端点および終端点が実際の音声データの始端
点および終端点から大幅にずれることがある。この結果
、学習用特徴ベクトルの抽出精度が劣化し、更には認識
辞書の性能劣化を招来すると要因となっている。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力音声パターンに非定常な雑
音や特異な雑音が混入している場合であっても、その始
終端の検出誤りを防いでその特徴ベクトルを高精度に抽
出し、認識辞書の性能を効果的に高めて認識性能を高め
ることのできる実用性の高い音声認識装置を提供するこ
とにある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識装置は、音声データ加工部にて学
習用音声データに雑音データを加えてパターン変形が与
えられた音声データを連続パターン照合処理し、この連
続パターン照合処理によって求められる類似度の時系列
と前記学習用音声データの始端および終端に関する情報
とに従って前記音声データから学習用音声特徴ベクトル
を抽出して認識辞書メモリに格納されている辞書パター
ンを学習するようにしたことを特徴とするものである。

具体的には、連続パターン照合処理によって求められる
類似度の時系列の中の、学習対象カテゴリの辞書との最
大類似度を基準として定められる所定の類似度値以上の
類似度を上記学習対象カテゴリの辞書に対して得た音声
パターンの始端と終端とをその音声データの始端候補お
よび終端候補としてそれぞれ求め、これらの始端、候補
および終端候補と学習用音声データの始端および終端に
関する情報とを比較して、その音声データに関する始終
端についての所定の条件、例えば始端点と終端点とによ
り定まる音声区間幅のずれに対する許容範囲、および始
端点および終端点の位置ずれに対する許容範囲を満たす
始端候補および終端候補を始端点および終端点とする音
声区間の音声データから学習用音声特徴ベクトルを抽出
するようにしたことを特徴とするものである。

（作　用）本発明によれば、学習用音声データに雑音データを加え
てパターン変形を与えた音声データを用いて認識辞書に
格納された辞書パターンを学習するに際し、連続パター
ン照合処理によって求められる類似度の時系列のみなら
ず、その音声データの始端および終端に関する情報を用
いて学習用の音声特徴ベクトルを抽出するので、仮に音
声データに混入した非定常な雑音や特異な雑音に起因し
て本来の音声区間を大幅にずれた部分での類似度が大き
くなるような場合であっても、これを学習用音声特徴ベ
クトルの抽出対象から効果的に排除することが可能とな
る。

そして連続パターンマツチング処理により求められる類
似度の時系列に基づいて信頼性の高い始終端間での特徴
ベクトルを抽出するので、学習用音声特徴ベクトルの抽
出精度を高めることができ、認識辞書の学習を信頼性良
く行なわせることが可能となる。

この結果、認識辞書の学習効果を高めてその辞書性能の
向上を図り、ひいては認識性能の向上を図ることが可能
となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認識
装置について説明する。

第１図は実施例装置における特徴的な技術思想を示した
、認識辞書学習用の音声特徴ベクトルの抽出処理手続き
の概念を示す図である。

この認識辞書学習用の音声特徴ベクトルの抽出処理は、
学習対象とするカテゴリの音声データに所定の雑音デー
タを加えて人工的なパターン変形を与え（処理ｌ）、こ
れを学習用の音声データとすることから行われる。この
ような学習データについて、認識辞書に予め登録されて
いる辞書パターンを参照してワードスポツティング法に
基づく連続パターン照合処理を実行し、その類似度の時
系列を求める（処理■）。

しかるの後、この類似度の時系列に従い、例えば学習対
象カテゴリの辞書との最大類似度値Ｓ　ｍａｘとの差が
所定の閾値６以内の類似度値をとる特徴ベクトルの始端
点と終端点とをそれぞれ入力音声データに対する始端候
補および終端候補として求める（処理■）。この処理に
おいては上述した閾値θの設定にもよるが、必ずしも１
つの特徴ベクトルに対する始端候補および終端候補だけ
が抽出されると云う保証は無く、一般的には複数組の始
端候補および終端候補が求められる。

ちなみに本発明者等が先に提唱した、例えば特願平１−
５７９７８号における特徴ベクトルの抽出処理は、上述
した連続パターン照合によって求められる類似度の時系
列中の、学習対象カテゴリについての最大類似度値Ｓ　
１ｌａｘに着目して学習用の音声特徴ベクトルの抽出を
行っている。

これに対して本発明では、上述した類似度の時系列から
求められる複数の特徴ベクトルの始端点と終端点をそれ
ぞれ始端候補および終端候補とし、学習対象とする音声
データについて予め求められている始端点と終端点の情
報に従って上記始端候補および終端候補を絞り込み処理
し、最も信頼性の高い始端候補および終端候補を求めて
学習用の音声特徴ベクトルを抽出するものとなっている
。

即ち、連続パターン照合によって求められた類似度の時
系列に基づいて求められた数組の始端候補および終端候
補はそれぞれその音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合しているか否かの検定を行い、始端候補
および終端候補の絞り込みを行う（処理■）。具体的に
は、始端候補および終端候補により示される音声区間が
音声データの最小継続時間以上で、且つ最大継続時間以
内であるかの検定を行う。

また求められた音声区間に対する音声データの最大・最
小継続時間による検定については、類似度の時系列を求
める際の始終端非固定の連続パターン照合時、つまりワ
ードスポツティング時に行うようにしても良い。つまり
ワードスポツティングを行う際、その音声区間が最大継
続時間以下で、最小継続時間以上となるような始終端に
ついてのみその類似度演算を行うようにしても良い。こ
のようにすれば上述した学習用音声特徴ベクトルの抽出
処理を行う際での音声区間幅のずれに対する検定（処理
■）を省略することが可能となる。

しかしてこのような音声区間に対する検定を行った後、
次に上記始端候補および終端候補が標章的な始端点およ
び終端点に対して所定のずれ幅以内に収まっているかの
検定を行い、その始端候補および終端候補の絞り込みを
行う（処理Ｖ）。

この始端候補と終端候補の絞り込みについて第２図を参
照して説明すると、雑音が混入された音声データＡを連
続パターン照合処理して求められる類似度の時系列から
、学習対象カテゴリの辞書に対して所定値以上の類似度
をとる特徴ベクトルの始端点と終端点を求めると、例え
ば類似度Ｓ１をとる特徴ベクトルの始終端が［ｔ　ｓｌ
、　　ｔ　ｅ１１類似度Ｓ２をとる特徴ベクトルの始終
端が［ｔ　ｓ２．　　ｔ　ｅ２］　　・・・・・・類似
度Ｓ５をとる特徴ベクトルの始終端が［ｔ　ｓ５．　　
ｔ　ｅ５］　としてそれぞれ求められる。これらの始終
端が学習用特徴ベクトルを抽出する為の始端候補および
終端候補となる。

一方、認識対象とする音声データについての始終端に関
する情報は、例えば始端点［ｔｓｏ］、終端点［ｔ　ｃ
ｏ］として与えられ、始端点に関する許容ずれ量が［Δ
Ｔｓ　］　、終端点に関する許容ずれ量が［ΔＴｅｌと
して与えられる。そしてその音声データの継続時間（音
声区間）については、最小継続時間［Ｄ　ｗｉｎコ、最
大継続時間［Ｄｇ＋ａｘｌとしてそれぞれ与えられる。

前述した処理■に示す音声区間についての検定処理は、
前述した如く求められた始終端候補が上述した継続時間
幅の条件に適合するか否かを調べ、この条件に該当しな
い始終端候補を特徴ベクトルの抽出対象から除外するも
のである。また前述した処理Ｖに示す始終端のずれに対
する検定は、その始終端が許容ずれ範囲内に収まってい
るか否かを調べ、これによってその条件に適合しない始
終端候補を特徴ベクトルの抽出対象から除外するもので
ある。

このような始終端に関する検定により始終端候補を絞り
込むことで、真に信頼性の高い候補だけが残されること
になる。そこでその信頼性の高い始終端候補を持つ特徴
ベクトルの中の前述した類似度の最も高い特徴ベクトル
を認識辞書学習用の音声特徴ベクトルとして抽出すれば
（処理■）、雑音の影響を受けることなしに精度良く、
しかも高い信頼性をもって音声特徴ベクトルを求めるこ
とが可能となる。しかる後、この抽出された特徴ベクト
ルを用いて認識辞書の学習処理を行うことにより（処理
■）、認識辞書の性能が効果的に高められる。

次に上述した学習用の音声特徴ベクトルの抽出機能を備
えた実施例装置の具体例について説明する。

第３図は実施例装置の概略構成図で、大略的には音声パ
ターン抽出部と認識処理部、そして辞書学習部の３つの
ブロックにより構成される。

音声パターン抽出部を構成する音声入力部１と音声分析
部２は、基本的にはマイクロフォンを通して入力される
音声データを音声入力部１にてディジタル変換処理し、
音声分析部２にてＦＦＴやフィルタ分析、ＬＰＧ分析、
ケプストラム処理等により、その音声パターンを特徴パ
ラメータの系列として求める。具体的には、例えば８　
ｌｌ１ｓｅｃのフレーム周期で１６次元のフィルタバン
ク出力を求め、これをその特徴パラメータとして出力す
る。

認識処理部は、ここではワードスポツティングの手法を
用いて入力音声パターン（音声パターン抽出部で求めら
れる特徴パラメータの系列）を、音声認識辞書メモリ３
に登録されている複数の認識対象カテゴリの各辞書パタ
ーンとの間で連続的にパターン照合する連続パターン照
合部４と、この連続パターン照合部４にて連続的に求め
られる類似度の時系列を判定し、例えば最大類似度をと
る特徴ベクトルとその認識対象カテゴリを求める類似度
判定部５とを備えて構成される。

上記連続パターン照合部４は音声パターンに対する始終
端の検出を行うことなく、前述したフレーム周期毎に前
記特徴パラメータの系列から所定の次元数の特徴ベクト
ルを抽出して認識辞書パターンとの間の類似度を求める
もので、例えば第４図に示すように連続パターン照合範
囲決定部４ａ。

特徴ベクトル抽出部４ｂ、パターン照合部４ｃとにより
構成される。

即ち、この連続パターン照合部４における連続パターン
照合範囲決定部４ａは、第１０図に示すように前述した
フレーム周期毎に抽出すべき特徴パラメータの音声継続
時間（パターン照合範囲）を設定している。この音声継
続時間は、例えば最小時間幅を１２０　ｍ５ｅｃ、最大
時間幅を２４００　ｍ５ｅｃとし、これらの間を所定の
時間幅で区切って設定される複数の音声継続時間からな
る。

しかして特徴ベクトル抽出部４ｂは上述した如く設定さ
れた各音声継続時間における特徴パラメータの系列を前
述したフレーム周期毎にそれぞれ抽出し、これらの各特
徴パラメータの系列の中からその時間軸方向に１６点に
亘って特徴パラメータをリサンプルし、周波数軸方向に
１６次元２時間軸方向に１６次元の特徴パラメータで表
現される２５６次元の特徴ベクトルを個々に求めている
。

例えばパターン照合範囲となる音声継続時間がＴＩ、Ｔ
２．〜Ｔｎとして定められている場合、特徴ベクトル抽
出部４ｂは前述したフレーム周期毎に、そのフレームタ
イミングｔを終端点とする上記音声継続時間Ｔ　Ｉ、Ｔ
　２．〜Ｔｎの特徴パラメータの系列をそれぞれ求め、
これらの各特徴パラメータの系列をそれぞれ１６点に亘
ってリサンプル処理して（１６Ｘ１６）次元の特徴パラ
メータｘ　ｉｔ。

Ｘ　２ｔ、〜Ｘｎｔを求めている。このような特徴ベク
トルの抽出処理は上述したようにフレーム周期毎に行わ
れるから、次のフレームタイミングでは、Ｘ　Ｈｔ＋１
）、　　Ｘ　２（ｔ＋１）、　〜Ｘ　ｎ（ｔ＋１）なる
特徴ベクトルが求められることになる。

パターン照合部４ｃでは、このようにして求められる各
特徴ベクトルＸＩ、について、音声認識辞書メモリ３に
登録されている複数の認識対象カテゴリの各辞書パター
ンとの間でその類似度を計算し、そのパターン照合処理
を実行する。この類似度計算によるパターン照合は、例
えば複合類似度法を用いる場合には、認識対象カテゴリ
ｇの辞書パタンがａ−ゝを定数、φ３−′を固有ベクト
ルとして与えられるとき、その類似度値Ｓ１１ゝは次の
ように計算される。

前述した類似度判定部５はこのようにして入力音声パタ
ーンと認識辞書パターンとの間で連続的に求められる上
記類似度Ｓ（′ｌゝの系列を判定し、例えばその類似度
値の大きいものを選択する等の処理を実行する。

例えば上述した類似度Ｓ：ｊ、）の時系列から入力音声
パターンを認識処理する場合には、その中の最大類似度
ｍａｘｓ：’、ゝを基準とし、この最大類似度ｍａＸｓ
：冒との差が所定の閾値θ以下の類似度Ｓ１冒をとる認
識対象カテゴリｇをその認識結果候補として求めること
が行われる。

尚、上記最大類似度ｍａｘｓ’、’、’が成る閾値ｓｔ
ｈ以下の場合には、認識不能としてリジェクトされる。

このようにして求められる認識結果候補が認識結果出力
部６を介して出力され、例えば認識結果の選択処理に供
される。この際、例えば上述した最大類似度ｗａｘｓ；
υをとる認識対象カテゴリが最優先候補として出力され
る。

尚、ここでは複合類似度法によるパターン照合の計算例
について示したが、従来より種々提唱されている手法を
適宜採用可能なことは云うまでもない。また類似度の時
系列に基づ（認識処理の方式についても、種々の認識ア
ルゴリズムを適宜採用可能なものであが、ここでは本発
明の主旨には直接関係を何さないので、その詳しい説明
については省略する。

次に辞書学習部について説明する。この辞書学習部は認
識モードに代えて学習モードが設定されたときに起動さ
れる。

しかしてこの辞書学習部は、雑音のないクリーンな環境
下で収集された種々の認識対象カテゴリについての音声
パターンを学習用音声データとして蓄積した音声データ
ファイル１１と、種々の雑音データを収集した学習用雑
音データファイル１２を備えている。この学習用雑音デ
ータファイル■２に収集される雑音データは、例えば街
頭や駅構内等の、所謂雑音環境下で収集された雑多な音
情報を含むデータからなる。

学習用音声データ加工部１３は、学習制御部１４の制御
を受けて学習対象とするカテゴリの音声データを前記学
習用音声データファイル１１から読み出し、これに前記
学習用雑音データファイル１２から求められる雑音デー
タを重畳させて上記音声デー夕に人工的なパターン変形
を加えるものである。

このパターン変形の度合いは、例えば音声データに混入
する雑音データのレベルを可変する等して調節される。

このようして雑音データが加えられた音声データが前記
音声分析部２に与えられて認識辞書の学習用特徴ベクト
ルの抽出に供される。

前述した連続パターン照合部４は、このようにして入力
される学習用の音声データについても同様にして連続パ
ターンマツチング処理を実行して類似度の時系列を求め
る。尚、この場合、学習対象とするカテゴリが予め判っ
ていることから、その認識対象カテゴリについての認識
辞書パターンとの間でだけパターン照合を行っても良い
が、類似カテゴリとの識別性を高めるような認識辞書の
学習効果も期待する場合には、これらの類似カテゴリに
ついての辞書パターンとの間でもパターン照合を行うこ
とが望ましい。また類似カテゴリ（誤認識される虞れの
あるカテゴリ）が不明な場合には、認識モードの場合と
同様に、全ての認識対象カテゴリの辞書パターンとの間
でパターン照合するようにすることも勿論可能である。

しかして類似度判定部５は、この学習モードの場合には
、学習用音声データについて求められた類似度の時系列
に基づいて、例えば学習対象カテゴリの辞書に対する最
大類似度値ｌｌ１ａｘｓ：冒を基準とし、この最大類似
度ｍａｘＳ：’、’との差が所定の閾値θ以下の類似度
Ｓ：ｊ）となっている特徴ベクトルについての始端点ｔ
、および終端点ｔ、をそれぞれ求めている。そしてその
特徴ベクトルＸ、と始端点ｔｓ１終端点ｔｅｌ　および
この特徴ベクトルＸｌ、を抽出する根拠となった類似度
値Ｓ、を、学習用音声特徴ベクトルの抽出候補として学
習用音声特徴ベクトル抽出部１５に与えている。

この学習用音声特徴ベクトル抽出部１５は、学習用音声
データ始終端情報ファイル１６に格納されている上記学
習対象とするカテゴリの音声データについての始終端に
関する情報を用いて、上記抽出候補として与えられた特
徴ベクトルについての始終端に関する検定を行うもので
ある。そしてこの検定に合格した抽出候補の特徴ベクト
ルを学習用の音声特徴ベクトルとして求め、これを音声
認識辞書学習部１７に与えて前記音声認識辞書メモリ３
に格納されている認識辞書パターンの学習に供する。

この認識辞書の学習について簡単に説明すると、例えば
複合類似度法による場合には、抽出された学習用音声特
徴ベクトルＸＩ、を用いて辞書パターンの共分散行列を
更新し、しかる後、この共分散行列をＫＬ展開してその
固有ベクトルφを求め、この固有ベクトルφにて辞書パ
ターンを更新する処理からなる。

第５図は上記学習用音声特徴ベクトル抽出部１５にて、
学習用音声データ始終端情報ファイル１Ｇに格納されて
いる情報を参照して行われる学習用音声特徴ベクトルの
抽出処理手続きの流れを示す図である。この第５図を参
照してこの実施例装置における特徴的な学習用音声特徴
ベクトルの抽出処理について、以下に詳しく説明する。

この処理手続きは、前述した連続パターン照合処理によ
り求められた類似度の時系列に基づき、学習対象カテゴ
リの辞書に対して所定値以上の類似度を持つ特徴ベクト
ルを求め、その始端点と終端点とをそれぞれ始端候補お
よび終端候補として抽出する処理から開始される。具体
的には、連続パターン照合処理された複数の特徴ベクト
ル（フレームタイミング毎に、そのフレームタイミング
を終端点として求められる複数の音声区間についての特
徴ベクトルの系列）を類似度の大きい順に指定する為の
制御パラメータｎを［１］に初期設定しくステップａ）
、この制御パラメータｎに従って特徴ベクトルＸ７の類
似度Ｓ０を、その類似度が大きい順にアクセスする。そ
してその類似度Ｓ７が所定の抽出条件を満たすか否かを
調べ（ステップｂ）、その抽出条件を満たしている場合
には、当該特徴ベクトルＸ、の始端点ｔ　ａｎと終端点
ｔ、。とをそれぞれ始端候補および終端候補として抽出
する。

この処理は上記制御パラメータｎをインクリメントしな
がら、この処理にて始端候補および終端候補が求められ
た特徴ベクトルの数を制御値Ｎとして計数しながら、全
ての特徴ベクトルの類似度について繰り返し実行される
（ステ・ツブＣ）。

しかして上記始端候補および終端候補を抽出する為の類
似度判定条件は、例えば前述した連続パターン照合処理
により求められた類似度の時系列の中の、学習対象カテ
ゴリの辞書に対する最大類似度値をＳ−８としたとき、
例えばこの最大類似度値Ｓ、、１□との差が所定の閾値
０以内である類似度を持つ特徴ベクトルＸｎを抽出する
と云う条件として与えられる。従ってこの場合には、Ｓ
７≧（Ｓ　、、、−θ）なる条件が満たされるか否かが判定されることになる。

このような判定処理により、例えば最大類似度値Ｓ　ａ
ａッが［０，９３］として求められ、閾値θが［Ｑ、ｌ
Ｑ］として与えられるような場合には、類似度値が［０
，８３］以上の特徴ベクトルＸ。の始端点および終端点
がそれぞれ抽出候補として求められる。

例えば代表的に次の５つの特徴ベクトルＸ工。

Ｓ２．〜Ｘ、について述べると、これらの特徴ペクト）
Ｌｔ　Ｘ　Ｈ、Ｘ　２　、〜Ｘ　５’）類似度Ｓｌ、３
２゜〜Ｓ９、およびその始端点ｔａｌ＋　　ｉ　＋２＋
〜ｔ、５゜および終端点ｔ＊Ｉ＋ｔ＠２＋〜ｔ、５がそ
れぞれ次のように与えられる場合、Ｘ　＋　・Ｓ　＋　−０，９３，ｔ　、＋−０，４ｓｅ
ｃ、　ｔ　、、−０，８ｓｅｃＸ２−３２−０．９０．
　　ｔ　Ｓ２−０．２　ｓｅｃ、ｔ　６２−０．８ｓｅ
ｃＸ３−８３−０．８８．　　ｔ　、３−０．４　ｓｅ
ｃ、ｔ　Ｓ３−１．２ｓｅｃＸａ−３４−０，８５，ｔ
　、４−０．３５ｓｅｃ、　ｔ　Ｓ４　”　０．７ｓｅ
ｃＸ５−８５−０．７０．　　ｔ　Ｓ５　ｗｏ、ｔ　Ｓ
ｅＣ，ｔ　Ｓ５−１．０ｓｅｃ類似度値が［０，８３］
以上の特徴ベクトルＸｎとして、特徴ベクトルＸ１．Ｓ
２　、Ｓ３　、Ｓ４の始端点および終端点がその始終端
候補Ｘ　　１　−　　　［ｔ　　ｍ　１−　０．４　　ｓｅ
ｃ、ｔ　　、ｔ−０，６ｓｅｃコＸ　　２　　”’　　
　［ｉ　　−２””　　０．２　５（３Ｃ−ｉ　　Ｓ２
””　　０．８ｓｅｃコＸ　、−［ｔ　、３−０．４　
ｓｅｃ、　ｔ　、３！　１．２ｓｅｃｌＸ　４−　［ｔ
　ｘ−０，３５ｓｅｃ、　ｔ　６４−０．７ｓｅｃ］と
して求められる。

このようにして類似度に基づく特徴ベクトルの選択抽出
が行われた後、今度は当該学習対象カテゴリの音声パタ
ーンについての始終端に関する情報を用いて、始終端に
ついての条件判定が行われる。この音声パターンについ
ての始終端に関する情報は、前記学習用音声データ始終
端情報ファイル１６に格納された、例えば第６図に示す
如き情報として与えられる。具体的には、学習用音声デ
ータファイル１１に格納された音声データの管理番号に
従って、その音声データの始端点ｔ、。と終端点ｔ、。

、およびそのカテゴリ名としてその始終端に関する情報
が与えられる。またこれらの情報と共に、その学習対象
カテゴリの最小継続時間Ｄ　ｍｌ。。

および最大継続時間り４１．の情報も与えられる。

この最小継続時間Ｄ　ｍｌ。、および最大継続時間り１
．８の情報は、予め学習用音声データファイル１１等に
格納しておく。

しかしてこの処理は、前述した類似度に基づいて抽出さ
れた候補を順に選択指定する為の制御パラメータｍを［
１］に初期設定しくステップｄ）、この制御パラメータ
ｍに従って前述した各特徴ベクトルｘａの始終端候補を
順次検定することにより実現される。この検定は、前記
始終端候補からその音声継続時間を［１、、、−１、、
、］として求め、この音声継続時間が上述した最小継続
時間Ｄｍｌｎ＋および最大継続時間Ｄ　ｍ　ａ　ｘに示
される条件に適合しているか否かを調べることから行わ
れる（ステップｅ）。

具体的には、Ｄ　　ａａ　ｌ　ｎ　　　≦　　［１，、、−１，、コ
　　≦　Ｄ　　Ｉｌｌ　ａ　Ｎを満足しているかが判定
される。この判定処理によって、例えば上記最小継続時
間Ｄ１．．が［０，４Ｓｅｅ　］、また最大継続時間Ｄ
　□、が［０，８Ｓｅｅ　’１として与えられるような
場合には、前述した特徴ベクトルの候補の内、特徴ベク
トルＸ、、Ｘ４がリジェクトされ、その候補がＸ　２−［ｔ　、２−０．２　ｓｅｃ、　ｔ　、２−０
．８ｓｅｃｌＸ　、−［ｔ　Ｓ３　””　０．４　ｓｅ
ｃ、　ｔ　、３ｍ　１．２ｓｅｃ］の２つに絞り込まれ
る。

その後、これらの絞り込まれた候補に対して、次にその
始端点および終端点の時間的なずれに対する検定が行わ
れる（ステップｆ）。

この処理は始端点に関する時間的ずれの許容値Δｔ、が
［０，Ｉ　Ｓｅｅ　］　、終端点に関する時間的ずれの
許容値Δｔ、が［０，Ｉ　Ｓｅｅ　］として設定されて
いる場合、１、、、−１　、。≦Δｔ。

１、、−１．。１≦Δｔ。

なる条件をそれぞれ満たしているか否かを調べることに
より行われる。この判定処理の結果、上述した例では特
徴ベクトルＸ、かりジェツトされ、その抽出候補としてＸ　　２　−　　　［ｔ　　、２１１１１　０．２　　
ｓｅｃ、　　ｔ　　、２ｍ　　０．８ｓｅｃコだけが求
められることになる。

尚、上述した２つの判定処理によって前記制御パラメー
タｍにより指定された特徴ベクトルがリジェクトされた
場合には、制御パラメータｍのインクリメントと（ステ
ップｇ）、そのインクリメントされた制御パラメータｍ
と前記制御値Ｎとの比較により、類似度に基づいて選択
された全ての特徴ベクトルについての処理が完了したか
否かを判定しながら（ステップｈ）、繰り返し実行され
る。

この結果、類似度に従って求められた複数の特徴ベクト
ルの候補の中から、その始端点および終端点に関する時
間的な制約条件を満足するものだけが選択的に抽出され
ることになる。そして前述した例では、１つの特徴ベク
トルだけが残されたが、一般的には複数の特徴ベクトル
が候補として残されることが想定される。従ってこのよ
うな場合には、例えば残された複数の候補の中でその類
似度Ｓ７が最も大きいものを選ぶ等して、認識辞書の学
習に使用する特徴ベクトルを抽出する（ステップｉ）。

尚、上述した始終端に関する条件判定によって、類似度
に基づいて抽出された特徴ベクトルの全ての候補がリジ
ェクトされた場合には、上述した連続パターンマツチン
グによる処理結果が雑音データによる悪影響を受けてい
ると判定し、例えば前述した学習用音声データ始終端情
報ファイル１６に格納されている音声データの始端点ｔ
、。、および終端点ｔ、。の情報に従って特徴ベクトル
の抽出を行い、これを認識辞書の学習に供する（ステッ
プｊ　）。

かくしてこのような連続パターンマツチング処理によっ
て求められる類似度の時系列の情報のみならず、その音
声データに関する始終端情報をも利用して認識辞書学習
用の特徴ベクトルを抽出する本装置によれば、特異な雑
音に起因する誤った音声区間からの特徴ベクトルの切り
出しを効果的に排除しｔ、その学習用音声特徴ベクトル
を信頼性良く、高精度に切り出し抽出することが可能と
なる。この結果、認識辞書の学習効果を高めることがで
き、認識辞書性能の高性能化を図って認識性能を効果的
に高めることが可能となる。

尚、上述した始終端に関する情報に従う特徴ベクトルの
絞り込み判定に用いる時間的なずれの許容値Δｔａｇ許
容値Δ、については、学習対象とする認識カテゴリ毎に
その値を設定しても良いし、また学習処理に供する音声
データに応じて定めるようにすることも可能である。ま
たその音声区間に対する許容値、つまり最小継続時間Ｄ
ｍｌａ＋および最大継続時間Ｄ　ｆｆｉ　ａ　Ｘについ
ても同様にして定めることが可能である。

ところで上述した実施例の処理手続きは、その都度、音
声データに関する始終端の情報を用いて特徴ベクトルの
絞り込み判定を行ったが、例えば同一の音声データにつ
いてそこに加える雑音データのレベルを変えながら学習
用音声特徴ベクトルを求めるような場合には、−々クリ
ーンな音声データについての始終端の情報を用いるより
も、前回の学習時に求められた始終端に関する情報を利
用したほうが、より高精度に特徴ベクトルの絞り込みを
行うことが可能である。

このような処理手続きを行うには、例えば前述した第５
図に示す処理手順を第７図に示すように変更し、学習用
音声データ始終端情報ファイル１６に登録しておく情報
項目としては、例えば第８図に示すように前回の特徴ベ
クトル抽出時の始端点および終端点に関する情報を格納
しておく項目をつけ加えるようにすれば良い。

しかしてこの場合には、第８図に示すように学習用音声
データ始終端情報ファイル１６から前回の学習時に用い
られた特徴ベクトルについての始端点の情報ｉａｂと、
終端点の情報ｔ、、とをそれぞれ求め（ステップｋ）、
これらの情報を前述したクリーンな音声データの始端点
の情報ｉａｏと、終端点の情報ｔ、。に代えて用いるよ
うにする。

このような初期設定処理を行った後、前述した特徴ベク
トルの抽出（絞り込み）処理を実行し、特徴ベクトルの
絞り込みがなされた時点で、その特徴ベクトルについて
求められる始端点および終端点の情報を次回の学習処理
時に用いるべく、前記学習用音声データ始終端情報ファ
イル１６に格納する（ステップｍ）。その後、前述した
ステップｉに示されるようにして絞り込まれた特徴ベク
トルの中から、認識辞書の学習に用いる為の特徴ベクト
ルを選択決定し、これを学習用音声特徴ベクトルとして
抽出する。

また特徴ベクトルの候補が全てリジェクトされ、学習用
特徴ベクトルとしての候補が求められなかった場合には
、前述した前回の学習用特徴ベクトルの抽出時に用いら
れた始端点の情報ｊｏｂと終端点の情報ｉｅｂとを用い
て、その音声データ中から学習用特徴ベクトルの抽出を
行う。

このような処理手続きによれば、特徴ベクトルの抽出判
定に失敗したような場合、クリーンな音声データの始端
点の情報ｔ、。と終端点の情報ｔ、。

とに従って学習用特徴ベクトルの抽出を行う場合に比較
して、前回の学習時に用いられた始端点の情報ｉａｂと
終端点の情報ｔ、、を用いて学習用特徴ベクトルの抽出
が行われるので、その音声区間の検出誤差量を少なくし
て、より高精度に学習用特徴ベクトルを求めることが可
能となる。この結果、先の実施例以上に認識辞書の学習
効果を高めることが可能となる等の実用上多大なる効果
が奏せられる。

尚、本発明は上述した実施例に限定されるものではない
。例えば連続パターンマツチング処理による類似度の時
系列を求める処理手続きは、従来より種々提唱されてい
る手法を適宜用いることが可能である。また特徴ベクト
ル候補の絞り込みのアルゴリズムについても種々変形可
能である。また実施例では、音声認識についても連続パ
ターン照合処理により行っているが、他の認識処理アル
ゴリズムを用いた音声認識装置に対しても適用可能であ
る。但し、この場合には、認識辞書の学習時に用いる為
の連続パターン照合部を別個に設ける必要があるので、
その分、装置構成が複雑化することが否めない。しかし
認識辞書学習の為の独立した装置を実現する場合には、
全く問題がないと云える。その他、本発明はその要旨を
逸脱しない範囲で種々変形して実施することができる。

［発明の効果］以上説明したように本発明によれば、連続パターン照合
処理により求められる類似度の時系列に基づいて学習用
特徴ベクトルを選択制御することのみならず、その音声
データの始終端情報についての検定を行った上で、学習
用音声特徴ベクトルの抽出を行うので、種々の雑音が加
えられた学習用音声データについても、その中から認識
辞書の学習に用いる為の学習用音声特徴データを高精度
に抽出することができるので、認識辞書の学習効果を効
果的に高め、その認識辞書性能を十分に高めていくこと
ができる。そしてひいてはその認識性能までも効果的に
高め得ると云う、実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明に係る音声認識装置における認識辞書学
習用の特徴ベクトル抽出処理の概念を示す図、第２図は
特徴ベクトルの選択抽出の作用を説明する為の模式図、
第３図は実施例装置の全体的な概略構成図、第４図は実
施例装置に置ける連続パターン照合部の構成例を示す図
である。また第５図は実施例装置における学習用音声特徴ベクト
ルの抽出処理手順の流れを示す図、第６図は学習用音声
データ始終端情報ファイルの構成例を示す図、第７図は
実施例装置における学習用音声特徴ベクトルの抽出処理
手順の別の例を示す図、第８図は第７図に示す処理で用
いられる学習用音声データ始終端情報ファイルの構成例
を示す図である。そして第９図は音声データに雑音データを加えて学習用
音声データを作成する処理と従来における問題点を説明
する為の模式図、第１０図は連続パターンマツチング処
理の概念を示す図である。２・・・音声分析部、３・・・音声認識辞書メモリ、４
・・・連続パターン照合部、５・・・類似度判定部、１
１・・・学習用音声データファイル、１２・・・学習用
雑音データファイル、１３・・・学習用音声データ加工
部、１４・・・学習制御部、１５・・・学習用音声特徴
ベクトル抽出部、１６・・・学習用音声データ始終端情
報ファイル、１７・・・音声認識辞書学習部。

Claims

【特許請求の範囲】

（１）入力音声データを分析して求められる特徴パラメ
ータの系列と、認識辞書メモリに格納された複数の認識
対象カテゴリについての各辞書パターンとの間で連続的
にパターン照合してその類似度の時系列を求め、この類
似度の時系列から前記入力音声データに対する認識結果
を求める音声認識装置において、学習用音声データに雑音データを加えてパターン変形を
与えた音声データを生成する音声データ加工部と、この
雑音データが加えられた音声データに対して前記連続パ
ターン照合処理によって求められる類似度の時系列と前
記学習用音声データの始端および終端に関する情報とに
従って前記音声データから学習用音声特徴ベクトルを抽
出する手段と、この手段にて抽出された学習用音声特徴
ベクトルを用いて前記認識辞書メモリに格納されている
辞書パターンを学習する辞書学習部とを具備したことを
特徴とする音声認識装置。
（２）学習用音声特徴ベクトルの抽出手段は、連続パタ
ーン照合処理によって求められる類似度の時系列の中の
、学習対象とするカテゴリの辞書との最大類似度を基準
として定められる所定の類似度値以上の類似度を得た音
声パターンの始端と終端とをその音声データの始端候補
および終端候補としてそれぞれ求め、これらの始端候補
および終端候補と学習用音声データの始端および終端に
関する情報とを比較して、その音声データに関する始終
端についての所定の条件を満たす始端候補および終端候
補を始端点および終端点とする音声区間の音声データか
ら学習用音声特徴ベクトルを抽出することを特徴とする
請求項（１）に記載の音声認識装置。
（３）音声データに関する始終端についての所定の条件
は、始端点と終端点とにより定まる音声区間幅のずれに
対する許容範囲、および始端点および終端点の位置ずれ
に対する許容範囲として与えられるものである請求項（
２）に記載の音声認識装置。
（４）学習用音声データは、無雑音環境下で収集された
クリーンな音声データであって、この学習用データの始
端点および終端点に関する情報は、予め始終端検出処理
によりその求められて学習用音声特徴ベクトルの抽出処
理に用いるられることを特徴とする請求項（１）に記載
の音声認識装置。
（５）学習用音声特徴ベクトルの抽出時に求められる始
端点および終端点の情報を記憶し、予め学習用音声デー
タについて求められる始端点および終端点に関する情報
に代えて上記学習用音声特徴ベクトルの抽出時に求めら
れた始端点および終端点の情報を、次回の学習用音声特
徴ベクトルの抽出処理に用いることを特徴とする請求項
（１）に記載の音声認識装置。