JPH0667695A

JPH0667695A - 音声認識方法および音声認識装置

Info

Publication number: JPH0667695A
Application number: JP3097893A
Authority: JP
Inventors: Shigemi Otsu; 茂実大津
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-04-04
Filing date: 1991-04-04
Publication date: 1994-03-11

Abstract

(57)【要約】【目的】単一の音声認識処理手段で発生する音声誤認
識をなくし、音声認識の認識度を向上させる。【構成】入力した音声信号を所定の区間で切り出す音
声切出し手段（１）と、切り出された音声信号をパター
ンマッチング処理する第１の音声認識処理手段（２）
と、音声信号を母音で認識する第２の音声認識処理手段
（３）および上記音声認識処理手段の一方での認識結果
を他方で認識処理する統合音声認識処理手段（４）を備
える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識方法およびその
装置に係り、特にパターンマッチングだけでは解決でき
ない誤認識を減少させることのできる音声認識方法と音
声認識装置に関する。

【０００２】

【従来の技術】人間の言葉を機械に認識させる音声認識
は、予め識別する必要のある単語パターンを音声単語標
準パターンとして入力音声パターンとして登録してお
き、認識の際に、入力された未知の単語のパターンと上
記音声単語標準パターンとを比較照合して、両者間の距
離を計算し、最小となる音声パターンを認識単語とする
パターンマッチングの手法が使われる。すなわち、マタ
ーンマッチングの手法は、入力された音声信号を音声分
析し、その音声パターンの特徴を表すパラメータに変換
する。この音声分析には、帯域フィルタ分析，線径予測
分析，ケプストラム分析などの手法が用いられる。パタ
ーンマッチングの過程では、入力パターンと標準パター
ンとの間のパターンの変動に対応できることが必要であ
る。音声パターンは、発音の仕方，前後の音との繋がり
具合い等により、その時間的軸が変動する。時間軸の変
動は、全体が一定の比率で伸縮するのではなく、非直線
に変化する。この変動に対処する方法として，所謂時間
軸の正規化にはＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍ
ｉｎｇ）マッチングという手法が最も良く知られてい
る。このＤＰマッチング手法は、標準パターンと入力パ
ターンの一方の時間軸を他方のパターンに最も適合する
ように非線形に歪ませ、対応する時点のベクトル間の距
離を累積した値を２つのパターンの間の距離として求め
る最適化手法である。なお、上記従来技術を開示したも
のとして、特開平２−１０８９３６号公報，あるいは
「日本音響学会誌」Ｖｏｌ．４２，Ｎｏ．９，１９８６
（第７２５頁〜第７３０頁）がある。

【０００３】

【発明が解決しようとする課題】音声単語には互いに近
似した音声パターンをもつものが多い。上記従来の技術
の手法では、入力音声に近いパターンが数多く存在する
場合に、上記２つのパターン間の距離が最も近い登録パ
ターンが正しい入力単語であるとは限らず、誤認識が生
じるという問題がある。本発明の目的は、上記従来技術
の問題を解消し、例えば第２候補以下の単語に正しい入
力単語がある場合でも、これを識別して正確な音声認識
を行わせることを可能とした音声認識方法とその装置を
提供することにある。

【０００４】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、音声認識処理として母音認識と単語認識
とを用い、それぞれの認識結果をもとに１つの正しい入
力単語を認識するようにしたものである。すなわち、本
発明は、入力した音声信号を所定の区間で切り出し、切
り出された音声信号をパターンマッチング処理またはそ
の母音認識処理のいずれか一方で認識処理し、この認識
処理結果を他方の認識処理によって絞り込むことを特徴
とし、その装置構成として、入力した音声信号を所定の
区間で切り出す音声切出し手段（１）と、切り出された
音声信号を予め発声者によって登録された音声単語標準
パターンと入力音声パターンとの距離を計算し、その結
果に基づいて音声入力単語を認識する第１の音声認識処
理手段（２）と、切り出された音声信号を周波数分析し
て得られる第１ないし第３ホルマントのうち隣接する第
１および第２ホルマント周波数，ならびに第２および第
３ホルマント周波数の対数差情報を特徴パラメーターと
して抽出して母音を認識する第２の音声認識処理手段
（３）と、第１の音声認識処理手段と第２の音声認識処
理手段の一方の処理による認識結果を他方によって絞り
込む統合音声認識処理手段（４）とから構成したことを
特徴とする。

【０００５】

【作用】前記したように、通常、単語認識にはパターン
認識法（ＤＰマッチングやＨＭＭ−ＨｉｄｄｅｎＭａ
ｒｋｏｖＭｏｄｅｌ）が用いられるが、登録単語と入
力された音声パターンの距離ｄがある程度以上離れてい
ると、候補がいくつも存在する。このときの、例えば第
１の音声認識処理としてのＤＰマッチングで複数の単語
候補が抽出された場合に、そのしぼり込みにフォルマン
ト周波数相互間の対数比を用いる第２の音声認識処理と
しての母音認識処理を用いる。なお、単語候補のしぼり
込みは、母音をもとに単語をしぼり込む母音認識処理を
施したものにパターンマッチング処理を施すようにして
もよい。上記の各認識処理は、第１と第２のみに限ら
ず、２以上のさらに他の形式の音声認識処理を施すよう
にすることもできる。これら２つ以上の音声認識処理
は、並列処理用のプロセッサを用いることで実時間処理
が実現できる。このとき、母音認識部の処理には、特開
平２−１０８９３６号公報に開示されたような話者に存
在しない母音認識方法を用いるのが望ましい。この母音
認識は、フォルマント周波数相互間の対数比を用いる方
法であり、少ない計算量で認識効果が大きい音声認識方
法である。

【０００６】

【実施例】以下、本発明の実施例につき、図面を参照し
て詳細に説明する。図１は本発明の音声認識方法を適用
する音声認識装置の基本構成を説明するブロツク図であ
って、１は入力した音声信号を所定の閾値を参照して単
語単位で切り出す音声切出し手段、２はＤＰマッチング
で入力音声に音声認識を施す第１の音声認識処理手段、
３は母音認識により入力音声に音声認識を施す第２の音
声認識処理手段、４は第１の音声認識処理手段２と第２
の音声認識処理手段３の音声認識処理結果から単語候補
を絞り込む統合音声認識処理手段である。同図におい
て、音声切出し手段１で切り出された単語信号は、第１
の音声認識処理手段２と第２の音声認識処理手段３とに
並列に供給される。第１の音声認識処理手段２では、Ｄ
Ｐマッチング法やＨＭＭ法による波形分析で生成された
音声パターンを、予め登録されている単語の音声パター
ンと比較照合する。この比較照合の結果は統合音声認識
処理手段４に渡される。一方、第２の音声認識処理手段
３ではフォルマント周波数相互間の対数比を用いた話者
に依存しない母音認識法等で母音認識処理を施し、その
結果を統合音声認識処理手段４に渡す。

【０００７】図２は第１の音声認識処理手段の概略構成
を説明するブロツク図であって、音声切出し手段１で切
り出された音声パターンを距離評価部１８において標準
パターン登録部１７に登録されている標準パターンとの
間で距離評価し、その結果から候補単語を比較推定部１
８で照合して候補単語を抽出する。

【０００８】図３は第２の音声認識処理手段の概略構成
を説明するブロツク図であって、音声切出し手段１で切
り出された音声パターンを周波数分析部２０でその一定
周期（例えば、１６ｋＨｚ）毎にサンプリングして周波
数分析を行う。ホルマント抽出部２１は、分析された，
例えば５ｋＨｚ以下のスペクトルピークを抽出し、第
１，第２，第３ホルマント周波数ｆ₁，ｆ₂，ｆ₃を得
る。パラメータ抽出部２２では、対数軸スケールにて第
１ホルマント周波数ｆ₁と第２ホルマント周波数ｆ₂の
差、並びに第２ホルマント周波数ｆ₂と第３ホルマント
周波数ｆ₃の差を特徴とするパラメータとして抽出す
る。音声判別部２３は、母音”ａ，ｉ，ｕ，ｅ，ｏ”に
対応する第１，第２パラメータの基準値を予め具備し、
特徴パラメータ抽出部２２で得られた第１パラメータｌ
ｏｇ（ｆ₁／ｆ₂）をもとに入力音声を”ａ”および”
ｏ”と”ｕ”および”ｅ”と”ｉ”の三つに分類し、そ
の後第２パラメータｌｏｇ（ｆ₂／ｆ₃）をもとに”
ａ”および”ｏ”並びに”ｕ”および”ｅ”を分離して
母音を判別する。

【０００９】図４は本発明による音声認識装置の１実施
例の構成を説明するブロツク図であって、１０は入力音
声分析部で、１１はマイクロフオン、１２は入力音声の
増幅，不要周波数成分除去，自動利得調整等の機能を備
えた信号調整装置、１３は多数のバンドパスフィルター
からなる周波数解析部、１４はマルチプレクサ、１５は
Ａ／Ｄコンバーターである。また、符号１〜５は前記図
１における符号１〜５と同様の部分である。同図におい
て、マイクロフォン１１から入力された音声は信号調整
装置１２で所定の信号調整を施され、周波数解析部１３
に与えられる。周波数分析部１３は入力信号を多数（例
えば、ｎ＝１５）の周波数帯域（チャンネル）に分割し
て当該入力信号を構成する周波数を分析する周波数解析
を行なう。周波数解析部１３で解析された各周波数帯域
成分はマルチプレクサ１４で並列→直列変換されてＡ／
Ｄコンバーター１５においてデジタル形に変換される。
Ａ／Ｄ変換された信号は音声切出し手段１で、例えば所
定の閾値を越えるレベルの信号の継続周期で切り出さ
れ、ＤＰマッチング手段２と母音認識手段３に与えられ
る。ＤＰマッチング手段２では、標準パターン登録部１
７に予め登録されている音声パターンとの比較をＤＰマ
ッチングで実行し、入力信号パターンと登録信号パター
ンとの間の距離を計算し、該距離が小さいもの順に並
べ、候補単語Ｗｎとその候補単語パターンと入力信号パ
ターンとの距離ｄｎを統合音声認識処理手段３に渡す。

【００１０】一方、母音認識手段３では、ホルマント周
波数の対数比をもとに母音列を抽出し、これを統合音声
認識処理手段３に渡す。統合音声認識処理手段３は、Ｄ
Ｐマッチング手段２と母音認識手段３とからそれぞれ渡
された候補単語Ｗｎとその候補単語パターンと入力信号
パターンとの距離ｄｎおよび母音列とから候補単語を絞
り込んで正しい単語を抽出する。抽出された単語は認識
結果として表示装置等の認識出力手段５に出力される。
上記ＤＰマッチング手段２，母音認識手段３および統合
音声認識処理手段３を並列処理プロセッサで構成するこ
とにより、リアルタイムの処理を可能とすることができ
る。なお、上記実施例においては、ＤＰマッチング処理
と母音認識処理とを並列に実行するようにしているが、
これらの処理を時系列で実行するようにしてもよいこと
は言うまでもない。

【００１１】図５は統合音声認識処理手段での音声認識
処理アルゴリズムの一例を説明するフローチヤートであ
って、まずＤＰマッチング手段２から渡された第１の単
語候補Ｗ₁の距離ｄ₁を見て（ステップ−１）、それが
一定値Ｔｈ₁より小さい時は認識単語をＷ₁とする。ま
たそれが一定値Ｔｈ₂より大きいときは認識不可として
処理を終える。そして、第１の単語候補Ｗ₁の距離ｄ₁
が一定値Ｔｈ₁とＴｈ₂の中間にあるときは、母音認識
手段３から送られた母音列を判断に使用する。このとき
第１の単語候補Ｗ₁と第２の単語候補Ｗ₂の距離の差ｄ
₂−ｄ₁を計算し（ステップ−３）、もし一定値Ｔｈ₃
より大きいときは認識不可として処理を終える。上記距
離の差ｄ₂−ｄ₁が一定値Ｔｈ₃より小さい時は、母音
列と比較して一致したときのみその単語候補を認識単語
Ｗ₂とする（ステップ−４）。また、一致しなければ、
ｎをカウントアップして（ステップ−５）ステップ−３
に戻り次の単語候補Ｗ₃に対して上記と同様の処理を実
行し、ステップ−４で一致の判断がなされば単語候補Ｗ
₃を認識単語とする。不一致の場合はまたｎ＝ｎ＋１と
して上記と同様の処理を施し、候補単語から認識単語を
捜す。以上のようにして、単語候補を決定する。

【００１２】

【発明の効果】以上説明したように、本発明によれば、
パターンマッチング手法のみでは第２の単語候補以下に
正しい単語がある場合に発生する誤認識をなくし、入力
された単語に相当する正しい単語を認識するこができる
音声認識方法およびその装置を提供できる。

【図面の簡単な説明】

【図１】本発明の音声認識方法を適用する音声認識装
置の基本構成を説明するブロツク図である。

【図２】第１の音声認識処理手段の概略構成を説明す
るブロツク図である。

【図３】第２の音声認識処理手段の概略構成を説明す
るブロツク図である。

【図４】本発明による音声認識装置の１実施例の構成
を説明するブロツク図である。

【符号の説明】

１・・・・音声切出し手段、２・・・・第１の音声認識
処理手段、３・・・・第２の音声認識処理手段、４・・
・・統合音声認識処理手段、１７・・・・標準パターン
登録部。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年８月１１日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【図１】本発明の音声認識方法を適用する音声認識装
置の基本構成を説明するブロック図である。

【図２】第１の音声認識処理手段の概略構成を説明す
るブロック図である。

【図３】第２の音声認識処理手段の概略構成を説明す
るブロック図である。

【図４】本発明による音声認識装置の１実施例の構成
を説明するブロック図である。

【図５】統合音声認識処理手段での音声認識アルゴリ
ズムの一例を説明するフローチャートである。

【符号の説明】１・・・・音声切出し手段、２・・・・第１の音声認識
処理手段、３・・・・第２の音声認識処理手段、４・・
・・統合音声認識処理手段、１７・・・・標準パターン
登録部。

Claims

【特許請求の範囲】

【請求項１】入力音声を分析し、予め登録されている
標準パターンと照合することにより上記入力音声を認識
する音声認識方法において、入力した音声信号を所定の
区間で切り出し、切り出された音声信号をパターンマッ
チング処理またはその母音認識処理のいずれか一方で認
識処理し、この認識処理結果を他方の認識処理によって
絞り込むことを特徴とする音声認識方法。
【請求項２】入力音声を分析し、予め登録されている
標準パターンと照合することにより上記入力音声を認識
する音声認識装置において、入力した音声信号を所定の
区間で切り出す音声切出し手段と、切り出された音声信
号を予め発声者によって登録された音声単語標準パター
ンと入力音声パターンとの距離を計算し、その結果に基
づいて音声入力単語を認識する第１の音声認識処理手段
と、切り出された音声信号を周波数分析して得られる第
１ないし第３ホルマントのうち隣接する第１および第２
ホルマント周波数，ならびに第２および第３ホルマント
周波数の対数差情報を特徴パラメーターとして抽出して
母音を認識する第２の音声認識処理手段と、第１の音声
認識処理手段と第２の音声認識処理手段の一方の処理に
よる認識結果を他方によって絞り込む統合音声認識処理
手段とから構成したことを特徴とする音声認識装置。