JPH04369698A

JPH04369698A - 音声認識方式

Info

Publication number: JPH04369698A
Application number: JP3173349A
Authority: JP
Inventors: Fumihiro Tanido; 谷戸　文広; Kazuya Takeda; 一哉武田; Shingo Kuroiwa; ▲真▼吾黒岩
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1991-06-19
Filing date: 1991-06-19
Publication date: 1992-12-22
Also published as: US5425127A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声の認識方式に係わ
り、特に、不特定多数の利用者を認識対象とする音声認
識方式に関する。

【０００２】

【従来の技術】音声認識方式は、荷物の仕訳等の作業の
ため手による入力手段が用いられない分野などに広く利
用されている。特に、不特定多数の利用者を想定した音
声認識方式では話者が老若男女を問わず常に高い正確さ
で音声が認識される必要がある。

【０００３】従来の音声認識方式では、音声信号の特徴
パラメータとして一定時間間隔毎の短時間平均スペクト
ル包絡特性を表現するＬＰＣ係数、ＬＰＣケプストラム
係数、狭帯域フィルタバンクからの平均出力などのいず
れかが用いられており、更に認識性能を向上させるため
スペクトルの変化特性を表現するパラメータとして上記
の各種パラメータの数分析間隔にわたる変化方向を示す
回帰係数が併用されることが多い。具体的な認識の手続
きとしては、単語音声が認識対象の場合には、入力され
た音声信号の特徴とあらかじめシステムに記憶されてい
る各単語毎の標準パターンとの間で動的計画法（ＤＰ）
によりもっとも距離が小さくなるような対応付けを行い
、その中で得られた距離が最小の単語を認識結果として
いる。

【０００４】

【発明が解決しようとする課題】上述した従来技術にお
いて、不特定多数の利用者が用いる場合、話者毎に声質
は大きく異なっている。このため、各単語毎に複数の標
準パターンをあらかじめ用意しておいても話者の個人性
に基づく音響特性の変動を十分にカバーすることは困難
である。このため誤った単語の標準パターンとの間での
ＤＰマッチングにより得られた距離が最小となってしま
い、この結果誤った単語を認識結果とすることが生じて
しまう。

【０００５】本発明はこのような従来の課題を解決する
ものであり、不特定多数の利用者に対して高い割合で正
しく音声を認識できる音声認識方式を提供することを目
的とするものである。

【０００６】

【課題を解決するための手段】本発明は上記の目的を達
成するため、音響パラメータとして音声信号の短時間平
均スペクトル包絡特性を表わすパラメータと、話者によ
る変動が比較的少ない音声信号のスペクトル変化特性の
大まかな方向性を表わすパラメータである広帯域フィル
タバンク出力の回帰係数を組み合わせて用いることを特
徴とするものである。

【０００７】

【実施例】図１は本発明の一実施例の構成を示すもので
ある。なお、本実施例では単語音声が入力である場合を
取り扱っているが、連続音声へは容易に拡張可能である
。図１において１及び２は入力された音声信号を１０ｍ
ｓ程度の短時間毎に音響分析して特徴パラメータの系列
に変換するための手段、３は単語音声の始端点及び終端
点を発見する手段、４は単語音声の特徴パラメータの系
列から標準パターンと距離が最小となる対応付けを発見
する手段、５はシステムに登録された各単語の標準パタ
ーンを記憶する標準パターン記憶手段、６は登録単語の
標準パターンとの距離が最も小さい単語候補を求める手
段である。

【０００８】次に上記実施例の動作について説明する。なお、本実施例では音声入力は電話回線経由のものを想
定しており、帯域が０．３〜３．４ｋＨｚに制限されて
いるものとして検討を行なってあるが、マイクロフォン
入力で入力音声の帯域が広い場合に対しても容易に拡張
可能である。

【０００９】音声入力は音響分析手段１により線形予測
分析を行ない、線形予測係数を求めた後にこれを音声の
スペクトル包絡特性を表現するのに適したケプストラム
ＬＰＣ係数に変換して出力する。同時に音声信号は音響
分析手段２によりフィルタバンク分析を行ない、各フィ
ルタからの出力値の回帰係数を求めて音声のスペクトル
の変化特性を表現する特徴パラメータとして出力する。

【００１０】図２において音響分析手段２の詳細な構成
について説明する。フィルタ１１〜１５としては（１）
０．３〜３．４ｋＨｚ（２）０．３〜１．０ｋＨｚ（３
）０．３〜０．６５ｋＨｚ（４）１．５〜３．４ｋＨｚ
（５）０．６５〜２．８ｋＨｚの広帯域の５種類を周波
数をオーバーラップさせて用いる（従来の技術では１０
個程度の狭帯域フィルタにより音声帯域（０．３〜３．
４ｋＨｚ）を周波数をオーバーラップさせずにカバーし
ていた）。各フィルタからの出力は短時間平均算出回路
２１〜２５において分析周期毎に短時間平均エネルギを
算出された後、対数変換回路３１〜３５においてデシベ
ル値（ｄＢ値）に変換される。その後、対象とする全帯
域を含み全体エネルギを表わすフィルタ（１）の出力を
、フィルタ（２）〜（５）からの出力から加算回路４１
〜４４を用いて減ずることにより正規化された出力値を
得る。次に回帰係数計算回路５１〜５５において前後各
２分析時点における前記出力値から（式１）により回帰
係数を計算し音響分析手段２の分析結果として出力する
。

【数１】

【００１１】ただし、Ｅｋ（ｔ）は分析時点ｔにおける
フィルタｋの正規化出力値、ＥＲｋ（ｔ）は分析時点ｔ
におけるフィルタｋの出力値の回帰係数、Ｓは回帰係数
算出のための正規化係数である。なお、上記手続きから
も分かるように、音響分析手段２においては当該分析時
点の後続する２分析時点のデータを必要とすることから
２分析時点分の処理遅延を生じるので、音響分析手段１
においては音響分析手段２からの出力と同期をとるため
２分析時点分の遅延を持たせている。

【００１２】単語音声検出手段３では音声入力の特徴パ
ラメータから単語音声の始端点及び終端点を求める。最
適経路発見手段４では標準パターン記憶手段５に記憶さ
れている各単語の標準パターンと単語音声検出手段３か
ら得られた単語音声の特徴パラメータとの間で、両者の
距離が最小となる対応付けを発見する。具体的には連続
ＤＰマッチング等の動的計画法に基づく手法を適用する
。なお、この処理において入力単語音声の特徴パラメー
タと標準パターンの特徴パラメータとの間の距離は、Ｌ
ＰＣケプストラム係数間のユークリッド距離にフィルタ
バンク出力の回帰係数間のユークリッド距離を０．１倍
して加え合わすことにより求める。この様にしてすべて
の単語標準パターンに対する最小距離を求めて、この中
で最も小さい距離を与える単語を認識結果として出力す
る。

【００１３】

【発明の効果】本発明は上記実施例より明らかなように
、音声スペクトルの変化特性を表現するパラメータとし
て話者依存性の少ない広帯域のフィルタ群からの短時間
平均出力値の回帰係数を用いることにより、従来の例え
ばＬＰＣケプストラム係数の回帰係数を用いる場合に比
して、不特定多数の利用者に対して正確な音声認識が行
なえるという効果を有する。即ち、日本人の主要な１６
７姓名を認識対象とした男女各８名による認識実験の結
果、特徴パラメータとして従来のＬＰＣケプストラム係
数及びその回帰係数を用いた場合の誤認識率が１１．３
％であったものが、ＬＰＣケプストラム係数と広帯域フ
ィルタバンク出力の回帰係数を用いることにより５．４
％となり６％近い改善効果が見られた。

【図面の簡単な説明】

【図１】本発明の１実施例における音声認識装置のブロ
ック図である。

【図２】広帯域フィルタバンク出力の回帰係数を求める
音響分析手段の詳細図である。

【符号の説明】

１　　音響分析手段２　　音響分析手段３　　単語音声検出手段４　　最適経路発見手段５　　標準パターン記憶手段６　　単語候補発見手段１１〜１５　　広帯域フィルタ２１〜２５　　短時間平均エネルギ算出手段３１〜３５
　　対数変換手段４１〜４４　　加算器５１〜５５　　回帰係数計算手段

Claims

【特許請求の範囲】

【請求項１】　　不特定多数の利用者を認識対象とする
音声認識方式において、音声の特徴パラメータとして、
音声信号の短時間平均スペクトル包絡特性を表わすパラ
メータと、音声信号のスペクトル変化特性の大まかな方
向性を表わすパラメータである広帯域フィルタバンク出
力の回帰係数との組合せを用い、辞書（５）に記憶され
る標準パターンとの距離が最も小さな対応付けに従って
入力音声を認識することを特徴とする音声認識方式。