JPH0293696A

JPH0293696A - 音声認識装置

Info

Publication number: JPH0293696A
Application number: JP63247845A
Authority: JP
Inventors: Hiroki Onishi; 宏樹大西; Kazuyoshi Okura; 計美大倉
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1988-09-30
Filing date: 1988-09-30
Publication date: 1990-04-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は、入力された音声中から音声区間を正確に切り
出すことによって、正確な音声認識を行なう音声認識装
置に関するものである。

（ロ）従来の技術音声認識において、雑音中での認識、連続音声中の音素
認識など、入力音声中から音声区間の切ン出しを行なう
実用的な音声認識装置は、先ず、人力音声のパワーが、
あるしきい値以上となる区間を音声区間候補として切り
出し、仮の始端、終端を決め、切り出された部分パター
ンと該標準音声パターンとを入力音声パターン側の仮の
始端、終端をフリーとした非線形マツチングにより比較
し、該部分パターンの始端、終端を決定する場合が多い
。

第２図にこのような従来の音声認識装置の一例を示す。

マイクロフォン［７］より、入力された音声は、音声分
析部［８コで分析され、１０ｍｓ程度のフレーム周期で
スペクトルやケプストラムのパラメータ時系列に変換さ
れる。このパラメータ時系列は入力音声パターンバッフ
ァ［９コに格納される。音声区間切り出し部［１０］で
は、入力音声のパワーが、あるしきい値（ＴＨ）以上と
なる区間を音声区間候補として切り出し、かかる音声区
間候補情報と、パラメータ時系列を端点フ）−ＤＰマツ
チング部［１１コに送る。

この端点フリーＤＰマンチング部［＋　１］の動作は以
下のとおりである。

即ち、音声区間切り出し部［１０］より送られてきたデ
ータをもとに、第３図（ａ）に示した様な、仮の始端よ
り時間方向で前にとるフリーエリアＦＢｂと、仮の始端
より時間方向で後にとるフリーエリアＦＢａとを同じ時
間長に設定する。更に、仮の終端より時間方向で前にと
るフリーエリアＦＡｂと、仮の終端より時間方向で後に
とるフリー工ＪアＦ、Ａａとを同じ時間長に設定する。

斯くして得られたフリーエリアを用いた端点フリーＤＰ
マンチングにより、標準音声パターンメモリ［１２］内
の標準音声パターンと入力音声パターンとのマＶヂング
を行なうことになる。

（ハ）発明が解決しようとする課題り述の従来の音声認識装置においては、仮の始端、終端
におけるフリーエリアが、ＦＢａ＝ＦＢｂ、Ｆ　、Ａａ
＝　Ｆ　Ａｂになっている場合、第４図に示す様な問題
が起こる。

即ち、例えば標準パターン音声メモリ［１２コに”あい
かぎ”と”いか”という１語が記憶されているものとす
る。

今、マイクロフォン［７］より”あいかぎ”という単語
を入力したが、第４図（ａ）に示したように語頭、語尾
のパワーが小さくなってしまいしきい値（ＴＨ）でのパ
ワーによる音声候補区間の切り出し結果が、同図（ｂ）
のようになる。

かかる音声候補区間に第３図（ａ）に示したフリーエリ
アを適用してマツチングを行なうと、入力音声の”あい
かぎ”という単語の語頭、語尾が削除された形で、単語
”いか”とマツチングがとれてしまう。この結果、同図
（ｃ）の”いか”とのマツチング距離のほうが、同図（
ｄ）の”あいかぎ”　とのそれより小さくなり、誤認識
を招くこととなる。

（ニ）課題を解決するための手段本発明の音声認識装置は、音声のパワーがあるしきい値
以上となる区間を音声区間候補として切り出し、該切り
出された部分パターンと該標準音声パターンとを入力音
声パターン側の仮の始端、終端をフリーとした非線形マ
ツチングにより比較し、該部分パターンの始端、終端を
決定するときに、麻３図（ｂ）に示すように、仮の始端
より時間方向で前にとるフリーエリアＦＢｂを仮の始端
よ少時間方向で後にとるフリーエリアＦＢａよりも長く
設定し、かつ仮の終端より時間方向で後にとるフリーエ
リアＦＡａを仮の終端より時間方向で前にとるフリーエ
リアＦＡｂよりも長く設定するものである。

（ホ）作用本発明の音声認識装置に於ては、フリーエリアを第４図
（ｅ）に示した様にＦＢｂ＞ＦＢａ、ＦＸａ＞ＦＡｂと
設定することにより、同図（ａ）　　・　（ｂ）に示し
たと同様の入力音声条件下にであっても、同図（ｆ）の
”いか”とのマツチング距離を同図（ｅＪのハｌチング
で示す領域に対応する分大きくすることができる。従っ
て、同図（ｇ）の”あいかぎ”との７ンチング距離の方
が小さくなり、”あいかぎ”として認識することができ
る。

（へ）実施例第１図に本発明の音声認識装置の一実施例を示す。マイ
クロフォン［１］より、入力された音声は、音声分析部
［２コで分析され、１０ｍ５程度のフレーム周期でスペ
クトルやケプストラムのパラメータ時系列に変換される
。このパラメータ時系列は入力音声パターンバッファ［
３］に格納される。音声区間切り出し部［４］では、入
力音声のパワーが、あるしきい値（ＴＨ）以上となる区
間を音声区間候補として切り出し、かかる音声区間候補
情報と、パラメータ時系列を非対称端点フＪ−ＤＰマツ
チング部［５］に送る。

本発明装置が最も特徴とする非対称端点フＩＪ−ＤＰマ
ツチング部［５］は、音声区間切り出し部［４］より送
られてきたデータをもとに、′第３図（ｂ）に示した様
な、仮の始端より時間方向で前にとるフリーエリアＦＢ
ｂと、仮の始端より時間方向で後にとるフリーエリアＦ
ＢａとをＦ　Ｂｂ＞　Ｆ　Ｂａとなるように設定し、か
つ仮の終端より時間方向で前にとるフリーエリアＦＡｂ
と、仮の終端より時間方向で後にとるフリーエリアＦＡ
ａとをＦ、Ａａ＞ＦＡｂとなるように設定する。さらに
この条件で設定されたフリーエリアで端点フリーＤＰマ
ンチング処理を行い、標準音声パターンメモリ［６］内
の標準音声パターンと入力音声パターンとのマツチング
を行なう。

（ト）発明の効果以上の説明から明らかな如く、本発明の音声認識装置に
よれば、端点フリーＤＰマツチングにおける局所パター
ンのマツチング誤りを防ぎ、精度よく雑音中や連続音声
中の単語区間の切り出しを行うことができ、認識率の向
上が図れる。

【図面の簡単な説明】

第１図は本発明の音声認識装置の一実施例を示す構成図
、第２図は従来音声認識装置の構成図、第３図（ａ）　
　（ｂ）及び第４図に）牛Ｉ中井は音声パターン図であ
る。［１］、、、？イクロフオン、［２］、、、音声分析部、［３］　、、、入力音声パターンバッファ、［４］、、
、音声区間切り出し部、［５］　、、、非対称端点フリーＤＰマツチング部、［
６］　、、、標準音声パターンメモリ。

Claims

【特許請求の範囲】

（１）予め該音声分析手段により抽出しておいた標準音
声パターンと該音声分析手段より抽出される入力音声パ
ターンのうち、音声のパワーがあるしきい値以上となる
区間を、音声区間候補として切り出し、該切り出された
部分パターンと該標準音声パターンとを入力音声パター
ン側の始端、終端をフリーとした非線形マッチングによ
り比較し、該部分パターンの真の始端、終端を決定する
音声認識装置において、音声区間候補として切り出され
た部分の先頭より時間方向で前にとるフリーエリアを、
音声区間候補として切り出された部分の先頭より時間方
向で後にとるフリーエリアよりも長く設定し、かつ音声
区間候補として切り出された部分の末尾より時間方向で
後にとるフリーエリアを、音声区間候補として切り出さ
れた部分の末尾より時間方向で前にとるフリーエリアよ
りも長く設定する非対象端点フリーマッチング手段を備
えたことを特徴とする音声認識装置。