JPH0570159B2 - - Google Patents
Info
- Publication number
- JPH0570159B2 JPH0570159B2 JP59107795A JP10779584A JPH0570159B2 JP H0570159 B2 JPH0570159 B2 JP H0570159B2 JP 59107795 A JP59107795 A JP 59107795A JP 10779584 A JP10779584 A JP 10779584A JP H0570159 B2 JPH0570159 B2 JP H0570159B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- input
- pattern
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、特定話者を対象とした主として登録
型単語を認識する音声認識装置に関する。
型単語を認識する音声認識装置に関する。
従来例の構成とその問題点
特定話者を対象とした登録型単語を認識する音
声認識装置では、あらかじめ登録単語の特徴ベク
トルの時系列を標準パタンとしてメモリに記憶し
ておき、入力音声パタンと各標準パタンとの間で
パタンマツチングを行ない、最も類似度の高いも
のを認識結果とする方法が一般に行なわれてい
る。しかし、同一話者が同一単語を発声しても、
時間の経過と共にスペクトルパタンは変化してい
るため、上記の音声認識装置を長時間に渡つて使
用する場合には、認識性能の低下を生じる原因に
なるという問題点を有していた。
声認識装置では、あらかじめ登録単語の特徴ベク
トルの時系列を標準パタンとしてメモリに記憶し
ておき、入力音声パタンと各標準パタンとの間で
パタンマツチングを行ない、最も類似度の高いも
のを認識結果とする方法が一般に行なわれてい
る。しかし、同一話者が同一単語を発声しても、
時間の経過と共にスペクトルパタンは変化してい
るため、上記の音声認識装置を長時間に渡つて使
用する場合には、認識性能の低下を生じる原因に
なるという問題点を有していた。
発明の目的
本発明は上記の従来の問題点を解消するもの
で、認識処理の結果が十分に信頼できる時に、入
力音声パタンを標準パタンとして自動的に変更す
ることにより話者の発声の時間的変動に対応でき
る音声認識装置を提供することを目的とする。
で、認識処理の結果が十分に信頼できる時に、入
力音声パタンを標準パタンとして自動的に変更す
ることにより話者の発声の時間的変動に対応でき
る音声認識装置を提供することを目的とする。
発明の構成
本発明は、音声の特徴ベクトルを抽出する音声
分析手段と、音声のエネルギー包絡線上の主要な
ピークを検出するエネルギーピーク検出手段と、
登録音声の特徴ベクトルの時系列を標準パタンと
して記憶する記憶手段と、登録音声パタンと入力
音声パタンとのマツチングにより、認識候補音声
を導き出す認識手段と、入力音声と認識候補音声
の音声長の比較を行なう音声長比較手段を有し、
認識手段とエネルギーピーク検出手段と音声長比
較手段の結果により、認識候補音声が十分に正確
である時に、入力音声パタンを標準パタンとして
採用し、標準パタンの一部を入れ換えるように構
成した音声認識装置である。
分析手段と、音声のエネルギー包絡線上の主要な
ピークを検出するエネルギーピーク検出手段と、
登録音声の特徴ベクトルの時系列を標準パタンと
して記憶する記憶手段と、登録音声パタンと入力
音声パタンとのマツチングにより、認識候補音声
を導き出す認識手段と、入力音声と認識候補音声
の音声長の比較を行なう音声長比較手段を有し、
認識手段とエネルギーピーク検出手段と音声長比
較手段の結果により、認識候補音声が十分に正確
である時に、入力音声パタンを標準パタンとして
採用し、標準パタンの一部を入れ換えるように構
成した音声認識装置である。
実施例の説明
第1図は、本発明の一実施例における音声認識
装置を示すブロツク図である。第1図において1
は音声入力部で、話者からの音声がマイクロホン
等を通して入力される。2は音声分析手段で、入
力された音声信号から特徴ベクトルを抽出する。
3はエネルギーピーク検出手段で、入力音声のエ
ネルギー包絡線上から主要なピークを検出する。
4は認識手段で、記憶手段7に蓄えられた標準パ
タンと入力音声パタンとの間でパタンマツチング
を行なう。5は入力音声と認識手段4で得られた
認識候補音声の時間長の比較を行なう時間長比較
手段、6は入力音声パタンと標準パタンとの入れ
換えを行なうパタン入れ換え手段である。
装置を示すブロツク図である。第1図において1
は音声入力部で、話者からの音声がマイクロホン
等を通して入力される。2は音声分析手段で、入
力された音声信号から特徴ベクトルを抽出する。
3はエネルギーピーク検出手段で、入力音声のエ
ネルギー包絡線上から主要なピークを検出する。
4は認識手段で、記憶手段7に蓄えられた標準パ
タンと入力音声パタンとの間でパタンマツチング
を行なう。5は入力音声と認識手段4で得られた
認識候補音声の時間長の比較を行なう時間長比較
手段、6は入力音声パタンと標準パタンとの入れ
換えを行なうパタン入れ換え手段である。
第2図は本実施例の構成を示す回路図である。
10は第1図のエネルギーピーク検出手段3、認
識手段4、音声長比較手段5、パタン入れ換え手
段6、記憶手段7の各手段を実現するためのマイ
クロコンピユータで、認識対象となる単語群の特
徴パラメータの時系列及び、エネルギーピーク検
出手段3により得られた各単語のピーク数を記憶
する記憶部12と、入力音声と標準パタンのパタ
ンマツチング、及び標準パタン入れ換えのための
判定を行なう演算制御部13、及び入力部11、
出力部14により等価的に構成されている。
10は第1図のエネルギーピーク検出手段3、認
識手段4、音声長比較手段5、パタン入れ換え手
段6、記憶手段7の各手段を実現するためのマイ
クロコンピユータで、認識対象となる単語群の特
徴パラメータの時系列及び、エネルギーピーク検
出手段3により得られた各単語のピーク数を記憶
する記憶部12と、入力音声と標準パタンのパタ
ンマツチング、及び標準パタン入れ換えのための
判定を行なう演算制御部13、及び入力部11、
出力部14により等価的に構成されている。
8は音声入力を行なうマイクロホン、9はマイ
クロホン8から入力された音声信号をアナログ−
デイジタル変換し特徴パラメータを抽出するアナ
ログ−デイジタル変換器(以下A/D変換器とい
う)である。15は認識登録処理を開始させるス
イツチ、16は認識候補音声を表示する認識結果
表示器である。
クロホン8から入力された音声信号をアナログ−
デイジタル変換し特徴パラメータを抽出するアナ
ログ−デイジタル変換器(以下A/D変換器とい
う)である。15は認識登録処理を開始させるス
イツチ、16は認識候補音声を表示する認識結果
表示器である。
第3図は本実施例のマイクロコンピユータの動
作を説明するための要部のフローチヤートであ
る。以上の構成による本実施例の動作を、各登録
単語の標準パタンを3個ずつ用意した場合につい
て、詳細に説明する。
作を説明するための要部のフローチヤートであ
る。以上の構成による本実施例の動作を、各登録
単語の標準パタンを3個ずつ用意した場合につい
て、詳細に説明する。
本実施例による音声認識装置は、まずスイツチ
15を押すことにより、音声入力の待ち状態とな
る。音声が入力されると、ステツプ17により、音
声信号の入力処理を行なう。これはA/D変換器
9により、アナログーデイジタル変換された音声
信号がマイクロコンピユータ10に入力され、演
算制御部13で特徴ベクトルを抽出し、この特徴
ベクトルの時系列を記憶部12に記憶する。この
後、ステツプ18により、入力音声のエネルギー包
絡線上の主要なピークを検出し、ピーク数を記憶
部12に記憶する。ステツプ18のエネルギーピー
ク数の検出は、できるだけ母音部分のエネルギー
の高い所のピークを検出するために、低周波側
(例えば1KHz以下)の特徴ベクトルの総和をエネ
ルギー値と見なし、このエネルギーの包絡線上の
デイツプとピーク部分をまず検出する。このデイ
ツプ部分とピーク部分のエネルギーの差が、閾値
以上である時、これを1つのピークと見なし、全
体のエネルギー包絡線上のピーク数を計数してい
く。このピーク検出が終了すると、ステツプ19に
より、記憶部12に蓄えられた標準パタンと、入
力音声パタンとの間でパタンマツチング処理を行
ない、マツチング距離の小さなものから順に、第
1、第2候補の単語を選択する。
15を押すことにより、音声入力の待ち状態とな
る。音声が入力されると、ステツプ17により、音
声信号の入力処理を行なう。これはA/D変換器
9により、アナログーデイジタル変換された音声
信号がマイクロコンピユータ10に入力され、演
算制御部13で特徴ベクトルを抽出し、この特徴
ベクトルの時系列を記憶部12に記憶する。この
後、ステツプ18により、入力音声のエネルギー包
絡線上の主要なピークを検出し、ピーク数を記憶
部12に記憶する。ステツプ18のエネルギーピー
ク数の検出は、できるだけ母音部分のエネルギー
の高い所のピークを検出するために、低周波側
(例えば1KHz以下)の特徴ベクトルの総和をエネ
ルギー値と見なし、このエネルギーの包絡線上の
デイツプとピーク部分をまず検出する。このデイ
ツプ部分とピーク部分のエネルギーの差が、閾値
以上である時、これを1つのピークと見なし、全
体のエネルギー包絡線上のピーク数を計数してい
く。このピーク検出が終了すると、ステツプ19に
より、記憶部12に蓄えられた標準パタンと、入
力音声パタンとの間でパタンマツチング処理を行
ない、マツチング距離の小さなものから順に、第
1、第2候補の単語を選択する。
ステツプ20では、選択された第1候補、第2候
補単語が同じ単語であるか調べ、同じであれば、
さらにステツプ21に進み、第1候補、第2候補と
入力音声との距離差が閾値以下であれば、ステツ
プ22で、認識結果として認識候補単語等を認識結
果表示器16で表示する。ステツプ20,21の条件
を満たさなければ、パタンマツチングの結果は正
確でないと判断しステツプ17に戻る。
補単語が同じ単語であるか調べ、同じであれば、
さらにステツプ21に進み、第1候補、第2候補と
入力音声との距離差が閾値以下であれば、ステツ
プ22で、認識結果として認識候補単語等を認識結
果表示器16で表示する。ステツプ20,21の条件
を満たさなければ、パタンマツチングの結果は正
確でないと判断しステツプ17に戻る。
認識結果が得られると、現在の入力音声パタン
を標準パタンとして採用するために、入力音声が
認識結果と同一であるかを、以下に示す処理によ
り判断する。
を標準パタンとして採用するために、入力音声が
認識結果と同一であるかを、以下に示す処理によ
り判断する。
まず、ステツプ23で入力音声と第1候補のエネ
ルギーピーク数を比較し、同じであれば、ステツ
プ24で入力音声と第2候補のピーク数を比較す
る。ピーク数が同じであれば、入力音声のエネル
ギーパタンは認識結果のものと非常に類似してい
ると見なし次のステツプに進む。
ルギーピーク数を比較し、同じであれば、ステツ
プ24で入力音声と第2候補のピーク数を比較す
る。ピーク数が同じであれば、入力音声のエネル
ギーパタンは認識結果のものと非常に類似してい
ると見なし次のステツプに進む。
ステツプ25では、入力音声と第1候補との音声
長を比較する。これは、入力音声と第1候補の音
声長比Dを計算し、Dが、 1−a<D<1+a (0<a<1) の範囲に入つているかを調べる。この条件を満た
していると、さらにステツプ26により入力音声と
第2候補の音声長をステツプ25と同様に比較す
る。ここでaは、音声長比較のための閾値であ
る。
長を比較する。これは、入力音声と第1候補の音
声長比Dを計算し、Dが、 1−a<D<1+a (0<a<1) の範囲に入つているかを調べる。この条件を満た
していると、さらにステツプ26により入力音声と
第2候補の音声長をステツプ25と同様に比較す
る。ここでaは、音声長比較のための閾値であ
る。
これらの条件をすべて満たしている時に、入力
音声は、認識結果の単語と同一であると判断し、
ステツプ27で標準パタンの入れ換えを行なう。こ
の標準パタン入れ換えでは、パタンマツチングに
より得られた第1、第2候補の2個の標準パタン
の他の残りの標準パタンを、入力音声のパタンと
入れ換え、記憶部12に再び格納する。こうして
標準パタンは、新しいパタンに順次変更されてい
く。
音声は、認識結果の単語と同一であると判断し、
ステツプ27で標準パタンの入れ換えを行なう。こ
の標準パタン入れ換えでは、パタンマツチングに
より得られた第1、第2候補の2個の標準パタン
の他の残りの標準パタンを、入力音声のパタンと
入れ換え、記憶部12に再び格納する。こうして
標準パタンは、新しいパタンに順次変更されてい
く。
ステツプ23,24,25,26の条件文が満たされな
い場合は、ステツプ17に戻り音声入力待ち状態と
なる。
い場合は、ステツプ17に戻り音声入力待ち状態と
なる。
上記実施例の構成によれば、パタンマツチング
の結果と、エネルギーピークの情報、及び音声長
の比較結果を用い、認識結果が正確であると判断
された時に、標準パタンを新しいパタンに変更し
ていくことにより、話者の発声の時間変動に対応
することができる。
の結果と、エネルギーピークの情報、及び音声長
の比較結果を用い、認識結果が正確であると判断
された時に、標準パタンを新しいパタンに変更し
ていくことにより、話者の発声の時間変動に対応
することができる。
発明の効果
本発明は、入力音声のエネルギー包絡線上のピ
ークを検出するエネルギーピーク検出手段と、入
力音声と認識結果の標準パタンとの時間長を比較
する音声長比較手段を有し、パタンマツチングの
結果、第1、第2候補が同一で、入力音声の距離
差も小さく、またエネルギーピーク数がすべて一
致し、各音声長も一定範囲に納まつている時に、
認識結果は信用できると判断し、標準パタンの一
部を入力音声パタンと入れ換えることにより、話
者の発声の時間経過による変動に応じて標準パタ
ンを更新することのできる音声認識装置を提供で
きるものである。
ークを検出するエネルギーピーク検出手段と、入
力音声と認識結果の標準パタンとの時間長を比較
する音声長比較手段を有し、パタンマツチングの
結果、第1、第2候補が同一で、入力音声の距離
差も小さく、またエネルギーピーク数がすべて一
致し、各音声長も一定範囲に納まつている時に、
認識結果は信用できると判断し、標準パタンの一
部を入力音声パタンと入れ換えることにより、話
者の発声の時間経過による変動に応じて標準パタ
ンを更新することのできる音声認識装置を提供で
きるものである。
さらに、標準パタンが自動的に更新されていく
ことにより、登録をいちいちやり直す必要がなく
なり、長時間の使用にも十分に対応できる音声認
識装置が提供できるものである。
ことにより、登録をいちいちやり直す必要がなく
なり、長時間の使用にも十分に対応できる音声認
識装置が提供できるものである。
第1図は本発明の一実施例における音声認識装
置のブロツク図、第2図は同装置の構成を示す回
路図、第3図は同動作説明のための要部フローチ
ヤートである。 2……音声分析手段、3……エネルギーピーク
検出手段、4……認識手段、5……時間長比較手
段、6……パタン入れ換え手段、7……記憶手
段、8……マイクロホン、9……A/D変換器、
10……マイクロコンピユータ。
置のブロツク図、第2図は同装置の構成を示す回
路図、第3図は同動作説明のための要部フローチ
ヤートである。 2……音声分析手段、3……エネルギーピーク
検出手段、4……認識手段、5……時間長比較手
段、6……パタン入れ換え手段、7……記憶手
段、8……マイクロホン、9……A/D変換器、
10……マイクロコンピユータ。
Claims (1)
- 1 入力音声から特徴ベクトルを抽出する音声分
析手段と、前記音声分析手段より得られる特徴ベ
クトルからエネルギー包絡線を導き、この包絡線
上の主要なピーク数を検出するエネルギーピーク
検出手段と、各登録音声の特徴ベクトルの時系列
を標準パタンとして複数個記憶する記憶手段と、
前記記憶手段により記憶された登録音声の標準パ
タンと入力音声とのパタンマツチングにより認識
候補音声を導き出す認識手段と、入力音声と認識
候補音声との音声長を比較する音声長比較手段
と、前記認識手段によるパタンマツチングの結
果、上位2候補が同一単語で十分に入力音声に類
似し、前記エネルギーピーク検出手段によるピー
ク数が、入力音声、認識候補音声共一致し、かつ
前記音声長比較手段の結果両者の音声長がある範
囲内に納まつている時に、認識候補音声の上位2
候補以外の標準パタンの1つを入力音声パタンと
入れ換えるパタン入れ換え手段を備えたことを特
徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59107795A JPS60250400A (ja) | 1984-05-28 | 1984-05-28 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59107795A JPS60250400A (ja) | 1984-05-28 | 1984-05-28 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60250400A JPS60250400A (ja) | 1985-12-11 |
| JPH0570159B2 true JPH0570159B2 (ja) | 1993-10-04 |
Family
ID=14468221
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59107795A Granted JPS60250400A (ja) | 1984-05-28 | 1984-05-28 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60250400A (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56110500U (ja) * | 1980-01-25 | 1981-08-26 |
-
1984
- 1984-05-28 JP JP59107795A patent/JPS60250400A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60250400A (ja) | 1985-12-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3066920B2 (ja) | 音声認識方法及び装置 | |
| US4513436A (en) | Speech recognition system | |
| JP2002215187A (ja) | 音声認識方法及びその装置 | |
| JPH0570159B2 (ja) | ||
| KR20040010860A (ko) | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 | |
| JP3039453B2 (ja) | 音声認識装置 | |
| JP2003323196A (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
| JPH0585917B2 (ja) | ||
| JP2547541B2 (ja) | 単音節音声認識装置 | |
| JPS6131880B2 (ja) | ||
| JP2577891B2 (ja) | 単語音声予備選択装置 | |
| JPH01290000A (ja) | 音声認識方式 | |
| JPS59224900A (ja) | 音声認識方法 | |
| JPS62111295A (ja) | 音声認識装置 | |
| JP3473704B2 (ja) | 音声認識装置 | |
| JPS63173100A (ja) | キ−ワ−ド抽出装置 | |
| JPH0247756B2 (ja) | ||
| JPS59173884A (ja) | パタ−ン比較装置 | |
| JPH0333280B2 (ja) | ||
| JPH06100919B2 (ja) | 音声認識装置 | |
| JPS6250800A (ja) | 音声認識装置 | |
| JPH0449719B2 (ja) | ||
| JPS63223694A (ja) | 単音節登録・認識方式 | |
| JPH04260100A (ja) | 音声認識装置 | |
| JPH113092A (ja) | 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 |