JPS6328319B2 - - Google Patents
Info
- Publication number
- JPS6328319B2 JPS6328319B2 JP2551380A JP2551380A JPS6328319B2 JP S6328319 B2 JPS6328319 B2 JP S6328319B2 JP 2551380 A JP2551380 A JP 2551380A JP 2551380 A JP2551380 A JP 2551380A JP S6328319 B2 JPS6328319 B2 JP S6328319B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- audio
- data
- pattern
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000005070 sampling Methods 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Description
【発明の詳細な説明】
本発明は、パターンマツチング法に基づく単語
音声認識装置に関し、音声信号の新規な時間軸整
合方式を提供するものである。
音声認識装置に関し、音声信号の新規な時間軸整
合方式を提供するものである。
パターンマツチングの原理による単語音声認識
システムは、通常第1図に示す如く、音声入力部
1、特徴抽出部2、認識処理部3、登録パターン
メモリ4、並びに入力パターンメモリ5を主要な
構成要素とし、登録モードと認識モードの2つの
動作モードを有する。登録モードは、認識すべき
単語音声をあらかじめ登録するものであつて、マ
イクロフオンを含む音声入力部1の出力である登
録音声信号から特徴抽出部2により抽出された音
音の特徴が時系列パターンとして登録パターンメ
モリ(又は標準パターンメモリとも言う)4にフ
アイルされるものである。また認識モードでは、
入力音声信号から同様に抽出された音声の特徴パ
ターンが入力パターンメモリ5に記憶された後、
この入力パターンと登録パターンメモリ4に記載
されている登録パターンとの類似度が認識処理部
3で計算され、その結果として得られる類似度の
最大の登録パターンが入力音声と一致するものと
して固定され、これに相応して適当に出力がなさ
れる。このような機能を有する第1図の認識処理
部3と登録パターンメモリ4、入力パターンメモ
リ5の構成は、中央演算処理装置(CPU)を中
心とするコンピユータシステムにより具体化され
る。
システムは、通常第1図に示す如く、音声入力部
1、特徴抽出部2、認識処理部3、登録パターン
メモリ4、並びに入力パターンメモリ5を主要な
構成要素とし、登録モードと認識モードの2つの
動作モードを有する。登録モードは、認識すべき
単語音声をあらかじめ登録するものであつて、マ
イクロフオンを含む音声入力部1の出力である登
録音声信号から特徴抽出部2により抽出された音
音の特徴が時系列パターンとして登録パターンメ
モリ(又は標準パターンメモリとも言う)4にフ
アイルされるものである。また認識モードでは、
入力音声信号から同様に抽出された音声の特徴パ
ターンが入力パターンメモリ5に記憶された後、
この入力パターンと登録パターンメモリ4に記載
されている登録パターンとの類似度が認識処理部
3で計算され、その結果として得られる類似度の
最大の登録パターンが入力音声と一致するものと
して固定され、これに相応して適当に出力がなさ
れる。このような機能を有する第1図の認識処理
部3と登録パターンメモリ4、入力パターンメモ
リ5の構成は、中央演算処理装置(CPU)を中
心とするコンピユータシステムにより具体化され
る。
音声波形の中から、音声の音韻的特徴を抽出す
る方法としては、周波数スペクトル、相関関数、
ゼロ交差数、αパラメータなどの物理量が用いら
れている事は周知の通りである。このうち、音声
の周波数スペクトルを多数のバンドパスフイルタ
を用いて抽出する方式は、比較的簡単な構成で高
い認識率が得られるので、多用されつつある。
る方法としては、周波数スペクトル、相関関数、
ゼロ交差数、αパラメータなどの物理量が用いら
れている事は周知の通りである。このうち、音声
の周波数スペクトルを多数のバンドパスフイルタ
を用いて抽出する方式は、比較的簡単な構成で高
い認識率が得られるので、多用されつつある。
第2図は周波数スペクトルをフイルタにより分
析する方式の音声認識装置の具体例である。音声
入力部1は、マイクロフオン11、マイクアンプ
12及び入力音声信号のレベルを入力音声の強弱
にかかわらず略一定に保つAGC回路13から成
る。この入力部1の出力に接続する、M個の帯域
通過フイルタ(以下BPFと略記)21−1,2
1−2……21−M及び該各BPFに縦続し各出
力エンベロープを検出する低域通過フイルタ(以
下LPFと略記)22−1,22−2,22−M
は特徴抽出部2を構成しており、音声帯域信号を
周波数分析するものである。音声入部1を経た音
声信号の各フイルタ成分は適当な時間周期(多く
の場合10〜20msec)で順次マルチプレクサ23
によりサンプリングされる。即ち、LPF22−
1,22−2,……22−Mの出力端に並列的に
得られる音声のスペクトル信号は直列信号列とな
り、引き続いて順次アナログデジタル変換器24
(以下A−D変換器と略記)によつてデジタルコ
ードに変換され、CPU31に制御されるI/O
ポート32を経てバツフアメモリ33に一旦取り
込まれる。このデータ量は、例えばフイルタの個
数(M)を8、音声の最大入力時間を1.6秒、サ
ンプリング周期を10msec、A−D変換器24の
ビツト小数を8としたとき最大取り込みデータ量
は、 1.6/0.01×8×8=10240 bit=1.28KB(B:byte) である。
析する方式の音声認識装置の具体例である。音声
入力部1は、マイクロフオン11、マイクアンプ
12及び入力音声信号のレベルを入力音声の強弱
にかかわらず略一定に保つAGC回路13から成
る。この入力部1の出力に接続する、M個の帯域
通過フイルタ(以下BPFと略記)21−1,2
1−2……21−M及び該各BPFに縦続し各出
力エンベロープを検出する低域通過フイルタ(以
下LPFと略記)22−1,22−2,22−M
は特徴抽出部2を構成しており、音声帯域信号を
周波数分析するものである。音声入部1を経た音
声信号の各フイルタ成分は適当な時間周期(多く
の場合10〜20msec)で順次マルチプレクサ23
によりサンプリングされる。即ち、LPF22−
1,22−2,……22−Mの出力端に並列的に
得られる音声のスペクトル信号は直列信号列とな
り、引き続いて順次アナログデジタル変換器24
(以下A−D変換器と略記)によつてデジタルコ
ードに変換され、CPU31に制御されるI/O
ポート32を経てバツフアメモリ33に一旦取り
込まれる。このデータ量は、例えばフイルタの個
数(M)を8、音声の最大入力時間を1.6秒、サ
ンプリング周期を10msec、A−D変換器24の
ビツト小数を8としたとき最大取り込みデータ量
は、 1.6/0.01×8×8=10240 bit=1.28KB(B:byte) である。
さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路13がしばしば用いられる事はさきに
述べた通りであるが、時間軸については単語音声
の始端から終端までの時間を等分割する第3図の
如き方法が一般的である。音声信号の始終端につ
いては音声検出回路25が入力信号のレベル、周
波数分布零交差数などのデータをもとにこれを検
出する。第3図に於て入力音声信号の始端のサン
プリングポイント番号を1、終端をlとしたと
き、l/N(Nは整数)に最も近い整数を求め
(これをnとする)、入力サンプリングデータのう
ち始端を含めn個おきにN個のデータを取り出し
て並べなおす(第3図b)ことにより時間軸の正
規化が可能となる。ここで例えばN=32とする
と、この場合、 N×8×8=2048 bits=256 B のデータが登録モードに於ては登録パターンメモ
リ40に認識モードに於ては入力パターンメモリ
50にそれぞれ記憶される。これらメモリは通常
RAMであり、登録パターンメモリ40の番地
(アドレス)はCPUのプログラムを記憶する
ROM34及び入力制御部35によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路13がしばしば用いられる事はさきに
述べた通りであるが、時間軸については単語音声
の始端から終端までの時間を等分割する第3図の
如き方法が一般的である。音声信号の始終端につ
いては音声検出回路25が入力信号のレベル、周
波数分布零交差数などのデータをもとにこれを検
出する。第3図に於て入力音声信号の始端のサン
プリングポイント番号を1、終端をlとしたと
き、l/N(Nは整数)に最も近い整数を求め
(これをnとする)、入力サンプリングデータのう
ち始端を含めn個おきにN個のデータを取り出し
て並べなおす(第3図b)ことにより時間軸の正
規化が可能となる。ここで例えばN=32とする
と、この場合、 N×8×8=2048 bits=256 B のデータが登録モードに於ては登録パターンメモ
リ40に認識モードに於ては入力パターンメモリ
50にそれぞれ記憶される。これらメモリは通常
RAMであり、登録パターンメモリ40の番地
(アドレス)はCPUのプログラムを記憶する
ROM34及び入力制御部35によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。
認識モードに於ける認識処理は、同様にバツフ
アメモリ33に入力したデータから得られたNサ
ンプル点のデータを記憶する入力パターンメモリ
50の内容と登録パターンの内容とをパターンマ
ツチングすることにより行なわれる。入力パター
ンと登録パターンの距離計算方式には各種の方式
が提案されているが、ここでは説明の便宜上最も
単純な方式であるチエビシエフ距離により説明す
る。ある単語音声の登録パターンの8個のフイル
タの時系列〔fij(R)〕(i:フイルタ番号1〜8、
j:サンプルポイント1〜N)と入力音声パター
ンの同じくフイルタ時系列〔fij〕のチエビシエ
フ距離Dは次式で定義される。
アメモリ33に入力したデータから得られたNサ
ンプル点のデータを記憶する入力パターンメモリ
50の内容と登録パターンの内容とをパターンマ
ツチングすることにより行なわれる。入力パター
ンと登録パターンの距離計算方式には各種の方式
が提案されているが、ここでは説明の便宜上最も
単純な方式であるチエビシエフ距離により説明す
る。ある単語音声の登録パターンの8個のフイル
タの時系列〔fij(R)〕(i:フイルタ番号1〜8、
j:サンプルポイント1〜N)と入力音声パター
ンの同じくフイルタ時系列〔fij〕のチエビシエ
フ距離Dは次式で定義される。
D=N
〓j=1 8
〓i=1
|fij−fij(R)| ………(1)
即ちこれは入力パターンfijと登録パターンfij(R)の
各対応するデータの差の絶対値の総和であり、各
登録パターンについて得られたチエビシエフ距離
の中で最小値が得られる登録パターンと、入力パ
ターンは一致するものとみなされる。これらの計
算結果の一時記憶の為のメモリ領域を説明の便宜
上特に認識処理用メモリ36として図示した。
各対応するデータの差の絶対値の総和であり、各
登録パターンについて得られたチエビシエフ距離
の中で最小値が得られる登録パターンと、入力パ
ターンは一致するものとみなされる。これらの計
算結果の一時記憶の為のメモリ領域を説明の便宜
上特に認識処理用メモリ36として図示した。
以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では、音声の始端
が常に正確に検出される事が必要である。音声の
始端検出の方法については前述の通りであるが、
通常音声の始端部はいずれの特徴抽出パラメータ
も比較的不安定な振舞を示すことが知られており
実際はかなりの誤差を伴う。例えば、音声の始端
を、音声信号振巾が一定値を越える事により検知
する形式のものについて具体的に示したデータが
第4図である。同図は数字の「1」を「ichi」と
発声した時の信号振巾(半波)であるが、発声の
仕方に応じて始端部の振巾はこの図のように大巾
に変る。第4図aは〔i〕と〔chi〕にほぼ均等
にアクセントをかけた発声であり、同図bは、は
じめの〔i〕を軽く、(通常の会話ではこの場合
が多くほとんど「chi」と聞こえるのは我々のよ
く経験するところである。)発声したものである。
図示の始端検出レベルに対し、始端P1は発声の
状態により図のように変化する。
づく音声認識システムの従来例では、音声の始端
が常に正確に検出される事が必要である。音声の
始端検出の方法については前述の通りであるが、
通常音声の始端部はいずれの特徴抽出パラメータ
も比較的不安定な振舞を示すことが知られており
実際はかなりの誤差を伴う。例えば、音声の始端
を、音声信号振巾が一定値を越える事により検知
する形式のものについて具体的に示したデータが
第4図である。同図は数字の「1」を「ichi」と
発声した時の信号振巾(半波)であるが、発声の
仕方に応じて始端部の振巾はこの図のように大巾
に変る。第4図aは〔i〕と〔chi〕にほぼ均等
にアクセントをかけた発声であり、同図bは、は
じめの〔i〕を軽く、(通常の会話ではこの場合
が多くほとんど「chi」と聞こえるのは我々のよ
く経験するところである。)発声したものである。
図示の始端検出レベルに対し、始端P1は発声の
状態により図のように変化する。
このような音声始端の検出誤差は、前述の如く
音声の始終端の時間軸を等分割することにより時
間軸正規化を行う形式の音声認識システムに於て
は、パターンマツチングの際の計算誤差に直接関
係し、システムの認識性能を損う事は容易に理解
できる。
音声の始終端の時間軸を等分割することにより時
間軸正規化を行う形式の音声認識システムに於て
は、パターンマツチングの際の計算誤差に直接関
係し、システムの認識性能を損う事は容易に理解
できる。
本発明は音声信号の始端、終端を音声信号振巾
により検知する形式のものに関し、信号振巾の極
大点を示す時間的相対位置が発声の方法によらず
ほぼ一定している事実を利用して、これを時間基
準として導入することにより、より正確な時間軸
の正規化方式を提供せんとするものである。
により検知する形式のものに関し、信号振巾の極
大点を示す時間的相対位置が発声の方法によらず
ほぼ一定している事実を利用して、これを時間基
準として導入することにより、より正確な時間軸
の正規化方式を提供せんとするものである。
第5図は本発明装置の構成を示すブロツク図で
あり、第2図に示した従来装置と相違するところ
は、A−D変換器24とI/Oポート32との間
に音声信号の極大値を検出するピーク検出回路2
7を配挿した点、並びに入力部1とマルチプレク
サ23との間に入力部1からの全音域音声信号の
信号振巾エンベロープを検出する全域LPF26
に依るバイパス路を設けた点にある。このピーク
検出回路27は、入力信号の最初のピーク位置を
検出し、タイミング信号をI/Oポート32を介
してCPU31に伝達する。尚、この第5図の構
成物は第2図のものと殆どが同一であるので、そ
れ等の点に就いての詳細な説明は省略する。これ
により該CPU31は入力信号の最初のピーク位
置のサンプリングポイント番号mを知る。続いて
CPU31は、バツフアメモリ33に全サンプリ
ングデータを格納後、時間軸正規化を行う時、
m/p、l−m/Q(p、Qは整数、lは終端サ
ンプリングポイント番号)にそれぞれ最も近い整
数を求め(これをそれぞれp、qとする)サンプ
リング番号1〜mまでのデータについてはp個お
きにP個のデータを、サンプリング番号(m+
1)〜lのデータについてはq個おきにQ個のデ
ータをそれぞれ抽出し、合計(P+Q)個のデー
タを登録パターンメモリ40或いは入力パターン
メモリ50に入れる。音声信号の最初のピーク位
置は通常の場合ほとんど音声の開始点の近くにあ
るのでP<Qであり、かつ第2図従来装置の例と
対比すると正規化データ数P+QはほぼNに等し
い。
あり、第2図に示した従来装置と相違するところ
は、A−D変換器24とI/Oポート32との間
に音声信号の極大値を検出するピーク検出回路2
7を配挿した点、並びに入力部1とマルチプレク
サ23との間に入力部1からの全音域音声信号の
信号振巾エンベロープを検出する全域LPF26
に依るバイパス路を設けた点にある。このピーク
検出回路27は、入力信号の最初のピーク位置を
検出し、タイミング信号をI/Oポート32を介
してCPU31に伝達する。尚、この第5図の構
成物は第2図のものと殆どが同一であるので、そ
れ等の点に就いての詳細な説明は省略する。これ
により該CPU31は入力信号の最初のピーク位
置のサンプリングポイント番号mを知る。続いて
CPU31は、バツフアメモリ33に全サンプリ
ングデータを格納後、時間軸正規化を行う時、
m/p、l−m/Q(p、Qは整数、lは終端サ
ンプリングポイント番号)にそれぞれ最も近い整
数を求め(これをそれぞれp、qとする)サンプ
リング番号1〜mまでのデータについてはp個お
きにP個のデータを、サンプリング番号(m+
1)〜lのデータについてはq個おきにQ個のデ
ータをそれぞれ抽出し、合計(P+Q)個のデー
タを登録パターンメモリ40或いは入力パターン
メモリ50に入れる。音声信号の最初のピーク位
置は通常の場合ほとんど音声の開始点の近くにあ
るのでP<Qであり、かつ第2図従来装置の例と
対比すると正規化データ数P+QはほぼNに等し
い。
凹凸のある信号の極大点位置を検出することは
容易である。第6図は、第5図ピーク位置検出回
路27の具体的実施例である。全域LPF26に
より検出された信号振巾エンベロープは、マルチ
プレクサ23、A−D変換器24を経てデジタル
コードとしてラツチ回路271に入力される。こ
の第6図の場合A−D変換器24の出力は8ビツ
トのパラレルコードであり、ラツチ回路271は
これをアナログマルチプレクサ23が全域LPF
26の出力をサンプリングするタイミングと同期
して、これのA−D変換コードをラツチし、続い
て適当な時間差をもつてその内容を縦続するラツ
チ回路272に転送する。従つて第一のラツチ回
路271がK番目のサンプリングポイントのデー
タをラツチした時、第2のラツチ回路272は
(K−1)番目のサンプリングデータを保持して
いることになる。ラツチ回路272に記憶されて
いる8ビツトデータは補数回路273を経て2の
補数表現に変換された後、加算回路274により
第1のラツチ回路271のデジタルコードに加え
られる。即ち第一と第二のラツチ回路271,2
72の内容の差が計算される訳で、該加算回路2
74の出力コードの最上位桁(MSB)はその結
果の符号を示す。MSBが「O」のとき減算の結
果は「0」又は正「1」の時は負である。この
MSBは図示のようにこれらラツチ回路の転送ク
ロツクに応動してその内容を1ビツトラツチ回路
275に転送し、この1ビツトラツチ回路275
の内容と前記MSBとが排他論理(EXCLSUIVE
NOR)ゲート276を介して出力される。この
構成により、第一第二のラツチ回路271,27
2に順欠入力するサンプリングデータの差分に変
化が起つた時、排他論理ゲート276は論理
「1」を出力し、この時前記加算回路274の
MSB277が論理「1」であればサンプリング
データ列の差分の変化は凸、即ち極大点があつた
事になり、論理和(AND)ゲート278の出力
によりこれを知ることができる。尚加算回路27
4の出力が「0」であれば、論理和ゲート279
がこれを検知し、インバータ280ANDゲート
281を介し第2のラツチ回路272のデータ保
持、及びMSB277の内容の1ビツトラツチ回
路275への転送を停止する。これにより波形の
一時的平坦部(plateau)を極値と誤判断するこ
とを避ける事が出来る。
容易である。第6図は、第5図ピーク位置検出回
路27の具体的実施例である。全域LPF26に
より検出された信号振巾エンベロープは、マルチ
プレクサ23、A−D変換器24を経てデジタル
コードとしてラツチ回路271に入力される。こ
の第6図の場合A−D変換器24の出力は8ビツ
トのパラレルコードであり、ラツチ回路271は
これをアナログマルチプレクサ23が全域LPF
26の出力をサンプリングするタイミングと同期
して、これのA−D変換コードをラツチし、続い
て適当な時間差をもつてその内容を縦続するラツ
チ回路272に転送する。従つて第一のラツチ回
路271がK番目のサンプリングポイントのデー
タをラツチした時、第2のラツチ回路272は
(K−1)番目のサンプリングデータを保持して
いることになる。ラツチ回路272に記憶されて
いる8ビツトデータは補数回路273を経て2の
補数表現に変換された後、加算回路274により
第1のラツチ回路271のデジタルコードに加え
られる。即ち第一と第二のラツチ回路271,2
72の内容の差が計算される訳で、該加算回路2
74の出力コードの最上位桁(MSB)はその結
果の符号を示す。MSBが「O」のとき減算の結
果は「0」又は正「1」の時は負である。この
MSBは図示のようにこれらラツチ回路の転送ク
ロツクに応動してその内容を1ビツトラツチ回路
275に転送し、この1ビツトラツチ回路275
の内容と前記MSBとが排他論理(EXCLSUIVE
NOR)ゲート276を介して出力される。この
構成により、第一第二のラツチ回路271,27
2に順欠入力するサンプリングデータの差分に変
化が起つた時、排他論理ゲート276は論理
「1」を出力し、この時前記加算回路274の
MSB277が論理「1」であればサンプリング
データ列の差分の変化は凸、即ち極大点があつた
事になり、論理和(AND)ゲート278の出力
によりこれを知ることができる。尚加算回路27
4の出力が「0」であれば、論理和ゲート279
がこれを検知し、インバータ280ANDゲート
281を介し第2のラツチ回路272のデータ保
持、及びMSB277の内容の1ビツトラツチ回
路275への転送を停止する。これにより波形の
一時的平坦部(plateau)を極値と誤判断するこ
とを避ける事が出来る。
以上の説明から明らかな如く、本発明は入力音
声信号の時間軸を正規化するに際し、比較的音声
エネルギーの安定した信号振巾の第一のピークを
基準とし、該ピークと音声始端、終端の音声信号
を各一定個数サンプリングするものであるので、
始端検出に伴なう時間的誤差の影響の比較的少な
いパターンマツチング照合を可能とすることがで
き、ひいてはこの種音声認識システムの認識性能
を向上せしめ得るものである。
声信号の時間軸を正規化するに際し、比較的音声
エネルギーの安定した信号振巾の第一のピークを
基準とし、該ピークと音声始端、終端の音声信号
を各一定個数サンプリングするものであるので、
始端検出に伴なう時間的誤差の影響の比較的少な
いパターンマツチング照合を可能とすることがで
き、ひいてはこの種音声認識システムの認識性能
を向上せしめ得るものである。
第1図はパターンマツチングの原理に依る単語
音声認識装置の概略を示すブロツク図、第2図は
その内部構成を示すブロツク図、第3図a,bは
音声信号の波形図、第4図a,bは代表的音声の
一例を示す波形図、第5図は本発明装置の構成を
示すブロツク図、第6図はその要部の構成を示す
ブロツク図並びに各部の信号波形図であつて、1
は入力部、2は特徴抽出部、3は認識処理部、4
は登録パターンメモリ、5は入力パターンメモ
リ、21はBPF、22はLPF、23はマルチプ
レクサ、24はA−D変換器、25は音声検出回
路、26は全域LPF、27はピーク検出回路、
を夫々示している。
音声認識装置の概略を示すブロツク図、第2図は
その内部構成を示すブロツク図、第3図a,bは
音声信号の波形図、第4図a,bは代表的音声の
一例を示す波形図、第5図は本発明装置の構成を
示すブロツク図、第6図はその要部の構成を示す
ブロツク図並びに各部の信号波形図であつて、1
は入力部、2は特徴抽出部、3は認識処理部、4
は登録パターンメモリ、5は入力パターンメモ
リ、21はBPF、22はLPF、23はマルチプ
レクサ、24はA−D変換器、25は音声検出回
路、26は全域LPF、27はピーク検出回路、
を夫々示している。
Claims (1)
- 1 音声を電気信号に変換する音声入力手段と、
入力音声波形の特徴を抽出する特徴抽出手段と、
サンプリング手段と、サンプリングされた音声の
特徴をデイジタルコードに変換する変換手段と、
音声信号の始終端を検出する手段と、音声信号の
最初のピーク位置を検出する手段と、上記デイジ
タルコードのうち音声の始端から終端までのサン
プル列を記憶する手段と、この記憶手段に記憶さ
れたサンプル列について、音声の始端から最初の
ピーク位置の間のサンプルから等間隔に一定個数
のサンプルデータを抽出しかつ同じくビーク位置
と音声の終端の間のサンプルから等間隔に別途一
定個数のサンプルデータを夫々抽出するサンプル
データ抽出手段と、予め登録の為に入力した音声
の特徴を記憶する登録パターン記憶手段と、音声
の入力の都度その入力音声の特徴を記憶する入力
パターン記憶手段と、これら登録パターン記憶手
段の内容と入力パターン記憶手段の内容との類似
度を計算する認識処理手段とから成るパターンマ
ツチング法を用いた単語音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2551380A JPS56122098A (en) | 1980-02-29 | 1980-02-29 | Word voice identifying device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2551380A JPS56122098A (en) | 1980-02-29 | 1980-02-29 | Word voice identifying device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS56122098A JPS56122098A (en) | 1981-09-25 |
| JPS6328319B2 true JPS6328319B2 (ja) | 1988-06-08 |
Family
ID=12168134
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2551380A Granted JPS56122098A (en) | 1980-02-29 | 1980-02-29 | Word voice identifying device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS56122098A (ja) |
-
1980
- 1980-02-29 JP JP2551380A patent/JPS56122098A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS56122098A (en) | 1981-09-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0077194B1 (en) | Speech recognition system | |
| US5056150A (en) | Method and apparatus for real time speech recognition with and without speaker dependency | |
| KR910002198B1 (ko) | 음성인식방법과 그 장치 | |
| US4720863A (en) | Method and apparatus for text-independent speaker recognition | |
| JPS5844500A (ja) | 音声認識方式 | |
| JPS6328319B2 (ja) | ||
| JPH04369698A (ja) | 音声認識方式 | |
| JPS6328320B2 (ja) | ||
| JP2666296B2 (ja) | 音声認識装置 | |
| JP2975808B2 (ja) | 音声認識装置 | |
| JPS63220199A (ja) | 音声認識装置 | |
| JPH0319560B2 (ja) | ||
| JPS5888797A (ja) | 音声認識装置 | |
| JPS6148720B2 (ja) | ||
| JPS61290496A (ja) | 音声認識装置 | |
| JPS625298A (ja) | 音声認識装置 | |
| JPS59204895A (ja) | 音声認識装置 | |
| JPS61281298A (ja) | 音声認識装置 | |
| JPS63257797A (ja) | 音声始端検出装置 | |
| JPS59124388A (ja) | 単語音声認識処理方式 | |
| JPH0229700A (ja) | 音声パターン照合方式 | |
| JPH01269998A (ja) | 音声認識装置の辞書作成方式 | |
| JPS59124392A (ja) | 音声認識方式 | |
| JPS5988797A (ja) | 音声認識方式 | |
| JPS6120099A (ja) | 音韻セグメンテ−シヨン装置 |