JPS5923400A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS5923400A JPS5923400A JP57133573A JP13357382A JPS5923400A JP S5923400 A JPS5923400 A JP S5923400A JP 57133573 A JP57133573 A JP 57133573A JP 13357382 A JP13357382 A JP 13357382A JP S5923400 A JPS5923400 A JP S5923400A
- Authority
- JP
- Japan
- Prior art keywords
- data
- turn
- input
- voice
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は、入力音声信号による命令、即ち話者の音声波
から抽出された物理量の時系列を特徴・Pターンとして
とらえ、これをあらかじめ登録された・ぐターンと比較
して音声信号による命令を認知する所謂、パターンマツ
チング法にょかのtrを徴を抽出した後前られる特徴(
入力)パターンとあらかじめ登録されている登録・やタ
ーンとの類似度を直接1算する方式と、前記音声信号か
ら1特徴を抽出した後にこれを音韻系列に置きかえ、こ
れとあらかじめ登録されている単語辞■(・9ターン)
とを比較して類似度をQ IFIする方式の2つの方式
に大別される。これら2つの方式のうち、後者は音韻単
位の識別を行うだめKSΦ語数が多、い場合の音声認識
に優位である。しかし、単語数がさほど多くない場合に
は、前者による・セターンマッチング認識の方カ一般に
高い認識率が得られる。
から抽出された物理量の時系列を特徴・Pターンとして
とらえ、これをあらかじめ登録された・ぐターンと比較
して音声信号による命令を認知する所謂、パターンマツ
チング法にょかのtrを徴を抽出した後前られる特徴(
入力)パターンとあらかじめ登録されている登録・やタ
ーンとの類似度を直接1算する方式と、前記音声信号か
ら1特徴を抽出した後にこれを音韻系列に置きかえ、こ
れとあらかじめ登録されている単語辞■(・9ターン)
とを比較して類似度をQ IFIする方式の2つの方式
に大別される。これら2つの方式のうち、後者は音韻単
位の識別を行うだめKSΦ語数が多、い場合の音声認識
に優位である。しかし、単語数がさほど多くない場合に
は、前者による・セターンマッチング認識の方カ一般に
高い認識率が得られる。
認識される単語数が数10程度の規(Qの前記パターン
アッチングによる音声認識ンステムとしては、民生機器
においては例えば、テレビジ欝ン受像機を音声によって
制御する。場合が挙げられる。っまシ、テレビジョン受
像機の電源制御、音量制御、チャンネル切替等の制御を
、あらかじめ音声認識装置に制御内容を表わす言葉の音
声を登録しておき一1応答装置には認識応答ど[7て音
声を記憶させておき、音声命令と登録された制御内容と
を照合して一致すると制御内容を認識したことを音声に
よって返答するとともに所定の制御をするような場合で
ある。例えば、チャンネル切替制御において、1チヤン
ネルを選ぶ場合、あらかじめ「1チヤンネル」という音
声を登録パターンとして記憶しておいだときに、音声命
令を受信するマイクに向い「1チ、Yンネル」という音
声命令を下すと音声応答で「メークー(o rOJと返
答し、1チヤンネルが選局される。
アッチングによる音声認識ンステムとしては、民生機器
においては例えば、テレビジ欝ン受像機を音声によって
制御する。場合が挙げられる。っまシ、テレビジョン受
像機の電源制御、音量制御、チャンネル切替等の制御を
、あらかじめ音声認識装置に制御内容を表わす言葉の音
声を登録しておき一1応答装置には認識応答ど[7て音
声を記憶させておき、音声命令と登録された制御内容と
を照合して一致すると制御内容を認識したことを音声に
よって返答するとともに所定の制御をするような場合で
ある。例えば、チャンネル切替制御において、1チヤン
ネルを選ぶ場合、あらかじめ「1チヤンネル」という音
声を登録パターンとして記憶しておいだときに、音声命
令を受信するマイクに向い「1チ、Yンネル」という音
声命令を下すと音声応答で「メークー(o rOJと返
答し、1チヤンネルが選局される。
しかし、ここで問題となるのは、「1チヤンネル」と1
4声命令を下した時に、これと音声が類似する「8チヤ
ンネル」という音声命令が制御・2ターン(登録・千タ
ーン)として登録されている点である。即ち、「イt」
と「ハチ」の両者の音声は類似しておυ、「イチ」と「
ハチ」とを誤甘って音声認識するのをいかに防止するか
が問題となる。これは、「イチ」という語と「ハチ」と
いう語において、「チ」の発音部分の音声エネルギーが
大きい為に、「イ」と「ノ・」を区別するのが困難にな
ることに起因する。一般に、一つの単語の中にアクセン
トをもつ音声があると、その部分に11声エネルギーが
集中し、他の部分の音声情報の認識が困難とな、イ)。
4声命令を下した時に、これと音声が類似する「8チヤ
ンネル」という音声命令が制御・2ターン(登録・千タ
ーン)として登録されている点である。即ち、「イt」
と「ハチ」の両者の音声は類似しておυ、「イチ」と「
ハチ」とを誤甘って音声認識するのをいかに防止するか
が問題となる。これは、「イチ」という語と「ハチ」と
いう語において、「チ」の発音部分の音声エネルギーが
大きい為に、「イ」と「ノ・」を区別するのが困難にな
ることに起因する。一般に、一つの単語の中にアクセン
トをもつ音声があると、その部分に11声エネルギーが
集中し、他の部分の音声情報の認識が困難とな、イ)。
(・ηっで、音声認識に際して(よ、音声fi令の強音
以外の部分の情報を失うことなく特徴(入力)・?ター
ンと登録・ぞターンとの比較をしなければならない。
以外の部分の情報を失うことなく特徴(入力)・?ター
ンと登録・ぞターンとの比較をしなければならない。
寸だ、話者が音声を発生する1局合、同じ岸語を発声し
ても、発声するたびに振幅が変化する。
ても、発声するたびに振幅が変化する。
従って音声認識に際してシよ、振幅が変化し−Cも同じ
tlj語でちれば常に同じノ?ターンがイ1)られるよ
うにしなければならない。
tlj語でちれば常に同じノ?ターンがイ1)られるよ
うにしなければならない。
まだ、制?+111内容を音声によって登録・ぐターン
として登録する際の音声と、音声命令として発する音声
の発生速度は必ずしも一致しない。このことtell、
ある単語を登録した後、その単語を丙度同じように発声
しても単語長は異なることを意味する。この為、入カッ
?ターンと登録IPターン間の類似度を評価するに際し
ては、時間←11についても考慮しなければ誤認識がな
される。
として登録する際の音声と、音声命令として発する音声
の発生速度は必ずしも一致しない。このことtell、
ある単語を登録した後、その単語を丙度同じように発声
しても単語長は異なることを意味する。この為、入カッ
?ターンと登録IPターン間の類似度を評価するに際し
ては、時間←11についても考慮しなければ誤認識がな
される。
第1図はパターンマツチング法に基づいた音声昭識装(
1¥を示すブロック図である。発声による音圧振動をマ
イクロフォンで電気信号に変換し、更に前記音声の周波
数分布を平坦化する機能を有する音声入力部1、この音
声入力部1により得られる電気信号に変換された音声信
号からその特徴を抽出する特徴抽出部2、この特徴抽出
部2により一抽出された特徴を記憶するとともにこれと
入カバターンとの比較の演算処理を行ない音声−による
制御命令を判別する認識処理部3を有し、?li’l仰
命令が認識されたことを音声により応答する音声応答部
4が必要によっては付加される。この音声応答部4は、
応答すべきn′葉を・9ターンとして記憶しであるメモ
リ7;i;401、第2の110(入出力)ポート40
2、制御部403、D / A変換器404、ローパス
フィルタ405を有しており、話者の音声指令が認知さ
れたことをテレビジョン受像機406笠の被制御機器の
音声回路から音声により応答する。
1¥を示すブロック図である。発声による音圧振動をマ
イクロフォンで電気信号に変換し、更に前記音声の周波
数分布を平坦化する機能を有する音声入力部1、この音
声入力部1により得られる電気信号に変換された音声信
号からその特徴を抽出する特徴抽出部2、この特徴抽出
部2により一抽出された特徴を記憶するとともにこれと
入カバターンとの比較の演算処理を行ない音声−による
制御命令を判別する認識処理部3を有し、?li’l仰
命令が認識されたことを音声により応答する音声応答部
4が必要によっては付加される。この音声応答部4は、
応答すべきn′葉を・9ターンとして記憶しであるメモ
リ7;i;401、第2の110(入出力)ポート40
2、制御部403、D / A変換器404、ローパス
フィルタ405を有しており、話者の音声指令が認知さ
れたことをテレビジョン受像機406笠の被制御機器の
音声回路から音声により応答する。
14声入力部1において、入力音声は、ワイヤレスマイ
ク11によりFM波に変換した後FN4受信機12で受
信してプリアンプ13に入力する形態と、前記プリアン
プ13前段に設けたマイクロフォン14に工って入力す
る形態のいずれかによりシステムにとり入れられる。こ
れらいずれの形態の場合においても、認識に必要な音声
信号とそれ以外の音響信号との比であるSN比は、主と
してマイクロフォンの指向性に左右されるのでマイクロ
フォン11.14は単一指向性のものを用いる。プリア
ンプ13に得られる電気信号に変換された音声信けは、
単音節明瞭度を向上するだめ高音域をフ0リエンファシ
ス回路15によυ強調する。
ク11によりFM波に変換した後FN4受信機12で受
信してプリアンプ13に入力する形態と、前記プリアン
プ13前段に設けたマイクロフォン14に工って入力す
る形態のいずれかによりシステムにとり入れられる。こ
れらいずれの形態の場合においても、認識に必要な音声
信号とそれ以外の音響信号との比であるSN比は、主と
してマイクロフォンの指向性に左右されるのでマイクロ
フォン11.14は単一指向性のものを用いる。プリア
ンプ13に得られる電気信号に変換された音声信けは、
単音節明瞭度を向上するだめ高音域をフ0リエンファシ
ス回路15によυ強調する。
このようにして、得られる音″声入力部1の出力は、特
徴抽出部2に供給され、ここで入力及び登録ノ!ターン
の形式に必要な特徴データの抽出処理がなされる。即ち
、話者の音声波から時系列的に周波数をとらえ、音声を
周波数分析しこれらのデータを一定時間間隔でサンプリ
ングするとともに、サンプリングされたアナログデータ
をA、’l)変換器によりデジタル量に変換する。
徴抽出部2に供給され、ここで入力及び登録ノ!ターン
の形式に必要な特徴データの抽出処理がなされる。即ち
、話者の音声波から時系列的に周波数をとらえ、音声を
周波数分析しこれらのデータを一定時間間隔でサンプリ
ングするとともに、サンプリングされたアナログデータ
をA、’l)変換器によりデジタル量に変換する。
つまり、’r!J徴抽出部20入力端には16.〜16
15で示されるスイッチド・キャパシタ・バンド/Fス
フィルタ(以下BPFと称する。)が接続されている。
15で示されるスイッチド・キャパシタ・バンド/Fス
フィルタ(以下BPFと称する。)が接続されている。
この161〜1615のBPFの中心周波iU/ &:
を印加されるクロックで決ブリ、その各々のフィルタ特
性は6次のチェビシェフ特性で略−:16 dBloC
Tの減衰特性を持つ。そして、前記B1)I2161〜
15 により、略200 )fz〜6.4 KI−Iz
の帯域を1/3オクタ一ブ間隔で15バンドに分離しで
いる。この15に分離されたバンドの帯域成分の音声信
号を通過させる16.〜1゜の131)Fの夫々には、
略20 m See間隔で信号をザ:/フ0ル・ホール
ドするザンプル・ホールド回路171〜16が1×続さ
れており、このザングル・ホールド作用によシ到来する
音声の特徴が抽出される。
を印加されるクロックで決ブリ、その各々のフィルタ特
性は6次のチェビシェフ特性で略−:16 dBloC
Tの減衰特性を持つ。そして、前記B1)I2161〜
15 により、略200 )fz〜6.4 KI−Iz
の帯域を1/3オクタ一ブ間隔で15バンドに分離しで
いる。この15に分離されたバンドの帯域成分の音声信
号を通過させる16.〜1゜の131)Fの夫々には、
略20 m See間隔で信号をザ:/フ0ル・ホール
ドするザンプル・ホールド回路171〜16が1×続さ
れており、このザングル・ホールド作用によシ到来する
音声の特徴が抽出される。
このようにしてザングル・ホールド回路171〜15
に抽出された特徴データはアナログM゛であるが、例
えば8ビツトのVDの変換器(アナログ−デジタル変換
器)18によってデジタル量に変換される。このとき、
前記°リーンノル・ホールド回路171〜+5 と前
記ADD変換器18間の切換制御は、マルチ7°レクザ
19によって行なわれる。従って、音声信号から抽出し
た、第2図に示す時間−周波数−レベルの(f、+r性
をy゛ジモ る。そして、このA/D変換器18で抽出された音声の
特徴データは、第1のilo (入出力)71?−ト2
oを介して認識処理部3に供給される。
に抽出された特徴データはアナログM゛であるが、例
えば8ビツトのVDの変換器(アナログ−デジタル変換
器)18によってデジタル量に変換される。このとき、
前記°リーンノル・ホールド回路171〜+5 と前
記ADD変換器18間の切換制御は、マルチ7°レクザ
19によって行なわれる。従って、音声信号から抽出し
た、第2図に示す時間−周波数−レベルの(f、+r性
をy゛ジモ る。そして、このA/D変換器18で抽出された音声の
特徴データは、第1のilo (入出力)71?−ト2
oを介して認識処理部3に供給される。
この場合、110 yJ?−ト20f、1ニア″リ−1
−777シス回路15の出力レベルがレベル検出器25
に設定されるしきい値を越え/こときを音声信号の始点
どし、このときから8ビツトA/D変換器18の出力を
データとして取り込む。そして、プリエンファシス回路
15の出方レベルが上記しきい値以下になったときを音
声信号の終点とし、その後のデータの取υ込みを停止す
る。このしきい値はAKI音信号によって越えられるこ
とがないように設定される必要があるが、これを満たす
為にあオシ高ジベルに選ぶと、今度は認識に必歿なy゛
−夕がjiJ、り込壕れなくなる危険性があるので、−
り記2つの条件をともに4を足するような(直(こ設定
される。
−777シス回路15の出力レベルがレベル検出器25
に設定されるしきい値を越え/こときを音声信号の始点
どし、このときから8ビツトA/D変換器18の出力を
データとして取り込む。そして、プリエンファシス回路
15の出方レベルが上記しきい値以下になったときを音
声信号の終点とし、その後のデータの取υ込みを停止す
る。このしきい値はAKI音信号によって越えられるこ
とがないように設定される必要があるが、これを満たす
為にあオシ高ジベルに選ぶと、今度は認識に必歿なy゛
−夕がjiJ、り込壕れなくなる危険性があるので、−
り記2つの条件をともに4を足するような(直(こ設定
される。
認識処理!it) 、? !徒、制御内容、例えば受信
するチ、Yンオ・ルの指定、電ぶのオン・オフの制御を
耳声によって指示する場合にその指令音声から抽出され
だ音・声の4!i徴を記憶させ登録するだめの登録・や
ターンメモリ2ノ、話者が希望する制御内容を発声した
際にその指示音声の特徴を入カッ9ターンとして一旦記
憶するだめの入力・ンターンメモリ22、この入カッf
ターンメモリ22の内容が前記登録パターンメモリ2ノ
に記憶された、いずれの登録・やターンと類似するかの
判定を行うだめのプログラムを記憶するシステノ、プロ
グラムメモリ23、このシステムプログラムの内容を実
行するCPU (中央処理装置)24からなる。そ17
て、このCPU 24は例えば、8ビツトのマイクロプ
ロセッサが用いられ、前記シスデムグログラ11メモリ
23V」5.2I(バイトの容置をもつROMで構成さ
れ、前記入カバターンメモリ22、登録パターンメモリ
21ば10T(バイトの腎肝をもつRAMによって構成
される。
するチ、Yンオ・ルの指定、電ぶのオン・オフの制御を
耳声によって指示する場合にその指令音声から抽出され
だ音・声の4!i徴を記憶させ登録するだめの登録・や
ターンメモリ2ノ、話者が希望する制御内容を発声した
際にその指示音声の特徴を入カッ9ターンとして一旦記
憶するだめの入力・ンターンメモリ22、この入カッf
ターンメモリ22の内容が前記登録パターンメモリ2ノ
に記憶された、いずれの登録・やターンと類似するかの
判定を行うだめのプログラムを記憶するシステノ、プロ
グラムメモリ23、このシステムプログラムの内容を実
行するCPU (中央処理装置)24からなる。そ17
て、このCPU 24は例えば、8ビツトのマイクロプ
ロセッサが用いられ、前記シスデムグログラ11メモリ
23V」5.2I(バイトの容置をもつROMで構成さ
れ、前記入カバターンメモリ22、登録パターンメモリ
21ば10T(バイトの腎肝をもつRAMによって構成
される。
このlOK/シイトのRAMのうち1.75 Kバイト
は入カッ?ターンメモリ22として、略7.5 ICバ
イトは登録パターンメモリ2〕として用いられる。
は入カッ?ターンメモリ22として、略7.5 ICバ
イトは登録パターンメモリ2〕として用いられる。
このような構成の認識処理部3に、前記特徴抽出部2で
抽出されたy′−夕が、入カッPターンデータ、登録パ
ターンデー夕として送られる訳であるが、先ず登録・9
ターンデータが送られる場合について述べる。
抽出されたy′−夕が、入カッPターンデータ、登録パ
ターンデー夕として送られる訳であるが、先ず登録・9
ターンデータが送られる場合について述べる。
登録・Pターンr−夕がh3識処理部3の登録・セタ二
ンメモリ2ノに送られる場合は、前述の様に話者が希望
する制御内容を何通りが発声にょシ音声認識装置に登録
する場合である。ここで、いttr−yンネルの選局を
登録パターンメモリ21に制御内容として記憶させる場
合についてみると、「1チヤンネル」という音声の/l
’&徴データは前記AID変換器18によってディジタ
ルデータとして抽出される。そして、このデータは第1
のrlo yJ? ) 20を介して登録・fターン
メモリ2ノに送られるが、このとき前記入カバ?ターン
メ七り22に次に示される行列テ(への形で一旦+1シ
納される。
ンメモリ2ノに送られる場合は、前述の様に話者が希望
する制御内容を何通りが発声にょシ音声認識装置に登録
する場合である。ここで、いttr−yンネルの選局を
登録パターンメモリ21に制御内容として記憶させる場
合についてみると、「1チヤンネル」という音声の/l
’&徴データは前記AID変換器18によってディジタ
ルデータとして抽出される。そして、このデータは第1
のrlo yJ? ) 20を介して登録・fターン
メモリ2ノに送られるが、このとき前記入カバ?ターン
メ七り22に次に示される行列テ(への形で一旦+1シ
納される。
ここで、行列式の行数はザンプル回数、即ち、前4杷ス
イツチド・キセノ4シタ・バンドパスフィルタ16の出
力が略20 m5ecO間[kのザングルパルスニ冊′
応じてザンプルされる回数を示し、列数け13PF 1
6の個数を示し、各成分はデジタル化された前記各BP
Fのサンプル値である。このようにして、抽出された話
者の音声の特徴データは、末だ音声の振幅情報に71す
る正規化がなされていηい。つ−まりn占者のアク−ヒ
ントの(+’L置或pま強音によって弱音の情報が後退
−Iることに対する処理が行なわれていないので話者の
音声の特徴を十分に表わしているとはいえない。
イツチド・キセノ4シタ・バンドパスフィルタ16の出
力が略20 m5ecO間[kのザングルパルスニ冊′
応じてザンプルされる回数を示し、列数け13PF 1
6の個数を示し、各成分はデジタル化された前記各BP
Fのサンプル値である。このようにして、抽出された話
者の音声の特徴データは、末だ音声の振幅情報に71す
る正規化がなされていηい。つ−まりn占者のアク−ヒ
ントの(+’L置或pま強音によって弱音の情報が後退
−Iることに対する処理が行なわれていないので話者の
音声の特徴を十分に表わしているとはいえない。
そこで、前記行列式の各行の成分に対する加重を行う。
即ち、前記Aで表わされるー・l;1−1入力JPター
ンメモリ22に収納されたダークに対してシスデノ・プ
ログラノ・23にML 憶された次に示す演算をCPU
24によって行ないi+’(3V結果の行列式αを前
記登録・!ターンメモリ2]にYl録・eター1.ンと
して格納する。
ンメモリ22に収納されたダークに対してシスデノ・プ
ログラノ・23にML 憶された次に示す演算をCPU
24によって行ないi+’(3V結果の行列式αを前
記登録・!ターンメモリ2]にYl録・eター1.ンと
して格納する。
・このよう−にして、音声情報のうちの振幅情報は正規
化される。この振幅の正規化は、71’T者が制御内容
として発声する音声に対してすべてなさノ1./こうえ
で、前記登録・?ターンメモリ21にその内容(行列式
)が記1ぎされる。こうして、話占が発声により、前記
登録・やターンメモリ2ノに希望する制御内容を登録す
ることで、音声二?j識装置【〆lに幻する制御内容の
セ、テングrJ、;1径了し、jlill 7,1.1
1内容の数に等しい種類の登録・?ターン(α1 、α
2・・・・αn )が前W己登録・?ターンメモリ21
にi己1いさノt7S。
化される。この振幅の正規化は、71’T者が制御内容
として発声する音声に対してすべてなさノ1./こうえ
で、前記登録・?ターンメモリ21にその内容(行列式
)が記1ぎされる。こうして、話占が発声により、前記
登録・やターンメモリ2ノに希望する制御内容を登録す
ることで、音声二?j識装置【〆lに幻する制御内容の
セ、テングrJ、;1径了し、jlill 7,1.1
1内容の数に等しい種類の登録・?ターン(α1 、α
2・・・・αn )が前W己登録・?ターンメモリ21
にi己1いさノt7S。
−卜シ・]lのように、N声の特徴を示す行タリi”i
Aに71寸ろ4辰:畠の正大見rしを行う)寅鉛は、前
言己ンステノ、グログラノ、23に記憶されたグロダラ
ム内容に応じてCPU 24によって実行されるが、そ
の実1J内簀を次に模式的にt見明する。
Aに71寸ろ4辰:畠の正大見rしを行う)寅鉛は、前
言己ンステノ、グログラノ、23に記憶されたグロダラ
ム内容に応じてCPU 24によって実行されるが、そ
の実1J内簀を次に模式的にt見明する。
:![jち、前;Isの5第1図中の第1のエカボート
20、システムフ0ログラムメモIJ 23、CPU2
4の動作は、次に示す第3図の機能動作に対応できる。
20、システムフ0ログラムメモIJ 23、CPU2
4の動作は、次に示す第3図の機能動作に対応できる。
つまり、第3図中のラッチ回路301〜15(実際には
入カッ2ターンメモリ22に相当する。)には、前記行
列式Aに相当するデータがラッチされ、ラッチされた内
容は加f¥器31、及び乗初器32に夫々供給される。
入カッ2ターンメモリ22に相当する。)には、前記行
列式Aに相当するデータがラッチされ、ラッチされた内
容は加f¥器31、及び乗初器32に夫々供給される。
そして、この加算器3ノの出力は、レベル判定回路33
と除η、器、v4+〜16 に供給される。前記加η
器31は、前記行列式への各行成分の要素を加豹し、こ
の夫々の総和値で前記ラッチ回路301〜15にラッチ
された行成分要素の各々が除η器341−1s で除
算される。ここで、除3つ器341〜I5 の前段に
乗3亨器32重〜l+t が設けられておりNなる乗
η−を行うが、これは前記除q結果を整数の形で評価す
るだめのもので場合によっては省略し得る。′まだ、前
記の除′n器341〜is で除算され振幅が正規化
されたデータは、ノ9スラインを通して登録パターンと
して、登録パターンメモリ21に収納される。
と除η、器、v4+〜16 に供給される。前記加η
器31は、前記行列式への各行成分の要素を加豹し、こ
の夫々の総和値で前記ラッチ回路301〜15にラッチ
された行成分要素の各々が除η器341−1s で除
算される。ここで、除3つ器341〜I5 の前段に
乗3亨器32重〜l+t が設けられておりNなる乗
η−を行うが、これは前記除q結果を整数の形で評価す
るだめのもので場合によっては省略し得る。′まだ、前
記の除′n器341〜is で除算され振幅が正規化
されたデータは、ノ9スラインを通して登録パターンと
して、登録パターンメモリ21に収納される。
まだ、前記レベル判定器33には所定レベルの閾値が設
定されており、前記加η、、器31の出力のレベルが設
定された閾値以下の時は、前記ランチ回路351−1s
のう、チされた内容をクリアし、それ以外の時は前
記両ラッチ回路を制御しない。このように、う、チ回路
35I−Isに、前記加3V器3ノの出力が一定値以上
の時のみラッチ動作をさせることにより、検出する音声
が小さい状態での雑音による誤動作が防止される。
定されており、前記加η、、器31の出力のレベルが設
定された閾値以下の時は、前記ランチ回路351−1s
のう、チされた内容をクリアし、それ以外の時は前
記両ラッチ回路を制御しない。このように、う、チ回路
35I−Isに、前記加3V器3ノの出力が一定値以上
の時のみラッチ動作をさせることにより、検出する音声
が小さい状態での雑音による誤動作が防止される。
上述の第3しjの説明から判る様に、話者が希望する制
71jii内答を登録パターンメモリ21に登録する]
1へ稈において、振幅が正規化される前の特徴y′−夕
は、一旦、RAMで構成される入力ノンターンメモリ2
2に記憶されこの後に振幅が正規化され、特徴・やター
ンとして登録・!ターンメモリ21にEC11区され−
る。
71jii内答を登録パターンメモリ21に登録する]
1へ稈において、振幅が正規化される前の特徴y′−夕
は、一旦、RAMで構成される入力ノンターンメモリ2
2に記憶されこの後に振幅が正規化され、特徴・やター
ンとして登録・!ターンメモリ21にEC11区され−
る。
次に、話者が登録した制御内容に対して、希望する制御
内容を音声によシ指示した場合について述べる。
内容を音声によシ指示した場合について述べる。
話者が、登録した制御内容のうち、希望する制御内容を
発7OL音声により指令をすると、音声の特徴データは
登録・Pターンの1寺と1司1子に1辰幅が正j11.
化され入力/?ターンメモ1)22に言己録される。こ
こで、話者が音声指令した内容に文1し、その振幅に対
する正規化を11なった入フッ・ぐターンは次に行す行
列式で示さhるものとする。
発7OL音声により指令をすると、音声の特徴データは
登録・Pターンの1寺と1司1子に1辰幅が正j11.
化され入力/?ターンメモ1)22に言己録される。こ
こで、話者が音声指令した内容に文1し、その振幅に対
する正規化を11なった入フッ・ぐターンは次に行す行
列式で示さhるものとする。
この橡幅が正規化され入力・!ターンメモ1ノ22に記
憶される入力・2ターンF &j1、−話η(こfii
’l r師内容として登録パターンメモリ21に登録さ
Jtている登録)9ターンとの参照が行わJしる。この
参照動作による両・す1−ン間の類似度の1−jt )
’4処理により、類似度が一番近い・セターンに対応す
る制御内容を話者が指令した制御内容であると判定する
。
憶される入力・2ターンF &j1、−話η(こfii
’l r師内容として登録パターンメモリ21に登録さ
Jtている登録)9ターンとの参照が行わJしる。この
参照動作による両・す1−ン間の類似度の1−jt )
’4処理により、類似度が一番近い・セターンに対応す
る制御内容を話者が指令した制御内容であると判定する
。
このような入カバターンと登録ノ!ターンのp1Mノ!
ターン間の類似度は、次に示される/?ターン間の距t
Nfll Dを計9することにより判別される。
ターン間の類似度は、次に示される/?ターン間の距t
Nfll Dを計9することにより判別される。
即ち、前記振幅が正規化された登録・eクーン醒と入カ
バターンFと各成分klj 、 fljO差の絶対値を
とることにより得られる行列式を両・Pターン間の距洲
[を)゛・モわず行列式距離・にターンDと定義し1、
この行列式りの各成分の総第11値によって類似度を3
つ出する。このことを更に述べると、前記距βWF”タ
ーンしは次式で示さノL1がっ類19度d i−J、
?:r:、のように示される。
バターンFと各成分klj 、 fljO差の絶対値を
とることにより得られる行列式を両・Pターン間の距洲
[を)゛・モわず行列式距離・にターンDと定義し1、
この行列式りの各成分の総第11値によって類似度を3
つ出する。このことを更に述べると、前記距βWF”タ
ーンしは次式で示さノL1がっ類19度d i−J、
?:r:、のように示される。
」−記、類似度dの唱ηは全登録・♀ターン、いいかえ
ると全制御内容を表わす・9ターンに対して行われ、類
似度dの値が最っとも小さい・pターンを話者が音声に
よって指令した・ぞターンであると判定する。このよう
にして音声認識が行われるが、上述のように音声の振幅
に対する正規化を行うことで誤認識率は著しく低・減さ
れる。
ると全制御内容を表わす・9ターンに対して行われ、類
似度dの値が最っとも小さい・pターンを話者が音声に
よって指令した・ぞターンであると判定する。このよう
にして音声認識が行われるが、上述のように音声の振幅
に対する正規化を行うことで誤認識率は著しく低・減さ
れる。
話者の発声に対する音声認識しまこうして、登録パター
ンと入カバターンの類似度が、^11記/ステムフ0ロ
グラムメモリ23に設定された類似度算出プログラムに
よって指示される演ηが前記CPU 24で実行される
こと圧より算出され、音声認識による機器の制御が可能
となる。
ンと入カバターンの類似度が、^11記/ステムフ0ロ
グラムメモリ23に設定された類似度算出プログラムに
よって指示される演ηが前記CPU 24で実行される
こと圧より算出され、音声認識による機器の制御が可能
となる。
」二連した音声の・!ターン・マツチング法による音声
認識では、振幅が正規化されることで単語中の強音fν
IS分に比較して弱音部分の情報が小さい点及び第4図
に示すように同じ垢語でも発声のたびに振幅が変動しや
すい点に起因する音声の誤認識は低減される。なお、第
4図は例えば第2図の時刻(tl)における周波数スペ
クト単語を大きく発声した場合及び小さく発声した、場
合を示す。
認識では、振幅が正規化されることで単語中の強音fν
IS分に比較して弱音部分の情報が小さい点及び第4図
に示すように同じ垢語でも発声のたびに振幅が変動しや
すい点に起因する音声の誤認識は低減される。なお、第
4図は例えば第2図の時刻(tl)における周波数スペ
クト単語を大きく発声した場合及び小さく発声した、場
合を示す。
ところで、前述の如く話者が同一451語を発声しても
その発声時間が常に一致するとは限らない。この問題を
解決するには時間nQI Kついても正規化を行なうこ
とが必要であυ、次にこの時間1(l+の正規化につい
て説明する。時間軸の正規化−一、話者の発冨−1ls
語の発音開始時刻と発音終了時刻との間にかかる時間を
、常に一定の定数nで分割することによりなされる。つ
マ)、話者がある坪飴f:発声するにある時は時間T1
かかシ、まだあるときKは時間T、を要した場合、それ
ぞれの場合、特徴抽出のためのサンプル時とで解決され
る。このことは、時間軸のずれに呼応して音声の特徴が
生起する時刻がずれるという現象に根拠をおく。従って
、話者の発声の開始時刻と終了時刻は極力正確に検知す
る必要がある。前述のように、入力・ぐターン、登録パ
ターンのいずれの場合においても話者の音声の’l’!
j 微(D 4111 出kl1.13PF 16 H
〜LR、’!J’ 7f ル・ホールド回路171〜I
、の両者に依存するが、両回路C」、いずれもその!1
iIJ作に時定数的な要素をもつ。とりわけ1 リーン
ノル・ホールド回路のピーク検波方式は話者の発声の終
了時刻の検出を正しく行うのに大きく左右する。従って
、特徴抽出部2を4゛1ヤ成する一す”ングル・ホール
ド回路におけるピーク検波方式、及びサンプリングのタ
イミングは話者の発声長を正U((=にどらえた上で時
間軸の正規化を行うのに重要な点となる。
その発声時間が常に一致するとは限らない。この問題を
解決するには時間nQI Kついても正規化を行なうこ
とが必要であυ、次にこの時間1(l+の正規化につい
て説明する。時間軸の正規化−一、話者の発冨−1ls
語の発音開始時刻と発音終了時刻との間にかかる時間を
、常に一定の定数nで分割することによりなされる。つ
マ)、話者がある坪飴f:発声するにある時は時間T1
かかシ、まだあるときKは時間T、を要した場合、それ
ぞれの場合、特徴抽出のためのサンプル時とで解決され
る。このことは、時間軸のずれに呼応して音声の特徴が
生起する時刻がずれるという現象に根拠をおく。従って
、話者の発声の開始時刻と終了時刻は極力正確に検知す
る必要がある。前述のように、入力・ぐターン、登録パ
ターンのいずれの場合においても話者の音声の’l’!
j 微(D 4111 出kl1.13PF 16 H
〜LR、’!J’ 7f ル・ホールド回路171〜I
、の両者に依存するが、両回路C」、いずれもその!1
iIJ作に時定数的な要素をもつ。とりわけ1 リーン
ノル・ホールド回路のピーク検波方式は話者の発声の終
了時刻の検出を正しく行うのに大きく左右する。従って
、特徴抽出部2を4゛1ヤ成する一す”ングル・ホール
ド回路におけるピーク検波方式、及びサンプリングのタ
イミングは話者の発声長を正U((=にどらえた上で時
間軸の正規化を行うのに重要な点となる。
次に、時間軸の補正を適格にするに適した特徴抽出部2
の他の例について説明する。
の他の例について説明する。
一般に話者がある単音を(第5図■に示す音声波形)発
声すると、前記T3PF 161〜1s の出力には
第5図■に示すように、ピーク値間のぎツチがPの波紋
が得られる。このピッチPは、例えば「ア」という単音
を発声した場合には約8m5ecであるが、−普通の音
声ではこのピッチは5〜15 m See以内に入いる
。このようなピ、ヂPを有する第5図■に示されるnp
ir 76゜〜、、 の出力は、夫々第5図■に示さノ
する様にピー り検波されるわけでちるが、検波すると
きの時定数によっては第5図■、■に示されるように発
声の終了時刻を誤まって検出する。即ち、ピーク検波に
ょろす、7″ルを少なくするだめに時定数を大きくする
と、検波出力は第5図■で判るように、時刻t1で実際
には発声が終了しているにも拘らず、■ノ1メ21t2
まで音声が旬、、続していると認識する。寸だ、これに
対して時定数を小心くした場合[ζは、検波波形に9.
グルが生じて正fi(Gな7時(it・Pターン抽出が
望めない。このこと(・ま、時間軸の正規化と特徴パタ
ーンの抽出にはモ響を与え誤った音声認識を行う原因と
もなる。
声すると、前記T3PF 161〜1s の出力には
第5図■に示すように、ピーク値間のぎツチがPの波紋
が得られる。このピッチPは、例えば「ア」という単音
を発声した場合には約8m5ecであるが、−普通の音
声ではこのピッチは5〜15 m See以内に入いる
。このようなピ、ヂPを有する第5図■に示されるnp
ir 76゜〜、、 の出力は、夫々第5図■に示さノ
する様にピー り検波されるわけでちるが、検波すると
きの時定数によっては第5図■、■に示されるように発
声の終了時刻を誤まって検出する。即ち、ピーク検波に
ょろす、7″ルを少なくするだめに時定数を大きくする
と、検波出力は第5図■で判るように、時刻t1で実際
には発声が終了しているにも拘らず、■ノ1メ21t2
まで音声が旬、、続していると認識する。寸だ、これに
対して時定数を小心くした場合[ζは、検波波形に9.
グルが生じて正fi(Gな7時(it・Pターン抽出が
望めない。このこと(・ま、時間軸の正規化と特徴パタ
ーンの抽出にはモ響を与え誤った音声認識を行う原因と
もなる。
−そこで、近時ビッグ−周期より長い周期でビーク頷検
出を行う方法が考えられている。以下この方法について
図面を参照して説明する。
出を行う方法が考えられている。以下この方法について
図面を参照して説明する。
第6図Cよ、第1図に示しだ特徴抽出rrts 3の他
の例を示す回路ブ、り線図でわυ、入力端子P1に音声
入力部1(図示せず。)からの音声信号がBPF 41
、〜nに供給される。そして、この1’3PF 41
H”” nの各りの出力はダイオードD1〜nと、ピー
ク検出機能を有するサンプル・ボールド回路42I”−
nを構成する!t40s トランジスタQl−n及びビ
ークイ直をホールドするコンデンサC1”□nによって
ピーク検波される。ピーク検波によって検出されたピー
ク値、即ち、音声の振幅データは前記コンデンサCI〜
11に保持され、これらの振幅データは2 J −10
進プ′コーダ43とMo8 )ランジスタQ/、 □n
よりなるマルチプレクサ44を介し−C/v’U 変換
器45に供給される。ここで前記MO3)ランジスタQ
I−nがオンのときは01■己マルチプレクザ44を構
成するMOSトランジスタQ’l〜nは、オフの状態で
あり、一方のトランジスタ群がオンのときは他方のトラ
ンジスタ群がオフとなる様に制御されている。このだめ
、前記MO3)ランジスタQ H” nがオンのときコ
ンデン・リー01〜nに保持された音声の振幅データは
、前記MosトランジスタQ1=nがオフのときにMo
SトランジスタQ’+〜nを介してA/D変換器45に
供給されデジタル用−に変換される。前記ピーク値のザ
ンlf IJングシ;11、前述したピッチPの時間よ
シ長い時間′rで行なわれ、時間Tだけピーク値が1呆
持されるとその後、トランジスタT1〜n。
の例を示す回路ブ、り線図でわυ、入力端子P1に音声
入力部1(図示せず。)からの音声信号がBPF 41
、〜nに供給される。そして、この1’3PF 41
H”” nの各りの出力はダイオードD1〜nと、ピー
ク検出機能を有するサンプル・ボールド回路42I”−
nを構成する!t40s トランジスタQl−n及びビ
ークイ直をホールドするコンデンサC1”□nによって
ピーク検波される。ピーク検波によって検出されたピー
ク値、即ち、音声の振幅データは前記コンデンサCI〜
11に保持され、これらの振幅データは2 J −10
進プ′コーダ43とMo8 )ランジスタQ/、 □n
よりなるマルチプレクサ44を介し−C/v’U 変換
器45に供給される。ここで前記MO3)ランジスタQ
I−nがオンのときは01■己マルチプレクザ44を構
成するMOSトランジスタQ’l〜nは、オフの状態で
あり、一方のトランジスタ群がオンのときは他方のトラ
ンジスタ群がオフとなる様に制御されている。このだめ
、前記MO3)ランジスタQ H” nがオンのときコ
ンデン・リー01〜nに保持された音声の振幅データは
、前記MosトランジスタQ1=nがオフのときにMo
SトランジスタQ’+〜nを介してA/D変換器45に
供給されデジタル用−に変換される。前記ピーク値のザ
ンlf IJングシ;11、前述したピッチPの時間よ
シ長い時間′rで行なわれ、時間Tだけピーク値が1呆
持されるとその後、トランジスタT1〜n。
抵抗1ζ!〜It l RZ〜nによって構成されるリ
セット回路46によって前記コンデンサC1〜nの充電
電荷し」、放電される。この放電時間後、肖びピーク値
の検出が開Iにされこれをに、5者の発声の終了1でく
り収す、>第7図を用いてこのことを説明すると、第7
図■はBPF 4 J 1〜11のうらの1つの出力を
示し、同図■に示す時間Tのザンノリングパルスで7j
q声のピーク値が検出されるとともにピーク値が保持さ
れ、同図■に示スリヒ、ト・やルスでコンデンサC1〜
nの充電電荷1弓、放電されるので、A/D変換器45
0入力には同図■に示す波形が入力される。第7図で判
るように音声のピーク値は、前述のピッチPよシも長い
時間Tだけ保持され、しかも放電時はリセット・Pルス
期間なので、放電による誤まっだ検波出力の振幅データ
をt、A)<6,7換器45に送ることもない。
セット回路46によって前記コンデンサC1〜nの充電
電荷し」、放電される。この放電時間後、肖びピーク値
の検出が開Iにされこれをに、5者の発声の終了1でく
り収す、>第7図を用いてこのことを説明すると、第7
図■はBPF 4 J 1〜11のうらの1つの出力を
示し、同図■に示す時間Tのザンノリングパルスで7j
q声のピーク値が検出されるとともにピーク値が保持さ
れ、同図■に示スリヒ、ト・やルスでコンデンサC1〜
nの充電電荷1弓、放電されるので、A/D変換器45
0入力には同図■に示す波形が入力される。第7図で判
るように音声のピーク値は、前述のピッチPよシも長い
時間Tだけ保持され、しかも放電時はリセット・Pルス
期間なので、放電による誤まっだ検波出力の振幅データ
をt、A)<6,7換器45に送ることもない。
次に前記のTなる時間、−一り値をサンプル保持するた
めの“す゛ンプリング・!ルスを発生させる手段及びリ
ー1−ット・9ルスを発生させる手段について第G 、
8 、41図を用い′C説明する。前記コンデンリ゛
C1”□nに音声の1!−り値を一リンデル(11シ持
するだめ゛す゛ンプリング/1?ルスは、分周器47と
ヲーンドダー ト48に」二っ゛で得ら)Lる。
めの“す゛ンプリング・!ルスを発生させる手段及びリ
ー1−ット・9ルスを発生させる手段について第G 、
8 、41図を用い′C説明する。前記コンデンリ゛
C1”□nに音声の1!−り値を一リンデル(11シ持
するだめ゛す゛ンプリング/1?ルスは、分周器47と
ヲーンドダー ト48に」二っ゛で得ら)Lる。
即ち、分周器48のりDツク端子CKにQ」1、第8図
のCKで示されるクロックパルスが印加され、こノしを
分周してQo 、Qlに示される出力をナンドケ゛−ト
48に印加することにより第8図中6)で示すザンゾリ
ング・Pルスがイlられる。
のCKで示されるクロックパルスが印加され、こノしを
分周してQo 、Qlに示される出力をナンドケ゛−ト
48に印加することにより第8図中6)で示すザンゾリ
ング・Pルスがイlられる。
このザンフ’ IJングi?ルスが前NQ Mo8 )
ランジスタQ1〜寛1の2.LL通を制御することは前
述の通りである。また、第1図のモノマルチ49は前記
ザンプリングパルス■の立ちさがりを検出してパルス(
第8図■)を発生しフリツプフロツプ50の出力を反転
する(第8図■)。すると、ナンドケ”−)5J、イン
バータ52を介して第9図に示すクロックパルスCK’
がmビットカウンタ53に印加されこのクロックパルス
CK’をカウントし始め前記マルチプレクサ44を構成
する]、(m−10進デコーダを順次切替え、全てのス
キャンが終わると前言口mビットカウンタ53の出力Q
がインバータ54を介して前記フリノゾフ口、プ5Qに
リセットパルスとして供給心れ、フリッグフロ、プ50
の状シ!が再び反転する。(−シて、これと同時に第2
のモノマルチ55が前記トランジスタT1〜nを導通さ
せコンデン!J’ C1”−nの充電電荷を放電させる
リセット・Pルス(第8図、第9図■、第7図では■に
相当する。)を発生ずる。
ランジスタQ1〜寛1の2.LL通を制御することは前
述の通りである。また、第1図のモノマルチ49は前記
ザンプリングパルス■の立ちさがりを検出してパルス(
第8図■)を発生しフリツプフロツプ50の出力を反転
する(第8図■)。すると、ナンドケ”−)5J、イン
バータ52を介して第9図に示すクロックパルスCK’
がmビットカウンタ53に印加されこのクロックパルス
CK’をカウントし始め前記マルチプレクサ44を構成
する]、(m−10進デコーダを順次切替え、全てのス
キャンが終わると前言口mビットカウンタ53の出力Q
がインバータ54を介して前記フリノゾフ口、プ5Qに
リセットパルスとして供給心れ、フリッグフロ、プ50
の状シ!が再び反転する。(−シて、これと同時に第2
のモノマルチ55が前記トランジスタT1〜nを導通さ
せコンデン!J’ C1”−nの充電電荷を放電させる
リセット・Pルス(第8図、第9図■、第7図では■に
相当する。)を発生ずる。
尚、分周器47に接続された、イニシャライズ回路57
は、電源投入時に前記分周器47をリセットするたWy
f7)もので(Qは抵抗、(D)i−、、]、ダイオー
ド、(C)U−コンデンサである。
は、電源投入時に前記分周器47をリセットするたWy
f7)もので(Qは抵抗、(D)i−、、]、ダイオー
ド、(C)U−コンデンサである。
まだ、前記Mv変換器45へのデータの読み込みのタイ
ミングは次のようにして第9図■に示すパルスを発生す
ることにより行なわれ2)。
ミングは次のようにして第9図■に示すパルスを発生す
ることにより行なわれ2)。
前述のように、ザングリング・Pルス(第8図(1)の
立ち下がりで、第1のモノマルチ49は/Fルス(第8
.9図■)を発生する。このパルスによりフリラグフロ
ップ50の状態は反転しく第8.9図■)、mビットカ
ウンタ53にはクロックパルスCK’(第9図■)が印
加される。このクロックパルス(第9図■)の立ち下が
りは第3のモノマルチ56で検出され、この第3のモノ
マルチ56の出力には第9図ので示されるノクルスが発
生される。そして、この・eルスが前記V)変換器45
のデータ読み込みタイミングノセルスとして用いられる
。
立ち下がりで、第1のモノマルチ49は/Fルス(第8
.9図■)を発生する。このパルスによりフリラグフロ
ップ50の状態は反転しく第8.9図■)、mビットカ
ウンタ53にはクロックパルスCK’(第9図■)が印
加される。このクロックパルス(第9図■)の立ち下が
りは第3のモノマルチ56で検出され、この第3のモノ
マルチ56の出力には第9図ので示されるノクルスが発
生される。そして、この・eルスが前記V)変換器45
のデータ読み込みタイミングノセルスとして用いられる
。
このようにして、近時、単1)・発声時にみられる前述
のピッチPより大きい時間TをTt 7”の特徴抽出の
だめの一す′ングル時間とし、ピーク検波時においてリ
ップルによる音声認識時における誤った特徴抽出を防止
するようにしている。また、話者の発声終了時刻の1′
41定に際しても、その誤差範囲を略前記ビ、チ長Pよ
りも少ない範囲とすることができるので、時間軸に対す
る正規化を行うにあたり誤認識を低減できる。いいかえ
ると、話者が同一の酢語を発声するに要する時間を発声
のたびに異ならせたとしても、このことによるTt 7
4iの誤認識を低減することができる。
のピッチPより大きい時間TをTt 7”の特徴抽出の
だめの一す′ングル時間とし、ピーク検波時においてリ
ップルによる音声認識時における誤った特徴抽出を防止
するようにしている。また、話者の発声終了時刻の1′
41定に際しても、その誤差範囲を略前記ビ、チ長Pよ
りも少ない範囲とすることができるので、時間軸に対す
る正規化を行うにあたり誤認識を低減できる。いいかえ
ると、話者が同一の酢語を発声するに要する時間を発声
のたびに異ならせたとしても、このことによるTt 7
4iの誤認識を低減することができる。
しかしながら−に記構成の場合、次のような問題が、し
る。すなわち、話者が同じ制御内容の言葉を発生したと
しても、話者とワイヤレスマイク11やマイクロフォン
14との距離、発声の強さ等によりワイヤレスマイク1
ノ、マイクロッメン14に入力される音声信号の第10
図にiI%す、しうに振幅レベルが変化する。今、実線
で示すパターンが登録時のものとし、破線で示すノ2タ
ーンが命令時のものとすれば、登録パターンメモリ2ノ
には期間T1のデータが取り込まれるのに対し、入力・
9ターンメモリ22には期間T2のデータしか取υ込ま
れない。このように入力音声信号のレベルが異なると、
登録パターンメモリ21に記憶されているデータと入力
/Fターンメモリ22に記憶されているデータとが違っ
てくる為に、実際には同じ制御内容の君葉であるにもか
かわらずそれと認識されない誤認識が発4Lする。
る。すなわち、話者が同じ制御内容の言葉を発生したと
しても、話者とワイヤレスマイク11やマイクロフォン
14との距離、発声の強さ等によりワイヤレスマイク1
ノ、マイクロッメン14に入力される音声信号の第10
図にiI%す、しうに振幅レベルが変化する。今、実線
で示すパターンが登録時のものとし、破線で示すノ2タ
ーンが命令時のものとすれば、登録パターンメモリ2ノ
には期間T1のデータが取り込まれるのに対し、入力・
9ターンメモリ22には期間T2のデータしか取υ込ま
れない。このように入力音声信号のレベルが異なると、
登録パターンメモリ21に記憶されているデータと入力
/Fターンメモリ22に記憶されているデータとが違っ
てくる為に、実際には同じ制御内容の君葉であるにもか
かわらずそれと認識されない誤認識が発4Lする。
この発明は上記の事情に対処すべくなされたもので、入
力音声信号のレベルが異なる為に登録・Pターンメモリ
と入力・ぐターンメモリとに記憶されるデータが異なっ
てしまい、誤まったNL識mυ作が行なわれてし寸うこ
とを防止し得る音声認識装置Hjを提供することを目的
とする。
力音声信号のレベルが異なる為に登録・Pターンメモリ
と入力・ぐターンメモリとに記憶されるデータが異なっ
てしまい、誤まったNL識mυ作が行なわれてし寸うこ
とを防止し得る音声認識装置Hjを提供することを目的
とする。
〔発明の11)I要〕
この発明は始点と終点間のデータだけでなく、少なくと
も始点以前のデータも取り込むようにし、登録ノ?ター
ンデ〜りと入カバターンデー夛のどちらか一方を固定に
し、他方をそのスタートアドレスを中心に前後にずらす
ことにより、固定にしたパターンデータのスタートアド
レスのテ゛−夕に実質的に対応したデータが格納されて
いるアドレスを検出し、これに基づいて両・やターンデ
ータの距離を計算してg f(&処理を行なうようシて
(1゛q成したものである。
も始点以前のデータも取り込むようにし、登録ノ?ター
ンデ〜りと入カバターンデー夛のどちらか一方を固定に
し、他方をそのスタートアドレスを中心に前後にずらす
ことにより、固定にしたパターンデータのスタートアド
レスのテ゛−夕に実質的に対応したデータが格納されて
いるアドレスを検出し、これに基づいて両・やターンデ
ータの距離を計算してg f(&処理を行なうようシて
(1゛q成したものである。
以下、図面を参照してこの発明の一実施例衾詳8411
に活、明する。第11し1は一実施例の回路図で、先の
第1図及びfPy 6図と同−Ri(には同一符号をイ
・1して説、明する。サンプルホールドjtiJ路17
、〜15によってピーク検出されたデータはマルチノ0
レクザI9で切り換えられ、8ピ、トA/I)変換器1
8でデジタルブ′−夕に変換される。
に活、明する。第11し1は一実施例の回路図で、先の
第1図及びfPy 6図と同−Ri(には同一符号をイ
・1して説、明する。サンプルホールドjtiJ路17
、〜15によってピーク検出されたデータはマルチノ0
レクザI9で切り換えられ、8ピ、トA/I)変換器1
8でデジタルブ′−夕に変換される。
このデジタルデータはラッチ回路51に一時蓄えられる
。最大値検11−目01路52ンよラッチ回路5ノにラ
ッチされたザンゾルホールド回路171〜1.の出力デ
ータの中の最大値を検出するとともに、全う、チデータ
を加3A4する。ラッチ回路5ノのラッチデータは割算
回路53に供給され、最大値検出回路52で検出された
最大値を用いて割幻される。この動作は前述したような
振幅の正規化に相当するものであり、この振幅の正規化
されたデータは入力/?ターンメモリ54に記憶される
。な卦、最大値を用いて正規化するととシJ、本f1出
願人が先の/l’j?願昭55−88019号にて出願
したものであり、先のi13図で説明した全うッヂy′
−夕の加η(fi’iで割3りする構成に比べ、M識率
を高めることができる。
。最大値検11−目01路52ンよラッチ回路5ノにラ
ッチされたザンゾルホールド回路171〜1.の出力デ
ータの中の最大値を検出するとともに、全う、チデータ
を加3A4する。ラッチ回路5ノのラッチデータは割算
回路53に供給され、最大値検出回路52で検出された
最大値を用いて割幻される。この動作は前述したような
振幅の正規化に相当するものであり、この振幅の正規化
されたデータは入力/?ターンメモリ54に記憶される
。な卦、最大値を用いて正規化するととシJ、本f1出
願人が先の/l’j?願昭55−88019号にて出願
したものであり、先のi13図で説明した全うッヂy′
−夕の加η(fi’iで割3りする構成に比べ、M識率
を高めることができる。
最大値検出回路52のもう1つの出ツバつまシ全うッチ
ブ′−夕の加η出力はしきい値検出回路55に供給され
る。このしきい値検出回路55は予じめ設定された一定
レベルのしきい値vTによυ、最大値検出回路52かも
出力される加p出力がしきい値77以上かしきい値vT
以下かを識別するの為の(g号を出力する。この識別信
号は制御回路56に供給される。この制御回路56は例
えばマイクロコ“ンビュータかも成り、先の第1図に示
すようなシスデムプログラノ、メモリ2 J 、 CP
U 24等を有する。6)制御回路56は」二記加3り
出力が第12図に示すA++ < 、上記しきい値7丁
を越えてから一定時間経過しても今だしきい値77以上
であるときは、入力信号が雑音信号ではなく話者の音声
信号であると判断する。
ブ′−夕の加η出力はしきい値検出回路55に供給され
る。このしきい値検出回路55は予じめ設定された一定
レベルのしきい値vTによυ、最大値検出回路52かも
出力される加p出力がしきい値77以上かしきい値vT
以下かを識別するの為の(g号を出力する。この識別信
号は制御回路56に供給される。この制御回路56は例
えばマイクロコ“ンビュータかも成り、先の第1図に示
すようなシスデムプログラノ、メモリ2 J 、 CP
U 24等を有する。6)制御回路56は」二記加3り
出力が第12図に示すA++ < 、上記しきい値7丁
を越えてから一定時間経過しても今だしきい値77以上
であるときは、入力信号が雑音信号ではなく話者の音声
信号であると判断する。
そして、しきい値■Tを越えたときのデータが記憶され
ている入力/’Pターンメモリ54のアドレスを音声イ
計号の始点のデータを記憶するスタードア1゛レスA、
どしてスタートアドレスメモリ57に配置t7する。才
だ、制御回路56は上記加37出力がしきい値7丁より
小さくなってから一定時間経過しても今だしきい値Vt
以下であるときは、発声の終わりと判断する。そして、
しきい値V7より小さくなったときのデータが記憶され
ている人力/Fターンメモリ54のアト°レスを盲T¥
Afg号の終点のデータを記憶するエンドアドレスAE
としてエンドアドレスメモリ58に記憶する。一定時間
しきい値以下でちるか否かをヂエックするのは発生の途
中なのか、単面の区切りなのかを区別する為である。一
般に発生の途中でしきい値以下となるのは150 n5
ec 以下であり、それ以」二はj■、飴の終わりと
みなす。なお、入力・やターンメモリ54の1き込みア
ドレス指定は制御回路56によって駆動されるアドレス
。
ている入力/’Pターンメモリ54のアドレスを音声イ
計号の始点のデータを記憶するスタードア1゛レスA、
どしてスタートアドレスメモリ57に配置t7する。才
だ、制御回路56は上記加37出力がしきい値7丁より
小さくなってから一定時間経過しても今だしきい値Vt
以下であるときは、発声の終わりと判断する。そして、
しきい値V7より小さくなったときのデータが記憶され
ている人力/Fターンメモリ54のアト°レスを盲T¥
Afg号の終点のデータを記憶するエンドアドレスAE
としてエンドアドレスメモリ58に記憶する。一定時間
しきい値以下でちるか否かをヂエックするのは発生の途
中なのか、単面の区切りなのかを区別する為である。一
般に発生の途中でしきい値以下となるのは150 n5
ec 以下であり、それ以」二はj■、飴の終わりと
みなす。なお、入力・やターンメモリ54の1き込みア
ドレス指定は制御回路56によって駆動されるアドレス
。
発生回路59から出力される省き込みアドレス指定デー
タによってなされる。制引目Lil路56はこの他にも
、サンプルホールド回路171〜1713のシンプリン
グ動作用のクロック・2ルスやマルチグレクザの切り換
えタイミングを指定するタイミング/Pルス、8ビツト
A/I)変換器18の変換タイミング、ラッチ回路5ノ
のラッチタイミング等を指定するタイミング・♀ルスを
出力する。
タによってなされる。制引目Lil路56はこの他にも
、サンプルホールド回路171〜1713のシンプリン
グ動作用のクロック・2ルスやマルチグレクザの切り換
えタイミングを指定するタイミング/Pルス、8ビツト
A/I)変換器18の変換タイミング、ラッチ回路5ノ
のラッチタイミング等を指定するタイミング・♀ルスを
出力する。
第13図は入カバターンメモリ54の記憶状況を示すも
ので、図示の如くメモリ54にVよしきい値VT以上の
データの他にしきい値VT以下のy′−夕も数アト°レ
ス分にわたって記憶されている。この点に関し、先の第
1°図の装置6″、はしきい値v丁を越えた部分のデー
タだけを入力・Pターンメモリ22に記憶するものであ
った。
ので、図示の如くメモリ54にVよしきい値VT以上の
データの他にしきい値VT以下のy′−夕も数アト°レ
ス分にわたって記憶されている。この点に関し、先の第
1°図の装置6″、はしきい値v丁を越えた部分のデー
タだけを入力・Pターンメモリ22に記憶するものであ
った。
今、話者が発生した各7in制御内簀を示す音声信号を
登録する登録モードであるとすると、六カッ?ターンメ
モリ54に記憶されているデータはアドレス発生回路5
9から出力される読み出しアドレス指定データに従って
読み出され、時間軸正規化回路60にてilE規化され
、登録・Pターンメモリ61に記1、ωされる。一方、
iil’i者力;所望の制御内容を指令する認識モー1
−°であるときハ、入力・リーンメモリ54の記(il
tブ′−夕と登録)Pターンメモリ61の記1.廖デー
タとの」−し中97′):/Fクーンデータ比較回路6
2によってなされる。
登録する登録モードであるとすると、六カッ?ターンメ
モリ54に記憶されているデータはアドレス発生回路5
9から出力される読み出しアドレス指定データに従って
読み出され、時間軸正規化回路60にてilE規化され
、登録・Pターンメモリ61に記1、ωされる。一方、
iil’i者力;所望の制御内容を指令する認識モー1
−°であるときハ、入力・リーンメモリ54の記(il
tブ′−夕と登録)Pターンメモリ61の記1.廖デー
タとの」−し中97′):/Fクーンデータ比較回路6
2によってなされる。
この、用台、入カッ?ターンメモリ540ノ、ノJ、P
ターンブ′−夕は時11層冒’jl正規化回路60(・
こよってIT;’i。
ターンブ′−夕は時11層冒’jl正規化回路60(・
こよってIT;’i。
1)11輔の正ノ、砲化がなされた後にノぞターンデー
タ」[二軸回路62にイit; 4:、’Hされる。な
お、時III 1ill jf三)見イヒ回路60 (
tJスタートアドレスからエンドアドレス−までのy′
−りを例えばN1■分して7iたM イ[LIのデータ
を正規化データとし、これにI)ji t、”’j、の
Ai+及び終点の後のテ′−夕を斂アドレス3) (1
’ jJll したものな出力踵登録モードであればこ
の1bブjしiてi録・?ターンメモリ61に記憶さi
tz 人ブノモードであれば、・ρターンデータ比較回
1名62 K (J[+ &<′<される。
タ」[二軸回路62にイit; 4:、’Hされる。な
お、時III 1ill jf三)見イヒ回路60 (
tJスタートアドレスからエンドアドレス−までのy′
−りを例えばN1■分して7iたM イ[LIのデータ
を正規化データとし、これにI)ji t、”’j、の
Ai+及び終点の後のテ′−夕を斂アドレス3) (1
’ jJll したものな出力踵登録モードであればこ
の1bブjしiてi録・?ターンメモリ61に記憶さi
tz 人ブノモードであれば、・ρターンデータ比較回
1名62 K (J[+ &<′<される。
・?ターンデータ比較回路62は例え−二登072ター
ンデークを固定にし、入力)等ターンデータをそのスタ
ートアドレスを中上・にして前後(心ずらすことに上り
、入カバターンの各アドレスに於イて・登録・ぞターン
データの始点グ′−りに実質的に対応するようなデータ
が格納さIt、ているアドレスを検出し、両パターンr
−夕の比φツを行なう。このように登録ノ♀ターンデー
タの始点に実質に対応するアドレスを検出することによ
り、1′τ声信号の人力レベルが変化することによって
取り込まれるデータが同じ内容の音声信号によるもので
ちゃながら異なってしすうことに起因する誤認識を低減
させることができる。
ンデークを固定にし、入力)等ターンデータをそのスタ
ートアドレスを中上・にして前後(心ずらすことに上り
、入カバターンの各アドレスに於イて・登録・ぞターン
データの始点グ′−りに実質的に対応するようなデータ
が格納さIt、ているアドレスを検出し、両パターンr
−夕の比φツを行なう。このように登録ノ♀ターンデー
タの始点に実質に対応するアドレスを検出することによ
り、1′τ声信号の人力レベルが変化することによって
取り込まれるデータが同じ内容の音声信号によるもので
ちゃながら異なってしすうことに起因する誤認識を低減
させることができる。
これに対し、従来t」、予じめ設定された一′I−のし
きい値によって決まる始点と終点間のデー タで距離を
求め、その距離が所定のレベル以下であれば P識条件
を5パ4たしたとして、h3識内容に応じた処理及び表
示を行なうようにしていた。
きい値によって決まる始点と終点間のデー タで距離を
求め、その距離が所定のレベル以下であれば P識条件
を5パ4たしたとして、h3識内容に応じた処理及び表
示を行なうようにしていた。
しだがって、音声信号の人力レベルが変化すると、同じ
内容の音声信号でありながら取り込棟れるデータの内容
が異なってしまい、認識不能おるいは誤認識が行なわれ
ることがあったわけである。
内容の音声信号でありながら取り込棟れるデータの内容
が異なってしまい、認識不能おるいは誤認識が行なわれ
ることがあったわけである。
第14図は第11図の装置の動作を示すフローチャート
である。ステップSl によって認識モードか否かが判
別され、認識モードでなければ、スデノプS2によって
登録キーが操作されていることを検出し、ループL1で
示される登録モードに入る。ステ、グS3によって振幅
の正規化がなされる。ステ、7°S4は音声信号の始点
を検出するステップである。このステ、プS4の処1p
にl、例えば4ビツトの循環レジスタが用いられる。す
なわち、音声信号の入力レベルがしきい値7丁以下でち
れば、循環レジスタの内容は“4”で変化しないが、し
きい111以上になると各サンプリング期間毎に1″ず
つ減らされる。ぞして、循環レジスタの内容が0”にな
ったとき、入力信号が雑音信号ではなく音声信号である
と判断して、しきい値V丁を越えた最初のデータが格納
されるいるアドレスをスタートアドレスとして記憶する
(ステップS、 )。ステップ6s6はエンドアドレス
を記憶するステップであυ、ステップS4と同様に4ビ
ツト循環レジスタを用いて処理される。世、シ、この場
合、音声信−号の人力レベルがしきい値以下になると、
循(蓑レジスタの内容が変化し、N=0になったとき、
発声の終わりと判断して、例えばしきい値vTU下にな
ったときの最初のデータが格納されているアドレスをエ
ンドアドレスとして記1いする(ステラ7’57)(こ
のように入力・でターンメモリ54に対するプ′−タの
記憶とスタート及び千ンドアドレスのi(:憶が並列し
て行なわれ、これが終了すると、ステップS8で時間軸
の正規化がニな≧〕11、スゲ。
である。ステップSl によって認識モードか否かが判
別され、認識モードでなければ、スデノプS2によって
登録キーが操作されていることを検出し、ループL1で
示される登録モードに入る。ステ、グS3によって振幅
の正規化がなされる。ステ、7°S4は音声信号の始点
を検出するステップである。このステ、プS4の処1p
にl、例えば4ビツトの循環レジスタが用いられる。す
なわち、音声信号の入力レベルがしきい値7丁以下でち
れば、循環レジスタの内容は“4”で変化しないが、し
きい111以上になると各サンプリング期間毎に1″ず
つ減らされる。ぞして、循環レジスタの内容が0”にな
ったとき、入力信号が雑音信号ではなく音声信号である
と判断して、しきい値V丁を越えた最初のデータが格納
されるいるアドレスをスタートアドレスとして記憶する
(ステップS、 )。ステップ6s6はエンドアドレス
を記憶するステップであυ、ステップS4と同様に4ビ
ツト循環レジスタを用いて処理される。世、シ、この場
合、音声信−号の人力レベルがしきい値以下になると、
循(蓑レジスタの内容が変化し、N=0になったとき、
発声の終わりと判断して、例えばしきい値vTU下にな
ったときの最初のデータが格納されているアドレスをエ
ンドアドレスとして記1いする(ステラ7’57)(こ
のように入力・でターンメモリ54に対するプ′−タの
記憶とスタート及び千ンドアドレスのi(:憶が並列し
て行なわれ、これが終了すると、ステップS8で時間軸
の正規化がニな≧〕11、スゲ。
ゾS9で登録ノにターンメモリ6ノへのプ′−夕の記憶
がなされる。
がなされる。
ループL 2は認識モードであシ、ステ、fs3/〜s
s’iJ、それぞれ先のステップ83〜S8に7.J応
する。ステップs、/で時間ll1bのi[J4(1化
が終了すると、ステップS+oにf′εる。このステラ
:7’ S、、は前述の〕(ターデータ比較回路62の
II’jQ作に対応するものであり、その動作の一例を
示している。すなわち、ステップ5101で登録・セタ
ーンメモリ6)に記憶されている複数の登録・やターン
データそれぞれのスタートアドレスのプゝ−タと入カバ
ターンデータのスタートアト9レスのデータとの距t1
f−力1139される。この目算結果に91(づいて、
ステップ5102距離が最も小さい登録・Pター/j′
−夕が最適・Pターンデータとして、 選4)・;さ
れる。そして、ステ、グ5103で選択されたj’7谷
、? /Pターノデークを固定にし、入力・Pターンy
°−夕をそのスタートアドレスを中心に前後に1アドレ
ス多〕ずらしヒ巨冑1[をgIq、する。この1アドレ
ス分すら一ノー操作によって全体の距さくtが小さくな
った方向(こ対して入力・Pター/プ′−夕をずらし、
登録・やターンデータのスタートアト°レスラ′−夕と
このスタートアドレスに対応した入力・Pターンデータ
のアドレスのデータとの距離を訂1檜し、+、5.′も
小さくなったアドレスを実質的に登録、9ターンデータ
のスタートアドレスに文J応−〕゛るものとし、全体の
互角(tを言1譜する。入力/Fターンプ′−夕のアド
レスを前方向に±1したのであれば、エンドアドレス側
を同方向に下1し、距離を割算する上での登録・Rター
ンメモIJと入力/eターンメモリとのアドレス数をそ
ろえる。そして、全体の距離が所定レベルより小さけれ
t」:、ステップS 104にて認識条件を/ij〜た
したと1′4J断じて、ステップS 106にて制御内
容に基づいた機器の制御やその制御内容の表示を行なう
。
s’iJ、それぞれ先のステップ83〜S8に7.J応
する。ステップs、/で時間ll1bのi[J4(1化
が終了すると、ステップS+oにf′εる。このステラ
:7’ S、、は前述の〕(ターデータ比較回路62の
II’jQ作に対応するものであり、その動作の一例を
示している。すなわち、ステップ5101で登録・セタ
ーンメモリ6)に記憶されている複数の登録・やターン
データそれぞれのスタートアドレスのプゝ−タと入カバ
ターンデータのスタートアト9レスのデータとの距t1
f−力1139される。この目算結果に91(づいて、
ステップ5102距離が最も小さい登録・Pター/j′
−夕が最適・Pターンデータとして、 選4)・;さ
れる。そして、ステ、グ5103で選択されたj’7谷
、? /Pターノデークを固定にし、入力・Pターンy
°−夕をそのスタートアドレスを中心に前後に1アドレ
ス多〕ずらしヒ巨冑1[をgIq、する。この1アドレ
ス分すら一ノー操作によって全体の距さくtが小さくな
った方向(こ対して入力・Pター/プ′−夕をずらし、
登録・やターンデータのスタートアト°レスラ′−夕と
このスタートアドレスに対応した入力・Pターンデータ
のアドレスのデータとの距離を訂1檜し、+、5.′も
小さくなったアドレスを実質的に登録、9ターンデータ
のスタートアドレスに文J応−〕゛るものとし、全体の
互角(tを言1譜する。入力/Fターンプ′−夕のアド
レスを前方向に±1したのであれば、エンドアドレス側
を同方向に下1し、距離を割算する上での登録・Rター
ンメモIJと入力/eターンメモリとのアドレス数をそ
ろえる。そして、全体の距離が所定レベルより小さけれ
t」:、ステップS 104にて認識条件を/ij〜た
したと1′4J断じて、ステップS 106にて制御内
容に基づいた機器の制御やその制御内容の表示を行なう
。
認識条件を満たさなければ、ステツノ’ S + に移
って、再び話者に希望の制御内容を発声させる。
って、再び話者に希望の制御内容を発声させる。
甲、−に詳述したように動作させる場合、例えばステッ
プS6#S6で循環レジスタの内容が”(どになったと
きr−夕の取り込みを終えるようにすることができるの
で、無駄なアドレス制徊1等の不要な演31を無くし、
実行時間を短縮してデータ1の転送効率を高めることが
できる。また、ステップ103に於いて、人力・Pター
ンデータを±1だけずらし、この後Vよ全体の距離が小
さくなった方向にだけ入カバターンデータをずらずこと
によυ最適、I?インドを見つけるようにしだので、前
後にそれぞれ数アドレス分ずらして最適7I?インドを
見つける場合に比べ処理時間を短縮できる。
プS6#S6で循環レジスタの内容が”(どになったと
きr−夕の取り込みを終えるようにすることができるの
で、無駄なアドレス制徊1等の不要な演31を無くし、
実行時間を短縮してデータ1の転送効率を高めることが
できる。また、ステップ103に於いて、人力・Pター
ンデータを±1だけずらし、この後Vよ全体の距離が小
さくなった方向にだけ入カバターンデータをずらずこと
によυ最適、I?インドを見つけるようにしだので、前
後にそれぞれ数アドレス分ずらして最適7I?インドを
見つける場合に比べ処理時間を短縮できる。
なお、この発明は入カバターンデータを固定にして登録
/Fターンデータを前後にずらすようにしてもよい。ま
た、始点と終点との間のデータ以外のy′−夕の取り込
みは有針)4ターンデータ、入力・Pターンデータのど
ちらか一方に対してのみ行なうようにしてもよい。
/Fターンデータを前後にずらすようにしてもよい。ま
た、始点と終点との間のデータ以外のy′−夕の取り込
みは有針)4ターンデータ、入力・Pターンデータのど
ちらか一方に対してのみ行なうようにしてもよい。
このようにこの発明によれば、同じ内容の音声イバ−)
ンであってもJ11シ込むデータの内容が異なってし1
って誤認識が生じてしまういうことを凋・<シ得る刊’
j”BP亮架装置提供することができる。
ンであってもJ11シ込むデータの内容が異なってし1
って誤認識が生じてしまういうことを凋・<シ得る刊’
j”BP亮架装置提供することができる。
第1図は音声認識装置として現在考えられているものを
示す回路図、第2図、第3図、第4図はそれぞれ音声認
識装置として現在考えられ1いるものの説明に供する時
間−周波数−振幅レベル特性図、回路図、周波数ス4ク
トル図、第5図は君声波の検波特性を説明するに供する
イa号波形図、第6図は音声認識装置として現在考えら
れているものの他の例を示す回路図、第7図は第6図の
動作を説明するに供する信号波形図、第8ツl及び第9
図は2+’; 6図の1助作を説明するに供するタイミ
ングチー、−ト、第10図は第11ン1の装置の欠点を
説明する為の[ン1、第11図はこの発明に係る音声認
識装置の一実施例を示す回路図、第12図は一定レベル
のしきい飴によって設定される音声信号の始点及び終点
を説明する為の図、第13図は人力・Pターンメモリの
記憶状況を説明する為の図、゛第141ン1は第11図
の装Hイーの動作をh発明する為の図である。 11・・・ワイヤレスマイク、12・・・F M受b;
優、13・・・)0リアンプ、14・・・マイク、15
・・・ノ0リエンフ、rシス回路、16.〜1615・
・・・クント・eスフィルタ、D 1〜1)1.・・・
ダイオード、17,1〜1715・・・°リーンフ0ル
ホールド回路、18・・・8ピツ) A/D変換器、1
9・・・マルチプレクサ、51・・・ラッチ回路、52
・・・最大値検出回路1,53・・・割錆回路、54・
・・入力・千ターンメモリ、55・・・しきい値検出回
路、56・・・制御回路、57・・・スタートアドレス
メモリ、58・・・エンドアドレスメモリ、59・・・
アドレス発生回路、60・・・l+、’i間iI!It
、i1廻4化回路、6ノ・・・・U釘・・Pターンメ
モリ、62・・・パターンデータ比較回路。 11i:I’+’を人代理人 弁理士 鈴 江 武
V第2図 Q h tz h −−一−−−−−−−−
・−−−、、1(晴間)第3図 特許庁長官 若 杉 和 夫 殿1.事件の表示 特■軸昭57−133573号 2 発明の名称 音声認識装置 3、 1+li +I:、なする各 事件との関係 特許出願人 (307) 東京芝浦電気株式会社 4、代理人 昭和57年10月26日 6、袖11−の対象 7、補正の内容 図面第14図の図番を、別紙に未配の如く「第14図(
ill 、 r第14図(2)」と訂正する。
示す回路図、第2図、第3図、第4図はそれぞれ音声認
識装置として現在考えられ1いるものの説明に供する時
間−周波数−振幅レベル特性図、回路図、周波数ス4ク
トル図、第5図は君声波の検波特性を説明するに供する
イa号波形図、第6図は音声認識装置として現在考えら
れているものの他の例を示す回路図、第7図は第6図の
動作を説明するに供する信号波形図、第8ツl及び第9
図は2+’; 6図の1助作を説明するに供するタイミ
ングチー、−ト、第10図は第11ン1の装置の欠点を
説明する為の[ン1、第11図はこの発明に係る音声認
識装置の一実施例を示す回路図、第12図は一定レベル
のしきい飴によって設定される音声信号の始点及び終点
を説明する為の図、第13図は人力・Pターンメモリの
記憶状況を説明する為の図、゛第141ン1は第11図
の装Hイーの動作をh発明する為の図である。 11・・・ワイヤレスマイク、12・・・F M受b;
優、13・・・)0リアンプ、14・・・マイク、15
・・・ノ0リエンフ、rシス回路、16.〜1615・
・・・クント・eスフィルタ、D 1〜1)1.・・・
ダイオード、17,1〜1715・・・°リーンフ0ル
ホールド回路、18・・・8ピツ) A/D変換器、1
9・・・マルチプレクサ、51・・・ラッチ回路、52
・・・最大値検出回路1,53・・・割錆回路、54・
・・入力・千ターンメモリ、55・・・しきい値検出回
路、56・・・制御回路、57・・・スタートアドレス
メモリ、58・・・エンドアドレスメモリ、59・・・
アドレス発生回路、60・・・l+、’i間iI!It
、i1廻4化回路、6ノ・・・・U釘・・Pターンメ
モリ、62・・・パターンデータ比較回路。 11i:I’+’を人代理人 弁理士 鈴 江 武
V第2図 Q h tz h −−一−−−−−−−−
・−−−、、1(晴間)第3図 特許庁長官 若 杉 和 夫 殿1.事件の表示 特■軸昭57−133573号 2 発明の名称 音声認識装置 3、 1+li +I:、なする各 事件との関係 特許出願人 (307) 東京芝浦電気株式会社 4、代理人 昭和57年10月26日 6、袖11−の対象 7、補正の内容 図面第14図の図番を、別紙に未配の如く「第14図(
ill 、 r第14図(2)」と訂正する。
Claims (1)
- 音声(i号を複数のフィルタに通して複数の周波数帯1
或に分割し、これを同一タイミングで繰シ返えしサンプ
リングすることにより音声信号の特徴を示す・ヤターン
を作るという操作によってそれぞれ登録モード時に得ら
れる登録パターンデータと認識モー1°時に得られる入
力・?ターンデータとを比較し、入力音声信号の内容を
識別する音声認tifi!:装置に於いて、各サンプリ
ング期間に於ける複数のザングリングデータの振幅を正
規化する振幅正規化手段ど、各サンプリング期間に於け
る複数のザンゾリングデータの総和が一定しきい仏具」
二のときを音声信号の始点とし、一定しきい値以下にな
ったときを音声信号の終点とし、一定しきい値以上のデ
ータとともに少なくともデータの始点以前のデータをも
取り込むことが可能なデータ取シ込み手段と、データの
始点と終点間のデータの時間軸を正規化する時間軸正規
化手段と、振幅及び時間軸の正規化された登録・ぞター
ンデータ、入力・ぐターンデータのどちらか一方を固定
にし、他方の・母ターンデータをその始点データの格納
されたアドレスを中心にして前後にずらすことにより固
定にした・9ターンデータの始点データに実質的に対応
するようなデータが格納されているアドレスを検出する
というようにして両)!ターンデータの比較を行なう比
較手段とを具備した音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57133573A JPS5923400A (ja) | 1982-07-30 | 1982-07-30 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57133573A JPS5923400A (ja) | 1982-07-30 | 1982-07-30 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5923400A true JPS5923400A (ja) | 1984-02-06 |
Family
ID=15107964
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57133573A Pending JPS5923400A (ja) | 1982-07-30 | 1982-07-30 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5923400A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6744056B1 (en) | 1998-12-28 | 2004-06-01 | Fuji Photo Film Co., Ltd. | Radiation image conversion panel and method of manufacturing radiation image conversion panel |
-
1982
- 1982-07-30 JP JP57133573A patent/JPS5923400A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6744056B1 (en) | 1998-12-28 | 2004-06-01 | Fuji Photo Film Co., Ltd. | Radiation image conversion panel and method of manufacturing radiation image conversion panel |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6922668B1 (en) | Speaker recognition | |
| JP2016143050A (ja) | 音声認識装置および音声認識方法 | |
| US5033089A (en) | Methods for forming reference voice patterns, and methods for comparing voice patterns | |
| JPS5923400A (ja) | 音声認識装置 | |
| JPS6120880B2 (ja) | ||
| JPS59111699A (ja) | 話者認識方式 | |
| JP2656234B2 (ja) | 会話音声理解方法 | |
| JPH04324499A (ja) | 音声認識装置 | |
| JPS61156100A (ja) | 音声認識装置 | |
| JPS60118894A (ja) | 音声認識装置 | |
| JP2975808B2 (ja) | 音声認識装置 | |
| JPS6329756B2 (ja) | ||
| JPH0534679B2 (ja) | ||
| JPS6228480B2 (ja) | ||
| JPS6070497A (ja) | 音声認識装置 | |
| JP3040430B2 (ja) | 音声認識装置 | |
| JPS63259689A (ja) | 音声認識応答装置 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JP2707552B2 (ja) | 単語音声認識装置 | |
| JPS59133599A (ja) | 音声認識装置 | |
| JPS61256397A (ja) | 音声認識装置 | |
| JPH037960B2 (ja) | ||
| JPH04240899A (ja) | 音声認識装置 | |
| JPS58159590A (ja) | 単音節音声認識方式 | |
| JPH02141799A (ja) | 音声認識装置 |