JPS6245560B2 - - Google Patents
Info
- Publication number
- JPS6245560B2 JPS6245560B2 JP19355781A JP19355781A JPS6245560B2 JP S6245560 B2 JPS6245560 B2 JP S6245560B2 JP 19355781 A JP19355781 A JP 19355781A JP 19355781 A JP19355781 A JP 19355781A JP S6245560 B2 JPS6245560 B2 JP S6245560B2
- Authority
- JP
- Japan
- Prior art keywords
- voiced
- section
- frequency
- voice message
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
本発明は被制御機器を音声メツセージによつて
操作するための音声メツセージ識別方式に関する
ものであり、その目的とするところは、音声の構
造に基いて効率的に照合処理を行なうことができ
るようにした音声メツセージ識別方式を提供する
にある。 以下本発明の構成を図示実施例によつて説明す
る。第1図は本発明による音声メツセージ識別装
置のハードウエア的な概略構成を示すブロツク図
であり、第3図は同装置の処理機能をブロツク化
して示したものである。まず第1図において音声
はマイク1から入り、プリアンプ2で高域強調さ
れ、LOGアンプ3で対数変換されてデシベル値
に比例する出力になり、ACアンプ4で交流成分
のみが増幅される。次に低周波用フイルタパンク
5で低周波成分(1KHz以下)をとり出し、高周
波用フイルタバンク6で高周波成分(5KHz〜
12KHz)をとり出す。フイルタバンク5,6は各
帯域毎に帯域フイルタF1、F2、整流回路D1,
D2、積分回路よりなる平均化回路M1,M2で構成
されている。低周波用フイルタバンクの積分回路
M1は時定数5〜10msec程度、高周波用フイルタ
バンクの積分回路M2は時定数1〜2msec程度に
設定されている。両フイルタバンク5,6の各出
力は差動アンプ7に入力され、その出力すなわち
高周波成分と低周波成分の差が時定数20msec程
度の積分回路よりなる平均化回路8で平均化され
る。 この平均化回路8から出力されるアナログ信号
波形y(t)は入力音声中に含まれる有声音Vと
無声音Uの比率を表わしている。第2図a、bは
当社の音声制御式あんま椅子の音声入力例「もみ
下げセツト」に対するアナログ信号波形y(t)
を示したものであり、本実施例では有声音Vはプ
ラス、無声音Uはマイナスの値をとつている。こ
の信号電圧y(t)をV判定回路9およびU判定
回路10に加え、クロツク発生回路11からのク
ロツクCKによつて一定周期毎にサンプリングす
る。両判定回路9,10にはそれぞれ基準電圧R
VおよびRUが加えられ、サンプリング時にアナロ
グ信号電圧がプラス側の基準電圧RV以上であれ
ば有声音V、マイナス側の基準電圧RU以下であ
れば無声音U、RVとRUとの間の値であれば無音
Sと判定する。第2図a、bにおいて、z(t)
は信号処理回路12から得られるVU判定出力信
号を示しており、無声音Uに対しては−1、無音
Sに対してはO、有声音に対しては+1の値をと
るようになつている。なお第2図aはLOGアン
プ3を使用した場合を、また同図bはLOGアン
プ3を除去した場合をそれぞれ示しており、両者
を比較すれば明らかなように、入力音声をフイル
タバンク5,6の前でLOG変換しておくと、有
声音Vと無声音Uの識別を確実に行なえるもので
ある。 次にLOGアンプ3を通す前のプリアンプ2の
出力は、例えば0〜0.5KHzの帯域フイルタF3、
整流回路D3、平均化回路M3からなるフイルタバ
ンク13と、0.5〜1.0KHzの帯域フイルタF4、整
流回路D4、平均化回路M4からなるフイルタバン
ク14によつて各周波数領域の特性成分を抽出さ
れる。フイルタバンク13の出力である低域音V
Lと、フイルタバンク14の出力である高域音VH
とは差動アンプ15により比較され、平均化回路
16により平均化される。平均化回路16の出力
はクロツクCKに同期して動作するVL判定回路1
7およびVH判定回路18にそれぞれ入力され、
平均化回路16の出力電圧が基準電圧RLよりも
低いとVL成分と判定され、また基準電圧RHより
も高いとVH成分と判定され、RLとRHの間であ
れば中域音VMと判定される。信号処理回路19
はVH、VLおよびVMの各成分を、それぞれ+
1、0、−1の出力に3値化するものである。 信号処理回路12,19の各出力はI/Oポー
ト20を介してCPU21に読み込まれるもので
あり、読み込まれたデータは一旦入力パターンメ
モリ22に格納され、標準パターンメモリ23に
記憶されている複数個の標準パターンのうちどれ
に一番近いかを照合判定されて、その照合判定結
果に基いて被制御機器24を制御するようになつ
ている。これらの照合判定動作等はCPU21と
プログラムROM25、およびワーキングRAM2
6を有するマイクロコンピユータ27により行な
つているものである。 次に第3図は本発明による音声メツセージ識別
装置の音声メツセージ識別処理機能をブロツク化
して示したものである。同図に示すように音声メ
ツセージ識別装置は音響処理部28と、周波数分
析部29と、符号化処理部30と、照合判定部3
1とから構成されている。このうち音響処理部2
8と周波数分析部29については、第1図の説明
において詳述したような構成を有しており、フイ
ルタバンク5,6およびフイルタバンク13,1
4の後段に接続された判定回路32,33は差動
アンプ7,15から信号処理回路12,19まで
の回路によつて構成されているものである。また
I/Oポート20よりも後段の回路は上述のよう
にマイクロコンピユータ27により構成されてい
る。符号化処理部30において、34は無音区間
を検出するためのSカウンタであり、有声音Vま
たは無声音Uが検出されるとリセツトされて音声
入力動作を開始させ、その後無音Sが一定時間
(約0.2秒)以上続くとカウントアツプして音声入
力動作を停止するようになつている。音声入力動
作は5〜20msecのサンプリング周期(実施例で
は5msecの周期)に従つて行なわれ、一方の判定
回路32からは有声音V、無声音U、および無音
Sの各符号とその継続時間とが入力されてメモリ
に格納され、また他方の判定回路33からは高域
音VH、中域音VM、および低域音VLの各符号と
その継続時間とが入力されてメモリに格納される
ようになつている。このようにしてメモリに一旦
格納された信号は波形整形処理部35,36によ
り整形処理される。 第4図aは波形整形処理部35において波形整
形される前の信号波形を示しており、また第4図
bは波形整形処理された後の信号波形を示してい
る。波形整形処理は第4図aの矢印a1に示すよう
に、有声音Vまたは無声音Uの継続時間の短いも
のを無音Sとする第1の処理と、第4図aの矢印
a2〜a5に示すように、有声音Vまたは無声音Uの
継続時間が比較的長いものの次に来る無音Sの期
間が短く、かつ無音Sに続く次の符号が無音Sの
前の符号と同じであれば、無音Sを消すようにす
る第2の処理とから構成されているものである。
第5図はかかる波形整形処理部35における波形
整形処理の手順を示すフローチヤートである。 このフローチヤートは、符号V、U、Sとその
継続時間とのリスト形式によりメモリに格納され
たデータを演算処理して新たなリスト形式のデー
タを作成し、再びメモリに格納するためのプログ
ラムを示している。まず整形前のリストはその最
初の符号がSであるか否かを判定し、最初の符号
がSでなければその継続時間が基準値T1よりも
大きいかどうかを判定される。継続時間が基準値
T1よりも大きくなければ、その符号VまたはU
は符号Sに変換して符号Sとその継続時間を整形
後のリストとしてメモリに書き込む。また継続時
間が基準値T1よりも大きければ、その符号Vま
たはUとその継続時間とを整形後のリストとして
そのまま転写する。そして次の符号Sの継続時間
が基準値T2よりも短いかどうかを判定し、基準
値T2よりも短かければ、その符号Sの次の符号
は符号Sの前の符号と同じであるかどうかを判定
する。同じでなければ符号Sとその継続時間とを
そのまま整形後のリストに転写する。また同じあ
れば符号Sを前後の符号UまたはVに変えて、そ
の変えた後の符号とその継続時間とを整形後のリ
ストとしてメモリに書き込む。さらに次の符号S
についてその継続時間が基準値T2よりも短いか
否かを再び判定する。以上の演算処理動作は整形
前のすべてのリストが変換処理されるまで続けら
れるものであり、変換処理が終了すると整形後の
リストの最後の符号がSであるかどうかを判定
し、最後の符号がSであればその符号Sを整形後
のリストから除去して、再び最後の符号がSであ
るかどうかを判定する。しかして最後の符号がS
でなくなれば一連の波形整形処理動作を終了する
ものであり、このときにメモリには、第4図bに
示すような波形整形処理された信号が符号U、
V、Sとその継続時間とのリスト形式で格納され
ていることになる。また他方の波形整形処理部3
6においても同様の演算処理動作が行なわれるも
のであり、符号VHおよび符号VLのうち継続時
間の短いものを符号VMに変換する動作と、符
号VHと符号VHとの間に挾まれた継続時間の短い
符号VMを符号VHに変換する動作と、符号VL
と符号VLとの間に挾まれた継続時間の短い符号
VMを符号VLに変換する動作とを行なうものであ
る。 次に第6図は上記波形整形処理部35,36に
より形成された2系統のリストを1系統のリスト
にまとめるためのコンポジツト符号化処理部37
の処理動作を示すフローチヤートである。その動
作について説明すると、まず波形整形処理部35
によつて形成された符号U、V、Sとその継続時
間のリストを調べて、最初の符号がUまたはSで
あるかどうかを判定する。最初の符号がUまたは
Sであれば、その符号UまたはSとその継続時間
とがコンポジツト符号リストとしてメモリにその
まま転写される。また最初の符号がUまたはSで
はなくてVであるときには、波形整形処理部35
によつて形成された符号VH、VM、VLとその継
続時間のリストを調べて、符号Vの継続時間中に
まず符号VHが含まれているかどうかを判定して
含まれている場合には、符号VHとその継続時間
とをコンポジツト符号リストとしてメモリに転写
する。また符号VMおびVLについても、符号Vの
継続時間中に含まれている場合には符号VM、VL
とその継続時間とがそれぞれコンポジツト符号リ
ストとしてメモリに転写される。 以上のようにしてコンポジツト符号リストが得
られるものであるが、本実施例のように、符号
V、U、Sの系統と符号VH、VM、VLの系統と
について別々に波形整形処理を行なつてから、コ
ンポジツト符号化する方法(第7図a参照)の他
に、第7図bに示すように先にコンポジツト符号
化を行なつてから波形整形処理を行なう方法もあ
り得るものである。この場合には符号U、V、V
H、VLの各論理値に基いて第1表に示すような論
理演算を行なうことによりコンポジツト符号化を
行なうものである。
操作するための音声メツセージ識別方式に関する
ものであり、その目的とするところは、音声の構
造に基いて効率的に照合処理を行なうことができ
るようにした音声メツセージ識別方式を提供する
にある。 以下本発明の構成を図示実施例によつて説明す
る。第1図は本発明による音声メツセージ識別装
置のハードウエア的な概略構成を示すブロツク図
であり、第3図は同装置の処理機能をブロツク化
して示したものである。まず第1図において音声
はマイク1から入り、プリアンプ2で高域強調さ
れ、LOGアンプ3で対数変換されてデシベル値
に比例する出力になり、ACアンプ4で交流成分
のみが増幅される。次に低周波用フイルタパンク
5で低周波成分(1KHz以下)をとり出し、高周
波用フイルタバンク6で高周波成分(5KHz〜
12KHz)をとり出す。フイルタバンク5,6は各
帯域毎に帯域フイルタF1、F2、整流回路D1,
D2、積分回路よりなる平均化回路M1,M2で構成
されている。低周波用フイルタバンクの積分回路
M1は時定数5〜10msec程度、高周波用フイルタ
バンクの積分回路M2は時定数1〜2msec程度に
設定されている。両フイルタバンク5,6の各出
力は差動アンプ7に入力され、その出力すなわち
高周波成分と低周波成分の差が時定数20msec程
度の積分回路よりなる平均化回路8で平均化され
る。 この平均化回路8から出力されるアナログ信号
波形y(t)は入力音声中に含まれる有声音Vと
無声音Uの比率を表わしている。第2図a、bは
当社の音声制御式あんま椅子の音声入力例「もみ
下げセツト」に対するアナログ信号波形y(t)
を示したものであり、本実施例では有声音Vはプ
ラス、無声音Uはマイナスの値をとつている。こ
の信号電圧y(t)をV判定回路9およびU判定
回路10に加え、クロツク発生回路11からのク
ロツクCKによつて一定周期毎にサンプリングす
る。両判定回路9,10にはそれぞれ基準電圧R
VおよびRUが加えられ、サンプリング時にアナロ
グ信号電圧がプラス側の基準電圧RV以上であれ
ば有声音V、マイナス側の基準電圧RU以下であ
れば無声音U、RVとRUとの間の値であれば無音
Sと判定する。第2図a、bにおいて、z(t)
は信号処理回路12から得られるVU判定出力信
号を示しており、無声音Uに対しては−1、無音
Sに対してはO、有声音に対しては+1の値をと
るようになつている。なお第2図aはLOGアン
プ3を使用した場合を、また同図bはLOGアン
プ3を除去した場合をそれぞれ示しており、両者
を比較すれば明らかなように、入力音声をフイル
タバンク5,6の前でLOG変換しておくと、有
声音Vと無声音Uの識別を確実に行なえるもので
ある。 次にLOGアンプ3を通す前のプリアンプ2の
出力は、例えば0〜0.5KHzの帯域フイルタF3、
整流回路D3、平均化回路M3からなるフイルタバ
ンク13と、0.5〜1.0KHzの帯域フイルタF4、整
流回路D4、平均化回路M4からなるフイルタバン
ク14によつて各周波数領域の特性成分を抽出さ
れる。フイルタバンク13の出力である低域音V
Lと、フイルタバンク14の出力である高域音VH
とは差動アンプ15により比較され、平均化回路
16により平均化される。平均化回路16の出力
はクロツクCKに同期して動作するVL判定回路1
7およびVH判定回路18にそれぞれ入力され、
平均化回路16の出力電圧が基準電圧RLよりも
低いとVL成分と判定され、また基準電圧RHより
も高いとVH成分と判定され、RLとRHの間であ
れば中域音VMと判定される。信号処理回路19
はVH、VLおよびVMの各成分を、それぞれ+
1、0、−1の出力に3値化するものである。 信号処理回路12,19の各出力はI/Oポー
ト20を介してCPU21に読み込まれるもので
あり、読み込まれたデータは一旦入力パターンメ
モリ22に格納され、標準パターンメモリ23に
記憶されている複数個の標準パターンのうちどれ
に一番近いかを照合判定されて、その照合判定結
果に基いて被制御機器24を制御するようになつ
ている。これらの照合判定動作等はCPU21と
プログラムROM25、およびワーキングRAM2
6を有するマイクロコンピユータ27により行な
つているものである。 次に第3図は本発明による音声メツセージ識別
装置の音声メツセージ識別処理機能をブロツク化
して示したものである。同図に示すように音声メ
ツセージ識別装置は音響処理部28と、周波数分
析部29と、符号化処理部30と、照合判定部3
1とから構成されている。このうち音響処理部2
8と周波数分析部29については、第1図の説明
において詳述したような構成を有しており、フイ
ルタバンク5,6およびフイルタバンク13,1
4の後段に接続された判定回路32,33は差動
アンプ7,15から信号処理回路12,19まで
の回路によつて構成されているものである。また
I/Oポート20よりも後段の回路は上述のよう
にマイクロコンピユータ27により構成されてい
る。符号化処理部30において、34は無音区間
を検出するためのSカウンタであり、有声音Vま
たは無声音Uが検出されるとリセツトされて音声
入力動作を開始させ、その後無音Sが一定時間
(約0.2秒)以上続くとカウントアツプして音声入
力動作を停止するようになつている。音声入力動
作は5〜20msecのサンプリング周期(実施例で
は5msecの周期)に従つて行なわれ、一方の判定
回路32からは有声音V、無声音U、および無音
Sの各符号とその継続時間とが入力されてメモリ
に格納され、また他方の判定回路33からは高域
音VH、中域音VM、および低域音VLの各符号と
その継続時間とが入力されてメモリに格納される
ようになつている。このようにしてメモリに一旦
格納された信号は波形整形処理部35,36によ
り整形処理される。 第4図aは波形整形処理部35において波形整
形される前の信号波形を示しており、また第4図
bは波形整形処理された後の信号波形を示してい
る。波形整形処理は第4図aの矢印a1に示すよう
に、有声音Vまたは無声音Uの継続時間の短いも
のを無音Sとする第1の処理と、第4図aの矢印
a2〜a5に示すように、有声音Vまたは無声音Uの
継続時間が比較的長いものの次に来る無音Sの期
間が短く、かつ無音Sに続く次の符号が無音Sの
前の符号と同じであれば、無音Sを消すようにす
る第2の処理とから構成されているものである。
第5図はかかる波形整形処理部35における波形
整形処理の手順を示すフローチヤートである。 このフローチヤートは、符号V、U、Sとその
継続時間とのリスト形式によりメモリに格納され
たデータを演算処理して新たなリスト形式のデー
タを作成し、再びメモリに格納するためのプログ
ラムを示している。まず整形前のリストはその最
初の符号がSであるか否かを判定し、最初の符号
がSでなければその継続時間が基準値T1よりも
大きいかどうかを判定される。継続時間が基準値
T1よりも大きくなければ、その符号VまたはU
は符号Sに変換して符号Sとその継続時間を整形
後のリストとしてメモリに書き込む。また継続時
間が基準値T1よりも大きければ、その符号Vま
たはUとその継続時間とを整形後のリストとして
そのまま転写する。そして次の符号Sの継続時間
が基準値T2よりも短いかどうかを判定し、基準
値T2よりも短かければ、その符号Sの次の符号
は符号Sの前の符号と同じであるかどうかを判定
する。同じでなければ符号Sとその継続時間とを
そのまま整形後のリストに転写する。また同じあ
れば符号Sを前後の符号UまたはVに変えて、そ
の変えた後の符号とその継続時間とを整形後のリ
ストとしてメモリに書き込む。さらに次の符号S
についてその継続時間が基準値T2よりも短いか
否かを再び判定する。以上の演算処理動作は整形
前のすべてのリストが変換処理されるまで続けら
れるものであり、変換処理が終了すると整形後の
リストの最後の符号がSであるかどうかを判定
し、最後の符号がSであればその符号Sを整形後
のリストから除去して、再び最後の符号がSであ
るかどうかを判定する。しかして最後の符号がS
でなくなれば一連の波形整形処理動作を終了する
ものであり、このときにメモリには、第4図bに
示すような波形整形処理された信号が符号U、
V、Sとその継続時間とのリスト形式で格納され
ていることになる。また他方の波形整形処理部3
6においても同様の演算処理動作が行なわれるも
のであり、符号VHおよび符号VLのうち継続時
間の短いものを符号VMに変換する動作と、符
号VHと符号VHとの間に挾まれた継続時間の短い
符号VMを符号VHに変換する動作と、符号VL
と符号VLとの間に挾まれた継続時間の短い符号
VMを符号VLに変換する動作とを行なうものであ
る。 次に第6図は上記波形整形処理部35,36に
より形成された2系統のリストを1系統のリスト
にまとめるためのコンポジツト符号化処理部37
の処理動作を示すフローチヤートである。その動
作について説明すると、まず波形整形処理部35
によつて形成された符号U、V、Sとその継続時
間のリストを調べて、最初の符号がUまたはSで
あるかどうかを判定する。最初の符号がUまたは
Sであれば、その符号UまたはSとその継続時間
とがコンポジツト符号リストとしてメモリにその
まま転写される。また最初の符号がUまたはSで
はなくてVであるときには、波形整形処理部35
によつて形成された符号VH、VM、VLとその継
続時間のリストを調べて、符号Vの継続時間中に
まず符号VHが含まれているかどうかを判定して
含まれている場合には、符号VHとその継続時間
とをコンポジツト符号リストとしてメモリに転写
する。また符号VMおびVLについても、符号Vの
継続時間中に含まれている場合には符号VM、VL
とその継続時間とがそれぞれコンポジツト符号リ
ストとしてメモリに転写される。 以上のようにしてコンポジツト符号リストが得
られるものであるが、本実施例のように、符号
V、U、Sの系統と符号VH、VM、VLの系統と
について別々に波形整形処理を行なつてから、コ
ンポジツト符号化する方法(第7図a参照)の他
に、第7図bに示すように先にコンポジツト符号
化を行なつてから波形整形処理を行なう方法もあ
り得るものである。この場合には符号U、V、V
H、VLの各論理値に基いて第1表に示すような論
理演算を行なうことによりコンポジツト符号化を
行なうものである。
【表】
【表】
次に第8図は、階層化処理部38の処理動作を
示すフローチヤートである。階層化処理部38は
後段の照合判定部31におけるパターン照合を音
声の構造に合わせて段階的に行ない得るようにす
るためにコンポジツト符号リストから第1階層リ
ストと第2階層リストとを作成するものである。
このうち第1階層リストについては、符号U、
V、Sとその継続時間のみからなる符号リストと
同一であるので、波形整形処理部35の出力リス
トをそのまま転写するか、あるいはコンポジツト
符号リストにおける符号VH、VM、VLをすべて
符号Vに置き換えることによつて容易に得られる
ものである。次に第2階層リストについてはコン
ポジツト符号リストのうち一続きの符号VH、V
L、VMとその継続時間からなる符号リストを転写
することによつて得られるものである。したがつ
て第1階層リストの中に符号Vがn個含まれてい
るものとすると、第2階層リストもまたn個得ら
れるようになつている。 さらに第9図は、上述のようにして得られた第
1階層リストと第2階層リストについて符号の継
続時間を正規化するための正規化処理部39の処
理動作を示すフローチヤートである。正規化処理
部39は符号U、V、Sとその継続時間からなる
第1階層リストと、符号VH、VM、VLとその継
続時間からなるn個の第2階層リストについてそ
の継続時間の総和が一定になるように時間軸上の
正規化を行なうものである。第2表は第1階層リ
ストについて、符号V、U、Sとその継続時間T
Kおよび正規化された継続時間TSの関係を示した
ものであり、継続時間TKはサンプル個数に対応
している。
示すフローチヤートである。階層化処理部38は
後段の照合判定部31におけるパターン照合を音
声の構造に合わせて段階的に行ない得るようにす
るためにコンポジツト符号リストから第1階層リ
ストと第2階層リストとを作成するものである。
このうち第1階層リストについては、符号U、
V、Sとその継続時間のみからなる符号リストと
同一であるので、波形整形処理部35の出力リス
トをそのまま転写するか、あるいはコンポジツト
符号リストにおける符号VH、VM、VLをすべて
符号Vに置き換えることによつて容易に得られる
ものである。次に第2階層リストについてはコン
ポジツト符号リストのうち一続きの符号VH、V
L、VMとその継続時間からなる符号リストを転写
することによつて得られるものである。したがつ
て第1階層リストの中に符号Vがn個含まれてい
るものとすると、第2階層リストもまたn個得ら
れるようになつている。 さらに第9図は、上述のようにして得られた第
1階層リストと第2階層リストについて符号の継
続時間を正規化するための正規化処理部39の処
理動作を示すフローチヤートである。正規化処理
部39は符号U、V、Sとその継続時間からなる
第1階層リストと、符号VH、VM、VLとその継
続時間からなるn個の第2階層リストについてそ
の継続時間の総和が一定になるように時間軸上の
正規化を行なうものである。第2表は第1階層リ
ストについて、符号V、U、Sとその継続時間T
Kおよび正規化された継続時間TSの関係を示した
ものであり、継続時間TKはサンプル個数に対応
している。
【表】
かかる正規化処理動作を第9図のフローチヤー
トによつて説明すれば、まず符号U、S、Vの全
継続時間TKの総和ΣTK(=16623)を求めて、
これから正規化係数PS=1000ΣTKを求める。次
に各符号U、V、Sについてその継続時間TK
(j)に正規化係数PSを乗算して正規化された継
続時間TS(j)を順に求めて行くものである。
以上のようにして第1階層リストについての継続
時間の正規化動作が完了すると、n個の第2階層
リストについてそれぞれ同様の操作による継続時
間の正規化処理を行なうものである。第3表(a)〜
(d)は、第1階層リスト(第2表参照)に含まれる
4個の符号Vについて作成された第2階層リスト
とその正規化された継続時間とをそれぞれ示した
ものである。
トによつて説明すれば、まず符号U、S、Vの全
継続時間TKの総和ΣTK(=16623)を求めて、
これから正規化係数PS=1000ΣTKを求める。次
に各符号U、V、Sについてその継続時間TK
(j)に正規化係数PSを乗算して正規化された継
続時間TS(j)を順に求めて行くものである。
以上のようにして第1階層リストについての継続
時間の正規化動作が完了すると、n個の第2階層
リストについてそれぞれ同様の操作による継続時
間の正規化処理を行なうものである。第3表(a)〜
(d)は、第1階層リスト(第2表参照)に含まれる
4個の符号Vについて作成された第2階層リスト
とその正規化された継続時間とをそれぞれ示した
ものである。
【表】
【表】
【表】
【表】
第3表(a)は第2表に示す第1階層リストの最初
の符号V(継続時間3415)に対応する第2階層リ
ストV1を示しており、以下順に第3表(b)〜(d)は
継続時間が3621,1437,2637の各符号Vに対応す
る第2階層リストV2〜V4を示している。以上の
ようにして継続時間の正規化を行なうと、発声速
度の影響を受けにくくなるので、認識率を高める
ことができるものである。なお第2表及び第3表
に示した継続時間TKのデータは音声メツセージ
「せなかをさすれ。」を50μsecのサンプリングパ
ルスを用いて分析した場合のシミユレーシヨンデ
ータであつて、5msecサンプリングパルスを用い
て分析を行なう場合には継続時間(すなわちサン
プリング個数)は表の値の100分の1になるもの
である。 以上のようにして正規化された第1階層リスト
の符号U、V、S、および第2階層リストの符号
VH、VM、VLは、3値符号化処理部40におい
て+1,0、−1の3値符号に変換されるもので
ある。すなわち、まず第1階層リストにおける符
号Vは+1、符号Uは−1、符号Sは0にそれぞ
れ対応させ、また第2階層リストにおける符号V
Hは+1、符号VMは0、符号VLは−1にそれぞ
れ対応させるものである。このようにすれば、距
離計算照合部41において標準パターンメモリ4
2の内容と第1階層リストおよび第2階層リスト
の内容とを照合するときに計算速度を著しく高速
化することができるものである。すなわち距離計
算照合部41は標準パターンメモリ42に記憶さ
れた+1、0、−1の3値化されたデータと3値
符号化処理部40から出力されるデータとの相互
相関係数を求めるようになつているものである
が、データが+1、0、−1の3通りしかないた
めに、数値の乗算を必要とせず、単なる論理演算
と加減算とによつてきわめて高速度で相互相関係
数を計算することができるものである。各標準パ
ターンについてそれぞれ計算された相互相関係数
は1次階層識別部43と2次階層識別部44に記
憶され、判定処理部45において大小関係を比較
され、相互相関係数が大きいものほど似たパター
ンであると判定されるものである。 ここに相互相関係数とは、時間tの変化に対す
る標準パターンの値の変化をf1(t)とし、1次
階層リストや2次階層リストのような入力パター
ンの値の変化をf2(t)としたときに次式で与え
られるものである。 f12(τ)∫∞ ∞f1(t)f2(t―τ)dt 第10図a、bは時間tの変化に対する標準パ
ターンの値の変化f1(t)と、入力パターンの値
の変化f2(t)とをそれぞれ示すものであり、同
図に示すようにf1(t)とf2(t)とは+1、
0、−1の3通りの値しかとらないので、両者の
積f1(t)f2(t)の値も+1、0、−1のいずれ
かの値しかとらないことになり、このために相互
相関係数の計算は非常に容易になるものである。
かかる相互相関係数f12(τ)はマイクロコンピ
ユータを用いて計算する場合には、実用上は次式
のような数値演算により充分に計算できるもので
ある。 ところで相互相関係数f12(τ)は互いに乗算
される標準パターンf1(t)と入力パターンf2
(t―τ)との位相差τの関数となつており、あ
る特定の位相差τにおいて最大の値をとるように
なつている。そこで距離計算照合部41において
はこの相互相関係数f12(τ)が最大になる点を
求めて、その最大値を各標準パターンについて計
算し、1次および2次階層識別部43,44にそ
れぞれ記憶させ、最後に判定処理部45において
その大小関係を比較して入力パターンに最も近い
標準パターンを判定しているものである。 ところで、本発明においては音声メツセージか
ら抽出した符号パターンを標準パターンと照合す
る際に、符号パターンを1次階層リストと2次階
層リストとに分離して、1次階層リストに関する
照合を行なつた後に、2次階層リストに関する照
合を行なうようにして、照合処理を段階的に行な
つているが、これは音声の巨視的な構造に対応す
る特徴を先に抽出した後で、次に音声の微視的な
特徴に対応する特徴を抽出するようにした方が、
音声の認識を効率的に、かつ確実に行なうことが
できるからである。第11図は音声の特徴を階層
化して表わしたものであり、音声はまず声帯振動
を伴う有声音Vと、声帯振動を伴わない無声音U
とに大きく分類され、有声音Vは顎の開きの広い
有声音(/a/グループ)と、顎の開きの狭い有
声音(/i/グループ)とに分類される。顎の開
きの広い有声音は上述の高域音VHに対応し、音
声の第1ホルマントの周波数が比較的高く、その
周波数帯域は500Hz〜1KHzに多く分布している。
また顎の開きの狭い有声音は上述の低域音VLに
対応し、音声の第1ホルマントの周波数が比較的
低く、その周波数帯域は0〜500Hzに多く分布し
ている。顎の開きの広い有声音には、母音/
a/、/〓/、/ε/などがあり、また顎の開き
の狭い有声音には、母音/i/、/e/、/
o/、/u/や、鼻子音や、その他の有声子音な
どある。また無声音Uには定常的な無声音すなわ
ち無声摩擦音UFと、過渡的な無声音すなわち無
声破裂音UBとがある。 しかして、音声メツセージを1語1語明確に認
識しようとすれば、これらの音声の各特徴をすべ
て識別する必要があるが、照明器具や自動扉、あ
るいはあもま椅子などを音声メツセージを用いて
制御する場合には、すべての子音および母音を完
全に識別する必要はなく、もう少し巨視的な特徴
を抽出するだけでも充分に実用になるものであ
る。このような音声の特徴を巨視的な特徴から順
に列挙して行くと次のようになる。 1 有声音Vであるか無声音Uであるか。かかる
特徴は音声の周波数スペクトルの中に低域成分
(1KHz以下)が多いか、高域成分(5KHz〜12K
Hz)が多いかによつて判定できる。 2 有声音Vであれば、顎の開きの広い有声音V
H(/a/グループ)であるか、顎の開きの狭
い有声音VL(/i/グループ)であるか。か
かる特徴は有声音の周波数スペクトルの中に高
域音VH(500Hz〜1KHz)が多いか、低域音VL
(0〜500Hz)が多いかによつて判定できる。 3 無声音Uであれば、無声摩擦音UFである
か、無声破裂音UBであるか。かかる特徴は無
声音が定常的であるか、過渡的であるかによつ
て判定できる。すなわち無声音Uの継続時間が
長いか短いかによつて判定できる。 4 音声メツセージの中で、各特徴VH、VL、U
B、UF等の占める時間、または音声メツセージ
の継続時間の中で占める割合。かかる特徴は上
述の第1階層リストや第2階層リストにおける
継続時間を参照すれば判定できる。 その他にも、音声の第2ホルマントが高いか低
いかによつて前舌の母音(/i/、/e/に対
応)と高舌の母音(/u/、/o/に対応)とを
識別することができるものである。第25図aは
母音/a/、/i/、/u/、/e/、/o/の
調音点を示しており、同図bは母音の第1ホルマ
ントと第2ホルマントの周波数分布を示している
(電子通信学会(三浦博士監修)「新版聴覚と音
声」のp363〜p364より引用)。また第26図は日
本語の母音の第1ホルマントおよび第2ホルマン
トの分布を男声および女声の場合について各別に
示したものである。第25図bおよび第26図に
示された第2ホルマントの分布を見れば明らかな
ように約0.8〜1.8KHzの帯域フイルタと約1.8〜
3.2KHzの帯域フイルタの出力とを分析すれば、
第2ホルマントの位置を検出することができ、こ
れによつて舌の位置の前後に対応した特徴をも抽
出することができるものである。もつともそこま
で微視的な特徴を抽出しなくても、機器を制御す
るための音声メツセージは充分に認識できるもの
である。 例えば第12図は、あんま椅子用の音声入力/
senakaosasure/の周波数スペクトルの例であ
り、音声入力を20KHzでサンプリングしたものを
200サンプル(10msec)を1フレームとして、20
次のLPC分析を行なつたものであるが、無声音/
s/は5KHz以上にパワーが集中しており、また
有声音は1KHz以下にパワーの山があることがわ
かる。さらに有声音では/a/、/o/のパワー
は500Hz〜1KHzに集中し、/n/、/u/は0〜
500Hzにパワーが集中していることがわかる。さ
らに有声音は、同一のスペクトルが各音素に対応
して数個(数十msec)続いていることがわか
る。 また第13図aは上記と同じ音声入力に対する
有声音成分Vと無声音成分Uとの変化を示してお
り、第13図bは有声音のなかの高域成分VHと
低域成分VLとの変化を示しているものである
が、まず第13図aにおいては無声音/s/、/
k/に対応する部分がUを示し、/na/、/
ao/、/a/、/ure/に対応する部分が明確に
Vを示している。また第13図bにおいては/
n/、/sa/に対応する部分がVLで、/
a/、/ao/、/e/に対応する部分がVHにな
つている。したがつて、上述したように有声音
V、無声音U、無音Sに対応する1次階層リスト
と、有声音のなかの高域音VH、中域音VM、低域
音VLに対応する2次階層リストを予め記憶され
た標準パターンと照合すれば、大抵の音声メツセ
ージは識別できるものである。 ただし以上のことは一応の一般論であつて、音
声メツセージの発声者が異なる場合や、あるいは
同一の発声者においても発声速度を変えたり発声
の態様を変えたりした場合には、音節中の無声破
裂音を検出できなかつたり、あるいは音節中の無
声音に挾まれた有声音が無声音化したりするよう
な現象が生じるために、音声メツセージの様々な
発声態様にすべて対応できるような標準パターン
を作成する必要がある。本実施例にあつてはこの
ような微妙な発声の変化による入力パターンの変
動があつても音声メツセージを正しく認識できる
ようになつているものである。すなわち本実施例
においては、標準パターンとして例えば第14図
に示すように符号C1、C2、C3、C4、C5、C6の時
系列からなる基本パターンの他に、符号C24、符
号C45のような分岐パターンを付加して、入力パ
ターンを符号C1,C24、C5、C6の時系列からなる
第1の派生パターンや、符号C1、C2、C3、C45、
C6の時系列からなる第2の派生パターンと照合
することも可能として、音声メツセージの認識率
を高めているものである。 以下具体的な例を挙げながら、標準パターンを
構成する基本パターンと分岐パターン、および派
生パターンの概念について説明する。 音声の入力パターンが変動する最も典型的な例
としては、まず第1に無声破裂音/p/、/
t/、/k/の欠落現象が挙げられる。すなわち
第13図aを参照すればわかるように、無声破裂
音/k/は過渡的な無声音であるためにその継続
時間が短く、非常に検出しにくいものである。こ
れに比べると無声摩擦音/s/は定常的な無声音
であるために第13図aに示すようにその継続時
間が長く、その検出が容易である。このためにサ
ンプリング周期を若干長くすると、無声摩擦音/
s/は検出できても無声破裂音/k/は検出でき
ない場合が生じ得る。第15図はこの点を考慮に
入れて上記音声入力/senakaosasure/の第1階
層リストに対する標準パターンを構成したもので
あり、符号U、S、V1、S、U、S、V2、S、
U、S、V3、S、U、S、V4の時系列からなる
基本パターンの他に、符号V1とV2とで挾まれる
符号S、U、Sの継続時間に等しい符号Sからな
る分岐パターンを設けたものである。したがつ
て、音声の符号化された入力パターンは、上記基
本パターンと照合されるのみならず、分岐パター
ンによつて生じる符号U、S、V1、S、V2、
S、U、S、V3、S、U、S、V4からなる派生
パターンとも照合されるものであり、したがつて
無声破裂音/k/が入力パターンから欠落するよ
うなことがあつても音声メツセージを正しく認識
することができるものである。なお第15図中に
記載した数字、は同一の話者の5回の発声パ
ターンを分析した結果、基本パターンに一致した
場合が4回、派生パターンに一致した場合が1回
あつたということを示すものである。以上のよう
に構成することにより、無声破裂音/p/、/
t/、/k/を聞き落すような事態を防止できる
ものである。 次に第16図a〜cは音声入力/senakaosas
―ure/に含まれる4個の有声音V1〜V4につい
て、それぞれの2次階層リストに対する標準パタ
ーンを作成した例を示している。このうち第1番
目の有声音V1について説明すると、その基本パ
ターンは符号VM、VL、VM、VH、VM、VLの時
系列から構成されており、さらに符号VMからな
る3個の分岐パターンを有している。したがつて
この場合には、符号VM、VL、VM、VLの時系列
からなる第1の派生パターンと、符号VM、VL、
VM、VL、VMの時系列からなる第2の派生パタ
ーンと、符号VM、VL、VM、VH、VMの時系列
からなる第3の派生パターンとが形成されるもの
である。第16図aに記載された数字、、
などは前と同様に分岐の回数を示している。なお
各分岐パターンの継続時間は、分岐パターンに入
らずに基本パターンをそのまま進んだ場合の継続
時間と等しくなつている。以上のように標準パタ
ーンを構成することにより、第2階層リストにお
ける符号VH、VM、VLが少々変動しても確実に
音声メツセージの認識ができるようになつてい
る。 ところでこのような第2階層リストにおける符
号VH、VM、VLの変動の仕方は多種多様であ
り、一例を挙げると(イ)VL―VH系列がVL―VM系
列になる場合(例./senaka/の/na/)、(ロ)V
L―VM系列がVL―VL系列になる場合(例./
sasu―re/の/re)、(ハ)VL―VM系列がVL―VH
系列になる場合(例./tomare/の/re/)、(ニ)
VH―VL系列がVH―VM系列になる場合(例./
sen―aka/の/ak/)、(ホ)符号VHがVL系列にな
る場合(例./sa/)、(ヘ)符号VHがVL―VH―V
L系列になる場合(例/kata/の/kat/)などの
例がある。これらの符号VH、VM、VLの変動の
規則を整理すると大体次の2つの場合に分類され
る。 1 前後の音韻の相互作用により、符号VHとVM
および符号VLとVMの相互の入れ代わりが生じ
ること。すなわち、VH―VL系列がVH―VM系
列またはVM―VL系列になり得ること。および
VL―VH系列がVL―VM系列またはVM―VH系
列になり得ること。 2 符号VHが前後の無声音の影響を受けて、符
号VHの前または後あるいは前後双方に符号VL
が付加されること。すなわち、符号VHが、VL
―VH系列、VH―VL系列、またはVL―VH―
VL系列に入れ代わること。 音声の入力パターンが変動する他の例として
は、母音の無声化現象が挙げられる。例えば日本
人の場合、「私(ワタクシ)」という言葉を/
watakusi/と正確に発音する人よりはむしろ、
母音/u/を飛ばして/wataksi/と発音する人
の方が多いものである。これは母音/u/が無声
破裂音/k/と無声摩擦音/s/に挾まれている
からであり、一般に無声破裂音UBと無声破裂
音UBに挾まれた1個の母音(例えば/kiQpu/
の/i/)や、無声破裂音UBと無声摩擦音UF
とに挾まれた1個の母音(例えば/watakusi/
の/u/)、および無声音と有声子音に挾まれ
た1個の母音などは無声化する傾向が非常に強
い。その他にも無声音Uと無音Sの間に挾まれた
1個の母音(例えば、/dousa/の/a/)も無
声化する傾向が若干ある。そこで、一般に無声音
と無声音の間、および無声音と無音の間、ならび
に無声音と有声子音の間に挾まれた1個の母音に
ついては、その母音の部分を有声音Vとする基本
パターンの他に、その母音の部分を無声音Uとす
る分岐パターンを標準パターンに付加しておき、
上記特定の母音が有声音Vとして明瞭に発音され
た場合においては基本パターンにより照合判定す
ることができ、また上記特定の母音があたかも無
声音Uであるかのように不明瞭に発音された場合
においては派生パターンにより照合判定できるよ
うにしておけば、音声メツセージの認識率を高く
することができるものである。 次にこのような基本パターンおよび分岐パター
ンを有する標準パターンを作成する方法について
説明する。標準パターンを作成する方法には大別
して2つの方法があり、1つは音声メツセージを
構成する個々の音素符号およびその継続時間をキ
ーボード等から入力し、分岐処理プログラムによ
り基本パターンおよび分岐パターンを自動的に作
成する方法であり、もう1つは同一の音声メツセ
ージを発声の仕方を変えたりあるいは発声者を変
えたりしながら複数回登録し、共通する性質を基
本パターンとし、共通しない特異な性質を分岐パ
ターンとして登録する学習登録方式であり、前者
は演繹法的なものであり後者は帰納法的なもので
ある。 まず前者の方法は、例えば第17図に示すよう
にキーボード50から/s/、/e/、/
n/、/a/、/k/、/a/、/o/、/
s/、/a/、/s/、/u/、/r/、/e/
などの各音素符号とその継続時間とを順次入力し
て行く方法であり、まず各音素符号が有声音Vで
あるか否かを判定し、有声音Vであれば母音/
a/については符号VHを割り当て、母音/i/
と有声子音/m/、/b/については符号VLを
割り当て、その他の有声子音や母音/e/、/
u/、/o/については、符号VH、VM、VLの
いずれにもなり得るものとして分岐パターンを作
成する。また無声音には符号Uを、さらに無音に
は符号Sをそのまま割り当てるようにする。次に
継続時間を入力して継続時間の短い無声音、すな
わち無声破裂音については符号Uからなる基本パ
ターンの他に、符号Sからなる分岐パターンを付
加する。さらに符号系列を入力して、無声音と無
音または無声音あるいは有声子音とに挾まれた単
母音には、符号Vからなる基本パターンの他に符
号Uからなる分岐パターンを付加するものであ
る。以上のようにすれば、音声メツセージの認識
率を高めるような分岐パターンを基本パターンに
付加した標準パターンを自動的に作成することが
できるものである。 次に学習登録方式について説明する。第18図
a〜cは第2階層リストに対応する符号VH、V
M、VLからなる標準パターンを作成する場合を示
しており、第19図はその作成手順を示すフロー
チヤートである。まず第18図aに示すように同
一の言葉を複数回登録し、正規化された時間を10
の領域に分割し、同じ時間領域で符号が変化しな
い部分を核パターンとし、同じ時間領域で符号が
変化する部分をVMとする。この時点で第18図
bに示すような学習基本パターンが作成される。
次に同じ時間領域でVMかVLになる部分にはVL
の分岐パターンを付加する。また同じ時間領域で
VMかVHになる部分にはVHの分岐パターンを作
成する。さらに同じ時間領域でVHにもVLにもな
る部分はVMのままにしておく。この時点で第1
8図cに示すような分岐パターンを有する学習標
準パターンが形成される。こうして得られた学習
標準パターンは標準パターンメモリ42に登録記
憶されるようになつているものである。 しかして本実施例においては、かかる学習登録
方式と非学習登録方式とを折衷した登録処理部4
6を設けており、第20図にそのフローチヤート
を示す。まず登録処理部46に入力されたデータ
は第1階層リストの内に、S―U―V系列または
S―V系列があるか否かを判定され、もしあれば
S―U−V系列とS―V系列のいずれの符号系列
をも含むような標準パターンが形成される。次に
第2階層リストについては上述の第19図に示す
ような学習モードにより標準パターンを作成する
場合と非学習モードにより標準パターンを作成す
る場合とを切り換え得るようになつており、一方
のモードでうまく行かないときには他方のモード
を使用できるようになつている。しかして学習モ
ードの動作については第19図のフローチヤート
によりすでに説明したので、非学習モードによつ
て第2階層リストに対する標準パターンを作成す
る場合の動作について、第21図のフローチヤー
トにより説明する。まず第2階層リストの最初の
符号がVLであれば、基本パターンST―VLと派
生パターンST―VMとを含む標準パターンを作成
する。また最初の符号がVHであれば基本パター
ンST―VL―VHの他に、2つの派生パターンST
―VM―VHとST―VL―VMとを含む標準パター
ンを作成する。さらに最初の符号がVMであれば
基本パターンST―VMのみの標準パターンを作成
する。次に最後の符号がVH、VL、VMのうちの
いずれであるか、および最初の符号と最後の符号
との間に含まれる各符号がVL―VH系列か、VH
―VL系列か、VH―VL系列かに応じてそれぞ
れ、第21図のフローチヤートに記載したような
分岐パターン付きの標準パターンが自動的に形成
されるものである。 ところでこのようにして第2階層リストに対す
る標準パターンを作成する場合には、符号VHと
符号VLの識別を正しく行なう必要がある。上述
のように符号VHは高域有声音(/a/グルー
プ)に対応し、符号VLは低域有声音(/i/グ
ループ)に対応するものであるが、本発明者らの
開発した分析装置にあつては第22図に示すよう
にVH分析系とVL分析系の出力のバランスを調節
するバランス調節用の可変抵抗VR1とオフセツト
調節用の可変抵抗VR2とを設けて、、母音/a/
を発声したときには必ず符号VHが検出され、母
音/i/を発声したときには必ず符号VLが検出
されるようにしているものである。ところが厳密
には話者の個性によつてこのバランスの最適値は
異なることがある。そこで本発明者らは、母音/
e/を自然に発生したときにVH/VL差信号がゼ
ロになるようにバランス調整すればよいことを見
出したものである。第23図はその原理を示すも
のであり、同図に示すように母音/a/の第1ホ
ルマントは500Hz〜1KHzに分布し、母音/i/の
第1ホルマントは0〜500Hzに分布しているもの
であるが、母音/e/の第1ホルマントは大体そ
の中間に位置している。したがつて母音/e/を
基準にしてVHとVLのバランス調整を行なうとバ
ランスの最適値が得られるものである。 最後に2次階層リストについて各符号VH、V
M、VLの継続時間等を考慮に入れた照合の方法に
ついて説明する。第24図は2次階層リストの3
通りの照合識別方式を示すフローチヤートであ
り、最も適当ないずれか1つの方法を選択して使
用するものである。まず第1の方法は1つの音声
メツセージに含まれる複数個の有声音V1〜Voに
ついて、その中に含まれている符号で最も多いも
のはVHであるかVMであるかVLであるかを照合
するものである。この場合次に多いもの、最も少
ないものはどれであるかをも同時に照合するよう
にしてもかまわない。また第2の方法は各有声音
V1〜Voに含まれているVHの割合が入力パターン
と標準パターンとで一致するか否かを照合するも
のであり、さらに第3の方法は入力パターンにお
けるVMが標準パターンのVHまたはVLに合致す
るものの数と、標準パターンにおけるVMが入力
パターンのVHまたはVLに合致するものの数とを
リストアツプして照合するものである。しかして
音声メツセージ中のすべての有声音V1〜Voにつ
いて、上記3種類の照合方法のうち最も適当ない
ずれか1つの照合方法を用いて入力パターンと複
数の標準パターンとを照合し、最もよく特徴の一
致する標準パターンを判定するようにしているも
のである。 さらに入力パターンと標準パターンとの一致度
合を各サンプルごとに対応する点数+1、0、−
1で評価し、合計点数で判定することも可能であ
る。第4表はかかる点数付けの方法を示すもので
あり、その基本的な考え方は上述の3値化された
符号同士の相互相関係数を計算する場合とほとん
ど同じである。しかして第4表の規則に従つて点
数付けを行ない、各サンプル毎に計算した点数の
総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときには一
致しないと判定するものである。したがつてサン
プルの合計が1000であるとすると、パターンが完
全に一致したときには点数の合計は1000となるも
のである。
の符号V(継続時間3415)に対応する第2階層リ
ストV1を示しており、以下順に第3表(b)〜(d)は
継続時間が3621,1437,2637の各符号Vに対応す
る第2階層リストV2〜V4を示している。以上の
ようにして継続時間の正規化を行なうと、発声速
度の影響を受けにくくなるので、認識率を高める
ことができるものである。なお第2表及び第3表
に示した継続時間TKのデータは音声メツセージ
「せなかをさすれ。」を50μsecのサンプリングパ
ルスを用いて分析した場合のシミユレーシヨンデ
ータであつて、5msecサンプリングパルスを用い
て分析を行なう場合には継続時間(すなわちサン
プリング個数)は表の値の100分の1になるもの
である。 以上のようにして正規化された第1階層リスト
の符号U、V、S、および第2階層リストの符号
VH、VM、VLは、3値符号化処理部40におい
て+1,0、−1の3値符号に変換されるもので
ある。すなわち、まず第1階層リストにおける符
号Vは+1、符号Uは−1、符号Sは0にそれぞ
れ対応させ、また第2階層リストにおける符号V
Hは+1、符号VMは0、符号VLは−1にそれぞ
れ対応させるものである。このようにすれば、距
離計算照合部41において標準パターンメモリ4
2の内容と第1階層リストおよび第2階層リスト
の内容とを照合するときに計算速度を著しく高速
化することができるものである。すなわち距離計
算照合部41は標準パターンメモリ42に記憶さ
れた+1、0、−1の3値化されたデータと3値
符号化処理部40から出力されるデータとの相互
相関係数を求めるようになつているものである
が、データが+1、0、−1の3通りしかないた
めに、数値の乗算を必要とせず、単なる論理演算
と加減算とによつてきわめて高速度で相互相関係
数を計算することができるものである。各標準パ
ターンについてそれぞれ計算された相互相関係数
は1次階層識別部43と2次階層識別部44に記
憶され、判定処理部45において大小関係を比較
され、相互相関係数が大きいものほど似たパター
ンであると判定されるものである。 ここに相互相関係数とは、時間tの変化に対す
る標準パターンの値の変化をf1(t)とし、1次
階層リストや2次階層リストのような入力パター
ンの値の変化をf2(t)としたときに次式で与え
られるものである。 f12(τ)∫∞ ∞f1(t)f2(t―τ)dt 第10図a、bは時間tの変化に対する標準パ
ターンの値の変化f1(t)と、入力パターンの値
の変化f2(t)とをそれぞれ示すものであり、同
図に示すようにf1(t)とf2(t)とは+1、
0、−1の3通りの値しかとらないので、両者の
積f1(t)f2(t)の値も+1、0、−1のいずれ
かの値しかとらないことになり、このために相互
相関係数の計算は非常に容易になるものである。
かかる相互相関係数f12(τ)はマイクロコンピ
ユータを用いて計算する場合には、実用上は次式
のような数値演算により充分に計算できるもので
ある。 ところで相互相関係数f12(τ)は互いに乗算
される標準パターンf1(t)と入力パターンf2
(t―τ)との位相差τの関数となつており、あ
る特定の位相差τにおいて最大の値をとるように
なつている。そこで距離計算照合部41において
はこの相互相関係数f12(τ)が最大になる点を
求めて、その最大値を各標準パターンについて計
算し、1次および2次階層識別部43,44にそ
れぞれ記憶させ、最後に判定処理部45において
その大小関係を比較して入力パターンに最も近い
標準パターンを判定しているものである。 ところで、本発明においては音声メツセージか
ら抽出した符号パターンを標準パターンと照合す
る際に、符号パターンを1次階層リストと2次階
層リストとに分離して、1次階層リストに関する
照合を行なつた後に、2次階層リストに関する照
合を行なうようにして、照合処理を段階的に行な
つているが、これは音声の巨視的な構造に対応す
る特徴を先に抽出した後で、次に音声の微視的な
特徴に対応する特徴を抽出するようにした方が、
音声の認識を効率的に、かつ確実に行なうことが
できるからである。第11図は音声の特徴を階層
化して表わしたものであり、音声はまず声帯振動
を伴う有声音Vと、声帯振動を伴わない無声音U
とに大きく分類され、有声音Vは顎の開きの広い
有声音(/a/グループ)と、顎の開きの狭い有
声音(/i/グループ)とに分類される。顎の開
きの広い有声音は上述の高域音VHに対応し、音
声の第1ホルマントの周波数が比較的高く、その
周波数帯域は500Hz〜1KHzに多く分布している。
また顎の開きの狭い有声音は上述の低域音VLに
対応し、音声の第1ホルマントの周波数が比較的
低く、その周波数帯域は0〜500Hzに多く分布し
ている。顎の開きの広い有声音には、母音/
a/、/〓/、/ε/などがあり、また顎の開き
の狭い有声音には、母音/i/、/e/、/
o/、/u/や、鼻子音や、その他の有声子音な
どある。また無声音Uには定常的な無声音すなわ
ち無声摩擦音UFと、過渡的な無声音すなわち無
声破裂音UBとがある。 しかして、音声メツセージを1語1語明確に認
識しようとすれば、これらの音声の各特徴をすべ
て識別する必要があるが、照明器具や自動扉、あ
るいはあもま椅子などを音声メツセージを用いて
制御する場合には、すべての子音および母音を完
全に識別する必要はなく、もう少し巨視的な特徴
を抽出するだけでも充分に実用になるものであ
る。このような音声の特徴を巨視的な特徴から順
に列挙して行くと次のようになる。 1 有声音Vであるか無声音Uであるか。かかる
特徴は音声の周波数スペクトルの中に低域成分
(1KHz以下)が多いか、高域成分(5KHz〜12K
Hz)が多いかによつて判定できる。 2 有声音Vであれば、顎の開きの広い有声音V
H(/a/グループ)であるか、顎の開きの狭
い有声音VL(/i/グループ)であるか。か
かる特徴は有声音の周波数スペクトルの中に高
域音VH(500Hz〜1KHz)が多いか、低域音VL
(0〜500Hz)が多いかによつて判定できる。 3 無声音Uであれば、無声摩擦音UFである
か、無声破裂音UBであるか。かかる特徴は無
声音が定常的であるか、過渡的であるかによつ
て判定できる。すなわち無声音Uの継続時間が
長いか短いかによつて判定できる。 4 音声メツセージの中で、各特徴VH、VL、U
B、UF等の占める時間、または音声メツセージ
の継続時間の中で占める割合。かかる特徴は上
述の第1階層リストや第2階層リストにおける
継続時間を参照すれば判定できる。 その他にも、音声の第2ホルマントが高いか低
いかによつて前舌の母音(/i/、/e/に対
応)と高舌の母音(/u/、/o/に対応)とを
識別することができるものである。第25図aは
母音/a/、/i/、/u/、/e/、/o/の
調音点を示しており、同図bは母音の第1ホルマ
ントと第2ホルマントの周波数分布を示している
(電子通信学会(三浦博士監修)「新版聴覚と音
声」のp363〜p364より引用)。また第26図は日
本語の母音の第1ホルマントおよび第2ホルマン
トの分布を男声および女声の場合について各別に
示したものである。第25図bおよび第26図に
示された第2ホルマントの分布を見れば明らかな
ように約0.8〜1.8KHzの帯域フイルタと約1.8〜
3.2KHzの帯域フイルタの出力とを分析すれば、
第2ホルマントの位置を検出することができ、こ
れによつて舌の位置の前後に対応した特徴をも抽
出することができるものである。もつともそこま
で微視的な特徴を抽出しなくても、機器を制御す
るための音声メツセージは充分に認識できるもの
である。 例えば第12図は、あんま椅子用の音声入力/
senakaosasure/の周波数スペクトルの例であ
り、音声入力を20KHzでサンプリングしたものを
200サンプル(10msec)を1フレームとして、20
次のLPC分析を行なつたものであるが、無声音/
s/は5KHz以上にパワーが集中しており、また
有声音は1KHz以下にパワーの山があることがわ
かる。さらに有声音では/a/、/o/のパワー
は500Hz〜1KHzに集中し、/n/、/u/は0〜
500Hzにパワーが集中していることがわかる。さ
らに有声音は、同一のスペクトルが各音素に対応
して数個(数十msec)続いていることがわか
る。 また第13図aは上記と同じ音声入力に対する
有声音成分Vと無声音成分Uとの変化を示してお
り、第13図bは有声音のなかの高域成分VHと
低域成分VLとの変化を示しているものである
が、まず第13図aにおいては無声音/s/、/
k/に対応する部分がUを示し、/na/、/
ao/、/a/、/ure/に対応する部分が明確に
Vを示している。また第13図bにおいては/
n/、/sa/に対応する部分がVLで、/
a/、/ao/、/e/に対応する部分がVHにな
つている。したがつて、上述したように有声音
V、無声音U、無音Sに対応する1次階層リスト
と、有声音のなかの高域音VH、中域音VM、低域
音VLに対応する2次階層リストを予め記憶され
た標準パターンと照合すれば、大抵の音声メツセ
ージは識別できるものである。 ただし以上のことは一応の一般論であつて、音
声メツセージの発声者が異なる場合や、あるいは
同一の発声者においても発声速度を変えたり発声
の態様を変えたりした場合には、音節中の無声破
裂音を検出できなかつたり、あるいは音節中の無
声音に挾まれた有声音が無声音化したりするよう
な現象が生じるために、音声メツセージの様々な
発声態様にすべて対応できるような標準パターン
を作成する必要がある。本実施例にあつてはこの
ような微妙な発声の変化による入力パターンの変
動があつても音声メツセージを正しく認識できる
ようになつているものである。すなわち本実施例
においては、標準パターンとして例えば第14図
に示すように符号C1、C2、C3、C4、C5、C6の時
系列からなる基本パターンの他に、符号C24、符
号C45のような分岐パターンを付加して、入力パ
ターンを符号C1,C24、C5、C6の時系列からなる
第1の派生パターンや、符号C1、C2、C3、C45、
C6の時系列からなる第2の派生パターンと照合
することも可能として、音声メツセージの認識率
を高めているものである。 以下具体的な例を挙げながら、標準パターンを
構成する基本パターンと分岐パターン、および派
生パターンの概念について説明する。 音声の入力パターンが変動する最も典型的な例
としては、まず第1に無声破裂音/p/、/
t/、/k/の欠落現象が挙げられる。すなわち
第13図aを参照すればわかるように、無声破裂
音/k/は過渡的な無声音であるためにその継続
時間が短く、非常に検出しにくいものである。こ
れに比べると無声摩擦音/s/は定常的な無声音
であるために第13図aに示すようにその継続時
間が長く、その検出が容易である。このためにサ
ンプリング周期を若干長くすると、無声摩擦音/
s/は検出できても無声破裂音/k/は検出でき
ない場合が生じ得る。第15図はこの点を考慮に
入れて上記音声入力/senakaosasure/の第1階
層リストに対する標準パターンを構成したもので
あり、符号U、S、V1、S、U、S、V2、S、
U、S、V3、S、U、S、V4の時系列からなる
基本パターンの他に、符号V1とV2とで挾まれる
符号S、U、Sの継続時間に等しい符号Sからな
る分岐パターンを設けたものである。したがつ
て、音声の符号化された入力パターンは、上記基
本パターンと照合されるのみならず、分岐パター
ンによつて生じる符号U、S、V1、S、V2、
S、U、S、V3、S、U、S、V4からなる派生
パターンとも照合されるものであり、したがつて
無声破裂音/k/が入力パターンから欠落するよ
うなことがあつても音声メツセージを正しく認識
することができるものである。なお第15図中に
記載した数字、は同一の話者の5回の発声パ
ターンを分析した結果、基本パターンに一致した
場合が4回、派生パターンに一致した場合が1回
あつたということを示すものである。以上のよう
に構成することにより、無声破裂音/p/、/
t/、/k/を聞き落すような事態を防止できる
ものである。 次に第16図a〜cは音声入力/senakaosas
―ure/に含まれる4個の有声音V1〜V4につい
て、それぞれの2次階層リストに対する標準パタ
ーンを作成した例を示している。このうち第1番
目の有声音V1について説明すると、その基本パ
ターンは符号VM、VL、VM、VH、VM、VLの時
系列から構成されており、さらに符号VMからな
る3個の分岐パターンを有している。したがつて
この場合には、符号VM、VL、VM、VLの時系列
からなる第1の派生パターンと、符号VM、VL、
VM、VL、VMの時系列からなる第2の派生パタ
ーンと、符号VM、VL、VM、VH、VMの時系列
からなる第3の派生パターンとが形成されるもの
である。第16図aに記載された数字、、
などは前と同様に分岐の回数を示している。なお
各分岐パターンの継続時間は、分岐パターンに入
らずに基本パターンをそのまま進んだ場合の継続
時間と等しくなつている。以上のように標準パタ
ーンを構成することにより、第2階層リストにお
ける符号VH、VM、VLが少々変動しても確実に
音声メツセージの認識ができるようになつてい
る。 ところでこのような第2階層リストにおける符
号VH、VM、VLの変動の仕方は多種多様であ
り、一例を挙げると(イ)VL―VH系列がVL―VM系
列になる場合(例./senaka/の/na/)、(ロ)V
L―VM系列がVL―VL系列になる場合(例./
sasu―re/の/re)、(ハ)VL―VM系列がVL―VH
系列になる場合(例./tomare/の/re/)、(ニ)
VH―VL系列がVH―VM系列になる場合(例./
sen―aka/の/ak/)、(ホ)符号VHがVL系列にな
る場合(例./sa/)、(ヘ)符号VHがVL―VH―V
L系列になる場合(例/kata/の/kat/)などの
例がある。これらの符号VH、VM、VLの変動の
規則を整理すると大体次の2つの場合に分類され
る。 1 前後の音韻の相互作用により、符号VHとVM
および符号VLとVMの相互の入れ代わりが生じ
ること。すなわち、VH―VL系列がVH―VM系
列またはVM―VL系列になり得ること。および
VL―VH系列がVL―VM系列またはVM―VH系
列になり得ること。 2 符号VHが前後の無声音の影響を受けて、符
号VHの前または後あるいは前後双方に符号VL
が付加されること。すなわち、符号VHが、VL
―VH系列、VH―VL系列、またはVL―VH―
VL系列に入れ代わること。 音声の入力パターンが変動する他の例として
は、母音の無声化現象が挙げられる。例えば日本
人の場合、「私(ワタクシ)」という言葉を/
watakusi/と正確に発音する人よりはむしろ、
母音/u/を飛ばして/wataksi/と発音する人
の方が多いものである。これは母音/u/が無声
破裂音/k/と無声摩擦音/s/に挾まれている
からであり、一般に無声破裂音UBと無声破裂
音UBに挾まれた1個の母音(例えば/kiQpu/
の/i/)や、無声破裂音UBと無声摩擦音UF
とに挾まれた1個の母音(例えば/watakusi/
の/u/)、および無声音と有声子音に挾まれ
た1個の母音などは無声化する傾向が非常に強
い。その他にも無声音Uと無音Sの間に挾まれた
1個の母音(例えば、/dousa/の/a/)も無
声化する傾向が若干ある。そこで、一般に無声音
と無声音の間、および無声音と無音の間、ならび
に無声音と有声子音の間に挾まれた1個の母音に
ついては、その母音の部分を有声音Vとする基本
パターンの他に、その母音の部分を無声音Uとす
る分岐パターンを標準パターンに付加しておき、
上記特定の母音が有声音Vとして明瞭に発音され
た場合においては基本パターンにより照合判定す
ることができ、また上記特定の母音があたかも無
声音Uであるかのように不明瞭に発音された場合
においては派生パターンにより照合判定できるよ
うにしておけば、音声メツセージの認識率を高く
することができるものである。 次にこのような基本パターンおよび分岐パター
ンを有する標準パターンを作成する方法について
説明する。標準パターンを作成する方法には大別
して2つの方法があり、1つは音声メツセージを
構成する個々の音素符号およびその継続時間をキ
ーボード等から入力し、分岐処理プログラムによ
り基本パターンおよび分岐パターンを自動的に作
成する方法であり、もう1つは同一の音声メツセ
ージを発声の仕方を変えたりあるいは発声者を変
えたりしながら複数回登録し、共通する性質を基
本パターンとし、共通しない特異な性質を分岐パ
ターンとして登録する学習登録方式であり、前者
は演繹法的なものであり後者は帰納法的なもので
ある。 まず前者の方法は、例えば第17図に示すよう
にキーボード50から/s/、/e/、/
n/、/a/、/k/、/a/、/o/、/
s/、/a/、/s/、/u/、/r/、/e/
などの各音素符号とその継続時間とを順次入力し
て行く方法であり、まず各音素符号が有声音Vで
あるか否かを判定し、有声音Vであれば母音/
a/については符号VHを割り当て、母音/i/
と有声子音/m/、/b/については符号VLを
割り当て、その他の有声子音や母音/e/、/
u/、/o/については、符号VH、VM、VLの
いずれにもなり得るものとして分岐パターンを作
成する。また無声音には符号Uを、さらに無音に
は符号Sをそのまま割り当てるようにする。次に
継続時間を入力して継続時間の短い無声音、すな
わち無声破裂音については符号Uからなる基本パ
ターンの他に、符号Sからなる分岐パターンを付
加する。さらに符号系列を入力して、無声音と無
音または無声音あるいは有声子音とに挾まれた単
母音には、符号Vからなる基本パターンの他に符
号Uからなる分岐パターンを付加するものであ
る。以上のようにすれば、音声メツセージの認識
率を高めるような分岐パターンを基本パターンに
付加した標準パターンを自動的に作成することが
できるものである。 次に学習登録方式について説明する。第18図
a〜cは第2階層リストに対応する符号VH、V
M、VLからなる標準パターンを作成する場合を示
しており、第19図はその作成手順を示すフロー
チヤートである。まず第18図aに示すように同
一の言葉を複数回登録し、正規化された時間を10
の領域に分割し、同じ時間領域で符号が変化しな
い部分を核パターンとし、同じ時間領域で符号が
変化する部分をVMとする。この時点で第18図
bに示すような学習基本パターンが作成される。
次に同じ時間領域でVMかVLになる部分にはVL
の分岐パターンを付加する。また同じ時間領域で
VMかVHになる部分にはVHの分岐パターンを作
成する。さらに同じ時間領域でVHにもVLにもな
る部分はVMのままにしておく。この時点で第1
8図cに示すような分岐パターンを有する学習標
準パターンが形成される。こうして得られた学習
標準パターンは標準パターンメモリ42に登録記
憶されるようになつているものである。 しかして本実施例においては、かかる学習登録
方式と非学習登録方式とを折衷した登録処理部4
6を設けており、第20図にそのフローチヤート
を示す。まず登録処理部46に入力されたデータ
は第1階層リストの内に、S―U―V系列または
S―V系列があるか否かを判定され、もしあれば
S―U−V系列とS―V系列のいずれの符号系列
をも含むような標準パターンが形成される。次に
第2階層リストについては上述の第19図に示す
ような学習モードにより標準パターンを作成する
場合と非学習モードにより標準パターンを作成す
る場合とを切り換え得るようになつており、一方
のモードでうまく行かないときには他方のモード
を使用できるようになつている。しかして学習モ
ードの動作については第19図のフローチヤート
によりすでに説明したので、非学習モードによつ
て第2階層リストに対する標準パターンを作成す
る場合の動作について、第21図のフローチヤー
トにより説明する。まず第2階層リストの最初の
符号がVLであれば、基本パターンST―VLと派
生パターンST―VMとを含む標準パターンを作成
する。また最初の符号がVHであれば基本パター
ンST―VL―VHの他に、2つの派生パターンST
―VM―VHとST―VL―VMとを含む標準パター
ンを作成する。さらに最初の符号がVMであれば
基本パターンST―VMのみの標準パターンを作成
する。次に最後の符号がVH、VL、VMのうちの
いずれであるか、および最初の符号と最後の符号
との間に含まれる各符号がVL―VH系列か、VH
―VL系列か、VH―VL系列かに応じてそれぞ
れ、第21図のフローチヤートに記載したような
分岐パターン付きの標準パターンが自動的に形成
されるものである。 ところでこのようにして第2階層リストに対す
る標準パターンを作成する場合には、符号VHと
符号VLの識別を正しく行なう必要がある。上述
のように符号VHは高域有声音(/a/グルー
プ)に対応し、符号VLは低域有声音(/i/グ
ループ)に対応するものであるが、本発明者らの
開発した分析装置にあつては第22図に示すよう
にVH分析系とVL分析系の出力のバランスを調節
するバランス調節用の可変抵抗VR1とオフセツト
調節用の可変抵抗VR2とを設けて、、母音/a/
を発声したときには必ず符号VHが検出され、母
音/i/を発声したときには必ず符号VLが検出
されるようにしているものである。ところが厳密
には話者の個性によつてこのバランスの最適値は
異なることがある。そこで本発明者らは、母音/
e/を自然に発生したときにVH/VL差信号がゼ
ロになるようにバランス調整すればよいことを見
出したものである。第23図はその原理を示すも
のであり、同図に示すように母音/a/の第1ホ
ルマントは500Hz〜1KHzに分布し、母音/i/の
第1ホルマントは0〜500Hzに分布しているもの
であるが、母音/e/の第1ホルマントは大体そ
の中間に位置している。したがつて母音/e/を
基準にしてVHとVLのバランス調整を行なうとバ
ランスの最適値が得られるものである。 最後に2次階層リストについて各符号VH、V
M、VLの継続時間等を考慮に入れた照合の方法に
ついて説明する。第24図は2次階層リストの3
通りの照合識別方式を示すフローチヤートであ
り、最も適当ないずれか1つの方法を選択して使
用するものである。まず第1の方法は1つの音声
メツセージに含まれる複数個の有声音V1〜Voに
ついて、その中に含まれている符号で最も多いも
のはVHであるかVMであるかVLであるかを照合
するものである。この場合次に多いもの、最も少
ないものはどれであるかをも同時に照合するよう
にしてもかまわない。また第2の方法は各有声音
V1〜Voに含まれているVHの割合が入力パターン
と標準パターンとで一致するか否かを照合するも
のであり、さらに第3の方法は入力パターンにお
けるVMが標準パターンのVHまたはVLに合致す
るものの数と、標準パターンにおけるVMが入力
パターンのVHまたはVLに合致するものの数とを
リストアツプして照合するものである。しかして
音声メツセージ中のすべての有声音V1〜Voにつ
いて、上記3種類の照合方法のうち最も適当ない
ずれか1つの照合方法を用いて入力パターンと複
数の標準パターンとを照合し、最もよく特徴の一
致する標準パターンを判定するようにしているも
のである。 さらに入力パターンと標準パターンとの一致度
合を各サンプルごとに対応する点数+1、0、−
1で評価し、合計点数で判定することも可能であ
る。第4表はかかる点数付けの方法を示すもので
あり、その基本的な考え方は上述の3値化された
符号同士の相互相関係数を計算する場合とほとん
ど同じである。しかして第4表の規則に従つて点
数付けを行ない、各サンプル毎に計算した点数の
総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときには一
致しないと判定するものである。したがつてサン
プルの合計が1000であるとすると、パターンが完
全に一致したときには点数の合計は1000となるも
のである。
【表】
本発明は以上のように構成されており、1次照
合の段階では音声入力の高周波成分と低周波成分
とをとり出す一対のフイルタの出力を比較して高
周波成分の方が強い区間を無声音区間、低周波成
分の方が強い区間を有声音区間、高周波成分と低
周波成分とが略同じ区間を無音区間とし、無声
音、有声音、および無音の各区間の時系列からな
る第1の入力パターンを予め記録されている複数
種の標準パターンと照合し、また2次照合の段階
では、有声音の周波数帯域のうちの高周波成分と
低周波成分とをとり出す一対のフイルタの出力を
比較し、高周波成分の方が強い区間を高域有声音
区間、低周波成分の方が強い区間を低域有声音区
間、高周波成分と低周波成分とが略同じ区間を中
域有声音区間とし、高域有声音、および中域有声
音の各区間の時系列からなる第2の入力パターン
を予め記録されている複数種の標準パターンと照
合するようにしたから、最初に有声音か無声音か
無音かという音声の巨視的な特徴を抽出して照合
範囲を絞り、次に有声音の中の周波数成分という
音声の微視的な特徴を抽出して入力メツセージの
識別を行なうことができ、1次照合の段階で照合
範囲を限定することができるので、音声メツセー
ジの認識を確実にかつ迅速に行なうことができる
という利点を有するものである。特に実施例の説
明において述べたように2次照合の段階で、高域
有声音を母音/a/の第1ホルマントに対応さ
せ、低域有声音を母音/i/の第1ホルマルトに
対応させるようにしておけば、有声音を顎の開き
の大きい有声音と顎の開きの小さい有声音とに分
けて認識することができることになり、音声の構
造に合致した照合処理を行なうことができるので
より認識率を高めることができるものである。
合の段階では音声入力の高周波成分と低周波成分
とをとり出す一対のフイルタの出力を比較して高
周波成分の方が強い区間を無声音区間、低周波成
分の方が強い区間を有声音区間、高周波成分と低
周波成分とが略同じ区間を無音区間とし、無声
音、有声音、および無音の各区間の時系列からな
る第1の入力パターンを予め記録されている複数
種の標準パターンと照合し、また2次照合の段階
では、有声音の周波数帯域のうちの高周波成分と
低周波成分とをとり出す一対のフイルタの出力を
比較し、高周波成分の方が強い区間を高域有声音
区間、低周波成分の方が強い区間を低域有声音区
間、高周波成分と低周波成分とが略同じ区間を中
域有声音区間とし、高域有声音、および中域有声
音の各区間の時系列からなる第2の入力パターン
を予め記録されている複数種の標準パターンと照
合するようにしたから、最初に有声音か無声音か
無音かという音声の巨視的な特徴を抽出して照合
範囲を絞り、次に有声音の中の周波数成分という
音声の微視的な特徴を抽出して入力メツセージの
識別を行なうことができ、1次照合の段階で照合
範囲を限定することができるので、音声メツセー
ジの認識を確実にかつ迅速に行なうことができる
という利点を有するものである。特に実施例の説
明において述べたように2次照合の段階で、高域
有声音を母音/a/の第1ホルマントに対応さ
せ、低域有声音を母音/i/の第1ホルマルトに
対応させるようにしておけば、有声音を顎の開き
の大きい有声音と顎の開きの小さい有声音とに分
けて認識することができることになり、音声の構
造に合致した照合処理を行なうことができるので
より認識率を高めることができるものである。
第1図は本発明による音声メツセージ識別装置
の概略構成を示すブロツク図、第2図a、bは同
上の動作波形図、第3図は同上の音声メツセージ
識別処理動作をブロツク化して示した図、第4図
a、bは同上の波形整形処理部の動作を示す波形
図、第5図は同上の波形整形処理部の動作を示す
流れ図、第6図は同上のコンポジツト符号化処理
部の動作を示すフローチヤート、第7図a、bは
同上の符号化処理部のブロツク図、第8図は同上
の階層化処理部の動作を示す流れ図、第9図は同
上の正規化処理部の動作を示す流れ図、第10図
a、bは距離計算照合部の動作を示す波形図、、
第11図は音声の特徴を階層化して示した図、第
12図は音声の周波数スペクトルを示す図、第1
3図a、bは音声から抽出した信号の波形図、第
14図は同上の装置における分岐照合処理の原理
を示す図、第15図は音声の第1階層リストを示
す図、第16図a〜dは音声の第2階層リストを
示す図、第17図は音声の標準パターンを作成す
る装置の動作を示す流れ図、第18図a、b、c
は学習登録方式の原理を示す図、第19図は学習
登録方式の動作を示す図、第20図は本発明の装
置における登録処理部の動作を示す流れ図、第2
1図は同上の非学習登録処理の動作を示す流れ
図、第22図は同上の音声分析部の回路図、第2
3図は母音/a/、/i/、/e/の第1ホルマ
ントの周波数分布を示す図、第24図は本発明に
おける判定処理部の動作を示す流れ図、第25図
aは母音の調音点を示す図、同図bおよび第26
図は第1ホルマントおよび第2ホルマントの周波
数分布を示す図である。
の概略構成を示すブロツク図、第2図a、bは同
上の動作波形図、第3図は同上の音声メツセージ
識別処理動作をブロツク化して示した図、第4図
a、bは同上の波形整形処理部の動作を示す波形
図、第5図は同上の波形整形処理部の動作を示す
流れ図、第6図は同上のコンポジツト符号化処理
部の動作を示すフローチヤート、第7図a、bは
同上の符号化処理部のブロツク図、第8図は同上
の階層化処理部の動作を示す流れ図、第9図は同
上の正規化処理部の動作を示す流れ図、第10図
a、bは距離計算照合部の動作を示す波形図、、
第11図は音声の特徴を階層化して示した図、第
12図は音声の周波数スペクトルを示す図、第1
3図a、bは音声から抽出した信号の波形図、第
14図は同上の装置における分岐照合処理の原理
を示す図、第15図は音声の第1階層リストを示
す図、第16図a〜dは音声の第2階層リストを
示す図、第17図は音声の標準パターンを作成す
る装置の動作を示す流れ図、第18図a、b、c
は学習登録方式の原理を示す図、第19図は学習
登録方式の動作を示す図、第20図は本発明の装
置における登録処理部の動作を示す流れ図、第2
1図は同上の非学習登録処理の動作を示す流れ
図、第22図は同上の音声分析部の回路図、第2
3図は母音/a/、/i/、/e/の第1ホルマ
ントの周波数分布を示す図、第24図は本発明に
おける判定処理部の動作を示す流れ図、第25図
aは母音の調音点を示す図、同図bおよび第26
図は第1ホルマントおよび第2ホルマントの周波
数分布を示す図である。
Claims (1)
- 【特許請求の範囲】 1 音声入力の高周波成分と低周波成分とをとり
出す一対のフイルタの出力を比較して高周波成分
の方が強い区間を無声音区間、低周波成分の方が
強い区間を有声音区間、高周波成分と低周波成分
とが略同じ区間を無音区間とし、無声音、有声
音、および無音の各区間の時系列からなる第1の
入力パターンを予め記録されている複数種の標準
パターンと1次照合し、有声音区間については、
有声音の周波数帯域のうちの高周波成分と低周波
成分とをとり出す一対のフイルタの出力を比較
し、高周波成分の方が強い区間を高域有声音区
間、低周波成分の方が強い区間を低域有声音区
間、高周波成分と低周波成分とが略同じ区間を中
域有声音区間とし、高域有声音、低域有声音、お
よび中域有声音の各区間の時系列からなる第2の
入力パターンを予め記録されている複数種の標準
パターンと2次照合し、入力パターンとの距離が
最小となる標準パターンを入力メツセージとして
識別することを特徴とする音声メツセージ識別方
式。 2 第2の入力パターンと標準パターンとを2次
照合する際には、高域有声音区間の継続時間が一
致するか否かを照合することを特徴とする特許請
求の範囲第1項記載の音声メツセージ識別方式。 3 第2の入力パターンと標準パターンとを2次
照合する際には、第2の入力パターンの全継続時
間の中で高域有声音区間が占める時間の割合が一
致するか否かを照合することを特徴とする特許請
求の範囲第1項記載の音声メツセージ識別方式。 4 第2の入力パターンと標準パターンとを2次
照合する際には、高域有声音区間、低域有声音区
間、および中域有声音区間のうち継続時間が最も
長いものが一致するか否かを比較することを特徴
とする特許請求の範囲第1項記載の音声メツセー
ジ識別方式。 5 第2の入力パターンと標準パターンとを2次
照合する際には、高域有声音区間、低域有声音区
間、および中域有声音区間を継続時間の長い順に
並べたときの順序が一致するか否かを比較するこ
とを特徴とする特許請求の範囲第1項記載の音声
メツセージ識別方式。 6 有声音のエネルギが集中する1KHz以下の低
周波成分を抽出するフイルタと、無声音のエネル
ギが集中する2KHz〜12KHzの高周波成分を抽出
するフイルタとの出力を比較して有声音、無声
音、および無音の各区間を識別するようにして成
ることを特徴とする特許請求の範囲第1項記載の
音声メツセージ識別方式。 7 有声音の区間においては、母音/a/のよう
な高域有声音のエネルギが集中する500Hz〜1KHz
の成分を抽出するフイルタと、母音/i/のよう
な低域有声音のエネルギが集中する500Hz以下の
成分を抽出するフイルタの出力を比較することに
より、高域有声音、低域有声音、および中域有声
音の各区間を識別するようにして成ることを特徴
とする特許請求の範囲第1項記載の音声メツセー
ジ識別方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19355781A JPS5895400A (ja) | 1981-11-30 | 1981-11-30 | 音声メツセ−ジ識別方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19355781A JPS5895400A (ja) | 1981-11-30 | 1981-11-30 | 音声メツセ−ジ識別方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5895400A JPS5895400A (ja) | 1983-06-06 |
| JPS6245560B2 true JPS6245560B2 (ja) | 1987-09-28 |
Family
ID=16310021
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP19355781A Granted JPS5895400A (ja) | 1981-11-30 | 1981-11-30 | 音声メツセ−ジ識別方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5895400A (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6243697A (ja) * | 1985-08-20 | 1987-02-25 | 三洋電機株式会社 | 音声分析装置 |
| JPS62244100A (ja) * | 1986-04-17 | 1987-10-24 | 株式会社リコー | 音声区間検出方式 |
| JP5840077B2 (ja) * | 2012-06-15 | 2016-01-06 | 日本電信電話株式会社 | 発生音感知装置、方法、プログラム |
-
1981
- 1981-11-30 JP JP19355781A patent/JPS5895400A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5895400A (ja) | 1983-06-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Zhou et al. | Nonlinear feature based classification of speech under stress | |
| Farrús et al. | Using jitter and shimmer in speaker verification | |
| Lee et al. | Tone recognition of isolated Cantonese syllables | |
| JPH09500223A (ja) | 多言語音声認識システム | |
| JPS6147440B2 (ja) | ||
| Hermansky et al. | Perceptual properties of current speech recognition technology | |
| US4509186A (en) | Method and apparatus for speech message recognition | |
| JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
| Kethireddy et al. | Mel-weighted single frequency filtering spectrogram for dialect identification | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Rudzicz | Acoustic transformations to improve the intelligibility of dysarthric speech | |
| Gupta et al. | Autoassociative neural network models for online speaker verification using source features from vowels | |
| Ching et al. | From phonology and acoustic properties to automatic recognition of Cantonese | |
| JPS6245560B2 (ja) | ||
| JPH0643895A (ja) | 音声認識装置 | |
| JPS6331798B2 (ja) | ||
| Syrdal et al. | Perceptually-based data-driven join costs: comparing join types. | |
| Pandey et al. | Multilingual speaker recognition using ANFIS | |
| JPS6331797B2 (ja) | ||
| JPH1097274A (ja) | 話者認識方法及び装置 | |
| Nidhyananthan et al. | Contemporary speech/speaker recognition with speech from impaired vocal apparatus | |
| Landge et al. | Analysis of variations in speech in different age groups using prosody technique | |
| Govender et al. | HMM adaptation for child speech synthesis. | |
| Thubthong et al. | Stress and tone recognition of polysyllabic words in Thai speech | |
| Altamrah et al. | An acoustic analysis and comparison of two unique and almost identical arabic emphatic phonemes |