JPH04365100A

JPH04365100A - 音声認識に使用する子音の認識方法

Info

Publication number: JPH04365100A
Application number: JP3167837A
Authority: JP
Inventors: Norio Akamatsu; 則男赤松
Original assignee: ASAHI ONKYO KK
Current assignee: ASAHI ONKYO KK
Priority date: 1991-06-11
Filing date: 1991-06-11
Publication date: 1992-12-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声認識に使用する
子音の認識方法に関する。

【０００２】

【従来の技術】日本語は、子音と母音とが組み合わされ
て音声を特定している。したがって、子音と母音とを識
別することによって、音声を認識できる。このため、入
力された音声を、子音と母音とに分離し、これを別々に
識別して音声を認識している。母音と子音とに分離され
た音声信号は、バンドパスフィルターを使用し、あるい
は、コンピュータを使用してフーリエ級数に分解して識
別できる。

【０００３】

【発明が解決しようとする課題】母音は、比較的簡単に
認識できる。それは、母音が、一定の音量で一定時間連
続し、しかも、種類が少ないことが理由である。しかし
ながら、子音の識別精度を高くすることは極めて難しく
、このことが全体の認識率を高くするのを困難にしてい
る。子音は、母音に比較して波形の振幅が極めて小さく
、しかも時間的にも瞬時の出来事であり、さらに困った
ことに、レベル調整が難しい性質がある。

【０００４】入力される音声を認識するときに、入力レ
ベルを最適値に調整することは、認識精度を高くするた
めに大切なことである。それは、入力レベルが大きすぎ
ても小さすぎても、識別能力が低下するからである。入
力レベルが大きすぎると、入力信号がオバーフローして
、識別誤差の原因となる。反対に入力レベルが小さいと
Ｓ／Ｎ比が低下して、雑音による識別誤差を生ずる。

【０００５】母音は入力レベルを最適な状態に調整でき
る。母音は比較的長い時間連続するので、ＡＬＣ（自動
レベルコントロール回路）で、レベルコントロールする
のに時間的な余裕がある。これに対して、子音は音のな
い状態から入力され一瞬のうちに終るので、レベル調整
が極めて難しく、入力レベルによる識別誤差を解消する
のが難しい欠点がある。

【０００６】この発明は、この欠点を解決することを目
的に開発されたもので、この発明の重要な目的は、子音
の識別を簡単にして高精度にできる音声認識に使用する
子音の認識方法を提供するにある。

【０００７】

【課題を解決するための手段】この発明の音声認識に使
用する子音の認識方法は、前述の目的を達成するために
、入力された音声信号を記憶手段に記憶し、記憶した音
声を時間的に逆に識別することを特徴としている。

【０００８】

【実施例】以下、この発明の実施例を図面に基づいて説
明する。但し、以下に示す実施例は、この発明の技術思
想を具体化する為の方法を例示すものであって、この発
明の方法は、処理方法やこれに使用する部材を下記のも
のに特定するものでない。この発明の方法は、特許請求
の範囲に於て、種々の変更を加えることができる。

【０００９】この発明の子音の認識方法に使用する装置
を図１に示している。この識別装置は、マイク１と、マ
イクアンプ２と、Ａ／Ｄコンバータ３と、ＲＡＭ４と、
読出回路５と、演算回路６とを備えている。

【００１０】マイク１は、入力される音声信号を電気信
号に変換する全てのマイク１、例えば、コンデンサーマ
イクや、ダイナミックマイク等が使用できる。

【００１１】マイクアンプ２は、マイク１から入力され
る低レベルの信号を、数ボルトの出力に増幅する。

【００１２】Ａ／Ｄコンバータ３は、マイクアンプ２か
ら入力されるアナログ信号をデジタル信号に変換する。

【００１３】ＲＡＭ４は、デジタル量に変換された音声
信号を一時的に記憶する記憶手段で、演算回路６からの
リセット信号でリセットされる。

【００１４】読出回路５は、ＲＡＭ４に記憶された音声
を逆に読み出しするもので、読み出したデジタル信号を
演算回路６に入力する。

【００１５】演算回路６は、読出回路５から入力される
信号をフーリエ級数に分解し、分解した周波数成分によ
って母音と子音とに分解し、さらに、母音と子音とが何
であるかを識別する。演算回路６は、分解されたフーリ
エ級数のパターンを記憶するメモリを備えている。メモ
リに記憶するパターンと、分解したフーリエ級数とを比
較して、入力された信号を母音と子音とに分離し、さら
に、母音と子音とが何の音であるかを認識する。演算回
路６は、マイクロコンピュータのＣＰＵとメモリとを組
み合わせた回路が使用できる。

【００１６】図２に示す装置は、複数のバンドパスフィ
ルター７を並列に接続して、入力信号の周波数成分を分
析している。バンドパスフィルター７は、通過周波数が
音声帯域にあって、異なる周波数に設計されている。バ
ンドパスフィルター７の数を多くするにしたがって、音
声の識別能力が高くなるので、通常は、８〜３０のバン
ドパスフィルター７を並列に接続する。このようにバン
ドパスフィルター７で入力信号を周波数分析する装置は
、簡単に周波数分析できる特長がある。

【００１７】バンドパスフィルター７には、アナログフ
ィルターと、デジタルフィルターとが使用できる。アナ
ログフィルターのバンドパスフィルター７を使用する場
合、図２に示すように、バンドパスフィルター７と読出
回路５との間に、デジタル量をアナログ量に変換するＤ
／Ａコンバータ８を接続する。

【００１８】バンドパスフィルター７の出力は演算回路
６に入力される。演算回路６は、各バンドパスフィルタ
ー７から入力される信号レベルから、母音と子音とを分
離し、分離した母音と子音とがどの音であるかを識別す
る。この演算回路６は、図１に示す演算回路６と同じよ
うにして、周波数分析された結果を、記憶するパターン
に比較して、音の種類を特定する。

【００１９】図１と図２とに示す演算回路６は、ＲＡＭ
４のリセット回路９を備えている。リセット回路９は、
入力された信号を処理した後、認識を終了した部分に記
憶される信号をリセットする。ＲＡＭのリセットさせた
部分には、次々と入力される音声信号を再び記憶して、
読出回路５に出力する。

【００２０】図１と図２とに示す装置は、次の工程で、
入力された音声信号を識別する。 ■　　マイク１から入力された音声信号を、Ａ／Ｄコン
バータ３でデジタル量に変換して、ＲＡＭ４に記憶させ
る。ＲＡＭ４は、１音または１単語の音声を記憶する。１音の音声をＲＡＭ４に記憶させる場合、マイク１に向
かって１音ずつ区切って発音する。１単語の音声をＲＡ
Ｍ４に記憶させる場合、１単語単位に区切って発声する
。

【００２１】ただ、ＲＡＭ４に複数の単語を記憶させる
ことも可能であるのはいうまでもない。複数の単語をＲ
ＡＭ４に記憶させる場合、発声音がなくなった状態をト
リガーとして、入力音声を識別する。

【００２２】■　　読出回路５は、ＲＡＭ４に記憶され
た音声信号を、時間的に逆に、すなわち、後からＲＡＭ
４に入力された信号を先に読み出し、先にＲＡＭ４に入
力した信号を後で読み出す。すなわち、時間を逆にして
読み出す。例えば、「か」の音は、図３に示すように、
子音「Ｋ」の後の母音「Ａ」の音がある。したがって、
逆に読み出すと「Ａ」の音に続いて「Ｋ」の音が読み出
される。

【００２３】■　　時間を逆に読み出した信号は、母音
の「Ａ」に続いて、子音の「Ｋ」の音が入力される。母
音である「Ａ」の音は、比較的長い時間連続するので、
レベル（Ｖｋ）を最適値に調整して周波数に分析する。「Ａ」に続いて入力される「Ｋ」の音は、「Ａ」の音を
参考にしてレベル（Ｖａ）を最適に調整して、周波数分
析する。周波数分析は、図１に示す装置は、コンピュー
タの演算回路６で、図２に示す装置は、複数のバンドパ
スフィルター７で処理する。

【００２４】■　　周波数分析された結果は、演算回路
６に記憶されるパターンに比較され、母音と子音とが何
であるかを特定する。逆に読み出しして母音と子音とに
分離された「Ａ」と「Ｋ」の音を認識する技術は、すで
に行われている全ての方法、あるいは、これから開発さ
れる方法が利用できる。

【００２５】■　　演算回路６が、周波数分析結果を演
算処理して音を認識した後、ＲＡＭ４を読み出した音を
記憶する部分をリセットする。ただ、演算回路６が演算
処理している間も、ＲＡＭ４は音声信号を順番に記憶し
ている。

【００２６】

【発明の効果】この発明の音声認識に使用する子音の認
識方法は、子音の後に母音がくる日本語の性質を有効に
利用して、子音の識別能力を高くしている。すなわち、
この発明の方法は、入力された音声信号を記憶し、記憶
した音声を時間的に逆に認識するので、子音は母音に続
いて入力されることになる。このため、図３において、
子音のレベル（Ｖｋ）を、母音のレベル（Ｖａ）に基づ
いて最適値に調整することができる。母音は子音に比較
すると長い時間連続する波形であるから、入力レベルの
調整も可能である。レベルを最適に調整することによっ
て、子音を高い認識率でより正確に識別できる特長があ
る。

【００２７】さらに、この発明の音声認識に使用する子
音の認識方法は、母音に連続して子音が入力されので、
母音から子音に変わった直後から子音を識別することが
できる。このため、発声時間の短い子音を、全体に渡っ
て正確に識別することが可能となる。発声時間が非常に
短い子音は、識別する時間を可能な限り長くすることが
大切である。例えば、子音をフィルターで周波数に分解
する場合、フィルターには検出時間に遅れがあるので、
可能な限り長い時間入力して周波数に分析する必要があ
る。また、子音をコンピューターで演算してフーリエ級
数に分解する場合は、分析を開始する時間と、分析でき
る波形の時間的な長さとが分析結果に影響を与える。正
確にフーリエ級数に分解するためには、子音の開始点を
正確に検出し、また、可能な限り長い時間測定する必要
がある。

【００２８】さらにまた、この発明は、母音に含まれる
ピークを参考にして子音をより正確に識別することも可
能である。母音は図３に示すように、一定の周期（Ｔ）
で繰り返すピークを含んでいる。これに対して、子音も
母音のピーク（ｔ）に近似する周期のピークを含んでい
る。このため、母音のピーク周期を検出して、子音のピ
ーク周期を測定することができる。子音のピークは、母
音のピークに比較して数が少ないので、単独ではとらえ
難くいが、母音のピークを参考にしてピークを検知する
ことによって、より正確にピーク周期を検出できる。ピ
ークの状態は各子音に独得のもので、これを識別するこ
とによって、子音を正確に特定することができる。

【００２９】このように、この発明の音声認識に使用す
る子音の認識方法は、子音のレベルを最適に調整し、ま
た、子音の開始時間と認識時間とを長くし、さらに子音
のピークの周期を正確に測定することによって、簡単な
装置を使用して、子音の識別能率を改善できる特長があ
る。

【図面の簡単な説明】

【図１】この発明に使用する装置の一例を示すブロック
線図

【図２】この発明に使用する装置の他の具体例を示すブ
ロック線図

【図３】子音の後に母音がくる音声波形の一例を示すグ
ラフ

【符号の説明】

１……マイク２……マイクアンプ３……Ａ／Ｄコンバータ４……ＲＡＭ５……読出回路６……演算回路７……バンドパスフィルター８……Ｄ／Ａコンバータ９……リセット回路

Claims

【特許請求の範囲】

【請求項１】　　入力された音声信号を記憶手段に記憶
し、記憶した音声を時間的に逆に識別することを特徴と
する音声認識に使用する子音の認識方法。