JPH06324697A

JPH06324697A - 音声認識システム

Info

Publication number: JPH06324697A
Application number: JP5127104A
Authority: JP
Inventors: Ho-Sun Chung; 鎬宣鄭; Jong-Un Park; 政雲朴
Original assignee: Goldstar Electron Co Ltd
Current assignee: SK Hynix Inc
Priority date: 1992-05-30
Filing date: 1993-05-28
Publication date: 1994-11-25
Also published as: KR930023908A; KR950003390B1; DE4317991A1

Abstract

(57)【要約】【目的】音声認識システムを提供する。【構成】そのシステムは音声信号を入力するための音
声入力手段と、前記音声入力手段からの信号を所定の周
波数帯域に分け各周波数帯域での信号のエネルギ−で表
現するための音声分析手段と、前記音声分析手段からの
信号を入力して信号に対する各周波数帯域の大きさを比
べ信号を二進化し前記二進化されたデ−タに当たる音声
信号を外部に出力するための主コンピュ−タ−から構成
されている。【効果】これにより、新しい音声認識システムの具現
が可能である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識システムに係
り、特に韓国語の短音節音声認識システムに関する。

【０００２】

【従来の技術】音声を認識するための特徴の抽出におい
て、話す人の発音速度及び習慣、発音する時の環境の違
い、話者の感情の状態、方言の存在等により音声を互い
に区分するための固有の特徴を探すことは非常に難しい
ことである。又、種々の造音結合により同じ音素だとし
ても前後音素の影響を受け変形された音声学的な特徴を
表す。このような要因のため音声固有の特徴を抽出する
ためのアルゴリズムの開発が難しくアルゴリズムを通じ
て得た知識の表現及び統合に困難があった。

【０００３】このような様々の問題点を解決するために
既存の方式を利用して解決するために多くの研究が遂行
された。この中で音声の周波数成分に現れるピ−ク（pe
ak）を使用し有声音を分けるホルマント解釈（Formant
Analysis）、単語の発音と発音間の時間的不整合（Time
Distortion ）を動的プログラミング（Dynamic Progra
mming ）技法を使用し減らした後一番近い発音を選択し
認識するＤＴＷ（Dynamic Time Warping）方法、音声信
号をＨＭＭ（HiddenMarkov Model）に表し音声認識に使
用するＨＭＭ方法等が特記に値する。

【０００４】しかしながら、このような方法を利用して
現在まで具現されたほぼ大部分の音声認識システムは人
間が自然に発音した音声は認識し、音声特性の多様な変
化を受容するめに多くの計算を必要としたのでその実用
性や妥当性に問題があり、実時間の音声認識が難しくな
る。こういう音声認識のようなパタ−ン認識の一般的な
問題が解決できる方法として提示されているのが神経回
路網モデルとファジ−論理である。

【０００５】神経網モデルはFohn-Noimannコンピュ−タ
−とは異なり、曖昧だったり不完全で互いにかち合うデ
−タから与えられた問題を解決するための適切な規則が
学習できるだけでなく、多くの数の計算要素（Neuron）
の並列処理が期待でき音声認識のように並列処理が絶対
的に必要な分野においての利用可能性を見せている。神
経網モデルの長所は次の通りである。

【０００６】第１．適応性が高い。人間の音声は周辺の
雑音、発音速度、話者の特性により様々な形態に変われ
るが、神経網モデルはそれに対し効率的に学習され得
る。第２．学習過程に妥当性がある。多様な音声デ−タから
抽象的な特性を適切に抽出しアルゴリズム化するのは非
常に難しいが、神経網モデルの場合は例を通じた学習で
自ら特徴を抽出し学習できる。

【０００７】第３．並列処理できる。多くの数の基本要
素が並列的に演算を遂行し結果を得る神経網モデルの構
造は学習する時必要な莫大の時間を並列処理を通じて成
せる。既存の方法が特定パタ−ンの基準パタ−ンを予め固定し
たり、音声デ−タに存する多くの規則を一々プログラミ
ングするのに比べ神経回路網を利用したシステムは外部
に現れる情報の特性を自ら見つけ学習をするので変移の
特性を一々指さなくてもパタ−ンが分類でき、又変形さ
れたパタ−ンに対しても良い性能を見せる。実際に神経
回路網を音声認識の方法に導入し音声認識の性能を向上
させようとする神経回路網モデルの中代表的なものとし
てＴＤＮＮ（Time Delay NeuralNetwork ）がある。Ｔ
ＤＮＮは音素単位の音声認識に良い認識性能を見せ、音
韻グル−プに対応する副回路網をモジュ−ルで構成し実
験した結果副回路網の高い認識率を低下させることなし
に認識対象の範囲が拡張できた。

【０００８】前述した神経回路網の特性を実際の問題に
適用し充分に利用するためにはハ−ドウェアの具現が必
ず必要である。所が、神経回路網をハ−ドウェア化する
時はコンピュ−タ−によるソフトウェアシミュレ−ショ
ンとは異なり多くの制約がある。それでチップ具現のた
めのＩＤＭＬＰ神経回路網が提案された。そして、全て
の人が同じ言語を発音しても人によってその周波数特性
が異なるので、即ち音声デ−タの多様性のためファジ−
論理を導入した。

【０００９】

【発明が解決しようとする課題】本発明の目的は神経回
路網とファジ−パタ−ンマッチングアルゴリズムを利用
した韓国語短音節音声認識システムを提供することであ
る。

【００１０】

【課題を解決するための手段】前記の目的を達成するた
めに本発明の音声認識システムは音声信号を入力するた
めの音声入力手段と、前記音声入力手段からの音声信号
を分析するための音声分析器と、前記音声分析器からの
信号を主コンピュ−タ−に伝達するためのインタフェ−
ス手段と、前記インタフェ−ス手段と連結された主コン
ピュ−タ−と、前記主コンピュ−タ−に連結されデ−タ
を入出力するための入出力貯蔵媒体と、前記主コンピュ
−タ−に連結された入力媒体及び前記主コンピュ−タ−
に連結されたデ−タ出力媒体を具備する。

【００１１】

【作用】コンピュ−タ−を利用してＩＤＭＬＰ神経回路
網によって音声認識を遂行することにより認識率が高め
る。

【００１２】

【実施例】以下、添付した図面に基づき本発明を詳細に
説明する。図１は本発明による音声認識システムの音声
分析のためのハ−ドウェア構成のブロック図を示す。図
１において、音声を入力するためのマイクロホン１０、
前記マイクロホン１０からの音声を増幅するためのアナ
ログ増幅器２０、前記アナログ増幅器２０からの音声信
号を分析するための音声分析器３０、ＰＣとのインタフ
ェ−スのためのインタフェ−スボ−ド４０、コンピュ−
タ−とデ−タをやり取りするためのハ−ドディスクドラ
イバ−とフロッピ−ディスクドライバ−５０、前記イン
タフェ−スボ−ド４０と前記ハ−ドディスクドライバ−
とフロッピ−ディスクドライバ−５０と連結された主コ
ンピュ−タ−６０、前記主コンピュ−タ−６０の入力装
置であるキ−ボ−ド７０及び前記主コンピュ−タ−６０
の出力装置であるモニタ−８０から構成されている。

【００１３】図２は音声入力のためのもので、可変抵抗
を利用し入力音声の大きさが調節でき、使用された差動
増幅器９０は普通人の声が７KHz まで分布するので周波
数帯域幅が１０KHz 以上である差動増幅器TL072CP を使
用した。図３は音声分析のための一実施例のブロック図
を示すもので、全体的に二部分に分けられる。一つはア
ドレスデコ−ダ−を含むＰＣとのインタフェ−ス部分で
あり、残りは音声分析を行う部分である。

【００１４】アドレスデコ−ダ−は74LS688 を利用して
インタフェ−スボ−ドである8255PPI とμPD7763のチッ
プを各々別に選択させた。アドレスデコ−ダ−であある
74LS688 はオ−プンコレクタ−形のチップであるのでプ
ルアップ抵抗を74LS688 の出力を表す19番ピンと電源の
間に連結し構成した。ＰＣとのインタフェ−スは8255PP
I を利用したが、こうすることにより、μPD7763とＰＣ
とのインタフェ−スボ−ドを非常に簡単に設計及び製作
できた。8255PPI とμPD7763の制御はデ−タバスとアド
レスバスそしてIBM PC AT のスロットにある幾つかの信
号を利用したが、この部分はソフトウェア構成で詳細に
述べることにする。

【００１５】8255PPI のリセット（RESET ）入力は IBM
PC のI/0 スロットにあるリセット端子をそのまま連結
しコンピュ−タ−がブ−ティングされる時自動にリセッ
トさせた。音声分析をする部分はディジタルとアナログ
信号が混ぜられている部分なので雑音に格別気を遣うべ
きである。本発明ではこのような雑音の除去をほぼ 0.1
μF のキャパシタ−を使用した。

【００１６】μPD7763に対する制御信号の入力はデ−タ
バスとアドレスバスを利用した。そして、内部回路の動
作を合わせるために4MHzの周波数を有するクロックが要
求されるが、これは4MHzモジュ−ルクリスタルを利用し
て解決した。μPD7763のリセット信号は入力モ−ドを設
定する前に必ず行うべきだが、ハ−ドウェア的でこの問
題を解決しようとすれば全体的な回路があまり大きくな
るので本発明では8255PPI を利用してソフトウェア的で
解決した。即ち、デ−タバスでリセット信号に当たる値
を8255PPI の出力ポ−トを通じてμPD7763のリセット端
子に伝達する方法を採った。

【００１７】音声分析器のフレ−ム（FRAME ）端子が
“１”を出力すれば一フレ−ムの分析が完了することを
表すが、この時コンピュ−タ−はμPD7763の内部にある
スタックに貯蔵された１６チャネルフィルタ−バンクの
値を読み出せば良い。この部分のインタフェ−スを8255
PPI を使用して音声認識において一番多い時間の要求さ
れる前処理部分をハ−ドウェアで構成し全体的には実時
間音声認識システムを構成することができた。

【００１８】即ち、一般的なソフトウェアシミュレ−シ
ョンでは音声信号を分析するのにたくさんの時間が消耗
されるが、本発明では１６チャネル帯域フィルタ−バン
クの出力を求めるのにハ−ドウェアで製作したのでこの
過程で必要とされる莫大な時間が減らせ実時間で音声を
認識できるシステムを構成することができた。図４はμ
PD7763の内部にある１６個の帯域フィルタ−の周波数表
を表す。マイクロホンの出力を増幅するために普通人の
声周波数を含むことのできる周波数帯域幅が１０KHz 以
上であるTL072CP を使用した。このアナログ増幅端の出
力がμPD7763の入力に使用され音声分析器μPD7763の出
力は８ビットディジタルデ−タである。

【００１９】図５は母音

【００２０】

【外１】

【００２１】に対する音声分析器の一フレ−ム出力を示
す。普通母音が持っている特性であるホルマントが観察
されたので本発明で設計及び製作した音声分析システム
が音声認識のための前処理用ボ−ドとして欠陥のないこ
とが見られる。ソフトウェアの構成は二通りで分類され
る。第１は先に設計製作した音声分析ボ−ドを使用者が
たやすく使用するための制御プログラムが必要である。
このような制御プログラムは8255PPI とμPD7763の動作
モ−ドの設定とデ−タの入出力を指定する。

【００２２】第２で構成されるソフトウェアは音声分析
ボ−ドを通じて周波数領域に解釈されたデ−タから音声
区間を検出し、様々に違って現れるそれぞれの発声長さ
を正規化し最終的にはＩＤＭＬＰ神経回路網の入力に使
用されるデ−タの二進化を行う。8255PPI 動作モ−ドの
設定は基本動作モ−ドで入力と出力を行うポ−トを指定
することで本発明では“Ａ”と“Ｃ”ポ−トを出力ポ−
トに定め、“Ｂ”ポ−トを入力ポ−トに指定した。上の
動作モ−ドの設定は次の通りにすることにより指定され
る。

【００２３】 outportb(0x307,0x82):/* A&C Port output,B Port input*/ 8255PPI は音声分析チップを初期化し分析が終わったか
否かを分かるに使用されるようハ−ドウェアが構成され
ているので8255PPI を制御するプログラムは簡単であ
る。次はμPD7763を制御するプログラムが必要だが、こ
の時注意すべきなのはデ−タを分析し、その分析された
デ−タを読み出す時間をよく計算して全体システムを安
定させる。

【００２４】先ず、音声分析チップの初期化を行うべき
だがこれは8255PPI を利用して次のようにする。 outportb(0x00):/* μPD7763 Reset Signal*/ delay(1):/* Reset Signal Duration*/ outportb(0xff):/* Free Reset Signal*/ リセット信号はシステムを初期化するので４クロック以
上入力しなければならない。それで上の“delay(int);"
関数が必要である。

【００２５】μPD7763の入出力制御部はデ−タバス（DB
0 〜DB7 ）を間に置き外部とデ−タを入出力する時の制
御を行う。図６は四つの制御信号（ＣＳ、ＷＲ、Ａ０、
Ａ１）の状態による動作を示す。リセット解除の後に 3
78μsec 以内に動作モ−ドの設定をすべきである。μPD
7763の動作モ−ドはデ−タバスを通じてチップ内部にあ
る COMMAND/STATUS レジスタ−にデ−タを記入すること
により設定されるが、コンピュ−タ−で制御可能な動作
モ−ドの種類は次の通りである。

【００２６】１．分析フレ−ムの周期。２．ＰＲＥ−ＡＭＰの利得。３．イコライザのオン／オフ。４．低域通過フィルタ−の遮断周波数。前述した四つの項目はコンピュ−タ−でデ−タバスを通
じて COMMAND/STATUSレジスタ−にデ−タを記入するこ
とにより成されるが、Ｃ言語を利用して簡単に次のよう
に構成できる。

【００２７】 outportb(0x304.0x4c): /* 0dB. 16ms */ outportb(0x304.0x02): /* 25Hz. EQ OFF */ 図７は音声の入力から分析結果を読み出すまでの全体の
フローチャートを示す。図８は音声分析器の出力を 825
5PPIを通じてコンピュ−タ−のメモリ貯蔵した後、音声
区間の検出とＩＤＭＬＰ神経回路網の入力に使用される
二進化されたデ−タを獲得する過程を示す。

【００２８】本発明では一フレ−ムの長さを１６msにし
た。分析が完了されたデ−タで音声区間を検出すべきだ
が、本発明では一フレ−ムのエネルギ−が定めて置いた
しきい値より大きい場合にはそのフレ−ムを音声区間に
定めた。一人が同じ言葉を何回繰り返して発音してみる
時、発音の長さが同じである場合が殆どないので時間軸
正規化をしなければならない。韓国語の短音節に当たる
言葉を何回繰り返して発音してみれば短くは８フレ−ム
長くは２６フレ−ムまで続いたので基準を１５フレ−ム
に定め時間軸正規化を行い、上で求めたデ−タを二進化
する。

【００２９】本発明ではＩＤＭＬＰ神経回路網の入力に
使用するためにマイクロホンの入力から１６チャネルフ
ィルタ−バンクの出力までをハ−ドウェアで具現し入力
デ−タの採集時間を減らした。入力デ−タの抽出過程は
先に説明した最終的な正規化された二進化デ−タを求め
ることでその過程は次の通りである。

【００３０】１．マイクロホンで音声信号を受け入れ
る。２．TP072CP を利用して音声分析器μPD7763の入力に適
当な大きさで増幅する。３．音声分析器から分析結果を読み出す。４．定めたしきい値を利用して音声区間を検出する。

【００３１】５．基準フレ−ムの数に合うよう時間軸で
正規化させる。６．各フィルタ−の出力を隣のフィルタ−の出力と比べ
この時の相対的な大きさを二進化する。図９は音声区間を検出した直後のデ−タを示す。図１０
は音声信号の周波数スペクトルを示す。

【００３２】図１１は二進化された周波数スペクトルを
示す。音声分析器から読み出した各フィルタ−のエネル
ギ−を次の式でのように左側のフィルタ−の出力と比べ
大きい場合１、小さい場合０の値をそのフィルタ−での
出力値とする。

【００３３】

【数１】

【００３４】図１２はこのような方法を使用して得た出
力を示す。上の過程を経た結果一つのフレ−ムに当たる
入力ビット数は１５ビットである。本発明では韓国語の
短音節音声認識のための前哨段階として、“０”から
“９”までの数字音認識にファジ−論理と先に説明した
ＩＤＭＬＰ神経回路網の適用可能性を実験してみた。そ
してＩＤＭＬＰ神経回路網を利用した認識において全て
の学習デ−タを学習した結果とファジ−化し一つのデ−
タで学習した結果に対しそれぞれ認識実験をし、神経回
路網とファジ−論理の結合可能性を打診してみた。

【００３５】図１３はファジ−化したデ−タを再び二進
化する過程を示す。“０”から“９”まで１０回ずつ発
音された各々のデ−タを重畳させデ−タをファジ−化し
それを更に適当な臨界値に二進化した。図１４はファジ
−化したデ−タを二進化した結果を示す。回路網の学習
の際入力ノ−ドの数は一定であるので相異なる長さで発
音された音の長さを時間軸に対し正規化すべきである。
本発明では１５フレ−ムを基準として基準フレ−ムより
入力パタ−ンのフレ−ムが長ければ適当な間隔でフレ−
ムを満たしていきながら時間軸正規化を遂行した。

【００３６】本発明では一人の話者により発音された２
００個のＩＤＭＬＰ神経回路網の学習デ−タで使用し、
設計された音声認識システムが音声デ−タの多様性にど
のぐらいの適応性があるか判断するために認識実験は
朝、昼、夜の三通り時間帯から抽出した３００個のデ−
タで認識実験をした。学習した結果学習デ−タは二進デ
−タとファジ−デ−タ全て１００％の認識率を見せ、試
験デ−タに対しては二進デ−タで学習した場合とファジ
−デ−タで学習した場合全て９４％以上の高い認識率を
表した。各々の実験結果を図１５に示した。

【００３７】二進化されたデ−タでＩＤＭＬＰ神経回路
網を学習した場合には朝に行った認識実験の認識率が９
４％と現れ、昼の認識率が９９％、夜の認識率が９６％
とそれぞれ現れた。全体的には９６．３％の認識率を見
せた。ファジ−化されたデ−タでＩＤＭＬＰ神経回路網
を学習した場合には朝に行った認識実験の認識率が９７
％と現れ、昼の認識率が９９％、夜の認識率が９８％と
現れた。

【００３８】図１５〜図２０に示した表で分かるように
朝、昼、夜の中で昼の実験の認識率が最も良く、認識率
の一番よくないデ−タは数字音“６”だった。ＩＤＭＬ
Ｐ神経回路網の学習は二進化したデ−タを全て学習した
場合とファジ−デ−タで学習した二通りの場合に対して
全てが単層で学習が終わった。それでＩＤＭＬＰ神経回
路網の構造的な特性はテストして見なかったが、ファジ
−化したデ−タを利用して学習をさせても認識結果には
大きな差がなくむしろ数字音認識では認識率が些か向上
された。

【００３９】ＩＤＭＬＰ神経回路網を韓国語短音節認識
に適用するために本発明では

【００４０】

【外２】

【００４１】の五通りのモジュ−ルに分類する類型分類
神経回路網を先ず構成し、分類された類型別に各々の副
回路網で最終的に認識するよう全体回路網を六つのモジ
ュ−ルで構成した。そして、各モジュ−ルはＩＤＭＬＰ
神経回路網で構成した。図２１はモジュ−ラＩＤＭＬＰ
神経回路網の構成を示す。類型分類段階では先に述べた
五つの母音を基準として入力される音声を五つのグル−
プに分類する役割を果たす。分類対象音節は図２２に示
したように

【００４２】

【外３】

【００４３】の母音を含む韓国語Ｃ−Ｖ短音節７０個で
ある。入力される音声を五つのグル−プに分類する類型
分類神経回路網を学習する時使用されたデ−タの抽出は
入力音声から母音部のみを抽出し学習を遂行した。使用
されたデ−タが母音−子音（Ｖ−Ｃ）短音節なので母音
Ｖを抽出することは簡単である。母音が後ろの部分に存
するので全体フレ−ムから後端部に存する幾フレ−ムの
みを抽出しても類型分類に使用されるデ−タとしては充
分であるが、認識対象語彙を次第に拡張させる時、即ち
Ｃ−Ｖ−Ｃ短音節を考えて見れば上のアルゴリズムが不
適である。

【００４４】それで、本発明では全体フレ−ムの中間部
分のみを抽出し類型分類神経回路網の学習デ−タで使用
した。このような方法で抽出したデ−タで学習させた神
経回路網で類型分類実験を数字音認識実験のように朝、
昼、夜の三通り時間帯にわたってした。学習デ−タは一
人の話者により五つの母音を含む７０個の音節を５回発
音した３５０個のデ−タから母音部を抽出したデ−タを
使用した。試験デ−タは各モジュ−ル当たり420 個のデ
−タを、全体的に2500個のデ−タでモジュ−ル分析試験
をした。

【００４５】図２３〜図２４は子音−母音（Ｃ−Ｖ）短
音節に対する分類率を示す。図２３〜図２４に示したよ
うに、平均的に98.4% の類型分類成功率を表した。各モ
ジュ−ル別に類型分類率を見れば次の通りである。

【００４６】

【外４】

【００４７】の類型分類成功率を見せた。Ｃ−Ｖ短音節
からデ−タを抽出し学習をさせたが、子音−母音−子音
（Ｃ−Ｖ−Ｃ）短音節デ−タに対しても類型分類実験を
して見た結果90% 以上の類型分類成功率を表した。

【００４８】

【発明の効果】本発明の音声認識システムは韓国語短音
節認識において良い結果が得られ、このような認識実験
を通じて短音節以上の音声認識も可能である。又、新し
い音声認識システムが具現できる。

【図面の簡単な説明】

【図１】本発明による音声分析のためのハ−ドウェア構
成のブロック図を示す図である。

【図２】本発明による音声入力部のアナログ回路を示す
図である。

【図３】本発明による音声分析のための回路を示す図で
ある。

【図４】音声分析のための回路内部の１６個の帯域フィ
ルタ−周波数表を示す図である。

【図５】母音

【外５】に対する音声分析器の一フレ−ムの出力を示す。

【図６】音声分析器の制御信号と動作を示す図である。

【図７】音声分析器の音声分析のフローチャートであ
る。

【図８】音声分析デ−タの抽出過程を示すフローチャー
トである。

【図９】音声区間を検出した直後のデ−タを示す図であ
る。

【図１０】音声信号の周波数スペクトルを示す図であ
る。

【図１１】二進化された周波数スペクトルを示す図であ
る。

【図１２】二進化された音声信号を示す図である。

【図１３】ファジ−化したデ−タを再び二進化する過程
を示す図である。

【図１４】ファジ−化されたデ−タを二進化した結果を
示す図である。

【図１５】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図１６】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図１７】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図１８】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図１９】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図２０】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。

【図２１】モジュ−ラＩＤＭＬＰ神経回路網の構成を示
す図である。

【図２２】Ｃ−Ｖ短音節の分類対象音節を示す図であ
る。

【図２３】各モジュ−ルに対する分類率を示す図であ
る。

【図２４】各モジュ−ルに対する分類率を示す図であ
る。

【符号の説明】

１０マイクロホン２０アナログ増幅器３０音声分析器４０インタフェースボード５０ハードディスクドライバーとフロッピーディスク
ドライバー６０主コンピューター７０キーボード８０モニター９０差動増幅器

Claims

【特許請求の範囲】

【請求項１】音声信号を入力するための音声入力手段
と、前記音声入力手段からの信号を所定の周波数帯域に分け
て各周波数帯域での信号のエネルギ−に表現するための
音声分析手段と、前記音声分析手段からの信号を入力し信号に対する各周
波数帯域の大きさを比べ信号を二進化し前記二進化され
たデ−タに当たる音声信号を外部に出力するための主コ
ンピュ−タ−を具備することを特徴とする音声認識シス
テム。
【請求項２】前記音声分析手段と前記主コンピュ−タ
−の間に前記二手段のインタフェ−スのためのインタフ
ェ−ス手段を更に具備することを特徴とする請求項１記
載の音声認識システム。
【請求項３】音声信号を入力するための音声入力手段
と、前記音声入力手段からの信号を所定の周波数帯域に分け
て各周波数帯域での信号のエネルギ−に表現するための
音声分析手段と、前記音声分析手段からの信号を入力し信号に対する各周
波数帯域の大きさを比べ信号を二進化し前記二進化され
たデ−タに当たる音声信号を外部に出力するための主コ
ンピュ−タ−を具備した音声認識システムの音声認識方
法において、音声分析デ−タを前記主コンピュ−タ−に入力する第１
段階と、前記第１段階からのデ−タを利用し音声区間を検出する
第２段階と、前記第２段階のデ−タを利用して時間軸正規化を遂行す
る第３段階と、前記時間軸正規化されたデ−タを二進化する第４段階
と、前記第４段階の結果をコンピュ−タ−のメモリに貯蔵す
る第５段階からなることを特徴とする音声認識システム
の音声認識方法。