JPH06324697A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JPH06324697A
JPH06324697A JP5127104A JP12710493A JPH06324697A JP H06324697 A JPH06324697 A JP H06324697A JP 5127104 A JP5127104 A JP 5127104A JP 12710493 A JP12710493 A JP 12710493A JP H06324697 A JPH06324697 A JP H06324697A
Authority
JP
Japan
Prior art keywords
voice
data
signal
recognition
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5127104A
Other languages
English (en)
Inventor
Ho-Sun Chung
鎬 宣 鄭
Jong-Un Park
政 雲 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Goldstar Electron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goldstar Electron Co Ltd filed Critical Goldstar Electron Co Ltd
Publication of JPH06324697A publication Critical patent/JPH06324697A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 音声認識システムを提供する。 【構成】 そのシステムは音声信号を入力するための音
声入力手段と、前記音声入力手段からの信号を所定の周
波数帯域に分け各周波数帯域での信号のエネルギ−で表
現するための音声分析手段と、前記音声分析手段からの
信号を入力して信号に対する各周波数帯域の大きさを比
べ信号を二進化し前記二進化されたデ−タに当たる音声
信号を外部に出力するための主コンピュ−タ−から構成
されている。 【効果】 これにより、新しい音声認識システムの具現
が可能である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識システムに係
り、特に韓国語の短音節音声認識システムに関する。
【0002】
【従来の技術】音声を認識するための特徴の抽出におい
て、話す人の発音速度及び習慣、発音する時の環境の違
い、話者の感情の状態、方言の存在等により音声を互い
に区分するための固有の特徴を探すことは非常に難しい
ことである。又、種々の造音結合により同じ音素だとし
ても前後音素の影響を受け変形された音声学的な特徴を
表す。このような要因のため音声固有の特徴を抽出する
ためのアルゴリズムの開発が難しくアルゴリズムを通じ
て得た知識の表現及び統合に困難があった。
【0003】このような様々の問題点を解決するために
既存の方式を利用して解決するために多くの研究が遂行
された。この中で音声の周波数成分に現れるピ−ク(pe
ak)を使用し有声音を分けるホルマント解釈(Formant
Analysis)、単語の発音と発音間の時間的不整合(Time
Distortion )を動的プログラミング(Dynamic Progra
mming )技法を使用し減らした後一番近い発音を選択し
認識するDTW(Dynamic Time Warping)方法、音声信
号をHMM(HiddenMarkov Model)に表し音声認識に使
用するHMM方法等が特記に値する。
【0004】しかしながら、このような方法を利用して
現在まで具現されたほぼ大部分の音声認識システムは人
間が自然に発音した音声は認識し、音声特性の多様な変
化を受容するめに多くの計算を必要としたのでその実用
性や妥当性に問題があり、実時間の音声認識が難しくな
る。こういう音声認識のようなパタ−ン認識の一般的な
問題が解決できる方法として提示されているのが神経回
路網モデルとファジ−論理である。
【0005】神経網モデルはFohn-Noimannコンピュ−タ
−とは異なり、曖昧だったり不完全で互いにかち合うデ
−タから与えられた問題を解決するための適切な規則が
学習できるだけでなく、多くの数の計算要素(Neuron)
の並列処理が期待でき音声認識のように並列処理が絶対
的に必要な分野においての利用可能性を見せている。神
経網モデルの長所は次の通りである。
【0006】第1.適応性が高い。人間の音声は周辺の
雑音、発音速度、話者の特性により様々な形態に変われ
るが、神経網モデルはそれに対し効率的に学習され得
る。 第2.学習過程に妥当性がある。多様な音声デ−タから
抽象的な特性を適切に抽出しアルゴリズム化するのは非
常に難しいが、神経網モデルの場合は例を通じた学習で
自ら特徴を抽出し学習できる。
【0007】第3.並列処理できる。多くの数の基本要
素が並列的に演算を遂行し結果を得る神経網モデルの構
造は学習する時必要な莫大の時間を並列処理を通じて成
せる。 既存の方法が特定パタ−ンの基準パタ−ンを予め固定し
たり、音声デ−タに存する多くの規則を一々プログラミ
ングするのに比べ神経回路網を利用したシステムは外部
に現れる情報の特性を自ら見つけ学習をするので変移の
特性を一々指さなくてもパタ−ンが分類でき、又変形さ
れたパタ−ンに対しても良い性能を見せる。実際に神経
回路網を音声認識の方法に導入し音声認識の性能を向上
させようとする神経回路網モデルの中代表的なものとし
てTDNN(Time Delay NeuralNetwork )がある。T
DNNは音素単位の音声認識に良い認識性能を見せ、音
韻グル−プに対応する副回路網をモジュ−ルで構成し実
験した結果副回路網の高い認識率を低下させることなし
に認識対象の範囲が拡張できた。
【0008】前述した神経回路網の特性を実際の問題に
適用し充分に利用するためにはハ−ドウェアの具現が必
ず必要である。所が、神経回路網をハ−ドウェア化する
時はコンピュ−タ−によるソフトウェアシミュレ−ショ
ンとは異なり多くの制約がある。それでチップ具現のた
めのIDMLP神経回路網が提案された。そして、全て
の人が同じ言語を発音しても人によってその周波数特性
が異なるので、即ち音声デ−タの多様性のためファジ−
論理を導入した。
【0009】
【発明が解決しようとする課題】本発明の目的は神経回
路網とファジ−パタ−ンマッチングアルゴリズムを利用
した韓国語短音節音声認識システムを提供することであ
る。
【0010】
【課題を解決するための手段】前記の目的を達成するた
めに本発明の音声認識システムは音声信号を入力するた
めの音声入力手段と、前記音声入力手段からの音声信号
を分析するための音声分析器と、前記音声分析器からの
信号を主コンピュ−タ−に伝達するためのインタフェ−
ス手段と、前記インタフェ−ス手段と連結された主コン
ピュ−タ−と、前記主コンピュ−タ−に連結されデ−タ
を入出力するための入出力貯蔵媒体と、前記主コンピュ
−タ−に連結された入力媒体及び前記主コンピュ−タ−
に連結されたデ−タ出力媒体を具備する。
【0011】
【作用】コンピュ−タ−を利用してIDMLP神経回路
網によって音声認識を遂行することにより認識率が高め
る。
【0012】
【実施例】以下、添付した図面に基づき本発明を詳細に
説明する。図1は本発明による音声認識システムの音声
分析のためのハ−ドウェア構成のブロック図を示す。図
1において、音声を入力するためのマイクロホン10、
前記マイクロホン10からの音声を増幅するためのアナ
ログ増幅器20、前記アナログ増幅器20からの音声信
号を分析するための音声分析器30、PCとのインタフ
ェ−スのためのインタフェ−スボ−ド40、コンピュ−
タ−とデ−タをやり取りするためのハ−ドディスクドラ
イバ−とフロッピ−ディスクドライバ−50、前記イン
タフェ−スボ−ド40と前記ハ−ドディスクドライバ−
とフロッピ−ディスクドライバ−50と連結された主コ
ンピュ−タ−60、前記主コンピュ−タ−60の入力装
置であるキ−ボ−ド70及び前記主コンピュ−タ−60
の出力装置であるモニタ−80から構成されている。
【0013】図2は音声入力のためのもので、可変抵抗
を利用し入力音声の大きさが調節でき、使用された差動
増幅器90は普通人の声が7KHz まで分布するので周波
数帯域幅が10KHz 以上である差動増幅器TL072CP を使
用した。図3は音声分析のための一実施例のブロック図
を示すもので、全体的に二部分に分けられる。一つはア
ドレスデコ−ダ−を含むPCとのインタフェ−ス部分で
あり、残りは音声分析を行う部分である。
【0014】アドレスデコ−ダ−は74LS688 を利用して
インタフェ−スボ−ドである8255PPI とμPD7763のチッ
プを各々別に選択させた。アドレスデコ−ダ−であある
74LS688 はオ−プンコレクタ−形のチップであるのでプ
ルアップ抵抗を74LS688 の出力を表す19番ピンと電源の
間に連結し構成した。PCとのインタフェ−スは8255PP
I を利用したが、こうすることにより、μPD7763とPC
とのインタフェ−スボ−ドを非常に簡単に設計及び製作
できた。8255PPI とμPD7763の制御はデ−タバスとアド
レスバスそしてIBM PC AT のスロットにある幾つかの信
号を利用したが、この部分はソフトウェア構成で詳細に
述べることにする。
【0015】8255PPI のリセット(RESET )入力は IBM
PC のI/0 スロットにあるリセット端子をそのまま連結
しコンピュ−タ−がブ−ティングされる時自動にリセッ
トさせた。音声分析をする部分はディジタルとアナログ
信号が混ぜられている部分なので雑音に格別気を遣うべ
きである。本発明ではこのような雑音の除去をほぼ 0.1
μF のキャパシタ−を使用した。
【0016】μPD7763に対する制御信号の入力はデ−タ
バスとアドレスバスを利用した。そして、内部回路の動
作を合わせるために4MHzの周波数を有するクロックが要
求されるが、これは4MHzモジュ−ルクリスタルを利用し
て解決した。μPD7763のリセット信号は入力モ−ドを設
定する前に必ず行うべきだが、ハ−ドウェア的でこの問
題を解決しようとすれば全体的な回路があまり大きくな
るので本発明では8255PPI を利用してソフトウェア的で
解決した。即ち、デ−タバスでリセット信号に当たる値
を8255PPI の出力ポ−トを通じてμPD7763のリセット端
子に伝達する方法を採った。
【0017】音声分析器のフレ−ム(FRAME )端子が
“1”を出力すれば一フレ−ムの分析が完了することを
表すが、この時コンピュ−タ−はμPD7763の内部にある
スタックに貯蔵された16チャネルフィルタ−バンクの
値を読み出せば良い。この部分のインタフェ−スを8255
PPI を使用して音声認識において一番多い時間の要求さ
れる前処理部分をハ−ドウェアで構成し全体的には実時
間音声認識システムを構成することができた。
【0018】即ち、一般的なソフトウェアシミュレ−シ
ョンでは音声信号を分析するのにたくさんの時間が消耗
されるが、本発明では16チャネル帯域フィルタ−バン
クの出力を求めるのにハ−ドウェアで製作したのでこの
過程で必要とされる莫大な時間が減らせ実時間で音声を
認識できるシステムを構成することができた。図4はμ
PD7763の内部にある16個の帯域フィルタ−の周波数表
を表す。マイクロホンの出力を増幅するために普通人の
声周波数を含むことのできる周波数帯域幅が10KHz 以
上であるTL072CP を使用した。このアナログ増幅端の出
力がμPD7763の入力に使用され音声分析器μPD7763の出
力は8ビットディジタルデ−タである。
【0019】図5は母音
【0020】
【外1】
【0021】に対する音声分析器の一フレ−ム出力を示
す。普通母音が持っている特性であるホルマントが観察
されたので本発明で設計及び製作した音声分析システム
が音声認識のための前処理用ボ−ドとして欠陥のないこ
とが見られる。ソフトウェアの構成は二通りで分類され
る。第1は先に設計製作した音声分析ボ−ドを使用者が
たやすく使用するための制御プログラムが必要である。
このような制御プログラムは8255PPI とμPD7763の動作
モ−ドの設定とデ−タの入出力を指定する。
【0022】第2で構成されるソフトウェアは音声分析
ボ−ドを通じて周波数領域に解釈されたデ−タから音声
区間を検出し、様々に違って現れるそれぞれの発声長さ
を正規化し最終的にはIDMLP神経回路網の入力に使
用されるデ−タの二進化を行う。8255PPI 動作モ−ドの
設定は基本動作モ−ドで入力と出力を行うポ−トを指定
することで本発明では“A”と“C”ポ−トを出力ポ−
トに定め、“B”ポ−トを入力ポ−トに指定した。上の
動作モ−ドの設定は次の通りにすることにより指定され
る。
【0023】 outportb(0x307,0x82):/* A&C Port output,B Port input*/ 8255PPI は音声分析チップを初期化し分析が終わったか
否かを分かるに使用されるようハ−ドウェアが構成され
ているので8255PPI を制御するプログラムは簡単であ
る。次はμPD7763を制御するプログラムが必要だが、こ
の時注意すべきなのはデ−タを分析し、その分析された
デ−タを読み出す時間をよく計算して全体システムを安
定させる。
【0024】先ず、音声分析チップの初期化を行うべき
だがこれは8255PPI を利用して次のようにする。 outportb(0x00):/* μPD7763 Reset Signal*/ delay(1):/* Reset Signal Duration*/ outportb(0xff):/* Free Reset Signal*/ リセット信号はシステムを初期化するので4クロック以
上入力しなければならない。それで上の“delay(int);"
関数が必要である。
【0025】μPD7763の入出力制御部はデ−タバス(DB
0 〜DB7 )を間に置き外部とデ−タを入出力する時の制
御を行う。図6は四つの制御信号(CS、WR、A0、
A1)の状態による動作を示す。リセット解除の後に 3
78μsec 以内に動作モ−ドの設定をすべきである。μPD
7763の動作モ−ドはデ−タバスを通じてチップ内部にあ
る COMMAND/STATUS レジスタ−にデ−タを記入すること
により設定されるが、コンピュ−タ−で制御可能な動作
モ−ドの種類は次の通りである。
【0026】1.分析フレ−ムの周期。 2.PRE−AMPの利得。 3.イコライザのオン/オフ。 4.低域通過フィルタ−の遮断周波数。 前述した四つの項目はコンピュ−タ−でデ−タバスを通
じて COMMAND/STATUSレジスタ−にデ−タを記入するこ
とにより成されるが、C言語を利用して簡単に次のよう
に構成できる。
【0027】 outportb(0x304.0x4c): /* 0dB. 16ms */ outportb(0x304.0x02): /* 25Hz. EQ OFF */ 図7は音声の入力から分析結果を読み出すまでの全体の
フローチャートを示す。図8は音声分析器の出力を 825
5PPIを通じてコンピュ−タ−のメモリ貯蔵した後、音声
区間の検出とIDMLP神経回路網の入力に使用される
二進化されたデ−タを獲得する過程を示す。
【0028】本発明では一フレ−ムの長さを16msにし
た。分析が完了されたデ−タで音声区間を検出すべきだ
が、本発明では一フレ−ムのエネルギ−が定めて置いた
しきい値より大きい場合にはそのフレ−ムを音声区間に
定めた。一人が同じ言葉を何回繰り返して発音してみる
時、発音の長さが同じである場合が殆どないので時間軸
正規化をしなければならない。韓国語の短音節に当たる
言葉を何回繰り返して発音してみれば短くは8フレ−ム
長くは26フレ−ムまで続いたので基準を15フレ−ム
に定め時間軸正規化を行い、上で求めたデ−タを二進化
する。
【0029】本発明ではIDMLP神経回路網の入力に
使用するためにマイクロホンの入力から16チャネルフ
ィルタ−バンクの出力までをハ−ドウェアで具現し入力
デ−タの採集時間を減らした。入力デ−タの抽出過程は
先に説明した最終的な正規化された二進化デ−タを求め
ることでその過程は次の通りである。
【0030】1.マイクロホンで音声信号を受け入れ
る。 2.TP072CP を利用して音声分析器μPD7763の入力に適
当な大きさで増幅する。 3.音声分析器から分析結果を読み出す。 4.定めたしきい値を利用して音声区間を検出する。
【0031】5.基準フレ−ムの数に合うよう時間軸で
正規化させる。 6.各フィルタ−の出力を隣のフィルタ−の出力と比べ
この時の相対的な大きさを二進化する。 図9は音声区間を検出した直後のデ−タを示す。図10
は音声信号の周波数スペクトルを示す。
【0032】図11は二進化された周波数スペクトルを
示す。音声分析器から読み出した各フィルタ−のエネル
ギ−を次の式でのように左側のフィルタ−の出力と比べ
大きい場合1、小さい場合0の値をそのフィルタ−での
出力値とする。
【0033】
【数1】
【0034】図12はこのような方法を使用して得た出
力を示す。上の過程を経た結果一つのフレ−ムに当たる
入力ビット数は15ビットである。本発明では韓国語の
短音節音声認識のための前哨段階として、“0”から
“9”までの数字音認識にファジ−論理と先に説明した
IDMLP神経回路網の適用可能性を実験してみた。そ
してIDMLP神経回路網を利用した認識において全て
の学習デ−タを学習した結果とファジ−化し一つのデ−
タで学習した結果に対しそれぞれ認識実験をし、神経回
路網とファジ−論理の結合可能性を打診してみた。
【0035】図13はファジ−化したデ−タを再び二進
化する過程を示す。“0”から“9”まで10回ずつ発
音された各々のデ−タを重畳させデ−タをファジ−化し
それを更に適当な臨界値に二進化した。図14はファジ
−化したデ−タを二進化した結果を示す。回路網の学習
の際入力ノ−ドの数は一定であるので相異なる長さで発
音された音の長さを時間軸に対し正規化すべきである。
本発明では15フレ−ムを基準として基準フレ−ムより
入力パタ−ンのフレ−ムが長ければ適当な間隔でフレ−
ムを満たしていきながら時間軸正規化を遂行した。
【0036】本発明では一人の話者により発音された2
00個のIDMLP神経回路網の学習デ−タで使用し、
設計された音声認識システムが音声デ−タの多様性にど
のぐらいの適応性があるか判断するために認識実験は
朝、昼、夜の三通り時間帯から抽出した300個のデ−
タで認識実験をした。学習した結果学習デ−タは二進デ
−タとファジ−デ−タ全て100%の認識率を見せ、試
験デ−タに対しては二進デ−タで学習した場合とファジ
−デ−タで学習した場合全て94%以上の高い認識率を
表した。各々の実験結果を図15に示した。
【0037】二進化されたデ−タでIDMLP神経回路
網を学習した場合には朝に行った認識実験の認識率が9
4%と現れ、昼の認識率が99%、夜の認識率が96%
とそれぞれ現れた。全体的には96.3%の認識率を見
せた。ファジ−化されたデ−タでIDMLP神経回路網
を学習した場合には朝に行った認識実験の認識率が97
%と現れ、昼の認識率が99%、夜の認識率が98%と
現れた。
【0038】図15〜図20に示した表で分かるように
朝、昼、夜の中で昼の実験の認識率が最も良く、認識率
の一番よくないデ−タは数字音“6”だった。IDML
P神経回路網の学習は二進化したデ−タを全て学習した
場合とファジ−デ−タで学習した二通りの場合に対して
全てが単層で学習が終わった。それでIDMLP神経回
路網の構造的な特性はテストして見なかったが、ファジ
−化したデ−タを利用して学習をさせても認識結果には
大きな差がなくむしろ数字音認識では認識率が些か向上
された。
【0039】IDMLP神経回路網を韓国語短音節認識
に適用するために本発明では
【0040】
【外2】
【0041】の五通りのモジュ−ルに分類する類型分類
神経回路網を先ず構成し、分類された類型別に各々の副
回路網で最終的に認識するよう全体回路網を六つのモジ
ュ−ルで構成した。そして、各モジュ−ルはIDMLP
神経回路網で構成した。図21はモジュ−ラIDMLP
神経回路網の構成を示す。類型分類段階では先に述べた
五つの母音を基準として入力される音声を五つのグル−
プに分類する役割を果たす。分類対象音節は図22に示
したように
【0042】
【外3】
【0043】の母音を含む韓国語C−V短音節70個で
ある。入力される音声を五つのグル−プに分類する類型
分類神経回路網を学習する時使用されたデ−タの抽出は
入力音声から母音部のみを抽出し学習を遂行した。使用
されたデ−タが母音−子音(V−C)短音節なので母音
Vを抽出することは簡単である。母音が後ろの部分に存
するので全体フレ−ムから後端部に存する幾フレ−ムの
みを抽出しても類型分類に使用されるデ−タとしては充
分であるが、認識対象語彙を次第に拡張させる時、即ち
C−V−C短音節を考えて見れば上のアルゴリズムが不
適である。
【0044】それで、本発明では全体フレ−ムの中間部
分のみを抽出し類型分類神経回路網の学習デ−タで使用
した。このような方法で抽出したデ−タで学習させた神
経回路網で類型分類実験を数字音認識実験のように朝、
昼、夜の三通り時間帯にわたってした。学習デ−タは一
人の話者により五つの母音を含む70個の音節を5回発
音した350個のデ−タから母音部を抽出したデ−タを
使用した。試験デ−タは各モジュ−ル当たり420 個のデ
−タを、全体的に2500個のデ−タでモジュ−ル分析試験
をした。
【0045】図23〜図24は子音−母音(C−V)短
音節に対する分類率を示す。図23〜図24に示したよ
うに、平均的に98.4% の類型分類成功率を表した。各モ
ジュ−ル別に類型分類率を見れば次の通りである。
【0046】
【外4】
【0047】の類型分類成功率を見せた。C−V短音節
からデ−タを抽出し学習をさせたが、子音−母音−子音
(C−V−C)短音節デ−タに対しても類型分類実験を
して見た結果90% 以上の類型分類成功率を表した。
【0048】
【発明の効果】本発明の音声認識システムは韓国語短音
節認識において良い結果が得られ、このような認識実験
を通じて短音節以上の音声認識も可能である。又、新し
い音声認識システムが具現できる。
【図面の簡単な説明】
【図1】本発明による音声分析のためのハ−ドウェア構
成のブロック図を示す図である。
【図2】本発明による音声入力部のアナログ回路を示す
図である。
【図3】本発明による音声分析のための回路を示す図で
ある。
【図4】音声分析のための回路内部の16個の帯域フィ
ルタ−周波数表を示す図である。
【図5】母音
【外5】 に対する音声分析器の一フレ−ムの出力を示す。
【図6】音声分析器の制御信号と動作を示す図である。
【図7】音声分析器の音声分析のフローチャートであ
る。
【図8】音声分析デ−タの抽出過程を示すフローチャー
トである。
【図9】音声区間を検出した直後のデ−タを示す図であ
る。
【図10】音声信号の周波数スペクトルを示す図であ
る。
【図11】二進化された周波数スペクトルを示す図であ
る。
【図12】二進化された音声信号を示す図である。
【図13】ファジ−化したデ−タを再び二進化する過程
を示す図である。
【図14】ファジ−化されたデ−タを二進化した結果を
示す図である。
【図15】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図16】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図17】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図18】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図19】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図20】朝、昼、夜の二進化されたデ−タとファジ−
化されたデ−タの認識実験結果を示す図である。
【図21】モジュ−ラIDMLP神経回路網の構成を示
す図である。
【図22】C−V短音節の分類対象音節を示す図であ
る。
【図23】各モジュ−ルに対する分類率を示す図であ
る。
【図24】各モジュ−ルに対する分類率を示す図であ
る。
【符号の説明】
10 マイクロホン 20 アナログ増幅器 30 音声分析器 40 インタフェースボード 50 ハードディスクドライバーとフロッピーディスク
ドライバー 60 主コンピューター 70 キーボード 80 モニター 90 差動増幅器

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を入力するための音声入力手段
    と、 前記音声入力手段からの信号を所定の周波数帯域に分け
    て各周波数帯域での信号のエネルギ−に表現するための
    音声分析手段と、 前記音声分析手段からの信号を入力し信号に対する各周
    波数帯域の大きさを比べ信号を二進化し前記二進化され
    たデ−タに当たる音声信号を外部に出力するための主コ
    ンピュ−タ−を具備することを特徴とする音声認識シス
    テム。
  2. 【請求項2】 前記音声分析手段と前記主コンピュ−タ
    −の間に前記二手段のインタフェ−スのためのインタフ
    ェ−ス手段を更に具備することを特徴とする請求項1記
    載の音声認識システム。
  3. 【請求項3】 音声信号を入力するための音声入力手段
    と、 前記音声入力手段からの信号を所定の周波数帯域に分け
    て各周波数帯域での信号のエネルギ−に表現するための
    音声分析手段と、 前記音声分析手段からの信号を入力し信号に対する各周
    波数帯域の大きさを比べ信号を二進化し前記二進化され
    たデ−タに当たる音声信号を外部に出力するための主コ
    ンピュ−タ−を具備した音声認識システムの音声認識方
    法において、 音声分析デ−タを前記主コンピュ−タ−に入力する第1
    段階と、 前記第1段階からのデ−タを利用し音声区間を検出する
    第2段階と、 前記第2段階のデ−タを利用して時間軸正規化を遂行す
    る第3段階と、 前記時間軸正規化されたデ−タを二進化する第4段階
    と、 前記第4段階の結果をコンピュ−タ−のメモリに貯蔵す
    る第5段階からなることを特徴とする音声認識システム
    の音声認識方法。
JP5127104A 1992-05-30 1993-05-28 音声認識システム Pending JPH06324697A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019920009478A KR950003390B1 (ko) 1992-05-30 1992-05-30 음식 인식 시스템 및 이를 이용한 음성분석 데이타 추출방법
KR9478/1992 1992-05-30

Publications (1)

Publication Number Publication Date
JPH06324697A true JPH06324697A (ja) 1994-11-25

Family

ID=19334021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5127104A Pending JPH06324697A (ja) 1992-05-30 1993-05-28 音声認識システム

Country Status (3)

Country Link
JP (1) JPH06324697A (ja)
KR (1) KR950003390B1 (ja)
DE (1) DE4317991A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置

Also Published As

Publication number Publication date
KR930023908A (ko) 1993-12-21
KR950003390B1 (ko) 1995-04-12
DE4317991A1 (de) 1993-12-02

Similar Documents

Publication Publication Date Title
Abdelatty Ali et al. Acoustic-phonetic features for the automatic classification of fricatives
US20020128827A1 (en) Perceptual phonetic feature speech recognition system and method
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
US20100121638A1 (en) System and method for automatic speech to text conversion
Lee et al. Tone recognition of isolated Cantonese syllables
US5313531A (en) Method and apparatus for speech analysis and speech recognition
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Bhanja et al. Deep neural network based two-stage Indian language identification system using glottal closure instants as anchor points
CN118762687A (zh) 一种藏语方言自动辨识方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Bansal et al. Speaker adaptation on Hidden Markov Model using MFCC & RASTA-PLP and comparative study
Yavuz et al. A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model.
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context
Chaudhari et al. Selection of features for emotion recognition from speech
Djamal et al. Spoken word recognition using MFCC and learning vector quantization
JPH06324697A (ja) 音声認識システム
CN119446122B (zh) 一种普通话鼻塞语音信号的处理方法、实验系统及实验方法
Fathoni et al. Optimization of feature extraction in Indonesian speech recognition using PCA and SVM classification
Kim et al. A speech feature based on bark frequency warping-the non-uniform linear prediction (nlp) cepstrum
Patil et al. Identification of speakers from their hum
Patil et al. A novel approach to identification of speakers from their hum
Combrinck et al. Automatic language identification: Performance vs. complexity
Patro et al. Statistical feature evaluation for classification of stressed speech
Pellegrino et al. Investigating dialectal differences via vowel system modeling: Application to Arabic

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210