JP5091202B2

JP5091202B2 - サンプルを用いずあらゆる言語を識別可能な識別方法

Info

Publication number: JP5091202B2
Application number: JP2009180750A
Authority: JP
Inventors: 黎自奮; 李台珍; 黎世聰; 黎世宏; 寥麗娟
Original assignee: Shih Hon Li; Tai Jan Lee Li; Tze Fen Li
Current assignee: Shih Hon Li; Tai Jan Lee Li; Tze Fen Li
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2012-12-05
Anticipated expiration: 2029-08-03
Also published as: JP2011033879A

Description

本発明はサンプルを用いずあらゆる言語を識別可能な識別方法に関し、特にある連続音は１個或いは多数の音節(単音)を含み、連続音のサンプルを用いずすべての言語を識別可能で、１２個の伸縮可能なフレームを用い、長さが等しく、フィルターが無く、オーバーラップせず、長さがさまざまなある連続音の音波を、１２×１２の線形予測ケプストラム係数(LPCC)のマトリックスに転換し、１個の未知の言葉又は連続音は、１２×１２の線形予測ケプストラム係数のマトリックスを用いて表示し、１個の１２×１２マトリックスは、１個の１４４次元空間の１個のベクトルとして認知し、多くの未知の言葉又は連続音のベクトルは、１４４次元空間に散らばり、発話者が１個の既知の連続音を発すると、該既知の連続音の特徴は、周囲の未知の言葉又は連続音の特徴(LPCC)により、シミュレート及び計算され、１２個の伸縮可能なフレームを含み、ある連続音の音波を正規化し、ベイズ比較法は、未処理データベース中で、発音者の未知の言葉又は連続音のために、１個の既知の連続音を探し、１個の発話者の１個の未知の文を、Ｄ個の未知の言葉又は連続音に分割し、及び１個のウィンドウスクリーニングは、１個の既知の文を、発話者の未知の文としてスクリーニングするサンプルを用いずあらゆる言語を識別可能な識別方法に関する。

ある連続音を発する時、その発音は、音波により表示される。音波は、時間に従い、非線形変化を行なう一種のシステムで、ある連続音の音波内には、一種の動的特性を含み、また時間に従い、非線形の連続変化を行なう。相同の連続音が発せられる時には、一連の相同の動的特性を有し、時間に従い、非線形の伸展及び收縮を行なう。但し、相同の動的特性は、時間に基づき排列する順序は同様であるが、時間が異なる。相同の連続音が発せられる時、相同の動的特性を、同一時間位置上に配列するのは、非常に困難である。さらに、相似の連続音が特別に多いため、識別をより難しくしている。
（但し、上記以降、「同相」は、「同一言語」（例えば、「日本語」など）を意味する。）

あるコンピューター化された言語識別システムでは、先ず、音波関連の言語情報、つまり動的特性を抽出し、言語と無関係の雑音をろ過する必要がある。例えば、人の声の音色、音の調子、発話時の心理、生理、情緒などは、音声識別とは無関係であるため、先に削除する。続いて、相同の連続音の相同の特徴を、相同の時間位置上に並べる。この一連の特徴は、長さが等しい系列特徴のベクトルを用い表示し、ある連続音の特徴パターンと呼ばれる。現在の音声識別システムでは、大きさが一致した特徴パターンの発生は複雑に過ぎ、しかも時間がかかる。なぜなら、相同の連続音の相同の特徴は、同一時間位置上には非常に並べ難く、特に、英語は識別がより困難である。

一般の文、或いは名称の識別方法には、以下の５個の主要な作業がある。未知の文或いは名称を、Ｄ個の未知の言葉又は連続音に分割し、特徴を抽出し、特徴を正規化し（特徴パターンの大きさが一致し、しかも相同の言葉又は連続音の相同の特徴が、同一時間位置に排列されている）、未知の言葉又は連続音を識別し、及び文或いは名称データベースにおいて、適合する文或いは名称を探し出す。ある連続音の音波の特徴は、しばしばエネルギー（energy）、ゼロ交差（zero crossings）、エクストリームカウント（extreme count）、ホルマント（formants）、線形予測ケプストラム係数（LPCC）、メル周波数ケプストラム係数（MFCC）を用い表現される。

内、線形予測ケプストラム係数（LPCC）及びメル周波数ケプストラム係数（MFCC）によるものが、最も有効で、広く使用されている。線形予測ケプストラム係数（LPCC）は、ある連続音の最も信頼でき、安定し、また正確な言語の特徴を表す。それは、線形回帰方式を用い、連続音の音波を代表し、最小平方推計法により、回帰係数を計算する。その推計値を、さらにケプストラムに転換すると、線形予測ケプストラム係数（LPCC）となる。

メル周波数ケプストラム係数（MFCC）は、音波を、フーリエ転換法を用い、周波数に転換する。さらに、メル周波数比例去に基づき、聴覚システムを推計する。S.B. Davis氏とP. Mermelstein氏は、１９８０年に出版された「IEEE Transactions on Acoustics, Speech Signal Processing, Vol.２８, No.４」で発表した論文「Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences」によれば、動的時間伸縮法（DTW）を用いたメル周波数ケプストラム係数（MFCC）特徴は、線形予測ケプストラム係数（LPCC）特徴の識別率より高い。しかし、数回の音声識別実験（本発明人の従来の発明を含む）においては、ベイズ識別器を用いた線形予測ケプストラム係数（LPCC）特徴の識別率は、メル周波数ケプストラム係数（MFCC）特徴よりも高く、しかも省時間である。

言語識別には、既に多くの方法が採用されている。例えば、動的時間伸縮法(Ｄynamic time-warping)、ベクトル量子化法（vector quantization）、隠れマルコフモデル法（HMM）がある。もし、相同の発音が、時間上の変化において差異があるなら、比較しながら、相同の特徴を同一の時間位置へとのばす。この識別率は非常に高いが、相同の特徴を同一位置までのばすのは、非常に困難で、ワープ時間が長過ぎ、応用不能である。ベクトル量子化法は、大量の連続音を識別する場合には、不正確であるばかりか、時間がかかる。隠れマルコフモデル法（HMM）による識別方法は、優れているが、方法が煩雑で、あまりにも多くの未知のパラメーターを推計しなければならないため、推計値計算と識別に時間がかかる。

T.F. Li（黎自奮）氏は２００３年に出版された「Pattern Recognition, vol. ３６」で発表した論文「Speech recognition of mandarin monosyllables」中において、ベイズ識別器を用い、相同のデータベースにより、各種の長短の一系列のLPCCベクトルを大きさが相同の分類パターンに圧縮した。その識別結果は、Y.K. Chen氏、C.Y.Liu氏、G.H. Chiang氏、M.T. Lin氏が、１９９０年に出版された「Proceedings of Telecommunication Symposium, Taiwan」で発表した論文「The recognition of mandarin monosyllables based on the discrete hidden Markov model」中において、隠れマルコフモデル法HMM方法を用いたものより良い。しかし、圧縮過程は複雑で、時間がかかり、しかも相同の連続音の相同の特徴を相同の時間位置に圧縮するのは非常に難しく、相似した連続音に対しては、識別が極めて難しい。

本発明音声識別方法は、上記欠点に対して、学理の面から、音波のある音声特徴に基づき、時間に従い、非線形変化を行い、音声特徴を抽出する方法を自然に導き出す。ある連続音の音波を、先ず、正規化し、次に該連続音を代表するに足る大きさが相同の特徴パターンに転換する。しかも相同の連続音は、それら特徴パターン内の相同の時間位置は相同の特徴を有し、人為或いは実験により本発明内の未知パラメーター及び基準値を調節する必要はない。簡易なベイズ識別器を用い、未知の言葉又は連続音分類パターンと連続音特徴データベース内の既知の連続音標準パターンを比較し、再圧縮、ワープ、或いは相同の特徴を探して比較する必要はない。よって、本発明音声識別方法は、特徴の抽出、特徴正規化、及び識別を迅速に完成可能である。

本発明が解決しようとする課題は、サンプルを用いずあらゆる言語を識別可能な識別方法を提供することである。

上記課題を解決するため、本発明は下記のサンプルを用いずあらゆる言語を識別可能な識別方法を提供する。
本発明の最重要目的は、多数の未知の言葉又は連続音の特徴を用いて、あらゆる言語の任意の１個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の１個の既知の連続音に対して、ベイズ距離を用い、１４４次元空間において、N個の未知の言葉又は連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正規化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい伸縮可能なフレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、１個の大きさが相互に等しい特徴パターンに転換し、しかも相同の連続音の音波の特徴パターンは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の言葉又は連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値（LPCベクトル）を生じる。
本発明は、すべての音声を備える音波（音波サンプル点）を使用する。より少ない数E＝１２個の相互に等しい伸縮可能なフレームを用い、フィルターがなく、オーバーラップせず、すべてのサンプル点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部のサンプル点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各１個の音声を備えるサンプル点を応用し、できるだけ音声特徴を抽出することができる。E＝１２個の伸縮可能なフレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数（LPCC）を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、伸縮可能なフレームの長さを短くすれば、相同数のE個の等しい長さの伸縮可能なフレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数（LPCC）ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数（LPCC）ベクトルも、該短音の特徴パターンを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、伸縮可能なフレームは伸び、発生するE個の線形予測ケプストラム係数（LPCC）ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、１４４次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
１個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、Ｄ個の未知の連続音に分割し、本発明は、各未知の言葉又は連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。１個の文は、Ｄ×Ｆ個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の言葉又は連続音に分割され、本発明は、各未知の言葉又は連続音の前後三列のＦ個の相似した既知の連続音により、文或いは名称中の１個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、３×Ｆウィンドウの既知の相似した連続音を用い、１個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い（７０個の英語文及び名称と、４０７台湾中国語の文及び名称を識別）。
本発明は、２種の技術を提供し、連続音の特徴を修正し、これにより未知の言葉又は連続音及び未知の文或いは名称の識別を成功させる。
本発明は、１個の台湾中国語単音を、１個の１音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。

本発明サンプルを用いずあらゆる言語を識別可能な識別方法は、ある連続音の特徴を改善し、これによりあらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別することができる。

既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースの構築プロセスを示すフローチャートである。１個の未知の文或いは名称の識別方法のプロセスを示すフローチャートである。３８４個の台湾中国語単音、１個のドイツ語、１個の日本語、２個の台湾語の識別方法を示す図である。１５４個の英語、１個のドイツ語の識別方法を示す図である。２６９個の台湾中国語単音、３個の台湾語を識別する方法の図である。文及び名称データベースは、７０個の英語文と４０７個の中国語文及び名称を有することを示す図である。英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。

以下に図面を参照しながら本発明を実施するための最良の形態について詳細に説明する。

図１及び図２は、本発明の執行プロセスを説明する。
図１は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという３個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準パターンを含み、既知の連続音の特徴を示す。
先ず、１個の既知の連続音或いは１個の文或いは名称１を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波１０形式によりレシーバー２０に進入する。
デジタル転換器３０は、連続音波を、シーケンス音波デジタルのサンプル点に転換する。

プリプロセッサー４５は、以下のような２種の削除方法を有する。
ある一定の時間枠内のサンプル点の分散値及び一般雑音の分散値を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する２個のサンプル点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。

プリプロセッサー４５を経過することで、シーケンスは該既知の連続音サンプル点を備える。
先ず、音波を正規化し、次に特徴を抽出し、既知の連続音のすべてのサンプル点を、E等時間枠に分割する。
各時間枠は１個のフレームを組成する。
ある連続音は、合計E個の等長フレーム５０を有し、フィルターがなく、オーバーラップしない。
連続音のすべてのサンプル点の長さに基づき、E個のフレームの長さは、すべてのサンプル点を網羅できるよう自由に調整する。
よって、そのフレームは伸縮可能なフレームと呼称し、長さは自由に伸縮可能だが、E個の伸縮可能なフレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。

ある連続音は、音波時間に従い、非線形変化を行い、音波は、１個の音声動的特徴を含み、また時間に従い、非線形変化を行なう。オーバーラップしないため、本発明は比較的少ない(E=１２)個の伸縮可能なフレームを使用し、すべての連続音の音波を網羅する。サンプル点は前のサンプル点から推計できるため、用時間に従い、線形変化の回帰方式を行い、非線形変化の音波を密接に推計し、最小平方法を用いて、回帰未知係数を推計する。各フレーム内に、１組の未知係数最小平方推計値を生じ、これを線形予測コード（LPC）ベクトルと呼称する。
さらに、線形予測コード（LPC）ベクトルを、比較的安定した線形予測ケプストラム係数（LPCC）に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数（LPCC）ベクトル６０に転換する。

１個の既知の連続音の特徴を抽出するため、先ず、１個の永久既知の連続音データベースを準備する。各既知の連続音は、発音が標準的で明晰な発話者により１回発音する。なまりがひどい、或いは標準的でない発話を識別する場合には、そのような発話者により発音し、すべての既知の連続音をE×P個のLPCCマトリックスに転換し、永久既知の連続音データベース内に組み入れる。永久既知の連続音データベース内において、１個の既知の連続音特徴を抽出するために、先ず、未知の言葉又は連続音のデータベースを準備する。

未知の言葉又は連続音データベースには、２種存在する。１種は、サンプルがある未知の言葉又は連続音有サンプルで、もう１種は標準がない。サンプルがある未処理データベースは、先ず、各１個の未知の言葉又は連続音の平均値及び分散値を求める。サンプルがある未知の言葉又は連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の言葉又は連続音を探す。さらに、N個の未知音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N＋１個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の分散値の加重平均値を、その既知の連続音の分散値とする。このE×P平均値及び分散値マトリックスは、その既知の連続音の初期特徴値７９で、連続音特徴データベース中に組み入れる。

もし、未知の未処理データベースにサンプルがなければ、未知の言葉又は連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の言葉又は連続音を探す。その既知の連続音及びN個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)を、(N＋１)個の数字とする。(N+１)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+１)個の数字の分散値を求め、その既知の連続音の分散値とし、このE×P平均値及び分散値のマトリックスは、その既知音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる７９。

既知の連続音特徴データベース内において、もし１個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の１個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探し、それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の単音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の分散値の加重平均値を用い、その既知の連続音の新しい分散値とする。この方法を繰り返し数回用いて、特徴データベース内の各１個の既知の連続音の新平均値及び分散値を計算する。最後に、E×Pの新しい平均値及び分散値マトリックスを、標準パターンと呼称し、その既知の連続音を代表し、特徴データベース中に組み入れる８０。さらに、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する８５。

図２は、１個の未知の文或いは名称の識別方法手順を示す。１個の未知の文或いは名称２を、本発明音声識別方法に入力後、１組の未知の言葉又は連続音波１１により、レシーバー２０に進入する。デジタル転換器３０により、一系列の音波サンプル点に転換する。１個の未知の文或いは名称の音波を、Ｄ個の未知の言葉又は連続音の音波４０に分割する。さらに、図１に示すプリプロセッサー４５により、音声を備えない音波を削除する。次に、各未知の言葉又は連続音の音波を正規化し、特徴を抽出し、文或いは名称各未知の言葉又は連続音の音声を備えるすべてのサンプル点をE等時間枠に分割する。各時間枠は、１個の伸縮可能なフレームを形成する５０。各連続音は、合計E個の伸縮可能なフレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮し、すべてのサンプル点を網羅する。

各フレーム内において、サンプル点は、前の信号により推計することができるため、最小平方法を用いて、回帰未知係数の推計値を求める。各フレーム内に、生じる１組の最小平方推計値を、線形予測コード（LPC）ベクトルと呼称する。線形予測コード（LPC）ベクトルは、正常に分配され、さらに、線形予測コード（LPC）ベクトルを、比較的安定した線形予測ケプストラム係数（LPCC）ベクトルに転換する６０。１個の未知の言葉又は連続音は、E個の線形予測ケプストラム係数（LPCC）ベクトルを、特徴パターンとし、分類パターンと呼称し９０、既知の連続音標準パターンと大きさが同じである。１個の文は、計Ｄ個の分類パターンを有し、Ｄ個の未知の言葉又は連続音を代表する９０。もし１個の既知の連続音がこの未知の言葉又は連続音であるなら、その標準パターンの平均値は、未知の言葉又は連続音分類パターンに最も近い線形予測ケプストラム係数（LPCC）である。よって、本発明の簡易ベイズ識別法は、未知の言葉又は連続音の分類パターンと連続音データベース８０により、各１個の既知の連続音の標準パターンを比較する１００。

もし、１個の既知の連続音が、その未知の言葉又は連続音であるなら、計算の時間を節約するため、未知の言葉又は連続音の分類パターン内のすべての線形予測ケプストラム係数（LPCC）が、独立した正規分配を有すると仮定し、それらの平均数及び分散値を、既知の連続音標準パターン内の平均値及び分散値により推計する。簡易ベイズ法は、未知の言葉又は連続音の線形予測ケプストラム係数（LPCC）と既知の連続音の平均数の距離を計算する。さらに、既知の連続音分散値により調整し、得られた値は、その未知の言葉又は連続音と１個の既知の連続音の相似度を表す。未知の言葉又は連続音と、F個の相似度が最高の既知の連続音を選択し、未知の言葉又は連続音とする。よって、１個の未知の文或いは名称は、D×F個の既知の連続音を用いて表示される１１０。

１個の未知の文或いは名称を、D個の未知の言葉又は連続音に分割した後、１個の未知の文或いは名称が含む連続音及び個数をちょうど分割することは難しい。ある時はある連続音を２個に分割し、ある時は２個の連続音を非常に似たように発音し、コンピューターは１個に分割する。よって、D個の未知の言葉又は連続音は、発話者の本当の連続音の個数とは限らない。よって、ある一列のF個の既知と相似した連続音は、発話者の連続音を含むとは限らない。１個の未知の文或いは名称を識別する時、文と名称データベース８５において、各１個の既知の文及び名称をテストする。１個の文或いは名称が、発話者の文或いは名称であるか否かをテストし、その文或いは名称を、一つ目の既知の連続音から、D×Fマトリックスが相似する連続音の前後三列の相似の連続音と比較する（当然、一つ目の比較は、中と後の２列の相似の連続音しか比較することはできない）。次に、３×Fウィンドウ（前後三列の既知の相似の連続音）に移動し１２０、文の二つ目の既知の連続音を探す。こうして、文のすべての既知の連続音をテストする。

文及び名称データベースにおいて、最高確率の文或いは名称は、発話者の文或いは名称である（テストした文或いは名称中の既知の連続音の３×Fウィンドウにおける数を、テストした文或いは名称中の連続音数で割る）１３０。当然、文及び名称データベースにおいて、未知の文或いは名称（Ｄ個の未知の言葉又は連続音）長さが大体相同の文或いは名称を選択して比較し、時間を節約することができる。もし、文或いは名称が識別できない場合には、ベイズ識別器を用いて、特徴データベース中において、N個の最も相似する連続音を探し７９、文中の連続音特徴を改善すれば、識別は必ず成功する。

以下に詳述する。
ある連続音を音声識別方法に入力後、この連続音音波を一系列の音波サンプル点（signal sampled points）に転換する。さらに、音声音波を備えないサンプル点を削除する。本発明は２種の方法を提供する。一つ目は、ある一定の時間枠内サンプル点の分散値を計算する。二つ目は、その時間枠内の相互に隣接する２つのサンプル点の距離の総和を計算する。理論上は、第一の方法がより良いが、サンプル点の分散値が、雑音分散値より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、２種の方法の識別率は同じであるが、第二の方法が時間を節約できる。

音声を備えないサンプル点を削除後、残ったサンプル点はある連続音のすべてのサンプル点を表す。先ず、音波を正規化し、次に特徴を抽出し、すべてのサンプル点をE等時間枠に分割する。各時間枠は１個のフレームを形成する。ある連続音は、合計E個の等しい長さの伸縮可能なフレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮して、すべてのサンプル点を網羅する。伸縮可能なフレーム内のサンプル点は時間に従い、非線形変化を行い、数学モデルにより表すのは難しい。なぜならJ.Markhoul氏は、１９７５年に出版された「Proceedings of IEEE, Vol.６３, No.４」において、論文「Linear Prediction: A tutorial review」を発表しているが、その中で、サンプル点と前のサンプル点には線形関係があり、時間に従い、線形変化を行う回帰モデルを用いて、この非線形変化のサンプル点を推計することができる、と説明しているからである。

ると、因最後の線形予測ケプストラム係数（LPCC）によれば０に近似する。ある連続音はE個の線形予測ケプストラム係数（LPCC）ベクトル表示特徴とし，つまり１個のE×P個の線形予測ケプストラム係数（LPCC）のマトリックス表示のある連続音を含み，ある
連続音は一個ないし多数の音節を含む。

(３)同様方法で、式(８-１５)により、１個の未知の言葉又は連続音の音波のE個の線形予測ケプストラム係数（LPCC）ベクトルを計算すると、同様の大きさのE×P個のLPCCのマトリックスを備え、それを未知の言葉又は連続音の分類パターンと呼称する。

(５)１個の既知の連続音の特徴を抽出するため、先ず、未知の言葉又は連続音のデータベースを準備する。未知の言葉又は連続音データベースには２種ある。一種は、未知の言葉又は連続音のサンプルがあり、もう一種は、サンプルがない。サンプルがある未処理データベースでは、先ず、各１個の未知の言葉又は連続音の平均値及び分散値を求める。サンプルがある未知の言葉又は連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の言葉又は連続音を探す。さらに、N個の未知の音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N＋１個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の分散値の加重平均値を、その既知の連続音の分散値とする。このE×P平均値及び分散値マトリックスは、その既知の連続音の初期特徴値７９で、連続音特徴データベース中に組み入れる。もし、未知の言葉又は連続音データベースにサンプルがなければ、未知の言葉又は連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の言葉又は連続音を探す。その既知の連続音及びN個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)を、(N＋１)個の数字とする。(N+１)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+１)個の数字の分散値を求め、その既知の連続音の分散値とする。このE×P平均値及び分散値のマトリックスは、その既知の連続音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる７９。既知の連続音特徴データベース内において、もし１個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の１個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探す。それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の連続音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の分散値の加重平均値を用い、その既知の連続音の新しい分散値とする。この方法を繰り返し数回用いて、特徴データベース内の各１個の既知の連続音の新平均値及び分散値を計算する。最後に、E×Pの新しい平均値及び分散値マトリックスを、標準パターンと呼称し、その既知の連続音を表し、特徴データベース中に組み入れ８０、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する８５。

(７)本発明が同時にあらゆる言語を識別可能であることを証明するため、本発明は２人の音声識別実験を行なった。
(a)先ず、１個の未知の言葉又は連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計３８８個の台湾中国語単音（図３）があり、全て女性が発音しており、サンプルは、６個から９９個で、多くの単音の発音は、ほぼ同様である。
(b)（２）節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計１２４００個のマトリックスを有する。
(c)３８８個の台湾中国語単音中において、サンプルを用いて平均値及び分散値を求める。
(Ｄ)アットランダムに３８８個の台湾中国語単音を混合し、３８８個のサンプルがある平均値及び分散値の単音を、３８８個の未知の言葉又は連続音データベースとする(１個の台湾中国語単音は、音節が１個だけの連続音である)。
(e)次に、男性一人、女性一人により、６５４個の台湾中国語単音、１５４個の英語、１個のドイツ語、１個の日本語及び３個の台湾語を、１回発音し、２個の８１３個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの８１３個の既知の連続音中において、各１個の既知の連続音に対して、ベイズ距離２０を用い、３８８個の未知の言葉又は連続音中において、N=１５個の未知の言葉又は連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の言葉又は連続音のサンプル平均値は、N+１個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の言葉又は連続音のサンプル分散値の加重平均値を求め、その既知の連続音の分散値とする。この平均値及び分散値１２×１２マトリックスを、その既知の連続音の初期特徴と呼称７９し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、８１３個の１２×１２平均値及び分散値マトリックス８０を含む。
(g)特徴データベース中において、もし１個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。８１３個の連続音特徴ベイズ距離を用い、N=１５既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の分散値に対して、加重平均値を求め、その既知の連続音の新分散値とする。新平均値及び分散値を繰り返し数回計算する。最後の１２×１２平均値及び分散値マトリックスを標準パターンと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中８０に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位３人を正解とする。
３８４個の台湾中国語単音、１個のドイツ語、１個の日本語、２個の台湾語を識別する(図３参照)（識別率が非常に高い）
１５４個の英語、１個のドイツ語を識別する(図４参照)（識別率が非常に高い）
１５４個の英語及び３８８個の台湾中国語、１個のドイツ語、１個の日本語、２個の台湾語を同時に識別する（識別率が非常に高い）
（４）６５４個の台湾中国語単音、１個のドイツ語、１個の日本語、３個の台湾語を識別する(図５参照)（識別率は高いが、上記三例ほどではない）

(８)ある発話者の文或いは名称を識別するに当たり、我々は先ず、１個の英語及び台湾中国語の文及び名称データベースを構築した。各文或いは名称内の連続音すべては、連続音特徴データベース内(３８４+１５４)の既知英語及び台湾中国語により任意に組成する。１５４個の英単語は７０個の英語文及び名称を組成し、３８４個の台湾中国語単語は、４０７個の台湾中国語の文及び名称を組成する（図６参照）。
その識別方法は、以下の通りである。
(a)１個の未知の文或いは名称を、Ｄ個の未知の言葉又は連続音に分割し、各単位時間枠は、相互に隣接する２つのサンプル点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ（連続音２音節時間より多い）、すべてが雑音或いは靜音であることを示しており、２個の連続音の境界線で分割すべきで、計Ｄ個の未知の言葉又は連続音に分割する。次に、図２の４５、５０、６０及び９０プロセスを用いて、E×P LPCCマトリックスに転換する。各１個の未知の言葉又は連続音に対して、ベイズ識別器２０を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、Ｄ×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、４７７個の英語及び台湾中国語の文と名称中において、長さが（Ｄ±１）個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、Ｄ個の未知の言葉又は連続音である時には、Ｄ個の各列F個の相似した既知の連続音と比較する文或いは名称のＤ個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて１個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をＤ個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、Ｄ-１或いはＤ+１、或いは（c）の識別正確連続音がＤ個でないなら、本発明は、３×Fウィンドウを用いてスクリーニングする。比較文或いは名称（データベース内）中において、第ｉ個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音（すなわち第ｉ−１、ｉ、ｉ＋１列）を用いて、第ｉ個の既知の連続音を比較し、Ｄ×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Ｄにより割り、その比較文或いは名称の確率を求め、データベースにおいて、１個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、Ｄ個の未知の言葉又は連続音中に１個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ識別器２０を用いて、(１５５＋３８４)個の既知の連続音中で、前からN＝１５順位の既知の連続音を探し、N個の相似の連続音及びその未知の言葉又は連続音のLPCC加重平均値を求め、その未知の言葉又は連続音を改善する。こうしてＤ個の未知の言葉又は連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
（１）７０個の英語文及び名称を識別（非常に良い）。
（２）４０７個の台湾中国語の文及び名称を識別（非常に良い）
（３）７０個の英語文及び名称と４０７個の台湾中国語の文及び名称を識別（非常に良い）。

本発明は多数回の試験を経て、予期の目的を達成可能であることが確証された。しかもその機能は卓越しており、申請前に公開刊行物で未見で、及び公開使用の事実もないため、本発明は特許請求の要件である新規性を備え、従来の同類製品に比べ十分な進歩を有し、実用性が高く、社会のニ一ズに合致しており、産業上の利用価値は非常に大きい。

１１個の既知の連続音永久データベースを構築し、ある連続音或いは１個の文を発音し、文をさらに多数の既知の連続音に分割する。
１０連続音波
２０レシーバー
３０音波デジタル転換器
４５雑音除去
５０ E個の伸縮可能なフレーム正規化音波
６０最小平方法により線形予測ケプストラム係数（LPCC）ベクトルを計算
７０ベイズ距離(絶対値距離)を用い、各１個の既知の連続音(永久データベース)に対して、未知の言葉又は連続音データベースにおいて、N個の最も新しい未知の言葉又は連続音を探す。
７９各１個の既知の連続音(永久データベース)に対して、周囲のN個の未知の言葉又は連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び分散値)は、該既知の連続音の標準パターンを表す。
８０既知の連続音特徴データベースは、すべての平均値及び分散値の標準パターンを含む。
８５既知の連続音特徴データベースの連続音を用いて、識別しようとする文及び名称の文及び名称データベースを構築する。
２未知の文或いは名称を入力する。
１１１組の未知の言葉又は連続音波
４０１個の文或いは名称を、Ｄ個の未知の言葉又は連続音に分割する。
９０Ｄ個の未知の言葉又は連続音の線形予測ケプストラム係数（LPCC）マトリックスは、Ｄ個の未知の言葉又は連続音分類パターンを表す。
１００ベイズ識別器を用いて、各１個の既知の連続音標準パターンと、未知の言葉又は連続音分類パターンを比較する。
１１０一文或いは名称中から、各１個の未知の言葉又は連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計Ｄ×F個の既知の最も相似する連続音により表される。
１２０文と名称データベースにおいて、３×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
１３０文及び名称データベースにおいて、１個の最も可能性の高い文或いは名称を探す。

Claims

あらゆる言語の発話を識別する方法であって、以下のステップ：
（1）任意言語の複数個のサンプルを有し、未知の言葉又は連続音からなる未処理データベース、又は、任意言語のサンプルを有さず、未知の言葉又は連続音からなる未処理データベースと、を備え、
前記複数個のサンプルは、前記未知の言葉または連続音と同一発話者により発せられた、少なくとも複数個の言葉又は連続音から構成されるステップ、
（2）標準的で明瞭かつ明確な発声の発話者により、又は被験者により発音される、既知の言葉からなる永久データベースを備えるステップ、
（3）プロセッサを用いて、雑音と発話信号がない時間枠とを、発話波形から削除するステップ、
（4）１個の言葉又は連続音の前記発話波形全長を正規化し、及びフィルターがなく、かつオーバーラップせずに、Ｅ＝１２個の伸縮可能なフレームを用いて、前記発話波形全長を、線形予測ケプストラム係数（ＬＰＣＣ）からなるＥｘＰ＝１２ｘ１２個の同一サイズのマトリックスに変換するステップ、
（5）前記複数個のサンプルを有する未処理データベース内の複数個のサンプルから、サンプルのＬＰＣＣの平均値と分散値とを計算するステップ、
（6）前記複数個のサンプルを有する未処理データベースから、前記サンプルのＬＰＣＣの平均値と分散値とを備え、簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉に最も近いＮ個のベイズ距離を備える、Ｎ個の未知の言葉を探し出し、及び、
前記サンプルを有さない未処理データベースから、前記永久データベース内の既知の言葉に最も近いＮ個の絶対距離を備える、Ｎ個の未知の言葉を探し出すステップ、
（7）前記複数個のサンプルを有する未処理データベース内において、前記サンプルのＬＰＣＣの平均値と分散値とを備え、既知の言葉に最も近いＮ個のベイズ距離を備える、Ｎ個の未知の言葉のＮ個のＬＰＣＣと、前記永久データベース内の既知の言葉のＬＰＣＣとの、（Ｎ+１）個のデータから、既知の言葉のＬＰＣＣの平均値と分散値を計算し、
前記既知の言語のＬＰＣＣの平均値と分散値とからなるＥｘＰ＝１２ｘ１２個のマトリックスを、標準パターンと呼称される既知の言葉の特徴として表示し、及び数個の異なる言語の他の既知の言葉と共に、前記既知の言葉の標準パターンを言葉データベースに保存し、
及び前記言葉データベース内の既知の言葉から必要な文章と名称を作り、文章と名称データベースへ保存するステップ、
（8）もし、未処理データベース内の未知の言葉又は連続音がサンプルを有さないならば、前記永久データベース内の既知の言葉に最も近いＮ個の絶対距離を備える、前記サンプルを有さない未処理データベース内のＮ個の未知の言葉のＮ個のＬＰＣＣと、前記永久データベース内の既知の言葉の内のＬＰＣＣとを、（Ｎ+１）個のデータと見なし、
前記（Ｎ+１）個のデータの平均値と分散値とを計算し、
及び標準パターと呼称される、既知の言葉の特徴として前記ＬＰＣＣの平均値と分散値とからなるＥｘＰ＝１２ｘ１２個のマトリックスを前記言葉データベースに保存するステップ、
（9）フィルターがなく、オーバーラップせずに、Ｅ＝12個の伸縮可能なフレームを用いて、入力された未知の言葉又は連続音の波形全長を正規化し、
及び前記波形全長を前記未知の言葉の分類パターンと呼称される、ＬＰＣＣからなるＥｘＰ＝１２ｘ１２個の同一サイズのマトリックスへ変換するステップ、
（10）前記言葉データベース内の各既知の言葉の標準パターンと、入力された前記未知の言葉の分類パターンとを一致させ、
及び簡易ベイズ識別器を用いて、前記未知の言葉に最も近いベイズ距離を備える既知の言葉を、前記言葉データベース内で探し出すステップ、
（11）１個の未知の文章又は名称を、Ｄ個の未知の言葉に分割するステップ、
（12）ベイズ識別器により、前記言葉データベースから、前記未知の言葉に最も類似するＦ個の既知の言葉を探し出し、
及び数個の言語の類似の既知の言葉からなるＤｘＦマトリックスにより、前記未知の文章または名称を表示するステップ、
（13）前記未知の文章または名称を表示する、類似の既知の言葉からなる前記ＤｘＦマトリックスと、前記文章及び名称データベース内の全ての既知の文章及び名称とを一致させ、
及び前記未知の文章又は名称である可能性が最も高い既知の文章又は名称を、前記文章及び名称データベース内で探し出すステップ、
（14）入力された前記未知の文章又は名称が、正確に識別されることを保証されるように、前記入力された未知の文章又は名称内の未知の言葉の特徴を改善するステップ、を含むことを特徴とするあらゆる言語の発話を識別する方法。
前記ステップ(3)は、さらに、
（ａ）単位時間枠内において、発話信号のサンプル点の分散値、及び雑音のサンプル点の分散値を計算し、もし前記発話信号のサンプル点の分散値が雑音のサンプル点の分散値より小さければ、前記単位時間枠を削除し、
（ｂ）単位時間枠内において、隣接する２個の発話信号のサンプル点間の絶対距離の総和と、隣接する２個の雑音のサンプル点間の絶対距離の総和、を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記時間枠を削除するステップを含むことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(4)は、さらに、
（ａ）１個の言葉又は連続音の波形全長を、Ｅ＝１２個の均等区間に分割し、及び前記波形全長をカバーするために、Ｅ＝１２個の均等な長さの伸縮可能なフレームが、接触し、且つそれらを伸張させることができるように、フィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
（ｂ）各伸縮可能なフレーム内で、非線形時変波形を推計するために、Ｐ＝12個の回帰係数を備える線形回帰モデルを使用し、及び最小二乗法を用いて、Ｐ＝１２個の線形予測コード係数（ＬＰＣ）を生成し、
（ｃ）各フレーム内にＮ個の点を備えるDurbinの再帰方程式を用いて、

(d)ＬＰＣＣからなるＥｘＰ＝12ｘ12個のマトリックスにより表示される、言葉又は連続音である、Ｅ=12個のＬＰＣＣベクトルを表示するステップを含む、ことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(5)は、さらに、
（ａ）未知の言葉又は連続音の波形全長をＥ＝１２個の均等区間に分割し、及びフィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
（ｂ）非線形時変波形を推計するために、Ｅ＝１２個の伸縮可能な各フレーム内でＰ＝12個の回帰係数を備える線形回帰モデルを用い、及び最小二乗法を用いて、ＬＰＣベクトルを生成し、
（ｃ）Durbinの再帰方程式を用いて、最小二乗法を実施し、

(e)２個のサンプルを有する未知の言葉又は連続音のサンプルのＬＰＣＣからなるＥｘＰ＝１２ｘ１２個のマトリックスを用いて、未知の言葉又は連続音のサンプルのＬＰＣＣの平均値と分散値とを計算し、及び前記平均値と分散値を前記複数個のサンプルを有する未処理データベースへ保存するステップを含むことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(6)は、さらに

（ｅ）簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉と、前記複数個のサンプルを有する未処理データベース内の全ての未知の言葉又は連続音とを一致させ、

（ｇ）ｆ（ｘ｜ω_ｉ）の対数値を計算し、及び不要な定数を削除した後、
ベイズ識別器を用いて、ベイズ距離により類似性を表示し、

（ｈ）前記複数個のサンプルを有する未処理データベース内の各未知の言葉ω_ｉ、ｉ＝１，．．．，Ｍに対して、（ｇ）において、既知の言葉Ｘから未知の言葉ω_ｉへのベイズ距離ｌ（ω_ｉ）を計算し、
（ｉ）既知の言葉の標準パターンと呼称される、前記永久データベース内の既知の言葉の特徴値を計算するため、前記永久データベース内の既知の言葉Ｘに最も近いＮ個のベイズ距離ｌ（ωｉ）を用いて、前記既知の言葉の周辺のサンプルのＬＰＣＣの平均値と分散値を備える、前記複数個のサンプルを有する未処理データベース内の、既知の言葉Ｘに最も近いＮ個の未知の言葉を選択するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(１１)は、さらに、
（ａ）単位時間枠内において、発話信号及び雑音について、それぞれ隣接する２個のサンプル点間の絶対距離の総和を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記単位時間枠は発話信号がない単位時間枠であるとし、
（ｂ）もし、前記発話信号がない単位時間枠が、1個の言葉内の2個の音節間の時間より長ければ、前記１個の言葉内において2個の未知の言葉間の境界線を探し出し、及び未知の文章又は名称を前記境界線上でＤ個の未知の言葉へ分割し、
（ｃ）フィルターがなく、オーバーラップせずに、Ｅ＝12個の伸縮可能なフレームによりＤ個の未知の言葉の各々の波形を正規化し、各フレーム内において、ＬＰＣベクトルと、Ｄ＝１２ｘ１２個のマトリックスにより未知の言葉を表示するＬＰＣＣベクトルと、を探し出し、及びＬＰＣＣからなるＤ＝12ｘ12個のマトリックスにより、前記未知の文章又は名称を表示するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(１２)は、さらに、
探し出し、
（ｂ）異なる言語に属する類似の既知の言葉からなるＤｘＦマトリックスにより、未知の文章又は名称を表示するステップを含むことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(１３)は、さらに、
（a）前記文章と名称データベース内の、（Ｄ−1）個，Ｄ個，及び（Ｄ+1）個の既知の言葉と一致する文章と名称を選択し、
（ｂ）Ｄ個の言葉を有する、前記一致する既知の文章または名称を選択し、及び前記一致する文章又は名称におけるＤ個の既知の言葉の各々と、前記最も類似するＦ個の既知の言葉のＤ列の各々と、各列順に個別に比較し、
（ｃ）もし、前記最も類似するＦ個の既知の言葉の各列が、順に前記一致する文章又は名称の対応する言葉を含むならば、前記一致する文章又は名称が前記未知の文章又は名称であると決定し、
（ｄ）もし，（ｃ）において、正しく識別された言葉の個数がＤ個ではなく、又は、もし、前記一致する文章又は名称が、（Ｄ−1）個、又は（Ｄ+１）個の既知の言葉を含むならば、前記一致する文章又は名称の各既知の言葉を選別するために、既知の言葉からなるＤｘＦマトリックス内の最も類似するＦ個の言葉の連続する3列の3ｘＦ個の選別窓を利用し、
前記一致する文章又は名称におけるｉ番目の既知の言葉と比較するために、前記最も類似するＦ個の既知の言葉の（ｉ−1）番目、ｉ番目、（ｉ＋１）番目の列を利用し、
前記一致する文章又は名称内の第1の既知の言葉と比較するために、最も類似するＦ個の既知の言葉の最初の２列を使用し、第1列から最終列まで３ｘＦ個の選別窓を動かし、及び
3ｘＦ個の選別窓内の前記一致する文章又は名称における既知の言葉の個数を計算し、
（ｅ）前記一致する文章又は名称内の言葉の合計数により分割される，3ｘＦ個の選別窓内の前記一致する文章又は名称の既知の言葉の個数により計算される、最も一致する可能性の高い一致する文章又は名称を選択するステップを含むことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
前記ステップ(１４)は、さらに、
(a)もし、前記未知の文章又は名称が正しく識別されないならば、前記最も類似するＦ個の言葉にない、前記未知の文章又は名称の言葉ωを探し出し、
(b)前記言葉データベースから、ＬＰＣＣの平均値と分散値、{μ_IJl,σ² _IJl},ｉ＝1，…，Ｎ，からなるＮ個のマトリックスにより表示され、言葉ωへ最も近いＮ個のベイズ距離を備える、言葉ωに対するＮ個の既知の言葉を探し出すために、ベイズ識別器を用い、
Ｎ個のマトリックスの加重平均を計算し、
及び、
新しい特徴値として、加重平均,{μ_IJl,σ² _IJl},ｉ＝1，…，Ｅ，ｉ＝1，…，Ｐ，
により、前記言葉データベース内の言葉ωの標準パターンを置換し、及び
言葉ωの新しい標準パターンとして、言葉ωの前記新しい特徴値を前記言葉データベースに保存し、
（ｃ）前記言葉データベースから、ＬＰＣＣの平均値と分散値、{μ_IJl,σ² _IJl},ｉ＝1，…，Ｎ，からなるＮ個のマトリックスにより表示され、言葉ωへ最も近いＮ個のベイズ距離を備え、言葉ωへ最も近いＮ個の既知の言葉を探し出すために、ベイズ識別器を用い、

により、言葉ωの標準パターンを置換し、及び
言葉ωの新しい標準パターンとして、言葉ωの前記新しい標準パターンを前記言葉データベースに保存するステップを含むことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語の発話を識別する方法。