JP5091202B2 - サンプルを用いずあらゆる言語を識別可能な識別方法 - Google Patents

サンプルを用いずあらゆる言語を識別可能な識別方法 Download PDF

Info

Publication number
JP5091202B2
JP5091202B2 JP2009180750A JP2009180750A JP5091202B2 JP 5091202 B2 JP5091202 B2 JP 5091202B2 JP 2009180750 A JP2009180750 A JP 2009180750A JP 2009180750 A JP2009180750 A JP 2009180750A JP 5091202 B2 JP5091202 B2 JP 5091202B2
Authority
JP
Japan
Prior art keywords
word
words
unknown
database
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009180750A
Other languages
English (en)
Other versions
JP2011033879A (ja
Inventor
黎自奮
李台珍
黎世聰
黎世宏
寥麗娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shih Hon Li
Tai Jan Lee Li
Tze Fen Li
Original Assignee
Shih Hon Li
Tai Jan Lee Li
Tze Fen Li
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shih Hon Li, Tai Jan Lee Li, Tze Fen Li filed Critical Shih Hon Li
Priority to JP2009180750A priority Critical patent/JP5091202B2/ja
Publication of JP2011033879A publication Critical patent/JP2011033879A/ja
Application granted granted Critical
Publication of JP5091202B2 publication Critical patent/JP5091202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明はサンプルを用いずあらゆる言語を識別可能な識別方法に関し、特にある連続音は1個或いは多数の音節(単音)を含み、連続音のサンプルを用いずすべての言語を識別可能で、12個の伸縮可能なフレームを用い、長さが等しく、フィルターが無く、オーバーラップせず、長さがさまざまなある連続音の音波を、12×12の線形予測ケプストラム係数(LPCC)のマトリックスに転換し、1個の未知の言葉又は連続音は、12×12の線形予測ケプストラム係数のマトリックスを用いて表示し、1個の12×12マトリックスは、1個の144次元空間の1個のベクトルとして認知し、多くの未知の言葉又は連続音のベクトルは、144次元空間に散らばり、発話者が1個の既知の連続音を発すると、該既知の連続音の特徴は、周囲の未知の言葉又は連続音の特徴(LPCC)により、シミュレート及び計算され、12個の伸縮可能なフレームを含み、ある連続音の音波を正規化し、ベイズ比較法は、未処理データベース中で、発音者の未知の言葉又は連続音のために、1個の既知の連続音を探し、1個の発話者の1個の未知の文を、D個の未知の言葉又は連続音に分割し、及び1個のウィンドウスクリーニングは、1個の既知の文を、発話者の未知の文としてスクリーニングするサンプルを用いずあらゆる言語を識別可能な識別方法に関する。
ある連続音を発する時、その発音は、音波により表示される。音波は、時間に従い、非線形変化を行なう一種のシステムで、ある連続音の音波内には、一種の動的特性を含み、また時間に従い、非線形の連続変化を行なう。相同の連続音が発せられる時には、一連の相同の動的特性を有し、時間に従い、非線形の伸展及び收縮を行なう。但し、相同の動的特性は、時間に基づき排列する順序は同様であるが、時間が異なる。相同の連続音が発せられる時、相同の動的特性を、同一時間位置上に配列するのは、非常に困難である。さらに、相似の連続音が特別に多いため、識別をより難しくしている。
但し、上記以降、「同相」は、「同一言語」(例えば、「日本語」など)を意味する。)
あるコンピューター化された言語識別システムでは、先ず、音波関連の言語情報、つまり動的特性を抽出し、言語と無関係の雑音をろ過する必要がある。例えば、人の声の音色、音の調子、発話時の心理、生理、情緒などは、音声識別とは無関係であるため、先に削除する。続いて、相同の連続音の相同の特徴を、相同の時間位置上に並べる。この一連の特徴は、長さが等しい系列特徴のベクトルを用い表示し、ある連続音の特徴パターンと呼ばれる。現在の音声識別システムでは、大きさが一致した特徴パターンの発生は複雑に過ぎ、しかも時間がかかる。なぜなら、相同の連続音の相同の特徴は、同一時間位置上には非常に並べ難く、特に、英語は識別がより困難である。
一般の文、或いは名称の識別方法には、以下の5個の主要な作業がある。未知の文或いは名称を、D個の未知の言葉又は連続音に分割し、特徴を抽出し、特徴を正規化し(特徴パターンの大きさが一致し、しかも相同の言葉又は連続音の相同の特徴が、同一時間位置に排列されている)、未知の言葉又は連続音を識別し、及び文或いは名称データベースにおいて、適合する文或いは名称を探し出す。ある連続音の音波の特徴は、しばしばエネルギー(energy)、ゼロ交差(zero crossings)、エクストリームカウント(extreme count)、ホルマント(formants)、線形予測ケプストラム係数(LPCC)、メル周波数ケプストラム係数(MFCC)を用い表現される。
内、線形予測ケプストラム係数(LPCC)及びメル周波数ケプストラム係数(MFCC)によるものが、最も有効で、広く使用されている。線形予測ケプストラム係数(LPCC)は、ある連続音の最も信頼でき、安定し、また正確な言語の特徴を表す。それは、線形回帰方式を用い、連続音の音波を代表し、最小平方推計法により、回帰係数を計算する。その推計値を、さらにケプストラムに転換すると、線形予測ケプストラム係数(LPCC)となる。
メル周波数ケプストラム係数(MFCC)は、音波を、フーリエ転換法を用い、周波数に転換する。さらに、メル周波数比例去に基づき、聴覚システムを推計する。S.B. Davis氏とP. Mermelstein氏は、1980年に出版された「IEEE Transactions on Acoustics, Speech Signal Processing, Vol.28, No.4」で発表した論文「Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences」によれば、動的時間伸縮法(DTW)を用いたメル周波数ケプストラム係数(MFCC)特徴は、線形予測ケプストラム係数(LPCC)特徴の識別率より高い。しかし、数回の音声識別実験(本発明人の従来の発明を含む)においては、ベイズ識別器を用いた線形予測ケプストラム係数(LPCC)特徴の識別率は、メル周波数ケプストラム係数(MFCC)特徴よりも高く、しかも省時間である。
言語識別には、既に多くの方法が採用されている。例えば、動的時間伸縮法(Dynamic time-warping)、ベクトル量子化法(vector quantization)、隠れマルコフモデル法(HMM)がある。もし、相同の発音が、時間上の変化において差異があるなら、比較しながら、相同の特徴を同一の時間位置へとのばす。この識別率は非常に高いが、相同の特徴を同一位置までのばすのは、非常に困難で、ワープ時間が長過ぎ、応用不能である。ベクトル量子化法は、大量の連続音を識別する場合には、不正確であるばかりか、時間がかかる。隠れマルコフモデル法(HMM)による識別方法は、優れているが、方法が煩雑で、あまりにも多くの未知のパラメーターを推計しなければならないため、推計値計算と識別に時間がかかる。
T.F. Li(黎自奮)氏は2003年に出版された「Pattern Recognition, vol. 36」で発表した論文「Speech recognition of mandarin monosyllables」中において、ベイズ識別器を用い、相同のデータベースにより、各種の長短の一系列のLPCCベクトルを大きさが相同の分類パターンに圧縮した。その識別結果は、Y.K. Chen氏、C.Y.Liu氏、G.H. Chiang氏、M.T. Lin氏が、1990年に出版された「Proceedings of Telecommunication Symposium, Taiwan」で発表した論文「The recognition of mandarin monosyllables based on the discrete hidden Markov model」中において、隠れマルコフモデル法HMM方法を用いたものより良い。しかし、圧縮過程は複雑で、時間がかかり、しかも相同の連続音の相同の特徴を相同の時間位置に圧縮するのは非常に難しく、相似した連続音に対しては、識別が極めて難しい。
本発明音声識別方法は、上記欠点に対して、学理の面から、音波のある音声特徴に基づき、時間に従い、非線形変化を行い、音声特徴を抽出する方法を自然に導き出す。ある連続音の音波を、先ず、正規化し、次に該連続音を代表するに足る大きさが相同の特徴パターンに転換する。しかも相同の連続音は、それら特徴パターン内の相同の時間位置は相同の特徴を有し、人為或いは実験により本発明内の未知パラメーター及び基準値を調節する必要はない。簡易なベイズ識別器を用い、未知の言葉又は連続音分類パターンと連続音特徴データベース内の既知の連続音標準パターンを比較し、再圧縮、ワープ、或いは相同の特徴を探して比較する必要はない。よって、本発明音声識別方法は、特徴の抽出、特徴正規化、及び識別を迅速に完成可能である。
本発明が解決しようとする課題は、サンプルを用いずあらゆる言語を識別可能な識別方法を提供することである。
上記課題を解決するため、本発明は下記のサンプルを用いずあらゆる言語を識別可能な識別方法を提供する。
本発明の最重要目的は、多数の未知の言葉又は連続音の特徴を用いて、あらゆる言語の任意の1個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の1個の既知の連続音に対して、ベイズ距離を用い、144次元空間において、N個の未知の言葉又は連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正規化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい伸縮可能なフレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、1個の大きさが相互に等しい特徴パターンに転換し、しかも相同の連続音の音波の特徴パターンは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の言葉又は連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値(LPCベクトル)を生じる。
本発明は、すべての音声を備える音波(音波サンプル点)を使用する。より少ない数E=12個の相互に等しい伸縮可能なフレームを用い、フィルターがなく、オーバーラップせず、すべてのサンプル点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部のサンプル点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各1個の音声を備えるサンプル点を応用し、できるだけ音声特徴を抽出することができる。E=12個の伸縮可能なフレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数(LPCC)を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、伸縮可能なフレームの長さを短くすれば、相同数のE個の等しい長さの伸縮可能なフレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数(LPCC)ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数(LPCC)ベクトルも、該短音の特徴パターンを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、伸縮可能なフレームは伸び、発生するE個の線形予測ケプストラム係数(LPCC)ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、144次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
1個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、D個の未知の連続音に分割し、本発明は、各未知の言葉又は連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。1個の文は、D×F個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の言葉又は連続音に分割され、本発明は、各未知の言葉又は連続音の前後三列のF個の相似した既知の連続音により、文或いは名称中の1個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、3×Fウィンドウの既知の相似した連続音を用い、1個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い(70個の英語文及び名称と、407台湾中国語の文及び名称を識別)。
本発明は、2種の技術を提供し、連続音の特徴を修正し、これにより未知の言葉又は連続音及び未知の文或いは名称の識別を成功させる。
本発明は、1個の台湾中国語単音を、1個の1音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。
本発明サンプルを用いずあらゆる言語を識別可能な識別方法は、ある連続音の特徴を改善し、これによりあらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別することができる。
既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースの構築プロセスを示すフローチャートである。 1個の未知の文或いは名称の識別方法のプロセスを示すフローチャートである。 384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語の識別方法を示す図である。 154個の英語、1個のドイツ語の識別方法を示す図である。 269個の台湾中国語単音、3個の台湾語を識別する方法の図である。 文及び名称データベースは、70個の英語文と407個の中国語文及び名称を有することを示す図である。 英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。 英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。
以下に図面を参照しながら本発明を実施するための最良の形態について詳細に説明する。
図1及び図2は、本発明の執行プロセスを説明する。
図1は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという3個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準パターンを含み、既知の連続音の特徴を示す。
先ず、1個の既知の連続音或いは1個の文或いは名称1を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波10形式によりレシーバー20に進入する。
デジタル転換器30は、連続音波を、シーケンス音波デジタルのサンプル点に転換する。
プリプロセッサー45は、以下のような2種の削除方法を有する。
ある一定の時間枠内のサンプル点の分散値及び一般雑音の分散値を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する2個のサンプル点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
プリプロセッサー45を経過することで、シーケンスは該既知の連続音サンプル点を備える。
先ず、音波を正規化し、次に特徴を抽出し、既知の連続音のすべてのサンプル点を、E等時間枠に分割する。
各時間枠は1個のフレームを組成する。
ある連続音は、合計E個の等長フレーム50を有し、フィルターがなく、オーバーラップしない。
連続音のすべてのサンプル点の長さに基づき、E個のフレームの長さは、すべてのサンプル点を網羅できるよう自由に調整する。
よって、そのフレームは伸縮可能なフレームと呼称し、長さは自由に伸縮可能だが、E個の伸縮可能なフレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。
ある連続音は、音波時間に従い、非線形変化を行い、音波は、1個の音声動的特徴を含み、また時間に従い、非線形変化を行なう。オーバーラップしないため、本発明は比較的少ない(E=12)個の伸縮可能なフレームを使用し、すべての連続音の音波を網羅する。サンプル点は前のサンプル点から推計できるため、用時間に従い、線形変化の回帰方式を行い、非線形変化の音波を密接に推計し、最小平方法を用いて、回帰未知係数を推計する。各フレーム内に、1組の未知係数最小平方推計値を生じ、これを線形予測コード(LPC)ベクトルと呼称する。
さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数(LPCC)ベクトル60に転換する。
1個の既知の連続音の特徴を抽出するため、先ず、1個の永久既知の連続音データベースを準備する。各既知の連続音は、発音が標準的で明晰な発話者により1回発音する。なまりがひどい、或いは標準的でない発話を識別する場合には、そのような発話者により発音し、すべての既知の連続音をE×P個のLPCCマトリックスに転換し、永久既知の連続音データベース内に組み入れる。永久既知の連続音データベース内において、 1個の既知の連続音特徴を抽出するために、先ず、未知の言葉又は連続音のデータベースを準備する。
未知の言葉又は連続音データベースには、2種存在する。1種は、サンプルがある未知の言葉又は連続音有サンプルで、もう1種は標準がない。サンプルがある未処理データベースは、先ず、各1個の未知の言葉又は連続音の平均値及び分散値を求める。サンプルがある未知の言葉又は連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の言葉又は連続音を探す。さらに、N個の未知音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N+1個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の分散値の加重平均値を、その既知の連続音の分散値とする。このE×P平均値及び分散値マトリックスは、その既知の連続音の初期特徴値79で、連続音特徴データベース中に組み入れる。
もし、未知の未処理データベースにサンプルがなければ、未知の言葉又は連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の言葉又は連続音を探す。その既知の連続音及びN個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)を、(N+1)個の数字とする。(N+1)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+1)個の数字の分散値を求め、その既知の連続音の分散値とし、このE×P平均値及び分散値のマトリックスは、その既知音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる79。
既知の連続音特徴データベース内において、もし1個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の1個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探し、それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の単音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の分散値の加重平均値を用い、その既知の連続音の新しい分散値とする。この方法を繰り返し数回用いて、特徴データベース内の各1個の既知の連続音の新平均値及び分散値を計算する。最後に、E×Pの新しい平均値及び分散値マトリックスを、標準パターンと呼称し、その既知の連続音を代表し、特徴データベース中に組み入れる80。さらに、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する85。
図2は、1個の未知の文或いは名称の識別方法手順を示す。1個の未知の文或いは名称2を、本発明音声識別方法に入力後、1組の未知の言葉又は連続音波11により、レシーバー20に進入する。デジタル転換器30により、一系列の音波サンプル点に転換する。1個の未知の文或いは名称の音波を、D個の未知の言葉又は連続音の音波40に分割する。さらに、図1に示すプリプロセッサー45により、音声を備えない音波を削除する。次に、各未知の言葉又は連続音の音波を正規化し、特徴を抽出し、文或いは名称各未知の言葉又は連続音の音声を備えるすべてのサンプル点をE等時間枠に分割する。各時間枠は、1個の伸縮可能なフレームを形成する50。各連続音は、合計E個の伸縮可能なフレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮し、すべてのサンプル点を網羅する。
各フレーム内において、サンプル点は、前の信号により推計することができるため、最小平方法を用いて、回帰未知係数の推計値を求める。各フレーム内に、生じる1組の最小平方推計値を、線形予測コード(LPC)ベクトルと呼称する。線形予測コード(LPC)ベクトルは、正常に分配され、さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)ベクトルに転換する60。1個の未知の言葉又は連続音は、E個の線形予測ケプストラム係数(LPCC)ベクトルを、特徴パターンとし、分類パターンと呼称し90、既知の連続音標準パターンと大きさが同じである。1個の文は、計D個の分類パターンを有し、D個の未知の言葉又は連続音を代表する90。もし1個の既知の連続音がこの未知の言葉又は連続音であるなら、その標準パターンの平均値は、未知の言葉又は連続音分類パターンに最も近い線形予測ケプストラム係数(LPCC)である。よって、本発明の簡易ベイズ識別法は、未知の言葉又は連続音の分類パターンと連続音データベース80により、各1個の既知の連続音の標準パターンを比較する100。
もし、1個の既知の連続音が、その未知の言葉又は連続音であるなら、計算の時間を節約するため、未知の言葉又は連続音の分類パターン内のすべての線形予測ケプストラム係数(LPCC)が、独立した正規分配を有すると仮定し、それらの平均数及び分散値を、既知の連続音標準パターン内の平均値及び分散値により推計する。簡易ベイズ法は、未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)と既知の連続音の平均数の距離を計算する。さらに、既知の連続音分散値により調整し、得られた値は、その未知の言葉又は連続音と1個の既知の連続音の相似度を表す。未知の言葉又は連続音と、F個の相似度が最高の既知の連続音を選択し、未知の言葉又は連続音とする。よって、1個の未知の文或いは名称は、D×F個の既知の連続音を用いて表示される110。
1個の未知の文或いは名称を、D個の未知の言葉又は連続音に分割した後、1個の未知の文或いは名称が含む連続音及び個数をちょうど分割することは難しい。ある時はある連続音を2個に分割し、ある時は2個の連続音を非常に似たように発音し、コンピューターは1個に分割する。よって、D個の未知の言葉又は連続音は、発話者の本当の連続音の個数とは限らない。よって、ある一列のF個の既知と相似した連続音は、発話者の連続音を含むとは限らない。1個の未知の文或いは名称を識別する時、文と名称データベース85において、各1個の既知の文及び名称をテストする。1個の文或いは名称が、発話者の文或いは名称であるか否かをテストし、その文或いは名称を、一つ目の既知の連続音から、D×Fマトリックスが相似する連続音の前後三列の相似の連続音と比較する(当然、一つ目の比較は、中と後の2列の相似の連続音しか比較することはできない)。次に、3×Fウィンドウ(前後三列の既知の相似の連続音)に移動し120、文の二つ目の既知の連続音を探す。こうして、文のすべての既知の連続音をテストする。
文及び名称データベースにおいて、最高確率の文或いは名称は、発話者の文或いは名称である(テストした文或いは名称中の既知の連続音の3×Fウィンドウにおける数を、テストした文或いは名称中の連続音数で割る)130。当然、文及び名称データベースにおいて、未知の文或いは名称(D個の未知の言葉又は連続音)長さが大体相同の文或いは名称を選択して比較し、時間を節約することができる。もし、文或いは名称が識別できない場合には、ベイズ識別器を用いて、特徴データベース中において、N個の最も相似する連続音を探し79、文中の連続音特徴を改善すれば、識別は必ず成功する。
以下に詳述する。
ある連続音を音声識別方法に入力後、この連続音音波を一系列の音波サンプル点(signal sampled points)に転換する。さらに、音声音波を備えないサンプル点を削除する。本発明は2種の方法を提供する。一つ目は、ある一定の時間枠内サンプル点の分散値を計算する。二つ目は、その時間枠内の相互に隣接する2つのサンプル点の距離の総和を計算する。理論上は、第一の方法がより良いが、サンプル点の分散値が、雑音分散値より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、2種の方法の識別率は同じであるが、第二の方法が時間を節約できる。
音声を備えないサンプル点を削除後、残ったサンプル点はある連続音のすべてのサンプル点を表す。先ず、音波を正規化し、次に特徴を抽出し、すべてのサンプル点をE等時間枠に分割する。各時間枠は1個のフレームを形成する。ある連続音は、合計E個の等しい長さの伸縮可能なフレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮して、すべてのサンプル点を網羅する。伸縮可能なフレーム内のサンプル点は時間に従い、非線形変化を行い、数学モデルにより表すのは難しい。なぜならJ.Markhoul氏は、1975年に出版された「Proceedings of IEEE, Vol.63, No.4」において、論文「Linear Prediction: A tutorial review」を発表しているが、その中で、サンプル点と前のサンプル点には線形関係があり、時間に従い、線形変化を行う回帰モデルを用いて、この非線形変化のサンプル点を推計することができる、と説明しているからである。





ると、因最後の線形予測ケプストラム係数(LPCC)によれば0に近似する。ある連続音はE個の線形予測ケプストラム係数(LPCC)ベクトル表示特徴とし,つまり1個のE×P個の線形予測ケプストラム係数(LPCC)のマトリックス表示のある連続音を含み,ある
連続音は一個ないし多数の音節を含む。
(3)同様方法で、式(8-15)により、1個の未知の言葉又は連続音の音波のE個の線形予測ケプストラム係数(LPCC)ベクトルを計算すると、同様の大きさのE×P個のLPCCのマトリックスを備え、それを未知の言葉又は連続音の分類パターンと呼称する。




(5)1個の既知の連続音の特徴を抽出するため、先ず、未知の言葉又は連続音のデータベースを準備する。未知の言葉又は連続音データベースには2種ある。一種は、未知の言葉又は連続音のサンプルがあり、もう一種は、サンプルがない。サンプルがある未処理データベースでは、先ず、各1個の未知の言葉又は連続音の平均値及び分散値を求める。サンプルがある未知の言葉又は連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の言葉又は連続音を探す。さらに、N個の未知の音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N+1個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の分散値の加重平均値を、その既知の連続音の分散値とする。このE×P平均値及び分散値マトリックスは、その既知の連続音の初期特徴値79で、連続音特徴データベース中に組み入れる。もし、未知の言葉又は連続音データベースにサンプルがなければ、未知の言葉又は連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の言葉又は連続音を探す。その既知の連続音及びN個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)を、(N+1)個の数字とする。(N+1)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+1)個の数字の分散値を求め、その既知の連続音の分散値とする。このE×P平均値及び分散値のマトリックスは、その既知の連続音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる79。既知の連続音特徴データベース内において、もし1個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の1個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探す。それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の連続音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の分散値の加重平均値を用い、その既知の連続音の新しい分散値とする。この方法を繰り返し数回用いて、特徴データベース内の各1個の既知の連続音の新平均値及び分散値を計算する。最後に、E×Pの新しい平均値及び分散値マトリックスを、標準パターンと呼称し、その既知の連続音を表し、特徴データベース中に組み入れ80、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する85。
(7)本発明が同時にあらゆる言語を識別可能であることを証明するため、本発明は2人の音声識別実験を行なった。
(a)先ず、1個の未知の言葉又は連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計388個の台湾中国語単音(図3)があり、全て女性が発音しており、サンプルは、6個から99個で、多くの単音の発音は、ほぼ同様である。
(b)(2)節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計12400個のマトリックスを有する。
(c)388個の台湾中国語単音中において、サンプルを用いて平均値及び分散値を求める。
(D)アットランダムに388個の台湾中国語単音を混合し、388個のサンプルがある平均値及び分散値の単音を、388個の未知の言葉又は連続音データベースとする(1個の台湾中国語単音は、音節が1個だけの連続音である)。
(e)次に、男性一人、女性一人により、654個の台湾中国語単音、154個の英語、1個のドイツ語、1個の日本語及び3個の台湾語を、1回発音し、2個の813個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの813個の既知の連続音中において、各1個の既知の連続音に対して、ベイズ距離20を用い、388個の未知の言葉又は連続音中において、N=15個の未知の言葉又は連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の言葉又は連続音のサンプル平均値は、N+1個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の言葉又は連続音のサンプル分散値の加重平均値を求め、その既知の連続音の分散値とする。この平均値及び分散値12×12マトリックスを、その既知の連続音の初期特徴と呼称79し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、813個の12×12平均値及び分散値マトリックス80を含む。
(g)特徴データベース中において、もし1個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。813個の連続音特徴ベイズ距離を用い、N=15既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の分散値に対して、加重平均値を求め、その既知の連続音の新分散値とする。新平均値及び分散値を繰り返し数回計算する。最後の12×12平均値及び分散値マトリックスを標準パターンと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中80に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位3人を正解とする。
384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語を識別する(図3参照)(識別率が非常に高い)
154個の英語、1個のドイツ語を識別する(図4参照)(識別率が非常に高い)
154個の英語及び388個の台湾中国語、1個のドイツ語、1個の日本語、2個の台湾語を同時に識別する(識別率が非常に高い)
(4)654個の台湾中国語単音、1個のドイツ語、1個の日本語、3個の台湾語を識別する(図5参照)(識別率は高いが、上記三例ほどではない)
(8)ある発話者の文或いは名称を識別するに当たり、我々は先ず、1個の英語及び台湾中国語の文及び名称データベースを構築した。各文或いは名称内の連続音すべては、連続音特徴データベース内(384+154)の既知英語及び台湾中国語により任意に組成する。154個の英単語は70個の英語文及び名称を組成し、384個の台湾中国語単語は、407個の台湾中国語の文及び名称を組成する(図6参照)。
その識別方法は、以下の通りである。
(a)1個の未知の文或いは名称を、D個の未知の言葉又は連続音に分割し、各単位時間枠は、相互に隣接する2つのサンプル点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ(連続音2音節時間より多い)、すべてが雑音或いは靜音であることを示しており、2個の連続音の境界線で分割すべきで、計D個の未知の言葉又は連続音に分割する。次に、図2の45、50、60及び90プロセスを用いて、E×P LPCCマトリックスに転換する。各1個の未知の言葉又は連続音に対して、ベイズ識別器20を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、 D×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、477個の英語及び台湾中国語の文と名称中において、長さが(D±1)個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、D個の未知の言葉又は連続音である時には、D個の各列F個の相似した既知の連続音と比較する文或いは名称のD個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて1個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をD個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、D-1或いはD+1、或いは(c)の識別正確連続音がD個でないなら、本発明は、3×Fウィンドウを用いてスクリーニングする。比較文或いは名称(データベース内)中において、第i個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音(すなわち第i−1、i、i+1列)を用いて、第i個の既知の連続音を比較し、D×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Dにより割り、その比較文或いは名称の確率を求め、データベースにおいて、1個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、D個の未知の言葉又は連続音中に1個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ識別器20を用いて、(155+384)個の既知の連続音中で、前からN=15順位の既知の連続音を探し、N個の相似の連続音及びその未知の言葉又は連続音のLPCC加重平均値を求め、その未知の言葉又は連続音を改善する。こうしてD個の未知の言葉又は連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
(1)70個の英語文及び名称を識別(非常に良い)。
(2)407個の台湾中国語の文及び名称を識別(非常に良い)
(3)70個の英語文及び名称と407個の台湾中国語の文及び名称を識別(非常に良い)。
本発明は多数回の試験を経て、予期の目的を達成可能であることが確証された。しかもその機能は卓越しており、申請前に公開刊行物で未見で、及び公開使用の事実もないため、本発明は特許請求の要件である新規性を備え、従来の同類製品に比べ十分な進歩を有し、実用性が高く、社会のニ一ズに合致しており、産業上の利用価値は非常に大きい。
1 1個の既知の連続音永久データベースを構築し、ある連続音或いは1個の文を発音し、文をさらに多数の既知の連続音に分割する。
10 連続音波
20 レシーバー
30 音波デジタル転換器
45 雑音除去
50 E個の伸縮可能なフレーム正規化音波
60 最小平方法により線形予測ケプストラム係数(LPCC)ベクトルを計算
70 ベイズ距離(絶対値距離)を用い、各1個の既知の連続音(永久データベース)に対して、未知の言葉又は連続音データベースにおいて、N個の最も新しい未知の言葉又は連続音を探す。
79 各1個の既知の連続音(永久データベース)に対して、周囲のN個の未知の言葉又は連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び分散値)は、該既知の連続音の標準パターンを表す。
80 既知の連続音特徴データベースは、すべての平均値及び分散値の標準パターンを含む。
85 既知の連続音特徴データベースの連続音を用いて、識別しようとする文 及び名称の文及び名称データベースを構築する。
2 未知の文或いは名称を入力する。
11 1組の未知の言葉又は連続音波
40 1個の文或いは名称を、D個の未知の言葉又は連続音に分割する。
90 D個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)マトリックスは、D個の未知の言葉又は連続音分類パターンを表す。
100 ベイズ識別器を用いて、各1個の既知の連続音標準パターンと、未知の言葉又は連続音分類パターンを比較する。
110 一文或いは名称中から、各1個の未知の言葉又は連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計D×F個の既知の最も相似する連続音により表される。
120 文と名称データベースにおいて、3×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
130 文及び名称データベースにおいて、1個の最も可能性の高い文或いは名称を探す。

Claims (9)

  1. あらゆる言語の発話を識別する方法であって、以下のステップ:
    (1)任意言語の複数個のサンプルを有し、未知の言葉又は連続音からなる未処理データベース、又は、任意言語のサンプルを有さず、未知の言葉又は連続音からなる未処理データベースと、を備え、
    前記複数個のサンプルは、前記未知の言葉または連続音と同一発話者により発せられた、少なくとも複数個の言葉又は連続音から構成されるステップ
    (2)標準的で明瞭かつ明確な発声の発話者により、又は被験者により発音される、既知の言葉からなる永久データベースを備えるステップ、
    (3)プロセッサを用いて、雑音と発話信号がない時間枠とを、発話波形から削除するステップ、
    (4)1個の言葉又は連続音の前記発話波形全長を正規化し、及びフィルターがなく、かつオーバーラップせずに、E=12個の伸縮可能なフレームを用いて、前記発話波形全長を、線形予測ケプストラム係数(LPCC)からなるExP=12x12個の同一サイズのマトリックスに変換するステップ、
    (5)前記複数個のサンプルを有する未処理データベース内の複数個のサンプルから、サンプルのLPCCの平均値と分散値とを計算するステップ、
    (6)前記複数個のサンプルを有する未処理データベースから、前記サンプルのLPCCの平均値と分散値とを備え、簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉に最も近いN個のベイズ距離を備える、N個の未知の言葉を探し出し、及び、
    前記サンプルを有さない未処理データベースから、前記永久データベース内の既知の言葉に最も近いN個の絶対距離を備える、N個の未知の言葉を探し出すステップ、
    (7)前記複数個のサンプルを有する未処理データベース内において、前記サンプルのLPCCの平均値と分散値とを備え、既知の言葉に最も近いN個のベイズ距離を備える、N個の未知の言葉のN個のLPCCと、前記永久データベース内の既知の言葉のLPCCとの、(N+1)個のデータから、既知の言葉のLPCCの平均値と分散値を計算し、
    前記既知の言語のLPCCの平均値と分散値とからなるExP=12x12個のマトリックスを、標準パターンと呼称される既知の言葉の特徴として表示し、及び数個の異なる言語の他の既知の言葉と共に、前記既知の言葉の標準パターンを言葉データベースに保存し、
    及び前記言葉データベース内の既知の言葉から必要な文章と名称を作り、文章と名称データベースへ保存するステップ、
    (8)もし、未処理データベース内の未知の言葉又は連続音がサンプルを有さないならば、前記永久データベース内の既知の言葉に最も近いN個の絶対距離を備える、前記サンプルを有さない未処理データベース内のN個の未知の言葉のN個のLPCCと、前記永久データベース内の既知の言葉の内のLPCCとを、(N+1)個のデータと見なし、
    前記(N+1)個のデータの平均値と分散値とを計算し、
    及び標準パターと呼称される、既知の言葉の特徴として前記LPCCの平均値と分散値とからなるExP=12x12個のマトリックスを前記言葉データベースに保存するステップ、
    (9)フィルターがなく、オーバーラップせずに、E=12個の伸縮可能なフレームを用いて、入力された未知の言葉又は連続音の波形全長を正規化し、
    及び前記波形全長を前記未知の言葉の分類パターンと呼称される、LPCCからなるExP=12x12個の同一サイズのマトリックスへ変換するステップ、
    (10)前記言葉データベース内の各既知の言葉の標準パターンと、入力された前記未知の言葉の分類パターンとを一致させ、
    及び簡易ベイズ識別器を用いて、前記未知の言葉に最も近いベイズ距離を備える既知の言葉を、前記言葉データベース内で探し出すステップ、
    (11)1個の未知の文章又は名称を、D個の未知の言葉に分割するステップ、
    (12)ベイズ識別器により、前記言葉データベースから、前記未知の言葉に最も類似するF個の既知の言葉を探し出し、
    及び数個の言語の類似の既知の言葉からなるDxFマトリックスにより、前記未知の文章または名称を表示するステップ、
    (13)前記未知の文章または名称を表示する、類似の既知の言葉からなる前記DxFマトリックスと、前記文章及び名称データベース内の全ての既知の文章及び名称とを一致させ、
    及び前記未知の文章又は名称である可能性が最も高い既知の文章又は名称を、前記文章及び名称データベース内で探し出すステップ、
    (14)入力された前記未知の文章又は名称が、正確に識別されることを保証されるように、前記入力された未知の文章又は名称内の未知の言葉の特徴を改善するステップ、を含むことを特徴とするあらゆる言語の発話を識別する方法。
  2. 前記ステップ(3)は、さらに、
    (a)単位時間枠内において、発話信号のサンプル点の分散値、及び雑音のサンプル点の分散値を計算し、もし前記発話信号のサンプル点の分散値が雑音のサンプル点の分散値より小さければ、前記単位時間枠を削除し、
    (b)単位時間枠内において、隣接する2個の発話信号のサンプル点間の絶対距離の総和と、隣接する2個の雑音のサンプル点間の絶対距離の総和、を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記時間枠を削除するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
  3. 前記ステップ(4)は、さらに、
    (a)1個の言葉又は連続音の波形全長を、E=12個の均等区間に分割し、及び前記波形全長をカバーするために、E=12個の均等な長さの伸縮可能なフレームが、接触し、且つそれらを伸張させることができるように、フィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
    (b)各伸縮可能なフレーム内で、非線形時変波形を推計するために、P=12個の回帰係数を備える線形回帰モデルを使用し、及び最小二乗法を用いて、P=12個の線形予測コード係数(LPC)を生成し、
    (c)各フレーム内にN個の点を備えるDurbinの再帰方程式を用いて、

    (d)LPCCからなるExP=12x12個のマトリックスにより表示される、言葉又は連続音である、E=12個のLPCCベクトルを表示するステップを含む、ことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
  4. 前記ステップ(5)は、さらに、
    (a)未知の言葉又は連続音の波形全長をE=12個の均等区間に分割し、及びフィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
    (b)非線形時変波形を推計するために、E=12個の伸縮可能な各フレーム内でP=12個の回帰係数を備える線形回帰モデルを用い、及び最小二乗法を用いて、LPCベクトルを生成し、
    (c)Durbinの再帰方程式を用いて、最小二乗法を実施し、




    (e)2個のサンプルを有する未知の言葉又は連続音のサンプルのLPCCからなるExP=12x12個のマトリックスを用いて、未知の言葉又は連続音のサンプルのLPCCの平均値と分散値とを計算し、及び前記平均値と分散値を前記複数個のサンプルを有する未処理データベースへ保存するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
  5. 前記ステップ(6)は、さらに



    (e)簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉と、前記複数個のサンプルを有する未処理データベース内の全ての未知の言葉又は連続音とを一致させ、

    (g)f(x|ω)の対数値を計算し、及び不要な定数を削除した後、
    ベイズ識別器を用いて、ベイズ距離により類似性を表示し、


    (h)前記複数個のサンプルを有する未処理データベース内の各未知の言葉ω、i=1,...,Mに対して、(g)において、既知の言葉Xから未知の言葉ωへのベイズ距離l(ω)を計算し、
    (i)既知の言葉の標準パターンと呼称される、前記永久データベース内の既知の言葉の特徴値を計算するため、前記永久データベース内の既知の言葉Xに最も近いN個のベイズ距離l(ωi)を用いて、前記既知の言葉の周辺のサンプルのLPCCの平均値と分散値を備える、前記複数個のサンプルを有する未処理データベース内の、既知の言葉Xに最も近いN個の未知の言葉を選択するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。
  6. 前記ステップ(11)は、さらに、
    (a)単位時間枠内において、発話信号及び雑音について、それぞれ隣接する2個のサンプル点間の絶対距離の総和を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記単位時間枠は発話信号がない単位時間枠であるとし、
    (b)もし、前記発話信号がない単位時間枠が、1個の言葉内の2個の音節間の時間より長ければ、前記1個の言葉内において2個の未知の言葉間の境界線を探し出し、及び未知の文章又は名称を前記境界線上でD個の未知の言葉へ分割し、
    (c)フィルターがなく、オーバーラップせずに、E=12個の伸縮可能なフレームによりD個の未知の言葉の各々の波形を正規化し、各フレーム内において、LPCベクトルと、D=12x12個のマトリックスにより未知の言葉を表示するLPCCベクトルと、を探し出し、及びLPCCからなるD=12x12個のマトリックスにより、前記未知の文章又は名称を表示するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。
  7. 前記ステップ(12)は、さらに、
    探し出し、
    (b)異なる言語に属する類似の既知の言葉からなるDxFマトリックスにより、未知の文章又は名称を表示するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
  8. 前記ステップ(13)は、さらに、
    (a)前記文章と名称データベース内の、(D−1)個,D個,及び(D+1)個の既知の言葉と一致する文章と名称を選択し、
    (b)D個の言葉を有する、前記一致する既知の文章または名称を選択し、及び前記一致する文章又は名称におけるD個の既知の言葉の各々と、前記最も類似するF個の既知の言葉のD列の各々と、各列順に個別に比較し、
    (c)もし、前記最も類似するF個の既知の言葉の各列が、順に前記一致する文章又は名称の対応する言葉を含むならば、前記一致する文章又は名称が前記未知の文章又は名称であると決定し、
    (d)もし,(c)において、正しく識別された言葉の個数がD個ではなく、又は、もし、前記一致する文章又は名称が、(D−1)個、又は(D+1)個の既知の言葉を含むならば、前記一致する文章又は名称の各既知の言葉を選別するために、既知の言葉からなるDxFマトリックス内の最も類似するF個の言葉の連続する3列の3xF個の選別窓を利用し、
    前記一致する文章又は名称におけるi番目の既知の言葉と比較するために、前記最も類似するF個の既知の言葉の(i−1)番目、i番目、(i+1)番目の列を利用し、
    前記一致する文章又は名称内の第1の既知の言葉と比較するために、最も類似するF個の既知の言葉の最初の2列を使用し、第1列から最終列まで3xF個の選別窓を動かし、及び
    3xF個の選別窓内の前記一致する文章又は名称における既知の言葉の個数を計算し、
    (e)前記一致する文章又は名称内の言葉の合計数により分割される,3xF個の選別窓内の前記一致する文章又は名称の既知の言葉の個数により計算される、最も一致する可能性の高い一致する文章又は名称を選択するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
  9. 前記ステップ(14)は、さらに、
    (a)もし、前記未知の文章又は名称が正しく識別されないならば、前記最も類似するF個の言葉にない、前記未知の文章又は名称の言葉ωを探し出し、
    (b)前記言葉データベースから、LPCCの平均値と分散値、{μIJl2 IJl},i=1,…,N,からなるN個のマトリックスにより表示され、言葉ωへ最も近いN個のベイズ距離を備える、言葉ωに対するN個の既知の言葉を探し出すために、ベイズ識別器を用い、
    N個のマトリックスの加重平均を計算し、
    及び、
    新しい特徴値として、加重平均,{μIJl2 IJl},i=1,…,E,i=1,…,P,
    により、前記言葉データベース内の言葉ωの標準パターンを置換し、及び
    言葉ωの新しい標準パターンとして、言葉ωの前記新しい特徴値を前記言葉データベースに保存し、
    (c)前記言葉データベースから、LPCCの平均値と分散値、{μIJl2 IJl},i=1,…,N,からなるN個のマトリックスにより表示され、言葉ωへ最も近いN個のベイズ距離を備え、言葉ωへ最も近いN個の既知の言葉を探し出すために、ベイズ識別器を用い、

    により、言葉ωの標準パターンを置換し、及び
    言葉ωの新しい標準パターンとして、言葉ωの前記新しい標準パターンを前記言葉データベースに保存するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
JP2009180750A 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法 Expired - Fee Related JP5091202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009180750A JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009180750A JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Publications (2)

Publication Number Publication Date
JP2011033879A JP2011033879A (ja) 2011-02-17
JP5091202B2 true JP5091202B2 (ja) 2012-12-05

Family

ID=43763002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009180750A Expired - Fee Related JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Country Status (1)

Country Link
JP (1) JP5091202B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976818B (zh) * 2016-04-26 2020-12-25 Tcl科技集团股份有限公司 指令识别的处理方法及装置
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN111488485B (zh) * 2020-04-16 2023-11-17 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN112530440B (zh) * 2021-02-08 2021-05-07 浙江浙达能源科技有限公司 一种基于端到端模型的配电网调度任务智能语音识别系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257374A (ja) * 1989-03-30 1990-10-18 Hitachi Metals Ltd パターン認識方法
JP3531198B2 (ja) * 1994-02-18 2004-05-24 松下電器産業株式会社 言語識別装置
US6556670B1 (en) * 1998-08-21 2003-04-29 Lucent Technologies Inc. Method for solving the music-on-hold problem in an audio conference
JP3892173B2 (ja) * 1999-06-03 2007-03-14 三菱電機株式会社 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法
JP2003141113A (ja) * 2001-10-31 2003-05-16 Casio Comput Co Ltd 翻訳装置、音声翻訳方法、およびプログラム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法

Also Published As

Publication number Publication date
JP2011033879A (ja) 2011-02-17

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
CN101136199B (zh) 语音数据处理方法和设备
EP4018437B1 (en) Optimizing a keyword spotting system
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
KR20130133858A (ko) 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Van Segbroeck et al. Rapid language identification
Vignolo et al. Feature optimisation for stress recognition in speech
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Dar et al. Bi-directional LSTM-based isolated spoken word recognition for Kashmiri language utilizing Mel-spectrogram feature
Shah et al. Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
Islam et al. Bangla dataset and MMFCC in text-dependent speaker identification
Rout et al. Enhancement of formant regions in magnitude spectra to develop children’s KWS system in zero resource scenario
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
Khanna et al. Application of vector quantization in emotion recognition from human speech
Lingam Speaker based language independent isolated speech recognition system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120320

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120420

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees