JP5091202B2 - サンプルを用いずあらゆる言語を識別可能な識別方法 - Google Patents
サンプルを用いずあらゆる言語を識別可能な識別方法 Download PDFInfo
- Publication number
- JP5091202B2 JP5091202B2 JP2009180750A JP2009180750A JP5091202B2 JP 5091202 B2 JP5091202 B2 JP 5091202B2 JP 2009180750 A JP2009180750 A JP 2009180750A JP 2009180750 A JP2009180750 A JP 2009180750A JP 5091202 B2 JP5091202 B2 JP 5091202B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- unknown
- database
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 25
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013398 bayesian method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Description
(但し、上記以降、「同相」は、「同一言語」(例えば、「日本語」など)を意味する。)
本発明の最重要目的は、多数の未知の言葉又は連続音の特徴を用いて、あらゆる言語の任意の1個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の1個の既知の連続音に対して、ベイズ距離を用い、144次元空間において、N個の未知の言葉又は連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正規化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい伸縮可能なフレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、1個の大きさが相互に等しい特徴パターンに転換し、しかも相同の連続音の音波の特徴パターンは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の言葉又は連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値(LPCベクトル)を生じる。
本発明は、すべての音声を備える音波(音波サンプル点)を使用する。より少ない数E=12個の相互に等しい伸縮可能なフレームを用い、フィルターがなく、オーバーラップせず、すべてのサンプル点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部のサンプル点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各1個の音声を備えるサンプル点を応用し、できるだけ音声特徴を抽出することができる。E=12個の伸縮可能なフレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数(LPCC)を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、伸縮可能なフレームの長さを短くすれば、相同数のE個の等しい長さの伸縮可能なフレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数(LPCC)ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数(LPCC)ベクトルも、該短音の特徴パターンを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、伸縮可能なフレームは伸び、発生するE個の線形予測ケプストラム係数(LPCC)ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、144次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
1個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、D個の未知の連続音に分割し、本発明は、各未知の言葉又は連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。1個の文は、D×F個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の言葉又は連続音に分割され、本発明は、各未知の言葉又は連続音の前後三列のF個の相似した既知の連続音により、文或いは名称中の1個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、3×Fウィンドウの既知の相似した連続音を用い、1個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い(70個の英語文及び名称と、407台湾中国語の文及び名称を識別)。
本発明は、2種の技術を提供し、連続音の特徴を修正し、これにより未知の言葉又は連続音及び未知の文或いは名称の識別を成功させる。
本発明は、1個の台湾中国語単音を、1個の1音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。
図1は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという3個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準パターンを含み、既知の連続音の特徴を示す。
先ず、1個の既知の連続音或いは1個の文或いは名称1を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波10形式によりレシーバー20に進入する。
デジタル転換器30は、連続音波を、シーケンス音波デジタルのサンプル点に転換する。
ある一定の時間枠内のサンプル点の分散値及び一般雑音の分散値を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する2個のサンプル点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
先ず、音波を正規化し、次に特徴を抽出し、既知の連続音のすべてのサンプル点を、E等時間枠に分割する。
各時間枠は1個のフレームを組成する。
ある連続音は、合計E個の等長フレーム50を有し、フィルターがなく、オーバーラップしない。
連続音のすべてのサンプル点の長さに基づき、E個のフレームの長さは、すべてのサンプル点を網羅できるよう自由に調整する。
よって、そのフレームは伸縮可能なフレームと呼称し、長さは自由に伸縮可能だが、E個の伸縮可能なフレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。
さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数(LPCC)ベクトル60に転換する。
ある連続音を音声識別方法に入力後、この連続音音波を一系列の音波サンプル点(signal sampled points)に転換する。さらに、音声音波を備えないサンプル点を削除する。本発明は2種の方法を提供する。一つ目は、ある一定の時間枠内サンプル点の分散値を計算する。二つ目は、その時間枠内の相互に隣接する2つのサンプル点の距離の総和を計算する。理論上は、第一の方法がより良いが、サンプル点の分散値が、雑音分散値より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、2種の方法の識別率は同じであるが、第二の方法が時間を節約できる。
ると、因最後の線形予測ケプストラム係数(LPCC)によれば0に近似する。ある連続音はE個の線形予測ケプストラム係数(LPCC)ベクトル表示特徴とし,つまり1個のE×P個の線形予測ケプストラム係数(LPCC)のマトリックス表示のある連続音を含み,ある
連続音は一個ないし多数の音節を含む。
(a)先ず、1個の未知の言葉又は連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計388個の台湾中国語単音(図3)があり、全て女性が発音しており、サンプルは、6個から99個で、多くの単音の発音は、ほぼ同様である。
(b)(2)節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計12400個のマトリックスを有する。
(c)388個の台湾中国語単音中において、サンプルを用いて平均値及び分散値を求める。
(D)アットランダムに388個の台湾中国語単音を混合し、388個のサンプルがある平均値及び分散値の単音を、388個の未知の言葉又は連続音データベースとする(1個の台湾中国語単音は、音節が1個だけの連続音である)。
(e)次に、男性一人、女性一人により、654個の台湾中国語単音、154個の英語、1個のドイツ語、1個の日本語及び3個の台湾語を、1回発音し、2個の813個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの813個の既知の連続音中において、各1個の既知の連続音に対して、ベイズ距離20を用い、388個の未知の言葉又は連続音中において、N=15個の未知の言葉又は連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の言葉又は連続音のサンプル平均値は、N+1個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の言葉又は連続音のサンプル分散値の加重平均値を求め、その既知の連続音の分散値とする。この平均値及び分散値12×12マトリックスを、その既知の連続音の初期特徴と呼称79し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、813個の12×12平均値及び分散値マトリックス80を含む。
(g)特徴データベース中において、もし1個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。813個の連続音特徴ベイズ距離を用い、N=15既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の分散値に対して、加重平均値を求め、その既知の連続音の新分散値とする。新平均値及び分散値を繰り返し数回計算する。最後の12×12平均値及び分散値マトリックスを標準パターンと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中80に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位3人を正解とする。
384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語を識別する(図3参照)(識別率が非常に高い)
154個の英語、1個のドイツ語を識別する(図4参照)(識別率が非常に高い)
154個の英語及び388個の台湾中国語、1個のドイツ語、1個の日本語、2個の台湾語を同時に識別する(識別率が非常に高い)
(4)654個の台湾中国語単音、1個のドイツ語、1個の日本語、3個の台湾語を識別する(図5参照)(識別率は高いが、上記三例ほどではない)
その識別方法は、以下の通りである。
(a)1個の未知の文或いは名称を、D個の未知の言葉又は連続音に分割し、各単位時間枠は、相互に隣接する2つのサンプル点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ(連続音2音節時間より多い)、すべてが雑音或いは靜音であることを示しており、2個の連続音の境界線で分割すべきで、計D個の未知の言葉又は連続音に分割する。次に、図2の45、50、60及び90プロセスを用いて、E×P LPCCマトリックスに転換する。各1個の未知の言葉又は連続音に対して、ベイズ識別器20を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、 D×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、477個の英語及び台湾中国語の文と名称中において、長さが(D±1)個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、D個の未知の言葉又は連続音である時には、D個の各列F個の相似した既知の連続音と比較する文或いは名称のD個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて1個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をD個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、D-1或いはD+1、或いは(c)の識別正確連続音がD個でないなら、本発明は、3×Fウィンドウを用いてスクリーニングする。比較文或いは名称(データベース内)中において、第i個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音(すなわち第i−1、i、i+1列)を用いて、第i個の既知の連続音を比較し、D×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Dにより割り、その比較文或いは名称の確率を求め、データベースにおいて、1個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、D個の未知の言葉又は連続音中に1個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ識別器20を用いて、(155+384)個の既知の連続音中で、前からN=15順位の既知の連続音を探し、N個の相似の連続音及びその未知の言葉又は連続音のLPCC加重平均値を求め、その未知の言葉又は連続音を改善する。こうしてD個の未知の言葉又は連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
(1)70個の英語文及び名称を識別(非常に良い)。
(2)407個の台湾中国語の文及び名称を識別(非常に良い)
(3)70個の英語文及び名称と407個の台湾中国語の文及び名称を識別(非常に良い)。
10 連続音波
20 レシーバー
30 音波デジタル転換器
45 雑音除去
50 E個の伸縮可能なフレーム正規化音波
60 最小平方法により線形予測ケプストラム係数(LPCC)ベクトルを計算
70 ベイズ距離(絶対値距離)を用い、各1個の既知の連続音(永久データベース)に対して、未知の言葉又は連続音データベースにおいて、N個の最も新しい未知の言葉又は連続音を探す。
79 各1個の既知の連続音(永久データベース)に対して、周囲のN個の未知の言葉又は連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び分散値)は、該既知の連続音の標準パターンを表す。
80 既知の連続音特徴データベースは、すべての平均値及び分散値の標準パターンを含む。
85 既知の連続音特徴データベースの連続音を用いて、識別しようとする文 及び名称の文及び名称データベースを構築する。
2 未知の文或いは名称を入力する。
11 1組の未知の言葉又は連続音波
40 1個の文或いは名称を、D個の未知の言葉又は連続音に分割する。
90 D個の未知の言葉又は連続音の線形予測ケプストラム係数(LPCC)マトリックスは、D個の未知の言葉又は連続音分類パターンを表す。
100 ベイズ識別器を用いて、各1個の既知の連続音標準パターンと、未知の言葉又は連続音分類パターンを比較する。
110 一文或いは名称中から、各1個の未知の言葉又は連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計D×F個の既知の最も相似する連続音により表される。
120 文と名称データベースにおいて、3×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
130 文及び名称データベースにおいて、1個の最も可能性の高い文或いは名称を探す。
Claims (9)
- あらゆる言語の発話を識別する方法であって、以下のステップ:
(1)任意言語の複数個のサンプルを有し、未知の言葉又は連続音からなる未処理データベース、又は、任意言語のサンプルを有さず、未知の言葉又は連続音からなる未処理データベースと、を備え、
前記複数個のサンプルは、前記未知の言葉または連続音と同一発話者により発せられた、少なくとも複数個の言葉又は連続音から構成されるステップ、
(2)標準的で明瞭かつ明確な発声の発話者により、又は被験者により発音される、既知の言葉からなる永久データベースを備えるステップ、
(3)プロセッサを用いて、雑音と発話信号がない時間枠とを、発話波形から削除するステップ、
(4)1個の言葉又は連続音の前記発話波形全長を正規化し、及びフィルターがなく、かつオーバーラップせずに、E=12個の伸縮可能なフレームを用いて、前記発話波形全長を、線形予測ケプストラム係数(LPCC)からなるExP=12x12個の同一サイズのマトリックスに変換するステップ、
(5)前記複数個のサンプルを有する未処理データベース内の複数個のサンプルから、サンプルのLPCCの平均値と分散値とを計算するステップ、
(6)前記複数個のサンプルを有する未処理データベースから、前記サンプルのLPCCの平均値と分散値とを備え、簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉に最も近いN個のベイズ距離を備える、N個の未知の言葉を探し出し、及び、
前記サンプルを有さない未処理データベースから、前記永久データベース内の既知の言葉に最も近いN個の絶対距離を備える、N個の未知の言葉を探し出すステップ、
(7)前記複数個のサンプルを有する未処理データベース内において、前記サンプルのLPCCの平均値と分散値とを備え、既知の言葉に最も近いN個のベイズ距離を備える、N個の未知の言葉のN個のLPCCと、前記永久データベース内の既知の言葉のLPCCとの、(N+1)個のデータから、既知の言葉のLPCCの平均値と分散値を計算し、
前記既知の言語のLPCCの平均値と分散値とからなるExP=12x12個のマトリックスを、標準パターンと呼称される既知の言葉の特徴として表示し、及び数個の異なる言語の他の既知の言葉と共に、前記既知の言葉の標準パターンを言葉データベースに保存し、
及び前記言葉データベース内の既知の言葉から必要な文章と名称を作り、文章と名称データベースへ保存するステップ、
(8)もし、未処理データベース内の未知の言葉又は連続音がサンプルを有さないならば、前記永久データベース内の既知の言葉に最も近いN個の絶対距離を備える、前記サンプルを有さない未処理データベース内のN個の未知の言葉のN個のLPCCと、前記永久データベース内の既知の言葉の内のLPCCとを、(N+1)個のデータと見なし、
前記(N+1)個のデータの平均値と分散値とを計算し、
及び標準パターと呼称される、既知の言葉の特徴として前記LPCCの平均値と分散値とからなるExP=12x12個のマトリックスを前記言葉データベースに保存するステップ、
(9)フィルターがなく、オーバーラップせずに、E=12個の伸縮可能なフレームを用いて、入力された未知の言葉又は連続音の波形全長を正規化し、
及び前記波形全長を前記未知の言葉の分類パターンと呼称される、LPCCからなるExP=12x12個の同一サイズのマトリックスへ変換するステップ、
(10)前記言葉データベース内の各既知の言葉の標準パターンと、入力された前記未知の言葉の分類パターンとを一致させ、
及び簡易ベイズ識別器を用いて、前記未知の言葉に最も近いベイズ距離を備える既知の言葉を、前記言葉データベース内で探し出すステップ、
(11)1個の未知の文章又は名称を、D個の未知の言葉に分割するステップ、
(12)ベイズ識別器により、前記言葉データベースから、前記未知の言葉に最も類似するF個の既知の言葉を探し出し、
及び数個の言語の類似の既知の言葉からなるDxFマトリックスにより、前記未知の文章または名称を表示するステップ、
(13)前記未知の文章または名称を表示する、類似の既知の言葉からなる前記DxFマトリックスと、前記文章及び名称データベース内の全ての既知の文章及び名称とを一致させ、
及び前記未知の文章又は名称である可能性が最も高い既知の文章又は名称を、前記文章及び名称データベース内で探し出すステップ、
(14)入力された前記未知の文章又は名称が、正確に識別されることを保証されるように、前記入力された未知の文章又は名称内の未知の言葉の特徴を改善するステップ、を含むことを特徴とするあらゆる言語の発話を識別する方法。 - 前記ステップ(3)は、さらに、
(a)単位時間枠内において、発話信号のサンプル点の分散値、及び雑音のサンプル点の分散値を計算し、もし前記発話信号のサンプル点の分散値が雑音のサンプル点の分散値より小さければ、前記単位時間枠を削除し、
(b)単位時間枠内において、隣接する2個の発話信号のサンプル点間の絶対距離の総和と、隣接する2個の雑音のサンプル点間の絶対距離の総和、を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記時間枠を削除するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(4)は、さらに、
(a)1個の言葉又は連続音の波形全長を、E=12個の均等区間に分割し、及び前記波形全長をカバーするために、E=12個の均等な長さの伸縮可能なフレームが、接触し、且つそれらを伸張させることができるように、フィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
(b)各伸縮可能なフレーム内で、非線形時変波形を推計するために、P=12個の回帰係数を備える線形回帰モデルを使用し、及び最小二乗法を用いて、P=12個の線形予測コード係数(LPC)を生成し、
(c)各フレーム内にN個の点を備えるDurbinの再帰方程式を用いて、
(d)LPCCからなるExP=12x12個のマトリックスにより表示される、言葉又は連続音である、E=12個のLPCCベクトルを表示するステップを含む、ことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(5)は、さらに、
(a)未知の言葉又は連続音の波形全長をE=12個の均等区間に分割し、及びフィルターがなく、オーバーラップせずに、伸縮可能なフレームとして各区間を形成し、
(b)非線形時変波形を推計するために、E=12個の伸縮可能な各フレーム内でP=12個の回帰係数を備える線形回帰モデルを用い、及び最小二乗法を用いて、LPCベクトルを生成し、
(c)Durbinの再帰方程式を用いて、最小二乗法を実施し、
(e)2個のサンプルを有する未知の言葉又は連続音のサンプルのLPCCからなるExP=12x12個のマトリックスを用いて、未知の言葉又は連続音のサンプルのLPCCの平均値と分散値とを計算し、及び前記平均値と分散値を前記複数個のサンプルを有する未処理データベースへ保存するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(6)は、さらに
(e)簡易ベイズ識別器を用いて、前記永久データベース内の既知の言葉と、前記複数個のサンプルを有する未処理データベース内の全ての未知の言葉又は連続音とを一致させ、
(g)f(x|ωi)の対数値を計算し、及び不要な定数を削除した後、
ベイズ識別器を用いて、ベイズ距離により類似性を表示し、
(h)前記複数個のサンプルを有する未処理データベース内の各未知の言葉ωi、i=1,...,Mに対して、(g)において、既知の言葉Xから未知の言葉ωiへのベイズ距離l(ωi)を計算し、
(i)既知の言葉の標準パターンと呼称される、前記永久データベース内の既知の言葉の特徴値を計算するため、前記永久データベース内の既知の言葉Xに最も近いN個のベイズ距離l(ωi)を用いて、前記既知の言葉の周辺のサンプルのLPCCの平均値と分散値を備える、前記複数個のサンプルを有する未処理データベース内の、既知の言葉Xに最も近いN個の未知の言葉を選択するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(11)は、さらに、
(a)単位時間枠内において、発話信号及び雑音について、それぞれ隣接する2個のサンプル点間の絶対距離の総和を計算し、もし前記発話信号のサンプル点間の絶対距離総和が雑音のサンプル点間の絶対距離の総和より小さければ、前記単位時間枠は発話信号がない単位時間枠であるとし、
(b)もし、前記発話信号がない単位時間枠が、1個の言葉内の2個の音節間の時間より長ければ、前記1個の言葉内において2個の未知の言葉間の境界線を探し出し、及び未知の文章又は名称を前記境界線上でD個の未知の言葉へ分割し、
(c)フィルターがなく、オーバーラップせずに、E=12個の伸縮可能なフレームによりD個の未知の言葉の各々の波形を正規化し、各フレーム内において、LPCベクトルと、D=12x12個のマトリックスにより未知の言葉を表示するLPCCベクトルと、を探し出し、及びLPCCからなるD=12x12個のマトリックスにより、前記未知の文章又は名称を表示するステップを含むことを特徴とするサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(12)は、さらに、
探し出し、
(b)異なる言語に属する類似の既知の言葉からなるDxFマトリックスにより、未知の文章又は名称を表示するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(13)は、さらに、
(a)前記文章と名称データベース内の、(D−1)個,D個,及び(D+1)個の既知の言葉と一致する文章と名称を選択し、
(b)D個の言葉を有する、前記一致する既知の文章または名称を選択し、及び前記一致する文章又は名称におけるD個の既知の言葉の各々と、前記最も類似するF個の既知の言葉のD列の各々と、各列順に個別に比較し、
(c)もし、前記最も類似するF個の既知の言葉の各列が、順に前記一致する文章又は名称の対応する言葉を含むならば、前記一致する文章又は名称が前記未知の文章又は名称であると決定し、
(d)もし,(c)において、正しく識別された言葉の個数がD個ではなく、又は、もし、前記一致する文章又は名称が、(D−1)個、又は(D+1)個の既知の言葉を含むならば、前記一致する文章又は名称の各既知の言葉を選別するために、既知の言葉からなるDxFマトリックス内の最も類似するF個の言葉の連続する3列の3xF個の選別窓を利用し、
前記一致する文章又は名称におけるi番目の既知の言葉と比較するために、前記最も類似するF個の既知の言葉の(i−1)番目、i番目、(i+1)番目の列を利用し、
前記一致する文章又は名称内の第1の既知の言葉と比較するために、最も類似するF個の既知の言葉の最初の2列を使用し、第1列から最終列まで3xF個の選別窓を動かし、及び
3xF個の選別窓内の前記一致する文章又は名称における既知の言葉の個数を計算し、
(e)前記一致する文章又は名称内の言葉の合計数により分割される,3xF個の選別窓内の前記一致する文章又は名称の既知の言葉の個数により計算される、最も一致する可能性の高い一致する文章又は名称を選択するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。 - 前記ステップ(14)は、さらに、
(a)もし、前記未知の文章又は名称が正しく識別されないならば、前記最も類似するF個の言葉にない、前記未知の文章又は名称の言葉ωを探し出し、
(b)前記言葉データベースから、LPCCの平均値と分散値、{μIJl,σ2 IJl},i=1,…,N,からなるN個のマトリックスにより表示され、言葉ωへ最も近いN個のベイズ距離を備える、言葉ωに対するN個の既知の言葉を探し出すために、ベイズ識別器を用い、
N個のマトリックスの加重平均を計算し、
及び、
新しい特徴値として、加重平均,{μIJl,σ2 IJl},i=1,…,E,i=1,…,P,
により、前記言葉データベース内の言葉ωの標準パターンを置換し、及び
言葉ωの新しい標準パターンとして、言葉ωの前記新しい特徴値を前記言葉データベースに保存し、
(c)前記言葉データベースから、LPCCの平均値と分散値、{μIJl,σ2 IJl},i=1,…,N,からなるN個のマトリックスにより表示され、言葉ωへ最も近いN個のベイズ距離を備え、言葉ωへ最も近いN個の既知の言葉を探し出すために、ベイズ識別器を用い、
により、言葉ωの標準パターンを置換し、及び
言葉ωの新しい標準パターンとして、言葉ωの前記新しい標準パターンを前記言葉データベースに保存するステップを含むことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語の発話を識別する方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009180750A JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009180750A JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011033879A JP2011033879A (ja) | 2011-02-17 |
| JP5091202B2 true JP5091202B2 (ja) | 2012-12-05 |
Family
ID=43763002
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009180750A Expired - Fee Related JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5091202B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105976818B (zh) * | 2016-04-26 | 2020-12-25 | Tcl科技集团股份有限公司 | 指令识别的处理方法及装置 |
| CN108281147A (zh) * | 2018-03-31 | 2018-07-13 | 南京火零信息科技有限公司 | 基于lpcc和adtw的声纹识别系统 |
| CN111488485B (zh) * | 2020-04-16 | 2023-11-17 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
| CN112530440B (zh) * | 2021-02-08 | 2021-05-07 | 浙江浙达能源科技有限公司 | 一种基于端到端模型的配电网调度任务智能语音识别系统 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02257374A (ja) * | 1989-03-30 | 1990-10-18 | Hitachi Metals Ltd | パターン認識方法 |
| JP3531198B2 (ja) * | 1994-02-18 | 2004-05-24 | 松下電器産業株式会社 | 言語識別装置 |
| US6556670B1 (en) * | 1998-08-21 | 2003-04-29 | Lucent Technologies Inc. | Method for solving the music-on-hold problem in an audio conference |
| JP3892173B2 (ja) * | 1999-06-03 | 2007-03-14 | 三菱電機株式会社 | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
| JP2003141113A (ja) * | 2001-10-31 | 2003-05-16 | Casio Comput Co Ltd | 翻訳装置、音声翻訳方法、およびプログラム |
| JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
-
2009
- 2009-08-03 JP JP2009180750A patent/JP5091202B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011033879A (ja) | 2011-02-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
| CN101136199B (zh) | 语音数据处理方法和设备 | |
| EP4018437B1 (en) | Optimizing a keyword spotting system | |
| Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
| WO2020029404A1 (zh) | 语音处理方法及装置、计算机装置及可读存储介质 | |
| KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
| Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
| Van Segbroeck et al. | Rapid language identification | |
| Vignolo et al. | Feature optimisation for stress recognition in speech | |
| Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
| Verma et al. | Indian language identification using k-means clustering and support vector machine (SVM) | |
| Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
| JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
| Dar et al. | Bi-directional LSTM-based isolated spoken word recognition for Kashmiri language utilizing Mel-spectrogram feature | |
| Shah et al. | Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
| Syfullah et al. | Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition | |
| JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
| Gedam et al. | Development of automatic speech recognition of Marathi numerals-a review | |
| Islam et al. | Bangla dataset and MMFCC in text-dependent speaker identification | |
| Rout et al. | Enhancement of formant regions in magnitude spectra to develop children’s KWS system in zero resource scenario | |
| Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
| Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
| Lingam | Speaker based language independent isolated speech recognition system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111208 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120320 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120326 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120420 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120425 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120517 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120727 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120913 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |