WO1988001090A1

WO1988001090A1 - Reconnaissance de la parole

Info

Publication number: WO1988001090A1
Application number: PCT/JP1987/000569
Authority: WO
Inventors: Junichiroh Fujimoto; Seigou Yasuda; Tomofumi Nakatani
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-07-30
Filing date: 1987-07-30
Publication date: 1988-02-11
Anticipated expiration: 1989-01-30
Also published as: EP0275327A1; GB2202667A; EP0275327B1; GB8807531D0; GB2202667B; DE3790442T1; EP0275327A4; DE3790442C2

Description

明細書

音声認識方法反び装置

技術分野

*発明は、大略、音声認讒装置に閬するものであって、特に、音声認讒装置において使用される音声パターンの照合方法及び類似度演箕方法に関するものである。

背景技衛

単語の音声を認讒する方法として現在数多くの方式が開発されている。これらの多くは、あらかじめ利用する音声を登録しておいて、後に入力される音声がすでに登録されているうちのどの音声に最もよく類似しているかを調べて未知の入力音声を認讒する、いわゆる、パターンマウチングによるものである。パターンマッチング法は他の方法、例えば、 ^別閬数等を用いるものに比べて演算数が少なく、認讒精度が良いことから広く普及している。

第 1 図は、上記パターンマッチング法の一例を説明するための構成図で、図中、 1 はマイク等の集音装置、 2 はフィルタ一バンク、 3 は辞書、 4はローカルビーク検出部、 5 は類似度箕出部、 6 は認識結果出力部で、周知のように、マイク等の集音装置を通して得られた音声は、えば周波数スペクトルのような特徵量に変換され、これによつて特镦パターンを耩成し、パターンマウチングを行なう。この時、 1 つのスぺクトルの値は通常 8 - 1 2 ビット程度が割り当てられて表されるため、周波数上で m個のサンブルを取ると 8 x m l 2 x mビッ卜で 1 つの時間サンブル ( 1 フレーム）が表現できることになる。一般には、 1 0 m抄程度に 1 つの睁サンプルをつくるため、 n フレームのノターンは 8 x m x i！〜 1 2 x ia x nビッ卜である。ノぺターンマッチングを行なうための一方のパターンを a ^, a 2 i _¾ ··· a t ··· a 他方のパターンを b t , b ₂ ι— b い b ₂₁··· b „とする 2つのパターンの違いを表す鉅離 Dは

D = 2 | a i j - b i j | ( 1 )

i j

のような市街地钜離をもちいる。つまり、この方法では 8 一 1 2ビットの演箕を i * j 回実行して 1 つのパターンの比較ができるわけである。しかも上記の例は比較すべき 2 つのパターンの睁 Ρ 長が等しいと扳定した場合であり、音声のような常に時間長が変化するものでは、その時間長を合わせるために更に多くの演算を必要とする。

このようなパターンマッチング方法の 1 つで、データ量が少なく簏単な演算で実行できるものに B T S P

Β 1 n a r y 1 l m e — S e c t r u m P a t — t e r n ) を用いるものが発表されている。（ 3太音響学会鼸演論文誌、 P 1 9 5 、昭和 5 8年秋）

第 2図は、上記 B T S Pの一例を説明するための構成図で、図中、 1 1 はマィク等の集音装置 1 2はフィルタバンク、 1 3 は最小 2 乗による補正部、 1 4は 2値化部、 1 5 は B T S Pの作成部、 1 6 は線形伸縮による n回発声パターンの加箕部、 1 7 は辞書部、 1 8はビークパターン作成部、 1 9 は線形伸縮によるパターン長合わせ部、 2 0 は類似度箕出部、 2 1 は結果表示部で、マイクから入力された音声は、バンドバス · フィルタ一群等を利用して周波数分析され、周波数とその時藺変化をパターン（ T S P ) として表される。更にこれを、周波数上のビークを中心として「 1 」、他を「 0 」として 2値化して B T S Pに変換し、複数回発声して得られた B T S Pを重ねて標準パターンとして登録しておく。未知の音声が入力された際、この音声も標準パターン作成時と同様な遍程で B T S Pをつくり、あらかじめ登録してある標準パターンと照合して各標準パターンどの類似度を求める。類似度は未知音声の B T S P と標準パターンとを重ねた時の Γ 1 J のエレメントの重なり具合からもとめる。通常、誰の声でも認讒できる不特定話者音声認識装置のためには、一つの登録すべき音声について複数個の標準パターンを作成するなど演箕量を増やす手段を用いるが、この方法では標準パターンをうまく作れば、たいした演算量の増加もなく不特定話者用の音声認讒装置の実現が容易であるというメリッ卜を有している。

この方法で定義される 2つのパターンの類似度 Sは

S = ∑ a i j - b i j ( 2 )

1 j で表される。 a , bの各エレメントは、 -1 又は 0 、あるいはその演算結果であるため、大きなビット数を割り当てなくても表現できるにもかかわらず、コンピュータの演算単位（ 4 、 8、 1 6 ビット ···）を年えるのが普通であるため、もっと少ない演算量、少ないメモリ量で実現できるものが無駄が生じていることになる。

音声認識の分野でも他と同様、照合すべきパターン数が増えるほど、一つのパターンに対する演箕時間の短い照合方法が必要となってくる。このような演算の少ない照合方法で全パターンと照合するのも良いし、又、このような箇単な方法でいくつかの正解候補を選んでおいてから最終的に少ない数のバターンをていねいに照合する方法も良い。演箕量が比較的少ない照合方法 ^ して 2値化した時問周波数パターンを使う方法が提案されている。

第 2図の装置は、単語単位に発生した音声を 2値化処理して求めた入力パターンと辞書パターンを線形マッチングして認議するものである。尚、第 2図に示したものは特定話者方式を示しており、 ^線の経路に従って音声と登録する。不特定話者用の音声認議の場合には、辞書は、 B T S Pの重ね合わせとして新たに作るようにしている。

この方法はフィルタバンクを 1 6チャンネルにしておくと 2値化された結果は 1 6 ビッ卜のデータとして扱えるというメリットがある。この 1 6個の一連のデータを 1 フ -レームと呼ぶことにする。この 1 6 ビット、 2バイトのデータを 3 回加算して得られたもの（辞書パターン乃至は標準パターン）は、一つのエレメントが最大 3 となるため、各エレメントを 2 ビットで表現しなければならなくなる。この場合、 2 ビウトを上位と下位に分け、上位の 1 フレームを 2バイトのデータに割りつけ、下位を別の 2バイトに割りつける。この様子を第 3図に示す。つまり、 2バイトの横一列がフィルタバンクの 1 6個のフィルタに対応づぃていることになる。パターン照合の時、未知の入力が 2値化されて 1 フレーム、 2バイトで表わされているなら、各チャンネルの値の積は、未知入力と 4バイ卜パターンの上位、下位各々のバイ卜とビッ卜対応づけて論理積をとれば容易に求めることができ、演算が楽である。この方法自体は演算値が少なく照合すべきパターンの ϊ¾が比較的多くても高速に演箕できるが、辞書パターンの各エレメン卜が 2 ビッ卜程度で表現できない場合、例えば 4〜 6 ビッ卜程度になった場合には各々と演箕しなければならないし、一方、登録すべき単語数が 5 0 0を越えるような多数の時はこの方法でも時間がかかるようになってしまう。

音声認識には特定話者方式と不特定話者方式があり、前者があらかじめ使用者の音声を登録する必要があるのに対し、後者にはその必要がないというメリットがある。不特定話者方式の代表的なものはマルチテンプレート方式であり、この方式は、登録すべき一つのカテゴリーに対して複数の標準パターンを用意しておき、この中から最も類似しているものを探すものである。このように不特定話者方式では多数の演算が必要である、その結果、認讒時間がかかる、正答率が低いといった欠点がある。最近、箇単な方式で不特定話者方式に向いている認識方式として、 B T S P を用いるものが発表されている。（第 2図参照）

第 2図の方式では、ある時点にサンブルリングされた一組の周波数データ（ ^後フレームと呼ぶ）を 2バイ卜程度のレジスタに均等に aりつけて拔うことができるためメモリ一量が少なくなる。 ' 第 4図は 2バイトのレジスタに 1 6個のフィルターの出力の割りつけ方を示す。例えば、このようなデータを 3 回重ねてその和をとつたとすると、第 5図のように各々の値は 0〜 3 ;になり、これまでの 2バイ卜では表わすことができなくなる。そこで、第 6図に示すごとく各々の値を 2進表現し、その上位だけを 1 ¾として 2バイト、下位だけを 1組として 2バイトで表わすようにする。これを瘵準バターンとレ、第 4図のようにして作った未知入力パターンとの類似度性を求めるために、第 7図に示すように、両者を重ね合わせて対応づくビットの積をとり、それを類似度とする。しかし、このような演箕は厄介であり、時間がかかるので第 8図のような方法が考えられる。瘵準パターンを第 6図のごとき、上位、下位に分け、未知入力と上位を重ねて各ピサ卜の論理積をとる。下位も同様にして論理積をとり、上位の各ビットの値の合計を 2倍し、或いは 2 回加えて下位のビッ卜の合計を加えると第 7図と同じ結果が得られるので、これを類似度とする。このようにして登録されている全ての標準パターンと未知の入力パターンとの類似度を求めておき、その中の最大類似度が得られた標準パターンに、未知の入力が分類されたと考え、その標準バターンにつけられたラベルを認謹結果として出力する。このようにして、籠易的に類似度の計算を行なうことができるが、しかし、この方式で一番演算時間を要するのが二組の 2値パターン同士の論理積をとつてその中の各ビッ卜値の合計を演算する部分である。

木発明は、上記の如き従来技街の欠点を解消する為になされたものであって、特に少ない演算で高速なパターン照合を行なうことを可能とする音声認讒装置を提供することを目的とする。

太発明の別の目的とするところは、音声認識に有用な箇易的なパターン類似度演箕方法を提供することである。

*発 ¾の更に別の目的とするところは、演箕量を最小とし且つ高速処理を可能とする音声認識に有用なパターン類似度演箕方法を提供することである。

発明の開示

本発明の一側面によれば、音声を収録する手段と、収録した音声を複数の特徽量に変換する手段と、該特徴量を同一時間とみなせる間隔で量子化して特镥パターンを作成する手段とを有する音声認讒装置において、同一時間とみなせる間隔でサンブルしたデータをコンピュータの演算単位の中に均等に割り付けて演算することを特镦とした音声認讒装置が提供される。

*発明の別の側面によれば、音声を特徵量に変換し、ある時 P P 隔でサンプリングして単位時間ごとの一連のデータにし、該一達のデータを 2のべき乗を一単位としたレジスタにわりつけ、 1 つのデータが 2以上の値をとるとき、これを複数の単位のレジスタに分割して取り扱う音声バターン類似度演算方法において、一連のサンプルを表わす複数の単位のレジスタの一単位以上、全数未溝のレジスタを甩いて未知の入力パターンとの間で類似度を求めるようにしたこと、或いは、一達のサンブルを表わす複数の単位のレジスタの一部で論理演算をして新たなパターンを作成し、未知の入カバターンとの問で類似度を求めるようにしたことを特徴とした音声パターン類似度演算方法が提供される。

：*：発明のこの僳面は、一連のデータの各エレメントが上位…下位の各々のレジスタ単位の各ビッ卜に均一に割りつけられていることに着目してなされたものであり、 ^えば、音声を特镦量に変換し、ある時間間隔でサンプリングして単位時間ごとの一連のデータにし、該一対のデータを 2のべき乗を一単位としたレジスタにわりつけ、 1 つのデータが 2以上の値をとるとき、これを複数の単位のレジスタに分割して取り扱う音声認毳パターンの類似度演算方法において、一連のサンブルを表わす複数の単位のレジスタの一単位以上、全数未满のレジスタを用いて未知の入力パターンとの間で類似度を求めるようにしたものである。本発明の更に別の佣面によれば、音声を特徵量に変換し、一定時間間隔をサンプリングして一組のデータを作り、該一組のデータを 2のべき乗を一単位としたレジスタにわりつけ、一つのデータが 2以上の値をとるとき、これを複数の組のレジスタに分割して取り扱い、類似度を計箕してその類似度の大きさを比鲛する類似度比鲛方法において、あらかじめ登録されている標準パターンと未知パターンを顺次照合して類似度を計算するに際し、すでに求めた類似'度を複数のレジスタに分割して保有し、次の檫準バターンの一部と入力を比較して求めた値とすでに求められている類似度の一部のレジスタ内の値を比較し、先の値の方が大きい時には現在の標準パターンとの類似度演算を中止するようにしたことを特徵とした、パターン類似度比鲛方法が提供される。

本発明の更に別の側面によれば、音声を特徴量に変换し、ある時間間隔でサンプリングして単位時間ごとの一対のデータにし、該一対のデータを 2のべき乗を一単位としたレジスタにわりつけ、一つのデータが 2以上の値をとる時、これを複数の単位レジスタに分割して取り扱う音声パターン照合方法において、上記特徴量とは別の手段によつて得られた第 2 ···第 n (ただし、 πは整数）の特徵畺を同一データのあるビットに割り付け、この情報を基に、； ί:来の特截量のパターン照合を制铒する事を特徵とした音声パターン照合方法が提供される。

末発明のこの側面は、上述のごとき従来技術の不具合に鑑みてなされたものであり、その制街情報を B T S Ρデータの中に含み、演算、 ^断の高速化をはかるとともに、認讒率の高性簏化をはかったものである。

本来、 Β T S Ρ方式は音声のホルマント情報を 0 と 1 の 2値のデータで表わし、前 ¾の如く 1 6 ビットデータとして取り扱って演箕を行えば、多くの有 ¾性を生ずる。

：*：発明のこの側面は、更に認讒演算に必要な情報でかつ 1 回の癸声の 1サンブルデータで 0か 1かに判定でき得る情報を上記 B T S Pデータの空きチャンネルに充当し、前述のデータ構造をもって演算を行って更に高速に演算せしめようとするものである。

図面の簏単な説明

第 1 図及び第 2図は従来の音声認議装置を示したプロサク図、第 3図は従来バターン類似度演算方法のー钧を示した概略図、第 4図は 2バイトのレジスタに 1 6個のフィルタの出方を割りつける割りつけ蕙様を示した説明図、第 5 図は 2値化データを 3回重ねた場合の一锊を示す説明図、第 6図は第 5図に示した重ね合せ結果を上下の 2バイトで表現した钧を示す説明図、第 7図は瘭準バターンと未知入力との類似度の求め方の一锊を示す説明図、第 8図は本発明が適用されるパターン類似度比鲛方式の一例を示す説明図、第 9図は *発明の 1 実旄例に基づいて構成された音声認識装置を示したブロック図、第 1 0図は同一音声を 3 回発声した B T S Pから標準パターンを作る場合の 1 例を示す説明図、第 1 1 図は太発 ¾の別の実尨例を示したブロウク図、第 1 2図は本発明の 1 実旌例に基づくパターン類似度演箕方法の各ステップを示したフローチャート図、第 1 3図は第 1 2図の方法を説明するのに有用な説 ¾図、第 1 4図は第 1 2図に示した方法を実旄するのに好適な装置の一例を示したブロック図、第 1 5図は; *：発頃の別の実例に基づくパターン類似度演算方法の各ステップを示したフローチャート図、第 1 6図は第 1 5図の方法を説明するのに有用な説明図、第 1 7図は第 1 5図に示した方法を実施するのに好適な装置の 1 例を示したブロック図、第 1 8 図は本発明の 1 実尨例に基づくパターン類似度比較方法を実尨するのに好適な装置を示したブロック図、第 1 9図は术発 ¾の 1実旄例によるパターン照合方法.を実尨するのに好適な装置を示したブロック図、第 2 0図は従来のパターン照合方式の一例を示すブロック図、第 2 1 図は 2値化データを示す説明図、第 2 2図は空ビットの使用例を示す説 ¾図、第 2 3 図は音声区間の決定方法を示す説 ¾図、第 2 4 図は B T S Pデータの揉取方法を示した説明図、第 2 5図は荷重平均の一 ^を示す説明図、第 2 6図は認讒演算の一例を示す説明図、である。発明を実 ¾する為の最良の形態

第 9図は、 *発明の一実歲^に基づいて構成された音声認讒装置を示している。

図中、 3 1 はマイク等の集音装置、 3 2は音声区間検出部、 3 3 はバンドパスフィルタ一群、 3 4 は 2値化部、 3 5は初期値設定及び選択回路、 3 6 は割り付け演算部、 3 7は辞書部、 3 8は照合部、 3 9は結果出力部である。この実 ¾例では、音声を収録する手段と、収録された音声を複数の特镦量に変換する手段と、該特徵量を同一時間とみなせる間隔で量子化して特徵パターンを作成する手段を有する音声認讒装置を構成している。そして、同一睁間とみな.せる問隖でサンブルしたデータをコンピュータの演箕単位（ 4ビット、 8ビット、 1 6ビット.等）の中に均等に割り付けて演算し、同一睁間とみなせる間隔で量子化する特徵ベクトルの数を 4の整数倍となるようにして、各べクトルの要素を 2値化処理により 1又は 0で表して単位べクトルとして演箕するようにしている。

すなわち、第 9図に示した実簾伢においては、まず、音声をマイクで集音レノイズ等から分趣するために区問検出部によって音声区 P のみをとりだレ、バンドパスフィルター群 3 3により周波数分析して 2値化する。なお、バターンの 2値化処理に翳しては任意の周知の方法を邃用することが可能である。

次いで、あらかじめ使用すべき音声について、この 2値化されたパターン（ B T S P ) を作成して標準パターンとして登録しておき、入力された未知の音声も B T S Pに変换して標準パターンと比較、合して最も類似性の高い標準パターンを認讒結果とする。

第 9図では、 1 5個の各バンドバスフィルタ一の出力は

8ビット程度で表されているが、ここで示す方法では 2値化後のこれらの各バンドパスフィルターの出力を 1 6 ビッ卜で表している。つまり、第 1 チャンネルの値を 1 6 ビヅトの最'下位ビットに割り当て、第 2、 3 、 ···と順に 1 つずつ上位ビッ卜に割り付けていく。割り付け方は例えば

A ( i ) = ∑ 2 ( j - l ) - a i j ( 3 ) のようにすれば良い。ただし、 i はフレーム番号、 j はフィルタのチャンネル番号を、 a i j は式（ 1 ) 、（ 2 ) と同様に B T S Pの各エレメントを示す。これによつて式 ( 2 ) のごとき類似度 Sは

S = 2 A ( j ) ( j ) ( 4 )

と表すことができる。ただしは各ビット毎の論理積を表している。つまり、式（ 2 ) では各要素の積をとる必要があったものが、式（ 4 ) では各フレーム毎の論理積の計算をすれば良いことになる。

したがって、従来一つのパターンを表すために必要であつたメモリー量は減少され、演箕も高速化される。この時バンドパスフィルターの数をどのように選ぶかにより効率は変ってくる。

第 1 0図は、特定話者方式において、一つの音声について 3 回発声された T S Pをかさねあわせて標準バターンとする钩を示すが（日 *音響学界讒演論文誌、 P i 9 5 、昭和 5 8年秋》、同図では 3回発声された時の B T S Pから対応つく 1 ブレームをとりだして示している。このように重ね合わせることにより棲準パターンの各要素は 0 - 3 の値を持つことになり、 2値では表しきれなくなる。

第 1 1 図は、上記欠点を改良した実锊を示している。図中、 4 0は上位ビット部、 4 1 は下位ビット部、 4 2は加箕部、 4 3は登録演箕ロジック部、 4 4は辞書部、 4 5 は認讒演箕ロジック部、 4 6は結果出力部である。その他 3 1 乃至 3 6 はそれぞれ第 9図に示した実 ¾伢 3 1 乃至 3 6に対応している。而して、この実旄例は、音声を収録する手段と、これを複数の特徵量に変換する手段と、該特镦量を同一時簡とみなせる閽隔で量子化して特镦パターンを作成する手段を有する音声認議装置を構成している。そして、同一時問とみなせる間隔でサンプルしたデータをュンビュータの演算単位（ 4ビット、 8ビット、 1 6 ビッ卜 —）の中に均等に割り付けて演算し、同一時間とみなせる P 隔で量子化する特徵ベクトルの数を 4の整数倍となるようにし、各ベクトルの要素を 2値化 ¾理により 1 又は 0で表して単位ベクトルとして演箕するようにしておき、演算により待镊べクトルが単位べクトルでなくなつた時、べクトルの各要素を 2進数であわらし、その位に従って新しいベクトルを構成して演算するようにしている。第 1 0図に示したように、一つの音声について 3 回発声された B T S Pをかさねあわせて標準パターンとすると、標準パターンの各要素は 0 - 3の値を持つことになる。従って、 1 つの要素を表すために必要なビット数は 2 ビットとなる。これに対して入力される音声は普通の B T S Pに変換されるため、各要素は 1 ビットで表されることになり、两者の類似度の演算が、非常に複雑になってしまう。ここで提案する方法は、この 2 ビットを上位と下位のビットに分け 1 5 C H分の上位を 1 ワード、つまり 1 6 ビットで表し、下位を別の 1 ワードで表すようにしたもので、これによつて、類似度 Sが次のような式で求められることになる。

S=∑ (Ah(j)«B(j)U(Al(j)^AB(j)) (5) h、 1 はそれぞれ上位、下位のビットを、 Uは論理和を示す。式（ 2 ) で表される 2つのパターンの積は式（ 5 ) のごとく 2つのワードの積とそれらの結果の和で得ることができる。不特定話者方式の場合、標準パターンは 1 つの音声について 1 0個位の B T S Pを重ね合わせてつくることになるため、パターン中の 1 つの要素が 4ビットで表されることになる。これも先例同様に、 4 ビットを分割して別々のワードに割り当て、各ワードが 1 一 1 5 C Hを表す単位ベクトルとして取り扱う。なお、以上に本発 ¾の各実尨例について説明したが、宪明はソフトウェアで実現しても、ノ、—— ド的に実現しても良いことは容易に理解できょ以上の説 ¾から两らかなように、 *発明の 1 傯面によると、棲準パターンのメモリー量が少なくなり更に、類似度の演箕が減って認讒の高速化が可能になった。しかもそれだけではなく、類似度箕出のために補助的に利用する情報である「瘵準パターン中、 3回の発声のうち 2回以上が 1 である要素の数 M J (特定話者方式の場合）を求めるときには、次式の演算をすれば箇単に求められるというメリツトがある。

M = 2 A h ( J ) ' 1

J

ただし 1は全ての要素が 1 である単位ベクトルを示してレヽる。

第 1 2図は、末発明のパターン類似度演箕方法の一実 ¾ 伢を説困するためのフローチヤ一卜、第 1 3図は、第 1 2 図に示した実尨锊を説明するためのパターン例を示す図、第 1 4図は、第 1 2図に示した実旄例の実齒に好適な装置の一钩を示す図である。 1 4図において、 5 1 はマイクロフォン _t 5 ,2 は 1 6 チャンネルのバンドパスフィルタ、 5 3は 2値化部、 5 4はレジスタ、 5 5 は乗箕部、 5 6は辞書パターン（ただし、 5 6 aは上位バイト、 5 6 b は中位バイト， 5 6 cは下位バイト）、 5 7 はレジスタ、 5 8 は上位 N Z 3 個の名前を記憶する部分 5 9〜 6 3 は乗算部、 6 4は加算部、 6 5 はレジスタ、 6 6 は最大類似度演算部、 6 7は結果出力部である。まず、入力された音声を特徴量に変換して辞書パターンの上位バイ卜と照合する。入力パターンは 2値化されているため、 1 連の 2バイトで表わされるため、第 1 3図（ b ) の上位バイ卜とこの入力バイ卜との論理積をとることによって両者の類似度が求められる。これは第 1 3図（ a ) のパターンの 4以上のエレメントと、入力の相関を求めていることになり、第 1 3図 ( a ) の 0〜 7 まである値を 4を閾値として 2値化して入力パターンとの相関を求めていることに等しい。従来、上、中、下の 3つのバイトを使っていたのを 1 つのバイトにするため、演箕は 1 ノ 3 となるが当然演箕精度も低下してしまう。従って、第 1 2図に示すごとく登録単語数を N とし、この方法で対象を例えば Nノ 3 に絞って残った単語に対して正規の照合をするようにすると、従来、 N単語に対して 3バイト演算をしていたため演算量 3 Nが、予備演箕 1 、 *演箕 3 ♦ Nノ 3で合計 2 N となり演箕量は 2 Z 3 となる。言うまでもなく、これは予備的な選択法で残す単語数と辞書パターンの構成によって滅少量に差が出る。

第 1 4図において、あらかじめ辞書パターンは上位、中位、下位のビットに分けて登録しておくものとする。これは装置の中で登録できるようにしてあっても良いが、この登録の方法は本発明に影響しないのでその詳細な説明は省略する。まず、未知の入力が入ったら、 1 6チャンネルのバンドパスフィルタを通して周波数分折した結果を例えば 1 0 m s程度に一連ずつ（フレーム）のデータとして取り込みレジスタ 5 4に貯える。辞書パターンの上位バイトとレジスタの入力パターンとの論理穰をとってその 1 6チヤンネル分と時簡長分の合計をレジスタ 5 7へ格納しておく。この際、 2つのパターンの時間長の合わせ方は特に説明しないが、例えば前記 B T S Pで用いた方法などを用いれば良い。ここでは、第 1 3 0 ( c ) の 4 ^上を 1 として 2値化したパターン（第 1 3図（ d ) ) と入力パターンを比較しているが、两者の重なり部の多さによって 2つのパターンの類似度を定義していることになる。この類似度を照合した雇にレジスタ 5 7へ入れ、その中から上位 N / 3 に入る単語名又は単語番号を油出し、それと一致する辞書パターン全体をとり出し、レジスタ 5 4に格納されていた入力音声を 2値化したパターンと論理積をとる。この場合も先の論理癀と同様、積をとつた結果を 1 6チャンネル分と時間長分合計する。下位バイトと積をとつた結果と、中位バイトと氇をとり、結果に 2倍したものと _t 上位の同じものに 4倍したものの和をとることによって第 1 3 図 ( c ) のパターンと入力パターンの重なり具合を表わす類似度が得られ、この結果の最大のものを認讒結果として出力する。このようにして簏易な演算で厳密な照合をすべき对彔を滅らすことができ、その結果、全体の演箕量も滅少させることができる。ここでは上位バイトとの照合を述べたが、上位バイトだけでなく中位バイトとも照合しても良いが、演箕畺は上位だけのものより増える。しかし、この方法では辞書を 1 つのバイトの組で表現した時は、もとの辞書の最大値の 1 ノ 2 に閎値を設定して 2値化したものと等しく、それ以外に閾値を移動させることが出来ない。そこで、一連のサンブルを表わす複数の単位のレジスタの一部で譲理演箕をし、新たなパターンを作成し、未知の入力パターンとの間で類似度を求めるようにした。

第 1 5図は、その場合の一実旄例を説明するための図、第 1 6図は、第 1 5図に示した実 ¾例を説明するためのパターン例を示す図、第 1 7図は、第 1 5図に示した実施例の実旄に好適な装置の一例を示す図である。第 1 7図において、 7 0は加算器で、その他、第 1 4図に示した装置と同様の作用をする部分には第 1 4図の場合と同一の参照番号が付してある。説明を簡明にするために、以下、第 1 2 図乃至第 1 4図に示した実 ¾例との差異についてのみ説明する。而して、この実旄例においては、入力された音声と辞書の上位バイ卜の照合をする前に辞書の上位と中位のバイトの論理和をとつた後に、この結果と入力の照合をする。第 1 6図（ b ) の上位と中位の論理和によって出来るパターンは第 1 6図（ c ) のようになり、これは第 1 6図 ( d ) のパターンと等しく、前述の実; 例の閾値を下げたことに一致する。又、論理和ではなく論理積にすると前述の実 ¾例より閡値を 6へ上げたことになる。このようにして論理演算を一回増やすことによつて閾値を変化させることが出来るようになる。この第 1 5図に示した実 ¾例の具体的装置は、第 1 7図のようになり、第 1 4図に示した装置との差異は、予儋的な照合に用いる辞書パターンを辞書の上位と中位の論理和によって作り出している点である。

この実； *钧によると、上位と下位の再ビットを利用しながら再者を別々に照合することなく两者をまとめて圧港した後に照合するため照合の演算量は上位バイトのみと照合するものに比べ大した増加はない。

なお、以上には、上、中、下位の 3種のビサト耩成で行なったが、必ずしも 3種でなくとも 4種以上でも良く、多種になる程、高速化の効果が顕著になる。又、類度は従来技街に従って論理積によって得られるものを書いたが、これに限定するものではないことは言うまでもない。

第 1 8図は、本発 ¾のパターン類似度比較方法の一実歲钧を示したブロック図である。図中、 7 1 はマイクロフォン、 7 2はフィルタ群（特截抽出部）、 7 3 は音声区間切り出し部、 7 4は 2値化部、 7 5は類似度箕出部、 7 6は辞書、 7 7は比較部、 7 8は上位類似度箕出部（類似度レジスタ）、 7 9は類似度箕出部、 8 0は比鲛部、 8 1 は下位類似度箕出部（類似度レジスタ）、 8 2はラベル部（ラベルレジスタ） 8 3はラベル ¾示部である。まず、あらかじめ照準パターンが辞書レジスタ 7 6に登録されているものとして考える - 各標準パターンの 1 フレームは上位 7 6 a と下位 7 6 bの 2曆になっているものとし、それらを別々のレジスタに入れて保管しておく。まず、類似度レジスタ 7 8 、 8 1 をクリアして 0 にしておいて、入力音声をマイク 7 1 に向って発する。ここでは特徴抽出部 7 2が 1 6 個のバンドパスフィルタのブイルタ群で構成されている場合を示すが，これは周波数分析をするためであって、線形予測係数など利用する特徵パラメータに応じて置き換えれば良い。区間切り出し部 7 3では特镊抽出したバラメータを利用して音声の部分を不要な音から抜き出して区間検出する。特镦抽出と区問検出の顺序は特に制限をするものではなく、どちらが先でもよい。区間検出方法は、音声が入力された時にマイ-ク出力のエネルギー '増するので、そのエネルギー変化を利用する方法がよく利用される。又、スペクトルの変化によって区間を決定しても良い。その結果を 2値化部 7 4にて 2値化する。 2値化の方法はすでに提案されている周知のもので良い。 2値化されたデータは 1 フレーム分を 2バイ卜で表わすことができる。先に述べたような方法で最初の標準パターンの上位との類似度を求め、類似度レジスタ 7 8の上位類似度と比鲛する。今、求めた類似度が、レジスタ内の類似度より大なれば、そのまま現類似度をレジスタ 7 8の中へ格納し、続いて入力と檩準パターンの下位と類似度を求めそれを類似度レジスタ 8 1 へ格納すると共にその標準パターンのラベルをラベルレジスタ 8 2へ格納しておく。第 1 の標準バターンと照合きれた場合は各類似度レジスタ又はリセットされ 0が入っているので必ず内容は書き替えれる。次に、辞書中の第 2 の漂準バターンの上位との類似度を求め、同様の操作がくり返される。この時、上位の類似度がレジスタ 7 8 よりも大きい時は、現類似度をレジスタ 7 8へ代入し、下位の類似度を求め、これを無条件でレジスタ 8 1へ入れる。上位の類似度がレジスタ 7 8 と同じ場合は、そのまま下位の類似度を求め、レジスタ 8 1 の値とこれを比較し、求めた類似度の方が大きい晦のみ、その類似度をレジスタ 8 1へ入れる。レジスタ 8 1 へ類似度を代入した場合には必ずラベルレジスタ 8 2へも現ラベルを入れておく。これに対し、上位の類似度がレジスタ 8め内容よりも小さい睁はそのまま次の棲準パターンとの照合に移るこのような操作を辞書に登録された棲準パターンの数だけくり返し、全てが終るとラベルレジスタ 8 2に入っているラベルを認讒結果として出力する。この方法を利用するこどによって最大類似度を得る標準パターンとの照合が早ければ早い程、下位の照合する回数が滅り、計箕量が減少する。従って、 m の高速化が図れることになる。

以上に述べたものは、標準パターンが上位と下位の 2層構造となっている例であるが、これは 3層以上でも良く、屠が多くなる程度效果が著しくなつてくる。また、この照合では全ての標準パターンとの照合を考えているが、予備的な照合をした後でこの方式を適用するのも良い。 .

第 2 0図は、従来の音声認讒システムの全体耩成を説明するための図である。図中 9 1 はマイクロフォン、 9 2 は前 ¾理部、 3 は 1 4 チャンネルバンドバスフィルタ一群、 9 4 は 2 値化演箕部、 9 5 は辞書作成都、 9 6 は辞書、 9 7は認議演算部、 9 8は結果出力部である。マイク口フォン 9 1 より入力された音声は、前処理部 9 2 によりレベル補正され、 1 4 C hのバントパスフィルター（ B . P . F ) 群 9 3に入力される。この 1 4 c hの B . P . F 群である周期サンブル毎に周波数解析され、 2値化演箕部 9 4において、 2値化演算されて第 2 1 図に示す様な 2値化データを得ることができる。 *例の場合、 1 4 c hのバンドパスフィルタを用いている為、図の用に空きチャンネル Eが 2チャンネル存在する。この 2値化データを一単語長分で、辞書作成、及び認讒部で各々の機能を行う事になる。

第 1 9図は、 *発明によるパターン照合方法を実旅するのに適した装置を示している。図中、 1 0 0 は音声区間検出部、 1 0 1 は有声/無声検出部、 1 0 2 は区間ビット制裤部、 1 0 3は有声者ビット制街部で、その他、第 2 0図に示した従来技術と同様の作用をする部分は第 2 0図の場合と同一の参照番号が付してある。以下、太発明における ^として、制铒ビッ卜に音声区間検出信号と有声無声検出を用いる例について説明する。マイクから入力された音声は、前記と同様に前処理部、 1 4チャンネルのバンドパスフィルタを通暹し、 2値化演箕部において前記と同様にして 2値化データが生成される。この時、第 2 1 図の空チヤンネル Eに対して第 2 2図に示す様に音声区間信号 Aと有声ノ無声検出唇号 B を置く。ここで音声区間信号は、第 2 3図に示す様に音声パワー信号をある閾値でチエツクし、音声区間信号を得る。又、有声無声唇号は第 2 4図に示す用に、サンプル時の音声ホルマントの最小二乗近似曲線 Cの煩きが負の時は有声、正の時は無声と定義し、有声時には 2値化データのビットを 1 に、無声時にはビットを 0にする。この様に 1 4 c Iiの周波数成分の 2値化データと音声区簡舊号、有声無声情報の含まれた 2値化（ B T S ) データを得る。

得られた 2値化情報で c h l〜 c li l 4の周波数情報による 2值化情報は :*：来の認讒時に類似度を得るための情報であり、音声区間ビ卜と有声無声ビトは認讒時の制街ビッ卜となる。この様にして得られた 2値化情報の一単語分を用いて辞書作成を行う。この時、制 ¾ビウトは他の情報と同様に 2値ビッ卜であるので、そのまま荷重平均化する。制街ビットを上述の如く、 0 と 1 の 2値ビットで B T S Pデータの中に埋め込んでおけば、辞書作成時は周波数情報の 0、 1 と同様に扱うことができ取り扱いが非常に箇単となる。

次に認讒時における制 ¾ビットの用い方について説明する。辞書における制铒ビットは上述の如く、おのおのの発声の情報を荷重平均化しているため、たとえば 3 回発声の場合、第 2 5図に示す様に、各ビットが 0〜 3の 4値の値をとり、変動成分を含んだ様になつており、未知入力バターンの同位置の制撢ビツ卜に封して決められた制櫞ルールに従って認讒時のパターン照合を行う。例えば、有声ノ無声ビットの場合、未知入力パターンの有ノ無声ビットが 1 の場合、辞書の 3 回の発声でのそのビットが 0か又は入力が 0の場合で、辞書のそれが 3の場合に限って、そのフレームの類似度を 0 とし、それ以外の場合は、通常に類似度を計箕すればよい正確な類似度を得る事ができる。

又、次に音声区問信号の場合、例えば有音ブロック単位の語尾の部分などの 3以下の部分についてのみ、類似度を計算しない様にするだけで、一般に言われている語尾の部分の不安定さを取り除いた認讒演箕が可饈となる。第 2 6 図は、その様子を示す図で、 D は認讒対象ブロック範囲で、各々の癸声を钹形伸縮して辞書を作成し、 3以下の部分つまり不安定な部分は認議対象としない。この様に認議に有用な制櫞ビットを割り付ければ、その変動成分を吸収するパターン制撣方式が構成できる。もちろん、制櫞ビットの種類にはこだわらない。

この様に 2のべき乗を一単位とした 1 6 ビットのデータ対を用いる事により、処理高速化を計れるとともに、その空チャンネルに制铒ビットを割り当てる事により、 B T S Pの周波数データの演箕制 ¾を容易に行う事が可能となるとともに B T S Pの本来の特徵である変動成分の吸収を制撵ビットの中にもあてはめる事ができ箇易かつ高精度な認議を可篛とする事ができる。

産業上の利用可能性

以上詳説した如く、本発明の装置及び方法は、音声認讒に邃用することが可能である。

Claims

請求の範囲

1 . 音声を収録する手段と、収録した音声を複数の特徴量に変換する手段と、該特徴量を同一時間とみなせる間隔で量子化して特镊パターンを作成する手段とを有する音声認議装置において、同一時間とみなせる間隔でサンブルしたデータをコンピュータの演箕単位の中に均等に割り付けて演算することを特镊とする音声認讒装置。

2 . 同一時間とみなせる間隔で量子化する特镦べク卜ルの数を 4の整数倍となるようにし、各ベクトルの要素を 2値化 ¾理により、 1 又は 0で表して単位ベクトルとして演算することを特徴とする請求の範囲第 1 項に記載の音声認譏装置。

3 . 上記演箕により特镦ベクトルが単位べク卜ルでなくなつた時、ベクトルの各要素を 2進数で表し、その位に従って新しいべクトルを構成して演算することを特徴とする請求の範囲 2項に記載の音声認議装置。

4 . 音声を特镊畺に変換し、ある時間間隔でサンプリングして単位時間ごとの一連のデータにし、該一連のデータを 2のべき乗を一単位としたレジスタにわりつけ、 1 つのデータが 2以上の値をとるとき、これを複数の単位のレジスタに分割して取り扱う音声パターンの類似度演算方法において、一連のサンブルを表す複数の単位のレジスタの一単位以上、全数未满のレジスタを用いて未知の入力パターンとの間で類似度を求めるようにしたことを特徴とするパターン類似度演算方法。

5 . 音声を特镦量に変換し、ある時間間隔でサンプリングして単位時間ごとの一連のデータにし、該一連のデータを 2のべき乗を一単位としたレジスタにわりつけ、 1 つのデータが 2以上の值をとるとき、これを複数の単位のレジスタに分割して取り扱う音声認議バターンの類似度演箕方法において、ー邃のサンブルを表わす複数の単位のレジスタの一部で論理演算をし、新たなパターンを作成し、未知の入力パターンとの間で類似度を求めるようにしたことを特徴とするパターン類似度演箕方法。

6 . 音声を特徵量に変換し、一定睁間 P 隔でサンプリンダレて一組のデータを作り、. 該一組のデータを 2のべき乗を一単位としたレジスタにわりつけ、一つのデータが 2 以上の値をとるとき、これを複数の組のレジスタに分割して取り扱い、類似度を計算してその類似度の大きさを比較するパターン類似度比較方法において、あらかじめ登録されている棲準パターンと未知パターンを雇次照合して類似度を計箕するに際し、すでに求めた類似度を複数のレジスタに分割して保有レ、次の瘵準パターンの一部と入力を比較して求めた値とすでに求められている類似度の一部のレジスタ内の値を比較し、先の値の方が大きい時には現在の檩準パターンとの類似度演箕を中止するようにしたことを特镦とするパターン類似度比較方法。

7 . 音声を特徵量に変換し、ある時間間隔でサンプリングして単位時間ごとの一対のデータにし、該一対のデータを 2 のべき乗を一単位としたレジスタにわりつけ、一つのデータが 2以上の値をとる時、これを複数の単位レジスタに分割して取り扱う音声パターン照合方法において、上記特镦量とは別の手段によって得られた第 2乃至第 11 ( n は整数）の特镦量を同一データのあるビットに割り付け、この情報を基に、太来の特徴量のパターン照合を制撣する *を特徴とする音声パターン照合方法。

3 . 上記制街ビッ卜に対し音声の有声 Z無声情報と、音声区間情報を用いたことを特镊とする請求の範囲第 7項に記載の音声パターン照合方法。