JPS607498A

JPS607498A - 単語音声認識装置とその方法

Info

Publication number: JPS607498A
Application number: JP11505483A
Authority: JP
Inventors: 晋太木村; 裕二木島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-06-28
Filing date: 1983-06-28
Publication date: 1985-01-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の技術分野本発明は音声認識装置に関するものであり、よシ特定的
には単語を音声入力し認識する装置であって、認識の対
象とする単語についての音声入力登録を事前に全ての認
識対象語について行う必要のない音声認識装置に関する
。

技術の背景及び従来技術と問題点在来の単語音声認識装置としては、一般に全単語登録形
特定話者認識装置及び不特定話者認識装置とがある。前
者は話者を特定し予め認識対象語の全てについて音声入
力し登録しておく方式を採るものである。この方式の装
置は認識率も良く認識対象語も多く設定できるのである
が、事前に全認識対象語について音声登録をしなければ
ならないので例えば１ｏｏｏ語を越える認識対象単語て
にっ“　いて利用者が音声登録する場合、利用者の登録
の負担が大きくなシすぎるという問題点がある。

一方後者は話者を特定せず、利用者が事前に音声登録す
ることは必要としない利点があるが、一般に装置におけ
る認識が難しくなシ設備及び応答性等の制約から認識対
象語が例えば数十個程度に制限されているという問題点
及び認識対象語を自由に変更することができないという
問題点を有している。

発明の目的本発明の目的は、上記従来技術の問題点を解決し、最小
限の音声登録で数多くの単語を認識することができる単
語音声認識装置全提供することにある。また本発明の目
的は容易に認識対象語を変更することができる音声認識
装置を提供することにある。

本発明の上記目的は、在来方式の如く音声認識の際音素
のセグメンテーシいンを行うという方法を採らず、登録
の際音素のセグメンテーションを行っておき、このよう
にセグメンテーションが行なわれた音素辞書を用いて単
語音声入力の認識を行うという着想にもとづいて達成さ
れる。

発明の構成本発明においては、音声入力を受け入れ、該音声入力を
並列に設けられ中心周波数の異なる複数の帯域濾波器を
通し整流した複数チャネルの音声データの信号、及び該
複数の音声データ信号から１つのノｆワー信号全発生す
る音声入力手段、認識すべき単語とは独立した関係にあ
る登録語についての音声入力を前記音声入力部に印加し
、登録語についての音声入力のｚ４ワー信号の時間的変
化にもとづき登録語についての音声入力の複数の音声デ
ータ信号から音声辞書を作成するラベル付手段、認識す
べき単語に・ついての音声入力を前記音声入力部に印加
し、前記音声入力部の出力としてのパワー信号及び複数
の音声データ信号から認識単語の音声入力についての音
素データを作成し、予め得られた前記音素辞書の音素と
近似度の高いものについて音素ラティスデータを作成す
る音素ラティス作成手段、及び、該音素ラティスデータ
を予め記憶されている認識対象語と照合し類似度の最も
高い単語全抽出するラベル照合手段を具備する単語音声
認識装置が提供される。

また本発明においては、認識すべき単語とは独立した登
録語について音声入力し該音声入力にもとづき予め音素
辞書を作成する段階、認識すべき単語を音声入力し該音
声入力にもとづき音素データを作成し、前記音素辞書と
照合して音素ラティスを作成する段階、及び該音素ラテ
ィスと認識対象語を比較照合し最も類似度の高い単語を
抽出する段階、を有する単語音声認識方法が提供される
。

発明の実施例本発明の一実施例について添付図面を参照して下記に述
べる。

第１図は本発明にもとづく音声認識装置の構成図を示す
。当該音声認識装置は、音声を入力するためのマイクロ
フォン１、該マイクロフォンからの信号を受け入れ入力
信号処理を行う音声入力部２、該音声入力部２の出力信
号Ｓ２と登録語記憶部８からの信号Ｓ８とにもとづき音
素辞書を作成し、音素辞書記憶部６に記憶するラベル付
部５を有している。また音声認識装置は、認識すべき音
声入力があったとき、音声入力部２からの信号Ｓ２を音
素辞書記憶部６の音素辞書データを参照して音素ラティ
スを作成する音素ラティス作成部３、該音素ラティスと
認識対象単語記憶部７の認識対象単語とを照合し該当す
る単語を作成するラベル照合部４、及び認識された単語
の表示若しくは登録すべき語の表示又はその低利用者と
の間のマン・マシン・コミュニケーション用のディスプ
レー９、キーが一ド（図示せず）を有している。

第２図に音声入力部２の内部回路図を示す。第２図にお
いて、フィルタチャネル回路２１１〜２１ｎと該回路２
１１〜２１ｎの出力の総和をとる加算器２２が図示され
ている。また回路２１１〜２１ｎのうちの回路２１１に
ついての詳細全第３図に示す。第３図示おいて、ＢＰＦ
Ｉは中心周波数ｆ１の帯域済波器、Ｄはダイオード、Ｒ
Ｖｉ抵抗器、Ｃはキャノやシタを示す。他の回路２１２
〜２ｉｎも第３図の回路構成と同様であるが、イＷ域濾
波器の中心周波数は／１とは異なシそれぞれｆ２〜／ｎ
’″Ｃある。

第２図及び第３図の回路から明らかなように、音声入力
部２にマイクロフォン１からの音声入力（交流）が入力
されると、各チャネル毎帯域濾波され、ダイオードＤで
整流され、この直流がＲＣ時定数回路によシ平滑されて
さらにそれらがディジタライプ２３１〜２３ｎを通して
ディジタル信号に変換され、各チャネルの出力データ信
号ＳＤＩ〜ＳＤｎとなる。他方信号ＳＤＩ〜ＳＤｎが加
算器２２に印加されるとその出力はパワーを表わす（Ｓ
　ＰｗＲ）。Ｓ晶爪もディジタライザ２４を介してディ
ジタル員の（ｉｍ号となっている。尚、音声入力部２の
出力信号Ｓ２は信号Ｓ　Ｄ　１〜ＳＤｎ　％　５ＰＷＲ
ぎ総称したものである。

以下第１図装置の動作について説明する。当該装置Ｒ：
　を用いて音声認識を行う形態は、登録フェーズと認識
フェーズに大別される。

先ず登録７エーズの動作について述べる。利用者（話者
）を特定し、以下特定された利用者について下記の如く
行う。登録フェーズでは後述する音素のセグメンテーシ
ョンを行ない音素辞書を作成するが、音素辞書作成のだ
めの音声登録語は事前に定められておシ、登録語記憶部
８に格納されている。

登録語記憶部８から音声登録語、例えばｒ　ＡＧＡ（ア
ガ）」ラブイスプレー９に表示し、利用者に発声を指示
する。利用者は上記音声登録Ｋをマイクロフォン１に向
って発声する。マイクロフォンｌの音声入力信号Ｓｌが
音声入力部２に印加され、それぞれのチャネルデータＳ
ＤＩ〜ＳＤｎ及びノ４ワ−８ＰＷＲが得られる。これら
の信号が８２としてラベル付部５に印加される。／？ク
ワ−ＰＷＲは第４図（４）に図示の如き特性曲線として
示される。第４図（４）において横軸ｔは時間を表わす
。

ラベル付部５では、時間ｔについて一定の時間間隔Δｔ
で、これ子フレームと呼ぶ、等間隔で隣シ合うノｆワー
の変化ｄＳＰＷＲ’（ｚ求める（第４図（Ｂ））。

このようにして得られた・やワー変化ｄ　Ｓ　ＰＷＲと
単語ｒＡＧＡＪの記号列にもとづいてフレーム毎の音素
、第４図（Ｃ）の例示においてｒＡＪｒＧＪのラベルを
付ける。ここではパワー変化のピーク値と単語の記号列
とのつじつまが合うようにラベル付けを行なう。このよ
うに音素ラベル付けを行なったら（第４図（Ｃ）　）　
、各フレームについて第５図の形態の音素辞書として音
素辞書記憶部６に記憶する。

第５図に図示の音素辞書について詳述する。第５図にお
いてｒＳＥ　ＬＢＬＪは音素ラベルを表わしておシ、こ
の時の音素はそれぞれのフレームについて母音「Ａ（ア
）」、濁音子音ガギグ等の頭部「Ｇ」がある。またｒｓ
Ｅ　ＤＡＴＪは音素データを示しておシ、成るフレーム
についてノ千ワー変化があった１つの音素ｒＡＪについ
てチャネルデータＳＤＩ〜ＳＤｎのうち該当するデータ
１ＤＡＴ１としているもので「特徴」を表わすデータで
ある。

以上の如く「ＡＧＡ」について音素辞書が作成されたら
次の登録語についても同様にして音素辞書を作成してい
く。ここで音声登録語は認識すべき対象単語と等価では
なく、むしろ独立した関係にあシ、認識対象単語全認識
する上で必要となる音素辞書作成のために必要な数でよ
い。すなわち一定量の音素辞書が作成されるだけの音声
登録語があフ、認識対象単語が増加しても、音声登録音
さらに行う必要はない。

また上記の如き音素辞書作成時点で、予め判っている音
声登録語についての記号列とつじつまが合わないような
ラベル付けとなった場合には、ディスプレー９を介して
、利用者に再発声をうながし、音声登録処理ヲ＜シ返し
て音素辞書作成を確実化する。

次いで上記音素辞ｔを用いて実際に音声認識を行つ認識
フェーズついて述べる。

認識すべき音声入力がマイクロフォン１に印加されその
出力信号・Ｓｌについてのノぐワーが第６図の如く得ら
れたとする。音声入力部２の出力信号Ｓ２、第６図の５
ｐＮｖＲ２含むもの、が音素ラティス作成部３に印加さ
れる。音素ラティス作成部３において、第６図のパワー
信号についてフレーム毎（Δｔ）音素データ全作シ出し
、予め得られている音素辞書と距離計算を行なう。そし
て距離の小さい音素から順に整理した音素ラティス表（
第７図１）を作成する。第７図において横方向が時間、
すなわちフレーム数、縦方向が距離ｄの小さい順に並べ
た音素とその距ｍを示している。例えば第７図左端列に
おけるフレーム１について、音素「Ｏ」。

距離＝５０、音素「Ａ」、距離＝５２、音素ｒｏＪ距離
＝５３、音素「Ａ」、距離＝７０の音素ラティスが得ら
れていることを示している。

このようにして得られた音素ラティス表と認識対象単語
記憶部７に記憶されている対象単語の文字列との比較照
合全ラベル照合部４で行う。認識対象語記憶部７には認
識の対象とすべき全ての単語が記憶されている。またこ
れらの単語の１つ１つには第８図に図示の如き整合窓Ｗ
Ｉ　ＮＤＷが設けられている。第８図に例示の単語ｆ−
００ＳＡＫＡＪについて述べると各音素ｒＯＪ　、　ｒ
ＯＪ　、　ｒｓＪ　、　ｒＡＪ　。

ｒＫＪ　、　ｒＡＪごと比較照合すべきフレーム帯域が
設けられておシ、（斜線部は比較照合の範囲外）適切な
フレーム範囲について照合を行ない認識率向上の寄与と
効率アップを図るようにしている。

成る音素ラティス素（第１０図）について、上記第８図
のｒｏｏｓＡＫＡＪについて整合窓をかけてｒｏｏｓＡ
ＫＡＪの文字列の文字に一致する音素ラベルの最小距離
をそのフレームの距離とし、全フレームについて距離（
ｄ）と音素ラベル（ＳＥ、ＬＢＬ）’ｉ言１算する（第
９図参照）。次いでこれらの距離の総和をとり、フレー
ム数ｎで除した値Σｄ　ｌ　／ｎを、認識対象単語文字
列と入力音声による音素ラティスの距離とする。

全ての認識対象単語文字列について上記距離計算を行な
い、距離の最小のものを最も近似度の高いものとして抽
出し、認識単語Ｓ４としてディスプレー９に表示する。

この例示ではｒｏＯ８ＡＩ（Ａ（大阪）」が認識単語で
ある。

上記認識単語が所望の場合には利用者にキーが一ド等で
その旨指示し、そうでない場合には再試行をする。

発明の効果以上述べたように本発明によれば、認識対象語について
音声登録をするのではなく、音素辞書作成のための登録
語について必要な数だけ音声登録をすればよく、音素辞
書は認識対象語数が増加してもそのまま使用できるから
、適切な叡の音声登録で数多くの単面全認識することが
できる。

また本発明によれば認識対象語について音声登録をする
のではなく、認識対象語は独立しており、認識対象語の
増減又は変更が容易にできるという効果全奏する。

【図面の簡単な説明】

第１図は本発明の一実施例としての音声認識装置の）４
成図、第２図は第１固装厘７における音声入力部の回路図、第３図は２．２図回路の一実施例としての詳細な回路図
、第４図体）は第２図回路の出力としてのパワー特性図、第４図（Ｂ）は第４図（４）についてのフレーム毎の・
臂ワー変化特性図、第４ｕｌ（ｃ）は第４関（Ｂ）にもとづいて得られる刊
素データを示す図、第５図は第４図（Ｃ）にもとづく音素辞書の一例？示す
図、第６図は認識すべき音声入力のパワー特性図、第７図は
第６図に図示のデータから・得たＶｉ素ラうィス表を示
す図、第８図は整合窓の一例を示す図、第９図は給１０図に示す音素ラティスデータを第８図の
整合窓をかけて得られた音素データ透水す図、第１０図は成る認識すべき音声入力についての音素ラテ
ィス表を示す図、である。（符号の説明）１・・・マイクロフォン、２・・・音声入方部、３・・
・音素ラティス作成部、４・・・ラベル照合部、５・・
・ラベル付部、６・・・音素辞書記憶部、７・・・認識
対象単語記憶部、８・・・登録語記憶部、９・・・ディ
スル−。特許出願人富士通株式会社特許出願代理人弁理士　η′　木　朗弁理士　西　舘　和　之弁理士　内　１）　幸　男弁理士　山　口　昭　之第４図（Ａ）第５図率６図

Claims

【特許請求の範囲】１、音声入力全党は入れ、該音声入力を並列に設けられ
中心周波数の異なる複数の帯域濾波器を通し整流した複
数チャネルの音声データ化分、及び該複数の音声データ
信号から１つのノクワー信号全発生する音声入力手段、
認識すべき単語とは独立した関係にある登録語について
の音声入力を前記音声入力部に印加し、登録語について
の音声入力のノ４ワー信号の時間的変化にもとづき登録
語についての音声入力の複数の音声データ信号から音素
辞書を作成するラベル付手段、認識すべき単語についての音声入力部に印加し、前記音
声入力部の出力としてのノ千ワー信号及び複数の音声デ
ータ信号から認識単語の音声入力についての音素データ
を作成し；予め得られた前記音素辞書の音素と障似度の
高いものについて音素ラティスデータを作成する音素ラ
ティス作成手段及び、該音素ラティスデータを予め記憶されている認識対象語
と照合し類似度の最も高い単語を抽出するラベル照合手
段、全具備する単語音声認識装置。２、認識すべき単語とは独立した登録語について音声入
力し該音声入力にもとづき予め音素辞書を作成する段階
、認識すべき単語を音声入力し該音声入力にもとづき音
素ｒ−夕を作成し前記音素辞書と照合して音素ラティス
を作成する段階、及び、該音素ラティスと認識対象語を
比較照合し最も類似度の高い単語を抽出する段階、を有
する単語音声認識方法。