JPS6346499A

JPS6346499A - 大語▲い▼単語音声認識方式

Info

Publication number: JPS6346499A
Application number: JP61191398A
Authority: JP
Inventors: 沢井　秀文
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-04-18
Filing date: 1986-08-15
Publication date: 1988-02-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、大詰３単語音声認識方式、より詳細には、大
詰９単語音声認識装置における単語の予備選択方式並び
に大語朶単語音声の分類方式に関する。

従来技術従来、大語受単語音声を認識する方法として、入力音声
中の子音や母音の系列を認識した後に。

子音と母音のラベル系列と大語朶単語のラベル系列との
マツチングを行い、入力音声のラベル系列に最も近いも
のを単語辞書から選択して認識結果とすることがよく行
われているが、この方法は。

入力音声中の音韻のセグメンテーション（切り出し）や
認識が非常に雉しく、認識誤りも生じ易い。

したがって、音韻認識結果を複数候補用意して所謂「音
韻ラティス」と呼ばれる系列と単語辞ＧＦ、とのラベル
マツチングを行うために、認識結果を単一に同定するこ
とが難しいといった欠点があった。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、大語費単語音声の認識を高速に行うために、予め
入力音声中の音韻の特徴に基づいて大分類を行い認識対
象語を限定する方式、及び、認識対象数の多い犬語朶の
単語音声を認識する際に、認識処理時間の短縮および認
識精度の向上のために、認識対象から候補単語を限定す
る単語の予６ｉｆｆ選択方式に関連して、予め大語檗単
語を分類して効率的な辞書検索を行なう方式を提供する
ことを目的としてなされたものである。

眉−一一戊本発明は、上記目的を達成するために、音声を入力する
ためのマイクロフォン、音声中の特徴的な時系列を求め
るための特徴分析部、大語位単語音声の認識に先立って
単語の候補を選択する予備選択部７予備選択を行う際に
照合する予備選択用辞書、予備選択部で絞られた候補単
語を認識する認識処理部、認識処理の際に参照するため
の単語標準パターン格納部、認識結果を出力する認識結
果出力端子とから成り、入力音声中の先頭の子音。

母音２語中の子音、母音等の分類又は認識結果に基づい
て順次候補単語を絞り込んで予備選択をすること、及び
、音声を入力するためのマイクロフォン、音声中の特徴
的な時系列を求めるための特徴分析部、大語朶単語音声
の認識に先立って単語の候補を選択する予備選択部、予
備選択を行う際に照合する予備選択用辞書、予備選択部
で絞られた候補２丁−語を認識する認識処理部、認識処
理の際に参照するための単語槽べ０パタ一ン格納部、認
識結果を出力する認識結果出力端子とから成り、単語標
準パターンの分類をグループ化したカテゴリー名と固定
したカテゴリー名との階層的なネットワーク構造に基づ
いて行ない、入力された未知音声を前記２種のカテゴリ
ー名に沿って分類して候補単語名を限定することを特徴
としたものである。

以下２本発明の実施例に基づいて説明する。

第１図は、本発明の一実施例を説明するための電気的ブ
ロック線図で１図中、１は音声入力用マイクロフォン、
２は音声の特徴抽出部、３は単語の予備選択部、４は予
備選択用辞書格納部、５は認識処理部、６は標準パター
ン（辞書）格納部。

７は認識結果出力部で、マイクロフォン１より入力され
た音声は特徴抽出部２で音声に特有な特徴パラメータの
時系列に変換される。予備選択部３では、この特徴パラ
メータの系列を用いて予め大語党単語辞書から予備選択
用辞書４を作成しておいたものとのマツチングを行って
候補単語を校り込んでおく。認識処理部５では予備選択
部３で絞られた単語について辞書格納部６の単語標傳パ
ターンとのマツチングが行われ、入カバターンに最も近
いパターン名を認識結果として認識結果出力部７に出力
する。

第２図は、単語標準パターンの予備選択処理について説
明するための電気的ブロック線図で、図中、３１は処理
開始端子、３２は入力音声パターン中の無音区間検出部
、３３は継続時間長検出部。

３４は語頭Ｃｖ分類部（ただし、Ｃは子音、■は母音を
表わす）、３５は語中ｖＣｖ分類部である。

無音区間検出部３２では入力音声中の無音区間を検出し
、主に無音の数や位置に基づいて予め分析しておいた標
準パターンとの差異が大きいパターンについては認識対
象から除外する。同様に、継続時間長検出部３３では入
力音声を標準パターンとの長さが大きく異なるもの（通
常は±３０％以上）のものを除外する。なお、無音区間
検出部３２と継続時間長検出部３３の処理と並行して語
頭ＣＶ分類部３４で入力音声中の先頭のＣＶ（又はＶ）
の分類及び語中ｖＣｖ分類部３５で語中のＶＣＶの分類
を順次行い、標準パターンの候補を絞り込んでいく。語
頭Ｃｖ分類部３４での０７分類及び語中ｖＣ■分順部３
５での７６７分ｍにおける母音認識は子音認識に先立っ
て行い、子音の認識率は母音に比べて極めて低いために
大まかな分類を行うのに留める。

第３図は、語頭のＣＶの分類を示した図であり。

母音Ｖが／１／の場合である。他の母音についても同様
な分類となる。先頭子音Ｃの分類は帯域通過フィルタ群
出力のうち低域と高域に特徴が現われることに着目し、
子音の継続フレーム長Ｆｃが、低域ではある閾値ＦＬよ
り大きい場合には、７ｍ。

ｒｌ＋　ｂｒ　ｄ２ｇ＋　Ｚｔ　ｙＴ　Ｗｒ　ｒ／と見
做し、高域において別のある閾値ＦＨより小さければ、
／　Ｓ　＋　Ｐ　ｒ　’ｊ　＋　ｋ＋　ｈ／　ｒ大きけ
れば／Ｓ／であると分類を行う。このようにして先頭子
音の分類により、認識対象単語の限定を行う。

次に、第４図に語中子音による分類例を示す。

ここで語中子音とは入力音声中の先頭のＣＶ音節の次に
来るｖＣｖ音節中の子音を指す。この分類は１図中に示
すように、子音の前に無音区間を生ずるもの／　ｐ　ｒ
　ｔＨｋ　＋　８　＋　）１　／、子音部においてパワ
ーのデイツプを生ずるもの／ｂ＋ｄｒｇ＋ｚ、ｒ／、そ
の他の子音のグループになる。ｖＣＶ音節の両側の母音
は間の子音に先立って認識しておき、先頭の０７分類に
より絞られた単語候補に対してｖＣｖ音節による分類を
行ってさらに単語候補を絞っていくことができる。

第５図は、入力音声が［千葉」と発声された場合の音韻
分類の様子を示したものであり、図中、先頭のＣｖ音節
中の母音候補は／　ｉ　／と／　ｕ　／が得られている
が、予め語中から切り出しておいた母音槽重パターンと
のマツチングにより／　ｉ　／と決定される。また、先
頭子音は高域パワーの継続時間から／Ｓ＋　Ｐ＋　ｔ＋
　ｋ＋　ｈ／のいずれかが決定され、同様にして、語中
ｖＣｖ音簡の母音や子音も決定される。このようにして
、音韻分類に基づく単語の予備選択法では、音声の入力
と並行して順次候補単語を絞り込んでいけるので、高速
な予備選択処理が可能である。最終段の認識処理部５で
は、絞られた候補単語について標１専パターン６を参照
して単語単位のパターンマツチングを行って最小距離を
持つ単語名を認識結果として出力する。

第６図は、第３図及び第４図の子音分類と母音分類に基
づいて大語金単語セットを木構造に分類しておく様子を
表わす図で、図中、Ｇｌａ、　Ｇ、ｂ。

Ｇｌｃは第３図の子音分類グループを、また、Ｇ、ａ。

Ｇ２ｂ、　Ｇ２ｃは第４図の子音分類グループを、ａ、
ｉ。

ｕ、ｅ、Ｏは５母音を表わす。入力音声が第５図で述べ
た「千葉」の場合には第６図のＧｉｂ−）ｉ→ａ２ｂ、
→ａの経路を辿りｒＴＩＢＡＪ　を含む単語グループ４
０を大語党単語中から検索してくることを示している。

このように単語セントを木構造に分類しておくことによ
り、単語の検索が高速に行なえる。

第７図は、第１図に示した標７（Ｑパターン格納部６に
おける単語辞書の分類について説明するための図で、図
中、６１ａ〜６１ｃは第１階層におけるあるカテゴリー
の３グループを示し、６３ａ〜６３ｅは第２階層におけ
る固定されたカテゴリー名、６２ａ〜６２ｃは第３階層
における、前記力テゴリーとは異なるグループ、６４ａ
〜６４ｅは第４階層における固定されたカテゴリー名を
示す。

なお、以下の階層についてもグループ化された階層１り
と固定されたカテゴリーの階層が交互に構成されている
。６５□〜６５ｎは、前記階層構造化されたカテゴリー
のルートを辿って決定される標準パターン名である。従
って、Ｗ１〜Ｗｎの標準パターン名（単語名）に付随し
てカテゴリーの連鎖の情報が記録されている。例えば、
第８図に示すように、未知入力音声が入力された場合、
音声の先頭部分から適当なセグメンテーションを行ない
、Ｇ工。

Ｆｌ、　Ｇ２．　Ｆ、と４つのカテゴリーを決定する。

グループＧ、は、第９Ｕ′Ａの語頭子音分類でＧｌｂに
　。

１′１ハし、固定カテゴリーＦ１は母音の／１／と判定
さ九たものとする。同様に、Ｇ２は第１０図の語中子音
分類のＧ２ｂに、属し、Ｆ２は母音の／　ａ　／と同定
されたものとする。従って、第７図の６５１の単語名に
は、例えば、ｒｔｉｂａ　（千葉）」という地名が入っ
ているわけである。この例では、Ｇ、、Ｇ２は各々語頭
および語中の子音グループを、また、Ｆ□Ｉ　Ｆ２は５
母音を表わしている。また、他の分類方法としては、第
８図の未知入力音声中のカテゴリー分けを各セグメント
毎に認識の信頼度（例えば、音素標準パターンとの照合
距離）を基準にして行なってもよい。即ち、信頼度が高
い場合の音素は固定カテゴリーとし、信頼度が低い場合
の音素はグループカテゴリーとする。そのために、第７
図に示した辞書分類もこの信頼度に暴づいてｒ皆層構造
化しておく必要のあることは勿論である。

このようにして、入力音声の先頭部分から順にカテゴリ
ーの分類を行なっていくことにより、大語党単語辞書か
ら高速に候補単語を限定していくことが可能となる。ま
た、入力音声中の比較的認識が確実に出来ろ部分と、逆
に不確実な部分とを別の階層として分類しているので、
候補を限定していく際のりジェクト（正解候補が排除さ
れてしまうこと）が生起しにくくなる効果がある。

勲果以上の説明から明らかなように、本発明によると、入力
音声中の語頭の子音、母音、語中の子音、母音というよ
うに先頭部分から音韻の分類結果や認識結果にＪｌ（づ
いて順次大語堂単語中から候補単語を絞り込んでゆくの
で、音声の入力と並行して予ａ１ｕ　Ｓ択処理を行うこ
とができ、高速な認識処理が可能となる。また、入力音
声の先頭部分から順にカテゴリーの分類を行なっていく
ことにより。

犬語堂単語辞−１１から高速に候補単語を限定していく
ことが可能となる。更に、入力音声中の比較的Ｌ２　ｏ
ａが確実に出来る部分と、逆に不確実な部分とを別の階
層として分類しているので、候補を限定していく際のり
ジェクト（正解候補が排除されてしまうこと）が生起し
にくくなる効果がある。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するための電気的ブ
ロック線図、第２図は、標準パターンの予（′１ｕ選択
処理を説明するための電気的ブロック線ｊ４、第３図は
、語頭Ｃｖの分類を示す図、第４図は１．＋１１中子音
による分類を示す図、第５図は、音シ（１分バ１の一例
を示す図、第６図は、人語堂単語セットの木構造を示す
図、第７図は、標準パターン格納部における単語辞書の
分類を説明するための図、第８図は、カテゴリーの決定
の仕方を説明するための図、第９図及び第１０図は、グ
ループ分けの例を示す図である。１・・・音声入力用マイクロフォン、２・・・音声の特
徴抽出部、３・・・単語の予備選択部、４・・・予備選
択用辞書格納部、５・・・認識処理部、６・・・標準パ
ターン（辞書）格納部、７・・・認識結果出力部、３１
・・・処理開始端子、３２・・・入力音声パターン中の
無音区間検出部、３３・・・継続時間長検出部、３４・
・・語頭Ｃｖ分分布部３５・・・語中ＶＣ■分類部、４
０・・単語グループ。特許出願人　　　株式会社　リコー代理人　　高　牙　明透ミ゛゛：）′　　ｌ〆 ′？・第　　Ｉ　　図Ｍ　２　区第３図第　４　図第　５　図＃９．ｉｔＪ　　　　　　　　　／ｉん’ｕｌ　　　　
　　　ｔ’ａｉ、、’ｏｌマ＝、＋ンプｘ＋　　−ｎｕ
ｔ　　　−ｃａＡＡａ−Ｌ＋六友　　□　　ＨＩ　　　
　　　　　、ζｌセ青冷彌１ｓ／ＩＦ！／１ｌｌｋ／ｌ
ｈ／　−７ｂＨｄｌ／ｑ／１ｘｌｌｒｉ−第６図第７図

Claims

【特許請求の範囲】

（１）、音声を入力するためのマイクロフォン、音声中
の特徴的な時系列を求めるための特徴分析部、大語彙単
語音声の認識に先立って単語の候補を選択する予備選択
部、予備選択を行う際に照合する予備選択用辞書、予備
選択部で絞られた候補単語を認識する認識処理部、認識
処理の際に参照するための単語標準パターン格納部、認
識結果を出力する認識結果出力端子とから成り、入力音
声中の先頭の子音、母音、語中の子音、母音等の分類又
は認識結果に基づいて順次候補単語を絞り込んでゆく予
備選択部を有することを特徴とする大語彙単語音声認識
方式。
（２）、入力音声中の無音区間の検出および入力音声パ
ターンと標準パターンとの継続時間長の比較を行って標
準パターン中から候補単語を絞る処理を供用して予備選
択を行うことを特徴とする特許請求の範囲第（１）項に
記載の大語彙単語音声認識方式。
（３）、先頭子音分類、先頭部の母音名、語中の子音分
類、母音名等の分類に基づいて大語彙単語を木構造にグ
ループ分けした辞書を持つことを特徴とする特許請求の
範囲第（１）項に記載の大語彙単語音声認識方式。
（４）、音声を入力するためのマイクロフォン、音声中
の特徴的な時系列を求めるための特徴分析部、大語彙単
語音声の認識に先立って単語の候補を選択する予備選択
部、予備選択を行う際に照合する予備選択用辞書、予備
選択部で絞られた候補単語を認識する認識処理部、認識
処理の際に参照するための単語標準パターン格納部、認
識結果を出力する認識結果出力端子とから成り、単語標
準パターンの分類をグループ化したカテゴリー名と固定
したカテゴリー名との階層的なネットワーク構造に基づ
いて行ない、入力された未知音声を前記２種のカテゴリ
ー名に沿つて分類して候補単語名を限定することを特徴
とする大語彙単語音声認識方式。
（５）、未知入力音声のセグメント毎に音素等のカテゴ
リー分類を行ない、各セグメントの音韻分類の信頼性の
高低に従つて、各セグメントを信頼性の高い場合には固
定したカテゴリー名に対応させ、信頼性の低い場合には
グループ化したカテゴリー名に対応させて単語標準パタ
ーンの分類を階層的なネットワーク構造に基づいて行な
うことを特徴とする請求範囲（４）項に記載の大語彙単
語音声認識方式。