JPS5962898A

JPS5962898A - 音声認識方式

Info

Publication number: JPS5962898A
Application number: JP57173176A
Authority: JP
Inventors: 徳子松井; 俊宏木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-10-04
Filing date: 1982-10-04
Publication date: 1984-04-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】し発明の利用分野〕本発明は、単語・文（単語列、数字列）の標準音声バタ
ンについて入力音声に対する類似度が最上位のものを判
定・出力する音声認識装置において、文音声（特に、連
続人力された数字列音声）の各単語間（数字の各桁間）
の認識・判定を確実に行い、構成単語数を決定した上で
認識処理をし、その認識率を向」ニさせるだめの音声認
識方式に関するものである。

〔従来技術〕

文（単語列）有声の認識については、一般に、その単語
数（数字列の場合は桁数）を既知条件として認識処理が
行われないと、その認１ｉｉ１：Ｒ’は単ａｔｆのみの
場合に比べて到底実用とならない程度に低いものとなっ
てしまう。

したがって、この種の音声認識装置における１１ＩＥ米
の音声ｄ１り識方式は、−例として、あらかしめ発声者
が人力音声の単語数（例えば、数字列の桁λ２）を指定
しておくことにより、誤認識の防」１−をＩｇ＋るよう
にしていた。

しかしながら、このような従来方式は、発声者に対して
音声入力の都度に余分の気遣い、労力を強いることにな
り、ザービス性、信頼性に欠けるところがあった。

〔発明の目的〕

本発明の目的は、上記した従来技術の欠点をなくし、文
音声の各単語間の識別・判定を確実に行い、構成単語数
を決定した上で認識処理をし、その認識率を向上さぜる
ことがてきる音声認識か式を提供することにある。

〔発明の概要〕

本発明に係る音声認識方式の構成は、認識対象の各単語
・文に対応して各複数組の（票準音声パタンデータを記
憶しておき、人力音声の特徴抽出を行い、その１１″ｉ
徴データと−に記１１標準音声パタンテータとのバタン
マッチング処理全行い、その類似度が最上位となるもの
を認識結果として判定・出力する機能を有する音声認識
装置において、入力音声の特徴抽出を行うとともに、そ
の音声パワーを検出し、その値が、所定の閾値未満とな
る継続時間が所定の下限値を超え所定の上限値以下の・
１・巳回内となったとき、その期間を当該音声人力の各
単１ｊ４間の音声休止区間°として判定するようにし、
それに基ついて当該音声人力についての単ｍ数を決定し
、その単語数に従って標準音声バタン全選択し、当該音
声認識処理を行わしめるように制叫・処理するものであ
る。

なお、これを詳述すれば以下のとおりである。

まず、第１図の連続発声数字に対する音声パワーの一例
の波形図に示すように、周囲騒音９回線！（Ｃｉ’ｉ等
のレベルを考慮した」二で、人力音声が存在するものと
認めうる音声パワーの最低値（閾値）ＰＴＩ＋全設定し
ておく。

この閾値ＰＴ■よりも低いレベルの音声パワーの各継続
時間を′［゛とじ、その下限値の所定値ｆｆ１Ａ。

ＩＩ　ＩＩＩ内）の音声人力の休止区間および音声人力
の終了の識別ケすることができる。すなわち、次の条件
（１）〜（３）により、（Ｉ　ｌ　　ｌ’　５　Ａ　ｔ７）　、’−きｒｌｌ、
同一’Ｉ’　Ｆ？ｉ’ｉ内ノ１１内体１１声休止ポーズ
）、（２１Ａ　＜　’ＩＩ’≦１３のときは、各単語間の音
声休止（単語間ポーズ）、（３）　　’ＩＩ”　＞　Ｂのときケ：Ｊ：、音声人力
の終了、どして判定をすることができ、上記（２）の条
件が生ずる回数から当該音声人力の単語数（数字桁蛯）
を決定することができる。

なお、上記各所定時間値Ａ、、１３は、認識対象の単語
・文について継１験的、実験的に最適値が求められて設
定されるものである。

〔発明の実施例〕

以下、本発明の実施例を図に基づいて説明する。

第２図は、本発明に係る音声認識方式の一実施例の方式
１１１η成図、第３図は、その処理フローチャートであ
る。

こと−Ｃ，ｌば、音声人力に係るマイクロフォン、２は
、人力音声信号について所定の利得調整・帯域制限を行
った後、そのティ／タル変換をする人力部、３は、人力
されたディ／タル音声信号から人ノＪ　ｔ’７　／”）
　４’ｌｌ′徴７”’−Ｉ　Ｓ’抽出−ｆる分析７ｊＢ
、／１ｖ１１、人力ｉ′１声のド１声区間の検出処理を
して独立したηう語（数字）を判定する音−角区間検出
部、５Ｎ２、人力音声とｌｌ−１ｉ　、ＱＶ％音声バタ
ンとのバタンマツチング処理を行う音声認識部、６は、
そのバタンマツチング処理（：Ｉｊｉ似度割算処理）の
結果により、人力音声に対する類似度が最上位の組を判
定する判定部、７は、認識対象の各単語・文（複数単語
の集合、すなわち単語列）について各複数組の標準音声
バタンデータを格納（記憶）している標準音声バクツメ
モリ、８ば、その選択制Ｔｈｌする標準音声バタン選択
部、９は、認識結果表示、音声入力指示に係る音声合成
部、１０ば、同スピーカ、１１は、認識結果の確認およ
び＃’ｊｉ返し音声人力指示に係るコンノール部、１２
は、上記各部に対する制（叶その他所四の処理を行う制
御部、１３（よ、認識結果に基ついて所望のザービス処
理を行うポスト装置である。

まず、音声認識処理に先立ち、制ｆ卸部１１；、１１、
音声入力に対する準備を入力部２１分析部３．音声区間
検出部４．音声認識部５へ指示するとともに、発声者に
Ｒ’−ｆ　シてｊイ声人力を促すべき人力催告メツセー
ジを出力するように音声合成部９に指示し、それをスピ
ーカ１０から放声ぜしめる（第３図の処理２１）。

これにより、発声者がマイクロフォン１がら所望のば声
を人力する（同処理２２）。

入力部２にＬ１人力音声信号のティノタル変換をした後
、そのディジタル信号を分析部３へ送り、分設１部３は
、その分析をして特徴データを抽出するとともに、その
音声パワー情報ｋ　Ｒハト間検出音１ｓ４へ送る（同処
理２３）。

１゛１声区間検出部４Ｃ１１１、前述のように、あらが
しめ定められた音声パワーの問直ＰＴＩ＋より低いパワ
ーの絹１続する区間の時１川長Ｔから、各単語間の休止
区間を判定し、人力音声の桁θの決定に必要な即語間ボ
ーズ情報を制御部１２へ伝える。

すなわち、ｆｌ？ｌＪ　ｉ’ｉｌ邦Ｂ　１２１：ｉ、そ
の情Ｙ１φにより、前述の条件（２）を満足する回数ｆ
　ノｙウン１−Ｌ（ｋ：＝に４−１）、これを上記時間
、ｋＴが所定時間長Ｂを超ええる時が到来するまで行い
（入力終了全識別して）、入力ｔ′り声を４（ｆｌ成す
る単語数（または数字（ｔｉ数）を判定する（同処理ジ
４）。

人力１４声全４１“ｑ成する単語数が決定すると、：Ｉ
ｊｌ拌１１部１２は、標・ｑ冒３声バタン選択都８に対
し、標・１１１゜音声バタンメモリ７から、当該音声人
力の単語２１文に応じた標準音声バタン全選択するよう
に指示する（同処理２５）。

次に、音声認識部５は、標準咥声バタンと人力呂〜声と
の間でバタンマツチング処理を行い、人力音声に対する
各組の標準音声バタンの類似度を判ンを部６へ伝える（
同処理２６）。

判定ｉ９３　（ｉば、類似度の中で最上で）′ｆ、の（
最も確からしい）組の標準音声バタンを認識結果として
制冗１＋都１２へ伝える（同処理２７）。

人力音声に対して最も確からしい類似度の値が低く、そ
れを認識結果とするのは疑わしいとすべき　リ／エクト
の場合には、！１ｒｌＪ　ｒＤイｊ音１３１２辷１、イ
ハ１；準音ＪＥＴ　バタン選択部８に対して今までと同
一のバタンを選択するように指示するとともに（同処理
３０）、音声合成部９に対して発声者の再発声（内入力
）を促す−・きメツセージｆ３′：出力するように指示
する（同処理３１）。

また、リジェクトでない場合には、匍ｔｆ部［２は、そ
の認識結果が市しいものであるか否か全発声者に確認さ
せるだめの表示とし−Ｃ１確認安求メソセーンを音１声
合成都９かも出力させ、ぞれをスピーカ１０から放声さ
ぜる（同処理２８）。なお上記表示はコンソール部１１
におけるランプ表示等によってもよい。

発声者は、これを１１７ｊｉ取して、人ブ月等声か正し
く認識されたのか、誤認識されたのかを知り、その旨を
コンソール部１１かも制御部１２へ人力する（同処理２
９）。

制ｉ１１部１２への認識結果の正否のイ１イ臼１３人ノ
丹」：、必スしもコンソール部１１における操作による
必要はなく、マイクロフォン１からの確認用音声の人力
によってもよいが、その内容は１１声認識が確実に行わ
れるように、ｒｕ’＋　’１′＋で誤認識をしにくいも
のであることが望ましい。

Ｈｉｌｌ　（ｉ′ｔ４１部１２は部上２ｅ確認情報によ
り、上述の詔識候１１１ｊが正しいものであるときは、
それを認識結果どしてポスト装置１３へ送出し、１つの
音声人力に対する処理を終了ぜしめて次の人力に備える
。

−ツバ誤認識であったという確認情報を受けたときには
、！ｔｉｌｌ　ｉｎ引ηｌ５１２は、リジェクトの場合
と同様に標準音声バタン選択部８に対して今寸でと同一
のイ票準音声バタン全選択するように指示するとともに
（同処、Ｔ！Ｉ！３０）、再入力の催告メノセー／を出
力するよう音声合成部９に指示する（同処理２９）。

以」−の動作を正しい認識結果が得られる寸で繰り返し
て行い、正しい認識結果が得られたときに＆、ｉ、それ
を上述のごとくホスト装置１３へ送出して処理全終了す
る。

このようにして、人力音声について当該構成単語数（ま
たは数字桁数）全決定してから、その単語数に適合した
標準音声バタンを選択して音声認識処理を行うので、文
音声の認識率を格段と向」ニさせることができる。

〔発明の効果〕

以上、詳細に説明したように、本発明よれば、文音声の
各単語間の区間識別を確実に行い、その単語数を決定し
てから認識処理を行うので、文音声についても？１′Ｉ
−語音声に近い認識率が得られ、この種の音声認識ヅス
デムにおける利用範囲の拡大および信頼性、ザービス性
、効率の向−にに顕著な効果が得られる。

【図面の簡単な説明】

第１図は、連続発声数字に対する音声パワーの一列の波
形図、第２図は、本発明に係る音声認識方式の一実施例
の方式構成図、第３図は、同処理フローチャー１・であ
る。１・・・マイクロフォン、２・・・人力部、３・・・分
析部、４・・・音声区間検出部、５・・・音声認識部、
６・・・判定部、７・・・（票亭音声バタンメモリ、８
・・・イ票準音声）々タン選択部、９・・・音声合成部
、１０・・・スピーカ、１１・・・コンソール部、１２
・・・制（財）部、１３・・・ホスト装置。代理人　弁理士　福田幸作己− 只ｍ　１１Ｉｋ”＜い−　　　ドー茅２　目茅３　目

Claims

【特許請求の範囲】

１、認識対象の各４／＋語・文に対応して各複数組の標
準音声バタンデータ全記憶しておき、人力音声の特徴抽
出を行い、その７１す徴データと上記各標準音声バタン
データとのバタンマツチング処理全行い、その類似度が
最上位となるものを認識結果として判定・出力する機能
を有する音声認識装置において、人ノｊ音声の１１−￥
徴抽出を行うとともに、その音声パワーを検出し、その
値が、所定の閾値未満となる継続時間が所定の下限値を
超え所定の上限値以下の範囲内となったとき、その期間
を当該音声人力の各千８ｔ１間の音声休止区間として判
定するようにし、それに基ついて当該音声入力について
の単語数を決定し、ぞのＱｊ、、ｉ、４数に従って標ｉ
Ｖゴ１ノ！１パタンケ選択し、当該１′？Ｉ普認識処理
を行わしめるように１ｌｉｌｌ　ｔＩｌｌｌ・処理する
ことを１１テ徴とする音声認識方式。