JPS5962899A

JPS5962899A - 音声認識方式

Info

Publication number: JPS5962899A
Application number: JP57173177A
Authority: JP
Inventors: 徳子松井; 俊宏木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-10-04
Filing date: 1982-10-04
Publication date: 1984-04-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕不発明ｄ１、あらかじめ用意された複数組の標準旨パ・
バク／について入力音声に対する類似度が最上位のもの
を刊ボ・出力する音声認識装置において、入力）イ声の
各単語内の音声休止の状態を識別し、それに適合した標
準Ｍ声パタンを選択して認識処理を行い、そのＮ５　ｎ
ｈ率を同上させるだめの音声認識方式に関するものであ
る。

〔従来技術〕

この種のば声認識装置における従来の汁声認識方テ（ｄ
ｌ、一般に、用意されているずへての、または前もって
決定しうる特７岨イ屯囲（独）、＋１）の全標準１；ｉ
声バタノを選択して入力音声とのバタノマノチノクをし
、その類似度を求めて当該入力音声の単語について認識
処理をイーｊうようにしていた。

しかしながら、それではバタンマツチング処理をずべき
標準音声バタノ数が多いので、特定光声者斗だば／ｒ！
ｆ定単語相互＋ｉ４Ｊ等において、ある程度の誤認識を
避けることができず、認識率も通常の一定限度以」二に
上げることが困難であった。

〔発明の目的〕

本発明９目的は、」−二記したｕｒｂ来技術の欠点をな
くシ、入力音声の各単語内の音声休止の状態を識別し、
それに適合した標準音声バタンを選択して認識α埋を行
うことにより、その認識率を通常の極限以上に向上する
ことができる音声認識方式を提供することにある。

〔発明の１既−要〕本発明に係る音声Ｆｉｇ　ｉ１ｉ！ｔ；方式の信成は、
認識対象の各単語・文に対応し２て谷復数組の標準音声
バタンデータを記憶しておき、人力音声の特徴抽出を行
い、その特徴データと上ハ己（票−（φ音声バタンデー
タとのバタンマツチング処理を行い、その類似度が最−
４−位となるものを認識結果として判定・出力するＩ・
成畦を有する音声認識装置において、人力音声の′ｌｆ
徴抽高抽出うとともに、その音声パワーを検出し、入力
音声の各単語の音声区間について、犀語内の音声休止と
認められるべき状態の有無を識別し、それに基づいて対
応する単語にｌＶｊする標準ｄ？パタンを選択し、当該
音声認ｉｉｉ！’：処理を行わしめるように１ｔｌＪ　
１ｍｌ・処理ず□ものである。

なお、単語内に音声休止がイア在するときには、その回
数を割数しでおき、これにＸ１応する単語りｔｌ関する
。漂辛昌声バタノを洒択して当、Ｊ、音声３ｇ識処理を
行うことにより、更に１ｉｉｉｊ　ｉｉ＋＋にイ環の１
・り上を図ることができ名。

ここで、以」−を詳述ずれは次のとおりである。

まず、第１図の連続発声式字に対する音声パワーの一例
の波形図に示すように、周囲Ｍ　’８’　＋回線雑音前
のレベルを考慮した上で、入力音声が存在するものと認
めうる音声パワーの最低値（閾値）１）Ｔ　Ｉ＋を設定
しておく。

この閾１１ｔｉＰ　Ｔ　Ｉ＋よりも低いレベルの音声パ
ワーの各ｉ１Ｊ　ａ　ｌｉ＃間を′１゛とし、その下限
１直の所ノセ１直をｌ＼、上Ｉ沢イ回のハ１定１直を１
３とすれは、以下°の条汀に（Ｋｌってｆｊｊ詔同、単
語内（第１図では、数字”ｌ−２°゛間、数字ＩＩ　Ｉ
ＩＩ内）の音声入力の休止区間およびＭ声入力の終了の
識別をすることができる。ずなわち、次の粂１牛（１）
〜（３）により、（１）Ｔ≦Ａのとさケよ、同−単語内
の音声休止（単語内ポーズ）、（２）　　Ａ　＜　’ＩＩ’≦Ｂのときｄｌ、各単語間
の音声休止（単語間ボース）、（３Ｊ　　Ｔ　＞　８のときは、音声入力の終了、とし
て判定をすることができ、上Ｍ＋Ｊ（＋）の条件が生ず
る回数から当該音声入力の各単語内の音声休止回数を決
尾することができる。

なお、上記各所定時間値Ａ、Ｂは、認識対象の単ｉｉＮ
・文について経験的、実験的に最適値が求められて設定
されるものである。

〔発明の実施例〕

以下、本発明の実施例を図に基づいて説明する。

第２図は、本発明に係る音声認識方式の一英怖例の方式
１１へ成図、第３図ｔよ、その処理フローチャートであ
る。

ここで、■は、音−声人力に１糸るマイクロフォン、２
は、入力音声信号について新人ピの利得調整・帯（或制
限を行った後、そのディジタル変挨をする入力部、３は
、人力されたティ／タル音声信号から入力音声の・特徴
データを抽出する分析部、４は、入力音声の音声区間の
゛演出処理をして独立しだｒ、１１語（数字）を判定す
る１音声区間検出部、５は、入力音声と標準音声パタン
とのバタンマツチング処理を行う音声認識部、６は、そ
のバタンマツチ／り処理（類１以度言１算処理）の結果
により、入力Ｂ声に対する類似度か最上位の組を判定す
る判定ｊ？ｌｊ、７は、認識対象の各単語・文（複数単
語の集合、すなわち単語列）について各複数組の標準音
声バタンデータを格納（記憶）している標準音声バタン
メモリ、８は、その選択制ｇ＋１をする標準音声バタン
選択部、９は、認識結果表示、音声入力指示に係る音声
合成部、１ｏは、同スピーカ、１１は、認識結果の確認
および繰返し音−声入力指示に係るコンソール部、１２
は、上記各部に対する制旬（ｊその他所要の処理を行う
制ｊｉｌ１部、１３は、認識結果に基づいて所望のザー
ビス処理を行うホス］・装置である。

１ず、音声認識処理に先立ち、制御部１２は、音声入力
に削する準備を人力部２７分析部３．音声区ｊＨノ・炭
田部４．叶声認識部５へ指示するとともに、発声者に対
して音声入力を促すべき入力催告メツセージを出力する
よう音声合成部９に指示し、それをスピーカ１０から放
声ぜしめる（第３図の処理２１）。

こ龜れにより、発声者がマイクロフォン１から所望の音
声を入力する（開始１！ｌ　２２　）。

入力部２ｄ：、入力酔声イぎ号のティジタル変換した改
、そのゲイジタル悟号を分析部３へ広り、分析部３は、
その分析ケして’ｈ徴データを抽出するとともに、その
ｇ小パワー情報を名声区間瑛出部４へ送る（同処理２３
）。

ｒＸ声ハト灰出部４は、前述のように、′ｆｒ単語の１
イ声区間について、あらかしめ定められたＢ小パワーの
閾１’：ｉｊ、　Ｐ　Ｔ　Ｉｔより低いパワーの継続す
る区間の時間長′１゛から、その１イ声休止後能を識別
する。

すなわち、音声区間演出部４は、単語内ポーズを炭山す
ることに単語内ボース発生情報を、訃だけ当該単語の音
声区間の終了の際に全単語内ボーズ回数情￥１徒を開側
ｊ部１２へ伝える。

ｆｊｉｌＪ　！ｉｔイノｒ、ｆｌ≦１２に１その清報に
より、前述の条件（１）を満足する回数をカランＩ−Ｌ
　（１）　ニー１）　−１−１）、これを上記時間長Ｔ
が所定時１川長Ｂを超える時か到来する寸で行い（人力
終了を識別して）、各単語中の音声休止の回数を求める
（同処理２４）。

なお、丙１１敗発声（４−語ことに区切っての発声）の
場合には、上記時間長゛１′か上記所だ値ｌ＼を超えた
ときに処理２４を終るようにすれはよい。

単語寸だ（は文についての終端が逆出されてもツノ１り
／り値１）　−〇である場合には開面Ｈ１ｊ　１２は、
人力片声中に単詔内ボースのある単語が含１れていない
ものと判定し、標準音声パタン逃択部８に対し、休止の
ある単語の標準音声バタンを除くように指示する（同処
理２５）。

まだ、上記カウンタ値ｐ〜０の場合には、単語内ポーズ
のある単語に関する標準音声バタンのみを選択するよう
にする。なお、この場合において、単語内ボーズが存在
するというだけではなく、その回教（＝ｐ）に応じて対
応する単語に閂−Ｊ−る酵準音ｊ！：ハタノを選択する
ようにするこ占ができ、これによって更に認識率を向上
させることができる。

次に、音声認識部５は、その標準音声バタンと入力音声
との間でバタンマツチング処理を行い、入力音声に対す
る各組の標準音声バタンの類似度を判定部６へ伝える（
同処理２６）。

判定部６ｄ２、類似度の中で最上位の（最も確からしい
）組の標準音声バタンを認識結果としてｉｌｉ制御部１
２へ伝える（同処理２７）。

入力音声に対して最も確からしい類似度の値が低くそれ
を認識結果として出力するのは疑わしいとすべきリジェ
クトの場合には、制御部１２は、標準音声バタン選択部
８に対して今までと同一のバタンを選択するように指示
するとともに（同処理３０）、音声合成部９に対して発
声者の丙発声を促すメッセー　ジを出力するように指示
する（同処理３１）。

ま／こ、リジェクトではない場合には、制御部■２で、
認識結果か正しいものであるか否かを発声者に確認させ
るだめの表示として、認識要求メツ十−・／を音声台ノ
戊部９から出力させ、それをスピーカ１０から放声さぜ
る（同処理２８）。なお、上記表示はコンソール部１１
におけるランプ表示等によってもよい。

発声者は、これを聴取して、人力音声〃・正しく認識さ
れ／このか、誤認識されたのかを知り、その旨をコンソ
ール部ＩＩから制イ卸部１２へ入力する（同処理２９）
、。

！１ｉｌｌ　１Ｉ）Ｉｔ　’Ｒ１１］、　２への認識結
果の正否の確認入力Ｑよ、必すしもコンノー、ル部１１
における操作による必要Ｃ」二なく、マイクロフォン１
からの硫化、用計声の人力によってもよいが、その内容
に、ば声認識力曜ず実に行われるように簡単でμ４ＨＥ
　ｆｉｊ！ｋをしにくいものであることが望ましい。

１１ｉＩＩＩＩｌ」１部１２は、−に記確認情報により
、−１−１ボの認識１鍵補が正しいものであるときは、
それを認識結果としてポスト装置１３へ送出し、１つの
入力音声に対する処理を終了せしめて次の入力に１ｉｉ
ｆｉえるっ一方、誤認識であったという確認情報を受け
だときには、制御ｆ（］部１２は、リジェクトの場合と
同様に標準音声パタ／選択部８に対して今寸でと回−の
け準は声パタンを選択するよう指示するとともに（開始
ｒ１７！３０　）　、内入力の催告メツセージを出力す
るよう音声合成部９に指示する（同処理３１）。

以上の動作を正しい詔晶（７請果が得られる寸で繰り返
ｊ〜で行い、正しい認識結果が得られたときにＣ」１、
それを上述のこと〈ポスト装置１３へｌＡ出して）・四
」ルを終了する。

このようにして、標７￥２富声パタ／の選択範囲を狭め
て中６ａ内ボースに関する情報をイ：］加し、狩Ｊ似度
を求めて認識処ＩＩｌ！を・行うので、特に単語内ポー
ズのある中、詔、　ない！枦ｄ１１出］のｈ呉を忍ｉ哉
がなくなり、認識率を従来極限と考えられていだ値以上
に向」〕させることかてきるっ〔）色間の効果〕す、上、詳絹１に説明したように、本発明によれは、入
力音声の各単語内のｄ小休止状態を識別し、それに適合
し／こ標ｉＶ４高声パタ／によってｔｄ識処理を行うこ
とかできるので、その認識率を通常の極限以」−に向」
二することができ、この種の音声認識゛／スデムにおけ
る′Ａｌｊ用・１・α囲の拡大および信頼性、サーヒス
性、効率の向」二に顕著な効果か何られる。

【図面の簡単な説明】

第１図は、連続発声数字に対する音声・ζワーの一例の
波形図、第２図は、本発明に係る音声認識方式の一実測
例の方式１ｐ）成図１．第３図は、同処理ノロ−チャー
Ｉ・である。】　・マイクロフォン、２・・・人力部、３・・・分析
部、４・・音−ハト間侠出部、５・・・ば声認識部、６
・・・刊に部、７　・標準音声パフ／メモリ、８・・・
標準音声・２タノ選択Ｈ−１ｓ　、　　９・・・Ｂ声合
成部、１０　　・スピーカ、１１・・コノノール７”３
、］、　２・・・ｊｌｉｌｌ　１ｆｆ４１　ｔｆ１５　
、’　”　　・、１ミスト装置。代理人　ｊ（埋土　福Ｈ］幸作（ほか１名）茅　ｌ　躬Ｔ≦Ａ　　４く７区８　　　　　　　　　　　　　　１
ン　ε茅２　図

Claims

【特許請求の範囲】１゜認識対象の各単語・文に対応して各複数組の標準音
声バタンデータを記・億しておき、入力音声の特徴抽出
を行い、その％徴テークと上記標・■音４ｔバタンテー
タとのバタンマツチング処理を行い、その頑似度が最−
」−位となるものを認識結果として判定・出力する１幾
能を有する音声認識装置において、入力音声の特徴抽出
を行うとともに、その音声パワーを険出し、人力音声の
各噴詔の昔ハト同について、即に８内の音声休止と認め
られるへき状態の有無を識別し、それに基ついて対応す
る中詰に関する標・−ｒｊｔ等汐パタバタ〕態択し、当
該音声認識処矧１を行わしめるようにｊｌｉｌ、ｌ　ｊ
＋ｌｌＩ・処理することを特徴とするば声認識方式。２、特許請求の範囲第１項記載のものにおいて、入力音
声の単招内に阿声休止か存在するときは、その回数を割
数しておき、これに対応する単語に関する標準音声パタ
／を童択して当該音声で、鐵処理を行うようにしだ音声
認識方式。