JPS5946696A

JPS5946696A - 音声認識方式

Info

Publication number: JPS5946696A
Application number: JP57155983A
Authority: JP
Inventors: 徳子松井; 俊宏木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-09-09
Filing date: 1982-09-09
Publication date: 1984-03-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、認識対象の各単語に対応して複数組の標準音
声パタンを記憶しておき、入力音声に対する類似度が最
上位となる組の標準音声パタンを認識結果として出力・
表示する音声認識装置において、その認識率を向上させ
るだめの音声認識方式に関するものである。

この種の音声認識装置における従来の音声認識方式は、
例えば、一連のザービスが完了する寸で、内蔵されてい
る＋、Ｌｄ組の全標準音声パタンを使用して音声＝　ｉ
＝処理を行わせるようにしていたので、ある特定の発声
者による特定の単語が、ある特だ組の標準音声パタンに
関して誤認１試、リジェクトを起こし易いことがあり、
そのような場合には、一連の音声認識処理において誤認
識、リジェクトが当該単語について集中・多発をすると
いうおそれかあった。

〔元明の目的〕

本発明の目的は、上記した従来技術の欠点をなくシ、特
に、発声者別に生ずる、特定単１ｉｎの標／１１；音声
パタンの特定組に対する誤認識を防１．１−Ｌ、ｇ：α
識率を総合的に向上することができる音声、４識方式を
４鹸することにある。

〔発明の概要〕

本発明に係る音声認識方式の（１１′ｆ成は、認識対象
の各単語に対応して複数組の標準音声バタンデータを記
１意しておき、入力音声の特徴抽出を行い、その特徴デ
ータと上記各標準音声バタンデータとの類似度Ｈ」算処
理を行い、その類似度が最上位となる標準音声パタンを
認識結果として判定・出力する機能を有する音声認識装
置において、音声認識処理に先立って最初に入力される
所定のキーワードについてクラスタリングを行っておく
ことにより、そのクラスタリングの結果に基づき、当該
入力音声に対応する標準音声バタンの組を選択し、それ
に従って以後の一連の音声８Ｍ　ｊｊｌ＆処理を行わし
めるように利仰・処理するものである。

これを要するに、音声認識処理の最初に所定のキーワー
ド（ｊ’ｉｌＪえは、各個人の発ｆＶ３特徴の基本とな
る５ｍ音「あ」、「い」、「う」、「え」。

「お」）を発声せしめ、その各特徴パラメータ（スペク
トラム）を求め、これらと標準音声パタンの各組の対応
語との相互距離を計算し、その最も近い標準音声パタン
の組を当該入力音声の正認識が得られ易い対応するもの
として選択し、以後の音声認識処理を行うようにするも
のである。

〔発明の実施例〕

以下、本発明の実施例を図に基づいて説明する。

第１図は、本発明に係る音声認識方式の一実施例の方式
構成図、第２図は、その処理フ「Ｊ−チャートである。

ここで、１は、制御部であって、音声ｉｊＪ識表置の各
部に対する制御をして所要の認識処理を行い、その認識
結果をホスト装置ｉ＃１４ｓＴに伝え、これに所望のザ
ービス蟲埋を行わしめるもの、２ば、認識対象の各単語
に対応して各羨故組の標準１１声バタンデータが用意さ
れている標準音１）イパタンメモリ、３は、標準音声パ
タン・パ択部、４−２、Ｍ声ｎ２織部、５け、そのバタ
ンマツチングの結果に応して人力音声に対する標準音声
バク／の組を判定する判定１′ｌ］Ｓ、６Ｌ」：、人力
８声がら／１１徴ノー　夕を抽出する分析部、７は、音
声入力に係るマイク「７ノ劃ン、８は、認識結果の表示
に係る）イー声合成部、９は、同スピーカ、１０は、認
識結果の確認および繰返し音声人力に係るコンソール部
、１１は、分析された入力音声バタンについてクラスタ
リングを行うだめのクラスタリング部であ）。

まず、音声認識処理に先立ち、制御部１は、音声入力に
対する準備を分析部６．クラスタリング部１１に指示し
、クラスタリングの対象となるべき標準音声パタンを標
準音声バタンメモリ２から選択するように標準音声バタ
ン選択部３に指示する（第２図の処理２１）。

これらの４（へ備が完了すると、発声者に対してキーワ
ード（例えば、母音「あ」、「い」、「う」。

「え」、「お」）の音声入力を促すべき入力催告メツセ
ージを出力するよう音声合成部８に指示するのでスピー
カ９から上記入力催告メツセージが放声される（同処理
２２）。

コレにより、発声者がマイクロフォン７かも上記キーワ
ードの音声を入力すると（同処理２４）、分析部６は、
入力された音声を分析して特徴データを抽出する（同処
理２５）。

ここで、クラスタリング部１１−は、標準音声バタン選
択部３が示す標準片声バタンと」−：記入カｉイ声パタ
ンとの間でクラスタリング（１クリえば、多変量解析の
分野における階層的クラスタリングと同様なもの）を行
い、」二記キーワー　１・が標準音声パタンのいずれの
組に属しく対応）でいるかを調べる（同処理２６）。

制イ卸部１は、上記クラスタリングの結果より、標準音
声バタン選択部３に対し、以後の音声認識処理に備えて
どの組の標準音声パタンを選択するかを指示する（同処
理２７）。

次に、発声者に対して本来の音声□想識をずへき音声入
力をするように、入カ催告メッセー　ジを音声合成部８
経出でスピーカ９から放声ゼしめる（同処理２３）。

発声者がマイクロフォン７がら音声を人力−７−ルと（
同処理２４）、分析部６は、人力さ１１．／こ１゛１声
を分析して特徴データを抽出する（同処理２５）。

音声認識部４は、標準音声バタン選択部３が示す標準音
声パタンと、」二記入カ音−辺バタンとの間でパタンマ
ツチングを行い、その結果の類似度を判定部５へ送る（
同処理２８）。

判定部５は、類似度が最」１位のものを認識結果とし７
て制御？ｉ′ＩＳ１へ送る（同処理２９）。　　　　□
人力音声に対して最も確からしい類似度の値が低くて認
識結果として決定するのは疑わしいとすべきりジエクト
の場合には、制？ｉ１１＋部１は、標準音声パタン選択
部３に対して今寸でと同一の標準音声パタンを選択する
ように指ンＪミしく同処理３０）、更に音声合成部８に
対して再音声人力を促すメツセージをスピーカ９から放
声せしめるように制御する（同処理３１）。これにより
、上述の処理２４以降が繰り返される。

制御部１ば、その認識結果が正しいものであるか否かを
発声者に確認させるだめの表示として、確認要求メツセ
ージを音声合成部８から出力させ、それをスピーカ９か
ら放声さぜる（同処理３２）。

発声者は、これを聴取して入力音声が正しく認識された
のか、誤Ｍｇ　ｉｉ＋ｉ’！されたのかを知り、その旨
をコンノール部１０から開側］部１へ入力する（同処理
３３）。

制御部１−＼の認識結果の正否の確認人力は、必ずしも
コンノール部１０における操作による必要はなく、マイ
クロフォン７から確認用音声の入力に」：ってもよいが
、その内容は音声認識が確実に行われるように、１４１
単で誤認識しにくいものであることが望寸しい。

制姐ｊ部］は、上記確認情報により、上述の認識候補が
正しいものであるときは、それを認識結果としてホスト
装置１−Ｉ　Ｓ　Ｔへ送出し、１つの人力音声に対する
処理を終了せしめて次の人力に備える。

一方、誤認識であったという確認’１ｉＩｒ報を受けだ
ときには、？１ｔｌＪ御部１は、上述のリジェクトの場
合と同様に、音声合成部８Ｖこ対し、画び回−の１°１
声入力をするようにメツセージ送出をせしめ、用度、上
述の処理２４以降の認識を行う。、以上の動作を一連のザービスが完了する斗で繰り返して
行う。

このように本実施例によれは、発声者による！１１１定
の単語の、特定の組の標準音声パタンに対ずイ）誤認識
が減少し、認識率を向上せしめることができる。

〔発明の効果〕

以上、詳１１ｉ１１に説明したように、本発明によれば
、谷発声者ごとに適合した標準音声パタンによって音声
ＭＩＪ　ｉｊｍ　Ａ理をすることができるので、特定者
による発声が標準音声パタンの特定絹に誤認識されるこ
とが減少し、音声認識装置における認識率向上。

ザービス性向上に顕著な効果が伶られる。

【図面の簡単な説明】

第１図は、本発明に係る音声認識方式の一実施例の方式
構成図、第２図は、その処理フローチャー１・である。１・・・制ｆｌ１１ｊ部、２・・・標準音声パフ／メモ
リ、３・・・標準音声バタン選択部、４・・・音声認識
部、５・・・判定部、６・・・分析部、７・・・マイク
ロフォン、８・・・音声合成部、９・・・スピーカ、１
０・・・コンソール部、１１’−”７ｉ　２７　’）　
’−り“Ｊ３．　代理人　弁理士　福田幸作（ほか１名
）＄　１　目

Claims

【特許請求の範囲】

１、認識対象の各単語に対して泉数組の標準音声パタン
データを記憶しておき、人力音声の特徴抽出を行い、そ
の特徴データと」二記谷標準音声パタンデータとの類似
度計算処理を行い、その類似度が最上位となる標準音声
パタンを認識結果として判定・出力する・吹射を有する
音声認識装置において、音声認識処理に先立って最初に
入力される所定のキーワードについてクラスタリングを
行っておくことにより、そのクラスタリングの結果に基
づき、尚該入力音声に対応する標準音声パタンの組を選
択し、それに従って以後の一連の音声認識処Ｊｇｊｌを
行わしめるように制御・処理することを特徴とする音声
認識方式。