JPS5962898A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS5962898A JPS5962898A JP57173176A JP17317682A JPS5962898A JP S5962898 A JPS5962898 A JP S5962898A JP 57173176 A JP57173176 A JP 57173176A JP 17317682 A JP17317682 A JP 17317682A JP S5962898 A JPS5962898 A JP S5962898A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- speech
- section
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
し発明の利用分野〕
本発明は、単語・文(単語列、数字列)の標準音声バタ
ンについて入力音声に対する類似度が最上位のものを判
定・出力する音声認識装置において、文音声(特に、連
続人力された数字列音声)の各単語間(数字の各桁間)
の認識・判定を確実に行い、構成単語数を決定した上で
認識処理をし、その認識率を向」ニさせるだめの音声認
識方式に関するものである。
ンについて入力音声に対する類似度が最上位のものを判
定・出力する音声認識装置において、文音声(特に、連
続人力された数字列音声)の各単語間(数字の各桁間)
の認識・判定を確実に行い、構成単語数を決定した上で
認識処理をし、その認識率を向」ニさせるだめの音声認
識方式に関するものである。
文(単語列)有声の認識については、一般に、その単語
数(数字列の場合は桁数)を既知条件として認識処理が
行われないと、その認1ii1:R’は単atfのみの
場合に比べて到底実用とならない程度に低いものとなっ
てしまう。
数(数字列の場合は桁数)を既知条件として認識処理が
行われないと、その認1ii1:R’は単atfのみの
場合に比べて到底実用とならない程度に低いものとなっ
てしまう。
したがって、この種の音声認識装置における11IE米
の音声d1り識方式は、−例として、あらかしめ発声者
が人力音声の単語数(例えば、数字列の桁λ2)を指定
しておくことにより、誤認識の防」1−をIg+るよう
にしていた。
の音声d1り識方式は、−例として、あらかしめ発声者
が人力音声の単語数(例えば、数字列の桁λ2)を指定
しておくことにより、誤認識の防」1−をIg+るよう
にしていた。
しかしながら、このような従来方式は、発声者に対して
音声入力の都度に余分の気遣い、労力を強いることにな
り、ザービス性、信頼性に欠けるところがあった。
音声入力の都度に余分の気遣い、労力を強いることにな
り、ザービス性、信頼性に欠けるところがあった。
本発明の目的は、上記した従来技術の欠点をなくし、文
音声の各単語間の識別・判定を確実に行い、構成単語数
を決定した上で認識処理をし、その認識率を向上さぜる
ことがてきる音声認識か式を提供することにある。
音声の各単語間の識別・判定を確実に行い、構成単語数
を決定した上で認識処理をし、その認識率を向上さぜる
ことがてきる音声認識か式を提供することにある。
本発明に係る音声認識方式の構成は、認識対象の各単語
・文に対応して各複数組の(票準音声パタンデータを記
憶しておき、人力音声の特徴抽出を行い、その11″i
徴データと−に記11標準音声パタンテータとのバタン
マッチング処理全行い、その類似度が最上位となるもの
を認識結果として判定・出力する機能を有する音声認識
装置において、入力音声の特徴抽出を行うとともに、そ
の音声パワーを検出し、その値が、所定の閾値未満とな
る継続時間が所定の下限値を超え所定の上限値以下の・
1・巳回内となったとき、その期間を当該音声人力の各
単1j4間の音声休止区間°として判定するようにし、
それに基ついて当該音声人力についての単m数を決定し
、その単語数に従って標準音声バタン全選択し、当該音
声認識処理を行わしめるように制叫・処理するものであ
る。
・文に対応して各複数組の(票準音声パタンデータを記
憶しておき、人力音声の特徴抽出を行い、その11″i
徴データと−に記11標準音声パタンテータとのバタン
マッチング処理全行い、その類似度が最上位となるもの
を認識結果として判定・出力する機能を有する音声認識
装置において、入力音声の特徴抽出を行うとともに、そ
の音声パワーを検出し、その値が、所定の閾値未満とな
る継続時間が所定の下限値を超え所定の上限値以下の・
1・巳回内となったとき、その期間を当該音声人力の各
単1j4間の音声休止区間°として判定するようにし、
それに基ついて当該音声人力についての単m数を決定し
、その単語数に従って標準音声バタン全選択し、当該音
声認識処理を行わしめるように制叫・処理するものであ
る。
なお、これを詳述すれば以下のとおりである。
まず、第1図の連続発声数字に対する音声パワーの一例
の波形図に示すように、周囲騒音9回線!(Ci’i等
のレベルを考慮した」二で、人力音声が存在するものと
認めうる音声パワーの最低値(閾値)PTI+全設定し
ておく。
の波形図に示すように、周囲騒音9回線!(Ci’i等
のレベルを考慮した」二で、人力音声が存在するものと
認めうる音声パワーの最低値(閾値)PTI+全設定し
ておく。
この閾値PT■よりも低いレベルの音声パワーの各継続
時間を′[゛とじ、その下限値の所定値ff1A。
時間を′[゛とじ、その下限値の所定値ff1A。
II III内)の音声人力の休止区間および音声人力
の終了の識別ケすることができる。すなわち、次の条件
(1)〜(3)により、 (I l l’ 5 A t7) 、’−きrll、
同一’I’ F?i’i内ノ11内体11声休止ポーズ
)、 (21A < ’II’≦13のときは、各単語間の音
声休止(単語間ポーズ)、 (3) ’II” > Bのときケ:J:、音声人力
の終了、どして判定をすることができ、上記(2)の条
件が生ずる回数から当該音声人力の単語数(数字桁蛯)
を決定することができる。
の終了の識別ケすることができる。すなわち、次の条件
(1)〜(3)により、 (I l l’ 5 A t7) 、’−きrll、
同一’I’ F?i’i内ノ11内体11声休止ポーズ
)、 (21A < ’II’≦13のときは、各単語間の音
声休止(単語間ポーズ)、 (3) ’II” > Bのときケ:J:、音声人力
の終了、どして判定をすることができ、上記(2)の条
件が生ずる回数から当該音声人力の単語数(数字桁蛯)
を決定することができる。
なお、上記各所定時間値A、、13は、認識対象の単語
・文について継1験的、実験的に最適値が求められて設
定されるものである。
・文について継1験的、実験的に最適値が求められて設
定されるものである。
以下、本発明の実施例を図に基づいて説明する。
第2図は、本発明に係る音声認識方式の一実施例の方式
111η成図、第3図は、その処理フローチャートであ
る。
111η成図、第3図は、その処理フローチャートであ
る。
こと−C,lば、音声人力に係るマイクロフォン、2は
、人力音声信号について所定の利得調整・帯域制限を行
った後、そのティ/タル変換をする人力部、3は、人力
されたディ/タル音声信号から人ノJ t’7 /”)
4’ll′徴7”’−I S’抽出−fる分析7jB
、/1v11、人力i′1声のド1声区間の検出処理を
して独立したηう語(数字)を判定する音−角区間検出
部、5N2、人力音声とll−1i 、QV%音声バタ
ンとのバタンマツチング処理を行う音声認識部、6は、
そのバタンマツチング処理(:Iji似度割算処理)の
結果により、人力音声に対する類似度が最上位の組を判
定する判定部、7は、認識対象の各単語・文(複数単語
の集合、すなわち単語列)について各複数組の標準音声
バタンデータを格納(記憶)している標準音声バクツメ
モリ、8ば、その選択制Thlする標準音声バタン選択
部、9は、認識結果表示、音声入力指示に係る音声合成
部、10ば、同スピーカ、11は、認識結果の確認およ
び#’ji返し音声人力指示に係るコンノール部、12
は、上記各部に対する制(叶その他所四の処理を行う制
御部、13(よ、認識結果に基ついて所望のザービス処
理を行うポスト装置である。
、人力音声信号について所定の利得調整・帯域制限を行
った後、そのティ/タル変換をする人力部、3は、人力
されたディ/タル音声信号から人ノJ t’7 /”)
4’ll′徴7”’−I S’抽出−fる分析7jB
、/1v11、人力i′1声のド1声区間の検出処理を
して独立したηう語(数字)を判定する音−角区間検出
部、5N2、人力音声とll−1i 、QV%音声バタ
ンとのバタンマツチング処理を行う音声認識部、6は、
そのバタンマツチング処理(:Iji似度割算処理)の
結果により、人力音声に対する類似度が最上位の組を判
定する判定部、7は、認識対象の各単語・文(複数単語
の集合、すなわち単語列)について各複数組の標準音声
バタンデータを格納(記憶)している標準音声バクツメ
モリ、8ば、その選択制Thlする標準音声バタン選択
部、9は、認識結果表示、音声入力指示に係る音声合成
部、10ば、同スピーカ、11は、認識結果の確認およ
び#’ji返し音声人力指示に係るコンノール部、12
は、上記各部に対する制(叶その他所四の処理を行う制
御部、13(よ、認識結果に基ついて所望のザービス処
理を行うポスト装置である。
まず、音声認識処理に先立ち、制f卸部11;、11、
音声入力に対する準備を入力部21分析部3.音声区間
検出部4.音声認識部5へ指示するとともに、発声者に
R’−f シてjイ声人力を促すべき人力催告メツセー
ジを出力するように音声合成部9に指示し、それをスピ
ーカ10から放声ぜしめる(第3図の処理21)。
音声入力に対する準備を入力部21分析部3.音声区間
検出部4.音声認識部5へ指示するとともに、発声者に
R’−f シてjイ声人力を促すべき人力催告メツセー
ジを出力するように音声合成部9に指示し、それをスピ
ーカ10から放声ぜしめる(第3図の処理21)。
これにより、発声者がマイクロフォン1がら所望のば声
を人力する(同処理22)。
を人力する(同処理22)。
入力部2にL1人力音声信号のティノタル変換をした後
、そのディジタル信号を分析部3へ送り、分設1部3は
、その分析をして特徴データを抽出するとともに、その
音声パワー情報k Rハト間検出音1s4へ送る(同処
理23)。
、そのディジタル信号を分析部3へ送り、分設1部3は
、その分析をして特徴データを抽出するとともに、その
音声パワー情報k Rハト間検出音1s4へ送る(同処
理23)。
1゛1声区間検出部4C111、前述のように、あらが
しめ定められた音声パワーの問直PTI+より低いパワ
ーの絹1続する区間の時1川長Tから、各単語間の休止
区間を判定し、人力音声の桁θの決定に必要な即語間ボ
ーズ情報を制御部12へ伝える。
しめ定められた音声パワーの問直PTI+より低いパワ
ーの絹1続する区間の時1川長Tから、各単語間の休止
区間を判定し、人力音声の桁θの決定に必要な即語間ボ
ーズ情報を制御部12へ伝える。
すなわち、fl?lJ i’il邦B 121:i、そ
の情Y1φにより、前述の条件(2)を満足する回数f
ノyウン1−L(k:=に4−1)、これを上記時間
、kTが所定時間長Bを超ええる時が到来するまで行い
(入力終了全識別して)、入力t′り声を4(fl成す
る単語数(または数字(ti数)を判定する(同処理ジ
4)。
の情Y1φにより、前述の条件(2)を満足する回数f
ノyウン1−L(k:=に4−1)、これを上記時間
、kTが所定時間長Bを超ええる時が到来するまで行い
(入力終了全識別して)、入力t′り声を4(fl成す
る単語数(または数字(ti数)を判定する(同処理ジ
4)。
人力14声全41“q成する単語数が決定すると、:I
jl拌11部12は、標・q冒3声バタン選択都8に対
し、標・111゜音声バタンメモリ7から、当該音声人
力の単語21文に応じた標準音声バタン全選択するよう
に指示する(同処理25)。
jl拌11部12は、標・q冒3声バタン選択都8に対
し、標・111゜音声バタンメモリ7から、当該音声人
力の単語21文に応じた標準音声バタン全選択するよう
に指示する(同処理25)。
次に、音声認識部5は、標準咥声バタンと人力呂〜声と
の間でバタンマツチング処理を行い、人力音声に対する
各組の標準音声バタンの類似度を判ンを部6へ伝える(
同処理26)。
の間でバタンマツチング処理を行い、人力音声に対する
各組の標準音声バタンの類似度を判ンを部6へ伝える(
同処理26)。
判定i93 (iば、類似度の中で最上で)′f、の(
最も確からしい)組の標準音声バタンを認識結果として
制冗1+都12へ伝える(同処理27)。
最も確からしい)組の標準音声バタンを認識結果として
制冗1+都12へ伝える(同処理27)。
人力音声に対して最も確からしい類似度の値が低く、そ
れを認識結果とするのは疑わしいとすべき リ/エクト
の場合には、!1rlJ rDイj音1312辷1、イ
ハ1;準音JET バタン選択部8に対して今までと同
一のバタンを選択するように指示するとともに(同処理
30)、音声合成部9に対して発声者の再発声(内入力
)を促す−・きメツセージf3′:出力するように指示
する(同処理31)。
れを認識結果とするのは疑わしいとすべき リ/エクト
の場合には、!1rlJ rDイj音1312辷1、イ
ハ1;準音JET バタン選択部8に対して今までと同
一のバタンを選択するように指示するとともに(同処理
30)、音声合成部9に対して発声者の再発声(内入力
)を促す−・きメツセージf3′:出力するように指示
する(同処理31)。
また、リジェクトでない場合には、匍tf部[2は、そ
の認識結果が市しいものであるか否か全発声者に確認さ
せるだめの表示とし−C1確認安求メソセーンを音1声
合成都9かも出力させ、ぞれをスピーカ10から放声さ
ぜる(同処理28)。なお上記表示はコンソール部11
におけるランプ表示等によってもよい。
の認識結果が市しいものであるか否か全発声者に確認さ
せるだめの表示とし−C1確認安求メソセーンを音1声
合成都9かも出力させ、ぞれをスピーカ10から放声さ
ぜる(同処理28)。なお上記表示はコンソール部11
におけるランプ表示等によってもよい。
発声者は、これを117ji取して、人ブ月等声か正し
く認識されたのか、誤認識されたのかを知り、その旨を
コンソール部11かも制御部12へ人力する(同処理2
9)。
く認識されたのか、誤認識されたのかを知り、その旨を
コンソール部11かも制御部12へ人力する(同処理2
9)。
制i11部12への認識結果の正否のイ1イ臼13人ノ
丹」:、必スしもコンソール部11における操作による
必要はなく、マイクロフォン1からの確認用音声の人力
によってもよいが、その内容は11声認識が確実に行わ
れるように、ru’+ ’1′+で誤認識をしにくいも
のであることが望ましい。
丹」:、必スしもコンソール部11における操作による
必要はなく、マイクロフォン1からの確認用音声の人力
によってもよいが、その内容は11声認識が確実に行わ
れるように、ru’+ ’1′+で誤認識をしにくいも
のであることが望ましい。
Hill (i′t41部12は部上2e確認情報によ
り、上述の詔識候111jが正しいものであるときは、
それを認識結果どしてポスト装置13へ送出し、1つの
音声人力に対する処理を終了ぜしめて次の人力に備える
。
り、上述の詔識候111jが正しいものであるときは、
それを認識結果どしてポスト装置13へ送出し、1つの
音声人力に対する処理を終了ぜしめて次の人力に備える
。
−ツバ誤認識であったという確認情報を受けたときには
、!till in引ηl512は、リジェクトの場合
と同様に標準音声バタン選択部8に対して今寸でと同一
のイ票準音声バタン全選択するように指示するとともに
(同処、T!I!30)、再入力の催告メノセー/を出
力するよう音声合成部9に指示する(同処理29)。
、!till in引ηl512は、リジェクトの場合
と同様に標準音声バタン選択部8に対して今寸でと同一
のイ票準音声バタン全選択するように指示するとともに
(同処、T!I!30)、再入力の催告メノセー/を出
力するよう音声合成部9に指示する(同処理29)。
以」−の動作を正しい認識結果が得られる寸で繰り返し
て行い、正しい認識結果が得られたときに&、i、それ
を上述のごとくホスト装置13へ送出して処理全終了す
る。
て行い、正しい認識結果が得られたときに&、i、それ
を上述のごとくホスト装置13へ送出して処理全終了す
る。
このようにして、人力音声について当該構成単語数(ま
たは数字桁数)全決定してから、その単語数に適合した
標準音声バタンを選択して音声認識処理を行うので、文
音声の認識率を格段と向」ニさせることができる。
たは数字桁数)全決定してから、その単語数に適合した
標準音声バタンを選択して音声認識処理を行うので、文
音声の認識率を格段と向」ニさせることができる。
以上、詳細に説明したように、本発明よれば、文音声の
各単語間の区間識別を確実に行い、その単語数を決定し
てから認識処理を行うので、文音声についても?1′I
−語音声に近い認識率が得られ、この種の音声認識ヅス
デムにおける利用範囲の拡大および信頼性、ザービス性
、効率の向−にに顕著な効果が得られる。
各単語間の区間識別を確実に行い、その単語数を決定し
てから認識処理を行うので、文音声についても?1′I
−語音声に近い認識率が得られ、この種の音声認識ヅス
デムにおける利用範囲の拡大および信頼性、ザービス性
、効率の向−にに顕著な効果が得られる。
第1図は、連続発声数字に対する音声パワーの一列の波
形図、第2図は、本発明に係る音声認識方式の一実施例
の方式構成図、第3図は、同処理フローチャー1・であ
る。 1・・・マイクロフォン、2・・・人力部、3・・・分
析部、4・・・音声区間検出部、5・・・音声認識部、
6・・・判定部、7・・・(票亭音声バタンメモリ、8
・・・イ票準音声)々タン選択部、9・・・音声合成部
、10・・・スピーカ、11・・・コンソール部、12
・・・制(財)部、13・・・ホスト装置。 代理人 弁理士 福田幸作 己− 只m 11Ik”<い− ドー 茅2 目 茅3 目
形図、第2図は、本発明に係る音声認識方式の一実施例
の方式構成図、第3図は、同処理フローチャー1・であ
る。 1・・・マイクロフォン、2・・・人力部、3・・・分
析部、4・・・音声区間検出部、5・・・音声認識部、
6・・・判定部、7・・・(票亭音声バタンメモリ、8
・・・イ票準音声)々タン選択部、9・・・音声合成部
、10・・・スピーカ、11・・・コンソール部、12
・・・制(財)部、13・・・ホスト装置。 代理人 弁理士 福田幸作 己− 只m 11Ik”<い− ドー 茅2 目 茅3 目
Claims (1)
- 1、認識対象の各4/+語・文に対応して各複数組の標
準音声バタンデータ全記憶しておき、人力音声の特徴抽
出を行い、その71す徴データと上記各標準音声バタン
データとのバタンマツチング処理全行い、その類似度が
最上位となるものを認識結果として判定・出力する機能
を有する音声認識装置において、人ノj音声の11−¥
徴抽出を行うとともに、その音声パワーを検出し、その
値が、所定の閾値未満となる継続時間が所定の下限値を
超え所定の上限値以下の範囲内となったとき、その期間
を当該音声人力の各千8t1間の音声休止区間として判
定するようにし、それに基ついて当該音声入力について
の単語数を決定し、ぞのQj、、i、4数に従って標i
Vゴ1ノ!1パタンケ選択し、当該1′?I普認識処理
を行わしめるように1lill tIlll・処理する
ことを11テ徴とする音声認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57173176A JPS5962898A (ja) | 1982-10-04 | 1982-10-04 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57173176A JPS5962898A (ja) | 1982-10-04 | 1982-10-04 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5962898A true JPS5962898A (ja) | 1984-04-10 |
Family
ID=15955497
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57173176A Pending JPS5962898A (ja) | 1982-10-04 | 1982-10-04 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5962898A (ja) |
-
1982
- 1982-10-04 JP JP57173176A patent/JPS5962898A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4867804B2 (ja) | 音声認識装置及び会議システム | |
| US20060020460A1 (en) | Voice authentication system | |
| JPS5944639B2 (ja) | 音声による異同認識方式における標準パタ−ン更新方法 | |
| JPH0876788A (ja) | 音声認識における混同しやすい語の検出方法 | |
| JPS58130393A (ja) | 音声認識装置 | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JPH11231895A (ja) | 音声認識方法及びその装置 | |
| JPS5962898A (ja) | 音声認識方式 | |
| JP5596869B2 (ja) | 音声認識装置 | |
| JPH11311994A (ja) | 情報処理装置および方法、並びに提供媒体 | |
| JP3259734B2 (ja) | 音声認識装置 | |
| JPS5962899A (ja) | 音声認識方式 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JPS59147397A (ja) | 音声認識制御方式 | |
| JPS5962900A (ja) | 音声認識方式 | |
| JPS5962897A (ja) | 音声認識方式 | |
| JPH10124090A (ja) | 音声認識方法およびこの方法を実施する装置 | |
| JPH11184492A (ja) | 話者認識装置及びその方法 | |
| JPS6331798B2 (ja) | ||
| JPH0534679B2 (ja) | ||
| JPH0316038B2 (ja) | ||
| JPS6312000A (ja) | 音声認識装置 | |
| JPS5946695A (ja) | 音声認識方式 | |
| JPS59195300A (ja) | 音声認識装置 | |
| JPS6227398B2 (ja) |