JPH03245194A - 単語音声認識方式 - Google Patents

単語音声認識方式

Info

Publication number
JPH03245194A
JPH03245194A JP2041303A JP4130390A JPH03245194A JP H03245194 A JPH03245194 A JP H03245194A JP 2041303 A JP2041303 A JP 2041303A JP 4130390 A JP4130390 A JP 4130390A JP H03245194 A JPH03245194 A JP H03245194A
Authority
JP
Japan
Prior art keywords
word
distance
speech
standard pattern
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2041303A
Other languages
English (en)
Inventor
Fumihiro Tanido
谷戸 文広
Norio Higuchi
樋口 宜男
Kazuoki Katagishi
一起 片岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP2041303A priority Critical patent/JPH03245194A/ja
Publication of JPH03245194A publication Critical patent/JPH03245194A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声の認識方式に係わり、特に、不特定多数
の利用者を対象とした単語音声認識方式において、認識
対象単語に類似単語などか含まれる認識方式に関する。
(従来の技術) 単語音声認識方式は、荷物の仕訳等の作業のため手によ
る入力手段か用いられない分野などに広く利用されてい
る。単語音声認識方式ては;2識対象とする単語のセッ
トによらず常に高い正確さで単語音声が32.識される
必要がある。
従来の単語音声認識方式ては、入力された単語音声とあ
らかしめシステムに記憶されている各単語毎の標準パタ
ーンとの間で距離が最小のものが認識結果とされている
(発明が解決しようとする課題) 上述した従来技術において、認識対象単語に類似した単
語がある場合などにはこれらの単語音声が入力された場
合、誤認識を生じる可能性があるが、このような場合で
も常に距離が最小の単語候補のみが出力されてしまい、
この結果誤った単語を認識結果とすることか生してしま
う。
本発明はこのような従来の課題を解決するものであり、
認識対象単語に類似単語が含まれる場合や、発音があい
まいで単語の識別が比較的困難な場合などでも高い割合
で正しく単語音声を認識できる単語音声認識方式を提供
することを目的とするものである。
(課題を解決するための手段) 本発明の特徴は、入力された音声信号を音響分析し、あ
らかしめ登録されている単語音声の標準パターンとDP
マツチングにより比較して、類似度が最大すなわち距離
が最小の単語を認識結果とする単語音声認識方式におい
て、単語音声の認識結果に曖昧性がある場合にシステム
側より認識結果に基づいて適切な質問を行ない利用者に
確認させるもので、入力音声の音声パターンと標準音声
パターンとを比較し、該比較結果としての距離が最も小
さい標準パターンの該距離がある閾値よりも小なるとき
で、かつ該比較結果としての距離か最も小さい標準パタ
ーンの該距離の係数Xを掛けた範囲内にある標準パター
ンを選択するときの係数Xの値が1.1から1.3の範
囲とすることで、一つの単語音声もしくは複数の単語音
声群を選択することを特徴し、認識対象単語の標準パタ
ーンと距離が小さいほうから上位N位までの求めた単語
から単語候補が一意的に定まる場合には次の処理へ、そ
うでない場合には確認処理を行なう手段を備えるための
ものである。
(実施例) 第1図は本発明の一実施例の構成を示ずものである。
音響分析部1は入力された音声信号を短時間(本実施例
では10[11S程度)毎に音響分析して特徴パラメー
タの系列に変換するための手段である。
単語音声検出部2は特徴パラメータの系列から単語音声
の始端候補区間と終端候補区間を求める手段である。
最適経路発見部3は始端候補と終端候補のすべての組み
合わせの中から標準パターンと最も最小の距離を与える
組み合わせを発見し、これを各標準パターンとの距離と
し、各発見した標準パターンとの距離が小さい上位N位
までの単語候補を求める手段である。標準パターン記憶
部4はシステムに登録された各単語の標準パターンを記
憶する標準パターン記憶手段である。
音声合成動作決定部5は登録単語の標準パターンとの距
離が小さい上位N位までの単語候補を求めその結果に応
じてシステムの動作を決定する手段である。
上述、動作決定部5か本発明を適用した部分である。
第1図の動作決定部5以外の各部は同時特許出願した発
明「単語音声認識装置」での実施例と次の点を除いてず
へて同様である。
同時出願「単語音声認識装置」では、最も距離の小さい
単語候補1つを求めていたか、本発明では発見した標準
パターンとの距離が小さい上位N位(Nは2以上の自然
数)までの単語候補を求めているところか異なる。
次に上記実施例の動作について説明する。
音声入力は音響分析部1により特徴パラメータの系列に
変換し、その結果を出力する。
単語音声検出部2ては音声人力の特徴パラメータから単
語音声の始端候補区間及び終端候補区間を求める。以下
、第2図により始端候補区間及び終端候補区間の決定方
法を説明する。なお、特徴パラメータは短時間平均エネ
ルギ、零交差数、および音声スペクトルで構成しである
まず、特徴パラメータの中から短時間平均エネルギか閾
値E2を越えた時点P2を求める。また、P2より以前
で平均エネルギか閾値E1を最も近傍で越えた時点P1
を求める。なお、閾値E1と閾値E2の関係はE 1 
<E2である。
時点P1より以前の250m秒の区間について特徴パラ
メータの中の零交差数が閾値Nより大になる時点の数か
3以上あれば、Pl側に最も近い時点で零交差数かNよ
り大となった時点POを求め、そうでない場合はPlよ
り以前のある時点(本実施例では250m秒)をPOと
する。このPOからP2を始端候補区間とする。
終端候補区間については逆方向に同一の論理を適用して
求める。
つまり、特徴パラメータでP2以降について次のように
解析する。
特徴パラメータの中から短時間平均エネルギが閾値E2
を割り込んだ時点P3を求める。また、P3より以降で
平均エネルギが閾値E1を最も近傍で割り込んだ時点P
4を求める。時点P4より以降の250m秒の区間につ
いて特徴パラメータの中の零交差数か閾値Nより小にな
る時点の数が3以上あれば、P4側に最も近い時点で零
交差数がNより大となった時点P5を求め、そうでない
場合はP4よりある時間(本実施例では250m秒)以
降の時点をP5とする。このP3からP5を終端候補区
間とする。
最適経路発見部3ては標準パターン記憶部4に記憶され
ている各単語の標準パターンと単語音声検出部2から得
られた単語音声の特徴パラメータとの間で、第3図に示
すような始端候補区間内に両者をマツチングさせる際の
始点があり、終端候補区間内に終点がある様なすべての
対応付けの中から、両者の距離が最小となる対応付けを
発見する。具体的には連続DPマツチング等の動的計画
法に基づく手法を適用する。この様にしてすべての単語
に対する最小距離を求める。
動作決定部5においては最適経路発見部3の出力である
単語音声の特徴パラメータと標準パターンの距離か小さ
いものから上位N位までの単語を求め、第4図に示した
判定手続きに基づいて次の処理を決定する。
具体的には第1位(i≧1)の単語の距離をり、とした
とき、 (1)DIが閾値Thより大なる場合は認識結果か曖昧
であるとして再度の音声入力を求める。
(2)D、が閾値T1より小なる場合で、D2がり、の
1.1〜1.3倍以上(係数X:本実施例では1.1倍
を用いた)の場合は第1位の単語を認識結果とする。
(3)一方、Dlく1゜1×D、かつDr、r >1.
1 xDs  (i>1)で、iか2の場合は第1位及
び第2位の単語の両者を利用者に質関し、その回答によ
り認識結果出力を得るかまたは再度音声入力を求めるか
等を決定する。
(4)またiが3の場合は第1位、第2位および第3位
の単語のすべてを利用者に質関し、その回答により認識
結果出力を得るかまたは再度音声入力を求めるか等を決
定する。
(6)iが4以上の場合は認識結果があいまいであると
して再度音声入力を求める。
この様にして一つの単語音声もしくは複数の単語音声群
を選択し、この結果に基づいてシステムの次の動作を決
定する。
(発明の効果) 本発明は上記実施例より明らかなように、入力された単
語音声の上位N位までの認識候補単語及びスペクトル距
離の情報から認識結果が一意的に定まる場合は次のプロ
セスに進み、そうてない場合は利用者のi認を求めるこ
とにより、認識対象とする単語セットの中に類似単語が
含まれている場合でも利用者に対してあまり負担をかけ
ずに正確な音声認識が行なえるという効果を有する。
この有効性を実施例以外のテストてテストデータ130
0件を用いた結果について第5図および第6図に示す。
第5図においては、第1位の単語が正解で第1位の単語
の距離の何倍(係数X)までを選択単語候補とするかと
したときの第2〜3位に誤った単語か含まれる比率(誤
り率)を示したちのであり、係数Xか1,1のときは約
2%、1.3の時でも約7%である。
第6図においては、第1位の単語が誤っていて第1位の
単語の距離の何倍(係数X)までを選択単語候補とする
かとしたときの第2〜3位に正しい単語が含まれる比率
(正解率)を示したちのであり、係数Xが1.1のとき
は約50%、1.3の時には約80%である。
一般的にいって前記誤り率が10%を越えると、また前
記正解率が50%を下回ると利用者の負担になると思わ
れるので係数Xも1.1≦X≦1.3とするのが最良で
ある。
【図面の簡単な説明】
第1図は本発明の実施例における単語音声認識装置のブ
ロック図、 第2図は始端候補区間および終端候補区間の検出方法の
説明図、 第3図は単語音声と標準パターンのマツチング経路に関
する説明図、 第4図は動作決定部5での認識単語決定手順を示すフロ
ー図、 第5図は、第1位の単語が正解て第1位の単語の距離の
何倍(係数X)までを選択単語候補とするかとしたとき
の第2〜3位の誤った単語か含まれる比率(誤り率)を
示した図、 第6図は、第1位の単語か誤っていて第1位の単語の距
離の何倍(係数X)まてを選択単語候補とするかとした
ときの第2〜3位に正しい単語か含まれる比率(正解率
)を示した図である。 1・・・音響分析部、2・・・単語音声検出部、3・・
・最適経路発見部、 4・・・標準パターン記憶部、5・・・動作決定部。

Claims (1)

  1. 【特許請求の範囲】  入力された音声信号を音響分析し、あらかじめ登録さ
    れている単語音声の標準パターンとDPマッチングによ
    り比較して、類似度が最大すなわち距離が最小の単語を
    認識結果とする単語音声認識方式において、 入力音声の音声パターンと標準音声パターンとを比較し
    、 該比較結果としての距離が最も小さい標準パターンの該
    距離がある閾値よりも小なるときで、かつ該比較結果と
    しての距離が最も小さい標準パターンの該距離の係数X
    を掛けた範囲内にある標準パターンを選択するときの係
    数Xの値が1.1から1.3の範囲とすることで、一つ
    の単語音声もしくは複数の単語音声群を選択し、単語音
    声の認識結果に曖昧性がある場合にシステム側より認識
    結果に基づいて利用者に適切な質問を行ない利用者に確
    認させることを特徴とする単語音声認識方式。
JP2041303A 1990-02-23 1990-02-23 単語音声認識方式 Pending JPH03245194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2041303A JPH03245194A (ja) 1990-02-23 1990-02-23 単語音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2041303A JPH03245194A (ja) 1990-02-23 1990-02-23 単語音声認識方式

Publications (1)

Publication Number Publication Date
JPH03245194A true JPH03245194A (ja) 1991-10-31

Family

ID=12604716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2041303A Pending JPH03245194A (ja) 1990-02-23 1990-02-23 単語音声認識方式

Country Status (1)

Country Link
JP (1) JPH03245194A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005512753A (ja) * 2002-01-10 2005-05-12 デイープブリーズ・リミテツド 気道音響の解析及び画像形成用システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005512753A (ja) * 2002-01-10 2005-05-12 デイープブリーズ・リミテツド 気道音響の解析及び画像形成用システム

Similar Documents

Publication Publication Date Title
Raphael Automatic segmentation of acoustic musical signals using hidden Markov models
KR0123934B1 (ko) 저렴한 음성 인식 시스템 및 방법
JP3045510B2 (ja) 音声認識処理装置
JPH03501657A (ja) パターン認識エラー低減装置
JPS59121100A (ja) 連続音声認識装置
Wilkinghoff et al. TACos: Learning temporally structured embeddings for few-shot keyword spotting with dynamic time warping
CN109300474A (zh) 一种语音信号处理方法及装置
JP3004023B2 (ja) 音声認識装置
Weber et al. Real-time automatic drum transcription using dynamic few-shot learning
JP2996019B2 (ja) 音声認識装置
JPH03245194A (ja) 単語音声認識方式
Petry et al. Fractal dimension applied to speaker identification
JP3011421B2 (ja) 音声認識装置
JPH01204099A (ja) 音声認識装置
JPS59111699A (ja) 話者認識方式
JP2002372992A (ja) 話者識別方法
Kitaoka et al. Detection and recognition of correction utterances on misrecognition of spoken dialog system
JPS61156100A (ja) 音声認識装置
JP3031081B2 (ja) 音声認識装置
Timms et al. Speaker verification utilising artificial neural networks and biometric functions derived from time encoded speech (TES) data
JPS6147999A (ja) 音声認識装置
Kusuma et al. Indonesian Word Sound Recognition Using Convolutional Neural Network Method
JPS58130394A (ja) 音声認識装置
JPS59212900A (ja) 音声認識装置
Pandit et al. Selection of speaker independent feature for a speaker verification system