JPH0293696A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0293696A JPH0293696A JP63247845A JP24784588A JPH0293696A JP H0293696 A JPH0293696 A JP H0293696A JP 63247845 A JP63247845 A JP 63247845A JP 24784588 A JP24784588 A JP 24784588A JP H0293696 A JPH0293696 A JP H0293696A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- free area
- pattern
- free
- cut out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 5
- 241000238366 Cephalopoda Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000012447 hatching Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は、入力された音声中から音声区間を正確に切り
出すことによって、正確な音声認識を行なう音声認識装
置に関するものである。
出すことによって、正確な音声認識を行なう音声認識装
置に関するものである。
(ロ)従来の技術
音声認識において、雑音中での認識、連続音声中の音素
認識など、入力音声中から音声区間の切ン出しを行なう
実用的な音声認識装置は、先ず、人力音声のパワーが、
あるしきい値以上となる区間を音声区間候補として切り
出し、仮の始端、終端を決め、切り出された部分パター
ンと該標準音声パターンとを入力音声パターン側の仮の
始端、終端をフリーとした非線形マツチングにより比較
し、該部分パターンの始端、終端を決定する場合が多い
。
認識など、入力音声中から音声区間の切ン出しを行なう
実用的な音声認識装置は、先ず、人力音声のパワーが、
あるしきい値以上となる区間を音声区間候補として切り
出し、仮の始端、終端を決め、切り出された部分パター
ンと該標準音声パターンとを入力音声パターン側の仮の
始端、終端をフリーとした非線形マツチングにより比較
し、該部分パターンの始端、終端を決定する場合が多い
。
第2図にこのような従来の音声認識装置の一例を示す。
マイクロフォン[7]より、入力された音声は、音声分
析部[8コで分析され、10ms程度のフレーム周期で
スペクトルやケプストラムのパラメータ時系列に変換さ
れる。このパラメータ時系列は入力音声パターンバッフ
ァ[9コに格納される。音声区間切り出し部[10]で
は、入力音声のパワーが、あるしきい値(TH)以上と
なる区間を音声区間候補として切り出し、かかる音声区
間候補情報と、パラメータ時系列を端点フ)−DPマツ
チング部[11コに送る。
析部[8コで分析され、10ms程度のフレーム周期で
スペクトルやケプストラムのパラメータ時系列に変換さ
れる。このパラメータ時系列は入力音声パターンバッフ
ァ[9コに格納される。音声区間切り出し部[10]で
は、入力音声のパワーが、あるしきい値(TH)以上と
なる区間を音声区間候補として切り出し、かかる音声区
間候補情報と、パラメータ時系列を端点フ)−DPマツ
チング部[11コに送る。
この端点フリーDPマンチング部[+ 1]の動作は以
下のとおりである。
下のとおりである。
即ち、音声区間切り出し部[10]より送られてきたデ
ータをもとに、第3図(a)に示した様な、仮の始端よ
り時間方向で前にとるフリーエリアFBbと、仮の始端
より時間方向で後にとるフリーエリアFBaとを同じ時
間長に設定する。更に、仮の終端より時間方向で前にと
るフリーエリアFAbと、仮の終端より時間方向で後に
とるフリー工JアF、Aaとを同じ時間長に設定する。
ータをもとに、第3図(a)に示した様な、仮の始端よ
り時間方向で前にとるフリーエリアFBbと、仮の始端
より時間方向で後にとるフリーエリアFBaとを同じ時
間長に設定する。更に、仮の終端より時間方向で前にと
るフリーエリアFAbと、仮の終端より時間方向で後に
とるフリー工JアF、Aaとを同じ時間長に設定する。
斯くして得られたフリーエリアを用いた端点フリーDP
マンチングにより、標準音声パターンメモリ[12]内
の標準音声パターンと入力音声パターンとのマVヂング
を行なうことになる。
マンチングにより、標準音声パターンメモリ[12]内
の標準音声パターンと入力音声パターンとのマVヂング
を行なうことになる。
(ハ)発明が解決しようとする課題
り述の従来の音声認識装置においては、仮の始端、終端
におけるフリーエリアが、FBa=FBb、F 、Aa
= F Abになっている場合、第4図に示す様な問題
が起こる。
におけるフリーエリアが、FBa=FBb、F 、Aa
= F Abになっている場合、第4図に示す様な問題
が起こる。
即ち、例えば標準パターン音声メモリ[12コに”あい
かぎ”と”いか”という1語が記憶されているものとす
る。
かぎ”と”いか”という1語が記憶されているものとす
る。
今、マイクロフォン[7]より”あいかぎ”という単語
を入力したが、第4図(a)に示したように語頭、語尾
のパワーが小さくなってしまいしきい値(TH)でのパ
ワーによる音声候補区間の切り出し結果が、同図(b)
のようになる。
を入力したが、第4図(a)に示したように語頭、語尾
のパワーが小さくなってしまいしきい値(TH)でのパ
ワーによる音声候補区間の切り出し結果が、同図(b)
のようになる。
かかる音声候補区間に第3図(a)に示したフリーエリ
アを適用してマツチングを行なうと、入力音声の”あい
かぎ”という単語の語頭、語尾が削除された形で、単語
”いか”とマツチングがとれてしまう。この結果、同図
(c)の”いか”とのマツチング距離のほうが、同図(
d)の”あいかぎ” とのそれより小さくなり、誤認識
を招くこととなる。
アを適用してマツチングを行なうと、入力音声の”あい
かぎ”という単語の語頭、語尾が削除された形で、単語
”いか”とマツチングがとれてしまう。この結果、同図
(c)の”いか”とのマツチング距離のほうが、同図(
d)の”あいかぎ” とのそれより小さくなり、誤認識
を招くこととなる。
(ニ)課題を解決するための手段
本発明の音声認識装置は、音声のパワーがあるしきい値
以上となる区間を音声区間候補として切り出し、該切り
出された部分パターンと該標準音声パターンとを入力音
声パターン側の仮の始端、終端をフリーとした非線形マ
ツチングにより比較し、該部分パターンの始端、終端を
決定するときに、麻3図(b)に示すように、仮の始端
より時間方向で前にとるフリーエリアFBbを仮の始端
よ少時間方向で後にとるフリーエリアFBaよりも長く
設定し、かつ仮の終端より時間方向で後にとるフリーエ
リアFAaを仮の終端より時間方向で前にとるフリーエ
リアFAbよりも長く設定するものである。
以上となる区間を音声区間候補として切り出し、該切り
出された部分パターンと該標準音声パターンとを入力音
声パターン側の仮の始端、終端をフリーとした非線形マ
ツチングにより比較し、該部分パターンの始端、終端を
決定するときに、麻3図(b)に示すように、仮の始端
より時間方向で前にとるフリーエリアFBbを仮の始端
よ少時間方向で後にとるフリーエリアFBaよりも長く
設定し、かつ仮の終端より時間方向で後にとるフリーエ
リアFAaを仮の終端より時間方向で前にとるフリーエ
リアFAbよりも長く設定するものである。
(ホ)作用
本発明の音声認識装置に於ては、フリーエリアを第4図
(e)に示した様にFBb>FBa、FXa>FAbと
設定することにより、同図(a) ・ (b)に示し
たと同様の入力音声条件下にであっても、同図(f)の
”いか”とのマツチング距離を同図(eJのハlチング
で示す領域に対応する分大きくすることができる。従っ
て、同図(g)の”あいかぎ”との7ンチング距離の方
が小さくなり、”あいかぎ”として認識することができ
る。
(e)に示した様にFBb>FBa、FXa>FAbと
設定することにより、同図(a) ・ (b)に示し
たと同様の入力音声条件下にであっても、同図(f)の
”いか”とのマツチング距離を同図(eJのハlチング
で示す領域に対応する分大きくすることができる。従っ
て、同図(g)の”あいかぎ”との7ンチング距離の方
が小さくなり、”あいかぎ”として認識することができ
る。
(へ)実施例
第1図に本発明の音声認識装置の一実施例を示す。マイ
クロフォン[1]より、入力された音声は、音声分析部
[2コで分析され、10m5程度のフレーム周期でスペ
クトルやケプストラムのパラメータ時系列に変換される
。このパラメータ時系列は入力音声パターンバッファ[
3]に格納される。音声区間切り出し部[4]では、入
力音声のパワーが、あるしきい値(TH)以上となる区
間を音声区間候補として切り出し、かかる音声区間候補
情報と、パラメータ時系列を非対称端点フJ−DPマツ
チング部[5]に送る。
クロフォン[1]より、入力された音声は、音声分析部
[2コで分析され、10m5程度のフレーム周期でスペ
クトルやケプストラムのパラメータ時系列に変換される
。このパラメータ時系列は入力音声パターンバッファ[
3]に格納される。音声区間切り出し部[4]では、入
力音声のパワーが、あるしきい値(TH)以上となる区
間を音声区間候補として切り出し、かかる音声区間候補
情報と、パラメータ時系列を非対称端点フJ−DPマツ
チング部[5]に送る。
本発明装置が最も特徴とする非対称端点フIJ−DPマ
ツチング部[5]は、音声区間切り出し部[4]より送
られてきたデータをもとに、′第3図(b)に示した様
な、仮の始端より時間方向で前にとるフリーエリアFB
bと、仮の始端より時間方向で後にとるフリーエリアF
BaとをF Bb> F Baとなるように設定し、か
つ仮の終端より時間方向で前にとるフリーエリアFAb
と、仮の終端より時間方向で後にとるフリーエリアFA
aとをF、Aa>FAbとなるように設定する。さらに
この条件で設定されたフリーエリアで端点フリーDPマ
ンチング処理を行い、標準音声パターンメモリ[6]内
の標準音声パターンと入力音声パターンとのマツチング
を行なう。
ツチング部[5]は、音声区間切り出し部[4]より送
られてきたデータをもとに、′第3図(b)に示した様
な、仮の始端より時間方向で前にとるフリーエリアFB
bと、仮の始端より時間方向で後にとるフリーエリアF
BaとをF Bb> F Baとなるように設定し、か
つ仮の終端より時間方向で前にとるフリーエリアFAb
と、仮の終端より時間方向で後にとるフリーエリアFA
aとをF、Aa>FAbとなるように設定する。さらに
この条件で設定されたフリーエリアで端点フリーDPマ
ンチング処理を行い、標準音声パターンメモリ[6]内
の標準音声パターンと入力音声パターンとのマツチング
を行なう。
(ト)発明の効果
以上の説明から明らかな如く、本発明の音声認識装置に
よれば、端点フリーDPマツチングにおける局所パター
ンのマツチング誤りを防ぎ、精度よく雑音中や連続音声
中の単語区間の切り出しを行うことができ、認識率の向
上が図れる。
よれば、端点フリーDPマツチングにおける局所パター
ンのマツチング誤りを防ぎ、精度よく雑音中や連続音声
中の単語区間の切り出しを行うことができ、認識率の向
上が図れる。
第1図は本発明の音声認識装置の一実施例を示す構成図
、第2図は従来音声認識装置の構成図、第3図(a)
(b)及び第4図に)牛I中井は音声パターン図であ
る。 [1]、、、?イクロフオン、 [2]、、、音声分析部、 [3] 、、、入力音声パターンバッファ、[4]、、
、音声区間切り出し部、 [5] 、、、非対称端点フリーDPマツチング部、[
6] 、、、標準音声パターンメモリ。
、第2図は従来音声認識装置の構成図、第3図(a)
(b)及び第4図に)牛I中井は音声パターン図であ
る。 [1]、、、?イクロフオン、 [2]、、、音声分析部、 [3] 、、、入力音声パターンバッファ、[4]、、
、音声区間切り出し部、 [5] 、、、非対称端点フリーDPマツチング部、[
6] 、、、標準音声パターンメモリ。
Claims (1)
- (1)予め該音声分析手段により抽出しておいた標準音
声パターンと該音声分析手段より抽出される入力音声パ
ターンのうち、音声のパワーがあるしきい値以上となる
区間を、音声区間候補として切り出し、該切り出された
部分パターンと該標準音声パターンとを入力音声パター
ン側の始端、終端をフリーとした非線形マッチングによ
り比較し、該部分パターンの真の始端、終端を決定する
音声認識装置において、音声区間候補として切り出され
た部分の先頭より時間方向で前にとるフリーエリアを、
音声区間候補として切り出された部分の先頭より時間方
向で後にとるフリーエリアよりも長く設定し、かつ音声
区間候補として切り出された部分の末尾より時間方向で
後にとるフリーエリアを、音声区間候補として切り出さ
れた部分の末尾より時間方向で前にとるフリーエリアよ
りも長く設定する非対象端点フリーマッチング手段を備
えたことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63247845A JPH0293696A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63247845A JPH0293696A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0293696A true JPH0293696A (ja) | 1990-04-04 |
Family
ID=17169522
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63247845A Pending JPH0293696A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0293696A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001527202A (ja) * | 1997-12-22 | 2001-12-25 | コーニング インコーポレイテッド | セラミックハニカム体の焼成方法及び焼成に用いられるトンネルキルン |
| WO2003107326A1 (ja) * | 2002-06-12 | 2003-12-24 | 三菱電機株式会社 | 音声認識方法及びその装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61260299A (ja) * | 1985-05-15 | 1986-11-18 | 株式会社日立製作所 | 音声認識装置 |
-
1988
- 1988-09-30 JP JP63247845A patent/JPH0293696A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61260299A (ja) * | 1985-05-15 | 1986-11-18 | 株式会社日立製作所 | 音声認識装置 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001527202A (ja) * | 1997-12-22 | 2001-12-25 | コーニング インコーポレイテッド | セラミックハニカム体の焼成方法及び焼成に用いられるトンネルキルン |
| WO2003107326A1 (ja) * | 2002-06-12 | 2003-12-24 | 三菱電機株式会社 | 音声認識方法及びその装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
| JPH0293696A (ja) | 音声認識装置 | |
| JPS6138479B2 (ja) | ||
| JPH06266386A (ja) | ワードスポッティング方法 | |
| JP3063855B2 (ja) | 音声認識におけるマッチング距離値の極小値探索方法 | |
| JP2710045B2 (ja) | 音声認識方法 | |
| JPS61292199A (ja) | 音声認識装置 | |
| JPS61260299A (ja) | 音声認識装置 | |
| JPH08146986A (ja) | 音声認識装置 | |
| JPS59204099A (ja) | 音声認識方式 | |
| JPH0262879B2 (ja) | ||
| JPS6120879B2 (ja) | ||
| JPH0160160B2 (ja) | ||
| JP2768938B2 (ja) | パターン比較方法 | |
| JP3063856B2 (ja) | 音声認識におけるマッチング距離値の極小値探索方法 | |
| JP2996977B2 (ja) | 音声認識装置 | |
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| JPH0458638B2 (ja) | ||
| JPS60159798A (ja) | 音声認識装置 | |
| JPS6027000A (ja) | パタンマツチング方法 | |
| JPS60149097A (ja) | 音声認識方法 | |
| JPH0634184B2 (ja) | 音声認識方法 | |
| JPS60170900A (ja) | 音節音声標準パタン登録方式 | |
| JPS6265099A (ja) | 音声認識装置 | |
| JPS60200294A (ja) | 音韻格子作成装置 |