JPH032320B2 - - Google Patents
Info
- Publication number
- JPH032320B2 JPH032320B2 JP58147306A JP14730683A JPH032320B2 JP H032320 B2 JPH032320 B2 JP H032320B2 JP 58147306 A JP58147306 A JP 58147306A JP 14730683 A JP14730683 A JP 14730683A JP H032320 B2 JPH032320 B2 JP H032320B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- voiceless
- phoneme
- plosives
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
産業上の利用分野
本発明は入力音声の音素認識を行ない、その結
果を用いて音節、単語、文章等を認識する音声認
識方法、特に無声破裂音及び無声破擦音の認識方
法に関するものである。 従来例の構成とその問題点 第1図は、従来の無声破裂音及び無声破擦音
(以下/UC/と略記する。)の認識方法を実施す
る装置を示している。以下にこの従来例の構成に
ついて第1図と共に説明する。第1図において1
は音声分析部であり、この音声分析部の出力を利
用して無音/無声/有声判別(以下S/UV/V
判別と略記する。)をS/UV/V判別部2で行
ない、さらに無音区間検出部3で/UC/の破裂
時点直前の無音区間を検出する。次に/UC/の
後端をセグメンテーシヨン部4で検出する。最後
に音素判定部5において、セグメンテーシヨンさ
れた区間を音素標準パタンとの距離を使つて音素
の判定をする。 次に上記従来例の動作について第2図と共に説
明する。第2図は“赤/AKA/”を発音した時
の無声破裂音/K/付近の音声パワー、S/
UV/V判別結果及び音素標準パタンとの距離が
最も近い音素の各々の時間変化を表わしている。
入力した音声は音声分析部1において1フレーム
(10msec)毎に分析し特徴パラメータをフレーム
毎に出力する。これらの特徴パラメータを用いて
S/UV/V判別部2においてはフレーム毎に
S/UV/V判別を行ない、無音区間検出部3で
はS/UV/V結果と音声パワーを利用して無音
区間を検出する。次にセグメンテーシヨン部4で
特徴パラメータ及び音声のパワーデイツプを使つ
て/K/区間の後端を決める。最後に/K/区間
の特徴パラメータを使つて音素標準パタンとの距
離を算出し、最も距離が近い音素をフレーム毎に
識別しこの区間において最もフレーム数が多い音
素を認識音素と判定する。第2図において/K/
区間のフレーム毎の音素判定は全て/K/である
ので/AKA/の/K/は正しく認識された。し
かしながら上記従来例においては、セグメントさ
れた区間の音素を判定する時、/K/と識別され
た音素のフレーム数が多い場合はよいが第3図に
示すように/T/や/C/等のフレーム数が多い
場合は/K/区間を他の音素に誤認識する欠点が
あつた。 発明の目的 本発明は、上記従来例の欠点を除去し、/
UC/の認識を精度よく検出することを目的とす
るものである。 発明の構成 本発明の音声認識方法は/UC/区間の隣接フ
レーム間のケプストラム距離(以下、CDと略記
する)を求め、その時間変化パタンの特徴を検出
することにより/UC/の認識を行なうことを特
徴とする。 実施例の説明 以下に本発明の一実施例の構成について図面と
共に説明する。第1図における/UC/区間の音
素の判定に際し/UC/区間内において式(1)に示
す隣接フレーム内のCDの時間変化を利用する。 CD(I)=2NP 〓j=1 (CPj(I)−CPj(I−I))2 +(CO(I)−CO(I−I))2 ……(1) 但し、 NP LPCケプストラムの分析次数 CD(I) 第Iフレーム目の隣接フレーム内のケ
プストラム距離 CPj() 第Iフレーム目の第j次のケプスト
ラム係数 CO(I) 第Iフレーム目の第NP次の対数残差
パワー 第4図は赤(AKA)と発声した時の/K/付
近のケプストラム距離CD、音パワー、S/
UV/V判別結果及び音素標準パタンとの距離が
最も近い音素の時間変化を表わしている。今/
K/区間のCDの時間変化に着目すると第4図に
示すようにCDが双峰性のパタンを示すことを利
用して/K/の特徴を把え、たとえ標準パタンと
の距離に最も近い音素が/C/であつてもCDの
時間変化が双峰性の形をしていればこの区間を/
K/と判定する。/C/の場合はCDが双峰性の
パタンを示さない。 発明の効果 次表に従来方法と本発明方法による/K/の認
識率を示したものである。従来例では/K/の認
識率が74%であつたものが、本発明の方法を用い
ることにより、92%に向上した。
果を用いて音節、単語、文章等を認識する音声認
識方法、特に無声破裂音及び無声破擦音の認識方
法に関するものである。 従来例の構成とその問題点 第1図は、従来の無声破裂音及び無声破擦音
(以下/UC/と略記する。)の認識方法を実施す
る装置を示している。以下にこの従来例の構成に
ついて第1図と共に説明する。第1図において1
は音声分析部であり、この音声分析部の出力を利
用して無音/無声/有声判別(以下S/UV/V
判別と略記する。)をS/UV/V判別部2で行
ない、さらに無音区間検出部3で/UC/の破裂
時点直前の無音区間を検出する。次に/UC/の
後端をセグメンテーシヨン部4で検出する。最後
に音素判定部5において、セグメンテーシヨンさ
れた区間を音素標準パタンとの距離を使つて音素
の判定をする。 次に上記従来例の動作について第2図と共に説
明する。第2図は“赤/AKA/”を発音した時
の無声破裂音/K/付近の音声パワー、S/
UV/V判別結果及び音素標準パタンとの距離が
最も近い音素の各々の時間変化を表わしている。
入力した音声は音声分析部1において1フレーム
(10msec)毎に分析し特徴パラメータをフレーム
毎に出力する。これらの特徴パラメータを用いて
S/UV/V判別部2においてはフレーム毎に
S/UV/V判別を行ない、無音区間検出部3で
はS/UV/V結果と音声パワーを利用して無音
区間を検出する。次にセグメンテーシヨン部4で
特徴パラメータ及び音声のパワーデイツプを使つ
て/K/区間の後端を決める。最後に/K/区間
の特徴パラメータを使つて音素標準パタンとの距
離を算出し、最も距離が近い音素をフレーム毎に
識別しこの区間において最もフレーム数が多い音
素を認識音素と判定する。第2図において/K/
区間のフレーム毎の音素判定は全て/K/である
ので/AKA/の/K/は正しく認識された。し
かしながら上記従来例においては、セグメントさ
れた区間の音素を判定する時、/K/と識別され
た音素のフレーム数が多い場合はよいが第3図に
示すように/T/や/C/等のフレーム数が多い
場合は/K/区間を他の音素に誤認識する欠点が
あつた。 発明の目的 本発明は、上記従来例の欠点を除去し、/
UC/の認識を精度よく検出することを目的とす
るものである。 発明の構成 本発明の音声認識方法は/UC/区間の隣接フ
レーム間のケプストラム距離(以下、CDと略記
する)を求め、その時間変化パタンの特徴を検出
することにより/UC/の認識を行なうことを特
徴とする。 実施例の説明 以下に本発明の一実施例の構成について図面と
共に説明する。第1図における/UC/区間の音
素の判定に際し/UC/区間内において式(1)に示
す隣接フレーム内のCDの時間変化を利用する。 CD(I)=2NP 〓j=1 (CPj(I)−CPj(I−I))2 +(CO(I)−CO(I−I))2 ……(1) 但し、 NP LPCケプストラムの分析次数 CD(I) 第Iフレーム目の隣接フレーム内のケ
プストラム距離 CPj() 第Iフレーム目の第j次のケプスト
ラム係数 CO(I) 第Iフレーム目の第NP次の対数残差
パワー 第4図は赤(AKA)と発声した時の/K/付
近のケプストラム距離CD、音パワー、S/
UV/V判別結果及び音素標準パタンとの距離が
最も近い音素の時間変化を表わしている。今/
K/区間のCDの時間変化に着目すると第4図に
示すようにCDが双峰性のパタンを示すことを利
用して/K/の特徴を把え、たとえ標準パタンと
の距離に最も近い音素が/C/であつてもCDの
時間変化が双峰性の形をしていればこの区間を/
K/と判定する。/C/の場合はCDが双峰性の
パタンを示さない。 発明の効果 次表に従来方法と本発明方法による/K/の認
識率を示したものである。従来例では/K/の認
識率が74%であつたものが、本発明の方法を用い
ることにより、92%に向上した。
【表】
以上に一例を示すように、本発明によれば無声
破裂音、の判定に隣接フレーム間のケプストラム
距離の時間変化パタンを利用しているため従来方
法に比べ精度よく無声破裂音を検出できる利点を
有する。
破裂音、の判定に隣接フレーム間のケプストラム
距離の時間変化パタンを利用しているため従来方
法に比べ精度よく無声破裂音を検出できる利点を
有する。
第1図は従来の無声破裂音、無声破擦音/
UC/の認識方法を実施する装置のブロツク図、
第2図、第3図は同認識方法の説明図、第4図は
本発明の一実施例における音声認識方法の説明図
である。 1……音声分析部、2……無音/無声/有声判
別部(S/UV/V判別部)、3……無音区間検
出部、4……セグメンテーシヨン、5……音素判
定部。
UC/の認識方法を実施する装置のブロツク図、
第2図、第3図は同認識方法の説明図、第4図は
本発明の一実施例における音声認識方法の説明図
である。 1……音声分析部、2……無音/無声/有声判
別部(S/UV/V判別部)、3……無音区間検
出部、4……セグメンテーシヨン、5……音素判
定部。
Claims (1)
- 1 入力音声に対し、単位時間毎に音素認識を行
なつて認識音素系列を得る際に、無声破裂音及び
無声破擦音区間の隣接フレーム間のケプストラム
距離を求め、その時間変化のパタンの特徴を検出
して、無声破裂音および無声破擦音の認識を行な
うことを特徴とする音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147306A JPS6039698A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58147306A JPS6039698A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6039698A JPS6039698A (ja) | 1985-03-01 |
| JPH032320B2 true JPH032320B2 (ja) | 1991-01-14 |
Family
ID=15427211
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58147306A Granted JPS6039698A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6039698A (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58147307A (ja) * | 1982-02-26 | 1983-09-02 | 田岡化学工業株式会社 | 黒色木材薄板の製造方法 |
-
1983
- 1983-08-13 JP JP58147306A patent/JPS6039698A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6039698A (ja) | 1985-03-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kitayama et al. | Speech starter: noise-robust endpoint detection by using filled pauses. | |
| JP3119510B2 (ja) | 音声認識装置 | |
| JPH0797279B2 (ja) | 音声認識装置 | |
| Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors. | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| JPS6138479B2 (ja) | ||
| JP2002091467A (ja) | 音声認識システム | |
| Barczewska et al. | Detection of disfluencies in speech signal | |
| JPH032320B2 (ja) | ||
| JPH07295588A (ja) | 発話速度推定方法 | |
| JP2798919B2 (ja) | 音声区間検出方式 | |
| JP2664136B2 (ja) | 音声認識装置 | |
| Gulzar et al. | An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words | |
| JPS60217395A (ja) | 音声による危機状態の検出装置 | |
| JP3110025B2 (ja) | 発声変形検出装置 | |
| JPH034918B2 (ja) | ||
| JPH0772899A (ja) | 音声認識装置 | |
| JPH0474720B2 (ja) | ||
| JPS6039699A (ja) | 音声認識方法 | |
| JPH0217118B2 (ja) | ||
| JPH06110492A (ja) | 音声認識装置 | |
| CHANGCHUN | A new method to distinguish non-voice and voice in speech recognition | |
| JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
| JPH0413719B2 (ja) |