JPS6310840B2 - - Google Patents
Info
- Publication number
- JPS6310840B2 JPS6310840B2 JP57123801A JP12380182A JPS6310840B2 JP S6310840 B2 JPS6310840 B2 JP S6310840B2 JP 57123801 A JP57123801 A JP 57123801A JP 12380182 A JP12380182 A JP 12380182A JP S6310840 B2 JPS6310840 B2 JP S6310840B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- distance
- standard pattern
- standard
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識装置における音韻識別方式に
関する。
関する。
従来例とその問題点
従来の音声認識装置における音韻識別方式は、
はじめに入力音声の特徴ベクトルの時系列パター
ンに対して大まかな音韻区間の分類を行い、例え
ば非定常な子音区間と比較的定常な母音区間等の
分離を行つた後で、子音区間の各フレームについ
ては、全ての子音の標準パターンとの距離を計算
して子音を決定し、母音区間についても同様の計
算を行つて母音を決定していた。上記のような従
来の音声認識装置における大まかな音韻区間の分
類方式には、単純に系列の相関値等によつて子音
区間と母音区間の分類のみ行い、音韻の最終決定
は標準パターンとの比較によつて行つているもの
がある。しかしこの場合には大まかな分類自体の
精度も悪く、かつ標準パターンの集合も大規模と
なりパターンマツチングにおける計算量も莫大な
ものとなる。そこでこれらの欠点を改善するもの
として、大まかな音韻区間の分類を周波数の低域
あるいは高域に対する偏りに関する情報も利用し
て、子音区間もさらに有声子音区間と無声子音区
間に、またさらに精度の高い分類を行うものにつ
いては、無声子音区間も破裂音と摩擦音に分類す
るものがある。そして最終決定を行うべき標準パ
ターンの集合規模を小さくして、音韻の最終決定
を行うべき標準パターンとの比較回数を低減して
処理速度を向上させている。しかしこの場合にお
いても標準パターンとの比較回路は低減されるも
のの、大まかな分類に要する計算量が増加し、装
置全体として評価すると計算量は必ずしも低減さ
れることにはならず、音韻識別に要する計算時間
に問題がある。
はじめに入力音声の特徴ベクトルの時系列パター
ンに対して大まかな音韻区間の分類を行い、例え
ば非定常な子音区間と比較的定常な母音区間等の
分離を行つた後で、子音区間の各フレームについ
ては、全ての子音の標準パターンとの距離を計算
して子音を決定し、母音区間についても同様の計
算を行つて母音を決定していた。上記のような従
来の音声認識装置における大まかな音韻区間の分
類方式には、単純に系列の相関値等によつて子音
区間と母音区間の分類のみ行い、音韻の最終決定
は標準パターンとの比較によつて行つているもの
がある。しかしこの場合には大まかな分類自体の
精度も悪く、かつ標準パターンの集合も大規模と
なりパターンマツチングにおける計算量も莫大な
ものとなる。そこでこれらの欠点を改善するもの
として、大まかな音韻区間の分類を周波数の低域
あるいは高域に対する偏りに関する情報も利用し
て、子音区間もさらに有声子音区間と無声子音区
間に、またさらに精度の高い分類を行うものにつ
いては、無声子音区間も破裂音と摩擦音に分類す
るものがある。そして最終決定を行うべき標準パ
ターンの集合規模を小さくして、音韻の最終決定
を行うべき標準パターンとの比較回数を低減して
処理速度を向上させている。しかしこの場合にお
いても標準パターンとの比較回路は低減されるも
のの、大まかな分類に要する計算量が増加し、装
置全体として評価すると計算量は必ずしも低減さ
れることにはならず、音韻識別に要する計算時間
に問題がある。
発明の目的
本発明は上記従来の欠点を解消するもので、標
準パターンと入力音声の特徴ベクトル間の距離計
算を簡略化し、音韻識別に要する処理時間を低
減、音声認識装置の実時間処理を可能とし、かつ
装置構成を簡略化することを目的とする。
準パターンと入力音声の特徴ベクトル間の距離計
算を簡略化し、音韻識別に要する処理時間を低
減、音声認識装置の実時間処理を可能とし、かつ
装置構成を簡略化することを目的とする。
発明の構成
上記目的を達成するため、本発明の音韻識別方
式は、入力音声を特徴ベクトル{〓ti}の時系列
パターン{〓t1、〓t2、……〓tN}に変換する特徴
系列変換手段と、各音韻の特徴ベクトルの標準パ
ターンを記憶する標準パターン記憶手段と、入力
と標準パターンの特徴ベクトル間の距離を計算す
る距離判定手段とより成り、前記距離判定手段
を、入力の時系列パターンの定められたフレーム
{〓tk}においては、すべての標準パターンとの
比較を行つて音韻を決定し、それ以後のフレーム
{〓t〓}(但し、τ>k)については決定された標
準パターンとの距離が定められた閾値以下である
場合には、同一音韻として比較すべき特徴ベクト
ルのフレームを更新し、閾値以上である場合には
他のすべての標準パターンとの比較を行つて新し
い音韻を決定し、それ以後のフレーム{〓tn}
(但し、m>τ)については同様な距離の閾値に
よる判定を繰り返して音韻識別を行う構成であ
る。
式は、入力音声を特徴ベクトル{〓ti}の時系列
パターン{〓t1、〓t2、……〓tN}に変換する特徴
系列変換手段と、各音韻の特徴ベクトルの標準パ
ターンを記憶する標準パターン記憶手段と、入力
と標準パターンの特徴ベクトル間の距離を計算す
る距離判定手段とより成り、前記距離判定手段
を、入力の時系列パターンの定められたフレーム
{〓tk}においては、すべての標準パターンとの
比較を行つて音韻を決定し、それ以後のフレーム
{〓t〓}(但し、τ>k)については決定された標
準パターンとの距離が定められた閾値以下である
場合には、同一音韻として比較すべき特徴ベクト
ルのフレームを更新し、閾値以上である場合には
他のすべての標準パターンとの比較を行つて新し
い音韻を決定し、それ以後のフレーム{〓tn}
(但し、m>τ)については同様な距離の閾値に
よる判定を繰り返して音韻識別を行う構成であ
る。
実施例の説明
以下、本発明の一実施例を図面に基づいて説明
する。
する。
本発明の処理概念を第1図を用いて説明する。
音韻識別手段は、入力音声時系列から一定時間
間隔ごとに特徴ベクトル系列{〓ti}に変換する
特徴系変換列手段1と、特徴ベクトル系列から大
まかな音韻(無声子音、有声子音、母音等)を分
類する大分類手段2と、有声子音と母音の場合に
は、有声子音と母音の標準パターン4,4′との
距離を計算して音韻を決定する距離判定手段3,
3′と、音韻時系列を出力する音韻系列出力手段
5とからなる。
間隔ごとに特徴ベクトル系列{〓ti}に変換する
特徴系変換列手段1と、特徴ベクトル系列から大
まかな音韻(無声子音、有声子音、母音等)を分
類する大分類手段2と、有声子音と母音の場合に
は、有声子音と母音の標準パターン4,4′との
距離を計算して音韻を決定する距離判定手段3,
3′と、音韻時系列を出力する音韻系列出力手段
5とからなる。
第1図の動作説明を行う。入力音声は、特徴系
列変換手段1によつて、特徴ベクトルの系列に変
換される。この特徴ベクトルは大分類手段2によ
つて例えば周波数の低域あるいは高域に対する偏
より等で、無声子音、有声子音、母音に大まかに
分類する。そして有声子音と母音の場合には、そ
れぞれ距離判定3,3′によつて有声子音と母音
の標準パターン4,4′との距離計算を実行し、
最も近い音韻を割り当てる。各々音韻が決定され
ると音韻系列出力手段5によつて音韻を時系列で
出力する。上記において無声子音を標準パターン
と比較しないのは、無声子音の非定常性によつて
いるからである。
列変換手段1によつて、特徴ベクトルの系列に変
換される。この特徴ベクトルは大分類手段2によ
つて例えば周波数の低域あるいは高域に対する偏
より等で、無声子音、有声子音、母音に大まかに
分類する。そして有声子音と母音の場合には、そ
れぞれ距離判定3,3′によつて有声子音と母音
の標準パターン4,4′との距離計算を実行し、
最も近い音韻を割り当てる。各々音韻が決定され
ると音韻系列出力手段5によつて音韻を時系列で
出力する。上記において無声子音を標準パターン
と比較しないのは、無声子音の非定常性によつて
いるからである。
次に本発明における距離判定手段3の詳細な構
成と処理の様子を第2図、第3図を用いて説明す
る。
成と処理の様子を第2図、第3図を用いて説明す
る。
距離判定手段3は、入力の特徴ベクトルを記憶
する特徴ベクトル記憶部6と、特徴ベクトルと標
準パターン4の1つの標準パターンベクトル4
の間の距離を計算する距離計算部7と、初めに定
められた特徴ベクトルとはすべての標準パターン
ベクトルの比較を行い一度音韻が決まると次に入
力される特徴ベクトルとは決められた音韻の標準
パターンのベクトルの比較を行い、その距離が一
定値以下であれば同一音韻とし、一定値以上であ
れば他のすべての標準パターンベクトルと比較を
行つて音韻を更新する比較制御部8からなる。
する特徴ベクトル記憶部6と、特徴ベクトルと標
準パターン4の1つの標準パターンベクトル4
の間の距離を計算する距離計算部7と、初めに定
められた特徴ベクトルとはすべての標準パターン
ベクトルの比較を行い一度音韻が決まると次に入
力される特徴ベクトルとは決められた音韻の標準
パターンのベクトルの比較を行い、その距離が一
定値以下であれば同一音韻とし、一定値以上であ
れば他のすべての標準パターンベクトルと比較を
行つて音韻を更新する比較制御部8からなる。
第3図は比較制御部8の詳細な動作を表わす。
第3図において特徴ベクトルは2次元(Xti1、
Xti2)で表わされている。音韻の標準パターンベ
クトル|A|、|i|、|u|はそれらの重心が
9,10,11で表わされている。入力の特徴ベ
クトルは{〓tk}を始端とし時系点(t)の標本
として12で表わされている。また各標準パター
ンベクトルに対応した一定の閾値がそれぞれr1、
r2、r3で表わされている。比較制御部8は、ある
時間の特徴ベクトル{〓tk}とすべての標準パタ
ーンベクトル9,10,11の距離を計算する。
第3図においては、母音|i|が判定される。次
の特徴ベクトル{〓tk+1}′は、|i|の標準パタ
ーンベクトル10との距離のみを計算し、一定の
閾値r2とを比較し、この場合は以下となるから母
音|i|とする。特徴ベクトル{〓tk+2}につい
ても同様である。特徴ベクトル{〓tk+3}につい
ては、一定の閾値r2以上となるので他の標準パタ
ーンベクトル9,10との距離を計算し、この場
合|A|と判定する。特徴ベクトル{〓tk+4}に
ついては、|A|の標準パターンベクトル9との
距離がr2以上なので他の標準パターンベクトル1
0,11とも比較し、この場合も|A|と判定す
る。特徴ベクトル{〓tk+5}{〓tk+6}{〓tk+7}は
|A|との距離がr1以下なのですべて|A|と判
定する。第3図の場合に、本発明によらない音韻
決定に要する距離計算回数は、8×3=24回であ
り、本発明による距離計算回数は、5+3×3=
14回となりほぼ半分の計算回数となる。母音区間
では定常性が大きいためにこの方式における計算
回数の減少はより大きく期待できる。
Xti2)で表わされている。音韻の標準パターンベ
クトル|A|、|i|、|u|はそれらの重心が
9,10,11で表わされている。入力の特徴ベ
クトルは{〓tk}を始端とし時系点(t)の標本
として12で表わされている。また各標準パター
ンベクトルに対応した一定の閾値がそれぞれr1、
r2、r3で表わされている。比較制御部8は、ある
時間の特徴ベクトル{〓tk}とすべての標準パタ
ーンベクトル9,10,11の距離を計算する。
第3図においては、母音|i|が判定される。次
の特徴ベクトル{〓tk+1}′は、|i|の標準パタ
ーンベクトル10との距離のみを計算し、一定の
閾値r2とを比較し、この場合は以下となるから母
音|i|とする。特徴ベクトル{〓tk+2}につい
ても同様である。特徴ベクトル{〓tk+3}につい
ては、一定の閾値r2以上となるので他の標準パタ
ーンベクトル9,10との距離を計算し、この場
合|A|と判定する。特徴ベクトル{〓tk+4}に
ついては、|A|の標準パターンベクトル9との
距離がr2以上なので他の標準パターンベクトル1
0,11とも比較し、この場合も|A|と判定す
る。特徴ベクトル{〓tk+5}{〓tk+6}{〓tk+7}は
|A|との距離がr1以下なのですべて|A|と判
定する。第3図の場合に、本発明によらない音韻
決定に要する距離計算回数は、8×3=24回であ
り、本発明による距離計算回数は、5+3×3=
14回となりほぼ半分の計算回数となる。母音区間
では定常性が大きいためにこの方式における計算
回数の減少はより大きく期待できる。
発明の効果
以上説明のように本発明によれば次の効果を得
ることができる。
ることができる。
本発明は入力音声の特徴ベクトルと標準パター
ンのパターンマツチングを、定められたフレーム
においては全ての標準パターンとの比較を行つて
決定し、それ以降の特徴ベクトルのフレームは、
決定された音韻との距離のみを計算し一定の閾値
以下の場合には同一音韻とし、一定の閾値以上の
場合には他のすべての標準パターンとの比較を行
つて音韻を更新し同様の操作を繰返し適用するこ
とで音韻識別をするため、音韻決定のパターンマ
ツチングに要する処理時間を短縮でき、かつ音声
認識装置における処理構成を簡略化できるもので
ある。
ンのパターンマツチングを、定められたフレーム
においては全ての標準パターンとの比較を行つて
決定し、それ以降の特徴ベクトルのフレームは、
決定された音韻との距離のみを計算し一定の閾値
以下の場合には同一音韻とし、一定の閾値以上の
場合には他のすべての標準パターンとの比較を行
つて音韻を更新し同様の操作を繰返し適用するこ
とで音韻識別をするため、音韻決定のパターンマ
ツチングに要する処理時間を短縮でき、かつ音声
認識装置における処理構成を簡略化できるもので
ある。
第1図は本発明における入力音声から音韻系列
を計算する音韻識別手段の具体的構成図、第2図
は本発明における音韻識別手段の中の特徴ベクト
ルと標準パターンの距離計算を行う距離判定手段
の具体的構成図、第3図は本発明における距離判
定手段の動作原理の説明図である。 1……特徴系列変換手段、3……距離判定手
段、4……標準パターン。
を計算する音韻識別手段の具体的構成図、第2図
は本発明における音韻識別手段の中の特徴ベクト
ルと標準パターンの距離計算を行う距離判定手段
の具体的構成図、第3図は本発明における距離判
定手段の動作原理の説明図である。 1……特徴系列変換手段、3……距離判定手
段、4……標準パターン。
Claims (1)
- 1 入力音声を特徴ベクトル{〓ti}の時系列パ
パターン{〓t1、〓t2、……〓tN}に変換する特徴
系列変換手段と、各音韻の特徴ベクトルの標準パ
ターンを記憶する標準パターン記憶手段と、入力
と標準パターンの特徴ベクトル間の距離を計算す
る距離判定手段とより成り、前記距離判定手段
を、入力の時系列パターンの定められたフレーム
{〓tk}においては、すべての標準パターンとの
比較を行つて音韻を決定し、それ以後のフレーム
{〓t〓}(但しτ>k)については決定された標準
パターンとの距離が定められた閾値以下である場
合には、同一音韻として比較すべき特微ベクトル
のフレームを更新し、閾値以上である場合には他
のすべての標準パターンとの比較を行つて新しい
音韻を決定し、それ以後のフレーム{〓tn}(但
し、m>τ)については同様な距離の閾値による
判定を繰り返して音韻識別を行うよう構成した音
韻識別方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57123801A JPS5915298A (ja) | 1982-07-15 | 1982-07-15 | 音韻識別方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57123801A JPS5915298A (ja) | 1982-07-15 | 1982-07-15 | 音韻識別方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5915298A JPS5915298A (ja) | 1984-01-26 |
| JPS6310840B2 true JPS6310840B2 (ja) | 1988-03-09 |
Family
ID=14869648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57123801A Granted JPS5915298A (ja) | 1982-07-15 | 1982-07-15 | 音韻識別方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5915298A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61149327A (ja) * | 1984-12-25 | 1986-07-08 | Uchiyama Mfg Corp | 密封材の製造方法 |
-
1982
- 1982-07-15 JP JP57123801A patent/JPS5915298A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5915298A (ja) | 1984-01-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4624010A (en) | Speech recognition apparatus | |
| US4736429A (en) | Apparatus for speech recognition | |
| EP0302663B1 (en) | Low cost speech recognition system and method | |
| Scanlon et al. | Using broad phonetic group experts for improved speech recognition | |
| US20050021330A1 (en) | Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes | |
| JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
| JPH02195400A (ja) | 音声認識装置 | |
| CA1166749A (en) | Continuous speech recognition method | |
| US4991216A (en) | Method for speech recognition | |
| EP0103258B1 (en) | Pattern matching apparatus | |
| JPS6310840B2 (ja) | ||
| Shetty et al. | Speech Signal Segmentation using Zero Crossing Rate and Short-Time Energy for Speech Synthesis | |
| Kopec | Voiceless stop consonant identification using LPC spectra | |
| JP3128251B2 (ja) | 音声認識装置 | |
| JPH0619497A (ja) | 音声認識方法 | |
| JPS61177497A (ja) | 子音のセグメンテ−シヨン法 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPH0316040B2 (ja) | ||
| JPS61200596A (ja) | 連続音声認識装置 | |
| JPS6270898A (ja) | 音声認識装置 | |
| Ariki et al. | Continuous speech understanding by keyword extraction in a voice mail system. | |
| Baker | On the similarity of noisy phonetic strings produced by different words | |
| Lin et al. | On‐line, adaptive speaker‐independent word recognition system based on phonetic recognition techniques | |
| Ganesan et al. | Algorithm to detect the beginning and end points of a speech utterance | |
| JPH067352B2 (ja) | 音声認識装置 |