JPS617892A - 単語音声認識方式 - Google Patents
単語音声認識方式Info
- Publication number
- JPS617892A JPS617892A JP59128814A JP12881484A JPS617892A JP S617892 A JPS617892 A JP S617892A JP 59128814 A JP59128814 A JP 59128814A JP 12881484 A JP12881484 A JP 12881484A JP S617892 A JPS617892 A JP S617892A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- vector
- word
- frequency distribution
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
辣J1釈ニ一
本発明は、ベクトル量子化を用いた音声認識方式に関す
る。
る。
災米挟皿
単語の標準パターンと未知入カバターンとのパターンマ
ツチングを行なう方法にDPマツチング法(動的B[画
法)と呼ばれる方法がある。これは。
ツチングを行なう方法にDPマツチング法(動的B[画
法)と呼ばれる方法がある。これは。
前記標準パターンの時間軸を非線形に伸縮し、前記未知
入カバターンの時間軸に揃えて両パターンが最も類似す
るようにして即ち前記パターン間の距離を最小にしてパ
ターンマツチングを行なうものである。しかし、上記D
Pマツチング法は、パターンマツチング時、少なくとも
I XJ XN(I :未知入カバターンのフレーム数
、J:標準パターンのフレーム数、N:登録単語数)回
の計算量を必要とし、膨大な計算量を必要とする。
入カバターンの時間軸に揃えて両パターンが最も類似す
るようにして即ち前記パターン間の距離を最小にしてパ
ターンマツチングを行なうものである。しかし、上記D
Pマツチング法は、パターンマツチング時、少なくとも
I XJ XN(I :未知入カバターンのフレーム数
、J:標準パターンのフレーム数、N:登録単語数)回
の計算量を必要とし、膨大な計算量を必要とする。
目 的
本発明は、上述のごとき従来技術の欠点を解消するため
になされたもので、特に、標準パターンの特徴ベクトル
をベクトル量子化した擬音韻パターンベクトルの頻度分
布パターンと入カバターンの特徴ベクトルをベクトル量
子化した擬音韻パターンベクトルの頻度分布パターンと
の間の形状に基づいて単語音声を認識するようにした音
声認識方式において、前記パターンベクトルにパターン
ベケトル間相互の類似性を付加し、もって、計算量を減
らし、認識速度を向上させることを目的としてなされた
ものである。
になされたもので、特に、標準パターンの特徴ベクトル
をベクトル量子化した擬音韻パターンベクトルの頻度分
布パターンと入カバターンの特徴ベクトルをベクトル量
子化した擬音韻パターンベクトルの頻度分布パターンと
の間の形状に基づいて単語音声を認識するようにした音
声認識方式において、前記パターンベクトルにパターン
ベケトル間相互の類似性を付加し、もって、計算量を減
らし、認識速度を向上させることを目的としてなされた
ものである。
遭−炭
本発明の構成について、以下、一実施例に基づいて説明
する。
する。
図は1本発明を構成するシステムのブロック図で、図中
、1は音声入力部、2はスペクトル解析部、3はコード
ブック蓄積部、4は未知入力フレームのベクトル量子化
部、5はコードベクトルの使用頻度分布パターン生成部
、6は標準頻度分布パターン蓄積部、7はコードベクト
ル間の類似度テーブル、8は類似度テーブル7によって
変換された頻度分布パターン生成部、9はパターンマツ
チング部、10は単語同定部、】1は認識結果出力部で
ある。
、1は音声入力部、2はスペクトル解析部、3はコード
ブック蓄積部、4は未知入力フレームのベクトル量子化
部、5はコードベクトルの使用頻度分布パターン生成部
、6は標準頻度分布パターン蓄積部、7はコードベクト
ル間の類似度テーブル、8は類似度テーブル7によって
変換された頻度分布パターン生成部、9はパターンマツ
チング部、10は単語同定部、】1は認識結果出力部で
ある。
標準頻度分布パターン蓄積部6において、まず。
単語nの標準パターンをRnで表わし、Rn = b、
n b、 n 、、、、、bn’、、、、、、 bn
J ・Jn (n=1.2.・・・・・・、NUN:単語数)とする
。ここで、bnは単語nの第3番目のフレームの特徴ベ
クトル )nは継続フレーム長である。
n b、 n 、、、、、bn’、、、、、、 bn
J ・Jn (n=1.2.・・・・・・、NUN:単語数)とする
。ここで、bnは単語nの第3番目のフレームの特徴ベ
クトル )nは継続フレーム長である。
次に、前記標準パターンRnをコートブック3に含まれ
る擬音銀パターンベクトル(コードベクトルともいう)
Ck (k=1.2.・・・・・、に;に:量子化レベ
ル数)で表わす。即ち、前記b 、n (、i=1..
2.・・・・・、Jn)の各々を前記コードベクトルC
kのうち最も近いもので表わす。
る擬音銀パターンベクトル(コードベクトルともいう)
Ck (k=1.2.・・・・・、に;に:量子化レベ
ル数)で表わす。即ち、前記b 、n (、i=1..
2.・・・・・、Jn)の各々を前記コードベクトルC
kのうち最も近いもので表わす。
ここで、距離尺度をd(b7.ch)とし、する。
面して、前記り、n(j= ]、 + 2 +・・・・
・Jn)で表わしだ標準パターンを とする。
・Jn)で表わしだ標準パターンを とする。
単語nに対して前記コードベクトルCkの使用頻度をY
k’とし、ベクトル量子化された前記標準パターン良1
を前記Yknにより表わしたものを41準頻度分布パタ
ーンR’とすると、のように表現できる。ここで、前記
コードベクトルCj (i =1.2.・・・・・・、
■()相互間の類似性を反映した類似度テーブル7にs
(++jL(i。
k’とし、ベクトル量子化された前記標準パターン良1
を前記Yknにより表わしたものを41準頻度分布パタ
ーンR’とすると、のように表現できる。ここで、前記
コードベクトルCj (i =1.2.・・・・・・、
■()相互間の類似性を反映した類似度テーブル7にs
(++jL(i。
j=1.2.・・・・・、K)を作成しておく。類似性
の尺度としては前記コードベタ1〜ルC」 とCjどの
距離d (Ci 、 Cj )を用いて、d (Ci
、 C,])の値が小さければs(+、j)に大きな値
を入れておく。例えば、あるiの値に列してd (C」
、C,1) +(j=]、2.・・・・・、K)が最小
どなる場合(]=Jのときd(Ci 、Cj )=Oと
なる)には、S(i。
の尺度としては前記コードベタ1〜ルC」 とCjどの
距離d (Ci 、 Cj )を用いて、d (Ci
、 C,])の値が小さければs(+、j)に大きな値
を入れておく。例えば、あるiの値に列してd (C」
、C,1) +(j=]、2.・・・・・、K)が最小
どなる場合(]=Jのときd(Ci 、Cj )=Oと
なる)には、S(i。
に対しては、S(+1J)=5というように前記類似度
テーブルS(i、j)の要素を 決定する。
テーブルS(i、j)の要素を 決定する。
次に、前記標$頻度分布パターンR’ =Y 、 。
¥−・・’Yj Ykを前記類似度テーブルS(i、j
)を用いて、 のように変換する。変換後の標4!頻度分布パターと表
わせる。Rnのパターンを全ての単語n (n=1.2
.・・・・・・、N)t:ついて予め求めておき、標僧
頻度分布パターン蓄積部6に格納しておく。
)を用いて、 のように変換する。変換後の標4!頻度分布パターと表
わせる。Rnのパターンを全ての単語n (n=1.2
.・・・・・・、N)t:ついて予め求めておき、標僧
頻度分布パターン蓄積部6に格納しておく。
一方、音声入力部1に入力された未知入力音声をスペク
トル解析部2で周波数分析し、未知入・カバターンTを
得る。Tは、 T=a1a2・・・・・・ai・・・・・aIと表現で
きる。ここで、ailt、第jフレームの特徴ベクトル
、■は継続フレーム長である。。
トル解析部2で周波数分析し、未知入・カバターンTを
得る。Tは、 T=a1a2・・・・・・ai・・・・・aIと表現で
きる。ここで、ailt、第jフレームの特徴ベクトル
、■は継続フレーム長である。。
前記未知入カバターンTもコードブック3によってベタ
1−ル量子化部4においてベクトル量子化し、各フレー
ムaiごとに最も近いコードベタ(・ルCkによって表
わしたパターンを千とする。予は、 T=qIQ、 ・−81・・・8丁 と表わす。次に1゛を前記コー1〜べ月−ルC7,kの
使用頻度Xkによって表わしたパターンをパターン生成
部5で求め、このときのパターンをT=X、X、−・・
・・・・Xk・・・・・・XI<とする。この1゛も前
記と同様にして類似度テープ/L/7(7) S l
、j) ニヨって変換し、変換したものをパターン変換
部8で求め。こJしをTとすると、′1゛は、T=X、
X2・・・・・・Xl・・・・・Xkとなる。
1−ル量子化部4においてベクトル量子化し、各フレー
ムaiごとに最も近いコードベタ(・ルCkによって表
わしたパターンを千とする。予は、 T=qIQ、 ・−81・・・8丁 と表わす。次に1゛を前記コー1〜べ月−ルC7,kの
使用頻度Xkによって表わしたパターンをパターン生成
部5で求め、このときのパターンをT=X、X、−・・
・・・・Xk・・・・・・XI<とする。この1゛も前
記と同様にして類似度テープ/L/7(7) S l
、j) ニヨって変換し、変換したものをパターン変換
部8で求め。こJしをTとすると、′1゛は、T=X、
X2・・・・・・Xl・・・・・Xkとなる。
次に、前記パターン蓄積部6の標準頻度分布バ知入力の
頻度分布パターンTとのパターンマツチングをパターン
マツチング部9で行なう。即ち、前記標準4パターンR
nと未知人力パターンTとの単語間距離をD (Rn
、 T)とし、前記標′$頻度分布パターン12..
nの使用頻度Ykと前記未知人力をdfとり、、前ia
単M 間距′NID (Rn+ T ) ヲ前記入力
フレーム長■と単語nのフレーム長Jnの和で正規化し
て、 で表わす。
頻度分布パターンTとのパターンマツチングをパターン
マツチング部9で行なう。即ち、前記標準4パターンR
nと未知人力パターンTとの単語間距離をD (Rn
、 T)とし、前記標′$頻度分布パターン12..
nの使用頻度Ykと前記未知人力をdfとり、、前ia
単M 間距′NID (Rn+ T ) ヲ前記入力
フレーム長■と単語nのフレーム長Jnの和で正規化し
て、 で表わす。
前記距MA[dfとしては、通′#絶対値距離を用い、
df(’Yn k、 Xk) = l Yn k−Xk
1とする。
1とする。
また、(1)式における距離尺度dfとして、知入力頻
度分布パターンTの頻度数Xkとの値の差が例えば1/
2〜2倍の範囲であれば、前記距離尺度dfを0とする
。
度分布パターンTの頻度数Xkとの値の差が例えば1/
2〜2倍の範囲であれば、前記距離尺度dfを0とする
。
なる距離尺度を使用することもできる。但し、α。
β、γはパラメータであり、αは、(2)式の分母を0
としないために例えばα=1とする。βは距離尺度の調
整用パラメータであるが、通常β=0とし、γはγ=1
として使用する。
としないために例えばα=1とする。βは距離尺度の調
整用パラメータであるが、通常β=0とし、γはγ=1
として使用する。
上述のごとき距離尺度を使用することにより標準パター
ン並びに未知入カバターンの時間的な非線形伸縮に強い
パターンマツチングを行なうことカテキル。(2)式(
7) df(Y、” k、 Xk) ノ計xtt。
ン並びに未知入カバターンの時間的な非線形伸縮に強い
パターンマツチングを行なうことカテキル。(2)式(
7) df(Y、” k、 Xk) ノ計xtt。
予め行なっておき、テーブルに格納しておけば、〜
任意のY’に、Xkとの組み合せに対する距離df(Y
’ k、 Xk )は、前記テーブルを引用することに
よって直ちに求められる。
’ k、 Xk )は、前記テーブルを引用することに
よって直ちに求められる。
而して、前記単語間距離D (Rn、T)を全ての辞書
単語n (n=1.2.・・・・・、N)について計算
し、単語同定部10において前記D(Rn 、T)の値
が最小となる辞書単語nを前記未知入力単語の認識結果
として認識結果出力部11で出力する。
単語n (n=1.2.・・・・・、N)について計算
し、単語同定部10において前記D(Rn 、T)の値
が最小となる辞書単語nを前記未知入力単語の認識結果
として認識結果出力部11で出力する。
すなわちRは、
n = arg min D(R’ + T)で表わさ
れる。
れる。
なお、以上には、類似度テーブルを用いてコードベクト
ル間相互の類似性を導入するようにした実施例について
説明したが、本発明は、上記実施例に限定されたもので
はなく1例えば、前記頻度近い第1候補のコードベクト
ルに対しては例えば頻度数(カウント数)を2.第2候
補のコードベタ1−ルに対しては例えば頻度数(カウン
ト数)を1とし、コードベクトル間の類似性を反映させ
るようにしてもよい。
ル間相互の類似性を導入するようにした実施例について
説明したが、本発明は、上記実施例に限定されたもので
はなく1例えば、前記頻度近い第1候補のコードベクト
ルに対しては例えば頻度数(カウント数)を2.第2候
補のコードベタ1−ルに対しては例えば頻度数(カウン
ト数)を1とし、コードベクトル間の類似性を反映させ
るようにしてもよい。
上述のように、本発明によるとDPマツチングの際に必
要な計算回数IXJXNに比べて、KXN回(K<<
I X J)程度で済むことになり、また、コードベク
トル間相互の類似性を導入してパターンマツチングを行
なうことにより、認識精度の向上を図ることができるの
で、高速でかつ正確な認識が可能となる。
要な計算回数IXJXNに比べて、KXN回(K<<
I X J)程度で済むことになり、また、コードベク
トル間相互の類似性を導入してパターンマツチングを行
なうことにより、認識精度の向上を図ることができるの
で、高速でかつ正確な認識が可能となる。
助−1
以」二の説明から明らかなように、本発明によると、単
語標準パターンおよび未知入カバターンの特徴ベクトル
の頻度分布パターンに基づいてパターンマツチングを行
なう際に、コードベタトル間相互の類似性を導入するよ
うにしたので、認識精度の向上を図ることができ、また
、パターンマツチングに必要な計算量を減少せしめ、高
速かつ正確に未知入力音声単語を認識することができる
。更には、大語霊単語を高速かつ正確に予備選択する手
段に応用することが可能である等の利点がある。
語標準パターンおよび未知入カバターンの特徴ベクトル
の頻度分布パターンに基づいてパターンマツチングを行
なう際に、コードベタトル間相互の類似性を導入するよ
うにしたので、認識精度の向上を図ることができ、また
、パターンマツチングに必要な計算量を減少せしめ、高
速かつ正確に未知入力音声単語を認識することができる
。更には、大語霊単語を高速かつ正確に予備選択する手
段に応用することが可能である等の利点がある。
図は1本発明の一実施例を説明するためのブロック線図
である。 1・・音声入力部、2・・・スペクトル解析部、3・・
・コードブック蓄積部、4・・未知入力フレームのベク
トル量子化部、5・・・コードベタ1−ルの使用頻度分
布パターン生成部、6・・・標準頻度分布パターン蓄積
部、7・・・コードベタ1−ル間の類似度テーブル、8
・・・頻度分布パターン変換部、9パタ一ンマツチング
部、10・・・単語同定部、11・・認識結果出力部。 手続術[til三書(方式) %式% : 1、事件の表示 昭和59年 特許願 第12881.4号2、発明の名
称 単語音声認識方式 、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏名(名称
) (674)株式会社 リ コ −代表者 浜
1) 広 (ばか1名)、代 理 人 住 所 〒231 横浜市中区不老町1−2−
7シヤトレーイン横浜807号 、補正の対象 (1)、明細書の発明の詳細な説明の欄7、補正の内容 (1)、明細書第3頁第7行目及び第11頁第12行目
に記載の1図は、」を「第1図は、」に補正する。 (2)、図に、朱書の通り「第1図」を加入する。 8、添付書類 上申書 1通 第 11〆[
である。 1・・音声入力部、2・・・スペクトル解析部、3・・
・コードブック蓄積部、4・・未知入力フレームのベク
トル量子化部、5・・・コードベタ1−ルの使用頻度分
布パターン生成部、6・・・標準頻度分布パターン蓄積
部、7・・・コードベタ1−ル間の類似度テーブル、8
・・・頻度分布パターン変換部、9パタ一ンマツチング
部、10・・・単語同定部、11・・認識結果出力部。 手続術[til三書(方式) %式% : 1、事件の表示 昭和59年 特許願 第12881.4号2、発明の名
称 単語音声認識方式 、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏名(名称
) (674)株式会社 リ コ −代表者 浜
1) 広 (ばか1名)、代 理 人 住 所 〒231 横浜市中区不老町1−2−
7シヤトレーイン横浜807号 、補正の対象 (1)、明細書の発明の詳細な説明の欄7、補正の内容 (1)、明細書第3頁第7行目及び第11頁第12行目
に記載の1図は、」を「第1図は、」に補正する。 (2)、図に、朱書の通り「第1図」を加入する。 8、添付書類 上申書 1通 第 11〆[
Claims (1)
- 単語の標準パターンの特徴ベクトルをベクトル量子化し
た擬音韻パターンベクトルの頻度分布パターンを予め蓄
積しておき、未知入力単語音声をスペクトル分析した特
徴ベクトルを同じくベクトル量子化して擬音韻パターン
ベクトルの頻度分析パターンによつて表わし、前記単語
標準パターンの頻度分布パターンとのパターンマッチン
グを行なう音声認識方式において、前記パターンベクト
ルにパターンベクトル間相互の類似性を付加したことを
特徴とする音声認識方式。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128814A JPS617892A (ja) | 1984-06-22 | 1984-06-22 | 単語音声認識方式 |
| DE19853522364 DE3522364A1 (de) | 1984-06-22 | 1985-06-22 | System zum erkennen von sprache |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128814A JPS617892A (ja) | 1984-06-22 | 1984-06-22 | 単語音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS617892A true JPS617892A (ja) | 1986-01-14 |
Family
ID=14994072
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59128814A Pending JPS617892A (ja) | 1984-06-22 | 1984-06-22 | 単語音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS617892A (ja) |
-
1984
- 1984-06-22 JP JP59128814A patent/JPS617892A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH079600B2 (ja) | 音声信号の符号化及び復号化のための方法及び装置 | |
| CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
| JPS6247320B2 (ja) | ||
| JPH01997A (ja) | ベクトル量子化を用いた音声認識方式 | |
| JPH067345B2 (ja) | ベクトル量子化を用いた音声認識方式 | |
| JPH01998A (ja) | スペクトログラムの正規化方法 | |
| KR100422261B1 (ko) | 음성코딩방법및음성재생장치 | |
| JP2001034280A (ja) | 電子メール受信装置および電子メールシステム | |
| JPS617892A (ja) | 単語音声認識方式 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| RU61924U1 (ru) | Статистическая модель речи | |
| JPS617893A (ja) | 大語彙単語音声認識方式 | |
| KR100624440B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
| JPS617891A (ja) | 単語音声認識方式 | |
| JPS607496A (ja) | 音声認識装置 | |
| JPS621000A (ja) | 音声処理装置 | |
| JPS5999496A (ja) | ベクトル量子化法 | |
| TW569181B (en) | Natural frequency speech recognition method and its device | |
| JPS62999A (ja) | 区分的最適関数近似方法 | |
| JPS60216391A (ja) | 音声認識における辞書作成方式 | |
| JPS61166600A (ja) | 音声合成装置 | |
| JPH10274992A (ja) | 音声モデル学習データ作成方法およびその装置 | |
| JPS5968793A (ja) | 音声合成装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JPS61172200A (ja) | 音声合成装置 |