JPH03253900A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH03253900A JPH03253900A JP2053013A JP5301390A JPH03253900A JP H03253900 A JPH03253900 A JP H03253900A JP 2053013 A JP2053013 A JP 2053013A JP 5301390 A JP5301390 A JP 5301390A JP H03253900 A JPH03253900 A JP H03253900A
- Authority
- JP
- Japan
- Prior art keywords
- state
- input
- pattern
- standard pattern
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
荻轍欽立
本発明は、音声認識装置、より詳細には、音声認識にお
ける照合部に関する。
ける照合部に関する。
従」0【際
音声パターンの照合方式の1つであるDPマツチングは
、計算量が多いという欠点があった。これは、局所距離
、累積距離を計算すべき格子点の数が(入力フレーム数
) X (4i1準パターンのフレーム数)に比例して
いることに起因している。また、圧縮DPという手法も
知られている。これは、格子点の数を減らすのに有効な
方法であるが、音声パターンのどの部分をどれだけ圧縮
するがという決め方が難しい。また、伸縮の制御も複雑
になり、単語によって圧縮率が異なる等の欠点があった
。また、HMMでは、距離と確率との違いはあるが、格
子点の数が、(入力フレーム数)X(モデルの状態数)
となり、DPマツチングの格子点と比較して、計算量が
大幅に少なくなっている。
、計算量が多いという欠点があった。これは、局所距離
、累積距離を計算すべき格子点の数が(入力フレーム数
) X (4i1準パターンのフレーム数)に比例して
いることに起因している。また、圧縮DPという手法も
知られている。これは、格子点の数を減らすのに有効な
方法であるが、音声パターンのどの部分をどれだけ圧縮
するがという決め方が難しい。また、伸縮の制御も複雑
になり、単語によって圧縮率が異なる等の欠点があった
。また、HMMでは、距離と確率との違いはあるが、格
子点の数が、(入力フレーム数)X(モデルの状態数)
となり、DPマツチングの格子点と比較して、計算量が
大幅に少なくなっている。
また、状態数が固定であるため、語愈の変更によって演
算量が変化しないなどの利点がある。しかし、HMMで
は1時間方向の伸#1(状態遷移の制御)が難しいとい
う欠点があった。また、訓練データが少ないと良質のモ
デルが得にくいという欠点があった。
算量が変化しないなどの利点がある。しかし、HMMで
は1時間方向の伸#1(状態遷移の制御)が難しいとい
う欠点があった。また、訓練データが少ないと良質のモ
デルが得にくいという欠点があった。
上記欠点を解決するために、本出願人は、先に、少ない
演算量と少ない標準パターン用メモリーを用いてN*な
音声パターンの照合を行なう音声認識方式について提案
した(特開昭64−23299号公報)。
演算量と少ない標準パターン用メモリーを用いてN*な
音声パターンの照合を行なう音声認識方式について提案
した(特開昭64−23299号公報)。
上記音声認識方式においては、標準パターンは一定数の
状態の時系列として表現され、各状態ごとに状態を代表
する特徴ベクトルと継続時間が登録してあり、照合時に
は入力ベクトルと標準パターンの特徴ベクトルの距離を
計算し、状態遷移の重みは入カバターンが状態に滞留し
た時間と状態の継続時間とで定められている。
状態の時系列として表現され、各状態ごとに状態を代表
する特徴ベクトルと継続時間が登録してあり、照合時に
は入力ベクトルと標準パターンの特徴ベクトルの距離を
計算し、状態遷移の重みは入カバターンが状態に滞留し
た時間と状態の継続時間とで定められている。
例えば、単語音声認識においては、入力音声パターンの
フレーム数を工、標準パターンの状態数をNとすると、
2つのパターン間の距離は入力音声パターンの特徴ベク
トルと標準パターンの特徴ベクトルの距離が全部で1回
加算され、状態遷移に関する重み(コスト)が全部でN
−1回、もしくはN回加算されていることになる。
フレーム数を工、標準パターンの状態数をNとすると、
2つのパターン間の距離は入力音声パターンの特徴ベク
トルと標準パターンの特徴ベクトルの距離が全部で1回
加算され、状態遷移に関する重み(コスト)が全部でN
−1回、もしくはN回加算されていることになる。
このため、標準パターンの状態数Nが単語ごとに異なる
と、状態遷移に関する重みを加算する回数が異なるため
に単純にパターン間距離を比較することができず、結果
的に全てのI!準パターンは等しい状態数を持つ必要が
あった。
と、状態遷移に関する重みを加算する回数が異なるため
に単純にパターン間距離を比較することができず、結果
的に全てのI!準パターンは等しい状態数を持つ必要が
あった。
止−−h
本発明は、上述のごとき実情に鑑みてなされたもので、
標準パターンの状態数が標準パターンごとに異なってい
る場合でも、状態遷移の重みを加算する回数を実質的に
等しくし、精密なパターン照合を可能にすることを目的
としてなされたものである。
標準パターンの状態数が標準パターンごとに異なってい
る場合でも、状態遷移の重みを加算する回数を実質的に
等しくし、精密なパターン照合を可能にすることを目的
としてなされたものである。
構−一」叉
本発明は、上記目的を達成するため番こ、入力された音
声信号を特徴ベクトルの時系列に変換する特徴系列変換
部と、特徴ベクトルと継続時間の情報から成る状態の時
系列として表現された標準パターンを格納する標準パタ
ーン格納部と、入力された特徴ベクトルと標準パターン
とを照合する照合部とを具備する音声認識装置において
、照合部3− 4− において標準パターンaの状態jの継続時間をLIJ、
入力ベクトルが状態jに滞留した時間をiIJとすると
き、状1mjから状態j+1へ遷移するときのコストを
(iij−L*、+) 2とi++の双方に比例したコ
ストにすることを特徴としたものである。以下、本発明
の実施例に基づいて説明する。
声信号を特徴ベクトルの時系列に変換する特徴系列変換
部と、特徴ベクトルと継続時間の情報から成る状態の時
系列として表現された標準パターンを格納する標準パタ
ーン格納部と、入力された特徴ベクトルと標準パターン
とを照合する照合部とを具備する音声認識装置において
、照合部3− 4− において標準パターンaの状態jの継続時間をLIJ、
入力ベクトルが状態jに滞留した時間をiIJとすると
き、状1mjから状態j+1へ遷移するときのコストを
(iij−L*、+) 2とi++の双方に比例したコ
ストにすることを特徴としたものである。以下、本発明
の実施例に基づいて説明する。
第1図は、本発明の一実斃例を説明するためのブロック
図、第2図は、照合部の動作説明をするためのフローチ
ャートで、第1図において、1は音声入力部、2は特徴
系列変換部、3は照合部、4は標準パターン格納部であ
り、また、第2図において、UPは一時的に使用する変
数である。
図、第2図は、照合部の動作説明をするためのフローチ
ャートで、第1図において、1は音声入力部、2は特徴
系列変換部、3は照合部、4は標準パターン格納部であ
り、また、第2図において、UPは一時的に使用する変
数である。
今、マイクなどの音声入力部1から入力された音声波形
は、特徴系列変換部2で特徴ベクトルの時系列(以下、
入力音声パターンと呼ぶ)に変換される。音声認識に有
用な特徴ベクトルは様々なものが知られており、例えば
、250〜6300Hzに1/3オクターブごとに配置
された15個のバンドパスフィルター群の出力を音声パ
ワーで正規化したものを用いれば良い。このとき、入力
音声パターンXは、 X ” X□xz Xa −xI
(1)(工は入力音声パターンのフレーム数)と表現さ
れる。ここでxiは入力音声パターンのiフレーム目の
特徴ベクトルであり、本実施例では15次元のベクトル
である。また、フレーム周期はLOrns程度に設定す
れば良い。
は、特徴系列変換部2で特徴ベクトルの時系列(以下、
入力音声パターンと呼ぶ)に変換される。音声認識に有
用な特徴ベクトルは様々なものが知られており、例えば
、250〜6300Hzに1/3オクターブごとに配置
された15個のバンドパスフィルター群の出力を音声パ
ワーで正規化したものを用いれば良い。このとき、入力
音声パターンXは、 X ” X□xz Xa −xI
(1)(工は入力音声パターンのフレーム数)と表現さ
れる。ここでxiは入力音声パターンのiフレーム目の
特徴ベクトルであり、本実施例では15次元のベクトル
である。また、フレーム周期はLOrns程度に設定す
れば良い。
標準パターンは、状態の時系列として標準パターン格納
部に格納されている。単語氾の標準パターンは、N (
fl)個の状態から成り、各状態jごとに特徴ベクトル
y、と継続時間り、とが登録されている。
部に格納されている。単語氾の標準パターンは、N (
fl)個の状態から成り、各状態jごとに特徴ベクトル
y、と継続時間り、とが登録されている。
照合部では、第2図に示すように、以下に示す漸化式を
用いて、入力音声パターンXと単語氾の標準パターンと
の距離Dxs (X+ Q)を計算する。
用いて、入力音声パターンXと単語氾の標準パターンと
の距離Dxs (X+ Q)を計算する。
(i ) D(1)= d (1,1)
(2)B(1)=1
(3)D (j) =の(2≦j≦N(n)
) (4)(jj ) i =2.3,4.
・・、■についてブロックA、ブロックBを計算。
(2)B(1)=1
(3)D (j) =の(2≦j≦N(n)
) (4)(jj ) i =2.3,4.
・・、■についてブロックA、ブロックBを計算。
ブロックA:
j=N((1)、N((2)−1,・・・、2の順で式
(5) 、 (6)を計算。
(5) 、 (6)を計算。
■のとき、B(j)=i (6)
ブロックB: D(Iン= d (i、1)+D(1)
(7)(iii) Dis(X、R)
=D(N(n)+W(I+1−BN(Q)、LN(u)
、j)(8) ここで、D(j)は累積距離を保持する一時的メモリー
であり、 E (j)は、バックポインタを示す一時的
なメモリーである。
ブロックB: D(Iン= d (i、1)+D(1)
(7)(iii) Dis(X、R)
=D(N(n)+W(I+1−BN(Q)、LN(u)
、j)(8) ここで、D(j)は累積距離を保持する一時的メモリー
であり、 E (j)は、バックポインタを示す一時的
なメモリーである。
また、d(i、j)は、入力音声パターンのiフレーム
目の特徴ベクトルxiと標準パターン氾のj状態の特徴
ベクトルy、1との距離であり例えばユークリッド距離
を用いれば d (i、j)= If Xi−’s、−If2(9)
となる。また、Wは状態遷移の重みを表わしている。式
(5)で■項が採用された場合、このマツチングパスが
j−1状態に滞留した時間11+j−1はi −B (
j−1)である。
目の特徴ベクトルxiと標準パターン氾のj状態の特徴
ベクトルy、1との距離であり例えばユークリッド距離
を用いれば d (i、j)= If Xi−’s、−If2(9)
となる。また、Wは状態遷移の重みを表わしている。式
(5)で■項が採用された場合、このマツチングパスが
j−1状態に滞留した時間11+j−1はi −B (
j−1)である。
本発明では、状態j−j+1の遷移の重みを1ea−L
eJfとi、Jの双方に比例した量にするので、式(5
)のようにj−1〜jの状態遷移の場合には、 W(i−B(j−1)+La−t、 t)=W(i J
−L、 rtLa−1,)”W(i J−1,11LJ
−1,1)2’ i J−1,1(10) (Wは定数)とする。
eJfとi、Jの双方に比例した量にするので、式(5
)のようにj−1〜jの状態遷移の場合には、 W(i−B(j−1)+La−t、 t)=W(i J
−L、 rtLa−1,)”W(i J−1,11LJ
−1,1)2’ i J−1,1(10) (Wは定数)とする。
羞−一層
以上の説明から明らかなように、本発明の照合部では、
式(10)のように状態遷移の重みを状態jに滞留した
時間i、に比例した量にしている。
式(10)のように状態遷移の重みを状態jに滞留した
時間i、に比例した量にしている。
このため、式(2)〜(8)に示す漸化式で2つのパタ
ーン間距離を計算した際、見かけ上は、状態遷移の重み
が標準パターンの状態数N(4)回加算されているが、
実際には、式(10)右辺第3項がない状態遷移の重み 7− W ( l J−1. 1 L J−1. 1)が標
準パターンの状態数によらず、入力フレーム数I@だけ
加算されている。
ーン間距離を計算した際、見かけ上は、状態遷移の重み
が標準パターンの状態数N(4)回加算されているが、
実際には、式(10)右辺第3項がない状態遷移の重み 7− W ( l J−1. 1 L J−1. 1)が標
準パターンの状態数によらず、入力フレーム数I@だけ
加算されている。
このため、単語音声認識においては、標準パターンの状
態数が一定でなくとも正確な評価が行なえるようになる
。そこで、音素数が多く単語パターンの変化が大きいも
のだけ状態数を大きく設定することができ、全体として
効率の良い標準パターン群を構成することができる。
態数が一定でなくとも正確な評価が行なえるようになる
。そこで、音素数が多く単語パターンの変化が大きいも
のだけ状態数を大きく設定することができ、全体として
効率の良い標準パターン群を構成することができる。
また、本実施例では、単語音声認識装置にて説明したが
、連続音声を音素などの標準パターンを用いて認識する
場合、入力音声の音素数が不明なために異なった状態数
で構成された候補同士の比較をする場合でも、本発明に
よれば正確に距離を比較することができる。
、連続音声を音素などの標準パターンを用いて認識する
場合、入力音声の音素数が不明なために異なった状態数
で構成された候補同士の比較をする場合でも、本発明に
よれば正確に距離を比較することができる。
なお、式(10)では、Wを一定の定数にて説明したが
、単語氾,状態jごとに固有の値(例えばL J lの
分散の逆数)に設定することにより一層精密な照合を行
なうことも可能である等の利点がある。
、単語氾,状態jごとに固有の値(例えばL J lの
分散の逆数)に設定することにより一層精密な照合を行
なうことも可能である等の利点がある。
第1図は、本発明の一実施例を説明するためのブロック
図、第2図は、照合部の動作説明をするためのフローチ
ャートである。 1・・・音声入力部、2・・・特徴系列変換部、3・・
・照合部、4・・・標準パターン格納部。
図、第2図は、照合部の動作説明をするためのフローチ
ャートである。 1・・・音声入力部、2・・・特徴系列変換部、3・・
・照合部、4・・・標準パターン格納部。
Claims (1)
- 1、入力された音声信号を特徴ベクトルの時系列に変換
する特徴系列変換部と、特徴ベクトルと継続時間の情報
から成る状態の時系列として表現された標準パターンを
格納する標準パターン格納部と、入力された特徴ベクト
ルと標準パターンとを照合する照合部とを具備する音声
認識装置において、照合部において標準パターンlの状
態jの継続時間をL_i_j、入力ベクトルが状態jに
滞留した時間i_i_jとするとき、状態jから状態j
+1へ遷移するときのコストを(i_i_j−L_i_
j)^2とi_i_jの双方に比例したコストにするこ
とを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2053013A JPH03253900A (ja) | 1990-03-05 | 1990-03-05 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2053013A JPH03253900A (ja) | 1990-03-05 | 1990-03-05 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03253900A true JPH03253900A (ja) | 1991-11-12 |
Family
ID=12931022
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2053013A Pending JPH03253900A (ja) | 1990-03-05 | 1990-03-05 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03253900A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009103893A (ja) * | 2007-10-23 | 2009-05-14 | Yamaha Corp | 音制御装置およびプログラム |
-
1990
- 1990-03-05 JP JP2053013A patent/JPH03253900A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009103893A (ja) * | 2007-10-23 | 2009-05-14 | Yamaha Corp | 音制御装置およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR0134158B1 (ko) | 음성인식장치 | |
| US5129001A (en) | Method and apparatus for modeling words with multi-arc markov models | |
| JPS58102299A (ja) | 部分単位音声パタン発生装置 | |
| JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
| JPH03201079A (ja) | パターンマッチング装置 | |
| JPWO1993020552A1 (ja) | ニューラルネットワークを用いた音声認識装置およびその学習方法 | |
| JPH029359B2 (ja) | ||
| US4802226A (en) | Pattern matching apparatus | |
| US5732393A (en) | Voice recognition device using linear predictive coding | |
| JPH03253900A (ja) | 音声認識装置 | |
| JPH0887294A (ja) | 音声認識装置 | |
| Shinozaki et al. | Hidden mode HMM using bayesian network for modeling speaking rate fluctuation | |
| JP2804265B2 (ja) | 音声認識方式 | |
| JP3160277B2 (ja) | 基本周波数パターン推定装置 | |
| JP2655902B2 (ja) | 音声の特徴抽出装置 | |
| JP3576792B2 (ja) | 音声情報処理方法 | |
| JP3009962B2 (ja) | 音声認識装置 | |
| JPH0223876B2 (ja) | ||
| KR950010020B1 (ko) | 음성인식기의 음성지속시간 모델링 방법 | |
| JP2655903B2 (ja) | 音声認識装置 | |
| JPH0361957B2 (ja) | ||
| JPH04332000A (ja) | 音声認識方法 | |
| JPH0638195B2 (ja) | パタンマッチング装置 | |
| JPH0361955B2 (ja) | ||
| JPH04323698A (ja) | パターンマッチング法 |