JPH03253900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03253900A
JPH03253900A JP2053013A JP5301390A JPH03253900A JP H03253900 A JPH03253900 A JP H03253900A JP 2053013 A JP2053013 A JP 2053013A JP 5301390 A JP5301390 A JP 5301390A JP H03253900 A JPH03253900 A JP H03253900A
Authority
JP
Japan
Prior art keywords
state
input
pattern
standard pattern
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2053013A
Other languages
English (en)
Inventor
Tetsuya Muroi
室井 哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2053013A priority Critical patent/JPH03253900A/ja
Publication of JPH03253900A publication Critical patent/JPH03253900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 荻轍欽立 本発明は、音声認識装置、より詳細には、音声認識にお
ける照合部に関する。
従」0【際 音声パターンの照合方式の1つであるDPマツチングは
、計算量が多いという欠点があった。これは、局所距離
、累積距離を計算すべき格子点の数が(入力フレーム数
) X (4i1準パターンのフレーム数)に比例して
いることに起因している。また、圧縮DPという手法も
知られている。これは、格子点の数を減らすのに有効な
方法であるが、音声パターンのどの部分をどれだけ圧縮
するがという決め方が難しい。また、伸縮の制御も複雑
になり、単語によって圧縮率が異なる等の欠点があった
。また、HMMでは、距離と確率との違いはあるが、格
子点の数が、(入力フレーム数)X(モデルの状態数)
となり、DPマツチングの格子点と比較して、計算量が
大幅に少なくなっている。
また、状態数が固定であるため、語愈の変更によって演
算量が変化しないなどの利点がある。しかし、HMMで
は1時間方向の伸#1(状態遷移の制御)が難しいとい
う欠点があった。また、訓練データが少ないと良質のモ
デルが得にくいという欠点があった。
上記欠点を解決するために、本出願人は、先に、少ない
演算量と少ない標準パターン用メモリーを用いてN*な
音声パターンの照合を行なう音声認識方式について提案
した(特開昭64−23299号公報)。
上記音声認識方式においては、標準パターンは一定数の
状態の時系列として表現され、各状態ごとに状態を代表
する特徴ベクトルと継続時間が登録してあり、照合時に
は入力ベクトルと標準パターンの特徴ベクトルの距離を
計算し、状態遷移の重みは入カバターンが状態に滞留し
た時間と状態の継続時間とで定められている。
例えば、単語音声認識においては、入力音声パターンの
フレーム数を工、標準パターンの状態数をNとすると、
2つのパターン間の距離は入力音声パターンの特徴ベク
トルと標準パターンの特徴ベクトルの距離が全部で1回
加算され、状態遷移に関する重み(コスト)が全部でN
−1回、もしくはN回加算されていることになる。
このため、標準パターンの状態数Nが単語ごとに異なる
と、状態遷移に関する重みを加算する回数が異なるため
に単純にパターン間距離を比較することができず、結果
的に全てのI!準パターンは等しい状態数を持つ必要が
あった。
止−−h 本発明は、上述のごとき実情に鑑みてなされたもので、
標準パターンの状態数が標準パターンごとに異なってい
る場合でも、状態遷移の重みを加算する回数を実質的に
等しくし、精密なパターン照合を可能にすることを目的
としてなされたものである。
構−一」叉 本発明は、上記目的を達成するため番こ、入力された音
声信号を特徴ベクトルの時系列に変換する特徴系列変換
部と、特徴ベクトルと継続時間の情報から成る状態の時
系列として表現された標準パターンを格納する標準パタ
ーン格納部と、入力された特徴ベクトルと標準パターン
とを照合する照合部とを具備する音声認識装置において
、照合部3− 4− において標準パターンaの状態jの継続時間をLIJ、
入力ベクトルが状態jに滞留した時間をiIJとすると
き、状1mjから状態j+1へ遷移するときのコストを
(iij−L*、+) 2とi++の双方に比例したコ
ストにすることを特徴としたものである。以下、本発明
の実施例に基づいて説明する。
第1図は、本発明の一実斃例を説明するためのブロック
図、第2図は、照合部の動作説明をするためのフローチ
ャートで、第1図において、1は音声入力部、2は特徴
系列変換部、3は照合部、4は標準パターン格納部であ
り、また、第2図において、UPは一時的に使用する変
数である。
今、マイクなどの音声入力部1から入力された音声波形
は、特徴系列変換部2で特徴ベクトルの時系列(以下、
入力音声パターンと呼ぶ)に変換される。音声認識に有
用な特徴ベクトルは様々なものが知られており、例えば
、250〜6300Hzに1/3オクターブごとに配置
された15個のバンドパスフィルター群の出力を音声パ
ワーで正規化したものを用いれば良い。このとき、入力
音声パターンXは、 X ” X□xz Xa −xI          
(1)(工は入力音声パターンのフレーム数)と表現さ
れる。ここでxiは入力音声パターンのiフレーム目の
特徴ベクトルであり、本実施例では15次元のベクトル
である。また、フレーム周期はLOrns程度に設定す
れば良い。
標準パターンは、状態の時系列として標準パターン格納
部に格納されている。単語氾の標準パターンは、N (
fl)個の状態から成り、各状態jごとに特徴ベクトル
y、と継続時間り、とが登録されている。
照合部では、第2図に示すように、以下に示す漸化式を
用いて、入力音声パターンXと単語氾の標準パターンと
の距離Dxs (X+ Q)を計算する。
(i ) D(1)= d (1,1)       
     (2)B(1)=1           
     (3)D (j) =の(2≦j≦N(n)
)     (4)(jj )  i =2.3,4.
・・、■についてブロックA、ブロックBを計算。
ブロックA: j=N((1)、N((2)−1,・・・、2の順で式
(5) 、 (6)を計算。
■のとき、B(j)=i           (6)
ブロックB: D(Iン= d  (i、1)+D(1)      
        (7)(iii) Dis(X、R)
=D(N(n)+W(I+1−BN(Q)、LN(u)
、j)(8) ここで、D(j)は累積距離を保持する一時的メモリー
であり、 E (j)は、バックポインタを示す一時的
なメモリーである。
また、d(i、j)は、入力音声パターンのiフレーム
目の特徴ベクトルxiと標準パターン氾のj状態の特徴
ベクトルy、1との距離であり例えばユークリッド距離
を用いれば d (i、j)= If Xi−’s、−If2(9)
となる。また、Wは状態遷移の重みを表わしている。式
(5)で■項が採用された場合、このマツチングパスが
j−1状態に滞留した時間11+j−1はi −B (
j−1)である。
本発明では、状態j−j+1の遷移の重みを1ea−L
eJfとi、Jの双方に比例した量にするので、式(5
)のようにj−1〜jの状態遷移の場合には、 W(i−B(j−1)+La−t、 t)=W(i J
−L、 rtLa−1,)”W(i J−1,11LJ
−1,1)2’ i J−1,1(10) (Wは定数)とする。
羞−一層 以上の説明から明らかなように、本発明の照合部では、
式(10)のように状態遷移の重みを状態jに滞留した
時間i、に比例した量にしている。
このため、式(2)〜(8)に示す漸化式で2つのパタ
ーン間距離を計算した際、見かけ上は、状態遷移の重み
が標準パターンの状態数N(4)回加算されているが、
実際には、式(10)右辺第3項がない状態遷移の重み 7− W ( l J−1. 1  L J−1. 1)が標
準パターンの状態数によらず、入力フレーム数I@だけ
加算されている。
このため、単語音声認識においては、標準パターンの状
態数が一定でなくとも正確な評価が行なえるようになる
。そこで、音素数が多く単語パターンの変化が大きいも
のだけ状態数を大きく設定することができ、全体として
効率の良い標準パターン群を構成することができる。
また、本実施例では、単語音声認識装置にて説明したが
、連続音声を音素などの標準パターンを用いて認識する
場合、入力音声の音素数が不明なために異なった状態数
で構成された候補同士の比較をする場合でも、本発明に
よれば正確に距離を比較することができる。
なお、式(10)では、Wを一定の定数にて説明したが
、単語氾,状態jごとに固有の値(例えばL J lの
分散の逆数)に設定することにより一層精密な照合を行
なうことも可能である等の利点がある。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するためのブロック
図、第2図は、照合部の動作説明をするためのフローチ
ャートである。 1・・・音声入力部、2・・・特徴系列変換部、3・・
・照合部、4・・・標準パターン格納部。

Claims (1)

    【特許請求の範囲】
  1. 1、入力された音声信号を特徴ベクトルの時系列に変換
    する特徴系列変換部と、特徴ベクトルと継続時間の情報
    から成る状態の時系列として表現された標準パターンを
    格納する標準パターン格納部と、入力された特徴ベクト
    ルと標準パターンとを照合する照合部とを具備する音声
    認識装置において、照合部において標準パターンlの状
    態jの継続時間をL_i_j、入力ベクトルが状態jに
    滞留した時間i_i_jとするとき、状態jから状態j
    +1へ遷移するときのコストを(i_i_j−L_i_
    j)^2とi_i_jの双方に比例したコストにするこ
    とを特徴とする音声認識装置。
JP2053013A 1990-03-05 1990-03-05 音声認識装置 Pending JPH03253900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2053013A JPH03253900A (ja) 1990-03-05 1990-03-05 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2053013A JPH03253900A (ja) 1990-03-05 1990-03-05 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03253900A true JPH03253900A (ja) 1991-11-12

Family

ID=12931022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2053013A Pending JPH03253900A (ja) 1990-03-05 1990-03-05 音声認識装置

Country Status (1)

Country Link
JP (1) JPH03253900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009103893A (ja) * 2007-10-23 2009-05-14 Yamaha Corp 音制御装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009103893A (ja) * 2007-10-23 2009-05-14 Yamaha Corp 音制御装置およびプログラム

Similar Documents

Publication Publication Date Title
KR0134158B1 (ko) 음성인식장치
US5129001A (en) Method and apparatus for modeling words with multi-arc markov models
JPS58102299A (ja) 部分単位音声パタン発生装置
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
JPH03201079A (ja) パターンマッチング装置
JPWO1993020552A1 (ja) ニューラルネットワークを用いた音声認識装置およびその学習方法
JPH029359B2 (ja)
US4802226A (en) Pattern matching apparatus
US5732393A (en) Voice recognition device using linear predictive coding
JPH03253900A (ja) 音声認識装置
JPH0887294A (ja) 音声認識装置
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
JP2804265B2 (ja) 音声認識方式
JP3160277B2 (ja) 基本周波数パターン推定装置
JP2655902B2 (ja) 音声の特徴抽出装置
JP3576792B2 (ja) 音声情報処理方法
JP3009962B2 (ja) 音声認識装置
JPH0223876B2 (ja)
KR950010020B1 (ko) 음성인식기의 음성지속시간 모델링 방법
JP2655903B2 (ja) 音声認識装置
JPH0361957B2 (ja)
JPH04332000A (ja) 音声認識方法
JPH0638195B2 (ja) パタンマッチング装置
JPH0361955B2 (ja)
JPH04323698A (ja) パターンマッチング法