JPS61174600A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61174600A
JPS61174600A JP60015846A JP1584685A JPS61174600A JP S61174600 A JPS61174600 A JP S61174600A JP 60015846 A JP60015846 A JP 60015846A JP 1584685 A JP1584685 A JP 1584685A JP S61174600 A JPS61174600 A JP S61174600A
Authority
JP
Japan
Prior art keywords
time series
recognition
parameter
trajectory
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60015846A
Other languages
English (en)
Other versions
JPH0632008B2 (ja
Inventor
雅男 渡
曜一郎 佐古
誠 赤羽
平岩 篤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60015846A priority Critical patent/JPH0632008B2/ja
Publication of JPS61174600A publication Critical patent/JPS61174600A/ja
Publication of JPH0632008B2 publication Critical patent/JPH0632008B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A 産業上の利用分野 B 発明の概要 C従来の技術 D 発明が解決しようとする問題点 E  f81!I点を解決するための手段(第1図)F
 作用(第2図) G 実施例 G1 音響分析回路の説明(第3図) 02 時間正規化処理の説明 (第3図、第4図、第5図) G3 パターンマツチング処理の説明(第3図)H発明
の効果 八 産業上の利用分野 この発明は、前もって作成し記憶しである認識対象語の
標準パターンと、認識したい語の入カパクーンとのパタ
ーンマツチングを行うことによりなす音声認識装置に関
する。
B 発明の概要 この発明はパターンマツチングにより音声認識をなす装
置において、そのマツチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パラメー
タ時系列がそのパラメータ空間で描く軌−を推定しその
軌跡を所定間隔で再サンプリングして得た新たな認識パ
ラメータを用いるとともに、軌跡を推定するとき常に無
音部から軌跡が始まるようにし、かつ、新たな認識パラ
メータ時系列もこの無音部から始まるようにして、入力
信号から音声区間を判定するときのずれがあっても、認
識パラメータ時系列にはその影響が殆んどないようにし
たものである。
C従来の技術 音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声l!識を実現する
ことは現在のところ至難のことである。このため、現在
実用化されている音声認識の殆んどは、一定の使用条件
の下で、認識対象単語の標準パターンと入力パターンと
のパターンマツチングを行なうことによりなす方法であ
る。
第6図はこの音声認識装置の概要を説明するための図で
、マイクロホン(1)よりの音声入力が音響分析回路(
2)に供給される。この音響分析回路(2)では入力音
声パターンの特徴を表わす音響パラメータが抽出される
。この音響パラメータを抽出する音響分析の方法詔種々
考えられるが、例えばその−例としてバンドパスフィル
タと整流回路を1チヤンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Pi(fl(i−1,2・・・III
は例えばバンドパスフィルタのチャンネル数、n−1,
2・・・NUNは音声区間判定により判定された区間に
おいて認識に利用されるフレーム数)で表わすことがで
きる。
この音響分析回路偉)よりの音響パラメータ時系列Pi
(n)は、例えばスイッチからなるモード切換回路(3
)に供給される。この回路(3)のスイッチが端子A側
に切り換えられるときは登録モード時で、音響パラメー
タ時系列pun)が認識パラメータとして標準パターン
メモリ(4)にストアされる。つまり、音声認識に先だ
うて話者の音声パターンが標準パターンとしてこのメモ
リ(4)に記憶される。なお、この登録時、発声速度変
動や単語長の違いにより一般に各登録標準パターンのフ
レーム数は異なっている。
一方、このスイッチ(3)が端子B側に切り換えられる
ときは認識モード時である。そして、この認識モード時
は、音響分析回路伐)からのそのときの入力音声の音響
パラメータ時系列が入力音声パターンメモリ(5)に供
給されて一時スドアされる。そしてこの入力パターンと
標準パターンメモリ(4)から読み出された複数の#1
tilI対象単語の標準パターンのそれぞれとの違いの
大きさが距離算出回路(6)にて針算され、そのうち入
力パターンと標準パターンとの差が最小の認識対象単語
が最小値判定回路(力にて検出され、これにて入力され
た単語が認識される。
このように、登録された標準パターンと入力パターンの
パターンマツチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない、すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が「
ハーイ」と時間軸方向に伸びてしまった場合、これは距
離が大きく違い、全く違った単語とされてしまい、正し
いl!鴎ができない、このため、音声認識のパターンマ
ツチングでは、この時間軸方向のずれ、伸縮を補正する
時間正規化の処理を行なう必要があり、また、この時間
正規化は認識精度を向上させるための重要な処理である
この時間正規化の一方法としてD P (Dynami
cProgra膳−ing )マツチングと呼ばれる手
法がある(例えば特開昭50−96104号公報参照)
このDPマツチングの手法は次のように説明できる。
入力パターンAを次のように表現する。
A=at a2 @ # ’ak 6 @ @、iH(
1)ここでakは時刻kにおける音声の特徴を表す量で
特徴ベクトルと呼び、 ak −(aht+  ahx、  s*++eibq
a+**is、a)   (2)で表わされる。Qはベ
クトルの次数で、音響分析にバンドパスフィルタ群を使
用したときはそのチャンネル数に相等する。
同様に特定の単語の標準パターンをBとし、次のように
表わす。
B!b、b、・・・・b、・・・・b L      
  (3)b、 −(bオ1.t)I12+  ・・・
・b、q、  ・・・・b 11a )   (4)音
声パターンの時間正規化は第7図に示すように入力パタ
ーンAと標準パターンBの時間軸にとlの間に写像操作
を行うものとみることができる。
この写像を関数 1厘l他)(6) と表現し、歪関数と呼ぶ、この歪関数がわかれば標準パ
ターンBの時間軸をこれによって変換し、入力パターン
Aの時間軸kにそろえることができる。換言すれば、こ
の歪関数によりパターンBは、入力パターンAの時間軸
kにそろえられたパターンB′に変換される。
ここで、 B′露bj(υbj(クリ・−b1龜)・・−・bオ■
  (6)である。
この歪関数は未知であるが、この歪関数の最適条件から
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
DPマツチングは、この原理を実行するための手法であ
り、歪関数に次のような制約を与えて、写像パターンB
′を得るものである。
(i)J(k)は近似的に単調増加関数(ii)j〜)
は近似的に連続関数 (iiL)jl(k)はk(7)近傍の値をトル。
マツチング処理の結果として必要なものは、標準パター
ンと入力パターン間の距離で、で表わされる。ここで1
111は二つのベクトルの距離を示す、この距離の最小
のものが標準パターンBと入力パターンAを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表わす量D (A、B)であり、 で定義できる。
したがって、登録された標準パターンが複数あるときは
、各標準パターンと入力パターンとの量D (A、B)
を求め、その量D (A、B)が最小になる標準パター
ンとマツチングしたと判定する。
以上のように、DPマツチングは時間軸のずれを考慮し
た多数の標準パターンを用意してお(のではなく、歪関
数によって多数の時間を正規化した標準パターンを生成
し、これと入力パターンとの距離を求め、その最小値の
ものを検知することにより、音声認識をするものである
ところで、以上のようなりPマツチングの手法を用いる
場合、登録される標準パターンのフレーム数は不定であ
り、しかも全登録標準パターンと入力パターンとのDP
マツチング処理をする必要があり、語鴬が多くなると演
算量が飛曜的に増加する欠点がある。
また、DPマツチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマツチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59−106177号)
すなわち、音響パラメータ時系列Pi(nlは、そのパ
ラメータ空間を考えた場合、点列を描く0例えば!!識
対象単語がrHAIJであるとき音響分析用バンドパス
フィルタの数が2個で、 Pi(n)= (Px  P2 ) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第8図に示すような点列を・描く
、この図から明らかなように音声の非定常部の点列は粗
に分布し、準定常部は密に分布する。このことは完全に
音声が定常であればパラメータは変化せず、その場合に
は点列はパラメータ空間において一点に停留することと
なることから明らかであろう。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられる
。そこで、この入力パラメータ時系列Pi(n)の点列
から第9図に示すように点列全体を近億的に通過するよ
うな連続曲線で描いた軌跡を推定すれば、この軌跡は音
声の発声速度変動に対して殆んど不変であることがわか
る。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列P
i(n)の始端Pi(1)から終端Pi(6)までを△ 連続曲線Pi■で描いた軌跡を推定し、この推定した曲
線Pi■から軌跡の長さSを求める。そして第10図に
示すようにこの軌跡に沿って所定長Tで再サンプリング
する0例えばM個の点に再サンプリングする場合、 T−3/CM−1)            (9)の
長さを基準として軌跡を再サンプリングする。
この再サンプリングされた点列を描くパラメータ時系列
をQl(’)(1”’1.2”・ I+ ff1−L 
 2・・・・M)とすれば、このパラメータ時系列Qi
(ロ)は軌跡の基本情報を有しており、しかも音声の発
声速度変動に対して殆んど不変なパラメータである。
つまり、時間軸が正規化された認識パラメータ時系列で
ある。
したがって、このパラメータ時系列Qiに)を標準パタ
ーンとして登録しておくとともに、入力パターンもこの
パラメータ時系列Ql(ホ)として得、このパラメータ
時系列Qi(ホ)により両パターン間の距離を求め、そ
の距離が最小であるものを検知して音声iiaを行うよ
うにすれば、時間軸方向のずれが正規化されて除去され
た状態で音声認識が常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Qi(
ホ)のフレーム数は常にMであり、その上認識パラメー
タ時系列Qi(ホ)は時間正規化されているので、入力
パターンと登録標準パターンとの距離の演算は最も単純
なチェビシェフ距離を求める演算でも良好な効果が期待
できる。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマツチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Ql@には含まれず、このためパラメータ空間に配位す
るパラメータ遷移構造のグローバルな特徴等の扱いが容
易となり、不特定話者認識に対しても有効な各種方法の
通用が可能となる。
なお、以下、この時間正規化の処理をNAT(Norg
*alization Along Trajecto
ry)処理と呼ぶ。
D 発明が解決しようとする問題点 以上のNAT処理は、単語が発声されている音声区間内
の情報に対して行なわれるのは当然である。ところで、
この音声区間の判定は入力音声パヮーとゼロクロス点の
数から従来一般に行なっているので、同じ単語を発声速
度変動なしに発声したとしても音声の発声者により音声
区間と判定される区間は異なることが多い。このことは
音響パラメータ時系列の始点Pi(1)、さらに終端P
i(財)が異なることになり、これから当然のように推
定される軌跡も変わってしまうことになる。特に始端P
i(1)が異なればすべてその後も異なってしまうこと
になるので、パターンのずれは恒久的になり音声認識の
正確度が損われる。
E 問題点を解決するための手段 第1図はこの発明による音声認識装置の基本的構成の一
例を示す図で第6図と対応する部分には同一符号を付す
この例の場合、音響分析回路(2)はバンドパスフィル
タ群を用いたものが用いられる。すなわち、マイクロホ
ン(1)からの音声信号はA/Dコンバータ(21)に
供給されてデジタル信号に変換され、このデジタル信号
がデジタルバンドパスフィルタ群(22)に供給されて
複数の周波数成分からなる信号に変換される。このバン
ドパスフィルタ群(22)出力は特徴抽出回路(23)
に供給される。
A/Dコンバータ(21)よりのデジタル音声信号は、
また、音声区間判定回路(25)に供給されて、マイク
ロホン(1)に音声入力がなされた区間が判定され、そ
の判定出力が特徴抽出回路(23)に供給される。
特徴抽出回路(23)では、この音声判定区間において
バンドパスフィルタ群(22)の出力から音響パラメー
タ時系列Pi(n)が作成され、これが音響分析回路(
2)の出力とされる。この音声判定区間内における音響
パラメータ時系列Pi(n)は無音付加回路(8)に供
給されて、音響パラメータ時系列の始点Pi(1)の前
に無音のときの音響パラメータが付加される。また、こ
の例では終点Pi(ロ)の後にも無音のときの音響パラ
メータが付加される。
この無音付加回路(8)の出力はNAT処理回路(9)
に供給されて、始点Pi(1)の前と終点Pi(へ)の
後に無音のパラメータが付加された状態の音響パラメー
タ時系列Pi(n)’から前述したようにその音響パラ
メータ空間における軌跡が推定され、この軌跡に基づい
て新たな認識パラメータ時系列Qih)が形成される。
そして、このパラメータ時系列(li■がモード切換回
路(3)を通じて、登録モード時は標準パターンメモ1
月4)にストアされて登録され、認識モード時は距離算
出回路(6)に供給されて、標準パターンメモ1月4)
からの複数の登録標準パターンとの距離が計算され、そ
の計算結果の最小の標準パターンが最小値判定回路(7
)にて判定され、その判定出力が認識出力とされる。
なお、実際的にはNAT処理はマイクロコンピュータを
用いて行なうもので、この場合無音付加回路(8)は特
に設けず、音声判定区間内の音響パラメータ時系列Pi
(n)から軌跡を推定する際、パラメータ時系列Pi(
nlの始点Pi(1)を軌跡の始点とせず、必ず無音を
始点として推定するようにしてもよい。
終端Pi(6)についても同様にできる。
F 作用 以上の構成によれば、NAT処理回路(9)において、
推定される軌跡は必ず始点が無音から始まり、またこの
例では無音で終わるので第2図で実線Qlで示すような
軌跡を描く、そして、この軌跡から認識パラメータ時系
列Qtに)が作成される。
したがって、音声区間判定回路(24)において判定さ
れる区間は、同一単語であり、かつ、発声速度変動がな
かったとしても入力音声の大きさ等により常に定まった
音声区間とはならず、Pi(n)はその区間のずれに影
響されるが、軌跡が常に無音部から始まるように推定さ
れるので、作成された認識パラメータ時系列Qiに)に
は、この音声判定区間のずれの影響が生じない。
G 実施例 第3図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に15チヤンネルのバンドパスフィルタ
群を用いた場合である。
Gl’音響分析回路(2)の説明 すなわち、音響分析回路(2)においては、マイクロホ
ン(1)からの音声信号がアンプ(211)及び帯域制
限用のローパスフィルタ(212)を介してA/Dコン
バータ(213)に供給され、例えば12.5kHzの
サンプリング周波数で12ビツトのデジタル音声信号に
変換される。このデジタル音声信号は、15チヤンネル
のバンドパスフィルタバンク(22)の各チャンネルの
デジタルバンドパスフィルタ (221o )  、 
 (2211) 、・・・・、  (221z4)に供
給される。このデジタルバンドパスフィルタ(221o
 ) 、  (2211) 、 ”、  (221z4
)は例えばバターワース4次のデジタルフィルタにて構
成され、250−から5.5KHzまでの帯域が対数軸
上で等間隔で分割された各帯域が各フィルタの通過帯域
となるようにされている。そして、各デジタルバンドパ
スフィルタ(221o ) 、  (221t ) 。
・・・・、  (22114)の出力信号はそれぞれ整
流回路(222o ) 、  (222z ) 、・・
・・、  <222t+)に供給され、これら整流回路
(222o ) 、  (222z ) 。
・・・・(2221+)の出力はそれぞれデジタルロー
パスフィルタ(223o ) 、  (223t ) 
、・・・・、  (22314)に供給される。これら
デジタルローパスフィルタ(223o ) 、  (2
231) 、・・・・、  (22314)は例えばカ
ットオフ周波数52.8HzのFIRローパスフィルタ
にて構成される。
音響分析回路(2)の出力である各デジタルローパスフ
ィルタ(223o ) 、  (223a ) 、・・
・・。
(223z4)の出力信号は特徴抽出回路(23)を構
成するサンプラー(231)に供給される。このサンプ
ラー(231)ではデジタルローパスフィルタ(223
o) 、  (2231) 、・・・・、  (223
14)の出力信号をフレーム周期5.12m1sec毎
にサンプリングする。したがって、これよりはサンプル
時系列at(n) (i −a−1,2,−−−−15
; nはフレーム番号でn−1a  2 * ・・・・
、N)が得られる。
このサンプラー(231)からの出力、つまりサンプル
時系列^1(n)は音源情報正規化回路(232)に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。こうして音源特性の違
いが正規化されて除去されて音響パラメータ時系列P 
i (n)がこの音源情報正規化回路(232)より得
られる。そして、このパラメータ時系列Pi(n)が音
声区間内パラメータメモリ (233)に供給される。
この音声区間内パラメータメモリ(233)では音声区
間判定回路(24)からの音声区間判定信号を受けて音
源特性の正規化されたパラメータP i (n)が判定
さた音声区間毎にストアされる。
音声区間判定回路(24)はゼロクロスカウンタ(24
1)とパワー算出回路(242)と音声区間決定回路(
243)とからなり、A/Dコンバータ(213)より
のデジタル音声信号がゼロクロスカウンタ(241)及
びパワー算出回路(242)に供給される。ゼロクロス
カウンタ(241)では1フレ一ム周期5.12m5e
c毎に、この1フレ一ム周期内の64サンプルのデジタ
ル音声信号のゼロクロス数をカウントし、そのカウント
値が音声区間決定回路(243)の第1の入力端に供給
される。パワー算出回路(242)では1フレ一ム周期
毎にこの1フレ一ム周期内のデジタル音声信号のパワー
、すなわち2乗和が求められ、その出力パワー信号が音
声区間決定回路(243)の第2の入力端に供給される
。音声区間決定回路(243)には、さらに、その第3
の入゛力端に音源情報正規化回路(232)よりの音源
正規化情報が供給される。そして、この音声区間決定回
路(243)においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定される
この音声区間決定回路(243)よりの判定された音声
区間を示す音声区間判定信号は音声区間判定回路(24
)の出力として音声区間内パラメータメモリ (233
)に供給される。
こうして、判定音声区間内においてメモリ (233)
にストアされた音響パラメータ時系列Pi(n)は無音
付加回路(8)を介してNAT処理回路(9)に供給さ
れる。
02 時間正規化処理の説明 無音付加回路(8)ではパラメータ時系列Pi(n)の
始点Pi(1)の前と終点Pi(財)の後に、予め用意
された無音を音響分析したときのパラメータを付加する
この無音付加処理は、メモリ(233)に無音を音響分
析したときのパラメータを予めストアしておき、メモリ
(233)からパラメータ時系列Pi(n)を読み出す
とき、これに先だって先ず、その無音のパラメータを読
み出し、次いでパラメータ時系列Pi(n)を読み出し
、最後に再び無音のパラメータを読み出すようにしても
よい、また、以下に述べるNAT処理における軌跡長の
算出及びuimパラメータQi■の抽出時に、必ず無音
を始点として演算処理するようにしてもよい。
NAT処理回路(9)は軌跡長算出回路(91)と補間
間隔算出回路(92)と補間点抽出回路(93)からな
る。
無音付加回路(8)からの無音から開始するパラメータ
時系列Pi(n)’  (i”L  L ””+ 15
: n”0、l  2.・・・・、N、N+1)は軌跡
長算出回路(91)に供給される。ここでPi(o)’
 =Pits*u’−〇である。この軌跡長算出回路(
91)においては音響パラメータ時系列Pi(n)’が
そのパラメータ空間において第4図に示すように描く直
線近似による軌跡の長さを算出する。
この場合、■次元ベクトルal及びbt間のユークリッ
ド距離D(a罷、bl)は Pi(n)’より、直線近似により軌跡を推定した場合
の時系列方向に隣接するパラメータ間距離S (n)は
5(nl=D (Pi (n + 1 ) ’ 、 P
i(n)’ )(n=0.1.”・・、N)    ・
・・ (11)と表わされる。そして、時系列方向にお
ける第1番目のパラメータPi(0)’から第n番目の
パラメータPi&l)迄の距離5L(n)は と表わされる。なお、5L(1) −0である。
そして、全軌跡長SLは と表わされる。軌跡長算出回路(91)はこの(11)
式、(12)式及び(13)にて示す信号処理を行なう
この軌跡長算出回路(91)にて求められた軌跡長SL
を示す信号は補間間隔算出回路(92)に供給される。
この補間間隔算出回路(92)では軌跡に沿って再サン
プリングするときの再サンプリング間隔Tを算出する。
この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T−3L/(M−1)           ・・・ 
(14)として求められる。
この補間間隔算出回路(92)よりの再サンプリング間
隔Tを示す信号は補間点抽出回路(93)に供給される
。また、無音付加回路(8)よりの音響パラメータ時系
列Pi(n)’も、また、この補間点抽出回路(93)
に供給される。この補間点抽出回路(93)は音響パラ
メータ時系列Pi(nl’のそのパラメータ空間におけ
る軌跡、例えばパラメータ間を直線近似した軌跡に沿っ
て第41!lにおいて○にて示すように再サンプリング
間隔Tで再サンプリングし、このサンプリングにより得
た新たな点列より認識パラメータ時系列Qihlを形成
する。
ここで、この補間点抽出回路(93)においては第5図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列Qlに)が形成される。
先ず、ステップ(101)にて再サンプリング点の時系
列方向における番号を示す変数Jに値1が設定されると
共に音響パラメータ時系列Pi(n)’のフレーム番号
を示す変数ICに値0が設定され、イニシャライズされ
る0次にステップ(102)にて変数Jがインクリメン
トされ、ステップ(103)にてそのときの変数Jが(
M−1)以下であるかどうかが判別されることにより、
そのときの再サンプリング点の時系列方向における番号
がりサンプリングする必要のある最後の番号になってい
るかどうかを判断する。最後の番号であればステンプ(
104)に進み、再サンプリングは終了する。
最後の番号でなければステップ(105]にて第1番目
の再サンプリング点(これは必ず無音の部分である。)
から第3番目の再サンプリング点までの再サンプリング
距!DLが算出される0次にステップ(108)に進み
変数ICがインクリメントされる6次にステップ(10
7)にて再サンプル距離DLが音響パラメータ時系列P
i(n)’の第1番目のパラメータPi(o)から第1
C番目のパラメータPine♂までの距離5L(1c1
 よりも小さいかどうかにより、そのときの再サンプリ
ング点が軌跡上においてそのときのパラメータPicI
c♂よりも軌跡の始点側に位置するかどうかが判断され
、始点側に位置していなければステップ(106)に戻
り変数ICをインクリメントした後再びステップ(10
7)にて再サンプリング点とパラメータPi(Ic’)
との軌跡上における位置の比較をし、再サンプリング点
が軌跡上においてパラメータPioc+ よりも始点側
に位置すると判断されたとき、ステップ(108)に進
み認識パラメータ旧σ】が形成される。
即ち、第3番目の再サンプリング点による再サンプリン
グ距離OLからこの第3番目の再サンプリング点よりも
始点側に位置する第(IC−1)番目のパラメータPl
(IO−1)’による距[I S L(Ic−1)を減
算して第(IC−1)番目のパラメータP i oc−
1)’から第3番目の再サンプリング点迄の距離SSを
求める。
次に、軌跡上においてこの第3番目の再サンプリング点
の両側に位置するパラメータP toc−13’及びパ
ラメータPioc♂間の距離5(n)(この距離S (
n)は(11)式にて示される信号処理にて得られる。
)にてこの距離SSを除算し、この除算結果SS/ S
 (Ic−1)に軌跡上において第3番目の再サンプリ
ング点の両側に位置するパラメータPiuc) とP 
i ac−1>との差(Piacz−Pine−u)を
掛算して、軌跡上において第3番目の再サンプリング点
のこの再サンプリング点よりも始点側に隣接して位置す
る第(rc−1)番目のパラメータP i ac −1
> ’からの補間量を算出し、この補間量と第3番目の
再サンプリング点よりも始点側に隣接して位置する第(
IC−1)番目のパラメータPine−u’とを加算し
て、軌跡に沿う新たな認識パラメータQiσ)が形成さ
れる。
このようにして始点及び終点(これらはQi(1)=^ Pi(ol = 0 、 Qix −Pi(s+ = 
Oである。)を除<  (M−2)点の再サンプリング
により認識パラメータ時系列Qi(ロ)が形成される。
G3 パターンマツチング処理の説明 このNAT処理回路(9)よりの認識パラメータ時系列
Qf(→はモード切換スイッチ(3)により、登録モー
ドにおいては認識対象語毎に標準パターンメモリ(4)
にストアされる。また、認識モードにおいては距離算出
回路(6)に供給され、標準パターンメモ音用4)より
の標準パターンのパラメータ時系列との距離の算出がな
される。この場合の距離は例えば簡易的なチェビシェフ
距離として算出される。この距離算出回路(6)よりの
各標準パターンと入力パターンとの距離の算出出力は最
小値判定回路(7)に供給され、距離算出値が最小とな
る標準パターンが判定され、この判定結果により入力音
声の認識結果が出力端(70)に得られる。
H発明の効果 この発明によれば、NAT処理のときに推定する軌跡は
必ず無音から開始し、この無音から再サンプルするよう
にしたので、音声信号判定区間のずれの影響はこの軌跡
から得る再サンプルデータ、つまり認識パラメータ時系
列Qi(ロ)には殆んどない。
したがって、パターンマツチングによる!!&lliは
良好に行なえる。
【図面の簡単な説明】
第1図はこの発明装置の一実施例のブロック図、第2図
はその説明のための図、第3図はこの発明装置の具体的
一実施例のブロック図、第4図はその説明のための図、
第5図はその要部の動作の説明のためのフローチャート
を示す図、第6図は音声認識装置の基本構成を示すブロ
ック図、第7図はDPマツチングを説明するための図、
第8図〜第10図はNAT処理を説明するための図であ
る。 (2)は音響分析回路、(4)は標準パターンメモリ、
(6)は標準パターンと入力パターンとの距離算出回路
、(7)は最小値判定回路、(9)はNAT処理回路で
ある。 棟間点抽出の70−チャート 第5図 音声寵・鳥で基本的構成゛のアo9り図第6図 入力l?クーンA 玉間数J(電による1間正規化の説調図第7図 第8図

Claims (1)

  1. 【特許請求の範囲】 入力音声信号の音声区間を判定する音声区間判定手段と
    、この音声区間判定手段にて判定された音声区間内で音
    響パラメータ時系列を得る特徴抽出手段と、この特徴抽
    出手段よりの音響パラメータ時系列がパラメータ空間で
    描く軌跡を推定しこの軌跡に沿って再サンプリングを行
    なうことにより認識パラメータ時系列を得る処理手段と
    、認識対象語の標準パターンの認識パラメータ時系列が
    ストアされている標準パターンメモリと、上記処理手段
    よりの入力パターンの認識パラメータ時系列と上記標準
    パターンメモリからの標準パターンの認識パラメータ時
    系列との差を算出する距離算出手段と、この距離算出手
    段で、算出された値の最小のものを検知して認識出力を
    得る最小値判定手段とを有し、 上記処理手段においては、上記判定された音声区間内の
    パラメータに拘わらず、常に無音から軌跡が始まるよう
    に推定され、かつ、上記再サンプリングもこの無音から
    常になされて上記認識パラメータが形成されるようにな
    された音声認識装置。
JP60015846A 1985-01-30 1985-01-30 音声認識装置 Expired - Lifetime JPH0632008B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60015846A JPH0632008B2 (ja) 1985-01-30 1985-01-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60015846A JPH0632008B2 (ja) 1985-01-30 1985-01-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61174600A true JPS61174600A (ja) 1986-08-06
JPH0632008B2 JPH0632008B2 (ja) 1994-04-27

Family

ID=11900183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60015846A Expired - Lifetime JPH0632008B2 (ja) 1985-01-30 1985-01-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632008B2 (ja)

Also Published As

Publication number Publication date
JPH0632008B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
JPH0561496A (ja) 音声認識装置
JPS634200B2 (ja)
JPS6128998B2 (ja)
JPS61174600A (ja) 音声認識装置
JPS61176997A (ja) 音声認識装置
JPS61208097A (ja) 音声認識装置
JP2658104B2 (ja) 音声認識装置
JPS61176996A (ja) 音声認識装置
JPS63213899A (ja) 話者照合方式
JPH0654439B2 (ja) 音声認識装置
JPS61275799A (ja) 音声認識装置
JPS613200A (ja) 音声認識装置
JPH054678B2 (ja)
JPS6310440B2 (ja)
JPS61267098A (ja) 音声認識装置
JPH02720B2 (ja)
JPH0554678B2 (ja)
JPS58139199A (ja) 音声自動認識装置
JPH0449720B2 (ja)
JPH07111639B2 (ja) 音声標準パタン自動作成装置
JPH0816186A (ja) 音声認識装置
JPH0632025B2 (ja) 音声認識装置
JPS62134699A (ja) 音声認識方法
JPH01262597A (ja) 音声認識装置
JPS63257797A (ja) 音声始端検出装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term