JPH0419700A

JPH0419700A - 音声パターンマッチング方法

Info

Publication number: JPH0419700A
Application number: JP2123745A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-05-14
Filing date: 1990-05-14
Publication date: 1992-01-23
Anticipated expiration: 2015-01-11
Also published as: JP2997007B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技監光夏本発明は、音声パターンマツチング方法、より詳細には
、音声認識におけるパターン照合方法に関する。

炙未援４現在の音声認識装置は、パターンマツチング方式を利用
するものが主流であり、あらかじめ登録された標準パタ
ーンと、入力された未知の音声パターンを比較して、最
も類似した標準パターンのカテゴリーを認識結果として
出力するものである。

第３図は、従来の音声パターン照合方法の一例を説明す
るための図で、図中、１はマイクロフォン、２はマイク
アンプ、３は特徴変換部、４はＡ／Ｄ変換部、５は切換
えスイッチ、６は標準パターン格納部、７は照合部、８
は最大類似度検出部、９は認識結果出力部で、まず、ス
イッチ５を標準パターン登録側（ａ側）にしておき、マ
イク１から音声を人力する。マイク１で電気信号に変換
された音声は、マイクアンプ２で増幅され、特徴変換部
３により特徴変換されるが、利用される特徴量としては
スペクトル化いくつか知られている。それを離散量に直
し標準パターンとして標準パターン格納部６に格納する
。認識時は、スイッチ５を照合側（ｂ側）へ倒して行な
う。登録時と同様に音声のパターンを作り、あらかじめ
登録しておいたすべての標準パターンと照合し、類似性
の一番高いパターンを見て認識結果とするものである。

このような認識方式の詳細や、特徴量については、例え
ば新美著「音声認識ｊ等に書かれており、周知であるの
で、ここでの詳細な説明は省略する。

このなかで、パターンの照合に際して、パターンの変動
をどの様に対策するかと言う問題がある。

特に、この変動は時間的なものが大きく、発声の速度等
の影響がでる。この対策は２つあり、１つはＤＰマツチ
ングに代表される非線形照合で、照合する２つのパター
ンの類似性を見ながら、その類似性が最大になるように
ダイナミックに２つのパターンを対応づけるもの、もう
１つは、類似性のチエツクなどせずに時間長を均等にデ
ータ挿入。

間引きによって一致させてから両者を比較して線形照合
するものである。これらは、前者が計算量が多い代りに
、精度が良く、後者は計算量が非常に少ないというメリ
ットがある。特に、後者の場合、全てのパターンを一定
長にして置く事で、入力された音声のパターンを一度長
さ合せしてしまうと、照合に際して、パターン伸縮する
必要がないと言う特徴がある。この方法では、音声パタ
ーンが完全で、欠落や付加が無い時にはかなり有効であ
るが、しかし、音声は非線形な伸縮をしているものであ
り、それを線形伸縮で間に合わせている為、音声パター
ンに欠落や付加があると、照合精度は非常に悪いものに
なってしまう。

第４図は、音声のエネルギーの時間変化を示す図で、こ
の図に従って説明すると、図に示すごとく、同じｒ　５
ｔａｆｆ　Ｊという音声パターンがあるとき、正常なも
の同士を線形に伸縮して比較する場合には、（ａ）に示
すように、両者の誤差を小さくすることができるが、（
ｂ）に示すように、音声区間検出に失敗して、一方のパ
ターンの／ｆ／が欠落したｒ　ｓｔａ　Ｊだったりする
と、同じパターンでありながら、音声の末尾付近で違う
音同士が対応づいてしまい、両パターンの差は著しく大
きくなる。

ここに例として挙げたｒｓｔａｆｆＪの／ｆ／のように
、発声されるエネルギーの小さな子音は音声区間の検出
がうまく行かないことが多く、上記の問題が非常によく
起こる。非線形伸縮を用いたパターン照合法では端点フ
リーにするものがあり、／ｆ／が欠けていながら、精度
の良いマツチングができる。ただし、この非線形伸縮を
用いた方法では、先に述べたように計算量が多い事に変
りはない。

また、この対策のひとつとして、欠落等が生じる等、不
安定な音声の標準パターンにマークをつけておいて、入
力された音声に不安定な部分がある場合には、標準パタ
ーンの不安定な部分をつけたままで、入力された音声に
不安定な部分が無い時には、全ての標準パターンから不
安定部を取除いて照合するものがある。しかしながら、
この方法では、入力のパターンによって標準パターンを
変化させるものであるから、照合時に毎回標準パターン
を修正しなければならないという欠点がある。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声区間の検出がうまく行かなかった場合にも、
計算量の少ない線形伸縮法によって、正しい照合ができ
るようにすることを目的としてなされたものである。

濃−一一戒。

本発明は、上記目的を達成するために、音声信号から特
徴量を取り出し特徴パターンとなして時間長を一定にし
て照合する音声パターンマツチング方法において、入力
された未知の音声の冒頭、または末尾に母音に比べて音
声のエネルギーが低く、かつ、周波数スペクトル成分が
高域に集中しているような特定部分が見出された時、全
体のパターンを定められた長さに変換すると共に、該特
定部分の終了部近傍から先端までの部分、あるいは前記
特定部分の終了部近傍から末尾までの部分を取除いた残
りのパターンを、定められた長さに変換して両方を保持
しておき、両方を標準パターンと照合し、類似性の高い
方向の結果をパターン間の類似性と定義するようにした
事を特徴としたものである。以下、本発明の実施例に基
いて説明する。

第１図は、本発明の一実施例を説明するためのフローチ
ャート、第２図は、第１図に示した本発明を実現するた
めののブロック図で、図中、１１は伸縮部、１２はパワ
ー計算部、１３は比較部。

１４は高域スペクトル計算部、１５は比較部、１６は伸
縮部、１７はメモリー　１８．１９は閾値で、本発明は
、音声区間検出がしにくい子音はエネルギーが小さく、
周波数成分が高い方に集中していることに注目してなさ
れたものであり、特に、音声信号から特徴量を取り出し
特徴パターンとなして時間長を一定にして照合する音声
パターンマツチング方法において、入力された未知の音
声の冒頭、または末尾に母音に比べて音声のエネルギー
が低く、かつ周波数スペクトル成分が高域に集中してい
るような部分部分が見出された時、全体のパターンを定
められた長さに変換すると共に、該説明部分の終了部近
傍から先端までの部分、あるいは該説明部分の終了部近
傍から末尾までの部分を取除いた残りのパターンを、定
められた長さに変換して両方を保持しておき、両方を標
準パターンと照合し、類似性の高い方の結果をパターン
間の類似性と定義するようにしたものである。

最初に、第１図に示したフローチャートに基づいて説明
すると、まず、■の音声登録のフローにおいて、音声入
力の音声全体を一定の長さにしておいて、標準パターン
として登録する。次に、■の音声認識のフローにおいて
、入力された音声を標準パターンと同じ手順で特徴パタ
ーンに変換すると共に、その音声の冒頭や末尾に特定部
（つまり、音声のエネルギーが比較的小さく、周波数成
分が高域に集中している部分）があるかどうかをみる。

この音声エネルギーが小さいか否かは冒頭や末尾で音声
のエネルギーがある一定値より下がるかどうかで調べる
ようにし、この一定値は、母音が入力された時のエネル
ギー値から１１５程度に決めればよい。また、周波数が
高域に集中しているかどうかは色々な調べかたが考えら
れるが、例えば、分析周波数帯域を２つに分け、高域に
低域の何倍かの成分が存在している時とか、スペクル分
布の周波数軸方向へのフィツト直線を引いて、この傾き
が負の場合とかで判断する事ができる。

このような音声冒頭や末尾にエネルギーが小さく、周波
数成分が高域に集中している部分がなければ、つまり、
特定部がなければこの音声の登録が終り、ある場合は、
それが冒頭か、末尾かによって、つまり、前記の／ｆ／
のような欠落しやすい音が、音声のどこに付いているか
を調べておく０次に、あらかじめ、これを欠落させたパ
ターンを併せて作る。つまり、音声冒頭に欠落しやすい
音が付いていると判断し、エネルギーが小さく、周波数
成分が高域に集中している部分から末尾までを取除いた
残りを一定長にしておいて、これも入カバターンと同様
にバッファメモリ内に保持しておく。

このようにして、登録されたすべての標準パターンと照
合する。もし、標準パターンの冒頭、末尾の子音等が落
ちやすいものには、入カバターンが２つできるので、た
とえ標準パターンの一部が欠落していても照合できるか
ら、認識の精度を向上させる事ができる。

第２図は、上述のごとき本発明を実現するためのブロッ
ク図であるが、この場合、マイク１からの音声を、特徴
変換して離散量になおすところまでは、第３図に示した
従来技術と同じである。はじめに、登録について説明す
る。スイッチ５を登録側（ａ側）に倒しておき、得られ
た特徴量のパターン（特徴パターン）を定められた長さ
に伸縮して標準パターン格納メモリー６に格納して登録
しておく、こうして登録すべき音声を標準パターン格納
部に登録し終わると、スイッチ５を認識側（ｂ側）に倒
して認識する。認識は、登録と同様に特徴パターンにな
おした後、あるいは、なおす前に音声信号をパワー計算
するためのパワー計算部１２へ入れる。ここでパワーが
一定値より低い部分が有るか、有るならそれは周波数成
分が高域に集中しているかどうかを、さらにその位置は
冒頭か、末尾かをそれぞれ比較部１３．１５で調べてお
く。そして、伸縮部１６でパターン全体の長さを一定の
長さに伸縮して、メモリー１７へ保持しておき、もし、
音声冒頭や末尾にエネルギーが小さく、周波数成分が高
域に集中している部分が存在したなら、第１図のフロー
チャートで示したように、その部分を取除き、再度伸縮
部で整形されたパターンを一定長にした後に、おなじく
メモリー１７のなかに保存しておく。照合は先に格納し
て置いたメモリー中のパターンと標準パターンとの類似
性を計算する。メモリーの中に２つのパターンが格納さ
れている場合は、標準パターン１つに対して２回の類似
性を計算し高い類似度の方を入力と標準パターンの間の
類似度として採用する０図では伸縮部が２つあるが両者
は同じ機能をもてば良くて、これらは同じものでよい。

照合部７は特に照合方法を限定するものではなく、市街
地距離によってパターン相互の差を求める方法でも良い
し、ベクトル間の内積による類似性を計算するのも良い
。未知入力のパターンと各標準パターンとの類似性、ま
たは、誤差をそれぞれ求めておく。最大類似度検出部８
では、最も大きな類似性を示した標準パターンを見つけ
だし、その名前または、それを表わす記号等を認識結果
として出力する。

この方法によると、あらかじめ音声の一部が欠落した音
声パターンも一定長にして登録しである為、入力の音声
の冒頭、末尾の子音等が落ちている時にはこのパターン
と照合できるから伸縮するものに比べて演算量は少なく
、認識の精度を向上させる事ができる。

効　　　果以上の説明から明らかなように、本発明によると、音声
区間の検出がうまく行かなかった場合にも、照合時に伸
縮する事なく、正しい照合ができる。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するためのフローチ
ャート、第２図は、本発明の実現に使用するブロック図
の一例を示す図、第３図は、一般のパターンマツチング
のブロック図、第４図は、弱い子音が検出された場合の
対応づけと検出できなかった場合の対応づけを説明する
ための図である。１・・・マイクロフォン、２・・・マイクアンプ、３・
・・特徴変換部、４・・・Ａ／Ｄ変換部、５・・・切換
えスイッチ、６・・・標準パターン格納部、７・・・照
合部、８・・・最大類似度検出部、９・・・認識結果出
力部、１１・・・伸縮部、１２・・・パワー計算部、１
３・・・比較部、１４・・・高域スペクトル計算部、１
５・・・比較部、１６・・・伸縮部、１７・・・メモリ
ー、１８，１９・・・閾値部。第図第図

Claims

【特許請求の範囲】

１、音声信号から特徴量を取り出して特徴パターンとな
して時間長を一定にして照合する音声パターンマッチン
グ方法において、入力された未知の音声の冒頭、または
、末尾に母音に比べて音声のエネルギーが低く、かつ、
周波数スペクトル成分が高域に集中しているような特定
部分が見出された時、全体のパターンを定められた長さ
に変換すると共に、該特定部分の終了部近傍から先端ま
での部分、あるいは、前記特定部分の終了部近傍から末
尾までの部分を取除いた残りのパターンを、定められた
長さに変換して両方を保持しておき、両方を標準パター
ンと照合し、類似性の高い方向の結果をパターン間の類
似性と定義するようにしたことを特徴とする音声パター
ンマッチング方法。