JPH0419700A - 音声パターンマッチング方法 - Google Patents

音声パターンマッチング方法

Info

Publication number
JPH0419700A
JPH0419700A JP2123745A JP12374590A JPH0419700A JP H0419700 A JPH0419700 A JP H0419700A JP 2123745 A JP2123745 A JP 2123745A JP 12374590 A JP12374590 A JP 12374590A JP H0419700 A JPH0419700 A JP H0419700A
Authority
JP
Japan
Prior art keywords
pattern
voice
similarity
section
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2123745A
Other languages
English (en)
Other versions
JP2997007B2 (ja
Inventor
Junichiro Fujimoto
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2123745A priority Critical patent/JP2997007B2/ja
Publication of JPH0419700A publication Critical patent/JPH0419700A/ja
Application granted granted Critical
Publication of JP2997007B2 publication Critical patent/JP2997007B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技監光夏 本発明は、音声パターンマツチング方法、より詳細には
、音声認識におけるパターン照合方法に関する。
炙未援4 現在の音声認識装置は、パターンマツチング方式を利用
するものが主流であり、あらかじめ登録された標準パタ
ーンと、入力された未知の音声パターンを比較して、最
も類似した標準パターンのカテゴリーを認識結果として
出力するものである。
第3図は、従来の音声パターン照合方法の一例を説明す
るための図で、図中、1はマイクロフォン、2はマイク
アンプ、3は特徴変換部、4はA/D変換部、5は切換
えスイッチ、6は標準パターン格納部、7は照合部、8
は最大類似度検出部、9は認識結果出力部で、まず、ス
イッチ5を標準パターン登録側(a側)にしておき、マ
イク1から音声を人力する。マイク1で電気信号に変換
された音声は、マイクアンプ2で増幅され、特徴変換部
3により特徴変換されるが、利用される特徴量としては
スペクトル化いくつか知られている。それを離散量に直
し標準パターンとして標準パターン格納部6に格納する
。認識時は、スイッチ5を照合側(b側)へ倒して行な
う。登録時と同様に音声のパターンを作り、あらかじめ
登録しておいたすべての標準パターンと照合し、類似性
の一番高いパターンを見て認識結果とするものである。
このような認識方式の詳細や、特徴量については、例え
ば新美著「音声認識j等に書かれており、周知であるの
で、ここでの詳細な説明は省略する。
このなかで、パターンの照合に際して、パターンの変動
をどの様に対策するかと言う問題がある。
特に、この変動は時間的なものが大きく、発声の速度等
の影響がでる。この対策は2つあり、1つはDPマツチ
ングに代表される非線形照合で、照合する2つのパター
ンの類似性を見ながら、その類似性が最大になるように
ダイナミックに2つのパターンを対応づけるもの、もう
1つは、類似性のチエツクなどせずに時間長を均等にデ
ータ挿入。
間引きによって一致させてから両者を比較して線形照合
するものである。これらは、前者が計算量が多い代りに
、精度が良く、後者は計算量が非常に少ないというメリ
ットがある。特に、後者の場合、全てのパターンを一定
長にして置く事で、入力された音声のパターンを一度長
さ合せしてしまうと、照合に際して、パターン伸縮する
必要がないと言う特徴がある。この方法では、音声パタ
ーンが完全で、欠落や付加が無い時にはかなり有効であ
るが、しかし、音声は非線形な伸縮をしているものであ
り、それを線形伸縮で間に合わせている為、音声パター
ンに欠落や付加があると、照合精度は非常に悪いものに
なってしまう。
第4図は、音声のエネルギーの時間変化を示す図で、こ
の図に従って説明すると、図に示すごとく、同じr 5
taff Jという音声パターンがあるとき、正常なも
の同士を線形に伸縮して比較する場合には、(a)に示
すように、両者の誤差を小さくすることができるが、(
b)に示すように、音声区間検出に失敗して、一方のパ
ターンの/f/が欠落したr sta Jだったりする
と、同じパターンでありながら、音声の末尾付近で違う
音同士が対応づいてしまい、両パターンの差は著しく大
きくなる。
ここに例として挙げたrstaffJの/f/のように
、発声されるエネルギーの小さな子音は音声区間の検出
がうまく行かないことが多く、上記の問題が非常によく
起こる。非線形伸縮を用いたパターン照合法では端点フ
リーにするものがあり、/f/が欠けていながら、精度
の良いマツチングができる。ただし、この非線形伸縮を
用いた方法では、先に述べたように計算量が多い事に変
りはない。
また、この対策のひとつとして、欠落等が生じる等、不
安定な音声の標準パターンにマークをつけておいて、入
力された音声に不安定な部分がある場合には、標準パタ
ーンの不安定な部分をつけたままで、入力された音声に
不安定な部分が無い時には、全ての標準パターンから不
安定部を取除いて照合するものがある。しかしながら、
この方法では、入力のパターンによって標準パターンを
変化させるものであるから、照合時に毎回標準パターン
を修正しなければならないという欠点がある。
目     的 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声区間の検出がうまく行かなかった場合にも、
計算量の少ない線形伸縮法によって、正しい照合ができ
るようにすることを目的としてなされたものである。
濃−一一戒。
本発明は、上記目的を達成するために、音声信号から特
徴量を取り出し特徴パターンとなして時間長を一定にし
て照合する音声パターンマツチング方法において、入力
された未知の音声の冒頭、または末尾に母音に比べて音
声のエネルギーが低く、かつ、周波数スペクトル成分が
高域に集中しているような特定部分が見出された時、全
体のパターンを定められた長さに変換すると共に、該特
定部分の終了部近傍から先端までの部分、あるいは前記
特定部分の終了部近傍から末尾までの部分を取除いた残
りのパターンを、定められた長さに変換して両方を保持
しておき、両方を標準パターンと照合し、類似性の高い
方向の結果をパターン間の類似性と定義するようにした
事を特徴としたものである。以下、本発明の実施例に基
いて説明する。
第1図は、本発明の一実施例を説明するためのフローチ
ャート、第2図は、第1図に示した本発明を実現するた
めののブロック図で、図中、11は伸縮部、12はパワ
ー計算部、13は比較部。
14は高域スペクトル計算部、15は比較部、16は伸
縮部、17はメモリー 18.19は閾値で、本発明は
、音声区間検出がしにくい子音はエネルギーが小さく、
周波数成分が高い方に集中していることに注目してなさ
れたものであり、特に、音声信号から特徴量を取り出し
特徴パターンとなして時間長を一定にして照合する音声
パターンマツチング方法において、入力された未知の音
声の冒頭、または末尾に母音に比べて音声のエネルギー
が低く、かつ周波数スペクトル成分が高域に集中してい
るような部分部分が見出された時、全体のパターンを定
められた長さに変換すると共に、該説明部分の終了部近
傍から先端までの部分、あるいは該説明部分の終了部近
傍から末尾までの部分を取除いた残りのパターンを、定
められた長さに変換して両方を保持しておき、両方を標
準パターンと照合し、類似性の高い方の結果をパターン
間の類似性と定義するようにしたものである。
最初に、第1図に示したフローチャートに基づいて説明
すると、まず、■の音声登録のフローにおいて、音声入
力の音声全体を一定の長さにしておいて、標準パターン
として登録する。次に、■の音声認識のフローにおいて
、入力された音声を標準パターンと同じ手順で特徴パタ
ーンに変換すると共に、その音声の冒頭や末尾に特定部
(つまり、音声のエネルギーが比較的小さく、周波数成
分が高域に集中している部分)があるかどうかをみる。
この音声エネルギーが小さいか否かは冒頭や末尾で音声
のエネルギーがある一定値より下がるかどうかで調べる
ようにし、この一定値は、母音が入力された時のエネル
ギー値から115程度に決めればよい。また、周波数が
高域に集中しているかどうかは色々な調べかたが考えら
れるが、例えば、分析周波数帯域を2つに分け、高域に
低域の何倍かの成分が存在している時とか、スペクル分
布の周波数軸方向へのフィツト直線を引いて、この傾き
が負の場合とかで判断する事ができる。
このような音声冒頭や末尾にエネルギーが小さく、周波
数成分が高域に集中している部分がなければ、つまり、
特定部がなければこの音声の登録が終り、ある場合は、
それが冒頭か、末尾かによって、つまり、前記の/f/
のような欠落しやすい音が、音声のどこに付いているか
を調べておく0次に、あらかじめ、これを欠落させたパ
ターンを併せて作る。つまり、音声冒頭に欠落しやすい
音が付いていると判断し、エネルギーが小さく、周波数
成分が高域に集中している部分から末尾までを取除いた
残りを一定長にしておいて、これも入カバターンと同様
にバッファメモリ内に保持しておく。
このようにして、登録されたすべての標準パターンと照
合する。もし、標準パターンの冒頭、末尾の子音等が落
ちやすいものには、入カバターンが2つできるので、た
とえ標準パターンの一部が欠落していても照合できるか
ら、認識の精度を向上させる事ができる。
第2図は、上述のごとき本発明を実現するためのブロッ
ク図であるが、この場合、マイク1からの音声を、特徴
変換して離散量になおすところまでは、第3図に示した
従来技術と同じである。はじめに、登録について説明す
る。スイッチ5を登録側(a側)に倒しておき、得られ
た特徴量のパターン(特徴パターン)を定められた長さ
に伸縮して標準パターン格納メモリー6に格納して登録
しておく、こうして登録すべき音声を標準パターン格納
部に登録し終わると、スイッチ5を認識側(b側)に倒
して認識する。認識は、登録と同様に特徴パターンにな
おした後、あるいは、なおす前に音声信号をパワー計算
するためのパワー計算部12へ入れる。ここでパワーが
一定値より低い部分が有るか、有るならそれは周波数成
分が高域に集中しているかどうかを、さらにその位置は
冒頭か、末尾かをそれぞれ比較部13.15で調べてお
く。そして、伸縮部16でパターン全体の長さを一定の
長さに伸縮して、メモリー17へ保持しておき、もし、
音声冒頭や末尾にエネルギーが小さく、周波数成分が高
域に集中している部分が存在したなら、第1図のフロー
チャートで示したように、その部分を取除き、再度伸縮
部で整形されたパターンを一定長にした後に、おなじく
メモリー17のなかに保存しておく。照合は先に格納し
て置いたメモリー中のパターンと標準パターンとの類似
性を計算する。メモリーの中に2つのパターンが格納さ
れている場合は、標準パターン1つに対して2回の類似
性を計算し高い類似度の方を入力と標準パターンの間の
類似度として採用する0図では伸縮部が2つあるが両者
は同じ機能をもてば良くて、これらは同じものでよい。
照合部7は特に照合方法を限定するものではなく、市街
地距離によってパターン相互の差を求める方法でも良い
し、ベクトル間の内積による類似性を計算するのも良い
。未知入力のパターンと各標準パターンとの類似性、ま
たは、誤差をそれぞれ求めておく。最大類似度検出部8
では、最も大きな類似性を示した標準パターンを見つけ
だし、その名前または、それを表わす記号等を認識結果
として出力する。
この方法によると、あらかじめ音声の一部が欠落した音
声パターンも一定長にして登録しである為、入力の音声
の冒頭、末尾の子音等が落ちている時にはこのパターン
と照合できるから伸縮するものに比べて演算量は少なく
、認識の精度を向上させる事ができる。
効   果 以上の説明から明らかなように、本発明によると、音声
区間の検出がうまく行かなかった場合にも、照合時に伸
縮する事なく、正しい照合ができる。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するためのフローチ
ャート、第2図は、本発明の実現に使用するブロック図
の一例を示す図、第3図は、一般のパターンマツチング
のブロック図、第4図は、弱い子音が検出された場合の
対応づけと検出できなかった場合の対応づけを説明する
ための図である。 1・・・マイクロフォン、2・・・マイクアンプ、3・
・・特徴変換部、4・・・A/D変換部、5・・・切換
えスイッチ、6・・・標準パターン格納部、7・・・照
合部、8・・・最大類似度検出部、9・・・認識結果出
力部、11・・・伸縮部、12・・・パワー計算部、1
3・・・比較部、14・・・高域スペクトル計算部、1
5・・・比較部、16・・・伸縮部、17・・・メモリ
ー、18,19・・・閾値部。 第 図 第 図

Claims (1)

    【特許請求の範囲】
  1. 1、音声信号から特徴量を取り出して特徴パターンとな
    して時間長を一定にして照合する音声パターンマッチン
    グ方法において、入力された未知の音声の冒頭、または
    、末尾に母音に比べて音声のエネルギーが低く、かつ、
    周波数スペクトル成分が高域に集中しているような特定
    部分が見出された時、全体のパターンを定められた長さ
    に変換すると共に、該特定部分の終了部近傍から先端ま
    での部分、あるいは、前記特定部分の終了部近傍から末
    尾までの部分を取除いた残りのパターンを、定められた
    長さに変換して両方を保持しておき、両方を標準パター
    ンと照合し、類似性の高い方向の結果をパターン間の類
    似性と定義するようにしたことを特徴とする音声パター
    ンマッチング方法。
JP2123745A 1990-05-14 1990-05-14 音声パターンマッチング方法 Expired - Fee Related JP2997007B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2123745A JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2123745A JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Publications (2)

Publication Number Publication Date
JPH0419700A true JPH0419700A (ja) 1992-01-23
JP2997007B2 JP2997007B2 (ja) 2000-01-11

Family

ID=14868277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2123745A Expired - Fee Related JP2997007B2 (ja) 1990-05-14 1990-05-14 音声パターンマッチング方法

Country Status (1)

Country Link
JP (1) JP2997007B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461452U (ja) * 1990-10-05 1992-05-26
JP2001083982A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
US9313201B2 (en) 2007-11-19 2016-04-12 International Business Machines Corporation System and method of performing electronic transactions

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461452U (ja) * 1990-10-05 1992-05-26
JP2001083982A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
US9313201B2 (en) 2007-11-19 2016-04-12 International Business Machines Corporation System and method of performing electronic transactions

Also Published As

Publication number Publication date
JP2997007B2 (ja) 2000-01-11

Similar Documents

Publication Publication Date Title
JPS634200B2 (ja)
JPH0582599B2 (ja)
JPH0419700A (ja) 音声パターンマッチング方法
JPH04212199A (ja) 標準パターン登録方法
JP2712586B2 (ja) 単語音声認識装置用パターンマッチング方式
JPH0575117B2 (ja)
JPH04211300A (ja) 音声パターンマッチング方法
JPH0585917B2 (ja)
JP3011984B2 (ja) パターン照合方法
JPH0211919B2 (ja)
JP3020999B2 (ja) パターン登録方法
JP3032551B2 (ja) 音声標準パターン登録方法
JPH0679232B2 (ja) 音声認識装置
JPS63798B2 (ja)
JPH0343639B2 (ja)
JPH03122697A (ja) 音声認識方式
JPS6312000A (ja) 音声認識装置
JPS62255999A (ja) 単語音声認識装置
JP2901976B2 (ja) パターン照合予備選択方式
JPS6329756B2 (ja)
JPS6332396B2 (ja)
JPH0229700A (ja) 音声パターン照合方式
JPH0469959B2 (ja)
JPS62111295A (ja) 音声認識装置
JPH0554118B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees