JPH02148100A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02148100A
JPH02148100A JP63302900A JP30290088A JPH02148100A JP H02148100 A JPH02148100 A JP H02148100A JP 63302900 A JP63302900 A JP 63302900A JP 30290088 A JP30290088 A JP 30290088A JP H02148100 A JPH02148100 A JP H02148100A
Authority
JP
Japan
Prior art keywords
pattern
speech
section
input
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63302900A
Other languages
English (en)
Inventor
Takeshi Norimatsu
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63302900A priority Critical patent/JPH02148100A/ja
Publication of JPH02148100A publication Critical patent/JPH02148100A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、入力音声パターンと各標準パターンとのパタ
ーンマッヂングにより認識結果を導き出す音声認識装置
に関するものである。
従来の技術 一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング(以下、DPマツチングと記す。)
が使用されている。特に、単語音声認識装置では、この
DPマツチング法により高い認識率を得ている。例えば
次の文献に記載されている。
「ダイナミック プログラミング オプティミゼイショ
ン フォ スポークン ワード レコグニションJ  
(H,5akoe and S、Chlba、”Dyn
amic pr。
grammlng opt、11zatlon for
 5porken word recognition
”、IEEE t、rans、Acoustlc、5p
eech、Signal Processing、vo
l、As5P−27pp、33[1−349,1979
) )発明が解決しようとする課題 しかしながら上記の音声認識装置では、入力された名声
の区間検出を誤った場合には誤認識を生しることが多い
。特に無声子音から始まる音声(福岡、福島、福井など
)の場合、例えばr F tJ KUOKAJ  (福
岡)と発声した場合を考えたとき、語頭のrFUJの母
音r U Jの部分は無声化してしまうことが多くその
結果語頭のエネルギーレベルが小さくなり、音声区間検
出の際にrKUOKA」の部分だけを検出してしまうこ
とが多くなる。
しかし、人が音声を発声する場合、周囲雑音レベルの高
い環境下等では意識的にはっきりと発声しようとする傾
向があり、そのため逆に語頭の[FUコの母音rUJの
部分が有声化することもあり、この場合はrFUKUO
KAJあるいはr U K UOKAJの部分が音声区
間として検出されることになる。このように発声の際の
状況により語頭が欠落する可能性のある場合、予め辞書
に登録された標準パターンと入力音声パターンの音声区
間検出結果が異なると(例えば、一方がr F U K
 U OK A Jでもう一方がrKUOKAJと検出
された場合)、従来のDPマツチング法では対応しきれ
ずに誤認識を生じさせる原因となっていた。
本発明は上記問題点に鑑み、語頭の欠落する可能性のあ
る音声(特に語頭の無声化の生じ易い音声)が入力され
た場合でも精度よく認識することのできる音声認識装置
を提供するものである。
課題を解決するための手段 本発明の音声認識装置は、入力音声からエネルギー値時
系列を含む特徴ベクトルの時系列を出力する名声分析部
と、前記音声分析部から出力されるエネルギー値時系列
から無音区間を検出し後続のエネルギーの立ち−1−か
り位置を記憶する無音区間検出部と、入カバターンと標
準パターンそれぞれの、音声区間検出の結果得られた始
点と最初の無音区間点とを始点候補点としてパターンマ
ツチング演算を実行するパターンマツチング部とを備え
たことを特徴とする。
作用 本発明は上記に述べた構成によって、語頭の欠落を考慮
して、音声区間検出により得られた標準パターン及び入
力音声パターンの始点と共に音声パターンの時系列上の
最初の無音区間点も始端点候補としてパターンマツチン
グ計算を開始し両者の類似度を求めていくことにより、
語頭の欠落の可能性のある音声を認識する場合にも精度
よく認識することができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声分析部で、入
力された音声信号をエネルギー値時系列を含む特徴ベク
トルの時系列に変換し音声区間を抽出する。2は無音区
間検出部で、音声のエネルギー値時系列から無音部分を
検出し後続のエネルギーの立ち上がりのフレーム位置を
無音区間点として記憶する。3は登録、認識動作の切り
替えを行うスイッチ、4は入力音声の特徴ベクトルの時
系列とその無音区間点を記憶する入カバターンメモリ、
5は各認識対象音声の特徴ベクトルの時系列とそれぞれ
の無音区間点を記憶する標準パターンメモリである。6
はパターンマッチング部で、パターンマツチング計算の
始端として音声区間検出により得られた始端及び最初の
無音区間点を始端候補点としてパターンマツチングを行
う。
7は初期設定部で、始端候補点以外のパターンマツチン
グの主軸上の点のベクトル間距離を無限大に設定する。
8は累積距離計算制御部で、標準パターンの長さに依存
しない非対称型のマツチングパスを使用して入力音声パ
ターンの先頭フレームから順次累積距離計算を行いパタ
ーンマツチング計pが入力音声パターンの無音区間点に
対応するフレームに到達した時点で、無音区間点を始点
とする累積距離計算を並行して行う。9は結果出力部で
、類似度最大となる標準パターンを認識候補音声として
出力する。第2図は第1図に示した装置の説明図である
次に上記音声認識装置の動作を説明する。
ます、マイクロホン等から入力された音声信号は音声分
析部2でアナログ−ディジタル変換され音声の特徴ベク
トルの時系列(例えば、10次の線形予測係数)とエネ
ルギー値時系列に変換され発声された音声部分が区間検
出される。次に、無音区間検出部3で、音声分析部2で
得られたエネルギー値時系列から例えばエネルギー値が
予め定められた閾値を下回る区間が一定時間を超える区
間を無音声区間として検出し、その無音区間の後続のエ
ネルギーの立ち上がりのフレーム位置を無音区間点とし
て記憶する。
認識対象音声を登録する場合は、スイッチ3をT側に設
定し認識対象音声それぞれに対し音声分析部1で得られ
た特徴ベクトルの時系列と無音区間検出部2で得られた
無音区間点を標準パターンメモリ5に記憶する。
次に、スイッチ3がR側に設定されている場合、即ち認
識処理動作について説明する。入力された音声は音声分
析部1、無音区間検出部2で上記に述べた処理がなされ
、その特徴ベクトルの時系列及び無音区間点のフレーム
位置が入カバターンメモリ4に記憶される。次にパター
ンマツチング部6で始端と最初の無音区間点を始端候補
点に設定し、ここは動的計画法に基づいたパターンマツ
チング処理を実行する。以下にパターンマツチング部6
の動作を詳細に説明する。
パターンマツチングの漸化式としてここでは次式を考え
る。
g(1、I):d(1、I)          −(
1)g(i 、j)=min(g(1−Lj) 、g(
1−Lj−1)、g(1−1,j−2))+d(j 、
j)         −−−−(2)ここで、g(i
、j)、d(i、j)はそれぞし入力音声パターンのi
フレーム、標準パターンのjフレームにおける累積距離
及び特徴ベクトル間距離を表す。なお漸化式は非対称型
の経路制限を実現するものであれば−に1式以外のもの
でも良い。
またここでは簡単のため整合窓によるマツチング経路の
制限は考えないものとする。
−例として、第2図に示したような入力音声パターンと
標準パターンとの間でパターンマツチングを実行する場
合について考える。第2図において音声パターンに対す
る包絡線はエネルギーの時間変化を示している。ここで
入力音声パターンの最初の無音区間点のフレーム位置を
I Q+、標準パターンの最初の無音区間点のフレーム
位置をjoとする。
ところで認識対象音声が無声子音から始まる場合には特
に標準パターン、入力音声パターンのどちらも同様に語
頭の区間検出を誤る可能性がある。
このように両パターンに語頭の欠落の可能性がある場合
には、第2図に示したようにパターンマツチング経路の
始点としては、(1+  1 ) 、(t Ql+IL
  (1,job)の3つの始端候補点が考えられ、こ
の3点から出発する■■■の3つのマツチング経路から
最適な経路を選択すれば語頭の欠落に対応できるパター
ンマツチングが実現できる。
そこで、まず初期設定部7で次式の設定を行う。
d(1,j)=■ 但し j≠L  j≠jo+ d(i、1)=■ 但し i≠1.1−I−1Q。
この設定は、マツチング経路が第2図の直線i=1及び
j=1上の上記3つの始端候補点以外の点から出発しな
いように制限を加えたことと等価である。
次に累積距離計算制御部8で漸化式(2)に従い累積距
離計算を開始する。まずi=1として標準パターンの第
1フレーム即ちj=1から縦方向に累積距離を計算する
。これが終了すると順次iをインクリメントしながら同
様の処理を続ける。
これらの処理が進みj”!o+に到達した時点からは、
点(i 0++  1 )から開始される累積距離演算
をこれまでのg(i、j)の計算と平行して行う。
即ち、!:!at以降はg(i、j)の計算と同時に、
次の漸化式 %式%(11) に従うg′(Lj)の計算をiをインクリメントしなが
ら行う。
これらの処理が点(I、J)に到達した時点では2つの
累積圧#g(I、J)、g’(1,J)が求められてい
ることになる。ここで min  (g(1,J)/l、g’(1,J)/(1
−1o++l)1を求め得られた値が入力音声パターン
と標準パターン間の類似度となる。この類似度は第2図
の始端候補点3点から開始した3種類のマツチング経路
のうち最適な経路を選択したときのパターン間の距離と
なる。
標準パターンメモリ7に記憶された各標準パターンと入
力音声パターンメモリ4に記憶された入力音声パターン
間の類似度がすべて計算されたのちに、結果出力部9で
類似度の最大なる標準パターンを認識候補音声として判
定し外部に出力する。
以上のように本実施例によれば、音声の無音区間を検出
する無音区間検出部2と、語頭欠落を考慮した複数の始
端候補点以外の主軸−にの点でのベクトル間距離を無限
大に設定する初期設定部7と、入力音声パターンの最初
の無音区間点からは新たに開始される累積距離演算を、
入力音声パターンと標準パターンの始端の交点から開始
した累積距離演算と並列に実行するように制御する累積
距離計算制御部8とを備えたことにより、標準パターI ン、入力音声パターンのどちらで語頭の欠落が生じても
、1回のパターンマツチング演算ですべての可能性を考
慮した計算が実行でき、計算量をあまり増加させずに語
頭の不安定な音声に対しても精度よく認識することが可
能になる。
発明の効果 以−にのように本発明の音声認識装置によれば、語頭の
欠落を考慮して、音声区間検出により得られた標準パタ
ーン及び入力音声パターンの始点と共に音声パターンの
時系列上の最初の無音区間点も始端点候補としてパター
ンマツチング計算を開始し両者の類似度を求めていくこ
とにより、語頭の欠落の可能性のある音声を認識する場
合にも精度よく認識することができる。
サラに、パターンマツチング部として、語頭欠落を考慮
した複数のパターンマツチングの始点候補点以外の点か
らマツチング経路が開始されないように拘束する初期設
定部と、入カバターンと標準パターンの始端の交点から
開始した累積距離演算と入カバターンの無音区間点から
開始した累積距離演算を並行して行う累積距離計算制御
部とを備えることにより、認識対象音声に語頭の不安定
な音声が存在した場合に入力音声パターン、標準パター
ンのどちらに語頭の欠落が生じたとしても、語頭の欠落
を考慮した全てのパターンマツチングが1回の計算で実
現でき、計算量をほとんど増加させることなく認識性能
を向上させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例の音声認識装置のブロック構
成図、第2図は同装置の動作説明図である。 1拳や拳音声分析部、2争争拳無音区間検出部、3・・
やスイッチ、4中・・入カバターンメモリ、5争・・標
準ハターンメモリ、6◆・拳パターンマツチング部、7
・・・初期設定部、8・9拳累積距離計算制御部、9・
・争結果出力部。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された音声信号からエネルギー値時系列を含
    む特徴ベクトルの時系列を出力し発声された音声区間を
    検出する音声分析部と、前記音声分析部から出力される
    エネルギー値時系列から音声パターン中の無音声部分を
    検出し後続のエネルギーの立ち上がり位置を無音区間点
    として記憶する無音区間検出部と、予め認識対象音声と
    して記憶された標準パターンと入力音声パターンそれぞ
    れの、前記音声分析部で検出された音声区間の始端と、
    前記無音区間検出部で検出された音声パターン時系列中
    の最初の無音区間点とを音声パターンの始端候補点とし
    て、標準パターンと入力音声パターンとの間で類似度を
    計算し類似度が最大となる標準パターンを認識候補音声
    として出力するパターンマッチング部とを備えたことを
    特徴とする音声認識装置。
  2. (2)パターンマッチング部は、標準パターンと入力音
    声パターンの始端候補点同志の特徴ベクトル間距離のみ
    を計算し、標準パターンの先頭フレームと入力音声パタ
    ーンの始端候補点以外の点同志及び入力音声パターンの
    先頭フレームと標準パターンの始端候補点以外の点同志
    のベクトル間距離を予めすべて非常に大きな値に設定す
    る初期設定部と、入力音声パターンの先頭フレームから
    順次累積距離計算を行い、最初の無音区間点に到達した
    時点で、先頭フレームから始めた累積距離計算と同時に
    入力音声パターンの最初の無音区間点から始まる累積距
    離計算を並行して行う累積距離計算制御部とを備えてい
    ることを特徴とする請求項1記載の音声認識装置。
JP63302900A 1988-11-30 1988-11-30 音声認識装置 Pending JPH02148100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63302900A JPH02148100A (ja) 1988-11-30 1988-11-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63302900A JPH02148100A (ja) 1988-11-30 1988-11-30 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02148100A true JPH02148100A (ja) 1990-06-06

Family

ID=17914458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63302900A Pending JPH02148100A (ja) 1988-11-30 1988-11-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02148100A (ja)

Similar Documents

Publication Publication Date Title
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
JPS58102299A (ja) 部分単位音声パタン発生装置
JP2000221990A (ja) 音声認識装置
JPH02148100A (ja) 音声認識装置
JPH09292899A (ja) 音声認識装置
Ramasubramanian et al. Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
KR100560916B1 (ko) 인식 후 거리를 이용한 음성인식 방법
JPH02293899A (ja) 音声認識装置
JPH0484197A (ja) 連続音声認識装置
JPH0333280B2 (ja)
JPS62111295A (ja) 音声認識装置
JPH01321498A (ja) 音声認識装置
JPS62217297A (ja) 単語音声認識装置
JPH0552516B2 (ja)
JPS607492A (ja) 単音節音声認識方式
JPS6312000A (ja) 音声認識装置
JPH0469959B2 (ja)
JPH0449954B2 (ja)
JPH0585918B2 (ja)
JPH0235500A (ja) 音声認識方式
JPS6027000A (ja) パタンマツチング方法
JPH0344320B2 (ja)
JPS61143797A (ja) 音声認識装置
JPH09198078A (ja) 音声認識装置