JPH03118600A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03118600A
JPH03118600A JP1255270A JP25527089A JPH03118600A JP H03118600 A JPH03118600 A JP H03118600A JP 1255270 A JP1255270 A JP 1255270A JP 25527089 A JP25527089 A JP 25527089A JP H03118600 A JPH03118600 A JP H03118600A
Authority
JP
Japan
Prior art keywords
learning
speech
feature vector
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1255270A
Other languages
English (en)
Other versions
JP3011421B2 (ja
Inventor
Hiroshi Kanazawa
博史 金澤
Yoichi Takebayashi
洋一 竹林
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1255270A priority Critical patent/JP3011421B2/ja
Publication of JPH03118600A publication Critical patent/JPH03118600A/ja
Application granted granted Critical
Publication of JP3011421B2 publication Critical patent/JP3011421B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的コ (産業上の利用分野) 本発明は音声パターンの認識処理に用いられる複数の認
識対象カテゴリについての辞書パターンを効果的に学習
し得る学習機能を備えた音声認識装置に関する。
(従来の技術) 音声データの認識処理は、基本的には入力音声エネルギ
ーの時間的な変化等に着目してその始終端検出を行い、
その始終端間の音声特徴パラメータを抽出して認識辞書
に予め登録されている複数の認識対象カテゴリについて
の辞書パターンとの間で照合することによりなされる。
このパターン照合の手法としては、DPマツチング法や
HM M (!l1dden Marcov Mode
l)法、複合類似度法(部分空間法)等が用いられる。
このような音声パターンの照合による音声認識にあって
は、入力音声の始終端を如何に精度良く検出するか、ま
た認識辞書を如何に高性能化しておくかが、その認識性
能(認識率)を高める上で重要な課題となる。
ところで入力音声データの認識処理に用いられる認識辞
書は、専らクリーンな環境下で収集された音声データに
基づいて作成されることが多い。
これに対して認識対象とする音声データは、一般的に種
々の雑音環境下で入力されることが多く、そのS/Hに
よって認識性能が左右され易い。例えば雑音に起因して
入力音声データの始終端検出に誤りが生じたり、また認
識辞書との類似度が低くなって誤認識されることが多く
なる。
そこで認識辞書を作成する際、例えば第9図(aEに示
すようにクリーンな環境下で収集された音声データSに
、第9図(b)に示すような雑音データNを人工的に加
えて雑音成分が重畳した学習用音用データAを生成し、
この学習用音声データAを用いて認識辞書の学習を行う
ことにより、その高性能化を図ることが考えられている
しかし雑音を重畳した音声の始終端検出は、上述した音
声エネルギーの時間的な変化等を用いても、雑音のエネ
ルギーの時間的な変化を受けるので、これを高精度に検
出ることは非常に困難であった。特に第9図(c)に示
すようにその音声区間を外れた位置に特異なピークPを
持っているような場合には、その始終端検出自体に誤り
が生じ易い等の不具合が生じた。
そこで本発明者等は、特願平1−57978号にて入力
音声データの始終端を検出することなく、始終端非固定
のままで入力音声の特徴パラメータの系列を連続的にパ
ターンマツチングしてその類似度の時系列を求め、この
類似度の時系列を判定し、学習大正カテゴリの辞書との
間で最大類似度を与えた入力音声の特徴ベクトルを学習
用音声データとして抽出する手法を提唱した。
即ち、この連続パターンマツチングの手法は、所謂ワー
ドスポツティングと称されるもので、第10図に例示す
るように入力音声の特徴パラメータの系列から、その特
徴パラメータを求めた各サンプル・タイミングをそれぞ
れ基準とする所定の次元数の特徴ベクトルを順次連続的
に抽出し、これらの各特徴ベクトルと認識辞書との類似
度をそれぞれ求めていく。そして各特徴ベクトルについ
て求められた類似度値を相互に比較し、最大類似度を得
た認識対象カテゴリを前記入力音声に対する認識結果と
して求めるものである。また学習対象カテゴリの辞書と
の間で最大類似度をとる特徴ベクトルを、その始終端が
正しく切り出された音声区間のものであるとして判定し
、その特徴ベクトルを認識辞書の学習用として抽出する
ものである。
このようなワードスポツティングによる音声認識処理に
よれば、連続的に入力音声の特徴ベクトルを抽出してそ
の類似度を逐次求めることが必要なので、演算処理量が
増えるものの始終端の検出誤りに起因する問題がなくな
り、その分、認識性能を高めることが可能となる。また
始終端検出を行う場合に比較して認識辞書の学習に用い
る特徴ベクトルをある程度正しく切り出すことができる
ので、認識辞書の性能を効果的に高めることが可能とな
る。
然し乍ら、音声データSに加える雑音データNが第9図
(e)に示すように、その音声区間を外れた位置に特異
なビークPを持っているような場合、偶然的にそのピー
クノイズ部分を含む区間での特徴ベクトルに対する類似
度が高くなることがある。
従ってこのような場合には、誤った区間の特徴ベクトル
が認識辞書学習用として抽出されることになり、認識辞
書の性能に悪影響が及ぶ。そしてその認識辞書性能が劣
化する等の不具合が生じた。
(発明が解決しようとする課題) このように音声データの始終端検出を行うことな(、ワ
ードスポツティングによる連続パターンマツチングによ
り認識辞書の学習に用いる特徴ベクトルを抽出する場合
であっても、非定常な雑音や特異な雑音が音声データに
加わった場合には、類似度に基づいて抽出される特徴ベ
クトルの始端点および終端点が実際の音声データの始端
点および終端点から大幅にずれることがある。この結果
、学習用特徴ベクトルの抽出精度が劣化し、更には認識
辞書の性能劣化を招来すると要因となっている。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力音声パターンに非定常な雑
音や特異な雑音が混入している場合であっても、その始
終端の検出誤りを防いでその特徴ベクトルを高精度に抽
出し、認識辞書の性能を効果的に高めて認識性能を高め
ることのできる実用性の高い音声認識装置を提供するこ
とにある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識装置は、音声データ加工部にて学
習用音声データに雑音データを加えてパターン変形が与
えられた音声データを連続パターン照合処理し、この連
続パターン照合処理によって求められる類似度の時系列
と前記学習用音声データの始端および終端に関する情報
とに従って前記音声データから学習用音声特徴ベクトル
を抽出して認識辞書メモリに格納されている辞書パター
ンを学習するようにしたことを特徴とするものである。
具体的には、連続パターン照合処理によって求められる
類似度の時系列の中の、学習対象カテゴリの辞書との最
大類似度を基準として定められる所定の類似度値以上の
類似度を上記学習対象カテゴリの辞書に対して得た音声
パターンの始端と終端とをその音声データの始端候補お
よび終端候補としてそれぞれ求め、これらの始端、候補
および終端候補と学習用音声データの始端および終端に
関する情報とを比較して、その音声データに関する始終
端についての所定の条件、例えば始端点と終端点とによ
り定まる音声区間幅のずれに対する許容範囲、および始
端点および終端点の位置ずれに対する許容範囲を満たす
始端候補および終端候補を始端点および終端点とする音
声区間の音声データから学習用音声特徴ベクトルを抽出
するようにしたことを特徴とするものである。
(作 用) 本発明によれば、学習用音声データに雑音データを加え
てパターン変形を与えた音声データを用いて認識辞書に
格納された辞書パターンを学習するに際し、連続パター
ン照合処理によって求められる類似度の時系列のみなら
ず、その音声データの始端および終端に関する情報を用
いて学習用の音声特徴ベクトルを抽出するので、仮に音
声データに混入した非定常な雑音や特異な雑音に起因し
て本来の音声区間を大幅にずれた部分での類似度が大き
くなるような場合であっても、これを学習用音声特徴ベ
クトルの抽出対象から効果的に排除することが可能とな
る。
そして連続パターンマツチング処理により求められる類
似度の時系列に基づいて信頼性の高い始終端間での特徴
ベクトルを抽出するので、学習用音声特徴ベクトルの抽
出精度を高めることができ、認識辞書の学習を信頼性良
く行なわせることが可能となる。
この結果、認識辞書の学習効果を高めてその辞書性能の
向上を図り、ひいては認識性能の向上を図ることが可能
となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
装置について説明する。
第1図は実施例装置における特徴的な技術思想を示した
、認識辞書学習用の音声特徴ベクトルの抽出処理手続き
の概念を示す図である。
この認識辞書学習用の音声特徴ベクトルの抽出処理は、
学習対象とするカテゴリの音声データに所定の雑音デー
タを加えて人工的なパターン変形を与え(処理l)、こ
れを学習用の音声データとすることから行われる。この
ような学習データについて、認識辞書に予め登録されて
いる辞書パターンを参照してワードスポツティング法に
基づく連続パターン照合処理を実行し、その類似度の時
系列を求める(処理■)。
しかるの後、この類似度の時系列に従い、例えば学習対
象カテゴリの辞書との最大類似度値S maxとの差が
所定の閾値6以内の類似度値をとる特徴ベクトルの始端
点と終端点とをそれぞれ入力音声データに対する始端候
補および終端候補として求める(処理■)。この処理に
おいては上述した閾値θの設定にもよるが、必ずしも1
つの特徴ベクトルに対する始端候補および終端候補だけ
が抽出されると云う保証は無く、一般的には複数組の始
端候補および終端候補が求められる。
ちなみに本発明者等が先に提唱した、例えば特願平1−
57978号における特徴ベクトルの抽出処理は、上述
した連続パターン照合によって求められる類似度の時系
列中の、学習対象カテゴリについての最大類似度値S 
1laxに着目して学習用の音声特徴ベクトルの抽出を
行っている。
これに対して本発明では、上述した類似度の時系列から
求められる複数の特徴ベクトルの始端点と終端点をそれ
ぞれ始端候補および終端候補とし、学習対象とする音声
データについて予め求められている始端点と終端点の情
報に従って上記始端候補および終端候補を絞り込み処理
し、最も信頼性の高い始端候補および終端候補を求めて
学習用の音声特徴ベクトルを抽出するものとなっている
即ち、連続パターン照合によって求められた類似度の時
系列に基づいて求められた数組の始端候補および終端候
補はそれぞれその音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合しているか否かの検定を行い、始端候補
および終端候補の絞り込みを行う(処理■)。具体的に
は、始端候補および終端候補により示される音声区間が
音声データの最小継続時間以上で、且つ最大継続時間以
内であるかの検定を行う。
また求められた音声区間に対する音声データの最大・最
小継続時間による検定については、類似度の時系列を求
める際の始終端非固定の連続パターン照合時、つまりワ
ードスポツティング時に行うようにしても良い。つまり
ワードスポツティングを行う際、その音声区間が最大継
続時間以下で、最小継続時間以上となるような始終端に
ついてのみその類似度演算を行うようにしても良い。こ
のようにすれば上述した学習用音声特徴ベクトルの抽出
処理を行う際での音声区間幅のずれに対する検定(処理
■)を省略することが可能となる。
しかしてこのような音声区間に対する検定を行った後、
次に上記始端候補および終端候補が標章的な始端点およ
び終端点に対して所定のずれ幅以内に収まっているかの
検定を行い、その始端候補および終端候補の絞り込みを
行う(処理V)。
この始端候補と終端候補の絞り込みについて第2図を参
照して説明すると、雑音が混入された音声データAを連
続パターン照合処理して求められる類似度の時系列から
、学習対象カテゴリの辞書に対して所定値以上の類似度
をとる特徴ベクトルの始端点と終端点を求めると、例え
ば類似度S1をとる特徴ベクトルの始終端が[t sl
、  t e11類似度S2をとる特徴ベクトルの始終
端が[t s2.  t e2]  ・・・・・・類似
度S5をとる特徴ベクトルの始終端が[t s5.  
t e5] としてそれぞれ求められる。これらの始終
端が学習用特徴ベクトルを抽出する為の始端候補および
終端候補となる。
一方、認識対象とする音声データについての始終端に関
する情報は、例えば始端点[tso]、終端点[t c
o]として与えられ、始端点に関する許容ずれ量が[Δ
Ts ] 、終端点に関する許容ずれ量が[ΔTelと
して与えられる。そしてその音声データの継続時間(音
声区間)については、最小継続時間[D winコ、最
大継続時間[Dg+axlとしてそれぞれ与えられる。
前述した処理■に示す音声区間についての検定処理は、
前述した如く求められた始終端候補が上述した継続時間
幅の条件に適合するか否かを調べ、この条件に該当しな
い始終端候補を特徴ベクトルの抽出対象から除外するも
のである。また前述した処理Vに示す始終端のずれに対
する検定は、その始終端が許容ずれ範囲内に収まってい
るか否かを調べ、これによってその条件に適合しない始
終端候補を特徴ベクトルの抽出対象から除外するもので
ある。
このような始終端に関する検定により始終端候補を絞り
込むことで、真に信頼性の高い候補だけが残されること
になる。そこでその信頼性の高い始終端候補を持つ特徴
ベクトルの中の前述した類似度の最も高い特徴ベクトル
を認識辞書学習用の音声特徴ベクトルとして抽出すれば
(処理■)、雑音の影響を受けることなしに精度良く、
しかも高い信頼性をもって音声特徴ベクトルを求めるこ
とが可能となる。しかる後、この抽出された特徴ベクト
ルを用いて認識辞書の学習処理を行うことにより(処理
■)、認識辞書の性能が効果的に高められる。
次に上述した学習用の音声特徴ベクトルの抽出機能を備
えた実施例装置の具体例について説明する。
第3図は実施例装置の概略構成図で、大略的には音声パ
ターン抽出部と認識処理部、そして辞書学習部の3つの
ブロックにより構成される。
音声パターン抽出部を構成する音声入力部1と音声分析
部2は、基本的にはマイクロフォンを通して入力される
音声データを音声入力部1にてディジタル変換処理し、
音声分析部2にてFFTやフィルタ分析、LPG分析、
ケプストラム処理等により、その音声パターンを特徴パ
ラメータの系列として求める。具体的には、例えば8 
ll1secのフレーム周期で16次元のフィルタバン
ク出力を求め、これをその特徴パラメータとして出力す
る。
認識処理部は、ここではワードスポツティングの手法を
用いて入力音声パターン(音声パターン抽出部で求めら
れる特徴パラメータの系列)を、音声認識辞書メモリ3
に登録されている複数の認識対象カテゴリの各辞書パタ
ーンとの間で連続的にパターン照合する連続パターン照
合部4と、この連続パターン照合部4にて連続的に求め
られる類似度の時系列を判定し、例えば最大類似度をと
る特徴ベクトルとその認識対象カテゴリを求める類似度
判定部5とを備えて構成される。
上記連続パターン照合部4は音声パターンに対する始終
端の検出を行うことなく、前述したフレーム周期毎に前
記特徴パラメータの系列から所定の次元数の特徴ベクト
ルを抽出して認識辞書パターンとの間の類似度を求める
もので、例えば第4図に示すように連続パターン照合範
囲決定部4a。
特徴ベクトル抽出部4b、パターン照合部4cとにより
構成される。
即ち、この連続パターン照合部4における連続パターン
照合範囲決定部4aは、第10図に示すように前述した
フレーム周期毎に抽出すべき特徴パラメータの音声継続
時間(パターン照合範囲)を設定している。この音声継
続時間は、例えば最小時間幅を120 m5ec、最大
時間幅を2400 m5ecとし、これらの間を所定の
時間幅で区切って設定される複数の音声継続時間からな
る。
しかして特徴ベクトル抽出部4bは上述した如く設定さ
れた各音声継続時間における特徴パラメータの系列を前
述したフレーム周期毎にそれぞれ抽出し、これらの各特
徴パラメータの系列の中からその時間軸方向に16点に
亘って特徴パラメータをリサンプルし、周波数軸方向に
16次元2時間軸方向に16次元の特徴パラメータで表
現される256次元の特徴ベクトルを個々に求めている
例えばパターン照合範囲となる音声継続時間がTI、T
2.〜Tnとして定められている場合、特徴ベクトル抽
出部4bは前述したフレーム周期毎に、そのフレームタ
イミングtを終端点とする上記音声継続時間T I、T
 2.〜Tnの特徴パラメータの系列をそれぞれ求め、
これらの各特徴パラメータの系列をそれぞれ16点に亘
ってリサンプル処理して(16X16)次元の特徴パラ
メータx it。
X 2t、〜Xntを求めている。このような特徴ベク
トルの抽出処理は上述したようにフレーム周期毎に行わ
れるから、次のフレームタイミングでは、X Ht+1
)、  X 2(t+1)、 〜X n(t+1)なる
特徴ベクトルが求められることになる。
パターン照合部4cでは、このようにして求められる各
特徴ベクトルXI、について、音声認識辞書メモリ3に
登録されている複数の認識対象カテゴリの各辞書パター
ンとの間でその類似度を計算し、そのパターン照合処理
を実行する。この類似度計算によるパターン照合は、例
えば複合類似度法を用いる場合には、認識対象カテゴリ
gの辞書パタンがa−ゝを定数、φ3−′を固有ベクト
ルとして与えられるとき、その類似度値S11ゝは次の
ように計算される。
前述した類似度判定部5はこのようにして入力音声パタ
ーンと認識辞書パターンとの間で連続的に求められる上
記類似度S(′lゝの系列を判定し、例えばその類似度
値の大きいものを選択する等の処理を実行する。
例えば上述した類似度S:j、)の時系列から入力音声
パターンを認識処理する場合には、その中の最大類似度
maxs:’、ゝを基準とし、この最大類似度maXs
:冒との差が所定の閾値θ以下の類似度S1冒をとる認
識対象カテゴリgをその認識結果候補として求めること
が行われる。
尚、上記最大類似度maxs’、’、’が成る閾値st
h以下の場合には、認識不能としてリジェクトされる。
このようにして求められる認識結果候補が認識結果出力
部6を介して出力され、例えば認識結果の選択処理に供
される。この際、例えば上述した最大類似度waxs;
υをとる認識対象カテゴリが最優先候補として出力され
る。
尚、ここでは複合類似度法によるパターン照合の計算例
について示したが、従来より種々提唱されている手法を
適宜採用可能なことは云うまでもない。また類似度の時
系列に基づ(認識処理の方式についても、種々の認識ア
ルゴリズムを適宜採用可能なものであが、ここでは本発
明の主旨には直接関係を何さないので、その詳しい説明
については省略する。
次に辞書学習部について説明する。この辞書学習部は認
識モードに代えて学習モードが設定されたときに起動さ
れる。
しかしてこの辞書学習部は、雑音のないクリーンな環境
下で収集された種々の認識対象カテゴリについての音声
パターンを学習用音声データとして蓄積した音声データ
ファイル11と、種々の雑音データを収集した学習用雑
音データファイル12を備えている。この学習用雑音デ
ータファイル■2に収集される雑音データは、例えば街
頭や駅構内等の、所謂雑音環境下で収集された雑多な音
情報を含むデータからなる。
学習用音声データ加工部13は、学習制御部14の制御
を受けて学習対象とするカテゴリの音声データを前記学
習用音声データファイル11から読み出し、これに前記
学習用雑音データファイル12から求められる雑音デー
タを重畳させて上記音声デー夕に人工的なパターン変形
を加えるものである。
このパターン変形の度合いは、例えば音声データに混入
する雑音データのレベルを可変する等して調節される。
このようして雑音データが加えられた音声データが前記
音声分析部2に与えられて認識辞書の学習用特徴ベクト
ルの抽出に供される。
前述した連続パターン照合部4は、このようにして入力
される学習用の音声データについても同様にして連続パ
ターンマツチング処理を実行して類似度の時系列を求め
る。尚、この場合、学習対象とするカテゴリが予め判っ
ていることから、その認識対象カテゴリについての認識
辞書パターンとの間でだけパターン照合を行っても良い
が、類似カテゴリとの識別性を高めるような認識辞書の
学習効果も期待する場合には、これらの類似カテゴリに
ついての辞書パターンとの間でもパターン照合を行うこ
とが望ましい。また類似カテゴリ(誤認識される虞れの
あるカテゴリ)が不明な場合には、認識モードの場合と
同様に、全ての認識対象カテゴリの辞書パターンとの間
でパターン照合するようにすることも勿論可能である。
しかして類似度判定部5は、この学習モードの場合には
、学習用音声データについて求められた類似度の時系列
に基づいて、例えば学習対象カテゴリの辞書に対する最
大類似度値ll1axs:冒を基準とし、この最大類似
度maxS:’、’との差が所定の閾値θ以下の類似度
S:j)となっている特徴ベクトルについての始端点t
、および終端点t、をそれぞれ求めている。そしてその
特徴ベクトルX、と始端点ts1終端点tel および
この特徴ベクトルXl、を抽出する根拠となった類似度
値S、を、学習用音声特徴ベクトルの抽出候補として学
習用音声特徴ベクトル抽出部15に与えている。
この学習用音声特徴ベクトル抽出部15は、学習用音声
データ始終端情報ファイル16に格納されている上記学
習対象とするカテゴリの音声データについての始終端に
関する情報を用いて、上記抽出候補として与えられた特
徴ベクトルについての始終端に関する検定を行うもので
ある。そしてこの検定に合格した抽出候補の特徴ベクト
ルを学習用の音声特徴ベクトルとして求め、これを音声
認識辞書学習部17に与えて前記音声認識辞書メモリ3
に格納されている認識辞書パターンの学習に供する。
この認識辞書の学習について簡単に説明すると、例えば
複合類似度法による場合には、抽出された学習用音声特
徴ベクトルXI、を用いて辞書パターンの共分散行列を
更新し、しかる後、この共分散行列をKL展開してその
固有ベクトルφを求め、この固有ベクトルφにて辞書パ
ターンを更新する処理からなる。
第5図は上記学習用音声特徴ベクトル抽出部15にて、
学習用音声データ始終端情報ファイル1Gに格納されて
いる情報を参照して行われる学習用音声特徴ベクトルの
抽出処理手続きの流れを示す図である。この第5図を参
照してこの実施例装置における特徴的な学習用音声特徴
ベクトルの抽出処理について、以下に詳しく説明する。
この処理手続きは、前述した連続パターン照合処理によ
り求められた類似度の時系列に基づき、学習対象カテゴ
リの辞書に対して所定値以上の類似度を持つ特徴ベクト
ルを求め、その始端点と終端点とをそれぞれ始端候補お
よび終端候補として抽出する処理から開始される。具体
的には、連続パターン照合処理された複数の特徴ベクト
ル(フレームタイミング毎に、そのフレームタイミング
を終端点として求められる複数の音声区間についての特
徴ベクトルの系列)を類似度の大きい順に指定する為の
制御パラメータnを[1]に初期設定しくステップa)
、この制御パラメータnに従って特徴ベクトルX7の類
似度S0を、その類似度が大きい順にアクセスする。そ
してその類似度S7が所定の抽出条件を満たすか否かを
調べ(ステップb)、その抽出条件を満たしている場合
には、当該特徴ベクトルX、の始端点t anと終端点
t、。とをそれぞれ始端候補および終端候補として抽出
する。
この処理は上記制御パラメータnをインクリメントしな
がら、この処理にて始端候補および終端候補が求められ
た特徴ベクトルの数を制御値Nとして計数しながら、全
ての特徴ベクトルの類似度について繰り返し実行される
(ステ・ツブC)。
しかして上記始端候補および終端候補を抽出する為の類
似度判定条件は、例えば前述した連続パターン照合処理
により求められた類似度の時系列の中の、学習対象カテ
ゴリの辞書に対する最大類似度値をS−8としたとき、
例えばこの最大類似度値S、、1□との差が所定の閾値
0以内である類似度を持つ特徴ベクトルXnを抽出する
と云う条件として与えられる。従ってこの場合には、S
7≧(S 、、、−θ) なる条件が満たされるか否かが判定されることになる。
このような判定処理により、例えば最大類似度値S a
aッが[0,93]として求められ、閾値θが[Q、l
Q]として与えられるような場合には、類似度値が[0
,83]以上の特徴ベクトルX。の始端点および終端点
がそれぞれ抽出候補として求められる。
例えば代表的に次の5つの特徴ベクトルX工。
S2.〜X、について述べると、これらの特徴ペクト)
Lt X H、X 2 、〜X 5’)類似度Sl、3
2゜〜S9、およびその始端点tal+  i +2+
〜t、5゜および終端点t*I+t@2+〜t、5がそ
れぞれ次のように与えられる場合、 X + ・S + −0,93,t 、+−0,4se
c、 t 、、−0,8secX2−32−0.90.
  t S2−0.2 sec、t 62−0.8se
cX3−83−0.88.  t 、3−0.4 se
c、t S3−1.2secXa−34−0,85,t
 、4−0.35sec、 t S4 ” 0.7se
cX5−85−0.70.  t S5 wo、t S
eC,t S5−1.0sec類似度値が[0,83]
以上の特徴ベクトルXnとして、特徴ベクトルX1.S
2 、S3 、S4の始端点および終端点がその始終端
候補 X  1 −   [t  m 1− 0.4  se
c、t  、t−0,6secコX  2  ”’  
 [i  −2””  0.2 5(3C−i  S2
””  0.8secコX 、−[t 、3−0.4 
sec、 t 、3! 1.2seclX 4− [t
 x−0,35sec、 t 64−0.7sec]と
して求められる。
このようにして類似度に基づく特徴ベクトルの選択抽出
が行われた後、今度は当該学習対象カテゴリの音声パタ
ーンについての始終端に関する情報を用いて、始終端に
ついての条件判定が行われる。この音声パターンについ
ての始終端に関する情報は、前記学習用音声データ始終
端情報ファイル16に格納された、例えば第6図に示す
如き情報として与えられる。具体的には、学習用音声デ
ータファイル11に格納された音声データの管理番号に
従って、その音声データの始端点t、。と終端点t、。
、およびそのカテゴリ名としてその始終端に関する情報
が与えられる。またこれらの情報と共に、その学習対象
カテゴリの最小継続時間D ml。。
および最大継続時間り41.の情報も与えられる。
この最小継続時間D ml。、および最大継続時間り1
.8の情報は、予め学習用音声データファイル11等に
格納しておく。
しかしてこの処理は、前述した類似度に基づいて抽出さ
れた候補を順に選択指定する為の制御パラメータmを[
1]に初期設定しくステップd)、この制御パラメータ
mに従って前述した各特徴ベクトルxaの始終端候補を
順次検定することにより実現される。この検定は、前記
始終端候補からその音声継続時間を[1、、、−1、、
、]として求め、この音声継続時間が上述した最小継続
時間Dmln+および最大継続時間D m a xに示
される条件に適合しているか否かを調べることから行わ
れる(ステップe)。
具体的には、 D  aa l n   ≦  [1,、、−1,、コ
  ≦ D  Ill a Nを満足しているかが判定
される。この判定処理によって、例えば上記最小継続時
間D1..が[0,4See ]、また最大継続時間D
 □、が[0,8See ’1として与えられるような
場合には、前述した特徴ベクトルの候補の内、特徴ベク
トルX、、X4がリジェクトされ、その候補が X 2−[t 、2−0.2 sec、 t 、2−0
.8seclX 、−[t S3 ”” 0.4 se
c、 t 、3m 1.2sec]の2つに絞り込まれ
る。
その後、これらの絞り込まれた候補に対して、次にその
始端点および終端点の時間的なずれに対する検定が行わ
れる(ステップf)。
この処理は始端点に関する時間的ずれの許容値Δt、が
[0,I See ] 、終端点に関する時間的ずれの
許容値Δt、が[0,I See ]として設定されて
いる場合、 1、、、−1 、。≦Δt。
1、、−1.。1≦Δt。
なる条件をそれぞれ満たしているか否かを調べることに
より行われる。この判定処理の結果、上述した例では特
徴ベクトルX、かりジェツトされ、その抽出候補として X  2 −   [t  、21111 0.2  
sec、  t  、2m  0.8secコだけが求
められることになる。
尚、上述した2つの判定処理によって前記制御パラメー
タmにより指定された特徴ベクトルがリジェクトされた
場合には、制御パラメータmのインクリメントと(ステ
ップg)、そのインクリメントされた制御パラメータm
と前記制御値Nとの比較により、類似度に基づいて選択
された全ての特徴ベクトルについての処理が完了したか
否かを判定しながら(ステップh)、繰り返し実行され
る。
この結果、類似度に従って求められた複数の特徴ベクト
ルの候補の中から、その始端点および終端点に関する時
間的な制約条件を満足するものだけが選択的に抽出され
ることになる。そして前述した例では、1つの特徴ベク
トルだけが残されたが、一般的には複数の特徴ベクトル
が候補として残されることが想定される。従ってこのよ
うな場合には、例えば残された複数の候補の中でその類
似度S7が最も大きいものを選ぶ等して、認識辞書の学
習に使用する特徴ベクトルを抽出する(ステップi)。
尚、上述した始終端に関する条件判定によって、類似度
に基づいて抽出された特徴ベクトルの全ての候補がリジ
ェクトされた場合には、上述した連続パターンマツチン
グによる処理結果が雑音データによる悪影響を受けてい
ると判定し、例えば前述した学習用音声データ始終端情
報ファイル16に格納されている音声データの始端点t
、。、および終端点t、。の情報に従って特徴ベクトル
の抽出を行い、これを認識辞書の学習に供する(ステッ
プj )。
かくしてこのような連続パターンマツチング処理によっ
て求められる類似度の時系列の情報のみならず、その音
声データに関する始終端情報をも利用して認識辞書学習
用の特徴ベクトルを抽出する本装置によれば、特異な雑
音に起因する誤った音声区間からの特徴ベクトルの切り
出しを効果的に排除しt、その学習用音声特徴ベクトル
を信頼性良く、高精度に切り出し抽出することが可能と
なる。この結果、認識辞書の学習効果を高めることがで
き、認識辞書性能の高性能化を図って認識性能を効果的
に高めることが可能となる。
尚、上述した始終端に関する情報に従う特徴ベクトルの
絞り込み判定に用いる時間的なずれの許容値Δtag許
容値Δ、については、学習対象とする認識カテゴリ毎に
その値を設定しても良いし、また学習処理に供する音声
データに応じて定めるようにすることも可能である。ま
たその音声区間に対する許容値、つまり最小継続時間D
mla+および最大継続時間D ffi a Xについ
ても同様にして定めることが可能である。
ところで上述した実施例の処理手続きは、その都度、音
声データに関する始終端の情報を用いて特徴ベクトルの
絞り込み判定を行ったが、例えば同一の音声データにつ
いてそこに加える雑音データのレベルを変えながら学習
用音声特徴ベクトルを求めるような場合には、−々クリ
ーンな音声データについての始終端の情報を用いるより
も、前回の学習時に求められた始終端に関する情報を利
用したほうが、より高精度に特徴ベクトルの絞り込みを
行うことが可能である。
このような処理手続きを行うには、例えば前述した第5
図に示す処理手順を第7図に示すように変更し、学習用
音声データ始終端情報ファイル16に登録しておく情報
項目としては、例えば第8図に示すように前回の特徴ベ
クトル抽出時の始端点および終端点に関する情報を格納
しておく項目をつけ加えるようにすれば良い。
しかしてこの場合には、第8図に示すように学習用音声
データ始終端情報ファイル16から前回の学習時に用い
られた特徴ベクトルについての始端点の情報iabと、
終端点の情報t、、とをそれぞれ求め(ステップk)、
これらの情報を前述したクリーンな音声データの始端点
の情報iaoと、終端点の情報t、。に代えて用いるよ
うにする。
このような初期設定処理を行った後、前述した特徴ベク
トルの抽出(絞り込み)処理を実行し、特徴ベクトルの
絞り込みがなされた時点で、その特徴ベクトルについて
求められる始端点および終端点の情報を次回の学習処理
時に用いるべく、前記学習用音声データ始終端情報ファ
イル16に格納する(ステップm)。その後、前述した
ステップiに示されるようにして絞り込まれた特徴ベク
トルの中から、認識辞書の学習に用いる為の特徴ベクト
ルを選択決定し、これを学習用音声特徴ベクトルとして
抽出する。
また特徴ベクトルの候補が全てリジェクトされ、学習用
特徴ベクトルとしての候補が求められなかった場合には
、前述した前回の学習用特徴ベクトルの抽出時に用いら
れた始端点の情報jobと終端点の情報iebとを用い
て、その音声データ中から学習用特徴ベクトルの抽出を
行う。
このような処理手続きによれば、特徴ベクトルの抽出判
定に失敗したような場合、クリーンな音声データの始端
点の情報t、。と終端点の情報t、。
とに従って学習用特徴ベクトルの抽出を行う場合に比較
して、前回の学習時に用いられた始端点の情報iabと
終端点の情報t、、を用いて学習用特徴ベクトルの抽出
が行われるので、その音声区間の検出誤差量を少なくし
て、より高精度に学習用特徴ベクトルを求めることが可
能となる。この結果、先の実施例以上に認識辞書の学習
効果を高めることが可能となる等の実用上多大なる効果
が奏せられる。
尚、本発明は上述した実施例に限定されるものではない
。例えば連続パターンマツチング処理による類似度の時
系列を求める処理手続きは、従来より種々提唱されてい
る手法を適宜用いることが可能である。また特徴ベクト
ル候補の絞り込みのアルゴリズムについても種々変形可
能である。また実施例では、音声認識についても連続パ
ターン照合処理により行っているが、他の認識処理アル
ゴリズムを用いた音声認識装置に対しても適用可能であ
る。但し、この場合には、認識辞書の学習時に用いる為
の連続パターン照合部を別個に設ける必要があるので、
その分、装置構成が複雑化することが否めない。しかし
認識辞書学習の為の独立した装置を実現する場合には、
全く問題がないと云える。その他、本発明はその要旨を
逸脱しない範囲で種々変形して実施することができる。
[発明の効果] 以上説明したように本発明によれば、連続パターン照合
処理により求められる類似度の時系列に基づいて学習用
特徴ベクトルを選択制御することのみならず、その音声
データの始終端情報についての検定を行った上で、学習
用音声特徴ベクトルの抽出を行うので、種々の雑音が加
えられた学習用音声データについても、その中から認識
辞書の学習に用いる為の学習用音声特徴データを高精度
に抽出することができるので、認識辞書の学習効果を効
果的に高め、その認識辞書性能を十分に高めていくこと
ができる。そしてひいてはその認識性能までも効果的に
高め得ると云う、実用上多大なる効果が奏せられる。
【図面の簡単な説明】
第1図は本発明に係る音声認識装置における認識辞書学
習用の特徴ベクトル抽出処理の概念を示す図、第2図は
特徴ベクトルの選択抽出の作用を説明する為の模式図、
第3図は実施例装置の全体的な概略構成図、第4図は実
施例装置に置ける連続パターン照合部の構成例を示す図
である。 また第5図は実施例装置における学習用音声特徴ベクト
ルの抽出処理手順の流れを示す図、第6図は学習用音声
データ始終端情報ファイルの構成例を示す図、第7図は
実施例装置における学習用音声特徴ベクトルの抽出処理
手順の別の例を示す図、第8図は第7図に示す処理で用
いられる学習用音声データ始終端情報ファイルの構成例
を示す図である。 そして第9図は音声データに雑音データを加えて学習用
音声データを作成する処理と従来における問題点を説明
する為の模式図、第10図は連続パターンマツチング処
理の概念を示す図である。 2・・・音声分析部、3・・・音声認識辞書メモリ、4
・・・連続パターン照合部、5・・・類似度判定部、1
1・・・学習用音声データファイル、12・・・学習用
雑音データファイル、13・・・学習用音声データ加工
部、14・・・学習制御部、15・・・学習用音声特徴
ベクトル抽出部、16・・・学習用音声データ始終端情
報ファイル、17・・・音声認識辞書学習部。

Claims (5)

    【特許請求の範囲】
  1. (1)入力音声データを分析して求められる特徴パラメ
    ータの系列と、認識辞書メモリに格納された複数の認識
    対象カテゴリについての各辞書パターンとの間で連続的
    にパターン照合してその類似度の時系列を求め、この類
    似度の時系列から前記入力音声データに対する認識結果
    を求める音声認識装置において、 学習用音声データに雑音データを加えてパターン変形を
    与えた音声データを生成する音声データ加工部と、この
    雑音データが加えられた音声データに対して前記連続パ
    ターン照合処理によって求められる類似度の時系列と前
    記学習用音声データの始端および終端に関する情報とに
    従って前記音声データから学習用音声特徴ベクトルを抽
    出する手段と、この手段にて抽出された学習用音声特徴
    ベクトルを用いて前記認識辞書メモリに格納されている
    辞書パターンを学習する辞書学習部とを具備したことを
    特徴とする音声認識装置。
  2. (2)学習用音声特徴ベクトルの抽出手段は、連続パタ
    ーン照合処理によって求められる類似度の時系列の中の
    、学習対象とするカテゴリの辞書との最大類似度を基準
    として定められる所定の類似度値以上の類似度を得た音
    声パターンの始端と終端とをその音声データの始端候補
    および終端候補としてそれぞれ求め、これらの始端候補
    および終端候補と学習用音声データの始端および終端に
    関する情報とを比較して、その音声データに関する始終
    端についての所定の条件を満たす始端候補および終端候
    補を始端点および終端点とする音声区間の音声データか
    ら学習用音声特徴ベクトルを抽出することを特徴とする
    請求項(1)に記載の音声認識装置。
  3. (3)音声データに関する始終端についての所定の条件
    は、始端点と終端点とにより定まる音声区間幅のずれに
    対する許容範囲、および始端点および終端点の位置ずれ
    に対する許容範囲として与えられるものである請求項(
    2)に記載の音声認識装置。
  4. (4)学習用音声データは、無雑音環境下で収集された
    クリーンな音声データであって、この学習用データの始
    端点および終端点に関する情報は、予め始終端検出処理
    によりその求められて学習用音声特徴ベクトルの抽出処
    理に用いるられることを特徴とする請求項(1)に記載
    の音声認識装置。
  5. (5)学習用音声特徴ベクトルの抽出時に求められる始
    端点および終端点の情報を記憶し、予め学習用音声デー
    タについて求められる始端点および終端点に関する情報
    に代えて上記学習用音声特徴ベクトルの抽出時に求めら
    れた始端点および終端点の情報を、次回の学習用音声特
    徴ベクトルの抽出処理に用いることを特徴とする請求項
    (1)に記載の音声認識装置。
JP1255270A 1989-10-02 1989-10-02 音声認識装置 Expired - Fee Related JP3011421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1255270A JP3011421B2 (ja) 1989-10-02 1989-10-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1255270A JP3011421B2 (ja) 1989-10-02 1989-10-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03118600A true JPH03118600A (ja) 1991-05-21
JP3011421B2 JP3011421B2 (ja) 2000-02-21

Family

ID=17276415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1255270A Expired - Fee Related JP3011421B2 (ja) 1989-10-02 1989-10-02 音声認識装置

Country Status (1)

Country Link
JP (1) JP3011421B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
KR20150121016A (ko) 2014-03-12 2015-10-28 울박, 인크 이온 조사 장치, 이온 조사 방법
WO2019176830A1 (ja) * 2018-03-12 2019-09-19 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
CN114005436A (zh) * 2021-11-29 2022-02-01 京东科技信息技术有限公司 语音端点的确定方法、装置及存储介质
CN114005452A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 提取语音特征的方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
KR20150121016A (ko) 2014-03-12 2015-10-28 울박, 인크 이온 조사 장치, 이온 조사 방법
WO2019176830A1 (ja) * 2018-03-12 2019-09-19 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
JPWO2019176830A1 (ja) * 2018-03-12 2021-02-12 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
CN114005452A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 提取语音特征的方法、装置、电子设备及存储介质
CN114005452B (zh) * 2021-10-29 2024-11-08 北京百度网讯科技有限公司 提取语音特征的方法、装置、电子设备及存储介质
CN114005436A (zh) * 2021-11-29 2022-02-01 京东科技信息技术有限公司 语音端点的确定方法、装置及存储介质

Also Published As

Publication number Publication date
JP3011421B2 (ja) 2000-02-21

Similar Documents

Publication Publication Date Title
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20070088548A1 (en) Device, method, and computer program product for determining speech/non-speech
JP3004023B2 (ja) 音声認識装置
WO1997040491A1 (en) Method and recognizer for recognizing tonal acoustic sound signals
JPH03118600A (ja) 音声認識装置
US20070203700A1 (en) Speech Recognition Apparatus And Speech Recognition Method
JP3444108B2 (ja) 音声認識装置
KR100609521B1 (ko) 음성 인식 시스템의 발화 검증 방법
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
KR100298177B1 (ko) 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
EP1414023A1 (en) Method for recognizing speech
JPH06266386A (ja) ワードスポッティング方法
JP3477751B2 (ja) 連続単語音声認識装置
JPH11249688A (ja) 音声認識装置およびその方法
JP2975772B2 (ja) 音声認識装置
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH05127696A (ja) 音声認識方法
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JPH0643893A (ja) 音声認識方法
JP3061292B2 (ja) アクセント句境界検出装置
KR100755483B1 (ko) 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
JPS6147999A (ja) 音声認識装置
JP2712586B2 (ja) 単語音声認識装置用パターンマッチング方式
CN121506105A (zh) 语音信号中命令词的识别方法及相关设备

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees