JPH0713590A

JPH0713590A - 音声認識方式

Info

Publication number: JPH0713590A
Application number: JP15757393A
Authority: JP
Inventors: Tetsuya Muroi; 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-06-28
Filing date: 1993-06-28
Publication date: 1995-01-17
Anticipated expiration: 2017-06-10
Also published as: JP3291073B2

Abstract

(57)【要約】（修正有）【目的】１段階の照合のみでしかも認識対象語彙を変
更しても部分マッチングの問題をも回避できる照合方法
を提供する。【構成】標準パターンの特徴ベクトルごとに定める
か、標準パターンの特徴ベクトルを予め複数のクラスタ
に分割し、そのクラスタごとに定めて、１段階だけの照
合で部分マッチングの問題を回避し、正しく言葉を認識
できる。予め認識対象となる語彙の情報が不必要のた
め、特定話者方式の音声認識装置のように語彙の変更を
行う認識装置であっても動作することができる。既知入
力パターンに対して照合を行った後、照合経路に基づき
入力パターンと標準パターンの特徴ベクトルとの対応付
けを行い、この２つの特徴ベクトルの距離が予め定めら
れた第２の値より大きい場合に、標準パターンごとに予
め定められた第１の値を大きくするか、標準パターンの
属するクラスタごとに予め定められた第１の値を大きく
するように定め、正しい音声認識が可能になる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、発声された音声を認識
するための音声認識方式に関する。

【０００２】

【従来の技術】発声された音声の音声区間全体を隙間な
く（１字１句）認識するのではなく、音声をワードスポ
ッティングによって認識する方法は不用語の付加やポー
ズなどの問題を避けることができ、音声対話システムや
音声理解システムに向いていることが知られている。

【０００３】又、離散発声された単語音声を認識する場
合でも、パワーなどの情報によって音声区間を切り出し
てから認識するのではなく、無音部も含んだパターンか
らスポッティングの手法を用いて認識するほうが受音の
際の騒音や舌打ち音などの影響を受けずにすむという利
点がある。

【０００４】

【発明が解決しようとする課題】しかしながら、スポッ
ティングには部分マッチングという問題がある。例え
ば、認識対象となる言葉に「新横浜」と「横浜」という
言葉が含まれていた場合、話者が「新横浜」と発声した
とき、この音声中には「横浜」とれているために、「横
浜」も「新横浜」も高いスコア（小さな距離）で認識さ
れてしまい、この言葉のうちのどちらであるか識別でき
ないという問題点があった。この部分マッチングは数字
を認識する際には、特に大きな問題となる。例えば、
「３１」という言葉には、「３０」、「３」、「１
０」、「１１」、「１」という部分マッチングされる言
葉が存在する。

【０００５】但し、この部分マッチングには非対称性が
ある。つまり、長い言葉（上記例では「新横浜」）を短
い言葉（「横浜」）に誤認識することはあるが、その逆
はあまり多くない。例えば、特開平４−２３０７９７号
における方法ではこの非対称性を利用している。つま
り、入力「新横浜」に対しては「横浜」の類似度は高い
が、入力「横浜」に対して「新横浜」の類似度は高くな
いという類似度表を予め統計的に作成しておき、最初に
通常の照合を行い、次にここで得た全単語への類似度と
上記の類似度表との比較を行って、最も類似傾向が似て
いる（距離の小さい）単語を認識結果とするものであ
る。

【０００６】しかし、従来技術では認識対象となる全単
語同士の類似表を予め作成しておく必要があることか
ら、認識対象語彙が固定しているアプリケーションにの
み有効である。例えば、特定話者方式の認識装置のよう
に認識対象の言葉を自由に変更できる認識装置では部分
マッチングの問題を解決できないという欠点があった。
又、照合を２段階に行っているために処理が複雑である
という欠点があった。

【０００７】本発明は、１段階の照合のみでしかも認識
対象語彙を変更しても部分マッチングの問題をも回避で
きる照合方法を提供することを目的とする。

【０００８】

【課題を解決するための手段】かかる課題を解決するた
めの本発明の技術的解決手段は、入力された音声を特徴
ベクトルの時系列である入力パターンに変換し、予め与
えられた第１の値から入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルとの距離を引いたものを類似
度と定め、標準パターンの特徴ベクトルの系列に対して
類似度を累積したものを入力音声との類似度とみなし、
入力音声を認識するようにしている。ここで、予め与え
る第１の値としては、標準パターンの特徴ベクトルごと
に定めるか、又は、標準パターンの特徴ベクトルを予め
複数のクラスタに分割し、そのクラスタごとに定めるよ
うにする。更に、音声内容が既知である入力パターンに
対して照合を行った後、照合経路に基づいて入力パター
ンの特徴ベクトルと標準パターンの特徴ベクトルとの対
応付けを行い、この対応付けられた２つの特徴ベクトル
の距離が予め定められた第２の値より大きい場合に、標
準パターンごとに予め定められた第１の値を大きくする
か、又は、標準パターンの属するクラスタごとに予め定
められた第１の値を大きくするように定める。

【０００９】

【作用】本発明によれば、先ず、類似度を予め与えられ
た第１の値から入力パターンの特徴ベクトルと標準パタ
ーンの特徴ベクトルとの距離を引いたものと定義してお
く。ここで、予め与える第１の値としては、標準パター
ンの特徴ベクトルごとに定めるか、又は、標準パターン
の特徴ベクトルを予め複数のクラスタに分割し、そのク
ラスタごとに定めるようにする。その上で、入力された
音声を特徴ベクトルの時系列である入力パターンに変換
し、標準パターンの特徴ベクトルの系列に対して類似度
を累積したものを入力音声との類似度と見なして、入力
音声を認識することにより、１段階だけの照合で部分マ
ッチングの問題を回避し、正しく言葉を認識できるよう
になる。又、予め認識対象となる語彙の情報を必要とし
ないために、例えば特定話者方式の音声認識装置のよう
に語彙の変更を行う認識装置であっても動作することが
できる。更に、音声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルとの対応
付けを行い、この対応付けられた２つの特徴ベクトルの
距離が予め定められた第２の値より大きい場合に、標準
パターンごとに予め定められた第１の値を大きくする、
又は、標準パターンの属するクラスタごとに予め定めら
れた第１の値を大きくするように定めて、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値を取らな
いように制御することによって、標準パターンがスポッ
ティングされないという可能性を低く押さえることによ
って、正しい音声認識が可能になる。

【００１０】

【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図１は本発明にかかる音声認識装置の概略ブロ
ック図である。図１を参照すると、この音声認識装置
は、音声を入力するマイクロフォンや受話器などの音声
入力部１と、入力された音声信号を特徴ベクトルの時系
列の入力パターンへ変換する特徴抽出部２と、音声の標
準パターンを格納する標準パターン格納部６と、抽出結
果の入力パターンと標準パターンとを照合する照合部３
と、照合対象となった入力パターンと標準パターンとの
類似度を計算する類似度計算部４と、入力パターンと標
準パターンとの類似度の大きい対応位置を探索する照合
経路探索部５とを有している。

【００１１】特徴抽出部２は、音声認識に有用な様々な
パラメータが公表されているうち、例えばＬＰＣメルケ
プストラム等のような特徴量を用いて入力パターンを抽
出する。以下、入力パターンＸをＸ＝ｘ₁ｘ₂・・・ｘ_I
のように表すことにする。（ここで、Ｉは入力パターン
の総フレーム数である。）

【００１２】照合部３は、特徴抽出部２で抽出された入
力パターンの特徴ベクトルと標準パターン格納部６の標
準パターンの特徴ベクトルとの照合を行う。ここでＫと
いう言葉の標準パターンＹがＹ＝ｙ₁ｙ₂・・・ｙ_Jのよ
うなベクトル列で表現されているとする。（ここで、Ｊ
は標準パターンの総フレーム数である。）このとき入力パターンの第ｉ番目のフレームの特徴ベク
トルｘ_iと、標準パターンＹの第ｊ番目のフレームの特
徴ベクトルｙ_jとの距離をｄ（ｘ_i，ｙ_j）のように記
述することにする。距離の定義としては、市街地距離、
ユークリッド距離、マハラノビス距離等様々な方法が知
られており、いずれを用いてもよい。

【００１３】類似度計算部４は、入力パターンの第ｉ番
目のフレームの特徴ベクトルｘ_iと、標準パターンＹの
第ｊ番目のフレームの特徴ベクトルｙ_jとの類似度を次
のように定義する。

【００１４】

【数１】

【００１５】上記のように求められた類似度をもとにし
て、入力パターンＸ中から標準パターンＹをスポッティ
ングする方法を次に述べるが、この方法には様々な方法
が知られており、これに限ったものではない。

【００１６】照合経路探索部５は、次のような手順で探
索する。先ず、入力フレームがｉの時点で標準パターン
の第ｊ番目の特徴ベクトルまで照合を終えたときの累積
スコアを格納する配列Ｄ（ｉ，ｊ）とこの照合経路の開
始時点を格納する配列Ｂ（ｉ，ｊ）を用意する。初期時
点においては、次のように配列Ｄ（ｉ，ｊ）および配列
Ｂ（ｉ，ｊ）を決定する。

【００１７】

【数２】

【００１８】ここで、式（２）において、大きい値が
（ａ）の場合は、Ｂ（ｉ，１）＝Ｂ（ｉ−１，１）とし、大きい値が（ｂ）の場合には、Ｂ（ｉ，１）＝ｉとそれぞれ設定する。中間時点においては、次のように
配列Ｄ（ｉ，ｊ）および配列Ｂ（ｉ，ｊ）を決定する。

【００１９】

【数３】

【００２０】ここで、式（３）において、大きい値が
（ｃ）の場合は、Ｂ（ｉ，ｊ）＝Ｂ（ｉ−１，ｊ）とし、大きい値が（ｄ）の場合には、Ｂ（ｉ，ｊ）＝Ｂ（ｉ−１，ｊ−１）

【００２１】として計算すると、Ｄ（ｉ，Ｊ）が言葉Ｋ
に対するスコアであり、Ｋは入力音声区間のＢ（ｉ，
Ｊ）フレームからｉフレームまでに存在したという認識
結果を得る。尚、この認識結果にはｉの自由度がある
が、認識結果を１つに絞る際には、Ｄ（ｉ，Ｊ）を最も
大きくするｉを選択すればよい。

【００２２】次に、Ｓの値の設定方法について述べる。（１）Ｓの値をすべての標準パターンで共通に定める場
合Ｓの設定方法としては、予備的な実験を行い、発声内容
と同じ内容の標準パターンに対する max D(i,J) の値が
正になるように設定し、発声内容と異なる内容の標準パ
ターンに対する max D(i,J) の値が負になるように設定
すればよい。

【００２３】（２）Ｓの値を標準パターンの特徴ベクト
ル毎に定める場合この設定方法としては、ある標準パターンのある特徴ベ
クトルｙ_mに対するＳの値をＳ_mと記述することにする
と、Ｓ_mはｙ_mを作成した学習用のデータとｙ_mの距離
の平均ｄ＿ａｖｅ_mに正の定数ｄ₀を加算して設定すれ
ばよい。ここでｄ₀を決定する一例としては、Ｎを標準
パタ−ンの特徴ベクトルの個数として、式（４）を使っ
て実験的に決めることができる。

【００２４】

【数４】

【００２５】又、学習用の大部分（例えば９５％）がベ
クトルｙ_mに対する類似度が正になるようにＳ_mの値を
定めてもよい。

【００２６】（３）標準パターンの特徴ベクトルが予め
複数のクラスタに分割されており、このクラスタ毎にＳ
の値を定める場合クラスタ分割方法は、音素毎に分割したり、あるいは音
素のグループ（母音、無声摩擦音、鼻音、破裂音など）
に分割すればよい。ここで、あるクラスタＭに対するＳ
の値をＳ_Mと記述すると、クラスタＭに属する要素ｍに
対して、ｙ_mを作成した学習用のデータとｙ_mの距離の
平均値ｄ＿ａｖｅ_mを求め、これを平均したものに正の
定数ｄ₀（この値を決定するには上記と同様な方法が考
えられる。）を加算して設定すればよい。又、クラスタ
Ｍに属する特徴ベクトルｙ_mに対する学習データの大部
分（例えば９５％）がｙ_mとの類似度が正の値をとるよ
うにＳ_Mの値を設定してもよい。

【００２７】更に、発声内容が既知である入力パターン
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルｘ_iと標準
パターンの特徴ベクトルｙ_mとが対応ついたとする。こ
こで、この対応付いた２つのベクトルの類似度ｒ
（ｘ_i，ｙ_m）の値が予め設定されている閾値ＴＨより小
さい場合には、次のような２つの場合によってｙ_mに対
するＳの値を大きく設定する。（１）ｙ_mがフレームｍに属する場合Ｓ_m←Ｓ_m＋α（ＴＨ−ｒ（ｘ_i，ｙ_m））（２）ｙ_mがクラスタＭに属する場合Ｓ_M←Ｓ_M＋α（ＴＨ−ｒ（ｘ_i，ｙ_m））

【００２８】ここで、学習係数αは、例えば０．１程度
に設定する。又、ＴＨを決定する一例としては、Ｎを標
準パタ−ンの特徴ベクトルの個数として、式（５）を使
って実験的に決めることができる。このとき、ＴＨを小
さめに決定すると正しい発声に対しても、”認識結果なし”のエラ−が増
えるが、誤認識は減る。又、ＴＨを大きめに決定すると ”認識結果なし”のエラ−は減るが、誤認識は増える。このような性質を認識した上で、音声認識装置が使われ
る応用例によって適宜決定する必要がある。

【００２９】

【数５】

【００３０】図２は、入力された音声が「新横浜」であ
った場合の部分パターンマッチングの類似度を表した例
である。図２（ａ）は、入力音声を表す図である。図２
（ｂ）は、入力音声と標準パターン「新横浜」との距離
を表す図である。図２（ｃ）は、入力音声と標準パター
ン「横浜」との距離を表す図である。この図からもわか
るように、図２のＡの部分である「新」の部分に対する
類似度が正の値であるから、その分だけ「新横浜」の標
準パターンに対する照合スコアの方が大きくなるために
「新横浜」の方が正しく認識される。

【００３１】図３は、入力された音声が「横浜」であっ
た場合の部分パターンマッチングの類似度を表した例で
ある。図２（ａ）は、入力音声を表す図である。図２
（ｂ）は、入力音声と標準パターン「新横浜」との距離
を表す図である。図２（ｃ）は、入力音声と標準パター
ン「横浜」との距離を表す図である。この例からわかる
ように、「新横浜」の標準パターンに対する照合では標
準パターンの「新」の部分が、非音声区間あるいは
「新」ではない別の言葉と照合されているため、この部
分の類似度が負の値（図３のＢの部分）となるので、
「新横浜」の標準パターンに対する照合スコアが小さく
なるために「横浜」の方がやはり正しく認識される。

【００３２】

【発明の効果】上述のように本発明によれば、１段階だ
けの照合で部分マッチングの問題を回避し、正しく言葉
を認識できるようになった。又、予め認識対象となる語
彙の情報を必要としないために、例えば特定話者方式の
音声認識装置のように語彙の変更を行う認識装置であっ
ても動作することができる。又、請求項５および請求項
６に対する効果としては、従来技術では、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値（例えば
負の数）をとると、この標準パターンがスポッティング
されない可能性が高くなるが、本発明では、このような
状態の場合に類似度を大きくするようにＳの値を大きく
設定し直すことで正しい音声認識が可能になる。

【図面の簡単な説明】

【図１】本発明による音声認識装置の概略ブロック図
である。

【図２】本発明を適用した一実施例である。

【図１】本発明を適用した他の実施例である。

【符号の説明】

１…音声入力部、２…特徴抽出部、３…照合部、４…類似度計算部、５…照合経路探索部、６…標準パターン格納部。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成６年４月１１日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００２７

【補正方法】変更

【補正内容】

【００２７】更に、発声内容が既知である入力パターン
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルｘ_ｉと標準
パターンの特徴ベクトルｙ_ｍとが対応ついたとする。こ
こで、この対応付いた２つのベクトルの類似度ｒ
（ｘ_ｉ，ｙ_ｍ）の値が予め設定されている閾値ＴＨより
小さい場合には、Ｓ_ｍ←Ｓ_ｍ＋α（ＴＨ−ｒ（ｘ_ｉ，ｙ_ｍ））によってｙ_ｍに対するＳの値を大きく設定する。同様に
して、標準パターンの特徴ベクトルをクラスタに分割し
たときには、入力パターンｙ_ｍの属するクラスタをＭと
したときには、次のような式によってＳの値を大きく設
定する。Ｓ_Ｍ←Ｓ_Ｍ＋α（ＴＨ−ｒ（ｘ_ｉ，ｙ_ｍ））

【手続補正書】

【提出日】平成６年４月１１日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【図１】本発明による音声認識装置の概略ブロック図で
ある。

【図２】本発明を適用した一実施例である。

【図３】本発明を適用した他の実施例である。

【符号の説明】１…音声入力部、２…特徴抽出部、３…照合部、４…類似度計算部、５…照合経路探索部、６…標準パターン格納部。

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力部と、該音声入
力部より入力された音声を特徴ベクトルの時系列である
入力パターンに変換する特徴部抽出部と、該特徴部抽出
部から取り出された入力パターンの特徴ベクトルと標準
パターンの特徴ベクトルとの距離を計算する照合部を有
し、予め与えられた第１の値と該照合部で計算された距
離との差を入力パターンと標準パターンとの類似度と
し、認識対象となる言葉に対する標準パターンの特徴ベ
クトルの系列に対して前記類似度を計算して累積したも
のを前記認識対象の言葉の類似度とすることを特徴とす
る音声認識方式。
【請求項２】前記予め与えられた第１の値はすべての
標準パターンの特徴ベクトルで共通の値とすることを特
徴とする請求項１記載の音声認識方式。
【請求項３】前記予め与えられた第１の値は標準パタ
ーンの特徴ベクトルごとに定めることを特徴とする請求
項１記載の音声認識方式。
【請求項４】標準パターンの特徴ベクトルを予め複数
のクラスタに分割し、前記予め与えられた第１の値を該
クラスタごとに定めるようにしたことを特徴とする請求
項１記載の音声認識方式。
【請求項５】音声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルとの対応
付けを行い、該対応付けられた２つの特徴ベクトルの距
離が予め定められた第２の値より大きい場合に、該標準
パターンの特徴ベクトルごとに予め定められた第１の値
を大きくすることを特徴とする請求項３記載の音声認識
方式。
【請求項６】発声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルの対応付
けを行い、該対応付けられた２つの特徴ベクトルの距離
が予め定められた第２の値より大きい場合に、該標準パ
ターンの属するクラスタごとに予め定められた第１の値
を大きくすることを特徴とする請求項４記載の音声認識
方式。