JPH0713590A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH0713590A JPH0713590A JP15757393A JP15757393A JPH0713590A JP H0713590 A JPH0713590 A JP H0713590A JP 15757393 A JP15757393 A JP 15757393A JP 15757393 A JP15757393 A JP 15757393A JP H0713590 A JPH0713590 A JP H0713590A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- standard pattern
- pattern
- matching
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】 (修正有)
【目的】 1段階の照合のみでしかも認識対象語彙を変
更しても部分マッチングの問題をも回避できる照合方法
を提供する。 【構成】 標準パターンの特徴ベクトルごとに定める
か、標準パターンの特徴ベクトルを予め複数のクラスタ
に分割し、そのクラスタごとに定めて、1段階だけの照
合で部分マッチングの問題を回避し、正しく言葉を認識
できる。予め認識対象となる語彙の情報が不必要のた
め、特定話者方式の音声認識装置のように語彙の変更を
行う認識装置であっても動作することができる。既知入
力パターンに対して照合を行った後、照合経路に基づき
入力パターンと標準パターンの特徴ベクトルとの対応付
けを行い、この2つの特徴ベクトルの距離が予め定めら
れた第2の値より大きい場合に、標準パターンごとに予
め定められた第1の値を大きくするか、標準パターンの
属するクラスタごとに予め定められた第1の値を大きく
するように定め、正しい音声認識が可能になる。
更しても部分マッチングの問題をも回避できる照合方法
を提供する。 【構成】 標準パターンの特徴ベクトルごとに定める
か、標準パターンの特徴ベクトルを予め複数のクラスタ
に分割し、そのクラスタごとに定めて、1段階だけの照
合で部分マッチングの問題を回避し、正しく言葉を認識
できる。予め認識対象となる語彙の情報が不必要のた
め、特定話者方式の音声認識装置のように語彙の変更を
行う認識装置であっても動作することができる。既知入
力パターンに対して照合を行った後、照合経路に基づき
入力パターンと標準パターンの特徴ベクトルとの対応付
けを行い、この2つの特徴ベクトルの距離が予め定めら
れた第2の値より大きい場合に、標準パターンごとに予
め定められた第1の値を大きくするか、標準パターンの
属するクラスタごとに予め定められた第1の値を大きく
するように定め、正しい音声認識が可能になる。
Description
【0001】
【産業上の利用分野】本発明は、発声された音声を認識
するための音声認識方式に関する。
するための音声認識方式に関する。
【0002】
【従来の技術】発声された音声の音声区間全体を隙間な
く(1字1句)認識するのではなく、音声をワードスポ
ッティングによって認識する方法は不用語の付加やポー
ズなどの問題を避けることができ、音声対話システムや
音声理解システムに向いていることが知られている。
く(1字1句)認識するのではなく、音声をワードスポ
ッティングによって認識する方法は不用語の付加やポー
ズなどの問題を避けることができ、音声対話システムや
音声理解システムに向いていることが知られている。
【0003】又、離散発声された単語音声を認識する場
合でも、パワーなどの情報によって音声区間を切り出し
てから認識するのではなく、無音部も含んだパターンか
らスポッティングの手法を用いて認識するほうが受音の
際の騒音や舌打ち音などの影響を受けずにすむという利
点がある。
合でも、パワーなどの情報によって音声区間を切り出し
てから認識するのではなく、無音部も含んだパターンか
らスポッティングの手法を用いて認識するほうが受音の
際の騒音や舌打ち音などの影響を受けずにすむという利
点がある。
【0004】
【発明が解決しようとする課題】しかしながら、スポッ
ティングには部分マッチングという問題がある。例え
ば、認識対象となる言葉に「新横浜」と「横浜」という
言葉が含まれていた場合、話者が「新横浜」と発声した
とき、この音声中には「横浜」とれているために、「横
浜」も「新横浜」も高いスコア(小さな距離)で認識さ
れてしまい、この言葉のうちのどちらであるか識別でき
ないという問題点があった。この部分マッチングは数字
を認識する際には、特に大きな問題となる。例えば、
「31」という言葉には、「30」、「3」、「1
0」、「11」、「1」という部分マッチングされる言
葉が存在する。
ティングには部分マッチングという問題がある。例え
ば、認識対象となる言葉に「新横浜」と「横浜」という
言葉が含まれていた場合、話者が「新横浜」と発声した
とき、この音声中には「横浜」とれているために、「横
浜」も「新横浜」も高いスコア(小さな距離)で認識さ
れてしまい、この言葉のうちのどちらであるか識別でき
ないという問題点があった。この部分マッチングは数字
を認識する際には、特に大きな問題となる。例えば、
「31」という言葉には、「30」、「3」、「1
0」、「11」、「1」という部分マッチングされる言
葉が存在する。
【0005】但し、この部分マッチングには非対称性が
ある。つまり、長い言葉(上記例では「新横浜」)を短
い言葉(「横浜」)に誤認識することはあるが、その逆
はあまり多くない。例えば、特開平4−230797号
における方法ではこの非対称性を利用している。つま
り、入力「新横浜」に対しては「横浜」の類似度は高い
が、入力「横浜」に対して「新横浜」の類似度は高くな
いという類似度表を予め統計的に作成しておき、最初に
通常の照合を行い、次にここで得た全単語への類似度と
上記の類似度表との比較を行って、最も類似傾向が似て
いる(距離の小さい)単語を認識結果とするものであ
る。
ある。つまり、長い言葉(上記例では「新横浜」)を短
い言葉(「横浜」)に誤認識することはあるが、その逆
はあまり多くない。例えば、特開平4−230797号
における方法ではこの非対称性を利用している。つま
り、入力「新横浜」に対しては「横浜」の類似度は高い
が、入力「横浜」に対して「新横浜」の類似度は高くな
いという類似度表を予め統計的に作成しておき、最初に
通常の照合を行い、次にここで得た全単語への類似度と
上記の類似度表との比較を行って、最も類似傾向が似て
いる(距離の小さい)単語を認識結果とするものであ
る。
【0006】しかし、従来技術では認識対象となる全単
語同士の類似表を予め作成しておく必要があることか
ら、認識対象語彙が固定しているアプリケーションにの
み有効である。例えば、特定話者方式の認識装置のよう
に認識対象の言葉を自由に変更できる認識装置では部分
マッチングの問題を解決できないという欠点があった。
又、照合を2段階に行っているために処理が複雑である
という欠点があった。
語同士の類似表を予め作成しておく必要があることか
ら、認識対象語彙が固定しているアプリケーションにの
み有効である。例えば、特定話者方式の認識装置のよう
に認識対象の言葉を自由に変更できる認識装置では部分
マッチングの問題を解決できないという欠点があった。
又、照合を2段階に行っているために処理が複雑である
という欠点があった。
【0007】本発明は、1段階の照合のみでしかも認識
対象語彙を変更しても部分マッチングの問題をも回避で
きる照合方法を提供することを目的とする。
対象語彙を変更しても部分マッチングの問題をも回避で
きる照合方法を提供することを目的とする。
【0008】
【課題を解決するための手段】かかる課題を解決するた
めの本発明の技術的解決手段は、入力された音声を特徴
ベクトルの時系列である入力パターンに変換し、予め与
えられた第1の値から入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルとの距離を引いたものを類似
度と定め、標準パターンの特徴ベクトルの系列に対して
類似度を累積したものを入力音声との類似度とみなし、
入力音声を認識するようにしている。ここで、予め与え
る第1の値としては、標準パターンの特徴ベクトルごと
に定めるか、又は、標準パターンの特徴ベクトルを予め
複数のクラスタに分割し、そのクラスタごとに定めるよ
うにする。更に、音声内容が既知である入力パターンに
対して照合を行った後、照合経路に基づいて入力パター
ンの特徴ベクトルと標準パターンの特徴ベクトルとの対
応付けを行い、この対応付けられた2つの特徴ベクトル
の距離が予め定められた第2の値より大きい場合に、標
準パターンごとに予め定められた第1の値を大きくする
か、又は、標準パターンの属するクラスタごとに予め定
められた第1の値を大きくするように定める。
めの本発明の技術的解決手段は、入力された音声を特徴
ベクトルの時系列である入力パターンに変換し、予め与
えられた第1の値から入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルとの距離を引いたものを類似
度と定め、標準パターンの特徴ベクトルの系列に対して
類似度を累積したものを入力音声との類似度とみなし、
入力音声を認識するようにしている。ここで、予め与え
る第1の値としては、標準パターンの特徴ベクトルごと
に定めるか、又は、標準パターンの特徴ベクトルを予め
複数のクラスタに分割し、そのクラスタごとに定めるよ
うにする。更に、音声内容が既知である入力パターンに
対して照合を行った後、照合経路に基づいて入力パター
ンの特徴ベクトルと標準パターンの特徴ベクトルとの対
応付けを行い、この対応付けられた2つの特徴ベクトル
の距離が予め定められた第2の値より大きい場合に、標
準パターンごとに予め定められた第1の値を大きくする
か、又は、標準パターンの属するクラスタごとに予め定
められた第1の値を大きくするように定める。
【0009】
【作用】本発明によれば、先ず、類似度を予め与えられ
た第1の値から入力パターンの特徴ベクトルと標準パタ
ーンの特徴ベクトルとの距離を引いたものと定義してお
く。ここで、予め与える第1の値としては、標準パター
ンの特徴ベクトルごとに定めるか、又は、標準パターン
の特徴ベクトルを予め複数のクラスタに分割し、そのク
ラスタごとに定めるようにする。その上で、入力された
音声を特徴ベクトルの時系列である入力パターンに変換
し、標準パターンの特徴ベクトルの系列に対して類似度
を累積したものを入力音声との類似度と見なして、入力
音声を認識することにより、1段階だけの照合で部分マ
ッチングの問題を回避し、正しく言葉を認識できるよう
になる。又、予め認識対象となる語彙の情報を必要とし
ないために、例えば特定話者方式の音声認識装置のよう
に語彙の変更を行う認識装置であっても動作することが
できる。更に、音声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルとの対応
付けを行い、この対応付けられた2つの特徴ベクトルの
距離が予め定められた第2の値より大きい場合に、標準
パターンごとに予め定められた第1の値を大きくする、
又は、標準パターンの属するクラスタごとに予め定めら
れた第1の値を大きくするように定めて、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値を取らな
いように制御することによって、標準パターンがスポッ
ティングされないという可能性を低く押さえることによ
って、正しい音声認識が可能になる。
た第1の値から入力パターンの特徴ベクトルと標準パタ
ーンの特徴ベクトルとの距離を引いたものと定義してお
く。ここで、予め与える第1の値としては、標準パター
ンの特徴ベクトルごとに定めるか、又は、標準パターン
の特徴ベクトルを予め複数のクラスタに分割し、そのク
ラスタごとに定めるようにする。その上で、入力された
音声を特徴ベクトルの時系列である入力パターンに変換
し、標準パターンの特徴ベクトルの系列に対して類似度
を累積したものを入力音声との類似度と見なして、入力
音声を認識することにより、1段階だけの照合で部分マ
ッチングの問題を回避し、正しく言葉を認識できるよう
になる。又、予め認識対象となる語彙の情報を必要とし
ないために、例えば特定話者方式の音声認識装置のよう
に語彙の変更を行う認識装置であっても動作することが
できる。更に、音声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルとの対応
付けを行い、この対応付けられた2つの特徴ベクトルの
距離が予め定められた第2の値より大きい場合に、標準
パターンごとに予め定められた第1の値を大きくする、
又は、標準パターンの属するクラスタごとに予め定めら
れた第1の値を大きくするように定めて、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値を取らな
いように制御することによって、標準パターンがスポッ
ティングされないという可能性を低く押さえることによ
って、正しい音声認識が可能になる。
【0010】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明にかかる音声認識装置の概略ブロ
ック図である。図1を参照すると、この音声認識装置
は、音声を入力するマイクロフォンや受話器などの音声
入力部1と、入力された音声信号を特徴ベクトルの時系
列の入力パターンへ変換する特徴抽出部2と、音声の標
準パターンを格納する標準パターン格納部6と、抽出結
果の入力パターンと標準パターンとを照合する照合部3
と、照合対象となった入力パターンと標準パターンとの
類似度を計算する類似度計算部4と、入力パターンと標
準パターンとの類似度の大きい対応位置を探索する照合
経路探索部5とを有している。
明する。図1は本発明にかかる音声認識装置の概略ブロ
ック図である。図1を参照すると、この音声認識装置
は、音声を入力するマイクロフォンや受話器などの音声
入力部1と、入力された音声信号を特徴ベクトルの時系
列の入力パターンへ変換する特徴抽出部2と、音声の標
準パターンを格納する標準パターン格納部6と、抽出結
果の入力パターンと標準パターンとを照合する照合部3
と、照合対象となった入力パターンと標準パターンとの
類似度を計算する類似度計算部4と、入力パターンと標
準パターンとの類似度の大きい対応位置を探索する照合
経路探索部5とを有している。
【0011】特徴抽出部2は、音声認識に有用な様々な
パラメータが公表されているうち、例えばLPCメルケ
プストラム等のような特徴量を用いて入力パターンを抽
出する。以下、入力パターンXをX=x1x2・・・xI
のように表すことにする。(ここで、Iは入力パターン
の総フレーム数である。)
パラメータが公表されているうち、例えばLPCメルケ
プストラム等のような特徴量を用いて入力パターンを抽
出する。以下、入力パターンXをX=x1x2・・・xI
のように表すことにする。(ここで、Iは入力パターン
の総フレーム数である。)
【0012】照合部3は、特徴抽出部2で抽出された入
力パターンの特徴ベクトルと標準パターン格納部6の標
準パターンの特徴ベクトルとの照合を行う。ここでKと
いう言葉の標準パターンYがY=y1y2・・・yJのよ
うなベクトル列で表現されているとする。(ここで、J
は標準パターンの総フレーム数である。) このとき入力パターンの第i番目のフレームの特徴ベク
トルxi と、標準パターンYの第j番目のフレームの特
徴ベクトルyj との距離をd(xi ,yj )のように記
述することにする。距離の定義としては、市街地距離、
ユークリッド距離、マハラノビス距離等様々な方法が知
られており、いずれを用いてもよい。
力パターンの特徴ベクトルと標準パターン格納部6の標
準パターンの特徴ベクトルとの照合を行う。ここでKと
いう言葉の標準パターンYがY=y1y2・・・yJのよ
うなベクトル列で表現されているとする。(ここで、J
は標準パターンの総フレーム数である。) このとき入力パターンの第i番目のフレームの特徴ベク
トルxi と、標準パターンYの第j番目のフレームの特
徴ベクトルyj との距離をd(xi ,yj )のように記
述することにする。距離の定義としては、市街地距離、
ユークリッド距離、マハラノビス距離等様々な方法が知
られており、いずれを用いてもよい。
【0013】類似度計算部4は、入力パターンの第i番
目のフレームの特徴ベクトルxiと、標準パターンYの
第j番目のフレームの特徴ベクトルyj との類似度を次
のように定義する。
目のフレームの特徴ベクトルxiと、標準パターンYの
第j番目のフレームの特徴ベクトルyj との類似度を次
のように定義する。
【0014】
【数1】
【0015】上記のように求められた類似度をもとにし
て、入力パターンX中から標準パターンYをスポッティ
ングする方法を次に述べるが、この方法には様々な方法
が知られており、これに限ったものではない。
て、入力パターンX中から標準パターンYをスポッティ
ングする方法を次に述べるが、この方法には様々な方法
が知られており、これに限ったものではない。
【0016】照合経路探索部5は、次のような手順で探
索する。先ず、入力フレームがiの時点で標準パターン
の第j番目の特徴ベクトルまで照合を終えたときの累積
スコアを格納する配列D(i,j)とこの照合経路の開
始時点を格納する配列B(i,j)を用意する。初期時
点においては、次のように配列D(i,j)および配列
B(i,j)を決定する。
索する。先ず、入力フレームがiの時点で標準パターン
の第j番目の特徴ベクトルまで照合を終えたときの累積
スコアを格納する配列D(i,j)とこの照合経路の開
始時点を格納する配列B(i,j)を用意する。初期時
点においては、次のように配列D(i,j)および配列
B(i,j)を決定する。
【0017】
【数2】
【0018】ここで、式(2)において、大きい値が
(a)の場合は、 B(i,1)=B(i−1,1) とし、大きい値が(b)の場合には、 B(i,1)=i とそれぞれ設定する。中間時点においては、次のように
配列D(i,j)および配列B(i,j)を決定する。
(a)の場合は、 B(i,1)=B(i−1,1) とし、大きい値が(b)の場合には、 B(i,1)=i とそれぞれ設定する。中間時点においては、次のように
配列D(i,j)および配列B(i,j)を決定する。
【0019】
【数3】
【0020】ここで、式(3)において、大きい値が
(c)の場合は、 B(i,j) = B(i−1,j) とし、大きい値が(d)の場合には、 B(i,j) = B(i−1,j−1)
(c)の場合は、 B(i,j) = B(i−1,j) とし、大きい値が(d)の場合には、 B(i,j) = B(i−1,j−1)
【0021】として計算すると、D(i,J)が言葉K
に対するスコアであり、Kは入力音声区間のB(i,
J)フレームからiフレームまでに存在したという認識
結果を得る。尚、この認識結果にはiの自由度がある
が、認識結果を1つに絞る際には、D(i,J)を最も
大きくするiを選択すればよい。
に対するスコアであり、Kは入力音声区間のB(i,
J)フレームからiフレームまでに存在したという認識
結果を得る。尚、この認識結果にはiの自由度がある
が、認識結果を1つに絞る際には、D(i,J)を最も
大きくするiを選択すればよい。
【0022】次に、Sの値の設定方法について述べる。 (1)Sの値をすべての標準パターンで共通に定める場
合 Sの設定方法としては、予備的な実験を行い、発声内容
と同じ内容の標準パターンに対する max D(i,J) の値が
正になるように設定し、発声内容と異なる内容の標準パ
ターンに対する max D(i,J) の値が負になるように設定
すればよい。
合 Sの設定方法としては、予備的な実験を行い、発声内容
と同じ内容の標準パターンに対する max D(i,J) の値が
正になるように設定し、発声内容と異なる内容の標準パ
ターンに対する max D(i,J) の値が負になるように設定
すればよい。
【0023】(2)Sの値を標準パターンの特徴ベクト
ル毎に定める場合 この設定方法としては、ある標準パターンのある特徴ベ
クトルym に対するSの値をSm と記述することにする
と、Sm はym を作成した学習用のデータとym の距離
の平均d_avem に正の定数d0 を加算して設定すれ
ばよい。ここでd0 を決定する一例としては、Nを標準
パタ−ンの特徴ベクトルの個数として、式(4)を使っ
て実験的に決めることができる。
ル毎に定める場合 この設定方法としては、ある標準パターンのある特徴ベ
クトルym に対するSの値をSm と記述することにする
と、Sm はym を作成した学習用のデータとym の距離
の平均d_avem に正の定数d0 を加算して設定すれ
ばよい。ここでd0 を決定する一例としては、Nを標準
パタ−ンの特徴ベクトルの個数として、式(4)を使っ
て実験的に決めることができる。
【0024】
【数4】
【0025】又、学習用の大部分(例えば95%)がベ
クトルym に対する類似度が正になるようにSm の値を
定めてもよい。
クトルym に対する類似度が正になるようにSm の値を
定めてもよい。
【0026】(3)標準パターンの特徴ベクトルが予め
複数のクラスタに分割されており、このクラスタ毎にS
の値を定める場合 クラスタ分割方法は、音素毎に分割したり、あるいは音
素のグループ(母音、無声摩擦音、鼻音、破裂音など)
に分割すればよい。ここで、あるクラスタMに対するS
の値をSM と記述すると、クラスタMに属する要素mに
対して、ym を作成した学習用のデータとym の距離の
平均値d_avem を求め、これを平均したものに正の
定数d0 (この値を決定するには上記と同様な方法が考
えられる。)を加算して設定すればよい。又、クラスタ
Mに属する特徴ベクトルym に対する学習データの大部
分(例えば95%)がym との類似度が正の値をとるよ
うにSM の値を設定してもよい。
複数のクラスタに分割されており、このクラスタ毎にS
の値を定める場合 クラスタ分割方法は、音素毎に分割したり、あるいは音
素のグループ(母音、無声摩擦音、鼻音、破裂音など)
に分割すればよい。ここで、あるクラスタMに対するS
の値をSM と記述すると、クラスタMに属する要素mに
対して、ym を作成した学習用のデータとym の距離の
平均値d_avem を求め、これを平均したものに正の
定数d0 (この値を決定するには上記と同様な方法が考
えられる。)を加算して設定すればよい。又、クラスタ
Mに属する特徴ベクトルym に対する学習データの大部
分(例えば95%)がym との類似度が正の値をとるよ
うにSM の値を設定してもよい。
【0027】更に、発声内容が既知である入力パターン
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルxi と標準
パターンの特徴ベクトルymとが対応ついたとする。こ
こで、この対応付いた2つのベクトルの類似度r
(xi,ym)の値が予め設定されている閾値THより小
さい場合には、次のような2つの場合によってym に対
するSの値を大きく設定する。 (1)ym がフレームmに属する場合 Sm ←Sm +α(TH−r(xi ,ym )) (2)ymがクラスタMに属する場合 SM ←SM +α(TH−r(xi ,ym ))
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルxi と標準
パターンの特徴ベクトルymとが対応ついたとする。こ
こで、この対応付いた2つのベクトルの類似度r
(xi,ym)の値が予め設定されている閾値THより小
さい場合には、次のような2つの場合によってym に対
するSの値を大きく設定する。 (1)ym がフレームmに属する場合 Sm ←Sm +α(TH−r(xi ,ym )) (2)ymがクラスタMに属する場合 SM ←SM +α(TH−r(xi ,ym ))
【0028】ここで、学習係数αは、例えば0.1程度
に設定する。又、THを決定する一例としては、Nを標
準パタ−ンの特徴ベクトルの個数として、式(5)を使
って実験的に決めることができる。このとき、THを小
さめに決定すると 正しい発声に対しても、”認識結果なし”のエラ−が増
えるが、誤認識は減る。 又、THを大きめに決定すると ”認識結果なし”のエラ−は減るが、誤認識は増える。 このような性質を認識した上で、音声認識装置が使われ
る応用例によって適宜決定する必要がある。
に設定する。又、THを決定する一例としては、Nを標
準パタ−ンの特徴ベクトルの個数として、式(5)を使
って実験的に決めることができる。このとき、THを小
さめに決定すると 正しい発声に対しても、”認識結果なし”のエラ−が増
えるが、誤認識は減る。 又、THを大きめに決定すると ”認識結果なし”のエラ−は減るが、誤認識は増える。 このような性質を認識した上で、音声認識装置が使われ
る応用例によって適宜決定する必要がある。
【0029】
【数5】
【0030】図2は、入力された音声が「新横浜」であ
った場合の部分パターンマッチングの類似度を表した例
である。図2(a)は、入力音声を表す図である。図2
(b)は、入力音声と標準パターン「新横浜」との距離
を表す図である。図2(c)は、入力音声と標準パター
ン「横浜」との距離を表す図である。この図からもわか
るように、図2のAの部分である「新」の部分に対する
類似度が正の値であるから、その分だけ「新横浜」の標
準パターンに対する照合スコアの方が大きくなるために
「新横浜」の方が正しく認識される。
った場合の部分パターンマッチングの類似度を表した例
である。図2(a)は、入力音声を表す図である。図2
(b)は、入力音声と標準パターン「新横浜」との距離
を表す図である。図2(c)は、入力音声と標準パター
ン「横浜」との距離を表す図である。この図からもわか
るように、図2のAの部分である「新」の部分に対する
類似度が正の値であるから、その分だけ「新横浜」の標
準パターンに対する照合スコアの方が大きくなるために
「新横浜」の方が正しく認識される。
【0031】図3は、入力された音声が「横浜」であっ
た場合の部分パターンマッチングの類似度を表した例で
ある。図2(a)は、入力音声を表す図である。図2
(b)は、入力音声と標準パターン「新横浜」との距離
を表す図である。図2(c)は、入力音声と標準パター
ン「横浜」との距離を表す図である。この例からわかる
ように、「新横浜」の標準パターンに対する照合では標
準パターンの「新」の部分が、非音声区間あるいは
「新」ではない別の言葉と照合されているため、この部
分の類似度が負の値(図3のBの部分)となるので、
「新横浜」の標準パターンに対する照合スコアが小さく
なるために「横浜」の方がやはり正しく認識される。
た場合の部分パターンマッチングの類似度を表した例で
ある。図2(a)は、入力音声を表す図である。図2
(b)は、入力音声と標準パターン「新横浜」との距離
を表す図である。図2(c)は、入力音声と標準パター
ン「横浜」との距離を表す図である。この例からわかる
ように、「新横浜」の標準パターンに対する照合では標
準パターンの「新」の部分が、非音声区間あるいは
「新」ではない別の言葉と照合されているため、この部
分の類似度が負の値(図3のBの部分)となるので、
「新横浜」の標準パターンに対する照合スコアが小さく
なるために「横浜」の方がやはり正しく認識される。
【0032】
【発明の効果】上述のように本発明によれば、1段階だ
けの照合で部分マッチングの問題を回避し、正しく言葉
を認識できるようになった。又、予め認識対象となる語
彙の情報を必要としないために、例えば特定話者方式の
音声認識装置のように語彙の変更を行う認識装置であっ
ても動作することができる。又、請求項5および請求項
6に対する効果としては、従来技術では、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値(例えば
負の数)をとると、この標準パターンがスポッティング
されない可能性が高くなるが、本発明では、このような
状態の場合に類似度を大きくするようにSの値を大きく
設定し直すことで正しい音声認識が可能になる。
けの照合で部分マッチングの問題を回避し、正しく言葉
を認識できるようになった。又、予め認識対象となる語
彙の情報を必要としないために、例えば特定話者方式の
音声認識装置のように語彙の変更を行う認識装置であっ
ても動作することができる。又、請求項5および請求項
6に対する効果としては、従来技術では、照合経路に基
づいて対応付けられた入力パターンの特徴ベクトルと標
準パターンの特徴ベクトルの類似度が小さい値(例えば
負の数)をとると、この標準パターンがスポッティング
されない可能性が高くなるが、本発明では、このような
状態の場合に類似度を大きくするようにSの値を大きく
設定し直すことで正しい音声認識が可能になる。
【図1】 本発明による音声認識装置の概略ブロック図
である。
である。
【図2】 本発明を適用した一実施例である。
【図1】 本発明を適用した他の実施例である。
1…音声入力部、 2…特徴抽出部、 3…照合部、 4…類似度計算部、 5…照合経路探索部、 6…標準パターン格納部。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成6年4月11日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0027
【補正方法】変更
【補正内容】
【0027】更に、発声内容が既知である入力パターン
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルxiと標準
パターンの特徴ベクトルymとが対応ついたとする。こ
こで、この対応付いた2つのベクトルの類似度r
(xi,ym)の値が予め設定されている閾値THより
小さい場合には、 Sm←Sm+α(TH−r(xi,ym)) によってymに対するSの値を大きく設定する。同様に
して、標準パターンの特徴ベクトルをクラスタに分割し
たときには、入力パターンymの属するクラスタをMと
したときには、次のような式によってSの値を大きく設
定する。 SM←SM+α(TH−r(xi,ym))
に対して、同じ内容の標準パターンのベクトル列との照
合を行った後、バックトラックを行う。ここでこの照合
経路に基づいて入力パターンの特徴ベクトルxiと標準
パターンの特徴ベクトルymとが対応ついたとする。こ
こで、この対応付いた2つのベクトルの類似度r
(xi,ym)の値が予め設定されている閾値THより
小さい場合には、 Sm←Sm+α(TH−r(xi,ym)) によってymに対するSの値を大きく設定する。同様に
して、標準パターンの特徴ベクトルをクラスタに分割し
たときには、入力パターンymの属するクラスタをMと
したときには、次のような式によってSの値を大きく設
定する。 SM←SM+α(TH−r(xi,ym))
【手続補正書】
【提出日】平成6年4月11日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】本発明による音声認識装置の概略ブロック図で
ある。
ある。
【図2】本発明を適用した一実施例である。
【図3】本発明を適用した他の実施例である。
【符号の説明】 1…音声入力部、 2…特徴抽出部、 3…照合部、 4…類似度計算部、 5…照合経路探索部、 6…標準パターン格納部。
Claims (6)
- 【請求項1】 音声を入力する音声入力部と、該音声入
力部より入力された音声を特徴ベクトルの時系列である
入力パターンに変換する特徴部抽出部と、該特徴部抽出
部から取り出された入力パターンの特徴ベクトルと標準
パターンの特徴ベクトルとの距離を計算する照合部を有
し、予め与えられた第1の値と該照合部で計算された距
離との差を入力パターンと標準パターンとの類似度と
し、認識対象となる言葉に対する標準パターンの特徴ベ
クトルの系列に対して前記類似度を計算して累積したも
のを前記認識対象の言葉の類似度とすることを特徴とす
る音声認識方式。 - 【請求項2】 前記予め与えられた第1の値はすべての
標準パターンの特徴ベクトルで共通の値とすることを特
徴とする請求項1記載の音声認識方式。 - 【請求項3】 前記予め与えられた第1の値は標準パタ
ーンの特徴ベクトルごとに定めることを特徴とする請求
項1記載の音声認識方式。 - 【請求項4】 標準パターンの特徴ベクトルを予め複数
のクラスタに分割し、前記予め与えられた第1の値を該
クラスタごとに定めるようにしたことを特徴とする請求
項1記載の音声認識方式。 - 【請求項5】 音声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルとの対応
付けを行い、該対応付けられた2つの特徴ベクトルの距
離が予め定められた第2の値より大きい場合に、該標準
パターンの特徴ベクトルごとに予め定められた第1の値
を大きくすることを特徴とする請求項3記載の音声認識
方式。 - 【請求項6】 発声内容が既知である入力パターンに対
して照合を行った後、照合経路に基づいて入力パターン
の特徴ベクトルと標準パターンの特徴ベクトルの対応付
けを行い、該対応付けられた2つの特徴ベクトルの距離
が予め定められた第2の値より大きい場合に、該標準パ
ターンの属するクラスタごとに予め定められた第1の値
を大きくすることを特徴とする請求項4記載の音声認識
方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15757393A JP3291073B2 (ja) | 1993-06-28 | 1993-06-28 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15757393A JP3291073B2 (ja) | 1993-06-28 | 1993-06-28 | 音声認識方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0713590A true JPH0713590A (ja) | 1995-01-17 |
| JP3291073B2 JP3291073B2 (ja) | 2002-06-10 |
Family
ID=15652648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15757393A Expired - Fee Related JP3291073B2 (ja) | 1993-06-28 | 1993-06-28 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3291073B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5757807A (en) * | 1994-09-27 | 1998-05-26 | Nec Corporation | Method of and apparatus for extracting or inserting a signal in a time division multiplex communication system |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3357752B2 (ja) | 1994-10-07 | 2002-12-16 | 株式会社リコー | パターンマッチング装置 |
-
1993
- 1993-06-28 JP JP15757393A patent/JP3291073B2/ja not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5757807A (en) * | 1994-09-27 | 1998-05-26 | Nec Corporation | Method of and apparatus for extracting or inserting a signal in a time division multiplex communication system |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3291073B2 (ja) | 2002-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11990127B2 (en) | User recognition for speech processing systems | |
| US20220189458A1 (en) | Speech based user recognition | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| US5754978A (en) | Speech recognition system | |
| US7299179B2 (en) | Three-stage individual word recognition | |
| Boite et al. | A new approach towards keyword spotting. | |
| JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
| JP3444108B2 (ja) | 音声認識装置 | |
| JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
| Rohlicek | Word spotting | |
| JP3291073B2 (ja) | 音声認識方式 | |
| KR100319237B1 (ko) | 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템 | |
| JP3289670B2 (ja) | 音声認識方法および音声認識装置 | |
| Hirose et al. | Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours | |
| JP3277522B2 (ja) | 音声認識方法 | |
| JP3110025B2 (ja) | 発声変形検出装置 | |
| KR20060062287A (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
| Mary et al. | Keyword spotting techniques | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| Winebarger et al. | The 2013 KIT Quaero speech-to-text system for French | |
| Montero-Asenjo et al. | On the use of high-level information in speaker and language recognition | |
| JPH0827640B2 (ja) | 音声認識装置 | |
| JPH04233599A (ja) | 音声認識方法及び装置 | |
| JPS60182499A (ja) | 音声認識装置 | |
| JPH0632006B2 (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090322 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100322 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |