JPH1091186A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH1091186A JPH1091186A JP9295111A JP29511197A JPH1091186A JP H1091186 A JPH1091186 A JP H1091186A JP 9295111 A JP9295111 A JP 9295111A JP 29511197 A JP29511197 A JP 29511197A JP H1091186 A JPH1091186 A JP H1091186A
- Authority
- JP
- Japan
- Prior art keywords
- partial
- distance
- pattern
- word
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 音声認識装置において、単純な計算法で高い
認識率が得られ、周囲騒音が混入した場合においても高
い認識率を得ることを目的とする。 【解決手段】 本発明は複数のフレームで形成される入
力ベクトルと、認識対象単語の部分標準パターンとの部
分距離を事後確率に基づく統計的距離尺度で求め、入力
フレームをシフトしながら、音声全体にわたって部分距
離を累積し、累積距離を最小とする単語を認識結果とす
る方法である。部分標準パターンは、多数の話者が発声
した音声の時間長を揃え、部分区間に分割して、部分区
間毎に作成する。また、音声のみならず、周囲のノイズ
も含めて入力信号と考えれば、入力信号の中から音声の
部分のみをスポッティングして認識することができる。
認識率が得られ、周囲騒音が混入した場合においても高
い認識率を得ることを目的とする。 【解決手段】 本発明は複数のフレームで形成される入
力ベクトルと、認識対象単語の部分標準パターンとの部
分距離を事後確率に基づく統計的距離尺度で求め、入力
フレームをシフトしながら、音声全体にわたって部分距
離を累積し、累積距離を最小とする単語を認識結果とす
る方法である。部分標準パターンは、多数の話者が発声
した音声の時間長を揃え、部分区間に分割して、部分区
間毎に作成する。また、音声のみならず、周囲のノイズ
も含めて入力信号と考えれば、入力信号の中から音声の
部分のみをスポッティングして認識することができる。
Description
【0001】
【発明の属する技術分野】本発明は人間の声を機械に認
識させる音声認識方法に関するものである。
識させる音声認識方法に関するものである。
【0002】
【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した2つの特許
(特開昭61-188599号公報、特開昭62-111293号公報)を
従来例として説明する。特開昭61-188599号公報を第1
の従来例、特開昭62-111293号公報を第2の従来例とす
る。
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した2つの特許
(特開昭61-188599号公報、特開昭62-111293号公報)を
従来例として説明する。特開昭61-188599号公報を第1
の従来例、特開昭62-111293号公報を第2の従来例とす
る。
【0003】第1の従来例の方法は入力音声の始端、終
端を求めて音声区間を決定し、音声区間を一定時間長に
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。
端を求めて音声区間を決定し、音声区間を一定時間長に
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。
【0004】単語標準パターンは、認識対象単語を多く
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=1
6)に伸縮し、その後、単語ごとに音声サンプル間の統
計量(平均値ベクトルと共分散行列)を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定(Iフレーム)であ
り、原則として1単語に対し1標準パターンを用意して
いる。
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=1
6)に伸縮し、その後、単語ごとに音声サンプル間の統
計量(平均値ベクトルと共分散行列)を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定(Iフレーム)であ
り、原則として1単語に対し1標準パターンを用意して
いる。
【0005】第1の従来例では、パターンマッチングの
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
【0006】
【発明が解決しようとする課題】従来例の方法は、小型
化が可能な実用的な方法であり、特に第2の従来例は、
騒音にも強いことから実用として使われ始めている。
化が可能な実用的な方法であり、特に第2の従来例は、
騒音にも強いことから実用として使われ始めている。
【0007】しかし、従来技術の課題は、十分な単語認
識率が得られないことである。このため、語彙の数が少
ない用途にならば使うことが出来るが、語彙の数を増や
すと認識率が低下して実用にならなくなってしまう。従
って、従来技術の方法では認識装置の用途が限定されて
しまうという課題があった。
識率が得られないことである。このため、語彙の数が少
ない用途にならば使うことが出来るが、語彙の数を増や
すと認識率が低下して実用にならなくなってしまう。従
って、従来技術の方法では認識装置の用途が限定されて
しまうという課題があった。
【0008】本発明は上記従来の課題を解決するもの
で、語彙数の増加や騒音に対して頑強な認識率の高い音
声認識方法を提供することを目的とするものである。
で、語彙数の増加や騒音に対して頑強な認識率の高い音
声認識方法を提供することを目的とするものである。
【0009】
【課題を解決するための手段】この課題を解決するため
に本発明は、多数の人が発声した音声データを用いて、
認識対象単語を隣接するフレームを共有する部分区間に
分割し、その部分区間を表現する部分(標準)パターン
を連接した認識対象単語の標準パターンを、全ての認識
対象単語に対して予め生成する工程と、入力音声を一定
時間長(フレーム)ごとに分析して特徴パラメータを求
め、複数フレームの特徴パラメータで入力ベクトルを求
める工程と、前記入力ベクトルと前記各部分パターンと
の部分距離を事後確率に基づく統計的距離尺度で求める
工程と、フレームをシフトしながら生成した入力ベクト
ルと前記部分パターンとの部分距離を累積した累積距離
を求める工程と、全認識対象単語の標準パターンに対す
る累積距離を相互に比較して、最小累積距離の単語を認
識結果とする工程とを有するものである。
に本発明は、多数の人が発声した音声データを用いて、
認識対象単語を隣接するフレームを共有する部分区間に
分割し、その部分区間を表現する部分(標準)パターン
を連接した認識対象単語の標準パターンを、全ての認識
対象単語に対して予め生成する工程と、入力音声を一定
時間長(フレーム)ごとに分析して特徴パラメータを求
め、複数フレームの特徴パラメータで入力ベクトルを求
める工程と、前記入力ベクトルと前記各部分パターンと
の部分距離を事後確率に基づく統計的距離尺度で求める
工程と、フレームをシフトしながら生成した入力ベクト
ルと前記部分パターンとの部分距離を累積した累積距離
を求める工程と、全認識対象単語の標準パターンに対す
る累積距離を相互に比較して、最小累積距離の単語を認
識結果とする工程とを有するものである。
【0010】このことにより、語彙数の増加や騒音に対
して頑強で認識率の高い音声認識方法が得られる。
して頑強で認識率の高い音声認識方法が得られる。
【0011】
【発明の実施の形態】本発明の請求項1に記載の発明
は、認識対象単語の標準パターンを部分パターンの連接
で作成する工程と、入力音声からフレームをシフトしな
がら入力ベクトルを求める工程と、前記入力ベクトルと
前記部分パターンとから統計的距離尺度で求めた距離を
累積し累積距離を求める工程と、前記累積距離から最小
累積距離の単語を認識結果とする工程とを有するもの
で、フレームをシフトしながら入力音声から求めた入力
ベクトルと、単語音声の標準パターンを構成する部分
(標準)パターンとの部分距離を統計的距離尺度で求
め、その距離を累積し、最小累積距離の単語を認識結果
とするもので、不特定話者用の音声認識に対して認識率
が得られものである。
は、認識対象単語の標準パターンを部分パターンの連接
で作成する工程と、入力音声からフレームをシフトしな
がら入力ベクトルを求める工程と、前記入力ベクトルと
前記部分パターンとから統計的距離尺度で求めた距離を
累積し累積距離を求める工程と、前記累積距離から最小
累積距離の単語を認識結果とする工程とを有するもの
で、フレームをシフトしながら入力音声から求めた入力
ベクトルと、単語音声の標準パターンを構成する部分
(標準)パターンとの部分距離を統計的距離尺度で求
め、その距離を累積し、最小累積距離の単語を認識結果
とするもので、不特定話者用の音声認識に対して認識率
が得られものである。
【0012】請求項2の発明は、多数の人が発声した音
声データを用いて、認識対象単語を部分区間に分割し、
その部分区間を表現する部分(標準)パターンを連接し
て認識対象単語の標準パターンを、全ての認識対象単語
に対して予め生成する工程と、入力音声を一定時間長
(フレーム)ごとに分析して特徴パラメータを求め、複
数フレームの特徴パラメータで入力ベクトルを求める工
程と、前記入力ベクトルと前記標準パターンを構成する
各部分パターンとの部分距離を統計的距離尺度で求める
工程と、フレームをシフトしながら生成した入力ベクト
ルと前記部分パターンとの部分距離を累積した累積距離
を求める工程と、全認識対象単語の標準パターンに対す
る累積距離を相互に比較して最小累積距離の単語を認識
結果とする工程を有するもので、複数のフレームで形成
される入力ベクトルと、単語音声を部分区間に分割し、
その部分区間を表現する部分(標準)パターンとの部分
距離を事後確率に基づく統計的距離尺度で求め、フレー
ムをシフトしながら入力ベクトルを更新して各部分ベク
トルとの間の距離を累積し、累積距離を最小とする単語
を認識結果とするもので、不特定話者用の音声認識にお
いて、語彙数の増加や騒音に対して頑強で高い認識率が
得られ、また処理が単純なので、信号処理プロセッサ
(DSP)等を用いて、小型でリアルタイム動作が可能
な認識装置を実現するという作用を有する。
声データを用いて、認識対象単語を部分区間に分割し、
その部分区間を表現する部分(標準)パターンを連接し
て認識対象単語の標準パターンを、全ての認識対象単語
に対して予め生成する工程と、入力音声を一定時間長
(フレーム)ごとに分析して特徴パラメータを求め、複
数フレームの特徴パラメータで入力ベクトルを求める工
程と、前記入力ベクトルと前記標準パターンを構成する
各部分パターンとの部分距離を統計的距離尺度で求める
工程と、フレームをシフトしながら生成した入力ベクト
ルと前記部分パターンとの部分距離を累積した累積距離
を求める工程と、全認識対象単語の標準パターンに対す
る累積距離を相互に比較して最小累積距離の単語を認識
結果とする工程を有するもので、複数のフレームで形成
される入力ベクトルと、単語音声を部分区間に分割し、
その部分区間を表現する部分(標準)パターンとの部分
距離を事後確率に基づく統計的距離尺度で求め、フレー
ムをシフトしながら入力ベクトルを更新して各部分ベク
トルとの間の距離を累積し、累積距離を最小とする単語
を認識結果とするもので、不特定話者用の音声認識にお
いて、語彙数の増加や騒音に対して頑強で高い認識率が
得られ、また処理が単純なので、信号処理プロセッサ
(DSP)等を用いて、小型でリアルタイム動作が可能
な認識装置を実現するという作用を有する。
【0013】請求項3記載の発明は、請求項1または2
において、認識対象単語の部分区間は、互いに重なる区
間を含むように分割するもので、区間の境界の動き情報
を確実に得ることができ、より詳細な部分パターンが生
成できるという作用を有する。
において、認識対象単語の部分区間は、互いに重なる区
間を含むように分割するもので、区間の境界の動き情報
を確実に得ることができ、より詳細な部分パターンが生
成できるという作用を有する。
【0014】請求項4記載の発明は、多数の人が発声し
た音声データを用いて、認識対象単語を複数フレームか
らなる部分区間に分割し、その部分区間を表現する部分
(標準)パターンを連接した認識対象単語の標準パター
ンを、全ての認識対象単語に対して予め生成する工程
と、入力音声を一定時間長(フレーム)ごとに分析して
特徴パラメータを求め、複数フレームの特徴パラメータ
で入力ベクトルを求める工程と、前記入力ベクトルと前
記各部分パターンとの部分距離を事後確率に基づく統計
的距離尺度で求める工程と、フレームをシフトしながら
生成した入力ベクトルと前記部分パターンとの部分距離
を累積した累積距離を求める工程と、全認識対象単語の
標準パターンに対する累積距離を相互に比較して、最小
累積距離の単語を認識結果とする工程とを有するもの
で、複数フレームからなる部分パターンとし、入力ベク
トルと部分距離を求める際に事後確率に基づく統計的距
離尺度で求めることにより、入力の位置や部分パターン
の違いにもかかわらず部分距離を求めることができると
いう作用を有する。
た音声データを用いて、認識対象単語を複数フレームか
らなる部分区間に分割し、その部分区間を表現する部分
(標準)パターンを連接した認識対象単語の標準パター
ンを、全ての認識対象単語に対して予め生成する工程
と、入力音声を一定時間長(フレーム)ごとに分析して
特徴パラメータを求め、複数フレームの特徴パラメータ
で入力ベクトルを求める工程と、前記入力ベクトルと前
記各部分パターンとの部分距離を事後確率に基づく統計
的距離尺度で求める工程と、フレームをシフトしながら
生成した入力ベクトルと前記部分パターンとの部分距離
を累積した累積距離を求める工程と、全認識対象単語の
標準パターンに対する累積距離を相互に比較して、最小
累積距離の単語を認識結果とする工程とを有するもの
で、複数フレームからなる部分パターンとし、入力ベク
トルと部分距離を求める際に事後確率に基づく統計的距
離尺度で求めることにより、入力の位置や部分パターン
の違いにもかかわらず部分距離を求めることができると
いう作用を有する。
【0015】以下、本発明の実施の形態について、図面
を用いて説明する。実施の形態1は、入力音声の始端、
終端があらかじめ検出されている場合における実施例で
ある。この場合は音声区間でのみパターンマッチングを
行なえばよい。また、実施の形態2は、入力音声の始
端、終端が未知の場合の実施例である。この場合は入力
音声を含む十分広い区間内を対象として、入力信号と標
準パターンのマッチングを区間全域にわたって単位時間
ずつシフトしながら行ない、距離が最小となる部分区間
を切り出す方法を用いる。この種の方法を一般的にワー
ドスポッティングと呼んでいる。
を用いて説明する。実施の形態1は、入力音声の始端、
終端があらかじめ検出されている場合における実施例で
ある。この場合は音声区間でのみパターンマッチングを
行なえばよい。また、実施の形態2は、入力音声の始
端、終端が未知の場合の実施例である。この場合は入力
音声を含む十分広い区間内を対象として、入力信号と標
準パターンのマッチングを区間全域にわたって単位時間
ずつシフトしながら行ない、距離が最小となる部分区間
を切り出す方法を用いる。この種の方法を一般的にワー
ドスポッティングと呼んでいる。
【0016】(実施の形態1)図1に、本発明の実施の
形態1の音声認識装置の機能ブロック図を示し、説明す
る。
形態1の音声認識装置の機能ブロック図を示し、説明す
る。
【0017】図1において、音響分析部1は入力信号を
AD変換して取込み(サンプリング周波数10kHz)、一
定時間長(フレームと呼ぶ。本実施例では10ms)ごとに
分析する。本実施例では線形予測分析(LPC分析)を
用いる。特徴パラメータ抽出部2では分析結果に基づい
て、特徴パラメータを抽出する。本実施例では、LPC
ケプストラム係数(C0〜C10)および差分パワー値V0の
12個のパラメータを用いている。入力の1フレームあ
たりの特徴パラメータを
AD変換して取込み(サンプリング周波数10kHz)、一
定時間長(フレームと呼ぶ。本実施例では10ms)ごとに
分析する。本実施例では線形予測分析(LPC分析)を
用いる。特徴パラメータ抽出部2では分析結果に基づい
て、特徴パラメータを抽出する。本実施例では、LPC
ケプストラム係数(C0〜C10)および差分パワー値V0の
12個のパラメータを用いている。入力の1フレームあ
たりの特徴パラメータを
【0018】
【外1】
【0019】と表すことにすると、特徴パラメータは
(数1)のようになる。
(数1)のようになる。
【0020】
【数1】
【0021】ただし、jは入力のフレーム番号、pはケプ
ストラム係数の次数である(p=10)。フレーム同期信
号発生部10は、10msごとに同期信号を発生する部分
であり、その出力は全てのブロックに入る。即ち、シス
テム全体がフレーム同期信号に同期して作動する。
ストラム係数の次数である(p=10)。フレーム同期信
号発生部10は、10msごとに同期信号を発生する部分
であり、その出力は全てのブロックに入る。即ち、シス
テム全体がフレーム同期信号に同期して作動する。
【0022】音声区間検出部9は、入力信号音声の始
端、終端を検出する部分である。音声区間の検出法は音
声のパワーを用いる方法が簡単で一般的であるが、どの
ような方法でもよい。本実施例では音声の始端が検出さ
れた時点で認識が始まり、j=1になる。
端、終端を検出する部分である。音声区間の検出法は音
声のパワーを用いる方法が簡単で一般的であるが、どの
ような方法でもよい。本実施例では音声の始端が検出さ
れた時点で認識が始まり、j=1になる。
【0023】複数フレームバッファ3は、第jフレーム
の近隣のフレームの特徴パラメータを統合して、パター
ンマッチング(部分マッチング)に用いる入力ベクトル
を形成する部分である。すなわち、第jフレームに相当
する入力ベクトル
の近隣のフレームの特徴パラメータを統合して、パター
ンマッチング(部分マッチング)に用いる入力ベクトル
を形成する部分である。すなわち、第jフレームに相当
する入力ベクトル
【0024】
【外2】
【0025】は、次式で表わされる。
【0026】
【数2】
【0027】すなわち、上記入力ベクトルはmフレーム
おきにj−L1〜j+L2フレームの特徴パラメータを統合し
たベクトルである。L1=L2=3,m=1 とすると上記入力ベ
クトルの次元数は (P+2)×(L1+L2+1)=12×7=84と
なる。なお、(数2)ではフレーム間隔mは一定になっ
ているが、必ずしも一定である必要はない。mが可変の
場合は非線形にフレームを間引くことに相当する。
おきにj−L1〜j+L2フレームの特徴パラメータを統合し
たベクトルである。L1=L2=3,m=1 とすると上記入力ベ
クトルの次元数は (P+2)×(L1+L2+1)=12×7=84と
なる。なお、(数2)ではフレーム間隔mは一定になっ
ているが、必ずしも一定である必要はない。mが可変の
場合は非線形にフレームを間引くことに相当する。
【0028】部分標準パターン格納部5は、認識対象と
する各単語の標準パターンを、部分パターンの結合とし
て格納してある部分である。ここで、本実施例における
標準パターン作成法を、やや詳細に説明する。
する各単語の標準パターンを、部分パターンの結合とし
て格納してある部分である。ここで、本実施例における
標準パターン作成法を、やや詳細に説明する。
【0029】話をわかり易くするために、今、認識対象
単語を日本語の数字「イチ」「ニ」「サン」「ヨン」
「ゴ」「ロク」「ナナ」「ハチ」「キュウ」「ゼロ」の
10種とする。このような例を用いても説明の一般性に
はなんら影響はない。
単語を日本語の数字「イチ」「ニ」「サン」「ヨン」
「ゴ」「ロク」「ナナ」「ハチ」「キュウ」「ゼロ」の
10種とする。このような例を用いても説明の一般性に
はなんら影響はない。
【0030】たとえば、「サン」の標準パターンは次の
ような手順で作成する。 (1)多数の人(100名とする)が「サン」と発声し
たデータを用意する。
ような手順で作成する。 (1)多数の人(100名とする)が「サン」と発声し
たデータを用意する。
【0031】(2)100名の「サン」の持続時間分布
を調べ、100名の平均時間長I3を求める。
を調べ、100名の平均時間長I3を求める。
【0032】(3)時間長のI3サンプルを100名の
中から探し出す。複数のサンプルがあった場合はフレー
ムごとに複数サンプルの平均値を計算する。このように
求められた代表サンプルを(数3)で示す。
中から探し出す。複数のサンプルがあった場合はフレー
ムごとに複数サンプルの平均値を計算する。このように
求められた代表サンプルを(数3)で示す。
【0033】
【数3】
【0034】ここで
【0035】
【外3】
【0036】は1フレームあたりのパラメータベクトル
であり、(数1)と同様に11個のLPCケプストラム
係数と差分パワーで構成される。
であり、(数1)と同様に11個のLPCケプストラム
係数と差分パワーで構成される。
【0037】(4)100名分のサンプルの1つ1つと
代表サンプルとの間でパターンマッチングを行ない、代
表サンプルと100名分の各サンプルとの間の対応関係
(最も類似したフレーム同士の対応)を求める。距離計
算はユークリッド距離を用いる。代表サンプルのiフレ
ームと、あるサンプルのi’フレームとの距離di,i' は
(数4)で表わされる。
代表サンプルとの間でパターンマッチングを行ない、代
表サンプルと100名分の各サンプルとの間の対応関係
(最も類似したフレーム同士の対応)を求める。距離計
算はユークリッド距離を用いる。代表サンプルのiフレ
ームと、あるサンプルのi’フレームとの距離di,i' は
(数4)で表わされる。
【0038】
【数4】
【0039】ここで、tは転置行列であることを表す。
なお、フレーム間の対応関係はダイナミックプログラミ
ング(DP法)の手法を用いれば効率よく求めることが
できる。
なお、フレーム間の対応関係はダイナミックプログラミ
ング(DP法)の手法を用いれば効率よく求めることが
できる。
【0040】(5)代表サンプルの各フレーム(i=1〜
I3)に対応して、100名分のサンプルそれぞれから
(数2)の形の部分ベクトルを切出す。簡単化のためL1
=L2=3、m=1 とする。
I3)に対応して、100名分のサンプルそれぞれから
(数2)の形の部分ベクトルを切出す。簡単化のためL1
=L2=3、m=1 とする。
【0041】代表サンプルの第iフレームに相当する、
100名のうちの第n番目のサンプルの部分ベクトルは
以下のようになる。
100名のうちの第n番目のサンプルの部分ベクトルは
以下のようになる。
【0042】
【数5】
【0043】ここで、(i)は第n番目のサンプル中、代
表ベクトルの第iフレームに対応するフレームであるこ
とを示す。
表ベクトルの第iフレームに対応するフレームであるこ
とを示す。
【0044】
【外4】
【0045】は本実施例では84次元のベクトルである
(n=1〜100)。 (6)100名分の上記ベクトルの平均値
(n=1〜100)。 (6)100名分の上記ベクトルの平均値
【0046】
【外5】
【0047】(本例ではk=3;84次元)と共分散行
列
列
【0048】
【外6】
【0049】(84×84次元)を求める(i=1〜
I3)。平均値と共分散行列は標準フレーム長の数I3だ
け存在することになる(ただし、これらは必ずしも全フ
レームに対して作成する必要はない。間引いて作成して
もよい。)。
I3)。平均値と共分散行列は標準フレーム長の数I3だ
け存在することになる(ただし、これらは必ずしも全フ
レームに対して作成する必要はない。間引いて作成して
もよい。)。
【0050】上記(1)〜(6)と同様の手続きで「サ
ン」以外の単語に対しても84次元のベクトルと共分散
行列を求める。
ン」以外の単語に対しても84次元のベクトルと共分散
行列を求める。
【0051】そして、全ての単語に対する100名分す
べてのサンプルデータに対し、移動平均
べてのサンプルデータに対し、移動平均
【0052】
【外7】
【0053】(84次元)と移動共分散行列
【0054】
【外8】
【0055】(84×84次元)を求める。これらを周
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。
【0056】a.(数6)により共分散行列を共通化す
る。
る。
【0057】
【数6】
【0058】ここでKは認識対象単語の種類(K=10)、
Ikは単語k(k=1,2,…,K)の標準時間長を表す。また、
gは周囲パターンを混入する割合であり通常g=1 とす
る。
Ikは単語k(k=1,2,…,K)の標準時間長を表す。また、
gは周囲パターンを混入する割合であり通常g=1 とす
る。
【0059】b.各単語の部分パターン
【0060】
【外9】
【0061】及び
【0062】
【外10】
【0063】を作成する。
【0064】
【数7】
【0065】
【数8】
【0066】これらの式の導出は後述する。図2に標準
パターン作成法の概念図を示す。図2(a)は入力信号
が「サン」の場合の音声のパワーパターンを示す。図2
(b)は部分パターンの作成法を概念的に示したもので
ある。音声サンプルの始端と終端の間において、代表サ
ンプルとのフレーム対応を求めて、それによって音声サ
ンプルをI3に分割する。図では代表サンプルとの対応
フレームを(i)で示してある。そして、音声の始端
(i)=1から終端(i)=I3の各々について、(i)−
L1〜(i)+L2の区間の100名分のデータを用いて平
均値と共分散を計算し、部分パターン
パターン作成法の概念図を示す。図2(a)は入力信号
が「サン」の場合の音声のパワーパターンを示す。図2
(b)は部分パターンの作成法を概念的に示したもので
ある。音声サンプルの始端と終端の間において、代表サ
ンプルとのフレーム対応を求めて、それによって音声サ
ンプルをI3に分割する。図では代表サンプルとの対応
フレームを(i)で示してある。そして、音声の始端
(i)=1から終端(i)=I3の各々について、(i)−
L1〜(i)+L2の区間の100名分のデータを用いて平
均値と共分散を計算し、部分パターン
【0067】
【外11】
【0068】
【外12】
【0069】を求める。従って、単語kの標準パターン
は互にオーバーラップする区間を含むIk個の部分パタ
ーンを連接して(寄せ集めた)ものになる。図2(c)
は周囲パターンの作成方法を示す。周囲パターンは標準
パターン作成に使用した全データに対して、図のように
L1+L2+1フレームの部分区間を1フレームずつシフトさ
せながら移動平均値と移動共分散を求める。周囲パター
ン作成の範囲は音声区間内のみならず、前後のノイズ区
間も対象としてもよい。後述する第2の実施例では周囲
パターンにノイズ区間を含める必要がある。
は互にオーバーラップする区間を含むIk個の部分パタ
ーンを連接して(寄せ集めた)ものになる。図2(c)
は周囲パターンの作成方法を示す。周囲パターンは標準
パターン作成に使用した全データに対して、図のように
L1+L2+1フレームの部分区間を1フレームずつシフトさ
せながら移動平均値と移動共分散を求める。周囲パター
ン作成の範囲は音声区間内のみならず、前後のノイズ区
間も対象としてもよい。後述する第2の実施例では周囲
パターンにノイズ区間を含める必要がある。
【0070】次に部分距離の計算について述べる。上記
のようにしてあらかじめ作成されている各単語の部分標
準パターンと複数フレームバッファ3との間の距離(部
分距離)を部分距離計算部4において計算する。
のようにしてあらかじめ作成されている各単語の部分標
準パターンと複数フレームバッファ3との間の距離(部
分距離)を部分距離計算部4において計算する。
【0071】部分距離の計算は、(数2)で示す複数フ
レームの情報を含む入力ベクトルと各単語の部分パター
ンとの間で、統計的な距離尺度を用いて計算する。単語
全体としての距離は部分パターンとの距離(部分距離と
呼ぶ)を累積して求めることになるので、入力の位置や
部分パターンの違いにかかわらず、距離値が相互に比較
できる方法で部分距離を計算する必要がある。このため
には、事後確率に基づく距離尺度を用いる必要がある。
(数2)の形式の入力ベクトルを
レームの情報を含む入力ベクトルと各単語の部分パター
ンとの間で、統計的な距離尺度を用いて計算する。単語
全体としての距離は部分パターンとの距離(部分距離と
呼ぶ)を累積して求めることになるので、入力の位置や
部分パターンの違いにかかわらず、距離値が相互に比較
できる方法で部分距離を計算する必要がある。このため
には、事後確率に基づく距離尺度を用いる必要がある。
(数2)の形式の入力ベクトルを
【0072】
【外13】
【0073】とする(簡単のため当分の間i,jを除いて
記述する)。単語kの部分パターンωkに対する事後確率
記述する)。単語kの部分パターンωkに対する事後確率
【0074】
【外14】
【0075】はベイズ定理を用いて次のようになる。
【0076】
【数9】
【0077】右辺第1項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、
【0078】
【数10】
【0079】で表わされる。
【0080】
【外15】
【0081】は単語とその周辺情報も含めて、生起し得
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
【0082】
【外16】
【0083】が正規分布に従うと仮定し、平均値を
【0084】
【外17】
【0085】、共分散行列を
【0086】
【外18】
【0087】を用いると、(数11)のようになる。
【0088】
【数11】
【0089】(数10)、(数11)を(数9)に代入
し、対数をとって、定数項を省略し、さらに−2倍する
と、次式を得る。
し、対数をとって、定数項を省略し、さらに−2倍する
と、次式を得る。
【0090】
【数12】
【0091】この(数12)は、ベイズ距離を事後確率
化した式であり、識別能力は高いが計算量が多いという
欠点がある。この式を次のようにして線形判別式に展開
する。全ての単語に対する全ての部分パターンそして周
囲パターンも含めて共分散行列が等しいものと仮定す
る。このような仮定のもとに共分散行列を(数6)によ
って共通化し、(数12)の
化した式であり、識別能力は高いが計算量が多いという
欠点がある。この式を次のようにして線形判別式に展開
する。全ての単語に対する全ての部分パターンそして周
囲パターンも含めて共分散行列が等しいものと仮定す
る。このような仮定のもとに共分散行列を(数6)によ
って共通化し、(数12)の
【0092】
【外19】
【0093】、
【0094】
【外20】
【0095】のかわりに
【0096】
【外21】
【0097】を代入すると、(数12)の第1項、第2
項は次のように展開できる。
項は次のように展開できる。
【0098】
【数13】
【0099】
【数14】
【0100】(数13)、(数14)において
【0101】
【数15】
【0102】
【数16】
【0103】である。また、(数12)の第3項は0に
なる。従って、(数12)は次のように簡単な一次判別
式になる。
なる。従って、(数12)は次のように簡単な一次判別
式になる。
【0104】
【数17】
【0105】ここで、改めて、入力の第jフレーム成分
(数2)と単語kの第iフレーム成分の部分パターンとの
距離として(数17)を書き直すと、
(数2)と単語kの第iフレーム成分の部分パターンとの
距離として(数17)を書き直すと、
【0106】
【数18】
【0107】ここで
【0108】
【外22】
【0109】は(数7)で、
【0110】
【外23】
【0111】は(数8)で与えられる。Lk i,jは、単語
kの第i部分パターンと入力のjフレーム近隣のベクトル
の部分類似度である。
kの第i部分パターンと入力のjフレーム近隣のベクトル
の部分類似度である。
【0112】図1において距離累積部7は、各単語に対
する部分距離をi=1〜Ikの区間に対して累積し、単
語全体に対する距離を求める部分である。その場合、入
力音声長(Jフレーム)を各単語の標準時間長Ikに伸
縮しながら累積する必要がある。この計算はダイナミッ
クプログラミングの手法(DP法)を用いて効率よく計
算できる。
する部分距離をi=1〜Ikの区間に対して累積し、単
語全体に対する距離を求める部分である。その場合、入
力音声長(Jフレーム)を各単語の標準時間長Ikに伸
縮しながら累積する必要がある。この計算はダイナミッ
クプログラミングの手法(DP法)を用いて効率よく計
算できる。
【0113】いま、例えば「サン」の累積距離を求める
ことにすると、常にk=3なのでkを省略して計算式を
説明する。
ことにすると、常にk=3なのでkを省略して計算式を
説明する。
【0114】入力の第jフレーム部分と第i番目の部分
パターンとの部分距離Li,jをl(i,j)と表現し、
(i,j)フレームまでの累積距離をg(i,j)と表
現することにすると、
パターンとの部分距離Li,jをl(i,j)と表現し、
(i,j)フレームまでの累積距離をg(i,j)と表
現することにすると、
【0115】
【数19】
【0116】となる。経路判定部6は、(数19)にお
ける3つに経路のうち累積距離が最小になる経路を選択
する。
ける3つに経路のうち累積距離が最小になる経路を選択
する。
【0117】図3は、DP法によって累積距離を求める
方法を図示したものである。図のようにペン型非対称の
パスを用いているが、その他にもいろいろなパスが考え
られる。DP法の他に線形伸縮法を用いることもできる
し、また隠れマルコフモデルの手法(HMM法)を用い
てもよい。
方法を図示したものである。図のようにペン型非対称の
パスを用いているが、その他にもいろいろなパスが考え
られる。DP法の他に線形伸縮法を用いることもできる
し、また隠れマルコフモデルの手法(HMM法)を用い
てもよい。
【0118】このようにして、逐次、距離を累積してい
き、i=Ik,j=Jとなる時点でので累積距離Gk(I
k,J)を単語ごとに求める。
き、i=Ik,j=Jとなる時点でので累積距離Gk(I
k,J)を単語ごとに求める。
【0119】判定部8は、累積距離Gk(Ik,J)の最
小値を求めて、(数20)により認識結果
小値を求めて、(数20)により認識結果
【0120】
【外24】
【0121】を出力する。
【0122】
【数20】
【0123】(実施の形態2)次に、図4に本発明の実
施の形態2の音声認識装置の機能ブロック図を示し、説
明する。実施形態1では、音声区間検出の後にパータン
マッチングを行なったが、実施の形態2では音声区間検
出が不要である。入力信号の中から距離が最小の部分を
切出すことによって単語を認識する方法であり、「ワー
ドスポッティング法」の1つである。
施の形態2の音声認識装置の機能ブロック図を示し、説
明する。実施形態1では、音声区間検出の後にパータン
マッチングを行なったが、実施の形態2では音声区間検
出が不要である。入力信号の中から距離が最小の部分を
切出すことによって単語を認識する方法であり、「ワー
ドスポッティング法」の1つである。
【0124】この方法は「入力信号中に目的の音声が含
まれていれば、その音声の区間において正しい標準パタ
ーンとの距離(累積距離)が最小になる」という考え方
に基づく方法である。したがって、入力音声の前後のノ
イズ区間を含む十分長い入力区間において1フレームず
つシフトしながら、標準パターンとの照合を行なってい
く方法を採る。図4において、図1と同一番号のブロッ
クは同じ機能を持つ。図4が図1と異なる部分は、音声
区間検出部9を有しないことと、判定部8のかわりに距
離比較部12と一時記憶11が存在することである。以
下実施の形態1と異なる部分のみを説明する。
まれていれば、その音声の区間において正しい標準パタ
ーンとの距離(累積距離)が最小になる」という考え方
に基づく方法である。したがって、入力音声の前後のノ
イズ区間を含む十分長い入力区間において1フレームず
つシフトしながら、標準パターンとの照合を行なってい
く方法を採る。図4において、図1と同一番号のブロッ
クは同じ機能を持つ。図4が図1と異なる部分は、音声
区間検出部9を有しないことと、判定部8のかわりに距
離比較部12と一時記憶11が存在することである。以
下実施の形態1と異なる部分のみを説明する。
【0125】先ず、パターンマッチングが始る時点(j
=1の時点)が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点(j=Jの時点)が音声の終端
よりも後にある。パターンマチングの終了を検出する方
法はいろいろと考えられるが、本実施例では全ての標準
パターンとの距離が十分大きくなる時点をj=Jとして
いる。
=1の時点)が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点(j=Jの時点)が音声の終端
よりも後にある。パターンマチングの終了を検出する方
法はいろいろと考えられるが、本実施例では全ての標準
パターンとの距離が十分大きくなる時点をj=Jとして
いる。
【0126】標準パターンの作成法は、実施の形態1と
全く同じである。ただ、音声サンプルを用いて周囲パタ
ーンを作成する範囲は音声区間の前後の十分広い区間を
用いる必要がある。その理由は、(数9)の分母項
全く同じである。ただ、音声サンプルを用いて周囲パタ
ーンを作成する範囲は音声区間の前後の十分広い区間を
用いる必要がある。その理由は、(数9)の分母項
【0127】
【外25】
【0128】は、「パターンマッチングの対象となる全
てのパラメータに対する確率密度である」という定義に
よるものである。
てのパラメータに対する確率密度である」という定義に
よるものである。
【0129】実施の形態1との一番大きな構成上の違い
は、単語ごとの累積距離の大小比較をフレームごとに行
なう点である。距離比較部12は(数21)により、入
力の第jフレームにおける各単語の累積距離Gk(Ik、
j)を比較して、第jフレームにおいて累積距離が最小
となる単語
は、単語ごとの累積距離の大小比較をフレームごとに行
なう点である。距離比較部12は(数21)により、入
力の第jフレームにおける各単語の累積距離Gk(Ik、
j)を比較して、第jフレームにおいて累積距離が最小
となる単語
【0130】
【外26】
【0131】を求める。そして、そのときの最小値も同
時に求めておく。即ち、
時に求めておく。即ち、
【0132】
【数21】
【0133】
【数22】
【0134】一時記憶11にはj−1フレームまでに出
現した累積距離の最小値Gminと累積距離が最小となっ
た時の標準パターン名kが記憶されている。
現した累積距離の最小値Gminと累積距離が最小となっ
た時の標準パターン名kが記憶されている。
【0135】Gminと
【0136】
【外27】
【0137】を比較し、
【0138】
【外28】
【0139】ならば一時記憶11はそのままにして、次
のフレーム(j=j+1)へ進む。
のフレーム(j=j+1)へ進む。
【0140】
【外29】
【0141】ならば、
【0142】
【外30】
【0143】として次のフレームへ進む。このように、
一時記憶11には常にそのフレームまでの最小値と認識
結果が残っていることになる。パターンマッチング範囲
の終端(j=J)に達した時、一時記憶11に記憶され
ている
一時記憶11には常にそのフレームまでの最小値と認識
結果が残っていることになる。パターンマッチング範囲
の終端(j=J)に達した時、一時記憶11に記憶され
ている
【0144】
【外31】
【0145】が認識結果である。実施の形態2は、騒音
中の発声など、音声区間検出が難しい場合には有効な方
法である。
中の発声など、音声区間検出が難しい場合には有効な方
法である。
【0146】本発明の効果を確認するため、男女計15
0名が発声した10数字データを用いて認識実験を行な
った。このうち100名(男女各50名)のデータを用
いて標準パターンを作成し、残りの50名を評価した。
評価条件を(表1)に示し、
0名が発声した10数字データを用いて認識実験を行な
った。このうち100名(男女各50名)のデータを用
いて標準パターンを作成し、残りの50名を評価した。
評価条件を(表1)に示し、
【0147】
【表1】
【0148】評価結果を(表2)に示す。
【0149】
【表2】
【0150】このように本実施例における認識率向上は
非常に顕著である。
非常に顕著である。
【0151】
【発明の効果】本発明は、複数のフレームで形成される
入力ベクトルと、単語音声の部分(標準)パターンとの
部分距離を事後確率に基づく統計的距離尺度で求め、フ
レームをシフトしながら入力ベクトルを更新して各部分
ベクトルとの間の距離を累積していき、累積距離を最小
とする単語を認識結果とする方法に関するもので、語彙
数の増加や騒音に対して頑強で高い認識率が得られると
いう効果が得られる。
入力ベクトルと、単語音声の部分(標準)パターンとの
部分距離を事後確率に基づく統計的距離尺度で求め、フ
レームをシフトしながら入力ベクトルを更新して各部分
ベクトルとの間の距離を累積していき、累積距離を最小
とする単語を認識結果とする方法に関するもので、語彙
数の増加や騒音に対して頑強で高い認識率が得られると
いう効果が得られる。
【0152】さらに、計算の方法が単純であるので信号
処理プロセッサ(DSP)を用いた小型装置として容易
に実現できる。
処理プロセッサ(DSP)を用いた小型装置として容易
に実現できる。
【0153】このように本発明は実用上有効な方法であ
り、その効果は大きい。
り、その効果は大きい。
【図1】本発明の実施の形態1における音声認識装置の
機能ブロック図
機能ブロック図
【図2】本発明における標準パターン作成法における部
分パターン、周囲パターン作成法を説明する概念図
分パターン、周囲パターン作成法を説明する概念図
【図3】本発明における入力音声と部分パターンを連接
した標準パターンの照合をダイナミックプログラミング
法で計算する方法を示した模式図
した標準パターンの照合をダイナミックプログラミング
法で計算する方法を示した模式図
【図4】本発明の実施の形態2における音声認識装置の
機能ブロック図
機能ブロック図
1 音響分析部 2 特徴パラメータ抽出部 3 複数フレームバッファ 4 部分距離計算部 5 部分標準パターン格納部 6 経路判定部 7 距離累積部 8 判定部 9 音声区間検出部 10 フレーム同期信号発生部 11 一時記憶 12 距離比較部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 木村 達也 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内
Claims (4)
- 【請求項1】 認識対象単語の標準パターンを部分パタ
ーンの連接で作成する工程と、入力音声からフレームを
シフトしながら入力ベクトルを求める工程と、前記入力
ベクトルと前記部分パターンとから統計的距離尺度で求
めた距離を累積し累積距離を求める工程と、前記累積距
離から最小累積距離の単語を認識結果とする工程とを有
することを特徴とする音声認識方法。 - 【請求項2】 多数の人が発声した音声データを用い
て、認識対象単語を部分区間に分割し、その部分区間を
表現する部分(標準)パターンを連接した認識対象単語
の標準パターンを、全ての認識対象単語に対して予め生
成する工程と、入力音声を一定時間長(フレーム)ごと
に分析して特徴パラメータを求め、複数フレームの特徴
パラメータで入力ベクトルを求める工程と、前記入力ベ
クトルと前記各部分パターンとの部分距離を統計的距離
尺度で求める工程と、フレームをシフトしながら生成し
た入力ベクトルと前記部分パターンとの部分距離を累積
した累積距離を求める工程と、全認識対象単語の標準パ
ターンに対する累積距離を相互に比較して、最小累積距
離の単語を認識結果とする工程とを有することを特徴と
する音声認識方法。 - 【請求項3】 認識対象単語の部分パターンは、互いに
重なる区間(フレーム)を含むことを特徴とする請求項
1または2記載の音声認識方法。 - 【請求項4】 多数の人が発声した音声データを用い
て、認識対象単語を複数フレームからなる部分区間に分
割し、その部分区間を表現する部分(標準)パターンを
連接した認識対象単語の標準パターンを、全ての認識対
象単語に対して予め生成する工程と、入力音声を一定時
間長(フレーム)ごとに分析して特徴パラメータを求
め、複数フレームの特徴パラメータで入力ベクトルを求
める工程と、前記入力ベクトルと前記各部分パターンと
の部分距離を事後確率に基づく統計的距離尺度で求める
工程と、フレームをシフトしながら生成した入力ベクト
ルと前記部分パターンとの部分距離を累積した累積距離
を求める工程と、全認識対象単語の標準パターンに対す
る累積距離を相互に比較して、最小累積距離の単語を認
識結果とする工程とを有することを特徴とする音声認識
方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9295111A JPH1091186A (ja) | 1997-10-28 | 1997-10-28 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9295111A JPH1091186A (ja) | 1997-10-28 | 1997-10-28 | 音声認識方法 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3147438A Division JP2870224B2 (ja) | 1991-06-19 | 1991-06-19 | 音声認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1091186A true JPH1091186A (ja) | 1998-04-10 |
Family
ID=17816445
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9295111A Pending JPH1091186A (ja) | 1997-10-28 | 1997-10-28 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1091186A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109147798A (zh) * | 2018-07-27 | 2019-01-04 | 北京三快在线科技有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
| CN113822073A (zh) * | 2020-06-18 | 2021-12-21 | 上海流利说信息技术有限公司 | 一种文本错误检测方法、装置、电子设备及存储介质 |
-
1997
- 1997-10-28 JP JP9295111A patent/JPH1091186A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109147798A (zh) * | 2018-07-27 | 2019-01-04 | 北京三快在线科技有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
| CN113822073A (zh) * | 2020-06-18 | 2021-12-21 | 上海流利说信息技术有限公司 | 一种文本错误检测方法、装置、电子设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2870224B2 (ja) | 音声認識方法 | |
| Kamppari et al. | Word and phone level acoustic confidence scoring | |
| JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| US6922668B1 (en) | Speaker recognition | |
| KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
| JP3004023B2 (ja) | 音声認識装置 | |
| JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
| JP3428058B2 (ja) | 音声認識装置 | |
| JP3444108B2 (ja) | 音声認識装置 | |
| JPH1091186A (ja) | 音声認識方法 | |
| JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
| JP2502880B2 (ja) | 音声認識方法 | |
| JP2746803B2 (ja) | 音声認識方法 | |
| JP2870268B2 (ja) | 音声認識装置 | |
| US7454337B1 (en) | Method of modeling single data class from multi-class data | |
| JP3477751B2 (ja) | 連続単語音声認識装置 | |
| JPH06266386A (ja) | ワードスポッティング方法 | |
| JP2813209B2 (ja) | 大語彙音声認識装置 | |
| JP3039095B2 (ja) | 音声認識装置 | |
| TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
| JPH05150796A (ja) | 音声認識装置 | |
| JP3029654B2 (ja) | 音声認識装置 | |
| JPH0451037B2 (ja) | ||
| JPH0247758B2 (ja) | ||
| JPH05165489A (ja) | 音声認識方法 |