JPH05197397A - 音声認識方法及びその装置 - Google Patents

音声認識方法及びその装置

Info

Publication number
JPH05197397A
JPH05197397A JP744192A JP744192A JPH05197397A JP H05197397 A JPH05197397 A JP H05197397A JP 744192 A JP744192 A JP 744192A JP 744192 A JP744192 A JP 744192A JP H05197397 A JPH05197397 A JP H05197397A
Authority
JP
Japan
Prior art keywords
parameter
word
voice
voice recognition
referred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP744192A
Other languages
English (en)
Inventor
Tetsuo Kosaka
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP744192A priority Critical patent/JPH05197397A/ja
Publication of JPH05197397A publication Critical patent/JPH05197397A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 より精度の高い音声認識を実現する。 【構成】 マイク1から入力された音声を音声分析部2
で分析し、LPCケプストラム係数、デルタケプストラ
ム係数、パワー、デルタパワーなどのパラメータを求め
る。これらのパラメータに基づいて、CPU4は重み関
数ω(t)を求めた後、ROM6に格納されている全て
の単語の標準パターンのパラメータとDPマッチングを
行って、距離計算を実行する。マッチング終了後、距離
が最小となる単語を音声認識結果の最適な単語として選
択し、データ出力インタフェース7から出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識方法及びその装
置に関し、特に、音声の静的な特徴を表すパラメータと
動的な特徴を表すパラメータとを併用した音声認識を行
う音声認識方法及びその装置に関するものである。
【0002】
【従来の技術】近年音声認識のためのパラメータとして
従来からの静的な特徴を表すパラメータのみではなく、
動的特徴を表すパラメータを併用する手法が研究されて
いる。これは以下のような理由による。
【0003】従来のLPC(Linear Predictive Codin
g:線形予測分析)ケプストラムのようなある1時点の
みを表すパラメータでは、破裂音、鼻音のような動的な
特徴を持つ音素の特徴を捉えにくい。これに対して、パ
ラメータとして時間に関する変化量を表すものを用いれ
ば、破裂音、鼻音のような動的な特徴を持つ音素の特徴
をうまく表現できると考えられる。このデルタケプスト
ラムとはLPCケプストラム法などにより求められたケ
プストラムの、数フレームにわたる一次回帰係数を求め
パラメータとしたものである。
【0004】従来の音声認識装置の距離計算部では、デ
ルタケプストラムのみでは、逆に母音などの静的な特徴
を持つ音素が認識できなくなるため、LPCケプストラ
ムから求めた距離(LPCケプストラム距離)とデルタ
ケプストラムから求めた距離にある重みをかけて、足し
あわせることにより計算している。ここで、LPCのケ
プストラムから求めた距離をD(c)、デルタケプスト
ラムから求めた距離をD(dc)とし重み係数をωとす
ると、2者を併用した距離(Dsum )は以下のように表
現できる。
【0005】 Dsum =ωD(c)+(1−ω)D(dc) …(1) 但し(0≦ω≦1)
【0006】
【発明が解決しようとする課題】しかしながら上記従来
例では、音声区間全体に対して一定の割合で重みをかけ
ているため、定常的な特徴に重みを置きたい母音などの
区間にも、また動的な特徴に重みをおきたい破裂音など
の区間にも、一律の重みがかかるという欠点があった。
【0007】本発明は上記従来例に鑑みてなされたもの
で、音声の特徴を考慮して距離計算を行うことにより音
声認識率の向上を図った音声認識方法及びその装置を提
供することを目的としている。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声認識方法は、以下のような工程からな
る。即ち、入力音声をパラメータ化して参照すべき単語
情報との比較を行って音声認識を行う音声認識方法であ
って、前記入力音声の内、破裂音、鼻音などの動的な特
徴を捉えた第1パラメータと前記入力音声の内、母音な
どの静的な特徴を捉えた第2パラメータとを生成するパ
ラメータ生成工程と、前記入力音声の時間に関するスペ
クトル変動を考慮して、時間に関して変動する前記第1
パラメータ及び第2パラメータに関する重み係数を算出
する重み係数算出工程と、前記第1及び第2パラメータ
と前記重み係数とに基づいて、前記参照すべき単語情報
から最適な単語を選択して出力する単語選択工程とを有
することを特徴とする音声認識方法を備える。
【0009】また他の発明によれば、音声をパラメータ
化して参照すべき単語情報との比較を行って音声認識を
行う音声認識装置であって、前記音声を入力する入力手
段と、前記参照すべき単語情報を格納する記憶手段と、
前記入力手段によって入力された音声の内、破裂音、鼻
音などの動的な特徴を捉えた第1パラメータと前記音声
の内、母音などの静的な特徴を捉えた第2パラメータと
を生成するパラメータ生成手段と、前記音声の時間に関
するスペクトル変動を考慮して、時間に関して変動する
前記第1パラメータ及び第2パラメータに関する重み係
数を算出する重み係数算出手段と、前記第1及び第2パ
ラメータと前記重み係数とに基づいて前記音声に関し
て、前記記憶手段に格納された前記単語情報と比較する
ことにより最適な単語を選択して出力する単語選択手段
とを有することを特徴とする音声認識装置を備える。
【0010】
【作用】以上の構成により本発明は、入力した音声につ
いて、破裂音、鼻音などの動的な特徴を捉えた第1パラ
メータと母音などの静的な特徴を捉えた第2パラメータ
とを用いてパラメータ化し、音声の時間に関するスペク
トル変動を考慮して、時間に関して変動する第1パラメ
ータ及び第2パラメータに関する重み係数を算出して、
この重み係数と第1パラメータ及び第2パラメータとに
基づいて、音声認識を実行するよう動作する。
【0011】
【実施例】以下添付図面を参照して本発明の好適な実施
例を詳細に説明する。
【0012】[装置の概要説明(図1)]図1は本発明
の代表的な実施例である音声認識装置の構成を示すブロ
ック図である。図1において、マイク1に入力された音
声は音声分析部2によってLPCのケプストラム係数が
求められ、さらに、LPCのケプストラム係数に基づい
てデルタケプストラム係数を求める。同時に、パワー及
びその一次回帰係数であるデルタパワーも求める。この
ようにして求められたLPCのケプストラム係数、デル
タケプストラム係数、パワー、デルタパワーは入力バッ
ファ3を経てRAM8に格納される。
【0013】次に、RAM8に格納された上記の情報に
基づいて、CPU4はROM5に格納されている音声認
識プログラムを実行することにより単語の認識を行な
う。
【0014】本実施例は音素認識をベースとした単語認
識、或は、単語標準パターンを用いた単語認識などいず
れにも用いることができるが、本実施例では単語標準パ
ターンを用いた単語認識について説明する。
【0015】[重み係数ωの算出方法の説明]本実施例
では従来の技術が抱えていた問題を解決するために、音
声全体に対し一律に重みωをかけるのではなく、音声の
うち時間的なスペクトルの変動の少ない部分ではωの値
を大きくし、スペクトルの変動が大きい部分ではωの値
を小さくすることにより、認識率の向上を図っている。
つまり、ωを定数とするのではなく時間の関数ω(t)
として扱う。この場合、距離(Dsum )は以下のように
表現できる。
【0016】 Dsum =ω(t)D(c)+{1−ω(t)}D(dc)…(2) 次にωの値の設定法について、2通りの方法を述べる。
【0017】(1)デルタパワーを用いる方法 スペクトル変化が大きいところは一般にパワーも大きく
変化する。そこでパワーの一次回帰係数として求まるデ
ルタパワーを使ってωの値を決定する。ここでは標準パ
タンの時刻tにおけるデルタパワーをDP(t)、デル
タパワーとω間の変換関数をf(x)とすると、 つまり(2)式は以下のように表現できる。
【0018】 Dsum =f(DP(t))D(c)+{1−f(DP(t))}D(dc) …(4) (2)デルタケプストラムの二乗和を用いる方法 デルタケプストラムの大きさ自身で重みをつける。ここ
で、時刻tにおける標準パタンのデルタケプストラムの
n次の項をdcn (t)とし、またデルタケプストラム
の二乗和とω間の変換関数をf(x)とすると、 つまり(2)式は以下のように表現できる。
【0019】 Dsum =f{√(Σdck (t)2 )}・D(c) +〔1−f{√(Σdck (t)2 )}〕・D(dc)…(6) ここで、(1)〜(2)式ともD(c)及びD(dc)
の距離計算ではマハラノビス距離を使うものとする。距
離にパラメータの絶対値の大きさが関係するユークリッ
ド距離などを使用する場合は、一般にD(dc)の値が
小さく、そのため距離の値も小さく出力されるので、D
(dc)に係数をかけ、D(c)と距離の値のオーダが
合うように調整して使用する。
【0020】以上のようにLPCケプストラムとデルタ
ケプストラムの割合を時刻ごとに設定して重みωを設定
することにより、音声認識精度の向上が図られる。
【0021】[音声認識処理の説明(図2)]ここでは
図2に示すフローチャートを参照して本実施例の音声認
識装置が実行する音声認識処理について説明する。この
処理はCPU4がROM5に格納されている音声認識プ
ログラムを実行することによってなされる。
【0022】まず、ステップS1では(3)または
(5)式に従つて、入力音声(X)のデルタパワー或は
デルタケプストラムに基づいて、重み関数ω(t)の計
算を行なう。
【0023】次に、重み関数ω(t)及び音声分析部2
で得られた種々のパラメータを用いて、ステップS2〜
S5ではROM6に格納されている単語標準パターンに
基づいて単語認識をおこなう。この単語標準パターンは
DP(Dynamic Programming)マッチングのために、パラ
メータ化されているパターンとする。
【0024】ステップS2ではDPマッチングの初期設
定として以下の設定を行なう。
【0025】 g(1,1)=d(1,1) …(7) ここで、g(i,j)はDPマッチングによって得られ
た距離の累積距離を、d(i,j)は局所的な距離を表
す。
【0026】ステップS3では、入力音声(X)の短時
間スペクトルを表す特徴ベクトル(x1,2,…xi,…x
I :Iは入力音声の特徴ベクトルの数)と単語標準パタ
ーン(Y)の特徴ベクトル(y1,2,…yj,…yJ :J
は標準パターンの特徴ベクトルの数)について以下の式
を用いてDPマッチングを実行する。
【0027】 g(i,j) = min {g(i-1,j),g(i-1,j-1),g(i-1,j-2)}+d(i,j) j=1 (j<0) …(8) j=i−r,…,i+r(0≦j≦J,r:DP整合窓幅) j=J (j>J) ここで局所距離d(i,j)の計算には(4)或は
(6)式を用いる。さらに累積距離のの計算を以下の式
によっておこなう。
【0028】 DW(T,R)=g(I,J)/I …(9) ここでDWは単語に対する距離、Tは入力パタン、Rは
標準パターンを表す。ステップS4では、以上のように
して求められた距離計算結果をRAM8に格納する。
【0029】ステップS5では入力音声の特徴ベクトル
と全単語標準パターンの特徴ベクトルとのマッチングが
終了したかどうかを調べ、マッチング終了なら処理はス
テップS6へ進み、マッチング継続なら処理はステップ
S2へ戻り、単語標準パターンとのマッチングを単語数
だけ繰り返す。
【0030】全ての単語との距離計算が終了すると、ス
テップS6では距離が最小となる単語を認識結果として
選択し、RAM8に単語を表すコードを入れ、また、デ
ータ出力インタフェース7を通して出力する。この出力
はCRT9に表示することも可能である。
【0031】従って本実施例に従えば、入力音声の特徴
に応じた重み関数ω(t)を求め、その重み関数ω
(t)によって距離Dsum を算出して単語を認識し、例
えば、文字データとして得ることができる。
【0032】
【他の実施例】上記実施例では単語標準パターンを用い
る単語認識についての説明したが、音素認識をベースと
した単語認識についても応用が可能である。
【0033】音素認識結果から単語を認識する方法は種
々提案されているが、本実施例では音素認識、特に、音
素認識の代表的な例として、HMM(ヒドンマルコフモ
デル)を行なう場合について述べる。なお本実施例にお
いても、前述の実施例で説明した音声認識装置を共通の
装置として用いるものとする。ただし、ROM5にはH
MMに基づく音声認識処理プログラムが、ROM6には
全ての単語情報を確率モデルに基づいて表現したパラメ
ータが格納されているものとする。
【0034】HMMによる認識は通常は以下のように行
なわれる。
【0035】
【数1】 ここで、αは累積確率、πi は初期確率、aijは遷移確
率、bjiは出力確率、yは観測系列、Mは単語モデル、
Tは観測系列長、Sは状態係数である。
【0036】このうち、出力確率bjiを以下のように設
定する。
【0037】 bji(k)=ω・bcji(k)+(1−ω)・bdji(k)…(11) ここでbcji(k)はケプストラムから推定される出力
確率、bdji(k)はデルタケプストラムから推定され
る出力確率である。
【0038】以上の式に従うなら、入力音声(X)に対
してケプストラムから推定される出力確率とデルタケプ
ストラムから推定される出力確率との混合確率に基づい
た確率Pが得られることになる。このPの値とROM6
に格納されている全ての単語に関するパラメータとを比
較することにより、最も確からしい単語が認識結果とし
て選択されて、RAM8に単語を表すコードを入れ、ま
た、データ出力インタフェース7を通して出力される。
この出力はCRT9に表示することも可能である。
【0039】従って本実施例に従うなら、入力音声の特
徴に応じた重み関数ω(t)をHMMに適用して確率モ
デルに基づく音声認識を行うことができる。さらに、本
実施例の場合、特定話者に対する音声認識を対象とした
DPマッチングと比較して、音声情報を統計的に扱うこ
とができるため、不特定話者に対する音声認識に適用す
ることができる。
【0040】尚、本発明は、複数の機器から構成される
システムに適用しても良いし、1つの機器から成る装置
に適用しても良い。また、本発明は、システム或は装置
にプログラムを供給することによって達成される場合に
も適用できることはいうまでもない。
【0041】
【発明の効果】以上説明したように本発明によれば、音
声の動的な特徴を捉えた第1パラメータと静的な特徴を
捉えた第2パラメータとに関する重みづけが音声の時間
に関するスペクトル変動を考慮して動的に適切に設定さ
れるため、より精度の高い音声認識が可能となる。
【図面の簡単な説明】
【図1】本発明の代表的な実施例である音声認識装置の
構成を示すブロック図である。
【図2】音声認識処理の手順を示すフローチャートであ
る。
【符号の説明】
1 マイク 2 音声分析部 3 入力バッファ 4 CPU 5 プログラム用ROM 6 単語辞書用ROM 7 データ出力インタフェース 8 RAM 9 CRT

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声をパラメータ化して参照すべき
    単語情報との比較を行って音声認識を行う音声認識方法
    であって、 前記入力音声の内、破裂音、鼻音などの動的な特徴を捉
    えた第1パラメータと前記入力音声の内、母音などの静
    的な特徴を捉えた第2パラメータとを生成するパラメー
    タ生成工程と、 前記入力音声の時間に関するスペクトル変動を考慮し
    て、時間に関して変動する前記第1パラメータ及び第2
    パラメータに関する重み係数を算出する重み係数算出工
    程と、 前記第1及び第2パラメータと前記重み係数とに基づい
    て、前記参照すべき単語情報から最適な単語を選択して
    出力する単語選択工程とを有することを特徴とする音声
    認識方法。
  2. 【請求項2】 音声をパラメータ化して参照すべき単語
    情報との比較を行って音声認識を行う音声認識装置であ
    って、 前記音声を入力する入力手段と、 前記参照すべき単語情報を格納する記憶手段と、 前記入力手段によって入力された音声の内、破裂音、鼻
    音などの動的な特徴を捉えた第1パラメータと前記音声
    の内、母音などの静的な特徴を捉えた第2パラメータと
    を生成するパラメータ生成手段と、 前記音声の時間に関するスペクトル変動を考慮して、時
    間に関して変動する前記第1パラメータ及び第2パラメ
    ータに関する重み係数を算出する重み係数算出手段と、 前記第1及び第2パラメータと前記重み係数とに基づい
    て前記音声に関して、前記記憶手段に格納された前記単
    語情報と比較することにより最適な単語を選択して出力
    する単語選択手段とを有することを特徴とする音声認識
    装置。
  3. 【請求項3】 前記パラメータ生成手段によって生成さ
    れる前記第1パラメータはLPCケプストラムから求め
    られるパラメータであり、前記第2パラメータはデルタ
    ケプストラムから求められるパラメータであることを特
    徴とする請求項第2項に記載の音声認識装置。
  4. 【請求項4】 前記重み係数は前記参照すべき単語情報
    の音声パワーの一次回帰係数から設定することを特徴と
    する請求項第2項に記載の音声認識装置。
  5. 【請求項5】 前記重み係数は前記参照すべき単語情報
    のデルタケプストラムの大きさから設定することを特徴
    とする請求項第2項に記載の音声認識装置。
  6. 【請求項6】 前記単語選択手段は、前記参照すべき単
    語情報の標準パターンを用いてDPマッチングを行うこ
    とによって最適な単語を選択することを特徴とする請求
    項第2項に記載の音声認識装置。
  7. 【請求項7】 前記単語選択手段は、前記参照すべき単
    語情報の音素に基づいて確率モデルを用いることによっ
    て最適な単語を選択することを特徴とする請求項第2項
    に記載の音声認識装置。
JP744192A 1992-01-20 1992-01-20 音声認識方法及びその装置 Withdrawn JPH05197397A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP744192A JPH05197397A (ja) 1992-01-20 1992-01-20 音声認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP744192A JPH05197397A (ja) 1992-01-20 1992-01-20 音声認識方法及びその装置

Publications (1)

Publication Number Publication Date
JPH05197397A true JPH05197397A (ja) 1993-08-06

Family

ID=11665949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP744192A Withdrawn JPH05197397A (ja) 1992-01-20 1992-01-20 音声認識方法及びその装置

Country Status (1)

Country Link
JP (1) JPH05197397A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732393A (en) * 1995-02-07 1998-03-24 Toyota Jidosha Kabushiki Kaisha Voice recognition device using linear predictive coding
JP2009151305A (ja) * 2007-12-20 2009-07-09 Toshiba Corp 話認認証の検証のための方法および装置、話者認証システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732393A (en) * 1995-02-07 1998-03-24 Toyota Jidosha Kabushiki Kaisha Voice recognition device using linear predictive coding
JP2009151305A (ja) * 2007-12-20 2009-07-09 Toshiba Corp 話認認証の検証のための方法および装置、話者認証システム

Similar Documents

Publication Publication Date Title
JP3114468B2 (ja) 音声認識方法
EP1355296B1 (en) Keyword detection in a speech signal
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH0554959B2 (ja)
JPS62231997A (ja) 音声認識システム及びその方法
JP3066920B2 (ja) 音声認識方法及び装置
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
JP2955297B2 (ja) 音声認識システム
US6236962B1 (en) Speech processing apparatus and method and computer readable medium encoded with a program for recognizing input speech by performing searches based on a normalized current feature parameter
JP2898568B2 (ja) 声質変換音声合成装置
JP2010145784A (ja) 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH05197397A (ja) 音声認識方法及びその装置
JPH08211897A (ja) 音声認識装置
EP1369847B1 (en) Speech recognition method and system
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2005091758A (ja) 話者認識システム及び方法
JPH064096A (ja) 音声認識装置
JP3254933B2 (ja) 音声認識方法
JP2003295887A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990408