JPH11194792A - 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 - Google Patents
音声認識装置および音声認識方法ならびに該方法を記録した記録媒体Info
- Publication number
- JPH11194792A JPH11194792A JP10000117A JP11798A JPH11194792A JP H11194792 A JPH11194792 A JP H11194792A JP 10000117 A JP10000117 A JP 10000117A JP 11798 A JP11798 A JP 11798A JP H11194792 A JPH11194792 A JP H11194792A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- speech
- word
- standard pattern
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
の音声認識の実現。 【解決手段】 音声入力手段1から入力された音声を、
音声分析手段2で分析して特徴ベクトルの時系列を出力
し、音声検出手段3で音声区間を判断する。音響照合手
段4において、該特徴ベクトルの時系列と、標準パタン
格納手段5に格納されている音声基本単位に対する標準
パタンを照合し、単語評価手段6において、前記照合結
果に基づいて認識対象を評価する。音響照合手段4で
は、各標準パタンを前記入力音声の特徴ベクトル時系列
の全区間にわたって照合して各標準パタン毎に照合結果
を時系列として求める。単語評価手段6では、前記時系
列として得られた各標準パタン毎の照合結果と認識対象
語の単語を音声基本単位の並びとして記述する単語辞書
7の情報に基づいて各単語を評価し、前記評価結果に従
って認識結果を求める。
Description
音,母音)等の音声言語表現上の基本的な単位を標準パ
タンとして用いるような音声認識技術に係り、特に、標
準パタンが特徴ベクトルの出現確率分布で構成されるよ
うな音声認識において大語彙の音声認識を少ない処理量
で実現するようにした単語/文音声認識装置,そのため
のマイコンデバイス,および音声認識方法,ならびにそ
の認識方法を記録したコンピュータで読取り可能な記録
媒体に関する。
クトルの出現確率分布で構成されるような音声認識装置
では、確率計算が認識処理の大部分を占める。通常の音
声認識手法では前記確率計算の回数は認識対象となる単
語の語数に比例し、大語彙の音声認識の場合には膨大な
処理量が必要となり、実時間音声認識を実現するために
大がかりなハードウェア構成が必要となっていた。この
ような音声認識に必要な膨大な処理量を削減する方法と
しては、従来からいくつかの方法が提案されている。以
下代表的な処理量削減手法を説明する。
ばれる技術がある(電子情報通信学会論文誌 D Vol.J7
1-D No.9(1988年9月) PP.1650-1659参照)。「ビーム
サーチ」とは、認識対象の候補の内、計算過程で可能性
が低いと判断された候補について、途中で計算を打ち切
るようにした手法である。認識対象候補の内、可能性の
高い方から一定個数の候補についてのみ計算をするよう
なやり方や、認識計算に対して閾値を設定し、閾値以上
の候補についてのみ計算をするやり方などがある。いず
れの方法にしても、認識候補全体に対して計算を行なう
のに対して一定の比率で計算が削減される。
チ」に対して、全ての候補に対して最後まで計算をする
手法が「フルサーチ」と呼ばれる技術である。「フルサ
ーチ」の場合、全ての候補に対して最後まで計算をする
ので最適解が得られることが保証される。計算の途中過
程で可能性が低いと判断された候補でも、最後まで計算
を続けると第1位の正解となる場合もあり、途中で計算
を打ち切る「ビームサーチ」の場合には最適解が保証さ
れない。
の処理を行なって音素あるいは音節認識結果を求め、こ
の結果に対して言語処理を施して最終的な認識結果を得
るような例がある(第16回応用情報学研究センター・シ
ンポジウム「音声認識の現状と将来」 東北大応用情報
学研究センター,'90.5 29-30参照)。この例では、音
素や音節の単位での認識を行い、その結果を音素ラティ
スや音節ラティスといった、音素単位や音節単位での複
数仮説として求め、音素ラティスや音節ラティスを単語
辞書と照合し認識結果を求める。ここで行なう照合は記
号レベルでの照合であり確率計算などを必要とする音響
レベルでの照合処理に比べると処理量は大幅に少なくて
すむ。本手法によれば、音響照合処理は音素あるいは音
節の数だけで済み大幅な計算量削減ができる。しかしな
がら、音響照合レベルで判断を下してしまうため、音素
ラティスや音節ラティスに正解候補が含まれない場合に
は、辞書照合レベルではどのような処理を施しても正解
を得ることができない。
第1の従来技術は、ある一定の比率で処理量を削減する
ことができるという利点があるが、認識対象の語数に比
例して音響照合処理が増加してしまうという問題点があ
る。また、上記第2の従来技術は、音素または音節単位
で認識結果を求めてしまうため、音響照合処理の処理量
を一定の処理量に抑えることができるという利点がある
が、音響処理で音素単位あるいは音節単位に結果を求め
てしまうため、ここで候補から落ちた仮説に対しては最
終結果が得られないという問題点がある。本発明の目的
は、上記問題点を解消し、認識対象の全仮説に対して最
終的な評価結果が得られ、かつ音響照合処理量が認識対
象の語数に比例せず、一定の処理量で抑えられるよう
な、処理量が小さくかつ認識精度の劣化の少ない単語音
声認識装置や文音声認識装置,そのためのマイコンデバ
イス,単語や文の音声認識方法,ならびに、該認識方法
を記録したコンピュータで読取り可能な記録媒体を提供
することにある。
に、本発明の単語音声認識は、音節あるいは音節連鎖,
または音素等の音声基本単位に対する標準パタンを入力
音声の特徴ベクトル時系列の全区間にわたって照合して
各標準パタン毎に照合結果を時系列として求め、音節あ
るいは音節連鎖,または音素等の音声基本単位の並びと
して記述された単語辞書と前記時系列として得られた各
標準パタン毎の照合結果に基づいて各単語を評価して認
識結果を求めるようにしたものである。
対象の文を単語の並びとして記述する文法を格納してお
き、各標準パタン毎の照合結果と単語辞書と前記文法に
基づいて各文を評価して認識結果を求めるようにしたも
のである。
記認識するために必要な手段を半導体チップ上に搭載す
ることによって構成され、また、本発明の記憶媒体は、
上記単語または文音声認識を行う手順(ステップ)をプ
ログラムコード化して記録したCD−ROMなどであ
る。
例を詳細に説明する。標準パタンの単位としては音節,
音節連鎖,音素など色々な単位を考えることができる
が、ここでは簡単のため音節を単位とする場合について
説明する。なお、以下では、主として単語音声認識の場
合について詳細に説明するが、本発明は文音声認識に適
用することができることはいうまでもない。すなわち、
以下の実施例と同様の音節単位の標準パタンと単語辞書
の他に、認識対象の文を単語の並びとして記述する文法
を用い、音節単位の照合を組み合わせ、該単語辞書と該
文法に基づいて連続的に発声された文章や会話文を認識
することも可能である。
施例の機能ブロック図である。入力された音声は、ま
ず、音声入力手段1において電気信号に変換される。電
気信号に変換された音声はさらに音声分析手段2におい
て分析され、特徴ベクトルの時系列が出力される。この
特徴ベクトルの時系列は音声検出手段3に入力される。
音声検出手段3において音声区間であると判断された区
間の特徴ベクトルの時系列は音響照合手段4に入力され
る。音響照合手段4おいて、入力された特徴ベクトルの
時系列が標準パタン格納手段5に格納された全ての音節
標準パタンと照合され、各音節標準パタン毎に照合結果
の時系列が得られる。単語評価手段6では、前記各音節
標準パタン毎に照合結果の時系列と単語辞書7に格納さ
れた単語辞書情報に基づいて各単語の評価を行ない、各
単語毎に評価値を求める。判定手段8では各単語に与え
られた評価値に基づいて最終的な認識結果を求め出力す
る。例えば評価値の高い上位5候補の単語を出力する。
タンを特徴ベクトル時系列として用意しパタンマッチン
グにより照合を実現することもできるし、また、標準パ
タンを特徴ベクトルの出力確率分布の時系列として用意
し、確率計算により照合を実現することもできる。ここ
では後者の特徴ベクトルの出力確率分布に基づく方法、
すなわち、隠れマルコフモデル(HMM:Hidden Mar
kov Models)に基づいて実現する場合について説明す
る。
説明する。図2は、本発明で用いる認識基本単位の隠れ
マルコフモデル(HMM)を説明するための図である。
同図において、各円は状態を表わし、矢印は状態間の遷
移を表わす。矢印に添えた記号a(i,j)は状態iから状
態jへの遷移が生じる確率を表わし、記号b(i,j,v)は
状態iから状態jへの遷移が生じたときに特徴ベクトル
vが出力される確率を表わす。
きく2つの種類、離散出力確率分布型HMMと連続出力
確率分布型HMMに分かれる。離散出力確率分布型HM
Mでは特徴ベクトルvをベクトル量子化し、その各量子
化コード毎に予めb(i,j,v)の値を求めてテーブル化
し、確率計算をテーブル参照により行なう。連続出力確
率型HMMではある分布関数を仮定し、特徴ベクトルv
を用いて関数計算することにより確率を求める。分布関
数としてはガウス分布がよく使われる。ガウス分布を用
いる場合b(i,j,v)は式(1)により求められる。
の重み付き和で表す場合を示している。確率分布を単一
のガウス分布で表す場合もあるが、不特定話者の音声認
識では複数のガウス分布の重み付き和とするのが一般的
である。b(i,j,v)は、特徴ベクトルvを得たときの各
状態遷移に対応する出現確率(あるいは確率密度)であ
るが、音響照合処理においてはさらに遷移確率a(ij)も
用いてHMMの各状態の累積の確率計算を行なう。各状
態の累積の確率計算は動的計画法、例えば、ビタビアル
ゴリズムと呼ばれる計算法を用いて効率的に計算でき
る。式(2)〜(4)にビタビアルゴリズムによる計算
の漸化式を示す。ここで、γ(i,t)は、特徴ベクトル時
系列V1,V2…Vtを観測し、HMMの第i状態にいる
確率である。
HMMの各状態における累積確率γ(i,t)求めることが
できる。式(1)に従って確率計算を行なう処理から
(2)〜(4)の漸化式に従って確率累積計算を行なう
処理までの一連の処理が音響照合手段4で行なわれる処
理である。なお標準パタン格納手段5には、図2で説明
したようなHMMが音節あるいは音節連鎖,または音素
等の音声基本単位毎に格納されており、音響照合手段4
で特徴ベクトルvが得られると標準パタン格納手段5に
格納された全てのHMMについて確率累積計算を行な
う。
を使い、さらに連続型のHMMを複数のガウス分布の混
合で表現する場合についての説明である。しかし、以後
の説明ではHMMとして特に半連続型と呼ばれる種類の
HMMを使用し、さらに処理量の削減を図った場合につ
いて説明する。
の本発明の単語音声認識装置の一実施例の詳細な機能ブ
ロック図である。図1を用いて本発明の単語音声認識装
置の一実施例の機能を説明したが、図3は図1中の音響
照合手段4および標準パタン格納手段5を半連続型のH
MMに合わせて詳細化したものである。半連続型のHM
Mを用いる場合、音響照合処理は3段階の処理となる。
第1段階が確率計算手段41における確率計算,第2段
階が確率混合手段42における確率混合,第3段階が確
率累積手段43における確率累積である。第1段階の確
率計算手段41における確率計算は特徴ベクトルvから
式(1)の中の個々のガウス分布に従った確率を求める
計算であり、第2段階の確率混合手段42における確率
混合は個々のガウス分布の確率計算結果からこれらを混
合してb(i,j,v)を求める計算であり、第3段階の確率
累積手段43における確率累積は式(2)〜(4)の漸
化式に従って確率累積を行なう処理である。
本単位の個数をNu,認識基本単位のHMMの状態数を
Su,各状態における分布の個数をMとすれば、Nu×S
u×M個となる。Nu=400,Su=2,M=3とした
場合、実在する確率分布の個数は2400個となる。半
連続型のHMMを使わない場合にはこれら全ての確率分
布計算を行なわなければならないが、半連続型HMMを
使う場合には処理量が大幅に削減される。半連続型HM
Mでは、これら2400個ある確率分布のうち類似の確
率分布はまとめてしまい、代表的な確率分布の計算だけ
で済ませるようにする。例えば、上記の2400個の確
率分布を256個のクラスタにクラスタリングし、各ク
ラスタ毎に代表分布を作成し、代表分布の計算のみで実
際の確率分布の計算を代用する。以上により、半連続型
HMMを使わないと2400回必要な確率計算を256
回で済ませるようにする。
表分布を格納しておく。本実施例では確率分布としてガ
ウス分布を用いるものとし、さらに共分散行列について
は対角成分のみを持つものとする。代表分布格納手段5
1には各ガウス分布の平均ベクトルと共分散行列(対角
成分のみ)を格納する。代表分布格納手段51には図4
に示すように、代表分布の番号101に対して、対応す
る平均ベクトル102、共分散行列(対角成分のみ)1
03が格納される。これを用いて確率計算手段41によ
り確率計算する。このような代表分布を持つようにする
ことにより各HMMは固有の確率分布をもつ代わりに代
表分布の中のいずれかを持つようになる。代表分布の中
のいずれかであることを指すためには、その代表分布の
番号がわかればよいため、各標準パタンは代表分布の番
号を用いて表すようになる。半連続型HMM格納手段5
2にはこのような代表分布の番号を用いて記述されたH
MMが格納される。半連続型HMM格納手段52に格納
されている各半連続型HMMは図5に示すようなものと
なる。
1に格納された各代表分布について、音声検出手段3よ
り得られる特徴ベクトルvを用いて、各代表分布の確率
を求める。確率値を求めるにはガウス分布の計算式
(5)を用いる。
6に示すように、代表分布の番号201と、各代表分布
に対する確率値202が対となって求められる。確率混
合手段42では半連続型HMM格納手段52に格納され
た全てのHMMの全ての状態について、図6に示された
確率計算結果を参照して確率混合を行ない、各状態にお
ける出力確率b(i,j,v)を求める。確率累積手段43で
は各状態における出力確率b(i,j,v)を受け取り、ビタ
ビアルゴリズムによる計算を実行し、全てのHMMの全
ての状態について累積確率を求めて出力する。なお、こ
こで行なう確率累積計算はワードスポットなどで行なわ
れる連続ビタビ計算であり、厳密には漸化式も(2)〜
(4)の漸化式とは異なる。また、使用するHMMの構
造も図5に示したHMMとはわずかに異なる。実際に使
用するHMMの構造を図7に示す。図7のHMMが図5
のHMMと異なるのは、セルフループを持たない状態が
先頭に追加された点である。図5のHMMでは始端固定
の照合しかできないが、図7の構造をとることにより始
端フリーの照合が行なえるようになる。始端フリーの照
合を行なうための漸化式は(2)〜(4)の漸化式とわ
ずかに異なる。
なうための漸化式を示す。 (6)式は(2)と同じであるが、(7)式のように各
時刻でγ(i,t)に1を与える点、(8)式のように最大
値判定を行なう対象が照合経路長Lで正規化される点が
異なる。
ずれの状態が選択されたかの情報を記憶しておくことに
より、照合経路の始点情報を求めることができる。この
ようにして確率累積手段43では各HMMについて図8
に示すような音響照合結果時系列を算出する。図8に示
すように、音響照合結果時系列には各HMMのスコアと
して各時刻毎301に確率累積値302が求められ、か
つ、そのような確率累積値を与える照合経路の始点情報
303も与えられる。図8は、ある一つのHMMについ
ての照合結果を示しているが、半連続型HMM格納手段
52に格納されている全てのHMMについて同様の照合
結果が求められる。図8の時刻tの欄を見ると、このH
MMは入力音声の時刻23から時刻tまでの間で照合
し、スコア0.009174が得られることが判る。
られた照合結果の時系列と単語辞書7に格納された単語
辞書情報に基づいて各単語の評価を行ない、各単語毎に
評価値を求める。図9は、単語評価手段6で行なう処理
を説明するためのフローチャートである。図9のフロー
チャートは、1単語分の単語評価過程の処理を表してい
る。本アルゴリズムは単語を構成する後方の音節から前
方の音節に遡りながら評価するような手法である。いま
評価しようとしている単語がN音節で構成されるものと
し、処理対象の音節番号iをN,スコアを0,探索開始
時刻tを入力音声の終端時刻Tにセットする(ステップ
801)。
る範囲内で最終音節に対応するHMMの照合結果時系列
の最大値を求める。この最大値をSmax,最大値を与え
る時刻をtmaxとする。照合結果時系列情報の中には始
端情報が含まれているのでtmaxに対応する始端時刻ts
tartを求めることができる(ステップ802)。i=i
−1とし、以上求められたSmaxを当該単語のスコアに
足し込み、新たな探索開始点tにtstartをセットして
一つ前の音節に対する探索の準備とする(ステップ80
3)。処理対象の音節番号iが0となるまで、ステップ
802,ステップ803を繰り返す。処理対象の音節番
号iが0となったら(ステップ804:Y)、その単語
に関する処理が終了したことになるので計算を終了す
る。
MMの状態を取った図面(これをトレリスと呼ぶ)上で
の照合経路として表したものを図10に示す。図10に
示したのは、単語「こくぶんじ」の例である。時刻T-
αから時刻Tの間で音節「じ」の照合値の最大値を求
め、これに対応する照合開始点をt1としたとき、t1-
αからt1+αの間で一つ前の音節「ん」の照合値の最大
値を求める。以下同様に、これに対応する照合開始点を
t2としたとき、t2-αからt2+αの間で一つ前の音節
「ぶ」の照合値の最大値を求める。これに対応する照合
開始点をt3としたとき、t3-αからt3+αの間で一つ
前の音節「く」の照合値の最大値を求める。これに対応
する照合開始点をt4としたとき、t4-αからt4+αの
間で一つ前の音節「こ」の照合値の最大値を求める。以
上求められた各最大値が累積されて単語「こくぶんじ」
のスコアとなる。
列を全てのHMMについて全時刻毎に求めるようにして
いたが、メモリ量処理量ともに大きくなるので累積確率
値がある基準値を越えた場合だけ記録するようにした
り、あるいは累積確率値が時間方向に極大値となる時刻
のみ記録したりすることにより、メモリ量処理量ともに
削減できることは言うまでもない。また、図9のフロー
チャートで示した単語評価の処理においては、全ての単
語について全音節分のスコア累積を行なうように示した
が、途中の音節で得られたSmaxの値がある基準値以下
の場合には処理を途中で打ち切るなどにより処理量を削
減できることも言うまでもない。
なる処理量の少ない手法を用いて音声認識対象単語の予
備選択を行なって、対象単語数を削減しておいてから本
発明の音声認識の処理を施すようにすることももちろん
可能である。
例として、図3の音声認識装置の具体的なハードウェア
構成を示すブロック図を示す。同図において、111は
音声入力を行い音声情報を電気信号に変換するマイク、
112は電気信号に変換された音声信号を増幅するアン
プ、113は、A/D変換器、114は、オペレーティ
ングシステム(OS)1141,音声認識プログラム1
142,代表分布1143,半連続型HMM1144,
単語辞書1145,ワークエリア1146などを格納す
るメモリ、115は演算プロセッサ(CPU)、116
はプリンタや表示装置などその他の周辺機器である。図
11のマイク111が図3の音声入力手段1に、図1の
音声分析手段2,音声検出手段3,音響照合手段4(確
率計算手段41,確率混合手段42,確率累積手段4
3),標準パタン格納手段5(代表分布格納手段51,
半連続型HMM格納手段52),単語評価手段6,単語
辞書7,判定手段8の各機能は、図11の演算プロセッ
サ115とメモリ114に格納されているプログラムお
よび各種データによって実現される。
検出手段3,音響照合手段4(確率計算手段41,確率
混合手段42,確率累積手段43),標準パタン格納手
段5(代表分布格納手段51,半連続型HMM格納手段
52),単語評価手段6,単語辞書7,および判定手段
8の各機能、すなわち、図11の演算プロセッサ115
とメモリ114の音声認識プログラム/代表分布,半連
続型HMM,単語辞書などを半導体チップ上に組み込む
ことにより、単語音声認識用のマイコンデバイスを実現
することができ、カーナビゲーション,電話,PDA
(Parsonal Digital Asistant)など、音声認識を必
要とする各種情報機器に組み込むことが可能になり、適
用範囲は広い。
簡単のため、単語音声認識の場合について説明したが、
同様の音節単位の標準パタンや単語辞書の他に、認識対
象の文を単語の並びとして記述する文法を格納し、照合
手段において、各標準パタンを入力音声の特徴ベクトル
の時系列の全区間にわたって照合し各標準パタン毎に照
合結果を時系列で求め、評価手段において、時系列とし
て得られた各標準パタン毎の照合結果と前記単語辞書お
よび前記文法の情報に基づいて各文を評価し、その結果
に従って認識結果を求めるようにすることにより、連続
的に発声された文章や会話文などの文音声を認識する文
音声認識装置,文音声認識用のマイコンデバイス,文音
声認識方法を実現することも可能である。
音声認識方法を構成する各ステップをプログラムコード
化してCD−ROMやFD(フレキシブルディスク)な
どの記録媒体に記録すれば、市場に流通し易くなり本発
明の音声認識方法を広く普及することができる。
すなわち、認識対象の全仮説に対して最終的な評価結果
が得られ、かつ音響照合処理量が認識対象の語数に比例
せず、一定の処理量で抑えられるような、処理量が小さ
くかつ認識精度の劣化の少ない単語音声認識装置や文音
声認識装置,そのためのマイコンデバイス,単語や文の
音声認識方法,ならびに、該認識方法を記録したコンピ
ュータで読取り可能な記録媒体を得ることができる。
必要となる確率計算回数を大幅に削減でき、認識精度を
保ったまま、処理量の少ない大語彙音声認識が可能とな
る。
ブロック図である。
隠れマルコフモデル(HMM)を説明する図である。
示すブロック図である。
る。
マルコフモデル(HMM)を説明する図である。
ある。
マルコフモデル(HMM)を説明する図である。
するフローチャートである。
メージを説明する図である。
構成を示すブロック図である。
段、4:音響照合手段、5:標準パタン格納手段、6:
単語評価手段、7:単語辞書、8:判定手段、41:確
率計算手段、42:確率混合手段、51:代表分布格納
手段、52:半連続型HMM格納手段、111:マイ
ク、112:アンプ、113:A/D変換器、114:
メモリ、1141:オペレーティングシステム(O
S)、1142:音声認識プログラム、1143:代表
分布、1144:半連続型HMM、1145:単語辞
書、1146:ワークエリア、115:演算プロセッサ
(CPU)、116:その他の周辺機器。
Claims (26)
- 【請求項1】 音声を入力する音声入力手段と、入力さ
れた音声(入力音声)を分析して特徴ベクトルの時系列
を出力する音声分析手段と、 音声基本単位に対する標準パタンを格納しておく標準パ
タン格納手段と、 認識対象語の単語を音声基本単位の並びとして記述する
単語辞書と、 前記入力音声の特徴ベクトルの時系列と前記標準パタン
とを照合する照合手段と、 前記照合結果に基づいて認識対象を評価する評価手段と
を有する音声認識装置であって、 前記照合手段は、前記各標準パタンを前記入力音声の特
徴ベクトル時系列の全区間にわたって照合して各標準パ
タン毎に照合結果を時系列として求める手段であり、 前記評価手段は、前記時系列として得られた各標準パタ
ン毎の照合結果と前記単語辞書の情報に基づいて各単語
を評価し、前記評価結果に従って認識結果を求める手段
であることを特徴とする単語音声認識装置。 - 【請求項2】 入力された音声(入力音声)を分析して
特徴ベクトルの時系列を出力する音声分析手段と、音声
基本単位に対する標準パタンを格納しておく標準パタン
格納手段と、認識対象語の単語を音声基本単位の並びと
して記述する単語辞書と、前記入力音声の特徴ベクトル
の時系列と前記標準パタンとを照合する照合手段と、前
記照合結果に基づいて認識対象を評価する評価手段とを
有する単語音声認識用マイコンデバイスであって、前記
照合手段は、前記各標準パタンを前記入力音声の特徴ベ
クトル時系列の全区間にわたって照合して各標準パタン
毎に照合結果を時系列として求める手段であり、前記評
価手段は、前記時系列として得られた各標準パタン毎の
照合結果と前記単語辞書の情報に基づいて各単語を評価
し、前記評価結果に従って認識結果を求める手段である
ことを特徴とする単語音声認識用マイコンデバイス。 - 【請求項3】 音声を入力する音声入力手段と、入力さ
れた音声を分析して特徴ベクトルの時系列を出力する音
声分析手段と、音声基本単位に対する標準パタンを格納
しておく標準パタン格納手段と、認識対象語の単語を音
声基本単位の並びとして記述する単語辞書と、認識対象
の文を単語の並びとして記述する文法と、前記入力音声
の特徴ベクトルの時系列と前記標準パタンとを照合する
照合手段と、前記照合結果に基づいて認識対象を評価す
る評価手段とを有する文音声認識装置であって、前記照
合手段は、前記各標準パタンを前記入力音声の特徴ベク
トル時系列の全区間にわたって照合して各標準パタン毎
に照合結果を時系列として求める手段であり、前記評価
手段は、前記時系列として得られた各標準パタン毎の照
合結果と前記単語辞書および前記文法の情報に基づいて
各文を評価し、前記評価結果に従って認識結果を求める
手段であることを特徴とする文音声認識装置。 - 【請求項4】 入力された音声を分析して特徴ベクトル
の時系列を出力する音声分析手段と、音声基本単位に対
する標準パタンを格納しておく標準パタン格納手段と、
認識対象語の単語を音声基本単位の並びとして記述する
単語辞書と、認識対象の文を単語の並びとして記述する
文法と、前記入力音声の特徴ベクトルの時系列と前記標
準パタンとを照合する照合手段と、前記照合結果に基づ
いて認識対象を評価する評価手段とを有する文音声認識
用マイコンデバイスであって、前記照合手段は、前記各
標準パタンを前記入力音声の特徴ベクトル時系列の全区
間にわたって照合して各標準パタン毎に照合結果を時系
列として求める手段であり、前記評価手段は、前記時系
列として得られた各標準パタン毎の照合結果と前記単語
辞書および前記文法の情報に基づいて各文を評価し、前
記評価結果に従って認識結果を求める手段であることを
特徴とする文音声認用マイコンデバイス。 - 【請求項5】 音声を入力する音声入力ステップと、入
力された音声(入力音声)を分析して特徴ベクトルの時
系列を出力する音声分析ステップと、 前記入力音声の特徴ベクトルの時系列と、音声基本単位
に対する標準パタンとを照合する照合ステップと、 前記照合結果に基づいて認識対象を評価する評価ステッ
プとを有する単語音声認識方法であって、 前記照合ステップは、前記各標準パタンを前記入力音声
の特徴ベクトル時系列の全区間にわたって照合して各標
準パタン毎に照合結果を時系列として求めるステップで
あり、 前記評価ステップは、前記時系列として得られた各標準
パタン毎の照合結果と認識対象語の単語を音声基本単位
の並びとして記述する単語辞書の情報に基づいて各単語
を評価し、前記評価結果に従って認識結果を求めるステ
ップであることを特徴とする単語音声認識方法。 - 【請求項6】 前記標準パタンは、前記音声の特徴ベク
トルの出現確率分布により構成され、かつ、前記照合ス
テップは、前記入力された音声の特徴ベクトルと前記出
現確率分布から各標準パタンの確率計算を行い、該求め
られた確率計算値に基づいて照合を行なうものであるを
特徴とする請求項5記載の単語音声認識方法。 - 【請求項7】 前記照合ステップは、動的計画法に基づ
いて照合計算を行うものであることを特徴とする請求項
5記載の単語音声認識方法。 - 【請求項8】 前記動的計画法は、ビタビアルゴリズム
を用いたものであることを特徴とする請求項7記載の単
語音声認識装置および単語音声認識方法。 - 【請求項9】 前記音声基本単位は、音節であることを
特徴とする請求項5〜8のいずれか1項に記載の単語音
声認識方法。 - 【請求項10】 前記音声基本単位は、母音,子音,母
音の三音素連鎖であることを特徴とする請求項5〜8の
いずれか1項に記載の単語音声認識方法。 - 【請求項11】 前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が予め
決められた基準値より高い部分についてのみ照合結果の
時系列として求めるものであることを特徴とする請求項
5〜10のいずれか1項に記載の単語音声認識方法。 - 【請求項12】 前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が時間
方向に極大となる部分についてのみ照合結果の時系列と
して求めるものであることを特徴とする請求項5〜10
のいずれか1項に記載の単語音声認識方法。 - 【請求項13】 前記各標準パタン毎に時系列として求
める照合結果は、各時刻毎にその時刻を終点とする各標
準パタンの評価値と、対応する始点情報を含むようにし
たことを特徴とする請求項11または請求項12記載の
単語音声認識方法。 - 【請求項14】 前記評価ステップは、評価の途中にお
いて予め設定した基準値に満たない認識対象については
評価を途中で打ち切るようにしたことを特徴とする請求
項5〜12のいずれか1項に記載の単語音声認識方法。 - 【請求項15】 請求項5〜14のいずれか1項に記載
の単語音声認識方法を各ステップを記録したコンピュー
タで読取り可能な記録媒体。 - 【請求項16】 音声を入力する音声入力ステップと、
入力された音声(入力音声)を分析して特徴ベクトルの
時系列を出力する音声分析ステップと、 前記入力音声の特徴ベクトルの時系列と、音声基本単位
に対する標準パタンとを照合する照合ステップと、 前記照合結果に基づいて認識対象を評価する評価ステッ
プとを有する文音声認識方法において、 前記照合ステップは、前記各標準パタンを前記入力音声
の特徴ベクトル時系列の全区間にわたって照合して各標
準パタン毎に照合結果を時系列として求めるステップで
あり、 前記評価ステップは、前記時系列として得られた各標準
パタン毎の照合結果と認識対象語の単語を音声基本単位
の並びとして記述する単語辞書および認識対象の文を単
語の並びとして記述する文法の情報に基づいて各文を評
価し、前記評価結果に従って認識結果を求めるステップ
であることをことを特徴とする文音声認識方法。 - 【請求項17】 前記標準パタンは前記音声の特徴ベク
トルの出現確率分布により構成され、かつ、前記照合ス
テップは、前記入力音声の特徴ベクトルと前記出現確率
分布から各標準パタンの確率計算を行い、該求められた
確率計算値に基づいて照合を行なうようにしたことを特
徴とする請求項16記載の文音声認識方法。 - 【請求項18】 前記照合ステップは、動的計画法に基
づいて照合計算を行うものであることを特徴とする請求
項17記載の文音声認識方法。 - 【請求項19】 前記動的計画法は、ビタビアルゴリズ
ムを用いたものであることを特徴とする請求項18記載
の文音声認識方法。 - 【請求項20】 前記音声基本単位は、音節であること
を特徴とする請求項16〜19のいずれか1項に記載の
文音声認識方法。 - 【請求項21】 前記音声基本単位は、母音,子音,母
音の三音素連鎖であることを特徴とする請求項16〜1
9のいずれか1項に記載の文音声認識方法。 - 【請求項22】 前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が予め
決められた基準値より高い部分についてのみ照合結果の
時系列として求めるものであることを特徴とする請求項
16〜21のいずれか1項に記載の文音声認識方法。 - 【請求項23】 前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が時間
方向に極大となる部分についてのみ照合結果の時系列と
して求めるものであることを特徴とする請求項16〜2
1のいずれか1項に記載の文音声認識方法。 - 【請求項24】 前記各標準パタン毎に時系列として求
める照合結果は、各時刻毎にその時刻を終点とする各標
準パタンの評価値と、対応する始点情報を含むようにし
たことを特徴とする請求項16〜23のいずれか1項に
記載の文音声認識方法。 - 【請求項25】 前記評価ステップは、評価の途中にお
いて予め設定した基準値に満たない認識対象については
評価を途中で打ち切るようにしたことを特徴とする請求
項16〜23のいずれか1項に記載の文音声認識方法。 - 【請求項26】 請求項16〜25のいずれか1項に記
載の文音声認識方法を各ステップを記録したコンピュー
タで読取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10000117A JPH11194792A (ja) | 1998-01-05 | 1998-01-05 | 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10000117A JPH11194792A (ja) | 1998-01-05 | 1998-01-05 | 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004277234A Division JP2005031697A (ja) | 2004-09-24 | 2004-09-24 | 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11194792A true JPH11194792A (ja) | 1999-07-21 |
Family
ID=11465115
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10000117A Pending JPH11194792A (ja) | 1998-01-05 | 1998-01-05 | 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11194792A (ja) |
-
1998
- 1998-01-05 JP JP10000117A patent/JPH11194792A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
| JP3434838B2 (ja) | ワードスポッティング法 | |
| US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
| JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
| US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
| US20220343895A1 (en) | User-defined keyword spotting | |
| US6553342B1 (en) | Tone based speech recognition | |
| EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
| US6629073B1 (en) | Speech recognition method and apparatus utilizing multi-unit models | |
| Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch. | |
| EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
| JP2001521193A (ja) | パラメータ共用音声認識方法及び装置 | |
| KR20010086402A (ko) | 음성인식 장치 | |
| US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
| JP2008176202A (ja) | 音声認識装置及び音声認識プログラム | |
| EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
| WO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
| Nakagawa et al. | Text-independent/text-prompted speaker recognition by combining speaker-specific GMM with speaker adapted syllable-based HMM | |
| JP3171107B2 (ja) | 音声認識装置 | |
| JP4391179B2 (ja) | 話者認識システム及び方法 | |
| JP3615088B2 (ja) | 音声認識方法及び装置 | |
| JPH11194792A (ja) | 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20031209 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040220 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040420 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040730 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050805 |