JPH113092A - 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 - Google Patents
音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体Info
- Publication number
- JPH113092A JPH113092A JP9156967A JP15696797A JPH113092A JP H113092 A JPH113092 A JP H113092A JP 9156967 A JP9156967 A JP 9156967A JP 15696797 A JP15696797 A JP 15696797A JP H113092 A JPH113092 A JP H113092A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- occurrence probability
- single syllable
- program
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 7
- 230000007704 transition Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 1
Abstract
(57)【要約】
【課題】 音声信号が類似した音声を入力した場合にお
いても、正確に音声を認識できる音声認識装置および音
声認識処理プログラムを記録したコンピューター読み取
り可能な記録媒体を提供すること。 【解決手段】 使用者がマイクロホン1を介して音声を
入力すると、A/D変換部3は、マイクロホン1により
入力された音声を単音節ごとに音声信号に変換し、分析
部5は、A/D変換部3により変換された音声信号に基
づいて特徴ベクトルを抽出する。そして、生起確率演算
部7は、記憶部13に記憶された最後から少なくとも一
つのパラメータが共通となった単音節隠れマルコフモデ
ルのパラメータと特徴ベクトルとに基づいて単音節の生
起確率を算出し、識別部9は、生起確率演算部7により
算出された生起確率に基づいて単音節の音声を識別す
る。
いても、正確に音声を認識できる音声認識装置および音
声認識処理プログラムを記録したコンピューター読み取
り可能な記録媒体を提供すること。 【解決手段】 使用者がマイクロホン1を介して音声を
入力すると、A/D変換部3は、マイクロホン1により
入力された音声を単音節ごとに音声信号に変換し、分析
部5は、A/D変換部3により変換された音声信号に基
づいて特徴ベクトルを抽出する。そして、生起確率演算
部7は、記憶部13に記憶された最後から少なくとも一
つのパラメータが共通となった単音節隠れマルコフモデ
ルのパラメータと特徴ベクトルとに基づいて単音節の生
起確率を算出し、識別部9は、生起確率演算部7により
算出された生起確率に基づいて単音節の音声を識別す
る。
Description
【0001】
【発明の属する技術分野】本発明は、音声を単音節ごと
に認識する音声認識装置および音声認識処理プログラム
を記録した記録媒体に関するものである。
に認識する音声認識装置および音声認識処理プログラム
を記録した記録媒体に関するものである。
【0002】
【従来の技術】従来、この種の音声認識装置としては、
例えば、図5に示すような構成の装置が知られている。
本装置は、装置の使用者が発声した音声を入力するため
のマイクロホン1と、そのマイクロホン1によって入力
された音声を単音節ごとにデジタル信号に変換するA/
D変換部3と、そのA/D変換部3により変換されたデ
ジタル信号から特徴ベクトルを所定の時間ごとに抽出す
る分析部5と、単音節を単音節隠れマルコフモデルとし
て複数のパラメータに経時的に分割して記憶するハード
ディスク装置等の記憶部15と、分析部5により抽出さ
れた特徴ベクトル及び記憶部5に記憶された単音節の複
数のパラメータに基づいて単音節の生起確率を算出する
生起確立演算部17と、その生起確立演算部17により
算出された生起確率に基づいて使用者が発生した音声を
識別する識別部9と、その識別部9により識別された識
別結果を表示する表示部11とから構成されていた。
例えば、図5に示すような構成の装置が知られている。
本装置は、装置の使用者が発声した音声を入力するため
のマイクロホン1と、そのマイクロホン1によって入力
された音声を単音節ごとにデジタル信号に変換するA/
D変換部3と、そのA/D変換部3により変換されたデ
ジタル信号から特徴ベクトルを所定の時間ごとに抽出す
る分析部5と、単音節を単音節隠れマルコフモデルとし
て複数のパラメータに経時的に分割して記憶するハード
ディスク装置等の記憶部15と、分析部5により抽出さ
れた特徴ベクトル及び記憶部5に記憶された単音節の複
数のパラメータに基づいて単音節の生起確率を算出する
生起確立演算部17と、その生起確立演算部17により
算出された生起確率に基づいて使用者が発生した音声を
識別する識別部9と、その識別部9により識別された識
別結果を表示する表示部11とから構成されていた。
【0003】ここで、特徴ベクトルとは、一般に知られ
ている線形予測(以下、LPCという)ケプストラム係
数等をいう。
ている線形予測(以下、LPCという)ケプストラム係
数等をいう。
【0004】また、隠れマルコフモデルとは、一般に知
られている確率モデルをいい、音声認識の分野では、例
えば、図6に示すようなLeft to Rightモデ
ル等をいう。隠れマルコフモデルは、状態と、各状態間
を遷移する弧とにより構成されており、各弧は、ある状
態qiから次の状態qjに遷移する確率を示す遷移確率
aijと、遷移する時に特徴ベクトルCnが出力される
出力確率bij(Cn)とによって定式化されている。
られている確率モデルをいい、音声認識の分野では、例
えば、図6に示すようなLeft to Rightモデ
ル等をいう。隠れマルコフモデルは、状態と、各状態間
を遷移する弧とにより構成されており、各弧は、ある状
態qiから次の状態qjに遷移する確率を示す遷移確率
aijと、遷移する時に特徴ベクトルCnが出力される
出力確率bij(Cn)とによって定式化されている。
【0005】従って、記憶部15は、遷移確率aijと
出力確率bij(Cn)とを単音節ごとに記憶し、生起
確立演算部17は、分析部5により抽出された特徴ベク
トルと、記憶部15に記憶された単音節の隠れマルコフ
モデルの遷移確率aijと、出力確率bij(Cn)と
に基づいて単音節の生起確率を算出していた。
出力確率bij(Cn)とを単音節ごとに記憶し、生起
確立演算部17は、分析部5により抽出された特徴ベク
トルと、記憶部15に記憶された単音節の隠れマルコフ
モデルの遷移確率aijと、出力確率bij(Cn)と
に基づいて単音節の生起確率を算出していた。
【0006】
【発明が解決しようとする課題】しかしながら、前記音
声認識装置において、例えば、図7に示すような「え」
と「て」の音声信号を比較した場合には、音声信号の前
半のわずかな区間のみが異なっているにも拘わらず、前
記生起確率演算部17は、音声信号全区間に対して生起
確率を演算するので、両者の違いが明確な区間に比べて
不明確な区間が長い場合には、不明確な区間の僅かな差
が累積的に発生し、両者の識別を曖昧にしてしまうとい
う問題があった。
声認識装置において、例えば、図7に示すような「え」
と「て」の音声信号を比較した場合には、音声信号の前
半のわずかな区間のみが異なっているにも拘わらず、前
記生起確率演算部17は、音声信号全区間に対して生起
確率を演算するので、両者の違いが明確な区間に比べて
不明確な区間が長い場合には、不明確な区間の僅かな差
が累積的に発生し、両者の識別を曖昧にしてしまうとい
う問題があった。
【0007】具体例には、「て」という音声信号が入力
された場合、「te」と「e」の両者の違いが明確な区
間における生起確率は、「te」の方が「e」に比べて
大きくなるが、両者の違いが不明確な区間における生起
確率は、「e」と「te」との大小関係が明確ではな
く、「te」が「e」に比べて小さくなった場合には、
「て」を「え」と誤認識してしまうという問題があっ
た。
された場合、「te」と「e」の両者の違いが明確な区
間における生起確率は、「te」の方が「e」に比べて
大きくなるが、両者の違いが不明確な区間における生起
確率は、「e」と「te」との大小関係が明確ではな
く、「te」が「e」に比べて小さくなった場合には、
「て」を「え」と誤認識してしまうという問題があっ
た。
【0008】また、両者の違いが明確な区間と明確でな
い区間の分岐点を正確に検出することは、一般的に困難
であった。
い区間の分岐点を正確に検出することは、一般的に困難
であった。
【0009】本発明は、上述した問題を解決するために
なされたものであり、音声信号が類似した音声を入力し
た場合においても、正確に音声を認識できる音声認識装
置および音声認識処理プログラムを記録したコンピュー
ター読み取り可能な記録媒体を提供することを目的とし
ている。
なされたものであり、音声信号が類似した音声を入力し
た場合においても、正確に音声を認識できる音声認識装
置および音声認識処理プログラムを記録したコンピュー
ター読み取り可能な記録媒体を提供することを目的とし
ている。
【0010】
【課題を解決するための手段】この目的を達成するため
に、本発明の請求項1に記載の音声認識装置は、単音節
ごとに音声を入力するための音声入力手段と、その音声
入力手段により入力された前記音声を音声信号に変換す
る音声変換手段と、その音声変換手段により変換された
前記音声信号に基づいて特徴ベクトルを抽出する特徴ベ
クトル抽出手段と、単音節を単音節隠れマルコフモデル
として複数のパラメータに経時的に分割して記憶する記
憶手段と、前記特徴ベクトル及び前記複数のパラメータ
に基づいて前記単音節の生起確率を算出する生起確率算
出手段と、その生起確率算出手段により算出された前記
生起確率に基づいて前記単音節の音声を識別する音声識
別手段とを備えたものを対象として、特に、前記記憶手
段は、前記単音節が同一の母音を有する場合には、前記
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、前記単音節を記憶している
ことを特徴としている。
に、本発明の請求項1に記載の音声認識装置は、単音節
ごとに音声を入力するための音声入力手段と、その音声
入力手段により入力された前記音声を音声信号に変換す
る音声変換手段と、その音声変換手段により変換された
前記音声信号に基づいて特徴ベクトルを抽出する特徴ベ
クトル抽出手段と、単音節を単音節隠れマルコフモデル
として複数のパラメータに経時的に分割して記憶する記
憶手段と、前記特徴ベクトル及び前記複数のパラメータ
に基づいて前記単音節の生起確率を算出する生起確率算
出手段と、その生起確率算出手段により算出された前記
生起確率に基づいて前記単音節の音声を識別する音声識
別手段とを備えたものを対象として、特に、前記記憶手
段は、前記単音節が同一の母音を有する場合には、前記
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、前記単音節を記憶している
ことを特徴としている。
【0011】上記構成を有する本発明の請求項1に記載
の音声認識装置において、本装置の使用者が音声入力手
段を介して音声を入力すると、音声変換手段は、その音
声入力手段により単音節ごとに入力された音声を音声信
号に変換し、特徴ベクトル抽出手段は、音声変換手段に
より変換された音声信号に基づいて特徴ベクトルを抽出
する。そして、生起確率算出手段は、記憶手段に記憶さ
れた最後から少なくとも一つのパラメータが共通となっ
た単音節隠れマルコフモデルのパラメータと特徴ベクト
ルとに基づいて単音節の生起確率を算出し、音声識別手
段は、生起確率算出手段により算出された生起確率に基
づいて単音節の音声を識別する。
の音声認識装置において、本装置の使用者が音声入力手
段を介して音声を入力すると、音声変換手段は、その音
声入力手段により単音節ごとに入力された音声を音声信
号に変換し、特徴ベクトル抽出手段は、音声変換手段に
より変換された音声信号に基づいて特徴ベクトルを抽出
する。そして、生起確率算出手段は、記憶手段に記憶さ
れた最後から少なくとも一つのパラメータが共通となっ
た単音節隠れマルコフモデルのパラメータと特徴ベクト
ルとに基づいて単音節の生起確率を算出し、音声識別手
段は、生起確率算出手段により算出された生起確率に基
づいて単音節の音声を識別する。
【0012】また、請求項2に記載の音声認識装置は、
前記生起確率算出手段は、前記複数のパラメータのうち
最後のパラメータから生起確立を算出するように構成し
たことを特徴としている。
前記生起確率算出手段は、前記複数のパラメータのうち
最後のパラメータから生起確立を算出するように構成し
たことを特徴としている。
【0013】上記構成を有する請求項2に記載の音声認
識装置において、生起確率算出手段は、複数のパラメー
タのうち最後のパラメータから生起確立を算出するの
で、最後のパラメータから遷移が分岐するまでの共通部
分の算出結果を保存した場合には、その算出結果を他の
単音節の生起確率の算出に利用することができ、その演
算時間を短縮することができる。
識装置において、生起確率算出手段は、複数のパラメー
タのうち最後のパラメータから生起確立を算出するの
で、最後のパラメータから遷移が分岐するまでの共通部
分の算出結果を保存した場合には、その算出結果を他の
単音節の生起確率の算出に利用することができ、その演
算時間を短縮することができる。
【0014】また、請求項3に記載の音声認識処理プロ
グラムを記録したコンピューター読み取り可能な記録媒
体は、音声入力手段により単音節ごとに入力された前記
音声を音声信号に変換する音声変換プログラムと、その
音声変換プログラムにより変換された前記音声信号に基
づいて特徴ベクトルを抽出する特徴ベクトル抽出プログ
ラムと、単音節を単音節隠れマルコフモデルとして複数
のパラメータに経時的に分割して記憶手段に記憶する記
憶プログラムと、前記特徴ベクトル及び前記複数のパラ
メータに基づいて前記単音節の生起確率を算出する生起
確率算出プログラムと、その生起確率算出プログラムに
より算出された前記生起確率に基づいて前記単音節の音
声を識別する音声識別プログラムとを記録したものを対
象として、特に、前記記憶プログラムは、前記単音節が
同一の母音を有する場合には、前記複数のパラメータの
うち最後から少なくとも一つのパラメータが共通となる
ように、前記単音節を記録することを特徴としている。
グラムを記録したコンピューター読み取り可能な記録媒
体は、音声入力手段により単音節ごとに入力された前記
音声を音声信号に変換する音声変換プログラムと、その
音声変換プログラムにより変換された前記音声信号に基
づいて特徴ベクトルを抽出する特徴ベクトル抽出プログ
ラムと、単音節を単音節隠れマルコフモデルとして複数
のパラメータに経時的に分割して記憶手段に記憶する記
憶プログラムと、前記特徴ベクトル及び前記複数のパラ
メータに基づいて前記単音節の生起確率を算出する生起
確率算出プログラムと、その生起確率算出プログラムに
より算出された前記生起確率に基づいて前記単音節の音
声を識別する音声識別プログラムとを記録したものを対
象として、特に、前記記憶プログラムは、前記単音節が
同一の母音を有する場合には、前記複数のパラメータの
うち最後から少なくとも一つのパラメータが共通となる
ように、前記単音節を記録することを特徴としている。
【0015】上記構成を有する請求項3に記載の音声認
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、音声変換プログラムは、音声入力手段により単音節
ごとに入力された音声を音声信号に変換し、特徴ベクト
ル抽出プログラムは、音声変換プログラムにより変換さ
れた音声信号に基づいて特徴ベクトルを抽出する。ま
た、記憶プログラムは、単音節が同一の母音を有する場
合には、複数のパラメータのうち最後から少なくとも一
つのパラメータが共通となるように、単音節を単音節隠
れマルコフモデルの複数のパラメータに経時的に分割し
て記憶手段に記憶し、生起確率算出プログラムは、前記
特徴ベクトル及び前記複数のパラメータに基づいて単音
節の生起確率を算出し、音声識別プログラムは、生起確
率算出プログラムにより算出された生起確率に基づいて
単音節の音声を識別する。
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、音声変換プログラムは、音声入力手段により単音節
ごとに入力された音声を音声信号に変換し、特徴ベクト
ル抽出プログラムは、音声変換プログラムにより変換さ
れた音声信号に基づいて特徴ベクトルを抽出する。ま
た、記憶プログラムは、単音節が同一の母音を有する場
合には、複数のパラメータのうち最後から少なくとも一
つのパラメータが共通となるように、単音節を単音節隠
れマルコフモデルの複数のパラメータに経時的に分割し
て記憶手段に記憶し、生起確率算出プログラムは、前記
特徴ベクトル及び前記複数のパラメータに基づいて単音
節の生起確率を算出し、音声識別プログラムは、生起確
率算出プログラムにより算出された生起確率に基づいて
単音節の音声を識別する。
【0016】さらに、請求項4に記載の音声認識処理プ
ログラムを記録したコンピューター読み取り可能な記録
媒体は、前記生起確率算出プログラムが、前記複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録したことを特徴としている。
ログラムを記録したコンピューター読み取り可能な記録
媒体は、前記生起確率算出プログラムが、前記複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録したことを特徴としている。
【0017】上記構成を有する請求項4に記載の音声認
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、生起確率算出プログラムは、複数のパラメータのう
ち最後のパラメータから生起確立を算出するように記録
するので、最後のパラメータから遷移が分岐するまでの
共通部分の算出結果を保存した場合には、その算出結果
を他の単音節の生起確率の算出に利用することができ、
その演算時間を短縮することができる。
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、生起確率算出プログラムは、複数のパラメータのう
ち最後のパラメータから生起確立を算出するように記録
するので、最後のパラメータから遷移が分岐するまでの
共通部分の算出結果を保存した場合には、その算出結果
を他の単音節の生起確率の算出に利用することができ、
その演算時間を短縮することができる。
【0018】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。
て、図面を参照して説明する。
【0019】図1は、本発明の実施の形態における音声
認識装置の概略構成を示すブロック図である。図1にお
いて、本発明の音声認識装置は、装置の使用者が単音節
ごとに発声した音声を入力するための音声入力手段であ
るマイクロホン1と、そのマイクロホン1によって入力
された音声を音声信号であるデジタル信号に変換する音
声変換手段であるA/D変換部3と、そのA/D変換部
3により変換されたデジタル信号から特徴ベクトルを所
定の時間ごとに抽出する特徴ベクトル抽出手段である分
析部5と、単音節を単音節隠れマルコフモデルとして複
数のパラメータに経時的に分割して記憶するROM、ハ
ードディスク装置等の記憶手段である記憶部13と、分
析部5により抽出された特徴ベクトル及び記憶部13に
記憶された単音節の複数のパラメータに基づいて単音節
の生起確率を算出する生起確率算出手段である生起確立
演算部7と、その生起確立演算部7により算出された生
起確率に基づいて使用者が発生した音声を識別する音声
識別手段である識別部9と、その識別部9により識別さ
れた識別結果を表示する表示部11とから構成されてい
る。
認識装置の概略構成を示すブロック図である。図1にお
いて、本発明の音声認識装置は、装置の使用者が単音節
ごとに発声した音声を入力するための音声入力手段であ
るマイクロホン1と、そのマイクロホン1によって入力
された音声を音声信号であるデジタル信号に変換する音
声変換手段であるA/D変換部3と、そのA/D変換部
3により変換されたデジタル信号から特徴ベクトルを所
定の時間ごとに抽出する特徴ベクトル抽出手段である分
析部5と、単音節を単音節隠れマルコフモデルとして複
数のパラメータに経時的に分割して記憶するROM、ハ
ードディスク装置等の記憶手段である記憶部13と、分
析部5により抽出された特徴ベクトル及び記憶部13に
記憶された単音節の複数のパラメータに基づいて単音節
の生起確率を算出する生起確率算出手段である生起確立
演算部7と、その生起確立演算部7により算出された生
起確率に基づいて使用者が発生した音声を識別する音声
識別手段である識別部9と、その識別部9により識別さ
れた識別結果を表示する表示部11とから構成されてい
る。
【0020】本実施の形態においては、特徴ベクトルと
して、一般に知られているLPCケプストラム係数を使
用し、所定の時間として、10m秒を設定するが、これ
に限定されるものではない。
して、一般に知られているLPCケプストラム係数を使
用し、所定の時間として、10m秒を設定するが、これ
に限定されるものではない。
【0021】なお、以下の説明においては、特徴ベクト
ルの時系列として、記号C1、C2・・を使用する。
ルの時系列として、記号C1、C2・・を使用する。
【0022】記憶部13は、図2に示すように、単音節
が同一の母音を有する場合には、隠れマルコフモデルの
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、単音節を記憶している。
が同一の母音を有する場合には、隠れマルコフモデルの
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、単音節を記憶している。
【0023】また、生起確率演算部7は、分析部5によ
り抽出された特徴ベクトルの時系列C1、C2、・・・
を入力し、記憶部13に記憶されている単音節の隠れマ
ルコフモデルの遷移確率aijと出力確率bij(C
n)とに基づいてすべての単音節の生起確率を算出す
る。この算出は、特徴ベクトルの時系列においては、時
間的に遅い時刻から早い時刻に向かって進められ、隠れ
マルコフモデルにおいては、最終状態から逆順に生起確
率演算処理を進める後ろ向きパス演算によって進められ
る。この算出を後ろ向きに進めるのは、最終状態から遷
移が分岐するまでの共通部分の演算結果が、同一の母音
を有する単音節の演算に使用でき、算出に要する時間を
短縮することができるからである。
り抽出された特徴ベクトルの時系列C1、C2、・・・
を入力し、記憶部13に記憶されている単音節の隠れマ
ルコフモデルの遷移確率aijと出力確率bij(C
n)とに基づいてすべての単音節の生起確率を算出す
る。この算出は、特徴ベクトルの時系列においては、時
間的に遅い時刻から早い時刻に向かって進められ、隠れ
マルコフモデルにおいては、最終状態から逆順に生起確
率演算処理を進める後ろ向きパス演算によって進められ
る。この算出を後ろ向きに進めるのは、最終状態から遷
移が分岐するまでの共通部分の演算結果が、同一の母音
を有する単音節の演算に使用でき、算出に要する時間を
短縮することができるからである。
【0024】なお、後ろ向きパス演算の効率を上げるた
めに、本実施の形態では、図4に示すように単音節を上
から下に向かって、同じ母音を有する単音節をまとめて
演算する。
めに、本実施の形態では、図4に示すように単音節を上
から下に向かって、同じ母音を有する単音節をまとめて
演算する。
【0025】また、識別部9は、生起確率演算部7によ
り算出された各単音節の生起確率に基づいて、またはそ
の生起確率と、本装置とは別の記憶部に記憶されている
言語処理等による事前確率とに基づいて(例えば、生起
確率と事前確率との積に基づいて)、使用者が発声した
音声の単音節の識別候補を決定する。
り算出された各単音節の生起確率に基づいて、またはそ
の生起確率と、本装置とは別の記憶部に記憶されている
言語処理等による事前確率とに基づいて(例えば、生起
確率と事前確率との積に基づいて)、使用者が発声した
音声の単音節の識別候補を決定する。
【0026】そして、表示部11は、識別部9により決
定された識別候補を表示する。
定された識別候補を表示する。
【0027】次に、本実施の形態の音声認識装置の動作
について説明する。
について説明する。
【0028】図3は、本実施の形態における音声認識装
置の処理の流れを示すフローチャートである。
置の処理の流れを示すフローチャートである。
【0029】なお、本フローチャートで示す音声認識処
理プログラムは、ROMに記憶されている。図3におい
て、まず、使用者により認識を開始するスイッチが押下
されると、A/D変換部3がこれを検知し(S1:YE
Sはステップを示す。以下同様)、マイクロホン1から
の音声アナログ信号をデジタルの音声信号に変換する
(S2)。そして、分析部5は、A/D変換部3により
変換されたデジタルの音声信号を所定の時間ごとに特徴
ベクトルの時系列を抽出する(S3)。
理プログラムは、ROMに記憶されている。図3におい
て、まず、使用者により認識を開始するスイッチが押下
されると、A/D変換部3がこれを検知し(S1:YE
Sはステップを示す。以下同様)、マイクロホン1から
の音声アナログ信号をデジタルの音声信号に変換する
(S2)。そして、分析部5は、A/D変換部3により
変換されたデジタルの音声信号を所定の時間ごとに特徴
ベクトルの時系列を抽出する(S3)。
【0030】次に、生起確率演算部7は、分析部5によ
り分析された特徴ベクトルの時系列を入力し、記憶部1
3に記憶されている各単音節の隠れマルコフモデルの遷
移確率aijと出力確率bij(Cn)とに基づいて各
単音節の生起確率を算出する(S4)。この生起確率の
演算処理は、図4に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理し、すべての単
音節に対して生起確率が算出されるまでこの処理を繰り
返す(S5:YES)。
り分析された特徴ベクトルの時系列を入力し、記憶部1
3に記憶されている各単音節の隠れマルコフモデルの遷
移確率aijと出力確率bij(Cn)とに基づいて各
単音節の生起確率を算出する(S4)。この生起確率の
演算処理は、図4に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理し、すべての単
音節に対して生起確率が算出されるまでこの処理を繰り
返す(S5:YES)。
【0031】すべての単音節に対して生起確率が演算さ
れると(S5:NO)、識別部9は、各単音節の生起確
率と、他の記憶部に記憶されている言語処理などによる
事前確率とに基づいて、使用者が発声した単音節の識別
候補を決定し(S6)、表示装置11に表示し(S
7)、このルーチンを終了する(S11)。
れると(S5:NO)、識別部9は、各単音節の生起確
率と、他の記憶部に記憶されている言語処理などによる
事前確率とに基づいて、使用者が発声した単音節の識別
候補を決定し(S6)、表示装置11に表示し(S
7)、このルーチンを終了する(S11)。
【0032】なお、S1において、スイッチが押されな
ければ(S1:NO)、スイッチが押されるまでスイッ
チの監視を続ける。
ければ(S1:NO)、スイッチが押されるまでスイッ
チの監視を続ける。
【0033】本実施の形態において、生起確率演算部7
は、後ろ向きパス演算により、各単音節の生起確率を演
算するとしたが、前向きパス演算としてもよい。
は、後ろ向きパス演算により、各単音節の生起確率を演
算するとしたが、前向きパス演算としてもよい。
【0034】また、本実施の形態では、この生起確率の
演算処理は、図4に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理したが、最終状
態から遷移が分岐するまでの共通部分の演算結果を他の
記憶部に記憶すれば、まとめて処理しなくてもよい。
演算処理は、図4に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理したが、最終状
態から遷移が分岐するまでの共通部分の演算結果を他の
記憶部に記憶すれば、まとめて処理しなくてもよい。
【0035】なお、本実施の形態の音声認識装置は、A
/D変換部3、分析部5、生起確率演算部7、識別部9
などの処理を行うプログラムや、記憶部13におけるデ
ータがROMに予め格納されたものであるが、本発明は
必ずしもこれに限定されるものではない。例えば、これ
らのプログラムをフロッピーディスクやCD−ROM等
に格納したものを装置により読み取ってインストールさ
せて動作させてもよく、有線もしくは無線回線を使用し
て外部情報処理装置からプログラムを読み込んで動作さ
せてもよい。この場合には、フロッピーディスク、CD
−ROM等の外部情報処理装置の当該プログラムを格納
したメモリが本発明の音声認識プログラム処理を記録し
た記録媒体を構成することとなる。
/D変換部3、分析部5、生起確率演算部7、識別部9
などの処理を行うプログラムや、記憶部13におけるデ
ータがROMに予め格納されたものであるが、本発明は
必ずしもこれに限定されるものではない。例えば、これ
らのプログラムをフロッピーディスクやCD−ROM等
に格納したものを装置により読み取ってインストールさ
せて動作させてもよく、有線もしくは無線回線を使用し
て外部情報処理装置からプログラムを読み込んで動作さ
せてもよい。この場合には、フロッピーディスク、CD
−ROM等の外部情報処理装置の当該プログラムを格納
したメモリが本発明の音声認識プログラム処理を記録し
た記録媒体を構成することとなる。
【0036】
【発明の効果】以上説明したことから明らかなように、
本発明の請求項1に記載の音声認識装置によれば、生起
確率算出手段は、記憶手段に記憶された最後から少なく
とも一つのパラメータが共通となった単音節隠れマルコ
フモデルのパラメータと特徴ベクトルとに基づいて単音
節の生起確率を算出し、音声識別手段は、生起確率算出
手段により算出された生起確率に基づいて単音節の音声
を識別するので、音声信号が類似する音声を入力した場
合においても、正確に音声を認識できる。
本発明の請求項1に記載の音声認識装置によれば、生起
確率算出手段は、記憶手段に記憶された最後から少なく
とも一つのパラメータが共通となった単音節隠れマルコ
フモデルのパラメータと特徴ベクトルとに基づいて単音
節の生起確率を算出し、音声識別手段は、生起確率算出
手段により算出された生起確率に基づいて単音節の音声
を識別するので、音声信号が類似する音声を入力した場
合においても、正確に音声を認識できる。
【0037】また、請求項2に記載の音声認識装置によ
れば、生起確率算出手段は、複数のパラメータのうち最
後のパラメータから生起確立を算出するので、最後のパ
ラメータから遷移が分岐するまでの共通部分の算出結果
を保存した場合には、その算出結果を他の単音節の生起
確率の算出に利用することができ、その演算時間を短縮
することができる。
れば、生起確率算出手段は、複数のパラメータのうち最
後のパラメータから生起確立を算出するので、最後のパ
ラメータから遷移が分岐するまでの共通部分の算出結果
を保存した場合には、その算出結果を他の単音節の生起
確率の算出に利用することができ、その演算時間を短縮
することができる。
【0038】また、請求項3に記載の音声認識処理プロ
グラムを記録したコンピューター読み取り可能な記録媒
体によれば、この記録媒体を用いてプログラムを実行す
ることにより、記憶プログラムは、単音節が同一の母音
を有する場合には、複数のパラメータのうち最後から少
なくとも一つのパラメータが共通となるように、単音節
を単音節隠れマルコフモデルの複数のパラメータに経時
的に分割して記憶手段に記憶し、生起確率算出プログラ
ムは、前記特徴ベクトル及び前記複数のパラメータに基
づいて単音節の生起確率を算出し、音声識別プログラム
は、生起確率算出プログラムにより算出された生起確率
に基づいて単音節の音声を識別するので、類似する音声
信号を有する音声を入力した場合においても、正確に認
識できるパラメータとして単音節を記憶手段に記憶で
き、それによって正確に音声を認識することができる。
また、前記プログラムをフロッピーディスクやCD−R
OM等の様々な記録媒体の中から音声認識装置に適した
記録媒体に記録して提供することができる。
グラムを記録したコンピューター読み取り可能な記録媒
体によれば、この記録媒体を用いてプログラムを実行す
ることにより、記憶プログラムは、単音節が同一の母音
を有する場合には、複数のパラメータのうち最後から少
なくとも一つのパラメータが共通となるように、単音節
を単音節隠れマルコフモデルの複数のパラメータに経時
的に分割して記憶手段に記憶し、生起確率算出プログラ
ムは、前記特徴ベクトル及び前記複数のパラメータに基
づいて単音節の生起確率を算出し、音声識別プログラム
は、生起確率算出プログラムにより算出された生起確率
に基づいて単音節の音声を識別するので、類似する音声
信号を有する音声を入力した場合においても、正確に認
識できるパラメータとして単音節を記憶手段に記憶で
き、それによって正確に音声を認識することができる。
また、前記プログラムをフロッピーディスクやCD−R
OM等の様々な記録媒体の中から音声認識装置に適した
記録媒体に記録して提供することができる。
【0039】さらに、請求項4に記載の音声認識処理プ
ログラムを記録したコンピューター読み取り可能な記録
媒体によれば、この記録媒体を用いてプログラムを実行
することにより、生起確率算出プログラムは、複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録するので、最後のパラメータから遷移が分
岐するまでの共通部分の算出結果を保存した場合には、
その算出結果を他の単音節の生起確率の算出に利用する
ことができ、その演算時間を短縮することができる。ま
た、前記プログラムを音声認識装置に適した記録媒体に
記録して提供することができる。
ログラムを記録したコンピューター読み取り可能な記録
媒体によれば、この記録媒体を用いてプログラムを実行
することにより、生起確率算出プログラムは、複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録するので、最後のパラメータから遷移が分
岐するまでの共通部分の算出結果を保存した場合には、
その算出結果を他の単音節の生起確率の算出に利用する
ことができ、その演算時間を短縮することができる。ま
た、前記プログラムを音声認識装置に適した記録媒体に
記録して提供することができる。
【図1】本発明の実施の形態における音声認識装置の概
略構成を示すブロック図である。
略構成を示すブロック図である。
【図2】本実施の形態の隠れマルコフモデルを説明する
説明図である。
説明図である。
【図3】本実施の形態における音声認識装置の処理の流
れを示すフローチャートである。
れを示すフローチャートである。
【図4】本実施の形態の生起確率算出処理の順序を説明
する説明図である。
する説明図である。
【図5】従来の音声認識装置の概略構成を示すブロック
図である。
図である。
【図6】従来の隠れマルコフモデルを説明する説明図で
ある。
ある。
【図7】従来の音声認識装置の問題点を説明する説明図
である。
である。
1 マイクロホン 3 A/D変換部 5 分析部 7 生起確率演算部 9 識別部 13 記憶部
Claims (4)
- 【請求項1】 単音節ごとに音声を入力するための音声
入力手段と、 その音声入力手段により入力された前記音声を音声信号
に変換する音声変換手段と、 その音声変換手段により変換された前記音声信号に基づ
いて特徴ベクトルを抽出する特徴ベクトル抽出手段と、 単音節を単音節隠れマルコフモデルとして複数のパラメ
ータに経時的に分割して記憶する記憶手段と、 前記特徴ベクトル及び前記複数のパラメータに基づいて
前記単音節の生起確率を算出する生起確率算出手段と、 その生起確率算出手段により算出された前記生起確率に
基づいて前記単音節の音声を識別する音声識別手段とを
備えた音声認識装置において、 前記記憶手段は、前記単音節が同一の母音を有する場合
には、前記複数のパラメータのうち最後から少なくとも
一つのパラメータが共通となるように、前記単音節を記
憶していることを特徴とする音声認識装置。 - 【請求項2】 前記生起確率算出手段は、前記複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように構成したことを特徴とする請求項1に記載の音
声認識装置。 - 【請求項3】 音声入力手段により単音節ごとに入力さ
れた音声を音声信号に変換する音声変換プログラムと、 その音声変換プログラムにより変換された前記音声信号
に基づいて特徴ベクトルを抽出する特徴ベクトル抽出プ
ログラムと、 単音節を単音節隠れマルコフモデルとして複数のパラメ
ータに経時的に分割して記憶手段に記憶する記憶プログ
ラムと、 前記特徴ベクトル及び前記複数のパラメータに基づいて
前記単音節の生起確率を算出する生起確率算出プログラ
ムと、 その生起確率算出プログラムにより算出された前記生起
確率に基づいて前記単音節の音声を識別する音声識別プ
ログラムとを記録したコンピューター読み取り可能な記
録媒体において、 前記記憶プログラムは、前記単音節が同一の母音を有す
る場合には、前記複数のパラメータのうち最後から少な
くとも一つのパラメータが共通となるように、前記単音
節を記録することを特徴とする音声認識処理プログラム
を記録したコンピューター読み取り可能な記録媒体。 - 【請求項4】 前記生起確率算出プログラムは、前記複
数のパラメータのうち最後のパラメータから生起確立を
算出するように記録したことを特徴とする請求項3に記
載の音声認識処理プログラムを記録したコンピューター
読み取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9156967A JPH113092A (ja) | 1997-06-13 | 1997-06-13 | 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9156967A JPH113092A (ja) | 1997-06-13 | 1997-06-13 | 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH113092A true JPH113092A (ja) | 1999-01-06 |
Family
ID=15639245
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9156967A Pending JPH113092A (ja) | 1997-06-13 | 1997-06-13 | 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH113092A (ja) |
-
1997
- 1997-06-13 JP JP9156967A patent/JPH113092A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8145486B2 (en) | Indexing apparatus, indexing method, and computer program product | |
| JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
| JPH09127978A (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
| JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
| US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
| JP2002215187A (ja) | 音声認識方法及びその装置 | |
| JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
| JPH113092A (ja) | 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体 | |
| JP4408205B2 (ja) | 話者認識装置 | |
| JPH0338699A (ja) | 音声認識装置 | |
| JPS6211731B2 (ja) | ||
| JPS6131880B2 (ja) | ||
| JP2760096B2 (ja) | 音声認識方式 | |
| JP4981519B2 (ja) | 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 | |
| JP2827590B2 (ja) | 音声認識装置 | |
| JP2002341891A (ja) | 音声認識装置および音声認識方法 | |
| JPS6211732B2 (ja) | ||
| JP4881625B2 (ja) | 音声検出装置及び音声検出プログラム | |
| JPH10340096A (ja) | 音声認識装置 | |
| JPH096387A (ja) | 音声認識装置 | |
| JPH11352988A (ja) | 音声認識装置 | |
| JPH04269799A (ja) | 音声セグメンテーション装置 | |
| JPS62166400A (ja) | 音声ワ−ドプロセツサ装置 | |
| JPH04198999A (ja) | 音声認識におけるマッチング距離値の極小値探索方法 | |
| JP2002116788A (ja) | 音素認識装置および方法 |