JPH113092A

JPH113092A - 音声認識装置および音声認識処理プログラムを記録したコンピューター読み取り可能な記録媒体

Info

Publication number: JPH113092A
Application number: JP9156967A
Authority: JP
Inventors: Shigeaki Komatsu; 慈明小松
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1997-06-13
Filing date: 1997-06-13
Publication date: 1999-01-06

Abstract

(57)【要約】【課題】音声信号が類似した音声を入力した場合にお
いても、正確に音声を認識できる音声認識装置および音
声認識処理プログラムを記録したコンピューター読み取
り可能な記録媒体を提供すること。【解決手段】使用者がマイクロホン１を介して音声を
入力すると、Ａ／Ｄ変換部３は、マイクロホン１により
入力された音声を単音節ごとに音声信号に変換し、分析
部５は、Ａ／Ｄ変換部３により変換された音声信号に基
づいて特徴ベクトルを抽出する。そして、生起確率演算
部７は、記憶部１３に記憶された最後から少なくとも一
つのパラメータが共通となった単音節隠れマルコフモデ
ルのパラメータと特徴ベクトルとに基づいて単音節の生
起確率を算出し、識別部９は、生起確率演算部７により
算出された生起確率に基づいて単音節の音声を識別す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を単音節ごと
に認識する音声認識装置および音声認識処理プログラム
を記録した記録媒体に関するものである。

【０００２】

【従来の技術】従来、この種の音声認識装置としては、
例えば、図５に示すような構成の装置が知られている。
本装置は、装置の使用者が発声した音声を入力するため
のマイクロホン１と、そのマイクロホン１によって入力
された音声を単音節ごとにデジタル信号に変換するＡ／
Ｄ変換部３と、そのＡ／Ｄ変換部３により変換されたデ
ジタル信号から特徴ベクトルを所定の時間ごとに抽出す
る分析部５と、単音節を単音節隠れマルコフモデルとし
て複数のパラメータに経時的に分割して記憶するハード
ディスク装置等の記憶部１５と、分析部５により抽出さ
れた特徴ベクトル及び記憶部５に記憶された単音節の複
数のパラメータに基づいて単音節の生起確率を算出する
生起確立演算部１７と、その生起確立演算部１７により
算出された生起確率に基づいて使用者が発生した音声を
識別する識別部９と、その識別部９により識別された識
別結果を表示する表示部１１とから構成されていた。

【０００３】ここで、特徴ベクトルとは、一般に知られ
ている線形予測（以下、ＬＰＣという）ケプストラム係
数等をいう。

【０００４】また、隠れマルコフモデルとは、一般に知
られている確率モデルをいい、音声認識の分野では、例
えば、図６に示すようなＬｅｆｔｔｏＲｉｇｈｔモデ
ル等をいう。隠れマルコフモデルは、状態と、各状態間
を遷移する弧とにより構成されており、各弧は、ある状
態ｑｉから次の状態ｑｊに遷移する確率を示す遷移確率
ａｉｊと、遷移する時に特徴ベクトルＣｎが出力される
出力確率ｂｉｊ（Ｃｎ）とによって定式化されている。

【０００５】従って、記憶部１５は、遷移確率ａｉｊと
出力確率ｂｉｊ（Ｃｎ）とを単音節ごとに記憶し、生起
確立演算部１７は、分析部５により抽出された特徴ベク
トルと、記憶部１５に記憶された単音節の隠れマルコフ
モデルの遷移確率ａｉｊと、出力確率ｂｉｊ（Ｃｎ）と
に基づいて単音節の生起確率を算出していた。

【０００６】

【発明が解決しようとする課題】しかしながら、前記音
声認識装置において、例えば、図７に示すような「え」
と「て」の音声信号を比較した場合には、音声信号の前
半のわずかな区間のみが異なっているにも拘わらず、前
記生起確率演算部１７は、音声信号全区間に対して生起
確率を演算するので、両者の違いが明確な区間に比べて
不明確な区間が長い場合には、不明確な区間の僅かな差
が累積的に発生し、両者の識別を曖昧にしてしまうとい
う問題があった。

【０００７】具体例には、「て」という音声信号が入力
された場合、「ｔｅ」と「ｅ」の両者の違いが明確な区
間における生起確率は、「ｔｅ」の方が「ｅ」に比べて
大きくなるが、両者の違いが不明確な区間における生起
確率は、「ｅ」と「ｔｅ」との大小関係が明確ではな
く、「ｔｅ」が「ｅ」に比べて小さくなった場合には、
「て」を「え」と誤認識してしまうという問題があっ
た。

【０００８】また、両者の違いが明確な区間と明確でな
い区間の分岐点を正確に検出することは、一般的に困難
であった。

【０００９】本発明は、上述した問題を解決するために
なされたものであり、音声信号が類似した音声を入力し
た場合においても、正確に音声を認識できる音声認識装
置および音声認識処理プログラムを記録したコンピュー
ター読み取り可能な記録媒体を提供することを目的とし
ている。

【００１０】

【課題を解決するための手段】この目的を達成するため
に、本発明の請求項１に記載の音声認識装置は、単音節
ごとに音声を入力するための音声入力手段と、その音声
入力手段により入力された前記音声を音声信号に変換す
る音声変換手段と、その音声変換手段により変換された
前記音声信号に基づいて特徴ベクトルを抽出する特徴ベ
クトル抽出手段と、単音節を単音節隠れマルコフモデル
として複数のパラメータに経時的に分割して記憶する記
憶手段と、前記特徴ベクトル及び前記複数のパラメータ
に基づいて前記単音節の生起確率を算出する生起確率算
出手段と、その生起確率算出手段により算出された前記
生起確率に基づいて前記単音節の音声を識別する音声識
別手段とを備えたものを対象として、特に、前記記憶手
段は、前記単音節が同一の母音を有する場合には、前記
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、前記単音節を記憶している
ことを特徴としている。

【００１１】上記構成を有する本発明の請求項１に記載
の音声認識装置において、本装置の使用者が音声入力手
段を介して音声を入力すると、音声変換手段は、その音
声入力手段により単音節ごとに入力された音声を音声信
号に変換し、特徴ベクトル抽出手段は、音声変換手段に
より変換された音声信号に基づいて特徴ベクトルを抽出
する。そして、生起確率算出手段は、記憶手段に記憶さ
れた最後から少なくとも一つのパラメータが共通となっ
た単音節隠れマルコフモデルのパラメータと特徴ベクト
ルとに基づいて単音節の生起確率を算出し、音声識別手
段は、生起確率算出手段により算出された生起確率に基
づいて単音節の音声を識別する。

【００１２】また、請求項２に記載の音声認識装置は、
前記生起確率算出手段は、前記複数のパラメータのうち
最後のパラメータから生起確立を算出するように構成し
たことを特徴としている。

【００１３】上記構成を有する請求項２に記載の音声認
識装置において、生起確率算出手段は、複数のパラメー
タのうち最後のパラメータから生起確立を算出するの
で、最後のパラメータから遷移が分岐するまでの共通部
分の算出結果を保存した場合には、その算出結果を他の
単音節の生起確率の算出に利用することができ、その演
算時間を短縮することができる。

【００１４】また、請求項３に記載の音声認識処理プロ
グラムを記録したコンピューター読み取り可能な記録媒
体は、音声入力手段により単音節ごとに入力された前記
音声を音声信号に変換する音声変換プログラムと、その
音声変換プログラムにより変換された前記音声信号に基
づいて特徴ベクトルを抽出する特徴ベクトル抽出プログ
ラムと、単音節を単音節隠れマルコフモデルとして複数
のパラメータに経時的に分割して記憶手段に記憶する記
憶プログラムと、前記特徴ベクトル及び前記複数のパラ
メータに基づいて前記単音節の生起確率を算出する生起
確率算出プログラムと、その生起確率算出プログラムに
より算出された前記生起確率に基づいて前記単音節の音
声を識別する音声識別プログラムとを記録したものを対
象として、特に、前記記憶プログラムは、前記単音節が
同一の母音を有する場合には、前記複数のパラメータの
うち最後から少なくとも一つのパラメータが共通となる
ように、前記単音節を記録することを特徴としている。

【００１５】上記構成を有する請求項３に記載の音声認
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、音声変換プログラムは、音声入力手段により単音節
ごとに入力された音声を音声信号に変換し、特徴ベクト
ル抽出プログラムは、音声変換プログラムにより変換さ
れた音声信号に基づいて特徴ベクトルを抽出する。ま
た、記憶プログラムは、単音節が同一の母音を有する場
合には、複数のパラメータのうち最後から少なくとも一
つのパラメータが共通となるように、単音節を単音節隠
れマルコフモデルの複数のパラメータに経時的に分割し
て記憶手段に記憶し、生起確率算出プログラムは、前記
特徴ベクトル及び前記複数のパラメータに基づいて単音
節の生起確率を算出し、音声識別プログラムは、生起確
率算出プログラムにより算出された生起確率に基づいて
単音節の音声を識別する。

【００１６】さらに、請求項４に記載の音声認識処理プ
ログラムを記録したコンピューター読み取り可能な記録
媒体は、前記生起確率算出プログラムが、前記複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録したことを特徴としている。

【００１７】上記構成を有する請求項４に記載の音声認
識処理プログラムを記録したコンピューター読み取り可
能な記録媒体を用いてプログラムを実行することによ
り、生起確率算出プログラムは、複数のパラメータのう
ち最後のパラメータから生起確立を算出するように記録
するので、最後のパラメータから遷移が分岐するまでの
共通部分の算出結果を保存した場合には、その算出結果
を他の単音節の生起確率の算出に利用することができ、
その演算時間を短縮することができる。

【００１８】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。

【００１９】図１は、本発明の実施の形態における音声
認識装置の概略構成を示すブロック図である。図１にお
いて、本発明の音声認識装置は、装置の使用者が単音節
ごとに発声した音声を入力するための音声入力手段であ
るマイクロホン１と、そのマイクロホン１によって入力
された音声を音声信号であるデジタル信号に変換する音
声変換手段であるＡ／Ｄ変換部３と、そのＡ／Ｄ変換部
３により変換されたデジタル信号から特徴ベクトルを所
定の時間ごとに抽出する特徴ベクトル抽出手段である分
析部５と、単音節を単音節隠れマルコフモデルとして複
数のパラメータに経時的に分割して記憶するＲＯＭ、ハ
ードディスク装置等の記憶手段である記憶部１３と、分
析部５により抽出された特徴ベクトル及び記憶部１３に
記憶された単音節の複数のパラメータに基づいて単音節
の生起確率を算出する生起確率算出手段である生起確立
演算部７と、その生起確立演算部７により算出された生
起確率に基づいて使用者が発生した音声を識別する音声
識別手段である識別部９と、その識別部９により識別さ
れた識別結果を表示する表示部１１とから構成されてい
る。

【００２０】本実施の形態においては、特徴ベクトルと
して、一般に知られているＬＰＣケプストラム係数を使
用し、所定の時間として、１０ｍ秒を設定するが、これ
に限定されるものではない。

【００２１】なお、以下の説明においては、特徴ベクト
ルの時系列として、記号Ｃ１、Ｃ２・・を使用する。

【００２２】記憶部１３は、図２に示すように、単音節
が同一の母音を有する場合には、隠れマルコフモデルの
複数のパラメータのうち最後から少なくとも一つのパラ
メータが共通となるように、単音節を記憶している。

【００２３】また、生起確率演算部７は、分析部５によ
り抽出された特徴ベクトルの時系列Ｃ１、Ｃ２、・・・
を入力し、記憶部１３に記憶されている単音節の隠れマ
ルコフモデルの遷移確率ａｉｊと出力確率ｂｉｊ（Ｃ
ｎ）とに基づいてすべての単音節の生起確率を算出す
る。この算出は、特徴ベクトルの時系列においては、時
間的に遅い時刻から早い時刻に向かって進められ、隠れ
マルコフモデルにおいては、最終状態から逆順に生起確
率演算処理を進める後ろ向きパス演算によって進められ
る。この算出を後ろ向きに進めるのは、最終状態から遷
移が分岐するまでの共通部分の演算結果が、同一の母音
を有する単音節の演算に使用でき、算出に要する時間を
短縮することができるからである。

【００２４】なお、後ろ向きパス演算の効率を上げるた
めに、本実施の形態では、図４に示すように単音節を上
から下に向かって、同じ母音を有する単音節をまとめて
演算する。

【００２５】また、識別部９は、生起確率演算部７によ
り算出された各単音節の生起確率に基づいて、またはそ
の生起確率と、本装置とは別の記憶部に記憶されている
言語処理等による事前確率とに基づいて（例えば、生起
確率と事前確率との積に基づいて）、使用者が発声した
音声の単音節の識別候補を決定する。

【００２６】そして、表示部１１は、識別部９により決
定された識別候補を表示する。

【００２７】次に、本実施の形態の音声認識装置の動作
について説明する。

【００２８】図３は、本実施の形態における音声認識装
置の処理の流れを示すフローチャートである。

【００２９】なお、本フローチャートで示す音声認識処
理プログラムは、ＲＯＭに記憶されている。図３におい
て、まず、使用者により認識を開始するスイッチが押下
されると、Ａ／Ｄ変換部３がこれを検知し（Ｓ１：ＹＥ
Ｓはステップを示す。以下同様）、マイクロホン１から
の音声アナログ信号をデジタルの音声信号に変換する
（Ｓ２）。そして、分析部５は、Ａ／Ｄ変換部３により
変換されたデジタルの音声信号を所定の時間ごとに特徴
ベクトルの時系列を抽出する（Ｓ３）。

【００３０】次に、生起確率演算部７は、分析部５によ
り分析された特徴ベクトルの時系列を入力し、記憶部１
３に記憶されている各単音節の隠れマルコフモデルの遷
移確率ａｉｊと出力確率ｂｉｊ（Ｃｎ）とに基づいて各
単音節の生起確率を算出する（Ｓ４）。この生起確率の
演算処理は、図４に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理し、すべての単
音節に対して生起確率が算出されるまでこの処理を繰り
返す（Ｓ５：ＹＥＳ）。

【００３１】すべての単音節に対して生起確率が演算さ
れると（Ｓ５：ＮＯ）、識別部９は、各単音節の生起確
率と、他の記憶部に記憶されている言語処理などによる
事前確率とに基づいて、使用者が発声した単音節の識別
候補を決定し（Ｓ６）、表示装置１１に表示し（Ｓ
７）、このルーチンを終了する（Ｓ１１）。

【００３２】なお、Ｓ１において、スイッチが押されな
ければ（Ｓ１：ＮＯ）、スイッチが押されるまでスイッ
チの監視を続ける。

【００３３】本実施の形態において、生起確率演算部７
は、後ろ向きパス演算により、各単音節の生起確率を演
算するとしたが、前向きパス演算としてもよい。

【００３４】また、本実施の形態では、この生起確率の
演算処理は、図４に示す単音節を上から下に向かって、
同じ母音を有する単音節をまとめて処理したが、最終状
態から遷移が分岐するまでの共通部分の演算結果を他の
記憶部に記憶すれば、まとめて処理しなくてもよい。

【００３５】なお、本実施の形態の音声認識装置は、Ａ
／Ｄ変換部３、分析部５、生起確率演算部７、識別部９
などの処理を行うプログラムや、記憶部１３におけるデ
ータがＲＯＭに予め格納されたものであるが、本発明は
必ずしもこれに限定されるものではない。例えば、これ
らのプログラムをフロッピーディスクやＣＤ−ＲＯＭ等
に格納したものを装置により読み取ってインストールさ
せて動作させてもよく、有線もしくは無線回線を使用し
て外部情報処理装置からプログラムを読み込んで動作さ
せてもよい。この場合には、フロッピーディスク、ＣＤ
−ＲＯＭ等の外部情報処理装置の当該プログラムを格納
したメモリが本発明の音声認識プログラム処理を記録し
た記録媒体を構成することとなる。

【００３６】

【発明の効果】以上説明したことから明らかなように、
本発明の請求項１に記載の音声認識装置によれば、生起
確率算出手段は、記憶手段に記憶された最後から少なく
とも一つのパラメータが共通となった単音節隠れマルコ
フモデルのパラメータと特徴ベクトルとに基づいて単音
節の生起確率を算出し、音声識別手段は、生起確率算出
手段により算出された生起確率に基づいて単音節の音声
を識別するので、音声信号が類似する音声を入力した場
合においても、正確に音声を認識できる。

【００３７】また、請求項２に記載の音声認識装置によ
れば、生起確率算出手段は、複数のパラメータのうち最
後のパラメータから生起確立を算出するので、最後のパ
ラメータから遷移が分岐するまでの共通部分の算出結果
を保存した場合には、その算出結果を他の単音節の生起
確率の算出に利用することができ、その演算時間を短縮
することができる。

【００３８】また、請求項３に記載の音声認識処理プロ
グラムを記録したコンピューター読み取り可能な記録媒
体によれば、この記録媒体を用いてプログラムを実行す
ることにより、記憶プログラムは、単音節が同一の母音
を有する場合には、複数のパラメータのうち最後から少
なくとも一つのパラメータが共通となるように、単音節
を単音節隠れマルコフモデルの複数のパラメータに経時
的に分割して記憶手段に記憶し、生起確率算出プログラ
ムは、前記特徴ベクトル及び前記複数のパラメータに基
づいて単音節の生起確率を算出し、音声識別プログラム
は、生起確率算出プログラムにより算出された生起確率
に基づいて単音節の音声を識別するので、類似する音声
信号を有する音声を入力した場合においても、正確に認
識できるパラメータとして単音節を記憶手段に記憶で
き、それによって正確に音声を認識することができる。
また、前記プログラムをフロッピーディスクやＣＤ−Ｒ
ＯＭ等の様々な記録媒体の中から音声認識装置に適した
記録媒体に記録して提供することができる。

【００３９】さらに、請求項４に記載の音声認識処理プ
ログラムを記録したコンピューター読み取り可能な記録
媒体によれば、この記録媒体を用いてプログラムを実行
することにより、生起確率算出プログラムは、複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように記録するので、最後のパラメータから遷移が分
岐するまでの共通部分の算出結果を保存した場合には、
その算出結果を他の単音節の生起確率の算出に利用する
ことができ、その演算時間を短縮することができる。ま
た、前記プログラムを音声認識装置に適した記録媒体に
記録して提供することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態における音声認識装置の概
略構成を示すブロック図である。

【図２】本実施の形態の隠れマルコフモデルを説明する
説明図である。

【図３】本実施の形態における音声認識装置の処理の流
れを示すフローチャートである。

【図４】本実施の形態の生起確率算出処理の順序を説明
する説明図である。

【図５】従来の音声認識装置の概略構成を示すブロック
図である。

【図６】従来の隠れマルコフモデルを説明する説明図で
ある。

【図７】従来の音声認識装置の問題点を説明する説明図
である。

【符号の説明】

１マイクロホン３Ａ／Ｄ変換部５分析部７生起確率演算部９識別部１３記憶部

Claims

【特許請求の範囲】

【請求項１】単音節ごとに音声を入力するための音声
入力手段と、その音声入力手段により入力された前記音声を音声信号
に変換する音声変換手段と、その音声変換手段により変換された前記音声信号に基づ
いて特徴ベクトルを抽出する特徴ベクトル抽出手段と、単音節を単音節隠れマルコフモデルとして複数のパラメ
ータに経時的に分割して記憶する記憶手段と、前記特徴ベクトル及び前記複数のパラメータに基づいて
前記単音節の生起確率を算出する生起確率算出手段と、その生起確率算出手段により算出された前記生起確率に
基づいて前記単音節の音声を識別する音声識別手段とを
備えた音声認識装置において、前記記憶手段は、前記単音節が同一の母音を有する場合
には、前記複数のパラメータのうち最後から少なくとも
一つのパラメータが共通となるように、前記単音節を記
憶していることを特徴とする音声認識装置。
【請求項２】前記生起確率算出手段は、前記複数のパ
ラメータのうち最後のパラメータから生起確立を算出す
るように構成したことを特徴とする請求項１に記載の音
声認識装置。
【請求項３】音声入力手段により単音節ごとに入力さ
れた音声を音声信号に変換する音声変換プログラムと、その音声変換プログラムにより変換された前記音声信号
に基づいて特徴ベクトルを抽出する特徴ベクトル抽出プ
ログラムと、単音節を単音節隠れマルコフモデルとして複数のパラメ
ータに経時的に分割して記憶手段に記憶する記憶プログ
ラムと、前記特徴ベクトル及び前記複数のパラメータに基づいて
前記単音節の生起確率を算出する生起確率算出プログラ
ムと、その生起確率算出プログラムにより算出された前記生起
確率に基づいて前記単音節の音声を識別する音声識別プ
ログラムとを記録したコンピューター読み取り可能な記
録媒体において、前記記憶プログラムは、前記単音節が同一の母音を有す
る場合には、前記複数のパラメータのうち最後から少な
くとも一つのパラメータが共通となるように、前記単音
節を記録することを特徴とする音声認識処理プログラム
を記録したコンピューター読み取り可能な記録媒体。
【請求項４】前記生起確率算出プログラムは、前記複
数のパラメータのうち最後のパラメータから生起確立を
算出するように記録したことを特徴とする請求項３に記
載の音声認識処理プログラムを記録したコンピューター
読み取り可能な記録媒体。