JPH03278097A

JPH03278097A - 音声認識装置

Info

Publication number: JPH03278097A
Application number: JP2080126A
Authority: JP
Inventors: Shinji Koga; 古賀　真二
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-03-27
Filing date: 1990-03-27
Publication date: 1991-12-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、学習用音声から作成される音素単位の標準モ
デルを用いて未知音声を認識する音声認ｍ装置に関する
。

（従来の技術）従来の音声認識方法しては、あらかじめ発声した学習用
音声データから標準モデルを作成し、その標準モデルと
未知音声から求めた音声パターンとの類似度を求め、最
大の類似度を与えるカテゴリを認識結果とする方法が一
般に用いられている。

このような方法としては、Ｙｅｎ−Ｌｕ　Ｃｈｏｗ、　
ＲｉｃｈａｒｄＳｃｈｗａｒｔｚ、５ａｌｔｓ　Ｒｏｕ
ｃｏｓ他による、ＩＥＥＥ。

Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　
ｏｎ　Ａｃｏｕｓ−ｔｉｃｓ。

５ｐｅｅｃｈ、　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓ
　ｓｉｎｇ、　１９８６．３０．９のページ１５９３〜
１５９６に掲載の論文“Ｔｈｅ　Ｒｏｌｅ　ｏｆＷｏｒ
ｄ−Ｄｅｐｅｎｄｅｎｔ　　Ｃｏａｒｔｉｃｕｌａｔｏ
ｒｙ　　ＥｆｆｅｃｔｓＰｈｏｎｅｍｅ−Ｂａｓｅｄ　
５ｐｅｅｃｈ　Ｒｅｃｏａｎｉｔｉｏｎ　５ｙｓｔｅｎ
＋　　”（以下、文献１と称す）に述べられているよう
な音素などの単語より小さい単位を認識単位に用いる方
法がある。以下、「音素」とは、音韻論的な意味での音
声の最小基本単位という意味だけでなく、音節や複数の
音素の連結をも含む、もつと広い範囲の音声の単位を意
味するものとする。

文献１による方法では、単語単位に発声された複数個の
学習用音声データを用いて音素単位の標準モデル（以下
、音素モデルと呼ぶ）を作成している。そして、認識時
には、音素表記された単語辞書を用いて前記音素モデル
を結合して単語単位のモデル（以下、単語モデルと呼ぶ
）を作成し、この単語モデルを用いて未知単語音声を認
識している。

（発明が解決しようとする課題）上述の従来技術として説明したような学習用音声データ
を用いて作成された音素モデルで未知音声の認識を行う
場合、高精度の音素モデルを作成するために一般的に多
数の学習用音声データが必要である。つまり、音素モデ
ルの精度は学習用音声データの数すなわち学習用音声中
の音素の出現頻度に依存している。単語単位に発声され
た学習用音声データ中の各音素の出現頻度は異なってい
るから、学習用音声データから作成された音素モデルの
精度もモデル毎に異なるが、文献１で述べられているよ
うな方法では、すべて同程度の精度とみなして認識を行
っているから、精度が劣る音素モデルによって誤認識が
発生する可能性がある。

認識時に、文献１で述べられているように、音素表記さ
れた単語辞書を用いて音素モデルを結合して単語モデル
を作成する場合、単語辞書中には学習用音声データ中で
現れなかった音素環境が存在することがある。各音素の
音声パターンの変動は前後の音素環境に影響されるから
、音素モデルは、学習用音声データ中に現れなかった音
素環境での音声パターンより、現れた音素環境での音声
パターンを精度良く表現している。しかし、文献１で述
べられているような方法では、未知音声データが学習用
音声データ中に現れなかった音素環境の音素を含む場合
、その音素モデルの精度が劣ることによって誤認識が発
生する可能性が高くなる。

音素環境に注目した場合、同じ音素でも、それが語尾に
ある場合とそれ以外にある場合とでは音声パターンが大
きく異なる０語尾では発声が不安定になりやすいから、
音素モデルの精度が悪くなる。従って、未知音声を認識
する場合、Ｂ！ｊｇにおける類似度の信頼性が低いから
、語尾に対応する音素モデルが誤認識を起こす一因とな
る可能性がある。

そこで本発明は、未知音声を認識する際の基準となる学
習用音声に影響されない高性能な音声認識装置を提供す
ることを目的とする。

（課題を解決するための手段）本発明に係る第１の音声認識装置は、音声信号を分析して特徴ベクトル時系列を出力する特徴
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とした標準
モデルを作成する標準モデル作成部と、前記標準モデル
を記憶する標準モデル記憶部と、前記学習用音声中に出
現する音素の出現頻度を音素出現頻度情報として記憶す
る出現頻度記憶部と、前記特徴分析部から出力される未
知音声に対する特徴ベクトル時系列と、前記標準モデル
記憶部に記憶してある標準モデルと、前記出現頻度記憶
部に記憶してある前記音素出現頻度情報とを入力し、前
記未知音声の標準モデルに対する類似度を前記音素出現
頻度情報により重み付けて求め、該類似度を用いて前記
未知音声を認識する認識部とを有する。

本発明に係る第２の音声認識装置は、前記音声認識装置
であって、前記出現頻度記憶部は、学習用音声中に出現する音素の
出現頻度を前後の音素環境毎に累計して音素環境出現頻
度情報として記憶し、前記認識部は、前記特徴分析部か
ら出力される未知音声に対する特徴ベクトル時系列と、
前記標準モデル記憶部に記憶してある標準モデルと、前
記出現頻度記憶部に記憶してある前記音素環境出現頻度
情報とを入力し、前記未知音声の標準モデルに対する類
似度を前記音素環境出現頻度情報により重み付けて求め
、該類似度を用いて音声を認識する。

本発明に係る第３の音声認識装置は、音声信号を分析して特徴ベクトル時系列を出力する特徴
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とする標準
モデルを作成して記憶する標準モデル記憶部と、前記特
徴分析部から出力される未知音声に対する特徴ベクトル
時系列と、前記標準モデル記憶部に記憶してある標準モ
デルとを入力し、語尾の音素に対する前記標準モデルの
寄与率を小さくして前記未知音声を認識する認識部とを
有する。

（作用）本発明は、音素モデルを用いた音声認識において、学習
用音声データ中の音素の出現頻度や音素環境による音素
モデルの精度の違い、また、語尾の音素モデルの取り扱
いを考慮することにより、高性能な音声認識を実現する
ものである。

まず、学習用音声データ中の音素の出現頻度による音素
モデルの精度の違いを考慮した場合について述べる。学
習用音声データはその発生内容が既知であり、容易にそ
れを構成している音素がわかるから、学習用音声データ
中での各音素毎の出現頻度Ｋｒ　　（ｒ＝１．２．　・
・・、Ｒ，Ｒは音素の総数）を容易に求めることができ
る。そして、この各音素の出現頻度を、学習用音声デー
タから作成された音素モデルとともに保存しておく、音
素モデンレとしては、Ｓ、Ｅ、Ｌｅｖｉｎｓｏｎ、Ｌ、
Ｒ，Ｒａｂｉｎｅｒ、およびＨ，Ｈ，５ｏｎｄ旧らの、
Ｔｈｅ　Ｂｅ１ｌ　５ｙｓｔｅｎ＋　Ｔｅｃｈｎｉｃａ
ｌＪｏｕｒｎａｌ、Ｖｏｌ、６２．Ｎｏ、４．１９８３
年４月のページ１０３５〜１０７４に掲載の論文“＾ｎ
　Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　ｔｈｅＡｐｐｌｉ
ｃａｔｉｏｎ　ｏｆ　ｔｈｅ　Ｔｈｅｏｒｙ　Ｏｆ　Ｐ
ｒ０ｂａｂｉｌｉＳｔｉＣＦｕｎｃｔｉｏｎｓ　ｏｆ　
ａ　Ｈａｒｋｏｖ　Ｐｒｏｃｅｓｓｔｏ＾ｕｔｏｎ＋ａ
ｔｉｃＳｐｅｅｃｈ　ＲｅＣ０ＩＪｎｉｔｉＯｎ”　　
（以下、文献２と称す）に述べられている隠れマルコフ
モデル（以下、ＨＭＭと呼ぶ）によるモデルを用いる。

ＨＭＭは、状態遷移ネットワークの一種で、各状態には
状態遷移確率とベクトル出現確率とが定義されている。

そして、音素単位のＨＭＭのパラメータは、学習用音声
データ中の各音素間のデータを用いて、フォワード・バ
ックワード（ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）　フ
ルボリズムによって推定する。

未知音声を認識する際には、文献１で述べられているよ
うに、音素表記された単語辞書を用いて音素モデルを結
合して単語モデルを作成する。そして、学習時に求めた
音素の出現頻度より、以下に示すような式（１）により
単語モデルを構成する各音素モデルに対する重み係数Ｗ
、を求める。

ここで、Ｍは単語モデルを構成する音素モデル数、ａは
任意の正定数である。そして、この重み係数を、式（２
＞、（３）、（４）のようにフォワード・バックワード
アルゴリズムの前向き確率（ｆｏｒｗａｒｄ　ｐｒｏｂ
ａｂｉｌｉｔｙ）αｔ　　（ｌ　）の漸化式に組み込み
、各単語モデルに対する未知音声の出現確率Ｐを求め、
確率が最も高い単語を認識結果とする。

α１　　（１）＝πＩ　ｂｌ　（０、）（１≦１≦Ｎ）（２）（１≦ｔ≦Ｔ−１，１≦ｊ≦Ｎ）ここで、Ｎは単語モデルの状態数、Ｔは未知音声の継続
時間、Ｏｔは時刻ｔにおける未知音声の特徴ベクトル、
π憲は初期状態がｉ番目の状態である確率、ｂｌ　（Ｏ
ｔ）はｉ番目の状態が特徴ベクトルＯｔを出力する確率
（ベクトル出現確率）、ａ、Ｊは１番目の状態から１番
目の状態へ遷移する確率（状態遷移確率）である、また
、ｍ（１）は単語モデル中のｉ番目の状態がｍ番目の音
素に対応することを示す。

次に、学習用音声データ中に現れる音素環境を考慮した
場合について述べる。この場合は、学習用音声データ中
での各音素毎の出現頻度を、音素環境別に累計した値を
音素モデルとともに保存する。音素環境としては、前後
の各−音素などを用いる。

未知音声を認識する際には、先の場合と同様に単語モデ
ルを作成し、単語モデルでの各音素モデルに対して、そ
の音素環境に対する出現頻度を求め、その出現頻度を用
いて式（１）により重み係数Ｗ１を求める。そして、こ
の重み係数を用いて、式＜２）、（３）、（４）より各
単語モデルに対する未知音声の出現確率Ｐを求め、確率
が最も高い単語を認識結果とする。

最後に、語尾の音素に注目した場合について述べる。こ
の場合は、未知音声を認識する際に作成する単語モデル
において、語尾の音素モデルとそれ以外の音素モデルと
を区別して、式（５）で示すような重み係数Ｗ、を与え
る。

ここで、重み係数Ｗ、は、を満たすように正規化する。その後、前述と同様にして
認■果を求める。

（実施例）次に、本発明の音声認識装置について図面を参照して説
明する。

第１図は本願発明の第１の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Ｓは、特徴分析部
１１に入力する。特徴分析部１１は、古井著、１９８５
年、東海大学出版会発行の「ディジタル音声処理」　（
以下、文献３と称す）のページ１５４〜１６０に述べら
れているようなメルゲブストラムによる方法を用いて、
学習用音声信号Ｓを特徴ベクトル時系列Ｖに変換する。

標準モデル作成部１２は、特徴分析部１１から出力され
る複数個の学習用音声信号Ｓに対する特徴ベクトル時系
列Ｖを入力し、文献１で述べられているフォワード・バ
ックワードアルゴリズムによってＨＭＭを用いた音素モ
デルＭを作成する。

標準モデル記憶部１３は、この音素モデルＭを記憶する
。出現頻度記憶部１４は、学習用音声Ｓ中に出現する各
音素の出現頻度を音素出現頻度情報にとして記憶する０
重み係数作成部１５は、各音素モデルＭに対する重み係
数Ｗを前記式（１）により作成する。単語辞書ｓ１６は
、音素表記された情報Ｉを記憶する。

次に、未知音声信号の認識手順について説明する。未知
音声信号Ｓ°は、特徴分析部１１に入力して、特徴ベク
トル時系列Ｖ゛に変換される。そして認識部１７に、特
徴ベクトル時系列Ｖ′と標準モデル記憶部１３に記憶さ
れている音素モデルＭと重み係数作成部１５で作成され
た重み係数Ｗと単語辞書部１６に記憶されいる情報Ｉと
が、入力する。すると、この認識部１７は、音素表記さ
れた情報■を用いて音素モデルＭを結合して単語モデル
を作成する。さらに、出現頻度記憶部１４に記憶されて
いる音素出現頻度情報にと単語辞書１６中の情報Ｉとを
入力として重み係数作成部１５において式（１）で求め
られた各音素モデルＭに対する重み係数Ｗを用いて、式
（２）（３）、（４）により各単語モデルに対する未知
音声信号Ｓ°の特徴ベクトル時系列Ｖ′の出現確率を求
める。そして、その出現確率が最も高い単語モデルのカ
テゴリ０を認識結果として出力する。

第２図は本願発明の第２の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデル情報の作
成手順について説明する。学習用音声信号Ｓは、特徴分
析部２１に入力し、該特徴分析部２１で特徴ベクトル時
系列Ｖに変換される。

標準モデル作成部２２は、特徴分析部２１から出力され
る複数個の学習用音声信号Ｓに対する特徴ベクトル時系
列■を入力して、ＨＭＭを用いた音素モデルＭを作成す
る。標準モデル記憶部２３は、この音素モデルＭを記憶
する。出現頻度記憶部２４は、学習用音声Ｓ中に出現す
る各音素の出現頻度を、音素環境側に音素環境出現頻度
情報Ｃとして記憶する６重り係数作成部２５は、各音素
モデルＭに対する重み係数Ｗを前記式（１）により作成
する。単語辞書２６は、音素表記された情報■を記憶す
る。

次に、未知音声信号の認識手順について説明する。未知
音声信号Ｓ゛は、特徴分析部２１に入力して、特徴ベク
トル時系列Ｖ°に変換される。そして認識部２７に、特
徴ベクトル時系列Ｖ′と標準モデル記憶部２３に記憶さ
れている音素モデルＭと重み係数作成部２５で作成され
た重み係数Ｗと単語辞書２６に記憶されいる情報Ｉとが
入力する。すると、この認識部２７は、音素表記された
情報Ｉを用いて音素モデルＭを結合して単語モデルを作
成する。さらに、出現頻度記憶部２４に記憶されている
音素環境出現頻度情報Ｃと単Ｎ辞書２６中の情報■とを
入力して重み係数作成部２５において式（１）で求めら
れた各音素モデルＭに対する重み係数Ｗを用いて、式（
２）、（３）。

（４）により各単語モデルに対する未知音声信号Ｓ°の
特徴ベクトル時系列Ｖ′の出現確率を求める。そしで、
その出現確率が最も高い単語モデルのカテゴリＯを認識
結果として出力する。

第３図は本願発明の第３の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Ｓは、特徴分析部
３２に入力し、該特徴分析部３２で特徴ベクトル時系列
Ｖに変換される。標準モデル作成部３２は、特徴分析部
３２から出力される複数個の学習用音声信号Ｓに対する
特徴ベクトル時系列Ｖを入力し、ＨＭＭを用いた音素モ
デルＭを作成する。標準モデル記憶部３３は、この音素
モデルＭを記憶する。単語辞書部３４は、音素表記され
た情報Ｉを記憶する。

次に、未知音声信号の認識手順について説明する。未知
音声信号Ｓ°は、特徴分析部３１に入力して、特徴ベク
トル時系列Ｖ°に変換される。そして、認識部３５に特
徴ベクトル時系列Ｖ°と標準モデル記憶部３３に記憶さ
れている音素モデルＭと単語辞書部３４に記憶されてい
る情報Ｉとが入力する。すると、この認識部３５は、音
素表記された情報Ｉを用いて音素モデルＭを結合して単
語モデルを作成する。さらに、式（５）を用いて各音素
モデルＭに対する重み係数を求める。そして、式（２）
、（３）、（４）により各単語モデルに対する未知音声
信号Ｓ′の特徴ベクトル時系列Ｖ゛の出現確率を求めて
、出現確率が最も高い単語モデルのカテゴリＯを認識結
果として出力する。

（発明の効果）以上に詳しく説明したように、本発明によれば、未知音
声を認識する際に用いる標準モデルの精度を学習用音声
に影響されずに高いものとすることができるから、高性
能な音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本願発明の第１の音声認識装置の一実施例の構
成を示すブロック図、第２図は本ＩＩ１発明の第２の音
声認識装置の一実施例の構成を示すブロック図、第３図
は本願発明の第３の音声認識装置の一実施例の構成を示
すブロック図である。１１．２１．３１・・・特徴分析部、１２．２２３２・
・・標準モデル作成部、１３．２３．３３・・・標準モ
デル記憶部、１４．２４・・・出現頻度記憶部、１５゜２５・・・重み係数作成部、１６゜２６゜４・・・単語辞書部、１７゜２７゜３５・・・認識部。

Claims

【特許請求の範囲】

（１）音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、該特徴分析部から出力される学習用音
声に対する特徴ベクトル時系列を用いて音素を単位とし
た標準モデルを作成する標準モデル作成部と、前記標準
モデルを記憶する標準モデル記憶部と、前記、学習用音
声中に出現する音素の出現頻度を音素出現頻度情報とし
て記憶する出現頻度記憶部と、前記特徴分析部から出力
される未知音声に対する特徴ベクトル時系列と、前記標
準モデル記憶部に記憶してある標準モデルと、前記出現
頻度記憶部に記憶してある前記音素出現頻度情報とを入
力し、前記未知音声の標準モデルに対する類似度を前記
音素出現頻度情報により重み付けて求め、該類似度を用
いて前記未知音声を認識する認識部とを有することを特
徴とする音声認識装置。
（２）前記出現頻度記憶部は、学習用音声中に出現する
音素の出現頻度を前後の音素環境毎に累計して音素環境
出現頻度情報として記憶し、前記認識部は、前記特徴分
析部から出力される未知音声に対する特徴ベクトル時系
列と、前記標準モデル記憶部に記憶してある標準モデル
と、前記出現頻度記憶部に記憶してある前記音素環境出
現頻度情報とを入力し、前記未知音声の標準モデルに対
する類似度を前記音素環境出現頻度情報により重み付け
て求め、該類似度を用いて音声を認識することを特徴と
する請求項１記載の音声認識装置。
（３）音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、該特徴分析部から出力される学習用音
声に対する特徴ベクトル時系列を用いて音素を単位とす
る標準モデルを作成して記憶する標準モデル記憶部と、
前記特徴分析部から出力される未知音声に対する特徴ベ
クトル時系列と、前記標準モデル記憶部に記憶してある
標準モデルとを入力し、語尾の音素に対する前記標準モ
デルの寄与率を小さくして前記未知音声を認識する認識
部とを有することを特徴とする音声認識装置。