JPH05165490A

JPH05165490A - 不特定話者用音声認識装置

Info

Publication number: JPH05165490A
Application number: JP3330165A
Authority: JP
Inventors: Satoshi Takahashi; 敏高橋; Kiyohiro Kano; 清宏鹿野; Tatsuo Matsuoka; 達雄松岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1991-12-13
Filing date: 1991-12-13
Publication date: 1993-07-02

Abstract

(57)【要約】【目的】認識率を向上させる。【構成】入力音声を、ベクトル量子化器１４で離散的
なベクトル量子化コード列（ＶＱコード列）に変換し、
そのＶＱコード列を不特定話者用隠れマルコフモデルメ
モリ１７を用い、その音素の存在確率を求める音声認識
装置において、多数話者の音声のＶＱコード列におい
て、各音素区間内のＶＱコード連鎖確率モデルをメモリ
１８に記憶しておき、入力音声ＶＱコード列に対し、確
率計算部１５でメモリ１７の隠れマルコフモデルとメモ
リ１８の連鎖確率モデルとを用いて音素の存在確率を計
算する。つまり現時刻はｊ番目のＶＱコードｃ_jが出力
する確率をｏ（ｃ_j）、ｃ_iとｃ_jとの連鎖確率をｐ
（ｃ_j｜ｃ_i）とすると前時刻のＶＱコードがｃ_iの場
合はｃ_jが出現する確率ｏ（ｃ_j｜ｃ_i）をｐ（ｃ_j｜
ｃ _i）ｏ（ｃ_j）／〔Σｐ（ｃ_m｜ｃ_i）ｏ（ｃ_m）〕
で求める。Σはｍ＝１からＮ（ＶＱコードの数）まで。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音素単位、あるいは
単語単位の認識に基づく不特定話者用の音声認識装置に
関するものである。不特定話者用の音声認識装置は、話
者適応用音声を使用しない不特定話者音声認識装置と、
話者適応用音声を使用する話者適応型不特定話者音声認
識装置とがある。話者適応用音声を使用しない不特定話
者音声認識装置は、入力された音声をただちに認識しな
ければならないシステムに用いられる。例えば、音声自
動ダイヤルシステムや音声自動券買機などである。話者
適応型不特定話者音声認識装置は、入力話者がシステム
を使用する前にいくらかの音声を発声し、この音声を用
いてシステムを入力話者に適応化する。例えば、音声ワ
ープロなど、使用者が限定されており、システムが話者
に適応化する時間が許されるシステムに使用される。

【０００２】

【従来の技術】従来における、音素単位、あるいは単語
単位の認識に基づく不特定話者用の音声認識装置におい
ては、予め、多数話者の音声から切り出した音素、ある
いは単語を用いて、短時間ごとに音声の音響パラメータ
（例えばケプストラムや振幅）を求め、そのパラメータ
系列を用いて音素、あるいは単語をモデル化する。音素
や単語の音響パラメータ系列のモデル化には、統計的な
手法の１つである隠れマルコフモデル（Hidden Markov
Model,以下ＨＭＭと略す。；例えば中川聖一著）を用い
た手法がある。多次元の音響パラメータはベクトル量子
化（Vector Quantization)の手法を用い有限個（例えば
２５６個）の離散的なベクトル量子化コード（以下ＶＱ
コードと略す。）に変換することができる。よって、音
素または単語モデルは、各ＶＱコードに対する出現確率
を用いて表現される。これは離散型ＨＭＭと呼ばれてい
る。図６のＨＭＭメモリ７に最も簡単な１状態の離散型
ＨＭＭの例を示している。ここでは、ＶＱコードの種類
は４個（０から３まで）で、音素（ここでは／ア／、／
イ／）ごとに、それぞれのＶＱコードに対する出現確率
が与えられている。実際には、認識すべきすべての音素
あるいは単語の数だけＨＭＭを用意する。それぞれのモ
デルにおいて、すべてのＶＱコードに対する出力確率の
和は１．０である。

【０００３】図７に、従来の離散型ＨＭＭを用いた音声
認識装置の構成例を示している。入力端子１から入力さ
れた音声は、Ａ／Ｄ変換部２においてディジタル信号に
変換される。このディジタル信号は音響パラメータ抽出
部３において音響パラメータが抽出される。この音響パ
ラメータはベクトル量子化器４において有限個のＶＱコ
ードに変換される。この段階で、入力音声はＶＱコード
系列に変換されている。モデル確率計算部５において、
変換されたＶＱコード系列の各音素、あるいは単語の離
散型ＨＭＭを不特定話者用ＨＭＭメモリ７から読みだ
し、入力音声のＶＱコード系列との確率を計算する。

【０００４】このモデル確率計算部５における処理内容
の例を図６に示す。ここでは、ＶＱコードの種類は４個
（０から３まで）であるとする。入力音声のＶＱコード
系列が与えられ、時刻１から時刻４（ＶＱコード列：１
−１−２−０）に音素／ア／、音素／イ／が存在する確
率をそれぞれ計算したいとする。各音素の存在確率は、
それぞれの時刻のＶＱコードに対する出現確率を各音素
のＨＭＭから参照し、それらの積で求められる。図６の
例では、音素／ア／に対する確率が８．０×１０^-4で、
音素／イ／に対する確率が５．０×１０^-5であり、音素
／ア／が存在する確率が高いとする。この様な処理を入
力音声のＶＱコード列の任意の区間で行ない、確率を最
も大きくする音素系列を認識結果として認識結果出力部
６より出力する。

【０００５】

【発明が解決しようとする課題】不特定話者音声認識に
おいては、様々な話者に対応するためにたくさんの話者
の音声データを用いてモデルを学習する。しかし、話者
のバリエーションが増加するに従い、ある話者のある音
素の音響パラメータの分布が、他の話者の異なる音素の
音響パラメータの分布と重なることがしばしば起こる。
例えば、話者Ａの音素／イ／が、話者Ｂの音素／エ／に
音響的に類似しており、それぞれの音素区間中に出現す
るＶＱコードの種類、出現頻度も類似していることがあ
る。これが、認識誤りの原因となっていた。

【０００６】従来のＨＭＭは、ＶＱコードの出現確率の
みを表現しており、その時間的な出現順序は表現してい
ない。図８に、ＶＱコードの時間的な出現順序が考慮さ
れないために起こる問題点を示している。仮にＶＱコー
ド系列１−１−０−０がモデル確率計算部に送られたと
する。従来法では、図８に示すように、ＶＱコード０と
ＶＱコード１に対する出力確率が、音素／イ／のＨＭＭ
と音素／エ／のＨＭＭとで同じであったために、ＶＱコ
ード系列に対し、同一の出現確率が与えられる。これ
は、たとえ１−１というＶＱコード連鎖や０−０という
ＶＱコード連鎖が音素／イ／にたいへん特徴的であり、
音素／エ／にはそのような特徴がなく、本来は音素／イ
／と音素／エ／とは区別可能であったとしても、局所的
なＶＱコード連鎖に関する情報が音素ＨＭＭに保存され
ていないので同一の出現確率が与えられてしまい、区別
できないという問題点があり、認識性能が不十分であっ
た。

【０００７】

【課題を解決するための手段】この発明によれば、新た
に音素あるいは単語区間内のＶＱコード連鎖確率を表現
するモデルを作成し、これを従来の音素または単語単位
の離散型ＨＭＭと共に用いることによって音声を認識す
る。つまり、この発明では、音声の静的な音響特徴のみ
ならず、動的な特徴にも着目している。例えば、話者Ａ
と話者Ｂの異なる音素区間中に出現するＶＱコードの種
類が類似していても、それらが時間的に出現する順序が
異なれば、区別することが可能である。時系列パタン情
報は、ＶＱコードの２つ組、または３つ組の連鎖確率で
表現される。

【０００８】入力音声のＶＱコード系列において、それ
ぞれの時刻のＶＱコードに対し、離散型ＨＭＭから出現
確率が与えられるが、この発明では更に、現時刻のＶＱ
コードの１つ前の時刻のＶＱコード、あるいは１つ前と
２つ前の両方の時刻のＶＱコードを参照する。そして、
現時刻に至るまでのＶＱコード連鎖が認識しようとする
音素または単語に特徴的である場合、即ちＶＱコード連
鎖確率が高い場合は現時刻のＶＱコードに対する出現確
率を高くし、そうでない場合は低くする。ＶＱコード連
鎖確率は、予め、学習データを音素ごとにセグメンテー
ションしたデータから求められる。ＶＱコード連鎖確率
は、音素ごとに独立に計算される。

【０００９】２つ組のＶＱコード連鎖確率を利用した場
合の処理を式で表すと（１）式のようになる。ｏ（ｃ_j｜ｃ_i）＝ｐ（ｃ_j｜ｃ_i）ｏ（ｃ_j）／〔Σｐ（ｃ_m｜ｃ_i）ｏ（ｃ_m）〕（１）ここで、ｏ（ｃ_j）は現時刻にｊ番目のＶＱコードｃ_j
が出力する確率であり、Σはｍ＝１からＮ（ＶＱコード
の数）までである。従来の不特定話者用ＨＭＭは、この
確率のみを用いて認識を行なっていた。ｐ（ｃ_j｜
ｃ_i）はＶＱコードｃ _iとＶＱコードｃ_jのＶＱコード
連鎖確率である。このＶＱコード連鎖確率が音素によっ
て異なる。ｐ（ｃ_j｜ｃ_i）とｏ（ｃ_j）の積をとるこ
とによって、現時刻のＶＱコードｃ_jに対する出力確率
を変更する。（１）式の分母は、各時刻ですべてのＶＱ
コードに対する出力確率の和が１．０になるようにする
ためのものである。ｏ（ｃ_j｜ｃ_i）は前時刻のＶＱコ
ードがｃ_iであった場合に現時刻でＶＱコードｃ_j出現
する確率である。この発明では、この確率を用いて音素
を認識する。

【００１０】この発明は、ＶＱコード連鎖確率を計算す
るデータによって２つの利用方法がある。１つは、ＶＱ
コード連鎖確率を多数話者の音声から計算した場合で、
もう１つは、入力話者が予め発声した話者適応用音声か
ら計算した場合である。ＶＱコード連鎖確率を多数話者
の音声から計算した場合は、多数話者にみられる、より
一般的な各音素のＶＱコード連鎖情報がＶＱコード連鎖
確率に表現される。一方、入力話者が予め発声した話者
適応用音声から計算した場合は、入力話者特有のＶＱコ
ード連鎖情報がＶＱコード連鎖確率に表現される。した
がって、入力話者がシステムを使用する前にいくらかの
音声を発声する必要があるが、入力話者に依存した、よ
り精密な確率計算を行なうことが可能で、認識性能がよ
り向上する。

【００１１】

【作用】図１，２は、ＶＱコード連鎖確率を利用する効
果を示す。離散ＨＭＭとＶＱコード連鎖確率モデルは予
め学習音声データから作成しておく。仮にＶＱコード系
列１−１−０−０がモデル確率計算部に与えられたと
き、時刻２のＶＱコード”１”に対する出力確率は、従
来の離散ＨＭＭでは、単に音素／イ／と音素／エ／の出
現確率を参照し、両方とも確率０．４を与えた。しかし
この発明によれば、音素／イ／と音素／エ／の各ＶＱコ
ード連鎖確率を用いてこの確率値を変更する。この例で
は、時刻２の１つ前の時刻１のＶＱコードが”１”であ
るので、ＶＱコード”１”からＶＱコード”１”となる
連鎖確率を音素／イ／と音素／エ／の各ＶＱコード連鎖
確率テーブルからそれぞれ参照し、これを用いて時刻２
のＶＱコードに対する確率値の変更を行なう。すなわち
この例では１−１というＶＱコード連鎖は音素／イ／に
おいて、０．８という高い確率で発生し、たいん特徴的
であるので、（１）式に従い、従来の離散ＨＭＭの与え
る確率値よりも高く評価される。一方、音素／エ／で
は、１−１というＶＱコード連鎖は０．０５という低い
確率で発生し特徴的でないので、従来の離散ＨＭＭの与
える確率値よりも低く評価される。

【００１２】上述したように、ＶＱコードの出現確率の
みならず、音素または単語におけるＶＱコードの連鎖確
率も考慮することによって、ＶＱコードの出現確率が同
じであっても出現順序が異なる音素を区別して認識する
ので認識性能がより向上する。

【００１３】

【実施例】図２に、請求項１の発明の実施例を示す。入
力端子１１から入力された音声は、Ａ／Ｄ変換部１２に
おいてディジタル信号に変換される。このディジタル信
号は音響パラメータ抽出部１３において音響パラメータ
（例えばケプストラムや振幅）を抽出される。この音響
パラメータはベクトル量子化器１４において有限個のＶ
Ｑコードに変換される。ＶＱコードの数は、例えば２５
６個である。

【００１４】予め、多数話者の音声を上記ＶＱコードに
変換した後、音素あるいは単語ごとにＶＱコード系列を
切り出し、いくつかの状態数（例えば３状態）で表現さ
れたＨＭＭを用いて音素または単語のモデルを作成す
る。これらのモデルは、不特定話者用ＨＭＭメモリ１７
に記憶しておく。また、上記多数話者の音声をＶＱコー
ドに変換した系列から、２つ組あるいは３つ組のＶＱコ
ードの連鎖確率を計算する。このモデルは、ＶＱコード
連鎖確率モデルメモリ１８に記憶しておく。

【００１５】モデル確率計算部１５では、音素あるいは
単語のＨＭＭを不特定話者用ＨＭＭメモリ７より読みだ
し、また、ＶＱコード連鎖確率モデルをＶＱコード連鎖
確率モデルメモリ１８より読みだし、入力音声のＶＱコ
ード系列と照合しながら、最大の確率を与えるモデルを
調べる。このようにして、最大の確率を与えるモデルの
音素あるいは単語を認識結果として認識結果出力部１６
から出力する。

【００１６】図３に、請求項２の発明の実施例を示し、
図２と対応する部分に同一符号を付けてある。図２で説
明したように、予め多数話者の音声を用いて、音素また
は単語のＨＭＭを作成し、不特定話者用ＨＭＭメモリ１
７に記憶しておく。この発明は話者適応型装置に適用さ
れるものであって、はじめに、話者適応化モード音声認
識モード切り替えスイッチ２０を話者適応化側にして、
入力話者に話者適応化用音声を発声してもらう。ベクト
ル量子化器１４までの処理は図２の場合と同一である。
この音声をＶＱコードに変換した系列から、２つ組ある
いは３つ組のＶＱコードの連鎖確率を、話者適応化音声
ＶＱコード連鎖確率計算部１８で計算する。この際、話
者適応化音声に対し、音素境界を検出する処理を施し、
音素ごとにＶＱコード連鎖確率を計算して複数のモデル
で表現してもよいし、音素境界を検出せずに、話者適応
化音声全体で１個のモデルを作成してもよい。前者は、
入力話者の各音素におけるＶＱコード連鎖情報を保有し
ており、後者は、音素を考慮しない入力話者に特有なＶ
Ｑコード連鎖情報を保有している。もちろん、音素ごと
にＶＱコード連鎖確率を計算したほうが、より精密に情
報を保存できるので性能がよい。これらのモデルを話者
適応化音声ＶＱコードの連鎖確率モデルメモリ１９に記
憶する。但し、音素ごとにＶＱコード連鎖確率を計算す
る場合、話者適応化音声中の音素区間の検出をする必要
があるので、話者適応化モードでの処理量が増える。

【００１７】次に、話者適応化モード音声認識モード切
り替えスイッチ２０を音声認識側にして、入力話者に認
識すべき単語を発声してもらう。モデル確率計算部１５
では、音素あるいは単語のＨＭＭを、不特定話者用ＨＭ
Ｍメモリ１７より読みだし、同時に、入力話者のＶＱコ
ード連鎖確率モデルを話者適応化音声ＶＱコード連鎖確
率モデルメモリ１９より読みだし、入力音声のＶＱコー
ド系列と照合しながら、最大の確率を与えるモデルを調
べる。

【００１８】このようにして、最大の確率を与えるモデ
ルの音素あるいは単語を認識結果として認識結果出力部
１６から出力する。図３の実施例において、入力話者に
話者適応化用音声を発声してもらった時に、従来の話者
適応音声認識装置と同様に、不特定話者用ＨＭＭをその
入力話者に適応化したものとし、その適応化されたＨＭ
Ｍをモデル確率計算部１５の計算に用いてもよい。この
場合連鎖確率モデルもＨＭＭのパラメータの変更に合わ
せて変更する必要がある。

【００１９】

【発明の効果】以上述べたように、この発明において
は、音素あるいは単語中のＶＱコードの出現確率だけで
なく、ＶＱコードの連鎖も考慮しているので、より精密
なモデルを作成することができ認識性能が向上する。図
２に示した構成に従い、不特定話者音声認識を行なった
１８子音の認識実験結果を示す。使用した音声データは
２０名（男性１０名、女性１０名）のアナウンサーが発
声した５２４０単語である。はじめに、１６名（男性８
名、女性８名）の５２４０単語セットの偶数番目の単語
から切り出した子音を用いて、音素ごとにＨＭＭを学習
した。この際使用された音響パラメータは、１６次のケ
プストラム、１６次のデルタケプストラム、１次のデル
タパワーである。これらは、それぞれケプストラム２５
６個、デルタケプストラム２５６個、デルタパワー６４
個のＶＱコードに変換されたのち使用された。また、同
じデータで音素ごとに２つ組のＶＱコードの連鎖確率モ
デルを作成した。２つのＶＱコードの時間間隔は８ｍｓ
である。認識実験は、上記とは異なる４名（男性２名、
女性２名）を評価話者とし、それぞれが発声した５２４
０単語セットの奇数番目の単語から切り出した子音を用
いて行なった。図４に、この発明による１８子音の認識
実験結果を従来法と共に示す。アルファベット（ＭＴ
Ｔ，ＭＸＭ，ＦＹＭ，ＦＹＮ）は４人の評価用話者のイ
ニシャルである。従来の手法では、平均認識率が７０．
８％であったが、この発明により７６．３％にまで改善
された。

【００２０】次に、図３に示した構成に従い、話者適応
型不特定話者音声認識を行なった１８子音の認識実験結
果を示す。実験条件は、上記とほぼ同一である。ただ
し、４名の評価用話者（入力話者）が発声した、上記５
２４０単語セットとは異なる２１６単語を話者適応化音
声として使用した。この音声から各話者ごとに、２つ組
のＶＱコードの連鎖確率モデルを作成した。ＶＱコード
の連鎖確率モデルを、音素ごとに作成した場合と、音素
を考慮せずに１個のモデルを作成した場合の２つの条件
について実験した。認識実験は、図２の装置についての
実験と同様に、評価用話者４名の５２４０単語セットの
奇数番目の単語から切り出した子音を用いて行なった。
図５に、この発明による１８子音の認識実験結果を従来
法と共に示す。アルファベット（ＭＴＴ，ＭＸＭ，ＦＹ
Ｍ，ＦＹＮ）は４人の評価用話者のイニシャルである。
従来の手法では、平均認識率が７０．８％であったが、
この発明により、音素を考慮しないＶＱコードの連鎖確
率モデルを用いて７４．９％に、音素ごとに作成したＶ
Ｑコードの連鎖確率モデルを用いて７８．６％まで改善
された。入力話者の話者適応化音声からＶＱコードの連
鎖確率モデルを音素ごとに作成すれば、図４の多数話者
の音声からＶＱコードの連鎖確率モデルを音素ごとに作
成する場合に比べて、より入力話者に対し精密なモデル
になっているので更に性能が向上している。

【図面の簡単な説明】

【図１】この発明の原理を説明するための図。

【図２】請求項１の発明の実施例を示すブロック図。

【図３】請求項２の発明の実施例を示すブロック図。

【図４】請求項１の発明の効果を示す図。

【図５】請求項２の発明の効果を示す図。

【図６】従来装置におけるＶＱコード列についてＨＭＭ
を用いた音素の存在確率を求める演算例を示す図。

【図７】従来の不特定話者音声認識装置を示すブロック
図。

【図８】従来装置における問題点を説明するための図。

Claims

【特許請求の範囲】

【請求項１】多数話者の音声の音素または単語のベク
トル量子化コード系列を統計的に表現する隠れマルコフ
モデルを記憶した不特定話者用隠れマルコフモデルメモ
リを備え、不特定話者が発声した入力音声から音響パラ
メータベクトルを抽出し、その音響パラメータベクトル
を有限個の離散的なベクトル量子化コード系列に変換
し、上記入力音声の発声内容を認識する不特定話者用音
声認識装置において、多数話者の音声ベクトル量子化コード系列において、各
音素または各単語区間内のベクトル量子化コード連鎖確
率モデルを記憶したベクトル量子化コード連鎖確率モデ
ルメモリと、上記入力音声のベクトル量子化コード系列に対し、上記
音素または単語の不特定話者用隠れマルコフモデルと上
記ベクトル量子化コード連鎖確率モデルとの両方を用い
て音素または単語モデルに対する確率を計算するモデル
確率計算部と、を設けたことを特徴とする不特定話者用音声認識装置。
【請求項２】多数話者の音声の音素または単語のベク
トル量子化コード系列を統計的に表現する隠れマルコフ
モデルを記憶した不特定話者用隠れマルコフモデルメモ
リを備え、入力話者が発声した認識すべき音声から音響
パラメータベクトルを抽出し、その音響パラメータベク
トルを有限個の離散的なベクトル量子化コード系列に変
換し、上記入力音声の発声内容を認識する不特定話者用
音声認識装置において、上記入力話者が予め話者適応化用に発声した音声のベク
トル量子化コード系列のベクトル量子化コード連鎖確率
を計算するベクトル量子化コード連鎖確率計算部と、そのベクトル量子化コード連鎖確率を表現したベクトル
量子化コード連鎖確率モデルを記憶したベクトル量子化
コード連鎖確率モデルメモリと、上記入力話者が発声した認識すべき音声のベクトル量子
化コード系列に対し、上記音素または単語の不特定話者
用隠れマルコフモデルと上記入力話者のベクトル量子化
コード連鎖確率モデルとの両方を用いて音素または単語
モデルに対する確率を計算するモデル確率計算部と、を設けたことを特徴とする不特定話者用音声認識装置。