JPH06175678A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06175678A
JPH06175678A JP4203669A JP20366992A JPH06175678A JP H06175678 A JPH06175678 A JP H06175678A JP 4203669 A JP4203669 A JP 4203669A JP 20366992 A JP20366992 A JP 20366992A JP H06175678 A JPH06175678 A JP H06175678A
Authority
JP
Japan
Prior art keywords
pattern
vocabulary
learning
reference speaker
learning vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4203669A
Other languages
English (en)
Other versions
JPH0786758B2 (ja
Inventor
Koichi Shinoda
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4203669A priority Critical patent/JPH0786758B2/ja
Publication of JPH06175678A publication Critical patent/JPH06175678A/ja
Publication of JPH0786758B2 publication Critical patent/JPH0786758B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 使用者の発声を用いて作成された標準パター
ンを用いることにより認識性能を高める。 【構成】 参照話者学習用語彙独立パターン作成部10
1は参照話者の多数の語彙の発声データから参照話者学
習用語彙独立パターンRIを出力から参照話者学習用語
彙依存パターン作成部102は参照話者の学習用語彙の
発声データから参照話者学習用語彙依存パターンRDを
出力。変換写像作成部103はRIとRDとを入力し、
学習用語彙依存パターンから学習語彙独立パターンへの
変換写像Mを出力から新使用者学習用語彙依存パターン
作成部104は新使用者の学習用語彙の発声データから
未知話者の新使用者学習用語彙依存パターンPDを出
力。パターン変換部105はPDをMで標準パターンP
Iに変換。認識部106は新使用者の認識時の発声PI
から認識結果を出力。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、使用者の発声を用いて
作成された標準パターンを用いる音声認識装置に関す
る。
【0002】
【従来の技術】現在、音声認識の分野では、誰の声でも
認識できることを目的とした不特定話者の認識システム
が盛んに研究・開発されている。これらの認識システム
では、隠れマルコフモデル(Hidden Marko
v Model、以下HMMと略記)、ニューラルネッ
トワーク(Neural Network、以下NNと
略記)などの認識方式が広く使われている。HMMの詳
細については、例えば、「確率モデルによる音声認識」
中川聖一著、1988年、電子情報通信学会(以下文献
1とする)に詳しく解説されている。また、NNによる
音声認識に関しては、例えば、「音声・聴覚と神経回路
網モデル」甘利俊一編、1990年、オーム社(以下文
献2とする)に詳しい。これらの手法では、予め多数の
話者により発声された単語、文などの語彙からなる学習
用データを用いて標準パターンを学習し、それを用いて
認識を行っている。
【0003】不特定話者システムは、使用者を特定した
特定話者システムと違い、事前に使用者が発声を登録す
る必要がないという利点がある。しかしながら、近年、
次のような問題点が指摘された。まず、ほとんどの話者
において認識性能が特定話者システムより劣る。さら
に、認識性能が大幅に悪い話者(特異話者)が存在す
る。このような問題点を解決するために、従来、特定話
者システムにおいて用いられてきた、話者適応化の技術
を不特定話者システムにも適用しようという研究が最近
始まっている。
【0004】話者適応化とは、学習に用いるよりも少量
の学習用データを用いて、認識システムを新しい使用者
(未知話者)に適応化させる方式を指す。話者適応化方
式の詳細については、「音声認識における話者適応化技
術」、古井貞煕著、テレビジョン学会誌、Vol.4
3、No.9、1989、pp.929−934(以下
文献2とする)に解説されている。話者適応化は大きく
分けて2つの手法に分けられる。1つは教師なし話者適
応化、もう1つは教師あり話者適応化である。前者は、
未知話者の発声する語彙を予め指定する必要がないた
め、使いやすいという利点があるが、適応化後の認識性
能が後者には及ばない。したがって、現在は発声する語
彙を予め指定した教師あり適応化が主流である。
【0005】
【発明が解決しようとする課題】音声認識システムで
は、標準パターンを単語単位で用意すると未知単語を認
識できない。特定話者システムの場合は,未知単語が出
現する度に使用者がその単語を発声すればよいが、不特
定話者システムの場合、多くの話者の未知単語の発声を
用意することは事実上不可能である。そのため、多くの
不特定話者システムでは、単語より小さい音素、音節な
どの単位(以後、サブワード)を標準パターンの単位
(以下、認識単位)としている。単語、文の発声を認識
する際には、それを連結して、単語、文の標準パターン
を作成する。未知単語の場合も標準パターンを用意でき
る。
【0006】このような、サブワードを認識単位とした
不特定話者音声認識システムで教師あり話者適応化を行
う場合、次のような問題点がある。認識単位に対応する
音響的特徴量は、そのコンテキストによって、つまり、
その認識単位の前後にどのような認識単位が続いている
かによって異なる。学習用データに多くの語彙の発声が
含まれている場合には、そのデータは様々なコンテキス
トにおける発声を含んでいるため、それを用いて学習さ
れた標準パターンはコンテキストにほとんど依存しない
ものになっている。
【0007】しかしながら、適応化の場合、使用者の発
声の負担を小さくするため,学習用データの量は普通の
学習に用いられるものに比べ極めて少量にする必要があ
る。学習用データが少量の場合、当然、そこに含まれる
コンテキストの種類は限られ、そのデータから学習され
た標準パターンは学習用データの語彙(以下、学習用語
彙)に含まれるコンテキストに依存したものになる。そ
のような標準パターンは、学習用語彙に出現しなかった
コンテキストにおける発声に対し、認識性能の悪いもの
になっている。
【0008】本発明は、学習用語彙のコンテキストに依
存したパターンと学習用語彙のコンテキストに依存して
いないパターンとの間の写像を、参照話者の発声を用い
て予め作成しておき、新しい使用者の学習用語彙の発声
から作成された学習用語彙のコンテキストに依存したパ
ターンを、その写像を用いて学習語彙に依存しないもの
に変換し、変換後のパターンを標準パターンとして用い
ることにより、認識性能を高めることを目的とする。
【0009】
【課題を解決するための手段】本発明に係る音声認識装
置は、使用者の発声から作成された標準パターンを用い
る音声認識装置であって、参照話者の多数の語彙の発声
を入力し参照話者学習用語彙独立パターンを出力する参
照話者学習用語彙独立パターン作成部と、参照話者の学
習用語彙の発声を入力し参照話者学習用語彙依存パター
ンを出力する参照話者学習用語彙依存パターン作成部
と、前記参照話者学習用語彙独立パターンと前記参照話
者学習用語彙依存パターンを入力し前記参照話者学習用
語彙依存パターンから前記参照話者学習用語彙独立パタ
ーンへの変換写像を出力する変換写像作成部と、新使用
者の学習用語彙の発声を入力し、新使用者学習用語彙依
存パターンを出力する新使用者学習用語彙依存パターン
作成部と、前記新使用者学習用語彙依存パターンを前記
変換写像により変換し、標準パターンを出力するパター
ン変換部と、新使用者の発声を入力し、前記標準パター
ンを用いて認識を行う認識部と、から構成されることを
特徴とする。
【0010】
【実施例】以下、本発明による実施例を図面と共に説明
する。図1は本発明に係る標準パターン作成装置の1実
施例を示すブロック図である。
【0011】参照話者学習用語彙独立パターン作成部1
01は、参照話者の多数の語彙の発声データを入力し、
参照話者学習用語彙独立パターンRIを出力する。
【0012】参照話者学習用語彙依存パターン作成部1
02は、参照話者の学習用語彙の発声データを入力し、
参照話者学習用語彙依存パターンRDを出力する。
【0013】変換写像作成部103は、参照話者学習用
語彙独立パターンRIと参照話者学習用語彙依存パター
ンRDとを入力し,学習用語彙依存パターンから学習用
語彙独立パターンへの変換写像Mを出力する。
【0014】新使用者学習用語彙依存パターン作成部1
04は、新使用者語彙の発声データを入力し、未知話者
の新使用者学習用語彙依存パターンPDを出力する。
【0015】パターン変換部105は、新使用者の学習
用語彙依存パターンPDを入力し、それを変換写像Mに
より変換し、変換後のパターンPIを標準パターンとし
て出力する。
【0016】認識部106は、新使用者の認識時の発声
を入力し、標準パターンPIを用いて認識を行い、認識
結果を出力する。
【0017】以下に本発明に係る音声認識装置の動作に
ついて詳細に説明する。
【0018】音声認識装置に入力された話者の発声は、
AD変換、音声分析などの過程を経て、ある時間長をも
つフレームと呼ばれる単位ごとの特徴ベクトルの時系列
に変換される。フレームの長さは通常10msから10
0ms程度である。特徴ベクトルはその時刻における音
声スペクトルの特徴量を抽出したもので、通常10次元
から100次元である。この特徴ベクトルの時系列を、
ここでは発声データと呼ぶ。
【0019】以下、認識方式として、HMMを例にとっ
て説明する。HMMは音声の情報源のモデルの1つであ
る。HMMは各認識単位ごとに用意される。ここでは、
認識単位として音素を例にとる。単語や文を認識する場
合には、各音素のHMMを連結して、その単語や文のH
MMを作成する。各音素のHMMは、それぞれ、通常1
から10個の状態とその間の状態遷移から構成される。
通常は始状態と終状態が定義されており、単位時間ごと
に、各状態からシンボルが出力され、状態遷移が行われ
る。各音素の音声は、始状態から終状態までの状態遷移
の間にHMMから出力されるシンボルの時系列として表
される。各状態にはシンボルの出現率が、状態間の各遷
移には遷移確率が、定義されている。状態毎に出現確率
に応じてシンボルが発生し、遷移確率に応じて状態間を
遷移する。始状態の確率をある値に定め、状態遷移ごと
に出現確率、遷移確率を掛けていくことにより、発声が
そのモデルから発生する確率を求めることができる。逆
に、発声を観測した場合、それが、あるHMMから発生
したと仮定するとその発生確率が計算できることにな
る。HMMによる音声認識では,各認識候補に対してH
MMを用意し、発声が入力されると、各々のHMMにお
いて、発生確率を求め、最大となるHMMを発生源と決
定し、そのHMMに対応する認識候補をもって認識結果
とする。
【0020】HMMの著しい特徴は、モデルに対応する
音声を与えることにより、遷移確率、出現確率などのパ
ラメータを学習する、バウムーウェルチアルゴリズムと
呼ばれるアルゴリズムが存在することである。バウムー
ウェルチアルゴリズムについては文献1に詳しい。今、
シンボルは連続分布をなすと仮定すると、出現確率は連
続確率密度分布関数で表される。連続密度分布関数とし
て混合ガウス分布を用いる場合、そのパラメータは各分
布の平均ベクトルと分散ベクトル、および、各分布間の
重みを定める重み係数である。各状態における混合分布
の分布数は通常1から10程度である。各分布の平均ベ
クトル及び分散ベクトルは発声データと同じ次元をも
つ。各分布の重み係数はスカラーである。学習されうる
パラメータは、これら混合連続分布の平均ベクトル、及
び分散ベクトル、重み係数、そして、遷移確率である。
以下の例では、各分布の平均ベクトルを学習する場合を
例にとる。この場合、標準パターンは、音素ごとの、各
状態の各分布の平均ベクトルである。
【0021】今、音素の1つをとり、その1つの状態の
1つの分布の平均ベクトルμについて考える。
【0022】まず、予め用意された参照話者の学習用語
彙の発声データを用いて,学習用の語彙のコンテキスト
に依存した平均ベクトルμRDを学習する。参照話者は1
人でも複数でもよい。複数の場合、各話者ごとに平均ベ
クトルを学習してもよいし、参照話者すべてについて1
つの平均ベクトルを学習してもよい。ここでは、後者の
場合について説明する。学習方法は前述のバウムーウェ
ルチアルゴリズムを用いることができる。また、発声を
ビタービアルゴリズムにより、各分布に対応させ、各分
布に対応するすべての発声データを平均したものを平均
ベクトルとすることも可能である。ビタービアルゴリズ
ムについては文献1に詳しい。以上は、参照話者学習用
語彙依存パターン作成部101に対応する。
【0023】次に、予め用意された多数の参照話者の多
数の発声を用いて、学習用の語彙のコンテキストから独
立した平均ベクトルμRIを学習する。学習方法は上の場
合と同じである。この段階は、不特定話者システムにお
ける通常の学習に相当する。以上は、参照話者学習用語
彙独立パターン作成部102に対応する。
【0024】次に、上で作成した2種類の参照話者の平
均ベクトルを用いて、学習用語彙に依存した平均ベクト
ルから学習用語彙から独立した平均ベクトルへの写像を
作成する。写像は例えば、次のようなものを用いる。
【0025】
【数1】
【0026】ここで、μは入力する学習用語彙に依存し
た平均ベクトル、
【0027】
【数2】
【0028】は出力となる学習用語彙から独立した平均
ベクトルである。写像はその他様々なものが可能であ
る。ここで作成された写像を変換写像と呼ぶ。以上は、
変換写像作成部103に対応する。
【0029】ここまでの処理は新使用者が使用する以前
に行っておくことが可能である。以下は、新使用者が使
用する際の処理である。
【0030】まず、新使用者が発声した学習用語彙の発
声を用いて、新使用者の発声に適応しており、かつ、学
習用の語彙のコンテキストに依存している、平均ベクト
ルμPDを学習する。学習方法は参照話者の場合と同様で
ある。以上は、新使用者学習用語彙依存パターン作成部
104に対応する。
【0031】次に上の新使用者の学習用語彙に依存した
平均ベクトルを、変換写像を用いて変換し、学習用語彙
のコンテキストに依存しない平均ベクトルを推定する。
以上は、パターン変換部105に対応する。
【0032】以上の手続きを各音素の各状態の各分布に
ついて行う。
【0033】このように、標準パターンを作成した後、
音声認識装置の使用時においては、推定された平均ベク
トルをもつHMMを用いて、入力された新使用者の発声
を認識する。HMMの認識方式については、文献1に詳
しい。以上は認識部106に対応する。
【0034】ここでは、参照話者が複数で、全話者で1
つの平均ベクトルμRD、μRIを学習している場合を例に
あげたが、各話者ごとに平均ベクトルを学習してもよ
い。その場合、式(1)の2式第2項はそれら複数の話
者におけるμRI、μRDの差を適当に重み付けて全参照話
者について和をとったものにすればよい。
【0035】また、ここでは、混合分布中の1つの分布
のみを用いて写像を作成し、平均ベクトルを変換してい
るが、他の分布も同時に用いて、写像を作成することも
可能である。他の分布としては、同じ状態の他の分布、
あるいは、他の状態の分布、他の認識単位の分布などが
考えられる。このような場合には、分布に対応する複数
の平均ベクトルが作成された写像を用いて変換される。
【0036】今回、写像は非線形なものを例にあげた
が、線形なものでも、非線形なものでも、用いることが
可能である。
【0037】参照話者の人数は可変である。1人でも可
能である。
【0038】また、ここでは、簡単のため、参照話者学
習用語彙依存パターン、参照話者学習用語彙独立パター
ン、新使用者学習用語彙依存パターンの学習方式はすべ
て同一としたが、これらがそれぞれ異なっていても、本
発明を適用することが可能である。
【0039】ここでは、平均ベクトルのみを学習する例
を示したが、その他の分散、重み、遷移確率なども同様
の方式で学習することが容易に可能である。また、それ
らパラメータのうち、同時に複数のものを学習すること
が可能である。ここでは、認識単位として、音素を例に
とりあげたが、音素以外の、音節、半音節など他の認識
単位の場合も、本本式は容易に適用可能である。
【0040】ここでは、認識方式としてHMMを例にあ
げて説明したが、他の認識方式、例えば、NN、DPマ
ッチングなどの認識方式においても、パラメータを学習
する際に、本方式を適用することが容易に可能である。
【0041】
【発明の効果】限られた数の学習用語彙の発声を用いて
作成された標準パターンは学習用語彙のコンテキストに
依存している。他の話者の多数の語彙の発声から作成さ
れた写像を用いてコンテキストの影響を補正することに
より、コンテキストから独立した標準パターンを推定す
ることが可能になる。従来より少量の学習用発声で認識
性能の高い標準パターンを作成できる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の一実施例を示すブ
ロック図である。
【符号の説明】
101 参照話者学習用語彙依存パターン作成部 102 参照話者学習用語彙独立パターン作成部 103 変換写像作成部 104 新使用者学習用語彙依存パターン作成部 105 パターン変換部 106 認識部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 使用者の発声から作成された標準パター
    ンを用いる音声認識装置であって、参照話者の多数の語
    彙の発声を入力し参照話者学習用語彙独立パターンを出
    力する参照話者学習用語彙独立パターン作成部と、 参照話者の学習用語彙の発声を入力し参照話者学習用語
    彙依存パターンを出力する参照話者学習用語彙依存パタ
    ーン作成部と、 前記参照話者学習用語彙独立パターンと前記参照話者学
    習用語彙依存パターンを入力し、前記参照話者学習用語
    彙依存パターンから前記参照話者学習用語彙独立パター
    ンへの変換写像を出力する変換写像作成部と、 新使用者の学習用語彙の発声を入力し、新使用者学習用
    語彙依存パターンを出力する新使用者学習用語彙依存パ
    ターン作成部と、 前記新使用者学習用語彙依存パターンを前記変換写像に
    より変換し、標準パターンを出力するパターン変換部
    と、 新使用者の発声を入力し、前記標準パターンを用いて認
    識を行う認識部と、 から構成されることを特徴とする音声認識装置。
JP4203669A 1992-07-30 1992-07-30 音声認識装置 Expired - Fee Related JPH0786758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4203669A JPH0786758B2 (ja) 1992-07-30 1992-07-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4203669A JPH0786758B2 (ja) 1992-07-30 1992-07-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06175678A true JPH06175678A (ja) 1994-06-24
JPH0786758B2 JPH0786758B2 (ja) 1995-09-20

Family

ID=16477897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4203669A Expired - Fee Related JPH0786758B2 (ja) 1992-07-30 1992-07-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0786758B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100577990B1 (ko) * 1997-12-31 2006-08-30 엘지전자 주식회사 화자종속/독립음성인식장치
WO2009133719A1 (ja) * 2008-04-30 2009-11-05 日本電気株式会社 音響モデル学習装置および音声認識装置
JP2016102820A (ja) * 2014-11-27 2016-06-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
WO2024151028A3 (ko) * 2023-01-09 2025-05-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100577990B1 (ko) * 1997-12-31 2006-08-30 엘지전자 주식회사 화자종속/독립음성인식장치
WO2009133719A1 (ja) * 2008-04-30 2009-11-05 日本電気株式会社 音響モデル学習装置および音声認識装置
JP5423670B2 (ja) * 2008-04-30 2014-02-19 日本電気株式会社 音響モデル学習装置および音声認識装置
US8751227B2 (en) 2008-04-30 2014-06-10 Nec Corporation Acoustic model learning device and speech recognition device
JP2016102820A (ja) * 2014-11-27 2016-06-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US9870767B2 (en) 2014-11-27 2018-01-16 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US9870766B2 (en) 2014-11-27 2018-01-16 International Business Machines Incorporated Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US9984680B2 (en) 2014-11-27 2018-05-29 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US9984681B2 (en) 2014-11-27 2018-05-29 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
WO2024151028A3 (ko) * 2023-01-09 2025-05-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Also Published As

Publication number Publication date
JPH0786758B2 (ja) 1995-09-20

Similar Documents

Publication Publication Date Title
US5865626A (en) Multi-dialect speech recognition method and apparatus
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
JPH075892A (ja) 音声認識方法
JP2955297B2 (ja) 音声認識システム
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
Boite et al. A new approach towards keyword spotting.
JP3535292B2 (ja) 音声認識システム
Padmanabhan et al. Speech recognition performance on a voicemail transcription task
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Liu et al. The Cambridge University 2014 BOLT conversational telephone Mandarin Chinese LVCSR system for speech translation.
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
JPH06175678A (ja) 音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
Tolba et al. Speech recognition by intelligent machines
JP2976795B2 (ja) 話者適応化方式
JP3105708B2 (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP3033322B2 (ja) 連続音声認識方法
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
JPH1097270A (ja) 音声認識装置
JP4654452B2 (ja) 音響モデル生成装置、およびプログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080920

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080920

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090920

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090920

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100920

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees