JP2000214880A

JP2000214880A - 音声認識方法及び音声認識装置

Info

Publication number: JP2000214880A
Application number: JP2000014228A
Authority: JP
Inventors: Goronjii Silke; ゴロンジーシルケ; Konpe Ralf; コンペラルフ; Buchner Peter; ブフナーペーター
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 1999-01-20
Filing date: 2000-01-20
Publication date: 2000-08-04
Also published as: DE69924596T2; EP1022725B1; EP1022725A1; DE69924596D1

Abstract

(57)【要約】【課題】不特定話者の音声認識において適応化の効率
を良くする。【解決手段】話者の変更を検出し、話者を識別し、音
声認識の動作において、識別された話者に適応する特定
話者適応モデルのセットが存在する場合は、その特定話
者適応モデルのセットを用い、存在しない場合は、話者
用の特定話者適応モデルを新たに生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識を行う音
声認識方法及び音声認識装置に関し、特に、不特定話者
の音声認識において適応化の効率を良くする音声認識方
法及び音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、任意の音声セグ
メント（speech segment）の音響特性(acoustic proper
ties)をモデル化した統計的な分布（statistical distr
ibution）を利用している。これらの音響特性は、特徴
ベクトル（feature vectors）にエンコードされる。例
えば、各音素（phoneme）に対して１つのガウス分布を
得ることができる。これらの分布は、それぞれ１つの状
態と対応付けられる。（確率的な）状態遷移ネットワー
ク、例えば隠れマルコフモデル（Hidden Markov Mode
l：以下、ＨＭＭモデルという。）は、状態の連続及び
特徴ベクトルの連続の確率を定義する。状態を進める毎
に、音声信号のフレーム、例えば音声信号の１０ｍｓ分
をカバーする１つの特徴ベクトルが生成される。

【０００３】このような音声認識装置の確率パラメータ
は、特定話者（Speaker Dependent：ＳＤ）方式では単
一話者が発した多量の音声データを用い、又は不特定話
者（Speaker Independent：ＳI）方式では多くの話者が
発した多量の音声データを用いて学習される。

【０００４】話者適応化手法（Speaker Adaptation：Ｓ
Ａ）は、不特定話者（ＳＩ）方式の認識率を高める目的
で広く利用されている。従来の特定話者（ＳＤ）方式
は、不特定話者（ＳＩ）方式に比べてはるかに高い認識
率が得られる。しかし、多くの場合、単一話者から音声
認識装置が学習するのに十分なデータを得ることは容易
でない。民生用機器においては、十分なデータを得るこ
とは更に困難である。この認識率の差を解決するため
に、話者適応化アルゴリズムが広く用いられている。こ
の話者適応化アルゴリズムを用いることによって、特定
話者（ＳＤ）方式における特定話者データと比べると少
量の特定話者データを使用するだけで、不特定話者（Ｓ
Ｉ）方式において、特定話者（ＳＤ）方式に近い認識率
を得ることができる。このような話者適応化手法では、
最初は話者不特定モデルを用い、その後、より話者の音
響特性に一致するように適応化が行われる。

【０００５】適応化は、一般的には、教示（supervise
d）によって行われる。すなわち、音声認識装置は、発
せられた単語（words）が分かると、それらを認識す
る。これによって、セグメント単位の分布（segment-sp
ecific distributions）の時間的な配列（time alignme
nt）が得られる。適応化は、実際の特徴ベクトルと対応
する分布のパラメータの違い（mismatch）を基礎として
行われる。教示による適応化（supervised adaptatio
n）では、新しい話者が音声認識装置を実際に使用する
前に、新しい話者毎の適応授業（セッション）が必要と
される。

【０００６】話者適応化の技術では、一般的に、隠れマ
ルコフモデルのパラメータを、新しい話者の音響特性に
適合するように変更する。この処理は、一般的には、上
述のようにバッチ処理（batch）又はオフライン処理（o
ff-line）で行われる。すなわち、話者は、音声認識装
置を用いて認識を行わせる前に、所定の文章（text）を
読み上げる必要があり、読み上げられた文章は、適応化
を行うために処理される。そして、この処理が終了した
後、話者は、この音声認識装置を認識のために用いるこ
とができる。文章が音声認識装置にとって既知のもので
あり、音声信号を文章に対応するモデルに強制配列し
て、この強制配列が認識に用いられるので、このモード
は教示適応（supervised adaptation）と呼ばれる。

【０００７】しかしながら、殆どの種類の民生用機器に
対しては、非教示又はオンライン方式（unsupervised o
r on-line method）の方がより適している。この場合、
適応化は、音声認識装置が使用されている最中に行われ
る。認識された発話（utterance）は、適応化のために
用いられ、また、変更されたモデルは、次の発話の認識
のために用いられる。この場合、読み上げられる文章
は、音声認識装置には未知のものであるので、認識され
た単語が代わりに用いられる。

【０００８】特定の話者の発話の認識をより向上させる
ために、１つの話者適応モデルのセットに対する適応化
が繰り返し行われる。話者適応化の方法がいくつかあ
り、例えば帰納的最大確率（maximum a posteriori pro
bability：ＭＡＰ）適応化や、最尤線形回帰（maximum
likelihood linear regression：ＭＬＬＲ）適応化があ
る。

【０００９】ところで、例えば建物やシステムへの進入
者を制限するのに用いられる検証及び識別技術が知られ
ている。この技術は、音声認識装置においては、新しい
話者を識別するのに用いられている。

【００１０】

【発明が解決しようとする課題】上述した話者適応化の
ための音声認識装置、特に非教示の適応化を行う装置
は、１人の話者の適応化しか行わない。したがって、話
者が変わると、その新しい話者が高い認識率でその音声
認識装置を使用できるようになるまでには、不特定話者
（ＳＩ）方式でその話者の適応化を新たに行わなければ
ならない。

【００１１】家庭又は車内といった環境では話者が頻繁
に入れ替わるが、話者となる人物は、例えば家族の構成
員等、事実上定まっている。したがって、話者のうちの
１人がその音声認識装置を用いるたびに適応化を最初か
らすべて再度行い、特定の話者に対するすべての前のモ
デルを削除してしまうのは、効率が悪い。

【００１２】音声認識の技術は、例えばディクテーショ
ン装置等、様々な種類の音声認識装置で広く用いられて
いる。これらの音声認識装置の中には、複数の話者適応
モデルのセットを記憶して、複数の話者がそれぞれ異な
る話者適応モデルのセットを用いることができるものも
ある。しかしながら、どの話者適応モデルのセットを用
いるのかを、毎回手動で特定しなければならない。

【００１３】本発明は、上述した実情に鑑みてなされた
ものであり、本発明の目的は、不特定話者の音声認識に
おいて適応化の効率を良くすることができる音声認識方
法及び音声認識装置を提供することである。

【００１４】

【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る音声認識方法は、話者の変更を検
出するステップと、話者を識別するステップと、音声認
識の動作において、識別された話者に適応する特定話者
適応モデルのセットが存在する場合は、その特定話者適
応モデルのセットを用い、存在しない場合は、話者用の
特定話者適応モデルを新たに生成するステップとを有す
る。

【００１５】本発明に係る音声認識方法では、話者の変
更が検出され、その話者が識別される。その話者に対し
て既に適応化が行われている場合、その既に存在してい
る話者適応モデルのセットがその後の適応化に用いられ
る。その話者に対して適応化が行われていない場合は、
その話者用の話者適応モデルが新たに生成される。ま
た、本発明に係る音声認識装置では、誰が話しているの
かを識別するのに、話者検証の技術が用いられる。

【００１６】また、本発明に係る音声認識装置は、話者
の発話を受信してアナログ信号を出力するマイクロフォ
ンと、マイクロフォンに接続され、アナログ信号をデジ
タル信号に変換するＡ／Ｄ変換手段と、Ａ／Ｄ変換手段
に接続され、デジタル信号から、受信された話者からの
発話の特徴ベクトルを抽出する特徴抽出手段と、特徴抽
出手段に接続され、特徴ベクトルに基づいて、受信され
た話者からの発話を認識する認識手段と、認識手段から
出された認識結果を受信して、話者適応モデルのセット
を生成する及び／又は適応化に用いる適応手段と、新し
い話者を識別して、識別された話者の音声認識及び識別
された話者へのモデルの適応化の基礎となる個人の話者
適応モデルのセットを選択する検証手段とを備える。

【００１７】本発明に係る音声認識装置では、複数の定
まった人物が主に音声認識装置を使用し、その人物の間
で頻繁に入れ替えが行われるネットワーク化された環境
において、話者が入れ替わるたびに前回とは異なる話者
に対する適応化を再度行うことはせず、その話者を識別
し、この特定の話者用の話者適応モデルのセットが存在
する場合は、その話者適応モデルのセットに切り換え
る。この場合、この話者適応モデルのセットは、記憶さ
れ、認識及びその後の適応化に用いられる。この話者適
応モデルのセットとともに、その適応化に必要な統計的
なハイパーパラメータ（hyperparameter）が記憶され
る。このため、この適応化を継続することができ、この
同一の話者がこの音声認識装置を再び使用する際、適応
化を再度行わなくて済む。このようなハイパーパラメー
タは、例えば、ある話者に対応する話者適応モデルのセ
ットに適応する適応スピードを決定するための重み付け
である。一方、この特定の話者に対する話者適応モデル
のセットが存在しない場合、最初に不特定話者（ＳＩ）
方式を用いて適応化を行い、新しい話者適応モデルを作
る。

【００１８】

【発明の実施の形態】以下、本発明に係る音声認識方法
及び音声認識装置について、図面を参照しながら説明す
る。

【００１９】図１は、話者適応化及び話者の自動識別の
ために用いられる、本発明を適用した音声認識装置の一
部を示すブロック図である。

【００２０】この音声認識装置は、図１に示すように、
話者の発話を受信し、この発話に基づいてアナログ信号
を生成するマイクロフォン１と、マイクロフォン１に接
続されて、アナログ信号をデジタル信号に変換するＡ／
Ｄ変換器２と、Ａ／Ｄ変換器２に接続されて受信した信
号から特徴ベクトルを抽出する特徴抽出器３と、特徴抽
出器３に接続されて話者を識別する検証器４と、特徴抽
出器３に接続されて話者の発話を認識する認識器５と、
認識器５に接続されて話者にモデルのセットの適応化を
行う適応器６と、各モデルのセットを記憶するストレー
ジ装置７、８、９、１０と、検証器４からの制御信号に
従ってモデルのセットを切り換える切換スイッチ１１と
を備える。

【００２１】この音声認識装置では、隠れマルコフ（Ｈ
ＭＭ）モデルに基づいて音声認識が行われる。

【００２２】マイクロフォン１は、話者の発話をアナロ
グ音声信号に変換してＡ／Ｄ変換器２に供給する。Ａ／
Ｄ変換器２は、アナログ音声信号をデジタル信号に変換
し、特徴抽出器３に出力する。特徴抽出器３は、このデ
ジタル信号から、例えば１０ミリ秒毎に特徴ベクトルを
抽出する。この特徴ベクトルは、検証器４及び認識器５
に供給される。検証器４は、上述したように、話者の自
動識別を行う。認識器５は、抽出された特徴ベクトルと
ＨＭＭモデルのセットに基づいて話者の発話の認識を行
う。認識器５は、認識結果を適応器６に供給し、適応器
６は、特定の話者に特定のＨＭＭモデルのセットを適応
化させる。

【００２３】検証器４は、認識器５がアクセスし、適応
器６が適応化に用いるＨＭＭモデルのセットとして、話
者不特定モデルを選択するか、又は、異なる話者それぞ
れに適応する複数の話者適応モデルのセットのうちの１
つを選択する。これらの異なるモデルのセットは、対応
する各ハイパーパラメータとともにそれぞれストレージ
装置７、８、９、１０に記憶されている。認識器５及び
適応器６に接続されている選択端子を備える切換スイッ
チ１１は、検証器４から上述したモデルのセットのうち
の１つに供給される制御信号に従って、各ストレージ装
置７、８、９、１０に接続されている被選択端子を選択
することによって、モデルのセットを自動的に選択す
る。

【００２４】なお、話者適応モデルのセットを、個人の
話者に適応化させるのではなく、ドイツ人、イギリス
人、英語を話すドイツ人、アメリカ人等、又は、異なる
方言を話す人々のように、個々のグループに適応化させ
てもよい。これらのグループは、その音声信号に対して
直接機能する周知の言語又は方言の識別アルゴリズムに
従って、自動的に識別される。

【００２５】切換スイッチ１１の代わりに、これと同じ
機能を有する他の手法を用いてもよい。

【００２６】図２は、本発明を適用した音声認識装置に
おいて行われる検証及び適応化の手順を示すフローチャ
ートである。ステップＳ１において、マイクロフォン１
が話者の発話をアナログ信号に変換し、Ａ／Ｄ変換器２
がこのアナログ信号をデジタル信号に変換し、特徴抽出
器３がこのデジタル信号から特徴ベクトルを抽出する。
その後、ステップＳ２において、検証器４が、新しい話
者が話しているか否かを自動的に確認する。新しい話者
が話している場合は（ＹＥＳ）、ステップＳ３におい
て、検証器４が、この話者に適応する話者適応モデルの
セットが存在するか否かを確認する。話者適応モデルの
セットが存在する場合は（ＹＥＳ）、ステップＳ４にお
いて、適応器６がこの話者適応モデルのセットをその後
の適応化に用いる。その後、ステップＳ１において、こ
の音声認識装置は次の発話を処理し、この発話に対して
全工程を繰り返す。

【００２７】ステップＳ３において、話者適応モデルの
セットが存在しない場合は（ＮＯ）、ステップＳ６にお
いて、適応器６が話者不特定モデルを用いた適応化を行
い、新しい話者適応モデルがこの音声認識装置に加えら
れる。その後、ステップＳ１において、この音声認識装
置は次の発話を処理し、この発話に対して全工程を繰り
返す。ステップＳ２において、話者が新しい話者ではな
い場合は（ＮＯ）、ステップＳ５において、適応器６
が、その時点で使われている話者適応モデルのセットで
適応化を行う。その後、ステップＳ１において、この音
声認識装置は次の発話を処理し、この発話に対して全工
程を繰り返す。

【００２８】

【発明の効果】本発明に係る音声認識方法及び音声認識
装置では、話者が変更されると、話者の変更が検出さ
れ、その話者が識別され、その話者用の話者適応モデル
のセットが既にストレージ装置に記憶されている場合
は、その話者適応モデルのセットを用いて音声認識が行
われ、一方、その話者用の話者適応モデルのセットが記
憶されていない場合は、最初に不特定話者（ＳＩ）方式
を用いて適応化が行われ、新しい話者適応モデルが作ら
れるため、従来のように話者が入れ替わるたびに前回と
は異なる話者に対する適応化を再度行う必要がなく、一
度行った適応化を継続することができる。

【００２９】また、本発明に係る音声認識方法及び音声
認識装置では、話者が変更されると、従来のように手動
でモデルのセットを指定する必要はなく、切換スイッチ
によって、話者不特定モデル又は複数の話者適応モデル
のセットから適切なものが自動的に選択される。

【００３０】したがって、本発明に係る音声認識方法及
び音声認識装置によれば、不特定話者の音声認識におい
て適応化の効率を良くすることができる。

【図面の簡単な説明】

【図１】話者の音声認識及び自動識別のために用いられ
る、本発明を適用した音声認識装置の一部を示すブロッ
ク図である。

【図２】本発明を適用した音声認識装置において行われ
る検証及び適応化の手順を示すフローチャートである。

【符号の説明】

１マイクロフォン、２Ａ／Ｄ変換器、３特徴抽出
器、４検証器、５認識器、６適応器、７、８、
９、１０ストレージ装置、１１切換スイッチ

───────────────────────────────────────────────────── フロントページの続き (72)発明者シルケゴロンジードイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内 (72)発明者ラルフコンペドイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内 (72)発明者ペーターブフナードイツ連邦共和国ディー−70736 フェルバッハシュトゥットゥガルターシュトラーセ 106 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングシュトゥットゥガルトテクノロジーセンター内

Claims

【特許請求の範囲】

【請求項１】話者の変更を検出するステップと、話者を識別するステップと、音声認識の動作において、上記識別された話者に適応す
る特定話者適応モデルのセットが存在する場合は、該特
定話者適応モデルのセットを用い、存在しない場合は、
上記話者用の特定話者適応モデルを新たに生成するステ
ップとを有する音声認識方法。
【請求項２】話者不特定モデルに基づいて、特定話者
適応モデルのセットが生成されることを特徴とする請求
項１に記載の音声認識方法。
【請求項３】対応する話者の発話に基づいて、特定話
者適応モデルのセットが適応化に用いられることを特徴
とする請求項１乃至２のいずれか１項に記載の音声認識
方法。
【請求項４】対応する話者のハイパーパラメータに基
づいて、特定話者適応モデルのセットが適応化に用いら
れることを特徴とする請求項１乃至３のいずれか１項に
記載の音声認識方法。
【請求項５】上記音声認識は、隠れマルコフモデルに
基づいて行われることを特徴とする請求項１乃至４のい
ずれか１項に記載の音声認識方法。
【請求項６】話者の発話を受信してアナログ信号を出
力するマイクロフォンと、上記マイクロフォンに接続され、上記アナログ信号をデ
ジタル信号に変換するアナログ−デジタル変換手段と、上記アナログ−デジタル変換手段に接続され、受信され
た上記話者の発話の特徴ベクトルを上記デジタル信号か
ら抽出する特徴抽出手段と、上記特徴抽出手段に接続され、上記特徴ベクトルに基づ
いて、上記受信された上記話者からの発話を認識する認
識手段と、上記認識手段から出された認識結果を受信して、話者適
応モデルのセットを生成する及び／又は適応化に用いる
適応手段と、新しい話者を識別して、上記識別された話者の音声認識
及び上記識別された話者へのモデルの適応化の基礎とな
る個人の話者適応モデルのセットを選択する検証手段と
を備える音声認識装置。
【請求項７】話者不特定モデルと、適応化のハイパー
パラメータを含む各個人の話者適応モデルのセットとを
記憶するストレージ装置を備える請求項６に記載の音声
認識装置。
【請求項８】各適応化のハイパーパラメータは、対応
する個人の話者適応モデルのセットのストレージ装置に
記憶されていることを特徴とする請求項７に記載の音声
認識装置。