JPH09160584A

JPH09160584A - 音声適応化装置および音声認識装置

Info

Publication number: JPH09160584A
Application number: JP7324305A
Authority: JP
Inventors: Keizaburo Takagi; 啓三郎高木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-12-13
Filing date: 1995-12-13
Publication date: 1997-06-20
Anticipated expiration: 2015-12-13
Also published as: EP0779609A2; EP0779609A3; JP3001037B2; EP0779609B1; DE69614233D1; DE69614233T2; US5890113A

Abstract

(57)【要約】【課題】入力音声の発声環境によらず高精度な話者適
応化を行なうことが可能な音声適応化装置を提供する。【解決手段】入力音声を特徴ベクトルの時系列に変換
する分析部１と、分析部１と同様のやり方で標準話者音
声を特徴ベクトルの時系統に変換して蓄積した標準パタ
ンの格納部３と、入力音声の特徴ベクトルの時系列と標
準パタンとの間で時間軸対応付けを行なうマッチング部
２と、マッチング部２のマッチング結果を基に入力音声
の特徴ベクトルの時系列と標準パタンとの間の環境に関
する適応化を行なう環境適応部４と、環境適応部４が適
応化した後の標準パタンと入力音声の特徴ベクトルの時
系列との間で話者に関する適応化を行なう話者適応部６
とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識における適
応化技術に関し、特に入力音声と標準パタンとの違いを
適合化させ認識性能を向上する技術に関するものであ
る。

【０００２】

【従来の技術】音声の認識を行なう際に、入力音声と標
準パタン音声の性質とが異なることにより音声の認識率
が低下することが知られている。これらの性質の異なり
のうち、特に音声の認識率低下を招く大きな要因として
は、話者の発声環境によるものと話者自身の音声による
ものの２つの要因に大別される。また、環境の要因はさ
らに背景雑音のように発声者の音声と同時に混入しスペ
クトル上で加法的に作用する付加雑音とマイクロホンや
電話回線の伝達特性などのようにスペクトルそのものを
歪ませ、スペクトル上で乗法的に作用する回線歪みの２
つの要因に分けられる。

【０００３】従来、これらの異なりのうち発声環境によ
るものに対処するための種々の適応化手法が存在する。
例えば、環境による付加雑音、回線歪みの２つの要因に
対処し、環境による音声の認識率の低下を防止すること
を目的とした適応化手法が存在している。例えば、高
木、服部、渡辺：“スペクトル写像による環境適応機能
を有する音声認識”、音響学会春季講演論文集、２−Ｐ
−８、ｐｐ．１７３−１７４（１９９４．３）（以下引
用文献［１］とする）には、音声認識装置に用いられて
いる音声適応化装置が開示されている。

【０００４】この音声適応化装置は、図４に示すような
構成となる。以下、引用文献［１］の手法について詳細
に説明する。付加雑音および伝送歪みによって変形を受
けた入力音声は、分析部４１にて特徴ベクトルの時系列
に変換される。標準パタン格納部４３は、予め学習用音
声を分析部４１と同様のやり方で分析したものを学習
し、認識対象単語毎の時系列情報を標準パタンとして保
持してあり、各単語標準パタンには予め音声区間、雑音
区間の別を示すラベルが付与されている。マッチング部
４２は入力音声の特徴ベクトルの時系列と標準パタンの
各単語標準パタンの時系列との間のマッチングを行な
い、第１位の単語標準パタンを選出し、さらに入力音声
とその単語標準パタンとの間の時間軸に関する対応付け
を求める。環境適応部４４は、マッチング部４２によっ
て得られた第１位の単語標準パタンと入力音声の特徴ベ
クトルとの間の対応付けを基に、それぞれの雑音区間、
音声区間の平均ベクトルを算出する。ここで、入力音声
の音声区間および雑音区間の平均ベクトルをそれぞれＳ
_v、Ｎ_vとし、単語標準パタンの音声区間および雑音区
間の平均ベクトルをそれぞれＳ_w、Ｎ_wとする。環境適
応部４４は、これら４つの平均ベクトルを用い、下記の
数式１を用いて標準パタンの適応化を行ない、適応後の
標準パタンを適応後の標準パタン格納部４５に格納す
る。

【０００５】

【数１】ただし、Ｗ（ｋ）は適応化前の標準パタン（ｋは全標準
パタンのインデクス）、Ｗ′（ｋ）は適応化後の標準パ
タンとする。このような適応化を行なうことにより標準
パタンと入力音声との間の環境の差異が無くなり、入力
環境が変化した場合でも安定で高い性能を有する音声適
応化装置を提供することが可能である。

【０００６】また、従来標準話者音声と認識対象の話者
の音声との話者に関する異なりを適応化し、音声の認識
率を向上させる、いわゆる話者適応とよばれる技術が存
在する。これは、例えば、篠田、磯、渡辺：“音声認識
のためのスペクトル内挿を用いた話者適応化”、電子情
報通信学会論文誌、Ａ、Ｖｏｌ．Ｊ７７−Ａ、Ｎｏ．
２、ｐｐ．１２０−１２７（１９９４年２月）（以下引
用文献［２］とする）に開示されている。この音声適応
化装置は例えば図５に示すような構成となる。

【０００７】すなわち図５では、標準話者と性質の異な
る話者が発声した入力音声は、分析部５１にて特徴ベク
トルの時系列に変換される。標準パタン格納部５３は、
予め標準話者の学習用音声を分析部５１と同様のやり方
で分析したものを学習し、認識対象単語毎の時系列乗法
を標準パタンとして保持してある。マッチング部５２は
入力音声の特徴ベクトルの時系列と標準パタン格納部５
３の各単語標準パタンの時系列との間のマッチングを行
ない、第１位の単語標準パタンを選出し、さらに入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けを求める。なお、ここではマッチング部５２が第１位
の単語標準パタンを自ら選出する場合（教師なし話者適
応）を示したが、第１位の単語標準パタンを予め与える
場合（教師あり話者適応）、マッチング部５２は入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けだけを求めるような構成とすることも可能である。話
者適応部５４は、マッチング部５２によって得られた第
１位の単語標準パタンと入力音声の特徴ベクトルとの間
の対応付けを基に、音響単位（引用文献［２］では分
布）毎に以下のような適応化を行なう。標準パタン格納
部５３の標準パタンの分布ｊに対する平均値μ_jと、ｊ
に対応付けられた入力に対する平均値μ_j′とを用いて
その分布毎の適応化ベクトルΔ_jを以下に求める。

【０００８】 Δ_j＝μ_j′−μ_j （２）また、対応付けが存在しなかった標準パタン部５３標準
パタンの分布ｉに対しては、引用文献［２］に述べられ
ているように、下記の数式２で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。

【０００９】

【数２】ただし、ｊは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。結局、上の２つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、適応化後の標準パタンが話者適
応部５４から出力され、適応化後の標準パタンや格納部
５５に格納される。

【００１０】

【発明が解決しようとする課題】しかしながら、図４に
示す環境適応を用いた従来の音声適応化装置において
は、音声全体に現れる平均的な環境差の適応化のみを目
的としているため、話者適応のような音響単位毎の高精
度な適応化はもともと不可能である。このため、環境差
がなく話者の異なりのみが存在するような音声に対して
は、原理的に適応化がうまく行なえないという問題点が
あった。

【００１１】また、図５に示す話者適応を用いた従来の
音声適応化装置においては、音声全体に現れる異なり
（主に環境の要因）も同時に適応化するため、得られた
適応化結果は話者の違いと環境の違いを同時に保持する
ことになる。したがって、適応化を行なう音声と音声認
識時の音声の環境が異なる場合には、環境の違いに起因
する異なりにより高い効果が得られなかった。また、適
応化を行なう音声に種々の異なる環境で発声されたもの
同士が混在する場合にも、環境の異なりによりうまく適
応化が行なえないという問題点があった。

【００１２】本発明は上述の問題を解決するものであ
り、本発明の目的は、適応化音声がどのような環境で発
声されても、環境によらない話者の違いのみを高い精度
で抽出し、高精度な適応化を行なう音声適応化装置を提
供することにある。

【００１３】

【課題を解決するための手段】本発明の第１の態様によ
れば、標準発声環境で標準話者により発声された標準話
者音声を所定のやり方で前記標準話者音声の特徴ベクト
ルの時系列に変換することにより得られた前記標準話者
音声の特徴ベクトルの時系列を標準パタンとして格納し
ている標準パタン格納部と、入力音声環境で入力話者に
より発声された入力音声を前記所定のやり方で前記入力
音声の特徴ベクトルの時系列に変換する分析部と、前記
入力音声の特徴ベクトルの時系列と前記標準パタンとの
間で時間軸対応付けを行ないマッチング結果を出力する
マッチング部と、前記マッチング結果を基に、前記標準
パタンを前記入力音声の特徴ベクトルの時系列と前記標
準パタンとの間の音声環境の異なりを適応化した状態に
適応化し、環境適応化後の標準パタンを出力する環境適
応部と、前記環境適応後の標準パタンをこの環境適応後
の標準パタンと前記入力音声の特徴ベクトルの時系列と
の間の話者の異なりを適応化した状態に適応化し、話者
適応化後の標準パタンを出力する話者適応部とを備えた
ことを特徴とする音声適応化装置が得られる。

【００１４】本発明の第２の態様によれば、前記特徴ベ
クトルはケプストラムまたは対数スペクトルを含むもの
であって、前記環境適応部は、対応付けられた前記入力
音声の特徴ベクトルの音声区間と前記標準パタンの音声
区間とで、ケプストラムまたは対数スペクトルに関する
平均値同士の差を用いて標準パタンの適応化を行なうこ
とを特徴とする音声適応化装置が得られる。

【００１５】本発明の第３の態様によれば、前記環境適
応部は、前記入力音声の特徴ベクトルと前記標準パタン
との間で求めた、入力音声の音声区間の平均スペクトル
Ｓ_vと、標準パタンの音声区間の平均スペクトルＳ
_wと、入力音声の雑音区間の平均スペクトルＮ_vと、標
準パタンの雑音区間の平均スペクトルＮ_wとの４つの平
均スペクトルを用いて、標準パタンｋのスペクトルＷ
（ｋ）を、｛（Ｓ_v−Ｎ_v）（Ｗ（ｋ）−Ｎ_w）／（Ｓ
_w−Ｎ_w）｝＋Ｎ_vで変換することにより標準パタンの
適応化を行なうことを特徴とする音声適応化装置が得ら
れる。

【００１６】本発明の第４の態様によれば、前記話者適
応部は、前記標準パタン内の単語より小さな音響単位
（例えば、音素、音節、分布など）毎に、対応付けが起
こったかあるいは予め定めた一定個数以上である音響単
位に対しては当該音響単位と、対応付けられた入力音声
の特徴ベクトルとの平均値同士の差または比（以後適応
化ベクトルと称する）を用いて適応化し、対応付けが全
く起きなかったか、あるいは対応付けが起こっても予め
定めた一定個数に満たない音響単位に対しては、当該音
響単位と、対応付けが起こった他の音響単位との間の距
離に応じた重みを用いて対応付けが起こった他の音響単
位の適応化ベクトルの重み付き加算和を計算して適応化
ベクトルとし、適応化を行なうことを特徴とする音声適
応化装置が得られる。

【００１７】本発明の第５の態様によれば、前記標準パ
タン内の音響単位を相互の距離の小さいもの同士を木構
造に配列し、ノードの子にノードまたは音響単位を有
し、最下位のノードの子には音響単位を有し、１つのノ
ードには対応付けが起こった全ての音響単位の適応化ベ
クトルを平均した代表適応化ベクトルと当該ノードの下
位に属する全ての音響単位の対応付け個数の総和を保持
している木構造標準パタン格納部を更に備え、前記話者
適応部は、標準パタン内の単語より小さな音響単位（例
えば、音素、音節、分布など）毎に、対応付けが起こっ
たかあるいは予め定めた一定個数以上である音響単位に
対しては当該音響単位と、対応付けられた入力音声の特
徴ベクトルとの平均値同士の差または比（以後適応化ベ
クトルと称する）を用いて適応化し、対応付けが全く起
きなかったか、あるいは対応付けが起こっても予め定め
た一定個数に満たない音響単位に対しては、前記木構造
標準パタン格納部の当該音響単位の親ノードのうち、対
応付け総和が予め定めた値以上となる中で最も下位のノ
ードの代表適応化ベクトルを当該音響単位の適応化ベク
トルとし、適応化を行なうことを特徴とする音声適応化
装置が得られる。

【００１８】本発明の第６の態様によれば、上述の第１
〜第５の態様のいずれかによる音声適応化装置と、前記
話者適応化後の標準パタンと前記入力音声との間で最も
類似するパタンを選出し、当該パタンが属するカテゴリ
を認識結果として出力する認識部とを備えたことを特徴
とする音声認識装置が得られる。

【００１９】

【作用】本発明は、適応化のための入力音声から環境に
起因する異なりを環境適応を用いて除去した後に話者に
関する適応化を行なうことにより入力音声の発声環境に
影響されない、しかも高精度な適応化装置を提供できる
という効果を得るものであり、従来の話者適応または環
境適応単独では解決出来なかった問題点を解決するとい
う効果を得るものである。

【００２０】

【発明の実施の形態】本発明の第１の態様による音声適
応化装置の作用を図１を用いて説明する。ここでは、環
境適応部４として引用文献［１］に示すもの、話者適応
部６として引用文献［２］に示すものを例に説明する
が、この他環境適応および話者適応を行なう適応化技術
であれば同様に用いることが可能である。雑音を含む入
力音声は分析部１にて特徴ベクトルの時系列に変換され
る。一般に特徴ベクトルとして良く用いられているもの
は、例えば古井：“ディジタル音声処理”、東海大学出
版、ｐｐ．１５４−１６０（１９８５）。（以下引用文
献［３］とする）に述べられている種々のものが知られ
ているが、ここではＬＰＣ分析、ＦＦＴ分析などによっ
て得られるスペクトルを用いる場合について述べること
とし、その導出法については述べない。得られたスペク
トルの時系列をＸ（ｔ）（ｔは離散的な時刻）で表す。
なお、特徴ベクトルとしてケプストラムを用いる場合に
おいても、スペクトルとケプストラムとの間は互いに可
逆であることが自明であるため、ここではスペクトルを
使った場合のみ説明する。入力音声は一般に音声の始終
端を正確に切り出すことは困難であり、始端の子音が欠
落する場合も起こり得るので、通常は切り出した始終端
より少し長めの音声を分析することで音声の欠落を防止
している。標準パタン格納部３には予め標準話者音声を
分析部１と同様の方法を用いて分析した標準パタンを保
持する。マッチング部２は入力音声の特徴ベクトルの時
系列Ｘ（ｔ）と標準パタンとの間の対応付けを行なう。
環境適応部４は、入力音声および標準パタンの音声部
分、雑音部分の入力音声および標準パタンの平均ベクト
ルをそれぞれ出力する。入力音声の音声および雑音の平
均ベクトルをそれぞれＳ_v、Ｎ_vとし、標準パタン３の
音声および雑音の平均ベクトルをそれぞれＳ_w、Ｎ_wと
する。環境適応部４はこれら４つの平均ベクトルを用
い、下記の数式３を用いて標準パタンの適応化を行な
い、環境適応後の標準パタンを環境適応化後の標準パタ
ン格納部５に格納する。

【００２１】

【数３】ただし、Ｗ（ｔ）は適応化前の標準パタン（ｔは全標準
パタンのインデクス）、Ｗ′（ｔ）は環境適応後の標準
パタンとする。この環境適応後の標準パタンは、入力と
標準パタンに関する環境の異なりを含んでいないため、
環境の変動に対しては高い性能を有することが知られて
いる。話者適応部６は、環境適応後の標準パタンと、入
力音声の特徴ベクトルの時系列Ｘ（ｔ）との音響単位毎
の異なりを補正する。ここでは、音響単位を分布とし、
分布毎に以下のような適応化を行なう。

【００２２】環境適応後の標準パタンの分布ｊに対する
平均値μ_jと、ｊに対応付けられた入力に対する平均値
Ｘ_j′とを用いてその分布毎の適応化ベクトルΔ_jを以
下に求める。

【００２３】 Δ_j＝Ｘ_j′−μ_j （５）また、対応付けが存在しなかった環境適応後の標準パタ
ンの分布ｉに対しては、引用文献［２］に述べられてい
るように、下記の数式４で表されるスペクトル内挿と呼
ばれる方法を用いて適応化を行なう。

【００２４】

【数４】ただし、ｊは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。結局、上の２つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、話者適応化後の標準パタンが話
者適応部６から出力され話者適応化後の標準パタン格納
部７に格納される。すなわち、話者適応部６は、環境適
応では除去できなかった音響単位毎の異なりを話者の異
なりととらえ、音響単位毎の高精度な適応化を行なう。

【００２５】本発明によれば、話者に関する適応化を行
なう前に環境に関する異なりを除去するため、入力音声
の環境に影響されない高精度な話者適応を行なう音声適
応化装置を提供できるという効果を得、従来の音声適応
化装置単独では得られなかった効果を有する。

【００２６】以下、図１の音声適応化装置について具体
的に説明する。この音声適応化装置は、入力発声環境で
入力話者により発声された入力音声を所定のやり方で入
力音声の特徴ベクトルの時系列に変換する分析部１を有
する。標準パタン格納部３は、標準発声環境で標準話者
により発声された標準話者音声を、分析部１と同様の前
記所定のやり方で標準話者音声の特徴ベクトルの時系列
に変換することにより得られた標準話者音声の特徴ベク
トルの時系列を標準パタンとして格納している。マッチ
ング部２は、入力音声の特長ベクトルの時系列と標準パ
タンとの間で時間軸対応付けを行ないマッチング結果を
出力する。環境適応部４は、マッチング結果を基に、標
準パタンを入力音声の特徴ベクトルの時系列と標準パタ
ンとの間の発声環境の異なりを適応化した状態に適応化
し、環境適応化後の標準パタンを出力し、環境適応後の
標準パタンを環境適応化後の標準パタン格納部５に格納
する。話者適応部６は、環境適応後の標準パタンを、こ
の環境適応後の標準パタンと入力音声の特徴ベクトルの
時系列との間の話者の異なりを適応化した状態に適応化
し、話者適応化後の標準パタンを出力し、話者適応化後
の標準パタンを話者適応化後の標準パタン格納部７に格
納する。

【００２７】雑音を含む未知話者の入力音声は分析部１
にてマッチングのための特徴ベクトルの時系列に変換さ
れる。一般に特徴ベクトルとして良く用いられているも
のは、パワー情報、パワー情報の変化量、ケプストラ
ム、ケプストラムの線形回帰係数などが考えられ、これ
らを組み合わせたものを特徴ベクトルとすることも可能
である。あるいはまた、スペクトルそのものを用いた
り、対数化スペクトルを用いることも可能である。入力
音声には通常発声の前後に音声のない、周囲雑音だけが
含まれる部分が存在する。標準パタン格納部３は分析部
１と同様のやり方で分析し標準話者の音声を標準パタン
として蓄積している。この標準パタンの作成の方法は例
えば引用文献［３］のｐｐ．１６２−１７０に述べられ
ているようにＨＭＭ（ＨｉｄｄｅｎＭａｒｏｋｏｖ
Ｍｏｄｅｌ）を用いたものであっても、またベクトル量
子化を行なったコードブックであっても音声の特徴ベク
トルそのものであっても良い。マッチング部２は、標準
パタンと入力音声の特徴ベクトルの時系列との間の対応
付けを行なう。この対応付けは、時間軸正規化マッチン
グとしてＤＰマッチングあるいはＨＭＭ（Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ）などの方法が挙げられ
る。環境適応部４はマッチング部２にて得られた対応付
け情報を用いて、環境に関する適応化を行なう。

【００２８】本発明の第２の態様による音声適応化装置
では、この環境適応部４に関して、ケプストラム平均値
補正（ＣＭＮ：ＣｅｐｓｔｒｕｍＭｅａｎＮｏｒｍ
ａｌｉｚａｔｉｏｎ）と呼ばれる方式を用いて行なう。
例えば、Ａ．Ｅ．Ｒｏｓｅｎｂｅｒｇ，ｅｔａｌ．：
“ＣｅｐｓｔｒａｌＣｈａｎｎｅｌＮｏｒｍａｌｉ
ｚａｔｉｏｎＴｅｃｈｉｎｉｑｕｅｆｏｒＨＭＭ
−ＢａｓｅｄＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉ
ｏｎ”，ＩＣＳＬＰ９４，Ｓ３１．１，ｐｐ．１８３５
−１８３８（１９９４）（以下引用文献［４］とする）
に用いられている音声適応化装置では、特徴ベクトルは
ケプストラムを用い、入力音声の音声部分に対してのみ
適応化を行なう。具体的に示すと、入力音声の音声部分
の特徴ベクトル（ケプストラム）をｙ_tとし、その音声
部分の特徴ベクトルｙ_tの平均値をｙ′とし、標準パタ
ンの音声部分の平均値をｙ（ｔｒ）′とすると、ｙ_t←ｙ_t−（ｙ′−ｙ（ｔｒ）´）（７）により適応化を行なう。すなわち、入力音声音声部分の
ケプストラムを入力音声と標準パタンの音声部分の平均
的なケプストラム差分を用いて置換する。もちろん、こ
れとは対照的に標準パタンの方ｙ_t（ｔｒ）を置換する
ような以下の補正も同様に可能である。

【００２９】ｙ_t（ｔｒ）←ｙ_t（ｔｒ）＋（ｙ′−ｙ（ｔｒ）´）（８）本発明の第２の音声適応化装置として、ここでは特徴ベ
クトルがケプストラムを用いた場合を示したが、ケプス
トラムと対数スペクトルは１対１の可逆な変換あること
が自明であるため、対数スペクトルを用いた場合も同様
に行なうことが可能である。

【００３０】また、本発明の第３の態様の音声適応化装
置では、環境適応部４は、例えば引用文献［１］にある
ような適応化を行なう。入力音声の音声区間および雑音
区間の平均スペクトルをそれぞれＳ_v、Ｎ_vとし、単語
標準パタンの音声区間および雑音区間の平均スペクトル
をそれぞれＳ_w、Ｎ_wとすると、環境適応化部４は、例
えば、下記の数式５を用いて標準パタンの適応化を行な
う。

【００３１】

【数５】ただし、Ｗ（ｔ）は適応化前の標準パタン（ｔは全標準
パタンのインデクス）、Ｗ′（ｔ）は適応化後の標準パ
タンとする。この例では、標準パタンに対する適応化を
示したが、入力音声に対しても同様の処理を行なうこと
も可能である。この適応化手法はスペクトル上での適応
化であるが、特徴ベクトルがケプストラムであるような
場合には、ケプストラムとスペクトル相互間の変換部を
設けることにより容易に実現可能である。この場合、平
均ベクトルはケプストラム上で求めても良いし、一旦ス
ペクトルに変換した後に求めても良い。

【００３２】話者適応部６は、環境適応部４で環境に関
する適応化を行なった後の標準パタンを用いて話者に関
する適応化を行なう。一般に話者適応と呼ばれる手法は
種々のものが提案されているが、ここでは、本発明の第
４の態様の音声適応化装置におけるスペクトル内挿話適
応（引用文献［２］）と呼ばれるものについて説明す
る。なお、この他の話者適応技術も同様に話者適応部６
として用いることがもちろん可能である。環境適応後の
標準パタンの分布ｊに対する平均値μ_jと、ｊに対応付
けられた入力に対する平均値Ｘ_j′とを用いてその分布
毎の適応化ベクトルΔ_jを以下に求める。

【００３３】 Δ_j＝Ｘ_j′−μ_j （１０）また、対応付けが存在しなかった標準パタン部５の標準
パタンの分布ｉに対しては、引用文献［２］に述べられ
ているように、下記の数式６で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。

【００３４】

【数６】ただし、ｊは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。これらの適応化ベ
クトルを用いて話者適応部６は、音響カテゴリｉあるい
はｊに属するすべての標準パタンｋに対して、 μ_k′＝μ_k＋Δ （１２）で適応化する。ここで、Δはｋの種類によりΔ_iまたは
Δ_jのどちらか一方を適宜選択して用い、μ_kもｋの種
類によりμ_iまたはμ_jのどちらか一方を適宜選択して
用いるものとする。また、μ_k′はｋの種類により
μ_i′またはμ_j′のどちらか一方を表す。この例で
は、適応化ベクトルを用いて標準パタン部５の標準パタ
ンを大きく適応化した場合について述べたが、例えば適
当な係数αを用いて、 μ_k′＝｛（１＋α）μ_k＋Δ｝／（１＋α）（１３）のようにαを用いることで適応化の度合を制御し、大き
く適応化するのを防ぐように構成することも可能であ
る。この例では、話者適応部６は標準パタン５に対して
のみ適応化しているが、入力音声に対して同等の処理を
することももちろん可能である。

【００３５】図２は本発明の第５の態様による音声適応
化装置を示すブロック図である。この音声適応化装置
は、図１に示す音声適応化装置に加えて、標準パタン内
の音響単位を相互の距離の小さいもの同士を木構造に配
列し、ノードの子にノードまたは音響単位を有し、最下
位のノードの子には音響単位を有し、１つのノードには
対応付けが起こった全ての音響単位の適応化ベクトルを
平均した代表適応化ベクトルと当該ノードの下位に属す
る全ての音響単位の対応付け個数の総和を保持している
ような木構造標準パタン可能部２８を有し、話者適応部
６は、標準パタン内の単語より小さな音響単位（例え
ば、音素、音節、分布など）毎に、対応付けが起こった
かあるいは予め定めた一定個数以上である音響単位に対
しては当該音響単位と、対応付けられた入力音声の特徴
ベクトルとの平均値同士の差または比（以後適応化ベク
トルと称する）を用いて適応化し、対応付けが全く起き
なかったか、あるいは対応付けが起こっても予めた一定
個数に満たない音響単位に対しては、木構造標準パタン
格納部２８の当該音響単位の親ノードのうち、対応付け
総和が予め定めた値以上となる中で最も下位のノードの
代表適応化ベクトルを当該音響単位の適応化ベクトルと
し、適応化を行なう。

【００３６】話者適応部６は、木構造標準パタン格納部
２８を用いて適応化を行なう。この木構造は例えば、篠
田、渡辺：“木構造化された確率分布を用いた話者適応
化”、音響学会春季講演論文集、２−５−１０、ｐｐ．
４９−５０（１９９５．３）。（以下引用文献［５］と
する）で述べられている方法を用いて予め標準パタン格
納部３の標準パタンの全ての分布が木構造状に配列さ
れ、類似した分布同士が同じノードに属するような配列
を行なう。環境適応後の標準パタンの分布ｊに対する平
均値μ_jと、ｊに対応付けられた入力に対する平均値Ｘ
_j′とを用いてその分布毎の適応化ベクトルΔ_jを以下
に求める。

【００３７】 Δ_j＝Ｘ_j′−μ_j （１４）また、対応付けが存在しなかったか、または存在してい
ても予め定めた個数以下であるような環境適応後の標準
パタンの分布ｉに対しては、引用文献［５］に述べられ
ているように、木構造をリーフ（最下位）ノードから上
位に調べてゆき、予め定めた個数以上になったノードの
代表適応化ベクトルをその分布ｊの適応化ベクトルと
し、環境適応後の標準パタンを適応化し、話者適応後の
標準パタンを出力し、話者適応後の標準パタン格納部７
に格納する。

【００３８】図３は本発明による音声認識装置を本発明
の第１の態様による音声適応化装置を用いて構成した例
を示すブロック図である。この音声認識装置は、本発明
の第１〜第５の態様による適応化装置を備え、認識部８
では話者適応後の標準パタン格納部７の標準パタンと入
力音声との間で通常の音声認識と同様のマッチングを行
ない、第１位の結果を認識結果として出力する。

【００３９】

【発明の効果】以上から明らかなように、本発明の第１
の態様による音声適応化装置によれば、環境適応により
環境のことなりを除去した後に話者適応を行なうことに
より、従来環境適応単独ではなし得なかった高精度な適
応化が可能となると共に、話者適応においても環境によ
らない話者の違いのみを高い精度で抽出することが出来
るため高精度な適応化が実現可能となった。

【００４０】本発明の第２の態様による音声適応化装置
によれば、本発明の第１の態様による音声適応化装置が
有する効果に加えて、環境の適応化がケプストラム上の
差分のみで行なえるため、計算量、メモリ量の増加が少
なく、より廉価な装置が提供出来るという効果を有す
る。

【００４１】本発明の第３の態様による音声適応化装置
によれば、本発明の第１の態様による音声適応化装置が
有する効果と、本発明の第２の態様による音声適応化装
置に比べてより高い環境の適応化精度を有するため、よ
り高精度な音声適応化装置を実現可能となる。

【００４２】本発明の第４の態様による音声適応化装置
によれば、本発明の第１の態様による音声適応化装置が
有する効果に加えて、対応付けがない音響単位も高精度
に適応化されるためより少ないデータでも高い精度を有
する話者適応化が実現でき、ひいてはより高精度な音声
適応化装置の提供が可能となる。

【００４３】本発明の第５の態様による音声適応化装置
によれば、本発明の第１の態様による音声適応化装置が
有する効果と、本発明の第４の態様による音声適応化装
置が必要としたデータ量に応じたパタメータのコントロ
ールがなくても安定した話者適応化が行なえ、ひいては
より高精度な音声適応化装置の提供が可能となる。

【００４４】本発明の音声認識装置によれば、本発明の
第１〜第５の態様による音声適応化装置が有する効果を
備えた高精度な音声認識装置を提供できるという効果を
有する。

【図面の簡単な説明】

【図１】本発明による音声適応化装置のブロック図であ
る。

【図２】本発明によるもう一つの音声適応化装置のブロ
ック図である。

【図３】本発明による音声認識装置のブロック図であ
る。

【図４】従来の音声適応化装置のブロック図である。

【図５】従来のもう一つの音声適応化装置のブロック図
である。

【符号の説明】

１分析部２マッチング部３標準パタン格納部４環境適応部５環境適応後の標準パタン格納部６話者適応部７話者適応後の標準パタン格納部８認識部２８木構造標準パタン格納部

Claims

【特許請求の範囲】

【請求項１】標準発声環境で標準話者により発声され
た標準話者音声を所定のやり方で前記標準話者音声の特
徴ベクトルの時系列に変換することにより得られた前記
標準話者音声の特徴ベクトルの時系列を標準パタンとし
て格納している標準パタン格納部と、入力発声環境で入力話者により発声された入力音声を前
記所定のやり方で前記入力音声の特徴ベクトルの時系列
に変換する分析部と、前記入力音声の特徴ベクトルの時系列と前記標準パタン
との間で時間軸対応付けを行ないマッチング結果を出力
するマッチング部と、前記マッチング結果を基に、前記標準パタンを前記入力
音声の特徴ベクトルの時系列と前記標準パタンとの間の
発声環境の異なりを適応化した状態に適応化し、環境適
応化後の標準パタンを出力する環境適応部と、前記環境適応後の標準パタンをこの環境適応後の標準パ
タンと前記入力音声の特徴ベクトルの時系列との間の話
者の異なりを適応化した状態に適応化し、話者適応化後
の標準パタンを出力する話者適応部とを備えたことを特
徴とする音声適応化装置。
【請求項２】前記特徴ベクトルは、ケプストラムまた
は対数スペクトラムを含むものであって、前記環境適応部は、対応付けられた前記入力音声の特徴
ベクトルの音声区間と前記標準パタンの音声区間とで、
ケプストラムまたは対数スペクトルに関する平均値同士
の差を用いて標準パタンの適応化を行なうことを特徴と
する請求項１記載の音声適応化装置。
【請求項３】前記環境適応部は、前記入力音声の特徴
ベクトルと前記標準パタンとの間で求めた、入力音声の
音声区間の平均スペクトルＳ_vと、標準パタンの音声区
間の平均スペクトルＳ_wと、入力音声の雑音区間の平均
スペクトルＮ_vと、標準パタンの雑音区間スペクトルＮ
_wとの４つの平均スペクトルを用いて、標準パタンｋの
スペクトルＷ（ｋ）を、｛（Ｓ_v−Ｎ_v）（Ｗ（ｋ）−
Ｎ_w）／（Ｓ_w−Ｎ_w）｝＋Ｎ_vで変換することにより
標準パタンの適応化を行なうことを特徴とする請求項１
記載の音声適応化装置。
【請求項４】前記話者適応部は、前記標準パタン内の
単語より小さな音響単位毎に、対応付けが起こったかあ
るいは予め定めた一定個数以上である音響単位に対して
は当該音響単位と、対応付けられた入力音声の特徴ベク
トルとの平均値同士の差または比である適応化ベクトル
を用いて適応化し、対応付けが全く起きなかったか、あ
るいは対応付けが起こっても予め定めた一定個数に満た
ない音響単位に対しては、当該音響単位と、対応付けが
起こった他の音響単位との間の距離に応じた重みを用い
て対応付けが起こった他の音響単位の適応化ベクトルの
重み付き加算和を計算して適応化ベクトルとし、適応化
を行なうことを特徴とする請求項１記載の音声適応化装
置。
【請求項５】前記標準パタン内の音響単位を相互の距
離の小さいもの同士を木構造に配列し、ノードの子にノ
ードまたは音響単位を有し、最下位のノードの子には音
響単位を有し、１つのノードには対応付けが起こった全
ての音響単位の適応化ベクトルを平均した代表適応化ベ
クトルと当該ノードの下位に属する全ての音響単位の対
応付け個数の総和を保持している木構造標準パタン格納
部を更に備え、前記話者適応部は、前記標準パタン内の単語より小さな
音響単位毎に、対応付けが起こったかあるいは予め定め
た一定個数以上である音響単位に対しては当該音響単位
と、対応付けられた入力音声の特徴ベクトルとの平均値
同士の差または比である適応化ベクトルを用いて適応化
し、対応付けが全く起きなかったか、あるいは対応付け
が起こっても予め定めた一定個数に満たない音響単位に
対しては、前記木構造標準パタン格納部の当該音響単位
の親ノードのうち、対応付け総和が予め定めた値以上と
なる中で最も下位のノードの代表適応化ベクトルを当該
音響単位の適応化ベクトルとし、適応化を行なうことを
特徴とする請求項１記載の音声適応化装置。
【請求項６】請求項１〜５のいずれかに記載の音声適
応化装置と、前記話者適応化後の標準パタンと前記入力音声との間で
最も類似するパタンを選出し、当該パタンが属するカテ
ゴリを認識結果として出力する認識部とを備えたことを
特徴とする音声認識装置。