JPH09160584A - 音声適応化装置および音声認識装置 - Google Patents
音声適応化装置および音声認識装置Info
- Publication number
- JPH09160584A JPH09160584A JP7324305A JP32430595A JPH09160584A JP H09160584 A JPH09160584 A JP H09160584A JP 7324305 A JP7324305 A JP 7324305A JP 32430595 A JP32430595 A JP 32430595A JP H09160584 A JPH09160584 A JP H09160584A
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- standard pattern
- speaker
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 236
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims description 33
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 13
- 238000009826 distribution Methods 0.000 description 23
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 入力音声の発声環境によらず高精度な話者適
応化を行なうことが可能な音声適応化装置を提供する。 【解決手段】 入力音声を特徴ベクトルの時系列に変換
する分析部1と、分析部1と同様のやり方で標準話者音
声を特徴ベクトルの時系統に変換して蓄積した標準パタ
ンの格納部3と、入力音声の特徴ベクトルの時系列と標
準パタンとの間で時間軸対応付けを行なうマッチング部
2と、マッチング部2のマッチング結果を基に入力音声
の特徴ベクトルの時系列と標準パタンとの間の環境に関
する適応化を行なう環境適応部4と、環境適応部4が適
応化した後の標準パタンと入力音声の特徴ベクトルの時
系列との間で話者に関する適応化を行なう話者適応部6
とを備える。
応化を行なうことが可能な音声適応化装置を提供する。 【解決手段】 入力音声を特徴ベクトルの時系列に変換
する分析部1と、分析部1と同様のやり方で標準話者音
声を特徴ベクトルの時系統に変換して蓄積した標準パタ
ンの格納部3と、入力音声の特徴ベクトルの時系列と標
準パタンとの間で時間軸対応付けを行なうマッチング部
2と、マッチング部2のマッチング結果を基に入力音声
の特徴ベクトルの時系列と標準パタンとの間の環境に関
する適応化を行なう環境適応部4と、環境適応部4が適
応化した後の標準パタンと入力音声の特徴ベクトルの時
系列との間で話者に関する適応化を行なう話者適応部6
とを備える。
Description
【0001】
【発明の属する技術分野】本発明は音声認識における適
応化技術に関し、特に入力音声と標準パタンとの違いを
適合化させ認識性能を向上する技術に関するものであ
る。
応化技術に関し、特に入力音声と標準パタンとの違いを
適合化させ認識性能を向上する技術に関するものであ
る。
【0002】
【従来の技術】音声の認識を行なう際に、入力音声と標
準パタン音声の性質とが異なることにより音声の認識率
が低下することが知られている。これらの性質の異なり
のうち、特に音声の認識率低下を招く大きな要因として
は、話者の発声環境によるものと話者自身の音声による
ものの2つの要因に大別される。また、環境の要因はさ
らに背景雑音のように発声者の音声と同時に混入しスペ
クトル上で加法的に作用する付加雑音とマイクロホンや
電話回線の伝達特性などのようにスペクトルそのものを
歪ませ、スペクトル上で乗法的に作用する回線歪みの2
つの要因に分けられる。
準パタン音声の性質とが異なることにより音声の認識率
が低下することが知られている。これらの性質の異なり
のうち、特に音声の認識率低下を招く大きな要因として
は、話者の発声環境によるものと話者自身の音声による
ものの2つの要因に大別される。また、環境の要因はさ
らに背景雑音のように発声者の音声と同時に混入しスペ
クトル上で加法的に作用する付加雑音とマイクロホンや
電話回線の伝達特性などのようにスペクトルそのものを
歪ませ、スペクトル上で乗法的に作用する回線歪みの2
つの要因に分けられる。
【0003】従来、これらの異なりのうち発声環境によ
るものに対処するための種々の適応化手法が存在する。
例えば、環境による付加雑音、回線歪みの2つの要因に
対処し、環境による音声の認識率の低下を防止すること
を目的とした適応化手法が存在している。例えば、高
木、服部、渡辺:“スペクトル写像による環境適応機能
を有する音声認識”、音響学会春季講演論文集、2−P
−8、pp.173−174(1994.3)(以下引
用文献[1]とする)には、音声認識装置に用いられて
いる音声適応化装置が開示されている。
るものに対処するための種々の適応化手法が存在する。
例えば、環境による付加雑音、回線歪みの2つの要因に
対処し、環境による音声の認識率の低下を防止すること
を目的とした適応化手法が存在している。例えば、高
木、服部、渡辺:“スペクトル写像による環境適応機能
を有する音声認識”、音響学会春季講演論文集、2−P
−8、pp.173−174(1994.3)(以下引
用文献[1]とする)には、音声認識装置に用いられて
いる音声適応化装置が開示されている。
【0004】この音声適応化装置は、図4に示すような
構成となる。以下、引用文献[1]の手法について詳細
に説明する。付加雑音および伝送歪みによって変形を受
けた入力音声は、分析部41にて特徴ベクトルの時系列
に変換される。標準パタン格納部43は、予め学習用音
声を分析部41と同様のやり方で分析したものを学習
し、認識対象単語毎の時系列情報を標準パタンとして保
持してあり、各単語標準パタンには予め音声区間、雑音
区間の別を示すラベルが付与されている。マッチング部
42は入力音声の特徴ベクトルの時系列と標準パタンの
各単語標準パタンの時系列との間のマッチングを行な
い、第1位の単語標準パタンを選出し、さらに入力音声
とその単語標準パタンとの間の時間軸に関する対応付け
を求める。環境適応部44は、マッチング部42によっ
て得られた第1位の単語標準パタンと入力音声の特徴ベ
クトルとの間の対応付けを基に、それぞれの雑音区間、
音声区間の平均ベクトルを算出する。ここで、入力音声
の音声区間および雑音区間の平均ベクトルをそれぞれS
v 、Nv とし、単語標準パタンの音声区間および雑音区
間の平均ベクトルをそれぞれSw 、Nw とする。環境適
応部44は、これら4つの平均ベクトルを用い、下記の
数式1を用いて標準パタンの適応化を行ない、適応後の
標準パタンを適応後の標準パタン格納部45に格納す
る。
構成となる。以下、引用文献[1]の手法について詳細
に説明する。付加雑音および伝送歪みによって変形を受
けた入力音声は、分析部41にて特徴ベクトルの時系列
に変換される。標準パタン格納部43は、予め学習用音
声を分析部41と同様のやり方で分析したものを学習
し、認識対象単語毎の時系列情報を標準パタンとして保
持してあり、各単語標準パタンには予め音声区間、雑音
区間の別を示すラベルが付与されている。マッチング部
42は入力音声の特徴ベクトルの時系列と標準パタンの
各単語標準パタンの時系列との間のマッチングを行な
い、第1位の単語標準パタンを選出し、さらに入力音声
とその単語標準パタンとの間の時間軸に関する対応付け
を求める。環境適応部44は、マッチング部42によっ
て得られた第1位の単語標準パタンと入力音声の特徴ベ
クトルとの間の対応付けを基に、それぞれの雑音区間、
音声区間の平均ベクトルを算出する。ここで、入力音声
の音声区間および雑音区間の平均ベクトルをそれぞれS
v 、Nv とし、単語標準パタンの音声区間および雑音区
間の平均ベクトルをそれぞれSw 、Nw とする。環境適
応部44は、これら4つの平均ベクトルを用い、下記の
数式1を用いて標準パタンの適応化を行ない、適応後の
標準パタンを適応後の標準パタン格納部45に格納す
る。
【0005】
【数1】 ただし、W(k)は適応化前の標準パタン(kは全標準
パタンのインデクス)、W′(k)は適応化後の標準パ
タンとする。このような適応化を行なうことにより標準
パタンと入力音声との間の環境の差異が無くなり、入力
環境が変化した場合でも安定で高い性能を有する音声適
応化装置を提供することが可能である。
パタンのインデクス)、W′(k)は適応化後の標準パ
タンとする。このような適応化を行なうことにより標準
パタンと入力音声との間の環境の差異が無くなり、入力
環境が変化した場合でも安定で高い性能を有する音声適
応化装置を提供することが可能である。
【0006】また、従来標準話者音声と認識対象の話者
の音声との話者に関する異なりを適応化し、音声の認識
率を向上させる、いわゆる話者適応とよばれる技術が存
在する。これは、例えば、篠田、磯、渡辺:“音声認識
のためのスペクトル内挿を用いた話者適応化”、電子情
報通信学会論文誌、A、Vol.J 77−A、No.
2、pp.120−127(1994年2月)(以下引
用文献[2]とする)に開示されている。この音声適応
化装置は例えば図5に示すような構成となる。
の音声との話者に関する異なりを適応化し、音声の認識
率を向上させる、いわゆる話者適応とよばれる技術が存
在する。これは、例えば、篠田、磯、渡辺:“音声認識
のためのスペクトル内挿を用いた話者適応化”、電子情
報通信学会論文誌、A、Vol.J 77−A、No.
2、pp.120−127(1994年2月)(以下引
用文献[2]とする)に開示されている。この音声適応
化装置は例えば図5に示すような構成となる。
【0007】すなわち図5では、標準話者と性質の異な
る話者が発声した入力音声は、分析部51にて特徴ベク
トルの時系列に変換される。標準パタン格納部53は、
予め標準話者の学習用音声を分析部51と同様のやり方
で分析したものを学習し、認識対象単語毎の時系列乗法
を標準パタンとして保持してある。マッチング部52は
入力音声の特徴ベクトルの時系列と標準パタン格納部5
3の各単語標準パタンの時系列との間のマッチングを行
ない、第1位の単語標準パタンを選出し、さらに入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けを求める。なお、ここではマッチング部52が第1位
の単語標準パタンを自ら選出する場合(教師なし話者適
応)を示したが、第1位の単語標準パタンを予め与える
場合(教師あり話者適応)、マッチング部52は入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けだけを求めるような構成とすることも可能である。話
者適応部54は、マッチング部52によって得られた第
1位の単語標準パタンと入力音声の特徴ベクトルとの間
の対応付けを基に、音響単位(引用文献[2]では分
布)毎に以下のような適応化を行なう。標準パタン格納
部53の標準パタンの分布jに対する平均値μj と、j
に対応付けられた入力に対する平均値μj ′とを用いて
その分布毎の適応化ベクトルΔj を以下に求める。
る話者が発声した入力音声は、分析部51にて特徴ベク
トルの時系列に変換される。標準パタン格納部53は、
予め標準話者の学習用音声を分析部51と同様のやり方
で分析したものを学習し、認識対象単語毎の時系列乗法
を標準パタンとして保持してある。マッチング部52は
入力音声の特徴ベクトルの時系列と標準パタン格納部5
3の各単語標準パタンの時系列との間のマッチングを行
ない、第1位の単語標準パタンを選出し、さらに入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けを求める。なお、ここではマッチング部52が第1位
の単語標準パタンを自ら選出する場合(教師なし話者適
応)を示したが、第1位の単語標準パタンを予め与える
場合(教師あり話者適応)、マッチング部52は入力音
声とその単語標準パタンとの間の時間軸に関する対応付
けだけを求めるような構成とすることも可能である。話
者適応部54は、マッチング部52によって得られた第
1位の単語標準パタンと入力音声の特徴ベクトルとの間
の対応付けを基に、音響単位(引用文献[2]では分
布)毎に以下のような適応化を行なう。標準パタン格納
部53の標準パタンの分布jに対する平均値μj と、j
に対応付けられた入力に対する平均値μj ′とを用いて
その分布毎の適応化ベクトルΔj を以下に求める。
【0008】 Δj =μj ′−μj (2) また、対応付けが存在しなかった標準パタン部53標準
パタンの分布iに対しては、引用文献[2]に述べられ
ているように、下記の数式2で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。
パタンの分布iに対しては、引用文献[2]に述べられ
ているように、下記の数式2で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。
【0009】
【数2】 ただし、jは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。結局、上の2つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、適応化後の標準パタンが話者適
応部54から出力され、適応化後の標準パタンや格納部
55に格納される。
パタンのカテゴリを表すものとする。結局、上の2つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、適応化後の標準パタンが話者適
応部54から出力され、適応化後の標準パタンや格納部
55に格納される。
【0010】
【発明が解決しようとする課題】しかしながら、図4に
示す環境適応を用いた従来の音声適応化装置において
は、音声全体に現れる平均的な環境差の適応化のみを目
的としているため、話者適応のような音響単位毎の高精
度な適応化はもともと不可能である。このため、環境差
がなく話者の異なりのみが存在するような音声に対して
は、原理的に適応化がうまく行なえないという問題点が
あった。
示す環境適応を用いた従来の音声適応化装置において
は、音声全体に現れる平均的な環境差の適応化のみを目
的としているため、話者適応のような音響単位毎の高精
度な適応化はもともと不可能である。このため、環境差
がなく話者の異なりのみが存在するような音声に対して
は、原理的に適応化がうまく行なえないという問題点が
あった。
【0011】また、図5に示す話者適応を用いた従来の
音声適応化装置においては、音声全体に現れる異なり
(主に環境の要因)も同時に適応化するため、得られた
適応化結果は話者の違いと環境の違いを同時に保持する
ことになる。したがって、適応化を行なう音声と音声認
識時の音声の環境が異なる場合には、環境の違いに起因
する異なりにより高い効果が得られなかった。また、適
応化を行なう音声に種々の異なる環境で発声されたもの
同士が混在する場合にも、環境の異なりによりうまく適
応化が行なえないという問題点があった。
音声適応化装置においては、音声全体に現れる異なり
(主に環境の要因)も同時に適応化するため、得られた
適応化結果は話者の違いと環境の違いを同時に保持する
ことになる。したがって、適応化を行なう音声と音声認
識時の音声の環境が異なる場合には、環境の違いに起因
する異なりにより高い効果が得られなかった。また、適
応化を行なう音声に種々の異なる環境で発声されたもの
同士が混在する場合にも、環境の異なりによりうまく適
応化が行なえないという問題点があった。
【0012】本発明は上述の問題を解決するものであ
り、本発明の目的は、適応化音声がどのような環境で発
声されても、環境によらない話者の違いのみを高い精度
で抽出し、高精度な適応化を行なう音声適応化装置を提
供することにある。
り、本発明の目的は、適応化音声がどのような環境で発
声されても、環境によらない話者の違いのみを高い精度
で抽出し、高精度な適応化を行なう音声適応化装置を提
供することにある。
【0013】
【課題を解決するための手段】本発明の第1の態様によ
れば、標準発声環境で標準話者により発声された標準話
者音声を所定のやり方で前記標準話者音声の特徴ベクト
ルの時系列に変換することにより得られた前記標準話者
音声の特徴ベクトルの時系列を標準パタンとして格納し
ている標準パタン格納部と、入力音声環境で入力話者に
より発声された入力音声を前記所定のやり方で前記入力
音声の特徴ベクトルの時系列に変換する分析部と、前記
入力音声の特徴ベクトルの時系列と前記標準パタンとの
間で時間軸対応付けを行ないマッチング結果を出力する
マッチング部と、前記マッチング結果を基に、前記標準
パタンを前記入力音声の特徴ベクトルの時系列と前記標
準パタンとの間の音声環境の異なりを適応化した状態に
適応化し、環境適応化後の標準パタンを出力する環境適
応部と、前記環境適応後の標準パタンをこの環境適応後
の標準パタンと前記入力音声の特徴ベクトルの時系列と
の間の話者の異なりを適応化した状態に適応化し、話者
適応化後の標準パタンを出力する話者適応部とを備えた
ことを特徴とする音声適応化装置が得られる。
れば、標準発声環境で標準話者により発声された標準話
者音声を所定のやり方で前記標準話者音声の特徴ベクト
ルの時系列に変換することにより得られた前記標準話者
音声の特徴ベクトルの時系列を標準パタンとして格納し
ている標準パタン格納部と、入力音声環境で入力話者に
より発声された入力音声を前記所定のやり方で前記入力
音声の特徴ベクトルの時系列に変換する分析部と、前記
入力音声の特徴ベクトルの時系列と前記標準パタンとの
間で時間軸対応付けを行ないマッチング結果を出力する
マッチング部と、前記マッチング結果を基に、前記標準
パタンを前記入力音声の特徴ベクトルの時系列と前記標
準パタンとの間の音声環境の異なりを適応化した状態に
適応化し、環境適応化後の標準パタンを出力する環境適
応部と、前記環境適応後の標準パタンをこの環境適応後
の標準パタンと前記入力音声の特徴ベクトルの時系列と
の間の話者の異なりを適応化した状態に適応化し、話者
適応化後の標準パタンを出力する話者適応部とを備えた
ことを特徴とする音声適応化装置が得られる。
【0014】本発明の第2の態様によれば、前記特徴ベ
クトルはケプストラムまたは対数スペクトルを含むもの
であって、前記環境適応部は、対応付けられた前記入力
音声の特徴ベクトルの音声区間と前記標準パタンの音声
区間とで、ケプストラムまたは対数スペクトルに関する
平均値同士の差を用いて標準パタンの適応化を行なうこ
とを特徴とする音声適応化装置が得られる。
クトルはケプストラムまたは対数スペクトルを含むもの
であって、前記環境適応部は、対応付けられた前記入力
音声の特徴ベクトルの音声区間と前記標準パタンの音声
区間とで、ケプストラムまたは対数スペクトルに関する
平均値同士の差を用いて標準パタンの適応化を行なうこ
とを特徴とする音声適応化装置が得られる。
【0015】本発明の第3の態様によれば、前記環境適
応部は、前記入力音声の特徴ベクトルと前記標準パタン
との間で求めた、入力音声の音声区間の平均スペクトル
Svと、標準パタンの音声区間の平均スペクトルS
w と、入力音声の雑音区間の平均スペクトルNv と、標
準パタンの雑音区間の平均スペクトルNw との4つの平
均スペクトルを用いて、標準パタンkのスペクトルW
(k)を、{(Sv −Nv )(W(k)−Nw )/(S
w −Nw )}+Nv で変換することにより標準パタンの
適応化を行なうことを特徴とする音声適応化装置が得ら
れる。
応部は、前記入力音声の特徴ベクトルと前記標準パタン
との間で求めた、入力音声の音声区間の平均スペクトル
Svと、標準パタンの音声区間の平均スペクトルS
w と、入力音声の雑音区間の平均スペクトルNv と、標
準パタンの雑音区間の平均スペクトルNw との4つの平
均スペクトルを用いて、標準パタンkのスペクトルW
(k)を、{(Sv −Nv )(W(k)−Nw )/(S
w −Nw )}+Nv で変換することにより標準パタンの
適応化を行なうことを特徴とする音声適応化装置が得ら
れる。
【0016】本発明の第4の態様によれば、前記話者適
応部は、前記標準パタン内の単語より小さな音響単位
(例えば、音素、音節、分布など)毎に、対応付けが起
こったかあるいは予め定めた一定個数以上である音響単
位に対しては当該音響単位と、対応付けられた入力音声
の特徴ベクトルとの平均値同士の差または比(以後適応
化ベクトルと称する)を用いて適応化し、対応付けが全
く起きなかったか、あるいは対応付けが起こっても予め
定めた一定個数に満たない音響単位に対しては、当該音
響単位と、対応付けが起こった他の音響単位との間の距
離に応じた重みを用いて対応付けが起こった他の音響単
位の適応化ベクトルの重み付き加算和を計算して適応化
ベクトルとし、適応化を行なうことを特徴とする音声適
応化装置が得られる。
応部は、前記標準パタン内の単語より小さな音響単位
(例えば、音素、音節、分布など)毎に、対応付けが起
こったかあるいは予め定めた一定個数以上である音響単
位に対しては当該音響単位と、対応付けられた入力音声
の特徴ベクトルとの平均値同士の差または比(以後適応
化ベクトルと称する)を用いて適応化し、対応付けが全
く起きなかったか、あるいは対応付けが起こっても予め
定めた一定個数に満たない音響単位に対しては、当該音
響単位と、対応付けが起こった他の音響単位との間の距
離に応じた重みを用いて対応付けが起こった他の音響単
位の適応化ベクトルの重み付き加算和を計算して適応化
ベクトルとし、適応化を行なうことを特徴とする音声適
応化装置が得られる。
【0017】本発明の第5の態様によれば、前記標準パ
タン内の音響単位を相互の距離の小さいもの同士を木構
造に配列し、ノードの子にノードまたは音響単位を有
し、最下位のノードの子には音響単位を有し、1つのノ
ードには対応付けが起こった全ての音響単位の適応化ベ
クトルを平均した代表適応化ベクトルと当該ノードの下
位に属する全ての音響単位の対応付け個数の総和を保持
している木構造標準パタン格納部を更に備え、前記話者
適応部は、標準パタン内の単語より小さな音響単位(例
えば、音素、音節、分布など)毎に、対応付けが起こっ
たかあるいは予め定めた一定個数以上である音響単位に
対しては当該音響単位と、対応付けられた入力音声の特
徴ベクトルとの平均値同士の差または比(以後適応化ベ
クトルと称する)を用いて適応化し、対応付けが全く起
きなかったか、あるいは対応付けが起こっても予め定め
た一定個数に満たない音響単位に対しては、前記木構造
標準パタン格納部の当該音響単位の親ノードのうち、対
応付け総和が予め定めた値以上となる中で最も下位のノ
ードの代表適応化ベクトルを当該音響単位の適応化ベク
トルとし、適応化を行なうことを特徴とする音声適応化
装置が得られる。
タン内の音響単位を相互の距離の小さいもの同士を木構
造に配列し、ノードの子にノードまたは音響単位を有
し、最下位のノードの子には音響単位を有し、1つのノ
ードには対応付けが起こった全ての音響単位の適応化ベ
クトルを平均した代表適応化ベクトルと当該ノードの下
位に属する全ての音響単位の対応付け個数の総和を保持
している木構造標準パタン格納部を更に備え、前記話者
適応部は、標準パタン内の単語より小さな音響単位(例
えば、音素、音節、分布など)毎に、対応付けが起こっ
たかあるいは予め定めた一定個数以上である音響単位に
対しては当該音響単位と、対応付けられた入力音声の特
徴ベクトルとの平均値同士の差または比(以後適応化ベ
クトルと称する)を用いて適応化し、対応付けが全く起
きなかったか、あるいは対応付けが起こっても予め定め
た一定個数に満たない音響単位に対しては、前記木構造
標準パタン格納部の当該音響単位の親ノードのうち、対
応付け総和が予め定めた値以上となる中で最も下位のノ
ードの代表適応化ベクトルを当該音響単位の適応化ベク
トルとし、適応化を行なうことを特徴とする音声適応化
装置が得られる。
【0018】本発明の第6の態様によれば、上述の第1
〜第5の態様のいずれかによる音声適応化装置と、前記
話者適応化後の標準パタンと前記入力音声との間で最も
類似するパタンを選出し、当該パタンが属するカテゴリ
を認識結果として出力する認識部とを備えたことを特徴
とする音声認識装置が得られる。
〜第5の態様のいずれかによる音声適応化装置と、前記
話者適応化後の標準パタンと前記入力音声との間で最も
類似するパタンを選出し、当該パタンが属するカテゴリ
を認識結果として出力する認識部とを備えたことを特徴
とする音声認識装置が得られる。
【0019】
【作用】本発明は、適応化のための入力音声から環境に
起因する異なりを環境適応を用いて除去した後に話者に
関する適応化を行なうことにより入力音声の発声環境に
影響されない、しかも高精度な適応化装置を提供できる
という効果を得るものであり、従来の話者適応または環
境適応単独では解決出来なかった問題点を解決するとい
う効果を得るものである。
起因する異なりを環境適応を用いて除去した後に話者に
関する適応化を行なうことにより入力音声の発声環境に
影響されない、しかも高精度な適応化装置を提供できる
という効果を得るものであり、従来の話者適応または環
境適応単独では解決出来なかった問題点を解決するとい
う効果を得るものである。
【0020】
【発明の実施の形態】本発明の第1の態様による音声適
応化装置の作用を図1を用いて説明する。ここでは、環
境適応部4として引用文献[1]に示すもの、話者適応
部6として引用文献[2]に示すものを例に説明する
が、この他環境適応および話者適応を行なう適応化技術
であれば同様に用いることが可能である。雑音を含む入
力音声は分析部1にて特徴ベクトルの時系列に変換され
る。一般に特徴ベクトルとして良く用いられているもの
は、例えば古井:“ディジタル音声処理”、東海大学出
版、pp.154−160(1985)。(以下引用文
献[3]とする)に述べられている種々のものが知られ
ているが、ここではLPC分析、FFT分析などによっ
て得られるスペクトルを用いる場合について述べること
とし、その導出法については述べない。得られたスペク
トルの時系列をX(t)(tは離散的な時刻)で表す。
なお、特徴ベクトルとしてケプストラムを用いる場合に
おいても、スペクトルとケプストラムとの間は互いに可
逆であることが自明であるため、ここではスペクトルを
使った場合のみ説明する。入力音声は一般に音声の始終
端を正確に切り出すことは困難であり、始端の子音が欠
落する場合も起こり得るので、通常は切り出した始終端
より少し長めの音声を分析することで音声の欠落を防止
している。標準パタン格納部3には予め標準話者音声を
分析部1と同様の方法を用いて分析した標準パタンを保
持する。マッチング部2は入力音声の特徴ベクトルの時
系列X(t)と標準パタンとの間の対応付けを行なう。
環境適応部4は、入力音声および標準パタンの音声部
分、雑音部分の入力音声および標準パタンの平均ベクト
ルをそれぞれ出力する。入力音声の音声および雑音の平
均ベクトルをそれぞれSv 、Nv とし、標準パタン3の
音声および雑音の平均ベクトルをそれぞれSw 、Nw と
する。環境適応部4はこれら4つの平均ベクトルを用
い、下記の数式3を用いて標準パタンの適応化を行な
い、環境適応後の標準パタンを環境適応化後の標準パタ
ン格納部5に格納する。
応化装置の作用を図1を用いて説明する。ここでは、環
境適応部4として引用文献[1]に示すもの、話者適応
部6として引用文献[2]に示すものを例に説明する
が、この他環境適応および話者適応を行なう適応化技術
であれば同様に用いることが可能である。雑音を含む入
力音声は分析部1にて特徴ベクトルの時系列に変換され
る。一般に特徴ベクトルとして良く用いられているもの
は、例えば古井:“ディジタル音声処理”、東海大学出
版、pp.154−160(1985)。(以下引用文
献[3]とする)に述べられている種々のものが知られ
ているが、ここではLPC分析、FFT分析などによっ
て得られるスペクトルを用いる場合について述べること
とし、その導出法については述べない。得られたスペク
トルの時系列をX(t)(tは離散的な時刻)で表す。
なお、特徴ベクトルとしてケプストラムを用いる場合に
おいても、スペクトルとケプストラムとの間は互いに可
逆であることが自明であるため、ここではスペクトルを
使った場合のみ説明する。入力音声は一般に音声の始終
端を正確に切り出すことは困難であり、始端の子音が欠
落する場合も起こり得るので、通常は切り出した始終端
より少し長めの音声を分析することで音声の欠落を防止
している。標準パタン格納部3には予め標準話者音声を
分析部1と同様の方法を用いて分析した標準パタンを保
持する。マッチング部2は入力音声の特徴ベクトルの時
系列X(t)と標準パタンとの間の対応付けを行なう。
環境適応部4は、入力音声および標準パタンの音声部
分、雑音部分の入力音声および標準パタンの平均ベクト
ルをそれぞれ出力する。入力音声の音声および雑音の平
均ベクトルをそれぞれSv 、Nv とし、標準パタン3の
音声および雑音の平均ベクトルをそれぞれSw 、Nw と
する。環境適応部4はこれら4つの平均ベクトルを用
い、下記の数式3を用いて標準パタンの適応化を行な
い、環境適応後の標準パタンを環境適応化後の標準パタ
ン格納部5に格納する。
【0021】
【数3】 ただし、W(t)は適応化前の標準パタン(tは全標準
パタンのインデクス)、W′(t)は環境適応後の標準
パタンとする。この環境適応後の標準パタンは、入力と
標準パタンに関する環境の異なりを含んでいないため、
環境の変動に対しては高い性能を有することが知られて
いる。話者適応部6は、環境適応後の標準パタンと、入
力音声の特徴ベクトルの時系列X(t)との音響単位毎
の異なりを補正する。ここでは、音響単位を分布とし、
分布毎に以下のような適応化を行なう。
パタンのインデクス)、W′(t)は環境適応後の標準
パタンとする。この環境適応後の標準パタンは、入力と
標準パタンに関する環境の異なりを含んでいないため、
環境の変動に対しては高い性能を有することが知られて
いる。話者適応部6は、環境適応後の標準パタンと、入
力音声の特徴ベクトルの時系列X(t)との音響単位毎
の異なりを補正する。ここでは、音響単位を分布とし、
分布毎に以下のような適応化を行なう。
【0022】環境適応後の標準パタンの分布jに対する
平均値μj と、jに対応付けられた入力に対する平均値
Xj ′とを用いてその分布毎の適応化ベクトルΔj を以
下に求める。
平均値μj と、jに対応付けられた入力に対する平均値
Xj ′とを用いてその分布毎の適応化ベクトルΔj を以
下に求める。
【0023】 Δj =Xj ′−μj (5) また、対応付けが存在しなかった環境適応後の標準パタ
ンの分布iに対しては、引用文献[2]に述べられてい
るように、下記の数式4で表されるスペクトル内挿と呼
ばれる方法を用いて適応化を行なう。
ンの分布iに対しては、引用文献[2]に述べられてい
るように、下記の数式4で表されるスペクトル内挿と呼
ばれる方法を用いて適応化を行なう。
【0024】
【数4】 ただし、jは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。結局、上の2つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、話者適応化後の標準パタンが話
者適応部6から出力され話者適応化後の標準パタン格納
部7に格納される。すなわち、話者適応部6は、環境適
応では除去できなかった音響単位毎の異なりを話者の異
なりととらえ、音響単位毎の高精度な適応化を行なう。
パタンのカテゴリを表すものとする。結局、上の2つの
うちのいずれかの式により標準パタンの全ての分布が話
者に関して適応化され、話者適応化後の標準パタンが話
者適応部6から出力され話者適応化後の標準パタン格納
部7に格納される。すなわち、話者適応部6は、環境適
応では除去できなかった音響単位毎の異なりを話者の異
なりととらえ、音響単位毎の高精度な適応化を行なう。
【0025】本発明によれば、話者に関する適応化を行
なう前に環境に関する異なりを除去するため、入力音声
の環境に影響されない高精度な話者適応を行なう音声適
応化装置を提供できるという効果を得、従来の音声適応
化装置単独では得られなかった効果を有する。
なう前に環境に関する異なりを除去するため、入力音声
の環境に影響されない高精度な話者適応を行なう音声適
応化装置を提供できるという効果を得、従来の音声適応
化装置単独では得られなかった効果を有する。
【0026】以下、図1の音声適応化装置について具体
的に説明する。この音声適応化装置は、入力発声環境で
入力話者により発声された入力音声を所定のやり方で入
力音声の特徴ベクトルの時系列に変換する分析部1を有
する。標準パタン格納部3は、標準発声環境で標準話者
により発声された標準話者音声を、分析部1と同様の前
記所定のやり方で標準話者音声の特徴ベクトルの時系列
に変換することにより得られた標準話者音声の特徴ベク
トルの時系列を標準パタンとして格納している。マッチ
ング部2は、入力音声の特長ベクトルの時系列と標準パ
タンとの間で時間軸対応付けを行ないマッチング結果を
出力する。環境適応部4は、マッチング結果を基に、標
準パタンを入力音声の特徴ベクトルの時系列と標準パタ
ンとの間の発声環境の異なりを適応化した状態に適応化
し、環境適応化後の標準パタンを出力し、環境適応後の
標準パタンを環境適応化後の標準パタン格納部5に格納
する。話者適応部6は、環境適応後の標準パタンを、こ
の環境適応後の標準パタンと入力音声の特徴ベクトルの
時系列との間の話者の異なりを適応化した状態に適応化
し、話者適応化後の標準パタンを出力し、話者適応化後
の標準パタンを話者適応化後の標準パタン格納部7に格
納する。
的に説明する。この音声適応化装置は、入力発声環境で
入力話者により発声された入力音声を所定のやり方で入
力音声の特徴ベクトルの時系列に変換する分析部1を有
する。標準パタン格納部3は、標準発声環境で標準話者
により発声された標準話者音声を、分析部1と同様の前
記所定のやり方で標準話者音声の特徴ベクトルの時系列
に変換することにより得られた標準話者音声の特徴ベク
トルの時系列を標準パタンとして格納している。マッチ
ング部2は、入力音声の特長ベクトルの時系列と標準パ
タンとの間で時間軸対応付けを行ないマッチング結果を
出力する。環境適応部4は、マッチング結果を基に、標
準パタンを入力音声の特徴ベクトルの時系列と標準パタ
ンとの間の発声環境の異なりを適応化した状態に適応化
し、環境適応化後の標準パタンを出力し、環境適応後の
標準パタンを環境適応化後の標準パタン格納部5に格納
する。話者適応部6は、環境適応後の標準パタンを、こ
の環境適応後の標準パタンと入力音声の特徴ベクトルの
時系列との間の話者の異なりを適応化した状態に適応化
し、話者適応化後の標準パタンを出力し、話者適応化後
の標準パタンを話者適応化後の標準パタン格納部7に格
納する。
【0027】雑音を含む未知話者の入力音声は分析部1
にてマッチングのための特徴ベクトルの時系列に変換さ
れる。一般に特徴ベクトルとして良く用いられているも
のは、パワー情報、パワー情報の変化量、ケプストラ
ム、ケプストラムの線形回帰係数などが考えられ、これ
らを組み合わせたものを特徴ベクトルとすることも可能
である。あるいはまた、スペクトルそのものを用いた
り、対数化スペクトルを用いることも可能である。入力
音声には通常発声の前後に音声のない、周囲雑音だけが
含まれる部分が存在する。標準パタン格納部3は分析部
1と同様のやり方で分析し標準話者の音声を標準パタン
として蓄積している。この標準パタンの作成の方法は例
えば引用文献[3]のpp.162−170に述べられ
ているようにHMM(Hidden Marokov
Model)を用いたものであっても、またベクトル量
子化を行なったコードブックであっても音声の特徴ベク
トルそのものであっても良い。マッチング部2は、標準
パタンと入力音声の特徴ベクトルの時系列との間の対応
付けを行なう。この対応付けは、時間軸正規化マッチン
グとしてDPマッチングあるいはHMM(Hidden
Markov Model)などの方法が挙げられ
る。環境適応部4はマッチング部2にて得られた対応付
け情報を用いて、環境に関する適応化を行なう。
にてマッチングのための特徴ベクトルの時系列に変換さ
れる。一般に特徴ベクトルとして良く用いられているも
のは、パワー情報、パワー情報の変化量、ケプストラ
ム、ケプストラムの線形回帰係数などが考えられ、これ
らを組み合わせたものを特徴ベクトルとすることも可能
である。あるいはまた、スペクトルそのものを用いた
り、対数化スペクトルを用いることも可能である。入力
音声には通常発声の前後に音声のない、周囲雑音だけが
含まれる部分が存在する。標準パタン格納部3は分析部
1と同様のやり方で分析し標準話者の音声を標準パタン
として蓄積している。この標準パタンの作成の方法は例
えば引用文献[3]のpp.162−170に述べられ
ているようにHMM(Hidden Marokov
Model)を用いたものであっても、またベクトル量
子化を行なったコードブックであっても音声の特徴ベク
トルそのものであっても良い。マッチング部2は、標準
パタンと入力音声の特徴ベクトルの時系列との間の対応
付けを行なう。この対応付けは、時間軸正規化マッチン
グとしてDPマッチングあるいはHMM(Hidden
Markov Model)などの方法が挙げられ
る。環境適応部4はマッチング部2にて得られた対応付
け情報を用いて、環境に関する適応化を行なう。
【0028】本発明の第2の態様による音声適応化装置
では、この環境適応部4に関して、ケプストラム平均値
補正(CMN:Cepstrum Mean Norm
alization)と呼ばれる方式を用いて行なう。
例えば、A.E.Rosenberg,et al.:
“Cepstral Channel Normali
zation Techinique for HMM
−Based Speaker Verificati
on”,ICSLP94,S31.1,pp.1835
−1838(1994)(以下引用文献[4]とする)
に用いられている音声適応化装置では、特徴ベクトルは
ケプストラムを用い、入力音声の音声部分に対してのみ
適応化を行なう。具体的に示すと、入力音声の音声部分
の特徴ベクトル(ケプストラム)をyt とし、その音声
部分の特徴ベクトルyt の平均値をy′とし、標準パタ
ンの音声部分の平均値をy(tr)′とすると、 yt ←yt −(y′−y(tr)´) (7) により適応化を行なう。すなわち、入力音声音声部分の
ケプストラムを入力音声と標準パタンの音声部分の平均
的なケプストラム差分を用いて置換する。もちろん、こ
れとは対照的に標準パタンの方yt (tr)を置換する
ような以下の補正も同様に可能である。
では、この環境適応部4に関して、ケプストラム平均値
補正(CMN:Cepstrum Mean Norm
alization)と呼ばれる方式を用いて行なう。
例えば、A.E.Rosenberg,et al.:
“Cepstral Channel Normali
zation Techinique for HMM
−Based Speaker Verificati
on”,ICSLP94,S31.1,pp.1835
−1838(1994)(以下引用文献[4]とする)
に用いられている音声適応化装置では、特徴ベクトルは
ケプストラムを用い、入力音声の音声部分に対してのみ
適応化を行なう。具体的に示すと、入力音声の音声部分
の特徴ベクトル(ケプストラム)をyt とし、その音声
部分の特徴ベクトルyt の平均値をy′とし、標準パタ
ンの音声部分の平均値をy(tr)′とすると、 yt ←yt −(y′−y(tr)´) (7) により適応化を行なう。すなわち、入力音声音声部分の
ケプストラムを入力音声と標準パタンの音声部分の平均
的なケプストラム差分を用いて置換する。もちろん、こ
れとは対照的に標準パタンの方yt (tr)を置換する
ような以下の補正も同様に可能である。
【0029】 yt (tr)←yt (tr)+(y′−y(tr)´) (8) 本発明の第2の音声適応化装置として、ここでは特徴ベ
クトルがケプストラムを用いた場合を示したが、ケプス
トラムと対数スペクトルは1対1の可逆な変換あること
が自明であるため、対数スペクトルを用いた場合も同様
に行なうことが可能である。
クトルがケプストラムを用いた場合を示したが、ケプス
トラムと対数スペクトルは1対1の可逆な変換あること
が自明であるため、対数スペクトルを用いた場合も同様
に行なうことが可能である。
【0030】また、本発明の第3の態様の音声適応化装
置では、環境適応部4は、例えば引用文献[1]にある
ような適応化を行なう。入力音声の音声区間および雑音
区間の平均スペクトルをそれぞれSv 、Nv とし、単語
標準パタンの音声区間および雑音区間の平均スペクトル
をそれぞれSw 、Nw とすると、環境適応化部4は、例
えば、下記の数式5を用いて標準パタンの適応化を行な
う。
置では、環境適応部4は、例えば引用文献[1]にある
ような適応化を行なう。入力音声の音声区間および雑音
区間の平均スペクトルをそれぞれSv 、Nv とし、単語
標準パタンの音声区間および雑音区間の平均スペクトル
をそれぞれSw 、Nw とすると、環境適応化部4は、例
えば、下記の数式5を用いて標準パタンの適応化を行な
う。
【0031】
【数5】 ただし、W(t)は適応化前の標準パタン(tは全標準
パタンのインデクス)、W′(t)は適応化後の標準パ
タンとする。この例では、標準パタンに対する適応化を
示したが、入力音声に対しても同様の処理を行なうこと
も可能である。この適応化手法はスペクトル上での適応
化であるが、特徴ベクトルがケプストラムであるような
場合には、ケプストラムとスペクトル相互間の変換部を
設けることにより容易に実現可能である。この場合、平
均ベクトルはケプストラム上で求めても良いし、一旦ス
ペクトルに変換した後に求めても良い。
パタンのインデクス)、W′(t)は適応化後の標準パ
タンとする。この例では、標準パタンに対する適応化を
示したが、入力音声に対しても同様の処理を行なうこと
も可能である。この適応化手法はスペクトル上での適応
化であるが、特徴ベクトルがケプストラムであるような
場合には、ケプストラムとスペクトル相互間の変換部を
設けることにより容易に実現可能である。この場合、平
均ベクトルはケプストラム上で求めても良いし、一旦ス
ペクトルに変換した後に求めても良い。
【0032】話者適応部6は、環境適応部4で環境に関
する適応化を行なった後の標準パタンを用いて話者に関
する適応化を行なう。一般に話者適応と呼ばれる手法は
種々のものが提案されているが、ここでは、本発明の第
4の態様の音声適応化装置におけるスペクトル内挿話適
応(引用文献[2])と呼ばれるものについて説明す
る。なお、この他の話者適応技術も同様に話者適応部6
として用いることがもちろん可能である。環境適応後の
標準パタンの分布jに対する平均値μj と、jに対応付
けられた入力に対する平均値Xj ′とを用いてその分布
毎の適応化ベクトルΔj を以下に求める。
する適応化を行なった後の標準パタンを用いて話者に関
する適応化を行なう。一般に話者適応と呼ばれる手法は
種々のものが提案されているが、ここでは、本発明の第
4の態様の音声適応化装置におけるスペクトル内挿話適
応(引用文献[2])と呼ばれるものについて説明す
る。なお、この他の話者適応技術も同様に話者適応部6
として用いることがもちろん可能である。環境適応後の
標準パタンの分布jに対する平均値μj と、jに対応付
けられた入力に対する平均値Xj ′とを用いてその分布
毎の適応化ベクトルΔj を以下に求める。
【0033】 Δj =Xj ′−μj (10) また、対応付けが存在しなかった標準パタン部5の標準
パタンの分布iに対しては、引用文献[2]に述べられ
ているように、下記の数式6で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。
パタンの分布iに対しては、引用文献[2]に述べられ
ているように、下記の数式6で表されるスペクトル内挿
と呼ばれる方法を用いて適応化を行なう。
【0034】
【数6】 ただし、jは入力音声中に音響カテゴリが存在する標準
パタンのカテゴリを表すものとする。これらの適応化ベ
クトルを用いて話者適応部6は、音響カテゴリiあるい
はjに属するすべての標準パタンkに対して、 μk ′=μk +Δ (12) で適応化する。ここで、Δはkの種類によりΔi または
Δj のどちらか一方を適宜選択して用い、μk もkの種
類によりμi またはμj のどちらか一方を適宜選択して
用いるものとする。また、μk ′はkの種類により
μi ′またはμj ′のどちらか一方を表す。この例で
は、適応化ベクトルを用いて標準パタン部5の標準パタ
ンを大きく適応化した場合について述べたが、例えば適
当な係数αを用いて、 μk ′={(1+α)μk +Δ}/(1+α) (13) のようにαを用いることで適応化の度合を制御し、大き
く適応化するのを防ぐように構成することも可能であ
る。この例では、話者適応部6は標準パタン5に対して
のみ適応化しているが、入力音声に対して同等の処理を
することももちろん可能である。
パタンのカテゴリを表すものとする。これらの適応化ベ
クトルを用いて話者適応部6は、音響カテゴリiあるい
はjに属するすべての標準パタンkに対して、 μk ′=μk +Δ (12) で適応化する。ここで、Δはkの種類によりΔi または
Δj のどちらか一方を適宜選択して用い、μk もkの種
類によりμi またはμj のどちらか一方を適宜選択して
用いるものとする。また、μk ′はkの種類により
μi ′またはμj ′のどちらか一方を表す。この例で
は、適応化ベクトルを用いて標準パタン部5の標準パタ
ンを大きく適応化した場合について述べたが、例えば適
当な係数αを用いて、 μk ′={(1+α)μk +Δ}/(1+α) (13) のようにαを用いることで適応化の度合を制御し、大き
く適応化するのを防ぐように構成することも可能であ
る。この例では、話者適応部6は標準パタン5に対して
のみ適応化しているが、入力音声に対して同等の処理を
することももちろん可能である。
【0035】図2は本発明の第5の態様による音声適応
化装置を示すブロック図である。この音声適応化装置
は、図1に示す音声適応化装置に加えて、標準パタン内
の音響単位を相互の距離の小さいもの同士を木構造に配
列し、ノードの子にノードまたは音響単位を有し、最下
位のノードの子には音響単位を有し、1つのノードには
対応付けが起こった全ての音響単位の適応化ベクトルを
平均した代表適応化ベクトルと当該ノードの下位に属す
る全ての音響単位の対応付け個数の総和を保持している
ような木構造標準パタン可能部28を有し、話者適応部
6は、標準パタン内の単語より小さな音響単位(例え
ば、音素、音節、分布など)毎に、対応付けが起こった
かあるいは予め定めた一定個数以上である音響単位に対
しては当該音響単位と、対応付けられた入力音声の特徴
ベクトルとの平均値同士の差または比(以後適応化ベク
トルと称する)を用いて適応化し、対応付けが全く起き
なかったか、あるいは対応付けが起こっても予めた一定
個数に満たない音響単位に対しては、木構造標準パタン
格納部28の当該音響単位の親ノードのうち、対応付け
総和が予め定めた値以上となる中で最も下位のノードの
代表適応化ベクトルを当該音響単位の適応化ベクトルと
し、適応化を行なう。
化装置を示すブロック図である。この音声適応化装置
は、図1に示す音声適応化装置に加えて、標準パタン内
の音響単位を相互の距離の小さいもの同士を木構造に配
列し、ノードの子にノードまたは音響単位を有し、最下
位のノードの子には音響単位を有し、1つのノードには
対応付けが起こった全ての音響単位の適応化ベクトルを
平均した代表適応化ベクトルと当該ノードの下位に属す
る全ての音響単位の対応付け個数の総和を保持している
ような木構造標準パタン可能部28を有し、話者適応部
6は、標準パタン内の単語より小さな音響単位(例え
ば、音素、音節、分布など)毎に、対応付けが起こった
かあるいは予め定めた一定個数以上である音響単位に対
しては当該音響単位と、対応付けられた入力音声の特徴
ベクトルとの平均値同士の差または比(以後適応化ベク
トルと称する)を用いて適応化し、対応付けが全く起き
なかったか、あるいは対応付けが起こっても予めた一定
個数に満たない音響単位に対しては、木構造標準パタン
格納部28の当該音響単位の親ノードのうち、対応付け
総和が予め定めた値以上となる中で最も下位のノードの
代表適応化ベクトルを当該音響単位の適応化ベクトルと
し、適応化を行なう。
【0036】話者適応部6は、木構造標準パタン格納部
28を用いて適応化を行なう。この木構造は例えば、篠
田、渡辺:“木構造化された確率分布を用いた話者適応
化”、音響学会春季講演論文集、2−5−10、pp.
49−50(1995.3)。(以下引用文献[5]と
する)で述べられている方法を用いて予め標準パタン格
納部3の標準パタンの全ての分布が木構造状に配列さ
れ、類似した分布同士が同じノードに属するような配列
を行なう。環境適応後の標準パタンの分布jに対する平
均値μj と、jに対応付けられた入力に対する平均値X
j ′とを用いてその分布毎の適応化ベクトルΔj を以下
に求める。
28を用いて適応化を行なう。この木構造は例えば、篠
田、渡辺:“木構造化された確率分布を用いた話者適応
化”、音響学会春季講演論文集、2−5−10、pp.
49−50(1995.3)。(以下引用文献[5]と
する)で述べられている方法を用いて予め標準パタン格
納部3の標準パタンの全ての分布が木構造状に配列さ
れ、類似した分布同士が同じノードに属するような配列
を行なう。環境適応後の標準パタンの分布jに対する平
均値μj と、jに対応付けられた入力に対する平均値X
j ′とを用いてその分布毎の適応化ベクトルΔj を以下
に求める。
【0037】 Δj =Xj ′−μj (14) また、対応付けが存在しなかったか、または存在してい
ても予め定めた個数以下であるような環境適応後の標準
パタンの分布iに対しては、引用文献[5]に述べられ
ているように、木構造をリーフ(最下位)ノードから上
位に調べてゆき、予め定めた個数以上になったノードの
代表適応化ベクトルをその分布jの適応化ベクトルと
し、環境適応後の標準パタンを適応化し、話者適応後の
標準パタンを出力し、話者適応後の標準パタン格納部7
に格納する。
ても予め定めた個数以下であるような環境適応後の標準
パタンの分布iに対しては、引用文献[5]に述べられ
ているように、木構造をリーフ(最下位)ノードから上
位に調べてゆき、予め定めた個数以上になったノードの
代表適応化ベクトルをその分布jの適応化ベクトルと
し、環境適応後の標準パタンを適応化し、話者適応後の
標準パタンを出力し、話者適応後の標準パタン格納部7
に格納する。
【0038】図3は本発明による音声認識装置を本発明
の第1の態様による音声適応化装置を用いて構成した例
を示すブロック図である。この音声認識装置は、本発明
の第1〜第5の態様による適応化装置を備え、認識部8
では話者適応後の標準パタン格納部7の標準パタンと入
力音声との間で通常の音声認識と同様のマッチングを行
ない、第1位の結果を認識結果として出力する。
の第1の態様による音声適応化装置を用いて構成した例
を示すブロック図である。この音声認識装置は、本発明
の第1〜第5の態様による適応化装置を備え、認識部8
では話者適応後の標準パタン格納部7の標準パタンと入
力音声との間で通常の音声認識と同様のマッチングを行
ない、第1位の結果を認識結果として出力する。
【0039】
【発明の効果】以上から明らかなように、本発明の第1
の態様による音声適応化装置によれば、環境適応により
環境のことなりを除去した後に話者適応を行なうことに
より、従来環境適応単独ではなし得なかった高精度な適
応化が可能となると共に、話者適応においても環境によ
らない話者の違いのみを高い精度で抽出することが出来
るため高精度な適応化が実現可能となった。
の態様による音声適応化装置によれば、環境適応により
環境のことなりを除去した後に話者適応を行なうことに
より、従来環境適応単独ではなし得なかった高精度な適
応化が可能となると共に、話者適応においても環境によ
らない話者の違いのみを高い精度で抽出することが出来
るため高精度な適応化が実現可能となった。
【0040】本発明の第2の態様による音声適応化装置
によれば、本発明の第1の態様による音声適応化装置が
有する効果に加えて、環境の適応化がケプストラム上の
差分のみで行なえるため、計算量、メモリ量の増加が少
なく、より廉価な装置が提供出来るという効果を有す
る。
によれば、本発明の第1の態様による音声適応化装置が
有する効果に加えて、環境の適応化がケプストラム上の
差分のみで行なえるため、計算量、メモリ量の増加が少
なく、より廉価な装置が提供出来るという効果を有す
る。
【0041】本発明の第3の態様による音声適応化装置
によれば、本発明の第1の態様による音声適応化装置が
有する効果と、本発明の第2の態様による音声適応化装
置に比べてより高い環境の適応化精度を有するため、よ
り高精度な音声適応化装置を実現可能となる。
によれば、本発明の第1の態様による音声適応化装置が
有する効果と、本発明の第2の態様による音声適応化装
置に比べてより高い環境の適応化精度を有するため、よ
り高精度な音声適応化装置を実現可能となる。
【0042】本発明の第4の態様による音声適応化装置
によれば、本発明の第1の態様による音声適応化装置が
有する効果に加えて、対応付けがない音響単位も高精度
に適応化されるためより少ないデータでも高い精度を有
する話者適応化が実現でき、ひいてはより高精度な音声
適応化装置の提供が可能となる。
によれば、本発明の第1の態様による音声適応化装置が
有する効果に加えて、対応付けがない音響単位も高精度
に適応化されるためより少ないデータでも高い精度を有
する話者適応化が実現でき、ひいてはより高精度な音声
適応化装置の提供が可能となる。
【0043】本発明の第5の態様による音声適応化装置
によれば、本発明の第1の態様による音声適応化装置が
有する効果と、本発明の第4の態様による音声適応化装
置が必要としたデータ量に応じたパタメータのコントロ
ールがなくても安定した話者適応化が行なえ、ひいては
より高精度な音声適応化装置の提供が可能となる。
によれば、本発明の第1の態様による音声適応化装置が
有する効果と、本発明の第4の態様による音声適応化装
置が必要としたデータ量に応じたパタメータのコントロ
ールがなくても安定した話者適応化が行なえ、ひいては
より高精度な音声適応化装置の提供が可能となる。
【0044】本発明の音声認識装置によれば、本発明の
第1〜第5の態様による音声適応化装置が有する効果を
備えた高精度な音声認識装置を提供できるという効果を
有する。
第1〜第5の態様による音声適応化装置が有する効果を
備えた高精度な音声認識装置を提供できるという効果を
有する。
【図1】本発明による音声適応化装置のブロック図であ
る。
る。
【図2】本発明によるもう一つの音声適応化装置のブロ
ック図である。
ック図である。
【図3】本発明による音声認識装置のブロック図であ
る。
る。
【図4】従来の音声適応化装置のブロック図である。
【図5】従来のもう一つの音声適応化装置のブロック図
である。
である。
1 分析部 2 マッチング部 3 標準パタン格納部 4 環境適応部 5 環境適応後の標準パタン格納部 6 話者適応部 7 話者適応後の標準パタン格納部 8 認識部 28 木構造標準パタン格納部
Claims (6)
- 【請求項1】 標準発声環境で標準話者により発声され
た標準話者音声を所定のやり方で前記標準話者音声の特
徴ベクトルの時系列に変換することにより得られた前記
標準話者音声の特徴ベクトルの時系列を標準パタンとし
て格納している標準パタン格納部と、 入力発声環境で入力話者により発声された入力音声を前
記所定のやり方で前記入力音声の特徴ベクトルの時系列
に変換する分析部と、 前記入力音声の特徴ベクトルの時系列と前記標準パタン
との間で時間軸対応付けを行ないマッチング結果を出力
するマッチング部と、 前記マッチング結果を基に、前記標準パタンを前記入力
音声の特徴ベクトルの時系列と前記標準パタンとの間の
発声環境の異なりを適応化した状態に適応化し、環境適
応化後の標準パタンを出力する環境適応部と、 前記環境適応後の標準パタンをこの環境適応後の標準パ
タンと前記入力音声の特徴ベクトルの時系列との間の話
者の異なりを適応化した状態に適応化し、話者適応化後
の標準パタンを出力する話者適応部とを備えたことを特
徴とする音声適応化装置。 - 【請求項2】 前記特徴ベクトルは、ケプストラムまた
は対数スペクトラムを含むものであって、 前記環境適応部は、対応付けられた前記入力音声の特徴
ベクトルの音声区間と前記標準パタンの音声区間とで、
ケプストラムまたは対数スペクトルに関する平均値同士
の差を用いて標準パタンの適応化を行なうことを特徴と
する請求項1記載の音声適応化装置。 - 【請求項3】 前記環境適応部は、前記入力音声の特徴
ベクトルと前記標準パタンとの間で求めた、入力音声の
音声区間の平均スペクトルSv と、標準パタンの音声区
間の平均スペクトルSw と、入力音声の雑音区間の平均
スペクトルNv と、標準パタンの雑音区間スペクトルN
w との4つの平均スペクトルを用いて、標準パタンkの
スペクトルW(k)を、{(Sv −Nv )(W(k)−
Nw )/(Sw −Nw )}+Nv で変換することにより
標準パタンの適応化を行なうことを特徴とする請求項1
記載の音声適応化装置。 - 【請求項4】 前記話者適応部は、前記標準パタン内の
単語より小さな音響単位毎に、対応付けが起こったかあ
るいは予め定めた一定個数以上である音響単位に対して
は当該音響単位と、対応付けられた入力音声の特徴ベク
トルとの平均値同士の差または比である適応化ベクトル
を用いて適応化し、対応付けが全く起きなかったか、あ
るいは対応付けが起こっても予め定めた一定個数に満た
ない音響単位に対しては、当該音響単位と、対応付けが
起こった他の音響単位との間の距離に応じた重みを用い
て対応付けが起こった他の音響単位の適応化ベクトルの
重み付き加算和を計算して適応化ベクトルとし、適応化
を行なうことを特徴とする請求項1記載の音声適応化装
置。 - 【請求項5】 前記標準パタン内の音響単位を相互の距
離の小さいもの同士を木構造に配列し、ノードの子にノ
ードまたは音響単位を有し、最下位のノードの子には音
響単位を有し、1つのノードには対応付けが起こった全
ての音響単位の適応化ベクトルを平均した代表適応化ベ
クトルと当該ノードの下位に属する全ての音響単位の対
応付け個数の総和を保持している木構造標準パタン格納
部を更に備え、 前記話者適応部は、前記標準パタン内の単語より小さな
音響単位毎に、対応付けが起こったかあるいは予め定め
た一定個数以上である音響単位に対しては当該音響単位
と、対応付けられた入力音声の特徴ベクトルとの平均値
同士の差または比である適応化ベクトルを用いて適応化
し、対応付けが全く起きなかったか、あるいは対応付け
が起こっても予め定めた一定個数に満たない音響単位に
対しては、前記木構造標準パタン格納部の当該音響単位
の親ノードのうち、対応付け総和が予め定めた値以上と
なる中で最も下位のノードの代表適応化ベクトルを当該
音響単位の適応化ベクトルとし、適応化を行なうことを
特徴とする請求項1記載の音声適応化装置。 - 【請求項6】 請求項1〜5のいずれかに記載の音声適
応化装置と、 前記話者適応化後の標準パタンと前記入力音声との間で
最も類似するパタンを選出し、当該パタンが属するカテ
ゴリを認識結果として出力する認識部とを備えたことを
特徴とする音声認識装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7324305A JP3001037B2 (ja) | 1995-12-13 | 1995-12-13 | 音声認識装置 |
| DE69614233T DE69614233T2 (de) | 1995-12-13 | 1996-12-12 | Sprachadaptionssystem und Spracherkenner |
| EP96119973A EP0779609B1 (en) | 1995-12-13 | 1996-12-12 | Speech adaptation system and speech recognizer |
| US08/766,779 US5890113A (en) | 1995-12-13 | 1996-12-13 | Speech adaptation system and speech recognizer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7324305A JP3001037B2 (ja) | 1995-12-13 | 1995-12-13 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09160584A true JPH09160584A (ja) | 1997-06-20 |
| JP3001037B2 JP3001037B2 (ja) | 2000-01-17 |
Family
ID=18164328
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7324305A Expired - Fee Related JP3001037B2 (ja) | 1995-12-13 | 1995-12-13 | 音声認識装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5890113A (ja) |
| EP (1) | EP0779609B1 (ja) |
| JP (1) | JP3001037B2 (ja) |
| DE (1) | DE69614233T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002123285A (ja) * | 2000-10-13 | 2002-04-26 | Sony Corp | 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置 |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19806941A1 (de) * | 1998-02-19 | 1999-08-26 | Univ Ilmenau Tech | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
| US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
| US20010047516A1 (en) * | 2000-02-01 | 2001-11-29 | Compaq Computer Corporation | System for time shifting live streamed video-audio distributed via the internet |
| EP1185976B1 (en) | 2000-02-25 | 2006-08-16 | Philips Electronics N.V. | Speech recognition device with reference transformation means |
| JP4169921B2 (ja) * | 2000-09-29 | 2008-10-22 | パイオニア株式会社 | 音声認識システム |
| US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
| JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
| US7024359B2 (en) | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
| US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
| US6915259B2 (en) | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
| JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
| JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
| US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
| US9355651B2 (en) * | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| GB2422237A (en) * | 2004-12-21 | 2006-07-19 | Fluency Voice Technology Ltd | Dynamic coefficients determined from temporally adjacent speech frames |
| US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
| US8468019B2 (en) * | 2008-01-31 | 2013-06-18 | Qnx Software Systems Limited | Adaptive noise modeling speech recognition system |
| US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
| KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
| WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
| CN108537466B (zh) * | 2018-04-25 | 2020-09-15 | 北京腾云天下科技有限公司 | 一种统计应用运营指标的方法及计算设备 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
| US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
| JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
-
1995
- 1995-12-13 JP JP7324305A patent/JP3001037B2/ja not_active Expired - Fee Related
-
1996
- 1996-12-12 EP EP96119973A patent/EP0779609B1/en not_active Expired - Lifetime
- 1996-12-12 DE DE69614233T patent/DE69614233T2/de not_active Expired - Fee Related
- 1996-12-13 US US08/766,779 patent/US5890113A/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002123285A (ja) * | 2000-10-13 | 2002-04-26 | Sony Corp | 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3001037B2 (ja) | 2000-01-17 |
| DE69614233T2 (de) | 2002-05-08 |
| US5890113A (en) | 1999-03-30 |
| DE69614233D1 (de) | 2001-09-06 |
| EP0779609A3 (en) | 1997-10-22 |
| EP0779609B1 (en) | 2001-08-01 |
| EP0779609A2 (en) | 1997-06-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
| Junqua | Robust speech recognition in embedded systems and PC applications | |
| US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
| JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
| JP2001517325A (ja) | 認識システム | |
| US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
| JPH075892A (ja) | 音声認識方法 | |
| JP3008799B2 (ja) | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 | |
| JP4960845B2 (ja) | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 | |
| JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
| Molau | Normalization in the acoustic feature space for improved speech recognition | |
| JP2852298B2 (ja) | 標準パターン適応化方式 | |
| JP2001083986A (ja) | 統計モデル作成方法 | |
| Liu | Environmental adaptation for robust speech recognition | |
| US20020133343A1 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
| JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
| JPH08211897A (ja) | 音声認識装置 | |
| JPH06289891A (ja) | 音声認識装置 | |
| Young | Acoustic modelling for large vocabulary continuous speech recognition | |
| JP3868798B2 (ja) | 音声認識装置 | |
| JP2004309959A (ja) | 音声認識装置および音声認識方法 | |
| Sundaram | Effects of transcription errors on supervised learning in speech recognition | |
| Blomberg et al. | Investigating explicit model transformations for speaker normalization | |
| Ney et al. | Acoustic-phonetic modeling in the SPICOS system | |
| JP3256979B2 (ja) | 音響モデルの入力音声に対する尤度を求める方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19991013 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |