JPH0756595A

JPH0756595A - 音声認識装置

Info

Publication number: JPH0756595A
Application number: JP5204915A
Authority: JP
Inventors: Toshiyuki Odaka; 俊之小高; Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-08-19
Filing date: 1993-08-19
Publication date: 1995-03-03

Abstract

(57)【要約】【構成】入力手段１、第１の分析手段２、照合手段
４、判定手段５よりなる音声認識装置に、入力される音
声の様々な様態の変化を検出するための分析を行う第２
の分析手段３を設け、その分析結果に基づいて照合手段
４あるいは判定手段５を制御する。【効果】発声の様態の変化や話者の変化の検出結果に
基づいて照合手段あるいは判定手段を制御するので、利
用者の多様な発声の様態の変化や話者の変化に対応して
音声を認識することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に係り、
特に、同一の話者の発声様態が多様に変化する場合の音
声や話者が変わった場合の音声を良好に認識する装置に
関する。

【０００２】

【従来の技術】従来の音声認識装置、例えば、単語認識
装置では、音声を発声する単位が単語であるということ
を前提としている。この装置に対して複数の単語を続け
て発声すると、連続的に発声された複数単語全体が一つ
の単語であるとみなしてしまい正しい認識結果が得られ
ないことが多い。このように、利用者は単語毎に区切っ
た発声しかできないといった制限を受ける。

【０００３】また、音声認識装置が誤認識した場合に利
用者が丁寧に一音一音区切って言い直したりすると、区
切って発声された一音一音をそれぞれ一つの単語とみな
してしまい、ますます認識できなくなってしまう。

【０００４】

【発明が解決しようとする課題】本発明の目的は、利用
者の発声の仕方の変化や話者の変化などにも対応して音
声を認識できるようにすることにある。

【０００５】

【課題を解決するための手段】上記本発明の目的は、発
声の様々な様態の変化や話者の変化の検出を行う第２の
分析手段を設け、第２の分析手段の結果に基づいて照合
手段あるいは判定手段を制御することにより達成され
る。

【０００６】

【作用】本発明によれば、発声の様態あるいは話者の変
化を分析した結果に基づいて照合手段あるいは判定手段
を制御するので、発声の多様な様態の変化や話者の変化
に対応して音声を認識することができる。

【０００７】

【実施例】以下、図を用いて本発明の実施例を説明す
る。

【０００８】図１は本発明の音声認識装置の一実施例を
示すブロック図である。本発明で従来と異なっているの
は、照合手段４あるいは判定手段５を制御するために第
２の分析手段３を設けている点である。入力手段１を通
してデジタル化されて入力された音声は第１の分析手段
２に送られ、ここで一定時間間隔ごとに音響的な分析が
行なわれる。第１の分析手段２の結果は、照合手段４の
所望する形式（例えば、特徴ベクトルの時系列パターン
あるいはベクトル量子化されたコードの時系列パターン
など）として出力される。照合手段４は、第１の分析手
段２から得られる音響的な分析結果である時系列パター
ンと予め照合の基準として標準パタン格納手段６に用意
されている標準パタンとの間で照合を行ない、各標準パ
タンに対するスコアを出力する。照合手段４から出力さ
れたスコアは、判定手段５に入力され、最もスコアの良
い標準パタンに対応した一つあるいは上位の複数の候補
が認識結果として出力される。ここまでの入力手段１、
第１の分析手段２、照合手段４、判定手段５は従来の音
声認識装置と同様の構成である。本発明で従来と異なっ
ている第２の分析手段３は、入力手段１を通して入力さ
れた音声を分析し、発声様態の変化や発声速度の変化を
抽出し、この情報を出力する。そしてこの第２の分析手
段３の出力により照合手段４あるいは判定手段５を制御
する。

【０００９】本実施例では、第２の分析手段で取り出す
情報を発声モードとする。発声モードというのは、発声
形態、発声様式といった意味のものである。モードとい
った場合には複数のモードの存在を考えるが、ここでは
「音節単位の発声」「単語単位の発声」「文章単位の発
声」の三つのモードを考え、それぞれ１）音節モード、
２）単語モード、３）文章モードとする。１）の場合
は、新しい単語を伝えようとする場合や相手が聞き損な
った場合に一音一音丁寧にゆっくりとあるいは区切って
発声するような場合であり、例えば、「こ・く・ぶ・ん
・じ」と一音一音丁寧に発声する。２）の場合は、コマ
ンドや比較的簡単な情報の伝達を行う場合のように、一
つの単語を発声したり、あるいは複数個の単語を単語単
位に区切って発声するような場合であり、例えば「国分
寺」と発声する。３）の場合は、文章単位でごく普通に
発声するような場合であり、例えば、「国分寺まで行き
たい」と発声する。

【００１０】次に発声モードを検出する第２の分析手段
３について詳しく説明する。

【００１１】図２は発声モードを検出する場合の第２の
分析手段の一実施例を示すブロック図である。図３は図
２中のブロック図の中で入出力となる情報のいくつかを
示しており、(ａ)〜(ｆ)は図２と図３で対応付けられて
いる。図３(ａ)のような振幅ｗ(ｔ)の音声がパワー算出
手段３０１に入力され、図３(ｂ)のようなパワー（短区
間パワー）、

【００１２】

【数１】

【００１３】が出力される。ただし、Ｔは短区間分析の
区間幅である。短区間パワーｐｗ(ｔ)はパワー閾値判定
手段３０２に入力され、０（パワー無）／１（パワー
有）に変換されて図３(ｃ)のような音声区間ｓｐ(ｔ)が
出力される。また、短区間パワーｐｗ(ｔ)はパワー変化
量算出手段３０４にも入力され、次式に従って、

【００１４】

【数２】ｄｐｗ(ｔ＋１)＝｜ｐｗ(ｔ＋１)−ｐ
ｗ(ｔ)｜図３(ｄ)のようなパワー変化量ｄｐｗ(ｔ)が算出され
る。パワー変化量ｄｐｗ(ｔ)は、変化量閾値判定手段３
０５に入力され、次式に従って、

【００１５】

【数３】 if ｄｐｗ(ｔ)≦ＤＰＷ_THthen ｆ
ｉｘ(ｔ)＝１ else ｆｉｘ(ｔ)＝０定常部分かどうか判定され、０（非定常）／１（定常）
として図３(ｅ)のように定常区間ｆｉｘ(ｔ)が出力され
る。ただし、ＤＰＷ_THはシステム毎に決められる定数で
ある。次に母音性定常区間判定手段３０６はパワー閾値
判定手段３０２からの出力ｓｐ(ｔ)と変化量閾値判定手
段３０５からの出力ｆｉｘ(ｔ)を入力として、

【００１６】

【数４】ｓｐｆｉｘ(ｔ)＝ｓｐ(ｔ)＆ｆｉｘ
(ｔ)（＆は論理積）により母音による定常区間（母音性定常区間）ｓｐｆｉ
ｘ(ｔ)を図３(ｆ)のように０／１で出力する。続いて定
常区間長算出手段３０７は、母音性定常区間判定手段３
０６から出力されるｓｐｆｉｘ(ｔ)の０／１の列の中で
連続する１の個数により定常区間長（ｆｉｘｓｚ）を求
める。定常区間評価手段３０８は、定常区間算出手段３
０７により定常区間長が求まる毎に、

【００１７】

【数５】 if ｆｉｘｓｚ≧ＳＺ１_THthe
n ｎ_A＝ｎ_A＋１ else if ｆｉｘｓｚ≧ＳＺ２_THthen ｎ_B＝ｎ_B＋１により、長い定常区間の数ｎ_A、あるいは短い定常区間
の数ｎ_Bを求める。ただし、ｎ_Aとｎ_Bの初期値はともに
０である。また、ＳＺ１_THとＳＺ２_THはシステム毎に決
められる定数であり、ＳＺ１_TH＞ＳＺ２_THである。最後
に音声区間検出手段３０３において音声の終端が検出さ
れると、モード判定手段３０９に起動をかける。モード
判定手段３０９は、定常区間評価手段３０８よりｎ_Aと
ｎ_Bを受け取り、以下によりモードを判定する。ここ
で、ｎは全音節数を表わし、ｎ＝ｎ_A＋ｎ_Bである。

【００１８】

【数６】 if ｎ_A／ｎ＞Ｎ１_TH

【００１９】

【数７】 or ｎ＜Ｎ２_THthen モード＝
音節モード else if ｎ＜Ｎ３_THthen モード＝単語モード else モード＝文章モードただし、Ｎ１_THとＮ２_TH、Ｎ３_THはシステム毎に決めら
れる定数である。モード判定手段３０９は、まず、全音
節数ｎに対する長い定常区間の数ｎ_Aの割合がある閾値
を越えているかどうかにより入力された音声がゆっくり
と丁寧に発声された音節モードかどうか判定する。さら
に、全音節数ｎの大きさによりモードを判定する。この
モード判定手段の３０９の出力により照合手段４あるい
は判定手段５を制御する。

【００２０】なお、母音性定常区間を求めるために、こ
こではパワーの変化だけを用いた実施例を示したが、ス
ペクトルの変化だけあるいはパワーの変化とスペクトル
の変化の組合せとしても求められることは言うまでもな
い。

【００２１】次に本実施例の中で用いる照合手段４につ
いて図４を用いて説明する。

【００２２】図４は、第２の分析手段３の出力を用いて
モードを切り替えるようにした場合の照合手段４の構成
を示すブロック図である。これは、複数の照合手段の前
に選択手段４４を設けたものである。選択手段４４は第
２の分析手段３の出力により複数の照合手段（この例の
場合、音節照合手段４１、単語照合手段４２、文照合手
段４３）のうち一つあるいは複数（この例の場合は高々
二つまで）を適宜選択し、選択された照合手段に第１の
分析手段２からの情報を送る。複数選択した場合には判
定手段５がスコアに基づいて一つあるいは複数の候補を
認識結果として出力することになる。ＨＭＭ６１は、予
め統計的に学習された音節単位のモデルを格納してい
る。音節照合手段４１はこのモデルに沿って音節単位の
照合をし、照合結果として一つあるいは複数の音節の候
補をスコアと共に出力する。単語辞書６２は、単語につ
いての情報（例えば、どんな音節列で構成されているか
に関する情報）を格納している。単語照合手段４２は、
ＨＭＭ６１に格納された音節単位のモデルを、単語辞書
６２の情報に沿って組み合わせた単語単位のモデルを用
いて単語単位の照合を行い、照合結果として一つあるい
は複数の単語の候補をスコアと共に出力する。文法６３
は、文法を格納している。文照合手段４３は、ＨＭＭ６
１、単語辞書６２、文法６３に基づいて照合を行い、照
合結果として一つあるいは複数の文あるいは文節の候補
をスコアと共に出力する。

【００２３】なお、音節照合手段４１、単語照合手段４
２、文照合手段４３の実現方法としては様々な方法が考
えられるが、ここではＨＭＭ（ＨｉｄｄｅｎＭａｒｋ
ｏｖＭｏｄｅｌ）を使った方法を考える。ＨＭＭを用い
た音声認識装置の実現方法については”中川聖一，音声
認識における時系列パターン照合アルゴリズムの展開，
人工知能学会，Vol.3, No.4, pp414-423, 1988.”ある
いは”Kai-Fu Lee, Automatic speech recognition: th
e development of the SPHINX system, Kluwer Academi
c Publisher, 1989.”に詳しく説明されている。

【００２４】次に、図５を用いて照合手段４の別の実施
例を説明する。

【００２５】図５は、第２の分析手段３の出力を用いて
モードを切り替えるようにした場合の照合手段４の構成
を示すブロック図である。複数の照合手段の後に選択手
段４４を設けたものである。すなわち、複数の照合手段
（音節照合手段４１、単語照合手段４２、文照合手段４
３）は並列に動作し、各照合手段からの照合結果のうち
一つあるいは複数を、選択手段４４が第２の分析手段３
の結果に基づいて選択する。音節照合手段４１、単語照
合手段４２、文照合手段４３の構成については図４の場
合と同じで良い。

【００２６】次に、図６を用いて照合手段４のさらに別
の実施例を説明する。

【００２７】図６は、第２の分析手段３の出力により判
定手段５を制御する場合の照合手段４の構成を示すブロ
ック図である。選択手段がなく、複数の照合結果がすべ
て判定手段５へ送られる点以外は図４や場合と同じ構成
である。

【００２８】次に本実施例の中で用いる判定手段５につ
いて説明する。

【００２９】判定手段５は、入力として照合手段４の出
力を受け取る。判定手段５は、最もスコアの良い候補一
つあるいは上位の複数の候補を認識結果として出力す
る。なお、照合手段４内の選択手段４４により複数の照
合手段が選択されている場合には、それらの照合結果を
まとめて、判定手段５がスコアに基づいて最もスコアの
良い一つの候補あるいは上位の複数の候補を認識結果と
して出力することになる。さらに判定手段５は、照合手
段４の出力に加えて第２の分析手段３の出力を入力とし
て受け取る場合もある。判定手段５では、第２の分析手
段３から受け取った情報（今の場合は、発声モード）に
基づいて、照合手段４から送られてきた候補に対してス
コアの修正（例えば、重みを付ける）を行ってから、最
もスコアの良い一つの候補あるいは上位の複数の候補を
認識結果として出力する。

【００３０】なお、照合手段４と判定手段５の両方を制
御できることは言うまでもない。

【００３１】本実施例では、第２の分析手段において発
声モードを検出するようにしたが、第２の分析手段が話
者性に関連した離散的な値（例えば、男性か女声か、大
人か子供か）を抽出するための分析を行なうようにすれ
ば、話者の変化に対応できる。

【００３２】また、第２の分析手段が入力音声の発声速
度に関連した連続的な値（例えば、音声中の単位時間当
りの音節数）を抽出するための分析を行なうようにすれ
ば、発声速度の変化に対応できる。

【００３３】

【発明の効果】本発明によれば、発声の様態の変化や話
者の変化の検出結果に基づいて照合手段あるいは判定手
段を制御するので、利用者の多様な発声の様態の変化や
話者の変化に対応して音声を認識することができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例を示すブロッ
ク図。

【図２】第２の分析手段の一実施例を示すブロック図。

【図３】本実施例の第２の分析手段におけるデータの流
れを示す説明図。

【図４】照合手段の構成を示すブロック図。

【図５】照合手段の他の構成を示すブロック図。

【図６】照合手段のさらに他の構成を示すブロック図。

【符号の説明】１…入力手段、２…第１の分析手段、３…第２の分析手
段、４…照合手段、５…判定手段、６…標準パタン格納
手段。

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、前記音声
入力手段により入力された音声を分析し、特徴ベクトル
の時系列パタンを出力する第１の分析手段と、予め認識
の基準として用意された標準パタンを格納する標準パタ
ン格納手段と、前記標準パタンと前記第１の分析手段か
ら得られる特徴ベクトルの時系列パタンとを照合して、
各標準パタンに対するスコアを求める照合手段と、前記
各標準パタンに対するスコアに基づいて、一つあるいは
複数個の認識候補を出力する判定手段とからなる音声認
識装置において、前記音声入力手段により入力された音
声に対第２の分析手段を設け、前記第２の分析手段の出
力を用いて前記照合手段およびあるいは前記判定手段を
制御するようにしたことを特徴とする音声認識装置。
【請求項２】請求項１において、前記第２の分析手段は
離散的な値を出力するようにし、前記離散的な値を用い
て前記照合手段およびあるいは前記判定手段を制御する
ようにした音声認識装置。
【請求項３】請求項２において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記離散的
な値に基づいて前記複数の照合手段の中から一つあるい
は複数個を適宜選択し使い分ける音声認識装置。
【請求項４】請求項２において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記複数の
照合手段のすべてあるいは一部を並列動作可能な構成と
し、前記離散的な値に基づいて前記複数の照合手段の結
果のうち一つあるいは複数個を選択する音声認識装置。
【請求項５】請求項２において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記複数の
照合手段のすべてあるいは一部を並列動作可能な構成と
し、前記判定手段は前記複数の照合手段から得られる複
数の照合結果を、前記離散的な値に基づいて、判定する
音声認識装置。
【請求項６】請求項３、４または５において、前記第２
の分析手段は、入力される音声の発声単位が音節、単
語、文章のいずれであるかを出力する音声認識装置。
【請求項７】請求項３、４または５において、前記第２
の分析手段は、話者性に関連した離散的な値を抽出する
ようにした音声認識装置。
【請求項８】請求項１において、前記第２の分析手段か
ら得られる出力は連続的に変化する量であり、前記連続
的に変化する量を用いて前記照合手段および／あるいは
前記判定手段を制御するようにした音声認識装置。
【請求項９】請求項８において、前記第２の分析手段
は、発声速度に関連した連続的に変化する量を出力する
音声認識装置。