JPH08171396A

JPH08171396A - 音声認識装置

Info

Publication number: JPH08171396A
Application number: JP6316382A
Authority: JP
Inventors: Yumi Wakita; 由実脇田; Shingaa Hararudo; ハラルド・シンガー; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1994-12-20
Filing date: 1994-12-20
Publication date: 1996-07-02
Anticipated expiration: 2014-11-10
Also published as: JP2975542B2

Abstract

(57)【要約】【目的】音韻認識の誤りをより確実に訂正することが
でき、従来例に比較してより高い音声認識率を得ること
ができる音声認識装置を提供する。【構成】照合部は入力発声音声を音韻ＨＭＭを用いて
音素照合を行い発声音声に対応する認識された音韻系列
とその音声区間を出力する。学習時に、認識された音韻
系列とその音声区間を正解の音韻系列とその音声区間と
比較し、互いに対応する音声区間で、認識された音韻系
列が正解の音韻系列と異なっているときに、認識された
誤り音韻系列と正解の音韻系列との対を誤り傾向テーブ
ルとして抽出する。認識時に、認識された音韻系列とそ
の音声区間とに基づいて、認識された音韻系列と誤り傾
向テーブル内の誤り音韻系列とを比較して誤り音韻系列
を検出したときに、認識された音韻系列を正解の音韻系
列に置き換えることにより誤り訂正を行う。上記音韻系
列は状態系列であってもよい。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、隠れマルコフモデル
（以下、ＨＭＭという。）を用いて入力される発声音声
を音声認識する音声認識装置に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来の
音声認識装置では、標準モデルと入力音声との音響的な
マッチングの不確実さを緩和するために、マッチングの
際にビーム幅を大きくとり、言語制約から音韻や単語の
候補を絞る方法や、スコアの高い複数の結果候補から、
文脈条件などを用いて適切な候補を絞る方法を用いてい
る。しかしながら、実際には、処理時間や処理容量の限
界から、十分なビーム幅や認識候補数が確保できなかっ
たり、確保できても候補数が多すぎて正解を絞れないと
いう問題点があった。

【０００３】従来、入力音節のシンボル系列に対する認
識音節のシンボル系列の誤りの傾向を、系列長が３音節
の場合を最大長として学習することによって、誤り訂正
を行う方法（以下、第１の従来例という。）が、神谷伸
ほか，“音節連鎖の出現確率に基づく切り出し・認識誤
りの訂正”，音響学会講演論文集，３−５−８，ｐｐ．
１０３−１０４において提案され、その有効性が確認さ
れている。

【０００４】しかしながら、この第１の従来例では、シ
ンボル系列上の比較では、実際にマッチングした発声音
声区間が異なっていても、シンボル上では対応する部分
として処理されるために、同じ誤りを訂正することがで
きる保証はない。また、系列の最大長を限定すること
も、同一の誤りを訂正することができる系列を途中で切
ってしまう可能性があるという問題点があった。従っ
て、音声認識時の訂正効率が比較的低い。

【０００５】さらに、学習時に、各音素ごとの誤り率と
誤り内容を、前後のコンテキスト条件も考慮して計算す
る方法（以下、第２の従来例という。）が、田中ほか，
“日本語Ｄｉｃｔａｔｉｏｎシステムにおける文節検出
の高速化”，電子通信学会研究会，ＳＰ９０−７０，ｐ
ｐ．１７−２４，１９９０年において開示されている。
この第２の従来例では、以下の方法を用いる。音素の誤
りがある場合は、音素認識部の従来のConfusion Matrix
から各音素の誤り確率を計算することができるので、辞
書中に含まれる３つの音素の組が誤り確率を予め計算す
ることができ、この計算した誤り確率を認識スコアの重
み係数として用いて、認識結果を訂正する。

【０００６】しかしながら、この第２の従来例では、前
後のコンテキストを含めた３音素内での誤りしか訂正で
きない。従って、第２の従来例においても、音声認識時
の訂正効率が比較的低い。

【０００７】本発明の目的は以上の問題点を解決し、音
韻認識の誤りをより確実に訂正することができ、従来例
に比較してより高い音声認識率を得ることができる音声
認識装置を提供することにある。

【０００８】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、入力された発声音声を音韻隠れマ
ルコフモデルを用いて音素照合を行い、上記発声音声に
対応する認識された音韻系列とその音声区間情報を出力
する照合手段と、正解の音韻系列とその音声区間が既知
である学習用発声音声に対する上記照合手段による照合
結果である音韻系列とその音声区間情報とに基づいて、
当該認識された音韻系列とその音声区間情報を、上記正
解の音韻系列とその音声区間と比較し、互いに対応する
音声区間で、認識された音韻系列が正解の音韻系列と異
なっているときに、当該認識された誤り音韻系列と当該
正解の音韻系列との対を抽出する誤り抽出手段と、上記
誤り抽出手段によって抽出された誤り音韻系列と正解の
音韻系列との対を、誤り傾向テーブルとして記憶する記
憶手段と、音声認識すべき入力された発声音声に対する
上記照合手段による照合結果である音韻系列とその音声
区間情報とに基づいて、上記記憶手段によって記憶され
た誤り傾向テーブルを参照して、当該認識された音韻系
列と、上記誤り傾向テーブル内の誤り音韻系列とを比較
して、当該認識された音韻系列の中に上記誤り音韻系列
を検出したときに、当該認識された音韻系列を、上記誤
り音韻系列に対応する正解の音韻系列に置き換えること
により誤り訂正を行った音韻系列を、上記照合手段によ
る照合結果である音韻系列に追加して、音韻認識結果候
補として出力する誤り訂正処理手段とを備えたことを特
徴とする。

【０００９】また、本発明に係る請求項２記載の音声認
識装置は、入力された発声音声を音韻隠れマルコフモデ
ルを用いて音素照合を行い、上記発声音声に対応する認
識された状態系列とその音声区間情報を出力する照合手
段と、正解の状態系列とその音声区間が既知である学習
用発声音声に対する上記照合手段による照合結果である
状態系列とその音声区間情報とに基づいて、当該認識さ
れた状態系列とその音声区間情報を、上記正解の状態系
列とその音声区間と比較し、互いに対応する音声区間
で、認識された状態系列が正解の状態系列と異なってい
るときに、当該認識された誤り状態系列と当該正解の状
態系列との対を抽出する誤り抽出手段と、上記誤り抽出
手段によって抽出された誤り状態系列と正解の状態系列
との対を、誤り傾向テーブルとして記憶する記憶手段
と、音声認識すべき入力された発声音声に対する上記照
合手段による照合結果である状態系列とその音声区間情
報とに基づいて、上記記憶手段によって記憶された誤り
傾向テーブルを参照して、当該認識された状態系列と、
上記誤り傾向テーブル内の誤り状態系列とを比較して、
当該認識された状態系列の中に上記誤り状態系列を検出
したときに、当該認識された状態系列を、上記誤り状態
系列に対応する正解の状態系列に置き換えることにより
誤り訂正を行った状態系列を、上記照合手段による照合
結果である状態系列に追加して、音韻認識結果候補とし
て出力する誤り訂正処理手段とを備えたことを特徴とす
る。

【００１０】また、請求項３記載の音声認識装置は、請
求項１又は２記載の音声認識装置において、上記入力さ
れた発声音声は１つの文章からなり、上記誤り訂正処理
手段から出力される音韻認識結果候補に対して、所定の
形態素辞書を参照して形態素解析を行って、１つの文章
として最適な音声認識結果を出力する形態素解析手段を
さらに備えたことを特徴とする。

【００１１】さらに、請求項４記載の音声認識装置は、
請求項１又は２記載の音声認識装置において、上記入力
された発声音声は１つの単語からなり、上記誤り訂正処
理手段から出力される音韻認識結果候補に対して、所定
の単語辞書を参照して単語解析を行って、１つの単語と
して最適な音声認識結果を出力する単語解析手段をさら
に備えたことを特徴とする。

【００１２】また、請求項５記載の音声認識装置は、請
求項１、３又は４記載の音声認識装置において、上記誤
り傾向テーブルは、正解の音韻系列とその音韻隠れマル
コフモデルの状態番号と、誤りの音韻系列とその音韻隠
れマルコフモデルの状態番号との対を含むことを特徴と
する。さらに、請求項６記載の音声認識装置は、請求項
１乃至５のうちの１つに記載の音声認識装置において、
上記音韻隠れマルコフモデルは、１つの音韻が複数の状
態で構成された隠れマルコフモデルであることを特徴と
する。

【００１３】また、請求項７記載の音声認識装置は、請
求項１乃至６のうちの１つに記載の音声認識装置におい
て、上記音声区間情報は、入力された発声音声を所定長
のフレーム区間で区切った複数のフレームのうちの、そ
の音韻が開始する始端フレーム番号と終端フレーム番号
とで表されたことを特徴とする。さらに、請求項８記載
の音声認識装置は、請求項２又は５に従属する請求項７
を除く、請求項７記載の音声認識装置において、上記照
合手段による照合結果である音韻系列及び上記正解の音
韻系列はそれぞれ、１つの音韻に対して、その音韻と、
状態番号と、始端フレーム番号と、終端フレーム番号と
の組の形式で表されたことを特徴とする。

【００１４】

【作用】以上のように構成された請求項１記載の音声認
識装置においては、学習時に、上記誤り抽出手段は、正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する上記照合手段による照合結果である音韻系列
とその音声区間情報とに基づいて、当該認識された音韻
系列とその音声区間情報を、上記正解の音韻系列とその
音声区間と比較し、互いに対応する音声区間で、認識さ
れた音韻系列が正解の音韻系列と異なっているときに、
当該認識された誤り音韻系列と当該正解の音韻系列との
対を抽出して、誤り傾向テーブルとして上記記憶手段に
格納する。さらに、認識時に、上記誤り訂正手段は、音
声認識すべき入力された発声音声に対する上記照合手段
による照合結果である音韻系列とその音声区間情報とに
基づいて、上記記憶手段によって記憶された誤り傾向テ
ーブルを参照して、当該認識された音韻系列と、上記誤
り傾向テーブル内の誤り音韻系列とを比較して、当該認
識された音韻系列の中に上記誤り音韻系列を検出したと
きに、当該認識された音韻系列を、上記誤り音韻系列に
対応する正解の音韻系列に置き換えることにより誤り訂
正を行った音韻系列を、上記照合手段による照合結果で
ある音韻系列に追加して、音韻認識結果候補として出力
する。

【００１５】また、請求項２記載の音声認識装置におい
ては、学習時に、上記誤り抽出手段は、正解の状態系列
とその音声区間が既知である学習用発声音声に対する上
記照合手段による照合結果である状態系列とその音声区
間情報とに基づいて、当該認識された状態系列とその音
声区間情報を、上記正解の状態系列とその音声区間と比
較し、互いに対応する音声区間で、認識された状態系列
が正解の状態系列と異なっているときに、当該認識され
た誤り状態系列と当該正解の状態系列との対を抽出し
て、誤り傾向テーブルとして上記記憶手段に格納する。
さらに、認識時に、上記誤り訂正手段は、音声認識すべ
き入力された発声音声に対する上記照合手段による照合
結果である状態系列とその音声区間情報とに基づいて、
上記記憶手段によって記憶された誤り傾向テーブルを参
照して、当該認識された状態系列と、上記誤り傾向テー
ブル内の誤り状態系列とを比較して、当該認識された状
態系列の中に上記誤り状態系列を検出したときに、当該
認識された状態系列を、上記誤り状態系列に対応する正
解の状態系列に置き換えることにより誤り訂正を行った
状態系列を、上記照合手段による照合結果である状態系
列に追加して、音韻認識結果候補として出力する。

【００１６】また、請求項３記載の音声認識装置におい
ては、上記形態素解析手段は、上記入力された発声音声
は１つの文章からなり、上記誤り訂正処理手段から出力
される音韻認識結果候補に対して、所定の形態素辞書を
参照して形態素解析を行って、１つの文章として最適な
音声認識結果を出力する。従って、発声音声文の音声認
識を行うことができる。

【００１７】さらに、請求項４記載の音声認識装置にお
いては、上記単語解析手段は、上記入力された発声音声
は１つの単語からなり、上記誤り訂正処理手段から出力
される音韻認識結果候補に対して、所定の単語辞書を参
照して単語解析を行って、１つの単語として最適な音声
認識結果を出力する。従って、発声音声の単語を音声認
識することができる。

【００１８】また、請求項５記載の音声認識装置におい
ては、上記誤り傾向テーブルは、好ましくは、正解の音
韻系列とその音韻隠れマルコフモデルの状態番号と、誤
りの音韻系列とその音韻隠れマルコフモデルの状態番号
との対を含む。さらに、請求項６記載の音声認識装置に
おいては、上記音韻隠れマルコフモデルは、好ましく
は、１つの音韻が複数の状態で構成された隠れマルコフ
モデルである。

【００１９】また、請求項７記載の音声認識装置におい
ては、上記音声区間情報は、好ましくは、入力された発
声音声を所定長のフレーム区間で区切った複数のフレー
ムのうちの、その音韻が開始する始端フレーム番号と終
端フレーム番号とで表される。さらに、請求項８記載の
音声認識装置においては、上記照合手段による照合結果
である音韻系列及び上記正解の音韻系列はそれぞれ、好
ましくは、１つの音韻に対して、その音韻と、状態番号
と、始端フレーム番号と、終端フレーム番号との組の形
式で表される。

【００２０】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は、本発明に係る一実施例である
音声認識装置のブロック図である。この音声認識装置
は、（ａ）マイクロホン１に入力された後Ａ／Ｄ変換器
２によってＡ／Ｄ変換された発声音声のディジタル音声
信号に対して所定の音響的な特徴パラメータを抽出する
特徴抽出部３と、（ｂ）特徴抽出部３からバッファメモ
リ４を介して入力される特徴パラメータに基づいて、音
韻ＨＭＭメモリ１０に格納された音韻ＨＭＭを用いて音
素照合を行い、上記発声音声に対応する音韻系列とその
音声区間情報を、照合結果保管バッファメモリ（以下、
保管バッファメモリという。）１１に格納する音響パラ
メータ照合部（以下、照合部という。）５と、（ｃ）正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する照合部５による照合結果である音韻系列とそ
の音声区間情報とに基づいて、当該認識された音韻系列
とその音声区間情報を、上記正解の音韻系列とその音声
区間と比較し、互いに対応する音声区間で、認識された
音韻系列が正解の音韻系列と異なっているときに、当該
認識された誤り音韻系列と当該正解の音韻系列との対を
抽出する認識誤り音韻系列誤り抽出部（以下、誤り抽出
部という。）６と、（ｄ）上記誤り抽出部６によって抽
出された誤り音韻系列と正解の音韻系列との対を、誤り
傾向テーブルとして記憶する誤り傾向テーブルメモリ１
２と、（ｅ）音声認識すべき入力された発声音声に対す
る照合部５による照合結果である音韻系列とその音声区
間情報とに基づいて、誤り傾向テーブルメモリ１２によ
って記憶された誤り傾向テーブルを参照して、当該認識
された音韻系列と、上記誤り傾向テーブル内の誤り音韻
系列とを比較して、当該認識された音韻系列の中に上記
誤り音韻系列を検出したときに、当該認識された音韻系
列を、上記誤り音韻系列に対応する正解の音韻系列に置
き換えることにより誤り訂正を行った音韻系列を、照合
部５による照合結果である音韻系列に追加して、音韻認
識結果候補として出力する結果候補誤り訂正処理部（以
下、誤り訂正処理部という）７と、（ｆ）上記入力され
た発声音声は１つの文章からなるときに、誤り訂正処理
部７から出力される音韻認識結果候補に対して、形態素
辞書メモリ１３内の形態素辞書と、Ｎ−グラム辞書メモ
リ１４内のＮ−グラム辞書とを参照して形態素解析を行
って、１つの文章として最適な音声認識結果を出力する
形態素解析部８とを備える。

【００２１】本実施例の音声認識装置は、誤り傾向テー
ブルを抽出する学習モードと、マイクロホンから入力さ
れる発声音声を音声認識する認識モードとを有する。各
処理部１乃至８のうち、抽出部６は学習モードのみにお
いて動作し、誤り訂正処理部７と形態素解析部８とは認
識モードのみにおいて動作する。

【００２２】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、Ａ／Ｄ変
換器２に入力されて、フレーム周期が例えば１０ミリ秒
で、アナログ音声信号からディジタル音声信号にＡ／Ｄ
変換される。このとき、ディジタル音声信号の所定長の
フレーム区間で区切った各フレームには、入力開始時か
らのシリアル番号であるフレーム番号が付与され、当該
ディジタル音声信号は、特徴抽出部３に入力される。特
徴抽出部３は、入力されるディジタル音声信号に対し
て、例えばＬＰＣ分析を実行し、対数パワー、１６次ケ
プストラム係数、Δ対数パワー及び１６次Δケプストラ
ム係数を含む３４次元の特徴パラメータを抽出する。抽
出された特徴パラメータの時系列はバッファメモリ４を
介して照合部５に入力される。

【００２３】照合部５に接続されるＨＭＭメモリ１０内
のＨＭＭは、複数の状態と、各状態間の遷移を示す弧か
ら構成され、各弧には状態間の遷移確率と入力コードに
対する出力確率を有している。本実施例においては、音
韻ＨＭＭは、各音韻の特徴を１つの音韻当たり３状態で
表現したＨＭＭで表現したものであり、３状態が連続し
４ループを有する連続型ＨＭＭである。なお、本実施例
では、１つの音韻当たり３状態で表現したＨＭＭを用い
ているが、本発明はこれに限らず、１つの音韻当たり複
数の状態で表現したＨＭＭを用いても良い。

【００２４】照合部４は、入力される特徴パラメータの
データに対して、各音韻ＨＭＭとの距離を時系列に沿っ
て計算してその距離が所定の距離以下のものを整合結果
として得ることにより音素照合、すなわちＤＰ（dynami
c programming）による整合（いわゆるＤＰマッチン
グ）を行い、上記発声音声に対応する音韻系列とその音
声区間情報を保管バッファメモリ１１に出力して格納す
る。本実施例においては、照合部４は、例えば、公知の
フレーム同期型ＯｎｅＰａｓｓＤＰ法を用いてＶｉ
ｔｅｒｂｉアルゴリズムで照合を行うことにより、時系
列に沿って各フレームまでで最も確からしい音韻列の上
位からｎ位候補までの音韻系列の候補を出力し、処理が
最終フレームに達したときに、すべての入力発声音声の
音韻認識結果候補を出力する。

【００２５】保管バッファメモリ１１は、学習モード時
には、照合した認識結果である音韻系列と、照合したＨ
ＭＭの状態番号と、並びに、認識された各音韻の照合区
間、すなわち対応する音声区間情報を保管格納する。一
方、認識時には、照合した認識結果である音韻系列と、
ＨＭＭの状態番号を保管格納する。

【００２６】例えば、１音韻が３状態で構成されている
ＨＭＭを用いて認識を行い、「ｋｏＮｂａＮｗａ（こん
ばんわ）」が「ｋａＮｂａＮｎａ」と認識された場合に
は、保管バッファメモリ１１には、次の表１に示すよう
に、音韻の認識結果である音韻系列と、ＨＭＭの状態番
号と、対応する音声区間情報である始端フレーム番号と
終端フレーム番号とが格納される。ここで、ＨＭＭの状
態番号は、音韻ＨＭＭが作成された時点で、各音韻毎に
独立した３つの番号が付与され、当該認識時において１
つの音韻に対して対応する３つの状態番号が保管格納さ
れる。なお、以下の表において、始端フレーム番号を始
端ＦＮと表し、終端フレーム番号を終端ＦＮと表す。

【００２７】

【表１】 ─────────────────────────── 認識音韻系列状態番号始端ＦＮ終端ＦＮ ─────────────────────────── ｋ［１，２，３］１２０ａ［１３，１４，１５］２１３５Ｎ［７，８，９］３６４５ｂ［１０，１１，１２］４６５０ａ［１３，１４，１５］５１６５Ｎ［７，８，９］６６８０ｎ［１９，２０，２１］８１８８ａ［１３，１４，１５］８９１００ ───────────────────────────

【００２８】本実施例においては、音声区間情報は、入
力された発声音声を所定長のフレーム区間で区切った複
数のフレームのうちの、その音韻が開始する始端フレー
ム番号と終端フレーム番号とで表されている。また、認
識された音韻系列及び、後述する正解の音韻系列はそれ
ぞれ、１つの音韻に対して、その音韻と、状態番号と、
始端フレーム番号と、終端フレーム番号との組の形式で
表される。

【００２９】学習モードのときに、誤り抽出部６は、正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する照合部５による照合結果である音韻系列とそ
の音声区間情報とに基づいて、当該認識された音韻系列
とその音声区間情報を、上記正解の音韻系列とその音声
区間と比較し、互いに対応する音声区間で、認識された
音韻系列が正解の音韻系列と異なっているときに、当該
認識された誤り音韻系列と当該正解の音韻系列との対を
抽出する。そして、抽出した誤り音韻系列と正解の音韻
系列の対を、そのＨＭＭの状態番号とともに、誤り傾向
テーブルとして、誤り傾向テーブルメモリ１２に格納す
る。

【００３０】誤り傾向テーブルは、誤り抽出部６の上記
処理にて抽出された正解の音韻系列と誤り音韻系列と
を、ＨＭＭの状態番号とともに格納する。ここで、例え
ば、正解の音韻系列が「ｋｏＮｂａＮｗａ」であり、保
管バッファメモリ１１に、学習モードの処理の前に予め
格納されるデータが、表２に示すように、その正解の音
韻系列と、そのＨＭＭの状態番号と、その音声区間情報
とを含む形式で格納された場合について考える。

【００３１】

【表２】 ─────────────────────────── 正解音韻系列状態番号始端ＦＮ終端ＦＮ ─────────────────────────── ｋ［１，２，３］１２０ｏ［４，５，６］２１３５Ｎ［７，８，９］３６４５ｂ［１０，１１，１２］４６５０ａ［１３，１４，１５］５１６５Ｎ［７，８，９］６６８０ｗ［１６，１７，１８］８１８８ａ［１３，１４，１５］８９１００ ───────────────────────────

【００３２】さらに、認識モード時に、操作者がマイク
ロホン１に向かって、「ｋｏＮｂａＮｗａ」と発声した
ときの照合部５により照合結果が、先の例と同様の形式
で、次の表３に示すように、保管バッファメモリ１１に
保管格納されたものとする。

【００３３】

【表３】 ─────────────────────────── 認識音韻系列状態番号始端ＦＮ終端ＦＮ ─────────────────────────── ｋ［１，２，３］１２０ａ［１３，１４，１５］２１３５Ｎ［７，８，９］３６４５ｂ［１０，１１，１２］４６５０ａ［１３，１４，１５］５１６５Ｎ［７，８，９］６６８０ｎ［１９，２０，２１］８１８８ａ［１３，１４，１５］８９１００ ───────────────────────────

【００３４】これらの、表２の正解の音韻系列と、表３
の認識された音韻系列とを、抽出部６によって比較する
と、次の表４で示されるように、誤り音韻系列として抽
出され、誤り傾向テーブルメモリ１２に保管される。こ
こで、誤り傾向テーブルは、正解の音韻系列とその音韻
ＨＭＭの状態番号と、誤りの音韻系列とその音韻ＨＭＭ
の状態番号との対を含む。

【００３５】

【表４】 ──────────────────────────────── 正解音韻系列とその状態番号 → 誤り音韻系列とその状態番号 ──────────────────────────────── ｏ,Ｎ,［４,５,６,７,８,９］→ａ,Ｎ,［１３,１４,１５,７,８,９］ｗ，［９,１０,１１］ →ｎ,［１９,２０,２１］ ────────────────────────────────

【００３６】さらに、誤り訂正処理部７は、音声認識す
べき入力された発声音声に対する照合部５による照合結
果である音韻系列とその音声区間情報とに基づいて、誤
り傾向テーブルを参照して、当該認識された音韻系列
と、上記誤り傾向テーブル内の誤り音韻系列とを比較し
て、当該認識された音韻系列の中に上記誤り音韻系列を
検出したときに、当該認識された音韻系列を、上記誤り
音韻系列に対応する正解の音韻系列に置き換えることに
より誤り訂正を行った音韻系列を、上記照合手段による
照合結果である音韻系列に追加して、音韻認識結果候補
として形態素解析部８に出力する。

【００３７】例えば、学習時に表４に示すように誤り傾
向テーブルが作成されたとした場合で、照合部５による
照合結果の音韻系列が、「ｋａＮｎｉｃｈｉｎａ」であ
る場合、誤り傾向テーブル内の誤り音韻系列と同一の音
韻系列である音韻系列「ａｎ」と音韻「ｎ」とが、上記
照合結果内に含まれているので、誤り訂正処理部７で
は、誤り傾向テーブルを参照して、これらの音韻系列又
は音韻を正解の音韻系列に置き換えた以下の表５に示す
候補も、照合結果すなわち音韻認識結果に追加する。

【００３８】

【表５】 ────────────── 「ｋｏＮｎｉｃｈｉｎａ」「ｋａＮｎｉｃｈｉｗａ」「ｋｏＮｎｉｃｈｉｗａ」 ──────────────

【００３９】さらに、形態素解析部８は、上記入力され
た発声音声は１つの文章からなるときに、誤り訂正処理
部７から出力される音韻認識結果候補に対して、形態素
辞書メモリ１３内の形態素辞書と、Ｎ−グラム辞書メモ
リ１４内のＮ−グラム辞書とを参照して形態素解析を行
って、１つの文章として最適な音声認識結果を出力す
る。すなわち、形態素解析部８は、音韻系列で表された
複数の認識結果候補をまず、ひらがな表記に変換する。
次に、ひらがな表記された結果が文として成立するか否
かを判断するために、ひらがな表記された認識対象とな
る単語とその品詞名とを格納した形態素辞書を参照して
各認識結果候補に対して形態素解析を行う。１つの文章
入力に対して、複数の形態素解析結果が考えられるが、
その際に、予め隣接する単語、又は品詞の出現確率を調
べておき、これらをＮ−グラム辞書メモリ１４にＮ−グ
ラム辞書として格納する。形態素解析部８は、当該Ｎ−
グラム辞書を参照して、複数の形態素解析結果の中で最
も隣接する単語又は品詞の可能性の大きい文章を最も確
からしい形態素解析結果として出力する。一方、形態素
解析部８に誤った文章が入力されたときは、形態素辞書
に対応する単語がなかったり、隣接する可能性が無い単
語又は品詞が隣接したりしたとき、その解析は途中で失
敗する。

【００４０】例えば、誤り訂正処理部７から出力される
認識結果として、次の４つの認識結果候補が形態素解析
部８に入力された場合を考える。（Ａ１）「ｋａＮｎｉｃｈｉｎａ」（Ａ２）「ｋｏＮｎｉｃｈｉｎａ」（Ａ３）「ｋａＮｎｉｃｈｉｗａ」（Ａ４）「ｋｏＮｎｉｃｈｉｗａ」このとき、認識結果候補（Ａ１）、（Ａ２）、及び（Ａ
４）は、形態素解析部８において解析失敗となり、認識
結果候補（Ａ４）のみが「こんにちわ（感動詞）」とい
う解析結果が形態素解析部８から出力されることにな
る。

【００４１】さらに、本発明者が図１の音声認識装置を
用いて実施したシミュレーション結果について以下に説
明する。本発明の誤り訂正処理部７を含む音声認識装置
における形態素解析部８への入力は、正しいと思われる
結果を含んだ複数の認識結果候補である。この誤り訂正
法を評価するために、形態素解析部８に入力する複数の
認識結果候補の中に、如何に効率よく正解の音韻系列が
含まれているかを調べた。その結果、誤り訂正を行わ
ず、認識結果の上位ｎ個の候補を形態素解析の入力にし
た場合に比べ、同じ候補数に１．３３倍の正解の音韻系
列候補を含んでいた。また、第１の従来例に比較して、
同じ候補数に対して１．２４倍の正解の音韻系列を含ん
でいた。以上より、本発明の誤り訂正法が、従来例の方
法に比べて、訂正効率がよいことがわかる。これによ
り、音韻認識の誤りをより確実に訂正することができ、
従来例に比較してより高い音声認識率を得ることができ
る。

【００４２】以上説明したように、この実施例によれ
ば、ＨＭＭの単位に依存せずに、誤り傾向の抽出が可能
であり、その結果、訂正効率が従来例に比較して高い。
また、当該誤り傾向テーブルを用いて認識結果の訂正を
行うことができるので、誤り学習と異なった単語や文章
においても高精度な訂正が可能である。従って、音韻認
識の誤りをより確実に訂正することができ、従来例に比
較してより高い音声認識率を得ることができる。

【００４３】以上の実施例においては、形態素解析部８
を設けているが、本発明はこれに限らず、これに代え
て、単語解析部を設けてもよい。当該単語解析部は、入
力された発声音声が１つの単語からなるときに、誤り訂
正処理部７から出力される音韻認識結果候補に対して、
所定の単語辞書を参照して単語解析を行って、１つの単
語として最適な音声認識結果を出力する。

【００４４】以上の実施例においては、１つの音韻に対
して３つ１組の状態番号が１対１に対応する場合を示し
ているが、本発明はこれに限らず、認識結果の系列、正
解の系列及び誤りの系列を、ＨＭＭの状態番号又は状態
記号などで表された状態系列で表しても良い。すなわ
ち、より音声認識をより確実に行うためには、各音韻の
前後の音韻環境により、同一の音韻でも異なる状態を与
え得る場合がある。例えば、音韻「Ｎ」は、状態番号の
系列［７，８，９］で表わせ得る場合と、これとは異な
る状態番号の系列［７，３２，３３］で表させ得る場合
がある。これに対処するために、認識結果の系列、正解
の系列及び誤りの系列を、ＨＭＭの状態番号又は状態記
号などで表された状態系列で表す。この変形例では、音
韻をより詳細な形式で表しているので、音韻系列を用い
る請求項１記載の装置に比較して、訂正効率を改善する
ことができ、より確実に音声認識を行うことができる。
ＨＭＭの状態番号の系列で表したこの変形例の場合、表
１乃至表４における音韻系列は無く、状態番号の系列の
みになる。なお、この場合においても、音韻ＨＭＭは、
１つの音韻に対して、３つ以外の複数の状態で表しても
良い。

【００４５】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識装置によれば、入力された発声音声を
音韻隠れマルコフモデルを用いて音素照合を行い、上記
発声音声に対応する認識された音韻系列とその音声区間
情報を出力する照合手段と、正解の音韻系列とその音声
区間が既知である学習用発声音声に対する上記照合手段
による照合結果である音韻系列とその音声区間情報とに
基づいて、当該認識された音韻系列とその音声区間情報
を、上記正解の音韻系列とその音声区間と比較し、互い
に対応する音声区間で、認識された音韻系列が正解の音
韻系列と異なっているときに、当該認識された誤り音韻
系列と当該正解の音韻系列との対を抽出する誤り抽出手
段と、上記誤り抽出手段によって抽出された誤り音韻系
列と正解の音韻系列との対を、誤り傾向テーブルとして
記憶する記憶手段と、音声認識すべき入力された発声音
声に対する上記照合手段による照合結果である音韻系列
とその音声区間情報とに基づいて、上記記憶手段によっ
て記憶された誤り傾向テーブルを参照して、当該認識さ
れた音韻系列と、上記誤り傾向テーブル内の誤り音韻系
列とを比較して、当該認識された音韻系列の中に上記誤
り音韻系列を検出したときに、当該認識された音韻系列
を、上記誤り音韻系列に対応する正解の音韻系列に置き
換えることにより誤り訂正を行った音韻系列を、上記照
合手段による照合結果である音韻系列に追加して、音韻
認識結果候補として出力する誤り訂正処理手段とを備え
る。

【００４６】それ故、ＨＭＭの単位に依存せずに、誤り
傾向の抽出が可能であり、その結果、訂正効率が従来例
に比較して高く、誤り学習と異なった単語や文章におい
ても高精度な訂正が可能である。従って、音韻認識の誤
りをより確実に訂正することができ、従来例に比較して
より高い音声認識率を得ることができる。

【００４７】また、本発明に係る請求項２記載の音声認
識装置によれば、入力された発声音声を音韻隠れマルコ
フモデルを用いて音素照合を行い、上記発声音声に対応
する認識された状態系列とその音声区間情報を出力する
照合手段と、正解の状態系列とその音声区間が既知であ
る学習用発声音声に対する上記照合手段による照合結果
である状態系列とその音声区間情報とに基づいて、当該
認識された状態系列とその音声区間情報を、上記正解の
状態系列とその音声区間と比較し、互いに対応する音声
区間で、認識された状態系列が正解の状態系列と異なっ
ているときに、当該認識された誤り状態系列と当該正解
の状態系列との対を抽出する誤り抽出手段と、上記誤り
抽出手段によって抽出された誤り状態系列と正解の状態
系列との対を、誤り傾向テーブルとして記憶する記憶手
段と、音声認識すべき入力された発声音声に対する上記
照合手段による照合結果である状態系列とその音声区間
情報とに基づいて、上記記憶手段によって記憶された誤
り傾向テーブルを参照して、当該認識された状態系列
と、上記誤り傾向テーブル内の誤り状態系列とを比較し
て、当該認識された状態系列の中に上記誤り状態系列を
検出したときに、当該認識された状態系列を、上記誤り
状態系列に対応する正解の状態系列に置き換えることに
より誤り訂正を行った状態系列を、上記照合手段による
照合結果である状態系列に追加して、音韻認識結果候補
として出力する誤り訂正処理手段とを備える。

【００４８】それ故、ＨＭＭの単位に依存せずに、誤り
傾向の抽出が可能であり、その結果、訂正効率が従来例
に比較して高く、誤り学習と異なった単語や文章におい
ても高精度な訂正が可能である。従って、音韻認識の誤
りをより確実に訂正することができ、従来例に比較して
より高い音声認識率を得ることができる。さらに、この
場合、音韻をより詳細な形式で表しているので、音韻系
列を用いる請求項１記載の音声認識装置に比較して、訂
正効率を改善することができ、より確実に音声認識を行
うことができる。

【００４９】また、請求項３記載の音声認識装置によれ
ば、上記入力された発声音声は１つの文章からなり、上
記誤り訂正処理手段から出力される音韻認識結果候補に
対して、所定の形態素辞書を参照して形態素解析を行っ
て、１つの文章として最適な音声認識結果を出力する形
態素解析手段をさらに備える。これにより、発声音声文
の音声認識を従来例に比較してより高い音声認識率で実
行することができる。

【００５０】さらに、請求項４記載の音声認識装置によ
れば、上記入力された発声音声は１つの単語からなり、
上記誤り訂正処理手段から出力される音韻認識結果候補
に対して、所定の単語辞書を参照して単語解析を行っ
て、１つの単語として最適な音声認識結果を出力する単
語解析手段をさらに備える。これにより、発声音声単語
の音声認識を従来例に比較してより高い音声認識率で実
行することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施例である音声認識装置の
ブロック図である。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４…バッファメモリ、５…音響パラメータ照合部、６…認識誤り音韻系列抽出部、７…結果候補誤り訂正処理部、８…形態素解析部、１０…音韻ＨＭＭメモリ１１…照合結果保管バッファメモリ、１２…誤り傾向テーブルメモリ、１３…形態素辞書メモリ、１４…Ｎ−グラム辞書メモリ。

フロントページの続き (72)発明者ハラルド・シンガー京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】入力された発声音声を音韻隠れマルコフ
モデルを用いて音素照合を行い、上記発声音声に対応す
る認識された音韻系列とその音声区間情報を出力する照
合手段と、正解の音韻系列とその音声区間が既知である学習用発声
音声に対する上記照合手段による照合結果である音韻系
列とその音声区間情報とに基づいて、当該認識された音
韻系列とその音声区間情報を、上記正解の音韻系列とそ
の音声区間と比較し、互いに対応する音声区間で、認識
された音韻系列が正解の音韻系列と異なっているとき
に、当該認識された誤り音韻系列と当該正解の音韻系列
との対を抽出する誤り抽出手段と、上記誤り抽出手段によって抽出された誤り音韻系列と正
解の音韻系列との対を、誤り傾向テーブルとして記憶す
る記憶手段と、音声認識すべき入力された発声音声に対する上記照合手
段による照合結果である音韻系列とその音声区間情報と
に基づいて、上記記憶手段によって記憶された誤り傾向
テーブルを参照して、当該認識された音韻系列と、上記
誤り傾向テーブル内の誤り音韻系列とを比較して、当該
認識された音韻系列の中に上記誤り音韻系列を検出した
ときに、当該認識された音韻系列を、上記誤り音韻系列
に対応する正解の音韻系列に置き換えることにより誤り
訂正を行った音韻系列を、上記照合手段による照合結果
である音韻系列に追加して、音韻認識結果候補として出
力する誤り訂正処理手段とを備えたことを特徴とする音
声認識装置。
【請求項２】入力された発声音声を音韻隠れマルコフ
モデルを用いて音素照合を行い、上記発声音声に対応す
る認識された状態系列とその音声区間情報を出力する照
合手段と、正解の状態系列とその音声区間が既知である学習用発声
音声に対する上記照合手段による照合結果である状態系
列とその音声区間情報とに基づいて、当該認識された状
態系列とその音声区間情報を、上記正解の状態系列とそ
の音声区間と比較し、互いに対応する音声区間で、認識
された状態系列が正解の状態系列と異なっているとき
に、当該認識された誤り状態系列と当該正解の状態系列
との対を抽出する誤り抽出手段と、上記誤り抽出手段によって抽出された誤り状態系列と正
解の状態系列との対を、誤り傾向テーブルとして記憶す
る記憶手段と、音声認識すべき入力された発声音声に対する上記照合手
段による照合結果である状態系列とその音声区間情報と
に基づいて、上記記憶手段によって記憶された誤り傾向
テーブルを参照して、当該認識された状態系列と、上記
誤り傾向テーブル内の誤り状態系列とを比較して、当該
認識された状態系列の中に上記誤り状態系列を検出した
ときに、当該認識された状態系列を、上記誤り状態系列
に対応する正解の状態系列に置き換えることにより誤り
訂正を行った状態系列を、上記照合手段による照合結果
である状態系列に追加して、音韻認識結果候補として出
力する誤り訂正処理手段とを備えたことを特徴とする音
声認識装置。
【請求項３】上記入力された発声音声は１つの文章か
らなり、上記誤り訂正処理手段から出力される音韻認識
結果候補に対して、所定の形態素辞書を参照して形態素
解析を行って、１つの文章として最適な音声認識結果を
出力する形態素解析手段をさらに備えたことを特徴とす
る請求項１又は２記載の音声認識装置。
【請求項４】上記入力された発声音声は１つの単語か
らなり、上記誤り訂正処理手段から出力される音韻認識
結果候補に対して、所定の単語辞書を参照して単語解析
を行って、１つの単語として最適な音声認識結果を出力
する単語解析手段をさらに備えたことを特徴とする請求
項１又は２記載の音声認識装置。
【請求項５】上記誤り傾向テーブルは、正解の音韻系
列とその音韻隠れマルコフモデルの状態番号と、誤りの
音韻系列とその音韻隠れマルコフモデルの状態番号との
対を含むことを特徴とする請求項１、３又は４記載の音
声認識装置。
【請求項６】上記音韻隠れマルコフモデルは、１つの
音韻が複数の状態で構成された隠れマルコフモデルであ
ることを特徴とする請求項１乃至５のうちの１つに記載
の音声認識装置。
【請求項７】上記音声区間情報は、入力された発声音
声を所定長のフレーム区間で区切った複数のフレームの
うちの、その音韻が開始する始端フレーム番号と終端フ
レーム番号とで表されたことを特徴とする請求項１乃至
６のうちの１つに記載の音声認識装置。
【請求項８】上記照合手段による照合結果である音韻
系列及び上記正解の音韻系列はそれぞれ、１つの音韻に
対して、その音韻と、状態番号と、始端フレーム番号
と、終端フレーム番号との組の形式で表されたことを特
徴とする、請求項２又は５に従属する請求項７を除く、
請求項７記載の音声認識装置。