JPH08171396A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08171396A
JPH08171396A JP6316382A JP31638294A JPH08171396A JP H08171396 A JPH08171396 A JP H08171396A JP 6316382 A JP6316382 A JP 6316382A JP 31638294 A JP31638294 A JP 31638294A JP H08171396 A JPH08171396 A JP H08171396A
Authority
JP
Japan
Prior art keywords
phoneme
error
sequence
voice
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6316382A
Other languages
English (en)
Other versions
JP2975542B2 (ja
Inventor
Yumi Wakita
由実 脇田
Shingaa Hararudo
ハラルド・シンガー
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP6316382A priority Critical patent/JP2975542B2/ja
Publication of JPH08171396A publication Critical patent/JPH08171396A/ja
Application granted granted Critical
Publication of JP2975542B2 publication Critical patent/JP2975542B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音韻認識の誤りをより確実に訂正することが
でき、従来例に比較してより高い音声認識率を得ること
ができる音声認識装置を提供する。 【構成】 照合部は入力発声音声を音韻HMMを用いて
音素照合を行い発声音声に対応する認識された音韻系列
とその音声区間を出力する。学習時に、認識された音韻
系列とその音声区間を正解の音韻系列とその音声区間と
比較し、互いに対応する音声区間で、認識された音韻系
列が正解の音韻系列と異なっているときに、認識された
誤り音韻系列と正解の音韻系列との対を誤り傾向テーブ
ルとして抽出する。認識時に、認識された音韻系列とそ
の音声区間とに基づいて、認識された音韻系列と誤り傾
向テーブル内の誤り音韻系列とを比較して誤り音韻系列
を検出したときに、認識された音韻系列を正解の音韻系
列に置き換えることにより誤り訂正を行う。上記音韻系
列は状態系列であってもよい。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、隠れマルコフモデル
(以下、HMMという。)を用いて入力される発声音声
を音声認識する音声認識装置に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来の
音声認識装置では、標準モデルと入力音声との音響的な
マッチングの不確実さを緩和するために、マッチングの
際にビーム幅を大きくとり、言語制約から音韻や単語の
候補を絞る方法や、スコアの高い複数の結果候補から、
文脈条件などを用いて適切な候補を絞る方法を用いてい
る。しかしながら、実際には、処理時間や処理容量の限
界から、十分なビーム幅や認識候補数が確保できなかっ
たり、確保できても候補数が多すぎて正解を絞れないと
いう問題点があった。
【0003】従来、入力音節のシンボル系列に対する認
識音節のシンボル系列の誤りの傾向を、系列長が3音節
の場合を最大長として学習することによって、誤り訂正
を行う方法(以下、第1の従来例という。)が、神谷伸
ほか,“音節連鎖の出現確率に基づく切り出し・認識誤
りの訂正”,音響学会講演論文集,3−5−8,pp.
103−104において提案され、その有効性が確認さ
れている。
【0004】しかしながら、この第1の従来例では、シ
ンボル系列上の比較では、実際にマッチングした発声音
声区間が異なっていても、シンボル上では対応する部分
として処理されるために、同じ誤りを訂正することがで
きる保証はない。また、系列の最大長を限定すること
も、同一の誤りを訂正することができる系列を途中で切
ってしまう可能性があるという問題点があった。従っ
て、音声認識時の訂正効率が比較的低い。
【0005】さらに、学習時に、各音素ごとの誤り率と
誤り内容を、前後のコンテキスト条件も考慮して計算す
る方法(以下、第2の従来例という。)が、田中ほか,
“日本語Dictationシステムにおける文節検出
の高速化”,電子通信学会研究会,SP90−70,p
p.17−24,1990年において開示されている。
この第2の従来例では、以下の方法を用いる。音素の誤
りがある場合は、音素認識部の従来のConfusion Matrix
から各音素の誤り確率を計算することができるので、辞
書中に含まれる3つの音素の組が誤り確率を予め計算す
ることができ、この計算した誤り確率を認識スコアの重
み係数として用いて、認識結果を訂正する。
【0006】しかしながら、この第2の従来例では、前
後のコンテキストを含めた3音素内での誤りしか訂正で
きない。従って、第2の従来例においても、音声認識時
の訂正効率が比較的低い。
【0007】本発明の目的は以上の問題点を解決し、音
韻認識の誤りをより確実に訂正することができ、従来例
に比較してより高い音声認識率を得ることができる音声
認識装置を提供することにある。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力された発声音声を音韻隠れマ
ルコフモデルを用いて音素照合を行い、上記発声音声に
対応する認識された音韻系列とその音声区間情報を出力
する照合手段と、正解の音韻系列とその音声区間が既知
である学習用発声音声に対する上記照合手段による照合
結果である音韻系列とその音声区間情報とに基づいて、
当該認識された音韻系列とその音声区間情報を、上記正
解の音韻系列とその音声区間と比較し、互いに対応する
音声区間で、認識された音韻系列が正解の音韻系列と異
なっているときに、当該認識された誤り音韻系列と当該
正解の音韻系列との対を抽出する誤り抽出手段と、上記
誤り抽出手段によって抽出された誤り音韻系列と正解の
音韻系列との対を、誤り傾向テーブルとして記憶する記
憶手段と、音声認識すべき入力された発声音声に対する
上記照合手段による照合結果である音韻系列とその音声
区間情報とに基づいて、上記記憶手段によって記憶され
た誤り傾向テーブルを参照して、当該認識された音韻系
列と、上記誤り傾向テーブル内の誤り音韻系列とを比較
して、当該認識された音韻系列の中に上記誤り音韻系列
を検出したときに、当該認識された音韻系列を、上記誤
り音韻系列に対応する正解の音韻系列に置き換えること
により誤り訂正を行った音韻系列を、上記照合手段によ
る照合結果である音韻系列に追加して、音韻認識結果候
補として出力する誤り訂正処理手段とを備えたことを特
徴とする。
【0009】また、本発明に係る請求項2記載の音声認
識装置は、入力された発声音声を音韻隠れマルコフモデ
ルを用いて音素照合を行い、上記発声音声に対応する認
識された状態系列とその音声区間情報を出力する照合手
段と、正解の状態系列とその音声区間が既知である学習
用発声音声に対する上記照合手段による照合結果である
状態系列とその音声区間情報とに基づいて、当該認識さ
れた状態系列とその音声区間情報を、上記正解の状態系
列とその音声区間と比較し、互いに対応する音声区間
で、認識された状態系列が正解の状態系列と異なってい
るときに、当該認識された誤り状態系列と当該正解の状
態系列との対を抽出する誤り抽出手段と、上記誤り抽出
手段によって抽出された誤り状態系列と正解の状態系列
との対を、誤り傾向テーブルとして記憶する記憶手段
と、音声認識すべき入力された発声音声に対する上記照
合手段による照合結果である状態系列とその音声区間情
報とに基づいて、上記記憶手段によって記憶された誤り
傾向テーブルを参照して、当該認識された状態系列と、
上記誤り傾向テーブル内の誤り状態系列とを比較して、
当該認識された状態系列の中に上記誤り状態系列を検出
したときに、当該認識された状態系列を、上記誤り状態
系列に対応する正解の状態系列に置き換えることにより
誤り訂正を行った状態系列を、上記照合手段による照合
結果である状態系列に追加して、音韻認識結果候補とし
て出力する誤り訂正処理手段とを備えたことを特徴とす
る。
【0010】また、請求項3記載の音声認識装置は、請
求項1又は2記載の音声認識装置において、上記入力さ
れた発声音声は1つの文章からなり、上記誤り訂正処理
手段から出力される音韻認識結果候補に対して、所定の
形態素辞書を参照して形態素解析を行って、1つの文章
として最適な音声認識結果を出力する形態素解析手段を
さらに備えたことを特徴とする。
【0011】さらに、請求項4記載の音声認識装置は、
請求項1又は2記載の音声認識装置において、上記入力
された発声音声は1つの単語からなり、上記誤り訂正処
理手段から出力される音韻認識結果候補に対して、所定
の単語辞書を参照して単語解析を行って、1つの単語と
して最適な音声認識結果を出力する単語解析手段をさら
に備えたことを特徴とする。
【0012】また、請求項5記載の音声認識装置は、請
求項1、3又は4記載の音声認識装置において、上記誤
り傾向テーブルは、正解の音韻系列とその音韻隠れマル
コフモデルの状態番号と、誤りの音韻系列とその音韻隠
れマルコフモデルの状態番号との対を含むことを特徴と
する。さらに、請求項6記載の音声認識装置は、請求項
1乃至5のうちの1つに記載の音声認識装置において、
上記音韻隠れマルコフモデルは、1つの音韻が複数の状
態で構成された隠れマルコフモデルであることを特徴と
する。
【0013】また、請求項7記載の音声認識装置は、請
求項1乃至6のうちの1つに記載の音声認識装置におい
て、上記音声区間情報は、入力された発声音声を所定長
のフレーム区間で区切った複数のフレームのうちの、そ
の音韻が開始する始端フレーム番号と終端フレーム番号
とで表されたことを特徴とする。さらに、請求項8記載
の音声認識装置は、請求項2又は5に従属する請求項7
を除く、請求項7記載の音声認識装置において、上記照
合手段による照合結果である音韻系列及び上記正解の音
韻系列はそれぞれ、1つの音韻に対して、その音韻と、
状態番号と、始端フレーム番号と、終端フレーム番号と
の組の形式で表されたことを特徴とする。
【0014】
【作用】以上のように構成された請求項1記載の音声認
識装置においては、学習時に、上記誤り抽出手段は、正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する上記照合手段による照合結果である音韻系列
とその音声区間情報とに基づいて、当該認識された音韻
系列とその音声区間情報を、上記正解の音韻系列とその
音声区間と比較し、互いに対応する音声区間で、認識さ
れた音韻系列が正解の音韻系列と異なっているときに、
当該認識された誤り音韻系列と当該正解の音韻系列との
対を抽出して、誤り傾向テーブルとして上記記憶手段に
格納する。さらに、認識時に、上記誤り訂正手段は、音
声認識すべき入力された発声音声に対する上記照合手段
による照合結果である音韻系列とその音声区間情報とに
基づいて、上記記憶手段によって記憶された誤り傾向テ
ーブルを参照して、当該認識された音韻系列と、上記誤
り傾向テーブル内の誤り音韻系列とを比較して、当該認
識された音韻系列の中に上記誤り音韻系列を検出したと
きに、当該認識された音韻系列を、上記誤り音韻系列に
対応する正解の音韻系列に置き換えることにより誤り訂
正を行った音韻系列を、上記照合手段による照合結果で
ある音韻系列に追加して、音韻認識結果候補として出力
する。
【0015】また、請求項2記載の音声認識装置におい
ては、学習時に、上記誤り抽出手段は、正解の状態系列
とその音声区間が既知である学習用発声音声に対する上
記照合手段による照合結果である状態系列とその音声区
間情報とに基づいて、当該認識された状態系列とその音
声区間情報を、上記正解の状態系列とその音声区間と比
較し、互いに対応する音声区間で、認識された状態系列
が正解の状態系列と異なっているときに、当該認識され
た誤り状態系列と当該正解の状態系列との対を抽出し
て、誤り傾向テーブルとして上記記憶手段に格納する。
さらに、認識時に、上記誤り訂正手段は、音声認識すべ
き入力された発声音声に対する上記照合手段による照合
結果である状態系列とその音声区間情報とに基づいて、
上記記憶手段によって記憶された誤り傾向テーブルを参
照して、当該認識された状態系列と、上記誤り傾向テー
ブル内の誤り状態系列とを比較して、当該認識された状
態系列の中に上記誤り状態系列を検出したときに、当該
認識された状態系列を、上記誤り状態系列に対応する正
解の状態系列に置き換えることにより誤り訂正を行った
状態系列を、上記照合手段による照合結果である状態系
列に追加して、音韻認識結果候補として出力する。
【0016】また、請求項3記載の音声認識装置におい
ては、上記形態素解析手段は、上記入力された発声音声
は1つの文章からなり、上記誤り訂正処理手段から出力
される音韻認識結果候補に対して、所定の形態素辞書を
参照して形態素解析を行って、1つの文章として最適な
音声認識結果を出力する。従って、発声音声文の音声認
識を行うことができる。
【0017】さらに、請求項4記載の音声認識装置にお
いては、上記単語解析手段は、上記入力された発声音声
は1つの単語からなり、上記誤り訂正処理手段から出力
される音韻認識結果候補に対して、所定の単語辞書を参
照して単語解析を行って、1つの単語として最適な音声
認識結果を出力する。従って、発声音声の単語を音声認
識することができる。
【0018】また、請求項5記載の音声認識装置におい
ては、上記誤り傾向テーブルは、好ましくは、正解の音
韻系列とその音韻隠れマルコフモデルの状態番号と、誤
りの音韻系列とその音韻隠れマルコフモデルの状態番号
との対を含む。さらに、請求項6記載の音声認識装置に
おいては、上記音韻隠れマルコフモデルは、好ましく
は、1つの音韻が複数の状態で構成された隠れマルコフ
モデルである。
【0019】また、請求項7記載の音声認識装置におい
ては、上記音声区間情報は、好ましくは、入力された発
声音声を所定長のフレーム区間で区切った複数のフレー
ムのうちの、その音韻が開始する始端フレーム番号と終
端フレーム番号とで表される。さらに、請求項8記載の
音声認識装置においては、上記照合手段による照合結果
である音韻系列及び上記正解の音韻系列はそれぞれ、好
ましくは、1つの音韻に対して、その音韻と、状態番号
と、始端フレーム番号と、終端フレーム番号との組の形
式で表される。
【0020】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
音声認識装置のブロック図である。この音声認識装置
は、(a)マイクロホン1に入力された後A/D変換器
2によってA/D変換された発声音声のディジタル音声
信号に対して所定の音響的な特徴パラメータを抽出する
特徴抽出部3と、(b)特徴抽出部3からバッファメモ
リ4を介して入力される特徴パラメータに基づいて、音
韻HMMメモリ10に格納された音韻HMMを用いて音
素照合を行い、上記発声音声に対応する音韻系列とその
音声区間情報を、照合結果保管バッファメモリ(以下、
保管バッファメモリという。)11に格納する音響パラ
メータ照合部(以下、照合部という。)5と、(c)正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する照合部5による照合結果である音韻系列とそ
の音声区間情報とに基づいて、当該認識された音韻系列
とその音声区間情報を、上記正解の音韻系列とその音声
区間と比較し、互いに対応する音声区間で、認識された
音韻系列が正解の音韻系列と異なっているときに、当該
認識された誤り音韻系列と当該正解の音韻系列との対を
抽出する認識誤り音韻系列誤り抽出部(以下、誤り抽出
部という。)6と、(d)上記誤り抽出部6によって抽
出された誤り音韻系列と正解の音韻系列との対を、誤り
傾向テーブルとして記憶する誤り傾向テーブルメモリ1
2と、(e)音声認識すべき入力された発声音声に対す
る照合部5による照合結果である音韻系列とその音声区
間情報とに基づいて、誤り傾向テーブルメモリ12によ
って記憶された誤り傾向テーブルを参照して、当該認識
された音韻系列と、上記誤り傾向テーブル内の誤り音韻
系列とを比較して、当該認識された音韻系列の中に上記
誤り音韻系列を検出したときに、当該認識された音韻系
列を、上記誤り音韻系列に対応する正解の音韻系列に置
き換えることにより誤り訂正を行った音韻系列を、照合
部5による照合結果である音韻系列に追加して、音韻認
識結果候補として出力する結果候補誤り訂正処理部(以
下、誤り訂正処理部という)7と、(f)上記入力され
た発声音声は1つの文章からなるときに、誤り訂正処理
部7から出力される音韻認識結果候補に対して、形態素
辞書メモリ13内の形態素辞書と、N−グラム辞書メモ
リ14内のN−グラム辞書とを参照して形態素解析を行
って、1つの文章として最適な音声認識結果を出力する
形態素解析部8とを備える。
【0021】本実施例の音声認識装置は、誤り傾向テー
ブルを抽出する学習モードと、マイクロホンから入力さ
れる発声音声を音声認識する認識モードとを有する。各
処理部1乃至8のうち、抽出部6は学習モードのみにお
いて動作し、誤り訂正処理部7と形態素解析部8とは認
識モードのみにおいて動作する。
【0022】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、A/D変
換器2に入力されて、フレーム周期が例えば10ミリ秒
で、アナログ音声信号からディジタル音声信号にA/D
変換される。このとき、ディジタル音声信号の所定長の
フレーム区間で区切った各フレームには、入力開始時か
らのシリアル番号であるフレーム番号が付与され、当該
ディジタル音声信号は、特徴抽出部3に入力される。特
徴抽出部3は、入力されるディジタル音声信号に対し
て、例えばLPC分析を実行し、対数パワー、16次ケ
プストラム係数、Δ対数パワー及び16次Δケプストラ
ム係数を含む34次元の特徴パラメータを抽出する。抽
出された特徴パラメータの時系列はバッファメモリ4を
介して照合部5に入力される。
【0023】照合部5に接続されるHMMメモリ10内
のHMMは、複数の状態と、各状態間の遷移を示す弧か
ら構成され、各弧には状態間の遷移確率と入力コードに
対する出力確率を有している。本実施例においては、音
韻HMMは、各音韻の特徴を1つの音韻当たり3状態で
表現したHMMで表現したものであり、3状態が連続し
4ループを有する連続型HMMである。なお、本実施例
では、1つの音韻当たり3状態で表現したHMMを用い
ているが、本発明はこれに限らず、1つの音韻当たり複
数の状態で表現したHMMを用いても良い。
【0024】照合部4は、入力される特徴パラメータの
データに対して、各音韻HMMとの距離を時系列に沿っ
て計算してその距離が所定の距離以下のものを整合結果
として得ることにより音素照合、すなわちDP(dynami
c programming)による整合(いわゆるDPマッチン
グ)を行い、上記発声音声に対応する音韻系列とその音
声区間情報を保管バッファメモリ11に出力して格納す
る。本実施例においては、照合部4は、例えば、公知の
フレーム同期型One Pass DP法を用いてVi
terbiアルゴリズムで照合を行うことにより、時系
列に沿って各フレームまでで最も確からしい音韻列の上
位からn位候補までの音韻系列の候補を出力し、処理が
最終フレームに達したときに、すべての入力発声音声の
音韻認識結果候補を出力する。
【0025】保管バッファメモリ11は、学習モード時
には、照合した認識結果である音韻系列と、照合したH
MMの状態番号と、並びに、認識された各音韻の照合区
間、すなわち対応する音声区間情報を保管格納する。一
方、認識時には、照合した認識結果である音韻系列と、
HMMの状態番号を保管格納する。
【0026】例えば、1音韻が3状態で構成されている
HMMを用いて認識を行い、「koNbaNwa(こん
ばんわ)」が「kaNbaNna」と認識された場合に
は、保管バッファメモリ11には、次の表1に示すよう
に、音韻の認識結果である音韻系列と、HMMの状態番
号と、対応する音声区間情報である始端フレーム番号と
終端フレーム番号とが格納される。ここで、HMMの状
態番号は、音韻HMMが作成された時点で、各音韻毎に
独立した3つの番号が付与され、当該認識時において1
つの音韻に対して対応する3つの状態番号が保管格納さ
れる。なお、以下の表において、始端フレーム番号を始
端FNと表し、終端フレーム番号を終端FNと表す。
【0027】
【表1】 ─────────────────────────── 認識音韻系列 状態番号 始端FN 終端FN ─────────────────────────── k [1,2,3] 1 20 a [13,14,15] 21 35 N [7,8,9] 36 45 b [10,11,12] 46 50 a [13,14,15] 51 65 N [7,8,9] 66 80 n [19,20,21] 81 88 a [13,14,15] 89 100 ───────────────────────────
【0028】本実施例においては、音声区間情報は、入
力された発声音声を所定長のフレーム区間で区切った複
数のフレームのうちの、その音韻が開始する始端フレー
ム番号と終端フレーム番号とで表されている。また、認
識された音韻系列及び、後述する正解の音韻系列はそれ
ぞれ、1つの音韻に対して、その音韻と、状態番号と、
始端フレーム番号と、終端フレーム番号との組の形式で
表される。
【0029】学習モードのときに、誤り抽出部6は、正
解の音韻系列とその音声区間が既知である学習用発声音
声に対する照合部5による照合結果である音韻系列とそ
の音声区間情報とに基づいて、当該認識された音韻系列
とその音声区間情報を、上記正解の音韻系列とその音声
区間と比較し、互いに対応する音声区間で、認識された
音韻系列が正解の音韻系列と異なっているときに、当該
認識された誤り音韻系列と当該正解の音韻系列との対を
抽出する。そして、抽出した誤り音韻系列と正解の音韻
系列の対を、そのHMMの状態番号とともに、誤り傾向
テーブルとして、誤り傾向テーブルメモリ12に格納す
る。
【0030】誤り傾向テーブルは、誤り抽出部6の上記
処理にて抽出された正解の音韻系列と誤り音韻系列と
を、HMMの状態番号とともに格納する。ここで、例え
ば、正解の音韻系列が「koNbaNwa」であり、保
管バッファメモリ11に、学習モードの処理の前に予め
格納されるデータが、表2に示すように、その正解の音
韻系列と、そのHMMの状態番号と、その音声区間情報
とを含む形式で格納された場合について考える。
【0031】
【表2】 ─────────────────────────── 正解音韻系列 状態番号 始端FN 終端FN ─────────────────────────── k [1,2,3] 1 20 o [4,5,6] 21 35 N [7,8,9] 36 45 b [10,11,12] 46 50 a [13,14,15] 51 65 N [7,8,9] 66 80 w [16,17,18] 81 88 a [13,14,15] 89 100 ───────────────────────────
【0032】さらに、認識モード時に、操作者がマイク
ロホン1に向かって、「koNbaNwa」と発声した
ときの照合部5により照合結果が、先の例と同様の形式
で、次の表3に示すように、保管バッファメモリ11に
保管格納されたものとする。
【0033】
【表3】 ─────────────────────────── 認識音韻系列 状態番号 始端FN 終端FN ─────────────────────────── k [1,2,3] 1 20 a [13,14,15] 21 35 N [7,8,9] 36 45 b [10,11,12] 46 50 a [13,14,15] 51 65 N [7,8,9] 66 80 n [19,20,21] 81 88 a [13,14,15] 89 100 ───────────────────────────
【0034】これらの、表2の正解の音韻系列と、表3
の認識された音韻系列とを、抽出部6によって比較する
と、次の表4で示されるように、誤り音韻系列として抽
出され、誤り傾向テーブルメモリ12に保管される。こ
こで、誤り傾向テーブルは、正解の音韻系列とその音韻
HMMの状態番号と、誤りの音韻系列とその音韻HMM
の状態番号との対を含む。
【0035】
【表4】 ──────────────────────────────── 正解音韻系列とその状態番号 → 誤り音韻系列とその状態番号 ──────────────────────────────── o,N,[4,5,6,7,8,9]→a,N,[13,14,15,7,8,9] w,[9,10,11] →n,[19,20,21] ────────────────────────────────
【0036】さらに、誤り訂正処理部7は、音声認識す
べき入力された発声音声に対する照合部5による照合結
果である音韻系列とその音声区間情報とに基づいて、誤
り傾向テーブルを参照して、当該認識された音韻系列
と、上記誤り傾向テーブル内の誤り音韻系列とを比較し
て、当該認識された音韻系列の中に上記誤り音韻系列を
検出したときに、当該認識された音韻系列を、上記誤り
音韻系列に対応する正解の音韻系列に置き換えることに
より誤り訂正を行った音韻系列を、上記照合手段による
照合結果である音韻系列に追加して、音韻認識結果候補
として形態素解析部8に出力する。
【0037】例えば、学習時に表4に示すように誤り傾
向テーブルが作成されたとした場合で、照合部5による
照合結果の音韻系列が、「kaNnichina」であ
る場合、誤り傾向テーブル内の誤り音韻系列と同一の音
韻系列である音韻系列「an」と音韻「n」とが、上記
照合結果内に含まれているので、誤り訂正処理部7で
は、誤り傾向テーブルを参照して、これらの音韻系列又
は音韻を正解の音韻系列に置き換えた以下の表5に示す
候補も、照合結果すなわち音韻認識結果に追加する。
【0038】
【表5】 ────────────── 「koNnichina」 「kaNnichiwa」 「koNnichiwa」 ──────────────
【0039】さらに、形態素解析部8は、上記入力され
た発声音声は1つの文章からなるときに、誤り訂正処理
部7から出力される音韻認識結果候補に対して、形態素
辞書メモリ13内の形態素辞書と、N−グラム辞書メモ
リ14内のN−グラム辞書とを参照して形態素解析を行
って、1つの文章として最適な音声認識結果を出力す
る。すなわち、形態素解析部8は、音韻系列で表された
複数の認識結果候補をまず、ひらがな表記に変換する。
次に、ひらがな表記された結果が文として成立するか否
かを判断するために、ひらがな表記された認識対象とな
る単語とその品詞名とを格納した形態素辞書を参照して
各認識結果候補に対して形態素解析を行う。1つの文章
入力に対して、複数の形態素解析結果が考えられるが、
その際に、予め隣接する単語、又は品詞の出現確率を調
べておき、これらをN−グラム辞書メモリ14にN−グ
ラム辞書として格納する。形態素解析部8は、当該N−
グラム辞書を参照して、複数の形態素解析結果の中で最
も隣接する単語又は品詞の可能性の大きい文章を最も確
からしい形態素解析結果として出力する。一方、形態素
解析部8に誤った文章が入力されたときは、形態素辞書
に対応する単語がなかったり、隣接する可能性が無い単
語又は品詞が隣接したりしたとき、その解析は途中で失
敗する。
【0040】例えば、誤り訂正処理部7から出力される
認識結果として、次の4つの認識結果候補が形態素解析
部8に入力された場合を考える。 (A1)「kaNnichina」 (A2)「koNnichina」 (A3)「kaNnichiwa」 (A4)「koNnichiwa」 このとき、認識結果候補(A1)、(A2)、及び(A
4)は、形態素解析部8において解析失敗となり、認識
結果候補(A4)のみが「こんにちわ(感動詞)」とい
う解析結果が形態素解析部8から出力されることにな
る。
【0041】さらに、本発明者が図1の音声認識装置を
用いて実施したシミュレーション結果について以下に説
明する。本発明の誤り訂正処理部7を含む音声認識装置
における形態素解析部8への入力は、正しいと思われる
結果を含んだ複数の認識結果候補である。この誤り訂正
法を評価するために、形態素解析部8に入力する複数の
認識結果候補の中に、如何に効率よく正解の音韻系列が
含まれているかを調べた。その結果、誤り訂正を行わ
ず、認識結果の上位n個の候補を形態素解析の入力にし
た場合に比べ、同じ候補数に1.33倍の正解の音韻系
列候補を含んでいた。また、第1の従来例に比較して、
同じ候補数に対して1.24倍の正解の音韻系列を含ん
でいた。以上より、本発明の誤り訂正法が、従来例の方
法に比べて、訂正効率がよいことがわかる。これによ
り、音韻認識の誤りをより確実に訂正することができ、
従来例に比較してより高い音声認識率を得ることができ
る。
【0042】以上説明したように、この実施例によれ
ば、HMMの単位に依存せずに、誤り傾向の抽出が可能
であり、その結果、訂正効率が従来例に比較して高い。
また、当該誤り傾向テーブルを用いて認識結果の訂正を
行うことができるので、誤り学習と異なった単語や文章
においても高精度な訂正が可能である。従って、音韻認
識の誤りをより確実に訂正することができ、従来例に比
較してより高い音声認識率を得ることができる。
【0043】以上の実施例においては、形態素解析部8
を設けているが、本発明はこれに限らず、これに代え
て、単語解析部を設けてもよい。当該単語解析部は、入
力された発声音声が1つの単語からなるときに、誤り訂
正処理部7から出力される音韻認識結果候補に対して、
所定の単語辞書を参照して単語解析を行って、1つの単
語として最適な音声認識結果を出力する。
【0044】以上の実施例においては、1つの音韻に対
して3つ1組の状態番号が1対1に対応する場合を示し
ているが、本発明はこれに限らず、認識結果の系列、正
解の系列及び誤りの系列を、HMMの状態番号又は状態
記号などで表された状態系列で表しても良い。すなわ
ち、より音声認識をより確実に行うためには、各音韻の
前後の音韻環境により、同一の音韻でも異なる状態を与
え得る場合がある。例えば、音韻「N」は、状態番号の
系列[7,8,9]で表わせ得る場合と、これとは異な
る状態番号の系列[7,32,33]で表させ得る場合
がある。これに対処するために、認識結果の系列、正解
の系列及び誤りの系列を、HMMの状態番号又は状態記
号などで表された状態系列で表す。この変形例では、音
韻をより詳細な形式で表しているので、音韻系列を用い
る請求項1記載の装置に比較して、訂正効率を改善する
ことができ、より確実に音声認識を行うことができる。
HMMの状態番号の系列で表したこの変形例の場合、表
1乃至表4における音韻系列は無く、状態番号の系列の
みになる。なお、この場合においても、音韻HMMは、
1つの音韻に対して、3つ以外の複数の状態で表しても
良い。
【0045】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識装置によれば、入力された発声音声を
音韻隠れマルコフモデルを用いて音素照合を行い、上記
発声音声に対応する認識された音韻系列とその音声区間
情報を出力する照合手段と、正解の音韻系列とその音声
区間が既知である学習用発声音声に対する上記照合手段
による照合結果である音韻系列とその音声区間情報とに
基づいて、当該認識された音韻系列とその音声区間情報
を、上記正解の音韻系列とその音声区間と比較し、互い
に対応する音声区間で、認識された音韻系列が正解の音
韻系列と異なっているときに、当該認識された誤り音韻
系列と当該正解の音韻系列との対を抽出する誤り抽出手
段と、上記誤り抽出手段によって抽出された誤り音韻系
列と正解の音韻系列との対を、誤り傾向テーブルとして
記憶する記憶手段と、音声認識すべき入力された発声音
声に対する上記照合手段による照合結果である音韻系列
とその音声区間情報とに基づいて、上記記憶手段によっ
て記憶された誤り傾向テーブルを参照して、当該認識さ
れた音韻系列と、上記誤り傾向テーブル内の誤り音韻系
列とを比較して、当該認識された音韻系列の中に上記誤
り音韻系列を検出したときに、当該認識された音韻系列
を、上記誤り音韻系列に対応する正解の音韻系列に置き
換えることにより誤り訂正を行った音韻系列を、上記照
合手段による照合結果である音韻系列に追加して、音韻
認識結果候補として出力する誤り訂正処理手段とを備え
る。
【0046】それ故、HMMの単位に依存せずに、誤り
傾向の抽出が可能であり、その結果、訂正効率が従来例
に比較して高く、誤り学習と異なった単語や文章におい
ても高精度な訂正が可能である。従って、音韻認識の誤
りをより確実に訂正することができ、従来例に比較して
より高い音声認識率を得ることができる。
【0047】また、本発明に係る請求項2記載の音声認
識装置によれば、入力された発声音声を音韻隠れマルコ
フモデルを用いて音素照合を行い、上記発声音声に対応
する認識された状態系列とその音声区間情報を出力する
照合手段と、正解の状態系列とその音声区間が既知であ
る学習用発声音声に対する上記照合手段による照合結果
である状態系列とその音声区間情報とに基づいて、当該
認識された状態系列とその音声区間情報を、上記正解の
状態系列とその音声区間と比較し、互いに対応する音声
区間で、認識された状態系列が正解の状態系列と異なっ
ているときに、当該認識された誤り状態系列と当該正解
の状態系列との対を抽出する誤り抽出手段と、上記誤り
抽出手段によって抽出された誤り状態系列と正解の状態
系列との対を、誤り傾向テーブルとして記憶する記憶手
段と、音声認識すべき入力された発声音声に対する上記
照合手段による照合結果である状態系列とその音声区間
情報とに基づいて、上記記憶手段によって記憶された誤
り傾向テーブルを参照して、当該認識された状態系列
と、上記誤り傾向テーブル内の誤り状態系列とを比較し
て、当該認識された状態系列の中に上記誤り状態系列を
検出したときに、当該認識された状態系列を、上記誤り
状態系列に対応する正解の状態系列に置き換えることに
より誤り訂正を行った状態系列を、上記照合手段による
照合結果である状態系列に追加して、音韻認識結果候補
として出力する誤り訂正処理手段とを備える。
【0048】それ故、HMMの単位に依存せずに、誤り
傾向の抽出が可能であり、その結果、訂正効率が従来例
に比較して高く、誤り学習と異なった単語や文章におい
ても高精度な訂正が可能である。従って、音韻認識の誤
りをより確実に訂正することができ、従来例に比較して
より高い音声認識率を得ることができる。さらに、この
場合、音韻をより詳細な形式で表しているので、音韻系
列を用いる請求項1記載の音声認識装置に比較して、訂
正効率を改善することができ、より確実に音声認識を行
うことができる。
【0049】また、請求項3記載の音声認識装置によれ
ば、上記入力された発声音声は1つの文章からなり、上
記誤り訂正処理手段から出力される音韻認識結果候補に
対して、所定の形態素辞書を参照して形態素解析を行っ
て、1つの文章として最適な音声認識結果を出力する形
態素解析手段をさらに備える。これにより、発声音声文
の音声認識を従来例に比較してより高い音声認識率で実
行することができる。
【0050】さらに、請求項4記載の音声認識装置によ
れば、上記入力された発声音声は1つの単語からなり、
上記誤り訂正処理手段から出力される音韻認識結果候補
に対して、所定の単語辞書を参照して単語解析を行っ
て、1つの単語として最適な音声認識結果を出力する単
語解析手段をさらに備える。これにより、発声音声単語
の音声認識を従来例に比較してより高い音声認識率で実
行することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である音声認識装置の
ブロック図である。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…音響パラメータ照合部、 6…認識誤り音韻系列抽出部、 7…結果候補誤り訂正処理部、 8…形態素解析部、 10…音韻HMMメモリ 11…照合結果保管バッファメモリ、 12…誤り傾向テーブルメモリ、 13…形態素辞書メモリ、 14…N−グラム辞書メモリ。
フロントページの続き (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された発声音声を音韻隠れマルコフ
    モデルを用いて音素照合を行い、上記発声音声に対応す
    る認識された音韻系列とその音声区間情報を出力する照
    合手段と、 正解の音韻系列とその音声区間が既知である学習用発声
    音声に対する上記照合手段による照合結果である音韻系
    列とその音声区間情報とに基づいて、当該認識された音
    韻系列とその音声区間情報を、上記正解の音韻系列とそ
    の音声区間と比較し、互いに対応する音声区間で、認識
    された音韻系列が正解の音韻系列と異なっているとき
    に、当該認識された誤り音韻系列と当該正解の音韻系列
    との対を抽出する誤り抽出手段と、 上記誤り抽出手段によって抽出された誤り音韻系列と正
    解の音韻系列との対を、誤り傾向テーブルとして記憶す
    る記憶手段と、 音声認識すべき入力された発声音声に対する上記照合手
    段による照合結果である音韻系列とその音声区間情報と
    に基づいて、上記記憶手段によって記憶された誤り傾向
    テーブルを参照して、当該認識された音韻系列と、上記
    誤り傾向テーブル内の誤り音韻系列とを比較して、当該
    認識された音韻系列の中に上記誤り音韻系列を検出した
    ときに、当該認識された音韻系列を、上記誤り音韻系列
    に対応する正解の音韻系列に置き換えることにより誤り
    訂正を行った音韻系列を、上記照合手段による照合結果
    である音韻系列に追加して、音韻認識結果候補として出
    力する誤り訂正処理手段とを備えたことを特徴とする音
    声認識装置。
  2. 【請求項2】 入力された発声音声を音韻隠れマルコフ
    モデルを用いて音素照合を行い、上記発声音声に対応す
    る認識された状態系列とその音声区間情報を出力する照
    合手段と、 正解の状態系列とその音声区間が既知である学習用発声
    音声に対する上記照合手段による照合結果である状態系
    列とその音声区間情報とに基づいて、当該認識された状
    態系列とその音声区間情報を、上記正解の状態系列とそ
    の音声区間と比較し、互いに対応する音声区間で、認識
    された状態系列が正解の状態系列と異なっているとき
    に、当該認識された誤り状態系列と当該正解の状態系列
    との対を抽出する誤り抽出手段と、 上記誤り抽出手段によって抽出された誤り状態系列と正
    解の状態系列との対を、誤り傾向テーブルとして記憶す
    る記憶手段と、 音声認識すべき入力された発声音声に対する上記照合手
    段による照合結果である状態系列とその音声区間情報と
    に基づいて、上記記憶手段によって記憶された誤り傾向
    テーブルを参照して、当該認識された状態系列と、上記
    誤り傾向テーブル内の誤り状態系列とを比較して、当該
    認識された状態系列の中に上記誤り状態系列を検出した
    ときに、当該認識された状態系列を、上記誤り状態系列
    に対応する正解の状態系列に置き換えることにより誤り
    訂正を行った状態系列を、上記照合手段による照合結果
    である状態系列に追加して、音韻認識結果候補として出
    力する誤り訂正処理手段とを備えたことを特徴とする音
    声認識装置。
  3. 【請求項3】 上記入力された発声音声は1つの文章か
    らなり、上記誤り訂正処理手段から出力される音韻認識
    結果候補に対して、所定の形態素辞書を参照して形態素
    解析を行って、1つの文章として最適な音声認識結果を
    出力する形態素解析手段をさらに備えたことを特徴とす
    る請求項1又は2記載の音声認識装置。
  4. 【請求項4】 上記入力された発声音声は1つの単語か
    らなり、上記誤り訂正処理手段から出力される音韻認識
    結果候補に対して、所定の単語辞書を参照して単語解析
    を行って、1つの単語として最適な音声認識結果を出力
    する単語解析手段をさらに備えたことを特徴とする請求
    項1又は2記載の音声認識装置。
  5. 【請求項5】 上記誤り傾向テーブルは、正解の音韻系
    列とその音韻隠れマルコフモデルの状態番号と、誤りの
    音韻系列とその音韻隠れマルコフモデルの状態番号との
    対を含むことを特徴とする請求項1、3又は4記載の音
    声認識装置。
  6. 【請求項6】 上記音韻隠れマルコフモデルは、1つの
    音韻が複数の状態で構成された隠れマルコフモデルであ
    ることを特徴とする請求項1乃至5のうちの1つに記載
    の音声認識装置。
  7. 【請求項7】 上記音声区間情報は、入力された発声音
    声を所定長のフレーム区間で区切った複数のフレームの
    うちの、その音韻が開始する始端フレーム番号と終端フ
    レーム番号とで表されたことを特徴とする請求項1乃至
    6のうちの1つに記載の音声認識装置。
  8. 【請求項8】 上記照合手段による照合結果である音韻
    系列及び上記正解の音韻系列はそれぞれ、1つの音韻に
    対して、その音韻と、状態番号と、始端フレーム番号
    と、終端フレーム番号との組の形式で表されたことを特
    徴とする、請求項2又は5に従属する請求項7を除く、
    請求項7記載の音声認識装置。
JP6316382A 1994-12-20 1994-12-20 音声認識装置 Expired - Lifetime JP2975542B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6316382A JP2975542B2 (ja) 1994-12-20 1994-12-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6316382A JP2975542B2 (ja) 1994-12-20 1994-12-20 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08171396A true JPH08171396A (ja) 1996-07-02
JP2975542B2 JP2975542B2 (ja) 1999-11-10

Family

ID=18076470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6316382A Expired - Lifetime JP2975542B2 (ja) 1994-12-20 1994-12-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP2975542B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216341A (ja) * 2007-02-28 2008-09-18 Nippon Hoso Kyokai <Nhk> 誤り傾向学習音声認識装置及びコンピュータプログラム
US8538759B2 (en) 2009-01-21 2013-09-17 Clarion Co., Ltd. Speech recognition system and data updating method
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073697A (ja) * 1983-09-30 1985-04-25 富士通株式会社 音韻辞書の作成方法
JPS60118895A (ja) * 1983-11-30 1985-06-26 株式会社リコー 音声入力装置
JPH0736481A (ja) * 1993-07-19 1995-02-07 Osaka Gas Co Ltd 補完音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073697A (ja) * 1983-09-30 1985-04-25 富士通株式会社 音韻辞書の作成方法
JPS60118895A (ja) * 1983-11-30 1985-06-26 株式会社リコー 音声入力装置
JPH0736481A (ja) * 1993-07-19 1995-02-07 Osaka Gas Co Ltd 補完音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216341A (ja) * 2007-02-28 2008-09-18 Nippon Hoso Kyokai <Nhk> 誤り傾向学習音声認識装置及びコンピュータプログラム
US8538759B2 (en) 2009-01-21 2013-09-17 Clarion Co., Ltd. Speech recognition system and data updating method
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置
CN113223495B (zh) * 2021-04-25 2022-08-26 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置

Also Published As

Publication number Publication date
JP2975542B2 (ja) 1999-11-10

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5333275A (en) System and method for time aligning speech
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
Proença et al. Mispronunciation detection in children's reading of sentences
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
Ali et al. Generation of Arabic phonetic dictionaries for speech recognition
JP2018151413A (ja) 音声認識装置、音声認識方法およびプログラム
EP0508225A2 (en) Computer system for speech recognition
JPH08123470A (ja) 音声認識装置
JP2975542B2 (ja) 音声認識装置
JP2001195087A (ja) 音声認識システム
JP2000056795A (ja) 音声認識装置
JP3378547B2 (ja) 音声認識方法及び装置