JPH04181299A

JPH04181299A - 音声認識訂正装置

Info

Publication number: JPH04181299A
Application number: JP2310443A
Authority: JP
Inventors: Kikumi Kaburagi; 鏑木　喜久美
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1990-11-16
Filing date: 1990-11-16
Publication date: 1992-06-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」単語毎に区切らずに連続して発声した音声を認識する連
続音声認識装置に係わる。

「従来の技術」従来の音声認識装置について第６図を用いて説明する。

従来の音声認識装置においては、音響分析部１で入力さ
れた音声の成分の分析を行ない、音響分析部１からの出
力に基づいて、文章音声認識部２においそ入力音声の認
識を行ない、その結果を表示部４に表示する。表示され
た結果は操作者によって確認され、認識結果に誤りがな
い場合には、速やかに次音声入力の操作に移行する。し
がし、入力音声が誤って認識されていた場合には、カー
ソル指示部３を操作し認識結果に誤りがあった部分の先
頭部分と同じく誤認識部分の終了部にカーソルを移動さ
せてマークし、誤認識部分の指定を行なっている。従来
の音声認識装置では、操作者がカーソル指示部３を操作
して、音声認識結果に誤りが生じた部分を指示するので
ある。カーソル指示部３の操作によって指定された訂正
箇所を正すため、操作者は再び訂正箇所の音声人力等の
操作を行なうのである。この訂正操作において、いくつ
かの認識結果を表示できるような音声認識装置では、候
補として挙げられているものの中に正しい認識結果があ
れば、そこから選ぶことになる。

「発明が解決しようとする課題」音声による入力は、キー入力操作をすることなくデータ
入力を行なうことが出来、キー人力装置のキー配置位置
、キー操作方法等を知る必要がなく、誰でもが簡便に使
用できる入力方法である。

しかし、音声入力方法は、キー操作による人力方法と異
なり、入力データが正確に認識される確率はやや低くな
る傾向がある。そこで、音響学会誌中の文章について、
１文を構成している音素の個数を調べたところ、１文肖
たりの平均音素数は約４７音素であった。ここで、音素
認識率が９５９６以上である音声認識装置を用いても、
１文の千に２〜３音素の認識誤りは避けられないことに
なる。

また、音素認識率が９８％以上である音声認識装置を考
えた場合でも、−文中に１音素の認識誤ハが発生するこ
とは充分考えられるのである。以上の事実から見ても、
入力された音声の認識結果を訂正する必要が生じるのは
、そう稀なことではないことが分かる。音声認識装置を
考えた場合には、音声認識の誤り訂正装置の役割は極め
て大きいと思われる。

しかし、前述の従来技術を用いた音声認識誤り訂正装置
では、音声認識結果に誤りが生じた場合には、操作者が
自ら第６図カーソル指示部３を操作し、認識誤りが発生
した区間の指定をしなければならない。このような訂正
操作を頻繁にしなければならないことは、操作者にとっ
て非常に負担である。また、音声による入力と言う優れ
た入力方法を用いておきながら、訂正部分の指定を手動
でカーソルを移動することによってする従来技術では、
音声認識装置の特徴である、「誰にでも操作が簡便に出
来る。」、「キー人力やその他の方法に比べ、データ入
力スピードが速い。」という利点を充分に発揮すること
が出来ないのである。

つまり、データ人力操作は速やかに行なえたとしても、
従来技術を用いた音声認識訂正装置は、誰でもが簡単に
迅速に訂正操作を行なうことは難しいのである。このよ
うに従来技術を用いた音声認識訂正装置では、訂正操作
に非常に時間がががり、極めて作業効率が悪いのである
。従来技術には、以上述べてきたような問題点があった
。

本発明の目的はかかる欠点を除去し、カーソル移動によ
る誤認識部分の指示をすることなく、音声による指示に
よって誤認識部分を指定し訂正することができる音声認
識訂正装置を提供する点にある。

ｒｉ！ｉ題を解決するための手段」本発明の音声認識訂正装置は、入力音声の成分を分析す
る音響分析部と、前記音響分析部がら出力された最初の
入力音声を第一の候補に基づいて認識する音声認識部と
、前記音声認識部の出力を表示する手段と、前記音響分
析部から出力された、最初の人力音声を記憶するととも
に、次に誤認識された部分だけの音声が再人力されたと
きに、前記最初の入力音声のうちのどの部分であるかを
判定し、誤認識された部分について次の候補を前記音声
認識部に出力する文章音声スポツティング部と前記表示
部で表示された前記次の候補が前記入力音声に合致して
いる場合に、前記入力音声の認識を確定する手段とから
なることを特徴する。

「実施例」以下、本発明について実施例に基づいて詳細に説明する
。

第１図は本発明の音声認識訂正装置の原理ブロック図、
第２図は本発明の一実施例のブロック図である。人力さ
れた音声は、１１の音響分析部の構成要素であるマイク
、高域強調フィルタ、ＡＤ変換器より構成される２１音
声入力部によって８ＫＨｚ、１２ｂｉｔｓのデジタル信
号としてサンプリングされる。更に同しく音響分析部１
１の構成要素である特徴抽出部２２において、デジタル
信号に変換された音声信号を１６ｍ５区間を１フレーム
として１フレームごとに周波数変換し、周波数領域での
特徴パラメータを抽出し、発話された文章の特徴パラメ
ータ列として表わされる。特徴抽出部２２で抽出された
発話文章の特徴パラメータ列は、特徴パラメータ列記憶
回路２７に記憶される。

音響分析部１１で抽出された特徴パラメータ列は、文章
音声認識部１２を構成する連続ＤＰマツチング回路２３
において、単語辞書２４と発話された文章の特徴パラメ
ータ列とがマツチングされる。この連続ＤＰマツチング
回路２３において認識判定された単語ラティスは、単語
ラティス記憶回路３２に記憶され、表示部制御回路２５
の制御によって表示部２６に表示される。表示部２６に
表示された入力文章の認識結果に誤りがあった場合には
、操作者は訂正キーに触れる或いは押す等の行為によっ
て認識結果訂正の必要を知らせる。

訂正キーは訂正キー制御回路２８によって制御されてお
り、訂正キー制御回路２８は、直ちに誤認識単語の入力
を求める体制に入るよう指示する。

再人力された単語は、最初に入力された文章と同様に、
音声認識部２１、特徴抽出部２２を経て特徴パラメータ
列に変換される。誤認識単語の特徴パラメータ列は、特
徴パラメータ列記憶回路２７に記憶されていた最初の入
力音声の特徴パラメータ列と、連続ＤＰマツチング回路
２９でワードスポツティングされる。誤って認識されて
しまった誤認識部分を再入力することによって、認識結
果の訂正箇所を確実にスポツティングしているのである
。単語ラティス記憶回路３２の中に、正しい単語が存在
していれば、単語ラティス入れ換え回路３０によって、
第二候補、第三候補とされていた単語に訂正し、確定キ
ー制御回路３１によって制御されている確定キーを用い
て、認識結果を確定する。第二、第三の候補の中に正し
い単語が存在しなければ、改めて正しい単語の入力を行
ない、最初に文章を入力した際と同様な経路を経て、単
語認識を行なう。

本発明について実施例に基づいて、第３図、第４図を用
いて更に説明する。

第３図は本発明の単語ラティス記憶回路における単語ラ
ティス構造を示す図である。

今、操作者が「今日の天気は晴れでず。」という文章を
入力したと仮定する。この入力を受けた際の単語ラティ
ス記憶回路３２における単語ラティス構造は第３図に示
したとおり、「天気は」の単語ラティス構造は第一候補
「天気は」、第二候補「天使は」である。また、「晴れ
」の単語ラティス構造は、第一候補「針」、第二候補「
晴れ」、第三候補「橋」である。同様に「です」につい
ての単語ラティス構造は、第一候補「です」、第二候補
「でぶ」である。この場合「晴れ」が「針」に誤認識さ
れてしまったことになる。操作者は認識結果に訂正の必
要があることを、訂正キーを用いて知らせる。訂正キー
制御回路２８は認識結果に誤りがあったことを認識し、
直ちに誤認識結果そのものの入力を求める体制を整える
。

第４図は本発明の単語認識の訂正を行なう順序を説明す
る図である。

操作者は誤って認識された単語そのもの、「針」を再度
入力する。これは、誤認識部分をスポツティングするた
めである。人力された「針」は、２１音声入力部、２２
特徴抽出部を経て特徴パラメータ列に変換され、２９Ｄ
Ｐマツチング回路において２７特徴パラメ一タ記憶回路
に記憶されている特徴パラメータ列とＤｒマツチングし
、誤認識単語をスポツティングする。第４図には、特徴
パラメータ列として、最初の入力の音声パワーと、誤認
識単語「針」を再入力した際の音声パワーを示している
。ここの示したように、−度認識した単語「針」をスポ
ツティングすることは、困難なことではない。このよう
にして、誤認識部分「針」が訂正必要な部分として検出
され、幸い第二候補に正しい単語「晴れ」が存在するの
で、確定キーを用いて３０単語ラティス入れ換え回路の
制御によって、第二候補「晴れ」を選択し、認識結果を
確定する。以上の操作によって、誤認識結果訂正を終了
し、正しい文認識結果「今日の天気は晴れです。」を得
ることが８来る。

第５図、第２図、第３図、第４図を参照しながら本発明
の処理過程を詳細に説明する。第５図は本発明の一実施
例の処理の一例を示したフローチャートである。

まず、操作者によって音声によるデータの入力が行なわ
れる。音声データの入力に係わるのは第２図２１音声入
力部である。入力された音声は直ちに特徴抽出される。

この特徴抽出に係わるのは第２図２２特徴抽出部である
。抽出された特徴は、第２図２７特徴パラメータ列記憶
回路に記憶される。特徴抽出することによって得られた
何らかの形の特徴パラメータ列は、単語記憶辞書に記述
されている単語の標準特徴パラメータ列と連続ＤＰマツ
チングが行なわれる。この連ｔＥＤＰマツチングに係わ
るのは、第２図２３連続ＤＰマツチング回路である。ま
た、このとき標準バタンとして用いられる特徴パラメー
タ列は、第２図２４単語記憶辞書のものである。連続Ｄ
Ｐマツチングされた結果に基づいて認識判定され、その
結果が表示される。この表示に係わるのは第２図２５表
示制御部、及び第２図２６表示部である。表示された結
果の例としては、第３図、第４図に示しである通りであ
る。表示された認識結果に誤りが存在′、た場合には、
訂正キーを用いて、認識訂正の必要があることを伝える
。ここで用いられた訂正キー（＝、第２図２８訂正キー
制御回路によって制御されているものである。訂正の必
要があった場合には、直ちに訂正部分を検出する必要が
ある。認識結果の中から、訂正部分をスポツティングす
るために、誤認識部分の誤認識結果の音声による入力を
操作者に求める。誤認識部分の人力は直ちに特徴抽出さ
れ特徴パラメータ列となり、第２図２９連続ＤＰマツチ
ング回路において、第２図２７特徴パラメータ列記憶回
路に記憶されている最初の音声人力の特徴パラメータと
連続ＤＰマツチングされる。

この連続Ｄｒマツチングの結果により誤認識部分のスポ
ツティングが行なわれる。そのようすは、第４図に示す
とおりである。誤認識部分がスポツティングされ、訂正
箇所が明らかになった。ここで、使用者は、単語ラティ
ス中に正しい認識結果を認めたならば、単語ラティスの
優先順位を確定キーを用いて操作し、認識結果を確定す
る。単語ラティスの優先順位入れ換えと確定の操作に係
わるのは、第２図３０単語ラティス入れ換え回路と、第
２図３１確定キー制御回路であネ。しかし、もしも、単
語ラティス中に正しい認識結果が存在しなかった場合に
は、新たに音声入力をすることになる。

尚、実施例では、第２図２１音声入力部として、マイク
、高域強調フィルタ、ＡＤ変換器より構成し、８ＫＨｚ
、１２ｂｉｔｓのデジタル信号としてサンプリングした
ものを用いたが、迅速に入力音声をサンプリングできる
ものであれば、それ以外の構成であってもかまわない。

また、第２図２２特徴抽出部では、デジタル信号に変換
された音声信号を１６ｍｓ区間を１フレームとして、１
フレームごとに周波数変換し、周波数領域での特徴パラ
メータを抽出し、発話された文章の特徴パラメータ列と
して表わす方法を用いたが、これ以外の方法であっても
、特徴を適確に抽出できる方法であればかまわない。

「発明の効果」以上述べてきたように本発明の音声認識訂正装置は、入
力された音声認識結果の誤認識部分の訂正にあたって、
カーソルを移動操作して誤認識部分の指定をする必要が
なく、音声による誤認識部分を再人力操作することによ
って、極めて速やかに誤認識部分の指定を行ない訂正す
ることが出来る。そのため、音声認識装置の使用環境の
悪化や、音声認識装置に人力を行なう操作者の体調等に
より、音声認識結果に頻繁に誤認識が生じ得るような場
合にも、音声認識訂正のための特別な操作や知識を必要
とせず、操作者への負担が軽減され作業効率も著しく改
善された。

【図面の簡単な説明】

第１図は、本発明の音声認識訂正装置の原理ブロック図
。第２図は、本発明の一実施例のブロック図。第３図は、本発明の単語ラティス記憶回路における単語
ラティス構造を示す図。第４図は、本発明の単語認識の訂正を行なう順序を説明
する図。第５図は、本発明の一実施例の処理の一例を示したフロ
ーチャート。第６図は、従来の音声認識訂正装置のブロック図。以上出願人　セイコーエプソン株式会社代理人　弁理士　鈴木喜三部　他１名 ↓　５第１図第２図第−候補　　　今日の　　　　　天気は　　　　　針　
　　　　です第二候補　　　　　　　　　　　天使は　
　　　　晴れ　　　　でぶ第三候補　　　　　　　　　
　　　　　　　　　　　　橋第４図第５図

Claims

【特許請求の範囲】

入力音声の成分を分析する音響分析部と、前記音響分析
部から出力された最初の入力音声を第一の候補に基づい
て認識する音声認識部と、前記音声認識部の出力を表示
する手段と、前記音響分析部から出力された、最初の入
力音声を記憶するとともに、次に誤認識された部分だけ
の音声が再入力されたときに、前記最初の入力音声のう
ちのどの部分であるかを判定し、誤認識された部分につ
いて次の候補を前記音声認識部に出力する文章音声スポ
ッティング部と前記表示部で表示された前記次の候補が
前記入力音声に合致している場合に、前記入力音声の認
識を確定する手段とからなることを特徴とする音声認識
訂正装置。