JPH04254898A

JPH04254898A - 音声認識訂正装置

Info

Publication number: JPH04254898A
Application number: JP1651891A
Authority: JP
Inventors: Kikumi Kaburagi; 鏑木　喜久美
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1991-02-07
Filing date: 1991-02-07
Publication date: 1992-09-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】音声認識装置に係わる。

【０００２】

【従来の技術】従来の音声認識訂正装置について図９を
用いて説明する。

【０００３】従来の音声認識訂正装置では、音響分析部
１において入力された音声の分析を行い、特徴を出力す
る。音響分析部１からの出力に基づいて、音声認識部２
において入力音声の認識を行う。音声認識部２にて認識
された結果は操作者が確認できるように出力される。入
力音声を分析した特徴抽出の結果は、記憶部３に記憶さ
れる。音声認識結果に変更を施す必要がない場合には次
音声入力の操作に移行する。しかし、音声認識結果を変
更したい場合には、カーソル指示部４を操作し変更する
部分の先頭部と、同じく変更部分の終了部にカーソルを
移動させてマークし変更部分を指定する。従来の音声認
識訂正装置では、操作者がカーソル指示部４を操作して
、誤認識等により変更する必要がある部分を支持するの
である。カーソル指示部４の操作によって指示された部
分を変更するため、操作者は変更部５において、キー入
力装置を用いて変更したり、音声認識結果の候補がいく
つか表示されているような場合にはその中から候補を選
ぶ等の方法によって音声認識結果を変更する。

【０００４】

【発明が解決しようとする課題】音声による入力は、キ
ー入力操作をすることなくデータ入力を行うことができ
、キー入力装置のキー配置位置、キー操作方法等を知る
必要がなく、誰でもが簡便に使用できる入力方法である
。しかし、音声入力方法は、キー操作による入力方法と
異なり、操作者が正確に入力をしても入力データが正確
に認識される確率はやや低くなる傾向がある。そこで、
音響学会誌中の文章を構成する単語について、１単語を
構成している音素の数を調べたところ、１単語当りの平
均音素数は約９音素であった。ここで、音素認識率が９
５％以上である音声認識装置を用いても、１単語中に１
文字の認識誤りは予想される。また、音素認識率が９８
％以上である音声認識装置を考えた場合でも、１単語中
に１文字の認識誤りが発生することは、そう稀なことで
はないと考えられる。また、同じく音響学会誌中文章に
ついて、１文を構成している音素数を調べたところ、１
文当りの平均音素数は約４７音素であった。ここで、音
素認識率が９５％以上である音声認識装置を用いても、
１文中に２〜３音素の認識誤りは避けられないことにな
る。また、音素認識率が９８％以上である音声認識装置
を考えた場合でも、１文の中に１音素の認識誤りが発生
することは充分に考えられる。以上の事実からみても、
入力された音声の認識結果を変更する必要が生じるのは
、そう稀なことではないことが分かる。音声認識装置を
考えた場合には、音声認識訂正装置の役割はきわめて大
きいと思われる。また、音声認識の誤りを正す場合だけ
ではなく、入力データの一部を変更したい場合にも音声
認識訂正装置が用いられる。

【０００５】音声認識結果に変更を加える必要が生じた
場合には、まず変更部分を正しく指定することが重要で
ある。しかし、前述の従来技術を用いた音声認識訂正装
置では、操作者は自ら図９カーソル指示部４を操作し認
識誤りや変更が発生した区間の指定をしなければならな
い。このようなキー入力装置を用いたカーソル操作を頻
繁にしなければならないことは、操作者にとって非常に
負担である。このような視線が頻繁に移動する作業は、
操作者の視神経を非常に疲労させ作業効率を低下させる
ばかりか、視力の著しい低下を招く恐れがある。また、
音声による入力という優れた入力方法を用いておきなが
ら、変更部分の指定を手動でカーソルを移動することに
よってする従来技術では、音声認識装置の特徴である「
誰にでも操作が簡便に出来る。」、「キー入力やその他
の方法に比べ、データ入力スピードが速い。」という利
点を充分に発揮することが出来ないのである。つまり、
データ入力操作は速やかに行えたとしても、従来技術を
用いた音声認識訂正装置は、誰でもが簡単に迅速に変更
操作を行うことは非常に困難である。このように従来技
術を用いた音声認識訂正装置では、変更操作に非常に時
間がかかり、極めて作業効率が悪いのである。従来技術
には、以上述べてきたような問題点があった。

【０００６】

【課題を解決するための手段】本発明の音声認識訂正装
置は、入力された第１の音声の特徴を出力する音響分析
部と、前記音響分析部の出力を符号列に変換する音声識
別部と、前記音声認識部の出力を記憶する記憶部と、入
力された第２の音声を前記記憶部内のデータと対比して
前記記憶部内のデータから、前記第２の音声に該当する
部分を検出するスポッティング部と、前記符号列のうち
前記該当する部分に対応する部分を変更する変更部とか
らなることを特徴とする。

【０００７】

【実施例】以下、本発明について実施例に基づいて詳細
に説明する。（実施例１）図１は本発明の音声認識訂正装置の原理ブ
ロック図、図２は本発明の一実施例である単語毎に区切
って発生した音声認識訂正装置のブロック図である。単
語毎に区切って発声された第１の音声は、図１音響分析
部１１の構成要素であるマイク、高域強調フィルタ、Ａ
Ｄ変換器より構成される図２音声入力部２１によって８
ＫＨｚ、１２ｂｉｔｓのデジタル信号としてサンプリン
グされる。さらに同じく図１音響分析部１１の構成要素
である図２特徴抽出回路２２において、デジタル信号に
変換された音声信号を１６ｍｓ区間を１フレームとして
１フレーム毎に周波数変換し、周波数領域での特徴パラ
メータを抽出し、発生された単語の特徴パラメータ列と
して表される。図１音響分析部１１で抽出された第１の
音声の特徴パラメータ列は、図１音声識別部１２を構成
する図２ＤＰマッチング回路２３において、図２音素記
憶辞書２４とマッチングされる。図１音声認識部におい
て認識判定された音素ラティスは、図２音素ラティス記
憶回路２５に記憶され、図２表示部制御回路３０の制御
によって図２表示部３１に表示される。図２音素ラティ
ス記憶回路２５は図１記憶部１３を構成している。図２
表示部３１に表示された音声認識結果に誤りがあった場
合、または変更したい部分が生じた場合には、操作者は
訂正キーに触れる等の行為によって認識結果変更の必要
を知らせる。音声認識訂正装置は、図２訂正キー制御回
路２６によって第２の音声入力に備える。図２に破線で
示されているのは、第２の入力音声の処理を示したもの
である。入力された第２の音声である音素は、第１の音
声と同様に、音声入力部２１、特徴抽出回路２２を経て
特徴パラメータ列に変換される。その第２の音声の特徴
パラメータ列は、図１音声認識部を構成する図２ＤＰマ
ッチング回路２３にて図２音素記憶辞書２４とＤＰマッ
チングすることによって音声認識される。変更部分とし
て入力された第２の音声の音声認識結果は、図２ＤＰマ
ッチング回路２７において図２音素ラティス記憶回路２
５に記憶されている第１の音声入力の音素ラティスとＤ
Ｐマッチングされる。誤って認識されてしまった音素、
または変更を施す必要のある音素を第２の音声として入
力することによって、音声認識結果の変更部分を確実に
スポッティングしているのである。図２ＤＰマッチング
回路２７は図１音声スポッティング部１４を構成する。図２音素ラティス記憶回路２５の中に変更を希望する音
素が存在していれば、図２確定キー制御回路２９に制御
されている確定キーを操作して、正しい結果を確定し、
図２音素ラティス入れ替え回路２８によって、誤った部
分、或は変更したい部分を希望する結果に入れ換える。第二、第三の候補の中に希望する音素が存在しなければ
、改めて音声の入力を行い、最初に音声を入力した際と
同様な経路にて音声認識を行う。図２音素ラティス入れ
替え回路２８、図２確定キー制御回路２９は図１変更部
１５を構成する。

【０００８】本発明について実施例に基づいて、図３、
図４を用いてさらに説明する。

【０００９】図３は本発明の音声認識訂正装置の一実施
例である単語毎に区切って発生した音声認識訂正装置を
構成する図２音素ラティス記憶回路２５における音素ラ
ティス構造を示す図である。

【００１０】単語毎に区切って発生された音声を認識す
る音声認識訂正装置において、操作者が「電子計算機」
という単語を第１の音声として入力したと仮定する。こ
の入力を受けた際の図２音素ラティス記憶回路２５に記
憶された音素ラティスは図３に示した通り、「で」の音
素ラティス構造は第一候補は「で」、第二候補は「て」
である。「ん」の音素ラティス構造は第一候補は「ん」
、第二候補は「む」、第三候補は「う」である。「し」の音素ラティス構造は第一候補が「ち」、第二候
補は「し」である。「け」の音素ラティス構造は第一候
補が「け」、第二候補、第三候補はない。「い」の音素
ラティス構造は第一候補が「い」、第二候補は「ひ」、
第三候補は「し」である。「さ」の音素ラティス構造は
第一候補が「さ」、第二候補が「は」、第三候補が「あ
」である。「ん」の音素ラティス構造は第一候補が「ん
」、第二候補は「む」である。「き」の音素ラティス構
造は第一候補が「き」、第二候補、第三候補はない。よ
って、各音素認識結果の第一候補をつなげると、認識結
果は「でんちけいさんき」である。この場合、入力音声
は「でんきけいさんき」であるから、三番目の文字「き
」が「ち」と誤認識されてしまったことになる。操作者は音声認識結果に変更の必要があることを、訂正
キーを用いて知らせる。図２訂正キー制御回路２６は音
声認識結果に誤りがあったことを認識し、直ちに第２の
音声として変更音素の入力を求める。

【００１１】図４は本発明の音声認識訂正装置の一実施
例である単語毎に区切って発生した音声を認識する音声
認識訂正装置を構成する図１音素スポッティング部１４
の処理を説明する図である。

【００１２】操作者は誤って認識されてしまった音素そ
のもの、ここでは「ち」を第２の音声として入力する。これは、変更部分をカーソルなどで指定せずにスポッテ
ィングするためである。入力された「ち」は、図２音声
入力部２１、図２特徴抽出部２２を経て特徴パラメータ
に変換され、図２ＤＰマッチング回路２３において図２
音素記憶辞書２４とＤＰマッチングされ音声認識される
。ここで、第２の入力音声が「ち」であることが認識さ
れた。そこで第２の音声の音声認識結果「ち」は第１の
音声の音声認識結果のどの部分と一致するかを探し、ス
ポッティングする。第１の音声の音声認識結果は、図２
音声ラティス記憶回路２５に符号列として記憶されてい
るので、図２ＤＰマッチング回路２７において第２の音
声の音声認識結果「ち」とＤＰマッチングされる。

【００１３】図４には、第１の音声の音声認識結果であ
り図２音声ラティス記憶回路２５に符号列として記憶さ
れている音素ラティスと第２の音声の音声認識結果「ち
」を示している。ここに示したように、一度音声認識し
た音素「ち」をスポッティングすることはそれほど困難
なことではない。このようにして、誤認識部分「ち」が
変更必要な音素として検出される。幸い第二候補に正し
い音素「き」が存在するので、確定キーを用いて確定し
、図２確定キー制御回路２９、図２音素ラティス入れ替
え回路２８により、音声認識結果を訂正する。以上の操作によって音声認識結果の訂正を終了し、「で
んしけいさんき（電子計算機）」を得ることができる。

【００１４】図８、図２、図３、図４を参照しながら本
発明の一実施例である（実施例１）の処理過程を詳細に
説明する。図８は本発明の一実施例である単語毎に区切
って発生された音声を認識する音声認識訂正装置の処理
例を示したフローチャートである。

【００１５】まず、操作者によって第１の音声が入力さ
れる。音声データの入力に係わるのは図２音声入力部２
１である。入力された音声は直ちに図２特徴抽出回路２
２において、分析、特徴抽出される。抽出された特徴は
、図２ＤＰマッチング回路２３において、図２音素辞書
２４とＤＰマッチングされ、符号列として音声認識され
る。この結果は図２音素ラティス記憶回路２５に記憶さ
れる。第１の音声が音声認識された結果は図２音素ラテ
ィス記憶回路２５に記憶されると共に、操作者が確認で
きるように図２表示部３１に表示される。この表示に係
わるのは図２表示制御部３１、および図２表示部制御部
３０である。表示された音声認識結果の例としては、図
３に示してあるとおりである。図２表示部３１に表示さ
れた音声認識結果に誤りや変更の必要が生じた場合には
、操作者は訂正キーを用いて変更の必要があることを伝
える。ここで用いられる訂正キーは、図２訂正キー制御
回路２６によって制御されているものである。変更の必
要があった場合には、直ちに変更部分を検出する必要が
ある。音声認識結果の中から、変更部分をスポッティン
グするために第２の音声として変更部分そのものを音声
により入力する。第２の音声として入力された変更部分
は直ちに特徴抽出され特徴パラメータ列となり、図２Ｄ
Ｐマッチング回路２３において、図２音素記憶辞書２４
とＤＰマッチングされ、音声認識符号列として音声認識
される。次に第１の音声の音声認識結果を符号列として
記憶していた図２音素ラティス記憶回路２５と、第２の
音声の認識結果とを図２ＤＰマッチング回路２７におい
て、ＤＰマッチングする。ＤＰマッチングにより変更部
分のスポッティングが行われる。そのようすは図４に示
すとおりである。ここまでの処理により変更部分が明ら
かになった。ここで、操作者は音素ラティスの中に希望
の認識結果を認めたならば、その音素ラティスを正しい
音声認識結果として確定する。音素ラティス入れ替えと
確定の処理に係わるのは、図２音素ラティス入れ替え回
路２８と図２確定キー制御回路２９である。しかし、も
しも音素ラティス中に正しい音声認識結果が存在しなか
った場合には、新たに最初の音声入力から始めることに
なる。（実施例２）図５は本発明一実施例である単語毎に区切
らずに連続して発声した音声を認識する連続音声認識訂
正装置のブロック図である。

【００１６】第１の音声として入力された音声は、図１
音響分析部１１の構成要素であるマイク、高域強調フィ
ルタ、ＡＤ変換器より構成される図５音声入力部４１に
よって８ＫＨｚ、１２ｂｉｔｓのデジタル信号としてサ
ンプリングされる。更に同じく図１音響分析部１１の構
成要素である図５特徴抽出回路４２において、デジタル
信号に変換された音声信号を１６ｍｓ区間を１フレーム
として１フレーム毎に周波数変換し、周波数領域での特
徴パラメータを抽出し、発生された単語の特徴パラメー
タ列として表される。図５特徴抽出回路４２で抽出され
た入力音声の特徴パラメータ列は、図５連続ＤＰマッチ
ング回路４３において、図５単語記憶辞書４４と連続Ｄ
Ｐマッチングされ、符号列として音声認識され、図５単
語ラティス記憶回路４５に記憶される。第１の音声の音
声認識結果を符号列として記憶する図５単語ラティス記
憶回路４５は、図１記憶部１３を構成している。第１の
音声の音声認識結果は図５単語ラティス記憶回路４５に
記憶されるとともに、図５音声合成回路５０によって音
声合成され、図５音声出力制御回路５１の制御によりス
ピーカーから出力される。操作者は、音声により出力さ
れた第１の音声の音声認識結果を聞き、音声認識結果に
誤りがあった場合、または変更したい部分が生じた場合
には、操作者は訂正キーに触れる等の行為によって認識
結果変更の必要を知らせる。図５に破線で示されている
のは、第２の入力音声の処理を示したものである。第２
の音声として認識された単語は、第１の音声と同様に、
図５音声入力部４１、図５特徴抽出回路４２を経て特徴
パラメータ列に変換される。変更が必要な部分として入
力された第２の音声の特徴パラメータ列は、図５連続Ｄ
Ｐマッチング回路４３において、図５単語記憶辞書４４
と連続ＤＰマッチングされ、符号列として音声認識され
る。その結果である第２の音声の音声認識結果は図５連
続ＤＰマッチング回路４７において、図５単語ラティス
記憶回路４５に記憶されている第１の音声の音声認識結
果と連続ＤＰマッチングされる。ここでは、誤って認識
されてしまった部分や、変更を施す部分を第２の音声と
して入力することによって、音声認識結果の変更部分を
確実にスポッティングしているのである。図５連続ＤＰ
マッチング回路４７は図１音声スポッティング部１４を
構成する。図５単語ラティス記憶回路４５の中に変更し
たい単語が存在してれば、図５確定キー制御回路４９に
制御されている確定キーを操作して、希望する単語を確
定し、図５単語ラティス入れ替え回路４８によって、誤
った部分、或は変更したい部分を希望の結果に入れ換え
る。第二、第三の候補の中に変更を希望する単語が存在
しなければ、改めて音声の入力を行い、第１の音声を入
力した際と同様な経路にて音声認識を行う。図５単語ラ
ティス入れ替え回路４８、図５確定キー制御回路４９は
図１変更部１５を構成する。

【００１７】本発明について、本発明の（実施例２）に
基づいて、図６、図７を用いて更に説明する。

【００１８】図６は本発明の音声認識訂正装置の一実施
例である単語毎に区切らずに発生した音声を認識する認
識訂正装置を構成する図５単語ラティス記憶回路４５に
おける単語ラティス構造を示す図である。

【００１９】操作者が第１の音声として「今日の天気は
晴れです。」という文章を入力したと仮定する。この入
力を受けた際の図５単語ラティス記憶回路４５における
単語ラティス構造は図６に示したとおり、「今日」の単
語ラティス構造は第一候補「今日」、第二候補第三候補
はない。「の」の単語ラティス構造は第一候補「の」、
第二候補「も」である。「天気」の単語ラティス構造は
第一候補「天気」、第二候補「天使」である。また、「
は」の単語ラティス構造は第一候補「は」、第二候補「
あ」である。また、「晴れ」の単語ラティス構造は、第
一候補が「針」、第二候補「晴れ」、第三候補「橋」で
ある。同様に「です」についての単語ラティス構造は、
第一候補「です」、第二候補「でぶ」である。この場合
、「晴れ」が「針」に誤認識されてしまったことになる
。音声認識結果は図５音声構成回路５０により音声合成
され、図５音声出力制御回路５１の制御によりスピーカ
ーから出力される。操作者は音声によって伝えられる「
今日の天気は針です。」という音声認識結果を聞き、音
声認識結果に変更の必要があることを知り、訂正キーを
用いて知らせる。図５訂正キー制御回路４６は音声認識
結果に変更の必要があることを認識し、直ちに第２の音
声として変更部分の入力を求める体制を整える。

【００２０】図７は本発明の音声認識訂正装置の一実施
例である（実施例２）に基づき、単語毎に区切らずに発
生した音声を認識する音声認識訂正装置を構成する図１
音素スポッティング部１４の処理を説明する図である。

【００２１】操作者は誤って認識されてしまった単語そ
のもの、「針」を第２の音声として入力する。これは、
変更部分をスポッティングするためである。入力された
第２の音声「針」は図５音声入力部４１、図５特徴抽出
部４２を経て特徴パラメータ列に変換され、図５連続Ｄ
Ｐマッチング回路４３において図５単語記憶辞書４４と
連続ＤＰマッチングされ、「針」と音声認識される。そ
して第２の音声の音声認識結果は、図５連続ＤＰマッチ
ング回路４７において、第１の音声の音声認識結果とし
て図５単語ラティス記憶回路４５に符号列として記憶さ
れている単語ラティスと連続ＤＰマッチングされる。図
７には、図５単語ラティス記憶回路４５に符号列として
記憶されている第１の音声の音声認識結果と、第２の音
声の音声認識結果「針」を示している。ここで示したよ
うに、一度入力された単語「針」を連続ＤＰマッチング
によりスポッティングすることは容易である。このよう
にして、誤認識部分「針」が変更必要な部分として検出
され、幸い第二候補に正しい単語「晴れ」が存在するの
で、確定キーを用いて図５単語ラティス入れ替え回路４
８の制御によって、第二候補「晴れ」を選択し、認識結
果を確定する。以上の操作によって、誤認識結果の訂正
操作を終了し、正しい文認識結果「今日の天気は晴れで
す。」を得ることが出来る。

【００２２】尚、（実施例１）、（実施例２）では音声
入力部として、マイク、高域強調フィルタ、ＡＤ変換器
より構成し、８ＫＨｚ、１２ｂｉｔｓのデジタル信号と
してサンプリングしたものを用いたが、迅速に入力音声
をサンプリングできるものであれば、それ以外の構成で
あってもかまわない。また、特徴抽出回路では、デジタ
ル信号に変換された音声信号を１６ｍｓ区間を１フレー
ムとして１フレーム毎に周波数変換し、周波数領域での
特徴パラメータを抽出し、発生された単語の特徴パラメ
ータ列として表す方法を用いたが、これ以外の方法であ
っても特徴を的確に抽出できる方法であればかまわない
。また、音声認識結果を操作者に知らせる手段として、
（実施例１）では表示部に音声認識結果を表示する方法
を用いた。また、（実施例２）では音声認識結果を音声
合成により生成し、合成音声として出力し操作者に知ら
せる方法を用いたが、これら以外の方法であっても、音
声認識結果を迅速に操作者に知らせることが出来る方法
であれば構わない。

【００２３】

【発明の効果】以上述べてきたように本発明の音声認識
訂正装置は、入力された音声認識結果の変更にあたって
、カーソルを移動して変更部分の指定をする必要がなく
、音声により変更部分を再入力することによって、極め
て速やかに変更部分の指定を行い変更することが出来る
。そのため、雑音等による音声認識装置の使用環境の悪
化や、音声認識装置に入力を行う操作者の体調等により
、音声認識結果に頻繁に誤認識が生じ得るような場合に
も、音声認識訂正のための特別な操作や知識を必要とせ
ず、音声入力操作と同様な操作で訂正が可能となり、操
作者への負担が軽減され作業効率も著しく改善された。

【図面の簡単な説明】

【図１】本発明の音声認識訂正装置の原理ブロック図で
ある。

【図２】本発明の一実施例のブロック図である。

【図３】本発明の一実施例の音素ラティス記憶回路にお
ける音素ラティス構造を示す図である。

【図４】本発明の一実施例の変更処理を説明する図であ
る。

【図５】本発明の一実施例のブロック図である。

【図６】本発明の一実施例の単語ラティス記憶回路にお
ける単語ラティス構造を示す図である。

【図７】本発明の一実施例の変更処理を説明する図であ
る。

【図８】本発明の一実施例の処理を説明する図である。

【図９】従来の音声認識訂正装置のブロック図である。

【符号の説明】

１　　音響分析部２　　音声認識部３　　記憶部４　　カーソル指示部５　　変更部１１　　音響分析部１２　　音声認識部１３　　記憶部１４　　音声スポッティング部１５　　変更部２１　　音声入力部２２　　特徴抽出回路２３　　ＤＰマッチング回路２４　　音素記憶辞書２５　　音素ラティス記憶回路２６　　訂正キー制御回路２７　　ＤＰマッチング回路２８　　音素ラティス入れ替え回路２９　　確定キー制御回路３０　　表示部制御回路３１　　表示部４１　　音声入力部４２　　特徴抽出回路４３　　連続ＤＰマッチング回路４４　　単語記憶辞書４５　　単語ラティス記憶回路４６　　訂正キー制御回路４７　　連続ＤＰマッチング回路４８　　単語ラティス入れ替え回路４９　　確定キー制御回路５０　　音声合成回路５１　　音声出力制御回路

Claims

【特許請求の範囲】

【請求項１】入力された第１の音声の特徴を出力する音
響分析部と、前記音響分析部の出力を符号列に変換する
音声認識部と、前記音声認識部の出力を記憶する記憶部
と、入力された第２の音声を前記記憶部内のデータと対
比して前記記憶部内のデータから、前記第２の音声に該
当する部分を検出するスポッティング部と、前記符号列
のうち前記該当する部分に対応する部分を変更する変更
部とからなることを特徴とする音声認識訂正装置。