JPH04254898A - 音声認識訂正装置 - Google Patents
音声認識訂正装置Info
- Publication number
- JPH04254898A JPH04254898A JP1651891A JP1651891A JPH04254898A JP H04254898 A JPH04254898 A JP H04254898A JP 1651891 A JP1651891 A JP 1651891A JP 1651891 A JP1651891 A JP 1651891A JP H04254898 A JPH04254898 A JP H04254898A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- speech
- phoneme
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 43
- 238000010586 diagram Methods 0.000 description 15
- 238000000034 method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013479 data entry Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】音声認識装置に係わる。
【0002】
【従来の技術】従来の音声認識訂正装置について図9を
用いて説明する。
用いて説明する。
【0003】従来の音声認識訂正装置では、音響分析部
1において入力された音声の分析を行い、特徴を出力す
る。音響分析部1からの出力に基づいて、音声認識部2
において入力音声の認識を行う。音声認識部2にて認識
された結果は操作者が確認できるように出力される。入
力音声を分析した特徴抽出の結果は、記憶部3に記憶さ
れる。音声認識結果に変更を施す必要がない場合には次
音声入力の操作に移行する。しかし、音声認識結果を変
更したい場合には、カーソル指示部4を操作し変更する
部分の先頭部と、同じく変更部分の終了部にカーソルを
移動させてマークし変更部分を指定する。従来の音声認
識訂正装置では、操作者がカーソル指示部4を操作して
、誤認識等により変更する必要がある部分を支持するの
である。カーソル指示部4の操作によって指示された部
分を変更するため、操作者は変更部5において、キー入
力装置を用いて変更したり、音声認識結果の候補がいく
つか表示されているような場合にはその中から候補を選
ぶ等の方法によって音声認識結果を変更する。
1において入力された音声の分析を行い、特徴を出力す
る。音響分析部1からの出力に基づいて、音声認識部2
において入力音声の認識を行う。音声認識部2にて認識
された結果は操作者が確認できるように出力される。入
力音声を分析した特徴抽出の結果は、記憶部3に記憶さ
れる。音声認識結果に変更を施す必要がない場合には次
音声入力の操作に移行する。しかし、音声認識結果を変
更したい場合には、カーソル指示部4を操作し変更する
部分の先頭部と、同じく変更部分の終了部にカーソルを
移動させてマークし変更部分を指定する。従来の音声認
識訂正装置では、操作者がカーソル指示部4を操作して
、誤認識等により変更する必要がある部分を支持するの
である。カーソル指示部4の操作によって指示された部
分を変更するため、操作者は変更部5において、キー入
力装置を用いて変更したり、音声認識結果の候補がいく
つか表示されているような場合にはその中から候補を選
ぶ等の方法によって音声認識結果を変更する。
【0004】
【発明が解決しようとする課題】音声による入力は、キ
ー入力操作をすることなくデータ入力を行うことができ
、キー入力装置のキー配置位置、キー操作方法等を知る
必要がなく、誰でもが簡便に使用できる入力方法である
。しかし、音声入力方法は、キー操作による入力方法と
異なり、操作者が正確に入力をしても入力データが正確
に認識される確率はやや低くなる傾向がある。そこで、
音響学会誌中の文章を構成する単語について、1単語を
構成している音素の数を調べたところ、1単語当りの平
均音素数は約9音素であった。ここで、音素認識率が9
5%以上である音声認識装置を用いても、1単語中に1
文字の認識誤りは予想される。また、音素認識率が98
%以上である音声認識装置を考えた場合でも、1単語中
に1文字の認識誤りが発生することは、そう稀なことで
はないと考えられる。また、同じく音響学会誌中文章に
ついて、1文を構成している音素数を調べたところ、1
文当りの平均音素数は約47音素であった。ここで、音
素認識率が95%以上である音声認識装置を用いても、
1文中に2〜3音素の認識誤りは避けられないことにな
る。また、音素認識率が98%以上である音声認識装置
を考えた場合でも、1文の中に1音素の認識誤りが発生
することは充分に考えられる。以上の事実からみても、
入力された音声の認識結果を変更する必要が生じるのは
、そう稀なことではないことが分かる。音声認識装置を
考えた場合には、音声認識訂正装置の役割はきわめて大
きいと思われる。また、音声認識の誤りを正す場合だけ
ではなく、入力データの一部を変更したい場合にも音声
認識訂正装置が用いられる。
ー入力操作をすることなくデータ入力を行うことができ
、キー入力装置のキー配置位置、キー操作方法等を知る
必要がなく、誰でもが簡便に使用できる入力方法である
。しかし、音声入力方法は、キー操作による入力方法と
異なり、操作者が正確に入力をしても入力データが正確
に認識される確率はやや低くなる傾向がある。そこで、
音響学会誌中の文章を構成する単語について、1単語を
構成している音素の数を調べたところ、1単語当りの平
均音素数は約9音素であった。ここで、音素認識率が9
5%以上である音声認識装置を用いても、1単語中に1
文字の認識誤りは予想される。また、音素認識率が98
%以上である音声認識装置を考えた場合でも、1単語中
に1文字の認識誤りが発生することは、そう稀なことで
はないと考えられる。また、同じく音響学会誌中文章に
ついて、1文を構成している音素数を調べたところ、1
文当りの平均音素数は約47音素であった。ここで、音
素認識率が95%以上である音声認識装置を用いても、
1文中に2〜3音素の認識誤りは避けられないことにな
る。また、音素認識率が98%以上である音声認識装置
を考えた場合でも、1文の中に1音素の認識誤りが発生
することは充分に考えられる。以上の事実からみても、
入力された音声の認識結果を変更する必要が生じるのは
、そう稀なことではないことが分かる。音声認識装置を
考えた場合には、音声認識訂正装置の役割はきわめて大
きいと思われる。また、音声認識の誤りを正す場合だけ
ではなく、入力データの一部を変更したい場合にも音声
認識訂正装置が用いられる。
【0005】音声認識結果に変更を加える必要が生じた
場合には、まず変更部分を正しく指定することが重要で
ある。しかし、前述の従来技術を用いた音声認識訂正装
置では、操作者は自ら図9カーソル指示部4を操作し認
識誤りや変更が発生した区間の指定をしなければならな
い。このようなキー入力装置を用いたカーソル操作を頻
繁にしなければならないことは、操作者にとって非常に
負担である。このような視線が頻繁に移動する作業は、
操作者の視神経を非常に疲労させ作業効率を低下させる
ばかりか、視力の著しい低下を招く恐れがある。また、
音声による入力という優れた入力方法を用いておきなが
ら、変更部分の指定を手動でカーソルを移動することに
よってする従来技術では、音声認識装置の特徴である「
誰にでも操作が簡便に出来る。」、「キー入力やその他
の方法に比べ、データ入力スピードが速い。」という利
点を充分に発揮することが出来ないのである。つまり、
データ入力操作は速やかに行えたとしても、従来技術を
用いた音声認識訂正装置は、誰でもが簡単に迅速に変更
操作を行うことは非常に困難である。このように従来技
術を用いた音声認識訂正装置では、変更操作に非常に時
間がかかり、極めて作業効率が悪いのである。従来技術
には、以上述べてきたような問題点があった。
場合には、まず変更部分を正しく指定することが重要で
ある。しかし、前述の従来技術を用いた音声認識訂正装
置では、操作者は自ら図9カーソル指示部4を操作し認
識誤りや変更が発生した区間の指定をしなければならな
い。このようなキー入力装置を用いたカーソル操作を頻
繁にしなければならないことは、操作者にとって非常に
負担である。このような視線が頻繁に移動する作業は、
操作者の視神経を非常に疲労させ作業効率を低下させる
ばかりか、視力の著しい低下を招く恐れがある。また、
音声による入力という優れた入力方法を用いておきなが
ら、変更部分の指定を手動でカーソルを移動することに
よってする従来技術では、音声認識装置の特徴である「
誰にでも操作が簡便に出来る。」、「キー入力やその他
の方法に比べ、データ入力スピードが速い。」という利
点を充分に発揮することが出来ないのである。つまり、
データ入力操作は速やかに行えたとしても、従来技術を
用いた音声認識訂正装置は、誰でもが簡単に迅速に変更
操作を行うことは非常に困難である。このように従来技
術を用いた音声認識訂正装置では、変更操作に非常に時
間がかかり、極めて作業効率が悪いのである。従来技術
には、以上述べてきたような問題点があった。
【0006】
【課題を解決するための手段】本発明の音声認識訂正装
置は、入力された第1の音声の特徴を出力する音響分析
部と、前記音響分析部の出力を符号列に変換する音声識
別部と、前記音声認識部の出力を記憶する記憶部と、入
力された第2の音声を前記記憶部内のデータと対比して
前記記憶部内のデータから、前記第2の音声に該当する
部分を検出するスポッティング部と、前記符号列のうち
前記該当する部分に対応する部分を変更する変更部とか
らなることを特徴とする。
置は、入力された第1の音声の特徴を出力する音響分析
部と、前記音響分析部の出力を符号列に変換する音声識
別部と、前記音声認識部の出力を記憶する記憶部と、入
力された第2の音声を前記記憶部内のデータと対比して
前記記憶部内のデータから、前記第2の音声に該当する
部分を検出するスポッティング部と、前記符号列のうち
前記該当する部分に対応する部分を変更する変更部とか
らなることを特徴とする。
【0007】
【実施例】以下、本発明について実施例に基づいて詳細
に説明する。 (実施例1)図1は本発明の音声認識訂正装置の原理ブ
ロック図、図2は本発明の一実施例である単語毎に区切
って発生した音声認識訂正装置のブロック図である。単
語毎に区切って発声された第1の音声は、図1音響分析
部11の構成要素であるマイク、高域強調フィルタ、A
D変換器より構成される図2音声入力部21によって8
KHz、12bitsのデジタル信号としてサンプリン
グされる。さらに同じく図1音響分析部11の構成要素
である図2特徴抽出回路22において、デジタル信号に
変換された音声信号を16ms区間を1フレームとして
1フレーム毎に周波数変換し、周波数領域での特徴パラ
メータを抽出し、発生された単語の特徴パラメータ列と
して表される。図1音響分析部11で抽出された第1の
音声の特徴パラメータ列は、図1音声識別部12を構成
する図2DPマッチング回路23において、図2音素記
憶辞書24とマッチングされる。図1音声認識部におい
て認識判定された音素ラティスは、図2音素ラティス記
憶回路25に記憶され、図2表示部制御回路30の制御
によって図2表示部31に表示される。図2音素ラティ
ス記憶回路25は図1記憶部13を構成している。図2
表示部31に表示された音声認識結果に誤りがあった場
合、または変更したい部分が生じた場合には、操作者は
訂正キーに触れる等の行為によって認識結果変更の必要
を知らせる。音声認識訂正装置は、図2訂正キー制御回
路26によって第2の音声入力に備える。図2に破線で
示されているのは、第2の入力音声の処理を示したもの
である。入力された第2の音声である音素は、第1の音
声と同様に、音声入力部21、特徴抽出回路22を経て
特徴パラメータ列に変換される。その第2の音声の特徴
パラメータ列は、図1音声認識部を構成する図2DPマ
ッチング回路23にて図2音素記憶辞書24とDPマッ
チングすることによって音声認識される。変更部分とし
て入力された第2の音声の音声認識結果は、図2DPマ
ッチング回路27において図2音素ラティス記憶回路2
5に記憶されている第1の音声入力の音素ラティスとD
Pマッチングされる。誤って認識されてしまった音素、
または変更を施す必要のある音素を第2の音声として入
力することによって、音声認識結果の変更部分を確実に
スポッティングしているのである。図2DPマッチング
回路27は図1音声スポッティング部14を構成する。 図2音素ラティス記憶回路25の中に変更を希望する音
素が存在していれば、図2確定キー制御回路29に制御
されている確定キーを操作して、正しい結果を確定し、
図2音素ラティス入れ替え回路28によって、誤った部
分、或は変更したい部分を希望する結果に入れ換える。 第二、第三の候補の中に希望する音素が存在しなければ
、改めて音声の入力を行い、最初に音声を入力した際と
同様な経路にて音声認識を行う。図2音素ラティス入れ
替え回路28、図2確定キー制御回路29は図1変更部
15を構成する。
に説明する。 (実施例1)図1は本発明の音声認識訂正装置の原理ブ
ロック図、図2は本発明の一実施例である単語毎に区切
って発生した音声認識訂正装置のブロック図である。単
語毎に区切って発声された第1の音声は、図1音響分析
部11の構成要素であるマイク、高域強調フィルタ、A
D変換器より構成される図2音声入力部21によって8
KHz、12bitsのデジタル信号としてサンプリン
グされる。さらに同じく図1音響分析部11の構成要素
である図2特徴抽出回路22において、デジタル信号に
変換された音声信号を16ms区間を1フレームとして
1フレーム毎に周波数変換し、周波数領域での特徴パラ
メータを抽出し、発生された単語の特徴パラメータ列と
して表される。図1音響分析部11で抽出された第1の
音声の特徴パラメータ列は、図1音声識別部12を構成
する図2DPマッチング回路23において、図2音素記
憶辞書24とマッチングされる。図1音声認識部におい
て認識判定された音素ラティスは、図2音素ラティス記
憶回路25に記憶され、図2表示部制御回路30の制御
によって図2表示部31に表示される。図2音素ラティ
ス記憶回路25は図1記憶部13を構成している。図2
表示部31に表示された音声認識結果に誤りがあった場
合、または変更したい部分が生じた場合には、操作者は
訂正キーに触れる等の行為によって認識結果変更の必要
を知らせる。音声認識訂正装置は、図2訂正キー制御回
路26によって第2の音声入力に備える。図2に破線で
示されているのは、第2の入力音声の処理を示したもの
である。入力された第2の音声である音素は、第1の音
声と同様に、音声入力部21、特徴抽出回路22を経て
特徴パラメータ列に変換される。その第2の音声の特徴
パラメータ列は、図1音声認識部を構成する図2DPマ
ッチング回路23にて図2音素記憶辞書24とDPマッ
チングすることによって音声認識される。変更部分とし
て入力された第2の音声の音声認識結果は、図2DPマ
ッチング回路27において図2音素ラティス記憶回路2
5に記憶されている第1の音声入力の音素ラティスとD
Pマッチングされる。誤って認識されてしまった音素、
または変更を施す必要のある音素を第2の音声として入
力することによって、音声認識結果の変更部分を確実に
スポッティングしているのである。図2DPマッチング
回路27は図1音声スポッティング部14を構成する。 図2音素ラティス記憶回路25の中に変更を希望する音
素が存在していれば、図2確定キー制御回路29に制御
されている確定キーを操作して、正しい結果を確定し、
図2音素ラティス入れ替え回路28によって、誤った部
分、或は変更したい部分を希望する結果に入れ換える。 第二、第三の候補の中に希望する音素が存在しなければ
、改めて音声の入力を行い、最初に音声を入力した際と
同様な経路にて音声認識を行う。図2音素ラティス入れ
替え回路28、図2確定キー制御回路29は図1変更部
15を構成する。
【0008】本発明について実施例に基づいて、図3、
図4を用いてさらに説明する。
図4を用いてさらに説明する。
【0009】図3は本発明の音声認識訂正装置の一実施
例である単語毎に区切って発生した音声認識訂正装置を
構成する図2音素ラティス記憶回路25における音素ラ
ティス構造を示す図である。
例である単語毎に区切って発生した音声認識訂正装置を
構成する図2音素ラティス記憶回路25における音素ラ
ティス構造を示す図である。
【0010】単語毎に区切って発生された音声を認識す
る音声認識訂正装置において、操作者が「電子計算機」
という単語を第1の音声として入力したと仮定する。こ
の入力を受けた際の図2音素ラティス記憶回路25に記
憶された音素ラティスは図3に示した通り、「で」の音
素ラティス構造は第一候補は「で」、第二候補は「て」
である。「ん」の音素ラティス構造は第一候補は「ん」
、第二候補は「む」、第三候補は「う」である。 「し」の音素ラティス構造は第一候補が「ち」、第二候
補は「し」である。「け」の音素ラティス構造は第一候
補が「け」、第二候補、第三候補はない。「い」の音素
ラティス構造は第一候補が「い」、第二候補は「ひ」、
第三候補は「し」である。「さ」の音素ラティス構造は
第一候補が「さ」、第二候補が「は」、第三候補が「あ
」である。「ん」の音素ラティス構造は第一候補が「ん
」、第二候補は「む」である。「き」の音素ラティス構
造は第一候補が「き」、第二候補、第三候補はない。よ
って、各音素認識結果の第一候補をつなげると、認識結
果は「でんちけいさんき」である。この場合、入力音声
は「でんきけいさんき」であるから、三番目の文字「き
」が「ち」と誤認識されてしまったことになる。 操作者は音声認識結果に変更の必要があることを、訂正
キーを用いて知らせる。図2訂正キー制御回路26は音
声認識結果に誤りがあったことを認識し、直ちに第2の
音声として変更音素の入力を求める。
る音声認識訂正装置において、操作者が「電子計算機」
という単語を第1の音声として入力したと仮定する。こ
の入力を受けた際の図2音素ラティス記憶回路25に記
憶された音素ラティスは図3に示した通り、「で」の音
素ラティス構造は第一候補は「で」、第二候補は「て」
である。「ん」の音素ラティス構造は第一候補は「ん」
、第二候補は「む」、第三候補は「う」である。 「し」の音素ラティス構造は第一候補が「ち」、第二候
補は「し」である。「け」の音素ラティス構造は第一候
補が「け」、第二候補、第三候補はない。「い」の音素
ラティス構造は第一候補が「い」、第二候補は「ひ」、
第三候補は「し」である。「さ」の音素ラティス構造は
第一候補が「さ」、第二候補が「は」、第三候補が「あ
」である。「ん」の音素ラティス構造は第一候補が「ん
」、第二候補は「む」である。「き」の音素ラティス構
造は第一候補が「き」、第二候補、第三候補はない。よ
って、各音素認識結果の第一候補をつなげると、認識結
果は「でんちけいさんき」である。この場合、入力音声
は「でんきけいさんき」であるから、三番目の文字「き
」が「ち」と誤認識されてしまったことになる。 操作者は音声認識結果に変更の必要があることを、訂正
キーを用いて知らせる。図2訂正キー制御回路26は音
声認識結果に誤りがあったことを認識し、直ちに第2の
音声として変更音素の入力を求める。
【0011】図4は本発明の音声認識訂正装置の一実施
例である単語毎に区切って発生した音声を認識する音声
認識訂正装置を構成する図1音素スポッティング部14
の処理を説明する図である。
例である単語毎に区切って発生した音声を認識する音声
認識訂正装置を構成する図1音素スポッティング部14
の処理を説明する図である。
【0012】操作者は誤って認識されてしまった音素そ
のもの、ここでは「ち」を第2の音声として入力する。 これは、変更部分をカーソルなどで指定せずにスポッテ
ィングするためである。入力された「ち」は、図2音声
入力部21、図2特徴抽出部22を経て特徴パラメータ
に変換され、図2DPマッチング回路23において図2
音素記憶辞書24とDPマッチングされ音声認識される
。ここで、第2の入力音声が「ち」であることが認識さ
れた。そこで第2の音声の音声認識結果「ち」は第1の
音声の音声認識結果のどの部分と一致するかを探し、ス
ポッティングする。第1の音声の音声認識結果は、図2
音声ラティス記憶回路25に符号列として記憶されてい
るので、図2DPマッチング回路27において第2の音
声の音声認識結果「ち」とDPマッチングされる。
のもの、ここでは「ち」を第2の音声として入力する。 これは、変更部分をカーソルなどで指定せずにスポッテ
ィングするためである。入力された「ち」は、図2音声
入力部21、図2特徴抽出部22を経て特徴パラメータ
に変換され、図2DPマッチング回路23において図2
音素記憶辞書24とDPマッチングされ音声認識される
。ここで、第2の入力音声が「ち」であることが認識さ
れた。そこで第2の音声の音声認識結果「ち」は第1の
音声の音声認識結果のどの部分と一致するかを探し、ス
ポッティングする。第1の音声の音声認識結果は、図2
音声ラティス記憶回路25に符号列として記憶されてい
るので、図2DPマッチング回路27において第2の音
声の音声認識結果「ち」とDPマッチングされる。
【0013】図4には、第1の音声の音声認識結果であ
り図2音声ラティス記憶回路25に符号列として記憶さ
れている音素ラティスと第2の音声の音声認識結果「ち
」を示している。ここに示したように、一度音声認識し
た音素「ち」をスポッティングすることはそれほど困難
なことではない。このようにして、誤認識部分「ち」が
変更必要な音素として検出される。幸い第二候補に正し
い音素「き」が存在するので、確定キーを用いて確定し
、図2確定キー制御回路29、図2音素ラティス入れ替
え回路28により、音声認識結果を訂正する。 以上の操作によって音声認識結果の訂正を終了し、「で
んしけいさんき(電子計算機)」を得ることができる。
り図2音声ラティス記憶回路25に符号列として記憶さ
れている音素ラティスと第2の音声の音声認識結果「ち
」を示している。ここに示したように、一度音声認識し
た音素「ち」をスポッティングすることはそれほど困難
なことではない。このようにして、誤認識部分「ち」が
変更必要な音素として検出される。幸い第二候補に正し
い音素「き」が存在するので、確定キーを用いて確定し
、図2確定キー制御回路29、図2音素ラティス入れ替
え回路28により、音声認識結果を訂正する。 以上の操作によって音声認識結果の訂正を終了し、「で
んしけいさんき(電子計算機)」を得ることができる。
【0014】図8、図2、図3、図4を参照しながら本
発明の一実施例である(実施例1)の処理過程を詳細に
説明する。図8は本発明の一実施例である単語毎に区切
って発生された音声を認識する音声認識訂正装置の処理
例を示したフローチャートである。
発明の一実施例である(実施例1)の処理過程を詳細に
説明する。図8は本発明の一実施例である単語毎に区切
って発生された音声を認識する音声認識訂正装置の処理
例を示したフローチャートである。
【0015】まず、操作者によって第1の音声が入力さ
れる。音声データの入力に係わるのは図2音声入力部2
1である。入力された音声は直ちに図2特徴抽出回路2
2において、分析、特徴抽出される。抽出された特徴は
、図2DPマッチング回路23において、図2音素辞書
24とDPマッチングされ、符号列として音声認識され
る。この結果は図2音素ラティス記憶回路25に記憶さ
れる。第1の音声が音声認識された結果は図2音素ラテ
ィス記憶回路25に記憶されると共に、操作者が確認で
きるように図2表示部31に表示される。この表示に係
わるのは図2表示制御部31、および図2表示部制御部
30である。表示された音声認識結果の例としては、図
3に示してあるとおりである。図2表示部31に表示さ
れた音声認識結果に誤りや変更の必要が生じた場合には
、操作者は訂正キーを用いて変更の必要があることを伝
える。ここで用いられる訂正キーは、図2訂正キー制御
回路26によって制御されているものである。変更の必
要があった場合には、直ちに変更部分を検出する必要が
ある。音声認識結果の中から、変更部分をスポッティン
グするために第2の音声として変更部分そのものを音声
により入力する。第2の音声として入力された変更部分
は直ちに特徴抽出され特徴パラメータ列となり、図2D
Pマッチング回路23において、図2音素記憶辞書24
とDPマッチングされ、音声認識符号列として音声認識
される。次に第1の音声の音声認識結果を符号列として
記憶していた図2音素ラティス記憶回路25と、第2の
音声の認識結果とを図2DPマッチング回路27におい
て、DPマッチングする。DPマッチングにより変更部
分のスポッティングが行われる。そのようすは図4に示
すとおりである。ここまでの処理により変更部分が明ら
かになった。ここで、操作者は音素ラティスの中に希望
の認識結果を認めたならば、その音素ラティスを正しい
音声認識結果として確定する。音素ラティス入れ替えと
確定の処理に係わるのは、図2音素ラティス入れ替え回
路28と図2確定キー制御回路29である。しかし、も
しも音素ラティス中に正しい音声認識結果が存在しなか
った場合には、新たに最初の音声入力から始めることに
なる。 (実施例2)図5は本発明一実施例である単語毎に区切
らずに連続して発声した音声を認識する連続音声認識訂
正装置のブロック図である。
れる。音声データの入力に係わるのは図2音声入力部2
1である。入力された音声は直ちに図2特徴抽出回路2
2において、分析、特徴抽出される。抽出された特徴は
、図2DPマッチング回路23において、図2音素辞書
24とDPマッチングされ、符号列として音声認識され
る。この結果は図2音素ラティス記憶回路25に記憶さ
れる。第1の音声が音声認識された結果は図2音素ラテ
ィス記憶回路25に記憶されると共に、操作者が確認で
きるように図2表示部31に表示される。この表示に係
わるのは図2表示制御部31、および図2表示部制御部
30である。表示された音声認識結果の例としては、図
3に示してあるとおりである。図2表示部31に表示さ
れた音声認識結果に誤りや変更の必要が生じた場合には
、操作者は訂正キーを用いて変更の必要があることを伝
える。ここで用いられる訂正キーは、図2訂正キー制御
回路26によって制御されているものである。変更の必
要があった場合には、直ちに変更部分を検出する必要が
ある。音声認識結果の中から、変更部分をスポッティン
グするために第2の音声として変更部分そのものを音声
により入力する。第2の音声として入力された変更部分
は直ちに特徴抽出され特徴パラメータ列となり、図2D
Pマッチング回路23において、図2音素記憶辞書24
とDPマッチングされ、音声認識符号列として音声認識
される。次に第1の音声の音声認識結果を符号列として
記憶していた図2音素ラティス記憶回路25と、第2の
音声の認識結果とを図2DPマッチング回路27におい
て、DPマッチングする。DPマッチングにより変更部
分のスポッティングが行われる。そのようすは図4に示
すとおりである。ここまでの処理により変更部分が明ら
かになった。ここで、操作者は音素ラティスの中に希望
の認識結果を認めたならば、その音素ラティスを正しい
音声認識結果として確定する。音素ラティス入れ替えと
確定の処理に係わるのは、図2音素ラティス入れ替え回
路28と図2確定キー制御回路29である。しかし、も
しも音素ラティス中に正しい音声認識結果が存在しなか
った場合には、新たに最初の音声入力から始めることに
なる。 (実施例2)図5は本発明一実施例である単語毎に区切
らずに連続して発声した音声を認識する連続音声認識訂
正装置のブロック図である。
【0016】第1の音声として入力された音声は、図1
音響分析部11の構成要素であるマイク、高域強調フィ
ルタ、AD変換器より構成される図5音声入力部41に
よって8KHz、12bitsのデジタル信号としてサ
ンプリングされる。更に同じく図1音響分析部11の構
成要素である図5特徴抽出回路42において、デジタル
信号に変換された音声信号を16ms区間を1フレーム
として1フレーム毎に周波数変換し、周波数領域での特
徴パラメータを抽出し、発生された単語の特徴パラメー
タ列として表される。図5特徴抽出回路42で抽出され
た入力音声の特徴パラメータ列は、図5連続DPマッチ
ング回路43において、図5単語記憶辞書44と連続D
Pマッチングされ、符号列として音声認識され、図5単
語ラティス記憶回路45に記憶される。第1の音声の音
声認識結果を符号列として記憶する図5単語ラティス記
憶回路45は、図1記憶部13を構成している。第1の
音声の音声認識結果は図5単語ラティス記憶回路45に
記憶されるとともに、図5音声合成回路50によって音
声合成され、図5音声出力制御回路51の制御によりス
ピーカーから出力される。操作者は、音声により出力さ
れた第1の音声の音声認識結果を聞き、音声認識結果に
誤りがあった場合、または変更したい部分が生じた場合
には、操作者は訂正キーに触れる等の行為によって認識
結果変更の必要を知らせる。図5に破線で示されている
のは、第2の入力音声の処理を示したものである。第2
の音声として認識された単語は、第1の音声と同様に、
図5音声入力部41、図5特徴抽出回路42を経て特徴
パラメータ列に変換される。変更が必要な部分として入
力された第2の音声の特徴パラメータ列は、図5連続D
Pマッチング回路43において、図5単語記憶辞書44
と連続DPマッチングされ、符号列として音声認識され
る。その結果である第2の音声の音声認識結果は図5連
続DPマッチング回路47において、図5単語ラティス
記憶回路45に記憶されている第1の音声の音声認識結
果と連続DPマッチングされる。ここでは、誤って認識
されてしまった部分や、変更を施す部分を第2の音声と
して入力することによって、音声認識結果の変更部分を
確実にスポッティングしているのである。図5連続DP
マッチング回路47は図1音声スポッティング部14を
構成する。図5単語ラティス記憶回路45の中に変更し
たい単語が存在してれば、図5確定キー制御回路49に
制御されている確定キーを操作して、希望する単語を確
定し、図5単語ラティス入れ替え回路48によって、誤
った部分、或は変更したい部分を希望の結果に入れ換え
る。第二、第三の候補の中に変更を希望する単語が存在
しなければ、改めて音声の入力を行い、第1の音声を入
力した際と同様な経路にて音声認識を行う。図5単語ラ
ティス入れ替え回路48、図5確定キー制御回路49は
図1変更部15を構成する。
音響分析部11の構成要素であるマイク、高域強調フィ
ルタ、AD変換器より構成される図5音声入力部41に
よって8KHz、12bitsのデジタル信号としてサ
ンプリングされる。更に同じく図1音響分析部11の構
成要素である図5特徴抽出回路42において、デジタル
信号に変換された音声信号を16ms区間を1フレーム
として1フレーム毎に周波数変換し、周波数領域での特
徴パラメータを抽出し、発生された単語の特徴パラメー
タ列として表される。図5特徴抽出回路42で抽出され
た入力音声の特徴パラメータ列は、図5連続DPマッチ
ング回路43において、図5単語記憶辞書44と連続D
Pマッチングされ、符号列として音声認識され、図5単
語ラティス記憶回路45に記憶される。第1の音声の音
声認識結果を符号列として記憶する図5単語ラティス記
憶回路45は、図1記憶部13を構成している。第1の
音声の音声認識結果は図5単語ラティス記憶回路45に
記憶されるとともに、図5音声合成回路50によって音
声合成され、図5音声出力制御回路51の制御によりス
ピーカーから出力される。操作者は、音声により出力さ
れた第1の音声の音声認識結果を聞き、音声認識結果に
誤りがあった場合、または変更したい部分が生じた場合
には、操作者は訂正キーに触れる等の行為によって認識
結果変更の必要を知らせる。図5に破線で示されている
のは、第2の入力音声の処理を示したものである。第2
の音声として認識された単語は、第1の音声と同様に、
図5音声入力部41、図5特徴抽出回路42を経て特徴
パラメータ列に変換される。変更が必要な部分として入
力された第2の音声の特徴パラメータ列は、図5連続D
Pマッチング回路43において、図5単語記憶辞書44
と連続DPマッチングされ、符号列として音声認識され
る。その結果である第2の音声の音声認識結果は図5連
続DPマッチング回路47において、図5単語ラティス
記憶回路45に記憶されている第1の音声の音声認識結
果と連続DPマッチングされる。ここでは、誤って認識
されてしまった部分や、変更を施す部分を第2の音声と
して入力することによって、音声認識結果の変更部分を
確実にスポッティングしているのである。図5連続DP
マッチング回路47は図1音声スポッティング部14を
構成する。図5単語ラティス記憶回路45の中に変更し
たい単語が存在してれば、図5確定キー制御回路49に
制御されている確定キーを操作して、希望する単語を確
定し、図5単語ラティス入れ替え回路48によって、誤
った部分、或は変更したい部分を希望の結果に入れ換え
る。第二、第三の候補の中に変更を希望する単語が存在
しなければ、改めて音声の入力を行い、第1の音声を入
力した際と同様な経路にて音声認識を行う。図5単語ラ
ティス入れ替え回路48、図5確定キー制御回路49は
図1変更部15を構成する。
【0017】本発明について、本発明の(実施例2)に
基づいて、図6、図7を用いて更に説明する。
基づいて、図6、図7を用いて更に説明する。
【0018】図6は本発明の音声認識訂正装置の一実施
例である単語毎に区切らずに発生した音声を認識する認
識訂正装置を構成する図5単語ラティス記憶回路45に
おける単語ラティス構造を示す図である。
例である単語毎に区切らずに発生した音声を認識する認
識訂正装置を構成する図5単語ラティス記憶回路45に
おける単語ラティス構造を示す図である。
【0019】操作者が第1の音声として「今日の天気は
晴れです。」という文章を入力したと仮定する。この入
力を受けた際の図5単語ラティス記憶回路45における
単語ラティス構造は図6に示したとおり、「今日」の単
語ラティス構造は第一候補「今日」、第二候補第三候補
はない。「の」の単語ラティス構造は第一候補「の」、
第二候補「も」である。「天気」の単語ラティス構造は
第一候補「天気」、第二候補「天使」である。また、「
は」の単語ラティス構造は第一候補「は」、第二候補「
あ」である。また、「晴れ」の単語ラティス構造は、第
一候補が「針」、第二候補「晴れ」、第三候補「橋」で
ある。同様に「です」についての単語ラティス構造は、
第一候補「です」、第二候補「でぶ」である。この場合
、「晴れ」が「針」に誤認識されてしまったことになる
。音声認識結果は図5音声構成回路50により音声合成
され、図5音声出力制御回路51の制御によりスピーカ
ーから出力される。操作者は音声によって伝えられる「
今日の天気は針です。」という音声認識結果を聞き、音
声認識結果に変更の必要があることを知り、訂正キーを
用いて知らせる。図5訂正キー制御回路46は音声認識
結果に変更の必要があることを認識し、直ちに第2の音
声として変更部分の入力を求める体制を整える。
晴れです。」という文章を入力したと仮定する。この入
力を受けた際の図5単語ラティス記憶回路45における
単語ラティス構造は図6に示したとおり、「今日」の単
語ラティス構造は第一候補「今日」、第二候補第三候補
はない。「の」の単語ラティス構造は第一候補「の」、
第二候補「も」である。「天気」の単語ラティス構造は
第一候補「天気」、第二候補「天使」である。また、「
は」の単語ラティス構造は第一候補「は」、第二候補「
あ」である。また、「晴れ」の単語ラティス構造は、第
一候補が「針」、第二候補「晴れ」、第三候補「橋」で
ある。同様に「です」についての単語ラティス構造は、
第一候補「です」、第二候補「でぶ」である。この場合
、「晴れ」が「針」に誤認識されてしまったことになる
。音声認識結果は図5音声構成回路50により音声合成
され、図5音声出力制御回路51の制御によりスピーカ
ーから出力される。操作者は音声によって伝えられる「
今日の天気は針です。」という音声認識結果を聞き、音
声認識結果に変更の必要があることを知り、訂正キーを
用いて知らせる。図5訂正キー制御回路46は音声認識
結果に変更の必要があることを認識し、直ちに第2の音
声として変更部分の入力を求める体制を整える。
【0020】図7は本発明の音声認識訂正装置の一実施
例である(実施例2)に基づき、単語毎に区切らずに発
生した音声を認識する音声認識訂正装置を構成する図1
音素スポッティング部14の処理を説明する図である。
例である(実施例2)に基づき、単語毎に区切らずに発
生した音声を認識する音声認識訂正装置を構成する図1
音素スポッティング部14の処理を説明する図である。
【0021】操作者は誤って認識されてしまった単語そ
のもの、「針」を第2の音声として入力する。これは、
変更部分をスポッティングするためである。入力された
第2の音声「針」は図5音声入力部41、図5特徴抽出
部42を経て特徴パラメータ列に変換され、図5連続D
Pマッチング回路43において図5単語記憶辞書44と
連続DPマッチングされ、「針」と音声認識される。そ
して第2の音声の音声認識結果は、図5連続DPマッチ
ング回路47において、第1の音声の音声認識結果とし
て図5単語ラティス記憶回路45に符号列として記憶さ
れている単語ラティスと連続DPマッチングされる。図
7には、図5単語ラティス記憶回路45に符号列として
記憶されている第1の音声の音声認識結果と、第2の音
声の音声認識結果「針」を示している。ここで示したよ
うに、一度入力された単語「針」を連続DPマッチング
によりスポッティングすることは容易である。このよう
にして、誤認識部分「針」が変更必要な部分として検出
され、幸い第二候補に正しい単語「晴れ」が存在するの
で、確定キーを用いて図5単語ラティス入れ替え回路4
8の制御によって、第二候補「晴れ」を選択し、認識結
果を確定する。以上の操作によって、誤認識結果の訂正
操作を終了し、正しい文認識結果「今日の天気は晴れで
す。」を得ることが出来る。
のもの、「針」を第2の音声として入力する。これは、
変更部分をスポッティングするためである。入力された
第2の音声「針」は図5音声入力部41、図5特徴抽出
部42を経て特徴パラメータ列に変換され、図5連続D
Pマッチング回路43において図5単語記憶辞書44と
連続DPマッチングされ、「針」と音声認識される。そ
して第2の音声の音声認識結果は、図5連続DPマッチ
ング回路47において、第1の音声の音声認識結果とし
て図5単語ラティス記憶回路45に符号列として記憶さ
れている単語ラティスと連続DPマッチングされる。図
7には、図5単語ラティス記憶回路45に符号列として
記憶されている第1の音声の音声認識結果と、第2の音
声の音声認識結果「針」を示している。ここで示したよ
うに、一度入力された単語「針」を連続DPマッチング
によりスポッティングすることは容易である。このよう
にして、誤認識部分「針」が変更必要な部分として検出
され、幸い第二候補に正しい単語「晴れ」が存在するの
で、確定キーを用いて図5単語ラティス入れ替え回路4
8の制御によって、第二候補「晴れ」を選択し、認識結
果を確定する。以上の操作によって、誤認識結果の訂正
操作を終了し、正しい文認識結果「今日の天気は晴れで
す。」を得ることが出来る。
【0022】尚、(実施例1)、(実施例2)では音声
入力部として、マイク、高域強調フィルタ、AD変換器
より構成し、8KHz、12bitsのデジタル信号と
してサンプリングしたものを用いたが、迅速に入力音声
をサンプリングできるものであれば、それ以外の構成で
あってもかまわない。また、特徴抽出回路では、デジタ
ル信号に変換された音声信号を16ms区間を1フレー
ムとして1フレーム毎に周波数変換し、周波数領域での
特徴パラメータを抽出し、発生された単語の特徴パラメ
ータ列として表す方法を用いたが、これ以外の方法であ
っても特徴を的確に抽出できる方法であればかまわない
。また、音声認識結果を操作者に知らせる手段として、
(実施例1)では表示部に音声認識結果を表示する方法
を用いた。また、(実施例2)では音声認識結果を音声
合成により生成し、合成音声として出力し操作者に知ら
せる方法を用いたが、これら以外の方法であっても、音
声認識結果を迅速に操作者に知らせることが出来る方法
であれば構わない。
入力部として、マイク、高域強調フィルタ、AD変換器
より構成し、8KHz、12bitsのデジタル信号と
してサンプリングしたものを用いたが、迅速に入力音声
をサンプリングできるものであれば、それ以外の構成で
あってもかまわない。また、特徴抽出回路では、デジタ
ル信号に変換された音声信号を16ms区間を1フレー
ムとして1フレーム毎に周波数変換し、周波数領域での
特徴パラメータを抽出し、発生された単語の特徴パラメ
ータ列として表す方法を用いたが、これ以外の方法であ
っても特徴を的確に抽出できる方法であればかまわない
。また、音声認識結果を操作者に知らせる手段として、
(実施例1)では表示部に音声認識結果を表示する方法
を用いた。また、(実施例2)では音声認識結果を音声
合成により生成し、合成音声として出力し操作者に知ら
せる方法を用いたが、これら以外の方法であっても、音
声認識結果を迅速に操作者に知らせることが出来る方法
であれば構わない。
【0023】
【発明の効果】以上述べてきたように本発明の音声認識
訂正装置は、入力された音声認識結果の変更にあたって
、カーソルを移動して変更部分の指定をする必要がなく
、音声により変更部分を再入力することによって、極め
て速やかに変更部分の指定を行い変更することが出来る
。そのため、雑音等による音声認識装置の使用環境の悪
化や、音声認識装置に入力を行う操作者の体調等により
、音声認識結果に頻繁に誤認識が生じ得るような場合に
も、音声認識訂正のための特別な操作や知識を必要とせ
ず、音声入力操作と同様な操作で訂正が可能となり、操
作者への負担が軽減され作業効率も著しく改善された。
訂正装置は、入力された音声認識結果の変更にあたって
、カーソルを移動して変更部分の指定をする必要がなく
、音声により変更部分を再入力することによって、極め
て速やかに変更部分の指定を行い変更することが出来る
。そのため、雑音等による音声認識装置の使用環境の悪
化や、音声認識装置に入力を行う操作者の体調等により
、音声認識結果に頻繁に誤認識が生じ得るような場合に
も、音声認識訂正のための特別な操作や知識を必要とせ
ず、音声入力操作と同様な操作で訂正が可能となり、操
作者への負担が軽減され作業効率も著しく改善された。
【図1】本発明の音声認識訂正装置の原理ブロック図で
ある。
ある。
【図2】本発明の一実施例のブロック図である。
【図3】本発明の一実施例の音素ラティス記憶回路にお
ける音素ラティス構造を示す図である。
ける音素ラティス構造を示す図である。
【図4】本発明の一実施例の変更処理を説明する図であ
る。
る。
【図5】本発明の一実施例のブロック図である。
【図6】本発明の一実施例の単語ラティス記憶回路にお
ける単語ラティス構造を示す図である。
ける単語ラティス構造を示す図である。
【図7】本発明の一実施例の変更処理を説明する図であ
る。
る。
【図8】本発明の一実施例の処理を説明する図である。
【図9】従来の音声認識訂正装置のブロック図である。
1 音響分析部
2 音声認識部
3 記憶部
4 カーソル指示部
5 変更部
11 音響分析部
12 音声認識部
13 記憶部
14 音声スポッティング部
15 変更部
21 音声入力部
22 特徴抽出回路
23 DPマッチング回路
24 音素記憶辞書
25 音素ラティス記憶回路
26 訂正キー制御回路
27 DPマッチング回路
28 音素ラティス入れ替え回路
29 確定キー制御回路
30 表示部制御回路
31 表示部
41 音声入力部
42 特徴抽出回路
43 連続DPマッチング回路
44 単語記憶辞書
45 単語ラティス記憶回路
46 訂正キー制御回路
47 連続DPマッチング回路
48 単語ラティス入れ替え回路
49 確定キー制御回路
50 音声合成回路
51 音声出力制御回路
Claims (1)
- 【請求項1】入力された第1の音声の特徴を出力する音
響分析部と、前記音響分析部の出力を符号列に変換する
音声認識部と、前記音声認識部の出力を記憶する記憶部
と、入力された第2の音声を前記記憶部内のデータと対
比して前記記憶部内のデータから、前記第2の音声に該
当する部分を検出するスポッティング部と、前記符号列
のうち前記該当する部分に対応する部分を変更する変更
部とからなることを特徴とする音声認識訂正装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1651891A JPH04254898A (ja) | 1991-02-07 | 1991-02-07 | 音声認識訂正装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1651891A JPH04254898A (ja) | 1991-02-07 | 1991-02-07 | 音声認識訂正装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04254898A true JPH04254898A (ja) | 1992-09-10 |
Family
ID=11918496
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1651891A Pending JPH04254898A (ja) | 1991-02-07 | 1991-02-07 | 音声認識訂正装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04254898A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20000044446A (ko) * | 1998-12-30 | 2000-07-15 | 윤종용 | 무선 단말기에서 음성인식을 이용한 편집 방법 |
-
1991
- 1991-02-07 JP JP1651891A patent/JPH04254898A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20000044446A (ko) * | 1998-12-30 | 2000-07-15 | 윤종용 | 무선 단말기에서 음성인식을 이용한 편집 방법 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
| US5220639A (en) | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine | |
| JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
| JP4446312B2 (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
| JPH10133684A (ja) | 音声認識中に代替ワードを選択する方法及びシステム | |
| JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
| JPH04248596A (ja) | 音声認識訂正装置 | |
| JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
| JPH04254896A (ja) | 音声認識訂正装置 | |
| JPH04254898A (ja) | 音声認識訂正装置 | |
| JP2000056795A (ja) | 音声認識装置 | |
| JPH10187184A (ja) | 認識された音声を修正するときに認識されたワードを選択する方法及びシステム | |
| JP2001092493A (ja) | 音声認識修正方式 | |
| JP2002189490A (ja) | ピンイン音声入力の方法 | |
| JP2000047683A (ja) | セグメンテーション補助装置及び媒体 | |
| JP2015227915A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| JP2004093698A (ja) | 音声入力方法 | |
| JP2686085B2 (ja) | 音声認識システム | |
| KR20040008546A (ko) | 연속 음성인식 기기의 오인식 수정 방법 | |
| JPH1063295A (ja) | 認識結果を自動訂正する単語音声認識方法およびこの方法を実施する装置 | |
| JPH04181299A (ja) | 音声認識訂正装置 | |
| JPS58186836A (ja) | 音声入力デ−タ処理装置 | |
| JPH0736481A (ja) | 補完音声認識装置 | |
| JPH10143503A (ja) | 音声ワードプロセッサ | |
| JP2007535692A (ja) | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 |