JPH04181299A - 音声認識訂正装置 - Google Patents

音声認識訂正装置

Info

Publication number
JPH04181299A
JPH04181299A JP2310443A JP31044390A JPH04181299A JP H04181299 A JPH04181299 A JP H04181299A JP 2310443 A JP2310443 A JP 2310443A JP 31044390 A JP31044390 A JP 31044390A JP H04181299 A JPH04181299 A JP H04181299A
Authority
JP
Japan
Prior art keywords
input
speech
misrecognized
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2310443A
Other languages
English (en)
Inventor
Kikumi Kaburagi
鏑木 喜久美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2310443A priority Critical patent/JPH04181299A/ja
Publication of JPH04181299A publication Critical patent/JPH04181299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 単語毎に区切らずに連続して発声した音声を認識する連
続音声認識装置に係わる。
「従来の技術」 従来の音声認識装置について第6図を用いて説明する。
従来の音声認識装置においては、音響分析部1で入力さ
れた音声の成分の分析を行ない、音響分析部1からの出
力に基づいて、文章音声認識部2においそ入力音声の認
識を行ない、その結果を表示部4に表示する。表示され
た結果は操作者によって確認され、認識結果に誤りがな
い場合には、速やかに次音声入力の操作に移行する。し
がし、入力音声が誤って認識されていた場合には、カー
ソル指示部3を操作し認識結果に誤りがあった部分の先
頭部分と同じく誤認識部分の終了部にカーソルを移動さ
せてマークし、誤認識部分の指定を行なっている。従来
の音声認識装置では、操作者がカーソル指示部3を操作
して、音声認識結果に誤りが生じた部分を指示するので
ある。カーソル指示部3の操作によって指定された訂正
箇所を正すため、操作者は再び訂正箇所の音声人力等の
操作を行なうのである。この訂正操作において、いくつ
かの認識結果を表示できるような音声認識装置では、候
補として挙げられているものの中に正しい認識結果があ
れば、そこから選ぶことになる。
「発明が解決しようとする課題」 音声による入力は、キー入力操作をすることなくデータ
入力を行なうことが出来、キー人力装置のキー配置位置
、キー操作方法等を知る必要がなく、誰でもが簡便に使
用できる入力方法である。
しかし、音声入力方法は、キー操作による人力方法と異
なり、入力データが正確に認識される確率はやや低くな
る傾向がある。そこで、音響学会誌中の文章について、
1文を構成している音素の個数を調べたところ、1文肖
たりの平均音素数は約47音素であった。ここで、音素
認識率が9596以上である音声認識装置を用いても、
1文の千に2〜3音素の認識誤りは避けられないことに
なる。
また、音素認識率が98%以上である音声認識装置を考
えた場合でも、−文中に1音素の認識誤ハが発生するこ
とは充分考えられるのである。以上の事実から見ても、
入力された音声の認識結果を訂正する必要が生じるのは
、そう稀なことではないことが分かる。音声認識装置を
考えた場合には、音声認識の誤り訂正装置の役割は極め
て大きいと思われる。
しかし、前述の従来技術を用いた音声認識誤り訂正装置
では、音声認識結果に誤りが生じた場合には、操作者が
自ら第6図カーソル指示部3を操作し、認識誤りが発生
した区間の指定をしなければならない。このような訂正
操作を頻繁にしなければならないことは、操作者にとっ
て非常に負担である。また、音声による入力と言う優れ
た入力方法を用いておきながら、訂正部分の指定を手動
でカーソルを移動することによってする従来技術では、
音声認識装置の特徴である、「誰にでも操作が簡便に出
来る。」、「キー人力やその他の方法に比べ、データ入
力スピードが速い。」という利点を充分に発揮すること
が出来ないのである。
つまり、データ人力操作は速やかに行なえたとしても、
従来技術を用いた音声認識訂正装置は、誰でもが簡単に
迅速に訂正操作を行なうことは難しいのである。このよ
うに従来技術を用いた音声認識訂正装置では、訂正操作
に非常に時間がががり、極めて作業効率が悪いのである
。従来技術には、以上述べてきたような問題点があった
本発明の目的はかかる欠点を除去し、カーソル移動によ
る誤認識部分の指示をすることなく、音声による指示に
よって誤認識部分を指定し訂正することができる音声認
識訂正装置を提供する点にある。
ri!i題を解決するための手段」 本発明の音声認識訂正装置は、入力音声の成分を分析す
る音響分析部と、前記音響分析部がら出力された最初の
入力音声を第一の候補に基づいて認識する音声認識部と
、前記音声認識部の出力を表示する手段と、前記音響分
析部から出力された、最初の人力音声を記憶するととも
に、次に誤認識された部分だけの音声が再人力されたと
きに、前記最初の入力音声のうちのどの部分であるかを
判定し、誤認識された部分について次の候補を前記音声
認識部に出力する文章音声スポツティング部と前記表示
部で表示された前記次の候補が前記入力音声に合致して
いる場合に、前記入力音声の認識を確定する手段とから
なることを特徴する。
「実施例」 以下、本発明について実施例に基づいて詳細に説明する
第1図は本発明の音声認識訂正装置の原理ブロック図、
第2図は本発明の一実施例のブロック図である。人力さ
れた音声は、11の音響分析部の構成要素であるマイク
、高域強調フィルタ、AD変換器より構成される21音
声入力部によって8KHz、12bitsのデジタル信
号としてサンプリングされる。更に同しく音響分析部1
1の構成要素である特徴抽出部22において、デジタル
信号に変換された音声信号を16m5区間を1フレーム
として1フレームごとに周波数変換し、周波数領域での
特徴パラメータを抽出し、発話された文章の特徴パラメ
ータ列として表わされる。特徴抽出部22で抽出された
発話文章の特徴パラメータ列は、特徴パラメータ列記憶
回路27に記憶される。
音響分析部11で抽出された特徴パラメータ列は、文章
音声認識部12を構成する連続DPマツチング回路23
において、単語辞書24と発話された文章の特徴パラメ
ータ列とがマツチングされる。この連続DPマツチング
回路23において認識判定された単語ラティスは、単語
ラティス記憶回路32に記憶され、表示部制御回路25
の制御によって表示部26に表示される。表示部26に
表示された入力文章の認識結果に誤りがあった場合には
、操作者は訂正キーに触れる或いは押す等の行為によっ
て認識結果訂正の必要を知らせる。
訂正キーは訂正キー制御回路28によって制御されてお
り、訂正キー制御回路28は、直ちに誤認識単語の入力
を求める体制に入るよう指示する。
再人力された単語は、最初に入力された文章と同様に、
音声認識部21、特徴抽出部22を経て特徴パラメータ
列に変換される。誤認識単語の特徴パラメータ列は、特
徴パラメータ列記憶回路27に記憶されていた最初の入
力音声の特徴パラメータ列と、連続DPマツチング回路
29でワードスポツティングされる。誤って認識されて
しまった誤認識部分を再入力することによって、認識結
果の訂正箇所を確実にスポツティングしているのである
。単語ラティス記憶回路32の中に、正しい単語が存在
していれば、単語ラティス入れ換え回路30によって、
第二候補、第三候補とされていた単語に訂正し、確定キ
ー制御回路31によって制御されている確定キーを用い
て、認識結果を確定する。第二、第三の候補の中に正し
い単語が存在しなければ、改めて正しい単語の入力を行
ない、最初に文章を入力した際と同様な経路を経て、単
語認識を行なう。
本発明について実施例に基づいて、第3図、第4図を用
いて更に説明する。
第3図は本発明の単語ラティス記憶回路における単語ラ
ティス構造を示す図である。
今、操作者が「今日の天気は晴れでず。」という文章を
入力したと仮定する。この入力を受けた際の単語ラティ
ス記憶回路32における単語ラティス構造は第3図に示
したとおり、「天気は」の単語ラティス構造は第一候補
「天気は」、第二候補「天使は」である。また、「晴れ
」の単語ラティス構造は、第一候補「針」、第二候補「
晴れ」、第三候補「橋」である。同様に「です」につい
ての単語ラティス構造は、第一候補「です」、第二候補
「でぶ」である。この場合「晴れ」が「針」に誤認識さ
れてしまったことになる。操作者は認識結果に訂正の必
要があることを、訂正キーを用いて知らせる。訂正キー
制御回路28は認識結果に誤りがあったことを認識し、
直ちに誤認識結果そのものの入力を求める体制を整える
第4図は本発明の単語認識の訂正を行なう順序を説明す
る図である。
操作者は誤って認識された単語そのもの、「針」を再度
入力する。これは、誤認識部分をスポツティングするた
めである。人力された「針」は、21音声入力部、22
特徴抽出部を経て特徴パラメータ列に変換され、29D
Pマツチング回路において27特徴パラメ一タ記憶回路
に記憶されている特徴パラメータ列とDrマツチングし
、誤認識単語をスポツティングする。第4図には、特徴
パラメータ列として、最初の入力の音声パワーと、誤認
識単語「針」を再入力した際の音声パワーを示している
。ここの示したように、−度認識した単語「針」をスポ
ツティングすることは、困難なことではない。このよう
にして、誤認識部分「針」が訂正必要な部分として検出
され、幸い第二候補に正しい単語「晴れ」が存在するの
で、確定キーを用いて30単語ラティス入れ換え回路の
制御によって、第二候補「晴れ」を選択し、認識結果を
確定する。以上の操作によって、誤認識結果訂正を終了
し、正しい文認識結果「今日の天気は晴れです。」を得
ることが8来る。
第5図、第2図、第3図、第4図を参照しながら本発明
の処理過程を詳細に説明する。第5図は本発明の一実施
例の処理の一例を示したフローチャートである。
まず、操作者によって音声によるデータの入力が行なわ
れる。音声データの入力に係わるのは第2図21音声入
力部である。入力された音声は直ちに特徴抽出される。
この特徴抽出に係わるのは第2図22特徴抽出部である
。抽出された特徴は、第2図27特徴パラメータ列記憶
回路に記憶される。特徴抽出することによって得られた
何らかの形の特徴パラメータ列は、単語記憶辞書に記述
されている単語の標準特徴パラメータ列と連続DPマツ
チングが行なわれる。この連tEDPマツチングに係わ
るのは、第2図23連続DPマツチング回路である。ま
た、このとき標準バタンとして用いられる特徴パラメー
タ列は、第2図24単語記憶辞書のものである。連続D
Pマツチングされた結果に基づいて認識判定され、その
結果が表示される。この表示に係わるのは第2図25表
示制御部、及び第2図26表示部である。表示された結
果の例としては、第3図、第4図に示しである通りであ
る。表示された認識結果に誤りが存在′、た場合には、
訂正キーを用いて、認識訂正の必要があることを伝える
。ここで用いられた訂正キー(=、第2図28訂正キー
制御回路によって制御されているものである。訂正の必
要があった場合には、直ちに訂正部分を検出する必要が
ある。認識結果の中から、訂正部分をスポツティングす
るために、誤認識部分の誤認識結果の音声による入力を
操作者に求める。誤認識部分の人力は直ちに特徴抽出さ
れ特徴パラメータ列となり、第2図29連続DPマツチ
ング回路において、第2図27特徴パラメータ列記憶回
路に記憶されている最初の音声人力の特徴パラメータと
連続DPマツチングされる。
この連続Drマツチングの結果により誤認識部分のスポ
ツティングが行なわれる。そのようすは、第4図に示す
とおりである。誤認識部分がスポツティングされ、訂正
箇所が明らかになった。ここで、使用者は、単語ラティ
ス中に正しい認識結果を認めたならば、単語ラティスの
優先順位を確定キーを用いて操作し、認識結果を確定す
る。単語ラティスの優先順位入れ換えと確定の操作に係
わるのは、第2図30単語ラティス入れ換え回路と、第
2図31確定キー制御回路であネ。しかし、もしも、単
語ラティス中に正しい認識結果が存在しなかった場合に
は、新たに音声入力をすることになる。
尚、実施例では、第2図21音声入力部として、マイク
、高域強調フィルタ、AD変換器より構成し、8KHz
、12bitsのデジタル信号としてサンプリングした
ものを用いたが、迅速に入力音声をサンプリングできる
ものであれば、それ以外の構成であってもかまわない。
また、第2図22特徴抽出部では、デジタル信号に変換
された音声信号を16ms区間を1フレームとして、1
フレームごとに周波数変換し、周波数領域での特徴パラ
メータを抽出し、発話された文章の特徴パラメータ列と
して表わす方法を用いたが、これ以外の方法であっても
、特徴を適確に抽出できる方法であればかまわない。
「発明の効果」 以上述べてきたように本発明の音声認識訂正装置は、入
力された音声認識結果の誤認識部分の訂正にあたって、
カーソルを移動操作して誤認識部分の指定をする必要が
なく、音声による誤認識部分を再人力操作することによ
って、極めて速やかに誤認識部分の指定を行ない訂正す
ることが出来る。そのため、音声認識装置の使用環境の
悪化や、音声認識装置に人力を行なう操作者の体調等に
より、音声認識結果に頻繁に誤認識が生じ得るような場
合にも、音声認識訂正のための特別な操作や知識を必要
とせず、操作者への負担が軽減され作業効率も著しく改
善された。
【図面の簡単な説明】
第1図は、本発明の音声認識訂正装置の原理ブロック図
。 第2図は、本発明の一実施例のブロック図。 第3図は、本発明の単語ラティス記憶回路における単語
ラティス構造を示す図。 第4図は、本発明の単語認識の訂正を行なう順序を説明
する図。 第5図は、本発明の一実施例の処理の一例を示したフロ
ーチャート。 第6図は、従来の音声認識訂正装置のブロック図。 以上 出願人 セイコーエプソン株式会社 代理人 弁理士 鈴木喜三部 他1名 ↓ 5 第1図 第2図 第−候補   今日の     天気は     針 
    です第二候補           天使は 
    晴れ    でぶ第三候補         
            橋第4図 第5図

Claims (1)

    【特許請求の範囲】
  1. 入力音声の成分を分析する音響分析部と、前記音響分析
    部から出力された最初の入力音声を第一の候補に基づい
    て認識する音声認識部と、前記音声認識部の出力を表示
    する手段と、前記音響分析部から出力された、最初の入
    力音声を記憶するとともに、次に誤認識された部分だけ
    の音声が再入力されたときに、前記最初の入力音声のう
    ちのどの部分であるかを判定し、誤認識された部分につ
    いて次の候補を前記音声認識部に出力する文章音声スポ
    ッティング部と前記表示部で表示された前記次の候補が
    前記入力音声に合致している場合に、前記入力音声の認
    識を確定する手段とからなることを特徴とする音声認識
    訂正装置。
JP2310443A 1990-11-16 1990-11-16 音声認識訂正装置 Pending JPH04181299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2310443A JPH04181299A (ja) 1990-11-16 1990-11-16 音声認識訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2310443A JPH04181299A (ja) 1990-11-16 1990-11-16 音声認識訂正装置

Publications (1)

Publication Number Publication Date
JPH04181299A true JPH04181299A (ja) 1992-06-29

Family

ID=18005311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2310443A Pending JPH04181299A (ja) 1990-11-16 1990-11-16 音声認識訂正装置

Country Status (1)

Country Link
JP (1) JPH04181299A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2023080132A (ja) * 2019-09-30 2023-06-08 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2023080132A (ja) * 2019-09-30 2023-06-08 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Similar Documents

Publication Publication Date Title
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
EP2562746A1 (en) Apparatus and method for recognizing voice by using lip image
JPS62239231A (ja) 口唇画像入力による音声認識方法
JPH04248596A (ja) 音声認識訂正装置
JPH0713591A (ja) 音声認識装置および音声認識方法
JP5591428B2 (ja) 自動記録装置
JPH04181299A (ja) 音声認識訂正装置
JP3682922B2 (ja) リアルタイム文字修正装置およびリアルタイム文字修正プログラム
JPH04254896A (ja) 音声認識訂正装置
JP3254977B2 (ja) 音声認識方法及び音声認識装置
JP2014149490A (ja) 音声認識誤り修正装置及びそのプログラム
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2000200093A (ja) 音声認識装置及びそれに用いる音声認識方法並びにその制御プログラムを記録した記録媒体
JPH064264A (ja) 音声入出力システム
JP3259734B2 (ja) 音声認識装置
JPH04254898A (ja) 音声認識訂正装置
JPH10143503A (ja) 音声ワードプロセッサ
JP2755792B2 (ja) 音声認識装置
JP2007272123A (ja) 音声操作システム
JP2017102320A (ja) 音声認識装置
JPH1063295A (ja) 認識結果を自動訂正する単語音声認識方法およびこの方法を実施する装置
JPS5961899A (ja) 日本語音声入力装置
JPH0442363A (ja) 携帯型音声認識電子辞書
JPH11338493A (ja) 情報処理装置および方法、並びに提供媒体
KR940005045B1 (ko) 음성 인식방법