JPH08314493A - 音声認識方法,数字列音声認識装置及びビデオレコーダシステム - Google Patents

音声認識方法,数字列音声認識装置及びビデオレコーダシステム

Info

Publication number
JPH08314493A
JPH08314493A JP7122841A JP12284195A JPH08314493A JP H08314493 A JPH08314493 A JP H08314493A JP 7122841 A JP7122841 A JP 7122841A JP 12284195 A JP12284195 A JP 12284195A JP H08314493 A JPH08314493 A JP H08314493A
Authority
JP
Japan
Prior art keywords
recognition
score
reference value
voice
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7122841A
Other languages
English (en)
Inventor
Akira Ishida
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP7122841A priority Critical patent/JPH08314493A/ja
Publication of JPH08314493A publication Critical patent/JPH08314493A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 使い勝手を向上させると共に、より確度の高
い認識結果が得られる音声認識方法及び数字列音声認識
装置の提供を目的とする。 【構成】 マイクロフォン11から音声信号を認識対象と
して入力する処理P1と、複数の認識候補それぞれに関し
て認識の確度を示す認識スコアを求める処理P2と、第1
位の認識スコアを第1の基準値と比較する第1の判定を
行ない、その結果、第1位の認識スコアが第1の基準値
よりも小である場合はリジェクトを行なう処理P31 と、
第1位の認識スコアが第1の基準値よりも大である場合
は第1位の認識スコアに対する第2位の認識スコアの比
率を表すスコア比を求め、スコア比を第2の基準値と比
較する第2の判定を行ない、その結果、スコア比が第2
の基準値よりも大である場合はリジェクトを行なう処理
P32 と、スコア比が第2の基準値よりも小である場合は
第1位の認識スコアが求められた認識候補を認識結果と
見做す処理P4とからなる音声認識方法。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識方法及び数字列
音声認識装置に関し、特に、話者が発声した数字列の音
声認識に好適な音声認識方法及び数字列音声認識装置に
関する。
【0002】
【従来の技術】ビデオレコーダとして一般に広く普及し
ているビデオテープレコーダの録画予約の操作は機械操
作が苦手な人達、特に老人にとっては難しいとされてお
り、それを容易にする技術としてGコードと称される数
字列を利用したビデオテープレコーダの録画予約のため
の手法が近年普及している。このGコードは、一般的に
は2桁乃至8桁程度の数字列を専用の装置に入力する
と、その数字列がデコードされてビデオテープレコーダ
の録画予約に必要な諸元、即ちチャネル番号,録画開始
日時,録画時間等がビデオテープレコーダに設定される
ものである。換言すれば、上述の諸元を所定の法則に従
ってエンコードすることによりGコードが生成される。
このようにして生成されたGコードは新聞等に掲載され
ている。従って、ユーザは新聞等に掲載されているGコ
ードを見つつ専用の装置に数字列を入力すればよいの
で、機械操作が苦手な人達でも容易にビデオテープレコ
ーダの録画予約を行なえる。
【0003】しかし現実には、未知の数字列の各数字を
逐次的にキー操作により入力することは意外に面倒であ
って、途中で間違って最初から再入力する必要が生じる
ことが多い。これは、たとえば自身が記憶している電話
番号を入力するのであれば、ユーザはキーのみに視線を
置いてキー操作が可能であるが、Gコードのような未知
の数字列を入力する場合には、ユーザは新聞等に掲載さ
れている数字列と装置のキーとの間で視線を往復させつ
つキー操作を行なう必要があるためである。
【0004】このような事情から、Gコードを音声入力
することが考えられる。その場合には、ユーザは新聞等
に掲載されているGコードの数字列上に視線を固定した
状態で各数字を順に読み上げるのみでよいため、途中で
再入力しなければならないという状態に陥る虞は少なく
なる。
【0005】一方近年、所謂移動電話機と称される無線
式の電話機が普及している。移動電話機には大きく分け
て主として自動車に装備される自動車電話機と、利用者
が持ち運ぶ携帯電話機とがあり、両者に兼用可能なタイ
プもある。自動車電話機では、安全性の観点から運転者
が手を触れずに操作可能な所謂ハンズフリータイプであ
ることが望ましい。ハンズフリータイプの電話機は、通
常の電話機においても回線が接続された後の状態として
は既に実用化されているが、ダイヤルの操作に関しては
ユーザ自身の手で操作する必要がある。しかし特に自動
車電話機の場合、ユーザが運転中にダイヤルボタンを操
作する際には手と視線がそちらにとられるために非常に
危険な状態になる。従って、最初にメインスイッチをオ
ンするのみにて、電話番号を音声入力し、それによって
回線が接続した後はそのままハンズフリーで通話可能で
あることが望ましい。
【0006】ところで現状の音声認識の技術では、万人
のあらゆる言葉を音声認識することは困難であり、一般
的には予め登録した人の音声によるある限定された範囲
の言葉のみを認識対象としている場合が多い。しかし、
異なる読みを含めても15種類程度の言葉で表される数字
のみに認識対象を限定すれば、万人の音声を認識するこ
とも可能である。従って、上述のようなGコードの入力
装置、あるいは電話番号の入力装置等のような数字のみ
を対象とする用途には万人を対象とした音声認識装置は
充分に実用可能である。
【0007】図19は上述のような用途に使用される従来
の音声認識装置による音声認識の原理の概念を示す模式
図である。また、図20は図19に示されている従来の音声
認識装置による具体的な処理手順を示したフローチャー
トである。
【0008】図19において、参照符号1はマイクロフォ
ンを示しており、話者が発声した音声が入力される。マ
イクロフォン1に入力された音声は音声入力処理P1によ
り音声信号として取り込まれ、”0(ゼロ,レイ, マ
ル)”乃至”9(キュウ,ク)”の内から複数の認識候
補それぞれに対して認識の確度を示す認識スコアが音声
認識処理P2により求められる。この音声認識処理P2によ
り第1位の認識スコアが求められた認識候補が正当であ
るか否かが、基準値と第1位の認識スコアとを比較する
ことによりリジェクトチェック処理P3においてチェック
される。そして、リジェクトチェック処理P3において、
第1位の認識スコアが基準値よりも大であれば正当であ
ると認められ、認識候補を認識結果報知処理P4がスピー
カ6から合成音声にて発声することにより、あるいはLC
D 7に文字表示することにより報知する。
【0009】次に、上述のような従来の音声認識の手法
を音声認識装置で実行する場合の具体的な処理手順につ
いて、図20のフローチャートを参照して説明する。ま
ず、音声認識の基準になるリジェクト閾値”reject”が
設定される (ステップS1) 。このリジェクト閾値”reje
ct”の設定は固定値でもよいし、種々の条件に応じて変
更することも可能である。次に、装置の図示されていな
い入力ボタンがオンされると (ステップS2) 、マイクロ
フォン1から音声が入力されて音声入力処理P1により音
声信号として取り込まれる (ステップS3) 。
【0010】音声入力処理P1により取り込まれた音声信
号は音声認識処理P2により、従来公知の手法により認識
される (ステップS4) 。具体的には、音声認識処理P2に
おいては、取り込まれた音声信号に対して”0”乃至”
9”の認識結果の候補に関して認識結果の確度を表す認
識スコアがそれぞれ計算される。
【0011】リジェクトチェック処理P3においては、音
声認識処理P2により計算された認識スコアの内の第1位
の認識スコアが先に設定されているリジェクト閾値”re
ject”より大であるか否かを判断する (ステップS5) 。
この判断結果がNOである場合は、正当な認識が出来なか
ったとしてリジェクトが報知され (ステップS10)、再度
音声認識処理P1による音声信号の取り込みが行なわれる
(ステップS3) 。ステップS5での判断結果がYES である
場合は、認識結果報知処理P4によりスピーカ6またはLC
D 7を利用した認識結果の報知が行なわれる (ステップ
S6) 。
【0012】この状態で、装置に備えられている転送ボ
タン(図示せず)が操作されていなければ (ステップS
7) 、一つの数字の認識が完了したものとして一時記憶
される(ステップS11)。そして、次の数字の入力を受け
付けるためにステップS3へ処理が戻される。上述のよう
にして、ステップS3, S4, S5, S6, S7, S11 の各ステッ
プが順次実行されてステップS3へ戻るループ処理が反復
されることにより、各一回のループ処理について一つの
数字の音声認識が行なわれる。
【0013】このようにして順次的に全ての数字の入力
が終了した後に転送ボタンがオンされると (ステップS
7) 、それまでに入力されていた各数字が数字列として
デコードされ (ステップS8) 、このデコード結果はそれ
を本来必要とするたとえばビデオテープレコーダあるい
は電話機等の装置に送信される。この後、入力ボタンが
オフされる (ステップS9) 。
【0014】なお、ステップS6において一つの数字の認
識結果が報知された後に、ステップS12 にて示されてい
るように、ユーザがその認識結果に対して、即ちスピー
カ6から発声される認識結果の合成音声、あるいはLCD
7に表示される認識結果の数字に対して確認ボタンを使
用して確認を行なうように構成することも可能である。
これは、リジェクトチェック部4において第1位の認識
スコアが得られた認識結果の候補といえども、それが必
ずしも正当な認識結果であるという保証はないからであ
る。
【0015】いまたとえば話者が数字列”5492”を音声
入力する場合について、それに対する従来の音声認識装
置の応答の状態を示す図21, 図22の模式図を参照して説
明する。従来の音声認識装置では、装置が音声認識をし
た場合に、そのことを示す確認音を発声すると共に認識
結果を表示し、それに対してユーザが確認ボタンを操作
することにより一つの数字の入力が完了するタイプと、
認識結果を合成音声で発声し、それが正しければユーザ
がそのまま次の数字を発声するタイプとがある。
【0016】まず、図21には前者のタイプが示されてい
る。即ち、まずユーザが「ゴ」と発声すると、装置はそ
れを音声認識した場合にはたとえば「ピッ」というよう
な確認音をスピーカ6から発声すると共に、認識結果を
LCD 7に表示する。ユーザはLCD 7上へ視線を移して表
示されている認識結果を確認したうえで確認ボタンをオ
ン操作した後、次の数字である「ヨン」を発声する。
【0017】このような図21の模式図に示されている例
では、個々の数字の入力間隔がある程度以上には短縮さ
れず、従ってユーザの立場では各数字を発声する間隔が
長くなって使い勝手が悪くなる。また、確認音が発声す
る都度、LCD 7上に視線を移す必要があるため、自動車
電話機に適用するには問題がある。
【0018】また、図22には後者のタイプが示されてい
る。即ち、まずユーザが「ゴ」と発声すると、装置はそ
れを音声認識した場合に認識結果を合成音声でスピーカ
6から発声する。ユーザはこの合成音声で発声される認
識結果を確認した後、次の数字である「ヨン」を発声す
る。
【0019】このような図22の模式図に示されている例
では、図21に示されている例に比して、ユーザがLCD 7
上に視線を移す必要はないが、やはり一字一字の入力間
隔がある程度以上には短縮されず、従ってユーザの立場
では各数字を発声する間隔が開いて使い勝手が悪くな
る。
【0020】
【発明が解決しようとする課題】ところで、上述のよう
な従来の音声認識装置では、主として以下のような二つ
の難点がある。
【0021】第1の問題点は認識結果の確度に関する問
題である。従来の一般的な音声認識のための手法では前
述のように、幾つかの認識結果の候補の内の第1位の認
識スコアがリジェクト閾値”reject”以上である場合は
その候補を最終的な認識結果としていた。しかし、二
つ、あるいはそれ以上の認識結果の候補の認識スコア間
に有意な差が無いような場合にも、従来は第1位の認識
スコアが求められた候補を正当な認識結果としていたた
め、認識結果の確度が低かった。たとえば、話者が「イ
チ」,「シチ」あるいは「ヒチ」と発声した場合には、
その認識結果として”1”及び”7”の双方にほぼ同程
度の認識スコアが得られる可能性があり、誤認識の可能
性が高くなる。
【0022】第2の問題点は、従来の音声認識の手法で
は誤認識を少なくすることとリジェクトの発生を少なく
することとがトレードオフの関係にあるという点であ
る。一般的に音声認識において誤認識の可能性を低下さ
せるためには、リジェクト閾値を比較的高い値に設定す
ればよい。しかし、リジェクト閾値を高くすればするほ
ど、リジェクトが多発することになる。このような事情
から、本願出願人は特開平4-152397号公報(G10L 3/00 3
01) に開示されているような発明を先に出願している。
【0023】この特開平4-152397号公報に開示されてい
る音声認識装置では、ある認識対象の認識処理に際して
一旦リジェクトされた後の再認識処理においてはリジェ
クト閾値をより低く設定している。このように、ダイナ
ミックにリジェクト閾値を設定することにより、話者が
同一の音声を何度発生してもリジェクトされるという問
題は解決される。しかし、上述の第1の問題点は解決さ
れない。
【0024】第3の問題点は装置の使い勝手に関する問
題である。これは上述の第1の問題点の解消を目的とし
て、個々の数字の認識結果をたとえばLCD に表示してユ
ーザに確認を求める場合には、ユーザは視線をLCD へ移
動させると共に確認ボタンを操作する必要が生じる。こ
のような動作はユーザにとって煩瑣であるのみならず、
自動車の運転中においては非常に危険な状態を招来し、
更に次の入力が可能になるまでにタイムラグが生じる。
また、個々の数字の認識結果をスピーカから合成音声と
して発声してユーザに確認を求める場合には、ユーザは
視線を移動する必要はないが少なくとも確認ボタンを操
作する必要が生じる。この場合にも、次の入力が可能に
なるまでにタイムラグが生じるため、使い勝手が悪くな
ることは否めない。
【0025】本発明はこのような事情に鑑みてなされた
ものであり、使い勝手を向上させると共に、より確度の
高い認識結果が得られ、且つリジェクトの多発を回避し
得る音声認識方法,数字列音声認識装置及びビデオレコ
ーダシステムの提供を目的とする。
【0026】
【課題を解決するための手段】本発明に係る音声認識方
法は、認識対象の音声信号に対する認識結果の確度を示
す認識スコアを複数の認識候補それぞれに関して求め、
求められた認識スコアの内の第1位の認識スコアを第1
の基準値と比較する第1の判定を行ない、第1の判定の
結果、第1位の認識スコアが第1の基準値よりも小であ
る場合は全認識候補をリジェクトし、第1位の認識スコ
アが第1の基準値よりも大である場合は第1位の認識ス
コアに対する第2位の認識スコアの比率を表すスコア比
を求め、求められたスコア比を第2の基準値と比較する
第2の判定を行ない、第2の判定の結果、スコア比が第
2の基準値よりも大である場合は全認識候補をリジェク
トし、スコア比が第2の基準値よりも小である場合は第
1位の認識スコアが求められた認識候補を認識結果と見
做すことを特徴とする。
【0027】また本発明に係る音声認識方法は、同一の
認識対象に対する第1の判定または第2の判定の結果に
従ったリジェクトが行なわれた場合に、第1の基準値を
より小に、第2の基準値をより大に設定して第1の判定
及び第2の判定を再度行なうことを特徴とする。
【0028】更に本発明に係る音声認識方法は、同一の
認識対象に対する第1の判定または第2の判定の結果に
従ったリジェクトが所定回数連続して行なわれた場合
に、第1の基準値を”0”に、第2の基準値を”1”に
設定すること特徴とする。
【0029】本発明に係る数字列音声認識装置は、認識
対象の一連の数字列の各一桁の数字の音声信号に対する
認識結果の確度を示す認識スコアを複数の認識候補それ
ぞれに関して算出する認識スコア算出手段と、認識スコ
ア算出手段により算出された第1位の認識スコアを第1
の基準値と比較する第1の判定手段と、第1の判定手段
による判定の結果、第1位の認識スコアが第1の基準値
よりも小である場合は全認識候補をリジェクトする第1
のリジェクト手段と、第1位の認識スコアが第1の基準
値よりも大である場合は認識スコア算出手段により算出
された第1位の認識スコアに対する第2位の認識スコア
の比率を表すスコア比を求めるスコア比算出手段と、ス
コア比算出手段により算出されたスコア比を第2の基準
値と比較する第2の判定手段と、第2の判定手段による
判定の結果、スコア比が第2の基準値よりも大である場
合は全認識候補をリジェクトする第2のリジェクト手段
と、スコア比が第2の基準値よりも小である場合は認識
スコア算出手段により第1位の認識スコアが算出された
認識候補を認識結果として出力する認識結果出力手段と
を備えたことを特徴とする。
【0030】また本発明に係る数字列音声認識装置は、
同一の認識対象に対する第1のリジェクト手段または第
2のリジェクト手段によるリジェクトが行なわれた場合
に、第1の基準値をより小に設定し、第2の基準値をよ
り大に設定して第1の判定手段及び第2の判定手段に再
度判定を行なわせる再判定手段を備えたことを特徴とす
る。
【0031】更に本発明に係る数字列音声認識装置は、
再判定手段が、同一の認識対象に対する第1のリジェク
ト手段または第2のリジェクト手段によるリジェクトが
所定回数連続して行なわれた場合に、第1の基準値を”
0”に、第2の基準値を”1”に設定すべくなしてある
ことを特徴とする。
【0032】また更に本発明に係る数字列音声認識装置
は、音声出力手段と、認識結果出力手段が認識結果を出
力する都度、音声出力手段に所定の合成音声を発声さ
せ、認識対象の一連の数字列の全ての数字に対して認識
結果出力手段が認識結果を出力した場合に音声出力手段
に認識結果の各数字を合成音声にて連続的に発声させる
手段とを更に備えたことを特徴とする。
【0033】更に、本発明のビデオレコーダシステム
は、所定のフォーマットのデータが与えられることによ
り録画予約を行なうべくなしてあるビデオレコーダ本体
と、所定のフォーマットのデータを送信するリモートコ
ントロール装置とで構成されており、リモートコントロ
ール装置として上述のような本発明の数字列音声認識装
置を利用し、ビデオレコーダ本体に与えられるべきデー
タの元となる一連の数字列の各一桁の数字の音声信号を
認識対象としている。
【0034】
【作用】本発明に係る音声認識方法では、認識対象の音
声信号に対する認識結果の確度を示す認識スコアが複数
の認識候補それぞれに関して求められ、求められた認識
スコアの内の第1位の認識スコアを第1の基準値と比較
する第1の判定が行なわれ、この第1の判定の結果、第
1位の認識スコアが第1の基準値よりも小である場合は
全認識候補がリジェクトされ、第1位の認識スコアが第
1の基準値よりも大である場合は第1位の認識スコアに
対する第2位の認識スコアの比率を表すスコア比が求め
られ、求められたスコア比を第2の基準値と比較する第
2の判定が行なわれ、この第2の判定の結果、スコア比
が第2の基準値よりも大である場合は全認識候補がリジ
ェクトされ、スコア比が第2の基準値よりも小である場
合は第1位の認識スコアが求められた認識候補が認識結
果として見做される。
【0035】また本発明に係る音声認識方法では、同一
の認識対象に対する第1の判定または第2の判定の結果
に従ったリジェクトが行なわれた場合に、第1の基準値
がより小に、第2の基準値がより大に設定された上で第
1の判定及び第2の判定が再度行なわれる。
【0036】更に本発明に係る音声認識方法では、同一
の認識対象に対する第1の判定または第2の判定の結果
に従ったリジェクトが所定回数連続して行なわれた場合
に、第1の基準値が”0”に、第2の基準値が”1”に
設定される。
【0037】本発明に係る数字列音声認識装置では、認
識対象の一連の数字列の各一桁の数字の音声信号に対す
る認識結果の確度を示す認識スコアが複数の認識候補そ
れぞれに関して認識スコア算出手段により算出され、認
識スコア算出手段により算出された第1位の認識スコア
が第1の基準値と第1の判定手段により比較され、この
第1の判定手段による判定の結果、第1位の認識スコア
が第1の基準値よりも小である場合は全認識候補が第1
のリジェクト手段によりリジェクトされ、第1位の認識
スコアが第1の基準値よりも大である場合は認識スコア
算出手段により算出された第1位の認識スコアに対する
第2位の認識スコアの比率を表すスコア比がスコア比算
出手段により求められ、スコア比算出手段により算出さ
れたスコア比が第2の基準値と第2の判定手段により比
較され、第2の判定手段による判定の結果、スコア比が
第2の基準値よりも大である場合は全認識候補が第2の
リジェクト手段によりリジェクトされ、スコア比が第2
の基準値よりも小である場合は認識スコア算出手段によ
り第1位の認識スコアが算出された認識候補が認識結果
出力手段により認識結果として出力される。
【0038】また本発明に係る数字列音声認識装置で
は、同一の認識対象に対する第1のリジェクト手段また
は第2のリジェクト手段によるリジェクトが行なわれた
場合に、再判定手段により第1の基準値がより小に、第
2の基準値がより大に設定された上で第1の判定手段及
び第2の判定手段により再度判定が行なわれる。
【0039】更に本発明に係る数字列音声認識装置で
は、同一の認識対象に対する第1のリジェクト手段また
は第2のリジェクト手段によるリジェクトが所定回数連
続して行なわれた場合に、再判定手段により第1の基準
値が”0”に、第2の基準値が”1”に設定される。
【0040】また更に本発明に係る数字列音声認識装置
では、認識結果出力手段が認識結果を出力する都度、音
声出力手段から所定の合成音声が発声され、認識対象の
一連の数字列の全ての数字に対して認識結果出力手段が
認識結果を出力した場合に音声出力手段から認識結果の
各数字が合成音声にて連続的に発声される。
【0041】更に、本発明のビデオレコーダシステムで
は、ビデオレコーダ本体に与えられるべきデータの元と
なる一連の数字列の各一桁の数字の音声信号が認識対象
として上述のような本発明の数字列音声認識装置を利用
したリモートコントロール装置により音声認識される。
【0042】
【実施例】以下、本発明をその実施例を示す図面に基づ
いて詳述する。なお、以下に説明する各実施例では、本
発明の音声認識方法及び数字列音声認識装置をビデオレ
コーダシステムのGコードの入力装置(以下、Gコード
リモコンと言う)に適用した場合について説明する。ま
た、以下の各実施例では装置構成、即ちハードウェアは
共通であるが、各実施例におけるソフトウェア(認識方
法)が異なる。従って、まず最初に本発明に係る音声認
識方法の原理について説明し、次に各実施例に共通であ
るハードウェア構成について説明する。
【0043】図1は本発明に係る音声認識方法の原理を
示す模式図である。図1において、参照符号11はマイク
ロフォンを示しており、話者が発声した音声が入力され
る。マイクロフォン11に入力された音声は音声入力処理
P1により音声信号として取り込まれ、”0(ゼロ,レ
イ, マル)”乃至”9(キュウ,ク)”の認識候補それ
ぞれに対して認識の確度を示す認識スコアが音声認識処
理P2により求められる。この音声認識処理P2により第1
位の認識スコアが求められた認識候補が正当であるか否
かが、第1の基準値と第1位の認識スコアとが比較され
ることにより絶対差によるリジェクトチェック処理P31
においてチェックされる。
【0044】リジェクトチェック処理P31 においては、
第1位の認識スコアが第1の基準値より小さければ、全
ての認識候補がリジェクトされる。リジェクトされなか
った場合は、更に相対比によるリジェクトチェック処理
P32 において、第1位の認識スコアに対する第2位の認
識スコアの比率が求められ、それが第2の基準値と比較
されることにより相対比によるリジェクトチェックが行
なわれる。そして、両リジェクトチェック処理P31, P32
の双方において正当であると認められれば、第1位の認
識スコアの認識候補が認識結果と見做され、認識結果報
知処理P4によりスピーカ15から合成音声にて発声される
ことにより、あるいはLCD 25に文字表示されることによ
り報知される。
【0045】図2は本発明に係る数字列音声認識装置の
一具体的適用例としてのビデオレコーダシステムのGコ
ードリモコンのハードウェア構成例を示すブロック図で
ある。本発明の数字列音声認識装置の内部構成は大きく
は、参照符号10にて示されているDSP(Digital Signal P
rocessor) 部と、参照符号20にて示されているマイクロ
コンピュータ部とに分かれる。なお、参照符号40はこの
Gコードリモコンと共にビデオレコーダシステムを構成
するビデオレコーダ本体であるが、この実施例ではビデ
オテープレコーダ(VTR) が使用されている。
【0046】DSP部10は主として、マイクロフォン11,A/
D変換器12,DSP13,D/A変換器14, スピーカ15, PROM16,
マイクロコンピュータ部20とのI/F(インタフェイス)17,
RAM18, ROM19 等にて構成されている。
【0047】話者が発声した音声はマイクロフォン11か
ら入力し、マイクアンプ11A を介して A/D変換器12によ
りディジタル信号として取り込まれ、 DSP13により処理
される。 DSP13には、PROM16, RAM18, ROM19等の記憶装
置が接続されている。
【0048】ROM19には、スピーカ15から合成音声とし
て出力すべき種々の音声の符号化データ、音声認識のた
めのニューラルネットワークのウェイトデータ等が予め
格納されている。 RAM18には、 DSP13による処理に必要
な種々の変数の値、及び処理途中, 処理結果のデータ等
が一時的に記憶される。PROM16には、 DSP13による処理
に必要なプログラムが格納されている。
【0049】DSP13は、PROM16に格納されているプログ
ラムに従って所定の処理を行ない、必要に応じて ROM19
に格納されている符号化データを読み出して復調し、 D
/A変換器14を介してスピーカアンプ15A へ出力すること
により、スピーカ15から合成音声を発声させる。また、
DSP13は必要に応じてマイクロコンピュータ21との間で
データの送受を行なう。 I/F17はこのために使用され
る。
【0050】マイクロコンピュータ部20は主として、マ
イクロコンピュータ21, 転送ボタン22, Gコードボタン
23, I/F24, LCD25, 送信器26等で構成されている。
【0051】マイクロコンピュータ21には転送ボタン2
2, Gコードボタン23からそれらがオン(プッシュ)さ
れている場合にオン信号が継続的に与えられる。送信器
26は、認識された数字列をGコードとしてデコードした
結果を VTR40へ送信するために使用される。また、 LCD
25は、 I/F24を介してマイクロコンピュータ21により制
御されることにより、認識結果の数字列の表示、あるい
はその他の種々の表示に使用される。
【0052】マイクロコンピュータ21にはROM 及び RAM
が内蔵されており、内蔵ROM にはマイクロコンピュータ
21による処理に必要なプログラム、あるいは任意の数字
列をGコードとしてデコードするためのプログラム (ま
たはテーブル) 等が格納されている。また、内蔵RAM は
マイクロコンピュータ21によるプログラム実行中に種々
のデータを記憶する。
【0053】図3は本発明の数字列音声認識装置として
のGコードリモコンの外観を示す模式図である。図3に
おいて、参照符号30はケーシングであり、上述の図2に
示されている構成要素が格納されている。なお、マイク
ロフォン11, スピーカ15, 転送ボタン22, Gコードボタ
ン23及び LCD25はそれぞれの機能を有効に発揮させるた
めにケーシング30の表面に一部が露出している。
【0054】〔第1の実施例〕上述のような構成の本発
明の数字列音声認識装置としてのGコードリモコンの第
1の実施例の動作、換言すれば本発明の音声認識方法に
ついて、マイクロコンピュータ21による処理手順を分割
して示す図4,図5及び図6のフローチャートを参照し
て説明する。なお、以下これらの図4,図5及び図6に
示されているフローチャートを第1のフローチャートと
言う。
【0055】この図4,図5及び図6に示されている第
1のフローチャートの特徴、即ち本発明の主たる特徴
は、音声入力された数字の認識を従来のような単に第1
位の認識スコアの絶対値のみで行なうのではなく、第1
位の認識スコアと第2位の認識スコアとの比をも考慮し
て行なう点にある。このような特徴により、本発明の第
1の実施例では誤認識の多発を防止している。
【0056】まず、マイクロコンピュータ21は変数j,
kを共にゼロクリアし (ステップS31)、Gコードボタン
23のオン/オフ状態を調べる (ステップS32)。Gコード
ボタン23がオン状態である場合は、マイクロコンピュー
タ21はタイマの計時値”time”をゼロクリアする (ステ
ップS33)。次に、マイクロコンピュータ21は I/F17を介
して DSP13へ音声取り込みコマンドを送信する (ステッ
プS34)。これに応答して、 DSP13ではマイクロフォン11
からの音声入力を受け付ける状態になる。
【0057】DSP13は音声を取り込むとマイクロコンピ
ュータ21に対して I/F17を介して音声取り込み終了応答
を送信する。この DSP13から送信された音声取り込み終
了応答をマイクロコンピュータ21が受信した場合 (ステ
ップS35)、マイクロコンピュータ21は DSP13に対して音
声認識を行なわせるコマンド (認識コマンド) を送信す
る (ステップS36)。但し、 DSP13が音声を取り込むこと
が出来ず、且つGコードボタン23がオンされている状態
である場合は (ステップS61)、ステップS35 とS61 とを
往復するループ処理が反復されて DSP13はマイクロフォ
ン11からの音声入力を待機する状態になる。
【0058】DSP13は、マイクロコンピュータ21から送
信された認識コマンドに応答して、先に取り込んだ音声
の認識を行ない、その結果、即ち認識結果の候補及び各
候補の認識スコアをマイクロコンピュータ21へ送信す
る。マイクロコンピュータ21はDSP13から送信された認
識結果の候補及び各候補の認識スコアを受信する (ステ
ップS37)。なお、この際の DSP13による音声認識の手順
は公知の技術を利用している。
【0059】次に、マイクロコンピュータ21は、リジェ
クト閾値”reject”として”150 ”を、スコア比閾値”
score ”として”0.5 ”をそれぞれセットする (ステッ
プS38)。これらの値は内蔵ROM に格納されているプログ
ラムで固定されていてもよいし、種々の条件に応じて変
更可能になっていてもよい。そして、マイクロコンピュ
ータ21は DSP13から送信されて来た認識スコアの内の第
1位の認識スコアをリジェクト閾値”reject(=150)”と
比較する (ステップS39)。この結果、第1位の認識スコ
アがリジェクト閾値”reject”以上である場合は、マイ
クロコンピュータ21は下記の演算を行なう (ステップS4
0)。なお、本実施例では認識スコアの理論的最小値は”
0”, 最大値は”255 ”である。
【0060】スコア比=第2位の認識スコア/第1位の
認識スコア
【0061】マイクロコンピュータ21はこのステップS4
0 で求めたスコア比と先にステップS38 において”0.5
”に設定したスコア比閾値”score ”とを比較する
(ステップS41)。この結果、スコア比がスコア比閾値”s
core ”以上である場合は、マイクロコンピュータ21は
第1位の認識スコアが得られた認識候補を認識結果とし
て内蔵RAM に格納すると共に、 DSP13へ応答音声出力コ
マンドを送信する (ステップS42)。この応答音声出力コ
マンドに応答して DSP13は認識結果の数字を合成音声に
てスピーカ15から出力すると共に、マイクロコンピュー
タ21に対して終了応答を出力する。
【0062】マイクロコンピュータ21は、 DSP13から終
了応答を受信すると (ステップS43)、変数jを”1”イ
ンクリメントし (ステップS44)、転送フラグに”0”を
セットする (ステップS45)。
【0063】以上で一つの数字が音声認識されたことに
なり、ステップS32 へ処理が戻される。なお、変数jは
上述のステップS32 からステップS45 までのループ処理
が一回実行される都度、”1”ずつインクリメントされ
る。従って、変数jの値はその時点で既に認識済みの字
数を表している。
【0064】ところで、ステップS39 において第1位の
認識スコアがリジェクト閾値”reject”未満であった場
合、換言すれば第1位の認識スコアの値が150 未満であ
った場合、及びステップS41 においてスコア比がスコア
比閾値”score ”以下であった場合には、マイクロコン
ピュータ21は正当な認識結果が得られなかった、即ちリ
ジェクトが行なわれたことを示すリジェクト音を出力さ
せるコマンドを DSP13へ送信する (ステップS46)。これ
に応答して DSP13はたとえば「ブッ」というようなリジ
ェクト音をスピーカ15から出力すると共に、マイクロコ
ンピュータ21に対して終了応答を出力する。この DSP13
から出力される終了応答を受信すると (ステップS47)、
マイクロコンピュータ21はステップS32 へ処理を戻す。
【0065】前述のステップS35 とステップS61 とが反
復されるループ処理において、音声が DSP13に取り込ま
れない状態でGコードボタン23がオフされていることを
マイクロコンピュータ21が検出した場合、マイクロコン
ピュータ21は DSP13に対して音声取り込み強制終了コマ
ンドを送信する (ステップS62)。これに応答して DSP13
は終了応答信号を送信するので、それを受信することに
よりマイクロコンピュータ21はそれまでに認識されてい
る字数を表す変数jの値を変数kにコピーして保存する
(ステップS64)。この後、マイクロコンピュータ21は変
数jをゼロクリアし (ステップS65)、ステップS32 へ処
理を戻す。
【0066】上述の状態は、任意桁数の数字列が入力さ
れた後にユーザがそれ以上の入力を停止した状態、換言
すればユーザによる所望の数字列の入力が終了したか、
あるいはユーザが何らかの理由で数字の入力を中止した
状態である。この場合には、ステップS32 へ処理が戻さ
れるが、その時点でGコードボタン23がオフ状態である
場合はステップS71 へ処理が進められる。このステップ
S71 では、マイクロコンピュータ21は転送ボタン22のオ
ン/オフの状態を調べる。転送ボタン22がオンされてい
ない場合は、先にステップS33 でゼロクリアされたタイ
マの計時値”time”が所定の制限時間に達しているか否
かが調べられる (ステップS78)。
【0067】タイマの計時値”time”が制限時間に達す
るまではステップS78 からステップS32 へ処理が戻さ
れ、更にステップS71, S78を経由するループ処理が反復
される。従って、Gコードボタン23及び転送ボタン22の
双方がオフ状態である場合は、マイクロコンピュータ21
はそれらの内のいずれかがオン状態になるのを待つ状態
になる。但し、いずれもがオフ状態のままでタイマの計
時値”time”が制限時間に達した場合はマイクロコンピ
ュータ21は上述のループ処理を終了するので、それまで
に認識済みの数字列は無効になる。しかし、それ以前に
Gコードボタン23がオンされれば、マイクロコンピュー
タ21はステップS32 でそれを検出してステップS33 へ処
理を進めるので、数字列の入力が新たに可能な状態にな
る。一方、転送ボタン22がオンされれば、マイクロコン
ピュータ21はステップS71 でそれを検出してGコードを
VTR40へ送信するための処理を行なう。
【0068】この場合、まずマイクロコンピュータ21は
タイマの計時値”time”をゼロクリアし (ステップS7
2)、変数kの値が”0”であるか否かを調べる (ステッ
プS73)。変数kは前述したように、それまでに認識済み
の数字の個数を表す。従って、変数kの値が”0”であ
る場合は数字列の認識は行なわれていないので、マイク
ロコンピュータ21はステップS32 へ処理を戻す。変数k
の値が”0”でなければ、次にマイクロコンピュータ21
は転送フラグの値を調べる (ステップS74)。
【0069】転送フラグは、その値が”0”である場合
はその時点で認識済みの数字列の転送が未だ行なわれて
いないことを、”1”である場合はその時点で認識済み
の数字列の転送が既に行なわれたことをそれぞれ示して
いる。従って、マイクロコンピュータ21は、転送フラグ
の値が”0”でなければステップS32 へ処理を戻し、”
0”である場合は既に認識されている数字列をGコード
としてデコードする (ステップS75)。このデコード結果
は送信器26により VTR40へ送信される (ステップS76)。
この後、転送フラグが”1”にセットされ (ステップS7
7)、ステップS32 へ処理が戻される。
【0070】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第1の実施例では、音声
入力された数字の認識を従来のような単に第1位の認識
スコアの絶対値のみで行なうのではなく、第1位の認識
スコアと第2位の認識スコアとの比をも考慮して行なう
ことにより、誤認識の多発を防止する点を特徴としてい
る。以下に具体的に説明する。
【0071】上述の図4,図5及び図6に示されている
第1のフローチャートでは、ステップS38 においてまず
リジェクト閾値”reject”が150 に、スコア比閾値”sc
ore”が0.5 に設定された上で、ステップS39 において
第1位の認識スコアがリジェクト閾値”reject”と比較
されている。この処理は従来の音声認識装置においては
一般的に採用されている認識手法である。しかし、たと
えば話者が「ニ」と発声した場合に図7のグラフに示さ
れているような認識スコアの分布が得られたとする。
【0072】ここでは、認識結果「サン」の認識スコア
が” 183”であって第1位に、「ニ」の認識スコアが”
140”であって第2位になっている。従来であれば、第
1位の認識結果「サン」の認識スコア” 183”がリジェ
クト閾値”reject (この場合は150)”よりも大であるた
め、直ちに「サン」が認識結果と見做され、結果的には
誤認識になる。しかし、本発明の第1の実施例では、第
1のフローチャートのステップS40 において第1位の認
識スコアと第2位の認識スコアとの比が求められ、ステ
ップS41 においてスコア比閾値”score(この場合は0.
5)”と比較される。この場合、第1位の認識結果である
「サン」の認識スコア” 183”と第2位の認識結果であ
る「ニ」の認識スコア” 140”との比は約0.765 であっ
てスコア比閾値”score ”以上であるため、認識結果は
リジェクトされる。換言すれば、少なくとも第1位の認
識スコアと第2位の認識スコアとの間に有意な差がない
ような曖昧な認識結果が得られた場合には、たとえ第1
位の認識スコアがリジェクト閾値”reject”以上であっ
ても認識結果をリジェクトすることにより、誤認識の多
発が防止される。
【0073】本発明の数字列音声認識装置としてのGコ
ードリモコンの第1の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンを実際に使用する場合の手
順を説明する。
【0074】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S31, S32, S71, S78の順に処理が進み、以降はステップ
S32 へ戻ってステップS71, S78, S32 の順にループ処理
が反復される。
【0075】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
【0076】このように、マイクロコンピュータ21がス
テップS32 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について一つずつ取り込ま
れる。そして、取り込まれた各数字はリジェクト閾値”
reject”=150,スコア比閾値”score ”=0.5 の各基準
値で音声認識され、更に認識結果の合成音声によるスピ
ーカ15からの発声が行なわれる。
【0077】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められてステップS32
へ処理が戻される。従ってこの場合には、ユーザがGコ
ードボタン23をオンし続けている限りは、リジェクトさ
れた数字の再入力が可能である。
【0078】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。この場
合、ユーザが合成音声による応答を確認した上でGコー
ドボタン23をオフする反応時間よりも早くマイクロコン
ピュータ21による処理はステップS32 を経てステップS3
5 まで進むので、マイクロコンピュータ21はユーザがG
コードボタン23をオフしたことをステップS35 とステッ
プS61 とを反復するループ処理中のステップS61 におい
て検出する。これにより、マイクロコンピュータ21はス
テップS62 からステップS65 の各ステップの処理を行な
って DSP13に音声の取り込みを終了させ、その後にステ
ップS32 からステップS71 へ処理を進める。
【0079】ステップS71 では転送ボタン22のオン/オ
フが調べられ、オフである場合はステップS78 では所定
時間が経過したか否かが調べられる。更に、ステップS7
8 で所定時間が経過していないと判断された場合にはス
テップS32 へ処理が戻され、以降はステップS71, S78を
順次経由してステップS32 へ戻るループ処理が反復され
る。従って、最後の数字が認識された時点から所定時間
が経過するまでの間にユーザが転送ボタン22をオンすれ
ば、マイクロコンピュータ21はそれを上述のループ処理
中のステップS71 において検出する。この場合には、マ
イクロコンピュータ21は以降はステップS72 からステッ
プS77 までの各ステップの処理を行なうことにより、先
に認識された数字列をGコードとしてデコードして VTR
40へ送信する。
【0080】Gコードボタン23も転送ボタン22も共にオ
ンされない内に所定時間が経過した場合にはステップS7
8 においてそれが検出されるので、マイクロコンピュー
タ21による処理は終了する。この場合は、既に認識済み
のGコードは無効になるが、再度Gコードボタン23をオ
ンすることによりユーザは新たなGコードを入力するこ
とが可能になる。
【0081】なお、Gコードの入力途中で誤入力、ある
いは誤認識にユーザが気付いた場合には、Gコードボタ
ン23をオフすればよい。この場合、マイクロコンピュー
タ21はGコードボタン23がオフされたことをステップS6
1 で検出するので、以降は前述同様にステップS32 へ処
理が戻され、ステップS71, S72からステップS32 へ戻る
ループ処理が反復される。そして、ユーザが再度Gコー
ドボタン23をオンしてその状態を維持すれば、上述のル
ープ処理のステップS32 からステップS33 へ処理が進ん
で新たにGコードの入力が可能な状態になる。
【0082】なお上記第1の実施例では、リジェクト閾
値”reject”を”150 ”に、スコア比閾値”score ”
を”0.5 ”にそれぞれ設定して音声認識を行なっている
が、他の適当な数値を採用してもよいことは言うまでも
ない。
【0083】〔第2の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第2の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図8,図9
及び図10のフローチャートを参照して説明する。なお、
以下これらの図8,図9及び図10に示されているフロー
チャートを第2のフローチャートと言う。また、図8,
図9及び図10に示されている第2のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
【0084】図8,図9及び図10に示されている第2の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS31 に代
えてステップS131が、ステップS38 に代えてステップS1
38が、ステップS44 に代えてステップS144が、ステップ
S65 に代えてステップS165がそれぞれ実行され、更に図
4,図5及び図6に示されている第1のフローチャート
のステップS47 の次にステップS48 が追加して実行され
る。
【0085】この図8,図9及び図10に示されている第
2のフローチャートの特徴、即ち第2の実施例の特徴
は、音声入力された数字の認識結果がリジェクトされた
場合にその再入力に際してはリジェクト閾値”reject”
及びスコア比閾値”score ”が緩和されるという点にあ
る。換言すれば、本第2の実施例では、一旦リジェクト
された後の再入力に際しては前回よりもリジェクトされ
る可能性が低くなるため、リジェクトの多発が防止され
る点にある。
【0086】上述のような本第2の実施例の特徴は、第
1の実施例におけるステップS38 に代えて実行されるス
テップS138の処理により主として実現される。即ち、マ
イクロコンピュータ21はリジェクトが連続した回数を示
す変数iを他の変数j及びkと共にまずステップS131に
おいてゼロクリアした上でステップS32 以降の処理を開
始してステップS32, S71, S78 の順のループ処理に入
る。そして、ある一つの数字の音声を取り込んだ後のス
テップS138での認識処理に際して、一回目は変数iが”
0”であるので前述の第1の実施例のステップS38 での
処理と同様に、リジェクト閾値”reject”=150 に、ま
たスコア比閾値”score ”=0.5 にそれぞれ設定された
上でステップS39, S40, S41 においてリジェクトするか
否かの判断が行なわれる。
【0087】この一回目の認識処理でリジェクトされな
かった場合はステップS44 に代えてステップS144におい
て変数jが”1”インクリメントされると共にリジェク
トが連続した回数を表す変数iはゼロクリアされる。し
かし、リジェクトされた場合はステップS47 の次のステ
ップS48 において変数iが”1”インクリメントされ
る。
【0088】このように、一回目の認識処理においてリ
ジェクトされた場合は変数iが”1”インクリメントさ
れて”0”から”1”になるため、次のステップS138で
リジェクト閾値”reject”=100 に、またスコア比閾
値”score ”=0.8 にそれぞれ設定された上でステップ
S39, S40, S41 においてリジェクトするか否かの判断が
行なわれる。従って、一回リジェクトされた後の二回目
の認識処理に際しては、一回目の認識処理に比してより
リジェクトの可能性が小さい状態でリジェクトするか否
かの判断が行なわれることになる。
【0089】更に、二回連続してリジェクトされた場合
にはステップS48 において変数iが更に”1”インクリ
メントされて”2”になるため、ステップS138において
リジェクト閾値”reject”=0 に、またスコア比閾値”
score ”=1.0 にそれぞれ設定された上でステップS39,
S40, S41 においてリジェクトするか否かの判断が行な
われる。従ってこの二回連続してリジェクトされた後の
三回目の認識処理に際しては、リジェクトの可能性が全
くない状態でリジェクトするか否かの判断が行なわれる
ことになる。換言すれば、二回連続してリジェクトされ
た後には、第1位の認識スコアの認識候補が無条件で認
識結果として決定される。
【0090】なお、ユーザが数字列の音声入力を終了し
た場合、あるいは途中で中止した場合には、第1のフロ
ーチャートに示されているステップS65 に代えてステッ
プS165において変数iは変数jと共にゼロクリアされた
後、ステップS32 へ処理が戻される。
【0091】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
【0092】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第2の実施例では、音声
入力された数字の認識を第1の実施例のような固定され
たリジェクト閾値”reject”及びスコア比閾値”score
”で行なうのではなく、リジェクトされた後の再入力
に際してはリジェクト閾値”reject”, スコア比閾値”
score ”共に緩和して行なう点を特徴としている。この
ような特徴により、本発明の第2の実施例では、前述の
第1の実施例での誤認識の多発の防止に加えて、リジェ
クトの多発を防止している。以下に具体的に説明する。
【0093】上述の図8,図9及び図10に示されている
第2のフローチャートでは、 DSP13により取り込まれた
ある音声の認識に際して、一回目はステップS138におい
て第1の実施例と同様にリジェクト閾値”reject”が15
0 に、スコア比閾値”score”が0.5 にそれぞれ設定さ
れた上で、ステップS39 において第1位の認識スコアが
リジェクト閾値”reject”と比較されている。ここで、
たとえば図11のグラフに示されているような認識スコア
の分布が得られたとする。
【0094】ここでは、認識結果「ニ」の認識スコア
が” 145”であって第1位に、「サン」の認識スコア
が”90”であって第2位になっている。この場合、第1
位の認識結果「ニ」の認識スコア” 145”がリジェクト
閾値”reject (この場合は150)”よりも小であるため、
リジェクトされる。しかし、本発明の第2の実施例で
は、ユーザがGコードボタン23をオフしなければ再度入
力が受け付けられると共に、ステップS138において今回
はリジェクト閾値”reject”が100 に、スコア比閾値”
score ”が0.8 にそれぞれ再設定された上で、ステップ
S39 において第1位の認識スコアが再度リジェクト閾
値”reject (この場合は100)”と比較される。
【0095】この場合、第1位の認識結果である「ニ」
の認識スコア” 145”はリジェクト閾値”reject”より
も大であるため、ステップS41 においてスコア比閾値”
score(この場合は0.8)”と比較される。この場合、第1
位の認識結果である「ニ」の認識スコア” 145”と第2
位の認識結果である「サン」の認識スコア”90”との比
は約0.621 であってスコア比閾値”score ”よりも小で
あるため、「ニ」が認識結果として決定される。換言す
れば、一度リジェクトされた後の二度目の認識処理に際
しては、リジェクト閾値”reject”, スコア比閾値”sc
ore ”共に緩和されるので、リジェクトされる可能性が
低下する。更に、二度目の認識処理に際してもリジェク
トされた場合には、リジェクト閾値”reject”が”0”
に、スコア比閾値”score ”が”1”にそれぞれ設定さ
れるので、実質的にはリジェクトは行なわれず、認識ス
コアが第1位の候補が必ずそのまま認識結果として決定
される。
【0096】本発明の数字列音声認識装置としてのGコ
ードリモコンの第2の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第2の実施例を実際に使
用する場合の手順を説明する。
【0097】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S131, S32, S71, S78 の順に処理が進み、以降はステッ
プS32 へ戻ってステップS71, S78, S32 の順にループ処
理が反復される。
【0098】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
【0099】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に認識結果
の合成音声によるスピーカ15からの発声が行なわれる。
【0100】なお、個々の数字の入力処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声され、ステップS48 におい
て変数iが”1”インクリメントされた上でステップS3
2 へ処理が戻される。従ってこの場合にユーザがGコー
ドボタン23をオンし続けていれば、変数iが”1”にな
ることによりリジェクト閾値”reject”=100,スコア比
閾値”score ”=0.8 となり、一回目よりもリジェクト
の基準値が低い状態での再認識が可能になる。しかし、
二回連続してリジェクトされた場合には、変数iが”
2”になることによりリジェクト閾値”reject”=0,ス
コア比閾値”score ”=1.0 となり、第1位の認識スコ
アの認識候補が無条件で認識結果として決定される。こ
のため、リジェクトが反復される可能性が低下し、最大
でも連続二回のリジェクト後の三回目の入力音声が認識
される。
【0101】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフし、転送ボタン
22をオンする。これ以降の操作は前述の第1の実施例と
同様である。
【0102】なお上記第2の実施例では、リジェクトが
行なわれる都度、リジェクト閾値”reject”を”150
”, ”100 ”, ”0”に、スコア比閾値”score ”
を”0.5 ”, ”0.8 ”, ”1”に、共に3段階に順次的
に変更しているが、2段階に変更しても、あるいは4段
階以上に変更してもよく、更に上記以外の数値を採用し
てもよいことは言うまでもない。
【0103】〔第3の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第3の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図12,図13
及び図14のフローチャートを参照して説明する。なお、
以下これらの図12,図13及び図14に示されているフロー
チャートを第3のフローチャートと言う。また、図12,
図13及び図14に示されている第3のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
【0104】図12,図13及び図14に示されている第3の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS42 に代
えてステップS142が、ステップS65 に代えてステップS2
65乃至ステップS270がそれぞれ実行される。
【0105】この図12,図13及び図14に示されている第
2のフローチャートの特徴、即ち第3の実施例の特徴
は、音声入力された各数字の認識結果をその都度ユーザ
が確認することは出来ないが、数字列の入力が終了した
時点で全体を確認することが出来るように構成して各数
字の入力間隔を短縮可能にした点にある。
【0106】上述のような本第3の実施例の特徴はステ
ップS265乃至ステップS270の処理により主として実現さ
れる。即ち、ある一つの数字の音声の取り込み処理に際
して認識結果がリジェクトされなかった場合は、ステッ
プS142での処理によりマイクロコンピュータ21は DSP13
に対して認識済みの確認音、たとえば「ピッ」というよ
うな音を出力させるコマンドを送信することにより、ユ
ーザに対しては単に一つの数字の入力及び認識が行なわ
れたことのみを知らせる。
【0107】Gコードの音声入力が終了した場合、ある
いは途中で中止された場合には、第1のフローチャート
に示されているステップS65 に代えてステップS265乃至
ステップS270の処理により、認識済みの数字列が一括し
て合成音声にてスピーカ15から発声される。即ち、まず
マイクロコンピュータ21は変数kの値、即ち認識された
数字の個数が1以上であるか否かを、換言すれば一つで
も数字が認識されているか否かを判定する (ステップS2
65) 。
【0108】数字が全く認識されていなかったとステッ
プS265において判定された場合には、マイクロコンピュ
ータ21はステップS32 へ処理を戻して待機状態になる。
ステップS265において数字が一つでも認識されていた場
合には、マイクロコンピュータ21は”k−j”番目に認
識された音声の認識結果に対応する合成音声をスピーカ
15から発声させるためのコマンドを DSP13へ送信する
(ステップS266) 。
【0109】これに応答して DSP13は合成音声をスピー
カ15から発声させると共にその終了を示す終了応答信号
を送信する。マイクロコンピュータ21は、この DSP13か
ら送信された終了応答信号を受信すると (ステップS26
7) 、変数jを”1”デクリメントし (ステップS268)
、更にその結果が”0”よりも小さくなっているか否
かを判定する (ステップS269) 。変数jが”0”になる
までの間はステップS269からステップS266へ処理が戻さ
れるので、マイクロコンピュータ21はステップS266乃至
ステップS269のループ処理を反復する。
【0110】ところで、ステップS61 からステップS62
へ処理が進められた時点では変数jは認識済みの数字の
個数を表している。また、ステップS64 において”k=
j”とされているので、この時点では変数kも認識済み
の数字の個数を表している。そして、上述のループ処理
の一回目のステップS266での処理においては、”k=
j”であるため第”0”番目、換言すれば変数jが”
0”であった時点で認識された数字を合成音声で発声さ
せるコマンドがマイクロコンピュータ21から DSP13へ送
信される。この後、上述のステップS266乃至ステップS2
69のループ処理が反復される都度、ステップS268におい
て変数jが”1”ずつデクリメントされるため、ステッ
プS266においては変数jが”1”, ”2”…であった時
点それぞれにおいて認識された数字が合成音声でスピー
カ15から発声されることになる。
【0111】やがて、変数jが”0”よりも小さくなる
とループ処理から脱出し、マイクロコンピュータ21は変
数j及びiを共にゼロクリアし (ステップS270) 、ステ
ップS32 へ処理を戻す。以上の処理により、認識済みの
数字列の各数字が合成音声でスピーカ15から順次的且つ
連続的に発声される。
【0112】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
【0113】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第3の実施例では、音声
入力された数字の認識結果の確認を第1及び第2の実施
例のようにその都度ユーザに求めるのではなく、全ての
数字が入力された後に一括して合成音声で発声すること
により求めるようにしている。このような特徴により、
本発明の第3の実施例では、前述の第1及び第2の実施
例に比して迅速な入力が可能になる。以下に具体的に説
明する。
【0114】いまたとえば前述の従来例の場合と同様
に、ユーザが数字列”5492”を音声入力する場合につい
て、それに対する本発明の音声認識装置としてのGコー
ドリモコンの第3の実施例の応答の状態を示す図15の模
式図を参照して説明する。
【0115】上述の図12,図13及び図14に示されている
第3のフローチャートでは、 DSP13により取り込まれた
ある音声を認識した場合、ステップS142において認識を
したことの確認のみを知らせるたとえば「ピッ」という
ような短い確認音をスピーカ15から発声する。即ち、図
15に示されているように、ユーザがまず「ゴ」と発声す
るとスピーカ15から「ピッ」と音がし、次にユーザが
「ヨン」と発声するとスピーカ15から「ピッ」と音が
し、次にユーザが「キュウ」と発声するとスピーカ15か
ら「ピッ」と音がし、最後にユーザが「ニ」と発声する
とスピーカ15から「ピッ」と音がする。そして、ユーザ
がGコードボタン23をオフするとスピーカ15から「ゴ・
ヨン・キュウ・ニ」と連続的に認識結果が発声される。
【0116】本発明の数字列音声認識装置としてのGコ
ードリモコンの第3の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第3の実施例を実際に使
用する場合の手順を説明する。
【0117】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S31, S32, S71, S78の順に処理が進み、以降はステップ
S32 へ戻ってステップS71, S78, S32 の順にループ処理
が反復される。
【0118】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識を行なう。
【0119】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に一つの数
字が認識される都度、スピーカ15から「ピッ」というよ
うな確認音が発声される。
【0120】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声される。
【0121】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。すると、
スピーカ15からは認識済みのGコードの数字列が順次的
に合成音声で発声されるので、ユーザは自身の望み通り
の数字列が入力されているか否かを確認した上で転送ボ
タン22をオンすればよい。これ以降の操作は前述の第1
の実施例と同様である。なお、ユーザの望み通りにGコ
ードが入力されていない場合には、再度Gコードボタン
23をオンすれば、ユーザはGコードの再入力を新たに行
なうことが可能になる。
【0122】なお上記第3の実施例では、リジェクト閾
値”reject”を”150 ”に、スコア比閾値”score ”
を”0.5 ”にそれぞれ設定して音声認識を行なっている
が、前述の第1の実施例と同様に他の適当な数値を採用
してもよいことは言うまでもない。
【0123】〔第4の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第4の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図16,図17
及び図18のフローチャートを参照して説明する。なお、
以下これらの図16,図17及び図18に示されているフロー
チャートを第4のフローチャートと言う。また、図16,
図17及び図18に示されている第4のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャート、第2の実施例の処理手順を示す第2
のフローチャート、第3の実施例の処理手順を示す第3
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
【0124】図16,図17及び図18に示されている第4の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS31 に代
えてステップS131が、ステップS38 に代えてステップS1
38が、ステップS44 に代えてステップS144が、ステップ
S65 に代えてステップS265乃至ステップS270がそれぞれ
実行され、更に図4,図5及び図6に示されている第1
のフローチャートのステップS47 の次にステップS48 が
追加して実行される。
【0125】この図16,図17及び図18に示されている第
4のフローチャートの特徴、即ち第4の実施例の特徴
は、端的には前述の第2の実施例の特徴と第3の実施例
の特徴とを併せた特徴である。即ち、第2の実施例の特
徴である音声入力された数字の認識結果がリジェクトさ
れた場合の再認識に際してはリジェクト閾値”reject”
及びスコア比閾値”score ”が緩和されるという点、換
言すれば、一旦リジェクトされた後の再認識に際しては
前回よりもリジェクトされる可能性が低くなるという点
と、第3の実施例の特徴である音声入力された各数字の
認識結果を数字列の入力が終了した時点で一括して全体
を確認することが出来るように構成した点とにある。
【0126】上述のような本第4の実施例の特徴はステ
ップS138の処理、及びステップS156乃至ステップS270の
処理により主として実現される。即ち、マイクロコンピ
ュータ21はリジェクトが連続した回数を示す変数iを他
の変数j及びkと共にまずステップS131においてゼロク
リアした上でステップS32 以降の処理を開始してステッ
プS32, S71, S78 の順のループ処理に入る。そして、あ
る一つの数字の音声を取り込んだ後のステップS138での
認識処理に際して、一回目は変数iが”0”であるので
前述の第1の実施例のステップS38 での処理と同様に、
リジェクト閾値”reject”=150 に、またスコア比閾
値”score ”=0.5 にそれぞれ設定された上でステップ
S39, S40, S41 においてリジェクトするか否かの判断が
行なわれる。
【0127】この一回目の処理でリジェクトされなかっ
た場合は第1のフローチャートのステップS44 に代えて
ステップS144において変数jが”1”インクリメントさ
れると共にリジェクトが連続した回数を表す変数iはゼ
ロクリアされる。しかし、リジェクトされた場合はステ
ップS47 の次のステップS48 において変数iが”1”イ
ンクリメントされる。
【0128】このように、一回目の認識処理においてリ
ジェクトされた場合は変数iが”1”インクリメントさ
れて”1”になるため、次のステップS138でリジェクト
閾値”reject”=100 に、またスコア比閾値”score ”
=0.8 にそれぞれ設定された上でステップS39, S40, S4
1 においてリジェクトするか否かの判断が行なわれる。
従って、一回リジェクトされた後の二回目の認識処理に
際しては、一回目の認識処理に比してよりリジェクトの
可能性が小さい状態でリジェクトするか否かの判断が行
なわれることになる。
【0129】更に、二回連続してリジェクトされた場合
にはステップS48 において変数iが更に”1”インクリ
メントされて”2”になるため、ステップS138において
リジェクト閾値”reject”=0 に、またスコア比閾値”
score ”=1.0 にそれぞれ設定された上でステップS39,
S40, S41 においてリジェクトするか否かの判断が行な
われる。従ってこの二回連続してリジェクトされた後の
三回目の認識処理に際しては、リジェクトの可能性が全
くない状態でリジェクトするか否かの判断が行なわれる
ことになる。換言すれば、二回連続してリジェクトされ
た後には、第1位の認識スコアの認識候補が無条件で認
識結果として決定される。
【0130】Gコードの音声入力が終了した場合、ある
いは途中で中止された場合には、第2のフローチャート
に示されているステップS65 に代えてステップS265乃至
ステップS270の処理により、認識済みの数字列が一括し
て合成音声にてスピーカ15から発声される。即ち、まず
マイクロコンピュータ21は変数kの値、即ち認識された
数字の個数が1以上であるか否かを、換言すれば一つで
も数字が認識されているか否かを判定する (ステップS2
65) 。
【0131】数字が全く認識されていなかったとステッ
プS265において判定された場合には、マイクロコンピュ
ータ21はステップS32 へ処理を戻して待機状態になる。
ステップS265において数字が一つでも認識されていた場
合には、マイクロコンピュータ21は”k−j”番目に認
識された音声の認識結果に対応する合成音声を発声させ
るためのコマンドを DSP13へ送信する (ステップS266)
【0132】これに応答して DSP13は合成音声をスピー
カ15から発声させると共にその終了を示す終了応答信号
を送信する。マイクロコンピュータ21は、この DSP13か
ら送信される終了応答信号を受信すると (ステップS26
7) 、変数jを”1”デクリメントし (ステップS268)
、更にその結果が”0”よりも小さくなっているか否
かを判定する (ステップS269) 。変数jが”0”になる
までの間はステップS269からステップS266へ処理が戻さ
れるので、マイクロコンピュータ21はステップS266乃至
ステップS269のループ処理を反復する。
【0133】ところで、ステップS61 からステップS62
へ処理が進められた時点では変数jは認識済みの数字の
個数を表している。また、ステップS64 において”k=
j”とされているので、この時点では変数kも認識済み
の数字の個数を表している。そして、上述のステップS2
66乃至ステップS269のループ処理の一回目のステップS2
66での処理においては、”k=j”であるため第”0”
番目、換言すれば変数jが”0”であった時点で認識さ
れた数字を合成音声で発声させるコマンドがマイクロコ
ンピュータ21から DSP13へ送信される。この後、上述の
ループ処理が反復される都度、ステップS268において変
数jが”1”ずつデクリメントされるため、ステップS2
66においては変数jが”1”, ”2”…であった時点そ
れぞれにおいて認識された数字が合成音声でスピーカ15
から発声されることになる。
【0134】やがて、変数jが”0”よりも小さくなる
とループ処理から脱出し、マイクロコンピュータ21は変
数j及びiを共にゼロクリアし (ステップS270) 、ステ
ップS32 へ処理を戻す。以上の処理により、認識済みの
数字列の各数字が合成音声でスピーカ15から順次的に発
声される。
【0135】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
【0136】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第4の実施例では、第2
の実施例の特徴と第3の実施例の特徴とを併せ持ってい
る。従って、誤認識の多発が防止されると共にリジェク
トの多発も防止され、更に音声入力の円滑化が図られ
る。
【0137】本発明の数字列音声認識装置としてのGコ
ードリモコンの第4の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第4の実施例を実際に使
用する場合の手順を説明する。
【0138】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S131, S32, S71, S78 の順に処理が進み、以降はステッ
プS32 へ戻ってステップS71, S78, S32 の順にループ処
理が反復される。
【0139】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
【0140】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に認識結果
の合成音声によるスピーカ15からの発声が行なわれる。
【0141】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声され、ステップS48 におい
て変数iが”1”インクリメントされた上でステップS3
2 へ処理が戻される。従ってこの場合にユーザがGコー
ドボタン23をオンし続けていれば、変数iが”1”にな
ることによりリジェクト閾値”reject”=100,スコア比
閾値”score ”=0.8 となり、一回目よりもリジェクト
の基準値が低い状態での再認識が可能になる。しかし、
二回連続してリジェクトされた場合には、変数iが”
2”になることによりリジェクト閾値”reject”=0,ス
コア比閾値”score ”=1.0 となり、第1位の認識スコ
アの認識候補が無条件で認識結果として決定される。こ
のため、リジェクトが反復される可能性が低下し、最大
でも連続二回のリジェクト後の三回目の入力音声が認識
される。
【0142】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。すると、
スピーカ15からは認識済みのGコードの数字列が順次的
且つ連続的に合成音声で発声されるので、ユーザは自身
の望み通りの数字列が入力されているか否かを確認した
上で転送ボタン22をオンすればよい。これ以降の操作は
前述の第1の実施例と同様である。なお、ユーザの望み
通りにGコードが入力されていない場合には、再度Gコ
ードボタン23をオンすれば、ユーザはGコードの再入力
を新たに行なうことが可能になる。
【0143】なお上記第4の実施例では、リジェクトが
行なわれる都度、リジェクト閾値”reject”を”150
”, ”100 ”, ”0”に、スコア比閾値”score ”
を”0.5 ”, ”0.8 ”, ”1”に、共に3段階に順次的
に変更しているが、前述の第2の実施例と同様に2段階
に変更しても、あるいは4段階以上に変更してもよく、
更に上記以外の数値を採用してもよいことは言うまでも
ない。
【0144】また上記各実施例では本発明の音声認識方
法及び数字列音声認識装置をGコードの音声入力のため
のGコードリモコンに適用しているが、これに限るもの
ではなく、他にたとえば電話番号の音声入力のための装
置等のような、複数桁の数字で構成される数字列を入力
するための種々の装置に適用可能であることは言うまで
もない。
【0145】
【発明の効果】以上に詳述したように本発明に係る音声
認識方法及び数字列音声認識装置によれば、従来一般的
に行なわれている第1位の認識スコアを有する認識候補
をそのまま認識結果とする手法、あるいは第1位の認識
スコアが基準値以上である場合はその認識候補を認識結
果とするのではなく、更に加えて第1位の認識スコアに
対する第2位の認識スコアの比率が基準値以下である場
合に、換言すればそれらの間に充分に有意な差がある場
合に第1位の認識スコアを有する認識候補を認識結果と
する。これにより、二つあるいはそれ以上の認識候補の
認識スコア間に有意な差がないような曖昧な場合にリジ
ェクトされるので、誤認識の可能性が低下する。
【0146】また本発明に係る音声認識方法及び数字列
音声認識装置によれば、一旦リジェクトが発生した後の
再認識に際しては、リジェクトの基準が緩和されるた
め、リジェクトが多発することがなく、ユーザにとって
は同じ発声を何度も繰り返さなければならないという煩
わしさから解放される。
【0147】更に本発明に係る数字列音声認識装置によ
れば、一つの数字をユーザが発声する都度、単にその認
識が行なわれたことのみを示す応答音声が発せられ、ユ
ーザが全ての数字を入力し終えた時点でそれまでに認識
済みの数字の全てが順次的且つ連続的に合成音声として
発せられる。これにより、ユーザはマイペースで数字を
順次的に発声すれば、装置側でそれらを順次的に認識す
ることが出来るので、たとえば特に自動車電話機等に適
用した場合の安全性が確保される。
【0148】また更に本発明に係るビデオレコーダシス
テムによれば、上述のような数字列音声認識装置をリモ
ートコントロール装置として利用することにより、音声
入力によりビデオレコーダ本体の予約録画が可能になる
ので、機械操作が苦手な人達にも容易に操作可能にな
る。
【図面の簡単な説明】
【図1】本発明に係る音声認識方法の原理を示す模式図
である。
【図2】本発明に係る数字列音声認識装置としてのGコ
ードリモコンのハードウェアの構成例を示すブロック図
である。
【図3】本発明の数字列音声認識装置としてのGコード
リモコンの外観を示す模式図である。
【図4】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
【図5】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
【図6】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
【図7】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作状態を説明するための、
話者が「ニ」と発声した場合の認識スコアの分布を示す
グラフである。
【図8】本発明の数字列音声認識装置としてのGコード
リモコンの第2の実施例の動作手順を示すフローチャー
トである。
【図9】本発明の数字列音声認識装置としてのGコード
リモコンの第2の実施例の動作手順を示すフローチャー
トである。
【図10】本発明の数字列音声認識装置としてのGコー
ドリモコンの第2の実施例の動作手順を示すフローチャ
ートである。
【図11】本発明の数字列音声認識装置としてのGコー
ドリモコンの第2の実施例の動作状態を説明するための
認識スコアの分布を示すグラフである。
【図12】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
【図13】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
【図14】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
【図15】本発明の音声認識装置としてのGコードリモ
コンの第3の実施例の音声入力に対する応答の状態を示
す模式図である。
【図16】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
【図17】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
【図18】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
【図19】従来の音声認識装置による音声認識の原理の
概念を示す模式図である。
【図20】従来の音声認識装置による具体的な処理手順
を示すフローチャートである。
【図21】数字列”5492”を音声入力する場合の従来の
音声認識装置の応答の状態を示す模式図である。
【図22】数字列”5492”を音声入力する場合の従来の
音声認識装置の応答の状態を示す模式図である。
【符号の説明】
10 DSP部 11 マイクロフォン 13 DSP 15 スピーカ 16 PROM 18 RAM 19 ROM 20 マイクロコンピュータ部 21 マイクロコンピュータ 22 転送ボタン22 23 Gコードボタン 25 LCD 40 VTR

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 認識対象の音声信号に対する認識結果の
    確度を示す認識スコアを複数の認識候補それぞれに関し
    て求め、 求められた認識スコアの内の第1位の認識スコアを第1
    の基準値と比較する第1の判定を行ない、 前記第1の判定の結果、第1位の認識スコアが前記第1
    の基準値よりも小である場合は全認識候補をリジェクト
    し、 前記第1の判定の結果、第1位の認識スコアが前記第1
    の基準値よりも大である場合は第1位の認識スコアに対
    する第2位の認識スコアの比率を表すスコア比を求め、 求められたスコア比を第2の基準値と比較する第2の判
    定を行ない、 前記第2の判定の結果、前記スコア比が前記第2の基準
    値よりも大である場合は全認識候補をリジェクトし、 前記第2の判定の結果、前記スコア比が前記第2の基準
    値よりも小である場合は第1位の認識スコアが求められ
    た認識候補を認識結果と見做すことを特徴とする音声認
    識方法。
  2. 【請求項2】 同一の認識対象に対する前記第1の判定
    または前記第2の判定の結果に従ったリジェクトが行な
    われた場合に、前記第1の基準値をより小に、前記第2
    の基準値をより大に設定して前記第1の判定及び前記第
    2の判定を再度行なうことを特徴とする請求項1に記載
    の音声認識方法。
  3. 【請求項3】 同一の認識対象に対する前記第1の判定
    または前記第2の判定の結果に従ったリジェクトが所定
    回数連続して行なわれた場合に、前記第1の基準値を”
    0”に、前記第2の基準値を”1”に設定すること特徴
    とする請求項2に記載の音声認識方法。
  4. 【請求項4】 認識対象の一連の数字列の各一桁の数字
    の音声信号に対する認識結果の確度を示す認識スコアを
    複数の認識候補それぞれに関して算出する認識スコア算
    出手段と、 前記認識スコア算出手段により算出された第1位の認識
    スコアを第1の基準値と比較する第1の判定手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
    コアが前記第1の基準値よりも小である場合は全認識候
    補をリジェクトする第1のリジェクト手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
    コアが前記第1の基準値よりも大である場合は前記認識
    スコア算出手段により算出された第1位の認識スコアに
    対する第2位の認識スコアの比率を表すスコア比を求め
    るスコア比算出手段と、 前記スコア比算出手段により算出されたスコア比を第2
    の基準値と比較する第2の判定手段と、 前記第2の判定手段による判定の結果、前記スコア比が
    前記第2の基準値よりも大である場合は全認識候補をリ
    ジェクトする第2のリジェクト手段と、 前記第2の判定手段による判定の結果、前記スコア比が
    前記第2の基準値よりも小である場合は前記認識スコア
    算出手段により第1位の認識スコアが算出された認識候
    補を認識結果として出力する認識結果出力手段とを備え
    たことを特徴とする数字列音声認識装置。
  5. 【請求項5】 同一の認識対象に対する前記第1のリジ
    ェクト手段または前記第2のリジェクト手段によるリジ
    ェクトが行なわれた場合に、前記第1の基準値をより小
    に、前記第2の基準値をより大に設定して前記第1の判
    定手段及び前記第2の判定手段に再度判定を行なわせる
    再判定手段を備えたことを特徴とする請求項4に記載の
    数字列音声認識装置。
  6. 【請求項6】 前記再判定手段は、同一の認識対象に対
    する前記第1のリジェクト手段または前記第2のリジェ
    クト手段によるリジェクトが所定回数連続して行なわれ
    た場合に、前記第1の基準値を”0”に、前記第2の基
    準値を”1”に設定すべくなしてあることを特徴とする
    請求項5に記載の数字列音声認識装置。
  7. 【請求項7】 音声出力手段と、 前記認識結果出力手段が認識結果を出力する都度、前記
    音声出力手段に所定の合成音声を発声させ、認識対象の
    一連の数字列の全ての数字に対して前記認識結果出力手
    段が認識結果を出力した場合に前記音声出力手段に認識
    結果の各数字を合成音声にて連続的に発声させる手段と
    を備えたことを特徴とする請求項4に記載の数字列音声
    認識装置。
  8. 【請求項8】 所定のフォーマットのデータが与えられ
    ることにより録画予約を行なうべくなしてあるビデオレ
    コーダ本体と、前記所定のフォーマットのデータを送信
    するリモートコントロール装置とで構成されるビデオレ
    コーダシステムであって、 前記ビデオレコーダ本体に与えられるべきデータの元と
    なる認識対象の一連の数字列の各一桁の数字の音声信号
    に対する認識結果の確度を示す認識スコアを複数の認識
    候補それぞれに関して算出する認識スコア算出手段と、 前記認識スコア算出手段により算出された第1位の認識
    スコアを第1の基準値と比較する第1の判定手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
    コアが前記第1の基準値よりも小である場合は全認識候
    補をリジェクトする第1のリジェクト手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
    コアが前記第1の基準値よりも大である場合は前記認識
    スコア算出手段により算出された第1位の認識スコアに
    対する第2位の認識スコアの比率を表すスコア比を求め
    るスコア比算出手段と、 前記スコア比算出手段により算出されたスコア比を第2
    の基準値と比較する第2の判定手段と、 前記第2の判定手段による判定の結果、前記スコア比が
    前記第2の基準値よりも大である場合は全認識候補をリ
    ジェクトする第2のリジェクト手段と、 前記第2の判定手段による判定の結果、前記スコア比が
    前記第2の基準値よりも小である場合は前記認識スコア
    算出手段により第1位の認識スコアが算出された認識候
    補を認識結果として出力する認識結果出力手段と、 前記認識結果出力手段により一つの数字の認識結果とし
    て順次的に決定された認識候補の各数字を数字列として
    所定の論理に従って前記所定のフォーマットのデータに
    変換する変換手段と、 前記変換手段により得られたデータを前記ビデオレコー
    ダ本体へ送信する送信手段とを前記リモートコントロー
    ル装置に備えたことを特徴とするビデオレコーダシステ
    ム。
  9. 【請求項9】 同一の認識対象に対する前記第1のリジ
    ェクト手段または前記第2のリジェクト手段によるリジ
    ェクトが行なわれた場合に、前記第1の基準値をより小
    に、前記第2の基準値をより大に設定して前記第1の判
    定手段及び前記第2の判定手段に再度判定を行なわせる
    再判定手段を前記リモートコントロール装置に備えたこ
    とを特徴とする請求項8に記載のビデオレコーダシステ
    ム。
  10. 【請求項10】 前記再判定手段は、同一の認識対象に
    対する前記第1のリジェクト手段または前記第2のリジ
    ェクト手段によるリジェクトが所定回数連続して行なわ
    れた場合に、前記第1の基準値を”0”に、前記第2の
    基準値を”1”に設定すべくなしてあることを特徴とす
    る請求項9に記載のビデオレコーダシステム。
  11. 【請求項11】 音声出力手段と、 前記認識結果出力手段が認識結果を出力する都度、前記
    音声出力手段に所定の合成音声を発声させ、認識対象の
    一連の数字列の全ての数字に対して前記認識結果出力手
    段が認識結果を出力した場合に前記音声出力手段に認識
    結果の各数字を合成音声にて連続的に発声させる手段と
    を前記リモートコントロール装置に備えたことを特徴と
    する請求項8に記載のビデオレコーダシステム。
JP7122841A 1995-05-22 1995-05-22 音声認識方法,数字列音声認識装置及びビデオレコーダシステム Pending JPH08314493A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7122841A JPH08314493A (ja) 1995-05-22 1995-05-22 音声認識方法,数字列音声認識装置及びビデオレコーダシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7122841A JPH08314493A (ja) 1995-05-22 1995-05-22 音声認識方法,数字列音声認識装置及びビデオレコーダシステム

Publications (1)

Publication Number Publication Date
JPH08314493A true JPH08314493A (ja) 1996-11-29

Family

ID=14845962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7122841A Pending JPH08314493A (ja) 1995-05-22 1995-05-22 音声認識方法,数字列音声認識装置及びビデオレコーダシステム

Country Status (1)

Country Link
JP (1) JPH08314493A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000316128A (ja) * 1999-05-06 2000-11-14 Sony Corp Epgを利用した音声認識による放送番組予約装置
JP2005528018A (ja) * 2002-04-08 2005-09-15 フランス テレコム モバイル・マルチメディア・ターミナル及びかかるターミナルを用いたホーム・ゲートウェイ・リモート制御方法
JP2005277955A (ja) * 2004-03-25 2005-10-06 Sharp Corp 記録装置、記録システム及び遠隔操作機
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
JPWO2018055983A1 (ja) * 2016-09-23 2019-01-17 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ
CN109461503A (zh) * 2018-11-14 2019-03-12 科大讯飞股份有限公司 一种对象的认知评估方法、装置、设备及可读存储介质
JP2024059946A (ja) * 2019-10-18 2024-05-01 トヨタ自動車株式会社 変更操作支援装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000316128A (ja) * 1999-05-06 2000-11-14 Sony Corp Epgを利用した音声認識による放送番組予約装置
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2005528018A (ja) * 2002-04-08 2005-09-15 フランス テレコム モバイル・マルチメディア・ターミナル及びかかるターミナルを用いたホーム・ゲートウェイ・リモート制御方法
JP2005277955A (ja) * 2004-03-25 2005-10-06 Sharp Corp 記録装置、記録システム及び遠隔操作機
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
JPWO2018055983A1 (ja) * 2016-09-23 2019-01-17 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ
CN109461503A (zh) * 2018-11-14 2019-03-12 科大讯飞股份有限公司 一种对象的认知评估方法、装置、设备及可读存储介质
JP2024059946A (ja) * 2019-10-18 2024-05-01 トヨタ自動車株式会社 変更操作支援装置

Similar Documents

Publication Publication Date Title
US20050043948A1 (en) Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
JPH08314493A (ja) 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
WO2018100391A1 (en) Speaker identification
EP0877518B1 (en) Method for dialling a telephone number by voice commands and a telecommunication terminal controlled by voice commands
JPH0713591A (ja) 音声認識装置および音声認識方法
JP2000338991A (ja) 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
US20020049597A1 (en) Audio recognition method and device for sequence of numbers
JPS6126079B2 (ja)
JPH08314495A (ja) 数字列音声認識装置及びビデオレコーダシステム
JP2003177788A (ja) 音声対話システムおよびその方法
JP2788658B2 (ja) 音声ダイヤル装置
JP2782850B2 (ja) 自動車用電話
JPS59144945A (ja) 音声認識制御方式
KR100214085B1 (ko) 음성 다이얼링 시스템에서 다수의 후보단어를 이용한 음성 다이얼링 방법
JP3069150B2 (ja) 音声ダイヤル装置
JP3278595B2 (ja) 携帯電話
JPH04192852A (ja) ダイヤル番号発信方法
KR950000532B1 (ko) 핸드프리 음성 다이얼링 시스템의 음성인식 방법
KR20030030691A (ko) 음성 다이얼링 기능을 갖는 통신 단말기 및 음성 다이얼링방법
JPS6126133A (ja) 音声認識入力装置
WO1992000586A1 (en) Keyword-based speaker selection
JPH0511200U (ja) 音声認識装置
JPH0351898A (ja) 音声認識装置
JPH1146238A (ja) 電話機