JPH0883092A - 情報入力装置及び情報入力方法 - Google Patents

情報入力装置及び情報入力方法

Info

Publication number
JPH0883092A
JPH0883092A JP6219942A JP21994294A JPH0883092A JP H0883092 A JPH0883092 A JP H0883092A JP 6219942 A JP6219942 A JP 6219942A JP 21994294 A JP21994294 A JP 21994294A JP H0883092 A JPH0883092 A JP H0883092A
Authority
JP
Japan
Prior art keywords
information
input
recognition
auditory
visual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6219942A
Other languages
English (en)
Inventor
Mizuhiro Hida
瑞広 飛田
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6219942A priority Critical patent/JPH0883092A/ja
Publication of JPH0883092A publication Critical patent/JPH0883092A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 操作が容易でかつ短時間で正確に入力を可能
とする。 【構成】 手書入力部1,OCRなどの読取入力部2の
何れかを切替部3で切替えて、例えば「音声」を入力し
て視覚部情報認識部5で認識する。これと同時にまたは
前後して、聴覚情報入力部4から「おと、こえ」を音声
入力し、聴覚情報認識部7で認識する。両認識結果の一
致した候補が複数の場合は、その尤度を綜合した尤度を
求め、その尤度の高い順に出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、主として文字、記
号、図形、画像、映像やそれらの組合せなどの視覚情報
を認識する技術と、音声、音響信号、あるいはそれらの
組合せなどの聴覚情報を認識する技術に関し、特に、こ
れら双方の認識技術を組み合わせることにより、双方の
単独使用の場合より認識精度や効率を向上して、よりよ
い情報の入力手段を提供しようとするものである。
【0002】
【従来の技術】近年の情報機器の発達によって、コンピ
ュータや携帯端末は小型化し、キーボードを持たない情
報機器が出現している。これらでは、情報入力手段は主
に手書き文字認識などを通して行われる。また、キーボ
ードを備えた情報機器においても、場面によってはキー
ボードからの入力が望ましくない場合、例えば習熟して
いない人による入力、暗い場所での入力などもある。さ
らに文字入力に限らず、図形や画像や映像などに含まれ
る情報を認識して取り出したい場面もある。
【0003】そこで、例として手書き文字認識を取り上
げると、その性能は、丁寧に書いた文字の認識の場合で
も、必ずしも満足できるものではない。実用性からは、
走り書きのように手早く入力しても正しく認識入力され
ることが望ましいが、この場合は丁寧に書いた場合より
もさらに認識精度は低下する。一般に、これらの記号な
どを含む文字を主体としたデータを情報源として入力し
作成する場合の基本は、上でも述べたように用紙やタブ
レット等に直接手書きをする方法や、ワードプロセッサ
ーやパーソナルコンピュータ等のキー操作によって入力
することが行われる。この場合のキー操作による入力以
外は、機械による文字認識や文字読み取りの技術を用い
て認識を行うこととなるが、その性能は向上して来ては
いるが十分ではない。
【0004】一方、音声の発話内容を機械によって認識
する技術レベルも確実に向上して来てはいる。しかし、
上記の手書き文字の認識の場合と同様に特に入力の環境
条件が異なる場面において100%の認識率を実現する
ことは困難である。これは、文字や音声などにより情報
源となるものを最初に入力する作業は、人間が行うこと
が前提であって、この場合手書きによる文字や発声する
音声の場合は、平静の状態であっても個々人の癖や特徴
の違い等の変動要因が存在することに加えて、さらに作
業時の環境やその時の心理面に変化が生じれば、前記し
た癖や特徴がさらに大きな変動を生じていくことが考え
られ、これを回避することが困難なためである。
【0005】なお、音声認識の補助手段として仮名文字
を入力することによって、認識の性能を向上しようとす
る考えがある(特開昭58−123596,補助情報を
併用する音声認識方式)。ここでの考えは、発声音声の
音節数を押しボタンのオンオフ回数によって入力するこ
とや、日本語の5母音については5個のキーで与えるこ
との他に、子音の場合は数が多いためにキーで用意する
ことの代わりに仮名文字で入力する補助機能を与えよう
とするものである。しかし、これらはあくまでも音声認
識の補助手段として用いるもので、手書き文字による入
力を優先して使用したい場面では適用が困難となる。
【0006】
【発明が解決しようとする課題】この発明の目的は、こ
の様な点に鑑みてなされたもので、視覚情報や聴覚情報
の入力したい情報内容を高精度でかつ容易に入力するた
めの情報入力装置を提供することにある。
【0007】
【課題を解決するための手段】この発明の装置及び方法
のいずれにおいても、文字、図形、画像などの視覚情報
を入力する視覚情報入力手段と、この入力された視覚情
報を認識する視覚情報認識手段と、音声、音楽などの聴
覚情報を入力する聴覚情報入力手段と、その入力された
聴覚情報を認識する聴覚情報認識手段とが設けられる。
【0008】この発明装置は、さらに視覚情報入力手段
の入力準備がなされるとこれが検出され、また聴覚情報
入力手段の入力準備がなされるとこれが検出され、両入
力準備の一方が検出されると、これと対応する入力手段
のみが情報入力可能とされ、両方の入力準備が検出され
ると、両方の入力手段が情報入力可能とされる。視覚情
報認識手段と聴覚情報認識手段との一方の認識結果候補
について、他方の認識手段は認識対象を絞る手段があ
る。また視覚情報認識手段と聴覚情報認識手段との両認
識結果が一致した認識候補については、その尤度を綜合
した尤度が求められて、その候補に対する尤度とされ
る。
【0009】この発明の方法においては、視覚情報入力
手段と聴覚情報入力手段との一方を先に用いて情報を入
力認識し、その後、他方の入力手段を用いて対応する情
報を入力して認識するが、その認識対象を先の認識結果
に応じて絞り込む。また視覚情報入力手段による情報入
力と、聴覚情報入力手段による入力とを同時に行い、そ
の両認識結果の同一の候補についてはその尤度を綜合し
た尤度とし、これを用いて認識する。さらに前記一方を
先に入力する手法と、同時に入力する手法を選択的に用
いるようにする。
【0010】
【作 用】この発明による情報入力装置あるいは情報入
力方法を用いることにより、比較的雑な手書きの文字入
力や既に手書きされた文書が存在する場合にはこれを情
報入力源の基本として、これと音声認識技術を併用して
正しい情報源の作成を可能とすることができる。一方、
このような視覚情報源としての文書等が存在しない場合
には、聴覚情報としての音声信号を情報入力源の基本と
して、これと手書きの文字入力による認識技術を併用し
て、正しい情報源の作成を容易に行うことができる。
【0011】つまり、現行の個々の技術では100%の
認識率が達成されないことを前提として、例えば文字を
書くとともに、その文字の読みを音声により与えてやる
ことが考えられる。典型的な手法としては、文字認識に
よって複数の認識候補を挙げておき、それらを対象語と
した音声認識により正しい文字を選択する。例えば
「音」と手書きで書きつつ、「おと」と発声する。この
ような基本的な発明に関しては、多くの型がある。例え
ば、映像(動画像)により男女を識別する場合におい
て、本人の音声が得られれば、音声による男女識別と組
み合わせて全体の識別性能が上げられる。
【0012】すなわち、この発明は、このような視覚情
報と聴覚情報を認識する技術を組み合わせることによ
り、精度の高い情報入力手段を提供できる。
【0013】
【実施例】図1にこの発明による一実施例の機能構成を
示す。視覚情報入力部1は手書き等による文字や記号、
画像、図形、映像などの情報を作成しながら入力する部
分であり、視覚情報読取部2は既に作成されている文字
や記号、画像、図形、映像などの情報を読み取る部分で
あり、入力切替部3によりこれら視覚情報入力部1と視
覚情報読取部2のいずれか一方を切替え選択して視覚情
報を読み取る。また話者が発声した音声やその他の音響
情報をマイクロホンなどを介して取り込むための聴覚情
報入力部4が設けられている。入力切替部3により入力
された視覚情報の内容は視覚情報認識部5で認識され、
この視覚情報認識部5で認識された結果は認識結果ソー
ト部6で尤度(スコア、類似度もしくは距離値のことを
言う)の順に並べ替えられる。同様に聴覚情報入力部4
で入力された音響情報の内容は聴覚情報認識部7で認識
評価され、この聴覚情報認識部7で認識された結果は認
識結果のソート部8で尤度(前同)の順に並べ替えられ
る。認識結果の出力部9から前述した視覚情報と聴覚情
報との各々の認識結果が出力される。その認識された結
果の出力に誤りがある場合に修正箇所特定部11で修正
箇所を特定することができる。入力情報が正しく修正さ
れた後の結果は半導体メモリや磁気ディスク等の入力情
報蓄積部12に記録し蓄積され、これより情報出力部1
3にて正しく入力された情報は外部へ出力される。動作
制御部14により各部の動作の起動や動作順序ならびに
入力切替部3の制御等、本装置の動作の手順の制御がな
される。
【0014】この装置の外観例を図2に示す。筐体21
はほゞ薄形の直方体状をしており、上面21aは背面2
1bに近づくに従って、ごくわずか立上がるテーパ面と
され、背面21bの近くではさらに立上がるテーパ面と
され、この部分は認識結果を表示する表示面22とされ
ている。極めて徐々に立上がる上面中央部は視覚情報入
力面20であって、視覚情報入力部1の一部をなし、タ
ッチパネルや、ライトペンによる入力のためのCRT表
示器などであり、この視覚情報入力面20に対し文字や
記号、図形の手書きなどによる入力を実行するためのペ
ン23が視覚情報入力部1の他の一部として、上面21
aの前縁近くにこれと平行に取り外し自在に配されてい
る。ペン23と視覚情報入力面20との間に、視覚情報
読取部2を構成するOCR(光学文字読取器)などの一
部をなす光電変換部24が取り外し自在に配されてい
る。光電変換部24と並んで聴覚情報入力部4を構成す
るマイクロホン25が必要に応じて取り出し自在に設け
られている。表示面22と視覚情報入力面20との間に
複数の制御キー26が設けられ、制御キー26は情報入
力時のカーソル位置の移動や入力切替部3の切替え、入
力情報の確定、印刷の実行や情報の出力等を指定選択
し、かつ制御する。
【0015】筐体21の側面の一端部に、認識結果を出
力するためのスピーカ27及びイヤホン端子28が設け
られ、また外部へ出力するためのデータ端子29が設け
られている。タッチパネルやCRT表示器などの視覚情
報入力面20と、表示面22とは両者を一体にして、両
機能をもたせてもよい。次に図1及び図2に示したこの
発明装置の動作の例を説明する。まず、視覚情報入力部
1より文字等の情報を入力する場合は、動作制御部14
により入力切替部3を視覚情報入力部1側のデータが視
覚情報認識部5に入力されるように設定する。視覚情報
入力部1では、例えば視覚情報入力面20としてのタッ
チパネルとペン23との組合せ等により、入力したい情
報内容を手書きによりデータとして入力する。なお、既
に入力したい情報源が有る場合には、入力切替部3を視
覚情報読取部2の側へ切替え、例えばOCR等の光走査
型情報読取部24を用いて、その情報源の内容をデータ
として入力する。その結果、視覚情報入力部1もしくは
視覚情報読取部2の出力が視覚情報認識部5へ入力され
る。視覚情報認識部5では、事前に標準パターンとして
蓄積されている文字や記号の内容と比較対照して、入力
された情報内容が認識される。このとき、認識された候
補が1個の場合はその候補が認識結果出力部9へ出力さ
れる。しかし、認識された候補が1個でなく複数個有る
場合は、それらの候補の尤度の高い順序となるように認
識結果のソート部6で並べ替えを行い、その結果を認識
結果出力部9へ出力する。当該認識結果出力部9は、表
示面22によって視覚的に確認したり、スピーカ27や
イヤホーン28等によって聴覚的に確認することができ
る。
【0016】次に、情報源の入力に聴覚情報入力部4を
用いた場合について述べる。この場合は、話者音声を、
マイクロホン等の音響信号を電気信号に変換する機器を
用いて聴覚情報入力部4へ入力する。聴覚情報入力部4
では、音声等の聴覚情報の特徴を表現する複数のパラメ
ータに変換し、時系列のデータ群として聴覚情報認識部
7へ入力し、事前に辞書として登録されている標準の特
徴パラメータと音声であれば音素や単語あるいは文章や
記号の表記との対として対照して、入力された音声情報
の内容が何であるかを認識する。認識された候補が1個
の場合は先の場合と同様に、その候補が認識結果出力部
9へ出力される。しかし、認識された候補が1個でなく
複数個有る場合は、それらの候補の尤度の高い順序とな
るように認識結果のソート部8で並べ替えを行い、その
結果を認識結果出力部9へ出力する。
【0017】以上のようにして手書き文字や記号等の視
覚情報の入力と、音声による聴覚情報の入力とのいずれ
によっても入力された内容の認識結果が出力できる。も
し、いずれの方法を用いても情報源として入力したい内
容が正しく認識されていれば、その結果を修正すること
なく修正結果の記憶部12へ記録し、必要に応じて情報
出力部13を経由してプリンタでハードコピーを入手し
たり、通信回線を経由した相手に情報の提供を行うこと
ができる。しかし、最初にも述べたように入力情報源
が、上記した視覚情報入力部1,視覚情報読取部2,聴
覚情報入力部4のいずれの入力方法を用いた場合でも修
正の必要が全く無く認識されることは稀である。そこで
以下に、認識を行う場合の手順ならびに認識結果に誤り
があった場合の修正と確定の方法の一例について説明す
る。
【0018】先にも述べたようにこの発明においては、
所望とする情報の入力を実現する場合において、情報源
の入力方法には次の3通りがあり、この中から任意の一
つの入力方法が選択できるとともに、それに対応して誤
り修正の手法が設定される。その1は、視覚情報認識技
術もしくは視覚情報読取技術のいずれか一方を用いて入
力し、その認識結果に誤りがある場合に聴覚情報認識技
術を用いて正解となる内容に修正する方法であり、その
2は、最初に聴覚情報認識技術を用いて入力し、その認
識結果に誤りがある場合は視覚情報認識技術もしくは視
覚情報読取技術のいずれか一方を用いて正解となる内容
に修正する方法であり、その3は、視覚情報認識技術も
しくは視覚情報読取技術のいずれか一方と、聴覚情報認
識技術との両者を同時に用いて認識し、その認識結果に
誤りがある場合は視覚情報認識技術もしくは視覚情報読
取技術もしくは聴覚情報認識技術のいずれかを用いて修
正を行う方法である。
【0019】このように、情報の入力時に適用する技術
の優先順位を、手書き文字入力手段、音声入力手段、あ
るいは両者の同時併用、の3通りの中からいずれか一つ
を選択して情報入力を可能とするように構成し、これに
応じて誤り修正の手順が設定されるようにしておくこと
により次のような利点が生ずる。利点の1は、情報源を
入力する周囲の環境に依存して対応できることである。
これは、例えば周囲が騒々しい場合は、視覚情報による
入力を優先して騒音が静まった時機を見計らって音声等
の聴覚情報による修正を加えること、逆に周囲が比較的
静かな環境でかつ移動する車内など手元が揺れるような
場面や暗がりのような場面では音声入力を優先し、誤っ
た箇所は揺れがない時機や明るい場面で手書きによる修
正を行うことが可能となる。
【0020】この場合の認識のフローの例を図3に示
す。図3Aは、視覚情報を入力し(S 1 ),その視覚情
報を認識し(S2 ),その結果が第一位からn位まで得
られて出力される(S3 )。この情報を聴覚情報による
認識時の認識対象候補として絞り込むため、同一入力情
報源について聴覚情報を入力し(S4 ),その聴覚情報
中の、視覚情報で認識された候補n個を対象として認識
し(S5 ),その認識結果を出力する(S6 )。このよ
うに両者の協調によって認識処理時間の短縮と認識確度
の向上が期待される。同図Bは、情報入力の手順を上記
の逆にした場合で、つまり、まず視覚情報を入力し、こ
れを認識し、その認識候補について視覚情報入力により
認識する。得られる効果はAの場合と同様である。ただ
し、どちらの認識手順を優先するかは、使用者が任意に
制御キー26の選択で行うが、情報入力時の周囲の環境
などを考慮して高い精度の認識結果が得られる方へ設定
することができる。
【0021】利点の2は、手書き文字等の視覚情報の認
識もしくは読み取り技術のいずれか一方と音声認識技術
の両者を同時に用いて認識する場合で、このときは文字
などを書きながら、その文を声に出して読み上げながら
入力していく形式となるため、文書などの作成に際して
は内容の入力そのものの誤りが低減できる可能性が大き
くなることが期待される。
【0022】以下にこの場合の具体的手法を示す。 例1:手書きで入力したい情報を入力することに併行し
て、音声でも同じ内容を発声して入力する。両者の協調
により、入力精度は、手書き文字認識単独の精度より
も、また音声認識単独の精度よりも高い。手書き入力と
音声入力の両者の組合せの実施例としては、以下のよう
な入力手法が考えられる。
【0023】具体例1):手書きで「嵯峨山」と入力
し、音声で「さがやま」と入力する。この場合は、人名
を漢字で手書きしてかつその読みを音声で入力したもの
である。 具体例2):手書きで「音声」と入力し、音声で「お
と、こえ」と入力する。この場合は、漢字1文字毎の読
みを訓読みで入力したものである。
【0024】具体例3):手書きで「識」と入力し、音
声で「ごんべん」と入力する。この場合は、「識」の部
首名称を音声で入力したものである。 具体例4):手書きで「嵯」と入力し、音声で「やまへ
ん、さ」と入力する。この場合は、入力文字の部首名称
と、文字を示唆する部分の読みを入力するものである。
【0025】具体例5):手書きで「機」と入力し、音
声で「きかい」と発声し入力する。この場合は、入力し
たい文字を含む熟語を発声して入力するものである。 具体例6):手書きで「機」と入力し、音声で「きか
い、きへん、はた」と入力する。この場合は、上記の具
体例2)〜5)を包含する複数の内容の発声音声で入力
するものである。
【0026】具体例7):手書きで「◇」と入力し、音
声で「ひしがた」と入力する。この場合は、記号の入力
であることを音声で教示してやるものである。これらの
例のように、視覚情報が単数あるいは複数の手書き文字
あるいは手書き記号の場合では、聴覚情報が入力しよう
とする視覚情報の音読みあるいは訓読みあるいは部首の
名称あるいは記号名あるいは入力しようとする文字を示
唆する単語やキーワードで情報の入力を行うことができ
る。
【0027】以下の例2〜5は、画像あるいは映像を情
報源としてこれを認識する場合に、音声を併用して認識
精度の向上を図るものである。 例2:嵯峨山の顔を画像認識入力し、音声で「さがや
ま」と入力する。両者の協調により、キーボードから入
力しないでも、「嵯峨山」が入力できる。その精度は、
画像認識単独の精度よりも、また音声認識単独の精度よ
りも高い。
【0028】例3:映像入力が赤紫色の物体で、音声で
は「あかむらさき」と入力する。両者の協調により、色
名「赤紫」が精度良く入力できる。その精度は、映像の
色彩認識単独の精度よりも、また音声認識単独の精度よ
りも高い。 例4:画像認識入力が男の顔で、音声も男の音声が入力
される。両者の協調により、対象が男であることが認識
される、つまり男女の性別の入力に用いて、その精度
は、画像認識単独の精度よりも、また音声認識単独の精
度よりも高い。
【0029】例5:手書き図形入力が正方形で、音声で
「せいほうけい」と入力する。両者の協調により、その
精度は、画像認識単独の精度よりも、また音声認識単独
の精度よりも高い。 例6:書籍を読み取る文字認識入力と、その内容を朗読
した音声の両方の協調により、精度良く入力ができる。
その精度は、文字認識単独の精度よりも、また音声認識
単独の精度よりも高い。
【0030】次に入力した内容が、所望の情報内容であ
ることを抽出確定する過程について説明する。この場合
は、視覚情報認識技術もしくは視覚情報読取技術のいず
れか一方と、聴覚情報認識技術を併用したときに認識さ
れる上位から第n位までの候補を、認識結果のソート部
6ならびに8を経て、認識結果出力部9へ出力する。こ
のとき、視覚情報認識技術もしくは視覚情報読取技術の
いずれか一方と、聴覚情報認識技術との両者による出力
結果が同一であるとした候補が複数組ある場合には、視
覚情報認識技術もしくは視覚情報読取技術と、聴覚情報
認識技術との両者で認識した結果から、まずそれぞれの
尤度(スコア、類似度もしくは距離値)の和を求め、次
に尤度(前同)の和の大きい順に前記のソート部6また
は8でソーティングを行って、その結果を視覚情報とし
てディスプレイに表示するか、もしくは聴覚情報として
使用者が確認できるように認識結果出力部9へ出力す
る。
【0031】この場合、視覚情報認識技術もしくは視覚
情報読取技術と、聴覚情報認識技術との両者を用いて認
識したときに算出されるそれぞれの尤度の値に、一定の
重み係数を付与した後に両者の和を求めることが必要と
なる場合も生ずる。これは例えば、視覚情報を用いたと
きの認識尤度の値が第1位から5位までが800から5
0程度の範囲であるのに対し、聴覚情報を用いたときの
認識尤度の値が前と同じく第1位から5位までが10か
ら0.2程度と桁数が異なる場合は、それらの尤度の値に
重みつけを行うことが必要で、これは実験的に前もって
適当な値に設定しておくことが精度の良い認識結果を得
るために大切である。実験的に各種の場合を決めるのは
大変であるから、両認識尤度がほゞ同一オーダとなるよ
うに、例えば正規化してもよい。
【0032】次に、認識結果出力部9へ認識結果が出力
されかつ、その内容の一部に誤りがある場合には、修正
箇所特定部11により修正したい箇所へカーソルを移動
してやることとなる。この場合の、誤り修正を行うため
の修正箇所を特定するための手段としては、文字入力に
使用する機能部品であるペン23や指を用いるかもしく
は上下左右方向へカーソルを移動して修正箇所を特定で
きる動作制御部の機能キー26を用いることとなる。
【0033】さらに、誤り修正を行うための修正箇所が
文字の一部分をなす偏や旁である場合は、前述した方法
により修正したい箇所を指定し、既に認識されている文
字以外の候補を保有している辞書の中から複数個を順次
候補として出力するとともに、当該候補の中から正解で
ある文字に対してこれを特定する機能を付与している。
【0034】なお、入力すべき情報が特に文字の場合で
かつ音声認識技術を用いる場合は、文字の読みを音読み
もしくは訓読みのいずれをも許容できるように表記法を
変えて事前に登録しておくこととする。これらの内容に
ついては、先に手書き入力と音声入力の組合せの実施例
として既に示した通りである。他の実施例として、入力
から確定までの一連の手順を以下に示す。
【0035】まず入力モードの切替えは、例えばペン2
3を筐体21から取り上げることによって視覚情報入力
の優先モードとなり、一方情報読取部24の例えばOC
R部品を取り上げれば視覚情報読取部の優先モードとな
るように構成することで、機能キー26の個数を低減し
て構成できる。聴覚情報による入力を優先する場合は、
前述の機能キー26で選定すれば良い。なお音声入力の
場合は、発話の開始と終了のタイミングを特定するため
の機能キーを指定しておき、これを用いて発話区間の情
報の入力を同時に行うことによって、より高精度の認識
が実現できる場合もある。
【0036】このような入力の動作機能を有する情報入
力装置において、ペン23を筐体21から取り上げてタ
ッチパネルなどの視覚情報入力面20等の上に 「認識する」 という文字を手書きによって入力すると、手書き情報の
入力優先状態となって文字認識動作が行われる。このと
き、音声の入力も同時に行いたい場合には、前述のキー
選択26を手書き情報入力と音声情報入力との両者を同
時に行うためのキーを押下すれば良い。情報の入力が終
了すれば、認識された結果が先に述べた尤度値の順位で
表示面22あるいはスピーカ27等に表示される。その
結果が、例えば 「認識する」 というように「識」の部分が「職」に誤っていた場合
は、ペン23で、当該誤り部分を指定すると、その部分
の第2候補が出力されてくる。この時点で正解の「識」
が出力されれば、機能キー26の例えば「確定」という
キーを押下するか、もしくはこれに代わるコマンドを入
力することで、正しい入力情報を確定して取り込むこと
ができる。
【0037】全体の処理流れ図を図4に示す。つまり常
時は入力準備が検出されるかを監視し(S1 ),つまり
視覚情報手動入力、視覚情報読出し入力、または聴覚入
力を示すいずれかのキー26が操作されるか、ペン23
の取り上げ、情報読取部24の取り上げ、マイクロホン
25の取り出しのいずれかが行われると、入力準備が検
出される。これより手動入力、つまり手書入力かが調べ
られ(S2 ),手書入力でなければ読取り入力かが調べ
られ(S3 ),読取り入力でなければ聴覚情報の入力と
決定され、聴覚情報入力部4からの聴覚情報が取り込ま
れる(S4 )。この取り込まれた聴覚情報に対する認識
が聴覚情報認識部7で行われ(S5 ),その認識結果が
出力部13から出力され、誤りがあるかが調べられる
(S6 )。
【0038】誤りがあれば視覚情報入力手段、視覚情報
入力部1,または視覚情報読取部2から、前記聴覚情報
入力部4で入力した聴覚情報と対応した視覚情報が入力
される(S7 )。その入力された視覚情報は視覚情報認
識部5で認識されるが、その認識対象は聴覚情報認識ス
テップS5 で認識された候補のうち、予め決められた上
位から一定の数のものについて認識が行われる
(S8 )。その認識結果は尤度の高い順に出力部13に
可視表示され、または可聴的に出力される(S7 )。そ
の認識結果候補において、必要に応じて修正が行われ
(S10),その後、正しい入力して確定操作が例えばキ
ー26により行われる(S11)。
【0039】一方ステップS2 またはS3 において、視
覚情報の入力準備状態が検出されると、聴覚情報入力準
備状態になっているかが調べられる(S12)。聴覚情報
入力準備状態になっていないと、フラグが立っているか
が調べられる(S13),つまりステップS3 で読取り入
力の準備が検出されると、フラグが1に立てられてステ
ップS12に移る。ステップS13でフラグが1であれば入
力切替部3は視覚情報読取部2に切替えられる
(S15)。入力切替部3はフラグが0の場合は視覚情報
入力部1に切替えられる。次に視覚情報が取り込まれ
(S16),この視覚情報が視覚情報認識部5で認識され
る(S17)。その認識結果に誤りが有るかが調べられ
(S18),誤りがなければ確定出力され、誤りがあれば
聴覚情報入力部4により入力された視覚情報と対応した
情報が入力される(S19)。その入力聴覚情報は聴覚情
報認識部7で認識されるが(S20),この認識はステッ
プS17での認識結果中の尤度が高い順から所定数の候補
のみが認識対象とされる。この認識結果は尤度の高い順
に出力部13により出力される(S9 )。
【0040】ステップS12で聴覚情報入力準備がなされ
ていることが検出されると、この場合は、聴覚情報、視
覚情報の同時入力の場合であって、入力された視覚情報
及び聴覚情報が取り込まれ(S21),これら視覚情報及
び聴覚情報がそれぞれ認識される(S22)。これら両認
識結果の候補中の同一のものについては綜合尤度が計算
され(S23),この綜合尤度と、不一致候補の尤度との
うち予め決めた数だけ高いものから出力部13から出力
される(S9 )。
【0041】視覚情報を入力し、聴覚情報を入力してい
ない場合は聴覚情報入力部4から周囲の騒音や雑音が入
力されたり、誤動作しないように情報入力準備の検出状
態で聴覚情報入力部4から聴覚情報認識部7への入力を
禁止、または聴覚情報認識部7の処理を禁止する。上述
では聴覚情報としては音声を例として述べたが、例えば
救急車の視覚情報の入力と対応して聴覚情報として救急
車のサイレンを入力してもよい。動物の視覚情報の入力
と対応して、その動物の鳴き声を聴覚情報として入力し
てもよい、など各種の音を聴覚情報とすることもでき
る。
【0042】
【発明の効果】以上説明したように、文字や記号などの
情報を高精度に入力する場合、従来のワープロやパソコ
ン等を用いたときに多くのキー入力を必要とする場合に
比べて、この発明による情報入力装置、情報入力方法を
用いることにより、比較的雑な手書きの文字入力や既に
手書きされた文書が存在する場合にはこれを情報入力源
の基本として、これと音声認識技術を併用して正しい情
報源の作成を可能とすることができることと、これを必
要最小限のキー操作で容易に素早い入力が可能となるた
め、特にキーボードの操作に不慣れな使用者に対しても
違和感なく、情報の入力が実現できる。
【図面の簡単な説明】
【図1】この発明による装置の一実施例を示すブロック
構成図。
【図2】この発明による装置の外観構成の例を示す斜視
図。
【図3】視覚情報と聴覚情報を用いた場合の認識手順を
示す流れ図。
【図4】この発明による方法の処理手順の例を示す流れ
図。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文字、記号、図形、画像などの視覚情報
    を入力する視覚情報入力手段と、 音声、音楽などの聴覚情報を入力する聴覚情報入力手段
    と、 上記視覚情報入力手段より入力された視覚情報を認識す
    る視覚情報認識手段と、 上記聴覚情報入力手段より入力された聴覚情報を認識す
    る聴覚情報認識手段と、 上記視覚情報認識手段の認識結果と、上記聴覚情報認識
    手段の認識結果を出力する認識結果出力手段と、 を具備する情報入力装置。
  2. 【請求項2】 上記視覚情報入力手段の入力準備を検出
    する手段と、上記聴覚情報入力手段の入力準備を検出す
    る手段と、上記両入力準備検出手段の一方が入力準備を
    検出すると、これと対応する入力手段のみが情報入力可
    能とされ、両入力準備検出手段の両方が入力準備を検出
    すると、上記両入力手段の情報入力を可能とする手段と
    を含むことを特徴とする請求項1記載の情報入力装置。
  3. 【請求項3】 上記視覚情報認識手段及び上記聴覚情報
    認識手段の一方の認識結果候補についてのみ、他の認識
    手段による認識処理を行う手段を含むことを特徴とする
    請求項1記載の情報入力装置。
  4. 【請求項4】 上記視覚情報認識手段により認識された
    候補と上記聴覚情報認識手段により認識された候補とを
    比較する手段と、その比較により一致した候補が複数あ
    る場合はその同一候補についての両尤度から綜合尤度を
    求めて、その候補の尤度とする手段とを含むことを特徴
    とする請求項1記載の情報入力装置。
  5. 【請求項5】 上記視覚情報入力手段は視覚情報を作成
    してから入力する視覚情報手動入力手段と、作成されて
    いる視覚情報を読み取る視覚情報読取手段と、これら視
    覚情報手動入力手段と、視覚情報読取手段との一方を選
    択して入力された視覚情報を上記視覚情報認識手段へ供
    給する入力切替手段とよりなることを特徴とする請求項
    1乃至4記載の情報入力装置。
  6. 【請求項6】 文字、記号、図形、画像などの視覚情報
    を入力する視覚情報入力手段と、音声、音楽などの聴覚
    情報を入力する聴覚情報入力手段と、上記視覚情報入力
    手段より入力された視覚情報を認識する視覚情報認識手
    段と、上記聴覚情報入力手段より入力された聴覚情報を
    認識する聴覚情報認識手段とを備えた情報入力方法にお
    いて、 上記視覚情報入力手段と、聴覚情報入力手段との一方を
    用いて情報を入力し、 その入力情報を対応する認識手段で認識し、 その後、他方の入力手段で、上記入力情報と対応する情
    報を入力し、 その入力情報と対応する認識手段により、上記認識結果
    に応じて認識対象候補を絞って認識を行って認識候補を
    得ることを特徴とする情報入力方法。
  7. 【請求項7】 文字、記号、図形、画像などの視覚情報
    を入力する視覚情報入力手段と、音声、音楽などの聴覚
    情報を入力する聴覚情報入力手段と、上記視覚情報入力
    手段より入力された視覚情報を認識する視覚情報認識手
    段と、上記聴覚情報入力手段により入力された聴覚情報
    認識手段とを備えた情報入力方法において、 上記視覚情報入力手段を用いて情報を入力すると共に、
    上記聴覚情報入力手段を用いて上記情報と対応した情報
    を同時に入力し、 これら入力情報をそれぞれ対応した認識手段で認識し、 これら両認識手段により認識結果中の同一候補について
    それらの尤度の綜合尤度を求めて認識候補を得ることを
    特徴とする情報入力方法。
  8. 【請求項8】 上記視覚情報入力手段と聴覚情報入力手
    段との一方を用いて情報を入力し、 その入力情報を対応する認識手段で認識し、 その後、他方の入力手段で上記入力情報と対応する情報
    を入力し、 その入力情報を対応する認識手段により、上記認識結果
    に応じて認識対象候補を絞って認識を行う方法と、上記
    両入力手段を同時に用いて認識を行って認識候補を得る
    方法とを選択的に用いることを特徴とする請求項7記載
    の情報入力方法。
  9. 【請求項9】 得られた認識候補に対する修正は、その
    認識候補が視覚情報の認識結果にもとづく場合は聴覚情
    報を入力して行い、聴覚情報の認識結果にもとづく場合
    は視覚情報を入力して行うことを特徴とする請求項6乃
    至8のいずれかに記載の情報入力方法。
  10. 【請求項10】 上記入力する視覚情報が単数あるいは
    複数の文字あるいは記号である場合は、上記入力する聴
    覚情報として上記視覚情報の音読み、あるいは訓読み、
    あるいは部首の名称、あるいは記号、あるいは上記視覚
    情報を示唆する単語やキーワードであることを特徴とす
    る請求項6乃至8のいずれかに記載の情報入力方法。
  11. 【請求項11】 上記綜合尤度は、視覚情報認識結果の
    尤度と聴覚情報認識結果の尤度との一方に重み係数を付
    与した後、両者を加算したものであることを特徴とする
    請求項7または8記載の情報入力方法。
JP6219942A 1994-09-14 1994-09-14 情報入力装置及び情報入力方法 Pending JPH0883092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6219942A JPH0883092A (ja) 1994-09-14 1994-09-14 情報入力装置及び情報入力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6219942A JPH0883092A (ja) 1994-09-14 1994-09-14 情報入力装置及び情報入力方法

Publications (1)

Publication Number Publication Date
JPH0883092A true JPH0883092A (ja) 1996-03-26

Family

ID=16743450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6219942A Pending JPH0883092A (ja) 1994-09-14 1994-09-14 情報入力装置及び情報入力方法

Country Status (1)

Country Link
JP (1) JPH0883092A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091356A1 (en) * 2001-05-02 2002-11-14 Sony Corporation Obot device, character recognizing apparatus and character reading method, and control program and recording medium
JP2005517216A (ja) * 2002-02-07 2005-06-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話されたおよび書かれたことばの高速かつパターン認識に支援された書き起こし方法および装置
JP2007011358A (ja) * 2005-06-28 2007-01-18 Avaya Technology Corp 複合文字の音声認識によって支援された自動補完
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
JP5705312B2 (ja) * 2011-05-20 2015-04-22 三菱電機株式会社 情報機器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091356A1 (en) * 2001-05-02 2002-11-14 Sony Corporation Obot device, character recognizing apparatus and character reading method, and control program and recording medium
US7088853B2 (en) 2001-05-02 2006-08-08 Sony Corporation Robot apparatus, method and device for recognition of letters or characters, control program and recording medium
JP2005517216A (ja) * 2002-02-07 2005-06-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話されたおよび書かれたことばの高速かつパターン認識に支援された書き起こし方法および装置
JP2007011358A (ja) * 2005-06-28 2007-01-18 Avaya Technology Corp 複合文字の音声認識によって支援された自動補完
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
JP5705312B2 (ja) * 2011-05-20 2015-04-22 三菱電機株式会社 情報機器

Similar Documents

Publication Publication Date Title
CN102165437B (zh) 信息处理装置及信息处理方法
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
CN109493850B (zh) 成长型对话装置
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
KR19990078364A (ko) 문서처리장치 및 그의 방법
JPH07295784A (ja) 音声による情報処理装置
JP2006048628A (ja) マルチモーダル入力方法
CN102165438A (zh) 信息处理装置及信息处理方法
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US20020152075A1 (en) Composite input method
JP2003504706A (ja) 多モード・データ入力装置
JP3710493B2 (ja) 音声入力装置及び音声入力方法
JPH0883092A (ja) 情報入力装置及び情報入力方法
KR20170009486A (ko) 청크 기반 언어 학습용 데이터베이스 구축 방법 및 이를 수행하는 전자 기기
JPH11288295A (ja) 音声認識雑音除去方式
JP6710893B2 (ja) 電子機器およびプログラム
JP6365520B2 (ja) 音声出力装置、音声出力方法、およびプログラム
US20020156617A1 (en) Electonic speaking dictionary: a simple device for finding, pronounincing, and defining a word
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
CN1965349A (zh) 多形式的非歧意性语音识别
JPH08190450A (ja) 手書き入力装置
JP4520123B2 (ja) 文字入力装置およびその方法
CN1206581C (zh) 混合输入方法
JP2997151B2 (ja) 漢字変換装置