JPH0883092A

JPH0883092A - 情報入力装置及び情報入力方法

Info

Publication number: JPH0883092A
Application number: JP6219942A
Authority: JP
Inventors: Mizuhiro Hida; 瑞広飛田; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1994-09-14
Filing date: 1994-09-14
Publication date: 1996-03-26

Abstract

(57)【要約】【目的】操作が容易でかつ短時間で正確に入力を可能
とする。【構成】手書入力部１，ＯＣＲなどの読取入力部２の
何れかを切替部３で切替えて、例えば「音声」を入力し
て視覚部情報認識部５で認識する。これと同時にまたは
前後して、聴覚情報入力部４から「おと、こえ」を音声
入力し、聴覚情報認識部７で認識する。両認識結果の一
致した候補が複数の場合は、その尤度を綜合した尤度を
求め、その尤度の高い順に出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、主として文字、記
号、図形、画像、映像やそれらの組合せなどの視覚情報
を認識する技術と、音声、音響信号、あるいはそれらの
組合せなどの聴覚情報を認識する技術に関し、特に、こ
れら双方の認識技術を組み合わせることにより、双方の
単独使用の場合より認識精度や効率を向上して、よりよ
い情報の入力手段を提供しようとするものである。

【０００２】

【従来の技術】近年の情報機器の発達によって、コンピ
ュータや携帯端末は小型化し、キーボードを持たない情
報機器が出現している。これらでは、情報入力手段は主
に手書き文字認識などを通して行われる。また、キーボ
ードを備えた情報機器においても、場面によってはキー
ボードからの入力が望ましくない場合、例えば習熟して
いない人による入力、暗い場所での入力などもある。さ
らに文字入力に限らず、図形や画像や映像などに含まれ
る情報を認識して取り出したい場面もある。

【０００３】そこで、例として手書き文字認識を取り上
げると、その性能は、丁寧に書いた文字の認識の場合で
も、必ずしも満足できるものではない。実用性からは、
走り書きのように手早く入力しても正しく認識入力され
ることが望ましいが、この場合は丁寧に書いた場合より
もさらに認識精度は低下する。一般に、これらの記号な
どを含む文字を主体としたデータを情報源として入力し
作成する場合の基本は、上でも述べたように用紙やタブ
レット等に直接手書きをする方法や、ワードプロセッサ
ーやパーソナルコンピュータ等のキー操作によって入力
することが行われる。この場合のキー操作による入力以
外は、機械による文字認識や文字読み取りの技術を用い
て認識を行うこととなるが、その性能は向上して来ては
いるが十分ではない。

【０００４】一方、音声の発話内容を機械によって認識
する技術レベルも確実に向上して来てはいる。しかし、
上記の手書き文字の認識の場合と同様に特に入力の環境
条件が異なる場面において１００％の認識率を実現する
ことは困難である。これは、文字や音声などにより情報
源となるものを最初に入力する作業は、人間が行うこと
が前提であって、この場合手書きによる文字や発声する
音声の場合は、平静の状態であっても個々人の癖や特徴
の違い等の変動要因が存在することに加えて、さらに作
業時の環境やその時の心理面に変化が生じれば、前記し
た癖や特徴がさらに大きな変動を生じていくことが考え
られ、これを回避することが困難なためである。

【０００５】なお、音声認識の補助手段として仮名文字
を入力することによって、認識の性能を向上しようとす
る考えがある（特開昭５８−１２３５９６，補助情報を
併用する音声認識方式）。ここでの考えは、発声音声の
音節数を押しボタンのオンオフ回数によって入力するこ
とや、日本語の５母音については５個のキーで与えるこ
との他に、子音の場合は数が多いためにキーで用意する
ことの代わりに仮名文字で入力する補助機能を与えよう
とするものである。しかし、これらはあくまでも音声認
識の補助手段として用いるもので、手書き文字による入
力を優先して使用したい場面では適用が困難となる。

【０００６】

【発明が解決しようとする課題】この発明の目的は、こ
の様な点に鑑みてなされたもので、視覚情報や聴覚情報
の入力したい情報内容を高精度でかつ容易に入力するた
めの情報入力装置を提供することにある。

【０００７】

【課題を解決するための手段】この発明の装置及び方法
のいずれにおいても、文字、図形、画像などの視覚情報
を入力する視覚情報入力手段と、この入力された視覚情
報を認識する視覚情報認識手段と、音声、音楽などの聴
覚情報を入力する聴覚情報入力手段と、その入力された
聴覚情報を認識する聴覚情報認識手段とが設けられる。

【０００８】この発明装置は、さらに視覚情報入力手段
の入力準備がなされるとこれが検出され、また聴覚情報
入力手段の入力準備がなされるとこれが検出され、両入
力準備の一方が検出されると、これと対応する入力手段
のみが情報入力可能とされ、両方の入力準備が検出され
ると、両方の入力手段が情報入力可能とされる。視覚情
報認識手段と聴覚情報認識手段との一方の認識結果候補
について、他方の認識手段は認識対象を絞る手段があ
る。また視覚情報認識手段と聴覚情報認識手段との両認
識結果が一致した認識候補については、その尤度を綜合
した尤度が求められて、その候補に対する尤度とされ
る。

【０００９】この発明の方法においては、視覚情報入力
手段と聴覚情報入力手段との一方を先に用いて情報を入
力認識し、その後、他方の入力手段を用いて対応する情
報を入力して認識するが、その認識対象を先の認識結果
に応じて絞り込む。また視覚情報入力手段による情報入
力と、聴覚情報入力手段による入力とを同時に行い、そ
の両認識結果の同一の候補についてはその尤度を綜合し
た尤度とし、これを用いて認識する。さらに前記一方を
先に入力する手法と、同時に入力する手法を選択的に用
いるようにする。

【００１０】

【作用】この発明による情報入力装置あるいは情報入
力方法を用いることにより、比較的雑な手書きの文字入
力や既に手書きされた文書が存在する場合にはこれを情
報入力源の基本として、これと音声認識技術を併用して
正しい情報源の作成を可能とすることができる。一方、
このような視覚情報源としての文書等が存在しない場合
には、聴覚情報としての音声信号を情報入力源の基本と
して、これと手書きの文字入力による認識技術を併用し
て、正しい情報源の作成を容易に行うことができる。

【００１１】つまり、現行の個々の技術では１００％の
認識率が達成されないことを前提として、例えば文字を
書くとともに、その文字の読みを音声により与えてやる
ことが考えられる。典型的な手法としては、文字認識に
よって複数の認識候補を挙げておき、それらを対象語と
した音声認識により正しい文字を選択する。例えば
「音」と手書きで書きつつ、「おと」と発声する。この
ような基本的な発明に関しては、多くの型がある。例え
ば、映像（動画像）により男女を識別する場合におい
て、本人の音声が得られれば、音声による男女識別と組
み合わせて全体の識別性能が上げられる。

【００１２】すなわち、この発明は、このような視覚情
報と聴覚情報を認識する技術を組み合わせることによ
り、精度の高い情報入力手段を提供できる。

【００１３】

【実施例】図１にこの発明による一実施例の機能構成を
示す。視覚情報入力部１は手書き等による文字や記号、
画像、図形、映像などの情報を作成しながら入力する部
分であり、視覚情報読取部２は既に作成されている文字
や記号、画像、図形、映像などの情報を読み取る部分で
あり、入力切替部３によりこれら視覚情報入力部１と視
覚情報読取部２のいずれか一方を切替え選択して視覚情
報を読み取る。また話者が発声した音声やその他の音響
情報をマイクロホンなどを介して取り込むための聴覚情
報入力部４が設けられている。入力切替部３により入力
された視覚情報の内容は視覚情報認識部５で認識され、
この視覚情報認識部５で認識された結果は認識結果ソー
ト部６で尤度（スコア、類似度もしくは距離値のことを
言う）の順に並べ替えられる。同様に聴覚情報入力部４
で入力された音響情報の内容は聴覚情報認識部７で認識
評価され、この聴覚情報認識部７で認識された結果は認
識結果のソート部８で尤度（前同）の順に並べ替えられ
る。認識結果の出力部９から前述した視覚情報と聴覚情
報との各々の認識結果が出力される。その認識された結
果の出力に誤りがある場合に修正箇所特定部１１で修正
箇所を特定することができる。入力情報が正しく修正さ
れた後の結果は半導体メモリや磁気ディスク等の入力情
報蓄積部１２に記録し蓄積され、これより情報出力部１
３にて正しく入力された情報は外部へ出力される。動作
制御部１４により各部の動作の起動や動作順序ならびに
入力切替部３の制御等、本装置の動作の手順の制御がな
される。

【００１４】この装置の外観例を図２に示す。筐体２１
はほゞ薄形の直方体状をしており、上面２１ａは背面２
１ｂに近づくに従って、ごくわずか立上がるテーパ面と
され、背面２１ｂの近くではさらに立上がるテーパ面と
され、この部分は認識結果を表示する表示面２２とされ
ている。極めて徐々に立上がる上面中央部は視覚情報入
力面２０であって、視覚情報入力部１の一部をなし、タ
ッチパネルや、ライトペンによる入力のためのＣＲＴ表
示器などであり、この視覚情報入力面２０に対し文字や
記号、図形の手書きなどによる入力を実行するためのペ
ン２３が視覚情報入力部１の他の一部として、上面２１
ａの前縁近くにこれと平行に取り外し自在に配されてい
る。ペン２３と視覚情報入力面２０との間に、視覚情報
読取部２を構成するＯＣＲ（光学文字読取器）などの一
部をなす光電変換部２４が取り外し自在に配されてい
る。光電変換部２４と並んで聴覚情報入力部４を構成す
るマイクロホン２５が必要に応じて取り出し自在に設け
られている。表示面２２と視覚情報入力面２０との間に
複数の制御キー２６が設けられ、制御キー２６は情報入
力時のカーソル位置の移動や入力切替部３の切替え、入
力情報の確定、印刷の実行や情報の出力等を指定選択
し、かつ制御する。

【００１５】筐体２１の側面の一端部に、認識結果を出
力するためのスピーカ２７及びイヤホン端子２８が設け
られ、また外部へ出力するためのデータ端子２９が設け
られている。タッチパネルやＣＲＴ表示器などの視覚情
報入力面２０と、表示面２２とは両者を一体にして、両
機能をもたせてもよい。次に図１及び図２に示したこの
発明装置の動作の例を説明する。まず、視覚情報入力部
１より文字等の情報を入力する場合は、動作制御部１４
により入力切替部３を視覚情報入力部１側のデータが視
覚情報認識部５に入力されるように設定する。視覚情報
入力部１では、例えば視覚情報入力面２０としてのタッ
チパネルとペン２３との組合せ等により、入力したい情
報内容を手書きによりデータとして入力する。なお、既
に入力したい情報源が有る場合には、入力切替部３を視
覚情報読取部２の側へ切替え、例えばＯＣＲ等の光走査
型情報読取部２４を用いて、その情報源の内容をデータ
として入力する。その結果、視覚情報入力部１もしくは
視覚情報読取部２の出力が視覚情報認識部５へ入力され
る。視覚情報認識部５では、事前に標準パターンとして
蓄積されている文字や記号の内容と比較対照して、入力
された情報内容が認識される。このとき、認識された候
補が１個の場合はその候補が認識結果出力部９へ出力さ
れる。しかし、認識された候補が１個でなく複数個有る
場合は、それらの候補の尤度の高い順序となるように認
識結果のソート部６で並べ替えを行い、その結果を認識
結果出力部９へ出力する。当該認識結果出力部９は、表
示面２２によって視覚的に確認したり、スピーカ２７や
イヤホーン２８等によって聴覚的に確認することができ
る。

【００１６】次に、情報源の入力に聴覚情報入力部４を
用いた場合について述べる。この場合は、話者音声を、
マイクロホン等の音響信号を電気信号に変換する機器を
用いて聴覚情報入力部４へ入力する。聴覚情報入力部４
では、音声等の聴覚情報の特徴を表現する複数のパラメ
ータに変換し、時系列のデータ群として聴覚情報認識部
７へ入力し、事前に辞書として登録されている標準の特
徴パラメータと音声であれば音素や単語あるいは文章や
記号の表記との対として対照して、入力された音声情報
の内容が何であるかを認識する。認識された候補が１個
の場合は先の場合と同様に、その候補が認識結果出力部
９へ出力される。しかし、認識された候補が１個でなく
複数個有る場合は、それらの候補の尤度の高い順序とな
るように認識結果のソート部８で並べ替えを行い、その
結果を認識結果出力部９へ出力する。

【００１７】以上のようにして手書き文字や記号等の視
覚情報の入力と、音声による聴覚情報の入力とのいずれ
によっても入力された内容の認識結果が出力できる。も
し、いずれの方法を用いても情報源として入力したい内
容が正しく認識されていれば、その結果を修正すること
なく修正結果の記憶部１２へ記録し、必要に応じて情報
出力部１３を経由してプリンタでハードコピーを入手し
たり、通信回線を経由した相手に情報の提供を行うこと
ができる。しかし、最初にも述べたように入力情報源
が、上記した視覚情報入力部１，視覚情報読取部２，聴
覚情報入力部４のいずれの入力方法を用いた場合でも修
正の必要が全く無く認識されることは稀である。そこで
以下に、認識を行う場合の手順ならびに認識結果に誤り
があった場合の修正と確定の方法の一例について説明す
る。

【００１８】先にも述べたようにこの発明においては、
所望とする情報の入力を実現する場合において、情報源
の入力方法には次の３通りがあり、この中から任意の一
つの入力方法が選択できるとともに、それに対応して誤
り修正の手法が設定される。その１は、視覚情報認識技
術もしくは視覚情報読取技術のいずれか一方を用いて入
力し、その認識結果に誤りがある場合に聴覚情報認識技
術を用いて正解となる内容に修正する方法であり、その
２は、最初に聴覚情報認識技術を用いて入力し、その認
識結果に誤りがある場合は視覚情報認識技術もしくは視
覚情報読取技術のいずれか一方を用いて正解となる内容
に修正する方法であり、その３は、視覚情報認識技術も
しくは視覚情報読取技術のいずれか一方と、聴覚情報認
識技術との両者を同時に用いて認識し、その認識結果に
誤りがある場合は視覚情報認識技術もしくは視覚情報読
取技術もしくは聴覚情報認識技術のいずれかを用いて修
正を行う方法である。

【００１９】このように、情報の入力時に適用する技術
の優先順位を、手書き文字入力手段、音声入力手段、あ
るいは両者の同時併用、の３通りの中からいずれか一つ
を選択して情報入力を可能とするように構成し、これに
応じて誤り修正の手順が設定されるようにしておくこと
により次のような利点が生ずる。利点の１は、情報源を
入力する周囲の環境に依存して対応できることである。
これは、例えば周囲が騒々しい場合は、視覚情報による
入力を優先して騒音が静まった時機を見計らって音声等
の聴覚情報による修正を加えること、逆に周囲が比較的
静かな環境でかつ移動する車内など手元が揺れるような
場面や暗がりのような場面では音声入力を優先し、誤っ
た箇所は揺れがない時機や明るい場面で手書きによる修
正を行うことが可能となる。

【００２０】この場合の認識のフローの例を図３に示
す。図３Ａは、視覚情報を入力し（Ｓ ₁），その視覚情
報を認識し（Ｓ₂），その結果が第一位からｎ位まで得
られて出力される（Ｓ₃）。この情報を聴覚情報による
認識時の認識対象候補として絞り込むため、同一入力情
報源について聴覚情報を入力し（Ｓ₄），その聴覚情報
中の、視覚情報で認識された候補ｎ個を対象として認識
し（Ｓ₅），その認識結果を出力する（Ｓ₆）。このよ
うに両者の協調によって認識処理時間の短縮と認識確度
の向上が期待される。同図Ｂは、情報入力の手順を上記
の逆にした場合で、つまり、まず視覚情報を入力し、こ
れを認識し、その認識候補について視覚情報入力により
認識する。得られる効果はＡの場合と同様である。ただ
し、どちらの認識手順を優先するかは、使用者が任意に
制御キー２６の選択で行うが、情報入力時の周囲の環境
などを考慮して高い精度の認識結果が得られる方へ設定
することができる。

【００２１】利点の２は、手書き文字等の視覚情報の認
識もしくは読み取り技術のいずれか一方と音声認識技術
の両者を同時に用いて認識する場合で、このときは文字
などを書きながら、その文を声に出して読み上げながら
入力していく形式となるため、文書などの作成に際して
は内容の入力そのものの誤りが低減できる可能性が大き
くなることが期待される。

【００２２】以下にこの場合の具体的手法を示す。例１：手書きで入力したい情報を入力することに併行し
て、音声でも同じ内容を発声して入力する。両者の協調
により、入力精度は、手書き文字認識単独の精度より
も、また音声認識単独の精度よりも高い。手書き入力と
音声入力の両者の組合せの実施例としては、以下のよう
な入力手法が考えられる。

【００２３】具体例１）：手書きで「嵯峨山」と入力
し、音声で「さがやま」と入力する。この場合は、人名
を漢字で手書きしてかつその読みを音声で入力したもの
である。具体例２）：手書きで「音声」と入力し、音声で「お
と、こえ」と入力する。この場合は、漢字１文字毎の読
みを訓読みで入力したものである。

【００２４】具体例３）：手書きで「識」と入力し、音
声で「ごんべん」と入力する。この場合は、「識」の部
首名称を音声で入力したものである。具体例４）：手書きで「嵯」と入力し、音声で「やまへ
ん、さ」と入力する。この場合は、入力文字の部首名称
と、文字を示唆する部分の読みを入力するものである。

【００２５】具体例５）：手書きで「機」と入力し、音
声で「きかい」と発声し入力する。この場合は、入力し
たい文字を含む熟語を発声して入力するものである。具体例６）：手書きで「機」と入力し、音声で「きか
い、きへん、はた」と入力する。この場合は、上記の具
体例２）〜５）を包含する複数の内容の発声音声で入力
するものである。

【００２６】具体例７）：手書きで「◇」と入力し、音
声で「ひしがた」と入力する。この場合は、記号の入力
であることを音声で教示してやるものである。これらの
例のように、視覚情報が単数あるいは複数の手書き文字
あるいは手書き記号の場合では、聴覚情報が入力しよう
とする視覚情報の音読みあるいは訓読みあるいは部首の
名称あるいは記号名あるいは入力しようとする文字を示
唆する単語やキーワードで情報の入力を行うことができ
る。

【００２７】以下の例２〜５は、画像あるいは映像を情
報源としてこれを認識する場合に、音声を併用して認識
精度の向上を図るものである。例２：嵯峨山の顔を画像認識入力し、音声で「さがや
ま」と入力する。両者の協調により、キーボードから入
力しないでも、「嵯峨山」が入力できる。その精度は、
画像認識単独の精度よりも、また音声認識単独の精度よ
りも高い。

【００２８】例３：映像入力が赤紫色の物体で、音声で
は「あかむらさき」と入力する。両者の協調により、色
名「赤紫」が精度良く入力できる。その精度は、映像の
色彩認識単独の精度よりも、また音声認識単独の精度よ
りも高い。例４：画像認識入力が男の顔で、音声も男の音声が入力
される。両者の協調により、対象が男であることが認識
される、つまり男女の性別の入力に用いて、その精度
は、画像認識単独の精度よりも、また音声認識単独の精
度よりも高い。

【００２９】例５：手書き図形入力が正方形で、音声で
「せいほうけい」と入力する。両者の協調により、その
精度は、画像認識単独の精度よりも、また音声認識単独
の精度よりも高い。例６：書籍を読み取る文字認識入力と、その内容を朗読
した音声の両方の協調により、精度良く入力ができる。
その精度は、文字認識単独の精度よりも、また音声認識
単独の精度よりも高い。

【００３０】次に入力した内容が、所望の情報内容であ
ることを抽出確定する過程について説明する。この場合
は、視覚情報認識技術もしくは視覚情報読取技術のいず
れか一方と、聴覚情報認識技術を併用したときに認識さ
れる上位から第ｎ位までの候補を、認識結果のソート部
６ならびに８を経て、認識結果出力部９へ出力する。こ
のとき、視覚情報認識技術もしくは視覚情報読取技術の
いずれか一方と、聴覚情報認識技術との両者による出力
結果が同一であるとした候補が複数組ある場合には、視
覚情報認識技術もしくは視覚情報読取技術と、聴覚情報
認識技術との両者で認識した結果から、まずそれぞれの
尤度（スコア、類似度もしくは距離値）の和を求め、次
に尤度（前同）の和の大きい順に前記のソート部６また
は８でソーティングを行って、その結果を視覚情報とし
てディスプレイに表示するか、もしくは聴覚情報として
使用者が確認できるように認識結果出力部９へ出力す
る。

【００３１】この場合、視覚情報認識技術もしくは視覚
情報読取技術と、聴覚情報認識技術との両者を用いて認
識したときに算出されるそれぞれの尤度の値に、一定の
重み係数を付与した後に両者の和を求めることが必要と
なる場合も生ずる。これは例えば、視覚情報を用いたと
きの認識尤度の値が第１位から５位までが８００から５
０程度の範囲であるのに対し、聴覚情報を用いたときの
認識尤度の値が前と同じく第１位から５位までが１０か
ら0.２程度と桁数が異なる場合は、それらの尤度の値に
重みつけを行うことが必要で、これは実験的に前もって
適当な値に設定しておくことが精度の良い認識結果を得
るために大切である。実験的に各種の場合を決めるのは
大変であるから、両認識尤度がほゞ同一オーダとなるよ
うに、例えば正規化してもよい。

【００３２】次に、認識結果出力部９へ認識結果が出力
されかつ、その内容の一部に誤りがある場合には、修正
箇所特定部１１により修正したい箇所へカーソルを移動
してやることとなる。この場合の、誤り修正を行うため
の修正箇所を特定するための手段としては、文字入力に
使用する機能部品であるペン２３や指を用いるかもしく
は上下左右方向へカーソルを移動して修正箇所を特定で
きる動作制御部の機能キー２６を用いることとなる。

【００３３】さらに、誤り修正を行うための修正箇所が
文字の一部分をなす偏や旁である場合は、前述した方法
により修正したい箇所を指定し、既に認識されている文
字以外の候補を保有している辞書の中から複数個を順次
候補として出力するとともに、当該候補の中から正解で
ある文字に対してこれを特定する機能を付与している。

【００３４】なお、入力すべき情報が特に文字の場合で
かつ音声認識技術を用いる場合は、文字の読みを音読み
もしくは訓読みのいずれをも許容できるように表記法を
変えて事前に登録しておくこととする。これらの内容に
ついては、先に手書き入力と音声入力の組合せの実施例
として既に示した通りである。他の実施例として、入力
から確定までの一連の手順を以下に示す。

【００３５】まず入力モードの切替えは、例えばペン２
３を筐体２１から取り上げることによって視覚情報入力
の優先モードとなり、一方情報読取部２４の例えばＯＣ
Ｒ部品を取り上げれば視覚情報読取部の優先モードとな
るように構成することで、機能キー２６の個数を低減し
て構成できる。聴覚情報による入力を優先する場合は、
前述の機能キー２６で選定すれば良い。なお音声入力の
場合は、発話の開始と終了のタイミングを特定するため
の機能キーを指定しておき、これを用いて発話区間の情
報の入力を同時に行うことによって、より高精度の認識
が実現できる場合もある。

【００３６】このような入力の動作機能を有する情報入
力装置において、ペン２３を筐体２１から取り上げてタ
ッチパネルなどの視覚情報入力面２０等の上に「認識する」という文字を手書きによって入力すると、手書き情報の
入力優先状態となって文字認識動作が行われる。このと
き、音声の入力も同時に行いたい場合には、前述のキー
選択２６を手書き情報入力と音声情報入力との両者を同
時に行うためのキーを押下すれば良い。情報の入力が終
了すれば、認識された結果が先に述べた尤度値の順位で
表示面２２あるいはスピーカ２７等に表示される。その
結果が、例えば「認識する」というように「識」の部分が「職」に誤っていた場合
は、ペン２３で、当該誤り部分を指定すると、その部分
の第２候補が出力されてくる。この時点で正解の「識」
が出力されれば、機能キー２６の例えば「確定」という
キーを押下するか、もしくはこれに代わるコマンドを入
力することで、正しい入力情報を確定して取り込むこと
ができる。

【００３７】全体の処理流れ図を図４に示す。つまり常
時は入力準備が検出されるかを監視し（Ｓ₁），つまり
視覚情報手動入力、視覚情報読出し入力、または聴覚入
力を示すいずれかのキー２６が操作されるか、ペン２３
の取り上げ、情報読取部２４の取り上げ、マイクロホン
２５の取り出しのいずれかが行われると、入力準備が検
出される。これより手動入力、つまり手書入力かが調べ
られ（Ｓ₂），手書入力でなければ読取り入力かが調べ
られ（Ｓ₃），読取り入力でなければ聴覚情報の入力と
決定され、聴覚情報入力部４からの聴覚情報が取り込ま
れる（Ｓ₄）。この取り込まれた聴覚情報に対する認識
が聴覚情報認識部７で行われ（Ｓ₅），その認識結果が
出力部１３から出力され、誤りがあるかが調べられる
（Ｓ₆）。

【００３８】誤りがあれば視覚情報入力手段、視覚情報
入力部１，または視覚情報読取部２から、前記聴覚情報
入力部４で入力した聴覚情報と対応した視覚情報が入力
される（Ｓ₇）。その入力された視覚情報は視覚情報認
識部５で認識されるが、その認識対象は聴覚情報認識ス
テップＳ₅で認識された候補のうち、予め決められた上
位から一定の数のものについて認識が行われる
（Ｓ₈）。その認識結果は尤度の高い順に出力部１３に
可視表示され、または可聴的に出力される（Ｓ₇）。そ
の認識結果候補において、必要に応じて修正が行われ
（Ｓ₁₀），その後、正しい入力して確定操作が例えばキ
ー２６により行われる（Ｓ₁₁）。

【００３９】一方ステップＳ₂またはＳ₃において、視
覚情報の入力準備状態が検出されると、聴覚情報入力準
備状態になっているかが調べられる（Ｓ₁₂）。聴覚情報
入力準備状態になっていないと、フラグが立っているか
が調べられる（Ｓ₁₃），つまりステップＳ₃で読取り入
力の準備が検出されると、フラグが１に立てられてステ
ップＳ₁₂に移る。ステップＳ₁₃でフラグが１であれば入
力切替部３は視覚情報読取部２に切替えられる
（Ｓ₁₅）。入力切替部３はフラグが０の場合は視覚情報
入力部１に切替えられる。次に視覚情報が取り込まれ
（Ｓ₁₆），この視覚情報が視覚情報認識部５で認識され
る（Ｓ₁₇）。その認識結果に誤りが有るかが調べられ
（Ｓ₁₈），誤りがなければ確定出力され、誤りがあれば
聴覚情報入力部４により入力された視覚情報と対応した
情報が入力される（Ｓ₁₉）。その入力聴覚情報は聴覚情
報認識部７で認識されるが（Ｓ₂₀），この認識はステッ
プＳ₁₇での認識結果中の尤度が高い順から所定数の候補
のみが認識対象とされる。この認識結果は尤度の高い順
に出力部１３により出力される（Ｓ₉）。

【００４０】ステップＳ₁₂で聴覚情報入力準備がなされ
ていることが検出されると、この場合は、聴覚情報、視
覚情報の同時入力の場合であって、入力された視覚情報
及び聴覚情報が取り込まれ（Ｓ₂₁），これら視覚情報及
び聴覚情報がそれぞれ認識される（Ｓ₂₂）。これら両認
識結果の候補中の同一のものについては綜合尤度が計算
され（Ｓ₂₃），この綜合尤度と、不一致候補の尤度との
うち予め決めた数だけ高いものから出力部１３から出力
される（Ｓ₉）。

【００４１】視覚情報を入力し、聴覚情報を入力してい
ない場合は聴覚情報入力部４から周囲の騒音や雑音が入
力されたり、誤動作しないように情報入力準備の検出状
態で聴覚情報入力部４から聴覚情報認識部７への入力を
禁止、または聴覚情報認識部７の処理を禁止する。上述
では聴覚情報としては音声を例として述べたが、例えば
救急車の視覚情報の入力と対応して聴覚情報として救急
車のサイレンを入力してもよい。動物の視覚情報の入力
と対応して、その動物の鳴き声を聴覚情報として入力し
てもよい、など各種の音を聴覚情報とすることもでき
る。

【００４２】

【発明の効果】以上説明したように、文字や記号などの
情報を高精度に入力する場合、従来のワープロやパソコ
ン等を用いたときに多くのキー入力を必要とする場合に
比べて、この発明による情報入力装置、情報入力方法を
用いることにより、比較的雑な手書きの文字入力や既に
手書きされた文書が存在する場合にはこれを情報入力源
の基本として、これと音声認識技術を併用して正しい情
報源の作成を可能とすることができることと、これを必
要最小限のキー操作で容易に素早い入力が可能となるた
め、特にキーボードの操作に不慣れな使用者に対しても
違和感なく、情報の入力が実現できる。

【図面の簡単な説明】

【図１】この発明による装置の一実施例を示すブロック
構成図。

【図２】この発明による装置の外観構成の例を示す斜視
図。

【図３】視覚情報と聴覚情報を用いた場合の認識手順を
示す流れ図。

【図４】この発明による方法の処理手順の例を示す流れ
図。

Claims

【特許請求の範囲】

【請求項１】文字、記号、図形、画像などの視覚情報
を入力する視覚情報入力手段と、音声、音楽などの聴覚情報を入力する聴覚情報入力手段
と、上記視覚情報入力手段より入力された視覚情報を認識す
る視覚情報認識手段と、上記聴覚情報入力手段より入力された聴覚情報を認識す
る聴覚情報認識手段と、上記視覚情報認識手段の認識結果と、上記聴覚情報認識
手段の認識結果を出力する認識結果出力手段と、を具備する情報入力装置。
【請求項２】上記視覚情報入力手段の入力準備を検出
する手段と、上記聴覚情報入力手段の入力準備を検出す
る手段と、上記両入力準備検出手段の一方が入力準備を
検出すると、これと対応する入力手段のみが情報入力可
能とされ、両入力準備検出手段の両方が入力準備を検出
すると、上記両入力手段の情報入力を可能とする手段と
を含むことを特徴とする請求項１記載の情報入力装置。
【請求項３】上記視覚情報認識手段及び上記聴覚情報
認識手段の一方の認識結果候補についてのみ、他の認識
手段による認識処理を行う手段を含むことを特徴とする
請求項１記載の情報入力装置。
【請求項４】上記視覚情報認識手段により認識された
候補と上記聴覚情報認識手段により認識された候補とを
比較する手段と、その比較により一致した候補が複数あ
る場合はその同一候補についての両尤度から綜合尤度を
求めて、その候補の尤度とする手段とを含むことを特徴
とする請求項１記載の情報入力装置。
【請求項５】上記視覚情報入力手段は視覚情報を作成
してから入力する視覚情報手動入力手段と、作成されて
いる視覚情報を読み取る視覚情報読取手段と、これら視
覚情報手動入力手段と、視覚情報読取手段との一方を選
択して入力された視覚情報を上記視覚情報認識手段へ供
給する入力切替手段とよりなることを特徴とする請求項
１乃至４記載の情報入力装置。
【請求項６】文字、記号、図形、画像などの視覚情報
を入力する視覚情報入力手段と、音声、音楽などの聴覚
情報を入力する聴覚情報入力手段と、上記視覚情報入力
手段より入力された視覚情報を認識する視覚情報認識手
段と、上記聴覚情報入力手段より入力された聴覚情報を
認識する聴覚情報認識手段とを備えた情報入力方法にお
いて、上記視覚情報入力手段と、聴覚情報入力手段との一方を
用いて情報を入力し、その入力情報を対応する認識手段で認識し、その後、他方の入力手段で、上記入力情報と対応する情
報を入力し、その入力情報と対応する認識手段により、上記認識結果
に応じて認識対象候補を絞って認識を行って認識候補を
得ることを特徴とする情報入力方法。
【請求項７】文字、記号、図形、画像などの視覚情報
を入力する視覚情報入力手段と、音声、音楽などの聴覚
情報を入力する聴覚情報入力手段と、上記視覚情報入力
手段より入力された視覚情報を認識する視覚情報認識手
段と、上記聴覚情報入力手段により入力された聴覚情報
認識手段とを備えた情報入力方法において、上記視覚情報入力手段を用いて情報を入力すると共に、
上記聴覚情報入力手段を用いて上記情報と対応した情報
を同時に入力し、これら入力情報をそれぞれ対応した認識手段で認識し、これら両認識手段により認識結果中の同一候補について
それらの尤度の綜合尤度を求めて認識候補を得ることを
特徴とする情報入力方法。
【請求項８】上記視覚情報入力手段と聴覚情報入力手
段との一方を用いて情報を入力し、その入力情報を対応する認識手段で認識し、その後、他方の入力手段で上記入力情報と対応する情報
を入力し、その入力情報を対応する認識手段により、上記認識結果
に応じて認識対象候補を絞って認識を行う方法と、上記
両入力手段を同時に用いて認識を行って認識候補を得る
方法とを選択的に用いることを特徴とする請求項７記載
の情報入力方法。
【請求項９】得られた認識候補に対する修正は、その
認識候補が視覚情報の認識結果にもとづく場合は聴覚情
報を入力して行い、聴覚情報の認識結果にもとづく場合
は視覚情報を入力して行うことを特徴とする請求項６乃
至８のいずれかに記載の情報入力方法。
【請求項１０】上記入力する視覚情報が単数あるいは
複数の文字あるいは記号である場合は、上記入力する聴
覚情報として上記視覚情報の音読み、あるいは訓読み、
あるいは部首の名称、あるいは記号、あるいは上記視覚
情報を示唆する単語やキーワードであることを特徴とす
る請求項６乃至８のいずれかに記載の情報入力方法。
【請求項１１】上記綜合尤度は、視覚情報認識結果の
尤度と聴覚情報認識結果の尤度との一方に重み係数を付
与した後、両者を加算したものであることを特徴とする
請求項７または８記載の情報入力方法。