JPH0614375B2

JPH0614375B2 - 文字入力装置

Info

Publication number: JPH0614375B2
Application number: JP58241992A
Authority: JP
Inventors: 健二藤方; 宣之武市
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-12-23
Filing date: 1983-12-23
Publication date: 1994-02-23
Anticipated expiration: 2009-02-23
Also published as: JPS60134992A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は文字認識、いわゆるＯＣＲ（Optical Charact
er Recognition）の後処理方式あるいは音声認識の後
処理方式に係り、特に一意に認識できないいわゆる不読
文字を、言語としての観点から評価して決定する文字入
力装置に関する。

〔発明の背景〕

手書き文字や印刷文字をそのパターンを調べて文字認識
する場合において、書かれている文字を正しく認識でき
ない不読文字の場合でも、何番目かの候補には正しい文
字が含まれている場合が多い。従来、このような場合の
正しい候補を選び出すための文字認識の後処理方式とし
て、認識した文字列を単語辞書と比較することによって
正誤を判定する方式が知られており、すでに住所などの
単語入力について効果があることが報告されているが、
一般の文章入力に対しては、単語数が膨大でかつ処理が
複雑で時間がかかり、実用は困難であつた。なお、従来
の文字認識方式については、例えば、特開昭５８−４８
１８１号、５８−１６６４９０号を参照。

〔発明の目的〕

本発明の目的は、一般の文章に対しても適用可能な言語
解析による認識後処理機能により、入力文字の修正工数
を削減可能な文字認識による文字入力装置を提供するこ
とにある。

以下の説明では日文語の場合を例にとり説明するが、他
の言語たとえば英語、韓国語、中国語等においても実施
可能である。また以下とくに文字認識の出力について説
明するが、音声認識による認識出力についても実施可能
である。

〔発明の概要〕

本発明は、文字または音声を認識し、認識結果を少なく
とも文字コード、類似度、およびその類似度の順位の組
で構成される文字候補として出力する確認手段と、前記
文字候補を処理単位となる文字列に区切る文字列区切り
判定手段と、前記処理単位となる文字列内の各文字候補
を組み合わせて複数の文字列候補を作成する文字列候補
作成手段と、前記複数の文字列候補について言語として
の妥当性を示す言語尤度を出力する言語解析手段とを備
えた文字入力装置において、前記複数の文字列候補につ
いて求めた言語尤度のうち、最大の言語尤度が所定の言
語尤度閾値を越える場合には、前記最大の言語尤度に対
応する文字列候補を出力し、前記最大の言語尤度が所定
の言語尤度閾値以下の場合には、前記類似度の順位が第
１位の文字候補から成る文字列候補を出力する文字列候
補選択手段を備えたことを特徴とする。

〔発明の実施例〕

第１図は文字原稿１を文字認識部２によつて文字認識
し、その結果を日本文解析部３によつて評価して最適な
認識文字候補を選択し、テキストデータ４としてコード
化するための処理手順の概要である。本発明はこのうち
の日本文解析部３の構成と制御に関し、必要最小限の日
本文解析処理を行なうとともに、日本文解析の評価値と
認識類似度の両者によつて最適な認識文字候補を選択出
力するものである。

以下、本発明の一実施例を第２図の構成図、第３図のフ
ローチヤート、第４図から第６図までのデータにより説
明する。

第２図の文字認識部１１は手書きあるいは印刷文書の文
字原稿２１に書かれた文字を認識し、各文字に対する認
識結果を複数の文字コードと類似度および順位の組で構
成される認識文字候補２２として出力する。例えば「大
きい犬だ。」という文を認識した場合の認識文字候補２
２は第４図に示した形式で出力される。すなわち各文字
の候補数３１、文字コードイと類似度ロから成る文字候
補３２が出力され、順位は類似度の大きい上から順に１
位，２位，３位…となる。

文字列区切り判定部１２は、認識文字候補２２を、後続
の日本文解析処理が簡単になるように、解析処理単位に
区切るものであり、第１位の文字候補が句読点やスペー
スであるところで区切る。第４図の例では「大きり犬
だ」が１つの解析処理単位となる。

つぎに類似度閾値判定部１３では解析処理単位の各文字
候補の類似度を所定の類似度閾値と比較し、日本文解析
の対象とすべき文字列候補作成のための組合せ文字候補
２３を抽出する。具体的には第５図に示したように所定
の類似度閾値を越える文字候補については、各文字毎に
その候補数を求め、組合せ文字候補数４１として対応す
る組合せ文字候補４２に対応して記録する。ただし所定
の類似度閾値を越える文字候補がない場合はその組合せ
文字候補数は１とする。第５図は所定の類似度閾値を６
０とした場合の組合せ文字候補である。

文字列候補作成部１４は、組合せ文字候補２３を組合せ
て文字列候補２４を作る。第５図の組合せ文字候補に対
しては、組合せ文字候補数４１の積に相当する組合せが
でき、第６図に示すように１２種の文字列候補２４が出
力される。

日本文解析部１５は与えられた文字列について日本文と
しての妥当性をチエツクするものであり、公知の技術を
用いて実現できる。簡単な方法としては、文字列を単語
辞書と比較し、対応する単語の有無や品詞あるいは単語
の使用頻度を得、また前後の文字列と文法的に接続可能
性を評価して言語尤度を求めることができる。さらに進
んだ方法としては、文節で区切られていないベタ書き文
についても文献（「ベタ書き文の仮名漢字変換」，昭和
５２年度電子通信学会情報部門全国大会９１）などに見
られる技術を用いて日本文の尤度を求めることができ
る。日本文解析手法については詳細説明は省略し、文字
列に対して日本語尤度Ｊを出力する機能を有するものと
して扱う。第２図の日本文解析部１５では、文字列候補
２４の各々について日本語尤度２５を求める。日本文解
析部１５による処理は、第３図のフローチヤートの上部
に示すように、文字列候補２４すべてについて日本語尤
度２５を求め終るまで続けられ、その結果は第６図で示
したようになる。第６図の例では日本語尤度は５段階評
価で表わされており、３番目の文字列候補の尤度が５で
最大である。

文字列候補選択部１６では、日本語尤度２５を比較と、
最大な日本語尤度を検出する。この最大な日本語尤度を
Ｊ_MAXとする。また予め定めた日本語尤度閾値をＪ_THと
する。第３図のフローチヤートの下半分に示したよう
に、Ｊ_MAXとＪ_THを比較して、Ｊ_MAX＞Ｊ_THの場合はＪ
_MAXに対応する文字列を最適文字列出力２６として選択
出力する。第６図では３番目の文字列候補「大きい犬
だ」の日本語尤度が最大で、Ｊ_MAX＝５であるので、Ｊ
_TH＝４と仮定した場合には「大きい犬だ」が出力され
る。Ｊ_MAX≦Ｊ_THの場合には、当該文字列は日本文とし
ての体をなしていないことになり、日本文解析によつて
も正しい文字列候補の判定ができないので、第１位の文
字候補から成る文字列を文字列候補２４の中から選択し
て最適文字列出力２６として出力する。

この結果を具体的に説明するとつぎのようになる。まず
Ｊ_MAX≦Ｊ_THとなるのは、文字候補の中に正解が存在し
ない場合に生じ易い。具体例を第７図に示すが、これは
「日本国民は」を文字認識させた場合に「日」という字
が認識できず、候補に含まれていない例である。この場
合には隣接する文字の誤つた候補と組合わされた文字列
候補の日本語尤度が最大になる。すなわち２番目の誤つ
た候補と組合された「白木国民は」という文字列候補の
日本語尤度が最大値Ｊ_MAXとなり、このままでは正しく
認識された２番目の「本」という文字まで巻き添えを受
けて改悪されることになるが、Ｊ_MAX≦Ｊ_THの場合の処
理によりこのような併害を無くすことが可能となり、第
１位の文字候補から成る「白本国民は」が出力される。

なお、本実施例において認識文字候補の類似度が非常に
低い場合には、正しい組合せ文字候補が存在しない可能
性が大であり、その場合には無駄に日本文解析するのを
止めるように制御することが望ましい。そのため制御を
追加した実施例のフローチヤートを第８図に示す。すな
わち、類似度閾値判定部１３において、所定の類似度閾
値の照合に先立つて、それよりも低い足切り類似度閾値
と第１位の文字候補の類似度を比較し、足切り類似度閾
値以下の第１位の文字候補の類似度が存在する場合は文
字列候補作成部１４において類似度が第１位の文字候補
から成る文字列を作成し、これを直接に最適文字列出力
２６として出力する。

つぎに本発明をワードプロセツサの入力アダプタとして
用いた実施例を第９図により説明する。本実施例は、Ｏ
ＣＲ６３をワードプロセツサ６１の入力手段として用い
るものである。文書入力制御装置６２はＯＣＲ６３によ
る手書き文書や印刷文書の認識入力、認識結果の認識文
字候補メモリ６４への格納、言語解析すべき文字列候補
の作成とその文字列候補メモリ６５への格納、言語解析
装置６６の制御、処理結果の文字列出力用テキストメモ
リ６７への格納などの、各制御を行なう。

文書入力制御装置６２はマイクロプロセツサにより構成
され、認識文字候補メモリ６４、文字列候補メモリ６
５、文字列出力用テキストメモリ６７はマイクロプロセ
ツサのメモリであり、OCR６３や言語解析装置６６はそ
れぞれマイクロプロセツサの付加装置として構成され
る。

本実施例によれば、ＯＣＲで読みとつた文字のうち、一
意に決定できない不読文字を、言語としての尤度という
別の観点から評価することにより決定することが可能と
なり、ワードプロセツサの初期入力用にＯＣＲを使用す
ることが可能となる。

ここで、漢字ＯＣＲの代りに音声認識装置を用いた場合
でも同様の効果が得られることは言うまでもなく、音声
入力によるワードプロセツサの実現も可能となる。

〔発明の効果〕

以上述べたように、本発明によれば、まず言語解析すべ
き文字列候補を必要最小限に絞ることにより、処理時間
の減少を図ることができる。つぎに、言語解析によつて
も評価の良くない文字列については、認識類似度第１位
の文字候補を選択出力するため、隣接の誤認識文字につ
られて誤つた文字候補が文として成り立つ場合の誤判定
の弊害を無くすることができ、言語解析の適用による文
字認識後処理の効果を高めることができるので、ＯＣＲ
や音声認識を一般の文章入力に利用することが可能とな
る。

【図面の簡単な説明】

第１図は本発明の概要を示す図、第２図は本発明の一実
施例、第３図はそのフローチヤート、第４図は認識文字
候補、第５図は組合せ文字候補、第６図は文字列候補と
その日本語尤度、第７図は組合せ候補の他の例、第８図
は第２図の構成において制御機能を追加した場合のフロ
ーチヤート、第９図は他の実施例を示す図である。１１……文字認識部、１２……文字列区切り判定部、１
３……類似度閾値判定部、１４……文字列候補作成部、
１５……日本文解析部、１６……文字列候補選択部。

Claims

【特許請求の範囲】

【請求項１】文字または音声を認識し、認識結果を少な
くとも文字コード、類似度、およびその類似度の順位の
組で構成される文字候補として出力する認識手段と、前記文字候補を処理単位となる文字列に区切る文字列区
切り判定手段と、前記処理単位となる文字列内の各文字候補を組み合わせ
て複数の文字列候補を作成する文字列候補作成手段と、前記複数の文字列候補について言語としての妥当性を示
す言語尤度を出力する言語解析手段とを備えた文字入力
装置において、前記複数の文字列候補について求めた言語尤度のうち、
最大の言語尤度が所定の言語尤度閾値を越える場合に
は、前記最大の言語尤度に対応する文字列候補を出力
し、前記最大の言語尤度が所定の言語尤度閾値以下の場
合には、前記類似度の順位が第１位の文字候補から成る
文字列候補を出力する文字列候補選択手段を備えたこと
を特徴とする文字入力装置。
【請求項２】特許請求の範囲第１項において、前記文字
列区切り判定手段にて区切られた前記処理単位となる文
字列内の類似度の順位が第１位の文字候補のうち、所定
の足切り類似度閾値以下の文字候補が存在する場合に
は、前記文字列候補作成手段にて、類似度の順位の第１
位の文字候補から成る文字列を作成して直接出力するこ
とを特徴とする文字入力装置。