JPH0614375B2 - 文字入力装置 - Google Patents

文字入力装置

Info

Publication number
JPH0614375B2
JPH0614375B2 JP58241992A JP24199283A JPH0614375B2 JP H0614375 B2 JPH0614375 B2 JP H0614375B2 JP 58241992 A JP58241992 A JP 58241992A JP 24199283 A JP24199283 A JP 24199283A JP H0614375 B2 JPH0614375 B2 JP H0614375B2
Authority
JP
Japan
Prior art keywords
character
character string
candidate
candidates
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58241992A
Other languages
English (en)
Other versions
JPS60134992A (ja
Inventor
健二 藤方
宣之 武市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58241992A priority Critical patent/JPH0614375B2/ja
Publication of JPS60134992A publication Critical patent/JPS60134992A/ja
Publication of JPH0614375B2 publication Critical patent/JPH0614375B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文字認識、いわゆるOCR(Optical Charact
er Recognition)の後処理方式あるいは音声認識の後
処理方式に係り、特に一意に認識できないいわゆる不読
文字を、言語としての観点から評価して決定する文字入
力装置に関する。
〔発明の背景〕
手書き文字や印刷文字をそのパターンを調べて文字認識
する場合において、書かれている文字を正しく認識でき
ない不読文字の場合でも、何番目かの候補には正しい文
字が含まれている場合が多い。従来、このような場合の
正しい候補を選び出すための文字認識の後処理方式とし
て、認識した文字列を単語辞書と比較することによって
正誤を判定する方式が知られており、すでに住所などの
単語入力について効果があることが報告されているが、
一般の文章入力に対しては、単語数が膨大でかつ処理が
複雑で時間がかかり、実用は困難であつた。なお、従来
の文字認識方式については、例えば、特開昭58−48
181号、58−166490号を参照。
〔発明の目的〕
本発明の目的は、一般の文章に対しても適用可能な言語
解析による認識後処理機能により、入力文字の修正工数
を削減可能な文字認識による文字入力装置を提供するこ
とにある。
以下の説明では日文語の場合を例にとり説明するが、他
の言語たとえば英語、韓国語、中国語等においても実施
可能である。また以下とくに文字認識の出力について説
明するが、音声認識による認識出力についても実施可能
である。
〔発明の概要〕
本発明は、文字または音声を認識し、認識結果を少なく
とも文字コード、類似度、およびその類似度の順位の組
で構成される文字候補として出力する確認手段と、前記
文字候補を処理単位となる文字列に区切る文字列区切り
判定手段と、前記処理単位となる文字列内の各文字候補
を組み合わせて複数の文字列候補を作成する文字列候補
作成手段と、前記複数の文字列候補について言語として
の妥当性を示す言語尤度を出力する言語解析手段とを備
えた文字入力装置において、前記複数の文字列候補につ
いて求めた言語尤度のうち、最大の言語尤度が所定の言
語尤度閾値を越える場合には、前記最大の言語尤度に対
応する文字列候補を出力し、前記最大の言語尤度が所定
の言語尤度閾値以下の場合には、前記類似度の順位が第
1位の文字候補から成る文字列候補を出力する文字列候
補選択手段を備えたことを特徴とする。
〔発明の実施例〕
第1図は文字原稿1を文字認識部2によつて文字認識
し、その結果を日本文解析部3によつて評価して最適な
認識文字候補を選択し、テキストデータ4としてコード
化するための処理手順の概要である。本発明はこのうち
の日本文解析部3の構成と制御に関し、必要最小限の日
本文解析処理を行なうとともに、日本文解析の評価値と
認識類似度の両者によつて最適な認識文字候補を選択出
力するものである。
以下、本発明の一実施例を第2図の構成図、第3図のフ
ローチヤート、第4図から第6図までのデータにより説
明する。
第2図の文字認識部11は手書きあるいは印刷文書の文
字原稿21に書かれた文字を認識し、各文字に対する認
識結果を複数の文字コードと類似度および順位の組で構
成される認識文字候補22として出力する。例えば「大
きい犬だ。」という文を認識した場合の認識文字候補2
2は第4図に示した形式で出力される。すなわち各文字
の候補数31、文字コードイと類似度ロから成る文字候
補32が出力され、順位は類似度の大きい上から順に1
位,2位,3位…となる。
文字列区切り判定部12は、認識文字候補22を、後続
の日本文解析処理が簡単になるように、解析処理単位に
区切るものであり、第1位の文字候補が句読点やスペー
スであるところで区切る。第4図の例では「大きり犬
だ」が1つの解析処理単位となる。
つぎに類似度閾値判定部13では解析処理単位の各文字
候補の類似度を所定の類似度閾値と比較し、日本文解析
の対象とすべき文字列候補作成のための組合せ文字候補
23を抽出する。具体的には第5図に示したように所定
の類似度閾値を越える文字候補については、各文字毎に
その候補数を求め、組合せ文字候補数41として対応す
る組合せ文字候補42に対応して記録する。ただし所定
の類似度閾値を越える文字候補がない場合はその組合せ
文字候補数は1とする。第5図は所定の類似度閾値を6
0とした場合の組合せ文字候補である。
文字列候補作成部14は、組合せ文字候補23を組合せ
て文字列候補24を作る。第5図の組合せ文字候補に対
しては、組合せ文字候補数41の積に相当する組合せが
でき、第6図に示すように12種の文字列候補24が出
力される。
日本文解析部15は与えられた文字列について日本文と
しての妥当性をチエツクするものであり、公知の技術を
用いて実現できる。簡単な方法としては、文字列を単語
辞書と比較し、対応する単語の有無や品詞あるいは単語
の使用頻度を得、また前後の文字列と文法的に接続可能
性を評価して言語尤度を求めることができる。さらに進
んだ方法としては、文節で区切られていないベタ書き文
についても文献(「ベタ書き文の仮名漢字変換」,昭和
52年度電子通信学会情報部門全国大会91)などに見
られる技術を用いて日本文の尤度を求めることができ
る。日本文解析手法については詳細説明は省略し、文字
列に対して日本語尤度Jを出力する機能を有するものと
して扱う。第2図の日本文解析部15では、文字列候補
24の各々について日本語尤度25を求める。日本文解
析部15による処理は、第3図のフローチヤートの上部
に示すように、文字列候補24すべてについて日本語尤
度25を求め終るまで続けられ、その結果は第6図で示
したようになる。第6図の例では日本語尤度は5段階評
価で表わされており、3番目の文字列候補の尤度が5で
最大である。
文字列候補選択部16では、日本語尤度25を比較と、
最大な日本語尤度を検出する。この最大な日本語尤度を
MAXとする。また予め定めた日本語尤度閾値をJTH
する。第3図のフローチヤートの下半分に示したよう
に、JMAXとJTHを比較して、JMAX>JTHの場合はJ
MAXに対応する文字列を最適文字列出力26として選択
出力する。第6図では3番目の文字列候補「大きい犬
だ」の日本語尤度が最大で、JMAX=5であるので、J
TH=4と仮定した場合には「大きい犬だ」が出力され
る。JMAX≦JTHの場合には、当該文字列は日本文とし
ての体をなしていないことになり、日本文解析によつて
も正しい文字列候補の判定ができないので、第1位の文
字候補から成る文字列を文字列候補24の中から選択し
て最適文字列出力26として出力する。
この結果を具体的に説明するとつぎのようになる。まず
MAX≦JTHとなるのは、文字候補の中に正解が存在し
ない場合に生じ易い。具体例を第7図に示すが、これは
「日本国民は」を文字認識させた場合に「日」という字
が認識できず、候補に含まれていない例である。この場
合には隣接する文字の誤つた候補と組合わされた文字列
候補の日本語尤度が最大になる。すなわち2番目の誤つ
た候補と組合された「白木国民は」という文字列候補の
日本語尤度が最大値JMAXとなり、このままでは正しく
認識された2番目の「本」という文字まで巻き添えを受
けて改悪されることになるが、JMAX≦JTHの場合の処
理によりこのような併害を無くすことが可能となり、第
1位の文字候補から成る「白本国民は」が出力される。
なお、本実施例において認識文字候補の類似度が非常に
低い場合には、正しい組合せ文字候補が存在しない可能
性が大であり、その場合には無駄に日本文解析するのを
止めるように制御することが望ましい。そのため制御を
追加した実施例のフローチヤートを第8図に示す。すな
わち、類似度閾値判定部13において、所定の類似度閾
値の照合に先立つて、それよりも低い足切り類似度閾値
と第1位の文字候補の類似度を比較し、足切り類似度閾
値以下の第1位の文字候補の類似度が存在する場合は文
字列候補作成部14において類似度が第1位の文字候補
から成る文字列を作成し、これを直接に最適文字列出力
26として出力する。
つぎに本発明をワードプロセツサの入力アダプタとして
用いた実施例を第9図により説明する。本実施例は、O
CR63をワードプロセツサ61の入力手段として用い
るものである。文書入力制御装置62はOCR63によ
る手書き文書や印刷文書の認識入力、認識結果の認識文
字候補メモリ64への格納、言語解析すべき文字列候補
の作成とその文字列候補メモリ65への格納、言語解析
装置66の制御、処理結果の文字列出力用テキストメモ
リ67への格納などの、各制御を行なう。
文書入力制御装置62はマイクロプロセツサにより構成
され、認識文字候補メモリ64、文字列候補メモリ6
5、文字列出力用テキストメモリ67はマイクロプロセ
ツサのメモリであり、OCR63や言語解析装置66はそ
れぞれマイクロプロセツサの付加装置として構成され
る。
本実施例によれば、OCRで読みとつた文字のうち、一
意に決定できない不読文字を、言語としての尤度という
別の観点から評価することにより決定することが可能と
なり、ワードプロセツサの初期入力用にOCRを使用す
ることが可能となる。
ここで、漢字OCRの代りに音声認識装置を用いた場合
でも同様の効果が得られることは言うまでもなく、音声
入力によるワードプロセツサの実現も可能となる。
〔発明の効果〕
以上述べたように、本発明によれば、まず言語解析すべ
き文字列候補を必要最小限に絞ることにより、処理時間
の減少を図ることができる。つぎに、言語解析によつて
も評価の良くない文字列については、認識類似度第1位
の文字候補を選択出力するため、隣接の誤認識文字につ
られて誤つた文字候補が文として成り立つ場合の誤判定
の弊害を無くすることができ、言語解析の適用による文
字認識後処理の効果を高めることができるので、OCR
や音声認識を一般の文章入力に利用することが可能とな
る。
【図面の簡単な説明】
第1図は本発明の概要を示す図、第2図は本発明の一実
施例、第3図はそのフローチヤート、第4図は認識文字
候補、第5図は組合せ文字候補、第6図は文字列候補と
その日本語尤度、第7図は組合せ候補の他の例、第8図
は第2図の構成において制御機能を追加した場合のフロ
ーチヤート、第9図は他の実施例を示す図である。 11……文字認識部、12……文字列区切り判定部、1
3……類似度閾値判定部、14……文字列候補作成部、
15……日本文解析部、16……文字列候補選択部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】文字または音声を認識し、認識結果を少な
    くとも文字コード、類似度、およびその類似度の順位の
    組で構成される文字候補として出力する認識手段と、 前記文字候補を処理単位となる文字列に区切る文字列区
    切り判定手段と、 前記処理単位となる文字列内の各文字候補を組み合わせ
    て複数の文字列候補を作成する文字列候補作成手段と、 前記複数の文字列候補について言語としての妥当性を示
    す言語尤度を出力する言語解析手段とを備えた文字入力
    装置において、 前記複数の文字列候補について求めた言語尤度のうち、
    最大の言語尤度が所定の言語尤度閾値を越える場合に
    は、前記最大の言語尤度に対応する文字列候補を出力
    し、前記最大の言語尤度が所定の言語尤度閾値以下の場
    合には、前記類似度の順位が第1位の文字候補から成る
    文字列候補を出力する文字列候補選択手段を備えたこと
    を特徴とする文字入力装置。
  2. 【請求項2】特許請求の範囲第1項において、前記文字
    列区切り判定手段にて区切られた前記処理単位となる文
    字列内の類似度の順位が第1位の文字候補のうち、所定
    の足切り類似度閾値以下の文字候補が存在する場合に
    は、前記文字列候補作成手段にて、類似度の順位の第1
    位の文字候補から成る文字列を作成して直接出力するこ
    とを特徴とする文字入力装置。
JP58241992A 1983-12-23 1983-12-23 文字入力装置 Expired - Lifetime JPH0614375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58241992A JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58241992A JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Publications (2)

Publication Number Publication Date
JPS60134992A JPS60134992A (ja) 1985-07-18
JPH0614375B2 true JPH0614375B2 (ja) 1994-02-23

Family

ID=17082634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58241992A Expired - Lifetime JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Country Status (1)

Country Link
JP (1) JPH0614375B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2570784B2 (ja) * 1988-01-18 1997-01-16 富士通株式会社 文書リーダ後処理装置
JP2895486B2 (ja) * 1988-04-11 1999-05-24 キヤノン株式会社 文字認識方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置
JPS58200328A (ja) * 1982-05-14 1983-11-21 Matsushita Electric Ind Co Ltd カナ漢字変換装置

Also Published As

Publication number Publication date
JPS60134992A (ja) 1985-07-18

Similar Documents

Publication Publication Date Title
US6862566B2 (en) Method and apparatus for converting an expression using key words
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
US6360010B1 (en) E-mail signature block segmentation
US6373985B1 (en) E-mail signature block analysis
CN101796509A (zh) 准备显示文档用于分析的设备
Lehal et al. A post-processor for Gurmukhi OCR
JPH0682403B2 (ja) 光学式文字読取装置
Saiga et al. An OCR system for business cards
JPH0614375B2 (ja) 文字入力装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JPH0634253B2 (ja) 誤読文字訂正処理装置
JP2908460B2 (ja) 誤認識修正方法及び装置
JP2939945B2 (ja) ローマ字住所認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2570784B2 (ja) 文書リーダ後処理装置
JP2746345B2 (ja) 文字認識の後処理方法
JP3492442B2 (ja) 語形状トークンを用いる文書内容特性表示
JPH08297720A (ja) 一般文書読み取り装置
JPH01114976A (ja) 文書処理装置の辞書構造
KR20170088169A (ko) 기계학습 기반의 중국어 단어 분리 장치
JPS62180462A (ja) 音声入力かな漢字変換装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP3123169B2 (ja) 文字認識方法
JP2917310B2 (ja) 単語照合における単語辞書検索方式