JPS58169679A

JPS58169679A - 文章読取り装置後処理方式

Info

Publication number: JPS58169679A
Application number: JP57052840A
Authority: JP
Inventors: Yukikazu Kaburayama; 蕪山　幸和; Hideaki Sugawara; 菅原　秀明
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1982-03-31
Filing date: 1982-03-31
Publication date: 1983-10-06
Also published as: JPH0218516B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（Ａ）　　発明の技術分野本発明は、文章読取り装置後処理方式、特に入力された
文字について一般に複数個の候補文字を出力するように
した文章読取り装置において、区読点や例えば「は」、
「が」、「を」、「の」、「へ」・・・・などの文節未
尾文字にもとづいて文節候補を抽出し、それにもとづい
て真の文節を判定せしめることによって、真の文字列を
決定するようにすることを特徴とする文章読取り装置後
処理方式に関するものである。

（Ｂ）　　技術の背景と問題点従来から漢字を含む文字認識処理方式が開発されつつあ
り、いわば各１つの入力文字に対して複数個の候補文字
Ｃの群ＩＬ’　＝　（Ｃ，、Ｃ，、・・・・、ｃＰ）を絞るこ
とが可能になっている。そして、上記文字認識処理の精
度をより高めるために、入力文字の組を文節　（Ｃ４、
ｃｊ＋１、・・・・、ＣＬ）として把握し、当該文節の
意味情報などから各候補文字Ｃについて、真の文字Ｃを
抽出することが考慮されている。

上記文節を把握する処理方式として、従来（１）複数個
の入力文字全体を１つの文として捉えて処理する、（Ｉ
ｆ）入力文字を文節単位に予め分ち書きし九ものを用い
るなどの方式が考慮されていた。

しかし、前者の方式においては、高度な処理を必要とし
そのために処理時間がきわめて大となると共に、文章中
の例えば１つの入力字について候補文字中にも正しいも
のがなかった場合には認識結果の文章全体に悪影響を与
える結果となる。また後者の方式においては、記入者に
とって煩雑であり、また記入者が必らずしも正しい形で
文節に区分するとは限らず、そのために正しく処理でき
なないことが生じる。

（Ｃ）発明の目的と構成本発明は、上記の点を解決することを目的としており、
区読点や文節未尾文字を調べて、いわば自動的に文節を
抽出し、当該文節を利用して各文字についての認識率を
向上すること、ひいては文章全体を正しく読取ることを
目的としている０そしてそのため、本発明の文章読取り
装置後処理方式は、入力された文字について認識を行い
当該文字に対して１つまたは複数個の候補文字の群Ｃ＝
（Ｃ，、Ｃ，、・・・・Ｃ，ｌを出力する文字認識部を
有する文章読取り装置において、上記候補文字群Ｃにつ
いて句読点を含む区切り記号あるいは助詞を含む文節未
尾文字に該当する文字の存否をチェックする後処理部を
もうけ、該後処理部は、上記チェックされた結果にもと
づいて上記候補文字群Ｃ）列（Ｃ４、Ｃｊ＋１、−・、
ｃＬ）　　ヲ文節候補トｔ。

て抽出し、かつ抽出された文節候補にもとづいて当該文
節候補内の各候補文字群の組合わせから真の文節を判定
するようにしたことを特徴としている。以下図面を蓼照
しつつ説明する。

（ＤＪ　　発明の実施例第１図は文節未尾文字や句読点を説明する説明図、第２
図（Ａ）　（Ｂ）（Ｃ）は本発明による処理態様を説明
する説明図、第３図は本発明にいう後処理部による一実
施例処理フローチャート、第４図は本発明の一実施例構
成を示す。

今仮に第２図（Ａ）に示す如き入力文字列「煙草をやめ
る人が・・・・」が与えられ、当該文字列の各文字を昭
識する文字認識部において、文字「煙」に対応して候補
「煙」、「煤」、「標」が抽出され、文字「草」に対応
して候補「算」、「草」、「花」が抽出され、文字「を
」に対して候補「を」、「そｊｌ「も」が抽出され・・
・・たものとする。

このような場合、本発明においては、＋Ｏの文字「煙」
に対応する候補「煙」、「煤」、「標」中に第１図（Ｎ
図示の如き文節未尾文字あるいは第１図（Ｂ）図示の如
き句読点が存在するか否かをチェックするようにする。

文節未尾文字や句読点が存在しなければ、次に＋１の文
字「草」の候補について同様にチェックする。そして第
２図（Ａ）　（Ｂ）図示の例の場合には＋２の文字「を
」の候補についてチェックし、存在していることを知る
。この場合、次の＋３文字の候補においても存在するか
否かが調べられ、存在すれば更に＋４文字の候補す５文
字の候補・・・・を調べてゆく。図示の例の場合には、
＋６文字の候補「人」、「ん」、「久」中に上記句読点
や文節未尾文字が存在しないことから、Ｃ０＝（煙、煤
、標）Ｃ０＝（算、草、花）Ｃ８＝（を、そ、も）Ｃ１＝（や、ヤ、さ）Ｃ４＝（ぬ、め、の）ｅｓ”（る、ろ、３）よりなる文節候補（ｃ−′ｏ、Ｃ１１１、Ｃ８、Ｃ４、
Ｃ３）を抽出する。そして、当該文節候補に該当する文
字列（図示例の場合には３　通りの文字列）について１
つの文節として適正か否かをチェックするＯこのチェッ
クについては単語文法辞書が利用される０適正でない場合には、文節候補を（’ｌ？ｏ　、ＣＩ、
ＣｔＣ３、Ｃ４）　とみて、同様に１つの文節としての
適否をチェックする０以下同様にチェックしてゆき、第
２図（Ｃ）図示「ｊ＝０、Ｌ＝２」　のケースの如く、
適正な文節として「煙草を」が抽出され、かつ＋θ文字
が「煙」であって≠１文字が「草」であって＋２文字が
「を」または「も」であることが判る。

文字「を」と「も」のいずれかは一番に候補Ａの側が入
力文字に対して高い一致度をもっているので、「を」を
選ぶようにする。そして、＋２文字まで選ばれたことか
らＡ＝２とする。以下ｊ＝３として＋３文字から調べる
ことを明らかにしておいて文節「やめる」、「人が」、
「増えて」、「いる」、「０」を決定してゆく。

第３図は上記処理を行うフローチャートを示している。

（１）　　最初ｒ−６＝（Ｊ、Ａ＝−ＩＪとしておいて
、処理をスタートする。

（２）　　そして、Ａ＝Ｑとして＋Ｏ文字の候補を取込
み、判断ｌを行う。

（８）　　判断ｌは、÷Ｌ大文字候補ＣＬ中に句読点Ｐ
が存在するか否かをチェックするものと考えてよい。　
　＋θ文字の候補の場合には、文字「煙」、「煤」、「
標」中に句読点は存在せず、Ｆに向う。

（荀　存在すればＴに向い、それまでの文字についての
候補群（ＣＪＳＣ４＋１１００５０、Ｃμｍ）を文節と
し、各文字の候補について真の文字を判定して、（ｒｊ
、　ｒｊ＋１　、・・・・、７μｍ）　として出力する
。

（６）　　上記処理（８）においてＦに向った場合につ
いて、判断２によって次の判断を行う。即ち、＋Ａ文字
の候補ＣＬ中に文節末尾文字Ａが存在するが否かをチェ
ックすると共に、ナ（↓＋１）の文字の候補ＣＬ＋１中
に文節末尾文字＾が存在するか否かをチェックする。Ｃ
Ｌ中に存在しかつＣＬ中１中にも存在した場合には、Ｆ
に向う。即ち次に＋（＃＋１）文字についての処理に入
る。

＋６）　　（１）＝中に存在しかつｌＬ”Ｌ＋１中に存
在しない場合に、Ｔに向う。そして、それまでの文字に
ついての候補群（Ｃｉ　、　Ｃ，ａ＋１、・・・・、Ｃ
Ｌ）　　を文節候補として抽出する。第２図図示の例の
場合には、＋５文字の候補中に文字Ａが存在し、＋６文
字の候補中に存在しないことから、文節候補として（Ｃ
０、Ｃ０、・・・・、（？、　）が抽出される。

（η　そして、判断３において、いわば３　通りの文字
の組合わせについて単語文法辞書を調べ、１つの文節と
して適正であるか否かをチェックする。適正であれば、
各文字の候補圧ついて＾の文字を判定して、（”ａ　、
ｒＪ＋１　、”　”、ｒＬ）　　を出力する。

（８）　　適正でなかった場合には、判断４に向う。

判断４においては、上記文節候補の中から、ＣＬ−・１
中にも文字Δが存在すれば、Ｔに向い、当該文節候補か
らＣＬを取除いたものを新しく文節候補とする。即ち第
２図図示の例の場合には新しい文節候補（Ｃ０、Ｃ２、
・・・、Ｃ４）が抽出される。

（９）　　判断４においてＣＬ−１中に文字Δが存在し
なければ出力に向う。　□ α・　第２図図示の例の場合には、文節候補（ＣＯｌＣ
，、Ｃ，）が得られ、判断３において「煙草を」または
「煙草も」が真の文節として出力される。

この場合、「を」と「も」とについては、より可能性の
高い「を」が選ばれる。

第４図は本発明の一実施例を示す。図中の符号ｌは観測
部であって入力文字を電気信号に変換するもの、２は文
字認識部であって各文字について候補文字を抽出するも
の、３は候補列メモリ、４は後処理部であって第３図に
対応した処理を行うもの、５は候補バッファであって文
字候補群を一時保持するもの、６は後処理ユニット、７
は文節チェック部、８は単語文法辞書、９は制御部を宍
わしている。

なお図示■は制御線であって、全体の制御を行う信号、
例えば起動命令や終了情報を送受する。

■は制御線であって、文節チェック部７ヘチエツクを依
頼し、またはチェック結果を出力することを指示する信
号を伝送する。■は同じく制御線でろって、後処理部６
に対してチェックが終了したことを通知しかつそのとき
の結果がＯＫか否かを通知する。

後処理部４における動作については、第３図に関連して
説明したので重複をさけるが、単語文法辞書８は、１文
節を構成する単語について、単語の品詞にもとづく接続
の可否を定めるテーブルや品詞を判別するテーブルなど
をもつものと考えてよい。

（助　発明の効果以上説明した如く、本発明によれば、文節の区切りを正
しく抽出することが可能となり、文章読取り処理の精度
が大きく向上される。

【図面の簡単な説明】

第１図は文節末尾文字や句読点を説明する説明図、第２
図（Ａ）　（Ｂ）　（Ｃ）は本発明による処理態様を説
明する説明図、第３図は本発明にいう後処理部による一
実施例処理フローチャート、第４図は本発明の一実施例
を示す。図中、２は文字認識部、３は候補列メモリ、４は後処理
部、５は候補バッファ、６は後処理ユニット、７は文節
チェック部、８は単語文法辞書を表わす。特許出願人　電子計箒機基本技術研究組合代理人弁理士
　　　森　１）　寛　（外１名）才１カ１′２図（Ｃ）′□゛１

Claims

【特許請求の範囲】入力された文字について認識を行い当該文字に対して１
つまたは複数個の候補文字の群Ｃ＝（Ｃ，。Ｃい・・・・Ｃ，）　　を出力する文字認識部を有する
文章読取り装置において、上記候補文字群Ｃについて句
読点を含む区切り記号あるいは助詞を含む文節未尾文字
に該当する文字の存否をチェックする後処理部をもうけ
、該後処理部は、上記チェックされた結果にもとづいて
上記候補文字群Ｃの列（ＣＪ　、Ｃｊ＋１、・・・・、
（［’＝　）を文節候補として抽出し、かつ抽出された
文節候補にもとづいて当該文節候補内の各候補文字群の
組合わせから真の文節を判定するようにしたことを特徴
とする文章読取や装置後処理方式。