JPS58169679A - 文章読取り装置後処理方式 - Google Patents
文章読取り装置後処理方式Info
- Publication number
- JPS58169679A JPS58169679A JP57052840A JP5284082A JPS58169679A JP S58169679 A JPS58169679 A JP S58169679A JP 57052840 A JP57052840 A JP 57052840A JP 5284082 A JP5284082 A JP 5284082A JP S58169679 A JPS58169679 A JP S58169679A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- characters
- clause
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(A) 発明の技術分野
本発明は、文章読取り装置後処理方式、特に入力された
文字について一般に複数個の候補文字を出力するように
した文章読取り装置において、区読点や例えば「は」、
「が」、「を」、「の」、「へ」・・・・などの文節未
尾文字にもとづいて文節候補を抽出し、それにもとづい
て真の文節を判定せしめることによって、真の文字列を
決定するようにすることを特徴とする文章読取り装置後
処理方式に関するものである。
文字について一般に複数個の候補文字を出力するように
した文章読取り装置において、区読点や例えば「は」、
「が」、「を」、「の」、「へ」・・・・などの文節未
尾文字にもとづいて文節候補を抽出し、それにもとづい
て真の文節を判定せしめることによって、真の文字列を
決定するようにすることを特徴とする文章読取り装置後
処理方式に関するものである。
(B) 技術の背景と問題点
従来から漢字を含む文字認識処理方式が開発されつつあ
り、いわば各1つの入力文字に対して複数個の候補文字
Cの群 IL’ = (C,、C,、・・・・、cP)を絞るこ
とが可能になっている。そして、上記文字認識処理の精
度をより高めるために、入力文字の組を文節 (C4、
cj+1、・・・・、CL)として把握し、当該文節の
意味情報などから各候補文字Cについて、真の文字Cを
抽出することが考慮されている。
り、いわば各1つの入力文字に対して複数個の候補文字
Cの群 IL’ = (C,、C,、・・・・、cP)を絞るこ
とが可能になっている。そして、上記文字認識処理の精
度をより高めるために、入力文字の組を文節 (C4、
cj+1、・・・・、CL)として把握し、当該文節の
意味情報などから各候補文字Cについて、真の文字Cを
抽出することが考慮されている。
上記文節を把握する処理方式として、従来(1)複数個
の入力文字全体を1つの文として捉えて処理する、(I
f)入力文字を文節単位に予め分ち書きし九ものを用い
るなどの方式が考慮されていた。
の入力文字全体を1つの文として捉えて処理する、(I
f)入力文字を文節単位に予め分ち書きし九ものを用い
るなどの方式が考慮されていた。
しかし、前者の方式においては、高度な処理を必要とし
そのために処理時間がきわめて大となると共に、文章中
の例えば1つの入力字について候補文字中にも正しいも
のがなかった場合には認識結果の文章全体に悪影響を与
える結果となる。また後者の方式においては、記入者に
とって煩雑であり、また記入者が必らずしも正しい形で
文節に区分するとは限らず、そのために正しく処理でき
なないことが生じる。
そのために処理時間がきわめて大となると共に、文章中
の例えば1つの入力字について候補文字中にも正しいも
のがなかった場合には認識結果の文章全体に悪影響を与
える結果となる。また後者の方式においては、記入者に
とって煩雑であり、また記入者が必らずしも正しい形で
文節に区分するとは限らず、そのために正しく処理でき
なないことが生じる。
(C)発明の目的と構成
本発明は、上記の点を解決することを目的としており、
区読点や文節未尾文字を調べて、いわば自動的に文節を
抽出し、当該文節を利用して各文字についての認識率を
向上すること、ひいては文章全体を正しく読取ることを
目的としている0そしてそのため、本発明の文章読取り
装置後処理方式は、入力された文字について認識を行い
当該文字に対して1つまたは複数個の候補文字の群C=
(C,、C,、・・・・C,lを出力する文字認識部を
有する文章読取り装置において、上記候補文字群Cにつ
いて句読点を含む区切り記号あるいは助詞を含む文節未
尾文字に該当する文字の存否をチェックする後処理部を
もうけ、該後処理部は、上記チェックされた結果にもと
づいて上記候補文字群C)列(C4、Cj+1、−・、
cL) ヲ文節候補トt。
区読点や文節未尾文字を調べて、いわば自動的に文節を
抽出し、当該文節を利用して各文字についての認識率を
向上すること、ひいては文章全体を正しく読取ることを
目的としている0そしてそのため、本発明の文章読取り
装置後処理方式は、入力された文字について認識を行い
当該文字に対して1つまたは複数個の候補文字の群C=
(C,、C,、・・・・C,lを出力する文字認識部を
有する文章読取り装置において、上記候補文字群Cにつ
いて句読点を含む区切り記号あるいは助詞を含む文節未
尾文字に該当する文字の存否をチェックする後処理部を
もうけ、該後処理部は、上記チェックされた結果にもと
づいて上記候補文字群C)列(C4、Cj+1、−・、
cL) ヲ文節候補トt。
て抽出し、かつ抽出された文節候補にもとづいて当該文
節候補内の各候補文字群の組合わせから真の文節を判定
するようにしたことを特徴としている。以下図面を蓼照
しつつ説明する。
節候補内の各候補文字群の組合わせから真の文節を判定
するようにしたことを特徴としている。以下図面を蓼照
しつつ説明する。
(DJ 発明の実施例
第1図は文節未尾文字や句読点を説明する説明図、第2
図(A) (B)(C)は本発明による処理態様を説明
する説明図、第3図は本発明にいう後処理部による一実
施例処理フローチャート、第4図は本発明の一実施例構
成を示す。
図(A) (B)(C)は本発明による処理態様を説明
する説明図、第3図は本発明にいう後処理部による一実
施例処理フローチャート、第4図は本発明の一実施例構
成を示す。
今仮に第2図(A)に示す如き入力文字列「煙草をやめ
る人が・・・・」が与えられ、当該文字列の各文字を昭
識する文字認識部において、文字「煙」に対応して候補
「煙」、「煤」、「標」が抽出され、文字「草」に対応
して候補「算」、「草」、「花」が抽出され、文字「を
」に対して候補「を」、「そjl「も」が抽出され・・
・・たものとする。
る人が・・・・」が与えられ、当該文字列の各文字を昭
識する文字認識部において、文字「煙」に対応して候補
「煙」、「煤」、「標」が抽出され、文字「草」に対応
して候補「算」、「草」、「花」が抽出され、文字「を
」に対して候補「を」、「そjl「も」が抽出され・・
・・たものとする。
このような場合、本発明においては、+Oの文字「煙」
に対応する候補「煙」、「煤」、「標」中に第1図(N
図示の如き文節未尾文字あるいは第1図(B)図示の如
き句読点が存在するか否かをチェックするようにする。
に対応する候補「煙」、「煤」、「標」中に第1図(N
図示の如き文節未尾文字あるいは第1図(B)図示の如
き句読点が存在するか否かをチェックするようにする。
文節未尾文字や句読点が存在しなければ、次に+1の文
字「草」の候補について同様にチェックする。そして第
2図(A) (B)図示の例の場合には+2の文字「を
」の候補についてチェックし、存在していることを知る
。この場合、次の+3文字の候補においても存在するか
否かが調べられ、存在すれば更に+4文字の候補す5文
字の候補・・・・を調べてゆく。図示の例の場合には、
+6文字の候補「人」、「ん」、「久」中に上記句読点
や文節未尾文字が存在しないことから、C0=(煙、煤
、標) C0=(算、草、花) C8=(を、そ、も) C1=(や、ヤ、さ) C4=(ぬ、め、の) es”(る、ろ、3) よりなる文節候補(c−′o、C111、C8、C4、
C3)を抽出する。そして、当該文節候補に該当する文
字列(図示例の場合には3 通りの文字列)について1
つの文節として適正か否かをチェックするOこのチェッ
クについては単語文法辞書が利用される0 適正でない場合には、文節候補を(’l?o 、CI、
CtC3、C4) とみて、同様に1つの文節としての
適否をチェックする0以下同様にチェックしてゆき、第
2図(C)図示「j=0、L=2」 のケースの如く、
適正な文節として「煙草を」が抽出され、かつ+θ文字
が「煙」であって≠1文字が「草」であって+2文字が
「を」または「も」であることが判る。
字「草」の候補について同様にチェックする。そして第
2図(A) (B)図示の例の場合には+2の文字「を
」の候補についてチェックし、存在していることを知る
。この場合、次の+3文字の候補においても存在するか
否かが調べられ、存在すれば更に+4文字の候補す5文
字の候補・・・・を調べてゆく。図示の例の場合には、
+6文字の候補「人」、「ん」、「久」中に上記句読点
や文節未尾文字が存在しないことから、C0=(煙、煤
、標) C0=(算、草、花) C8=(を、そ、も) C1=(や、ヤ、さ) C4=(ぬ、め、の) es”(る、ろ、3) よりなる文節候補(c−′o、C111、C8、C4、
C3)を抽出する。そして、当該文節候補に該当する文
字列(図示例の場合には3 通りの文字列)について1
つの文節として適正か否かをチェックするOこのチェッ
クについては単語文法辞書が利用される0 適正でない場合には、文節候補を(’l?o 、CI、
CtC3、C4) とみて、同様に1つの文節としての
適否をチェックする0以下同様にチェックしてゆき、第
2図(C)図示「j=0、L=2」 のケースの如く、
適正な文節として「煙草を」が抽出され、かつ+θ文字
が「煙」であって≠1文字が「草」であって+2文字が
「を」または「も」であることが判る。
文字「を」と「も」のいずれかは一番に候補Aの側が入
力文字に対して高い一致度をもっているので、「を」を
選ぶようにする。そして、+2文字まで選ばれたことか
らA=2とする。以下j=3として+3文字から調べる
ことを明らかにしておいて文節「やめる」、「人が」、
「増えて」、「いる」、「0」を決定してゆく。
力文字に対して高い一致度をもっているので、「を」を
選ぶようにする。そして、+2文字まで選ばれたことか
らA=2とする。以下j=3として+3文字から調べる
ことを明らかにしておいて文節「やめる」、「人が」、
「増えて」、「いる」、「0」を決定してゆく。
第3図は上記処理を行うフローチャートを示している。
(1) 最初r−6=(J、A=−IJとしておいて
、処理をスタートする。
、処理をスタートする。
(2) そして、A=Qとして+O文字の候補を取込
み、判断lを行う。
み、判断lを行う。
(8) 判断lは、÷L大文字候補CL中に句読点P
が存在するか否かをチェックするものと考えてよい。
+θ文字の候補の場合には、文字「煙」、「煤」、「
標」中に句読点は存在せず、Fに向う。
が存在するか否かをチェックするものと考えてよい。
+θ文字の候補の場合には、文字「煙」、「煤」、「
標」中に句読点は存在せず、Fに向う。
(荀 存在すればTに向い、それまでの文字についての
候補群(CJSC4+110050、Cμm)を文節と
し、各文字の候補について真の文字を判定して、(rj
、 rj+1 、・・・・、7μm) として出力する
。
候補群(CJSC4+110050、Cμm)を文節と
し、各文字の候補について真の文字を判定して、(rj
、 rj+1 、・・・・、7μm) として出力する
。
(6) 上記処理(8)においてFに向った場合につ
いて、判断2によって次の判断を行う。即ち、+A文字
の候補CL中に文節末尾文字Aが存在するが否かをチェ
ックすると共に、ナ(↓+1)の文字の候補CL+1中
に文節末尾文字^が存在するか否かをチェックする。C
L中に存在しかつCL中1中にも存在した場合には、F
に向う。即ち次に+(#+1)文字についての処理に入
る。
いて、判断2によって次の判断を行う。即ち、+A文字
の候補CL中に文節末尾文字Aが存在するが否かをチェ
ックすると共に、ナ(↓+1)の文字の候補CL+1中
に文節末尾文字^が存在するか否かをチェックする。C
L中に存在しかつCL中1中にも存在した場合には、F
に向う。即ち次に+(#+1)文字についての処理に入
る。
+6) (1)=中に存在しかつlL”L+1中に存
在しない場合に、Tに向う。そして、それまでの文字に
ついての候補群(Ci 、 C,a+1、・・・・、C
L) を文節候補として抽出する。第2図図示の例の
場合には、+5文字の候補中に文字Aが存在し、+6文
字の候補中に存在しないことから、文節候補として(C
0、C0、・・・・、(?、 )が抽出される。
在しない場合に、Tに向う。そして、それまでの文字に
ついての候補群(Ci 、 C,a+1、・・・・、C
L) を文節候補として抽出する。第2図図示の例の
場合には、+5文字の候補中に文字Aが存在し、+6文
字の候補中に存在しないことから、文節候補として(C
0、C0、・・・・、(?、 )が抽出される。
(η そして、判断3において、いわば3 通りの文字
の組合わせについて単語文法辞書を調べ、1つの文節と
して適正であるか否かをチェックする。適正であれば、
各文字の候補圧ついて^の文字を判定して、(”a 、
rJ+1 、” ”、rL) を出力する。
の組合わせについて単語文法辞書を調べ、1つの文節と
して適正であるか否かをチェックする。適正であれば、
各文字の候補圧ついて^の文字を判定して、(”a 、
rJ+1 、” ”、rL) を出力する。
(8) 適正でなかった場合には、判断4に向う。
判断4においては、上記文節候補の中から、CL−・1
中にも文字Δが存在すれば、Tに向い、当該文節候補か
らCLを取除いたものを新しく文節候補とする。即ち第
2図図示の例の場合には新しい文節候補(C0、C2、
・・・、C4)が抽出される。
中にも文字Δが存在すれば、Tに向い、当該文節候補か
らCLを取除いたものを新しく文節候補とする。即ち第
2図図示の例の場合には新しい文節候補(C0、C2、
・・・、C4)が抽出される。
(9) 判断4においてCL−1中に文字Δが存在し
なければ出力に向う。 □ α・ 第2図図示の例の場合には、文節候補(COlC
,、C,)が得られ、判断3において「煙草を」または
「煙草も」が真の文節として出力される。
なければ出力に向う。 □ α・ 第2図図示の例の場合には、文節候補(COlC
,、C,)が得られ、判断3において「煙草を」または
「煙草も」が真の文節として出力される。
この場合、「を」と「も」とについては、より可能性の
高い「を」が選ばれる。
高い「を」が選ばれる。
第4図は本発明の一実施例を示す。図中の符号lは観測
部であって入力文字を電気信号に変換するもの、2は文
字認識部であって各文字について候補文字を抽出するも
の、3は候補列メモリ、4は後処理部であって第3図に
対応した処理を行うもの、5は候補バッファであって文
字候補群を一時保持するもの、6は後処理ユニット、7
は文節チェック部、8は単語文法辞書、9は制御部を宍
わしている。
部であって入力文字を電気信号に変換するもの、2は文
字認識部であって各文字について候補文字を抽出するも
の、3は候補列メモリ、4は後処理部であって第3図に
対応した処理を行うもの、5は候補バッファであって文
字候補群を一時保持するもの、6は後処理ユニット、7
は文節チェック部、8は単語文法辞書、9は制御部を宍
わしている。
なお図示■は制御線であって、全体の制御を行う信号、
例えば起動命令や終了情報を送受する。
例えば起動命令や終了情報を送受する。
■は制御線であって、文節チェック部7ヘチエツクを依
頼し、またはチェック結果を出力することを指示する信
号を伝送する。■は同じく制御線でろって、後処理部6
に対してチェックが終了したことを通知しかつそのとき
の結果がOKか否かを通知する。
頼し、またはチェック結果を出力することを指示する信
号を伝送する。■は同じく制御線でろって、後処理部6
に対してチェックが終了したことを通知しかつそのとき
の結果がOKか否かを通知する。
後処理部4における動作については、第3図に関連して
説明したので重複をさけるが、単語文法辞書8は、1文
節を構成する単語について、単語の品詞にもとづく接続
の可否を定めるテーブルや品詞を判別するテーブルなど
をもつものと考えてよい。
説明したので重複をさけるが、単語文法辞書8は、1文
節を構成する単語について、単語の品詞にもとづく接続
の可否を定めるテーブルや品詞を判別するテーブルなど
をもつものと考えてよい。
(助 発明の効果
以上説明した如く、本発明によれば、文節の区切りを正
しく抽出することが可能となり、文章読取り処理の精度
が大きく向上される。
しく抽出することが可能となり、文章読取り処理の精度
が大きく向上される。
第1図は文節末尾文字や句読点を説明する説明図、第2
図(A) (B) (C)は本発明による処理態様を説
明する説明図、第3図は本発明にいう後処理部による一
実施例処理フローチャート、第4図は本発明の一実施例
を示す。 図中、2は文字認識部、3は候補列メモリ、4は後処理
部、5は候補バッファ、6は後処理ユニット、7は文節
チェック部、8は単語文法辞書を表わす。 特許出願人 電子計箒機基本技術研究組合代理人弁理士
森 1) 寛 (外1名)才1カ 1′2図 (C)′□゛1
図(A) (B) (C)は本発明による処理態様を説
明する説明図、第3図は本発明にいう後処理部による一
実施例処理フローチャート、第4図は本発明の一実施例
を示す。 図中、2は文字認識部、3は候補列メモリ、4は後処理
部、5は候補バッファ、6は後処理ユニット、7は文節
チェック部、8は単語文法辞書を表わす。 特許出願人 電子計箒機基本技術研究組合代理人弁理士
森 1) 寛 (外1名)才1カ 1′2図 (C)′□゛1
Claims (1)
- 【特許請求の範囲】 入力された文字について認識を行い当該文字に対して1
つまたは複数個の候補文字の群C=(C,。 Cい・・・・C,) を出力する文字認識部を有する
文章読取り装置において、上記候補文字群Cについて句
読点を含む区切り記号あるいは助詞を含む文節未尾文字
に該当する文字の存否をチェックする後処理部をもうけ
、該後処理部は、上記チェックされた結果にもとづいて
上記候補文字群Cの列(CJ 、Cj+1、・・・・、
([’= )を文節候補として抽出し、かつ抽出された
文節候補にもとづいて当該文節候補内の各候補文字群の
組合わせから真の文節を判定するようにしたことを特徴
とする文章読取や装置後処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57052840A JPS58169679A (ja) | 1982-03-31 | 1982-03-31 | 文章読取り装置後処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57052840A JPS58169679A (ja) | 1982-03-31 | 1982-03-31 | 文章読取り装置後処理方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58169679A true JPS58169679A (ja) | 1983-10-06 |
| JPH0218516B2 JPH0218516B2 (ja) | 1990-04-25 |
Family
ID=12926039
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57052840A Granted JPS58169679A (ja) | 1982-03-31 | 1982-03-31 | 文章読取り装置後処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58169679A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61115185A (ja) * | 1984-11-12 | 1986-06-02 | Sharp Corp | 文字認識処理装置 |
| JPH06215198A (ja) * | 1993-01-12 | 1994-08-05 | Nec Corp | 文字認識後処理方式 |
| US11508139B2 (en) * | 2020-01-10 | 2022-11-22 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
-
1982
- 1982-03-31 JP JP57052840A patent/JPS58169679A/ja active Granted
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61115185A (ja) * | 1984-11-12 | 1986-06-02 | Sharp Corp | 文字認識処理装置 |
| JPH06215198A (ja) * | 1993-01-12 | 1994-08-05 | Nec Corp | 文字認識後処理方式 |
| US11508139B2 (en) * | 2020-01-10 | 2022-11-22 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0218516B2 (ja) | 1990-04-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109255113B (zh) | 智能校对系统 | |
| CN111341305B (zh) | 一种音频数据标注方法、装置及系统 | |
| CN110555206B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
| CN107039034B (zh) | 一种韵律预测方法及系统 | |
| RU2002127826A (ru) | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании | |
| KR940022320A (ko) | 영어문자인식 방법 및 시스템 | |
| KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
| CN113947073B (zh) | 人名纠正方法、装置、电子设备和存储介质 | |
| CN112632259A (zh) | 一种基于语言学规则生成的对话意图自动识别系统 | |
| KR20090060631A (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
| CN114461779A (zh) | 一种案件笔录要素抽取方法 | |
| Nikulásdóttir et al. | An Icelandic pronunciation dictionary for TTS | |
| CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
| JPS58169679A (ja) | 文章読取り装置後処理方式 | |
| CN118446221B (zh) | 一种基于深度学习的智能写作辅助系统及方法 | |
| CN107480128A (zh) | 中文文本的分词方法及装置 | |
| CN111898342A (zh) | 一种基于编辑距离的中文发音校验方法 | |
| CN115017883B (zh) | 基于预训练融合语音特征的文本标点恢复方法 | |
| CN116956944A (zh) | 一种融合句法信息的濒危语言翻译模型方法 | |
| CN116702754A (zh) | 基于双向长短期记忆递归神经网络的英语作文多维度评分方法及系统 | |
| CN114881024A (zh) | 一种无领导小组讨论系统 | |
| Xiao et al. | On-line handwritten Chinese character recognition directed by components with dynamic templates | |
| CN113297348A (zh) | 语音识别中文文本的校正方法 | |
| Salaeva et al. | Uzbek automatic speech recognition models using deep learning techniques | |
| CN110955768A (zh) | 一种基于句法分析的问答系统答案生成方法 |