JPH0632091B2

JPH0632091B2 - 日本文読取装置

Info

Publication number: JPH0632091B2
Application number: JP61033536A
Authority: JP
Inventors: 治雄水上; 康裕岡田; 啓二小林
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1986-02-18
Filing date: 1986-02-18
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS62191990A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は，日常使われる日本文を読み取る装置に係
り，とくに日本文を構成する文字を１文字ごとに認識
し，その認識結果から文法的に確からしい結果を選択し
て読取結果とする日本文読取装置に関するものである。

〔従来の技術〕

第２図は従来の日本文読取装置の構成図であり，図にお
いて，(1)は張票，(2)は走査手段，(3)は文字を１文字
ごとに切り出して認識し，認識候補文字を出力する文字
認識手段，(9)は例えば，「候補文字補完と形態素解析
による漢字認識の誤り訂正処理法」（昭和６０年度電子
通信学会情報・システム部門全国大会Ｓ４−４」また
は，「言語情報と認識情報を用いた文字認識後処理」
（電子通信学会研究会資料PRL８２−７６）に示される
ように，認識候補文字から句読点または例えば平仮名か
ら漢字への文字種の変り目を検知して，単語辞書との照
合および単語の文法的接続検定を行う範囲を決定する処
理範囲決定手段，(4)は日本文において使用される単語
とその文法的属性を格納した単語辞書，(5)は上記処理
範囲決定手段(9)で決定された範囲の文字列に対する認
識候補文字と単語辞書(4)を照合して，単語辞書(4)に存
在する単語を選択する単語照合手段，(7)は連続する単
語列が文法的に接続可能かどうかの接続情報を格納した
文法辞書，(8)は上記文法辞書(7)を参照して，文法的に
接続が可能な単語列を選択する単語接続検定手段であ
る。

日本文は，例えば英語などの言語と違い，単語単位に分
かち書きをする習慣がなく，一般には，複数の文がいく
つもべた書きされる。したがって，日本文読取装置で
は，通常複数の文から構成される読取対象の文章を，最
初から最後までを１回で処理するのは，記憶容量・処理
時間の増大をまねくという点から，効率が悪く，読取対
象の日本文を適当な長さに区切つて処理を行う必要があ
る。

従来の日本文読取装置は上記のように構成され日本文を
構成する文字の認識候補文字から，句読点と判断された
文字位置を区切りとして，さらに例えば，平仮名と判断
された文字から漢字と判断された文字への変り目など，
文字種の変り目を区切りとして，それら区切り間に存在
する文字に対する認識候補文字を用いて日本文を読み取
つていた。

第３図は，日本文読取装置に入力される張票(1)上に印
刷または記入された入力日本文の例および入力日本文の
各文字認識手段(3)で１文字ごとに認識して得られる認
識候補文字の例であり，図において，(10)は入力日本文
を構成する文字列“大都会は人間が多いが，おもしろ
い。”であり，(11)は入力日本文(10)の各文字列に対す
る認識候補文字列である。

第４図は従来の日本文読取装置における処理範囲決定手
段(9)で決定された処理範囲であり，図中(12)〜(15)は
区切りとなる位置，(16)〜(19)は処理範囲である。

第５図，第６図は単語辞書(4)の例であり，図中，(20)
〜(59)は単語の項目および文法的属性である。

第７図，第８図および第９図は文法辞書(7)の例であ
り，〇印は文法的属性どうしが接続可能であることを示
し，×印は文法的属性どうしが接続不可能であることを
示す。

第１０図は区切り(12)と区切り(13)で決定される処理範
囲(16)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。

第１１図は処理範囲(16)で選択された単語に対して、単
語接続検定手段(8)で，文法辞書(7)を参照しながら，文
法的に接続可能となるものを選択した結果である。

第１２図は区切り(13)と区切り(14)で決定される処理範
囲(17)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。

第１３図は区切り(12)と区切り(14)で決定される処理範
囲(18)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。第１４図は処理
範囲(18)で選択された単語に対して，単語接続検定手段
(8)で，文法辞書(7)を参照しながら，文法的に接続可能
となるものを選択した結果である。

第１５図は区切り(14)と区切り(15)で決定される処理範
囲(19)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。

次に動作について説明する。

帳票(1)上の入力日本文(10)は走査手段(2)で走査され，
文字認識手段(3)で，２値化などの前処理を行つた後，
１文字ごとに切り出され，パターンマツチング等の方法
によつて認識される。そして，入力文字としての確度が
高い順に順位付けされた複数の認識候補文字(11)を出力
する。処理範囲決定手段(9)では，まず入力日本文(10)
の先頭に区切り(12)をおき，そして，例えば，認識候補
文字の第１位が句読点である文字からそうでない文字に
変化するところ，および認識候補文字の第１位が平仮名
である文字から，認識候補文字の第１位が漢字である文
字に変化するところを、それぞれ字種の変り目であると
して区切りをおくとすると，まず区切り(13)が見つか
る。単語照合手段(5)では，区切り(12)と区切り(13)で
決定される処理範囲(16)にある文字に対する認識候補文
字と単語辞書(4)を照合して，入力日本文(10)の第１文
字目に対する認識候補文字で始まる単語として，「大」
(49)，「大都会」(50)，「文」(57)，「文部」(58)，
「太」(47)，「太郎」(48)，「火」(40)第２文字目か
ら，「都」(51)「都会」(52)，「都合」(53)，「部」(5
5)，「部会」(56)，第３文字目から，「会」(41)，
「合」(43)，第４文字目から，「は」(31)，「ば」(32)
第５文字から，「ん」(39)，「人」(44)，「入」(54)を
それぞれ選択する。単語接続検定手段(8)では，文法辞
書(7)を参照して，単語照合手段(5)で選択された単語間
の接続検定を行つて，接続が可能となる単語列を選択す
る。この例の場合は文法辞書(7)の接続情報(60)〜(85)
により，第１１図に示した単語列が接続可能なものとし
て選択される。

次に区切り(14)が見つかるので，単語照合手段(5)で
は，区切り(13)と区切り(14)で決定される処理範囲(17)
にある文字に対する認識候補文字と単語辞書(4)を照合
して，入力日本文(10)の第６文字目に対する認識候補文
字で始まる単語として，「間」(42)，「問」(52)，第７
文字目から，「が」(29)，第８文字目から，「多」(4
6)，第９文字目から「い」(25)，第１０文字目から，
「が」(29)，「か」(28)，第１１文字目から，「，」(2
1)，「へ」(33)，「〜」(22)を，それぞれ選択する。単
語検定手段(8)では，処理範囲(17)の最後の単語である
「人」(44)，「入」(54)と，処理範囲(17)の先頭の単語
である「間」(42)，「問」(59)の接続検定を行うが，文
法辞書(7)の接続情報(65)，(66)，(87)〜(90)により，
いずれも接続不可能となつて，正しい単語である「人
間」(45)が選択されず，正しい処理結果が得られない。

一方，処理範囲決定手段(9)において，例えば，認識候
補文字の第１文が句読点であるときに入力文字が句読点
であると判断して，その直後に区切りをおくとすると，
まず，区切り(14)が見つかるので，単語照合手段(5)で
は，区切り(12)と区切り(14)で決定される処理範囲(18)
にある文字に対する認識候補文字と，単語辞書(4)を照
合して，第１３図に示した単語を選択する。単語接続検
定手段(8)では，文法辞書(7)の接続情報(60)〜(119)に
より，第１４図に示した単語列が接続可能なものとして
選択される。

ここまでは，区切り(14)が正しく設定されているので，
第１３図に示した接続可能な単語列の中に，正しい読取
結果が含まれている。

次に区切り(15)が見つかるので，単語照合手段(5)では
区切り(14)と区切り(15)で決定される処理範囲(19)にあ
る文字に対する認識候補文字と単語辞書(4)を照合し
て，第１５図に示した単語を選択する。

単語接続検定手段(8)では，処理範囲(18)の最後の単語
である「，」(21)と，処理範囲(19)の先頭の単語である
「お」(26)の接続検定を行う。文法辞書(7)の接続情報
(120)〜(122)により，「，」(21)と「お」(26)は接続可
能となるので，「お」(26)と，それに続く「も」(35)，
「む」(34)との接続検定を行う。ところが，文法辞書
(7)の接続情報(123)〜(130)により，「お」(26)が有す
る文法的属性と，「も」(35)，「む」(34)が有する文法
的属性のうち，どれも接続可能となるものがないので，
正しく処理が行われない。これは，区切り(15)が，単語
辞書(4)の単語「おもしろ」(27)の途中に設定されたた
めである。

このような異常が発生した場合には，例えば異常が発生
した処理範囲を、次の処理範囲まで拡張するなどによつ
て正しく処理される場合もあるが，その際には，さらに
処理時間が必要となる。

〔発明が解決しようとする問題点〕従来の日本文読取装置では，認識候補文字と単語辞書と
の照合を行う際に，句読点または文字種の変り目と判断
されたところを区切りとして，処理範囲を決定していた
ので，単語の途中の文字を句読点とまちがつて判断した
り，文字種をまちがつて判断すると，単語の途中に区切
りが設定されて正しい読取結果が得られないという問題
点があつた。また，従来の日本文読取装置では，例えば
句読点を区切りとする場合に，処理範囲が長くなるた
め，処理に必要な記憶容量・処理時間の増大をまねくと
いう問題点があつた。

この発明に係る問題点を解決するためになされたもの
で，区切りの設定まちがいによる読取精度の低下をなく
し，記憶容量の削減および処理時間の減少できる日本文
読取装置を得ることを目的とする。

〔問題点を解決するための手段〕

この発明に係る日本文読取装置は，文字認識手段から出
力された認識候補文字と単語辞書を照合して，連続する
２文字に対する認識候補文字を含む単語が存在しないと
ころを検知し，その間に単語列の境界があるとする単語
列境界検知手段を設けたものである。

〔作用〕

この発明における単語列境界検知手段は，単語辞書に格
納されている単語の途中に，単語接続検定処理範囲の区
切りを設定することなく，かつ，処理範囲の文字列を短
くする。

〔発明の実施例〕

以下，この発明の一実施例を図示して説明する。第１図
はこの発明の実施例を示す構成図である。なお，第２図
に示した従来例と同一符号のものは同一構成要素を示し
ており，その説明は省略する。図中，(6)は単語列の境
界を検知する単語列境界検知手段である。

第１６図，第１７図，第１８図は，単語列境界検知手段
(6)で検知した単語列境界内の認識候補文字と単語辞書
(4)と照合を行つた結果であり、図中，(131)〜(142)
は，単語列境界である。

第１９図，第２０図，第２１図は，第１６図，第１７
図，第１８図の単語列境界に対応し，単語接続検定手段
(8)で，文法辞書(7)を参照して，単語接続検定を行つた
結果である。

第２２図は入力日本文(10)に最初から最後までの処理結
果である。

第２３図は認識候補文字の順位の和を用いて，一意に決
定したときの読取結果である。

次に，動作について説明する。

文字認識手段(3)で第３図に示す入力日本文(10)に対す
る認識候補文字(11)が得られた後，まず，単語照合手段
(5)で，単語辞書(4)と照合を行う。入力日本文(10)の第
１文字目に対する認識候補文字で始まる単語として，第
１６図に示した単語(49)，(50)，(57)，(58)，(47)，(4
8)，(40)が選択される。第２文字目に対する認識候補文
字で始まる単語を選択する前に，単語列境界検知手段
(6)では，第１文字目と第２文字目の間が単語列境界と
なつているかどうかを調べる。すなわち，第１文字目と
第２文字目に対する認識候補文字を含む単語が選択され
ているかどうかを調べ，そのような単語が１つも選択さ
れていなければ，そこを単語列境界とし，そうでなけれ
ば単語列境界としない。この例の場合は，「大都会」(5
0)という単語があるので，入力日本文(10)の第１文字目
と第２文字目の間には単語列境界はないとする。そし
て，単語照合手段(5)では，単語辞書(4)と照合して，入
力日本文(10)の第２文字目に対する認識候補文字で始ま
る単語を選択する。すると，第１６図に示した単語(5
1)，(52)，(53)，(55)，(56)が選択される。そして，同
様に，入力日本文(10)の第３文字目に対する認識候補文
字で始まる単語を選択する前に，単語列境界検知手段
(6)では，入力日本文(10)の第２文字目と第３文字目の
間に単語列境界があるかどうかを調べる。

この例の場合，「大都会」(50)という単語が，第２文字
目と第３文字目にまたがつて存在するので，単語列境界
とはならない。そこで，単語照合手段(5)(5)では，単語
辞書(4)を参照して，入力日本文(10)の第３文字目に対
する認識候補文字で始まる単語(41)，(43)を選択する。
さらに，今度は入力日本文(10)の第４文字目に対する認
識候補文字で始まる単語を選択する前に，単語列境界検
知手段(6)では，入力日本文の第３文字目と第４文字目
の間に単語列境界があるかどうかを調べる。この例の場
合，第３文字目と第４文字目にまたがつて存在する単語
が存在しないので，入力日本文(10)の第３文字目と第４
文字目の間に単語列境界(132)が存在するとする。単語
列境界検知手段(6)で単語列境界(132)が見つかると，単
語接続検定手段(8)では，入力日本文(10)の先頭にあら
かじめ設定しておいた単語列境界(131)と単語列境界(13
2)の間で選択された単語に対して接続検定を行う。文法
辞書(7)内の接続情報(60)〜(62)および(64)〜(76)によ
り，第１９図に示した単語接続検定結果が得られる。

次に，入力日本文(10)の第４文字目に対する認識候補文
字で始まる単語として，第１７図に示した単語(31)，(3
2)が選択される。

同様にして，単語列境界検知手段(6)により，第４文字
目と第５文字目の間に第１７図に示した単語列境界(13
3)が見つかり，単語接続検定手段(8)で単語接続検定を
行うと，文法辞書(7)の接続情報(63)，(77)，(78)によ
り，第２０図に示した単語(31)が単語接続検定結果とし
て得られる。

以降，順に，第１７図に示した単語列境界(133)〜(13
7)，第１８図に示した単語列境界(138)〜(142)が見つか
り，それぞれ，単語(45)，(29)，(46)，(25)，(29)，(2
8)，(21)，(27)，(25)，(20)が接続検定結果として得ら
れる。

入力日本文(10)を最後まで処理したとき，最終結果とし
て，第２２図に示したものが得られる。この例の場合
は，入力日本文(10)の第１文字目から第３文字目，およ
び入力日本文(10)の第１０文字目に対して，複数の単語
列が候補として得られる。このような場合には，人間が
正しい日本文を選択できるように装置を構成してもよい
し，または，例えば，単語列境界間に複数の単語列があ
る場合には，各単語列を構成する認識候補文字の順位の
和が最小となるものを選択するようにすると，「大都
会」(50)および「大」(49)「都会」(52)の順位の和が１
＋１＋１＝３で最小となつて選択され，同様に，「が」
(29)が選択される。そして，いずれの場合も，入力日本
文(10)に対する読取結果として第２３図に示した正しい
結果が得られる。

なお，上記実施例では，通常の日本文について説明した
が，都道府県・市区郡などに分けて書かれていないべた
書きの住所や，氏と名が分けて書かれていない氏名の読
み取りに用いることもできる。

〔発明の効果〕

以上のように，この発明によれば，単語辞書に登録され
ている単語の途中に処理範囲が設定されないように，単
語列境界検知手段を設けたので，正確にかつ短かく処理
範囲が設定でき，処理に必要な記憶容量・処理時間の少
ない日本文読取装置を得るという効果がある。

【図面の簡単な説明】

第１図は，この発明の実施例による構成図，第２図は従
来の方法を用いた場合の構成図，第３図は入力日本文の
例とその認識候補文字の例を示す図，第４図は従来の方
法での区切りと処理範囲を示す図，第５図および第６図
は単語辞書の例を示す図，第７図，第８図および第９図
は，文法辞書の例を示す図，第１０図，第１２図，第１
３図，第１５図は従来の装置での処理範囲に対して単語
照合を行つた例を示す図，第１１図，第１４図は，従来
の装置での処理範囲で単語接続検定を行つた例を示す
図，第１６図，第１７図，第１８図はこの発明による装
置で単語照合を行つた例を示す図，第１９図，第２０
図，第２１図はこの発明による装置で単語接続検定を行
つた例を示す図，第２２図，第２３図はこの発明による
日本文読取結果を示す図，第２２図図において，(3)は文字認識手段，(4)は単語辞書，(5)
は単語照合手段，(6)は単語列境界検知手段，(7)は文法
辞書，(8)は単語接続検定手段である。なお，図中，同一符号は同一または相当部分を示す。

Claims

【特許請求の範囲】

【請求項１】日本文を構成する文字を認識して読み取る
日本文読取装置において、入力文字として確度の高い順
に順位付けされた複数の認識候補文字を入力文字ごとに
選択する文字認識手段と，日本文において使用される単
語および単語ごとの文法的属性を格納した単語辞書と，
上記単語の文法的属性間の文法的接続情報を格納した文
法辞書と，日本文を構成する文字列に対する認識候補文
字を組み合わせた任意の長さの文字列から上記単語辞書
内に存在する単語を選択する単語照合手段と，日本文の
文字を前から順次１文字づつ、直後の文字と連続した２
文字を対象にそれぞれの認識候補文字を組み合わせた文
字列を含む２文字以上の単語が上記単語辞書内に存在し
ないときに上記連続する２文字の間を単語列の境界とす
る単語列境界検知手段と，連続する単語から上記文法辞
書内の文法的接続情報を用いて文法的に接続が可能な単
語列を選択する単語接続検定手段とを備え、上記単語列
境界検知手段によって検知された単語列境界で区切られ
た文字列に対して，上記単語照合手段を用いて複数の候
補単語列を選択し，選択された候補単語列のうちから上
記単語接続検定手段を用いて文法的接続が可能な候補単
語列を選択し，さらに単語列境界の前後の上記選択され
た候補単語列のうちから単語列境界を越えて日本文に接
続が可能な単語列を上記単語接続検定手段を用いて選択
し，選択された単語列を入力日本文に対する読取結果と
することを特徴とする日本文読取装置。