JPH0632091B2 - 日本文読取装置 - Google Patents
日本文読取装置Info
- Publication number
- JPH0632091B2 JPH0632091B2 JP61033536A JP3353686A JPH0632091B2 JP H0632091 B2 JPH0632091 B2 JP H0632091B2 JP 61033536 A JP61033536 A JP 61033536A JP 3353686 A JP3353686 A JP 3353686A JP H0632091 B2 JPH0632091 B2 JP H0632091B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- string
- characters
- japanese sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は,日常使われる日本文を読み取る装置に係
り,とくに日本文を構成する文字を1文字ごとに認識
し,その認識結果から文法的に確からしい結果を選択し
て読取結果とする日本文読取装置に関するものである。
り,とくに日本文を構成する文字を1文字ごとに認識
し,その認識結果から文法的に確からしい結果を選択し
て読取結果とする日本文読取装置に関するものである。
第2図は従来の日本文読取装置の構成図であり,図にお
いて,(1)は張票,(2)は走査手段,(3)は文字を1文字
ごとに切り出して認識し,認識候補文字を出力する文字
認識手段,(9)は例えば,「候補文字補完と形態素解析
による漢字認識の誤り訂正処理法」(昭和60年度電子
通信学会情報・システム部門全国大会S4−4」また
は,「言語情報と認識情報を用いた文字認識後処理」
(電子通信学会研究会資料PRL82−76)に示される
ように,認識候補文字から句読点または例えば平仮名か
ら漢字への文字種の変り目を検知して,単語辞書との照
合および単語の文法的接続検定を行う範囲を決定する処
理範囲決定手段,(4)は日本文において使用される単語
とその文法的属性を格納した単語辞書,(5)は上記処理
範囲決定手段(9)で決定された範囲の文字列に対する認
識候補文字と単語辞書(4)を照合して,単語辞書(4)に存
在する単語を選択する単語照合手段,(7)は連続する単
語列が文法的に接続可能かどうかの接続情報を格納した
文法辞書,(8)は上記文法辞書(7)を参照して,文法的に
接続が可能な単語列を選択する単語接続検定手段であ
る。
いて,(1)は張票,(2)は走査手段,(3)は文字を1文字
ごとに切り出して認識し,認識候補文字を出力する文字
認識手段,(9)は例えば,「候補文字補完と形態素解析
による漢字認識の誤り訂正処理法」(昭和60年度電子
通信学会情報・システム部門全国大会S4−4」また
は,「言語情報と認識情報を用いた文字認識後処理」
(電子通信学会研究会資料PRL82−76)に示される
ように,認識候補文字から句読点または例えば平仮名か
ら漢字への文字種の変り目を検知して,単語辞書との照
合および単語の文法的接続検定を行う範囲を決定する処
理範囲決定手段,(4)は日本文において使用される単語
とその文法的属性を格納した単語辞書,(5)は上記処理
範囲決定手段(9)で決定された範囲の文字列に対する認
識候補文字と単語辞書(4)を照合して,単語辞書(4)に存
在する単語を選択する単語照合手段,(7)は連続する単
語列が文法的に接続可能かどうかの接続情報を格納した
文法辞書,(8)は上記文法辞書(7)を参照して,文法的に
接続が可能な単語列を選択する単語接続検定手段であ
る。
日本文は,例えば英語などの言語と違い,単語単位に分
かち書きをする習慣がなく,一般には,複数の文がいく
つもべた書きされる。したがって,日本文読取装置で
は,通常複数の文から構成される読取対象の文章を,最
初から最後までを1回で処理するのは,記憶容量・処理
時間の増大をまねくという点から,効率が悪く,読取対
象の日本文を適当な長さに区切つて処理を行う必要があ
る。
かち書きをする習慣がなく,一般には,複数の文がいく
つもべた書きされる。したがって,日本文読取装置で
は,通常複数の文から構成される読取対象の文章を,最
初から最後までを1回で処理するのは,記憶容量・処理
時間の増大をまねくという点から,効率が悪く,読取対
象の日本文を適当な長さに区切つて処理を行う必要があ
る。
従来の日本文読取装置は上記のように構成され日本文を
構成する文字の認識候補文字から,句読点と判断された
文字位置を区切りとして,さらに例えば,平仮名と判断
された文字から漢字と判断された文字への変り目など,
文字種の変り目を区切りとして,それら区切り間に存在
する文字に対する認識候補文字を用いて日本文を読み取
つていた。
構成する文字の認識候補文字から,句読点と判断された
文字位置を区切りとして,さらに例えば,平仮名と判断
された文字から漢字と判断された文字への変り目など,
文字種の変り目を区切りとして,それら区切り間に存在
する文字に対する認識候補文字を用いて日本文を読み取
つていた。
第3図は,日本文読取装置に入力される張票(1)上に印
刷または記入された入力日本文の例および入力日本文の
各文字認識手段(3)で1文字ごとに認識して得られる認
識候補文字の例であり,図において,(10)は入力日本文
を構成する文字列“大都会は人間が多いが,おもしろ
い。”であり,(11)は入力日本文(10)の各文字列に対す
る認識候補文字列である。
刷または記入された入力日本文の例および入力日本文の
各文字認識手段(3)で1文字ごとに認識して得られる認
識候補文字の例であり,図において,(10)は入力日本文
を構成する文字列“大都会は人間が多いが,おもしろ
い。”であり,(11)は入力日本文(10)の各文字列に対す
る認識候補文字列である。
第4図は従来の日本文読取装置における処理範囲決定手
段(9)で決定された処理範囲であり,図中(12)〜(15)は
区切りとなる位置,(16)〜(19)は処理範囲である。
段(9)で決定された処理範囲であり,図中(12)〜(15)は
区切りとなる位置,(16)〜(19)は処理範囲である。
第5図,第6図は単語辞書(4)の例であり,図中,(20)
〜(59)は単語の項目および文法的属性である。
〜(59)は単語の項目および文法的属性である。
第7図,第8図および第9図は文法辞書(7)の例であ
り,〇印は文法的属性どうしが接続可能であることを示
し,×印は文法的属性どうしが接続不可能であることを
示す。
り,〇印は文法的属性どうしが接続可能であることを示
し,×印は文法的属性どうしが接続不可能であることを
示す。
第10図は区切り(12)と区切り(13)で決定される処理範
囲(16)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
囲(16)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
第11図は処理範囲(16)で選択された単語に対して、単
語接続検定手段(8)で,文法辞書(7)を参照しながら,文
法的に接続可能となるものを選択した結果である。
語接続検定手段(8)で,文法辞書(7)を参照しながら,文
法的に接続可能となるものを選択した結果である。
第12図は区切り(13)と区切り(14)で決定される処理範
囲(17)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
囲(17)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
第13図は区切り(12)と区切り(14)で決定される処理範
囲(18)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。第14図は処理
範囲(18)で選択された単語に対して,単語接続検定手段
(8)で,文法辞書(7)を参照しながら,文法的に接続可能
となるものを選択した結果である。
囲(18)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。第14図は処理
範囲(18)で選択された単語に対して,単語接続検定手段
(8)で,文法辞書(7)を参照しながら,文法的に接続可能
となるものを選択した結果である。
第15図は区切り(14)と区切り(15)で決定される処理範
囲(19)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
囲(19)にある文字列に対する認識候補文字と単語辞書
(4)を照合して選択された単語である。
次に動作について説明する。
帳票(1)上の入力日本文(10)は走査手段(2)で走査され,
文字認識手段(3)で,2値化などの前処理を行つた後,
1文字ごとに切り出され,パターンマツチング等の方法
によつて認識される。そして,入力文字としての確度が
高い順に順位付けされた複数の認識候補文字(11)を出力
する。処理範囲決定手段(9)では,まず入力日本文(10)
の先頭に区切り(12)をおき,そして,例えば,認識候補
文字の第1位が句読点である文字からそうでない文字に
変化するところ,および認識候補文字の第1位が平仮名
である文字から,認識候補文字の第1位が漢字である文
字に変化するところを、それぞれ字種の変り目であると
して区切りをおくとすると,まず区切り(13)が見つか
る。単語照合手段(5)では,区切り(12)と区切り(13)で
決定される処理範囲(16)にある文字に対する認識候補文
字と単語辞書(4)を照合して,入力日本文(10)の第1文
字目に対する認識候補文字で始まる単語として,「大」
(49),「大都会」(50),「文」(57),「文部」(58),
「太」(47),「太郎」(48),「火」(40)第2文字目か
ら,「都」(51)「都会」(52),「都合」(53),「部」(5
5),「部会」(56),第3文字目から,「会」(41),
「合」(43),第4文字目から,「は」(31),「ば」(32)
第5文字から,「ん」(39),「人」(44),「入」(54)を
それぞれ選択する。単語接続検定手段(8)では,文法辞
書(7)を参照して,単語照合手段(5)で選択された単語間
の接続検定を行つて,接続が可能となる単語列を選択す
る。この例の場合は文法辞書(7)の接続情報(60)〜(85)
により,第11図に示した単語列が接続可能なものとし
て選択される。
文字認識手段(3)で,2値化などの前処理を行つた後,
1文字ごとに切り出され,パターンマツチング等の方法
によつて認識される。そして,入力文字としての確度が
高い順に順位付けされた複数の認識候補文字(11)を出力
する。処理範囲決定手段(9)では,まず入力日本文(10)
の先頭に区切り(12)をおき,そして,例えば,認識候補
文字の第1位が句読点である文字からそうでない文字に
変化するところ,および認識候補文字の第1位が平仮名
である文字から,認識候補文字の第1位が漢字である文
字に変化するところを、それぞれ字種の変り目であると
して区切りをおくとすると,まず区切り(13)が見つか
る。単語照合手段(5)では,区切り(12)と区切り(13)で
決定される処理範囲(16)にある文字に対する認識候補文
字と単語辞書(4)を照合して,入力日本文(10)の第1文
字目に対する認識候補文字で始まる単語として,「大」
(49),「大都会」(50),「文」(57),「文部」(58),
「太」(47),「太郎」(48),「火」(40)第2文字目か
ら,「都」(51)「都会」(52),「都合」(53),「部」(5
5),「部会」(56),第3文字目から,「会」(41),
「合」(43),第4文字目から,「は」(31),「ば」(32)
第5文字から,「ん」(39),「人」(44),「入」(54)を
それぞれ選択する。単語接続検定手段(8)では,文法辞
書(7)を参照して,単語照合手段(5)で選択された単語間
の接続検定を行つて,接続が可能となる単語列を選択す
る。この例の場合は文法辞書(7)の接続情報(60)〜(85)
により,第11図に示した単語列が接続可能なものとし
て選択される。
次に区切り(14)が見つかるので,単語照合手段(5)で
は,区切り(13)と区切り(14)で決定される処理範囲(17)
にある文字に対する認識候補文字と単語辞書(4)を照合
して,入力日本文(10)の第6文字目に対する認識候補文
字で始まる単語として,「間」(42),「問」(52),第7
文字目から,「が」(29),第8文字目から,「多」(4
6),第9文字目から「い」(25),第10文字目から,
「が」(29),「か」(28),第11文字目から,「,」(2
1),「へ」(33),「〜」(22)を,それぞれ選択する。単
語検定手段(8)では,処理範囲(17)の最後の単語である
「人」(44),「入」(54)と,処理範囲(17)の先頭の単語
である「間」(42),「問」(59)の接続検定を行うが,文
法辞書(7)の接続情報(65),(66),(87)〜(90)により,
いずれも接続不可能となつて,正しい単語である「人
間」(45)が選択されず,正しい処理結果が得られない。
は,区切り(13)と区切り(14)で決定される処理範囲(17)
にある文字に対する認識候補文字と単語辞書(4)を照合
して,入力日本文(10)の第6文字目に対する認識候補文
字で始まる単語として,「間」(42),「問」(52),第7
文字目から,「が」(29),第8文字目から,「多」(4
6),第9文字目から「い」(25),第10文字目から,
「が」(29),「か」(28),第11文字目から,「,」(2
1),「へ」(33),「〜」(22)を,それぞれ選択する。単
語検定手段(8)では,処理範囲(17)の最後の単語である
「人」(44),「入」(54)と,処理範囲(17)の先頭の単語
である「間」(42),「問」(59)の接続検定を行うが,文
法辞書(7)の接続情報(65),(66),(87)〜(90)により,
いずれも接続不可能となつて,正しい単語である「人
間」(45)が選択されず,正しい処理結果が得られない。
一方,処理範囲決定手段(9)において,例えば,認識候
補文字の第1文が句読点であるときに入力文字が句読点
であると判断して,その直後に区切りをおくとすると,
まず,区切り(14)が見つかるので,単語照合手段(5)で
は,区切り(12)と区切り(14)で決定される処理範囲(18)
にある文字に対する認識候補文字と,単語辞書(4)を照
合して,第13図に示した単語を選択する。単語接続検
定手段(8)では,文法辞書(7)の接続情報(60)〜(119)に
より,第14図に示した単語列が接続可能なものとして
選択される。
補文字の第1文が句読点であるときに入力文字が句読点
であると判断して,その直後に区切りをおくとすると,
まず,区切り(14)が見つかるので,単語照合手段(5)で
は,区切り(12)と区切り(14)で決定される処理範囲(18)
にある文字に対する認識候補文字と,単語辞書(4)を照
合して,第13図に示した単語を選択する。単語接続検
定手段(8)では,文法辞書(7)の接続情報(60)〜(119)に
より,第14図に示した単語列が接続可能なものとして
選択される。
ここまでは,区切り(14)が正しく設定されているので,
第13図に示した接続可能な単語列の中に,正しい読取
結果が含まれている。
第13図に示した接続可能な単語列の中に,正しい読取
結果が含まれている。
次に区切り(15)が見つかるので,単語照合手段(5)では
区切り(14)と区切り(15)で決定される処理範囲(19)にあ
る文字に対する認識候補文字と単語辞書(4)を照合し
て,第15図に示した単語を選択する。
区切り(14)と区切り(15)で決定される処理範囲(19)にあ
る文字に対する認識候補文字と単語辞書(4)を照合し
て,第15図に示した単語を選択する。
単語接続検定手段(8)では,処理範囲(18)の最後の単語
である「,」(21)と,処理範囲(19)の先頭の単語である
「お」(26)の接続検定を行う。文法辞書(7)の接続情報
(120)〜(122)により,「,」(21)と「お」(26)は接続可
能となるので,「お」(26)と,それに続く「も」(35),
「む」(34)との接続検定を行う。ところが,文法辞書
(7)の接続情報(123)〜(130)により,「お」(26)が有す
る文法的属性と,「も」(35),「む」(34)が有する文法
的属性のうち,どれも接続可能となるものがないので,
正しく処理が行われない。これは,区切り(15)が,単語
辞書(4)の単語「おもしろ」(27)の途中に設定されたた
めである。
である「,」(21)と,処理範囲(19)の先頭の単語である
「お」(26)の接続検定を行う。文法辞書(7)の接続情報
(120)〜(122)により,「,」(21)と「お」(26)は接続可
能となるので,「お」(26)と,それに続く「も」(35),
「む」(34)との接続検定を行う。ところが,文法辞書
(7)の接続情報(123)〜(130)により,「お」(26)が有す
る文法的属性と,「も」(35),「む」(34)が有する文法
的属性のうち,どれも接続可能となるものがないので,
正しく処理が行われない。これは,区切り(15)が,単語
辞書(4)の単語「おもしろ」(27)の途中に設定されたた
めである。
このような異常が発生した場合には,例えば異常が発生
した処理範囲を、次の処理範囲まで拡張するなどによつ
て正しく処理される場合もあるが,その際には,さらに
処理時間が必要となる。
した処理範囲を、次の処理範囲まで拡張するなどによつ
て正しく処理される場合もあるが,その際には,さらに
処理時間が必要となる。
〔発明が解決しようとする問題点〕 従来の日本文読取装置では,認識候補文字と単語辞書と
の照合を行う際に,句読点または文字種の変り目と判断
されたところを区切りとして,処理範囲を決定していた
ので,単語の途中の文字を句読点とまちがつて判断した
り,文字種をまちがつて判断すると,単語の途中に区切
りが設定されて正しい読取結果が得られないという問題
点があつた。また,従来の日本文読取装置では,例えば
句読点を区切りとする場合に,処理範囲が長くなるた
め,処理に必要な記憶容量・処理時間の増大をまねくと
いう問題点があつた。
の照合を行う際に,句読点または文字種の変り目と判断
されたところを区切りとして,処理範囲を決定していた
ので,単語の途中の文字を句読点とまちがつて判断した
り,文字種をまちがつて判断すると,単語の途中に区切
りが設定されて正しい読取結果が得られないという問題
点があつた。また,従来の日本文読取装置では,例えば
句読点を区切りとする場合に,処理範囲が長くなるた
め,処理に必要な記憶容量・処理時間の増大をまねくと
いう問題点があつた。
この発明に係る問題点を解決するためになされたもの
で,区切りの設定まちがいによる読取精度の低下をなく
し,記憶容量の削減および処理時間の減少できる日本文
読取装置を得ることを目的とする。
で,区切りの設定まちがいによる読取精度の低下をなく
し,記憶容量の削減および処理時間の減少できる日本文
読取装置を得ることを目的とする。
この発明に係る日本文読取装置は,文字認識手段から出
力された認識候補文字と単語辞書を照合して,連続する
2文字に対する認識候補文字を含む単語が存在しないと
ころを検知し,その間に単語列の境界があるとする単語
列境界検知手段を設けたものである。
力された認識候補文字と単語辞書を照合して,連続する
2文字に対する認識候補文字を含む単語が存在しないと
ころを検知し,その間に単語列の境界があるとする単語
列境界検知手段を設けたものである。
この発明における単語列境界検知手段は,単語辞書に格
納されている単語の途中に,単語接続検定処理範囲の区
切りを設定することなく,かつ,処理範囲の文字列を短
くする。
納されている単語の途中に,単語接続検定処理範囲の区
切りを設定することなく,かつ,処理範囲の文字列を短
くする。
以下,この発明の一実施例を図示して説明する。第1図
はこの発明の実施例を示す構成図である。なお,第2図
に示した従来例と同一符号のものは同一構成要素を示し
ており,その説明は省略する。図中,(6)は単語列の境
界を検知する単語列境界検知手段である。
はこの発明の実施例を示す構成図である。なお,第2図
に示した従来例と同一符号のものは同一構成要素を示し
ており,その説明は省略する。図中,(6)は単語列の境
界を検知する単語列境界検知手段である。
第16図,第17図,第18図は,単語列境界検知手段
(6)で検知した単語列境界内の認識候補文字と単語辞書
(4)と照合を行つた結果であり、図中,(131)〜(142)
は,単語列境界である。
(6)で検知した単語列境界内の認識候補文字と単語辞書
(4)と照合を行つた結果であり、図中,(131)〜(142)
は,単語列境界である。
第19図,第20図,第21図は,第16図,第17
図,第18図の単語列境界に対応し,単語接続検定手段
(8)で,文法辞書(7)を参照して,単語接続検定を行つた
結果である。
図,第18図の単語列境界に対応し,単語接続検定手段
(8)で,文法辞書(7)を参照して,単語接続検定を行つた
結果である。
第22図は入力日本文(10)に最初から最後までの処理結
果である。
果である。
第23図は認識候補文字の順位の和を用いて,一意に決
定したときの読取結果である。
定したときの読取結果である。
次に,動作について説明する。
文字認識手段(3)で第3図に示す入力日本文(10)に対す
る認識候補文字(11)が得られた後,まず,単語照合手段
(5)で,単語辞書(4)と照合を行う。入力日本文(10)の第
1文字目に対する認識候補文字で始まる単語として,第
16図に示した単語(49),(50),(57),(58),(47),(4
8),(40)が選択される。第2文字目に対する認識候補文
字で始まる単語を選択する前に,単語列境界検知手段
(6)では,第1文字目と第2文字目の間が単語列境界と
なつているかどうかを調べる。すなわち,第1文字目と
第2文字目に対する認識候補文字を含む単語が選択され
ているかどうかを調べ,そのような単語が1つも選択さ
れていなければ,そこを単語列境界とし,そうでなけれ
ば単語列境界としない。この例の場合は,「大都会」(5
0)という単語があるので,入力日本文(10)の第1文字目
と第2文字目の間には単語列境界はないとする。そし
て,単語照合手段(5)では,単語辞書(4)と照合して,入
力日本文(10)の第2文字目に対する認識候補文字で始ま
る単語を選択する。すると,第16図に示した単語(5
1),(52),(53),(55),(56)が選択される。そして,同
様に,入力日本文(10)の第3文字目に対する認識候補文
字で始まる単語を選択する前に,単語列境界検知手段
(6)では,入力日本文(10)の第2文字目と第3文字目の
間に単語列境界があるかどうかを調べる。
る認識候補文字(11)が得られた後,まず,単語照合手段
(5)で,単語辞書(4)と照合を行う。入力日本文(10)の第
1文字目に対する認識候補文字で始まる単語として,第
16図に示した単語(49),(50),(57),(58),(47),(4
8),(40)が選択される。第2文字目に対する認識候補文
字で始まる単語を選択する前に,単語列境界検知手段
(6)では,第1文字目と第2文字目の間が単語列境界と
なつているかどうかを調べる。すなわち,第1文字目と
第2文字目に対する認識候補文字を含む単語が選択され
ているかどうかを調べ,そのような単語が1つも選択さ
れていなければ,そこを単語列境界とし,そうでなけれ
ば単語列境界としない。この例の場合は,「大都会」(5
0)という単語があるので,入力日本文(10)の第1文字目
と第2文字目の間には単語列境界はないとする。そし
て,単語照合手段(5)では,単語辞書(4)と照合して,入
力日本文(10)の第2文字目に対する認識候補文字で始ま
る単語を選択する。すると,第16図に示した単語(5
1),(52),(53),(55),(56)が選択される。そして,同
様に,入力日本文(10)の第3文字目に対する認識候補文
字で始まる単語を選択する前に,単語列境界検知手段
(6)では,入力日本文(10)の第2文字目と第3文字目の
間に単語列境界があるかどうかを調べる。
この例の場合,「大都会」(50)という単語が,第2文字
目と第3文字目にまたがつて存在するので,単語列境界
とはならない。そこで,単語照合手段(5)(5)では,単語
辞書(4)を参照して,入力日本文(10)の第3文字目に対
する認識候補文字で始まる単語(41),(43)を選択する。
さらに,今度は入力日本文(10)の第4文字目に対する認
識候補文字で始まる単語を選択する前に,単語列境界検
知手段(6)では,入力日本文の第3文字目と第4文字目
の間に単語列境界があるかどうかを調べる。この例の場
合,第3文字目と第4文字目にまたがつて存在する単語
が存在しないので,入力日本文(10)の第3文字目と第4
文字目の間に単語列境界(132)が存在するとする。単語
列境界検知手段(6)で単語列境界(132)が見つかると,単
語接続検定手段(8)では,入力日本文(10)の先頭にあら
かじめ設定しておいた単語列境界(131)と単語列境界(13
2)の間で選択された単語に対して接続検定を行う。文法
辞書(7)内の接続情報(60)〜(62)および(64)〜(76)によ
り,第19図に示した単語接続検定結果が得られる。
目と第3文字目にまたがつて存在するので,単語列境界
とはならない。そこで,単語照合手段(5)(5)では,単語
辞書(4)を参照して,入力日本文(10)の第3文字目に対
する認識候補文字で始まる単語(41),(43)を選択する。
さらに,今度は入力日本文(10)の第4文字目に対する認
識候補文字で始まる単語を選択する前に,単語列境界検
知手段(6)では,入力日本文の第3文字目と第4文字目
の間に単語列境界があるかどうかを調べる。この例の場
合,第3文字目と第4文字目にまたがつて存在する単語
が存在しないので,入力日本文(10)の第3文字目と第4
文字目の間に単語列境界(132)が存在するとする。単語
列境界検知手段(6)で単語列境界(132)が見つかると,単
語接続検定手段(8)では,入力日本文(10)の先頭にあら
かじめ設定しておいた単語列境界(131)と単語列境界(13
2)の間で選択された単語に対して接続検定を行う。文法
辞書(7)内の接続情報(60)〜(62)および(64)〜(76)によ
り,第19図に示した単語接続検定結果が得られる。
次に,入力日本文(10)の第4文字目に対する認識候補文
字で始まる単語として,第17図に示した単語(31),(3
2)が選択される。
字で始まる単語として,第17図に示した単語(31),(3
2)が選択される。
同様にして,単語列境界検知手段(6)により,第4文字
目と第5文字目の間に第17図に示した単語列境界(13
3)が見つかり,単語接続検定手段(8)で単語接続検定を
行うと,文法辞書(7)の接続情報(63),(77),(78)によ
り,第20図に示した単語(31)が単語接続検定結果とし
て得られる。
目と第5文字目の間に第17図に示した単語列境界(13
3)が見つかり,単語接続検定手段(8)で単語接続検定を
行うと,文法辞書(7)の接続情報(63),(77),(78)によ
り,第20図に示した単語(31)が単語接続検定結果とし
て得られる。
以降,順に,第17図に示した単語列境界(133)〜(13
7),第18図に示した単語列境界(138)〜(142)が見つか
り,それぞれ,単語(45),(29),(46),(25),(29),(2
8),(21),(27),(25),(20)が接続検定結果として得ら
れる。
7),第18図に示した単語列境界(138)〜(142)が見つか
り,それぞれ,単語(45),(29),(46),(25),(29),(2
8),(21),(27),(25),(20)が接続検定結果として得ら
れる。
入力日本文(10)を最後まで処理したとき,最終結果とし
て,第22図に示したものが得られる。この例の場合
は,入力日本文(10)の第1文字目から第3文字目,およ
び入力日本文(10)の第10文字目に対して,複数の単語
列が候補として得られる。このような場合には,人間が
正しい日本文を選択できるように装置を構成してもよい
し,または,例えば,単語列境界間に複数の単語列があ
る場合には,各単語列を構成する認識候補文字の順位の
和が最小となるものを選択するようにすると,「大都
会」(50)および「大」(49)「都会」(52)の順位の和が1
+1+1=3で最小となつて選択され,同様に,「が」
(29)が選択される。そして,いずれの場合も,入力日本
文(10)に対する読取結果として第23図に示した正しい
結果が得られる。
て,第22図に示したものが得られる。この例の場合
は,入力日本文(10)の第1文字目から第3文字目,およ
び入力日本文(10)の第10文字目に対して,複数の単語
列が候補として得られる。このような場合には,人間が
正しい日本文を選択できるように装置を構成してもよい
し,または,例えば,単語列境界間に複数の単語列があ
る場合には,各単語列を構成する認識候補文字の順位の
和が最小となるものを選択するようにすると,「大都
会」(50)および「大」(49)「都会」(52)の順位の和が1
+1+1=3で最小となつて選択され,同様に,「が」
(29)が選択される。そして,いずれの場合も,入力日本
文(10)に対する読取結果として第23図に示した正しい
結果が得られる。
なお,上記実施例では,通常の日本文について説明した
が,都道府県・市区郡などに分けて書かれていないべた
書きの住所や,氏と名が分けて書かれていない氏名の読
み取りに用いることもできる。
が,都道府県・市区郡などに分けて書かれていないべた
書きの住所や,氏と名が分けて書かれていない氏名の読
み取りに用いることもできる。
以上のように,この発明によれば,単語辞書に登録され
ている単語の途中に処理範囲が設定されないように,単
語列境界検知手段を設けたので,正確にかつ短かく処理
範囲が設定でき,処理に必要な記憶容量・処理時間の少
ない日本文読取装置を得るという効果がある。
ている単語の途中に処理範囲が設定されないように,単
語列境界検知手段を設けたので,正確にかつ短かく処理
範囲が設定でき,処理に必要な記憶容量・処理時間の少
ない日本文読取装置を得るという効果がある。
第1図は,この発明の実施例による構成図,第2図は従
来の方法を用いた場合の構成図,第3図は入力日本文の
例とその認識候補文字の例を示す図,第4図は従来の方
法での区切りと処理範囲を示す図,第5図および第6図
は単語辞書の例を示す図,第7図,第8図および第9図
は,文法辞書の例を示す図,第10図,第12図,第1
3図,第15図は従来の装置での処理範囲に対して単語
照合を行つた例を示す図,第11図,第14図は,従来
の装置での処理範囲で単語接続検定を行つた例を示す
図,第16図,第17図,第18図はこの発明による装
置で単語照合を行つた例を示す図,第19図,第20
図,第21図はこの発明による装置で単語接続検定を行
つた例を示す図,第22図,第23図はこの発明による
日本文読取結果を示す図,第22図 図において,(3)は文字認識手段,(4)は単語辞書,(5)
は単語照合手段,(6)は単語列境界検知手段,(7)は文法
辞書,(8)は単語接続検定手段である。 なお,図中,同一符号は同一または相当部分を示す。
来の方法を用いた場合の構成図,第3図は入力日本文の
例とその認識候補文字の例を示す図,第4図は従来の方
法での区切りと処理範囲を示す図,第5図および第6図
は単語辞書の例を示す図,第7図,第8図および第9図
は,文法辞書の例を示す図,第10図,第12図,第1
3図,第15図は従来の装置での処理範囲に対して単語
照合を行つた例を示す図,第11図,第14図は,従来
の装置での処理範囲で単語接続検定を行つた例を示す
図,第16図,第17図,第18図はこの発明による装
置で単語照合を行つた例を示す図,第19図,第20
図,第21図はこの発明による装置で単語接続検定を行
つた例を示す図,第22図,第23図はこの発明による
日本文読取結果を示す図,第22図 図において,(3)は文字認識手段,(4)は単語辞書,(5)
は単語照合手段,(6)は単語列境界検知手段,(7)は文法
辞書,(8)は単語接続検定手段である。 なお,図中,同一符号は同一または相当部分を示す。
Claims (1)
- 【請求項1】日本文を構成する文字を認識して読み取る
日本文読取装置において、入力文字として確度の高い順
に順位付けされた複数の認識候補文字を入力文字ごとに
選択する文字認識手段と,日本文において使用される単
語および単語ごとの文法的属性を格納した単語辞書と,
上記単語の文法的属性間の文法的接続情報を格納した文
法辞書と,日本文を構成する文字列に対する認識候補文
字を組み合わせた任意の長さの文字列から上記単語辞書
内に存在する単語を選択する単語照合手段と,日本文の
文字を前から順次1文字づつ、直後の文字と連続した2
文字を対象にそれぞれの認識候補文字を組み合わせた文
字列を含む2文字以上の単語が上記単語辞書内に存在し
ないときに上記連続する2文字の間を単語列の境界とす
る単語列境界検知手段と,連続する単語から上記文法辞
書内の文法的接続情報を用いて文法的に接続が可能な単
語列を選択する単語接続検定手段とを備え、上記単語列
境界検知手段によって検知された単語列境界で区切られ
た文字列に対して,上記単語照合手段を用いて複数の候
補単語列を選択し,選択された候補単語列のうちから上
記単語接続検定手段を用いて文法的接続が可能な候補単
語列を選択し,さらに単語列境界の前後の上記選択され
た候補単語列のうちから単語列境界を越えて日本文に接
続が可能な単語列を上記単語接続検定手段を用いて選択
し,選択された単語列を入力日本文に対する読取結果と
することを特徴とする日本文読取装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61033536A JPH0632091B2 (ja) | 1986-02-18 | 1986-02-18 | 日本文読取装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61033536A JPH0632091B2 (ja) | 1986-02-18 | 1986-02-18 | 日本文読取装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62191990A JPS62191990A (ja) | 1987-08-22 |
| JPH0632091B2 true JPH0632091B2 (ja) | 1994-04-27 |
Family
ID=12389282
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61033536A Expired - Lifetime JPH0632091B2 (ja) | 1986-02-18 | 1986-02-18 | 日本文読取装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0632091B2 (ja) |
-
1986
- 1986-02-18 JP JP61033536A patent/JPH0632091B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS62191990A (ja) | 1987-08-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
| Zhang et al. | Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm | |
| Mohamed et al. | Arabic Part of Speech Tagging. | |
| JPH0632091B2 (ja) | 日本文読取装置 | |
| JPS6239793B2 (ja) | ||
| JP2599973B2 (ja) | 日本文訂正候補文字抽出装置 | |
| Mon et al. | Myanmar spell checker | |
| JP2908460B2 (ja) | 誤認識修正方法及び装置 | |
| JPH03156589A (ja) | 誤読文字の検出,修正方法 | |
| JPH0256086A (ja) | 文字認識の後処理方法 | |
| JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
| JP2570784B2 (ja) | 文書リーダ後処理装置 | |
| JPS61208164A (ja) | 日本語文章校正装置の表示方式 | |
| JPH08305698A (ja) | 自然語解析方法及び装置 | |
| JP2895137B2 (ja) | 日本文誤り自動検出および訂正装置 | |
| JPS61202273A (ja) | 電子式辞書 | |
| JPS63163956A (ja) | 文書作成・校正支援装置 | |
| JPS6394364A (ja) | 日本文誤字自動修正装置 | |
| JPH0248938B2 (ja) | ||
| van Delden | Problematic Syntactic Patterns | |
| Singh et al. | Content Improvisation by Spell Checking, Grammar Checking, Tone Checking and Scoring | |
| JPS63103375A (ja) | 文書処理装置 | |
| JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
| JPH0546612A (ja) | 文章誤り検出装置 | |
| JPS63234348A (ja) | 文章校正支援方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |