JPH11120290A

JPH11120290A - 文字認識装置及びその方法、コンピュータ可読メモリ

Info

Publication number: JPH11120290A
Application number: JP9286992A
Authority: JP
Inventors: Masanobu Funakoshi; 正伸船越; Haruki Nakakoshi; 治樹中越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-10-20
Filing date: 1997-10-20
Publication date: 1999-04-30

Abstract

(57)【要約】【課題】認識率を向上することができる文字認識装置
及びその方法を提供する。【解決手段】ＳＣＡＮ９から入力された画像データに
対し文字認識を行う。文字認識によって出力された候補
文字列の各文字がひらがなあるいは漢字であるか否かを
判定する。判定結果に基づいて、候補文字列から構成さ
れる部分文字列に対し、単語辞書ＷＤＩＣ（３ａ）を参
照して言語処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された画像デ
ータに対し文字認識を行う文字認識装置及びその方法、
コンピュータ可読メモリに関するものである。

【０００２】

【従来の技術】一般の文字認識装置では、光学センサを
用いて原稿画像を読み取り、読み取った画像における文
字列において文字の切り出しを行い、切り出した文字画
像を認識してその候補となる文字コード列を出力するこ
とができる。

【０００３】しかしながら、出力されたこれら文字コー
ド列の第一候補列は、読み取った画像と文字認識用辞書
から参照される文字パターンとの類似度を基準にして選
択、出力されるために、人間が読むと不自然な結果とな
ることが多かった。

【０００４】そこで、文字認識後の処理として、出力さ
れた候補文字コード列に対して言語処理を行い、自然な
文字候補列に補正する試みが行われてきた。

【０００５】これは、例えば、文字認識処理によって出
力される候補文字のすべての組み合わせを作成する。そ
して、これらの組み合わせに該当する単語を単語辞書か
ら検索し、単語辞書から検索された単語を取り出し言語
的に正しく組み合わせることによって、文字認識処理に
よって出力される文字候補列を、自然な文字候補列に補
正しようというものである。

【０００６】

【発明が解決しようとする課題】しかしながら、上記従
来の文字認識装置の言語処理において、単語辞書に登録
されていない単語、即ち、未知語が読み取った原稿画像
に存在した場合、その未知語は、単語辞書に登録されて
いる単語のいずれかに該当するものとして検索されてし
まう。そのため、かえって文字認識結果を改悪してしま
うという問題が生じた。特に、この現象はカタカナや英
文字列で顕著である。例えば、「キリコ」という文字列
が含まれる原稿画像に対し文字認識処理し、第一候補文
字列に正しい文字認識結果「キリコ」が出力されたにも
かかわらず、この「キリコ」に対し言語処理を行うと、
文字認識結果が「千リラ」と改悪してしまうような場合
があった。

【０００７】本発明は上記問題点に鑑みてなされたもの
であり、認識率を向上することができる文字認識装置及
びその方法を提供することを目的とする。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による文字認識装置は以下の構成を備える。
即ち、入力された画像データに対し文字認識を行う文字
認識装置であって、前記入力された画像データに対し文
字認識を行う文字認識手段と、前記文字認識手段によっ
て出力された候補文字列の各文字がひらがなあるいは漢
字であるか否かを判定する判定手段と、前記判定手段の
判定結果に基づいて、前記候補文字列から構成される部
分文字列に対し言語処理を行う言語処理手段とを備え
る。

【０００９】また、好ましくは、前記判定手段は、前記
候補文字列中にひらがなあるいは漢字と判定されない連
続する部分文字列がある場合、該部分文字列を文字認識
結果として確定する。

【００１０】また、好ましくは、前記言語処理手段は、
前記判定手段によってひらがなあるいは漢字と判定され
た文字群から構成される部分文字列に対し、言語処理を
行う。また、好ましくは、前記言語処理手段は、前記
部分文字列に対応する単語が単語辞書に存在するか否か
を判定し、存在する場合は該単語を候補単語として抽出
し、存在しない場合は該部分文字列を文字認識結果とし
て確定する。

【００１１】また、好ましくは、前記判定手段の実行の
有無を指定する指定手段を更に備える。

【００１２】また、好ましくは、前記指定手段によって
前記判定手段の実行が指定されていない場合、前記言語
処理手段は、前記候補文字列から構成される部分文字列
に対し言語処理を行う。

【００１３】上記の目的を達成するための本発明による
文字認識方法は以下の構成を備える。即ち、入力された
画像データに対し文字認識を行う文字認識方法であっ
て、前記入力された画像データに対し文字認識を行う文
字認識工程と、前記文字認識工程によって出力された候
補文字列の各文字がひらがなあるいは漢字であるか否か
を判定する判定工程と、前記判定工程の判定結果に基づ
いて、前記候補文字列から構成される部分文字列に対し
言語処理を行う言語処理工程とを備える。

【００１４】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
入力された画像データに対し文字認識を行う文字認識の
プログラムコードが格納されたコンピュータ可読メモリ
であって、前記入力された画像データに対し文字認識を
行う文字認識工程のプログラムコードと、前記文字認識
工程によって出力された候補文字列の各文字がひらがな
あるいは漢字であるか否かを判定する判定工程のプログ
ラムコードと、前記判定工程の判定結果に基づいて、前
記候補文字列から構成される部分文字列に対し言語処理
を行う言語処理工程のプログラムコードとを備える。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。

【００１６】図１は本発明の実施形態の文字認識装置の
構成を示すブロック図である。

【００１７】図１において、１はＣＰＵであり、マイク
ロプロセッサから構成され、文字認識処理のための演
算、論理判断等を行う。また、ＰＣＩバス１３を介し
て、ＰＣＩバス１３に接続された各構成要素を制御す
る。

【００１８】ＰＣＩバス１３はＣＰＵ１の制御の対象と
する構成要素を指示するアドレス信号を転送する。ま
た、ＣＰＵ１の制御の対象とする各構成要素のコントロ
ール信号を転送する。更に、各構成要素相互間のデータ
転送を行う。

【００１９】次に、２はＲＯＭであり、読出し専用の固
定メモリである。ＲＯＭ２に設けられているＰＡ２ａ
は、図８〜図１２のフローチャートで後述するＣＰＵ１
によって実行される制御の手順を記憶させたプログラム
エリアである。

【００２０】また、３はＲＡＭであり、書込み可能のラ
ンダムアクセスメモリであって、各構成要素からの各種
データの一時記憶に用いる。ＲＡＭ３には、単語辞書Ｗ
ＤＩＣ（３ａ）、接続規則辞書ＣＤＩＣ（３ｂ）、文字
候補列バッファＣＢＵＦ（３ｃ）、未知語抽出モードＵ
ＭＯＤ（３ｄ）、単語情報ＷＴＢ（３ｅ）、文節候補情
報ＢＣＴＢ（３ｆ）、形態素解析情報ＫＴＴＢ（３ｇ）
が構成されている。

【００２１】単語辞書ＷＤＩＣ（３ａ）は、かな漢字変
換を行うための単語の情報を格納したものであり、詳細
は図２を用いて後述する。接続規則辞書ＣＤＩＣ（３
ｂ）は、形態素解析で用いられる句構造規則を格納した
辞書であり、詳細は図３を用いて後述する。

【００２２】文字候補列バッファＣＢＵＦ（３ｃ）は、
言語処理の対象となる候補文字列を格納するバッファで
ある。言語処理は、このバッファに蓄えられた候補文字
列に対して、言語的に最適な認識結果文字列を求める。
文字候補列バッファＣＢＵＦ（３ｃ）の詳細は図４を用
いて後述する。未知語抽出モードＵＭＯＤ（３ｄ）は、
自然言語処理の際にひらがなや漢字以外の文字列を未知
語として扱うかどうかを示すフラグである。そして、こ
のフラグの値が１であれば、ひらがなや漢字以外の文字
列を未知語として扱い、これらの文字列に対して辞書検
索を行わないことを意味する。一方、このフラグの値が
０であれば、全ての文字に対して辞書検索を行うことを
意味する。この値には、通常は０がセットされる。

【００２３】単語情報ＷＴＢ（３ｅ）は、形態素解析の
際に単語辞書から検索された単語、あるいは未知語とし
て抽出された単語を格納するテーブルであり、詳細は図
５を用いて後述する。文節候補情報ＢＣＴＢ（３ｆ）
は、形態素解析の際に単語情報ＷＴＢ（３ｅ）に接続規
則辞書ＣＤＩＣ（３ｂ）に記述されている接続規則を適
用することによって生成した文節候補を格納するテーブ
ルであり、詳細は図６を用いて後述する。形態素解析情
報ＫＴＴＢ（３ｇ）は、形態素解析した結果求められた
形態素の情報を文節単位に格納するテーブルであり、詳
細は図７を用いて後述する。

【００２４】６はＩＮＰＵＴＣ（入力コントローラ）で
あり、ＫＢ４やＰＤ７から送られてくる入力信号は、Ｉ
ＮＰＵＴＣ６によって適宜変換された後、ＰＣＩバス１
３を経由してＣＰＵ１に送信される。４はＫＢ（キーボ
ード）であり、アルファベットキー、ひらがなキー、カ
タカナキー等の文字記号入力キー、及び、カーソル移動
を指示するカーソル移動キー等のような各種のファンク
ションキーを備えている。ファンクションキーとして
は、ＭＯＤＥ（４ｂ）とＳＴＡＲＴ（４ａ）を備えてい
る。

【００２５】ＭＯＤＥ（４ｂ）は、文字認識後の自然言
語処理の際、カタカナや英文字列を必ず未知語として扱
うかどうかのモードを切り替えるキーである。また、Ｓ
ＴＡＲＴ（４ａ）は、本発明の文字処理装置において文
字認識処理の起動を指示するキーである。

【００２６】７はマウスやトラックボールなどのＰＤ
（ポインティングデバイス）であり、表示画面上のカー
ソルやボタンなどを指示するために使用される。５はＤ
ＩＳＫであり、文書データ等のデータを記憶するための
外部メモリである。ＤＩＳＫ５には、文書データ等のデ
ータが必要に応じて保管され、また、保管されたデータ
はＫＢ４の指示により必要な時にＤＩＳＫ５から呼び出
される。

【００２７】１１はＶＩＤＥＯ（ビデオコントローラ）
であり、ＰＣＩバス１３を介して表示用のデータがここ
に蓄えられるとともに、表示用の信号に変換されてＤＩ
ＳＰ１２に出力される。１２はＤＩＳＰ（表示装置）で
あり、陰極線官や液晶などが用いられ、各種処理の結果
や装置の状態、ユーザに対するメッセージなどを表示す
る。８はＤＥＶＣ（デバイスコントローラ）であり、Ｐ
ＣＩバス１３を介して伝達されるＣＰＵ１の指示によっ
て、自身に接続されている機器を制御する。また、自身
に接続されている機器が出力する信号やデータをＰＣＩ
バス１３を介してＣＰＵ１やＤＩＳＫ５に適宜伝達す
る。

【００２８】９はＳＣＡＮ（スキャナー）であり、ＤＥ
ＶＣ８からの指示によって、セットされた原稿を光学的
な方法によって原稿画像を読み取り、ＤＥＶＣ８に出力
する。１０はＮＩ（ネットワークインタフェース）であ
り、本発明の文字認識システムをＬＡＮやインターネッ
ト等のＮＥＴＷＯＲＫ１４を経由して外部のシステムと
接続するための機器である。この接続を経由して、本発
明の文字認識システムは、信号やデータを外部のシステ
ムと送受信することが可能である。

【００２９】以上の各構成要素からなる本発明文字処理
装置においては、ＫＢ４やＰＤ７からの各種の入力に応
じて作動するものであり、ＫＢ４やＰＤ７からの入力が
供給されると、ＩＮＰＵＴＣ６を経由して、インタラプ
ト信号がＣＰＵ１に送られる。そして、そのＣＰＵ１が
ＲＯＭ２内に記憶してある各種の制御信号を読出し、そ
れらの制御信号に従って、各種の制御が行なわれる。

【００３０】次に、本実施形態の単語辞書ＷＤＩＣ（３
ａ）の構成について、図２を用いて説明する。

【００３１】図２は本発明の実施形態の単語辞書ＷＤＩ
Ｃの構成の一例を示す図である。

【００３２】単語辞書ＷＤＩＣ（３ａ）には、１つの単
語の情報として、読みと表記と品詞と単語ＩＤが格納さ
れる。単語ＩＤは他の単語と区別し、単語ＩＤによって
その単語を指し示すことができるようにつけられたユニ
ークな番号である。各単語の情報は読みによってソート
されて格納されているが、本実施形態における単語辞書
ＷＤＩＣ（３ａ）は表記によって検索することが可能で
ある。

【００３３】次に、本実施形態の接続規則辞書ＣＤＩＣ
（３ｂ）の構成について、図３を用いて説明する。

【００３４】図３は本発明の実施形態の接続規則辞書Ｃ
ＤＩＣの構成の一例を示す図である。

【００３５】接続規則とは、文節内で接続が可能な２つ
の単語の品詞の組み合わせを示したものであり、接続規
則辞書ＣＤＩＣ（３ｂ）には、その接続規則から構成さ
れる。尚、接続規則は、後述する形態素解析において用
いられる。図中において、「＋」は、文節を構成する要
素が、要素が並ぶ順番通りに無条件に結合して文節を構
成できることを意味している。例えば、図中の規則の一
つ（ｒｕｌｅ１）は、「名詞」と「助詞（の）」がこの
順番に出現すれば、結合して文節になれることを示して
いる。

【００３６】次に、本実施形態の文字候補列バッファＣ
ＢＵＦ（３ｃ）の構成について、図４を用いて説明す
る。

【００３７】図４は本発明の実施形態の文字候補列バッ
ファＣＢＵＦの構成の一例を示す図である。

【００３８】文字候補列バッファＣＢＵＦ（３ｃ）に
は、ＳＣＡＮ９で読み取られた原稿画像を文字単位で切
り出し、切り出された文字画像を画像解析により認識し
た結果として出力される文字候補列が、文字コードに変
換されて格納される。本実施形態では、各文字の第一候
補が文字候補列バッファＣＢＵＦ（３ｃ）の先頭行に格
納され、以下の行には、列毎に各文字の候補が格納され
る。尚、図４の上に記載した番号は画像処理によって切
り出された文字の順番と数を示している。

【００３９】図４では、「画家のキリコの回顧展を見に
行った。」という文字列を文字認識したときの文字候補
列バッファＣＢＵＦ（３ｃ）に格納された文字列の例を
示している。そして、図４に示すように、画像解析によ
る第一候補文字列は「画衆のキリコの回顔民を見に符っ
た。」である。また、原稿の先頭文字「画」に対する文
字候補は、「画」「向」「巴」「凸」「畠」である。

【００４０】次に、本実施形態の単語情報ＷＴＢ（３
ｅ）の構成について、図５を用いて説明する。

【００４１】図５は本発明の実施形態の単語情報ＷＴＢ
の構成の一例を示す図である。

【００４２】単語情報ＷＴＢ（３ｅ）には、文字候補列
バッファＣＢＵＦ（３ｃ）の各文字の組み合わせに一致
する単語を検索した結果が納められる。例えば、図４に
図示した文字候補列の場合、「画衆の」「画家の」「画
朱の」「画宋の」など、各列毎に文字候補から１文字だ
けを取り出して、連続した文字列を作成し、これらの全
てに対して表記が一致する単語を検索した結果を格納す
る。そして、図５に示すように、１つの単語情報ＷＴＢ
（３ｅ）には、文字開始位置、文字終了位置、表記、品
詞、単語ＩＤから構成される。文字開始位置と文字終了
位置は、この単語の表記と一致する文字候補列バッファ
ＣＢＵＦ（３ｃ）の文字列先頭からの位置が納められて
いる。図５では、表記が「画家」である単語は文字候補
列バッファＣＢＵＦ（３ｃ）内の１番目から２番目の文
字候補列にマッチングしていることがわかる。また、図
５は、図４の文字候補列バッファＣＢＵＦ（３ｃ）に格
納されている全ての文字列候補の組み合わせに対して、
単語辞書ＷＤＩＣ（３ａ）とマッチングを行った場合の
単語情報ＷＴＢ（３ｅ）の例である。

【００４３】次に、本実施形態の文節候補情報ＢＣＴＢ
（３ｆ）の構成について、図６を用いて説明する。

【００４４】図６は本発明の実施形態の文節候補情報Ｂ
ＣＴＢの構成の一例を示す図である。

【００４５】文節候補情報ＢＣＴＢ（３ｆ）には、単語
情報ＷＴＢ（３ｅ）に接続規則辞書ＣＤＩＣ（３ｂ）に
記述されている接続規則を適用した結果が納められる。
図示したように、１つの文節候補情報ＢＣＴＢ（３ｆ）
は、文字開始位置、文字終了位置、表記、文節を構成す
る単語から構成される。文字開始位置と文字終了位置に
は、単語情報ＷＴＢ（３ｅ）と同じく対応する文字候補
列バッファＣＢＵＦ（３ｃ）中の文字候補の先頭からの
位置が納められる。図中，先頭の文節候補は、文字候補
列バッファの１番目から３番目の文字候補の組み合わせ
の一つであり、名詞＜画家＞と助詞（の）から構成され
ている。図中で「φ」が格納されている欄は、情報が存
在しないことを意味する。図６は、図４の文字候補列バ
ッファＣＢＵＦ（３ｃ）に対して、全ての文字候補の組
み合わせに対して単語辞書ＷＤＩＣ（３ａ）とマッチン
グを行った時の、文節候補情報ＢＣＴＢ（３ｆ）の例で
ある。

【００４６】次に、本実施形態の形態素解析情報ＫＴＴ
Ｂ（３ｇ）の構成について、図７を用いて説明する。

【００４７】図７は本発明の実施形態の形態素解析情報
ＫＴＴＢの構成の一例を示す図である。

【００４８】形態素解析情報ＫＴＴＢ（３ｇ）は、文節
番号と、文節の表記と、文節を構成する単語を対応させ
て、形態素解析の結果、解析された文字候補列を文節単
位として管理している。図中において、文節番号が３の
文節の表記は、「回顧展を」であり、その文節は、名詞
＜回顧＞と名詞＜展＞と助詞（を）から構成されている
ことを示している。文節番号は、最初に作成された文節
から順番に番号がふられる。図中で「φ」が格納されて
いる欄は、情報が存在しないことを意味する。図７は、
図４の文字候補列バッファＣＢＵＦ（３ｃ）に対して、
全ての文字候補の組み合わせに対して単語辞書ＷＤＩＣ
（３ａ）とマッチングを行った場合の形態素解析情報Ｋ
ＴＴＢ（３ｇ）の例である。

【００４９】次に、本実施形態のＰＡ（２ａ）に格納さ
れた手順によって実行される制御について、図８〜図１
２を用いて説明する。

【００５０】まず、本実施形態で実行される制御の概要
について、図８のフローチャートを用いて説明する。

【００５１】図８は本発明の実施形態で実行される制御
の概要を示すフローチャートである。

【００５２】まず、ステップＳ１で、ＫＢ４から入力さ
れるデータを取り込む処理を行う。ステップＳ２で、取
り込まれたデータによって入力に用いられたキーの種類
を判定し、各キーの処理ルーチンに分岐する。ＭＯＤＥ
キー（４ｂ）による入力が行われた場合には、ステップ
Ｓ３に分岐し、言語処理においてひらがなと漢字以外の
文字列を必ず未知語として取り扱うかどうかの切替を行
う。ひらがなと漢字以外の文字列を必ず未知語として取
り扱うモードであれば取り扱わないモードに、未知語と
して取り扱わないモードであれば取り扱うモードに切り
替える。すなわち、ＵＭＯＤの値を調べ、１であれば０
に、０であれば１に切り替える。切り替えを行った後、
ステップＳ６へ進む。

【００５３】また、ＳＴＡＲＴキー（４ａ）による入力
が行われた場合には、ステップＳ４に分岐し、文字認識
処理が処理される。尚、文字認識処理については、図９
において詳述する。そして、文字認識処理が行われた
後、ステップＳ６へ進む。

【００５４】また、上記キー以外のキーによるその他の
入力が行われた場合には、ステップＳ５に分岐し、文字
入力や挿入、削除、ウィンドウ操作などの通常の文字認
識装置において行われるその他の処理が行われる。これ
らの処理は同種の文字認識装置において一般に行われる
処理であり、公知であるので特に記述しない。処理が行
われた後、ステップＳ６へ進む。

【００５５】ステップＳ６で、上述の処理の結果、変更
された部分を表示する表示処理を行う。つまり、文書中
のデータ一文字を読むごとにそれを文字パターンに展開
し、表示バッファに出力するというように通常一般的に
行われている処理である。処理を終えると、ステップＳ
１に戻る。

【００５６】次に、図８のフローチャートのステップＳ
４の文字認識処理の詳細について、図９を用いて説明す
る。

【００５７】図９は本発明の実施形態の図８のフローチ
ャートのステップＳ４の文字認識処理の詳細を示すフロ
ーチャートである。

【００５８】まず、ステップＳ１１で、ＳＣＡＮ９で原
稿画像を読み取り、読み取った原稿画像を表示バッファ
やＤＩＳＫ５などに出力する原稿読み取り処理を行う。
この種の処理は同種の文字認識装置において、一般に行
なわれている処理であり、公知であるので特に記述しな
い。処理が行なわれた後、ステップＳ１２へ進む。

【００５９】ステップＳ１２で、読み取った原稿画像に
対してレイアウト認識と領域抽出を行う。そして、レイ
アウト認識によって認識された文字領域に対して個々の
文字の画像を切り出す文字切りだし処理を行う。この種
の処理は同種の文字認識装置において一般に行なわれて
いる処理であり、公知であるので特に記述しない。処理
が行なわれた後、ステップＳ１３へ進む。

【００６０】ステップＳ１３で、切り出された文字画像
を認識して、文字候補列コードを文字候補バッファＣＢ
ＵＦ（３ｃ）に出力する文字候補出力処理を行う。この
種の処理は同種の文字認識装置において一般に行なわれ
ている処理であり、公知であるので特に記述しない。処
理が行なわれた後、ステップＳ１４へ進む。

【００６１】ステップＳ１４で、文字候補列バッファＣ
ＢＵＦ（３ｃ）に出力された文字候補列に対して、言語
処理によって認識結果を補正し、言語的に妥当な認識結
果を作成する言語補正処理を行う。尚、言語補正処理に
ついては、図１０において詳述する。処理が行なわれた
後、文字認識処理を終了する。

【００６２】次に、図９のフローチャートのステップＳ
１４の言語補正処理の詳細について、図１０を用いて説
明する。

【００６３】図１０は本発明の実施形態の図９のフロー
チャートのステップＳ１４の言語補正処理の詳細を示す
フローチャートである。

【００６４】まず、ステップＳ２１で、文字候補列バッ
ファＣＢＵＦ（３ｃ）に格納された文字候補列に対し
て、単語辞書ＷＤＩＣ（３ａ）を参照しながら、形態素
解析を行う形態素解析処理を行う。尚、本実施形態にお
ける形態素解析は、二文節最長一致法による。二文節最
長一致法とは、形態素解析後の隣接する任意の二文節に
対応する読みの長さが最長になる文節の区切りを採用す
る方法である。こうして区切られた文節列を出力する。
その後、解釈可能な文節と、文節の構造を明らかにし、
その結果を形態素解析情報ＫＴＴＢ（３ｇ）に追加す
る。また、形態素解析処理については、図１１において
後述する。

【００６５】ステップＳ２２で、形態素解析情報ＫＴＴ
Ｂ（３ｇ）を参照しながら、構文解析を行う構文解析処
理を行う。形態素解析情報ＫＴＴＢ（３ｇ）から、文節
の候補を各文節番号に対して１つずつ選び出し、構文規
則に基づいて句を生成していき、構文解析を行い、最終
的に文が生成できれば、構文解析に成功したものとみな
す。このような構文解析の方法は、構文解析手法として
一般的に行われており、公知であるので特に記述しな
い。構文解析に成功した場合は、ステップＳ２３へ進
む。また、構文解析に失敗した場合は、形態素解析情報
ＫＴＴＢ（３ｇ）中の文節の候補を変更して構文解析を
行う。また、すべての文節の候補に対して構文解析に失
敗した場合は、ステップＳ２３に進む。

【００６６】ステップＳ２３で、形態素解析及び構文解
析によって解析された結果に基づいて、最適な文字候補
を決定する文字候補決定処理を行う。ステップＳ２２に
おいて構文解析に成功していれば、成功した構文解析で
使用している文節の候補の表記を最適な文字候補として
決定する。構文解析に成功したものがなければ、ステッ
プＳ２１の形態素解析のみで、最適な文字候補を決定す
る。文字候補決定処理を終えた後、ステップＳ２４へ進
む。

【００６７】ステップＳ２４で、決定された最適な文字
候補を表示する補正結果表示処理を行う。これは、例え
ば、言語処理によって画像認識結果の第一候補が入れ替
えられた場合、その文字だけを別の属性で表示するなど
の処理である。この種の処理は公知であるので特に記述
しない。補正結果表示処理を終えた後、言語補正処理を
終了する。

【００６８】次に、図１０のフローチャートのステップ
Ｓ２１の形態素解析処理の詳細について、図１１を用い
て説明する。

【００６９】図１１は本発明の実施形態の図１０のフロ
ーチャートのステップＳ２１の形態素解析処理の詳細を
示すフローチャートである。

【００７０】まず、ステップＳ３１で、文字候補列バッ
ファＣＢＵＦ（３ｃ）に格納された文字候補列のすべて
の部分文字列の組み合わせに対して、単語辞書ＷＤＩＣ
（３ａ）を検索し、表記が部分文字列にマッチする単語
の各情報を単語情報ＷＴＢ（３ｅ）に格納する単語抽出
処理を行う。尚、単語抽出処理については、図１２を用
いて詳述する。処理を終えた後、ステップＳ３２に進
む。

【００７１】ステップＳ３２で、作成された単語情報Ｗ
ＴＢ（３ｅ）に、接続規則辞書ＣＤＩＣ（３ｂ）に記述
されている接続規則を適用し、文節候補情報ＢＣＴＢ
（３ｆ）を作成する処理を行う。文節候補の作成とは、
生成された文節の表記が必ず文字候補列バッファＣＢＵ
Ｆ（３ｃ）に格納されている文字候補列の部分列とマッ
チするように各単語に接続規則を適用することである。
これにより、すべての文節候補を作成した後、ステップ
Ｓ３３に進む。

【００７２】ステップＳ３３で、文節候補情報ＢＣＴＢ
（３ｆ）を参照して、最終的な文節を決定し、形態素解
析情報ＫＴＴＢ（３ｇ）を作成する文節の決定処理を行
う。文節を決定する際において用いられる手法は前述し
た二文節最長一致法である。処理を終えると、形態素解
析処理を終了する。

【００７３】次に、図１１のフローチャートのステップ
Ｓ３１の単語抽出処理の詳細について、図１２を用いて
説明する。

【００７４】図１２は本発明の実施形態の図１１のフロ
ーチャートのステップＳ３１の単語抽出処理の詳細を示
すフローチャートである。

【００７５】まず、ステップＳ４１で、文字候補列バッ
ファＣＢＵＦ（３ｃ）に格納された文字候補列の１行
目、すなわち、画像認識による第一候補として選択され
た文字候補の文字種をチェックする。文字種がひらがな
や漢字の場合は、ステップＳ４２へ進む。一方、文字種
がカタカナや英数字の場合は、ステップＳ４４へ進む。
ステップＳ４２で、文字候補バッファＣＢＵＦ（３ｂ）
に格納された文字候補列のあらゆる組み合わせにおいて
すべての部分文字列を作成し、それら部分文字列と同じ
表記を持つ単語が単語辞書ＷＤＩＣ（３ａ）に存在する
かどうかを調べる候補文字部分列検索処理を行う。この
種の辞書検索方法は、この種の言語処理において一般的
であり、公知なので特に詳述しない。すべての候補文字
部分列に対して検索を終えた後、ステップＳ４３へ進
む。

【００７６】ステップＳ４３で、候補文字部分列検索処
理を行った結果、ある位置の文字候補に対して単語が抽
出できたかどうかをチェックする検索チェック処理を行
う。ある位置の文字候補に対応する単語が一つでも見つ
かった場合は、ステップＳ４６に進む。一方、ある位置
の文字候補に対応する単語がまったく見つからなかった
場合は、ステップＳ４５に進む。

【００７７】一方、ステップＳ４１において、文字種が
カタカナや英数字の場合は、ステップＳ４４で、未知語
抽出モードＵＭＯＤの値をチェックするＵＭＯＤチェッ
ク処理を行う。ＵＭＯＤが１のとき、すなわち、カタカ
ナや英文字を必ず未知語として抽出する場合は、ステッ
プＳ４５へ進む。一方、ＵＭＯＤが０のときは、ステッ
プＳ４２ヘ進む。

【００７８】ステップＳ４５で、未知語、すなわち、辞
書に記載されていない単語を抽出する未知語抽出処理を
行う。未知語抽出処理は、例えば、ひらがな、カタカ
ナ、英字などの字種が連続している部分を抽出して、名
詞とみなす処理であり、かな漢字変換のような言語処理
では一般に行われている処理である。本発明における未
知語処理では、未知語として抽出される文字候補は全て
画像認識において第一候補である文字候補のみを抽出す
る。即ち、いったん未知語抽出処理が起動されると、文
字候補列バッファＣＢＵＦ（３ｂ）の第一列において、
起動された文字位置から同種の文字種が連続する部分を
抽出して単語とみなし、その品詞を名詞とする。未知語
抽出処理を終えると、ステップＳ４６へ進む。

【００７９】ステップＳ４６で、上述した処理で辞書か
ら検索された単語、あるいは未知語として抽出された単
語を単語情報ＷＴＢ（３ｅ）に格納する単語情報格納処
理を行う。単語情報格納処理を終えると、ステップＳ４
７へ進む。ステップＳ４７で、文字候補列バッファＣＢ
ＵＦ（３ｃ）に格納されている文字候補列の末尾まで単
語抽出できたかどうかをチェックする候補文字列終了チ
ェックを行う。まだ、単語抽出が文字候補列バッファＣ
ＢＵＦ（３ｃ）の末尾まで達していなければ、ステップ
Ｓ４１に戻る。一方、文字候補列バッファＣＢＵＦ（３
ｃ）の末尾まで単語抽出が終了していれば、単語抽出処
理を終了する。

【００８０】次に、本実施形態の具体例として、「画家
のキリコの回顧展を見に行った」という文字列を画像認
識した結果、文字候補列バッファＣＢＵＦ（３ｃ）に図
４に示した文字候補列が格納されている状態において、
言語補正処理を行う様子を、ひらがな、漢字以外の文字
列を必ず未知語として扱う場合と、未知語として扱わな
い場合に分けて、図１１のフローチャートに沿って説明
していく。尚、単語辞書ＷＤＩＣ（３ａ）には、図２に
図示したように表記が「キリコ」である単語は存在しな
いものとする。

【００８１】ひらがな、漢字以外の文字列を未知語とし
て扱わない場合、ステップＳ３１の単語抽出処理によっ
て生成される単語情報ＷＴＢ（３ｅ）は図５のようにな
る。この場合、単語抽出処理において、画像認識による
第一候補がどんな文字種であっても必ず辞書検索されて
しまうために、図４の文字位置４を先頭とする単語
「千」と「十」が抽出される。また、文字位置５を先頭
とする単語「リラ」が抽出される。従って、文字位置４
を先頭とする未知語「キリコ」は抽出されず、図５に図
示したように単語情報ＷＴＢ（３ｅ）に「キリコ」とい
う表記を持つ単語は現れない。

【００８２】次に、ステップＳ３２の文節候補作成処理
において、ステップＳ３１で生成された単語情報ＷＴＢ
（３ｅ）中の単語に図３で示した接続規則を適用し、図
６に示した文節候補情報ＢＣＴＢ（３ｆ）が作成され
る。例えば、図５の先頭の単語「画家」に図３の（ｒｕ
ｌｅ１）「名詞＋（の）」を適用することにより、図６
の先頭の文節候補「名詞＜画家＞＋助詞＜の＞」が得ら
れるが、この文節候補は、文字候補列バッファの１番目
から３番目までの文字候補列に相当する。

【００８３】次に、ステップＳ３３の文節の決定処理に
おいて、ステップＳ３２で作成された文節候補の組み合
わせのうち、二文節最長一致法によって最も妥当な組み
合わせが選択決定され、形態素解析情報ＫＴＴＢ（３
ｇ）が作成される。図６に示した文節候補によれば、文
節候補の可能な組み合わせの先頭の二文節の候補とし
て、「画家の・千リラの」と「画家の・千リラ」と「画
家の・千」等が作成されるが、このうち、表記が最も長
い「画家の・千リラの」がまず最適な組み合わせとして
決定される。以下、「千リラの・回顧展を」、「回顧展
を・見に行った。」という文節候補の組み合わせが同様
にして決定され、図７に示す形態素解析情報ＫＴＴＢ
（３ｇ）が得られる。

【００８４】一方、ひらがな、漢字以外の文字列を必ず
未知語として抽出する場合、ステップＳ３１の単語抽出
処理によって生成される単語情報ＷＴＢ（３ｅ）は図１
３のようになる。この場合、文字候補列バッファＣＢＵ
Ｆ（３ｃ）に格納されている文字候補列の第一候補がカ
タカナであるときは、かならず未知語として抽出され
る。そのため、図１３に示すように、未知語「キリコ」
が抽出されて単語情報ＷＴＢ（３ｅ）に名詞として格納
される。

【００８５】次に、ステップＳ３２の文節候補作成処理
において、ステップＳ３１で生成された単語情報ＷＴＢ
（３ｅ）中の単語に図１３で示した接続規則を適用し、
図１４に示した文節候補情報ＢＣＴＢ（３ｆ）が作成さ
れる。

【００８６】次に、ステップＳ３３の文節の決定処理に
おいて、ステップＳ３２で作成された文節候補の組み合
わせのうち、二文節最長一致法によって最も妥当な組み
合わせが選択決定され、形態素解析情報ＫＴＴＢ（３
ｇ）が作成される。図１４に示した文節候補によれば、
文節候補の可能な組み合わせの先頭の二文節の候補とし
て、「画家の・キリコの」や「画家の・キリコ」等が作
成される。このうち、表記が最も長い「画家の・キリコ
の」が、まず最適な組み合わせとして決定される。以
下、「キリコの・回顧展を」「回顧展を・見に行っ
た。」という文節候補の組み合わせが同様にして決定さ
れ、図１６に示す形態素解析情報ＫＴＴＢ（３ｇ）が得
られる。即ち、ひらがな、漢字以外の文字が第一候補で
ある文字候補列に対して、言語処理における辞書検索を
行わないようにすることで、正しい認識結果である「画
家のキリコの回顧展を見に行った。」を得ることができ
る。

【００８７】以上説明したように、本実施形態では、ひ
らがな、漢字以外の文字が第一候補である文字候補列に
対して、辞書検索を行わないようにすることで、単語情
報ＷＴＢ（３ｅ）を作成する時点で、未知語の可能性が
高いカタカナや英文字列を未知語として画像認識の結果
をそのまま抽出することにより、画像認識後の自然言語
処理による悪影響を避けながら、認識率を高めることが
できる。

【００８８】また、ユーザにひらがな、漢字以外の文字
が第一候補である文字候補列を必ず未知語として扱うか
どうかを選択させることにより、カタカナや英字文字列
が単語として辞書に登録されていることがあらかじめわ
かっている場合は、カタカナや英字文字列に対しても辞
書検索を行って、認識後の言語補正を行うことも可能に
なる。

【００８９】尚、本発明は上述した実施形態に限定され
るものではない。上述の実施形態では、文字認識装置の
各種構成要素を接続するバスとしてＰＣＩバス１３を採
用しているが、ＩＳＡバスやＶＬバスなどでもまったく
同様な文字認識装置を構成することが可能である。

【００９０】また、上述の実施形態では、文字認識処理
において、ＳＣＡＮ９から読み込んだ原稿画像に対して
各処理を行っているが、ＤＩＳＫ５に格納済みの原稿画
像や、ＮＩ１０を経由して外部システムから取り込んだ
原稿画像に対しても同様な処理を行うことが可能であ
る。

【００９１】また、上述の実施形態では、文節を決定す
る際に二文節最長一致法をとっているが、これに限定さ
れるものではない。例えば、文節数最小法や接続コスト
最小法などの他の手法を用いることも可能である。

【００９２】また、上述の実施形態では、単語抽出処理
の際、文字候補列バッファＣＢＵＦ（３ｃ）中の第一文
字候補文字の文字種チェックを行ってから、ひらがな、
漢字以外の文字の場合に対してＵＭＯＤチェック処理を
行っているが、ＵＭＯＤチェック処理を先に行った後、
ＵＭＯＤが１の場合にのみ第一候補文字種チェックを行
っても同様の効果を得ることが可能である。

【００９３】その他、本発明はその要旨を逸脱しない範
囲で種種変形して実施することができる。

【００９４】尚、本発明は、複数の機器（例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置（例えば、複写機、ファクシミリ装置
など）に適用してもよい。

【００９５】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００９６】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００９７】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ
−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭな
どを用いることができる。

【００９８】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００９９】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
ＣＰＵなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。

【０１００】

【発明の効果】以上説明したように、本発明によれば、
認識率を向上することができる文字認識装置及びその方
法を提供できる。

【０１０１】

【図面の簡単な説明】

【図１】本発明の実施形態の文字認識装置の構成を示す
ブロック図である。

【図２】本発明の実施形態の単語辞書ＷＤＩＣの構成の
一例を示す図である。

【図３】本発明の実施形態の接続規則辞書ＣＤＩＣの構
成の一例を示す図である。

【図４】本発明の実施形態の文字候補列バッファＣＢＵ
Ｆの構成の一例を示す図である。

【図５】本発明の実施形態の単語情報ＷＴＢの構成の一
例を示す図である。

【図６】本発明の実施形態の文節候補情報ＢＣＴＢの構
成の一例を示す図である。

【図７】本発明の実施形態の形態素解析情報ＫＴＴＢの
構成の一例を示す図である。

【図８】本発明の実施形態で実行される制御の概要を示
すフローチャートである。

【図９】本発明の実施形態の図８のフローチャートのス
テップＳ４の文字認識処理の詳細を示すフローチャート
である。

【図１０】本発明の実施形態の図９のフローチャートの
ステップＳ１４の言語補正処理の詳細を示すフローチャ
ートである。

【図１１】本発明の実施形態の図１０のフローチャート
のステップＳ２１の形態素解析処理の詳細を示すフロー
チャートである。

【図１２】本発明の実施形態の図１１のフローチャート
のステップＳ３１の単語抽出処理の詳細を示すフローチ
ャートである。

【図１３】本発明の実施形態の単語情報ＷＴＢの構成の
一例を示す図である。

【図１４】本発明の実施形態の文節候補情報ＢＣＴＢの
構成の一例を示す図である。

【図１５】本発明の実施形態の形態素解析情報ＫＴＴＢ
の構成の一例を示す図である。

【符号の説明】

１ＣＰＵ２ＲＯＭ３ＲＡＭ３ａ単語辞書（ＷＤＩＣ）３ｂ接続規則辞書（ＣＤＩＣ）３ｃ文字候補列バッファ（ＣＢＵＦ）３ｄ未知語抽出モード（ＵＭＯＤ）３ｅ単語情報（ＷＴＢ）３ｆ文節候補情報（ＢＣＴＢ）３ｇ形態素解析情報（ＫＴＴＢ）４キーボード（ＫＢ）４ａスタートキー（ＳＴＡＲＡＴ）４ｂモードキー（ＭＯＤＥ）５外部メモリ（ＤＩＳＫ）６入力コントローラ（ＩＮＰＵＴＣ）７ポインティングデバイス（ＰＤ）８デバイスコントローラ（ＤＥＶＣ）９スキャナ（ＳＣＡＮ）１０ネットワークインタフェース（ＮＩ）１１ビデオコントローラ（ＶＩＤＥＯ）１２表示装置（ＤＩＳＰ）１３ＰＣＩバス１４ＮＥＴＷＯＲＫ

Claims

【特許請求の範囲】

【請求項１】入力された画像データに対し文字認識を
行う文字認識装置であって、前記入力された画像データに対し文字認識を行う文字認
識手段と、前記文字認識手段によって出力された候補文字列の各文
字がひらがなあるいは漢字であるか否かを判定する判定
手段と、前記判定手段の判定結果に基づいて、前記候補文字列か
ら構成される部分文字列に対し言語処理を行う言語処理
手段とを備えることを特徴とする文字認識装置。
【請求項２】前記判定手段は、前記候補文字列中にひ
らがなあるいは漢字と判定されない連続する部分文字列
がある場合、該部分文字列を文字認識結果として確定す
ることを特徴とする請求項１に記載の文字認識装置。
【請求項３】前記言語処理手段は、前記判定手段によ
ってひらがなあるいは漢字と判定された文字群から構成
される部分文字列に対し、言語処理を行うことを特徴と
する請求項１に記載の文字認識装置。
【請求項４】前記言語処理手段は、前記部分文字列に
対応する単語が単語辞書に存在するか否かを判定し、存
在する場合は該単語を候補単語として抽出し、存在しな
い場合は該部分文字列を文字認識結果として確定するこ
とを特徴とする請求項１に記載の文字認識装置。
【請求項５】前記判定手段の実行の有無を指定する指
定手段を更に備えることを特徴とする請求項１に記載の
文字認識装置。
【請求項６】前記指定手段によって前記判定手段の実
行が指定されていない場合、前記言語処理手段は、前記
候補文字列から構成される部分文字列に対し言語処理を
行うことを特徴とする請求項５に記載の文字認識装置。
【請求項７】入力された画像データに対し文字認識を
行う文字認識方法であって、前記入力された画像データに対し文字認識を行う文字認
識工程と、前記文字認識工程によって出力された候補文字列の各文
字がひらがなあるいは漢字であるか否かを判定する判定
工程と、前記判定工程の判定結果に基づいて、前記候補文字列か
ら構成される部分文字列に対し言語処理を行う言語処理
工程とを備えることを特徴とする文字認識方法。
【請求項８】前記判定工程は、前記候補文字列中にひ
らがなあるいは漢字と判定されない連続する部分文字列
がある場合、該部分文字列を文字認識結果として確定す
ることを特徴とする請求項７に記載の文字認識方法。
【請求項９】前記言語処理工程は、前記判定工程によ
ってひらがなあるいは漢字と判定された文字群から構成
される部分文字列に対し、言語処理を行うことを特徴と
する請求項７に記載の文字認識方法。
【請求項１０】前記言語処理工程は、前記部分文字列
に対応する単語が単語辞書に存在するか否かを判定し、
存在する場合は該単語を候補単語として抽出し、存在し
ない場合は該部分文字列を文字認識結果として確定する
ことを特徴とする請求項７に記載の文字認識方法。
【請求項１１】前記判定工程の実行の有無を指定する
指定工程を更に備えることを特徴とする請求項７に記載
の文字認識方法。
【請求項１２】前記指定工程によって前記判定工程の
実行が指定されていない場合、前記言語処理工程は、前
記候補文字列から構成される部分文字列に対し言語処理
を行うことを特徴とする請求項１１に記載の文字認識方
法。
【請求項１３】入力された画像データに対し文字認識
を行う文字認識のプログラムコードが格納されたコンピ
ュータ可読メモリであって、前記入力された画像データに対し文字認識を行う文字認
識工程のプログラムコードと、前記文字認識工程によって出力された候補文字列の各文
字がひらがなあるいは漢字であるか否かを判定する判定
工程のプログラムコードと、前記判定工程の判定結果に基づいて、前記候補文字列か
ら構成される部分文字列に対し言語処理を行う言語処理
工程のプログラムコードとを備えることを特徴とするコ
ンピュータ可読メモリ。