JPH08202731A - 画像処理方法 - Google Patents
画像処理方法Info
- Publication number
- JPH08202731A JPH08202731A JP7011696A JP1169695A JPH08202731A JP H08202731 A JPH08202731 A JP H08202731A JP 7011696 A JP7011696 A JP 7011696A JP 1169695 A JP1169695 A JP 1169695A JP H08202731 A JPH08202731 A JP H08202731A
- Authority
- JP
- Japan
- Prior art keywords
- image
- word
- character
- input
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
登録する際に、画像と共に登録するキーワードを、オペ
レータの手を介さずに適切な単語を抽出して選択するこ
と。 【構成】 入力画像から単語を抽出する単語分離手段5
03と、抽出された単語からキーワードとして適切な単
語を選択するキーワード判定手段504と、選択された
キーワードと画像をともに記憶するデータベース部50
5を備える。
Description
ードを判断し得る画像処理方法に関するものである。
ベースにおいて、文字認識の結果得られた文字列は文書
作成の際に再利用されるためのものであったので、デー
タベースに登録される際に付加されるキーワードやファ
イル名称はユーザが選択し入力していた。また、入力画
像の所定位置の画像を文字認識してキーワードとして登
録するものがあった。
ータをデータベースに登録する際にキーワード入力とい
ったユーザの処理が必要となり、データベース登録の自
動化等が困難となるという問題があった。また、キーワ
ードを付加しない方法も考えられるが、この場合ユーザ
のキー入力は不要だが、後で検索する場合にキーワード
が登録されないのでキーワードによる簡便な検索が不可
能となるという問題点があった。
るために、本発明は入力画像に含まれる文字を認識し、
前記認識された文字から単語を抽出し、前記抽出される
単語の前記入力画像における出現頻度を判断し、出現頻
度の高い単語を前記入力画像とともに記憶する画像処理
方法を提供する。
は、好ましくは前記入力画像における出現頻度を判断す
る単語は、特定の品詞の単語とする。
は、好ましくは前記特定の品詞は、名詞とする。
は、好ましくは前記入力画像とともに記憶した単語を、
指示に応じて一覧表示する。
は、好ましくは検索指定入力された単語が前記画像とと
もに記憶されている場合は、該画像情報を読み出して出
力する。
は、好ましくは前記入力画像はスキャナにより入力した
画像情報とする。
は、入力画像に含まれる出現頻度の高い単語を抽出し、
前記抽出された出現頻度の高い単語の文字認識の結果を
前記入力画像とともに記憶することを特徴とする画像処
理方法を提供する。
は、好ましくは前記入力画像とともに記憶した単語を、
指示に応じて一覧表示する。
は、好ましくは検索指定入力された単語が前記画像とと
もに記憶されている場合は、該画像情報を読み出して出
力する。
は、好ましくは前記入力画像はスキャナにより入力した
画像情報とする。
する。
すブロック図である。1001は本装置全体の処理を実
行するCPUであって、ROM1002或いはRAM1
003に格納されている制御プログラムに従って判断及
び処理を制御する。1002はROMであり、本実施例
において説明するフローチャートの制御プログラム、或
いは処理に用いる予め定まっているパラメータ等のデー
タを記憶している。文字認識処理及び単語分離処理に用
いる辞書もROM1002に格納されている。1003
はRAMであり、CPU1001での処理中のデータを
記憶するワーキングメモリエリアを備える。本実施例で
実行する処理の制御プログラムがFD等の着脱可能な記
憶媒体から供給される場合は、その制御プログラムはR
AM1003に格納される。本実施例において作成され
るデータベースもRAM1003に格納される。100
4はスキャナであり、原稿画像を光学的に読み込む。読
み込まれた画像データはRAM1003に記憶できる。
1005はキーボードであり、各種コードの入力、オペ
レータの指示が入力できる。1006はポインティング
デバイスであり、表示器1007の表示画面上の所望の
位置を指示でき、また、ボタンをクリックすることによ
り選択、取消の指示を入力することもできる。1007
は表示器であり、CRT或いは液晶表示器からなる。1
008は例えばLBP、インクジェット式等のプリン
タ、1009は例えばフロッピーディスクなどの外部記
憶装置を装着し、データの読み書きを行うフロッピーデ
ィスクドライブ(FDD)、1010はこれら各構成間
でのデータの受授を行う為のデータバスである。
ースシステムの機能的な構成を示す図である。このシス
テムにおいて、スキャナ1004より入力した原稿の入
力画像をまず画像領域分離手段(501)において、画
像領域分離処理を行った後に、文字認識手段(502)
により認識結果の文字列を生成し、単語分離手段(50
3)は、辞書(506)を参照しながら認識結果の文字
列を解析し単語毎に分離し、キーワード判定手段(50
4)によりキーワード判定を行いその結果選択されたキ
ーワードは入力画像とともにデータベース(505)に
登録する。
ベースシステムの画像入力からデータベースに登録する
までの全体的な処理を表わすフローチャートである。ま
ず、画像領域分離手段501は、入力画像を解析して文
字や画像のデータがある部分を矩形で囲むように分離し
てブロック化し、各ブロックをそのブロックの画像の特
徴により画像の種別を分類するが、ここでは仮に入力画
像から抽出された各ブロックを文字領域であるか画像領
域であるかに分類する。すなわち例えば、入力画像が図
2に示す画像であった場合、S101による処理の結果
として図3におけるB301〜B307の幾つかのブロ
ックが抽出され、各ブロックを分類してB301〜B3
06は文字領域、B307は画像領域と判定される。そ
の結果、入力画像中に存在する複数の画像ブロックを取
り出して文字部画像領域とその他すなわち画像部画像領
域とに分離し、文字部画像領域情報をRAM1003に
格納し、文字認識手段502に渡す(S101)。
画像領域と判定された各画像領域に対して文字認識を行
うが、まずその文字部画像領域の画像をさらに1文字単
位に切り分ける(文字切り処理)。文字切り処理は、各
文字画像領域の画像をまず行方向(左右方向)にヒスト
グラムをとって行位置を切り出し、次に各行ごとに上下
方向にヒストグラムをとって1文字ごとの位置を切り出
す。例えば、図3における文字部画像領域B302に対
して文字切り処理を行うと図4の一文字画像領域B40
1〜B409のように分離される。この各一文字画像領
域に対し、ROM1002に格納されている辞書を用い
てパターンマッチング処理を行い、各一文字画像領域が
表わす文字を認識しそれに対応した文字列を出力し(S
102)、ブロック情報とともにRAM1003に格納
する。例えば、図3の各ブロックを文字認識結果した結
果、 ・「重要書類」(B301より) ・「観音株式会社 新製品説明会」(B302より) ・「観音株式会社代表取締役社長 大仏 巌」(B30
3より) ・「拝啓、貴社益々御清栄のことと御慶び申し上げま
す。さて、この度弊社新製品の発売にさきがけまして新
製品説明会を企画いたしましたのでご案内申し上げま
す。」(B304より) ・「記」(B305より) ・「日時:○月×日 午前8:00〜午後5:00 場
所:△△県◎◎市 1−2−3 特設会場 (地図参
照)」(B306より) というような文字列が生成される。
003から読み出して単語分離手段(503)により単
語に分割する(S103)。単語分離手段は、辞書(5
06)を参照しながら認識結果文字列を単語毎に分離
(形態素解析)し(S103)、RAM1003に格納
する。RAM1003に格納する際に、各単語の品詞に
関する情報を辞書504より抽出し、単語に付加して格
納する。
語分離手段(503)により入力画像から抽出された全
単語について、キーワード判定手段504によってキー
ワード判定処理を行う(S104)。
処理の流れについては、図6のフローチャートに示し、
これを参照しながら説明する。まず、RAM1003に
格納されている各単語に付加されている品詞情報を判断
し、品詞による絞り込みを行う。本実施例においては、
キーワードに適しそうなものとして名詞を取り出す(S
601)。先の各ブロックの認識結果である文字列より
例えば以下の単語が名詞として抽出される。
(B303) ・「清栄」、「お慶び」、「弊社新製品」、「発売」、
「新製品説明会」、「企画」、「ご案内」(B304) ・「日時」、「場所」、「△△県◎◎市」、「特設会
場」、「地図参照」(B305) という単語が挙がったとする。次に出現頻度の高い単語
ほど、その文書中での重要性が高いと想定されるのでこ
れらの各単語の出現頻度を調べる(S602)。する
と、 ・観音株式会社(頻度2、B302、B303より) ・新製品説明会(頻度2、B302、B304より) ・重要書類(頻度1、B301より) ・代表取締役社長(頻度1、B303より) ・大仏巌(頻度1、B303より) ・清栄(頻度1、B304より) ・お慶び(頻度1、B304より) ・弊社新製品(頻度1、B304より) ・発売(頻度1、B304より) ・企画(頻度1、B304より) ・案内(頻度1、B304より) ・日時(頻度1、B305より) ・場所(頻度1、B305より) ・△△県◎◎市(頻度1、B305より) ・特設会場(頻度1、B305より) ・地図参照(頻度1、B305より) という結果が得られる。
力画像に設定し得るキーワードの個数の最大値(K)を
ここでは仮に5個とする。また名詞の出現頻度の最大値
(N)は、先ほどのステップS602の結果より2であ
る。従ってこのステップの処理の結果、 K=5、N=2、S=0、I=2 となる。ここで、Sは選択状態になった名詞の数の合計
を表し、Iは作業変数である。
である名詞の数を調べそれをMに設定する。従ってここ
では、出現頻度2である名詞は、「観音株式会社」、
「新製品説明会」の2つなので、本処理の結果Mは2に
なる。
なわち、出現頻度がIであるキーワードを選んでもキー
ワードの個数の最大値以下かどうかを判定する(S60
5)。本例の場合、ここではS=0、M=2なので、S
+M=2でステップS605の判定結果は偽となり、処
理はステップS606へと続き、出現頻度I(=2)で
ある名詞について内部的に選択状態にする。選択状態に
する単語は、RAM1003内のキーワード用選択単語
格納部に格納する。ここで、M個の名詞が選択状態にな
ったので、SをM増やす(S607)。本例の場合、こ
こではステップS607の結果Sの値は2となる。
08)。もし、Iが1であれば、ステップS604で判
定したのは出現頻度が1である名詞であり、すなわちこ
れ以上調べる名詞がないということになり、処理はステ
ップS613に移る。本例の場合、ここではIは2であ
るので、判定の結果は偽になり、ステップS609に処
理が移りIは1減算されて1になり、処理はステップS
604に戻り、出現頻度が1の単語からキーワードとし
て登録する単語を選択する処理に入る。
で、ステップS604において、本例の場合、ここでは
Mは14となり、次のステップS605の判定は偽(S
+M=16で、K=5)となり、処理はステップS61
0へと移る。
っている名詞の数が、キーワードの個数の制限と同じか
どうかを調べる。もし、同じであれば、次のステップS
611及びステップS612を飛ばして、ステップS6
13へと進む。本例の場合、S=2でK=5なので、判
定の結果は偽となり、ステップS611へと進む。
ワードを出現頻度Iである名詞から選択する。これは、
頻度の情報によりS個の名詞がキーワードとして選択さ
れたが、実際登録可能なキーワードはK個なので、残り
(K−S)個のキーワードが登録可能なので、それを選
択されていない残りの名詞から選択するためである。本
例の場合、K=5、S=2なので、5−2=3個のキー
ワードを残りの14個の名詞から選択する。
は、名詞の出現位置が文頭方向にある順に(K−S)個
選択(この場合、本例では、「重要書類」、「代表取締
役社長」、「大仏巌」が選択される)してもよいし、ま
た、本実施例においては文字認識手段502は文字の大
きさに関する情報は出力しなかったが、文字認識手段5
02により各文字の大きさの情報を抽出し、文字の大き
い順に残り(K−S)個の名詞を選択してもよいし、ま
た、これらを組み合わせてもよい。
キーワードを選択したので、全部でK個のキーワードの
選択処理が終了し、選択状態になったS個の名詞をキー
ワードとする。
で選択され、RAM1003のキーワード用選択単語格
納部に格納されているキーワードを入力画像とともにR
AM1003内のデータベースに登録し(S105)、
処理を終了する。
タベースから画像検索する際に、目次的に表示された
り、単語が検索指定入力された場合に、その単語と同一
の単語とともにデータベースに記憶されている画像を表
示或いは印字するので、画像検索が容易となる。
よりキーワード個数の制限から幾つかのキーワードを選
択していたが、ここでの選択個数を1つにして選択され
たキーワードを入力ファイルのファイル名称としてデー
タベースに登録しても良い。
してから単語を抽出したが、例えば英文等の単語がスペ
ースにより区切られている言葉の場合は、文字認識する
以前に単語領域の画像どうしでマッチングを行って出現
頻度の高い単語を検出し、その検出された単語を文字認
識してからキーワードとして登録しても良い。
入力画像において出現頻度の高い単語をその入力画像に
付加するキーワードとして選択するので、キーボードに
よるオペレータの手操作を介さなくとも精度良いキーワ
ードを選択することができる。
ーワードとして登録する単語のパターンを選択してから
文字認識するので、余計な文字認識処理に時間を費やす
ことがなく、キーワードを選択するまでの処理時間を短
縮することができる。
定の品詞の単語をキーワード選択処理の対象として絞り
込むので、選択処理時間を短縮することができ、また、
キーワードとして適した単語を選択することができる。
キャナにより入力した画像とともに記憶させる単語の選
択を入力画像から抽出するので、キーボードを用いた操
作が不要となり、操作性が向上する。
ート。
ート。
Claims (10)
- 【請求項1】 入力画像に含まれる文字を認識し、 前記認識された文字から単語を抽出し、 前記抽出される単語の前記入力画像における出現頻度を
判断し、 出現頻度の高い単語を前記入力画像とともに記憶するこ
とを特徴とする画像処理方法。 - 【請求項2】 前記入力画像における出現頻度を判断す
る単語は、特定の品詞の単語とすることを特徴とする請
求項1に記載の画像処理方法。 - 【請求項3】 前記特定の品詞は、名詞とすることを特
徴とする請求項2に記載の画像処理方法。 - 【請求項4】 前記入力画像とともに記憶した単語を、
指示に応じて一覧表示することを特徴とする請求項1に
記載の画像処理方法。 - 【請求項5】 検索指定入力された単語が前記画像とと
もに記憶されている場合は、該画像情報を読み出して出
力することを特徴とする請求項1に記載の画像処理方
法。 - 【請求項6】 前記入力画像はスキャナにより入力した
画像情報とすることを特徴とする請求項1に記載の画像
処理方法。 - 【請求項7】 入力画像に含まれる出現頻度の高い単語
を抽出し、 前記抽出された出現頻度の高い単語の文字認識の結果を
前記入力画像とともに記憶することを特徴とする画像処
理方法。 - 【請求項8】 前記入力画像とともに記憶した単語を、
指示に応じて一覧表示することを特徴とする請求項7に
記載の画像処理方法。 - 【請求項9】 検索指定入力された単語が前記画像とと
もに記憶されている場合は、該画像情報を読み出して出
力することを特徴とする請求項7に記載の画像処理方
法。 - 【請求項10】 前記入力画像はスキャナにより入力し
た画像情報であることを特徴とする請求項7に記載の画
像処理方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01169695A JP3623998B2 (ja) | 1995-01-27 | 1995-01-27 | 画像処理方法および画像処理装置 |
| US08/562,450 US5821929A (en) | 1994-11-30 | 1995-11-24 | Image processing method and apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01169695A JP3623998B2 (ja) | 1995-01-27 | 1995-01-27 | 画像処理方法および画像処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08202731A true JPH08202731A (ja) | 1996-08-09 |
| JP3623998B2 JP3623998B2 (ja) | 2005-02-23 |
Family
ID=11785208
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP01169695A Expired - Fee Related JP3623998B2 (ja) | 1994-11-30 | 1995-01-27 | 画像処理方法および画像処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3623998B2 (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11272707A (ja) * | 1998-03-26 | 1999-10-08 | Sharp Corp | 情報処理システム |
| JP2005346627A (ja) * | 2004-06-07 | 2005-12-15 | Omron Corp | データ名決定装置 |
| JP2006202068A (ja) * | 2005-01-21 | 2006-08-03 | Hitachi Ltd | 単語認識装置および単語認識方法 |
| JP2006309347A (ja) * | 2005-04-26 | 2006-11-09 | Saga Univ | 対象文書からキーワードを抽出する方法、システムおよびプログラム |
| JP2008276736A (ja) * | 2007-04-26 | 2008-11-13 | Fuji Xerox Co Ltd | インタラクティブシステムおよび画像検索性能を高めるプログラム |
| JP2010113735A (ja) * | 2010-01-21 | 2010-05-20 | Omron Corp | データ名決定装置 |
| US7911629B2 (en) | 2005-06-23 | 2011-03-22 | Canon Kabushiki Kaisha | Image resolution and text conversion management |
| JP2012190313A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
| JP2015207069A (ja) * | 2014-04-18 | 2015-11-19 | 富士通株式会社 | キーワード決定装置、キーワード決定プログラム及びキーワード決定方法 |
| JP2020204855A (ja) * | 2019-06-17 | 2020-12-24 | 株式会社日立製作所 | キーワード検出装置、及びキーワード検出方法 |
-
1995
- 1995-01-27 JP JP01169695A patent/JP3623998B2/ja not_active Expired - Fee Related
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11272707A (ja) * | 1998-03-26 | 1999-10-08 | Sharp Corp | 情報処理システム |
| JP2005346627A (ja) * | 2004-06-07 | 2005-12-15 | Omron Corp | データ名決定装置 |
| JP2006202068A (ja) * | 2005-01-21 | 2006-08-03 | Hitachi Ltd | 単語認識装置および単語認識方法 |
| JP2006309347A (ja) * | 2005-04-26 | 2006-11-09 | Saga Univ | 対象文書からキーワードを抽出する方法、システムおよびプログラム |
| US7911629B2 (en) | 2005-06-23 | 2011-03-22 | Canon Kabushiki Kaisha | Image resolution and text conversion management |
| JP2008276736A (ja) * | 2007-04-26 | 2008-11-13 | Fuji Xerox Co Ltd | インタラクティブシステムおよび画像検索性能を高めるプログラム |
| JP2010113735A (ja) * | 2010-01-21 | 2010-05-20 | Omron Corp | データ名決定装置 |
| JP2012190313A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
| JP2015207069A (ja) * | 2014-04-18 | 2015-11-19 | 富士通株式会社 | キーワード決定装置、キーワード決定プログラム及びキーワード決定方法 |
| JP2020204855A (ja) * | 2019-06-17 | 2020-12-24 | 株式会社日立製作所 | キーワード検出装置、及びキーワード検出方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3623998B2 (ja) | 2005-02-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6353840B2 (en) | User-defined search template for extracting information from documents | |
| US5311429A (en) | Maintenance support method and apparatus for natural language processing system | |
| US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
| JPS63245556A (ja) | 図表データ割付け方法 | |
| JPH08202731A (ja) | 画像処理方法 | |
| JPH08166959A (ja) | 画像処理方法 | |
| JPH09114852A (ja) | 情報検索装置 | |
| JPH103483A (ja) | 情報検索装置 | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JP2838984B2 (ja) | 汎用参照装置 | |
| JP2928515B2 (ja) | 訳語出力装置 | |
| JP3147245B2 (ja) | 文書処理装置及び文書処理方法 | |
| JPS6118074A (ja) | プレ・エデイツト方式 | |
| JPH08153110A (ja) | 文書ファイリング装置及び方法 | |
| JP2005208687A (ja) | 多言語文書処理装置及びプログラム | |
| JP2570681B2 (ja) | ワード・プロセッサ | |
| JP2002014981A (ja) | 文書ファイリング装置 | |
| JPH05151195A (ja) | 漢字入力装置 | |
| JP3143290B2 (ja) | 帳票作成装置 | |
| JP2893239B2 (ja) | 翻訳支援辞書検索表示システム | |
| JPH06187370A (ja) | 文書読解支援装置 | |
| JPS61265662A (ja) | 文書処理装置 | |
| JPH08202859A (ja) | 電子ファイリング装置及びその方法 | |
| JPH11203410A (ja) | 画像処理方法及び装置及びその記憶媒体 | |
| JP2000029882A (ja) | 要約文作成装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040817 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041018 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041129 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081203 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101203 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111203 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121203 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131203 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |