JP2012190314A - 画像処理装置およびプログラム - Google Patents
画像処理装置およびプログラム Download PDFInfo
- Publication number
- JP2012190314A JP2012190314A JP2011053976A JP2011053976A JP2012190314A JP 2012190314 A JP2012190314 A JP 2012190314A JP 2011053976 A JP2011053976 A JP 2011053976A JP 2011053976 A JP2011053976 A JP 2011053976A JP 2012190314 A JP2012190314 A JP 2012190314A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language
- unit
- characteristic
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 80
- 238000006243 chemical reaction Methods 0.000 claims description 85
- 238000000605 extraction Methods 0.000 claims description 28
- 239000000470 constituent Substances 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 18
- 230000008878 coupling Effects 0.000 description 29
- 238000010168 coupling process Methods 0.000 description 29
- 238000005859 coupling reaction Methods 0.000 description 29
- 239000002131 composite material Substances 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 22
- 238000003780 insertion Methods 0.000 description 14
- 230000037431 insertion Effects 0.000 description 14
- 238000013519 translation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 235000010724 Wisteria floribunda Nutrition 0.000 description 9
- 230000000877 morphologic effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00501—Tailoring a user interface [UI] to specific requirements
- H04N1/00509—Personalising for a particular user or group of users, e.g. a workgroup or company
- H04N1/00514—Personalising for a particular user or group of users, e.g. a workgroup or company for individual users
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
- H04N1/00798—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
- H04N1/00801—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to characteristics of the original
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
- H04N1/00798—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
- H04N1/00811—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to user specified instructions, e.g. user selection of reading mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/44—Secrecy systems
- H04N1/4406—Restricting access, e.g. according to user identity
- H04N1/4426—Restricting access, e.g. according to user identity involving separate means, e.g. a server, a magnetic card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
【課題】原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供する。
【解決手段】読者言語登録部320は読者言語を登録し、原稿言語登録部322は原稿言語を登録する。切替部326は、言語組合せ情報に基づいて、特徴文字列生成部40において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。特徴文字列生成部40は、切替部326によって特徴文字列の生成に使用される特徴文字列生成手段が切り替えられ、切り替わった特徴文字列生成手段を使用して、特徴文字列を生成する。
【選択図】図2
【解決手段】読者言語登録部320は読者言語を登録し、原稿言語登録部322は原稿言語を登録する。切替部326は、言語組合せ情報に基づいて、特徴文字列生成部40において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。特徴文字列生成部40は、切替部326によって特徴文字列の生成に使用される特徴文字列生成手段が切り替えられ、切り替わった特徴文字列生成手段を使用して、特徴文字列を生成する。
【選択図】図2
Description
本発明は、画像処理装置およびプログラムに関する。
特許文献1は、予め記憶部に保存したキーデータを組み合わせて生成したファイル名候補をタッチパネルに表示させ、ユーザーが、タッチパネルに表示されたファイル名候補から読み取った電子ファイルに相応しいファイル名を選択する画像処理装置を開示する。
特許文献2は、送信原稿の所定領域に記録されている図形文字を読み取ってファイル名を作成するネットワーク画像通信装置を開示する。
特許文献2は、送信原稿の所定領域に記録されている図形文字を読み取ってファイル名を作成するネットワーク画像通信装置を開示する。
本発明の目的は、原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供することである。
請求項1にかかる本発明は、原稿の読者が認識可能な第1の言語と前記原稿の言語である第2の言語とを登録する登録手段と、前記原稿を読み取って得られた読取情報から1つ以上の文字列を抽出する文字列抽出手段と、前記文字列抽出手段によって抽出された文字列に基づいて前記原稿に関する特徴文字列を生成する複数の特徴文字列生成手段と、前記登録された第1の言語と第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記特徴文字列生成手段を切り替える切替手段とを有する画像処理装置である。
請求項2にかかる本発明は、前記特徴文字列生成手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記抽出された1つ以上の文字列から、前記原稿の特徴文字列を構成する1つ以上の構成要素を選択するための処理を行う複数の選択手段と、前記選択手段によって選択された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える請求項1に記載の画像処理装置である。
請求項3にかかる本発明は、前記特徴文字列生成手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記文字列抽出手段によって抽出された文字列の1つ以上を変換する複数の変換手段と、前記変換手段によって変換された文字列を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記複数の変換手段を切り替え、特徴文字列の生成に使用される前記複数の特徴文字列決定手段を切り替える請求項1に記載の画像処理装置である。
請求項4にかかる本発明は、前記特徴文字列生成手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記抽出された1つ以上の文字列から、前記原稿の特徴文字列を構成する1つ以上の構成要素を選択するための処理を行う複数の選択手段と、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記選択手段によって選択された構成要素の1つ以上を変換する複数の変換手段と、前記変換手段によって変換された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記変換手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える請求項1に記載の画像処理装置である。
請求項5にかかる本発明は、前記複数の選択手段の1つは、前記抽出された1つ以上の文字列の前記原稿における出現頻度に基づいて構成要素を選択するための処理を行う請求項2または4に記載の画像処理装置である。
請求項6にかかる本発明は、前記複数の選択手段の1つは、前記抽出された1つ以上の文字列のうち所定の位置または規模である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする請求項2または4に記載の画像処理装置である。
請求項7にかかる本発明は、前記複数の選択手段の1つは、原稿内に配置され原稿を構成する配置要素であって文字列以外のものに対応する文字列を、構成要素として選択するための処理を行う請求項2または4に記載の画像処理装置である。
請求項8にかかる本発明は、前記複数の選択手段の1つは、前記抽出された1つ以上の文字列のうち前記第1の言語である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする請求項2または4に記載の画像処理装置である。
請求項9にかかる本発明は、前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上を、前記第1の言語に翻訳する請求項3または4に記載の画像処理装置である。
請求項10にかかる本発明は、前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上を、これらの文字列の発音を表記する文字列に変換する請求項3または4に記載の画像処理装置である。
請求項11にかかる本発明は、前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上の文字コードを、対応する別の文字コードの文字列に変換する請求項3または4に記載の画像処理装置である。
請求項12にかかる本発明は、原稿の読者が認識可能な第1の言語と前記原稿の言語である第2の言語とを登録する登録ステップと、前記原稿を読み取って得られた読取情報から1つ以上の文字列を抽出する文字列抽出ステップと、前記登録された第1の言語と第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される特徴文字列生成手段を切り替える切替ステップと、前記文字列抽出ステップにおいて抽出された文字列に基づいて、前記切り替えられた特徴文字列生成手段を用いて、前記原稿に関する特徴文字列を生成する複数の特徴文字列生成ステップとをコンピュータに実行させる画像処理プログラムである。
請求項1に係る本発明によれば、原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供することができる。
請求項2に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて、特徴文字列の構成要素を選択できる。
請求項3に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて変換された特徴文字列を生成できる
請求項4に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて、選択された特徴文字列の構成要素を変換できる。
請求項5に係る本発明によれば、請求項2または4に係る本発明により得られる効果に加えて、原稿において出現頻度の高い文字列を含む特徴文字列を生成できる。
請求項6に係る本発明によれば、請求項2または4に係る本発明により得られる効果に加えて、原稿において他の文字列よりも目立つ文字列を含む特徴文字列を生成できる。
請求項7に係る本発明によれば、請求項2または4に係る本発明により得られる効果に加えて、原稿に文字列が含まれない場合または判別不能な文字列のみを含む場合であっても特徴文字列を生成できる。
請求項8に係る本発明によれば、請求項2または4に係る本発明により得られる効果に加えて、後の処理内容を削減できる。
請求項9に係る本発明によれば、請求項3または4に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語に翻訳された特徴文字列を生成できる。
請求項10に係る本発明によれば、請求項3または4に係る本発明により得られる効果に加えて、原稿の読者の環境において判別可能な特徴文字列を生成できる。
請求項11に係る本発明によれば、請求項3または4に係る本発明により得られる効果に加えて、原稿の読者の環境において判別可能な特徴文字列を生成できる。
請求項12に係る本発明によれば、原稿の読者が理解可能な特徴文字列を生成可能な画像処理プログラムを提供することができる。
図1は、本実施形態にかかる画像処理装置2のハードウェア構成を例示する図である。
図1に例示するように、画像処理装置2は、CPU等の演算部212およびメモリ等の記憶部214などを含む制御装置21と、通信装置22と、記録装置24と、ユーザインターフェース装置(UI装置)25と、印刷装置26と、画像読取装置27とから構成される。
図1に例示するように、画像処理装置2は、CPU等の演算部212およびメモリ等の記憶部214などを含む制御装置21と、通信装置22と、記録装置24と、ユーザインターフェース装置(UI装置)25と、印刷装置26と、画像読取装置27とから構成される。
UI装置25は、LCD(Liquid Crystal Display)表示装置あるいはCRT(Cathode Ray Tube)表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置26は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置27は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置2は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置2は印刷装置26および画像読取装置27を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばPCであってもよく、この場合、画像処理装置は、画像読取装置とLAN(Local Area Network)等を介して接続されていてもよい。
印刷装置26は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置27は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置2は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置2は印刷装置26および画像読取装置27を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばPCであってもよく、この場合、画像処理装置は、画像読取装置とLAN(Local Area Network)等を介して接続されていてもよい。
図2は、図1に示した画像処理装置2において動作する処理プログラム3の構成を示す図である。
図2に示すように、処理プログラム3は、原稿読取情報受付部302、配置解析部304、文字認識部306、形態素解析部308、文字列抽出部310、抽出文字列管理部312、読者言語登録部320、原稿言語登録部322、言語組合せ判定部324、切替部326および特徴文字列生成部40から構成される。
処理プログラム3は、たとえば、記憶媒体240(図1)を介して画像処理装置2に供給され、記憶部214にロードされ、画像処理装置2にインストールされたOS(図示せず)上で、画像処理装置2のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム3の機能は、ソフトウェアで実現されるとしているが、処理プログラム3の機能の全部又は一部は、例えばFPGA(Field Programmable Gate Array)などのハードウェアで実現されてもよい。
図2に示すように、処理プログラム3は、原稿読取情報受付部302、配置解析部304、文字認識部306、形態素解析部308、文字列抽出部310、抽出文字列管理部312、読者言語登録部320、原稿言語登録部322、言語組合せ判定部324、切替部326および特徴文字列生成部40から構成される。
処理プログラム3は、たとえば、記憶媒体240(図1)を介して画像処理装置2に供給され、記憶部214にロードされ、画像処理装置2にインストールされたOS(図示せず)上で、画像処理装置2のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム3の機能は、ソフトウェアで実現されるとしているが、処理プログラム3の機能の全部又は一部は、例えばFPGA(Field Programmable Gate Array)などのハードウェアで実現されてもよい。
図3は、図2に示した特徴文字列生成部40の構成を示す図である。
ここで、「特徴文字列」とは、人間が原稿を識別するための文字列であって、例えば、原稿を電子データ(電子ファイル)等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ(ディレクトリ)等の名前である。
図3に示すように、特徴文字列生成部40は、構成要素選択部42、構成要素変換部44および特徴文字列決定部46から構成される。
ここで、「特徴文字列」とは、人間が原稿を識別するための文字列であって、例えば、原稿を電子データ(電子ファイル)等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ(ディレクトリ)等の名前である。
図3に示すように、特徴文字列生成部40は、構成要素選択部42、構成要素変換部44および特徴文字列決定部46から構成される。
構成要素選択部42は、出現頻度優先選択部420、読者言語優先選択部422、複合文字列優先選択部424、位置/規模優先選択部426、配置要素優先選択部428および手動選択部430から構成される。
構成要素変換部44は、翻訳部440、発音表記部442、文字コード変換部444、無変換部446および手動変換部448から構成される。
特徴文字列決定部46は、接続記号挿入結合部460、先頭文字変換結合部462、無変換結合部464、順序変更結合部466および手動結合部468から構成される。
構成要素変換部44は、翻訳部440、発音表記部442、文字コード変換部444、無変換部446および手動変換部448から構成される。
特徴文字列決定部46は、接続記号挿入結合部460、先頭文字変換結合部462、無変換結合部464、順序変更結合部466および手動結合部468から構成される。
なお、以下、特徴文字列生成部40を構成する構成要素選択部42、構成要素変換部44および特徴文字列決定部46を、「特徴文字列生成手段」と総称することがある。
同様に、構成要素選択部42を構成する出現頻度優先選択部420、読者言語優先選択部422、複合文字列優先選択部424、位置/規模優先選択部426、配置要素優先選択部428および手動選択部430、構成要素変換部44を構成する翻訳部440、発音表記部442、文字コード変換部444、無変換部446および手動変換部448、および、特徴文字列決定部46を構成する接続記号挿入結合部460、先頭文字変換結合部462、無変換結合部464、順序変更結合部466および手動結合部468を、「特徴文字列生成手段」と総称することがある。
同様に、構成要素選択部42を構成する出現頻度優先選択部420、読者言語優先選択部422、複合文字列優先選択部424、位置/規模優先選択部426、配置要素優先選択部428および手動選択部430、構成要素変換部44を構成する翻訳部440、発音表記部442、文字コード変換部444、無変換部446および手動変換部448、および、特徴文字列決定部46を構成する接続記号挿入結合部460、先頭文字変換結合部462、無変換結合部464、順序変更結合部466および手動結合部468を、「特徴文字列生成手段」と総称することがある。
処理プログラム3(図2)において、原稿読取情報受付部302は、画像読取装置27から得られた読取情報(原稿読取情報)を受け付け、受け付けた原稿読取情報を、配置解析部304による処理のために提供可能に格納する。
配置解析部304は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、CG(Computer Graphics)又は絵画等を分類(オブジェクト分類)し、分類されたオブジェクト(文字、表、写真等の自然画、CG又は絵画等。以下「配置要素」と称する)それぞれの原稿における領域を特定し、配置要素それぞれについて位置情報を対応付ける。
さらに、配置解析部304は、解析結果を示す情報を、配置情報として、文字認識部306および特徴文字列生成部40に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクトが含まれるかを示す情報である。
この「配置情報」は、例えば、各配置要素の位置を示す位置情報と、各配置要素の規模(寸法又は面積等)を示す規模情報とを含む。
配置解析部304は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、CG(Computer Graphics)又は絵画等を分類(オブジェクト分類)し、分類されたオブジェクト(文字、表、写真等の自然画、CG又は絵画等。以下「配置要素」と称する)それぞれの原稿における領域を特定し、配置要素それぞれについて位置情報を対応付ける。
さらに、配置解析部304は、解析結果を示す情報を、配置情報として、文字認識部306および特徴文字列生成部40に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクトが含まれるかを示す情報である。
この「配置情報」は、例えば、各配置要素の位置を示す位置情報と、各配置要素の規模(寸法又は面積等)を示す規模情報とを含む。
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォント又は占有面積等の、その配置要素の絶対的な規模を示すものであってもよいし、他の配置要素との間の相対的な規模を示すものであってもよく、あるいは、配置要素の規模の平均値との差を示すものであってもよい。
また、上述した配置解析部304による配置要素の分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
同様に、規模情報は、例えば、フォント又は占有面積等の、その配置要素の絶対的な規模を示すものであってもよいし、他の配置要素との間の相対的な規模を示すものであってもよく、あるいは、配置要素の規模の平均値との差を示すものであってもよい。
また、上述した配置解析部304による配置要素の分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
文字認識部306は、配置情報から文字が記載された領域を特定し、その領域(文字領域)について、例えばOCR(Optical Character Recognition:光学文字認識)機能を使用することによって、文字認識を行う。
ここで、文字認識とは、読み取って得られた文字の画像データを、前もって記憶されたパターンと照合することによって、その文字を特定して、文字データを生成することをいう。
さらに、文字認識部306は、生成された文字データを、形態素解析部308に対して出力する。
ここで、文字認識とは、読み取って得られた文字の画像データを、前もって記憶されたパターンと照合することによって、その文字を特定して、文字データを生成することをいう。
さらに、文字認識部306は、生成された文字データを、形態素解析部308に対して出力する。
ここで、文字データ(および後述する文字列)は、例えば、シフトJISコード、ASCII(American Standard Code for Information Interchange)コードまたはUnicode等の文字コードで表現されうる。
ここで、文字コードとは、コンピュータなどの電子媒体において、文字を、文章を画像などの図形データとして扱わずに、テキストの形式で扱う場合に、その各文字を表現するためのコード(対応関係を表したもの)である。
ここで、文字コードとは、コンピュータなどの電子媒体において、文字を、文章を画像などの図形データとして扱わずに、テキストの形式で扱う場合に、その各文字を表現するためのコード(対応関係を表したもの)である。
形態素解析部308は、文字認識部306によって認識された文字データに対して形態素解析を行うことによって、文字データが示す文章を形態素(文字列)に分割し、分割された各形態素に対して属性情報を付与する。
また、形態素解析部308は、属性情報が付与された文字列の群(文字列群)を、文字列抽出部310に対して出力する。
ここで、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、文章を形態素(意味を持つ最小の言語単位)である文字列に分割し、分割された形態素(文字列)の品詞を判別する処理をいう。
また、形態素解析部308は、属性情報が付与された文字列の群(文字列群)を、文字列抽出部310に対して出力する。
ここで、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、文章を形態素(意味を持つ最小の言語単位)である文字列に分割し、分割された形態素(文字列)の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語も判別(例えば、その文字列が日本語か英語か中国語か韓国語かまたはその他の言語かが判別)される。
さらに、この形態素解析の処理において、ある文字列が複合文字列であるか否かが判別される。
ここで、複合文字列とは、複数の語から構成される文字列である。
例えば、文字列「市場規模」は、2つの語「市場」および「規模」を包含するので、複合文字列と判断される。
また、属性情報とは、その文字列の品詞(名詞、動詞等)および文字列の言語等、文字列の属性を示す情報であって、その文字列の品詞を示す文字列品詞情報およびその文字列の言語を示す文字列言語情報を含む。
また、文字列が複合文字列である場合、属性情報は、その旨を示す情報(複合文字列情報)を含む。
さらに、この形態素解析の処理において、ある文字列が複合文字列であるか否かが判別される。
ここで、複合文字列とは、複数の語から構成される文字列である。
例えば、文字列「市場規模」は、2つの語「市場」および「規模」を包含するので、複合文字列と判断される。
また、属性情報とは、その文字列の品詞(名詞、動詞等)および文字列の言語等、文字列の属性を示す情報であって、その文字列の品詞を示す文字列品詞情報およびその文字列の言語を示す文字列言語情報を含む。
また、文字列が複合文字列である場合、属性情報は、その旨を示す情報(複合文字列情報)を含む。
文字列抽出部310は、形態素解析部308から受け入れた文字列群から、予め定められた特定の属性情報が付与された文字列を抽出する。
また、文字列抽出部310は、抽出した文字列を、予め定められた基準に従って順序付けし、その順序に基づいて列挙する。
さらに、文字列抽出部310は、列挙した各文字列のリスト(文字列リスト)を、抽出文字列管理部312に対して出力する。
抽出文字列管理部312は、文字列抽出部310からの文字列リストを格納し、特徴文字列生成部40による処理のために提供可能に管理する。
また、文字列抽出部310は、抽出した文字列を、予め定められた基準に従って順序付けし、その順序に基づいて列挙する。
さらに、文字列抽出部310は、列挙した各文字列のリスト(文字列リスト)を、抽出文字列管理部312に対して出力する。
抽出文字列管理部312は、文字列抽出部310からの文字列リストを格納し、特徴文字列生成部40による処理のために提供可能に管理する。
図4は、図2に示した抽出文字列管理部312が格納する文字列リストを例示する図である。
図4に示すように、文字列リストは、各文字列と、その文字列の出現頻度の順位と、出現数と、属性情報とを含み、属性情報は、文字列品詞情報と、文字列言語情報と、複合文字列情報とを含む。
図4の例において、例えば、文字列「複合機」については、順位が1位であり、出現数が5であり、品詞が「名詞」であり、言語が「日本語」であり、複合文字列ではないことが、示されている。
また、文字列「FujiXerox」については、順位が3位であり、出現数が3であり、品詞が「名詞」であり、言語が「英語」であり、複合文字列であることが、示されている。
図4に示すように、文字列リストは、各文字列と、その文字列の出現頻度の順位と、出現数と、属性情報とを含み、属性情報は、文字列品詞情報と、文字列言語情報と、複合文字列情報とを含む。
図4の例において、例えば、文字列「複合機」については、順位が1位であり、出現数が5であり、品詞が「名詞」であり、言語が「日本語」であり、複合文字列ではないことが、示されている。
また、文字列「FujiXerox」については、順位が3位であり、出現数が3であり、品詞が「名詞」であり、言語が「英語」であり、複合文字列であることが、示されている。
文字列抽出部310(図2)は、例えば、名詞を示す文字列品詞情報を含む属性情報が付与された文字列を、文字列群から抽出してもよい。
また、例えば、文字列抽出部310は、文字列が原稿において出現する頻度(出現頻度)が高いものから順に、文字列を列挙してもよい。
ここで、文字列抽出部310は、出現頻度が所定数以下の文字列または出現頻度の順序が所定順位よりも低い文字列については、列挙せずに省略してもよい。
また、例えば、文字列抽出部310は、文字列が原稿において出現する頻度(出現頻度)が高いものから順に、文字列を列挙してもよい。
ここで、文字列抽出部310は、出現頻度が所定数以下の文字列または出現頻度の順序が所定順位よりも低い文字列については、列挙せずに省略してもよい。
なお、文字列抽出部310は、文字列を列挙する際に、各文字列の出現頻度または順序に応じた重み付けを示す重み付け係数を、各文字列に付与してもよい。
例えば、文字列「複合機」の出現頻度が1番目に高く、文字列「販売」の出現頻度が2番目に高く、文字列「伝票」の出現頻度が3番目に高い場合、文字列抽出部310は、文字列「複合機」に重み付け係数10.0を付与し、文字列「販売」に重み付け係数8.0を付与し、文字列「伝票」に重み付け係数6.0を付与してもよい。
なお、文字列抽出部310は、文法ルールに基づく方法で文字列を列挙してもよいし、予め規定された単語の属性に基づいて文字列を列挙してもよい。
例えば、文字列抽出部310は、普通名詞または固有名詞等の名詞の種類に基づいて文字列を列挙してもよいし、文章において主語となる文字列を上位に列挙してもよい。
なお、文字列抽出部310が文字列を順序付けするための基準は、後述する切替部326によって変更されてもよい。
例えば、文字列「複合機」の出現頻度が1番目に高く、文字列「販売」の出現頻度が2番目に高く、文字列「伝票」の出現頻度が3番目に高い場合、文字列抽出部310は、文字列「複合機」に重み付け係数10.0を付与し、文字列「販売」に重み付け係数8.0を付与し、文字列「伝票」に重み付け係数6.0を付与してもよい。
なお、文字列抽出部310は、文法ルールに基づく方法で文字列を列挙してもよいし、予め規定された単語の属性に基づいて文字列を列挙してもよい。
例えば、文字列抽出部310は、普通名詞または固有名詞等の名詞の種類に基づいて文字列を列挙してもよいし、文章において主語となる文字列を上位に列挙してもよい。
なお、文字列抽出部310が文字列を順序付けするための基準は、後述する切替部326によって変更されてもよい。
読者言語登録部320は、原稿の読者が認識可能な言語(読者言語)を登録し、登録した読者言語を示す情報(読者言語情報)を、言語組合せ判定部324に対して出力する。
例えば、原稿の読者が日本語を認識可能である場合、読者言語は日本語であり、原稿の読者が中国語を認識可能である場合、読者言語は中国語である。
読者言語登録部320は、例えば、使用者がUI装置25を操作することによって得られた読者言語情報をUI装置25から受け入れることによって、読者言語を登録してもよい。
例えば、原稿の読者が日本語を認識可能である場合、読者言語は日本語であり、原稿の読者が中国語を認識可能である場合、読者言語は中国語である。
読者言語登録部320は、例えば、使用者がUI装置25を操作することによって得られた読者言語情報をUI装置25から受け入れることによって、読者言語を登録してもよい。
また、読者言語登録部320は、使用者がUI装置25を操作することなしに、読者言語を登録してもよい。
例えば、読者言語登録部320は、読者の識別情報と読者言語とを対応付けた読者言語テーブルを予め記憶し、その読者言語テーブルと、識別カード読取装置(図示せず)が読者の識別カードを読み取ることによって得られた読者の識別情報とを照合させることによって、読者言語を登録するようにしてもよい。
また、原稿の読者と画像処理装置2の使用者とが同じ場合等、読者の環境に画像処理装置2が設置されている場合は、画像処理装置2が予め読者言語情報を記憶し、記憶された読者言語情報によって、読者言語を登録するようにしてもよい。
また、原稿にその原稿の読者の名前等が記載されている場合等、原稿に読者の識別情報が予め埋め込まれている場合は、埋め込まれた読者の識別情報を、例えば文字認識部306が文字認識することによって読者の識別情報に対応する文字列を得、読者言語登録部320が、得られた読者の識別情報に対応する文字列と読者言語テーブルとを照合させることによって、読者言語を登録するようにしてもよい。
また、読者言語登録部320は、複数の読者がその原稿を読む場合のため、読者言語を複数登録してもよい。
例えば、読者言語登録部320は、読者の識別情報と読者言語とを対応付けた読者言語テーブルを予め記憶し、その読者言語テーブルと、識別カード読取装置(図示せず)が読者の識別カードを読み取ることによって得られた読者の識別情報とを照合させることによって、読者言語を登録するようにしてもよい。
また、原稿の読者と画像処理装置2の使用者とが同じ場合等、読者の環境に画像処理装置2が設置されている場合は、画像処理装置2が予め読者言語情報を記憶し、記憶された読者言語情報によって、読者言語を登録するようにしてもよい。
また、原稿にその原稿の読者の名前等が記載されている場合等、原稿に読者の識別情報が予め埋め込まれている場合は、埋め込まれた読者の識別情報を、例えば文字認識部306が文字認識することによって読者の識別情報に対応する文字列を得、読者言語登録部320が、得られた読者の識別情報に対応する文字列と読者言語テーブルとを照合させることによって、読者言語を登録するようにしてもよい。
また、読者言語登録部320は、複数の読者がその原稿を読む場合のため、読者言語を複数登録してもよい。
原稿言語登録部322は、原稿の言語(原稿言語)を登録し、登録した原稿言語を示す情報(原稿言語情報)を、言語組合せ判定部324に対して出力する。
例えば、原稿に出現する文字列のうち、言語が日本語である文字列の割合が最も大きい場合、原稿言語は日本語であり、言語が中国語である文字列の割合が最も大きい場合、原稿言語は中国語である。
原稿言語登録部322は、例えば、使用者がUI装置25を操作することによって得られた原稿言語情報をUI装置25から受け入れることによって、原稿言語を登録してもよい。
また、原稿言語登録部322は、使用者がUI装置25を操作することなしに、原稿言語を登録してもよい。
例えば、形態素解析部308が原稿に出現する各文字列の言語を判別し、原稿言語登録部322が、どの言語の文字列の出現する割合が最も大きいかを判断することによって、原稿言語を登録してもよい。
例えば、原稿に出現する文字列のうち、言語が日本語である文字列の割合が最も大きい場合、原稿言語は日本語であり、言語が中国語である文字列の割合が最も大きい場合、原稿言語は中国語である。
原稿言語登録部322は、例えば、使用者がUI装置25を操作することによって得られた原稿言語情報をUI装置25から受け入れることによって、原稿言語を登録してもよい。
また、原稿言語登録部322は、使用者がUI装置25を操作することなしに、原稿言語を登録してもよい。
例えば、形態素解析部308が原稿に出現する各文字列の言語を判別し、原稿言語登録部322が、どの言語の文字列の出現する割合が最も大きいかを判断することによって、原稿言語を登録してもよい。
言語組合せ判定部324は、読者言語登録部320からの読者言語情報と、原稿言語登録部322からの原稿言語情報とから、読者言語と原稿言語との組合せを判定する。
また、言語組合せ判定部324は、読者言語と原稿言語との組合せを示す情報(言語組合せ情報)を、切替部326に対して出力する。
切替部326は、言語組合せ判定部324からの言語組合せ情報に基づいて、特徴文字列生成部40において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。
具体的には、切替部326は、言語組合せ情報と切替テーブル(図5を用いて後述する)とに基づいて、特徴文字列生成部40を構成する構成要素選択部42、構成要素変換部44および特徴文字列決定部46それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを制御する。
また、言語組合せ判定部324は、読者言語と原稿言語との組合せを示す情報(言語組合せ情報)を、切替部326に対して出力する。
切替部326は、言語組合せ判定部324からの言語組合せ情報に基づいて、特徴文字列生成部40において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。
具体的には、切替部326は、言語組合せ情報と切替テーブル(図5を用いて後述する)とに基づいて、特徴文字列生成部40を構成する構成要素選択部42、構成要素変換部44および特徴文字列決定部46それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを制御する。
図5は、切替テーブルを例示する図である。
切替テーブルは、どの言語組合せの場合に、特徴文字列生成部40の構成要素選択部42、構成要素変換部44および特徴文字列決定部46それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを示す。
この切替テーブルは、画像処理装置2に予め記憶されていてもよく、使用者がUI装置25を操作することによって、適宜、修正するようにしてもよい。
切替テーブルは、どの言語組合せの場合に、特徴文字列生成部40の構成要素選択部42、構成要素変換部44および特徴文字列決定部46それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを示す。
この切替テーブルは、画像処理装置2に予め記憶されていてもよく、使用者がUI装置25を操作することによって、適宜、修正するようにしてもよい。
例えば、図5に示した例において、切替部326は、読者言語が日本語であり原稿言語が日本語である組合せである場合(事例(a))、特徴文字列生成部40の構成要素選択部42を出現頻度優先選択部420と複合文字列優先選択部424とに切り替え、構成要素変換部44を無変換部446に切り替え、特徴文字列決定部46を接続記号挿入結合部460に切り替える。
また、図5に示した例において、切替部326は、読者言語が中国語であり原稿言語が日本語である組合せである場合(事例(b))、特徴文字列生成部40の構成要素選択部42を出現頻度優先選択部420に切り替え、構成要素変換部44を翻訳部440に切り替え、特徴文字列決定部46を接続記号挿入結合部460に切り替える。
また、図5の事例(a)、(e)、(f)、(g)のように、切替部326は、構成要素選択部42において複数の特徴文字列生成手段が使用されるように、特徴文字列生成部40を制御してもよい。
同様に、切替部326は、図5の事例(c)、(f)のように、事例構成要素変換部44において複数の特徴文字列生成手段が使用されるように特徴文字列生成部40を制御してもよく、図5の事例(e)のように、特徴文字列決定部46において複数の特徴文字列生成手段が使用されるように特徴文字列生成部40を制御してもよい。
また、図5に示した例において、切替部326は、読者言語が中国語であり原稿言語が日本語である組合せである場合(事例(b))、特徴文字列生成部40の構成要素選択部42を出現頻度優先選択部420に切り替え、構成要素変換部44を翻訳部440に切り替え、特徴文字列決定部46を接続記号挿入結合部460に切り替える。
また、図5の事例(a)、(e)、(f)、(g)のように、切替部326は、構成要素選択部42において複数の特徴文字列生成手段が使用されるように、特徴文字列生成部40を制御してもよい。
同様に、切替部326は、図5の事例(c)、(f)のように、事例構成要素変換部44において複数の特徴文字列生成手段が使用されるように特徴文字列生成部40を制御してもよく、図5の事例(e)のように、特徴文字列決定部46において複数の特徴文字列生成手段が使用されるように特徴文字列生成部40を制御してもよい。
特徴文字列生成部40(図2、図3)は、切替部326によって特徴文字列の生成に使用される特徴文字列生成手段が切り替えられ、切り替わった特徴文字列生成手段を使用して、特徴文字列を生成する。
構成要素選択部42は、抽出文字列管理部312から文字列リストを取り出し、文字列リストに含まれる文字列から、特徴文字列の構成要素となる文字列(以下、単に「構成要素」と称する)を1つ以上選択し、選択した構成要素を構成要素変換部44に対して出力する。
具体的には、構成要素選択部42は、構成要素選択部42を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段によって文字列に付与された重み付け係数の大きなものから順に、所定数(構成要素数)の文字列を選択する。
なお、構成要素選択部42が選択する文字列の数は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、構成要素選択部42は、選択した構成要素のうち、後述する構成要素変換部44において切り替えられた特徴文字列生成手段によって変換できない構成要素がある場合(例えば構成要素が特殊な中国語である場合)に、その変換できない構成要素の代わりに、選択されなかった文字列のうちで重み付け係数が最も大きなものを構成要素として選択してもよい
構成要素選択部42は、抽出文字列管理部312から文字列リストを取り出し、文字列リストに含まれる文字列から、特徴文字列の構成要素となる文字列(以下、単に「構成要素」と称する)を1つ以上選択し、選択した構成要素を構成要素変換部44に対して出力する。
具体的には、構成要素選択部42は、構成要素選択部42を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段によって文字列に付与された重み付け係数の大きなものから順に、所定数(構成要素数)の文字列を選択する。
なお、構成要素選択部42が選択する文字列の数は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、構成要素選択部42は、選択した構成要素のうち、後述する構成要素変換部44において切り替えられた特徴文字列生成手段によって変換できない構成要素がある場合(例えば構成要素が特殊な中国語である場合)に、その変換できない構成要素の代わりに、選択されなかった文字列のうちで重み付け係数が最も大きなものを構成要素として選択してもよい
出現頻度優先選択部420は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
例えば、文字列「複合機」の出現頻度が1番目に高く、文字列「販売」の出現頻度が2番目に高く、文字列「伝票」の出現頻度が3番目に高い場合、出現頻度優先選択部420は、文字列「複合機」に重み付け係数10.0を付与し、文字列「販売」に重み付け係数8.0を付与し、文字列「伝票」に重み付け係数6.0を付与する。
なお、出現頻度優先選択部420は、文字列の出現頻度の順序ではなく、文字列の出現頻度(出現数)に基づいて、文字列に重み付け係数を付与してもよい。
また、文字列抽出部310が重み付け係数を付与する場合には、出現頻度優先選択部420は、文字列抽出部310によって付与された重み付け係数を、所定の基準に基づいて変更してもよい。
なお、出現頻度優先選択部420が重み付け係数を付与する基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
例えば、文字列「複合機」の出現頻度が1番目に高く、文字列「販売」の出現頻度が2番目に高く、文字列「伝票」の出現頻度が3番目に高い場合、出現頻度優先選択部420は、文字列「複合機」に重み付け係数10.0を付与し、文字列「販売」に重み付け係数8.0を付与し、文字列「伝票」に重み付け係数6.0を付与する。
なお、出現頻度優先選択部420は、文字列の出現頻度の順序ではなく、文字列の出現頻度(出現数)に基づいて、文字列に重み付け係数を付与してもよい。
また、文字列抽出部310が重み付け係数を付与する場合には、出現頻度優先選択部420は、文字列抽出部310によって付与された重み付け係数を、所定の基準に基づいて変更してもよい。
なお、出現頻度優先選択部420が重み付け係数を付与する基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
読者言語優先選択部422は、文字列リストに含まれる各文字列のなかで、読者言語と同じ言語を示す文字列言語情報が付与されたものが存在する場合は、その文字列の重み付け係数を、所定量増加させる。
例えば、読者言語優先選択部422は、読者言語と同じ言語を示す文字列言語情報が付与された文字列の重み付け係数を所定量乗算(例えば2倍)してもよいし、所定量加算(例えば2.0加算)してもよい。
また、読者言語優先選択部422は、各文字列が読者言語と同じ言語でなくとも、例えば、読者言語が英語であり原稿言語が日本語である場合、英語をカタカナ文字で表わした文字列(例えば、英語「program」のカタカナ表現である文字列「プログラム」)を英語として処理してもよい。
例えば、読者言語優先選択部422は、読者言語と同じ言語を示す文字列言語情報が付与された文字列の重み付け係数を所定量乗算(例えば2倍)してもよいし、所定量加算(例えば2.0加算)してもよい。
また、読者言語優先選択部422は、各文字列が読者言語と同じ言語でなくとも、例えば、読者言語が英語であり原稿言語が日本語である場合、英語をカタカナ文字で表わした文字列(例えば、英語「program」のカタカナ表現である文字列「プログラム」)を英語として処理してもよい。
複合文字列優先選択部424は、文字列リストに含まれる各文字列のなかで、複合文字列である旨を示す複合文字列情報が付与されたものが存在する場合は、その文字列の重み付け係数を、所定量増加させる。
例えば、複合文字列優先選択部424は、複合文字列情報が付与された文字列の重み付け係数を所定量乗算(例えば5倍)してもよいし、所定量加算(例えば5.0加算)してもよい。
なお、複合文字列の重み付け係数が、複合文字列を構成する各文字列の重み付け係数以上である場合、複合文字列優先選択部424は、複合文字列を構成する各文字列を、構成要素として選択されないように削除してもよい。
例えば、複合文字列優先選択部424は、複合文字列情報が付与された文字列の重み付け係数を所定量乗算(例えば5倍)してもよいし、所定量加算(例えば5.0加算)してもよい。
なお、複合文字列の重み付け係数が、複合文字列を構成する各文字列の重み付け係数以上である場合、複合文字列優先選択部424は、複合文字列を構成する各文字列を、構成要素として選択されないように削除してもよい。
位置/規模優先選択部426は、原稿において所定の位置に存在する文字列または所定の規模である文字列の重み付け係数を、読者言語優先選択部422と同様に、所定量増加させる。
例えば、位置/規模優先選択部426は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合に、その文字列の重み付け係数を所定量増加させる。
また、例えば、位置/規模優先選択部426は、文字列の規模が所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
また、位置/規模優先選択部426は、文字列の位置または規模に応じて、段階的に、重み付け係数を増加させてもよい。
例えば、位置/規模優先選択部426は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合に、その文字列の重み付け係数を所定量増加させる。
また、例えば、位置/規模優先選択部426は、文字列の規模が所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
また、位置/規模優先選択部426は、文字列の位置または規模に応じて、段階的に、重み付け係数を増加させてもよい。
配置要素優先選択部428は、配置解析部304によって原稿に所定の配置要素が含まれると判断された場合に、その配置要素を示す文字列(配置要素文字列)を選択して、配置要素文字列に所定の重み付け係数を付与する。
例えば、配置要素優先選択部428は、原稿に配置要素「写真」が含まれる場合、(文字列抽出部310によって文字列「写真」が抽出されなかった場合であっても)配置要素文字列「写真」を選択して所定の重み付け係数を付与する。
なお、配置要素優先選択部428がどの配置要素についてどれだけの重み付け係数を付与するかの基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、配置要素文字列は、読者言語の文字列であってもよい。
例えば、配置要素優先選択部428は、原稿に配置要素「写真」が含まれる場合、(文字列抽出部310によって文字列「写真」が抽出されなかった場合であっても)配置要素文字列「写真」を選択して所定の重み付け係数を付与する。
なお、配置要素優先選択部428がどの配置要素についてどれだけの重み付け係数を付与するかの基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、配置要素文字列は、読者言語の文字列であってもよい。
手動選択部430は、UI装置25に対し、使用者に構成要素を選択させる旨の表示をさせ、使用者がUI装置25を操作して選択(または入力)された文字列を受け入れる。
なお、手動選択部430は、文字列リストにない任意の文字列を入力できるように、UI装置25を制御してもよい。この場合、手動選択部430は、読者言語の文字列を入力できるように、UI装置25を制御してもよい。
なお、手動選択部430は、文字列リストにない任意の文字列を入力できるように、UI装置25を制御してもよい。この場合、手動選択部430は、読者言語の文字列を入力できるように、UI装置25を制御してもよい。
なお、読者言語優先選択部422、複合文字列優先選択部424および位置/規模優先選択部426が重み付け係数を所定量増加させる基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、上記実施形態においては、出現頻度優先選択部420が各文字列に付与した重み付け係数を、読者言語優先選択部422、複合文字列優先選択部424および位置/規模優先選択部426が増加させるとしたが、読者言語優先選択部422、複合文字列優先選択部424および位置/規模優先選択部426は、出現頻度優先選択部420とは独立に処理してもよい。
つまり、例えば、読者言語の文字列が構成要素数以上存在する場合には、読者言語優先選択部422は、出現頻度に関わらず読者言語の文字列のみを構成要素として選択してもよい。
また、例えば、読者言語の文字列が構成要素数未満しか存在しない場合には、読者言語優先選択部422は、存在した読者言語の文字列に最大の重み付け係数を付与して構成要素として選択し、残りの構成要素については、出現頻度優先選択部420が選択するようにしてもよい。
また、上記実施形態においては、出現頻度優先選択部420が各文字列に付与した重み付け係数を、読者言語優先選択部422、複合文字列優先選択部424および位置/規模優先選択部426が増加させるとしたが、読者言語優先選択部422、複合文字列優先選択部424および位置/規模優先選択部426は、出現頻度優先選択部420とは独立に処理してもよい。
つまり、例えば、読者言語の文字列が構成要素数以上存在する場合には、読者言語優先選択部422は、出現頻度に関わらず読者言語の文字列のみを構成要素として選択してもよい。
また、例えば、読者言語の文字列が構成要素数未満しか存在しない場合には、読者言語優先選択部422は、存在した読者言語の文字列に最大の重み付け係数を付与して構成要素として選択し、残りの構成要素については、出現頻度優先選択部420が選択するようにしてもよい。
構成要素変換部44は、構成要素選択部42によって選択された各構成要素を、構成要素変換部44を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて、変換する。
さらに、構成要素変換部44は、変換された各構成要素を、特徴文字列決定部46に対して出力する。
翻訳部440は、例えば予め記憶された翻訳辞書を用いて、構成要素を読者言語に翻訳する。
ここで、翻訳辞書は、原稿言語を読者言語に翻訳するために使用される情報(データベース)であって、原稿言語の文字列と、その原稿言語の文字列に対応する(その原稿言語と同じ意味である)読者言語とを、対応付けて記憶している。
例えば、読者言語が英語であり原稿言語が日本語であって、選択された構成要素が「合計」であって、翻訳辞書において日本語の文字列「合計」と英語の文字列「total」とが対応付けられている場合、翻訳部440は、構成要素「合計」を「total」と翻訳する。
さらに、構成要素変換部44は、変換された各構成要素を、特徴文字列決定部46に対して出力する。
翻訳部440は、例えば予め記憶された翻訳辞書を用いて、構成要素を読者言語に翻訳する。
ここで、翻訳辞書は、原稿言語を読者言語に翻訳するために使用される情報(データベース)であって、原稿言語の文字列と、その原稿言語の文字列に対応する(その原稿言語と同じ意味である)読者言語とを、対応付けて記憶している。
例えば、読者言語が英語であり原稿言語が日本語であって、選択された構成要素が「合計」であって、翻訳辞書において日本語の文字列「合計」と英語の文字列「total」とが対応付けられている場合、翻訳部440は、構成要素「合計」を「total」と翻訳する。
発音表記部442は、例えば予め記憶された発音辞書を用いて、構成要素の発音を、例えば欧文文字(英数文字および所定の記号)等を表現する所定の文字コード(発音文字コード)に変換して、その構成要素をその文字コードによって表現される文字で表記する。
ここで、発音文字コードとは、例えば、ASCII等の、文字を1バイト(コンピュータが扱う最小単位のデータ量)で表現する文字コードである。
ここで、発音辞書は、原稿言語を発音文字コードに対応する発音で表記するために使用される情報(データベース)であって、原稿言語の文字列と、その原稿言語の文字列に対応する発音を発音文字コードで表記した文字列とを、対応付けて記憶している。
例えば、選択された構成要素が「合計」である場合、発音表記部442は、その構成要素「合計」をローマ字(欧文文字)の「goukei」と表記する。
ここで、発音文字コードとは、例えば、ASCII等の、文字を1バイト(コンピュータが扱う最小単位のデータ量)で表現する文字コードである。
ここで、発音辞書は、原稿言語を発音文字コードに対応する発音で表記するために使用される情報(データベース)であって、原稿言語の文字列と、その原稿言語の文字列に対応する発音を発音文字コードで表記した文字列とを、対応付けて記憶している。
例えば、選択された構成要素が「合計」である場合、発音表記部442は、その構成要素「合計」をローマ字(欧文文字)の「goukei」と表記する。
文字コード変換部444は、例えば予め記憶された変換テーブルを用いて、構成要素を表現する文字コードを、読者の環境で認識し得る、対応する別の文字コードに変換し、変換された文字コードで表現された文字で構成要素を表記する。
ここで、変換テーブルは、例えば構成要素が漢字である場合に、その漢字の中国語、日本語および韓国語における文字コード(互いに意味が同じであるが表記が異なる漢字を表記する文字コード)それぞれとの対応関係を示す。
例えば、変換テーブルは、ある漢字を、中国語であればBig5の文字コードで表現したものと、日本語であればシフトJISで表現したものとの対応関係を示す。
また、変換テーブルは、構成要素にかかる文字列の文字コードと、その文字列に対応する、Unicode等の世界中の言語の文字列を統一して表現する文字コードとの対応関係を示してもよい。
ここで、変換テーブルは、例えば構成要素が漢字である場合に、その漢字の中国語、日本語および韓国語における文字コード(互いに意味が同じであるが表記が異なる漢字を表記する文字コード)それぞれとの対応関係を示す。
例えば、変換テーブルは、ある漢字を、中国語であればBig5の文字コードで表現したものと、日本語であればシフトJISで表現したものとの対応関係を示す。
また、変換テーブルは、構成要素にかかる文字列の文字コードと、その文字列に対応する、Unicode等の世界中の言語の文字列を統一して表現する文字コードとの対応関係を示してもよい。
無変換部446は、例えば読者言語と原稿言語とが同じ場合に、構成要素に対して何らの変換処理をせずに、構成要素を特徴文字列決定部46に対して出力する。
手動変換部448は、UI装置25に対し、使用者に構成要素を変換させる旨の表示をさせ、使用者がUI装置25を操作して変換された文字列を受け入れて構成要素とし、その構成要素を特徴文字列決定部46に対して出力する。
手動変換部448は、UI装置25に対し、使用者に構成要素を変換させる旨の表示をさせ、使用者がUI装置25を操作して変換された文字列を受け入れて構成要素とし、その構成要素を特徴文字列決定部46に対して出力する。
特徴文字列決定部46は、構成要素変換部44によって変換された各構成要素(無変換部446によって変換されなかった構成要素も含む)を、特徴文字列決定部46を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて結合することによって、特徴文字列を決定する。
さらに、特徴文字列決定部46は、決定した特徴文字列を、UI装置25に表示させるための処理を行う。
なお、特徴文字列決定部46は、決定した特徴文字列をUI装置25に表示させる際に、UI装置25を用いて使用者が特徴文字列を修正できるように処理してもよい。
さらに、特徴文字列決定部46は、決定した特徴文字列を、UI装置25に表示させるための処理を行う。
なお、特徴文字列決定部46は、決定した特徴文字列をUI装置25に表示させる際に、UI装置25を用いて使用者が特徴文字列を修正できるように処理してもよい。
順序変更結合部466は、読者言語と原稿言語との組合せに基づいて、変換後の各構成要素の順序を読者言語の文法に合わせた順序に並べ替え、並び替えた順序で各構成要素を結合するための処理を行う。
例えば、順序変更結合部466は、形態素解析により、変換後の各構成要素の順序を読者言語の文法に合わせた順序に並べ替える。
なお、順序変更結合部466を使用しない場合、特徴文字列における構成要素の順序は、構成要素選択部42によって選択された順序(つまり重み付け係数が大きい順)と同じであってもよい。
例えば、順序変更結合部466は、形態素解析により、変換後の各構成要素の順序を読者言語の文法に合わせた順序に並べ替える。
なお、順序変更結合部466を使用しない場合、特徴文字列における構成要素の順序は、構成要素選択部42によって選択された順序(つまり重み付け係数が大きい順)と同じであってもよい。
接続記号挿入結合部460は、変換後の各構成要素を結合する際に、各構成要素の間に「_」(アンダーバー)等の接続記号を挿入するための処理を行う。
先頭文字変換結合部462は、変換後の各構成要素を結合する際に、各構成要素の先頭の文字をその先頭文字に対応する文字に変換するための処理を行う。
例えば、変換後の各構成要素が欧文である場合、先頭文字変換結合部462は、各構成要素の先頭文字を小文字から大文字に変換する。
無変換結合部464は、変換後の各構成要素を結合する際に、構成要素に対して何らの変換処理をせずに、各構成要素を結合するための処理を行う。
手動結合部468は、UI装置25に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がUI装置25を操作して決定された文字列を特徴文字列として決定する。
先頭文字変換結合部462は、変換後の各構成要素を結合する際に、各構成要素の先頭の文字をその先頭文字に対応する文字に変換するための処理を行う。
例えば、変換後の各構成要素が欧文である場合、先頭文字変換結合部462は、各構成要素の先頭文字を小文字から大文字に変換する。
無変換結合部464は、変換後の各構成要素を結合する際に、構成要素に対して何らの変換処理をせずに、各構成要素を結合するための処理を行う。
手動結合部468は、UI装置25に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がUI装置25を操作して決定された文字列を特徴文字列として決定する。
図5の例における特徴文字列生成部40の処理を、各事例について説明する。
原稿言語が日本語であり、読者言語が日本語、中国語および韓国語である場合(事例(a)〜(d))については、図7〜図11を用いて具体的に後述する。
読者言語が英語であり原稿言語が日本語である場合(事例(e))、切替部326によって、構成要素選択部42は出現頻度優先選択部420と読者言語優先選択部422とに切り替わり、構成要素変換部44は翻訳部440に切り替わり、特徴文字列決定部46は先頭文字変換結合部462と順序変更結合部466とに切り替わる。
原稿言語が日本語であり、読者言語が日本語、中国語および韓国語である場合(事例(a)〜(d))については、図7〜図11を用いて具体的に後述する。
読者言語が英語であり原稿言語が日本語である場合(事例(e))、切替部326によって、構成要素選択部42は出現頻度優先選択部420と読者言語優先選択部422とに切り替わり、構成要素変換部44は翻訳部440に切り替わり、特徴文字列決定部46は先頭文字変換結合部462と順序変更結合部466とに切り替わる。
出現頻度優先選択部420は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
読者言語優先選択部422は、読者言語である英語の文字列が文字列リストに存在する場合、出現頻度優先選択部420によって英語の文字列に対して付与された重み付け係数を所定量増加させる。
構成要素選択部42は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
読者言語優先選択部422は、読者言語である英語の文字列が文字列リストに存在する場合、出現頻度優先選択部420によって英語の文字列に対して付与された重み付け係数を所定量増加させる。
構成要素選択部42は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
翻訳部440は、構成要素選択部42によって選択された各構成要素を、日本語から英語に翻訳する。
なお、翻訳部440は、言語が元々英語である構成要素については、翻訳をしなくてもよい。
先頭文字変換結合部462は、英語に翻訳された各構成要素の先頭の文字を小文字から大文字に変換する。
順序変更結合部466は、英語に翻訳された各構成要素を、英語の文法に合わせた順序に並べ替える。
特徴文字列決定部46は、先頭の文字が大文字に変換され、英語の文法に合わせて並び替えられた各構成要素を結合して、特徴文字列を決定する。
なお、翻訳部440は、言語が元々英語である構成要素については、翻訳をしなくてもよい。
先頭文字変換結合部462は、英語に翻訳された各構成要素の先頭の文字を小文字から大文字に変換する。
順序変更結合部466は、英語に翻訳された各構成要素を、英語の文法に合わせた順序に並べ替える。
特徴文字列決定部46は、先頭の文字が大文字に変換され、英語の文法に合わせて並び替えられた各構成要素を結合して、特徴文字列を決定する。
読者言語が日本語であり原稿言語が中国語である場合(事例(f))、切替部326によって、構成要素選択部42は出現頻度優先選択部420と位置/規模優先選択部426とに切り替わり、構成要素変換部44は文字コード変換部444と発音表記部442とに切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
出現頻度優先選択部420は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
位置/規模優先選択部426は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合であって、文字列の規模が、所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
構成要素選択部42は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
出現頻度優先選択部420は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
位置/規模優先選択部426は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合であって、文字列の規模が、所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
構成要素選択部42は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
文字コード変換部444は、中国語の文字コードで表現された構成要素の文字コードを、日本語の文字コードに変換し、変換された文字コードで表現された文字で構成要素を表記する。
発音表記部442は、対応する日本語の文字コードがない構成要素に対して、中国語の構成要素の発音を発音文字コードに変換して、その構成要素を発音文字コードで表現される文字で表記する。
接続記号挿入結合部460は、構成要素選択部42によって選択された順序(つまり重み付け係数が大きい順)に並べられた変換後の各構成要素を、これらの間に接続記号を挿入して結合し、特徴文字列を決定する。
発音表記部442は、対応する日本語の文字コードがない構成要素に対して、中国語の構成要素の発音を発音文字コードに変換して、その構成要素を発音文字コードで表現される文字で表記する。
接続記号挿入結合部460は、構成要素選択部42によって選択された順序(つまり重み付け係数が大きい順)に並べられた変換後の各構成要素を、これらの間に接続記号を挿入して結合し、特徴文字列を決定する。
読者言語が日本語であり原稿言語が言語X(どの言語であるか判別不能)である場合(事例(g))、切替部326によって、構成要素選択部42は配置要素優先選択部420と手動選択部430とに切り替わり、構成要素変換部44は手動変換部448に切り替わり、特徴文字列決定部46は手動結合部468に切り替わる。
配置要素優先選択部428は、原稿に所定の配置要素(例えば写真)が含まれる場合に、配置要素文字列(例えば文字列「写真」)を選択して、配置要素文字列に所定の重み付け係数を付与する。
また、手動選択部430は、任意の文字列を入力できるように、UI装置25を制御する。
構成要素選択部42は、配置要素優先選択部420によって選択された文字列(配置要素文字列)と、UI装置25に対する操作によって得られ手動選択部430が受け入れた文字列とを、構成要素として選択する。
配置要素優先選択部428は、原稿に所定の配置要素(例えば写真)が含まれる場合に、配置要素文字列(例えば文字列「写真」)を選択して、配置要素文字列に所定の重み付け係数を付与する。
また、手動選択部430は、任意の文字列を入力できるように、UI装置25を制御する。
構成要素選択部42は、配置要素優先選択部420によって選択された文字列(配置要素文字列)と、UI装置25に対する操作によって得られ手動選択部430が受け入れた文字列とを、構成要素として選択する。
手動変換部448は、UI装置25に対し、使用者に構成要素を変換させる旨の表示をさせ、使用者がUI装置25を操作して変換された文字列を受け入れて構成要素とする。
なお、使用者は、構成要素選択部42によって選択された各構成要素が読者言語で表現されている場合、UI装置25を操作して変換処理を行う必要はない。
手動結合部468は、UI装置25に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がUI装置25を操作して決定された文字列を特徴文字列として決定する。
なお、使用者は、構成要素選択部42によって選択された各構成要素が読者言語で表現されている場合、UI装置25を操作して変換処理を行う必要はない。
手動結合部468は、UI装置25に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がUI装置25を操作して決定された文字列を特徴文字列として決定する。
図6は、処理プログラム3の処理を示すフローチャート(S10)である。
ステップ100(S100)において、読者言語登録部320は、読者言語を登録する。
ステップ102(S102)において、原稿言語登録部322は、原稿言語を登録する。
ステップ104(S104)において、原稿読取情報受付部302は、画像読取装置27から得られた原稿読取情報を受け付ける。
ステップ100(S100)において、読者言語登録部320は、読者言語を登録する。
ステップ102(S102)において、原稿言語登録部322は、原稿言語を登録する。
ステップ104(S104)において、原稿読取情報受付部302は、画像読取装置27から得られた原稿読取情報を受け付ける。
ステップ106(S106)において、配置解析部304は、原稿読取情報を解析して、配置要素それぞれの原稿における領域を特定し、配置情報を生成する。
ステップ108(S108)において、文字認識部306は、配置情報から特定した文字領域について、文字認識を行い、文字データを生成する。
ステップ110(S110)において、形態素解析部308は、文字認識部306によって認識された文字データに対して形態素解析を行い、各形態素(文字列)に対して属性情報を付与する。
ステップ112(S112)において、文字列抽出部310は、形態素解析部308から受け入れた文字列群から、予め定められた特定の属性情報が付与された文字列を抽出する。
ステップ108(S108)において、文字認識部306は、配置情報から特定した文字領域について、文字認識を行い、文字データを生成する。
ステップ110(S110)において、形態素解析部308は、文字認識部306によって認識された文字データに対して形態素解析を行い、各形態素(文字列)に対して属性情報を付与する。
ステップ112(S112)において、文字列抽出部310は、形態素解析部308から受け入れた文字列群から、予め定められた特定の属性情報が付与された文字列を抽出する。
ステップ114(S114)において、切替部326は、言語組合せ情報に基づいて、特徴文字列生成部40において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。
ステップ116(S116)において、構成要素選択部42は、文字列リストに含まれる文字列に、切替部326によって切り替わった1つ以上の特徴文字列生成手段を使用して重み付け係数を付与し、付与された重み付け係数の大きな文字列ものから順に、構成要素数の文字列を、構成要素として選択する。
ステップ118(S118)において、構成要素変換部44は、選択された各構成要素を、構成要素変換部44を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて、変換する。
ステップ120(S120)において、特徴文字列決定部46は、変換された各構成要素を、特徴文字列決定部46を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて結合することによって、特徴文字列を決定し、処理を終了する。
ステップ116(S116)において、構成要素選択部42は、文字列リストに含まれる文字列に、切替部326によって切り替わった1つ以上の特徴文字列生成手段を使用して重み付け係数を付与し、付与された重み付け係数の大きな文字列ものから順に、構成要素数の文字列を、構成要素として選択する。
ステップ118(S118)において、構成要素変換部44は、選択された各構成要素を、構成要素変換部44を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて、変換する。
ステップ120(S120)において、特徴文字列決定部46は、変換された各構成要素を、特徴文字列決定部46を構成する特徴文字列生成手段のうち切替部326によって切り替わった1つ以上の特徴文字列生成手段を用いて結合することによって、特徴文字列を決定し、処理を終了する。
以下、本実施形態に係る画像処理装置2の処理を、具体的に例を挙げて説明する。
図7は、本実施形態に係る画像処理装置2の処理対象である原稿の例および文字列の抽出結果の例を示す図であり、(A)は原稿の例を示し、(B)は文字列の抽出結果の例を示す。
図7(A)に例示した原稿は主に日本語で記載されているので、原稿言語は日本語である。
この原稿に基づいて、文字列抽出部310の処理によって、図7(B)に例示するような順で文字列が抽出される。
図7は、本実施形態に係る画像処理装置2の処理対象である原稿の例および文字列の抽出結果の例を示す図であり、(A)は原稿の例を示し、(B)は文字列の抽出結果の例を示す。
図7(A)に例示した原稿は主に日本語で記載されているので、原稿言語は日本語である。
この原稿に基づいて、文字列抽出部310の処理によって、図7(B)に例示するような順で文字列が抽出される。
図8は、図7に例示した原稿について読者言語が日本語である場合の特徴文字列生成部40の処理を例示する図である。
図8に例示した事例は、図5に例示した事例(a)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420と複合文字列優先選択部424とに切り替わり、構成要素変換部44は無変換部446に切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
図8に例示した事例は、図5に例示した事例(a)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420と複合文字列優先選択部424とに切り替わり、構成要素変換部44は無変換部446に切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
出現頻度優先選択部420は、図7(B)に例示した各文字列に対し、図8に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
複合文字列優先選択部424は、複合文字列である「富士ゼロックス」と「販売金額」とについて、図8に示すように、重み付け係数を5倍にする。
なお、文字列「販売」の重み付け係数は9.0であり、「金額」の重み付け係数は6.0であったが、これよりも重み付け係数の大きな複合文字列「販売金額」に文字列「販売」および「金額」が包含されるので、文字列「販売」および「金額」は削除される。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「富士ゼロックス」、「販売金額」、「複合機」および「伝票」を、構成要素として選択する。
複合文字列優先選択部424は、複合文字列である「富士ゼロックス」と「販売金額」とについて、図8に示すように、重み付け係数を5倍にする。
なお、文字列「販売」の重み付け係数は9.0であり、「金額」の重み付け係数は6.0であったが、これよりも重み付け係数の大きな複合文字列「販売金額」に文字列「販売」および「金額」が包含されるので、文字列「販売」および「金額」は削除される。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「富士ゼロックス」、「販売金額」、「複合機」および「伝票」を、構成要素として選択する。
無変換部446は、構成要素「富士ゼロックス」、「販売金額」、「複合機」および「伝票」に対し、変換処理を行わない。
接続記号挿入結合部460は、各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図8に示す特徴文字列を生成する。
ここで、文字列「富士ゼロックス_販売金額_複写機_伝票」が、読者言語が中国語および韓国語の読者の所有するPC等で表示される場合、日本語の文字コードがそのPC等に設定されていないことが多いので、正しく表示されず、いわゆる「文字化け」が生じる。
接続記号挿入結合部460は、各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図8に示す特徴文字列を生成する。
ここで、文字列「富士ゼロックス_販売金額_複写機_伝票」が、読者言語が中国語および韓国語の読者の所有するPC等で表示される場合、日本語の文字コードがそのPC等に設定されていないことが多いので、正しく表示されず、いわゆる「文字化け」が生じる。
図9は、図7に例示した原稿について読者言語が中国語である場合の特徴文字列生成部40の処理を例示する図である。
図9に例示した事例は、図5に例示した事例(b)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は翻訳部440に切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
図9に例示した事例は、図5に例示した事例(b)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は翻訳部440に切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
出現頻度優先選択部420は、図7(B)に例示した各文字列に対し、図9に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
翻訳部440は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれを中国語に翻訳する。
接続記号挿入結合部460は、翻訳後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図9に示す特徴文字列を生成する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
翻訳部440は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれを中国語に翻訳する。
接続記号挿入結合部460は、翻訳後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図9に示す特徴文字列を生成する。
図10は、図7に例示した原稿について読者言語が韓国語である場合の特徴文字列生成部40の処理を例示する図である。
図10に例示した事例は、図5に例示した事例(d)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は発音表記部442に切り替わり、特徴文字列決定部46は先頭文字変換結合部462に切り替わる。
図10に例示した事例は、図5に例示した事例(d)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は発音表記部442に切り替わり、特徴文字列決定部46は先頭文字変換結合部462に切り替わる。
出現頻度優先選択部420は、図7(B)に例示した各文字列に対し、図10に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
発音表記部442は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれについて、図10に示すように、これらの発音を表記する文字(ローマ字)に変換する。
先頭文字変換結合部462は、変換後の各構成要素の先頭文字を大文字に変換した上で、各構成要素を結合し、図10に示す特徴文字列を生成する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
発音表記部442は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれについて、図10に示すように、これらの発音を表記する文字(ローマ字)に変換する。
先頭文字変換結合部462は、変換後の各構成要素の先頭文字を大文字に変換した上で、各構成要素を結合し、図10に示す特徴文字列を生成する。
図11は、図7に例示した原稿について読者言語が中国語である場合の特徴文字列生成部40の処理を例示する図である。
図11に例示した事例は、図5に例示した事例(c)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は発音表記部442と文字コード変換部444とに切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
図11に例示した事例は、図5に例示した事例(c)に対応する。
本事例においては、切替部326によって、構成要素選択部42は出現頻度優先選択部420に切り替わり、構成要素変換部44は発音表記部442と文字コード変換部444とに切り替わり、特徴文字列決定部46は接続記号挿入結合部460に切り替わる。
出現頻度優先選択部420は、図7(B)に例示した各文字列に対し、図11に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
文字コード変換部444は、図11に示すように、各構成要素の漢字を表現する文字コード(例えばシフトJIS)を、中国語の対応する文字コード(例えばBig5)に変換し、変換された文字コードで表現された文字で構成要素を表記する。
発音表記部442は、中国語の対応する漢字の文字コードがない文字列「ゼロックス」について、図11に示すように、これらの発音を表記する文字に変換する。
接続記号挿入結合部460は、変換後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図11に示す特徴文字列を生成する。
構成要素選択部42は、構成要素数が4の場合、重み付け係数が上位4個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
文字コード変換部444は、図11に示すように、各構成要素の漢字を表現する文字コード(例えばシフトJIS)を、中国語の対応する文字コード(例えばBig5)に変換し、変換された文字コードで表現された文字で構成要素を表記する。
発音表記部442は、中国語の対応する漢字の文字コードがない文字列「ゼロックス」について、図11に示すように、これらの発音を表記する文字に変換する。
接続記号挿入結合部460は、変換後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図11に示す特徴文字列を生成する。
2・・・画像処理装置,
3・・・処理プログラム,
302・・・原稿読取情報受付部,
304・・・配置解析部,
306・・・文字認識部,
308・・・形態素解析部,
310・・・文字列抽出部,
312・・・抽出文字列管理部,
320・・・読者言語登録部,
322・・・原稿言語登録部,
324・・・言語組合せ判定部,
326・・・切替部,
40・・・特徴文字列生成部,
42・・・構成要素選択部,
420・・・出現頻度優先選択部,
422・・・読者言語優先選択部,
424・・・複合文字列優先選択部,
426・・・位置/規模優先選択部,
428・・・配置要素優先選択部,
430・・・手動選択部,
44・・・構成要素変換部,
440・・・翻訳部,
442・・・発音表記部,
444・・・文字コード変換部,
446・・・無変換部,
448・・・手動変換部,
46・・・特徴文字列決定部,
460・・・接続記号挿入結合部,
462・・・先頭文字変換結合部,
464・・・無変換結合部,
466・・・順序変更結合部,
468・・・手動結合部,
3・・・処理プログラム,
302・・・原稿読取情報受付部,
304・・・配置解析部,
306・・・文字認識部,
308・・・形態素解析部,
310・・・文字列抽出部,
312・・・抽出文字列管理部,
320・・・読者言語登録部,
322・・・原稿言語登録部,
324・・・言語組合せ判定部,
326・・・切替部,
40・・・特徴文字列生成部,
42・・・構成要素選択部,
420・・・出現頻度優先選択部,
422・・・読者言語優先選択部,
424・・・複合文字列優先選択部,
426・・・位置/規模優先選択部,
428・・・配置要素優先選択部,
430・・・手動選択部,
44・・・構成要素変換部,
440・・・翻訳部,
442・・・発音表記部,
444・・・文字コード変換部,
446・・・無変換部,
448・・・手動変換部,
46・・・特徴文字列決定部,
460・・・接続記号挿入結合部,
462・・・先頭文字変換結合部,
464・・・無変換結合部,
466・・・順序変更結合部,
468・・・手動結合部,
Claims (12)
- 原稿の読者が認識可能な第1の言語と前記原稿の言語である第2の言語とを登録する登録手段と、
前記原稿を読み取って得られた読取情報から1つ以上の文字列を抽出する文字列抽出手段と、
前記文字列抽出手段によって抽出された文字列に基づいて前記原稿に関する特徴文字列を生成する複数の特徴文字列生成手段と、
前記登録された第1の言語と第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記特徴文字列生成手段を切り替える切替手段と
を有する画像処理装置。 - 前記特徴文字列生成手段は、
前記第1の言語と前記第2の言語との組み合わせに基づいて、前記抽出された1つ以上の文字列から、前記原稿の特徴文字列を構成する1つ以上の構成要素を選択するための処理を行う複数の選択手段と、
前記選択手段によって選択された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える
請求項1に記載の画像処理装置。 - 前記特徴文字列生成手段は、
前記第1の言語と前記第2の言語との組み合わせに基づいて、前記文字列抽出手段によって抽出された文字列の1つ以上を変換する複数の変換手段と、
前記変換手段によって変換された文字列を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、前記複数の変換手段を切り替え、特徴文字列の生成に使用される前記複数の特徴文字列決定手段を切り替える
請求項1に記載の画像処理装置。 - 前記特徴文字列生成手段は、
前記第1の言語と前記第2の言語との組み合わせに基づいて、前記抽出された1つ以上の文字列から、前記原稿の特徴文字列を構成する1つ以上の構成要素を選択するための処理を行う複数の選択手段と、
前記第1の言語と前記第2の言語との組み合わせに基づいて、前記選択手段によって選択された構成要素の1つ以上を変換する複数の変換手段と、
前記変換手段によって変換された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第1の言語と前記第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記変換手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える
請求項1に記載の画像処理装置。 - 前記複数の選択手段の1つは、前記抽出された1つ以上の文字列の前記原稿における出現頻度に基づいて構成要素を選択するための処理を行う
請求項2または4に記載の画像処理装置。 - 前記複数の選択手段の1つは、前記抽出された1つ以上の文字列のうち所定の位置または規模である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする
請求項2または4に記載の画像処理装置。 - 前記複数の選択手段の1つは、原稿内に配置され原稿を構成する配置要素であって文字列以外のものに対応する文字列を、構成要素として選択するための処理を行う
請求項2または4に記載の画像処理装置。 - 前記複数の選択手段の1つは、前記抽出された1つ以上の文字列のうち前記第1の言語である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする
請求項2または4に記載の画像処理装置。 - 前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上を、前記第1の言語に翻訳する
請求項3または4に記載の画像処理装置。 - 前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上を、これらの文字列の発音を表記する文字列に変換する
請求項3または4に記載の画像処理装置。 - 前記複数の変換手段の1つは、前記抽出された文字列のうちの1つ以上の文字コードを、対応する別の文字コードの文字列に変換する
請求項3または4に記載の画像処理装置。 - 原稿の読者が認識可能な第1の言語と前記原稿の言語である第2の言語とを登録する登録ステップと、
前記原稿を読み取って得られた読取情報から1つ以上の文字列を抽出する文字列抽出ステップと、
前記登録された第1の言語と第2の言語との組み合わせに基づいて、特徴文字列の生成に使用される特徴文字列生成手段を切り替える切替ステップと、
前記文字列抽出ステップにおいて抽出された文字列に基づいて、前記切り替えられた特徴文字列生成手段を用いて、前記原稿に関する特徴文字列を生成する複数の特徴文字列生成ステップと
をコンピュータに実行させる画像処理プログラム。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011053976A JP2012190314A (ja) | 2011-03-11 | 2011-03-11 | 画像処理装置およびプログラム |
| US13/287,524 US20120230590A1 (en) | 2011-03-11 | 2011-11-02 | Image processing apparatus, non-transitory computer-readable medium, and image processing method |
| AU2011265574A AU2011265574B2 (en) | 2011-03-11 | 2011-12-23 | Image processing apparatus, image processing program, and image processing method |
| KR1020120002271A KR101598789B1 (ko) | 2011-03-11 | 2012-01-09 | 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 |
| CN201210028590.XA CN102685347B (zh) | 2011-03-11 | 2012-02-09 | 图像处理装置和图像处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011053976A JP2012190314A (ja) | 2011-03-11 | 2011-03-11 | 画像処理装置およびプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2012190314A true JP2012190314A (ja) | 2012-10-04 |
Family
ID=46795648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011053976A Withdrawn JP2012190314A (ja) | 2011-03-11 | 2011-03-11 | 画像処理装置およびプログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20120230590A1 (ja) |
| JP (1) | JP2012190314A (ja) |
| KR (1) | KR101598789B1 (ja) |
| CN (1) | CN102685347B (ja) |
| AU (1) | AU2011265574B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6121126B2 (ja) * | 2012-09-28 | 2017-04-26 | 株式会社Pfu | 帳票出力装置、帳票出力方法、および、プログラム |
| US10290036B1 (en) * | 2013-12-04 | 2019-05-14 | Amazon Technologies, Inc. | Smart categorization of artwork |
| CN105808246A (zh) * | 2016-03-01 | 2016-07-27 | 宇龙计算机通信科技(深圳)有限公司 | 桌面图标文件夹的名称切换方法、装置及电子设备 |
| US11277443B2 (en) * | 2019-10-22 | 2022-03-15 | International Business Machines Corporation | Detection of phishing internet link |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01279368A (ja) * | 1988-04-30 | 1989-11-09 | Sharp Corp | キャラクタデータの転送方式 |
| JPH0268662A (ja) * | 1988-09-02 | 1990-03-08 | Sharp Corp | 機械翻訳装置 |
| CA2242065C (en) * | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
| JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
| EP1916609A1 (en) * | 2006-10-26 | 2008-04-30 | Hierodiction Software GmbH | Text analysis, transliteration and translation method and apparatus for hieroglyphic, hieratic, and demotic texts from Ancient Egyptian |
| CN101350870A (zh) * | 2007-07-18 | 2009-01-21 | 英华达(上海)电子有限公司 | 一种图文转换的方法、移动终端和ocr服务器 |
| JP2010103694A (ja) | 2008-10-22 | 2010-05-06 | Seiko Precision Inc | 翻訳機能付きカメラ、及びテキストの表示方法 |
| KR20110021439A (ko) * | 2009-08-26 | 2011-03-04 | 삼성전자주식회사 | 음성 스트림 변환 장치 및 방법 |
-
2011
- 2011-03-11 JP JP2011053976A patent/JP2012190314A/ja not_active Withdrawn
- 2011-11-02 US US13/287,524 patent/US20120230590A1/en not_active Abandoned
- 2011-12-23 AU AU2011265574A patent/AU2011265574B2/en active Active
-
2012
- 2012-01-09 KR KR1020120002271A patent/KR101598789B1/ko active Active
- 2012-02-09 CN CN201210028590.XA patent/CN102685347B/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CN102685347B (zh) | 2016-05-25 |
| AU2011265574A1 (en) | 2012-09-27 |
| US20120230590A1 (en) | 2012-09-13 |
| KR20120103436A (ko) | 2012-09-19 |
| KR101598789B1 (ko) | 2016-03-02 |
| CN102685347A (zh) | 2012-09-19 |
| AU2011265574B2 (en) | 2013-04-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2987099B2 (ja) | 文書作成支援システム及び用語辞書 | |
| RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
| US8732570B2 (en) | Non-symbolic data system for the automated completion of forms | |
| JP6459231B2 (ja) | テンプレート管理装置及びプログラム | |
| US8773704B2 (en) | Image processing apparatus that generates hyperlink structure data | |
| US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
| JP2010218098A (ja) | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 | |
| US20060217958A1 (en) | Electronic device and recording medium | |
| US20060217959A1 (en) | Translation processing method, document processing device and storage medium storing program | |
| KR101598789B1 (ko) | 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 | |
| JP2012212293A (ja) | 文書認識装置、文書認識方法、プログラム及び記憶媒体 | |
| JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
| JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
| JP5895828B2 (ja) | 情報処理装置及びプログラム | |
| JP2013152564A (ja) | 文書処理装置及び文書処理方法 | |
| JP5721052B2 (ja) | 画像処理装置およびプログラム | |
| JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム | |
| US11206335B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
| US20210182477A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
| JP2006276905A (ja) | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム | |
| US20250103791A1 (en) | Structuring device, structuring method, and structuring program | |
| JP2002245470A (ja) | 言語特定装置及び翻訳装置及び言語特定方法 | |
| JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
| JP2017068307A (ja) | 情報検索装置及びその制御方法、情報検索用プログラム | |
| JP2001357342A (ja) | 情報処理方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |