JP2006268372A - 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム - Google Patents
翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム Download PDFInfo
- Publication number
- JP2006268372A JP2006268372A JP2005084840A JP2005084840A JP2006268372A JP 2006268372 A JP2006268372 A JP 2006268372A JP 2005084840 A JP2005084840 A JP 2005084840A JP 2005084840 A JP2005084840 A JP 2005084840A JP 2006268372 A JP2006268372 A JP 2006268372A
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- character string
- translation
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/114—Pagination
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【課題】 翻訳後、原文中の文字列とその文字列の内容に対応する領域とをそれぞれ近い場所に配置した画像を用紙に印刷する。これにより、原文と同じ読み易さの翻訳文を使用者に提供する。
【解決手段】 翻訳後、文中の図1の文字列と図1とが別頁に配置されるような場合(文字列「図1」と図1とが別紙になる)であっても、図1の文字列を含む文字領域を段落で分割し、この段落間に図1を配置する。これにより、図7(b)に示すように、文字列を含む文字領域と図面とを同頁に配置する。
【選択図】 図7
【解決手段】 翻訳後、文中の図1の文字列と図1とが別頁に配置されるような場合(文字列「図1」と図1とが別紙になる)であっても、図1の文字列を含む文字領域を段落で分割し、この段落間に図1を配置する。これにより、図7(b)に示すように、文字列を含む文字領域と図面とを同頁に配置する。
【選択図】 図7
Description
本発明は、文字または文書の言語を他の言語に変換する翻訳に関する。
グローバルコミュニケーション時代の到来とともに、コンピュータを用いて、辞書データや所定のアルゴリズムを用いて文書構造を解析する等して文字を他の文字に置換することにより、ある言語の文章を他の言語の文章に翻訳するという、いわゆる機械翻訳が盛んに行われるようになってきている。なお、文書が電子化されたものではない(文書データがない)場合は、翻訳処理を行う前に、印刷された原稿をスキャナ装置で読み取って文字認識処理を行って文字情報を抽出するOCR処理が行われることになる。
また、翻訳前と後では、1文の長さが異なるため、原稿に図面、表、写頁等のイメージも含んだ場合には、イメージの位置がずれることがあった。そこで、原稿のイメージの位置と翻訳後のイメージの位置を固定する技術が知られている(特許文献1、参照)。
特開平5−108716号公報
上記技術では、原稿(以下、「原文」という)を文書枠とイメージ枠とに分け、翻訳した結果を文書枠内に充てがう。この際、原文のイメージ枠を最優先にして、翻訳後の文書を文書枠に充てがうため、文書枠を拡張したり、文字のフォントサイズを変更している。このため、作成された翻訳後の文書は、各文書枠間の間隔が狭くなったり、文書枠毎にフォントサイズが異なったりして、読みにくいものになる、といった問題があった。
一方、フォントサイズやレイアウトの各領域の大きさを考慮せずに翻訳結果を文書枠内に充てがうと、文書中の図表番号や対応する図表番号が別の頁に配置されるなどして、さらに読みにくい翻訳結果となる。
本発明は、上記事情に鑑みてなされたもので、翻訳後の文書を、原文中の文字列とその対応する領域と近い場所に配置することにより、原文と同じ読み易さを提供することのできる翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラムを提供することを目的としている。
上記目的を達成するために、本発明は、文字を含む画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とに分けて抽出する領域抽出手段と、前記画像解析手段で文字領域と判定された領域内の文字を認識する文字認識手段と、前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成する対応表作成手段と、前記文字の認識結果を翻訳する翻訳手段と、前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付ける貼付手段と、を備えたことを特徴とする。
上記構成において、前記他の領域は図表領域であり、前記文字列は図表番号であり、前記対応表は、図表領域に対する図表番号と文字領域中の図表番号とを関連付けることを特徴とする。
上記構成において、前記他の領域は脚注領域であり、前記文字列は脚注番号であり、前記対応表は、脚注領域に対する脚注番号と文字領域中の脚注番号とを関連付けることを特徴とする。
上記構成において、前記他の領域は頭注領域であり、前記文字列は頭注番号であり、前記対応表は、頭注領域に対する頭注番号と文字領域中の頭注番号とを関連付けることを特徴とする。
上記構成において、前記貼付手段は、前記文字列を含む文字領域が段落で分かれ、文字列が含まれる段落の直後に他の領域を配置できるスペースが頁内に存在する場合には、文字領域を分割して文字列が含まれる段落の直後に他の領域を配置することを特徴とする。
上記構成において、前記貼付手段は、前記文字列を含む文字領域が段落で分かれ、文字列が含まれる段落が頁の最後に配置される場合には、文字領域を分割して文字列が含まれる段落と他の領域を次頁の先頭に配置することを特徴とする。
上記構成において、前記貼付手段は、前記文字列を含む文字領域が複数存在する場合には、最初に出現する文字列の存在する文字領域の直後に他の領域を配置することを特徴とする。
本発明が採用する画像処理装置は、印刷された画像を読み取り、画像データとして出力する画像読取手段と、上記のいずれかに記載の翻訳装置と、を備えたことを特徴とする。
本発明が採用する画像形成装置は、画像を記録材上に形成する画像形成手段と、上記のいずれかに記載の翻訳装置と、を備えたことを特徴とする。
本発明が採用する翻訳方法は、画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とを抽出するステップと、前記画像解析手段で文字領域と判定された領域内の文字を認識するステップと、前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成するステップと、前記文字の認識結果を翻訳するステップと、前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付けるステップと、を備えたことを特徴とする。
本発明が採用するプログラムは、画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とを抽出する機能と、前記画像解析手段で文字領域と判定された領域内の文字を認識する機能と、前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成する機能と、前記文字の認識結果を翻訳する機能と、前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付ける機能と、を備えたことを特徴とする。
以下、本発明の実施形態について、図面を参照して説明する。
図1は、本発明の実施形態に係る翻訳機能を備えた画像形成装置100を示す図である。図に示すように、画像形成装置100は、翻訳処理部1と、操作部102と、ネットワークI/F部103と、記憶部104と、印字部105と、画像読取部106とを備えている。
印字部105は、感光体、露光部、現像部、転写部及び定着部(いずれも図示せず)等を備え、翻訳処理部1より供給された画像データに基づいたトナー像を形成し、記録材である用紙上に定着させる。操作部102は、液晶ディスプレイ(図示せず)からなる表示手段や各種のボタン等を備え、ユーザからの指示が入力される。ユーザは、操作部102を用いて使用する用紙を選択したり、印刷の設定指示を行う。
図1は、本発明の実施形態に係る翻訳機能を備えた画像形成装置100を示す図である。図に示すように、画像形成装置100は、翻訳処理部1と、操作部102と、ネットワークI/F部103と、記憶部104と、印字部105と、画像読取部106とを備えている。
印字部105は、感光体、露光部、現像部、転写部及び定着部(いずれも図示せず)等を備え、翻訳処理部1より供給された画像データに基づいたトナー像を形成し、記録材である用紙上に定着させる。操作部102は、液晶ディスプレイ(図示せず)からなる表示手段や各種のボタン等を備え、ユーザからの指示が入力される。ユーザは、操作部102を用いて使用する用紙を選択したり、印刷の設定指示を行う。
画像読取部106は、読取面に載置された原稿の画像をスキャンし、画像データを得る。記憶部104は、画像読取部106によって読み取られた画像データ等を記憶する。前記翻訳処理部1、操作部102、記憶部104、印字部105及び画像読取部106等の間は、ネットワークI/F部103によってデータ通信可能になる。
翻訳処理部1は、図2に示すように、CPU(Central Processing Unit)11、RAM(Random Access Memory)12及びROM(Read Only Memory)13を備えており、画像形成装置100の各部を制御するほか、入力された画像データに対して各種の画像処理及び翻訳処理を行うための各種の演算を実行する。このとき、画像データはRAM12に一時記憶される。また、ROM13には、画像データ処理及び翻訳処理に必要な各種の画像処理プログラム及び翻訳処理プログラムが格納されている。また、RAM12には、後述する対応表が記憶されている。
この対応表は、図6に示すように、文字領域と図表領域とを対応付ける場合には、文字領域中の図表番号を基準にして、この図表番号に対応するキャプション領域、対応する図表領域、対応する文字領域、図表番号の訳語が関連付ける。
ここで、キャプションとは、図・表の下側或いは上側に付けられる説明文のことである。
ここで、キャプションとは、図・表の下側或いは上側に付けられる説明文のことである。
次に、翻訳処理部1の機能について、図3の機能ブロック図を参照しつつ説明する。
翻訳処理部1は、文書解析部2、文字認識部3、翻訳部4、対応関係検索部5、対応表記憶部6および翻訳結果貼付部7を具備している。
翻訳処理部1は、文書解析部2、文字認識部3、翻訳部4、対応関係検索部5、対応表記憶部6および翻訳結果貼付部7を具備している。
文書解析部2は、画像読取部106で読み取られた画像データを解析し、文字領域、図表領域等の構成要素に分割する。本実施形態では、他の領域を図表領域として抽出する。
より具体的には、図4に示すように、画像Gをこの文書解析部2で処理すると、タイトル部分→文字領域T1、右側の文字領域→文字領域T2、右上の文字領域→文字領域T3、右下の図面→図表領域F1、図面下のキャプション部分→文字領域T4、左下の棒線部分→図表領域F2、棒線部下のキャプション部分→文字領域T5といった具合に領域を分ける。
より具体的には、図4に示すように、画像Gをこの文書解析部2で処理すると、タイトル部分→文字領域T1、右側の文字領域→文字領域T2、右上の文字領域→文字領域T3、右下の図面→図表領域F1、図面下のキャプション部分→文字領域T4、左下の棒線部分→図表領域F2、棒線部下のキャプション部分→文字領域T5といった具合に領域を分ける。
文字認識部3は、文書解析部2で文字領域と判定された領域に対して、文字の認識を行う。即ち、OCR(Optical Character Reader)処理を施し、この文字領域における文字を画像データとして読み取り、文字認識を行う。この場合、文字領域T1〜T5について文字認識を行うことになる。
翻訳部4は、文字認識部3で読み取った文字データの言語の種類を、ROM13内の言語情報と比較し、その言語を特定した上で、文字データに対して翻訳処理を施し、例えば日本語から英語に翻訳した翻訳データを作成する。
対応関係検索部5では、翻訳前の文字データから図番号の検索を文字領域T1〜T5毎に行い、図番号に関係する文字列を検索によって抽出し、文字列、キャプション領域、対応する文字領域を対応記憶部6の対応表に書き込む(例えば、図6(a)参照)。
この処理では、各領域の配置が分かっているため、図4に示すように、始めにこの頁に存在する図表領域F1およびF2を抽出し、この図表領域F1のキャプション部分に当たるであろう文字領域を確定し、この文字領域T4の文字データから図番号の検索を行う。同様に、図表領域F2のキャプション部分に当たるであろう文字領域を確定し、この文字領域T5の文字データから図番号の検索を行う。この抽出結果から図表番号に関係する文字列、キャプション部分に当たる文字領域を抽出する。さらに、この文字列を検索対象として他の文字領域T1〜T3の全文検索を順に行い、初めて登場するこの文字列(文頭にもっとも近い)を含む文字領域を対応する文字領域とする。
この処理では、各領域の配置が分かっているため、図4に示すように、始めにこの頁に存在する図表領域F1およびF2を抽出し、この図表領域F1のキャプション部分に当たるであろう文字領域を確定し、この文字領域T4の文字データから図番号の検索を行う。同様に、図表領域F2のキャプション部分に当たるであろう文字領域を確定し、この文字領域T5の文字データから図番号の検索を行う。この抽出結果から図表番号に関係する文字列、キャプション部分に当たる文字領域を抽出する。さらに、この文字列を検索対象として他の文字領域T1〜T3の全文検索を順に行い、初めて登場するこの文字列(文頭にもっとも近い)を含む文字領域を対応する文字領域とする。
そして、対応関係検索部5は、確定された抽出された文字列,キャプション部分に当たる文字領域,図面の対応領域および文字列を含む文字領域を、対応表記憶部6の対応表に書き込む。さらに、対応関係検索部5は、文字列に対応した訳語を翻訳データから読み出し、訳語を対応表に書き込む。
また、キャプション部分に当たる文字領域は、図表領域に隣接し、かつ比較的短いの文字領域であること基準に判定すればよい。さらに、図表領域の大きさや位置から図表か否かを判定することにより、本文と脚注を区切る棒線部分を図表領域と認識し、脚注に当たる文字領域をキャプションとして認識してしまう不具合を防止する。
翻訳結果貼付部7は、後述する貼付処理によって翻訳後の翻訳文と図表とを、所定の処理によって頁に貼り付ける。その後、所定の処理の施されたデータが画像データとしてRAM12に一時的に記憶される。ここでは、便宜上、説明を分かり易くするため、頁に翻訳文および図表を貼り付ける物理的な動作として記載する。
次に、具体例を示して、貼付処理について説明する。
この例では、図7或いは図8に示す画像Gを、日本語から英語に翻訳する場合を示す。画像Gの画像データを、文書解析部2で処理することにより、右側に文字領域T1−1、右上に文字領域T1−2、右下の図表領域F1、図表領域F1の下にキャプション部分に当たる文字領域T2が配置されることが認識される。さらに、対応関係検索部5が、前述した処理を行って図6に示す対応表を作成する。対応表には、前述した翻訳処理部1は、文書解析部2、文字認識部3、翻訳部4、対応関係検索部5までの処理により、対応表記憶部6の対応表には、文字列→図1、キャプション部分に当たる文字領域→T2、図面の対応領域→F1、文字列を含む文字領域→T1(T1−1+T1−2)、文字列に対応した訳語→Fig1が書き込まれている。
この例では、図7或いは図8に示す画像Gを、日本語から英語に翻訳する場合を示す。画像Gの画像データを、文書解析部2で処理することにより、右側に文字領域T1−1、右上に文字領域T1−2、右下の図表領域F1、図表領域F1の下にキャプション部分に当たる文字領域T2が配置されることが認識される。さらに、対応関係検索部5が、前述した処理を行って図6に示す対応表を作成する。対応表には、前述した翻訳処理部1は、文書解析部2、文字認識部3、翻訳部4、対応関係検索部5までの処理により、対応表記憶部6の対応表には、文字列→図1、キャプション部分に当たる文字領域→T2、図面の対応領域→F1、文字列を含む文字領域→T1(T1−1+T1−2)、文字列に対応した訳語→Fig1が書き込まれている。
ここで、図5に示す貼付処理の流れ図を参照しつつ、その処理について説明する。
まず、CPU11は、対応表から対応関係を1つ取り出す(ステップS1)。この場合、文字列「図1」に対応する各領域等が取り出される。
まず、CPU11は、対応表から対応関係を1つ取り出す(ステップS1)。この場合、文字列「図1」に対応する各領域等が取り出される。
次に、CPU11は、取り出した文字列「図1」に対応する各領域が1頁内に存在しているか否かを判定する(ステップS2)。具体的には、日本語から英語に翻訳すると、1つの単語の長さが長くなるため、1文、1段落が長くなり、当然貼付に必要となる文字領域が広がる。このため、図7(a)に示すように、原文が1頁だったものが、2頁に亘ってしまい、訳語「Fig1」と図表領域F1とが別頁になってしまう(ステップS2;NO)。
そこで、CPU11は、対応する文字領域T1を段落で分割し(ステップS3)、図7(b)に示すように、分割した文字領域の間に図表領域F1を配置する(ステップS4)。
さらに、CPU11は、再び文字列「図1」に対応する各領域が1頁内に存在しているか否かを判定する(ステップS5)。図7(b)に示すように、訳語「Fig1」と図表領域F1とが同じ頁に配置された場合(ステップS5;YES)には、ステップS7に移行して、対応表を参照して他の対応関係があるか否かを判定し、まだ処理していない対応関係がある場合(ステップS7;YES)には、ステップS1以降の処理を繰り返し、全ての対応関係が処理された場合(ステップS7;NO)には、この貼付処理を終了する。
一方、CPU11は、訳語「Fig1」と図表領域F1とが同じ頁に配置されていない場合(ステップS5;NO)には、図8(b)に示すように、次頁の先頭に図表領域F1と文字領域T2を配置する(ステップS6)。
CPU11は、対応表を参照して残りの対応関係の処理を行い、各対応関係で配置が終了した場合(ステップS7;NO)には、処理された各頁のデータを画像データとしてRAM12に記憶してこの処理を終了する。
さらに、翻訳処理部1は画像形成装置100の一部として構成されているため、使用者による操作部2の操作によって印刷が指令されると、翻訳処理部1にて処理された翻訳後の画像データが印字部6へ出力され、印字部6は、その画像データの画像を用紙に印刷する。
このように、本実施形態による画像形成装置100は、図7(b)或いは図8(b)に示すように、翻訳後の文書を、原文中の文字列とその文字列に対応する領域とを互いに近い場所に配置した画像を用紙に印刷することができる。これにより、使用者は、原文と同じ読み易さの翻訳文を取得することができる。
なお、上記実施形態では、原文の文字領域に対して翻訳後の文字領域が長くなる場合を例にとって説明したが、逆に、原文の領域に対して翻訳後の文字領域が短くなる場合も、翻訳処理部1を施すことにより、同様の効果を奏することができる。
また、前記実施形態では、他の領域を図表領域として記載したが、本発明はこれに限らず、脚注や頭注であっても、写真であっても適用することができる。この場合、抽出される文字列は「注」、「写真」等となる。
さらに、原文及び翻訳文の言語の種類としては、上記実施形態に限定されないのは勿論であり、日本語、英語の他、例えば、ドイツ語、フランス語、ロシア語、スペイン語、中国語あるいは韓国語などにも適用可能である。
なお、前記実施形態における貼付処理では、ステップS3〜S5の処理を1回行うものとして述べたが、文字領域T1内の段落が複数ある場合には、この処理を繰り返して行い、その結果、訳語「Fig1」と図表領域F1とが同頁に配置されない際に、ステップS6の処理を行ってもよい。さらに、ステップS3の処理で、文字領域T1内の段落が複数ある場合には、文字列「図1」が初めて出願する段落の次に図表領域F1がくるように処理してもよい。
また、上述の実施形態においては、本発明は、画像形成装置100の形態で実施されるものとして説明したが、このような形態に限定されるものではない。例えば、本発明は上述の画像形成装置100における翻訳処理部1の部分のみの機能を有する翻訳装置あるいは画像処理装置として提供されることも可能である。この場合、翻訳装置あるいは画像処理装置は、上述の翻訳処理部1の機能を備えたASIC(Application Specific Integrated Circuit)であっても良い。また、本発明は、上述の翻訳処理する翻訳処理プログラムPRGを、磁気ディスク、フロッピー(登録商標)ディスク、CD(Compact Disk)、DVD(Digital Versatile Disk)、RAM等の種々の記録媒体に記録した状態で提供することも可能である。
1…翻訳処理部、2…文書解析部、3…文字認識部、4…翻訳部、5…対応関係検索部、6…対応表記憶部、7…翻訳結果貼付部、100…画像形成装置、105…印字部(画像形成手段)、106…画像読取部(画像読取手段)、G…画像。
Claims (11)
- 文字を含む画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とに分けて抽出する領域抽出手段と、
前記画像解析手段で文字領域と判定された領域内の文字を認識する文字認識手段と、
前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成する対応表作成手段と、
前記文字の認識結果を翻訳する翻訳手段と、
前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付ける貼付手段と、を備えた
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記他の領域は図表領域であり、前記文字列は図表番号であり、
前記対応表は、図表領域に対する図表番号と文字領域中の図表番号とを関連付ける
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記他の領域は脚注領域であり、前記文字列は脚注番号であり、
前記対応表は、脚注領域に対する脚注番号と文字領域中の脚注番号とを関連付ける
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記他の領域は頭注領域であり、前記文字列は頭注番号であり、
前記対応表は、頭注領域に対する頭注番号と文字領域中の頭注番号とを関連付ける
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記貼付手段は、前記文字列を含む文字領域が段落で分かれ、文字列が含まれる段落の直後に他の領域を配置できるスペースが頁内に存在する場合には、文字領域を分割して文字列が含まれる段落の直後に他の領域を配置する
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記貼付手段は、前記文字列を含む文字領域が段落で分かれ、文字列が含まれる段落が頁の最後に配置される場合には、文字領域を分割して文字列が含まれる段落と他の領域を次頁の先頭に配置する
ことを特徴とする翻訳装置。 - 請求項1記載の翻訳装置において、
前記貼付手段は、前記文字列を含む文字領域が複数存在する場合には、最初に出現する文字列の存在する文字領域の直後に他の領域を配置する
ことを特徴とする翻訳装置。 - 印刷された画像を読み取り、画像データとして出力する画像読取手段と、請求項1から7のいずれかに記載の翻訳装置と、を備えた
ことを特徴とする画像処理装置。 - 画像を記録材上に形成する画像形成手段と、請求項1から7のいずれかに記載の翻訳装置と、を備えた
ことを特徴とする画像形成装置。 - 画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とを抽出するステップと、
前記画像解析手段で文字領域と判定された領域内の文字を認識するステップと、
前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成するステップと、
前記文字の認識結果を翻訳するステップと、
前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付けるステップと、を備えた
ことを特徴とする翻訳方法。 - 画像データを解析して、文字領域と、この文字領域と構成要素が異なる他の領域とを抽出する機能と、
前記画像解析手段で文字領域と判定された領域内の文字を認識する機能と、
前記文字認識手段による文字認識の結果から前記他の領域に関係する文字列を抽出し、この文字列に対し、この文字列が抽出された文字領域および前記他の領域を対応付けた対応表を作成する機能と、
前記文字の認識結果を翻訳する機能と、
前記対応表に基づき、前記文字列を含む翻訳結果とこの文字列に対応する他の領域とを同じ頁に貼り付ける機能と、を備えた
ことを特徴とするプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005084840A JP2006268372A (ja) | 2005-03-23 | 2005-03-23 | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
| US11/220,518 US7623716B2 (en) | 2005-03-23 | 2005-09-08 | Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005084840A JP2006268372A (ja) | 2005-03-23 | 2005-03-23 | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006268372A true JP2006268372A (ja) | 2006-10-05 |
Family
ID=37035230
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005084840A Pending JP2006268372A (ja) | 2005-03-23 | 2005-03-23 | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US7623716B2 (ja) |
| JP (1) | JP2006268372A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108549643A (zh) * | 2018-04-08 | 2018-09-18 | 北京百度网讯科技有限公司 | 翻译处理方法和装置 |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005073015A (ja) * | 2003-08-26 | 2005-03-17 | Canon Inc | 画像処理装置及び画像処理方法及びコンピュータプログラム |
| JP4941331B2 (ja) * | 2008-01-28 | 2012-05-30 | セイコーエプソン株式会社 | 印刷方法、印刷装置、対応テーブル生成方法、およびプログラム |
| JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
| JP4544324B2 (ja) * | 2008-03-25 | 2010-09-15 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
| JP2009294788A (ja) * | 2008-06-03 | 2009-12-17 | Ricoh Co Ltd | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 |
| JP2010218098A (ja) * | 2009-03-16 | 2010-09-30 | Ricoh Co Ltd | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 |
| US20150079553A1 (en) * | 2013-09-16 | 2015-03-19 | Jeffrey L. Arnold | Language Teaching |
| JP6747338B2 (ja) * | 2017-02-27 | 2020-08-26 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3750112A (en) * | 1970-08-11 | 1973-07-31 | R Manly | Method and apparatus of editing using colored editing marks |
| JPS6121570A (ja) | 1984-07-10 | 1986-01-30 | Yokogawa Hokushin Electric Corp | 文章作成装置 |
| JP3352709B2 (ja) | 1991-10-07 | 2002-12-03 | 株式会社東芝 | 文書整形装置および文書整形装置の処理方法 |
| JPH05108716A (ja) | 1991-10-21 | 1993-04-30 | Oki Electric Ind Co Ltd | 機械翻訳装置 |
| US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
| JPH0683825A (ja) | 1992-09-04 | 1994-03-25 | Hitachi Ltd | 自動文書レイアウト |
| US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
| US5574802A (en) * | 1994-09-30 | 1996-11-12 | Xerox Corporation | Method and apparatus for document element classification by analysis of major white region geometry |
| JPH08161517A (ja) | 1994-12-06 | 1996-06-21 | Canon Inc | 文書処理装置 |
| EP1818857B1 (en) * | 1995-07-31 | 2010-06-23 | Fujitsu Limited | Document processor and document processing method |
| US5737442A (en) * | 1995-10-20 | 1998-04-07 | Bcl Computers | Processor based method for extracting tables from printed documents |
| US5784487A (en) * | 1996-05-23 | 1998-07-21 | Xerox Corporation | System for document layout analysis |
| US5915039A (en) * | 1996-11-12 | 1999-06-22 | International Business Machines Corporation | Method and means for extracting fixed-pitch characters on noisy images with complex background prior to character recognition |
| US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
| JPH11120185A (ja) * | 1997-10-09 | 1999-04-30 | Canon Inc | 情報処理装置及びその方法 |
| US6470095B2 (en) * | 1998-10-13 | 2002-10-22 | Xerox Corporation | Automatic extraction of text regions and region borders for an electronic work surface |
| US6826727B1 (en) * | 1999-11-24 | 2004-11-30 | Bitstream Inc. | Apparatus, methods, programming for automatically laying out documents |
| US7336378B2 (en) * | 2000-08-07 | 2008-02-26 | Minolta Co., Ltd. | Image processing with recognized character codes |
| JP3962891B2 (ja) * | 2000-08-09 | 2007-08-22 | 富士ゼロックス株式会社 | 文書画像処理装置、文書画像処理方法、及び記憶媒体 |
| US7272258B2 (en) * | 2003-01-29 | 2007-09-18 | Ricoh Co., Ltd. | Reformatting documents using document analysis information |
| US7496230B2 (en) * | 2003-06-05 | 2009-02-24 | International Business Machines Corporation | System and method for automatic natural language translation of embedded text regions in images during information transfer |
| US7659915B2 (en) * | 2004-04-02 | 2010-02-09 | K-Nfb Reading Technology, Inc. | Portable reading device with mode processing |
| US7325735B2 (en) * | 2004-04-02 | 2008-02-05 | K-Nfb Reading Technology, Inc. | Directed reading mode for portable reading machine |
| JP2006252048A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Xerox Co Ltd | 翻訳装置、翻訳プログラムおよび翻訳方法 |
-
2005
- 2005-03-23 JP JP2005084840A patent/JP2006268372A/ja active Pending
- 2005-09-08 US US11/220,518 patent/US7623716B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108549643A (zh) * | 2018-04-08 | 2018-09-18 | 北京百度网讯科技有限公司 | 翻译处理方法和装置 |
| CN108549643B (zh) * | 2018-04-08 | 2022-08-05 | 北京百度网讯科技有限公司 | 翻译处理方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20060215909A1 (en) | 2006-09-28 |
| US7623716B2 (en) | 2009-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7783472B2 (en) | Document translation method and document translation device | |
| CN102053950B (zh) | 文档图像生成装置和文档图像生成方法 | |
| JP5661663B2 (ja) | 情報抽出装置 | |
| US8861856B2 (en) | Model-based methods of document logical structure recognition in OCR systems | |
| JP7337612B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
| US20060217956A1 (en) | Translation processing method, document translation device, and programs | |
| CN100454293C (zh) | 文档编辑方法和文档编辑设备 | |
| CN100562869C (zh) | 翻译处理方法和文档处理装置 | |
| JP2011141749A (ja) | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム | |
| JP2006268372A (ja) | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム | |
| JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
| JP3636490B2 (ja) | 画像処理装置および画像処理方法 | |
| JP4924990B2 (ja) | 文書処理装置および文書処理プログラム | |
| JPH05108716A (ja) | 機械翻訳装置 | |
| JP2006276905A (ja) | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム | |
| JP4992216B2 (ja) | 翻訳装置及びプログラム | |
| JP3122417B2 (ja) | 情報表示方法及び情報処理装置 | |
| JP2006262152A (ja) | 画像形成方法、画像形成装置およびプログラム | |
| JP2928515B2 (ja) | 訳語出力装置 | |
| JP3952009B2 (ja) | 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム | |
| JPH0554072A (ja) | デジタル翻訳装置 | |
| JP3424942B2 (ja) | 対訳画像形成装置 | |
| JP4111202B2 (ja) | 画像形成装置 | |
| JP2006252164A (ja) | 中国語文書処理装置 | |
| JP2004287992A (ja) | 文書情報処理装置並びにプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080221 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080509 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090331 |