JPH03252759A - 文章の論理構造抽出方法及びその装置並びに文書処理装置 - Google Patents
文章の論理構造抽出方法及びその装置並びに文書処理装置Info
- Publication number
- JPH03252759A JPH03252759A JP2049335A JP4933590A JPH03252759A JP H03252759 A JPH03252759 A JP H03252759A JP 2049335 A JP2049335 A JP 2049335A JP 4933590 A JP4933590 A JP 4933590A JP H03252759 A JPH03252759 A JP H03252759A
- Authority
- JP
- Japan
- Prior art keywords
- document
- logical structure
- character strings
- title
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明はワードプロセッサやパーソナルコンピュータ等
の文書処理装置で作成2編集した文書の論理構造を自動
的に抽出する文書の論理構造抽出方法及びその装置に係
り、特に、文字列の解析だけでは的確に論理構造を抽出
することのできない文書に好適な論理構造抽出方法及び
その装置並びに文書処理装置に関する。
の文書処理装置で作成2編集した文書の論理構造を自動
的に抽出する文書の論理構造抽出方法及びその装置に係
り、特に、文字列の解析だけでは的確に論理構造を抽出
することのできない文書に好適な論理構造抽出方法及び
その装置並びに文書処理装置に関する。
文書処理装置で文書を編集する場合、文書のある箇所を
コピーしたり別の箇所に移し換えたり削除したりするこ
とがある。このような場合、該当文書のコピー箇所や削
除箇所を範囲指定して行なうのは効率は悪い。そこで、
文書の論理構造を抽出し、削除したい文書の節等がある
場合にはその節を指定するだけで該当文書の削除がされ
るような文書の構成支援方式が普及し始めている。
コピーしたり別の箇所に移し換えたり削除したりするこ
とがある。このような場合、該当文書のコピー箇所や削
除箇所を範囲指定して行なうのは効率は悪い。そこで、
文書の論理構造を抽出し、削除したい文書の節等がある
場合にはその節を指定するだけで該当文書の削除がされ
るような文書の構成支援方式が普及し始めている。
文書の論理構造を抽出する場合、従来は、オペレータが
文書・中の章2節題や図表の題名を論理構造を構成する
キーワードとして拾い出すことで行っている。また、自
動的に論理構造を抽出する場合には、文書を構成する文
字列を解析し、章2節題となる文字列を抽出している。
文書・中の章2節題や図表の題名を論理構造を構成する
キーワードとして拾い出すことで行っている。また、自
動的に論理構造を抽出する場合には、文書を構成する文
字列を解析し、章2節題となる文字列を抽出している。
例えば、改行マークのある次の行の文字列であり、且つ
その文字列が句読点で終わっていない場合は、基9節2
題に係る文字列であると判断している。
その文字列が句読点で終わっていない場合は、基9節2
題に係る文字列であると判断している。
尚、従来技術に関連するものとして、特開昭60−82
374号がある。
374号がある。
オペレータが指定する従来方式は、−々オペレータが指
定するので、文書を作成した後にその論理構造を別に入
力するに等しく、操作性が悪いという問題がある。そこ
で、装置側が文字列を解析して自動的に論理構造を抽出
する必要が生じるが、様々な人が作成する文書は一様で
はなく題名等の付は方も個性的であるので、どのような
文書でもその論理構造を的確に抽出することは難しい。
定するので、文書を作成した後にその論理構造を別に入
力するに等しく、操作性が悪いという問題がある。そこ
で、装置側が文字列を解析して自動的に論理構造を抽出
する必要が生じるが、様々な人が作成する文書は一様で
はなく題名等の付は方も個性的であるので、どのような
文書でもその論理構造を的確に抽出することは難しい。
同様に、文書中の図や表の題名を自動抽出することも難
しい。
しい。
第13図を用いて、文字列を解析するだけでは論理構造
を正確に抽出できない例を説明する。同図(a)、(b
)は、章7節の番号が無い場合の抽出例である。(b)
では、“背景”にアンダーラインが引いてあり、″目的
″とは異なっているので、文書作成者の意図は、″背景
″と″目的″とで階層を異ならせていると判断できる。
を正確に抽出できない例を説明する。同図(a)、(b
)は、章7節の番号が無い場合の抽出例である。(b)
では、“背景”にアンダーラインが引いてあり、″目的
″とは異なっているので、文書作成者の意図は、″背景
″と″目的″とで階層を異ならせていると判断できる。
しかし、従来の装置はこれを識別していないので、(a
)図のように″背景″を″目的″と同一階層の題名とし
て抽出してしまい、結果として異なる論理構造を抽出す
ることになる。また、第13図(c)、(d)は、文書
中の図表の題名を抽出する例である。文字列解析のみで
(c)図の題名は抽出できるが、(d)図の様に、″図
B構成図を拡張″と″図C図題の抽出方法゛。
)図のように″背景″を″目的″と同一階層の題名とし
て抽出してしまい、結果として異なる論理構造を抽出す
ることになる。また、第13図(c)、(d)は、文書
中の図表の題名を抽出する例である。文字列解析のみで
(c)図の題名は抽出できるが、(d)図の様に、″図
B構成図を拡張″と″図C図題の抽出方法゛。
の2つの文字列があると、どちらを題名として決定して
いいか判断できない。従って、″図B構成図の拡張″が
図の一部を構成するにもががねらずこれが題名として抽
出されてしまうことがある。
いいか判断できない。従って、″図B構成図の拡張″が
図の一部を構成するにもががねらずこれが題名として抽
出されてしまうことがある。
また、長い文章を作成する場合、作成者はある程度文章
構成をしてから作成するが、その題名の付は方の規則は
、文書作成初期と後期とでは異なってくるのが普通であ
り、これは文書作成後に統一することになるが、その操
作は面倒であり、また、文字列だけの解析では、規則の
異なる題名が全部論理構造として抽出されるかされ無い
がも分からないという問題がある。
構成をしてから作成するが、その題名の付は方の規則は
、文書作成初期と後期とでは異なってくるのが普通であ
り、これは文書作成後に統一することになるが、その操
作は面倒であり、また、文字列だけの解析では、規則の
異なる題名が全部論理構造として抽出されるかされ無い
がも分からないという問題がある。
本発明の第1の目的は、様々の形式の文書でもその論理
構造を的確に抽出することのできる文書の論理構造抽出
方法及び装置を提供することにある。
構造を的確に抽出することのできる文書の論理構造抽出
方法及び装置を提供することにある。
本発明の第2の目的は、文書中の図2表の題名を的確に
抽出することのできる文書の論理構造抽出方法及び装置
を提供することにある。
抽出することのできる文書の論理構造抽出方法及び装置
を提供することにある。
本発明の第3の目的は、異なる規則性で付けられた題名
を自動的に統一することのできる文書処理装置を提供す
ることにある。
を自動的に統一することのできる文書処理装置を提供す
ることにある。
上記第1の目的は、文書を構成する文字列を解析して該
文書の論理構造を抽出する場合において、文字列の他に
該文字列を構成する文字の文字属性情報や修飾データを
解析して文書の論理構造を抽出することで、達成される
。
文書の論理構造を抽出する場合において、文字列の他に
該文字列を構成する文字の文字属性情報や修飾データを
解析して文書の論理構造を抽出することで、達成される
。
上記第2の目的は、図や表中の文字列を判断するに当た
って、文字属性やレイアウト情報を参考にすることでそ
の図2表の題名を判断することで、達成される。
って、文字属性やレイアウト情報を参考にすることでそ
の図2表の題名を判断することで、達成される。
上記第3の目的は、抽出した章9節題の符号規則を学習
し誤った符号を自動訂正することで、達成される。
し誤った符号を自動訂正することで、達成される。
文書処理装置には単に文書を文字の羅列として作成編集
する機能の他に、文字の大きさやフォントの種類、アン
ダーライン、網掛は等、様々な文字修飾法を可能にする
機能を備えており、文書作成者はこれらの修飾を章1節
題等の題名に施して、文書論理構造の階層分けをするこ
とが多い。これらの修飾を考慮せずに文字列のみの解釈
で論理構造を抽出すると、文書作成者の意図を反映する
ことができず、修飾による論理構造の階層分けを識別す
ることはできない。しかし、本発明のように、文字デー
タに付属する文字属性を検出することで修飾文字の種類
等を判別し、論理構造抽出の一判断基準とすることで、
文書作成者の意図に沿った論理構造の抽出が可能となる
。
する機能の他に、文字の大きさやフォントの種類、アン
ダーライン、網掛は等、様々な文字修飾法を可能にする
機能を備えており、文書作成者はこれらの修飾を章1節
題等の題名に施して、文書論理構造の階層分けをするこ
とが多い。これらの修飾を考慮せずに文字列のみの解釈
で論理構造を抽出すると、文書作成者の意図を反映する
ことができず、修飾による論理構造の階層分けを識別す
ることはできない。しかし、本発明のように、文字デー
タに付属する文字属性を検出することで修飾文字の種類
等を判別し、論理構造抽出の一判断基準とすることで、
文書作成者の意図に沿った論理構造の抽出が可能となる
。
また、学習機能を持たせることで、文書作成者の誤った
符号付けを検出することができ、また、これを自動修正
することも可能となる。
符号付けを検出することができ、また、これを自動修正
することも可能となる。
以下、本発明の一実施例を図面を参照して説明する。
最初に、本実施例で用いる言葉を定義する。
r文字属性Jとは、文字の高さ・幅のサイズ、文字の間
隔、フォントの種類、書体等のことをいうものとする。
隔、フォントの種類、書体等のことをいうものとする。
「書体」とは、例えば、アンダーライン、シャドウ、網
掛け9強調等の修飾を施したものをいう。「レイアウト
情報Jとは、文書内のテキストや図9表の配置に関する
情報のことであり、特に、本実施例では文字列の座標位
置の情報に注目する。
掛け9強調等の修飾を施したものをいう。「レイアウト
情報Jとは、文書内のテキストや図9表の配置に関する
情報のことであり、特に、本実施例では文字列の座標位
置の情報に注目する。
まず、第1図において、本実施例の論理構造抽出機能を
備えた文書処理装置の構成とそれぞれの機能を示す。本
実施例の論理構造抽出機能を備えた文書処理装置は、マ
ウスやキーボード等の入力部1と、CRT等の表示装置
である出力部2と、文書編集処理部3と、文書管理部4
と、論理構造抽出部5と、制御部6で構成する6人力部
1からは、文字をキー人力したり、コマンドを入力した
り、メニューを選択する。出力部2は、文書や図面、論
理構成抽出の結果作成された目次や図表索引等を出力す
る。文書編集処理部3は、文書を作成・編集したり、論
理構造抽出部5で抽出した論理構造単位に文書の構成の
編集を行なう。文書管理部4は、文書情報の管理や格納
を行なう。論理構造抽出文書5は、文書から論理構造を
抽出して、目次あるいは図表索引を作成する。制御部6
は、各構成部1〜5の動作制御を行なう。
備えた文書処理装置の構成とそれぞれの機能を示す。本
実施例の論理構造抽出機能を備えた文書処理装置は、マ
ウスやキーボード等の入力部1と、CRT等の表示装置
である出力部2と、文書編集処理部3と、文書管理部4
と、論理構造抽出部5と、制御部6で構成する6人力部
1からは、文字をキー人力したり、コマンドを入力した
り、メニューを選択する。出力部2は、文書や図面、論
理構成抽出の結果作成された目次や図表索引等を出力す
る。文書編集処理部3は、文書を作成・編集したり、論
理構造抽出部5で抽出した論理構造単位に文書の構成の
編集を行なう。文書管理部4は、文書情報の管理や格納
を行なう。論理構造抽出文書5は、文書から論理構造を
抽出して、目次あるいは図表索引を作成する。制御部6
は、各構成部1〜5の動作制御を行なう。
次に、論理構造抽出部5の構成と、その各構成部分の機
能について説明する。
能について説明する。
論理構造制御部10は、論理構造抽出部5の各構成部分
の動作制御を行なう。文字列抽出部20は、文書からパ
ラグラフ等を単位とする文字列、あるいは図表内に存在
する文字列を読み出して抽出する。特徴解析部30は、
文字列抽出部20で抽出した文字列に対して各文字の特
徴を解析したり、文字列を代表する文字属性、あるいは
、文字列の位置等のレイアウト情報を抽出する。文字列
特徴格納部40は、特徴解析部30で求めた文字列の特
徴解析情報を格納する。符号解析部50は、文字列の符
号部を解析して、符号の型や階層関係を決定する。
の動作制御を行なう。文字列抽出部20は、文書からパ
ラグラフ等を単位とする文字列、あるいは図表内に存在
する文字列を読み出して抽出する。特徴解析部30は、
文字列抽出部20で抽出した文字列に対して各文字の特
徴を解析したり、文字列を代表する文字属性、あるいは
、文字列の位置等のレイアウト情報を抽出する。文字列
特徴格納部40は、特徴解析部30で求めた文字列の特
徴解析情報を格納する。符号解析部50は、文字列の符
号部を解析して、符号の型や階層関係を決定する。
論理構造格納部60は、符号解析部50で得た符号情報
と文字列を格納する。構成規則学習部70は、符号解析
部50で階層を決定したときに、その階層が新しい場合
に当該文字列の符号の規則を学習する。
と文字列を格納する。構成規則学習部70は、符号解析
部50で階層を決定したときに、その階層が新しい場合
に当該文字列の符号の規則を学習する。
構成規則格納部80は、構成規則学習部70で学習した
規則を格納する。
規則を格納する。
第2図に、文字列特徴解析部40と、論理構造格納部6
0に格納する情報を示す。第2図(、)は、文書のテキ
トスから論理構造を抽出したときに作成する文字列特徴
格納テーブルと、論理構造格納テーブルである。
0に格納する情報を示す。第2図(、)は、文書のテキ
トスから論理構造を抽出したときに作成する文字列特徴
格納テーブルと、論理構造格納テーブルである。
文字列特徴格納テーブルは、パラグラフ等を単位とする
文字列のrIDJを格納する領域と、当該文字列を代表
するr文字属性」情報を格納する領域と、当該文字列の
「特徴」情報を格納する領域で構成する。文字列の「特
徴」とは、当該文字列が本文であるか、あるいは章節題
であるかの情報である。
文字列のrIDJを格納する領域と、当該文字列を代表
するr文字属性」情報を格納する領域と、当該文字列の
「特徴」情報を格納する領域で構成する。文字列の「特
徴」とは、当該文字列が本文であるか、あるいは章節題
であるかの情報である。
論理構造格納テーブルは、文字列のrIDJを格納する
領域と、章節題の「階層」情報を格納する領域と、章節
題の「符号の型」を格納する領域と、当該文字列の先頭
および末尾文字の「アドレス」を格納する領域と、当該
文字が所属する「頁番号」を格納する領域で構成する。
領域と、章節題の「階層」情報を格納する領域と、章節
題の「符号の型」を格納する領域と、当該文字列の先頭
および末尾文字の「アドレス」を格納する領域と、当該
文字が所属する「頁番号」を格納する領域で構成する。
「符号の型」の詳細については、論理構造抽出処理のと
ころで説明する。
ころで説明する。
第2図(b)は、文書の図表から図表題を抽出したとき
に作成する文字列特徴格納テーブルと、論理構造格納テ
ーブルである。文字列特徴格納テーブルは、パラグラフ
等を単位とする文字列の「ID」を格納する領域と、当
該文字列を代表する[文字属性」の情報を格納する領域
と、当該文字列の先頭及び末尾文字の「座標位置」を格
納する領域で構成する。論理構造格納テーブルは、文字
列のrIDJを格納する領域、回頭あるいは表題を示す
「情報」を格納する領域と、当該文字列の先頭及び末尾
文字の「アドレス」を格納する領域と、当該文字列が所
属する「頁番号」を格納する領域で構成する。
に作成する文字列特徴格納テーブルと、論理構造格納テ
ーブルである。文字列特徴格納テーブルは、パラグラフ
等を単位とする文字列の「ID」を格納する領域と、当
該文字列を代表する[文字属性」の情報を格納する領域
と、当該文字列の先頭及び末尾文字の「座標位置」を格
納する領域で構成する。論理構造格納テーブルは、文字
列のrIDJを格納する領域、回頭あるいは表題を示す
「情報」を格納する領域と、当該文字列の先頭及び末尾
文字の「アドレス」を格納する領域と、当該文字列が所
属する「頁番号」を格納する領域で構成する。
次に、論理構造を抽出するときの処理の流れを説明する
。まず、第3図を用いて全体の流れを説明する。論理構
造抽出時に、文字列抽出部20は、文書の情報が格納さ
れている文書管理部4から、パラグラフ等を単位とする
文字列、あるいは、図表題の文字列を読み出して抽出す
る(sl)。最後の文字列になる(sl)まで、以下の
処理を繰り返す。
。まず、第3図を用いて全体の流れを説明する。論理構
造抽出時に、文字列抽出部20は、文書の情報が格納さ
れている文書管理部4から、パラグラフ等を単位とする
文字列、あるいは、図表題の文字列を読み出して抽出す
る(sl)。最後の文字列になる(sl)まで、以下の
処理を繰り返す。
抽出された文字列は、特徴解析部30で文字列の特徴解
析を行ないく詳細は後述)、特徴解析情報及び文字列の
IDを文字列格納部40に格納する(s3)。次に、論
理構造制御部10は、文字列特徴格納部40内の、文字
列特徴格納テーブル(第2図(a) 、 (b) )を
参照して、当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する(s4)。符号解析部50は、
章節題2図表題の候補と判断され文字列内の符号部を解
析して、題の符号の型や階層を決定し、論理構造の情報
及び文字列のIDを論理構造格納部60に格納する(s
5、詳細は後述)。章節題の階層が新しい場合(s6)
は、構成規則学習部70で符号部の規則即ち構成規則を
取り出して、構成規則格納部80に格納する(sl)。
析を行ないく詳細は後述)、特徴解析情報及び文字列の
IDを文字列格納部40に格納する(s3)。次に、論
理構造制御部10は、文字列特徴格納部40内の、文字
列特徴格納テーブル(第2図(a) 、 (b) )を
参照して、当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する(s4)。符号解析部50は、
章節題2図表題の候補と判断され文字列内の符号部を解
析して、題の符号の型や階層を決定し、論理構造の情報
及び文字列のIDを論理構造格納部60に格納する(s
5、詳細は後述)。章節題の階層が新しい場合(s6)
は、構成規則学習部70で符号部の規則即ち構成規則を
取り出して、構成規則格納部80に格納する(sl)。
文字列の特徴解析処理(s3)について、第4図を用い
て説明する。文字列の先頭文字から末尾文字までの各文
字に対して、文字の種類を分類する(s3−1)。文字
の種類は、例えば、数字。
て説明する。文字列の先頭文字から末尾文字までの各文
字に対して、文字の種類を分類する(s3−1)。文字
の種類は、例えば、数字。
ひらがな、カタカナ、漢字、漢数字、アルファベット等
や、記号等に分類する。また、文字列中の句読点や空白
文字等の区切り記号、あるいは、第6図に示すような題
の符号部を抽出するための予約語を基に文字列をクラス
タリング(分割)する(s3−2)。この時、文字列内
で最長の長さをもつ文字属性を当該文字列を代表する文
字属性として抽出し、文字列特徴格納テーブル(第2図
(a)、(b))内の文字属性格納領域に格納する(s
3−3)。格納する文字属性情報は、例えば、文字サイ
ズ、文字の間隔、フォントの種類、アンダーライン、網
掛け2強調の有無等の情報−式である。
や、記号等に分類する。また、文字列中の句読点や空白
文字等の区切り記号、あるいは、第6図に示すような題
の符号部を抽出するための予約語を基に文字列をクラス
タリング(分割)する(s3−2)。この時、文字列内
で最長の長さをもつ文字属性を当該文字列を代表する文
字属性として抽出し、文字列特徴格納テーブル(第2図
(a)、(b))内の文字属性格納領域に格納する(s
3−3)。格納する文字属性情報は、例えば、文字サイ
ズ、文字の間隔、フォントの種類、アンダーライン、網
掛け2強調の有無等の情報−式である。
次に、文字列の特徴や位置情報を抽出する。当該文字列
が文書のテキストから抽出された文字列の場合、文字列
の最後に句読点があれば本文とみなし、なければ章節題
の候補と判断し、この情報を文字列特徴格納テーブルの
文字列の特徴格納領域に格納する(s3−4)。また、
当該文字列が文書の図表から抽出された文字列の場合、
文字列のレイアウト上の座標位置を抽出して、文字列特
徴格納テーブルの文字座標領域に格納する(s3−5)
。
が文書のテキストから抽出された文字列の場合、文字列
の最後に句読点があれば本文とみなし、なければ章節題
の候補と判断し、この情報を文字列特徴格納テーブルの
文字列の特徴格納領域に格納する(s3−4)。また、
当該文字列が文書の図表から抽出された文字列の場合、
文字列のレイアウト上の座標位置を抽出して、文字列特
徴格納テーブルの文字座標領域に格納する(s3−5)
。
上述した文字列の特徴解析の結果を受けて、論理構造制
御部10は当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する。この判断基準を示す。テキス
トから抽出された文字列の場合は、文字列特徴格納テー
ブル(第2図(a))の文字列の特徴領域内の情報を参
照する。また、図表内から抽出された文字列の場合、文
字列特徴格納テーブル(第2図(b))の文字座標領域
を参照して、文字列のなかで図表(あるいは図表領域)
の最上位置あるいは最下位置付近にあるものを図表題の
候補として判断する。
御部10は当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する。この判断基準を示す。テキス
トから抽出された文字列の場合は、文字列特徴格納テー
ブル(第2図(a))の文字列の特徴領域内の情報を参
照する。また、図表内から抽出された文字列の場合、文
字列特徴格納テーブル(第2図(b))の文字座標領域
を参照して、文字列のなかで図表(あるいは図表領域)
の最上位置あるいは最下位置付近にあるものを図表題の
候補として判断する。
次に、文字列の符号部の解析処理(s5)について、第
5図を用いて説明する。まず、処理の概要について述べ
、その後に個々の処理を詳細に説明する。符号解析の最
初に、特徴解析部30でクリラスタリングした情報を手
がかりに、文字列の符号の型を決定する(s5−1)。
5図を用いて説明する。まず、処理の概要について述べ
、その後に個々の処理を詳細に説明する。符号解析の最
初に、特徴解析部30でクリラスタリングした情報を手
がかりに、文字列の符号の型を決定する(s5−1)。
次に、章節題の階層を決定する(s5−2)。最後にこ
れらの情報と文字列が所属する頁番号や文字列の先頭、
末尾文字のアドレスを論理構造格納テーブル(第2図(
a)、(b))に格納する(s5−3)。
れらの情報と文字列が所属する頁番号や文字列の先頭、
末尾文字のアドレスを論理構造格納テーブル(第2図(
a)、(b))に格納する(s5−3)。
符号の型を決定する(s5−1)には、例えば、第6図
に示す予約語が文字列の符号部に存在するかどうかで符
号の型を分類する。第6図の前置予約語とは、符号番号
の前につく予約語のことであり、後置予約語とは、符号
番号の後につく予約語のことである。文字列は、特徴解
析時のクラスタリング(s3−2)により、いくつかの
塊まりに分割される。例えば、″第1章 x x x
”は、″第″、パ1” ″章″、”xxx”の4つに分
割される。文字列の符号部は″第″、111 II、パ
章″の部分であり、″第″は前置予約語、″章″は後置
予約語、II I IIは符号番号である。テキストか
ら文字列を抽出した場合の符号の型は、以下のようにし
て決定する。例えば、符号部に″章″、″節″、″項″
等が存在する゛′第1章 xxx”、“1.1節 xx
x ”等、あるいは、11.11等の区切り記号で符号
番号が区切られている”1.XXX”、”11 lxx
x ”等は区切り記号に分類する。また、符号番号が
括弧記号でくくられているもの” (1) X X X
II“1)xxx”、“[1]xxx”等は、括弧型
に分類する。また、符号番号がないもの’xxx””[
XXX]+を等は、無符号型に分類する。これらの−例
を第7図に示す。本実施例では、符号を3種類の型に分
類しているが、このほかにも、′■x x x ”の丸
型等が考えられる。また、括弧記号も、上述しただけで
なく、様々なパターンが考えられる。符号番号には、数
字、漢数字、ひらがな、カタカナ、アルファベット等が
ある。図表内から文字列を抽出した場合は、第6図に示
す″図″、″表″の予約語がある文字列を図表題として
抽出する。この時、図表内での文字列の位置等のレイア
ウト情報や、文字サイズ、フォントの種類等の文字属性
もあわせて考慮し、図表題を抽出する。
に示す予約語が文字列の符号部に存在するかどうかで符
号の型を分類する。第6図の前置予約語とは、符号番号
の前につく予約語のことであり、後置予約語とは、符号
番号の後につく予約語のことである。文字列は、特徴解
析時のクラスタリング(s3−2)により、いくつかの
塊まりに分割される。例えば、″第1章 x x x
”は、″第″、パ1” ″章″、”xxx”の4つに分
割される。文字列の符号部は″第″、111 II、パ
章″の部分であり、″第″は前置予約語、″章″は後置
予約語、II I IIは符号番号である。テキストか
ら文字列を抽出した場合の符号の型は、以下のようにし
て決定する。例えば、符号部に″章″、″節″、″項″
等が存在する゛′第1章 xxx”、“1.1節 xx
x ”等、あるいは、11.11等の区切り記号で符号
番号が区切られている”1.XXX”、”11 lxx
x ”等は区切り記号に分類する。また、符号番号が
括弧記号でくくられているもの” (1) X X X
II“1)xxx”、“[1]xxx”等は、括弧型
に分類する。また、符号番号がないもの’xxx””[
XXX]+を等は、無符号型に分類する。これらの−例
を第7図に示す。本実施例では、符号を3種類の型に分
類しているが、このほかにも、′■x x x ”の丸
型等が考えられる。また、括弧記号も、上述しただけで
なく、様々なパターンが考えられる。符号番号には、数
字、漢数字、ひらがな、カタカナ、アルファベット等が
ある。図表内から文字列を抽出した場合は、第6図に示
す″図″、″表″の予約語がある文字列を図表題として
抽出する。この時、図表内での文字列の位置等のレイア
ウト情報や、文字サイズ、フォントの種類等の文字属性
もあわせて考慮し、図表題を抽出する。
レイアウト情報や文字属性を用いた図表題抽出の例を第
8図に示す。第8図(a)、(b)では、図表内の最上
位置と最下位置にどちらも″図″の予約語をもつ文字列
がある。(a)の例では、上下どちらの文字列も同じ文
字属性であり、′″第B図 構成図を拡張″′が回頭と
して抽出されている。これに対して、(b)の例では、
回頭候補となる文字列の文字サイズが異なるため、文字
サイズの大きい″図C回頭の抽出方法″が回頭として抽
出される。第8図(b)では、文字列の位置と文字属性
を用いて回頭を抽出した。一方、第8図(c) 、 (
d)では、図表内に″図B 技術文書処理の″と″シス
テム構成″の2つの文字列が存在する。(C)の例では
、文字列の間隔(「技術文書処理の」と「システム構成
」の間)が離れすぎているため、回頭の前半部図B 技
術文書処理の″だけが回頭として抽出されてしまう。こ
れに対して、(d)の例では、文字列の間隔が不必要に
離れすぎておらず、文字属性も同じである。このため、
″システム構成″を回頭の後半部分として判断すること
ができ、最終的に″図B 技術文書処理のシステム構成
図″が抽出される。第8図(d)では1文字列の位置を
用いて複数の文字列に別れている回頭を抽出した。
8図に示す。第8図(a)、(b)では、図表内の最上
位置と最下位置にどちらも″図″の予約語をもつ文字列
がある。(a)の例では、上下どちらの文字列も同じ文
字属性であり、′″第B図 構成図を拡張″′が回頭と
して抽出されている。これに対して、(b)の例では、
回頭候補となる文字列の文字サイズが異なるため、文字
サイズの大きい″図C回頭の抽出方法″が回頭として抽
出される。第8図(b)では、文字列の位置と文字属性
を用いて回頭を抽出した。一方、第8図(c) 、 (
d)では、図表内に″図B 技術文書処理の″と″シス
テム構成″の2つの文字列が存在する。(C)の例では
、文字列の間隔(「技術文書処理の」と「システム構成
」の間)が離れすぎているため、回頭の前半部図B 技
術文書処理の″だけが回頭として抽出されてしまう。こ
れに対して、(d)の例では、文字列の間隔が不必要に
離れすぎておらず、文字属性も同じである。このため、
″システム構成″を回頭の後半部分として判断すること
ができ、最終的に″図B 技術文書処理のシステム構成
図″が抽出される。第8図(d)では1文字列の位置を
用いて複数の文字列に別れている回頭を抽出した。
次に、階層の決定処理(s5−2)について説明する。
文字列の符号部に符号番号があるものは、符号番号の全
体数が階層を表す。例えば、区切り型の”1+xxx”
の階層はII I IIであり、11゜1 x x x
”の階層は2′″である。括弧型の場合は、符号番号
の種類が異なるたびに階層が深くなると考える。この時
の符号の種類は1文書に章節題として登場する順番に構
成規則に登録する。従って、括弧型の階層は、文書から
学習する構成規則に基づいて決定することになる。符号
番号がない無符号型に関しては1文字属性を利用して階
層を決める。即ち、文字列の特徴解析において、各文字
列の代表となる文字属性を求めた(s3−3)が、この
文字属性を無符号型の文字列間でそれぞれ比較し、属性
が異なれば、階層が深くなると考える。第9図に、番号
がない章節題の階層の識別例を示す。第9図(a)の例
では、″目的″、″背景″の文字列の文字属性が同じた
め、階層はともにLL 2 IIである。これに対して
、(b)の例では、″背景″の文字列にアンダーライン
があるため、パ背景″の階層は1つ深くなって1131
+となる。
体数が階層を表す。例えば、区切り型の”1+xxx”
の階層はII I IIであり、11゜1 x x x
”の階層は2′″である。括弧型の場合は、符号番号
の種類が異なるたびに階層が深くなると考える。この時
の符号の種類は1文書に章節題として登場する順番に構
成規則に登録する。従って、括弧型の階層は、文書から
学習する構成規則に基づいて決定することになる。符号
番号がない無符号型に関しては1文字属性を利用して階
層を決める。即ち、文字列の特徴解析において、各文字
列の代表となる文字属性を求めた(s3−3)が、この
文字属性を無符号型の文字列間でそれぞれ比較し、属性
が異なれば、階層が深くなると考える。第9図に、番号
がない章節題の階層の識別例を示す。第9図(a)の例
では、″目的″、″背景″の文字列の文字属性が同じた
め、階層はともにLL 2 IIである。これに対して
、(b)の例では、″背景″の文字列にアンダーライン
があるため、パ背景″の階層は1つ深くなって1131
+となる。
階層の決定1こ伴い、階層が新しくなる(s6)ときは
、文書の構成規則を学習し、構成規則格納部80に格納
する(s7)。第10図に各符号型の構成規則を示す。
、文書の構成規則を学習し、構成規則格納部80に格納
する(s7)。第10図に各符号型の構成規則を示す。
即ち、(a)の区切り型の場合は、「階層」、「前置予
約語」、「後置予約語」、「符号間の区切り記号」、「
符号番号の種類」で構成する。(b)の括弧型の場合は
、「階層」、「前置予約語」、「後置予約語」、「符号
番号の種類」で構成する。(c)の無符号型の場合は、
「階層」、「前置予約語」、「後置予約語」で構成する
。第10図に構成規則の具体例も示した。
約語」、「後置予約語」、「符号間の区切り記号」、「
符号番号の種類」で構成する。(b)の括弧型の場合は
、「階層」、「前置予約語」、「後置予約語」、「符号
番号の種類」で構成する。(c)の無符号型の場合は、
「階層」、「前置予約語」、「後置予約語」で構成する
。第10図に構成規則の具体例も示した。
区切り型の゛1第1章 x x x ”、”第1.1節
Xx”の場合、構成規則は(a)のように格納される
。
Xx”の場合、構成規則は(a)のように格納される
。
括弧型の”(1)x x x”、”(A)x x x”
の場合は、(b)のように格納される。無符号型のXx
X″i+ [X X X ]″′の場合、(C)のよう
に格納される。
の場合は、(b)のように格納される。無符号型のXx
X″i+ [X X X ]″′の場合、(C)のよう
に格納される。
吹に、抽出した章節題あるいは図表類の符号番号を自動
修正する機能の実施例について説明する。
修正する機能の実施例について説明する。
この機能は、文書の構成規則を利用して抽出した題の符
号番号を自動修正するものである。文書の構成規則は、
構成規則学習部70で学習し、構成規則格納部80に格
納されている。抽出した論理構造を目次あるいは図表索
引として出力部2に表示したときに、ユーザは、目次あ
るいは図表索引上の例えば符号揃え等のメニューを入力
部1で選択する。論理構造抽出部5内の論理構造制御部
10が、この符号揃えの命令を受けると、構成規則格納
部80内の情報を基に、論理構造格納部60に格納され
ている章節題あるいは図表類の符号番号を、符号番号の
種類に応じて揃え、論理構造格納部60に修正結果を格
納する。また、符号番号の修正に伴って、章節題の階層
が変更するときは、階層関係も同時に修正し、論理構造
格納テーブルの階層領域に格納する。この処理の一例を
第11図に示す。上側の例では、%’trM1の″第1
章 はじめに″の次が“第A章 論理構造の・・・″に
なっている。また。
号番号を自動修正するものである。文書の構成規則は、
構成規則学習部70で学習し、構成規則格納部80に格
納されている。抽出した論理構造を目次あるいは図表索
引として出力部2に表示したときに、ユーザは、目次あ
るいは図表索引上の例えば符号揃え等のメニューを入力
部1で選択する。論理構造抽出部5内の論理構造制御部
10が、この符号揃えの命令を受けると、構成規則格納
部80内の情報を基に、論理構造格納部60に格納され
ている章節題あるいは図表類の符号番号を、符号番号の
種類に応じて揃え、論理構造格納部60に修正結果を格
納する。また、符号番号の修正に伴って、章節題の階層
が変更するときは、階層関係も同時に修正し、論理構造
格納テーブルの階層領域に格納する。この処理の一例を
第11図に示す。上側の例では、%’trM1の″第1
章 はじめに″の次が“第A章 論理構造の・・・″に
なっている。また。
階層2の”(1)背景″の次が、”(−)従来技術″に
なっている。構成規則を文書から学習することにより、
階層1の符号番号の種別は数字、WiW42もまた数字
であることがわかるので、パ符号揃え″のメニューを選
択することにより、下側の例のように修正される。これ
により、文書の構成を変更したときに章節題のメンテナ
ンスが容易になる。
なっている。構成規則を文書から学習することにより、
階層1の符号番号の種別は数字、WiW42もまた数字
であることがわかるので、パ符号揃え″のメニューを選
択することにより、下側の例のように修正される。これ
により、文書の構成を変更したときに章節題のメンテナ
ンスが容易になる。
次に、図表索引から図表を表示する機能の実施例につい
て説明する。論理構造抽出後、論理構造制御部10は、
論理構造格納部60内の論理構造格納テーブル(第2図
(b))の情報を制御部6に送り、制御部6は、図表索
引として出力部2に表示する。
て説明する。論理構造抽出後、論理構造制御部10は、
論理構造格納部60内の論理構造格納テーブル(第2図
(b))の情報を制御部6に送り、制御部6は、図表索
引として出力部2に表示する。
ユーザが図表索引上から任意の図表類を選択し、図表表
示のメニューを選択すると、論理構造制御部10は、論
理構造格納部60の論理構造格納テーブルに問い合せて
、該当する図表のID及び、所属する頁番号を得る。制
御部6はそれらの情報を基に、該当する図表のデータだ
けを文書管理部4から読み出して、出力部2に表示する
。この処理の一例を第12図に示す。文書から図表類を
抽出して図表索引が作成、表示されている。ユーザが、
図表索引上の″第1図 システム構成図″を選択し、図
表表示メニューを選ぶと、゛′第1図 システム構成図
″の情報だけが文書とは独立に表示部2上に表示される
。これにより、文書から図表をただちに検索することが
できる。
示のメニューを選択すると、論理構造制御部10は、論
理構造格納部60の論理構造格納テーブルに問い合せて
、該当する図表のID及び、所属する頁番号を得る。制
御部6はそれらの情報を基に、該当する図表のデータだ
けを文書管理部4から読み出して、出力部2に表示する
。この処理の一例を第12図に示す。文書から図表類を
抽出して図表索引が作成、表示されている。ユーザが、
図表索引上の″第1図 システム構成図″を選択し、図
表表示メニューを選ぶと、゛′第1図 システム構成図
″の情報だけが文書とは独立に表示部2上に表示される
。これにより、文書から図表をただちに検索することが
できる。
本発明によれば、テキスト情報の構文解析に加えて文字
属性や図表内の文字列の位置情報を利用して論理構造を
抽出することにより、文書の様々な書体に対応でき、テ
キスト情報だけの従来方式に比べて論理構造抽出精度が
向上する。特に、本論理構造抽出方法は、番号がない章
節題の階層関係の識別や図表類の抽出に有効である。
属性や図表内の文字列の位置情報を利用して論理構造を
抽出することにより、文書の様々な書体に対応でき、テ
キスト情報だけの従来方式に比べて論理構造抽出精度が
向上する。特に、本論理構造抽出方法は、番号がない章
節題の階層関係の識別や図表類の抽出に有効である。
また、文書の構成規則は、文書を作成するユーザの好み
や対象文書により種々異なるが、論理構造を抽出する文
書毎に構成規則を学習することで、多様な構成規則に柔
軟に対応できる。さらに、上記構成規則を利用すること
で、上記方法を用いて抽出した章節題、図表類の符号番
号や、書式の自動修正が可能になり、文書編集中に文書
の構成が変更しても章節題あるいは図表類に関するメン
テナンスが容易になる。
や対象文書により種々異なるが、論理構造を抽出する文
書毎に構成規則を学習することで、多様な構成規則に柔
軟に対応できる。さらに、上記構成規則を利用すること
で、上記方法を用いて抽出した章節題、図表類の符号番
号や、書式の自動修正が可能になり、文書編集中に文書
の構成が変更しても章節題あるいは図表類に関するメン
テナンスが容易になる。
また、図表を数多く含む技術文書等においては、図表を
手がかりにした文書検索が頻繁に行なわれるが、本発明
の図表索引により図表検索機能を用いることにより、図
表検索の高速化が可能になる。
手がかりにした文書検索が頻繁に行なわれるが、本発明
の図表索引により図表検索機能を用いることにより、図
表検索の高速化が可能になる。
第1図は本発明の一実施例に係る文書処理装置が備える
論理構造抽出装置の構成図、第2図(a)。 (b)は論理構造抽出装置で用いる文字列特徴格納テー
ブルと論理構造格納テーブルの構成図、第3図は論理構
造抽出処理の全体の流れを示すフローチャート、第4図
は第3図に示す特徴解析処理のフローチャート、第5図
は第3図の符号解析処理のフローチャート、第6図は予
約語の説明図、第7図は符号の型と種類の説明図、第8
図(a) 、 (b) 。 (c)、(d)は文字属性とレイアウト情報を用いた図
表類の抽出例の説明図、第9図(a)、(b)は符号の
無い場合の階層関係識別説明図、第10図(a) 、
(b) 。 (C)は論理構造の構成規則の説明図、第11図は章。 節1題の自動修正処理の説明図、第12図は図表類から
当該図表の続出説明図、第13図(a) 、 (b)
、 (c) 。 (d)は従来技術の問題点の説明図である。 1・・・入力部、2・・・出力部、3・・・文書編集処
理部、4・・・文書管理部、5論理構造抽出部、6・・
・制御部、10・・・論理構造制御部、20・・・文字
列抽出部、30・・・特徴解析部、40・・・文字列特
徴格納部、50・・・符号解析部、60・・・論理構造
格納部、70・・・構成規則学習部、80・・・構成規
則格納部。 第2図 (a)テキスト情報較の文言y] (b)l¥lL内の文官別
論理構造抽出装置の構成図、第2図(a)。 (b)は論理構造抽出装置で用いる文字列特徴格納テー
ブルと論理構造格納テーブルの構成図、第3図は論理構
造抽出処理の全体の流れを示すフローチャート、第4図
は第3図に示す特徴解析処理のフローチャート、第5図
は第3図の符号解析処理のフローチャート、第6図は予
約語の説明図、第7図は符号の型と種類の説明図、第8
図(a) 、 (b) 。 (c)、(d)は文字属性とレイアウト情報を用いた図
表類の抽出例の説明図、第9図(a)、(b)は符号の
無い場合の階層関係識別説明図、第10図(a) 、
(b) 。 (C)は論理構造の構成規則の説明図、第11図は章。 節1題の自動修正処理の説明図、第12図は図表類から
当該図表の続出説明図、第13図(a) 、 (b)
、 (c) 。 (d)は従来技術の問題点の説明図である。 1・・・入力部、2・・・出力部、3・・・文書編集処
理部、4・・・文書管理部、5論理構造抽出部、6・・
・制御部、10・・・論理構造制御部、20・・・文字
列抽出部、30・・・特徴解析部、40・・・文字列特
徴格納部、50・・・符号解析部、60・・・論理構造
格納部、70・・・構成規則学習部、80・・・構成規
則格納部。 第2図 (a)テキスト情報較の文言y] (b)l¥lL内の文官別
Claims (1)
- 【特許請求の範囲】 1、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列の他に該
文字列を構成する文字の文字属性情報を解析して文書の
論理構造を抽出することを特徴とする文書の論理構造抽
出方法。 2、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列の他に該
文字列の修飾データを解析して文書の論理構造を抽出す
ることを特徴とする文書の論理構造抽出方法。 3、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列を解析す
ることで論理構造の階層を識別できないときは文字属性
を比較することで階層関係を識別することを特徴とする
文書の論理構造抽出方法。 4、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列を解析す
ることで論理構造の階層を識別できないときは文字列の
修飾データを比較することで階層関係を識別することを
特徴とする文書の論理構造抽出方法。 5、文書中に記載された図、表の中に記載された「図」
、「表」の文字を含む文字列を当該図、表の題名として
抽出する論理構造抽出方法において、複数の当該文字列
を題名として抽出したときは文字属性により題名を決定
することを特徴とする文書の論理構造抽出方法。 6、文書中に記載された図、表の中に記載された「図」
、「表」の文字を含む文字列を当該図、表の題名として
抽出する論理構造抽出方法において、文字列を解析して
題名の候補を決め、候補として挙げられた文字列の文字
の大きさから題名を決定することを特徴とする文書の論
理構造抽出方法。 7、文書中に記載された図、表の中に記載された文字列
を解析することで図、表の題名を抽出する文書の論理構
造抽出方法において、図、表中に記載された文字列のレ
イアウト情報を解析することで題名を抽出することを特
徴とする文書の論理構造抽出方法。 8、文書中に記載された図、表の中に記載された文字列
のうち最上位或いは最下位にある文字列を題名候補とす
る論理構造抽出方法において、候補として挙げられた文
字列のレイアウト情報から題名を決定することを特徴と
する文書の論理構造抽出方法。 9、請求項7または請求項8において、題名とする文字
列が複数行に渡っているか否かは行間隔で判断すること
を特徴とする文書の論理構造抽出方法。 10、文書を構成する章、節の題名や図表の題名を抽出
する文書の論理構造抽出方法において、抽出した論理構
造を学習し、抽出した章、節の題名や図表の題名に付さ
れた符号に誤りがあるときは自動修正することを特徴と
する文書の論理構造抽出方法。 11、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列の他に
該文字列を構成する文字の文字属性情報を解析して文書
の論理構造を抽出する手段を備えることを特徴とする文
書の論理構造抽出装置。 12、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列の他に
該文字列の修飾データを解析して文書の論理構造を抽出
する手段を備えることを特徴とする文書の論理構造抽出
装置。 13、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列を解析
することで論理構造の階層を識別できないときは文字属
性を比較することで階層関係を識別する手段を備えるこ
とを特徴とする文書の論理構造抽出装置。 14、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列を解析
することで論理構造の階層を識別できないときは文字列
の修飾データを比較することで階層関係を識別する手段
を備えることを特徴とする文書の論理構造抽出装置。 15、文書中に記載された図、表の中に記載された「図
」、「表」の文字を含む文字列を当該図、表の題名とし
て抽出する論理構造抽出装置において、複数の該当文字
列を題名として抽出したときは文字属性により題名を決
定する手段を備えることを特徴とする文書の論理構造抽
出装置。 16、文書中に記載された図、表の中に記載された「図
」、「表」の文字を含む文字列を当該図、表の題名とし
て抽出する論理構造抽出装置において、文字列を解析し
て題名の候補を決め、候補として挙げられた文字列の文
字の大きさから題名を決定する手段を備えることを特徴
とする文書の論理構造抽出装置。 17、文書中に記載された図、表の中に記載された文字
列を解析することで図、表の題名を抽出する文書の論理
構造抽出装置において、図、表中に記載された文字列の
レイアウト情報を解析することで題名を抽出する手段を
備えることを特徴とする文書の論理構造抽出装置。 18、文書中に記載された図、表の中に記載された文字
列のうち最上位或いは最下位にある文字列を題名候補と
する論理構造抽出装置において、候補として挙げられた
文字列のレイアウト情報から題名を決定する手段を備え
ることを特徴とする文書の論理構造抽出装置。 19、請求項17または請求項18において、題名とす
る文字列が複数行に渡っているか否かは行間隔で判断す
る手段を備えることを特徴とする文書の論理構造抽出装
置。 20、文書を構成する章、節の題名や図表の題名を抽出
する文章の論理構造抽出装置において、抽出した論理構
造を学習する手段と、抽出した章、節の題名や図表の題
名に付された符号に誤りがあるときは自動修正する手段
とを備えることを特徴とする文書の論理構造抽出装置。 21、文書から図表の題名を抽出して図表索引を作成す
る手段と、入力手段からオペレータが指定した図表の題
名を前記図表索引から選択する手段と、選択した題名に
該当する図表を前記文章から読み出し表示する手段とを
備えることを特徴とする文書処理装置。 22、請求項11乃至請求項20のいずれかに記載の文
書の論理構造抽出装置と、該論理構造抽出装置にて抽出
された論理構造を表示する手段と、該表示手段にて表示
された画面上で章、節の題名をオペレータが入れ換えた
ときに対応する章、節に係る文書も自動的に入れ換える
手段と、オペレータが指定した章、節の題名に係る文書
のみを表示する手段とを備えることを特徴とする文書処
理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2049335A JPH03252759A (ja) | 1990-03-02 | 1990-03-02 | 文章の論理構造抽出方法及びその装置並びに文書処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2049335A JPH03252759A (ja) | 1990-03-02 | 1990-03-02 | 文章の論理構造抽出方法及びその装置並びに文書処理装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03252759A true JPH03252759A (ja) | 1991-11-12 |
Family
ID=12828127
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2049335A Pending JPH03252759A (ja) | 1990-03-02 | 1990-03-02 | 文章の論理構造抽出方法及びその装置並びに文書処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03252759A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5671427A (en) * | 1994-10-12 | 1997-09-23 | Kabushiki Kaisha Toshiba | Document editing apparatus using a table to link document portions |
| JP2011039580A (ja) * | 2009-08-06 | 2011-02-24 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法およびプログラム |
| JP2023136025A (ja) * | 2022-03-16 | 2023-09-29 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
-
1990
- 1990-03-02 JP JP2049335A patent/JPH03252759A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5671427A (en) * | 1994-10-12 | 1997-09-23 | Kabushiki Kaisha Toshiba | Document editing apparatus using a table to link document portions |
| JP2011039580A (ja) * | 2009-08-06 | 2011-02-24 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法およびプログラム |
| US8854635B2 (en) | 2009-08-06 | 2014-10-07 | Konica Minolta Business Technologies, Inc. | Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings |
| JP2023136025A (ja) * | 2022-03-16 | 2023-09-29 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6356922B1 (en) | Method and system for suggesting related documents | |
| US8442998B2 (en) | Storage of a document using multiple representations | |
| US5276616A (en) | Apparatus for automatically generating index | |
| US6438566B1 (en) | Document processing method and apparatus which can add comment data added to an original document to a revised document | |
| US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
| US4876665A (en) | Document processing system deciding apparatus provided with selection functions | |
| US5285526A (en) | Method of manipulating elements of a structured document, function key operation being dependent upon current and preceding image element types | |
| US10650186B2 (en) | Device, system and method for displaying sectioned documents | |
| JPH04229364A (ja) | 強調特性変更方法及びシステム | |
| US9639518B1 (en) | Identifying entities in a digital work | |
| US9372843B2 (en) | Document association device, document association method, and non-transitory computer readable medium | |
| JPH0552545B2 (ja) | ||
| AU2012207560A1 (en) | Storage of a document using multiple representations | |
| JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
| JP5446877B2 (ja) | 目次構造特定装置 | |
| JPH03252759A (ja) | 文章の論理構造抽出方法及びその装置並びに文書処理装置 | |
| JP2005107931A (ja) | 画像検索装置 | |
| JP2000250908A (ja) | 電子書籍の作成支援装置 | |
| JPH103483A (ja) | 情報検索装置 | |
| JPH02289087A (ja) | マルチメデイア情報入力方法 | |
| CN104516941A (zh) | 相关文档检索装置、方法及程序 | |
| JP2003223466A (ja) | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 | |
| JP2001265762A (ja) | 文書構造抽出装置及び文書構造情報抽出方法 | |
| WO2026021498A1 (zh) | 撰写、修订、自动标号及附图标号的方法、设备及介质 | |
| JPH11272706A (ja) | 検索装置 |