JPH03252759A

JPH03252759A - 文章の論理構造抽出方法及びその装置並びに文書処理装置

Info

Publication number: JPH03252759A
Application number: JP2049335A
Authority: JP
Inventors: Satoko Takahashi; 聡子高橋; Shinya Tanifuji; 真也谷藤; Hidekazu Matsumoto; 松本　秀和; Miyahiko Orita; 折田　三弥彦; Yosuke Mori; 庸輔森
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-03-02
Filing date: 1990-03-02
Publication date: 1991-11-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明はワードプロセッサやパーソナルコンピュータ等
の文書処理装置で作成２編集した文書の論理構造を自動
的に抽出する文書の論理構造抽出方法及びその装置に係
り、特に、文字列の解析だけでは的確に論理構造を抽出
することのできない文書に好適な論理構造抽出方法及び
その装置並びに文書処理装置に関する。

〔従来の技術〕

文書処理装置で文書を編集する場合、文書のある箇所を
コピーしたり別の箇所に移し換えたり削除したりするこ
とがある。このような場合、該当文書のコピー箇所や削
除箇所を範囲指定して行なうのは効率は悪い。そこで、
文書の論理構造を抽出し、削除したい文書の節等がある
場合にはその節を指定するだけで該当文書の削除がされ
るような文書の構成支援方式が普及し始めている。

文書の論理構造を抽出する場合、従来は、オペレータが
文書・中の章２節題や図表の題名を論理構造を構成する
キーワードとして拾い出すことで行っている。また、自
動的に論理構造を抽出する場合には、文書を構成する文
字列を解析し、章２節題となる文字列を抽出している。

例えば、改行マークのある次の行の文字列であり、且つ
その文字列が句読点で終わっていない場合は、基９節２
題に係る文字列であると判断している。

尚、従来技術に関連するものとして、特開昭６０−８２
３７４号がある。

〔発明が解決しようとする課題〕

オペレータが指定する従来方式は、−々オペレータが指
定するので、文書を作成した後にその論理構造を別に入
力するに等しく、操作性が悪いという問題がある。そこ
で、装置側が文字列を解析して自動的に論理構造を抽出
する必要が生じるが、様々な人が作成する文書は一様で
はなく題名等の付は方も個性的であるので、どのような
文書でもその論理構造を的確に抽出することは難しい。

同様に、文書中の図や表の題名を自動抽出することも難
しい。

第１３図を用いて、文字列を解析するだけでは論理構造
を正確に抽出できない例を説明する。同図（ａ）、（ｂ
）は、章７節の番号が無い場合の抽出例である。（ｂ）
では、“背景”にアンダーラインが引いてあり、″目的
″とは異なっているので、文書作成者の意図は、″背景
″と″目的″とで階層を異ならせていると判断できる。

しかし、従来の装置はこれを識別していないので、（ａ
）図のように″背景″を″目的″と同一階層の題名とし
て抽出してしまい、結果として異なる論理構造を抽出す
ることになる。また、第１３図（ｃ）、（ｄ）は、文書
中の図表の題名を抽出する例である。文字列解析のみで
（ｃ）図の題名は抽出できるが、（ｄ）図の様に、″図
Ｂ構成図を拡張″と″図Ｃ図題の抽出方法゛。

の２つの文字列があると、どちらを題名として決定して
いいか判断できない。従って、″図Ｂ構成図の拡張″が
図の一部を構成するにもががねらずこれが題名として抽
出されてしまうことがある。

また、長い文章を作成する場合、作成者はある程度文章
構成をしてから作成するが、その題名の付は方の規則は
、文書作成初期と後期とでは異なってくるのが普通であ
り、これは文書作成後に統一することになるが、その操
作は面倒であり、また、文字列だけの解析では、規則の
異なる題名が全部論理構造として抽出されるかされ無い
がも分からないという問題がある。

本発明の第１の目的は、様々の形式の文書でもその論理
構造を的確に抽出することのできる文書の論理構造抽出
方法及び装置を提供することにある。

本発明の第２の目的は、文書中の図２表の題名を的確に
抽出することのできる文書の論理構造抽出方法及び装置
を提供することにある。

本発明の第３の目的は、異なる規則性で付けられた題名
を自動的に統一することのできる文書処理装置を提供す
ることにある。

〔課題を解決するための手段〕

上記第１の目的は、文書を構成する文字列を解析して該
文書の論理構造を抽出する場合において、文字列の他に
該文字列を構成する文字の文字属性情報や修飾データを
解析して文書の論理構造を抽出することで、達成される
。

上記第２の目的は、図や表中の文字列を判断するに当た
って、文字属性やレイアウト情報を参考にすることでそ
の図２表の題名を判断することで、達成される。

上記第３の目的は、抽出した章９節題の符号規則を学習
し誤った符号を自動訂正することで、達成される。

〔作　用〕

文書処理装置には単に文書を文字の羅列として作成編集
する機能の他に、文字の大きさやフォントの種類、アン
ダーライン、網掛は等、様々な文字修飾法を可能にする
機能を備えており、文書作成者はこれらの修飾を章１節
題等の題名に施して、文書論理構造の階層分けをするこ
とが多い。これらの修飾を考慮せずに文字列のみの解釈
で論理構造を抽出すると、文書作成者の意図を反映する
ことができず、修飾による論理構造の階層分けを識別す
ることはできない。しかし、本発明のように、文字デー
タに付属する文字属性を検出することで修飾文字の種類
等を判別し、論理構造抽出の一判断基準とすることで、
文書作成者の意図に沿った論理構造の抽出が可能となる
。

また、学習機能を持たせることで、文書作成者の誤った
符号付けを検出することができ、また、これを自動修正
することも可能となる。

〔実施例〕

以下、本発明の一実施例を図面を参照して説明する。

最初に、本実施例で用いる言葉を定義する。

ｒ文字属性Ｊとは、文字の高さ・幅のサイズ、文字の間
隔、フォントの種類、書体等のことをいうものとする。

「書体」とは、例えば、アンダーライン、シャドウ、網
掛け９強調等の修飾を施したものをいう。「レイアウト
情報Ｊとは、文書内のテキストや図９表の配置に関する
情報のことであり、特に、本実施例では文字列の座標位
置の情報に注目する。

まず、第１図において、本実施例の論理構造抽出機能を
備えた文書処理装置の構成とそれぞれの機能を示す。本
実施例の論理構造抽出機能を備えた文書処理装置は、マ
ウスやキーボード等の入力部１と、ＣＲＴ等の表示装置
である出力部２と、文書編集処理部３と、文書管理部４
と、論理構造抽出部５と、制御部６で構成する６人力部
１からは、文字をキー人力したり、コマンドを入力した
り、メニューを選択する。出力部２は、文書や図面、論
理構成抽出の結果作成された目次や図表索引等を出力す
る。文書編集処理部３は、文書を作成・編集したり、論
理構造抽出部５で抽出した論理構造単位に文書の構成の
編集を行なう。文書管理部４は、文書情報の管理や格納
を行なう。論理構造抽出文書５は、文書から論理構造を
抽出して、目次あるいは図表索引を作成する。制御部６
は、各構成部１〜５の動作制御を行なう。

次に、論理構造抽出部５の構成と、その各構成部分の機
能について説明する。

論理構造制御部１０は、論理構造抽出部５の各構成部分
の動作制御を行なう。文字列抽出部２０は、文書からパ
ラグラフ等を単位とする文字列、あるいは図表内に存在
する文字列を読み出して抽出する。特徴解析部３０は、
文字列抽出部２０で抽出した文字列に対して各文字の特
徴を解析したり、文字列を代表する文字属性、あるいは
、文字列の位置等のレイアウト情報を抽出する。文字列
特徴格納部４０は、特徴解析部３０で求めた文字列の特
徴解析情報を格納する。符号解析部５０は、文字列の符
号部を解析して、符号の型や階層関係を決定する。

論理構造格納部６０は、符号解析部５０で得た符号情報
と文字列を格納する。構成規則学習部７０は、符号解析
部５０で階層を決定したときに、その階層が新しい場合
に当該文字列の符号の規則を学習する。

構成規則格納部８０は、構成規則学習部７０で学習した
規則を格納する。

第２図に、文字列特徴解析部４０と、論理構造格納部６
０に格納する情報を示す。第２図（、）は、文書のテキ
トスから論理構造を抽出したときに作成する文字列特徴
格納テーブルと、論理構造格納テーブルである。

文字列特徴格納テーブルは、パラグラフ等を単位とする
文字列のｒＩＤＪを格納する領域と、当該文字列を代表
するｒ文字属性」情報を格納する領域と、当該文字列の
「特徴」情報を格納する領域で構成する。文字列の「特
徴」とは、当該文字列が本文であるか、あるいは章節題
であるかの情報である。

論理構造格納テーブルは、文字列のｒＩＤＪを格納する
領域と、章節題の「階層」情報を格納する領域と、章節
題の「符号の型」を格納する領域と、当該文字列の先頭
および末尾文字の「アドレス」を格納する領域と、当該
文字が所属する「頁番号」を格納する領域で構成する。

「符号の型」の詳細については、論理構造抽出処理のと
ころで説明する。

第２図（ｂ）は、文書の図表から図表題を抽出したとき
に作成する文字列特徴格納テーブルと、論理構造格納テ
ーブルである。文字列特徴格納テーブルは、パラグラフ
等を単位とする文字列の「ＩＤ」を格納する領域と、当
該文字列を代表する［文字属性」の情報を格納する領域
と、当該文字列の先頭及び末尾文字の「座標位置」を格
納する領域で構成する。論理構造格納テーブルは、文字
列のｒＩＤＪを格納する領域、回頭あるいは表題を示す
「情報」を格納する領域と、当該文字列の先頭及び末尾
文字の「アドレス」を格納する領域と、当該文字列が所
属する「頁番号」を格納する領域で構成する。

次に、論理構造を抽出するときの処理の流れを説明する
。まず、第３図を用いて全体の流れを説明する。論理構
造抽出時に、文字列抽出部２０は、文書の情報が格納さ
れている文書管理部４から、パラグラフ等を単位とする
文字列、あるいは、図表題の文字列を読み出して抽出す
る（ｓｌ）。最後の文字列になる（ｓｌ）まで、以下の
処理を繰り返す。

抽出された文字列は、特徴解析部３０で文字列の特徴解
析を行ないく詳細は後述）、特徴解析情報及び文字列の
ＩＤを文字列格納部４０に格納する（ｓ３）。次に、論
理構造制御部１０は、文字列特徴格納部４０内の、文字
列特徴格納テーブル（第２図（ａ）　、　（ｂ）　）を
参照して、当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する（ｓ４）。符号解析部５０は、
章節題２図表題の候補と判断され文字列内の符号部を解
析して、題の符号の型や階層を決定し、論理構造の情報
及び文字列のＩＤを論理構造格納部６０に格納する（ｓ
５、詳細は後述）。章節題の階層が新しい場合（ｓ６）
は、構成規則学習部７０で符号部の規則即ち構成規則を
取り出して、構成規則格納部８０に格納する（ｓｌ）。

文字列の特徴解析処理（ｓ３）について、第４図を用い
て説明する。文字列の先頭文字から末尾文字までの各文
字に対して、文字の種類を分類する（ｓ３−１）。文字
の種類は、例えば、数字。

ひらがな、カタカナ、漢字、漢数字、アルファベット等
や、記号等に分類する。また、文字列中の句読点や空白
文字等の区切り記号、あるいは、第６図に示すような題
の符号部を抽出するための予約語を基に文字列をクラス
タリング（分割）する（ｓ３−２）。この時、文字列内
で最長の長さをもつ文字属性を当該文字列を代表する文
字属性として抽出し、文字列特徴格納テーブル（第２図
（ａ）、（ｂ））内の文字属性格納領域に格納する（ｓ
３−３）。格納する文字属性情報は、例えば、文字サイ
ズ、文字の間隔、フォントの種類、アンダーライン、網
掛け２強調の有無等の情報−式である。

次に、文字列の特徴や位置情報を抽出する。当該文字列
が文書のテキストから抽出された文字列の場合、文字列
の最後に句読点があれば本文とみなし、なければ章節題
の候補と判断し、この情報を文字列特徴格納テーブルの
文字列の特徴格納領域に格納する（ｓ３−４）。また、
当該文字列が文書の図表から抽出された文字列の場合、
文字列のレイアウト上の座標位置を抽出して、文字列特
徴格納テーブルの文字座標領域に格納する（ｓ３−５）
。

上述した文字列の特徴解析の結果を受けて、論理構造制
御部１０は当該文字列が章節題あるいは図表題の候補に
なるかどうかを判断する。この判断基準を示す。テキス
トから抽出された文字列の場合は、文字列特徴格納テー
ブル（第２図（ａ））の文字列の特徴領域内の情報を参
照する。また、図表内から抽出された文字列の場合、文
字列特徴格納テーブル（第２図（ｂ））の文字座標領域
を参照して、文字列のなかで図表（あるいは図表領域）
の最上位置あるいは最下位置付近にあるものを図表題の
候補として判断する。

次に、文字列の符号部の解析処理（ｓ５）について、第
５図を用いて説明する。まず、処理の概要について述べ
、その後に個々の処理を詳細に説明する。符号解析の最
初に、特徴解析部３０でクリラスタリングした情報を手
がかりに、文字列の符号の型を決定する（ｓ５−１）。

次に、章節題の階層を決定する（ｓ５−２）。最後にこ
れらの情報と文字列が所属する頁番号や文字列の先頭、
末尾文字のアドレスを論理構造格納テーブル（第２図（
ａ）、（ｂ））に格納する（ｓ５−３）。

符号の型を決定する（ｓ５−１）には、例えば、第６図
に示す予約語が文字列の符号部に存在するかどうかで符
号の型を分類する。第６図の前置予約語とは、符号番号
の前につく予約語のことであり、後置予約語とは、符号
番号の後につく予約語のことである。文字列は、特徴解
析時のクラスタリング（ｓ３−２）により、いくつかの
塊まりに分割される。例えば、″第１章　ｘ　ｘ　ｘ　
”は、″第″、パ１”　″章″、”ｘｘｘ”の４つに分
割される。文字列の符号部は″第″、１１１　ＩＩ、パ
章″の部分であり、″第″は前置予約語、″章″は後置
予約語、ＩＩ　Ｉ　ＩＩは符号番号である。テキストか
ら文字列を抽出した場合の符号の型は、以下のようにし
て決定する。例えば、符号部に″章″、″節″、″項″
等が存在する゛′第１章　ｘｘｘ”、“１．１節　ｘｘ
ｘ　”等、あるいは、１１．１１等の区切り記号で符号
番号が区切られている”１．ＸＸＸ”、”１１　ｌｘｘ
　ｘ　”等は区切り記号に分類する。また、符号番号が
括弧記号でくくられているもの”　（１）　Ｘ　Ｘ　Ｘ
　ＩＩ“１）ｘｘｘ”、“［１］ｘｘｘ”等は、括弧型
に分類する。また、符号番号がないもの’ｘｘｘ””［
ＸＸＸ］＋を等は、無符号型に分類する。これらの−例
を第７図に示す。本実施例では、符号を３種類の型に分
類しているが、このほかにも、′■ｘ　ｘ　ｘ　”の丸
型等が考えられる。また、括弧記号も、上述しただけで
なく、様々なパターンが考えられる。符号番号には、数
字、漢数字、ひらがな、カタカナ、アルファベット等が
ある。図表内から文字列を抽出した場合は、第６図に示
す″図″、″表″の予約語がある文字列を図表題として
抽出する。この時、図表内での文字列の位置等のレイア
ウト情報や、文字サイズ、フォントの種類等の文字属性
もあわせて考慮し、図表題を抽出する。

レイアウト情報や文字属性を用いた図表題抽出の例を第
８図に示す。第８図（ａ）、（ｂ）では、図表内の最上
位置と最下位置にどちらも″図″の予約語をもつ文字列
がある。（ａ）の例では、上下どちらの文字列も同じ文
字属性であり、′″第Ｂ図　構成図を拡張″′が回頭と
して抽出されている。これに対して、（ｂ）の例では、
回頭候補となる文字列の文字サイズが異なるため、文字
サイズの大きい″図Ｃ回頭の抽出方法″が回頭として抽
出される。第８図（ｂ）では、文字列の位置と文字属性
を用いて回頭を抽出した。一方、第８図（ｃ）　、　（
ｄ）では、図表内に″図Ｂ　技術文書処理の″と″シス
テム構成″の２つの文字列が存在する。（Ｃ）の例では
、文字列の間隔（「技術文書処理の」と「システム構成
」の間）が離れすぎているため、回頭の前半部図Ｂ　技
術文書処理の″だけが回頭として抽出されてしまう。こ
れに対して、（ｄ）の例では、文字列の間隔が不必要に
離れすぎておらず、文字属性も同じである。このため、
″システム構成″を回頭の後半部分として判断すること
ができ、最終的に″図Ｂ　技術文書処理のシステム構成
図″が抽出される。第８図（ｄ）では１文字列の位置を
用いて複数の文字列に別れている回頭を抽出した。

次に、階層の決定処理（ｓ５−２）について説明する。

文字列の符号部に符号番号があるものは、符号番号の全
体数が階層を表す。例えば、区切り型の”１＋ｘｘｘ”
の階層はＩＩ　Ｉ　ＩＩであり、１１゜１　ｘ　ｘ　ｘ
　”の階層は２′″である。括弧型の場合は、符号番号
の種類が異なるたびに階層が深くなると考える。この時
の符号の種類は１文書に章節題として登場する順番に構
成規則に登録する。従って、括弧型の階層は、文書から
学習する構成規則に基づいて決定することになる。符号
番号がない無符号型に関しては１文字属性を利用して階
層を決める。即ち、文字列の特徴解析において、各文字
列の代表となる文字属性を求めた（ｓ３−３）が、この
文字属性を無符号型の文字列間でそれぞれ比較し、属性
が異なれば、階層が深くなると考える。第９図に、番号
がない章節題の階層の識別例を示す。第９図（ａ）の例
では、″目的″、″背景″の文字列の文字属性が同じた
め、階層はともにＬＬ　２　ＩＩである。これに対して
、（ｂ）の例では、″背景″の文字列にアンダーライン
があるため、パ背景″の階層は１つ深くなって１１３１
＋となる。

階層の決定１こ伴い、階層が新しくなる（ｓ６）ときは
、文書の構成規則を学習し、構成規則格納部８０に格納
する（ｓ７）。第１０図に各符号型の構成規則を示す。

即ち、（ａ）の区切り型の場合は、「階層」、「前置予
約語」、「後置予約語」、「符号間の区切り記号」、「
符号番号の種類」で構成する。（ｂ）の括弧型の場合は
、「階層」、「前置予約語」、「後置予約語」、「符号
番号の種類」で構成する。（ｃ）の無符号型の場合は、
「階層」、「前置予約語」、「後置予約語」で構成する
。第１０図に構成規則の具体例も示した。

区切り型の゛１第１章　ｘ　ｘ　ｘ　”、”第１．１節
　Ｘｘ”の場合、構成規則は（ａ）のように格納される
。

括弧型の”（１）ｘ　ｘ　ｘ”、”（Ａ）ｘ　ｘ　ｘ”
の場合は、（ｂ）のように格納される。無符号型のＸｘ
Ｘ″ｉ＋　［Ｘ　Ｘ　Ｘ　］″′の場合、（Ｃ）のよう
に格納される。

吹に、抽出した章節題あるいは図表類の符号番号を自動
修正する機能の実施例について説明する。

この機能は、文書の構成規則を利用して抽出した題の符
号番号を自動修正するものである。文書の構成規則は、
構成規則学習部７０で学習し、構成規則格納部８０に格
納されている。抽出した論理構造を目次あるいは図表索
引として出力部２に表示したときに、ユーザは、目次あ
るいは図表索引上の例えば符号揃え等のメニューを入力
部１で選択する。論理構造抽出部５内の論理構造制御部
１０が、この符号揃えの命令を受けると、構成規則格納
部８０内の情報を基に、論理構造格納部６０に格納され
ている章節題あるいは図表類の符号番号を、符号番号の
種類に応じて揃え、論理構造格納部６０に修正結果を格
納する。また、符号番号の修正に伴って、章節題の階層
が変更するときは、階層関係も同時に修正し、論理構造
格納テーブルの階層領域に格納する。この処理の一例を
第１１図に示す。上側の例では、％’ｔｒＭ１の″第１
章　はじめに″の次が“第Ａ章　論理構造の・・・″に
なっている。また。

階層２の”（１）背景″の次が、”（−）従来技術″に
なっている。構成規則を文書から学習することにより、
階層１の符号番号の種別は数字、ＷｉＷ４２もまた数字
であることがわかるので、パ符号揃え″のメニューを選
択することにより、下側の例のように修正される。これ
により、文書の構成を変更したときに章節題のメンテナ
ンスが容易になる。

次に、図表索引から図表を表示する機能の実施例につい
て説明する。論理構造抽出後、論理構造制御部１０は、
論理構造格納部６０内の論理構造格納テーブル（第２図
（ｂ））の情報を制御部６に送り、制御部６は、図表索
引として出力部２に表示する。

ユーザが図表索引上から任意の図表類を選択し、図表表
示のメニューを選択すると、論理構造制御部１０は、論
理構造格納部６０の論理構造格納テーブルに問い合せて
、該当する図表のＩＤ及び、所属する頁番号を得る。制
御部６はそれらの情報を基に、該当する図表のデータだ
けを文書管理部４から読み出して、出力部２に表示する
。この処理の一例を第１２図に示す。文書から図表類を
抽出して図表索引が作成、表示されている。ユーザが、
図表索引上の″第１図　システム構成図″を選択し、図
表表示メニューを選ぶと、゛′第１図　システム構成図
″の情報だけが文書とは独立に表示部２上に表示される
。これにより、文書から図表をただちに検索することが
できる。

〔発明の効果〕

本発明によれば、テキスト情報の構文解析に加えて文字
属性や図表内の文字列の位置情報を利用して論理構造を
抽出することにより、文書の様々な書体に対応でき、テ
キスト情報だけの従来方式に比べて論理構造抽出精度が
向上する。特に、本論理構造抽出方法は、番号がない章
節題の階層関係の識別や図表類の抽出に有効である。

また、文書の構成規則は、文書を作成するユーザの好み
や対象文書により種々異なるが、論理構造を抽出する文
書毎に構成規則を学習することで、多様な構成規則に柔
軟に対応できる。さらに、上記構成規則を利用すること
で、上記方法を用いて抽出した章節題、図表類の符号番
号や、書式の自動修正が可能になり、文書編集中に文書
の構成が変更しても章節題あるいは図表類に関するメン
テナンスが容易になる。

また、図表を数多く含む技術文書等においては、図表を
手がかりにした文書検索が頻繁に行なわれるが、本発明
の図表索引により図表検索機能を用いることにより、図
表検索の高速化が可能になる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る文書処理装置が備える
論理構造抽出装置の構成図、第２図（ａ）。（ｂ）は論理構造抽出装置で用いる文字列特徴格納テー
ブルと論理構造格納テーブルの構成図、第３図は論理構
造抽出処理の全体の流れを示すフローチャート、第４図
は第３図に示す特徴解析処理のフローチャート、第５図
は第３図の符号解析処理のフローチャート、第６図は予
約語の説明図、第７図は符号の型と種類の説明図、第８
図（ａ）　、　（ｂ）　。（ｃ）、（ｄ）は文字属性とレイアウト情報を用いた図
表類の抽出例の説明図、第９図（ａ）、（ｂ）は符号の
無い場合の階層関係識別説明図、第１０図（ａ）　、　
（ｂ）　。（Ｃ）は論理構造の構成規則の説明図、第１１図は章。節１題の自動修正処理の説明図、第１２図は図表類から
当該図表の続出説明図、第１３図（ａ）　、　（ｂ）　
、　（ｃ）　。（ｄ）は従来技術の問題点の説明図である。１・・・入力部、２・・・出力部、３・・・文書編集処
理部、４・・・文書管理部、５論理構造抽出部、６・・
・制御部、１０・・・論理構造制御部、２０・・・文字
列抽出部、３０・・・特徴解析部、４０・・・文字列特
徴格納部、５０・・・符号解析部、６０・・・論理構造
格納部、７０・・・構成規則学習部、８０・・・構成規
則格納部。第２図（ａ）テキスト情報較の文言ｙ］（ｂ）ｌ￥ｌＬ内の文官別

Claims

【特許請求の範囲】１、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列の他に該
文字列を構成する文字の文字属性情報を解析して文書の
論理構造を抽出することを特徴とする文書の論理構造抽
出方法。２、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列の他に該
文字列の修飾データを解析して文書の論理構造を抽出す
ることを特徴とする文書の論理構造抽出方法。３、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列を解析す
ることで論理構造の階層を識別できないときは文字属性
を比較することで階層関係を識別することを特徴とする
文書の論理構造抽出方法。４、文書を構成する文字列を解析して該文書の論理構造
を抽出する論理構造抽出方法において、文字列を解析す
ることで論理構造の階層を識別できないときは文字列の
修飾データを比較することで階層関係を識別することを
特徴とする文書の論理構造抽出方法。５、文書中に記載された図、表の中に記載された「図」
、「表」の文字を含む文字列を当該図、表の題名として
抽出する論理構造抽出方法において、複数の当該文字列
を題名として抽出したときは文字属性により題名を決定
することを特徴とする文書の論理構造抽出方法。６、文書中に記載された図、表の中に記載された「図」
、「表」の文字を含む文字列を当該図、表の題名として
抽出する論理構造抽出方法において、文字列を解析して
題名の候補を決め、候補として挙げられた文字列の文字
の大きさから題名を決定することを特徴とする文書の論
理構造抽出方法。７、文書中に記載された図、表の中に記載された文字列
を解析することで図、表の題名を抽出する文書の論理構
造抽出方法において、図、表中に記載された文字列のレ
イアウト情報を解析することで題名を抽出することを特
徴とする文書の論理構造抽出方法。８、文書中に記載された図、表の中に記載された文字列
のうち最上位或いは最下位にある文字列を題名候補とす
る論理構造抽出方法において、候補として挙げられた文
字列のレイアウト情報から題名を決定することを特徴と
する文書の論理構造抽出方法。９、請求項７または請求項８において、題名とする文字
列が複数行に渡っているか否かは行間隔で判断すること
を特徴とする文書の論理構造抽出方法。１０、文書を構成する章、節の題名や図表の題名を抽出
する文書の論理構造抽出方法において、抽出した論理構
造を学習し、抽出した章、節の題名や図表の題名に付さ
れた符号に誤りがあるときは自動修正することを特徴と
する文書の論理構造抽出方法。１１、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列の他に
該文字列を構成する文字の文字属性情報を解析して文書
の論理構造を抽出する手段を備えることを特徴とする文
書の論理構造抽出装置。１２、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列の他に
該文字列の修飾データを解析して文書の論理構造を抽出
する手段を備えることを特徴とする文書の論理構造抽出
装置。１３、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列を解析
することで論理構造の階層を識別できないときは文字属
性を比較することで階層関係を識別する手段を備えるこ
とを特徴とする文書の論理構造抽出装置。１４、文書を構成する文字列を解析して該文書の論理構
造を抽出する論理構造抽出装置において、文字列を解析
することで論理構造の階層を識別できないときは文字列
の修飾データを比較することで階層関係を識別する手段
を備えることを特徴とする文書の論理構造抽出装置。１５、文書中に記載された図、表の中に記載された「図
」、「表」の文字を含む文字列を当該図、表の題名とし
て抽出する論理構造抽出装置において、複数の該当文字
列を題名として抽出したときは文字属性により題名を決
定する手段を備えることを特徴とする文書の論理構造抽
出装置。１６、文書中に記載された図、表の中に記載された「図
」、「表」の文字を含む文字列を当該図、表の題名とし
て抽出する論理構造抽出装置において、文字列を解析し
て題名の候補を決め、候補として挙げられた文字列の文
字の大きさから題名を決定する手段を備えることを特徴
とする文書の論理構造抽出装置。１７、文書中に記載された図、表の中に記載された文字
列を解析することで図、表の題名を抽出する文書の論理
構造抽出装置において、図、表中に記載された文字列の
レイアウト情報を解析することで題名を抽出する手段を
備えることを特徴とする文書の論理構造抽出装置。１８、文書中に記載された図、表の中に記載された文字
列のうち最上位或いは最下位にある文字列を題名候補と
する論理構造抽出装置において、候補として挙げられた
文字列のレイアウト情報から題名を決定する手段を備え
ることを特徴とする文書の論理構造抽出装置。１９、請求項１７または請求項１８において、題名とす
る文字列が複数行に渡っているか否かは行間隔で判断す
る手段を備えることを特徴とする文書の論理構造抽出装
置。２０、文書を構成する章、節の題名や図表の題名を抽出
する文章の論理構造抽出装置において、抽出した論理構
造を学習する手段と、抽出した章、節の題名や図表の題
名に付された符号に誤りがあるときは自動修正する手段
とを備えることを特徴とする文書の論理構造抽出装置。２１、文書から図表の題名を抽出して図表索引を作成す
る手段と、入力手段からオペレータが指定した図表の題
名を前記図表索引から選択する手段と、選択した題名に
該当する図表を前記文章から読み出し表示する手段とを
備えることを特徴とする文書処理装置。２２、請求項１１乃至請求項２０のいずれかに記載の文
書の論理構造抽出装置と、該論理構造抽出装置にて抽出
された論理構造を表示する手段と、該表示手段にて表示
された画面上で章、節の題名をオペレータが入れ換えた
ときに対応する章、節に係る文書も自動的に入れ換える
手段と、オペレータが指定した章、節の題名に係る文書
のみを表示する手段とを備えることを特徴とする文書処
理装置。