JPH0895975A - 論理構造化文書の生成方法 - Google Patents
論理構造化文書の生成方法Info
- Publication number
- JPH0895975A JPH0895975A JP6231550A JP23155094A JPH0895975A JP H0895975 A JPH0895975 A JP H0895975A JP 6231550 A JP6231550 A JP 6231550A JP 23155094 A JP23155094 A JP 23155094A JP H0895975 A JPH0895975 A JP H0895975A
- Authority
- JP
- Japan
- Prior art keywords
- logical
- character
- document
- read
- logical structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002360 preparation method Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims description 49
- 238000005192 partition Methods 0.000 abstract 1
- 238000007405 data analysis Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 239000000470 constituent Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 文書データ中の見出し記号に有無および見出
し記号の記載の仕方にばらつきに関わらず、文書データ
を階層構造に再編成した論理構造化文書を容易に生成す
ること。 【構成】 目的とする文書を構成する章などの各要素を
示す要素キーと、各要素に対して文字を対応付けること
を示す文字キーとを、目的とする論理構造に対応付けて
定義した文書型データファイルの定義内容を解析し、目
的とする文書の論理構造を示す論理構造テーブルを作成
したうえ、任意の形式の文書データを解析し、文書デー
タを構成する文字を所定の区切り記号によって論理単位
に分割した文字の論理単位テーブルを作成し、これら論
理構造テーブルおよび文字の論理単位テーブルの内容に
基づき、前記文字キーに対応する論理単位の文字に対し
て前記要素キーで示される見出しマークを付加した論理
構造化文書を生成する。
し記号の記載の仕方にばらつきに関わらず、文書データ
を階層構造に再編成した論理構造化文書を容易に生成す
ること。 【構成】 目的とする文書を構成する章などの各要素を
示す要素キーと、各要素に対して文字を対応付けること
を示す文字キーとを、目的とする論理構造に対応付けて
定義した文書型データファイルの定義内容を解析し、目
的とする文書の論理構造を示す論理構造テーブルを作成
したうえ、任意の形式の文書データを解析し、文書デー
タを構成する文字を所定の区切り記号によって論理単位
に分割した文字の論理単位テーブルを作成し、これら論
理構造テーブルおよび文字の論理単位テーブルの内容に
基づき、前記文字キーに対応する論理単位の文字に対し
て前記要素キーで示される見出しマークを付加した論理
構造化文書を生成する。
Description
【0001】
【産業上の利用分野】本発明は、論理構造化文書の生成
方法に関し、特に任意の形式の文書データから章、節、
項などのツリー状の階層構造に再編成した論理構造化文
書を生成する論理構造化文書の生成方法に関する。
方法に関し、特に任意の形式の文書データから章、節、
項などのツリー状の階層構造に再編成した論理構造化文
書を生成する論理構造化文書の生成方法に関する。
【0002】
【従来の技術】従来、論理構造化文書を生成する方法と
して、特開平4−175966号公報のように文書デー
タを対象に、本文中の章、節、項に対応した見出し記号
を解析することにより、木状の論理構造を自動的に生成
する方法がある。
して、特開平4−175966号公報のように文書デー
タを対象に、本文中の章、節、項に対応した見出し記号
を解析することにより、木状の論理構造を自動的に生成
する方法がある。
【0003】この方法では、文字コードで表されている
文書データを入力し、文書データから見出し及び見出し
ごとの本文を抽出し、その抽出した見出しから見出し記
号を取り出し、次いで、見出し記号の意味を解析し、親
子関係の階層的構造で表現される文書の論理構造を生成
するものであり、一次元に並んだ文字列で表現されてい
る文書ファイルを階層的な木構造に変換することができ
る。
文書データを入力し、文書データから見出し及び見出し
ごとの本文を抽出し、その抽出した見出しから見出し記
号を取り出し、次いで、見出し記号の意味を解析し、親
子関係の階層的構造で表現される文書の論理構造を生成
するものであり、一次元に並んだ文字列で表現されてい
る文書ファイルを階層的な木構造に変換することができ
る。
【0004】
【発明が解決しようとする課題】しかし、上記従来技術
にあっては、文書データ中に章、節、項を表わすような
見出し記号が存在するのを前提としているため、これら
の見出し記号が存在しない文書データについては、論理
構造化文書を生成することができないという問題があっ
た。
にあっては、文書データ中に章、節、項を表わすような
見出し記号が存在するのを前提としているため、これら
の見出し記号が存在しない文書データについては、論理
構造化文書を生成することができないという問題があっ
た。
【0005】また、複数の文書データが存在し、各々の
文書データによってその見出し記号に記載上のばらつき
がある場合、同一処理で文書の論理構造化を行うことが
できないという問題があった。
文書データによってその見出し記号に記載上のばらつき
がある場合、同一処理で文書の論理構造化を行うことが
できないという問題があった。
【0006】本発明の目的は、文書データ中の見出し記
号に有無に関わらず、文書データを階層構造に再編成し
た論理構造化文書を容易に生成することができ、また見
出し記号の記載の仕方にばらつきがあっても、同一処理
により論理構造化文書を効率良く生成することができる
論理構造化文書の生成方法を提供することにある。
号に有無に関わらず、文書データを階層構造に再編成し
た論理構造化文書を容易に生成することができ、また見
出し記号の記載の仕方にばらつきがあっても、同一処理
により論理構造化文書を効率良く生成することができる
論理構造化文書の生成方法を提供することにある。
【0007】
【課題を解決するための手段】本発明は、上述の目的を
達成するために、目的とする文書を構成する章などの各
要素を示す要素キーと、各要素に対して文字を対応付け
ることを示す文字キーとを、目的とする論理構造に対応
付けて文書型データファイルに予め定義しておき、この
文書型データファイルの定義内容を解析し、目的とする
文書の論理構造を示す論理構造テーブルを作成したう
え、前記任意の形式の文書データを解析し、文書データ
を構成する文字を所定の区切り記号によって論理単位に
分割した文字の論理単位テーブルを作成し、これら論理
構造テーブルおよび文字の論理単位テーブルの内容に基
づき、前記文字キーに対応する論理単位の文字に対して
前記要素キーで示される見出しマークを付加した論理構
造化文書を生成することを特徴とする。
達成するために、目的とする文書を構成する章などの各
要素を示す要素キーと、各要素に対して文字を対応付け
ることを示す文字キーとを、目的とする論理構造に対応
付けて文書型データファイルに予め定義しておき、この
文書型データファイルの定義内容を解析し、目的とする
文書の論理構造を示す論理構造テーブルを作成したう
え、前記任意の形式の文書データを解析し、文書データ
を構成する文字を所定の区切り記号によって論理単位に
分割した文字の論理単位テーブルを作成し、これら論理
構造テーブルおよび文字の論理単位テーブルの内容に基
づき、前記文字キーに対応する論理単位の文字に対して
前記要素キーで示される見出しマークを付加した論理構
造化文書を生成することを特徴とする。
【0008】
【作用】本発明によれば、文書型データファイルの定義
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成し、さらに任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成する。
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成し、さらに任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成する。
【0009】そして、論理構造テーブルを検索し、要素
キーが抽出されたならば該要素キーに対応する見出し記
号を出力し、さらに文字キーが抽出されたならば該文字
キーに対応する論理単位の文字を文字の論理単位テーブ
ルから抽出し、見出し記号の後に出力する処理を繰り返
す。
キーが抽出されたならば該要素キーに対応する見出し記
号を出力し、さらに文字キーが抽出されたならば該文字
キーに対応する論理単位の文字を文字の論理単位テーブ
ルから抽出し、見出し記号の後に出力する処理を繰り返
す。
【0010】これにより、前記文字キーに対応する論理
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書が生成される。
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書が生成される。
【0011】
【実施例】以下、本発明の実施例を図面により具体的に
説明する。
説明する。
【0012】図1は、本発明の一実施例を示すシステム
ブロック図であり、文書型データファイル100、文書
データファイル101、論理構造か文書データファイル
107、入出力制御部108、入力装置112、表示装
置113、出力装置114とから成る。
ブロック図であり、文書型データファイル100、文書
データファイル101、論理構造か文書データファイル
107、入出力制御部108、入力装置112、表示装
置113、出力装置114とから成る。
【0013】このうち、文書操作制御部102は、文書
型データ解析部103、テーブル格納部104、文書デ
ータ解析部105、論理構造化文書データ生成部106
から成り、また入出力制御部108は文書出力制御部1
09、文書表示制御部110、ユーザインタフェース1
11から構成されている。
型データ解析部103、テーブル格納部104、文書デ
ータ解析部105、論理構造化文書データ生成部106
から成り、また入出力制御部108は文書出力制御部1
09、文書表示制御部110、ユーザインタフェース1
11から構成されている。
【0014】この構成においては、文書型データ解析部
103は文書型データファイル100に格納された文書
型データを解析し、論理構造化文書データの生成に必要
な要素の論理構造テーブルをテーブル格納部104に作
成する。
103は文書型データファイル100に格納された文書
型データを解析し、論理構造化文書データの生成に必要
な要素の論理構造テーブルをテーブル格納部104に作
成する。
【0015】また、文書データ解析部105は、文書デ
ータファイル101に格納された文書データを解析し、
論理構造化文書データの生成に必要な文字の論理単位テ
ーブルをテーブル格納部104に作成する。
ータファイル101に格納された文書データを解析し、
論理構造化文書データの生成に必要な文字の論理単位テ
ーブルをテーブル格納部104に作成する。
【0016】そして、論理構造化文書データ生成部10
6は、テーブル格納部104の要素の論理構造テーブル
および文字の論理単位テーブルを抽出し、論理構造化文
書データを生成し、論理構造化文書データファイル10
7に出力する。
6は、テーブル格納部104の要素の論理構造テーブル
および文字の論理単位テーブルを抽出し、論理構造化文
書データを生成し、論理構造化文書データファイル10
7に出力する。
【0017】入力装置112は、入出力制御部108の
ユーザインタフェース111を通じて、文書操作制御部
102に対して指示を与える。また、入出力制御部10
8は入力装置112からの指示に従い、文書表示制御部
110を通じて表示装置113への表示出力を行うと共
に、文書出力制御部109を通じて出力装置114への
印刷出力を行う。
ユーザインタフェース111を通じて、文書操作制御部
102に対して指示を与える。また、入出力制御部10
8は入力装置112からの指示に従い、文書表示制御部
110を通じて表示装置113への表示出力を行うと共
に、文書出力制御部109を通じて出力装置114への
印刷出力を行う。
【0018】次に、文書型データ解析部103において
文書型データにおける要素の論理構造テーブルを生成す
る動作について図2のフローチャートを用いて説明す
る。
文書型データにおける要素の論理構造テーブルを生成す
る動作について図2のフローチャートを用いて説明す
る。
【0019】まず、ステップ200で、文書型を表わす
ためのキーを指定する。
ためのキーを指定する。
【0020】例えば、文書型を表わすキーとして「文書
型:」や「DOCTYPE」といったものを用いる。次
に、ステップ201で、要素を表わすためのキーを指定
する。例えば、要素を表わすキーとして「要素:」や
「ELEMENT」といったものを用いる。
型:」や「DOCTYPE」といったものを用いる。次
に、ステップ201で、要素を表わすためのキーを指定
する。例えば、要素を表わすキーとして「要素:」や
「ELEMENT」といったものを用いる。
【0021】次に、ステップ202で、文字データを表
わすためのキーを指定する。
わすためのキーを指定する。
【0022】例えば、文字データを表わすキーとして
「#文字データ」や「#PCDATA」といったものを
用いる。
「#文字データ」や「#PCDATA」といったものを
用いる。
【0023】次に、ステップ203で文書型データがな
くなるまで、ステップ204で要素の論理構造を生成す
る。
くなるまで、ステップ204で要素の論理構造を生成す
る。
【0024】ステップ204を詳しく説明すると、まず
ステップ205で文書型キーを抽出できたかどうか判別
し、ステップ206で文書型名を抽出し、それをステッ
プ207で最上位要素としてテーブル格納部104に登
録する。
ステップ205で文書型キーを抽出できたかどうか判別
し、ステップ206で文書型名を抽出し、それをステッ
プ207で最上位要素としてテーブル格納部104に登
録する。
【0025】また、ステップ208で要素キーを抽出で
きたかどうか判別し、ステップ209で要素名を抽出
し、それをステップ210で要素としてテーブル格納部
104に登録する。そして、ステップ211その要素名
に対する内容モデルを抽出し、ステップ212で下位要
素、接続関係、及び出現回数をテーブル格納部104に
登録する。
きたかどうか判別し、ステップ209で要素名を抽出
し、それをステップ210で要素としてテーブル格納部
104に登録する。そして、ステップ211その要素名
に対する内容モデルを抽出し、ステップ212で下位要
素、接続関係、及び出現回数をテーブル格納部104に
登録する。
【0026】図3は文書型データ解析部103における
処理前の文書型データ300の一例と処理後の要素の論
理構造311の具体例を示す図である。
処理前の文書型データ300の一例と処理後の要素の論
理構造311の具体例を示す図である。
【0027】ここでは、「文書型:」が文書型キー30
1であり、その次に現れた「標準」が文書型名302で
ある。この文書型名の「標準」が最上位要素となる。
1であり、その次に現れた「標準」が文書型名302で
ある。この文書型名の「標準」が最上位要素となる。
【0028】また、「要素:」が要素キー303であ
り、その次に現れた「標準」が要素名304である。そ
して、その次の「タイトル」が下位要素名305であ
り、「,」が接続関係306である。
り、その次に現れた「標準」が要素名304である。そ
して、その次の「タイトル」が下位要素名305であ
り、「,」が接続関係306である。
【0029】ここで、接続関係306を表わす符号とし
ては、「,」、「|」、「&」がある。
ては、「,」、「|」、「&」がある。
【0030】「,」は、内容モデルに現れたのと同じ順
ですべての要素が現れなければいけないことを指定する
場合に用い、「|」は内容モデルの中の一つの要素だけ
が現れなければならないことを指定する場合に用い、
「&」は内容モデルの中のすべての要素が現れなければ
ならないが、順を問わないことを指定する場合に用い
る。
ですべての要素が現れなければいけないことを指定する
場合に用い、「|」は内容モデルの中の一つの要素だけ
が現れなければならないことを指定する場合に用い、
「&」は内容モデルの中のすべての要素が現れなければ
ならないが、順を問わないことを指定する場合に用い
る。
【0031】次に、「章」が下位要素名307であり、
「+」が出現回数308を指定するものである。
「+」が出現回数308を指定するものである。
【0032】ここで、出現回数308には「?」、
「+」、「*」がある。
「+」、「*」がある。
【0033】「?」は任意選択(0回又は1回)を指定
する場合に用い、「+」は必須反復(1回以上)を指定
する場合に用い、「*」は任意選択反復(0回以上)を
指定する場合に用いる。また、必須(1回)を指定する
場合は出現回数「?」、「+」、「*」を用いない。そ
して、要素名305から出現回数308までの「(」と
「)」で囲まれいるもが内容モデル309である。
する場合に用い、「+」は必須反復(1回以上)を指定
する場合に用い、「*」は任意選択反復(0回以上)を
指定する場合に用いる。また、必須(1回)を指定する
場合は出現回数「?」、「+」、「*」を用いない。そ
して、要素名305から出現回数308までの「(」と
「)」で囲まれいるもが内容モデル309である。
【0034】また、「#文字データ」が文字データキー
310である。この文書型キー310は内容モデル30
9内に繰返し出現する要素名が記述される時は、その要
素名別に指定される。すなわち、図3の例においては、
内容モデル309内の要素名は「タイトル」305、
「章」307であるが、「章」307は1回以上繰返し
出現し、その中が「章タイトル」、「段落」、「節」に
よって構成されることが指定されているので、文字デー
タキー310の後段で「章タイトル」および「段落」を
表わす文字データキーがさらに階層的に記述される。
310である。この文書型キー310は内容モデル30
9内に繰返し出現する要素名が記述される時は、その要
素名別に指定される。すなわち、図3の例においては、
内容モデル309内の要素名は「タイトル」305、
「章」307であるが、「章」307は1回以上繰返し
出現し、その中が「章タイトル」、「段落」、「節」に
よって構成されることが指定されているので、文字デー
タキー310の後段で「章タイトル」および「段落」を
表わす文字データキーがさらに階層的に記述される。
【0035】このように表現された文書型データを解析
した結果、同図に示すような要素の論理構造テーブル3
11が作成される。
した結果、同図に示すような要素の論理構造テーブル3
11が作成される。
【0036】この論理構造テーブル311において、
「標準」312は、「タイトル」313と「章」315
から成り、「タイトル」313は0個以上の「#文字デ
ータ」314から構成される。また、「章」315は1
個以上の「章タイトル」316と「段落」318と
「節」の320から成り立ち、「章タイトル」316は
0個以上の「#文字データ」317から成り立ち、「段
落」318は0個以上の「#文字データ」319から成
り立ち、「節」320は1個以上の「段落」の321か
ら成り立ち、「段落」321は0個以上の「#文字デー
タ」の323から成り立つ。
「標準」312は、「タイトル」313と「章」315
から成り、「タイトル」313は0個以上の「#文字デ
ータ」314から構成される。また、「章」315は1
個以上の「章タイトル」316と「段落」318と
「節」の320から成り立ち、「章タイトル」316は
0個以上の「#文字データ」317から成り立ち、「段
落」318は0個以上の「#文字データ」319から成
り立ち、「節」320は1個以上の「段落」の321か
ら成り立ち、「段落」321は0個以上の「#文字デー
タ」の323から成り立つ。
【0037】ここで、矩形324は出現回数が「?」
(0または1個)、矩形325は出現回数が「*」(0
個以上)、矩形326は出現回数が「 」(1個)、矩
形327は出現回数が「+」(1個以上)であることを
示している。
(0または1個)、矩形325は出現回数が「*」(0
個以上)、矩形326は出現回数が「 」(1個)、矩
形327は出現回数が「+」(1個以上)であることを
示している。
【0038】次に、文書データ解析部105において文
書データファイル101に格納された文書データから文
字の論理単位テーブル502を生成する動作について図
4を用いて説明する。
書データファイル101に格納された文書データから文
字の論理単位テーブル502を生成する動作について図
4を用いて説明する。
【0039】まず、ステップ400で、区切りを表わす
ための文字を指定する。例えば、区切りを表わす文字と
して「改行文字」や「タブ文字」や「スペース」といっ
た文字を指定する。
ための文字を指定する。例えば、区切りを表わす文字と
して「改行文字」や「タブ文字」や「スペース」といっ
た文字を指定する。
【0040】次に、ステップ401で文書データがなく
なるまで、ステップ402で文字の論理単位テーブル5
02を生成する。
なるまで、ステップ402で文字の論理単位テーブル5
02を生成する。
【0041】ステップ402を詳しく説明すると、ま
ず、ステップ403で区切り文字を抽出できたかどうか
判別し、ステップ404で区切り文字までの文書データ
を抽出し、それをステップ405で文字の論理単位テー
ブル502としてテーブル格納部104に登録する。
ず、ステップ403で区切り文字を抽出できたかどうか
判別し、ステップ404で区切り文字までの文書データ
を抽出し、それをステップ405で文字の論理単位テー
ブル502としてテーブル格納部104に登録する。
【0042】図5は、文書データ解析部105における
処理前の文書データ500と処理後の文字の論理単位テ
ーブル502の具体例を示す図である。
処理前の文書データ500と処理後の文字の論理単位テ
ーブル502の具体例を示す図である。
【0043】この例では、「改行文字」501を区切り
文字として使用している。
文字として使用している。
【0044】まず、「特許」503は1つ目の論理単位
の文字である。「1章 発明の名称」504は2つ目の
論理単位の文字である。「論理構造化文書の生成方法」
505は3つ目の論理単位の文字である。
の文字である。「1章 発明の名称」504は2つ目の
論理単位の文字である。「論理構造化文書の生成方法」
505は3つ目の論理単位の文字である。
【0045】「2章 特許請求の範囲」506は4つ目
の論理単位の文字である。また、「1.文書型データを
基に・・・」507は5つ目の論理単位の文字である。
さらに、「2.既存文書データに対して・・・」508
は6つ目の論理単位の文字であり、「3.マーク付けを
行う。」509は7つ目の論理単位の文字である。
の論理単位の文字である。また、「1.文書型データを
基に・・・」507は5つ目の論理単位の文字である。
さらに、「2.既存文書データに対して・・・」508
は6つ目の論理単位の文字であり、「3.マーク付けを
行う。」509は7つ目の論理単位の文字である。
【0046】図6は、論理構造化文書データ生成部10
6の論理構造化文書を生成する手順を示すフローチャー
トである。以下、このフローチャートに基づいて論理構
造化文書を生成する動作について説明する。
6の論理構造化文書を生成する手順を示すフローチャー
トである。以下、このフローチャートに基づいて論理構
造化文書を生成する動作について説明する。
【0047】まず、ステップ600でマーク付け方法を
指定する。マーク付けの方法としては、順次マーク付
け、必須マーク付け、キー対応順次マーク付け、キー対
応必須マーク付けなどがある。次に、ステップ201で
開始・終了マークを指定する。
指定する。マーク付けの方法としては、順次マーク付
け、必須マーク付け、キー対応順次マーク付け、キー対
応必須マーク付けなどがある。次に、ステップ201で
開始・終了マークを指定する。
【0048】例えば、開始マークとして「数値.」や
「<要素名>」といったものを用いる。また、終了マー
クとして「</要素名>」といったものを用いる。
「<要素名>」といったものを用いる。また、終了マー
クとして「</要素名>」といったものを用いる。
【0049】次に、ステップ602で論理構造化文書を
生成する。すなわち、ステップ603で最上位要素の開
始マークを出力する。
生成する。すなわち、ステップ603で最上位要素の開
始マークを出力する。
【0050】ステップ604で次の論理構造要素が最上
位要素になるまでの間、ステップ605で指定されたマ
ーク付け方法の条件を現在の論理構造要素が満たしてい
るかどうか判別し、ステップ606で現在の論理構造要
素が何回構造上に出現したのか判別し、偶数回目ならス
テップ607で現在の論理構造要素の終了マークを出力
する。
位要素になるまでの間、ステップ605で指定されたマ
ーク付け方法の条件を現在の論理構造要素が満たしてい
るかどうか判別し、ステップ606で現在の論理構造要
素が何回構造上に出現したのか判別し、偶数回目ならス
テップ607で現在の論理構造要素の終了マークを出力
する。
【0051】しかし、奇数回目ならステップ608で現
在の論理構造要素の開始マークを出力し、ステップ60
9で要素と対応していない論理単位の文字が残っている
かどうか判別し、ステップ610で現在の論理構造要素
の下位要素に#文字データがあるかどうか判別し、ステ
ップ611で論理単位に区切られた文字を出力する。そ
して、ステップ612で最上位要素の終了マークを出力
する。
在の論理構造要素の開始マークを出力し、ステップ60
9で要素と対応していない論理単位の文字が残っている
かどうか判別し、ステップ610で現在の論理構造要素
の下位要素に#文字データがあるかどうか判別し、ステ
ップ611で論理単位に区切られた文字を出力する。そ
して、ステップ612で最上位要素の終了マークを出力
する。
【0052】図7は、順次マーク付け方法によって生成
される論理構造化文書データ700の具体例を示す図で
ある。
される論理構造化文書データ700の具体例を示す図で
ある。
【0053】ここでは、「<標準>」が開始マーク70
1であり、「</タイトル>」が終了マーク702であ
る。図3で示した文書型データ300と図5で示した文
書データ500から、図6で示したマーク付け指定方法
として「順次マーク付け」を指定した場合、図7に示す
ような論理構造化文書データ(順次マーク付け)700
となる。
1であり、「</タイトル>」が終了マーク702であ
る。図3で示した文書型データ300と図5で示した文
書データ500から、図6で示したマーク付け指定方法
として「順次マーク付け」を指定した場合、図7に示す
ような論理構造化文書データ(順次マーク付け)700
となる。
【0054】以下、このような論理構造化文書データ7
00が生成される過程を、図3の要素の論理構造テーブ
ル311と図5の文字の論理単位テーブル502、並び
に図8の論理構造テーブルでの要素の出現順番を示す図
を参照しつつ説明する。
00が生成される過程を、図3の要素の論理構造テーブ
ル311と図5の文字の論理単位テーブル502、並び
に図8の論理構造テーブルでの要素の出現順番を示す図
を参照しつつ説明する。
【0055】なお、図8の900は要素の出現順番を示
すものであり、901は出力文字を示す。
すものであり、901は出力文字を示す。
【0056】まず、要素の論理構造テーブル311より
最上位要素を読み込む。すると、最上位要素は「標準」
312であるので、「標準」312の開始マーク「<標
準>」を出力する。
最上位要素を読み込む。すると、最上位要素は「標準」
312であるので、「標準」312の開始マーク「<標
準>」を出力する。
【0057】次に、要素の論理構造テーブル311より
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。
【0058】「タイトル」313は1度目の出現なの
で、開始マーク「<タイトル>」を出力する。次に、要
素の論理構造テーブル311より「タイトル」313の
下位要素を読み込む。
で、開始マーク「<タイトル>」を出力する。次に、要
素の論理構造テーブル311より「タイトル」313の
下位要素を読み込む。
【0059】下位要素は「#文字データ」314であ
る。下位要素が「#文字データ」314であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「特許」503を出力する。
る。下位要素が「#文字データ」314であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「特許」503を出力する。
【0060】次に、要素の論理構造テーブル311より
「#文字データ」314の下位要素を読み込む。図3の
例では下位要素は存在しない。
「#文字データ」314の下位要素を読み込む。図3の
例では下位要素は存在しない。
【0061】次に、要素の論理構造テーブル311より
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。
【0062】次に、要素の論理構造テーブル311より
「#文字データ」314の上位要素を読み込む。上位要
素は「タイトル」313である。
「#文字データ」314の上位要素を読み込む。上位要
素は「タイトル」313である。
【0063】「タイトル」313は2度目の出現なの
で、終了マーク「</タイトル>」を出力する。
で、終了マーク「</タイトル>」を出力する。
【0064】次に、要素の論理構造テーブル311より
「タイトル」313の同位要素を読み込む。
「タイトル」313の同位要素を読み込む。
【0065】同位要素は「章」315である。「章」3
15は1度目の出現なので、開始マーク「<章>」を出
力する。次に、要素の論理構造テーブル311より
「章」315の下位要素を読み込む。
15は1度目の出現なので、開始マーク「<章>」を出
力する。次に、要素の論理構造テーブル311より
「章」315の下位要素を読み込む。
【0066】下位要素は「章タイトル」316である。
「章タイトル」316は1度目の出現であるので、開始
マーク「<章タイトル>」を出力する。次に、要素の論
理構造(テーブル)311より「章タイトル」316の
下位要素を読み込む。
「章タイトル」316は1度目の出現であるので、開始
マーク「<章タイトル>」を出力する。次に、要素の論
理構造(テーブル)311より「章タイトル」316の
下位要素を読み込む。
【0067】下位要素は「#文字データ」317であ
る。下位要素が「#文字データ」317であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「1章 発明の名称」504を読み込ん
で出力する。
る。下位要素が「#文字データ」317であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「1章 発明の名称」504を読み込ん
で出力する。
【0068】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。
【0069】次に、要素の論理構造テーブル311より
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。
【0070】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
【0071】「章タイトル」316は2度目の出現なの
で、終了マーク「</章タイトル>」を出力する。
で、終了マーク「</章タイトル>」を出力する。
【0072】次に、要素の論理構造テーブル311より
「章タイトル」316の同位要素を読み込む。
「章タイトル」316の同位要素を読み込む。
【0073】同位要素は「段落」318である。「段
落」318は1度目の出現であるので、開始マーク「<
段落>」を出力する。次に、要素の論理構造テーブル3
11より「段落」318の下位要素を読み込む。
落」318は1度目の出現であるので、開始マーク「<
段落>」を出力する。次に、要素の論理構造テーブル3
11より「段落」318の下位要素を読み込む。
【0074】下位要素は「#文字データ」319であ
る。下位要素が「#文字データ」319であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「論理構造化文書生成方法(装置)」5
05を読み込んで出力する。
る。下位要素が「#文字データ」319であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「論理構造化文書生成方法(装置)」5
05を読み込んで出力する。
【0075】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。
【0076】次に、要素の論理構造テーブル311より
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造(テーブル)3
11より「#文字データ」319の上位要素を読み込
む。上位要素は「段落」318である。
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造(テーブル)3
11より「#文字データ」319の上位要素を読み込
む。上位要素は「段落」318である。
【0077】「段落」318は2度目の出現であるの
で、終了マーク「</段落>」を出力する。次に、要素
の論理構造テーブル311より「段落」318の同位要
素を読み込む。同位要素は「節」320である。
で、終了マーク「</段落>」を出力する。次に、要素
の論理構造テーブル311より「段落」318の同位要
素を読み込む。同位要素は「節」320である。
【0078】「節」320は1度目の出現であるので、
開始マーク「<節>」を出力する。
開始マーク「<節>」を出力する。
【0079】次に、要素の論理構造テーブル311より
「節」320の下位要素を読み込む。下位要素は「段
落」321である。
「節」320の下位要素を読み込む。下位要素は「段
落」321である。
【0080】「段落」321は1度目の出現であるの
で、開始マーク「<段落>」を出力する。次に要素の論
理構造テーブル311より「段落」321の下位要素を
読み込む。
で、開始マーク「<段落>」を出力する。次に要素の論
理構造テーブル311より「段落」321の下位要素を
読み込む。
【0081】下位要素は「#文字データ」323であ
る。下位要素が「#文字データ」323であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「2章 特許請求の範囲」506を読み
込んで出力する。
る。下位要素が「#文字データ」323であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「2章 特許請求の範囲」506を読み
込んで出力する。
【0082】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
【0083】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。
【0084】「段落」321は2度目の出現なので、終
了マーク「</段落>」を出力する。
了マーク「</段落>」を出力する。
【0085】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。
「段落」321の同位要素を読み込む。
【0086】「段落」321は出現回数が1個以上であ
るので、同位要素は「段落」321である。「段落」3
21は3度目の出現であるので、開始マーク「<段落
>」を出力する。
るので、同位要素は「段落」321である。「段落」3
21は3度目の出現であるので、開始マーク「<段落
>」を出力する。
【0087】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「1.文書型
データを基にした・・・」507を読み込んで出力す
る。
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「1.文書型
データを基にした・・・」507を読み込んで出力す
る。
【0088】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
【0089】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は4度目の
出現であるので、終了マーク「</段落>」を出力す
る。
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は4度目の
出現であるので、終了マーク「</段落>」を出力す
る。
【0090】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。「段落」321は5度目の出現
であるので、開始マーク「<段落>」を出力する。
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。「段落」321は5度目の出現
であるので、開始マーク「<段落>」を出力する。
【0091】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「2.既存文
書データに対して・・・」508を読み込んで出力す
る。
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「2.既存文
書データに対して・・・」508を読み込んで出力す
る。
【0092】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。
【0093】次に、要素の論理構造テーブル311より
「#文字データ」323の同位要素を読み込む。同位要
素は存在しない。
「#文字データ」323の同位要素を読み込む。同位要
素は存在しない。
【0094】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は6度目の
出現であるので、終了マーク「</段落>」を出力す
る。要素の論理構造テーブル311より「段落」321
の同位要素を読み込む。
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は6度目の
出現であるので、終了マーク「</段落>」を出力す
る。要素の論理構造テーブル311より「段落」321
の同位要素を読み込む。
【0095】「段落」321は出現回数が1個以上とな
っているので、同位要素は「段落」321である。「段
落」321は7度目の出現であるので、開始マーク「<
段落>」を出力する。
っているので、同位要素は「段落」321である。「段
落」321は7度目の出現であるので、開始マーク「<
段落>」を出力する。
【0096】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「3.マーク
付けを行う。」509を読み込んで出力する。
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「3.マーク
付けを行う。」509を読み込んで出力する。
【0097】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。
【0098】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は8度目の
出現であるので、終了マーク「</段落>」を出力す
る。
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は8度目の
出現であるので、終了マーク「</段落>」を出力す
る。
【0099】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。しかし、文字の論理単位テーブ
ル502の論理単位の文字が要素とすべて対応したの
で、「段落」321は条件を満足しない。図8では、こ
の時の「段落」321を符号902で示している。
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。しかし、文字の論理単位テーブ
ル502の論理単位の文字が要素とすべて対応したの
で、「段落」321は条件を満足しない。図8では、こ
の時の「段落」321を符号902で示している。
【0100】次に、要素の論理構造テーブル311より
「段落」321以外の「段落」321の同位要素を読み
込む。同位要素は存在しない。次に、要素の論理構造テ
ーブル311より「段落」321の上位要素を読み込
む。上位要素は「節」320である。
「段落」321以外の「段落」321の同位要素を読み
込む。同位要素は存在しない。次に、要素の論理構造テ
ーブル311より「段落」321の上位要素を読み込
む。上位要素は「節」320である。
【0101】「節」320は2度目の出現であるので、
終了マーク「</節>」を出力する。
終了マーク「</節>」を出力する。
【0102】次に、要素の論理構造テーブル311より
「節」320の同位要素を読み込む。「節」320は出
現回数が0個以上となっているので、同位要素は「節」
320である。
「節」320の同位要素を読み込む。「節」320は出
現回数が0個以上となっているので、同位要素は「節」
320である。
【0103】しかし、文字の論理単位テーブル502の
論理単位の文字が要素とすべて対応したので、「節」3
20は条件を満足しない。
論理単位の文字が要素とすべて対応したので、「節」3
20は条件を満足しない。
【0104】次に、要素の論理構造テーブル311より
「節」320以外の「節」320の同位要素を読み込
む。同位要素は存在しない。
「節」320以外の「節」320の同位要素を読み込
む。同位要素は存在しない。
【0105】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。「章」315は2度目の出現であるの
で、終了マーク「</章>」を出力する。
「節」320の上位要素を読み込む。上位要素は「章」
315である。「章」315は2度目の出現であるの
で、終了マーク「</章>」を出力する。
【0106】次に、要素の論理構造テーブル311より
「章」315の同位要素を読み込む。
「章」315の同位要素を読み込む。
【0107】「章」315は出現回数が1個以上となっ
ているので、同位要素は「章」315である。しかし、
文字の論理単位テーブル502の論理単位の文字が要素
とすべて対応したので、「章」315は条件を満足しな
い。
ているので、同位要素は「章」315である。しかし、
文字の論理単位テーブル502の論理単位の文字が要素
とすべて対応したので、「章」315は条件を満足しな
い。
【0108】次に、要素の論理構造テーブル311より
「章」315以外の「章」315の同位要素を読み込
む。同位要素は存在しない。
「章」315以外の「章」315の同位要素を読み込
む。同位要素は存在しない。
【0109】次に、要素の論理構造テーブル311より
「章」315の上位要素を読み込む。上位要素は「標
準」312である。「標準」312は最上位要素である
ので、終了マーク「</標準>」を出力し、処理を終了
する。
「章」315の上位要素を読み込む。上位要素は「標
準」312である。「標準」312は最上位要素である
ので、終了マーク「</標準>」を出力し、処理を終了
する。
【0110】図9は、必須マーク付け方法によって生成
される論理構造化文書データ800の具体例を示す図で
ある。
される論理構造化文書データ800の具体例を示す図で
ある。
【0111】以下、図3で示した文書型データ300と
図5で示した文書データ500、並びに図10に示す論
理構造テーブル311での要素の出現順番を示す図に基
づき、図9の論理構造化文書データ800が生成される
過程を説明する。
図5で示した文書データ500、並びに図10に示す論
理構造テーブル311での要素の出現順番を示す図に基
づき、図9の論理構造化文書データ800が生成される
過程を説明する。
【0112】なお、図10において、1000は要素の
出現順番を示すものであり、1001は出力文字を順番
に示したものである。
出現順番を示すものであり、1001は出力文字を順番
に示したものである。
【0113】まず、要素の論理構造テーブル311より
最上位要素を読み込む。最上位要素は「標準」312で
ある。「標準」312の開始マーク「<標準>」を出力
する。
最上位要素を読み込む。最上位要素は「標準」312で
ある。「標準」312の開始マーク「<標準>」を出力
する。
【0114】次に、要素の論理構造テーブル311より
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。「タイトル」313は出現回数
が1個であり、必須の条件を満たし、また、1度目の出
現であるので開始マーク「<タイトル>」を出力する。
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。「タイトル」313は出現回数
が1個であり、必須の条件を満たし、また、1度目の出
現であるので開始マーク「<タイトル>」を出力する。
【0115】次に、要素の論理構造テーブル311より
「タイトル」313の下位要素を読み込む。下位要素は
「#文字データ」314である。
「タイトル」313の下位要素を読み込む。下位要素は
「#文字データ」314である。
【0116】下位要素が「#文字データ」314である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「特許」503を出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「特許」503を出力する。
【0117】次に、要素の論理構造テーブル311より
「#文字データ」314の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」314の下位要素を読み込む。下位要
素は存在しない。
【0118】次に、要素の論理構造テーブル311より
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」314の上位要素を読み込む。上
位要素は「タイトル」313である。
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」314の上位要素を読み込む。上
位要素は「タイトル」313である。
【0119】「タイトル」313は出現回数が1個であ
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</タイトル>」を出力する。
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</タイトル>」を出力する。
【0120】次に、要素の論理構造テーブル311より
「タイトル」313の同位要素を読み込む。同位要素は
「章」315である。
「タイトル」313の同位要素を読み込む。同位要素は
「章」315である。
【0121】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、1度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。
り、必須の条件を満たし、また、1度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。
【0122】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、1度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
あり、必須の条件を満たし、また、1度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
【0123】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1章 発明の名称」504を
読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1章 発明の名称」504を
読み込んで出力する。
【0124】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。
【0125】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
【0126】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、2度目の出現である
ので、終了マーク「</章タイトル>」を出力する。
あり、必須の条件を満たし、また、2度目の出現である
ので、終了マーク「</章タイトル>」を出力する。
【0127】次に、要素の論理構造テーブル311より
「章タイトル」316の同位要素を読み込む。同位要素
は「段落」318である。
「章タイトル」316の同位要素を読み込む。同位要素
は「段落」318である。
【0128】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、1度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
必須の条件を満たし、また、1度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
【0129】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「論理構造化文書生成方法(装
置)」505を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「論理構造化文書生成方法(装
置)」505を読み込んで出力する。
【0130】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
【0131】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
【0132】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、2度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
必須の条件を満たし、また、2度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
【0133】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
【0134】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。
「節」320の上位要素を読み込む。上位要素は「章」
315である。
【0135】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。
【0136】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、3度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。
り、必須の条件を満たし、また、3度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。
【0137】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、3度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
あり、必須の条件を満たし、また、3度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
【0138】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2章 特許請求の範囲」50
6を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2章 特許請求の範囲」50
6を読み込んで出力する。
【0139】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。
【0140】次に、要素の論理構造テーブル311より
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の上位要素を読み込む。上
位要素は「章タイトル」316である。
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の上位要素を読み込む。上
位要素は「章タイトル」316である。
【0141】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、4度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。
あり、必須の条件を満たし、また、4度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。
【0142】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、3度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
必須の条件を満たし、また、3度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
【0143】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1.文書型データを基にした
・・・」507を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1.文書型データを基にした
・・・」507を読み込んで出力する。
【0144】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。
【0145】次に、要素の論理構造テーブル311より
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の上位要素を読み込む。上
位要素は「段落」318である。
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の上位要素を読み込む。上
位要素は「段落」318である。
【0146】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、4度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
必須の条件を満たし、また、4度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
【0147】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
【0148】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。
「節」320の上位要素を読み込む。上位要素は「章」
315である。
【0149】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、4度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。
り、必須の条件を満たし、また、4度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。
【0150】「章」315は出現回数が1個以上である
ので、同位要素は「章」315である。「章」315は
出現回数が1個以上であり、必須の条件を満たし、ま
た、5度目の出現であるので、開始マーク「<章>」を
出力する。
ので、同位要素は「章」315である。「章」315は
出現回数が1個以上であり、必須の条件を満たし、ま
た、5度目の出現であるので、開始マーク「<章>」を
出力する。
【0151】次に、要素の論理構造テーブル311より
「章」315の下位要素を読み込む。下位要素は「章タ
イトル」316である。
「章」315の下位要素を読み込む。下位要素は「章タ
イトル」316である。
【0152】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、5度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
あり、必須の条件を満たし、また、5度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。
【0153】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2.既存文書データに対して
・・・」508を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2.既存文書データに対して
・・・」508を読み込んで出力する。
【0154】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。
【0155】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。
【0156】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、6度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。
あり、必須の条件を満たし、また、6度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。
【0157】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
【0158】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。
【0159】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
【0160】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
【0161】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
【0162】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
【0163】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。
「節」320の上位要素を読み込む。上位要素は「章」
315である。
【0164】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。同位要素は「段落」318である。
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。同位要素は「段落」318である。
【0165】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。
【0166】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。
【0167】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。
【0168】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。
【0169】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。
【0170】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。
【0171】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。
「節」320の上位要素を読み込む。上位要素は「章」
315である。
【0172】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に要素の論
理構造テーブル311より「章」315の同位要素を読
み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に要素の論
理構造テーブル311より「章」315の同位要素を読
み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。
【0173】しかし、文字の論理単位テーブル502の
論理単位の文字が要素とすべて対応したので、「章」3
15は条件を満足しない。次に、要素の論理構造テーブ
ル311より「章」315以外の「章」315の同位要
素を読み込む。同位要素は存在しない。
論理単位の文字が要素とすべて対応したので、「章」3
15は条件を満足しない。次に、要素の論理構造テーブ
ル311より「章」315以外の「章」315の同位要
素を読み込む。同位要素は存在しない。
【0174】次に、要素の論理構造テーブル311より
「章」315の上位要素を読み込む。上位要素は「標
準」312である。
「章」315の上位要素を読み込む。上位要素は「標
準」312である。
【0175】「標準」312は最上位要素であるので、
終了マーク「</標準>」を出力し、処理を終了する。
終了マーク「</標準>」を出力し、処理を終了する。
【0176】以上のように、本実施例においては、文書
データの章、節、項などのツリー状の階層構造を求める
論理構造化文書の生成方法において、文書の構成要素を
示す文書型データ及び任意の形式の文書データを解析
し、その解析結果から論理構造化文書を生成するために
必要なテーブル311,502を各々生成する。
データの章、節、項などのツリー状の階層構造を求める
論理構造化文書の生成方法において、文書の構成要素を
示す文書型データ及び任意の形式の文書データを解析
し、その解析結果から論理構造化文書を生成するために
必要なテーブル311,502を各々生成する。
【0177】この文書型データの解析及びテーブル31
1の生成は、文書型データ解析部103によって行われ
る。文書型データ解析部103は、先ず、文書型を表す
ためのキー、要素を表すためのキー、文字データを表す
ためのキーを指定する。
1の生成は、文書型データ解析部103によって行われ
る。文書型データ解析部103は、先ず、文書型を表す
ためのキー、要素を表すためのキー、文字データを表す
ためのキーを指定する。
【0178】次に、文字型キーを抽出できたかを判別
し、抽出できていればその名称を抽出する。そして、そ
れを最上位要素としてテーブル311に登録する。更
に、要素キーを抽出できたかを判別し、抽出できていれ
ばその名称を抽出する。そして、それを要素としてテー
ブル311に登録し、要素の名称に対する内容モデルを
抽出する。
し、抽出できていればその名称を抽出する。そして、そ
れを最上位要素としてテーブル311に登録する。更
に、要素キーを抽出できたかを判別し、抽出できていれ
ばその名称を抽出する。そして、それを要素としてテー
ブル311に登録し、要素の名称に対する内容モデルを
抽出する。
【0179】最後に、その内容から下位要素、接続関係
及び出現回数を同じくテーブル311に登録する。以上
の処理を文書型データがなくなるまで繰り返し、文書型
データの解析及びテーブル311の生成を行う。
及び出現回数を同じくテーブル311に登録する。以上
の処理を文書型データがなくなるまで繰り返し、文書型
データの解析及びテーブル311の生成を行う。
【0180】これに対して、文書データの解析及びテー
ブル502の生成は、文書データ解析部105によって
行われる。文書データ解析部は、先ず、区切りを表すた
めの文字を指定する。次に、区切り文字を抽出できたか
を判別し、抽出できていればその区切り文字までの文書
データを抽出する。そして、それを文書型データのテー
ブル311とは異なるテーブル502に登録する。以上
の処理を文書データがなくなるまで繰り返し、文書デー
タの解析及びテーブル502の生成を行う。
ブル502の生成は、文書データ解析部105によって
行われる。文書データ解析部は、先ず、区切りを表すた
めの文字を指定する。次に、区切り文字を抽出できたか
を判別し、抽出できていればその区切り文字までの文書
データを抽出する。そして、それを文書型データのテー
ブル311とは異なるテーブル502に登録する。以上
の処理を文書データがなくなるまで繰り返し、文書デー
タの解析及びテーブル502の生成を行う。
【0181】このように、文書型データ及び文書データ
のテーブルを作成した後、それらテーブルの内容に基づ
いて文書データに対してマーク付けする。このマーク付
けは、論理構造化文書データ生成部106によって行わ
れる。
のテーブルを作成した後、それらテーブルの内容に基づ
いて文書データに対してマーク付けする。このマーク付
けは、論理構造化文書データ生成部106によって行わ
れる。
【0182】論理構造化文書データ生成部106は、先
ず、マーク付け方法及び開始・終了マークの形態を指定
する。次に、最上位要素の開始マークを出力する。そし
て、次の論理構造要素が最上位になるまでの間、指定さ
れたマーク付け方法の条件を現在の論理構造要素が満た
しているかを判別し、満たしていれば、現在の論理構造
化要素が何度構造上に出現したのかを判別し、偶数回目
なら現在の論理構造要素の終了マークを出力する。
ず、マーク付け方法及び開始・終了マークの形態を指定
する。次に、最上位要素の開始マークを出力する。そし
て、次の論理構造要素が最上位になるまでの間、指定さ
れたマーク付け方法の条件を現在の論理構造要素が満た
しているかを判別し、満たしていれば、現在の論理構造
化要素が何度構造上に出現したのかを判別し、偶数回目
なら現在の論理構造要素の終了マークを出力する。
【0183】これに対し、奇数回目なら現在の論理構造
要素の開始マークを出力する。更に要素と対応していな
い論理単位の文字が残っているかを判別し、残っていれ
ば、現在の論理構造化要素の下位要素に#文字データが
あるかを判別する。#文字データがあれば論理単位に区
切られた文字を出力する。
要素の開始マークを出力する。更に要素と対応していな
い論理単位の文字が残っているかを判別し、残っていれ
ば、現在の論理構造化要素の下位要素に#文字データが
あるかを判別する。#文字データがあれば論理単位に区
切られた文字を出力する。
【0184】最後に、最上位要素の終了マークを出力す
る。尚、このマークは、文書データ中に見出し記号が存
在するか否かに関わらず付加される。
る。尚、このマークは、文書データ中に見出し記号が存
在するか否かに関わらず付加される。
【0185】従って、文書データ中の見出し記号に有無
に関わらず、文書データを階層構造に再編成した論理構
造化文書を容易に生成することができ、さらに見出し記
号の記載の仕方にばらつきに関わらず、文書データを階
層構造に再編成した論理構造化文書を同一処理によって
容易に生成することができる。
に関わらず、文書データを階層構造に再編成した論理構
造化文書を容易に生成することができ、さらに見出し記
号の記載の仕方にばらつきに関わらず、文書データを階
層構造に再編成した論理構造化文書を同一処理によって
容易に生成することができる。
【0186】以上、本実施例では、順次マーク付け方
法、必須マーク付け方法について説明したが、キー対応
順次マーク付け方法、キー対応必須マーク付け方法によ
っても論理構造化文書が容易に生成できることは言うま
でもない。
法、必須マーク付け方法について説明したが、キー対応
順次マーク付け方法、キー対応必須マーク付け方法によ
っても論理構造化文書が容易に生成できることは言うま
でもない。
【0187】キー対応順次マーク付け方法とは、要素に
対応する見出し記号の指定を最初に行い、それをキーと
して要素と文字の対応を取る。その後、対応の取れてい
ない残りの要素と文字に対しては順次マーク付け方法に
従い対応を取る。以上の方法で論理構造化文書を生成す
ることを言う。
対応する見出し記号の指定を最初に行い、それをキーと
して要素と文字の対応を取る。その後、対応の取れてい
ない残りの要素と文字に対しては順次マーク付け方法に
従い対応を取る。以上の方法で論理構造化文書を生成す
ることを言う。
【0188】また、キー対応必須マーク付け方法とは、
要素に対応する見出し記号の指定を最初に行い、それを
キーとして要素と文字の対応を取る。その後、対応の取
れていない残りの要素と文字に対しては必須マーク付け
方法に従い対応を取る。以上の方法で論理構造化文書を
生成することを言う。
要素に対応する見出し記号の指定を最初に行い、それを
キーとして要素と文字の対応を取る。その後、対応の取
れていない残りの要素と文字に対しては必須マーク付け
方法に従い対応を取る。以上の方法で論理構造化文書を
生成することを言う。
【0189】キー対応のマーク付け方法は、要素に対応
する見出し記号が一意な文書の論理構造化に対して、正
当性が向上する。
する見出し記号が一意な文書の論理構造化に対して、正
当性が向上する。
【0190】
【発明の効果】以上説明したように、本発明の論理構造
化文書の生成方法によれば、目的とする文書を構成する
章などの各要素を示す要素キーと、各要素に対して文字
を対応付けることを示す文字キーとを、目的とする論理
構造に対応付けて定義した文書型データファイルの定義
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成したうえ、任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成し、これら論理構造テーブルおよび文字の論理単位
テーブルの内容に基づき、前記文字キーに対応する論理
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書を生成するようにしたた
め、文書データ中の見出し記号に有無に関わらず、文書
データを階層構造に再編成した論理構造化文書を容易に
生成することができ、さらに見出し記号の記載の仕方に
ばらつきに関わらず、文書データを階層構造に再編成し
た論理構造化文書を同一処理によって容易に生成するこ
とができる。
化文書の生成方法によれば、目的とする文書を構成する
章などの各要素を示す要素キーと、各要素に対して文字
を対応付けることを示す文字キーとを、目的とする論理
構造に対応付けて定義した文書型データファイルの定義
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成したうえ、任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成し、これら論理構造テーブルおよび文字の論理単位
テーブルの内容に基づき、前記文字キーに対応する論理
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書を生成するようにしたた
め、文書データ中の見出し記号に有無に関わらず、文書
データを階層構造に再編成した論理構造化文書を容易に
生成することができ、さらに見出し記号の記載の仕方に
ばらつきに関わらず、文書データを階層構造に再編成し
た論理構造化文書を同一処理によって容易に生成するこ
とができる。
【0191】従って、論理構造が統一された文書データ
ベースを構築する際に極めて有効なものとなる。
ベースを構築する際に極めて有効なものとなる。
【図1】本発明の一実施例を示すシステムブロック図で
ある。
ある。
【図2】文書型データ解析部の要素の論理構造テーブル
を生成する動作を示すフローチャートである。
を生成する動作を示すフローチャートである。
【図3】文書型データ解析部における処理前の文書型デ
ータと処理後の要素の論理構造の具体例を示す説明図で
ある。
ータと処理後の要素の論理構造の具体例を示す説明図で
ある。
【図4】文書データ解析部の文字の論理単位テーブルを
生成する動作を示すフローチャートである。
生成する動作を示すフローチャートである。
【図5】文書データ解析部における処理前の文書データ
と処理後の文字の論理単位の具体例を示す説明図であ
る。
と処理後の文字の論理単位の具体例を示す説明図であ
る。
【図6】論理構造化文書データ生成部の論理構造化文書
を生成する動作を示すフローチャートである。
を生成する動作を示すフローチャートである。
【図7】順次マーク付け方法による論理構造化文書デー
タの具体例を示す説明図である。
タの具体例を示す説明図である。
【図8】順次マーク付け方法における要素の出現順番を
示す説明図である。
示す説明図である。
【図9】必須マーク付け方法による論理構造化文書デー
タの具体例を示す説明図である。
タの具体例を示す説明図である。
【図10】必須マーク付け方法における要素の出現順番
を示す説明図である。
を示す説明図である。
100…文書型データファイル、101…文書データフ
ァイル、103…文書型データ解析部、105…文書デ
ータ解析部、106…論理構造化文書データ生成部、1
07…論理構造化文書データファイル、300…文書型
データ、311…要素の論理構造テーブル、500…文
書データ、502…文字の論理単位テーブル。
ァイル、103…文書型データ解析部、105…文書デ
ータ解析部、106…論理構造化文書データ生成部、1
07…論理構造化文書データファイル、300…文書型
データ、311…要素の論理構造テーブル、500…文
書データ、502…文字の論理単位テーブル。
Claims (2)
- 【請求項1】 任意の形式の文書データから章、節、項
などのツリー状の階層構造に再編成した論理構造化文書
を生成する論理構造化文書の生成方法において、 目的とする文書を構成する章などの各要素を示す要素キ
ーと、各要素に対して文字を対応付けることを示す文字
キーとを、目的とする論理構造に対応付けて文書型デー
タファイルに予め定義しておき、この文書型データファ
イルの定義内容を解析し、目的とする文書の論理構造を
示す論理構造テーブルを作成したうえ、前記任意の形式
の文書データを解析し、文書データを構成する文字を所
定の区切り記号によって論理単位に分割した文字の論理
単位テーブルを作成し、これら論理構造テーブルおよび
文字の論理単位テーブルの内容に基づき、前記文字キー
に対応する論理単位の文字に対して前記要素キーで示さ
れる見出しマークを付加した論理構造化文書を生成する
ことを特徴とする論理構造化文書の生成方法。 - 【請求項2】 前記見出しマークは、複数のマーク付け
方法のうち選択指定された方法に従って付加することを
特徴とする請求項1記載の論理構造化文書の生成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6231550A JPH0895975A (ja) | 1994-09-27 | 1994-09-27 | 論理構造化文書の生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6231550A JPH0895975A (ja) | 1994-09-27 | 1994-09-27 | 論理構造化文書の生成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0895975A true JPH0895975A (ja) | 1996-04-12 |
Family
ID=16925258
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6231550A Pending JPH0895975A (ja) | 1994-09-27 | 1994-09-27 | 論理構造化文書の生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0895975A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010104164A (ko) * | 2000-05-13 | 2001-11-24 | 이성환 | 자동 문서 구조 분석 방법 |
-
1994
- 1994-09-27 JP JP6231550A patent/JPH0895975A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010104164A (ko) * | 2000-05-13 | 2001-11-24 | 이성환 | 자동 문서 구조 분석 방법 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7707139B2 (en) | Method and apparatus for searching and displaying structured document | |
| US7111011B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
| US4969093A (en) | Method of data stream construct management utilizing format shells and shell fragments | |
| RU2358311C2 (ru) | Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml | |
| US5367619A (en) | Electronic data entry system employing an expert system to facilitate generation of electronic data forms with complex interrelationships between fields and subforms | |
| JP2896634B2 (ja) | 全文登録語検索装置および全文登録語検索方法 | |
| US6675355B1 (en) | Redline extensible markup language (XML) schema | |
| US20030074636A1 (en) | Enabling easy generation of XML documents from XML specifications | |
| JPH08255155A (ja) | 全文登録語検索装置および方法 | |
| JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
| JP2002297568A (ja) | 構造化文書符号化装置及び記録媒体 | |
| US7814408B1 (en) | Pre-computing and encoding techniques for an electronic document to improve run-time processing | |
| CA2281346A1 (en) | Method and apparatus for amplifying design information into software products | |
| JPH09146931A (ja) | 文書型定義生成装置 | |
| KR19990038731A (ko) | 전자문서를 위한 메타데이타 모형 및 모형화 방법과 메타데이타관리시스템 및 그 관리방법 | |
| JPH0895975A (ja) | 論理構造化文書の生成方法 | |
| JP3842576B2 (ja) | 構造化文書編集方法及び構造化文書編集システム | |
| JP2006202308A (ja) | グラフィカルユーザインターフェース方法、グラフィカルユーザインターフェース装置、及び記録媒体 | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JP3966086B2 (ja) | 文書処理装置および方法 | |
| JP2002342342A (ja) | 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体 | |
| Milosavljevic et al. | XML schema of UNIMARC format variant and bibliographic record in BISIS software system | |
| JP2003288365A (ja) | 付加情報管理方法及び付加情報管理システム | |
| JP2000099543A (ja) | 情報検索装置 | |
| Watt et al. | XLink Essentials |