JP4207992B2 - 構造化文書処理システム及び構造化文書処理方法 - Google Patents
構造化文書処理システム及び構造化文書処理方法 Download PDFInfo
- Publication number
- JP4207992B2 JP4207992B2 JP2006190979A JP2006190979A JP4207992B2 JP 4207992 B2 JP4207992 B2 JP 4207992B2 JP 2006190979 A JP2006190979 A JP 2006190979A JP 2006190979 A JP2006190979 A JP 2006190979A JP 4207992 B2 JP4207992 B2 JP 4207992B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- instruction
- structured
- processing
- structured document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 306
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000000034 method Methods 0.000 claims description 172
- 230000008569 process Effects 0.000 claims description 126
- 230000004913 activation Effects 0.000 claims description 71
- 238000004458 analytical method Methods 0.000 claims description 64
- 230000002194 synthesizing effect Effects 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 19
- 238000000926 separation method Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 description 105
- 238000003780 insertion Methods 0.000 description 79
- 230000037431 insertion Effects 0.000 description 79
- 239000002994 raw material Substances 0.000 description 51
- 238000013515 script Methods 0.000 description 46
- 230000014509 gene expression Effects 0.000 description 35
- 230000015572 biosynthetic process Effects 0.000 description 33
- 230000003252 repetitive effect Effects 0.000 description 29
- 238000003786 synthesis reaction Methods 0.000 description 29
- 230000004044 response Effects 0.000 description 19
- 239000000203 mixture Substances 0.000 description 15
- 238000006467 substitution reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000010724 Wisteria floribunda Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書部品の抽出を指定する抽出命令又は文書部品の所定回数の複写を指定する反復複写命令又は文書部品の挿入若しくは置換を指定する挿入置換命令を該当する文書部品に付与する命令付与手段と、
構造化文書の構造を解析して構文解析木を生成する解析手段と、
前記解析手段により生成された構文解析木を基に構造化文書に付与された命令と文書部品を分離して命令を取り出す命令分離手段と、
抽出命令が付与された第1の構造化文書から前記命令分離手段によって取り出された抽出命令と、反復複写命令及び/又は挿入置換命令が付与された第2の構造化文書から前記命令分離手段によって取り出された反復複写命令及び/又は挿入置換命令とを併合・整列して、該第1及び第2の構造化文書を処理するための命令列からなる文書処理記述を生成する文書処理記述生成手段と、
抽出命令の対象である第1の文書部品を第1の構造化文書から取り出す抽出手段と、
反復複写命令の対象である文書部品と該文書部品付与された命令を所定回数だけ反復複写する反復複写手段と、
第1の文書部品を、挿入置換命令の対象である第2の文書部品の前又は後に挿入するか又は該第2の文書部品と置換する挿入置換手段と、
文書処理記述を順次解釈して、前記抽出手段、前記反復複写手段、及び/又は前記挿入置換手段を用いて文書部品を合成するインタプリタと、
を具備することを特徴とする構造化文書処理システムである。
2. 構造が異なる複数の原料文書を混在させて文書部品を取り出すには、文書毎に文書部品に抽出命令を付与することで行なうので、文書毎の抽出の処理を個別に指定しなくてよい。同様に、文書部品を挿入又は置換する処理の指定も不要である。また、ユーザは、文書の構造が変わる度に適切なスクリプトを指定する必要がない。
3.文書部品は、所望の命令を元の文書中に直接的に付与することと、取り出した文書部品と挿入置換される文書部品の条件の指定(例えばラベル文字列が一致するなど)によって作成することができる。また、各ユーザがそれぞれの目的に応じて雛型文書をデザイン(作成)したり、所望の処理を行なう命令が組み込まれた雛型文書を選択したりして、ユーザ自らが原料文書と組み合わせることで文書処理アプリケーションを構成することができる。このように、手続き的でない、言い換えれば宣言的な方法で文書処理を構成することができるので、プログラミングの知識を充分に持たないユーザが広く文書処理を行なうことができる。すなわち、各ユーザがそれぞれの目的に合わせた構造化文書処理のアプリケーションを容易に作成することができる構造化文書処理システムが実現できる。
構造化文書を所定フォーマットのファイルとして格納するとともに、ファイル名を受信したことに応答して該当するファイルを前記ネットワーク経由で送信するファイル・サーバと、ファイルに対して文書処理を行なう構造化文書処理サーバとを少なくとも含み、前記構造化文書処理サーバは、
文書部品の抽出を指定した抽出命令が付与された第1の構造化文書のファイル名と反復複写命令又は挿入置換命令を付与した第2の構造化文書のファイル名を含む処理起動記述を入力し解析して、該処理起動記述に含まれるファイル名を前記ファイル・サーバに前記ネットワーク経由で送信し、ファイル名に該当する各ファイルを前記ファイル・サーバからネットワーク経由で入力する入力手段と、
第1の構造化文書及び第2の構造化文書を解析して構文解析木を生成し、構文解析木を探索して文書部品と命令とを分離して命令を取り出し、各命令を併合・整列して構造化文書を処理するための命令列からなる文書処理記述を生成し、該文書処理記述を解釈して構造化文書を合成処理する文書処理手段と、
前記文書処理手段で処理して得られた構造化文書又は文書部品を、所定フォーマットのファイルとしてネットワーク経由で出力する出力手段と
を具備することを特徴とする構造化文書処理システムである。
構造化文書の構造を解析して構文解析木を生成する解析手段と、
前記解析手段により生成された構文解析木を基に構造化文書に付与された命令と文書部品を分離して命令を取り出すとともに、命令の文法的なエラーを検出してエラー情報を出力する命令分離手段と、
エラー情報を入力してエラー通知を行なう文書を合成するエラー通知文書合成手段と、
エラー通知文書へのアクセス情報を生成する処理起動記述合成手段と、
処理起動記述を解釈して、エラー通知文書を取り出す処理起動記述解析手段と、
エラー通知文書を保持する保持手段と、
を具備することを特徴とする構造化文書処理システムである。
命令が付与された構造化文書を解析して構文解析木を生成するステップと、
構文解析木を探索して、文書部品と命令とを分離して命令を取り出すステップと、
構造化文書から取り出された各命令を併合・整列して、構造化文書を処理するための命令列からなる文書処理記述を生成するステップ、
文書処理記述を解釈して、構造化文書を合成処理するステップと、
を具備することを特徴とする構造化文書処理方法である。
(a)文書部品の抽出を指定する抽出命令が付与された第1の構造化文書を解析して構文解析木を生成するステップと、
(b)文書部品の所定回数の複写を指定する反復複写命令又は文書部品の挿入若しくは置換を指定する挿入置換命令が付与された第2の構造化文書を解析して構文解析木を生成するステップと、
(c)構文解析木を探索して、文書部品と命令とを分離して命令を取り出すステップと、
(d)抽出命令が付与された第1の構造化文書から取り出された抽出命令と、反復複写命令及び/又は挿入置換命令が付与された第2の構造化文書から取り出された反復複写命令及び/又は挿入置換命令とを併合・整列して、該第1及び第2の構造化文書を処理するための命令列からなる文書処理記述を生成するステップと、
(e)文書処理記述を解釈して、抽出命令の対象である第1の文書部品を第1の構造化文書から取り出すステップと、
(f)文書処理記述を解釈して、反復複写命令の対象である文書部品と該文書部品付与された命令を所定回数だけ反復複写するステップと、
(g)文書処理記述を解釈して、第1の文書部品を、挿入置換命令の対象である第2の文書部品の前又は後に挿入するか又は該第2の文書部品と置換するステップと、
(h)前記ステップ(e)乃至(g)の結果得られた構文解析木を出力するステップと、
を具備することを特徴とする構造化文書処理方法である。
原料文書1と原料文書2のそれぞれから分離した命令列に含まれるOUTの個数をラベル文字列毎に数える。これは、以下に示すように、命令列を走査して、オペコードがOUTである命令について、ラベル文字列をキーとして、整数値を値とする連想配列をインクリメントすることで実現できる。走査が終了した後で、ラベル文字列をキーとしてOUT命令の個数をラベル文字列毎に取り出すことができる。
雛型文書1の命令列において、命令列中にRPが含まれていた場合、すべてのRPのオペランドの文書部品中に含まれるINとOUTとRPを、原料文書のOUT命令の数に従って複写する。この複写は1つの雛型文書について、以下に示す手順Step21〜Step26を実行することで行われる。
すべての原料文書のOUTと、雛型文書のINとを、ラベル文字列が一致するものどうしでペアを構成して各ペアから新しい命令を合成する。この動作手順について以下に説明する。
1.原料文書の構造を変更した際に、これを処理するための別に管理されるスクリプトを用意しなくてよい。
2.構造が異なる複数の原料文書を混在させて文書部品を取り出すには、各文書毎に文書部品に抽出命令を付与することで行なうので、文書毎の抽出の処理を個別に指定しなくてよい。同様に、文書部品を挿入又は置換する処理の指定も不要である。また、ユーザは、文書の構造が変わる度に適切なスクリプトを指定する必要がない。
3.文書部品は、所望の命令を元の文書中に直接的に付与することと、取り出した文書部品と挿入置換される文書部品の条件を指定すること(例えばラベル文字列が一致するなど)によって作成することができる。また、各ユーザがそれぞれの目的に応じて雛型文書をデザイン(作成)したり、所望の処理を行なう命令が組み込まれた雛型文書を選択して、ユーザ自らが原料文書と組み合わせたりすることで、文書処理アプリケーションを構成することができる。このように手続き的でない、言い換えれば宣言的な方法で文書処理を構成することができるので、プログラミングの知識を充分に持たないユーザが広く文書処理を行なうことができる。すなわち、各ユーザがそれぞれの目的に合わせた構造化文書処理のアプリケーションを容易に作成できる文書処理システムが実現できる。
原料文書のGETと雛型文書のPUTのすべての組み合わせのうち、ラベル文字列が一致するものでペアを構成し、これらのペアから新しい命令を合成する。この動作手順について以下に説明する。
Step47a: 文書処理記述に次の命令を追加する。この例では、オペコードはSUBSTで、オペランドは、対象タグ1(の文書部品ID)、対象タグ2(の文書部品ID)、属性名である。
SUBST 対象タグ1 対象タグ2 属性名
第1の実施例の処理Aで行なったOUTの計数は行なわない。
雛型文書1の命令列において、命令列中にRPが含まれていた場合、すべてのRPのオペランドの文書部品中に含まれるINとOUTとRPを、原料文書のOUT命令のうち、パス名とパターン式のパターン・マッチングを行なって、マッチが成功した個数に従って複写する。この複写は各1つの雛型文書について、次のStep51〜Step56を実行することで行なわれる。正規表現のパターン・マッチングは、例えば、UNIX(登録商標)上のgrepコマンド(周知)などを用いることで実現される。
原料文書中のOUT命令と雛型文書中のIN命令とのすべての組み合わせのうち、パス名とパターン式のパターン・マッチングが成功するもの同士でペアを構成し、これらのペアから新しい命令を合成する。以下、この命令の合成動作について説明する。
原料文書中のOUT命令と雛型文書中のIN命令とのすべての組み合わせのうち、パス名とパターン式のパターン・マッチングが成功するもの同士でペアを構成し、これらペアから新しい命令を合成する。以下、この命令の合成動作について説明する。
(2)切り替え手段は、システムの状態を調べて、解析手段から構文解析木を入力するか、又は、保持手段から構文解析木を入力するかを切り替える。
Claims (2)
- 構造的に表現され1以上の文書部品を含んだ構造化文書を処理するための構造化文書処理システムであって、
構造化文書の構造を解析して構文解析木を生成する解析手段と、
前記解析手段により生成された構文解析木を基に構造化文書に付与された命令と文書部品を分離して命令を取り出すとともに、命令の文法的なエラーを検出してエラー情報を出力する命令分離手段と、
エラー情報を入力してエラー通知を行なうエラー通知文書を合成するエラー通知文書合成手段と、
エラー通知文書へのアクセス情報を処理起動記述として合成する処理起動記述合成手段と、
処理起動記述を解釈して、エラー通知文書を取り出す処理起動記述解析手段と、
エラー通知文書を保持する保持手段と、
を具備することを特徴とする構造化文書処理システム。 - コンピュータを用いて構成される構造化文書処理システム上で、構造的に表現され1以上の文書部品を含んだ構造化文書を処理するための構造化文書処理方法であって、
前記コンピュータが備える解析手段が、構造化文書の構造を解析して構文解析木を生成する解析ステップと、
前記コンピュータが備える命令分離手段が、前記解析ステップにおいて生成された構文解析木を基に構造化文書に付与された命令と文書部品を分離して命令を取り出すとともに、命令の文法的なエラーを検出してエラー情報を出力する命令分離ステップと、
前記コンピュータが備えるエラー通知文書合成手段が、エラー情報を入力してエラー通知を行なうエラー通知文書を合成するエラー通知文書合成ステップと、
前記コンピュータが備える処理起動記述合成手段が、エラー通知文書へのアクセス情報を処理起動記述として合成する処理起動記述合成ステップと、
前記コンピュータが備える処理起動記述解析手段が、処理起動記述を解釈して、エラー通知文書を取り出す処理起動記述解析ステップと、
前記コンピュータが備える保持手段が、エラー通知文書を保持する保持ステップと、
を具備することを特徴とする構造化文書処理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006190979A JP4207992B2 (ja) | 2006-07-11 | 2006-07-11 | 構造化文書処理システム及び構造化文書処理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006190979A JP4207992B2 (ja) | 2006-07-11 | 2006-07-11 | 構造化文書処理システム及び構造化文書処理方法 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000018059A Division JP3879350B2 (ja) | 2000-01-25 | 2000-01-25 | 構造化文書処理システム及び構造化文書処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006309792A JP2006309792A (ja) | 2006-11-09 |
| JP4207992B2 true JP4207992B2 (ja) | 2009-01-14 |
Family
ID=37476528
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006190979A Expired - Fee Related JP4207992B2 (ja) | 2006-07-11 | 2006-07-11 | 構造化文書処理システム及び構造化文書処理方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4207992B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9324465B2 (en) | 2009-04-01 | 2016-04-26 | Ge-Hitachi Nuclear Energy Americas Llc | Methods and apparatuses for operating nuclear reactors and for determining power levels in the nuclear reactors |
| CN113835927B (zh) * | 2021-09-23 | 2023-08-11 | 武汉深之度科技有限公司 | 一种指令执行方法、计算设备及存储介质 |
-
2006
- 2006-07-11 JP JP2006190979A patent/JP4207992B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006309792A (ja) | 2006-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3879350B2 (ja) | 構造化文書処理システム及び構造化文書処理方法 | |
| JP3857663B2 (ja) | 構造化文書編集装置、構造化文書編集方法及びプログラム | |
| US6021416A (en) | Dynamic source code capture for a selected region of a display | |
| US20090210780A1 (en) | Document processing and management approach to creating a new document in a mark up language environment using new fragment and new scheme | |
| US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
| US7912846B2 (en) | Document processing method, recording medium, and document processing system | |
| Han et al. | Wrapping web data into XML | |
| JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
| JP2002278757A (ja) | Htmlアプリケーションにおいてユーザーインターフェースオブジェクトの文法ベースの認識のための方法及び装置 | |
| US20080134019A1 (en) | Processing Data And Documents That Use A Markup Language | |
| JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
| EP1816586A1 (en) | Data processing system, data processing method, and management server | |
| US20040205587A1 (en) | System and method for enumerating arbitrary hyperlinked structures in which links may be dynamically calculable | |
| US20090083300A1 (en) | Document processing device and document processing method | |
| JP4207992B2 (ja) | 構造化文書処理システム及び構造化文書処理方法 | |
| US20070283246A1 (en) | Processing Documents In Multiple Markup Representations | |
| EP1830274A1 (en) | Server device and name space issuing method | |
| EP1826682A1 (en) | Document managing device and document managing method | |
| US20080005085A1 (en) | Server Device and Search Method | |
| US20090222447A1 (en) | Data processing apparatus and data processing method | |
| Ball | {XML} Support For Tcl | |
| KR20140147438A (ko) | 마크업 파싱 장치, 방법 및 기록 매체 | |
| US20090083620A1 (en) | Document processing device and document processing method | |
| JPH09265469A (ja) | ハイパーテキスト型文書の翻訳方法およびhtml文書の翻訳装置 | |
| Lizorkin et al. | Implementation of the XML linking language XLink by functional methods |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060726 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060802 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080325 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081013 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |
