JPS61190653A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPS61190653A
JPS61190653A JP60030290A JP3029085A JPS61190653A JP S61190653 A JPS61190653 A JP S61190653A JP 60030290 A JP60030290 A JP 60030290A JP 3029085 A JP3029085 A JP 3029085A JP S61190653 A JPS61190653 A JP S61190653A
Authority
JP
Japan
Prior art keywords
heading
data
document
cell
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60030290A
Other languages
English (en)
Other versions
JPH077409B2 (ja
Inventor
Toshio Okamoto
利夫 岡本
Isamu Iwai
岩井 勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60030290A priority Critical patent/JPH077409B2/ja
Publication of JPS61190653A publication Critical patent/JPS61190653A/ja
Publication of JPH077409B2 publication Critical patent/JPH077409B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は文書処理装置に2いて、文書データの形態上の
論理構造を生成、保持する文書処理装置に関する。
〔発明の技術的背景とその問題点〕
文書は読みやすくするため、全体を複数の範囲に分割し
、その各々の1つのまとまりに見だしと呼ばれる、短い
文をそのまとまりの最初の部分につけ、またいま、分割
したまとまりをさらに分割し、その各々に見だしをつけ
るといった構造を持っているのが一般的である。そして
見だしには、その見だしの示す範囲と、他の見だしとの
関係を示すために見だしの菅頭部に見だし記号というも
のがついCいるのが一般的である。
たとえば「第1章」 「第3節」というのがここでいつ
ている見だし記号の例である。このような文書構造を持
った文書を計算機によって処理しようとした場合、この
ような文書構造をまったく考慮し′Cおらず、もっばら
、装置上の制約から、文書構造に関係ない別の単位、た
とえば、表示画面に一度に表示できる大きさの単位へあ
るいは、紙に印刷した時に一頁に入る大きさの単位等で
取り扱っており、そのため文書構造を持った文書を編集
する場合、上記の制約のため利用者にとって“りかいに
くいものになりてい九。
たとえば、章の入れかえを行う場合、従来の装置では、
章の初めと終りをカーソル等で移動範囲を示す必要がラ
リ、かつ、その章が大きい場合、その章の初めを指定し
、終りを指定するまで、表示画面を何回も更新しなけれ
ばならないので、指定位置をまちがえることが多い。
しかし、文書構造を持った装置では求める章を簡単に指
定できるので、上記のような繁雑な指定操作は不要にな
り操作性はかなり向上すると思われる。
また、他人が作成した文書や、自分が作成した文書でも
、以前に作りたもので、どのような内容のものか忘れた
ものでも、従来の装置では、文書ファイルのファイル名
程度の内容しかわからず、そこから、文書内容を類推す
るのは困難な場合が多いが、文書の見だしだけでも一度
に見られると、その文書の内容が類推しやすい。
つまり従来の装置では、文書の構造を利用したより高度
の文書処理の実現が困難であるという欠点があった。
〔発明の目的〕
本発明は、上記実情に鑑みなさnたもので、文書の形態
上の論理構造を抽出し、階層構造を構築することを目的
とする。
〔発明の概要〕
本発明は、コード情報で書かれた文書データから見だし
の候補を取り出し、その見だしの記号部分から、見だし
相互間の関係を決め、見だしの階層構造を決めることを
可能としたものである。
具体例t−6げると、改行コードで区切った文字列で文
頭から、−桁分に相当する長さ以下の文字列を取りだし
、その冒頭部分に「第−章」。
r(3N  rOJ  等の見だし記号の入っている文
字列を見だしとする。
見だし記号に数字、英文字が入っている時は、その字体
、頴序性、形式によりて、また、記号だけの場合は、前
後の関係によりて、今処理している見だしの階層構造上
の順位金決め、見だし間の論理構造をもつデータ構造を
つくりだすことによって実施される。
〔発明の効果〕
本発明によれば、処理する文書が、見だし金利用して、
形態上、階層構造を持りてい九場合、見だしから階層構
造を決定し、保持するので、そのデータ構造を利用して
、章単位1節単位の編集操作が容易になり、操作性が向
上するほか、階層構造を利用したより高度な機能またと
えば、目次のリスト作成とか、章9節ごとに規則的に字
下げして印刷して文書を見やすくする機能とか、見だし
記号の誤りの指通、見だし記号の°りけ直し等が容易に
実現できる。ざらに、本装置に入力する文書データは階
層構造のデータを持つ必要がないので、従来の文書処理
装置で作成した文書データでも本装置で処理でき、かつ
、本装置で新規に文書を作成する操作でも、階層構造を
意識することな〈従来と同じ操作でよく、操作者にさら
に負担をかけることがない等の効果を奏する。
〔発明の実施例〕
以下図面全参照し”〔本発明の一実施例を説明する第1
図は本発明の一実施例の全体のブロック図を示す。ここ
で、入力装置1.出力装置29表示装置3.外部記憶装
置4.内部記憶装置5は従来から広く一般に文書処理で
使用されているもので特定はしない。
制御装置6を詳記したのが第2図のブロック図である。
第1図にかい゛C1文書ファイルが入っている外部記憶
装置4から、入力装置1により指定された名前のファイ
ルを内部記憶装置5内の文書データ記憶部に送られる。
文書データ記憶部7に入った文書は見だし候補発見部8
の処理によって、見だしの候補及びその見だしの開始位
置が求められ、それぞれの記憶部9.10に入る。入り
たデータは次の見出し決定部11に送られ、そこでこの
データが見だしかどうか、iた見だしであれば、どのよ
うな種類の見出しかとその判定規則が書かれている判定
規則記憶部12のデータをもとに処理される。処理され
たデータは見だしデータセルと呼ばれる、その見だしに
関し、種々の情報を書きこんで−かたまりとしたものが
作成され、見だしデータセル記憶部13に貯えられる。
この見だし候補発見部8と見だし判定部11の処理を、
今処理し°Cいる文書がすべておわるまで続ける。
そして見だしデータセルがすべて作られたところで処理
は文書構造決定部14に移り、ここで階層構造決定規則
記憶部15を用いて見だしデータセルを階層構造につな
ぎあわせ、すべての処理をおえる。
次に各部の動作を詳しく説明する。
見だし候補発見部8のブロック図を第3図に示す。
読出位置制#部16の指示により、文書データ記憶部7
から順番に1文字づつ比較部17に送り、同時にアドレ
ス記憶部18にその文字の文書中の位置を貯えておく。
一方、比較部17に送られたデータをレジスタ1に入っ
ている改行コードと比較する。又、データはラインバッ
ファ19にも同時に送られ、ここに貯えられ、文字数を
カウンタ21で計測しておく。データ中に改行コードが
現われた時のカウンタ21の値と、あらかじめ定めてお
いた1行文の長さくたとえば40文字)としてレジスタ
2に入れておいた値とを比較部22で比較し、カウンタ
がその値と一致した時判定部20に入り、改行コードの
一致が同時又は先行した場合、このデータは見だし候補
と決定され、ラインバッファ部のデータを見だし候補デ
ータ記憶部10に入れ、アドレス記憶部の値から、カウ
ンタの値を演算部23で減算処理し、この値からライン
バッファ部の先頭アドレスが求まるので、これを見だし
候補データ開始位置記憶部9へ入れ、ラインバッファ、
カウンタを初期状態に戻し、再びこの見だし発見部の処
理をくり返す。
逆に、カウンタの値と一行文の長さの値の一致の方が先
行した場合、ラインバッファ部に入っているデータは見
だしになり得ないと判断し、ラインバッファ、カウンタ
を初期状態に戻し、再びこの見だし発見部の処理をくり
返す。
処理中に文書データが終了したら、処理を見だし判定部
11に引き継ぐ。
次に見だし決定部のブロック図を第4図に示す。
判定規則記憶部24には第5図に示すような正規表現で
あられされる見だし決定の規則が入っている。これを判
定規則適用制御部25で適用し゛〔成功した場合見だし
と決定し、成功しなかった場合、見だしでないと決定す
る。
第5図で丸印でかこまれた記号は、非終端記号と呼ぶも
のであり、四角でかこま・れた記号は終端記号で文字コ
ードデータそのものでるる。各規則は、左側に丸でも四
角でも囲まれていない記号が右側の非終端記号、終端記
号に置き換ることを示している。各記号は矢印の方向に
順番に適用し、上下に矢印が並んでいる場合は上の規則
から適用し、上のルールが成功しなかった場合、下のル
ールを適用することを示している。そしてこれらの規則
を適用しCすべCの非終端記号が終端記号に置き換り走
時、この適用した規則は成功し九ことになり、途中で置
き換えがうまくいかなくなりた場合、その適用は成功し
ないことになる。
たとえば、第6図の文書を入力して 5行目の「s4 
w w w l、はじめに−J  (ただし口は空白コ
ードを意味する)が見だし決定部に入力したとすると、
第7図のように規則を適用すると成功し、見だしと決定
される。それ以外の適用の仕方をすると成功しない。
このように適用の仕方も何通りもあるので、どれか1通
りの適用の仕方が成功すれば見だしとされ、すべての適
用の仕方が成功しなければ見だしでないとする。
児だしと決定されると次に見だしデータセル作成部26
へ処理が行く。ここでは第8図に示すような見だしデー
タセル?1つの見だしに対して1つ作成する。そして見
だし決定規則に従って成功し走過用の仕方の結果をセル
に書いておく。また数字部、英字部を適用した見だしは
、数字部の場合はそのa値を、英字部の場合は、アルフ
ァベット項で何番目かといり数値をオーダーと名付けそ
こに入れておく。たとえば見だし記号が「第二章」  
゛の場合、オーダーは2.rcoJ の場合は3となる
この作成部で見だしデータセルのうち第8図のλの部分
が定まったことになる。このようなデータセルを見友し
データセル記憶部27に貯える。
たとえば、第7図で例に示した見だしの場合、前置部は
なし、数字部は数字A(第5図(e))でオーダーは1
.後置部は「、」ということがわかり、見だし候補デー
タ開始位置記憶部9にこの見だしの開始位置が入り°C
いるのでこれもデータセルに移す。以上の操作で第9図
のようにデータセルが出来あがる。見だしでないと決定
された場合、データセルをつくらずこの見だし候補デー
タと開始位置のデータをすてる。
以上の処理を入力データがなくなるまでくり返す、入力
データがなくなったら処理を文書構造決定部14に進め
る。
最後に文書構造決定部14の詳しい説明をする。
ここでは前段で作成された見だしデータセルを階層構造
につなげるところである。
処理手順を第10図第11図第12図にしめす。
例をあげて説明する第6図の文書の場合、第13図に示
すように5つのセルが出来る。
まず1番目のセル「1.はじめに」を入力する。
そして第10図のフローに従い、あらかじめ設けである
ルートのセルの子供として1番目のセルをつなげる。つ
まり1番目のセルの親セルの先頭アドレスを書く所にル
ートのアドレスを入れ、次の兄第セルの先頭アドレス、
1番目の子セルの先頭アドレス、エラーフラグの所は今
、該当しないのでどこも差し示していないという意味の
特別な値を入れて2く。そして階数の所は1.つまり1
番上位の児だしとする。
次に、2番目のセル「20本発明の特徴」を入力する。
現在のセル(1′tr目のセル)は前置部  なし 英数字で 数字部の場合 後1部  「、」 オーダー 1 次のセル(2番目のセル)はオーダーが2以外は同じで
ある。よりて第12図の規則で■のケースになるので、
2番目のセルを1番目のセルと兄第とする。つまり、1
番目のセル中の次の兄第セルの先頭アドレスをかく所に
2番目のセルの先頭アドレスをかき込み、2番目のセル
の親セルの先頭アドレスには1番目のセルの親セルの先
頭アドレスの所に入っているのと同じアドレス(つまり
ルートセルのアドレス)を書き込み、階数は現存のセル
の階数と同じ1をかきこみその他は該当なしの値を入れ
Cおく。
次に3番目のセル「(1)従来の技術」を入力する。
これは現在のセルである2番目のセルと比べると、前置
部、数字の4類、後置部とも異なっており、現在のオー
ダーは1である。よって第12図の■のケースになりこ
の3番目のセルを2番目のセルの子供にし、階数金1つ
増して2とすることになる。そしてさきほどと同様にポ
インタ操作をしてつなげる。4番目のセル「(2)%徴
の説明」を入力し同様の処理をすると3番目の兄第とな
る。
5番目のセル「3.終りに」を入力すると、第12図の
■のケースになり階数を1つ減して1とし4番目のセル
の親つまり2番目のセル「20本発明の特徴」との比較
になり、処理結果、これの兄第になるから、2番目のセ
ルの兄第としてこの5番目のセルをつなげる。
以上全部のセルを処理すると第13図のような階層構造
が完成し、処理を終える。
この処理では見だし記号がまちがえていた場合、ある程
度推測して階層構造をつなごうとしている。
たとえば「第−章」の次にr第二章」とせず「第三章」
とした場合、つまりオーダーが飛んでいる場合、また「
第−章」の次に「第−章」というようにオーダーが同じ
場合、これは本来、オーダーが続いているものと仮定し
、セルにエラーフラグをたてて同じ階層、兄第セルとし
てリンクする。そして本来の正しいオーダーをセルの所
定の所に書き込み、この値を使って以後の処理を続ける
。また、r(1)Jの次にr C2:l Jとなった場
合、つまり形が違うがオーダーが続いている場合で親に
その形が出′Cきていない時は、形をあやまりてつかっ
たものと仮定して両者は兄第としエラーフラグをたてて
最初の形をセルにつけ加えておく。
以上のエラー処理でも階層不明のセルがあるときは、現
在の兄弟としてろ・りかいエラーフラグをたて兄のセル
の形、オーダーをひきつぐものとする。
尚、上記した実施例においては、見だし候補を全部求め
Cから、見だしかどうか判定し、判定が全部終った後で
階層構造を決定しているが、見だし候補が1°り見°り
かり仕第、階層構造決定までのすべての処理を行い、処
理が終ったら、再び、見だし候補を見つけるというよう
にくり返し処理で実施してもよい。
また見だし候補決定部において、1つの文の長さが一桁
分を起えるものは見だし候補として採用していないがす
べての改行コード等、文を区切るコードで区切られた文
をすべて見だし候補として仮定し、次の処理部である、
見だし判定部で見だしを決定し”Cもよい。
また求めた見疋しの階層構造をデータ構造としで保持す
るやり方は、上記の実施例では、自分の親と第と第X子
の見だしのセルの先頭アドレスを持つことで実現してい
るが、他の方法でデータ島構造を実現してもかまわない
更に各見だしのセルの内容もこの実施例にこだわらず、
たとえば見だし以下につづく本文をこのセルに結びつけ
る等など考えられるが、それでもかまわない。
見だしの階層化に限ったことではなく、たとえば組織図
のように形態上、階層構造をもつデータの場合でも、見
だし決定規則や文書構造決定規則などのルールのデータ
を変えることで応用可能である。
本実施例は日本語の文書を扱っているが日本語に限らず
、他国語の文書でも見だしがついているものであれば、
判定規則1階層構造決定規則を、その国語用に書き直せ
ばそれで同様に実施できる。
【図面の簡単な説明】
第1図は本装置の全体の構成図。 第2図は制御部の詳しい構成図。 第3図は制御部のなかの見だし候補発見部の構成図。 第4図は制御部のなかの見だし決定部の構成図。 第5図は見だし決定部の判定規則記憶部中に貯えられて
いる判定規則を正規表現した図。 第6図は本装置に入力する文書構造をもった文書の例を
示す図。 第7図は第6図の文書例中の見だし候補の1つに第5図
の判定規則がどのように適用されるか、その例を示す図
。 第8図は見だしデータセルのデータ得造図。 第9図は第6図の文書例中の1つの見だしがデータセル
でどのように表現さnるか、その例を示す図。 第10図、第11図、第12図は、制御部のなかの文書
構造決定部での処理操作を表わした図。 第13図は第6図の文書例の見だしのデータセルが文書
構造決定部を通っ゛〔どのようにつながったかその例を
示す図である。 1・・・入力装置、2・・・出力装置、3・・・表示装
置。 4・・・外部記憶装置、5・・・内部記憶装置、6・・
・制御装置。 3、代理人弁理±1 則 近 M 佑 (はが1名)第
  1 図 第  7 図 第  3 図 第  4 図 第5図 第  5 図 第  5 図 (か#C置部:       (771)莢キ部:第 
 6 図 第10図 第S図 第11図 第  9 図 第12図 第13図

Claims (1)

    【特許請求の範囲】
  1. コード情報で書かれた文書データを入力する入力手段と
    、この入力手段より入力された文書データの中から改行
    コード等により測られる1文の長さに基いて見出し候補
    を抽出する抽出手段と、この抽出手段により抽出された
    見出し候補の各々について前記見出し候補の冒頭部分の
    記号を取り出しこの記号の形式によって前記見出し候補
    の包含関係、順序関係等の階層構造を決定して記憶する
    手段とを具備したことを特徴とする文書処理装置。
JP60030290A 1985-02-20 1985-02-20 文書処理装置 Expired - Lifetime JPH077409B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60030290A JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60030290A JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Publications (2)

Publication Number Publication Date
JPS61190653A true JPS61190653A (ja) 1986-08-25
JPH077409B2 JPH077409B2 (ja) 1995-01-30

Family

ID=12299592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60030290A Expired - Lifetime JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Country Status (1)

Country Link
JP (1) JPH077409B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366663A (ja) * 1986-09-09 1988-03-25 Toshiba Corp 文書構造管理方式
JPH01136270A (ja) * 1987-11-24 1989-05-29 Mitsubishi Electric Corp ワードプロセッサ装置
JPH0362169A (ja) * 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
JPH03129461A (ja) * 1989-10-14 1991-06-03 Hitachi Ltd 文書編集処理装置
US7062751B2 (en) 2000-12-08 2006-06-13 Fujitsu Limited Sequence analysis method and apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366663A (ja) * 1986-09-09 1988-03-25 Toshiba Corp 文書構造管理方式
JPH01136270A (ja) * 1987-11-24 1989-05-29 Mitsubishi Electric Corp ワードプロセッサ装置
JPH0362169A (ja) * 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
JPH03129461A (ja) * 1989-10-14 1991-06-03 Hitachi Ltd 文書編集処理装置
US7062751B2 (en) 2000-12-08 2006-06-13 Fujitsu Limited Sequence analysis method and apparatus

Also Published As

Publication number Publication date
JPH077409B2 (ja) 1995-01-30

Similar Documents

Publication Publication Date Title
EP0241646B1 (en) Document processing apparatus
EP0686286B1 (en) Text input transliteration system
US4813010A (en) Document processing using heading rules storage and retrieval system for generating documents with hierarchical logical architectures
US5200893A (en) Computer aided text generation method and system
US5992737A (en) Information search method and apparatus, and medium for storing information searching program
JPH02299068A (ja) 入力文字列からワードを分離する方法
JPH0793335A (ja) テキストの言語機能を提供する方法
JPH07114568A (ja) データ検索装置
JPH0211934B2 (ja)
US5835921A (en) Data processing apparatus for creating and storing a text file from input data
JPS61190653A (ja) 文書処理装置
JPH076168A (ja) Dbcsコード・ページを使ってsbcsフォント及びdbcsフォントを与える構造化された文書を編集する方法
JPS60254366A (ja) ワ−ドプロセツサ
JPS62245366A (ja) 文書処理装置
JP7656885B1 (ja) プログラム、文書処理装置、および、文書処理方法
JPH03266066A (ja) 属性付き文字列置換装置
JPH0612548B2 (ja) 文書処理装置
JPS6211385B2 (ja)
JP2938663B2 (ja) 情報処理装置および情報処理方法
JP2634926B2 (ja) かな漢字変換装置
JPS58168180A (ja) 情報検索装置
Bandyopadhyay Detection and correction of phonetic errors with a new orthographic dictionary
JPH0612453A (ja) 未知語抽出登録装置
JPH02136956A (ja) レイアウト情報の抽出方法
JP2575947B2 (ja) 文節切出し装置