JPH02297151A - 文書編集装置 - Google Patents

文書編集装置

Info

Publication number
JPH02297151A
JPH02297151A JP1036283A JP3628389A JPH02297151A JP H02297151 A JPH02297151 A JP H02297151A JP 1036283 A JP1036283 A JP 1036283A JP 3628389 A JP3628389 A JP 3628389A JP H02297151 A JPH02297151 A JP H02297151A
Authority
JP
Japan
Prior art keywords
document
keyword
words
dictionary
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1036283A
Other languages
English (en)
Inventor
Yosuke Mori
庸輔 森
Mitsuo Takei
三雄 武井
Yukio Funyu
舟生 幸雄
Shigeru Ogawa
茂 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1036283A priority Critical patent/JPH02297151A/ja
Publication of JPH02297151A publication Critical patent/JPH02297151A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はワードプロセッサなどの電子化された文書編集
装置に係り、特に作成された文書の中から自動的にキー
ワードとなり得る語句を抽出することができる文書編集
装置に関する。
〔従来の技術〕
従来の文書編集装置は、特開昭61−131163号公
報に記載のように、キーワードの目次・索引となる語句
を入力装置を用いて文書中から指定させることによって
抽出していた。
〔発明が解決しようとする課題〕
上記従来技術は入力操作の簡便化と特にキーワード抽出
の自動化の点について配慮がなされておらず、目次・索
引に掲載すべき語句を文書入力時に指定することによっ
て装置に該キーワードであることを識別させていたので
、入力時にキーワードを指定する操作が必要であって文
書の入力操作が繁雑となり、またキーワードとなる同一
語句が複数の箇所に現われる文書を入力する場合にも。
該語句を入力するごとに指定する操作が必要となるので
、入力操作の負担が増大する問題があった。
本発明の目的は、文書の中からキーワードとなり得る語
句を自動的に抽出することによって、操作の負担を軽減
する文書編集装置を提供するにある。
〔課題を解決するための手段〕
上記目的は、キーボードやマウスからのデータ入力部と
、入力されたデータを各種辞書を用いて漢字に変換する
仮名漢字変換部と、かな漢字まじりの日本語文章を編集
する文書編集部と、作成された文章を保持する文書デー
タバッファと、この文章をディスプレイに表示する表示
制御部とから成る文書編集装置において1文書データバ
ッファの内容から自動的にキーワードを抽出するキーワ
ード抽出部と、抽出されたキーワードを保持するキーワ
ードバッファとを備えた文書編集装置により達成され、
また上記キーワード抽出部がキーワードの抽出に仮名漢
字変換に用いる辞書を活用することにより、また特定の
ルールたとえば連続したカタカナ文字などに合致した文
字列をキーワードとして抽出することにより、抽出効率
を高めた文書編集装置により達成される。
〔作用〕
上記文書編集装置はキーワード抽出部が与えられた文書
データと仮名漢字変換に用いた辞書を使用して、文書デ
ータの中から辞書に登録されている語句を自動的に抽出
するが、このとき使用する辞書を使用者が語句を登録可
能な辞書(ユーザー辞t)と、専門用語があらかじめS
t、録されている辞書(専門用語辞書)とすることによ
り、抽出処理の効率を高めるとともにキーワードとなり
にくい一般的な語句が抽出されるのを避け、さらに抽出
されたキーワードがキーワードバッファに保持され、同
一語句が文書中にあった場合に辞書を参照することなく
該語句がキーワードであるのを認識するために用いられ
、また特定のルールたとえば連続したカタカナ文字など
に合致した文字列の場合には辞書を参照することなく自
動的にキーワードとして抽出するので、したがって与え
られた文書データに含まれるキーワードが入力時に毎回
キーワードとして指定されることなく自動的に抽出され
、また同一語句が複数同視われる場合でも操作が繁雑に
なることがなく、そして抽出されたキーワードが文書の
索引の作成や文書検索用キーワードとして使用可能とな
る。
〔実施例〕
以下に本発明の実施例を第1図から第3図により説明す
る。
第1図は本発明による文書編集装置の一実施例を示す機
能ブロック図である。第1図において、1はキーボード
、2は入力制御部、3は文書編集装置、4は仮名漢字変
換部、5は基本辞書、6はユーザー辞書、7は専門用語
辞書、8は表示制御部、9はディスプレイ、10は文書
データバッファ、11はキーワード抽出部、12はキー
ワードバッファである。
上記構成で1文書はキーボード1より入力され、入力制
御部2を介して文書編集部3にて処理される。この通常
入力されるデータは英字数字あるいは仮名文字コードで
あって、これらのコード列より仮名漢字まじりの日本語
文章を生成するため、現在市販のワードプロセッサや文
書編集装置では仮名漢字変換の手法を用いる。仮名漢字
変換部4と各種辞書の基本辞書5とユーザー辞書6と専
門用語辞書7とは上記仮名文字コード列より仮名漢字ま
じりの日本語文章を生成するためのものである。この生
成された日本語文章データは表示制御部8を経由してデ
ィスプレイに表示されるとともに、文書データバッファ
10に格納されて保持される。
次にキーワード抽出部11が文書データバッファ10よ
り日本語文章データを読み出し、この文字列データから
ユーザー辞書6および専門用語辞書7を参照す、ること
により、辞書に登録されている語句と一致する語句を抽
出して、キーワードバッファ12に登録する。また−度
キーワードとして登録されると、文書中の同一語句は辞
書を参照することなく、キーワードバッファ12に存在
するか否かによって判定できる。一方の特定のルールた
とえば連続したカタカナ文字などは辞書や登録済みキー
ワードとして抽出できる。従ってキーワード抽出部11
で実行する処理をまとめると次のようになる。
(1)特定のルール(連続したカタカナ文字列など)に
合致した文字列をキーワードとして抽出する。
(2)上記(1)にあてはまらない場合に、対象となる
語句が既にキーワードバッファ12に登録されていた場
合には、これもキーワードとして抽出する。
(3)上記(2)にあてはまらなかった場合に、対象と
なる語句がユーザー辞書6あるいは専門用語辞書7にあ
れば、これをキーワードとして抽出する。
さて上記(2)に示したように同一語句が文書の複数箇
所に現われる場合には、その各々はキーワードバッファ
12内で正しく把握する必要がある。
なぜならばキーワードバッファ12に登録されたキーワ
ードを索引の生成に使用する場合に、その語句が文書の
何ページのどこに現われたかをリストアツブして表示し
なければならないからである。
一方で同一語句が同−文書内の何箇所に現われるかは各
々の場合によってであり、これを第2図に示すデータ構
造によって管理する。
第2図は第1図のキーワードバッファ12のデータ構造
の説明図である。第2図において、キーワード抽出部1
1にて抽出されたキーワードの文字列はキーワードバッ
ファ12のキーワード保持部12aに代入され、その語
句が現われた文書中の位置つまりページ番号と、段落番
号(当該ページ内の何番目の段落かを示す)と、行番号
(当該段落内の何行目かを示す)と、カラム番号(当該
行内の何文字目かを示す)とを示すデータユニットtZ
aを指し示すポインター12bと対になっている。また
このデータユニット12cは次の同一構造を持つデータ
ユニット12eを指し示すポインター12dを有してお
り、同一語句が文書中に複数同視われた場合にはこのポ
インター12b、12dを用いて当該語句の文書内にお
ける位置を示すデータユニット12c。
12eを次々と接続できるようになっている。
第3図は本発明による文書編集装置の他の実施例を示す
機能ブロック図である。第3図において、第1図の実施
例が最初に文書データを作成した後に、文書データから
キーワードを抽出する手順によっていたのに対して、第
3図の実施例が仮名漢字変換処理とキーワード抽出処理
を密接に連係させる手順をとるものを示し、第1図と同
一符号の各ブロックの目的と機能は第1図の実施例と同
一であるが、ただしキーワード抽出部11は文書データ
バッファ10と、基本辞書5と、ユーザー辞書6と、専
門用語辞書7のいずれをも参照しない。その代わりに仮
名漢字変換部4より変換が確定した語句についても、そ
の変換がユーザー辞書6あるいは専門用語辞書7によっ
て行なわれた場合には、変換された語句および文書中の
位置の情報をキーワード抽出部12に与える。また辞書
を使用する以外の処理たとえば特定のルールを用いた抽
出処理などは第1図と全く同様に適用される。
上記構成で1次のような文章が入力された例をもとに動
作を説明する。
「サンプリングした標本値を最小二乗法によって・・・
・・・」 このような文章を作成するとき、一般的には仮名文字に
よって次のようにキーボード1より入力する。
「サンプリングしたひようほんちをさいしょうじじよう
ほうによって・・・・・・」 ここで仮名漢字変換部4にて変換操作を行い、最初に示
したような正しい変換結果を得ることができる。
このとき最初の6文字「サンプリング」が連続したカタ
カナ文字であるため、まずキーワード抽出部11にてキ
ーワードとして抽出される。つぎに「標本値」あるいは
「最小二乗法」がユーザー辞書6または専門用語辞書7
に登録されており、それを用いて変換された場合に、キ
ーワード抽出部11にてキーワードと判定される。ここ
で一般的に文書のキーワードとなるNI句°は特別な意
味を持つた用語である場合が多いため、基本辞書5では
なくて専門用語辞書7あるいは使用者が独自に語句を登
録しているユーザー辞書6にある場合が多い。
したがって本発明によるキーワード抽出に辞書とくに専
門用語辞書7とユーザー辞書6を流用しているものはそ
こに理由がある。
〔発明の効果〕
本発明によれば、文書からキーワードとなる語句をいち
いち指定することなく、文書作成後にあるいは文書作成
中の仮名漢字変換処理とともに自動的に抽出することが
できるので、使用者の負担を軽減する効果があり、また
既に存在する辞書を流用することから新たなコスト発生
を最小限にする効果がある。
【図面の簡単な説明】
第1図は本発明による文書編集装置の一実施例を示す機
能ブロック図、第2図は第1図のキーワードバッファの
データ構造説明図、第3図は本発明による文書編集装置
の他の実施例を示す機能ブロック図である。 1・・・キーボード、2・・・入力制御部、3・・・文
書編集部、4・・・仮名漢字変換部、5・・・基本辞書
、6・・ユーザー辞書、7・・・専門用語辞書、8・・
・表示制御部、9・・・ディスプレイ、10・・・文書
データバッファ、11・・・キーワード抽出部、12・
・・キーワードバッファ。

Claims (1)

  1. 【特許請求の範囲】 1、キーボードやマウスからのデータ入力部と、入力さ
    れたデータを各種辞書を用いて漢字に変換する仮名漢字
    変換部と、かな漢字まじりの日本語文章を編集する文書
    編集部と、作成された文章を保持する文書データバッフ
    ァと、この文章をディスプレイに表示する表示制御部と
    から成る文書編集装置において、上記文書データバッフ
    ァの内容から自動的にキーワードを抽出するキーワード
    抽出部と、抽出されたキーワードを保持するキーワード
    バッファとを備えたことを特徴とする文書編集装置。 2、上記キーワード抽出部はキーワードの抽出に仮名漢
    字変換に用いる辞書を活用することによって、使用者に
    新たなキーワード抽出用辞書などを作成させることなく
    、抽出効率を高めることを特徴とする請求項1記載の文
    書編集装置。 3、上記キーワード抽出部は特定のルールたとえば連続
    したカタカナ文字などに合致した文字列をキーワードと
    して抽出することを特徴とする請求項1記載の文書編集
    装置。
JP1036283A 1989-02-17 1989-02-17 文書編集装置 Pending JPH02297151A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1036283A JPH02297151A (ja) 1989-02-17 1989-02-17 文書編集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1036283A JPH02297151A (ja) 1989-02-17 1989-02-17 文書編集装置

Publications (1)

Publication Number Publication Date
JPH02297151A true JPH02297151A (ja) 1990-12-07

Family

ID=12465460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1036283A Pending JPH02297151A (ja) 1989-02-17 1989-02-17 文書編集装置

Country Status (1)

Country Link
JP (1) JPH02297151A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287079A (ja) * 1995-04-17 1996-11-01 Nec Corp 索引作成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287079A (ja) * 1995-04-17 1996-11-01 Nec Corp 索引作成装置

Similar Documents

Publication Publication Date Title
JP2515726B2 (ja) 情報検索方法及び装置
KR100235223B1 (ko) 텍스트 검색에 사용하기 위하여 다중-바이트 문자를 아스키문자의 단일문자 열로 맵핑하는 방법 및 장치
JPH0981566A (ja) 翻訳装置及び翻訳方法
JPH02297151A (ja) 文書編集装置
JPH077411B2 (ja) 文書処理装置
JPH0571982B2 (ja)
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JP3701050B2 (ja) 文書形態素解析装置
JPS62143178A (ja) 自然言語翻訳方式
JPH0612453A (ja) 未知語抽出登録装置
JPH10269221A (ja) 未登録語処理方式
JPS62226270A (ja) 文章作成装置
JPH02110771A (ja) 電訳機
JPH0816910B2 (ja) 言語解析装置
JPS63106867A (ja) 言語解析装置
JPS61128364A (ja) 辞書検索装置
JPS6395572A (ja) 日本語文形態素解析における未知語処理方法
JPH07182344A (ja) 機械翻訳装置
JPH08241315A (ja) 文書処理装置の単語登録機構
Witten SEMIOTICS IN THE REAL WORLD: MAKING INTERACTIVE COMPUTER SYSTEMS ACCESSIBLE TO IDEOGRAPHIC-LANGUAGE USERS
JPS62163170A (ja) 機械翻訳システム
JPH0769919B2 (ja) インデックス作成支援装置
JPS61256467A (ja) 仮名漢字変換装置
JPH01211166A (ja) 漢字変換方式
JPH07192018A (ja) 外国人名検索装置