JPH01304575A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH01304575A
JPH01304575A JP63134714A JP13471488A JPH01304575A JP H01304575 A JPH01304575 A JP H01304575A JP 63134714 A JP63134714 A JP 63134714A JP 13471488 A JP13471488 A JP 13471488A JP H01304575 A JPH01304575 A JP H01304575A
Authority
JP
Japan
Prior art keywords
document
topic
keyword
candidates
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63134714A
Other languages
English (en)
Other versions
JPH0782497B2 (ja
Inventor
Naoki Mizutani
直樹 水谷
Ikuo Karashi
育雄 芥子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP63134714A priority Critical patent/JPH0782497B2/ja
Publication of JPH01304575A publication Critical patent/JPH01304575A/ja
Publication of JPH0782497B2 publication Critical patent/JPH0782497B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、利用者が作成した文書や電子メールから入力
された文書の書式分割および内容による分類を自動的に
行なう文書処理装置に関する。
〈従来の技術〉 日本語ワートブロセソサ等の文書処理装置においては、
ビジネス文書ノjどの比較的定型の文書を作成する場合
、過去に作成した文書をそのまま使ったり、一部修正ず
ろだけで新たな文書が作成できろことが往々にしてあり
、このことが宏−ドブロセソザの大きな利点で6ある。
そこで、利用者は、自分か作成し刃こ文書を、一定の分
類体系に従って分類し、これに文、lS内容を象徴する
ような分類インデックス(文書名)を付加してメモリに
記憶させる一方、上記分類インデックスを用いてメモリ
から所望の文書を検索させ、呼び出している。
〈発明が解決しようとする課題〉 ところが、上記従来のワードプロセッサにおける文書分
類方式は、利用者の判断に基づくマニュアル作業による
ものであるため、的確な分類を行なうには利用者が分類
体系−覧表を完全に把握しておく必要かあるうえ、−覧
表にない乙のについての判断基準が利用者毎に異なると
いう問題がある。そのため、作成された文書をその内容
によって画一的かつ能率的に分類することが非常に難か
しいという欠点がある。また、同一カテゴリーに分類さ
れた文書の数が多くなると、同じような文書名か増加し
て、文書名だけでは文書内容を明確に判断できず、的確
な検索ができなくなるという欠点がある。例えば、「祝
賀状]という文書名をもつ文書には、大きく分類しても
(1)開店、開業の祝賀状 (2)新築落成の祝賀状 
(3)栄転、昇進の祝賀状などがあり、各文章の内容は
互いに太きく異なり、さらに上記同一分類中でし例えば
開店と開業では文章を構成する前文、主文、末文の表現
に差がある。
そこで、本発明の目的は、文書処理装置自体に、文書を
その発生原因2作成目的、書式段落パターン等に基づい
て多面的に自動分類させ、通切な分類インデックスを付
加して登録させることによって、所望の文書を確実かつ
能率的に検索することができる新規な文書処理装置を提
供することである。
〈課題を解決するための手段〉 上記目的を達成するため、本発明の文書処理装置は、利
用者が入力した任意の文書を、書式段落パターンを識別
して複数の文章に分割する書式制御手段と、上記文章に
含まれる単語を解析してその単語の意味内容を象徴する
キーワード候補を抽出するキーワード抽出手段と、抽出
されたキーワード候補の中からその文書の発生原因たる
トピックを表現するために重要なキーワードを見つけ出
して、見つけ出したキーワードに対応する単語の前方の
文章を解析して上記トピックの妥当性を検査するトピッ
ク解析手段と、文章中に含まれる慣用的表現を抽出し、
抽出した慣用的表現と上記キーワード候補に基づいて文
書の作成目的候補を提示する文書目的分類手段と、上記
トピック解析手段で見つかったトピックと上記文書目的
分類手段で見つかった文書目的との整合性を検査し、文
書概念をなすトピック・文書目的の組み合わせを決定す
る文書概念制御手段とを備える。
く作用〉 III用者によって入力された文書は、まず書式制御手
段により書式段落パターンが識別されて複数の文章に分
割され、この文章中の単語は、キーワード抽出手段によ
り解析されて、その意味内容を象徴するキーワード候補
が抽出される。トビ・ツク解析手段は、上記キーワード
抽出手段によって抽出されたキーワード候補の中から、
その文書の発生原因たるトピックを表現するために重要
なキーワードを見つけ出し、見つけ出したキーワードに
対応する単語の前方の文章を解析して上記トピックの妥
当性を検査する。一方、文書目的分類手段は、上記文章
中に含まれる慣用的表現を抽出し、抽出した慣用的表現
と上記トピック解析手段で見つけ出されたキーワード候
補に基づいて文書の作成目的候補を提示する。最後に、
文書概念制御手段は、上記トピック解析手段で妥当とさ
れたトピックと上記文書目的分類手段で提示された文書
作成目的との整合性を検査し、文書概念をなすトピック
・文書目的の組み合わせを決定する。こうして決定され
たトピック名1文書目的名は、分割された文章の夫々に
分類インデックスとして付加されて、記憶装置に格納さ
れる一方、検査時には、与えられたトピック名等に応じ
た文章が記憶装置から読み出され、これによって容易に
新たな文書が作成できる。
〈実施例〉 以下、本発明を図示の実施例により詳細に説明する。
第1図は本発明の文書処理装置の一例たる日本語ワード
プロセッサの構成模式図であり、中央処理装置1は、後
述する種々の手段やテーブルを備え、入力装置2から入
力される文書データを仮名漢字変換等して編集処理し、
文書内容によって自動分類する一方、入力された文書デ
ータや処理された文書データを、表示装置3に表示させ
ろとともに補助記憶装置4に記憶させる。
上記中央処理装置lは、入力された文書データを段落構
成、インデン!−,起辞等の書式段落パターンによって
前文、主文、末文等に分割する書式制御手段5と、分割
された主文中からキーワード辞書6を参照しつつ複数の
単語を選び出し、選び出した単語の上位概念語即ちキー
ワード候補を抽出するキーワード抽出手段7と、抽出さ
れたキーワード候補の中からその文書の発生原因たるト
ピックを表現する重要なキーワードを見つけ出し、見つ
け出したキーワードに対応する単語の前方の文章を解析
して上記トピックの妥当性を検査するトピック解析手段
11を備える。
さらに、上記中央処理装置lは、慣用的表現抽出手段1
3が慣用的表現辞書12を参照して文章中から抽出した
慣用的表現と抽出されたキーワード候補とに基ついて文
書の作成目的候補を決定する文書目的分類手段15と、
上記トピック解析手段IIで妥当とされたl・ピックの
中から適正な乙のをトピック階層関係表16(第4図参
照)を参照して最終選定し、選定したトピックと上記文
書目的分類手段15で決定された作成目的候補との整合
性をトピック・文書目的対応表17(第5図参照)を参
照して検査し、両者の妥当な組合せを最終決定する文書
概念制御手段18を備える。
上記トピック解析手段11における重要なキーワードの
見つけ出しは、トピック分類手段9が、キーワード抽出
手段7で抽出されたキーワード候補に適したトピックを
まずトピック・キーワード関係表8に基づいて決定し、
決定されたキーワードとトピックの組合せの中から規則
表10の載っている特に重要なキーワードを選ぶことに
よって行なわれる。また、上記文書目的分類手段15は
、慣用的表現抽出手段13が抽出した慣用的表現とキー
ワード抽出手段7が抽出したキーワード候補とに基づき
、文書目的・キーワード、慣用的表現関係表14を参照
して文書作成目的候補を決定する。そして、中央処理装
置lは、こうして文書概念制御手段18で最終決定され
た各トピック名と文書目的名および書式分類名を、書式
制御手段で分割された主文データの文章段落ごとにイン
デックスとして付加して、補助記憶装置4に記憶させて
登録するようになっている。一方、上記中央処理装置l
は、検索時に入力装置2から入力された上記インデック
スに該当する文書を、補助記憶装置ll中で検索し、検
索結果たる文書を表示装置3に表示させる。
上記構成の日本語ワートブロセソザによる文書の自動分
類処理について次に述へる。
利用者が入力装置2から文書を入力すると、中央処理装
置1は、入力された文書を7背式制御手段5により、第
2図に示すように市j文、主文、末文等に分割し、分割
した主文について文書概念を決めろための以下の解析を
行なう。いま、分割された主文が第3図の文章20に示
す乙のであったとする。なお、図中の縦線はキーワード
辞11Yまたは関係表による参照を示す。すると、キー
ワード抽出手段7は、キーワード辞書6を用いて文章2
0中の単語を夫々キーワードに変換する。この例では、
図中のキーワード21の欄に示すように[会社3組織、
変革1店舗、役職、就任、yIjの7つのキーワードが
抽出される。続いて、トピック分類手段っけ、抽出され
た上記7つのキーワードからl・ピック・キーワード関
係表8を用いて、トピック候補22として「変更」とr
 <f fJ Jを選び出し、トピック候補[−変更」
に対してキーワード「変革」を、トピック候hlir就
任」に対してキーワード「役職」、「就任」を夫々抽出
する。
次に、l・ピック解析手段IIは、抽出された上記トピ
ック候?il?・キーワードの組合せのうち規則表1O
に記述されているキーワードについて、そのキーワード
に対応する単語の前方の文章を解析してl・ピック侯?
11iの妥当性を検査する。上記規則510には、例え
ばキーワード「変革」について次のような思量か登録さ
れている。
IF                 THEN([
組織]+ X + [変革])−0ピック:変更中トピ
ック・人事異動) この規則は、文章中でキーワード「変革」に変換された
単語の何文字か前方に、キーワード「組織」に変換され
た単語がある場合、)・ビック「変更」を単なる住所や
電話番号の変更とは異質のトピック1人事異動」と解釈
せよということを意味する。また、トピック「就任」に
ついても、キーワード「就任」に変換された単語の前方
にキーワード丁役職」に変換された単語(部長)が必要
である等の規則が登録されており、これらの規則に基づ
いてトピック候補を厳選するのである。
次に、慣用的表現抽出手段13は、文章中に含まれる文
章の目的を象徴する慣用的表現を慣用的表現辞書I2を
用いて抽出する。第3図の例では、文章20中に下線で
示すように「承りまずところJと1なられたとのこと」
が手紙文特有の慣用表現として抽出される。そして、文
書目的分類手段15は、文書目的・キーワード、慣用的
表現関係表14を用いて、上記2つの慣用表現はいずれ
乙文書目的「祝賀状」または「見舞状」にみられる表現
であり、キーワード「慶Jは文W目的「祝賀状」を示す
ものだとして、第3図の文書目的候補23の欄に示すよ
うに、文書目的の第1候補を「祝賀状」と決定する。
さらに、文書概念制御手段I3は、厳選された上記トピ
ック候補の中がら第4図に示すトピック階層関係表I6
を参照して、より具体的なものをトピックの最終候補と
する。例文の場合、トピック1人事異動」より6トピソ
ク「就任」の方が具体的(下位概念)であるので、トピ
ックは「就任」と決定される。次に、第5図に示すトピ
ック・文書目的対応表17を参照して、トピック候補と
文書目的候補の組合せの妥当性を検査する。例文の場合
はトピンク「就任」と文書目的「祝賀状」の組合せは妥
当とされるが、第5図中のX印で示す組合せの場合は、
妥当でないとしてトピック・文書目的候補の再検討か行
なわれる。
こうして、トピック名と文書目的名が例えば「就任」、
「祝賀状」と最終決定されると、中央処理装置1は、書
式制御手段5によって分割された主文の文章データの段
落ごとに上記トピック名と文書目的名を分類インデック
スとして付加して、補助記tは装置4に記憶させ、登録
を行なう。−力、こうして登録された文書を用いて新た
な文書を作成する場合、利用者は、入力装置2から所望
のトピック名や文書目的名を検査条件として入力する。
すると、中央処理装置1は、この検索条件に該当する分
類インデックスをムつ文書データをNli助記憶装置4
から読み出して、表示装置3に表示させる。
従って、利用者は、表示された文書を修正しあるいは参
考にして、容易かつ能率的に新たな文書を作成すること
ができる。
上記実施例では、中央処理装置lに備えられた各処理手
段7.1 +、15.18に、その処理を能率化させる
種々の辞書6.12やテーブル8.9゜14.16.1
7および補助処理手段9.13を設けているので、文書
の自動分類を一層迅速化することができる。
〈発明の効果〉 以上の説明で明らかなように、本発明の文書処理装置は
、利用者が入力した文書を複数の文章に段落分割する書
式制御手段と、この文章中の単語からキーワード候補を
抽出するキーワード抽出手段と、上記キーワード候補か
らその文書のトピックを表現する重要なキーワードを見
つけ出し、その文中での妥当性を検索するトピック解析
手段と、上記キーワード候補と文中から抽出した慣用的
表現とに基づいて文書目的候補を提示する文書目的分類
手段と、上記トピックと文書目的候補との整合性を検査
して文書概念をなすトピック・文書目的の組合せを決定
する文書概念制御手段とを備えて、決定されたトピック
名・文書目的名を上記分割された文章に分類インデック
スとして付加して記憶する一方、与えられた分類インデ
ックスに該当する文章を検索して文書を作成し得ろよう
にしているので、作成された文書を迅速かつ多面的に自
動分類して登録した後、所望の文書を的確かつ能率的に
検索でき、これを参考にして新f二な文書を容易かつ能
率的に作成でき、文書管理の飛躍的効率化に大いに貢献
する。
【図面の簡単な説明】
第1図は本発明の一実施例たる日本語ワードブロセッザ
の構成模式図、第2図は上記実施例による書式分割例を
示す図、第3図は上記実施例の万頃処理の具体例を示す
概念図、第4図はトピックの階層関係の一例を示す図、
第5図はトピックと文書目的の組合せの可否の一例を示
す図である。 I・・・中央処理装置、2・・入力装置、4・・補助記
憶装置、5・・書式制御手段、7・・・キーワード抽出
手段、 11 ・トピック解析手段、 15・・・文書目的分類手段、 +8−−文書概念制御手段。 特 許 出 願 人  シャープ味式会社代理人 弁理
士 青 山 葆 はか16第   2   図

Claims (1)

    【特許請求の範囲】
  1. (1)利用者が入力した任意の文書を、書式段落パター
    ンを識別して複数の文章に分割する書式制御手段と、上
    記文章に含まれる単語を解析してその単語の意味内容を
    象徴するキーワード候補を抽出するキーワード抽出手段
    と、抽出されたキーワード候補の中からその文書の発生
    原因たるトピックを表現するために重要なキーワードを
    見つけ出して、見つけ出したキーワードに対応する単語
    の前方の文章を解析して上記トピックの妥当性を検査す
    るトピック解析手段と、文章中に含まれる慣用的表現を
    抽出し、抽出した慣用的表現と上記キーワード候補に基
    づいて文書の作成目的候補を提示する文書目的分類手段
    と、上記トピック解析手段で見つかったトピックと上記
    文書目的分類手段で見つかった文書目的との整合性を検
    査し、文書概念をなすトピック・文書目的の組み合わせ
    を決定する文書概念制御手段とを備えて、入力された文
    書を分割し、分割された文章の夫々に分類インデックス
    としてトピック名、文書目的名を付加して記憶装置に格
    納する一方、与えられたトピック名等に基づいて記憶装
    置から文章を検索して、文書を作成し得るようにした文
    書処理装置。
JP63134714A 1988-06-01 1988-06-01 文書処理装置 Expired - Fee Related JPH0782497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63134714A JPH0782497B2 (ja) 1988-06-01 1988-06-01 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63134714A JPH0782497B2 (ja) 1988-06-01 1988-06-01 文書処理装置

Publications (2)

Publication Number Publication Date
JPH01304575A true JPH01304575A (ja) 1989-12-08
JPH0782497B2 JPH0782497B2 (ja) 1995-09-06

Family

ID=15134879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63134714A Expired - Fee Related JPH0782497B2 (ja) 1988-06-01 1988-06-01 文書処理装置

Country Status (1)

Country Link
JP (1) JPH0782497B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
JPH06259423A (ja) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
JPH07110814A (ja) * 1993-10-12 1995-04-25 Fuji Xerox Co Ltd 電子文書記憶装置
US5468181A (en) * 1990-09-20 1995-11-21 Kabushiki Kaisha Nippon Conlux Coin processing apparatus
US5566289A (en) * 1991-10-17 1996-10-15 Fuji Xerox Co., Ltd. Document formatting support system
US5608857A (en) * 1991-10-04 1997-03-04 Fuji Xerox Co., Ltd. Document preparation support system using knowledge database to determine document layout
JP2002132799A (ja) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd 電子メール要約転送システム
CN115238699A (zh) * 2022-08-12 2022-10-25 同方知网(北京)技术有限公司 一种社科类文献的关键词标引方法
CN115757729A (zh) * 2022-11-18 2023-03-07 阿里云计算有限公司 文章主题提取方法、装置、设备、存储介质及处理器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
US5468181A (en) * 1990-09-20 1995-11-21 Kabushiki Kaisha Nippon Conlux Coin processing apparatus
US5608857A (en) * 1991-10-04 1997-03-04 Fuji Xerox Co., Ltd. Document preparation support system using knowledge database to determine document layout
US5566289A (en) * 1991-10-17 1996-10-15 Fuji Xerox Co., Ltd. Document formatting support system
JPH06259423A (ja) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
JPH07110814A (ja) * 1993-10-12 1995-04-25 Fuji Xerox Co Ltd 電子文書記憶装置
JP2002132799A (ja) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd 電子メール要約転送システム
CN115238699A (zh) * 2022-08-12 2022-10-25 同方知网(北京)技术有限公司 一种社科类文献的关键词标引方法
CN115757729A (zh) * 2022-11-18 2023-03-07 阿里云计算有限公司 文章主题提取方法、装置、设备、存储介质及处理器

Also Published As

Publication number Publication date
JPH0782497B2 (ja) 1995-09-06

Similar Documents

Publication Publication Date Title
US6952691B2 (en) Method and system for searching a multi-lingual database
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US20050138018A1 (en) Information retrieval system, search result processing system, information retrieval method, and computer program product therefor
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
US20080005151A1 (en) Method and apparatus for creating index, and computer program product
CN102156712A (zh) 一种基于云存储的电力信息检索方法及系统
US20050065920A1 (en) System and method for similarity searching based on synonym groups
US20130013604A1 (en) Method and System for Making Document Module
JPH01304575A (ja) 文書処理装置
JP2021189694A (ja) 情報検索システム
KR20210105626A (ko) 기술문서 번역 지원 시스템
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
CN115269848A (zh) 一种科技文献数据分类方法
KR20020061443A (ko) 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템
Liu et al. An improved full-text retrieval for elementary education resource database system
JPS63175965A (ja) 文書処理装置
Haitong THE ROLE OF CORPUS LINGUISTICS IN CONTEMPORARY LINGUISTICS RESEARCH AND TRANSLATION STUDIES
JP3274652B2 (ja) 翻訳装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
KR102594717B1 (ko) 검색키워드 다중 표기에 따른 우선순위 중심 선별문서 채택 시스템 및 그 구동방법
PEI SCIENCE JOURNAL OF VOLGOGRAD STATE UNIVERSITY. LINGUISTICS
JP3210842B2 (ja) 情報処理装置
JP2007323238A (ja) 強調表示装置及びプログラム
JPH0561902A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees