JPH08314980A - ドキュメントデータベースの構築方法、表示方法、及び表示装置 - Google Patents
ドキュメントデータベースの構築方法、表示方法、及び表示装置Info
- Publication number
- JPH08314980A JPH08314980A JP8087013A JP8701396A JPH08314980A JP H08314980 A JPH08314980 A JP H08314980A JP 8087013 A JP8087013 A JP 8087013A JP 8701396 A JP8701396 A JP 8701396A JP H08314980 A JPH08314980 A JP H08314980A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- sentence
- network
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 179
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims 1
- 238000012937 correction Methods 0.000 description 51
- 238000012545 processing Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 16
- 238000010411 cooking Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 241001539176 Hime Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241001385733 Aesculus indica Species 0.000 description 1
- 241001446467 Mama Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
く、文書内容の分野を限定せずに、文書内容の適確な把
握が可能な主題抽出および表現を行う。 【解決手段】与えられた文書から主題を示唆し得る共起
関係にある自立語群を抽出し、各自立語とそれに対する
共起単語との共起回数を算出し、これにより得られた共
起確率で共起の強さをネットワークで表すようにした。
この結果、大規模な文法辞書を構築することなく文書の
手段を抽出でき、要約作成に必要な文法知識をこのネッ
トワーク出力を参照して人間が補ってやることによりこ
のネットワーク出力からさらに主題抽出、要約生成が可
能となり、キーワードのみの情報に較べより詳細な文章
把握が可能になった。
Description
書、文芸著作文書等より特定な単語を抽出し、その単語
同士をネットワーク形式で関係付けるドキュメントデー
タベースに関する。
芸著作文書等は電子化されているものが増えているが、
これらの電子化文書群の中には著者によるキーワードや
要約が作成されていないものも多く、電子計算機上で主
題の抽出を行い要約の自動作成を行う試みが種々なされ
ている。
抽出する方法としては、第1にキーワードの出現頻度を
利用する方法、第2に言語的な解析を行う方法が挙げら
れる。
柄はくり返し述べられるものであり、頻繁に出現する単
語が文書の主題を示す可能性が高い」という理論に基づ
いていてる。しかし、自立語のなかには、「そして」、
「その」、「この」、「早く」、「(そんな)こと」、
「か(よわい)」、「(つやっ)ぽい」等のように、言
語機能として出現する単語(接続詞、連体詞、副詞、形
式名詞、接頭辞、接尾辞、指示代名詞の一部等)があ
る。このため、単に出現頻度だけで重要単語を決定する
ことはできない。このような言語機能単語を除外した上
で単独で意味をもち、文書の特徴を表わす単語を抽出し
なければならない。そのためにまず、大量の語葉をもつ
重要語リストを予め準備しておいてから文書中の単一語
の出現頻度を計算してキーワードを決定する。このキー
ワードの決定に際しては後述の言語的解析の結果を利用
してもよい。そしてこのキーワード群のうち出現頻度の
高い単語をもとに要約を生成する。
て単語が言い換えられている文書には対応できないた
め、単純にキーワードの出現頻度だけでは適確に手段を
抽出することは困難である。
なシソーラス(類義語辞書)を用意しておかなくてはな
らず、システムの負荷が大きくなるという問題もある。
一方、後者の言語解析は、接続詞や文の構造に注目して
これらに関する固有のパラメータを設定することで重要
語を決定し、文と文の関係や文書の論理構造を解析する
方法である。
語として伴っている名詞句や、文末が「だ」、「であ
る」などで終わる文の最後尾にある単語を重要語とす
る。たとえば、「明日の天気は晴れでしょう」という文
の場合、「は」を伴う名詞句「天気」が重要語となる。
的に限定(たとえば技術文書のみに限定)すれば効果的
ではあるが、文芸著作文書のように、「ある日」、「や
がて」などの接続詞や主人公の行動の記述から物語の展
開を判断する場合には異なる固有パラメータが必要とな
ってしまう。
点に鑑みてなされたものであり、(1)単語辞書や文法
に関する知識を構築することなく、(2)文書内容の分
野を限定せずに、(3)人間が文書の前処理等の介入を
することなく、文書内容の適確な把握が可能な主題抽出
および表現生成を自動的に行うことを課題とする。
た文書から自立語を抽出する自立語抽出ステップを実行
する。このステップでは文の中から自立語を抽出する作
業を行う。本発明でいう「自立語」とは単独で意味をな
す単語を指し、たとえば「料理の先生になりたい」とい
う文の場合、「料理」、「先生」および「なる」が自立
語である。
共起単語とその共起回数を記録する共起テーブルを作成
する共起テーブル作成ステップが実行される。本発明で
いう「共起」とは同一文中に同時に存在する二つの自立
語間の関係をいう。すなわち同一文中に同時に複数の自
立語が存在する場合にはそれらの自立語は互いに共起し
ている、または、共起関係にあるという。また、互いに
共起関係にある2つの自立語が存在する場合に、一方の
自立語を他方の自立語に対する共起単語という。
び図2に示す。図1は、文1「料理の先生になりた
い」、文2「料理学校の先生です」という2つの文に基
づいて共起テーブルを作成する例を示している。同図に
おいて、文1の自立語として「料理」、「先生」および
「なる」が抽出され、文2の自立語として「料理」、
「学校」および「先生」が抽出される。これらの自立語
と共起関係にある同図右側の共起単語が抽出され共起回
数が算出される。たとえば、「料理」という自立語は文
1と文2の双方に存在しており、この「料理」という自
立語に対して「先生」という共起単語は文1に1回、文
2に1回出現しており合計2回共起されている。したが
って自立語「料理」に対する共起単語「先生」の共起回
数は2となる。
学校に通っている」という文に基づいて共起テーブルを
作成する例を示している。次に、前記共起テーブルに基
づいて共起関係の強さを表わす共起確率を算出する共起
確率算出ステップが実行される。ここで共起確率とは、
ある自立語wiが出現したとき、Wiに対する共起単語
cjがwiと共起する確率P(cj/wi)であり、下
記の(1)式により算出可能である。
数) cj:自立語wiに対する共起単語(1≦J≦N
b(wi)、Nb(wi:wiに対する共起単語数)
M(cj/wi):自立語wiとそれに対する共起単語
cjとの共起回数 Nwi:自立語wiの出現数 前記(1)式により算出される共起確率は、自立語wi
の生起という条件つき確率であり、wiからそれに対す
る共起単語cjへの意味的な繋がりを示すから、この情
報を「自立語wi→共起単語cj」のような片方向リン
クにより表現することができる。
出する共起回数期待値算出ステップを実行する。共起回
数の期待値E(cj/wi)は下記の(2)式により算
出することができる。
確率 Pwi=Nwi/NI Pwi:自立語wiの出現確
率 m−NI/Ns 次に、期待値E(cj/wi)と実際の共起回数M(c
j/wi)を比較して、一定の条件を満たす自立語とそ
れに対する共起単語との組み合わせを抽出する主題示唆
自立語群選定ステップが実行される。一定の条件として
は、下記の(3)式を例示することができる。
i)よりも実際の共起回数M(cj/wi)が大きいこ
とになり、自立語wiと共起単語cjとの意味的な繋が
りがあるといえる。しかし、文書中の総自立語数NIに
対して語量数NBが極端に少ない場合、たとえば子供向
けの物語などのように少ない語量での繰り返しが多い場
合には、意味的な繋がりが非常に弱くても上記の(3)
式の条件を満たす自立語と共起単語の組み合わせが多数
出現することになる。
こでは次の(4)式を満たす場合のみを共起関係が強い
と判断してもよい。 M(cj/wi)>E(cj/wi)+α・NI/NB ・・・・・(4) αはたとえば、実験的に求めることができる。
98語の共起データを用いてα=1.5に設定した共起
回数M(cj/wi)とその期待値E(cj/wi)と
の関係を示したグラフ図である。図4は同様の条件でα
=2.5とした場合、図5は同様の条件でα=0.5と
した場合である。図3〜図5におけるプロットの点は共
起した自立語の組み合わせを示し、各図の実線よりも上
にある点は前記(4)式を満たすことになる。すなわち
αを大きくすればより強い共起関係を有する情報のみを
抽出することができ、小さくすれば共起関係のより弱い
情報まで抽出可能である。このαの設定は初期値として
例えば1.5とし、ユーザーにより任意に変更可能とし
てもよい。
テップを実行し、自立語からそれに対する共起単語への
リンクの設定および共起ネットワークの生成を行う。す
なわち、強い共起関係にある自立語群が持つ意味的な繋
がりを自立語wiからそれに対する共起単語cjへのリ
ンクによって表現し、前述の共起確率P(cj/wi)
をリンクの表示形態に反映して共起関係の強さを示すこ
とにより、文書の主題を可視的に表す共起ネットワーク
を生成して表示する。この共起ネットワークは、例え
ば、主題示唆自立語群選定ステップで選定された自立語
群の各自立語を表す文字列と、これらの共起関係にある
自立語それぞれを表す文字列の間を視覚的に結ぶ共起線
とをCRT等の画面上で形成することができる。
する共起単語の共起確率の大きさによってその線種、
色、濃淡、向き、長さ、又は太さが決定される線もしく
は矢印を例示できる。さらに、共起確率の大きさを、三
次元表現によって視覚的に区別できるようにしてもよ
い。
例を図6に示す。このような共起ネットワークは、CR
T画面またはプリンタ等の出力装置によって表示して可
視化することができ、文書の主題の把握が可視的に容易
となっている。
び線を用い、この矢印及び線の太さを共起確率P(cj
/wi)の強弱によって以下に示すような3段階に分け
ている。
ル)として電子計算機の記憶装置上に保持していてもよ
い。
ルに対応している。同図では自立語「ママ」から、それ
に対する共起単語である「私」へのリンクが最も強いこ
とがわかる。
を構築することなく文書の主題を抽出することができ
る。さらにネットワーク形式で主題を示唆し得る自立語
の意味的な繋がりを可視的に表現できるため、マニュア
ルによる検索、電子計算機による自動検索も極めて効率
的に行うことができる。
ネットワーク出力を参照して人間が補ってやることによ
りこのネットワーク出力からさらに主題抽出、要約生成
が可能であり、キーワードのみの情報に較べより詳細な
文章把握が可能となる。
際して定数((4)式のα)を可変にしたことから、ユ
ーザの要求に合わせて抽出(表示)するリンクを自由に
増減することができる。そのため、少ない語量で構成さ
れている昔話等の物語から、多数の語葉が存在する技術
文書に至るまで文書の内容を問わずにデータベースの作
成、共起ネットワークの生成が可能である。
クを参照することにより必要な原文章を判別し、その原
文章を取得するするための操作を容易に行えるようにす
るため、CRT等の表示装置を利用した以下のような方
法を提供する。
成ステップにおいて生成された1つあるいは2つ以上の
共起ネットワークを検索し、任意のキーワードを自立語
として含む1つあるいは2つ以上の共起ネットワークを
抽出して画面表示する文書検索ステップと、この文書検
索ステップで画面表示された1つあるいは2つ以上の共
起ネットワークのうちの任意の共起ネットワークに対応
する文書の原文章を読み出して画面表示する原文参照ス
テップとを実行する。
に、キーワードを特定する検索式を入力するための検索
式入力部と、検索実行命令を入力するための検索実行命
令入力部とを表示するようにしてもよい。このとき、ユ
ーザは、キーボード等の入力装置を利用して検索式を入
力して、検索実行命令入力部に検索実行命令を入力す
る。検索式と検索実行命令とが入力されると、文書検索
ステップでは、共起ネットワーク生成ステップで生成さ
れた1つあるいは2つ以上の共起ネットワークを検索
し、前記検索式によって特定されるキーワードを含む共
起ネットワークが抽出される。抽出された共起ネットワ
ークは、CRT等によって画面表示される。
例えば、キーワードと一致する自立語を強調又は他と区
別して表示するようにしてもよい。強調または区別する
方法としては、キーワードとを一致する自立語を他の自
立語とは異なる色、書体、あるいは大きさ等で表示する
方法を例示できる。
画面表示する場合には、原文章の全部を画面表示する方
法と、原文章の一部を画面表示する方法とがある。原文
章の一部を画面表示する場合には、文書検索ステップに
て入力されたキーワードを含む文又は文字列、あるいは
キーワードを含む文又は文字列とその前後の文又は文字
列を表示するようにしてもよい。このとき、キーワード
のみ、あるいはーワードを含む文を強調して表示するよ
うにしてもよい。強調する方法としては、例えば、キー
ワードのみあるいはキーワードを含む文を網掛け表示す
る方法、反転表示する方法、文字の色、書体、大きさを
他の文字とは異なるようにする方法等を例示できる。
ワード(第1のキーワード)とは別に、原文参照ステッ
プにて新たなキーワード(第2のキーワード)が入力さ
れた場合には、第2のキーワードを含む文を画面表示す
るようにする。第2のキーワードの指定方法としては、
第2のキーワードの表示座標を位置指定手段によって指
定する方法を例示できる。
その原文章に対応する共起ネットワークの表示座標を位
置指定手段によって指定する方法を例示できる。さら
に、キーワードを含む文が原文章中に複数存在する可能
性があるので、複数ある文のうちの一文を画面表示する
とともに、前記キーワード(検索式)と、キーワードを
含む文が原文章中に幾つあるかを示す数値と、キーワー
ドを含む文のうち現在表示されている文が何番目の文で
あるかを示す数値と、キーワードを含む文のうち現在表
示されている文の前の文の表示命令を入力する前文表示
命令入力部と、キーワードを含む文のうち現在表示され
ている文の次の文の表示命令を入力する次文表示命令入
力部とを画面表示するようにしてもよい。
が原文章中に幾つあるかを示す数値と、キーワードを含
む文のうち現在表示されている文が何番目の文であるか
を示す数値とを参照することによって、現在表示されて
いる文の前あるいは後にも、キーワードを含む文が存在
することを認識することができる。そして、ユーザが前
文表示命令入力部に前文表示命令を入力すれば、キーワ
ードを含む文のうち現在表示されている文の前の文が画
面表示されるとともに、キーワードを含む文のうち現在
表示されている文が何番目の文であるかを示す数値が1
つデクリメントされる。また、ユーザが次文表示命令入
力部に次文表示命令を入力すれば、キーワードを含む文
のうち現在表示されている文の次の文が画面表示される
とともに、キーワードを含む文のうち現在表示されてい
る文が何番目の文であるかを示す数値が1つインクリメ
ントされる。
おいて、生成された共起ネットワークを画面表示する場
合には、期待値に加算される所定の定数を変更する指示
を入力するための定数変更指示入力部を画面表示するよ
うにしてもよい。このとき、定数変更指示入力部に定数
変更指示が入力されると、主題示唆自立語選定ステップ
が再起動されて共起回数と期待値に変更後の定数を加算
した数値とを比較して文書の主題を示唆する自立語を選
定し直す。そして、選定し直された自立語に基づいて共
起ネットワークが作り直されて画面表示される。
表示装置について述べる。ドキュメントデータベース表
示装置は、共起テーブル、共起確率算出手段、共起回数
期待値算出手段、主題示唆自立語群選定手段、共起ネッ
トワーク生成手段、キーワード入力手段、文書検索手
段、共起ネットワーク指定手段、及び原文参照手段を備
える。
された自立語毎に、各自立語に対する共起単語とその共
起回数とを記録する。共起確率算出手段は、共起テーブ
ルに基づいて共起関係の強さを表わす共起確率を算出す
る。
に基づいて共起回数の期待値を算出する。主題示唆自立
語群選定手段は、期待値と共起回数とを比較して文書の
主題を示唆する自立語(被共起単語としての自立語と、
共起単語としての自立語)を選定する。
立語群選定手段によって選定された自立語を表す文字列
と、それらの文字列のうち共起関係にある文字列間を前
記共起確率の大きさに応じた表示形態の共起線によって
結んで共起ネットワークを生成する。
ドであり、ユーザがキーワードを特定する検索式を入力
する装置である。文書検索手段は、共起ネットワーク生
成手段によって生成された1つあるいは2つ以上の共起
ネットワークを検索し、検索式によって特定されるキー
ワードを含む共起ネットワークを抽出して画面表示す
る。
段によって画面表示された1つあるいは2つ以上の共起
ネットワークのうちの任意の共起ネットワークを指定す
る。原文参照手段は、共起ネットワーク指定手段によっ
て指定された共起ネットワークに対応する文書の原文章
を読み出し、その原文章の一部あるいは全部を画面表示
する。
被共起単語との共起確率の大きさによってその線種、向
き、色、濃淡、長さ、又は太さが決定される線もしくは
矢印であり、これらの線種、向き、色、濃淡、長さ、又
は太さはユーザによって任意に変更されるようにしても
よい。
て図面に基づいて説明する。図7は、本発明の処理の概
念図を示したものである。また図11は本発明の処理の
手順をフローで示したものである。
データベース作成処理(100)と、主題示唆自立語ネ
ットワーク表示処理(200)とからなる。そして、こ
れらの処理を実現するために、16ビット処理好ましく
は32ビット処理以上のCPU、メインメモリ、ハード
ディスク装置等の大容量外部記憶装置、及びCRTまた
はプリンタ等の外部表示・出力装置を備えた電子計算機
システムを用いる。上記の共起データベース作成処理
(100)と主題示唆自立語ネットワーク表示処理(2
00)とは、大容量外部記憶装置より実行プログラムが
CPUに読み込まれて実行される。また、原文章の入力
は予めエディタあるいはワードプロセッサ等のアプリケ
ーションソフトによって入力され、例えばテキストファ
イル形式で大容量外部記憶装置に格納されているものと
する。
0)と主題示唆自立語ネットワーク表示処理(200)
とは、単一の電子計算機で実現されるようにしてもよ
く、あるいは共起データベース作成処理(100)を実
現する共起データベース作成装置と、主題示唆自立語ネ
ットワーク表示処理(200)を実現する主題示唆自立
語ネットワーク表示装置とに分け、これらの装置を通信
回線で接続して、電子化された文書データや共起データ
ベース等を通信によって送受信できるようにした形態と
してもよい。さらに、共起データベース作成装置と主題
示唆自立語ネットワーク表示装置とのデータの受け渡し
は通信に限られるものでないことは当然であり、例えば
FDやCD−ROM等の記録媒体に記録して受け渡しを
行う方法等を例示することができる。
0)、及び主題示唆自立語ネットワーク表示処理(20
0)について述べる。 〈共起データベース作成処理(100)〉共起データベ
ース作成処理(100)は、電子化された文書データか
ら、共起テーブル(TBLn)と、共起確率テーブル
(TBMn)と、期待値テーブル(TBNn)とから構
成される共起データベース(KDB)を作成し、この共
起データベース(KDB)を大容量外部記憶装置(ある
いはメインメモリ)に記録する処理である。この共起デ
ータベース作成処理(100)は、図7に示すように自
立語抽出処理(110)、共起テーブル作成処理(12
0)、共起確率算出処理(130)、及び共起回数期待
値算出処理(140)に分けることができる。
タから、自立語を抽出し、その文書中の総自立語数と語
量数を算出する。共起テーブル作成処理(120)は、
自立語抽出処理によって抽出された自立語毎に、各自立
語に対する共起単語とその共起回数とを登録する共起テ
ーブル(TBLn)を作成する。
ブル(TBLn)に記録された全自立語に対し、各自立
語がそれに対する共起単語と共起する共起確率を算出す
る。尚、1つの自立語に対して複数の共起単語が存在す
る場合には、各共起単語毎に共起確率を算出する。さら
に、共起確率算出処理(130)では、各自立語毎に、
それに対する共起単語と、その共起単語と共起する共起
確率と、を登録する共起確率テーブル(TBMn)を作
成する。
起テーブル(TBLn)に記録された全自立語に対し、
各自立語のそれに対する共起単語と共起する共起回数の
期待値を算出する。尚、1つの自立語に対して複数の共
起単語が存在する場合には、各共起単語毎に共起回数の
期待値を算出する。そして、各自立語毎に、それに対す
る共起単語とその共起単語と共起する共起回数の期待値
とを登録する期待値テーブル(TBNn)を作成する。
(200))主題示唆自立語ネットワーク表示処理(2
00)は、共起データベースに基づいて共起ネットワー
クを作成し、作成された共起ネットワークをCRTやプ
リンタ等の出力装置に出力するとともに、共起ネットワ
ークの原文章を検索して出力装置に出力する処理であ
る。本実施の形態では、出力装置としてCRTを用い
る。
00)は、図7に示すように、主題示唆自立語群選定処
理(210)、共起ネットワーク生成処理(220)、
文書検索処理(230)、及び原文参照処理(240)
に分けることができる。
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブルと共起確率テーブルと期待値テーブル
とを読み出す。そして、全ての自立語について、自立語
とそれに対する共起単語との関係(すなわち、共起回数
期待値と実際の共起回数との関係)が前述の(4)式を
満たす自立語とそれに対する共起単語との組み合わせを
判別し、これらの組み合わせを登録するテーブルを作成
する。通常、(4)式の定数αには、初期値(1.5)
が設定されている。
主題示唆自立語群選定処理(210)によって作成され
たテーブルを参照し、各文書に対応ずる共起ネットワー
クを作成する。作成された共起ネットワークはCRTに
画面表示される。この共起ネットワークは、前述の図6
に示すように、自立語を示す文字列と、共起関係にある
自立語を示す文字列間を結ぶ共起線とから構成されてい
る。共起線は、共起関係の強さによってその線種、色、
濃淡、長さ、あるいは太さが異なっている。リンクの線
種、色、濃淡、長さ、あるいは太さを決定する場合、共
起確率テーブルの共起確率を参照し、共起確率の大きさ
に応じてリンクの線種、色、長さ、あるいは太さを決定
する。尚、共起関係の強さを差別化する方法としては、
共起関係にある2つの自立語とこれらの自立語間を結ぶ
共起線を三次元表現によって表示し、共起確率の大きさ
によって三次元表現の表現形式を変更する方法も例示で
きる。さらに、共起線を、共起関係の強さに応じた濃淡
で表す場合、ユーザの選択によって共起関係がある程度
以上強いものだけが実質的にユーザに可視になるように
することもできるし、共起関係がより弱いものまで実質
的にユーザに可視となるようにすることもできる。
は、ユーザによって複数の文書が指定された場合には、
各文書毎に共起ネットワークを生成する。そして、それ
らの共起ネットワークを画面上に表示する際には、一画
面上に並べて表示する全文書表示と、一画面上に重ねて
表示する1文書ずつ表示とを、ユーザが選択できるよう
になっている。また、(4)式の定数αの値を変更して
主題示唆自立語群を選定し直し、共起ネットワークの表
現レベル(共起レベル)を変更することも可能である。
ばキーボード等からキーワードを入力したときに、共起
ネットワーク生成処理(220)で生成された1つある
いは2つ以上の共起ネットワークを検索して、ユーザが
入力したキーワードを含む共起ネットワークを抽出す
る。ここで、キーワードを含む共起ネットワークが複数
存在する場合には、それらの共起ネットワークは、ユー
ザの選択によって全文書表示あるいは1文書ずつ表示さ
れる。
置の文書データの中から、ユーザが指定する文書の原文
章を読み出し、画面表示する。原文章を指定する手順と
しては、文書検索処理(230)によって画面表示され
た1つあるいは2つ以上の共起ネットワークのうち、ユ
ーザが希望する文書の共起ネットワークの表示座標を位
置指定手段によって指定すればよい。位置指定手段は、
例えば、マウス等のポインティングデバイスである。
尚、ユーザが、原文章の指定を行う前に、共起ネットワ
ーク上の一又は二以上の任意の自立語の表示位置をポイ
ンティングデバイスによって指定すれば、その自立語が
本発明の第2のキーワードとして認識される。そして、
原文章を表示する際には、原文章の中から、第2のキー
ワードを含む文とその前後の文とがピックアップされて
表示される。このとき、第2のキーワード、あるいは第
2のキーワードを含む文は、網掛け表示や反転表示等の
方法によって強調または区別される。さらに、キーワー
ドを含む文が原文章中に複数存在する場合には、ユーザ
の指定により、キーワードを含む文のうち現在表示され
ている文の前の部分又は文へスクロールまたはジャンプ
したり、次の部分又は文へスクロールまたはジャンプし
たりすることができるようになっている。
る。先ず、アンデルセン童話の「人魚姫」を例に上げて
共起データベース作成処理(100)の流れについて述
べる。
ドプロセッサによってテキスト入力され、文書データと
して大容量外部記憶装置に格納される。この「人魚姫」
の総文数は687であり、これらの文を入力文1,2,
3・・・687とする。
は、自立語抽出処理が実行されて、文1〜文Ns(ここ
ではNs=687)を順次読み出し、各文に対して自立
語wiの抽出が行われる。この自立語抽出処理は、具体
的にはCPUが大容量外部記憶装置上に設定された自立
語・付属語辞書(DIC)を参照しながら行われる。こ
の自立語・付属語辞書(DIC)には、自立語の語幹及
び活用や、自立語に付随する可能性のある付属語の接続
情報等が格納されている。さらに、自立語・付属語辞書
(DIC)には、本発明の自立語の対象から除外される
自立語、例えば、接続詞、連体詞、副詞、形式名詞、及
び接頭尾辞等の品詞からなる自立語のように文書の主題
となる可能性が低い自立語も格納されている。
れた結果、文書「人魚姫」からは、「人魚」、「姫」、
「王子」、「キス」、「する」および「若い」等の単語
が自立語wiとして抽出された。
が実行され、自立語抽出処理(110)によって抽出さ
れた自立語wiの各々について、その共起単語cjとそ
の共起回数M(cj/wi)が算出される。そして、各
自立語wi毎に、共起単語cjとその共起回数M(cj
/wi)とを登録する共起テーブル(TBL1)が生成
される。ここで、共起テーブル(TBL1)の具体例を
図8に示す。
魚」とそれに対する共起単語「姫」が文書中で共起した
回数は47回であり、一方、自立語「姫」とそれに対す
る共起単語「人魚」が文書中で共起した回数は50回で
ある。このようにして作成された共起テーブル(TBL
1)は、大容量外部記憶装置に格納される。
され、共起テーブル(TBL1)に登録された共起回数
M(cj/wi)に基づいて共起確率P(cj/wi)
が算出される。共起確率P(cj/wi)の算出は前述
の(1)式に基づいて計算される。例えば、自立語「人
魚」の文書中での出現数Nwiは74回である。したが
って、自立語「人魚」がそれに対する共起単語「姫」と
共起する共起確率P(cj/wi)は、下記のようにな
る。
wi=47/74=0.635135 算出された共起確率P(cj/wi)は、自立語wi及
びそれに対する共起単語cjとともに、共起確率テーブ
ル(TBMn)に登録される。
起テーブル(TBL1)と同一形式の共起確率テーブル
(TBMn)に登録されているが、算出された共起確率
P(cj/wi)を、共起テーブル(TBL1)と一定
の関係付けを持たせて大容量外部記憶装置等に格納して
おいてもよい。また、単一のテーブルに、後述の共起回
数期待値E(cj/wi)とともに格納するようにして
もよい。さらに、単一のテーブルに共起回数M(cj/
wi)と共起確率P(cj/wi)と後述の共起回数期
待値E(cj/wi)とを関係付けて格納してもよい。
が実行され、前述の(2)式に基づいて共起回数期待値
E(cj/wi)が算出される。この結果、自立語「人
魚」がそれに対する共起単語「姫」と共起する共起回数
期待値E(cj/wi)は16.575816となる。
以上のようにして算出された共起回数期待値E(cj/
wi)は、自立語wj及びそれに対する共起単語cjと
ともに期待値テーブル(TBNn)に登録され、この期
待値テーブル(TBNn)は大容量外部装置の共起デー
タベースKDBに格納される。
DB)の作成処理が完了する。図7では共起テーブル
(TBL1、2、・・・n)と、共起確率P(cj/w
i)を登録する共起確率テーブル(TBM1、2、・・
・n)と、共起回数期待値E(cj/wi)を登録する
期待値テーブル(TBN1、2、・・・n)とが共起デ
ータベース(KDB)を構成している。
処理(200)の流れについて述べる。主題示唆自立語
ネットワーク表示処理(200)では、先ず主題示唆自
立語群選定処理(210)が実行される。この主題示唆
自立語群選定処理(210)では、大容量外部記憶装置
の共起データベース群の中から、ユーザが指定する文書
(たとえばここでは童話「人魚姫」)に対応する共起デ
ータベースが読み出される。そして、図11に示すよう
に、全自立語wiと全共起単語cjのそれぞれについて
前述の(4)式が吟味される。なおここでは定数αにつ
いて初期値として1.5が設定されている。
wiとそれに対する共起単語cjとの組み合わせを登録
するテーブルを作成する。次に、共起ネットワーク生成
処理(220)が実行される。この共起ネットワーク生
成処理(220)では、主題示唆自立語群選定処理(2
10)にて作成されたテーブルから自立語wiとそれに
対する共起単語cjとの組み合わせを読み出し、自立語
wiからそれに対する共起単語cjへ向かうリンクを大
容量外部記憶装置に格納されている表示モジュールに引
き渡す。表示モジュールは、自立語wiを表す文字列、
それに対する共起単語cjを表す文字列、及び自立語w
iとそれに対する共起単語cjとの間を結ぶ共起線から
なる共起ネットワークを画面上に形成する。このとき、
前述の表1に示したレベルテーブル(大容量外部記憶装
置上に格納)に基づいて共起線の太さを決定する。尚、
共起関係の強さは、自立語wiとそれに対する共起単語
cjとを結ぶ線の太さではなく、線種、色、濃淡、長
さ、あるいは三次元表示によって区別するようにしても
よい。
された共起ネットワークを参照したユーザが共起レベル
を変更することもできる。この場合、前述の式(4)の
定数αの値が変更されることになるため、主題示唆自立
語群選定処理(210)及び共起ネットワーク生成処理
(220)が再度実行される。主題示唆自立語群選定処
理(210)では、定数αの値を変更した式(4)を満
たず自立語wiとそれに対する共起単語cjとの組み合
わせが選定され、これらの組み合わせを登録したテーブ
ルが再作成される。そして、共起ネットワーク生成処理
(220)では、再作成されたテーブルに基づいて新た
な共起ネットワークが作成され、CRTに出力される。
0)と共起ネットワーク生成処理(220)とは、ユー
ザが複数の文書を選択した場合には、選択された全ての
文書について実行される。これにより作成された複数の
共起ネットワークは、1画面上に同時に表示されるよう
にしてもよく、あるいは1画面上に1つの共起ネットワ
ークのみを表示して画面切替や頁切替等によって各々の
共起ネットワークが表示されるようにしてもよい。
ボード等の入力装置から任意のキーワード(自立語)を
入力すると、入力されたキーワードと各文書の共起ネッ
トワークに含まれている自立語とが比較され、入力され
たキーワードと一致する自立語を含む共起ネットワーク
が抽出される。抽出された共起ネットワークは、CRT
に画面表示される。このとき、共起ネットワーク上で
は、ユーザが入力したキーワードと一致する自立語が強
調または他の自立語と区別されるように表示される。例
えば、キーワードと一致する自立語の表示色、大きさ、
書体等を他の自立語と異なるようにしたり、その自立語
を網掛け表示、反転表示、もしくは四角く囲んだりす
る。
るようになっているため、複数のキーワードが入力され
た場合には全てのキーワードを含む共起ネットワークが
判別されることになる。
Tやプリンタ等に出力された共起ネットワークを参照す
れば、各文書の主題を可視的に把握することができる。
そして、ユーザは、原文章を参照したい文書を選択す
る。文書の選択は、画面上で、ユーザが希望する文書の
共起ネットワークの表示座標を位置指定手段としてのマ
ウスによってダブルクリックする。これにより、原文参
照処理(240)が実行され、マウスによって指定され
た表示座標の共起ネットワークを判別し、この共起ネッ
トワークに対応する文書の原文章を大容量外部記憶装置
から読み出す。そして、読み出された原文章の中から、
ユーザが入力したキーワードを含む文とその前後の文と
がピックアップされてCRTに画面表示される。
理(200)を、CRT及び大容量外部記憶装置として
のハードディスク装置を備えた電子計算機で実現した場
合の操作手順について図13〜図31に沿って説明す
る。
示処理(200)を起動したときにCRTに表示される
初期画面である。この初期画面には、メニューバー「フ
ァイル」、「表示」、及び「ヘルプ」が設けられてい
る。ユーザは、これらのメニューバーの中から「ファイ
ル」を選択する。メニューバー「ファイル」が選択され
ると、図14に示すように、「ファイル」のプルダウン
メニューが表示される。このプルダウンメニューには、
「新規作成」と「開く」と「アプリケーションの終了」
とが設定されている。「新規作成」は、新たに文書を読
み込むとき、すなわち新たな文書の共起ネットワークを
作成ずるときに選択するものである。「開く」は既に読
み込み済みの文書あるいはその文書の共起ネットワーク
を表示するときに選択する。また、「アプリケーション
の終了」は主題示唆自立語ネットワーク表示処理(20
0)を終了する場合に選択する。
「新規作成」を選択すると、図15に示すような「新規
作成」のダイアログボックスが表示される。このダイア
ログボックスには、ハードディスク装置内で文書ファイ
ルが格納されている場所「bunsyo」(既定値)
と、その文書ファイルに格納されている文書の数「4」
とが表示される。さらに、ダイアログボックスには、
「全文書表示」ボタン、「1文書ずつ表示」ボタン、
「キャンセル」ボタンが設定されている。「全文書表
示」ボタンは、複数の共起ネットワークを1画面上に並
べて表示する場合に選択するボタンであり、「1文書ず
つ表示」ボタンは複数の共起ネットワークを1画面上に
重ねて表示する表示する場合に選択するボタンである。
「キャンセル」ボタンは新規作成処理を終了する場合に
選択するボタンである。
ティングデバイスによって指定されると、主題示唆自立
語ネットワーク表示処理(200)の主題示唆自立語群
選定処理(210)と共起ネットワーク生成処理(22
0)とが実行されて、文書ファイル内の各文書について
共起ネットワークが作成される。そして、作成された共
起ネットワークは、図16に示すように1画面上に並べ
られて表示される。この画面上では、メニューバー「フ
ァイル」、「表示」、「ヘルプ」に加えて、「編集」と
「ウィンドウ」とが追加される。
選択すると、図17に示すようにプルダウンメニュー
「検索」が表示される。続いて、ユーザがプルダウンメ
ニュー「検索」を選択すると、図18に示すように「検
索」のダイアログボックスが表示される。このダイアロ
グボックスは、検索文字列(自立語)を入力する領域
(図面上では3語まで入力可能)と、「検索実行」ボタ
ンと、「キャンセル」ボタンとが設けられている。検索
文字列は、キーボード等の入力装置から入力される(図
19参照)。検索文字列の入力が終了すると、ユーザは
「検索実行」ボタンを選択する。
示唆自立語ネットワーク表示処理(200)では、文書
検索処理(230)が実行されて入力された全ての検索
文字列を含む共起ネットワークが抽出される。そして、
抽出された共起ネットワーク上において検索文字列と一
致する自立語wiは、他の自立語とは異なる色、大き
さ、書体等、異なる形式で表示される(図19では、四
角い囲みを表示)。これにより、ユーザは、各文書の主
題を可視的に把握することができ、原文章を参照したい
文書の選択を容易に行うことができる。
原文章に対応する共起ネットワークの表示座標、あるい
は共起ネットワークの表示ウィンドウの表示座標をマウ
スでダブルクリックする。この操作によって、画面上に
は、図20に示すような原文章のダイアログボックスが
表示される。このダイアログボックス内には、選択され
た共起ネットワークに対応する文書の原文章の一部が表
示される。この原文章の一部は、原文章中で検索文字列
を含む文のうち、最も早く登場する文とその前後の文と
を表示しており、検索文字列を含む文は網掛け表示され
る。
索処理時に入力したキーワードとしての検索文字列と、
これらの検索文字列を含む文が原文章中に幾つ含まれて
いるかを示す数値及び現在表示されている文が検索文字
列を含む文のうち何番目の文であるかを示す数値(図2
0中、件数)と、「前」ボタンと、「次」ボタンと、
「OK」ボタンとが表示されている。
ち、現在表示されている文の前の文を参照する場合に選
択されるボタンである。この「前」ボタンの表示座標が
ポインティングデバイスによって指定されると、表示画
面は、検索文字列を含む文のうち、現在表示されている
文の前の文へスクロールまたはジャンプする。
ち、現在表示されている文の次の文を参照する場合に選
択されるボタンである。この「次」ボタンの表示座標が
ポインティングによって指定されると、表示画面は、検
索文字列を含む文のうち、現在表示されている文の次の
文へスクロールまたはジャンプする。
よって表示画面がスクロールされた場合も、検索文字列
を含む文は網掛け表示される。「OK」ボタンは、ダイ
アログボックスを閉じる場合に選択するボタンである。
全ての文書の原文章を参照することができる。これによ
り、ユーザは必要な文書と不必要な文書とを判別するこ
とができる。
後の画面を示している。本実施の形態では、文書4が保
存あるいは廃棄されると、その文書4に対応する共起ネ
ットワークの表示ウィンドウが画面上から削除される。
が「1文書ずつ表示」ボタンを選択すると、図22に示
すように、各共起ネットワークの表示ウィンドウが重な
り、あたかも1画面上に1つの共起ネットワークのみが
表示されているようになる。この画面上では、メニュー
バー「ファイル」、「表示」、「ヘルプ」に加えて、
「編集」と「ウィンドウ」とが追加される。
るには、前述の「全文書表示」の場合と同様に、メニュ
ーバー「編集」を選択してプルダウンメニューを読み出
し、このプルダウンメニューのなかから「検索」を選択
する。「検索」が選択されると、図23に示すように
「検索」のダイアログボックスが表示される。このダイ
アログボックスの構成は、「全文書表示」の場合と同様
である。
索文字列が入力された後に、「検索実行」ボタンの表示
座標がポインティングデバイスによって指定されると、
入力された全ての検索文字列を含む共起ネットワークが
抽出され、その共起ネットワークの表示ウィンドウが最
前面へ移動させられる。この時点で検索処理は、一旦中
断される(図24参照)。
では、検索文字列と一致する自立語が共起ネットワーク
中の他の自立語とは異なる色や書体等、異なる形式で表
示される(図24中、四角い囲みを表示)。
インティングデバイスによって指定されると、検索処理
が再開される。そして、該当する共起ネットワークが見
つかると、その共起ネットワークの表示ウィンドウが先
に表示されていた共起ネットワークの表示ウィンドウに
代わって、最前面に移動させられる(図25、26参
照)。
る文書の原文章を参照する場合には、文書検索処理で入
力されたキーワード(第1のキーワード)とは別のキー
ワード(第2のキーワード)を入力して原文章を参照す
る手順と、第2のキーワードを入力せずに原文章を参照
する手順とがある。
章を参照する手順は、例えば図27に示す共起ネットワ
ークに対応する原文章を参照する場合に、共起ネットワ
ークの表示座標をマウスによってダブルクリックする。
これにより、画面上には原文章のダイアログボックスが
表示される。表示される原文章は、第1のキーワードを
含む文とその文の前後の文である。
参照する手順は、例えば前述の図27に示す共起ネット
ワーク上で希望の自立語の表示座標をマウスによってク
リックする。このとき、図示していないが、選択された
自立語は、他の自立語とは異なる形式で表示される。次
に、共起ネットワークの表示座標(共起ネットワークの
表示ウィンドウの表示座標)がマウスによってダブルク
リックされると、図28に示すように、原文章のダイア
ログボックスが表示される。このダイアログボックス内
には、原文章のうち、第2のキーワードを含む文とその
前後の文とが表示される。このうち第2のキーワードを
含む文は網掛け表示される。
キーワードとして選択された自立語の文字列と、第2の
キーワードを含む文が原文書中に幾つ含まれているかを
示す数値及び現在表示されている文が原文章中の検索文
字列を含む文のうち何番目の文であるかを示す数値と、
「前」ボタンと、「次」ボタンと、「OK」ボタンとが
表示されている。「前」ボタン、「次」ボタン、及び
「OK」ボタンの各機能は「全文書表示」の場合と同様
である。
する文書が廃棄されると、その共起ネットワークの表示
ウィンドウが消去されて、次に位置する共起ネットワー
クの表示ウィンドウが最前面に移動させられる。
起レベル)を変更する手順について述べる。「全文書表
示」と「1文書ずつ表示」の何れの場合にも、共起ネッ
トワークの表示ウィンドウには、「+」ボタンと「−」
ボタンが設けられており、何れか一方のボタンの表示座
標がポインティングデバイスによって指定されると、表
現レベルが変更される。例えば、図29のように共起ネ
ットワークを重ねて表示した場合において、表現レベル
を上げる(共起レベルを下げる)には、ユーザは、
「+」ボタンの表示座標をポインティングデバイスによ
って指定する。「+」ボタンの表示座標が指定される
と、主題示唆自立語ネットワーク表示処理(200)の
主題示唆自立語群選定処理(210)と共起ネットワー
ク生成処理(220)が再度実行される。主題示唆自立
語群選定処理(210)では、(4)式の定数αの値を
小さくし、定数αの値が小さくなった(4)式を満たす
自立語wiとそれに対する共起単語cjの組み合わせを
選定する。そして、共起ネットワーク生成処理(22
0)では、新たに選定された自立語wiとそれに対する
共起単語cjとの組み合わせてに基づいて共起ネットワ
ークを作り直す。作り直された共起ネットワークは、C
RTに表示される(図30参照)。
上げる)には、ユーザは、「−」ボタンの表示座標をポ
インティングデバイスによって指定する。「−」ボタン
の表示座標が指定されると、主題示唆自立語ネットワー
ク表示処理(200)の主題示唆自立語群選定処理(2
10)と共起ネットワーク生成処理(220)が再度実
行される。主題示唆自立語群選定処理(210)では、
(4)式の定数αの値を大きくし、定数αの値が大きく
なった(4)式を満たす自立語wiとそれに対する共起
単語cjの組み合わせを選定する。そして、共起ネット
ワーク生成処理(220)では、新たに選定された自立
語wiとそれに対する共起単語cjとの組み合わせに基
づいて共起ネットワークを作り直す。作り直された共起
ネットワークは、CRTに表示される(図31参照)。
原文章を読まなくとも各文書の主題を可視的に把握する
ことができる。また、各文書の主題を把握するために行
う操作も簡略である。
は、図32に示すように、自立語間の共起関係の強弱
を、自立語間を結ぶ直線の線種によって差別化するよう
にしてもよい。同図では、共起線は、太い実線、細い実
線、及び点線の三種類に区別されている。線種の決定方
法としては、予め3つの定数A、B、C(A>B>C)
を決めておき、前述の(4)式を満たし且つ差分(左辺
一右辺)が定数Aより大きい共起関係にある自立語間を
太い実線で結び、前述の(4)式を満たし且つ差分が定
数B以上であるとともに定数A以下の共起関係にある自
立語間を細い実線で結び、前述の(4)式を満たし且つ
差分が定数C未満の共起関係にある自立語間を点線で結
ぶ方法を例示できる。各自立語を結ぶ共起線の線種は、
「+」ボタン及び「−」ボタンによって表現レベル(共
起レベル)が変更されると、この変更に応じて変更され
ることになる。
て、図33から図36に示すように、自立語間の共起関
係の強弱を、自立語及び共起線のグラデーション(濃
淡)によって差別化する方法を例示できる。この場合、
共起ネットワーク生成処理では、予め表現レベルが高い
(共起レベルが弱い)共起ネットワーク(図33参照)
を生成しておく。生成する際には、共起関係にある自立
語間の共起レベルもその大きさに応じて数段階に分類し
ておく。例えば、共起レベルを三段階に分類する場合に
は、予め3つの定数A、B、C(A>B>C)を決めて
おき、(条件1)前述の(4)式を満たし且つ差分(左
辺−右辺)が定数Aより大きい共起関係にある自立語
間、(条件2)前述の(4)式を満たし且つ差分が定数
B以上であるとともに定数A以下の共起関係にある自立
語間、(条件3)前述の(4)式を満たし且つ差分が定
数C未満の共起関係にある自立語間の3つに分類する。
そして、共起ネットワークを画面表示する際には、例え
ば、図34に示すように、上記の(条件1)を満たす自
立語と共起線のみを表示する。図34の画面では、グラ
デーションの濃い部分(図中「髪」と「毛」、「透き」
と「通った」)のみがユーザの可視レベルに達している
ものとする。
は「−」ボタンを選択すると、グラデーションが変更さ
れる。例えば、画面上の「+」ボタンが選択されると、
図3語に示すように、上記の(条件2)を満たす自立語
と共起線との色が徐々に濃くなっていき、最終的には図
36に示すように(条件1)を満たす自立語及び共起線
と同じ濃さになる。このとき、ユーザには、(条件1)
を満たす自立語及び共起線に加え、(条件2)を満たす
自立語及び共起線が見えることになる。
び共起線と、(条件2)を満たす自立語及び共起線が画
面表示されているときに、画面上の「−」ボタンが選択
されると、(条件2)を満たす自立語及び共起線の色が
徐々にうすくなっていき、最終的には人間の視力では捉
えられないレベルまでうすくなる。このとき、ユーザに
は、(条件1)を満たす自立語及び共起線のみが見える
ことになる。
共起線や自立語の色、あるいは三次元表現等によって差
別化する方法でも構わない。 〈他の実施の形態〉本発明を共起データベース作成装置
と主題示唆自立語ネットワーク表示装置とで実現する場
合には、共起データベース作成装置をサーバ側に配置
し、主題示唆自立語ネットワーク表示装置をクライアン
ト側に配置し、これらの装置間を通信回線で接続する方
法が考えられる。この方法を採用する場合には、共起デ
ータベース作成装置にて主題示唆自立語群選定処理と共
起ネットワーク生成処理とを行い、予め共起ネットワー
クを生成しておくことが好ましい。そして、主題示唆自
立語ネットワーク表示装置から共起データベース作成装
置に対して、任意のキーワードを含む共起ネットワーク
の送信要求が送信される。共起データベース作成装置
は、予め作成しておいた共起ネットワーク群を検索して
任意のキーワードを含む共起ネットワークを抽出して、
主題示唆自立語ネットワーク表示装置へ送信する。
共起データベース作成装置からの共起データベースを受
信すると、その共起データベースをCRT等の表示装置
によって画面表示する。
ザが原文章の参照要求(共起ネットワークの表示座標を
位置指定手段によって指定)を入力すると、主題示唆自
立語ネットワーク表示装置は、ユーザが指定した共起ネ
ットワークの識別情報を共起データベース作成装置へ送
信する。
立語ネットワーク表示装置からの識別情報を受信する
と、識別情報によって特定される共起ネットワークに対
応する文書の原文章を読み出し、主題示唆自立語ネット
ワーク表示装置へ送信する。
ーク表示装置では、前述の実施の形態と同様の手順によ
って原文章の画面表示を行う。尚、この方法を採用する
場合には、共起ネットワークを参照したユーザが表現レ
ベルの変更を希望したときに、共起データベース作成装
置にて共起ネットワークを作り直し、作り直した共起ネ
ットワークを再度主題示唆自立語ネットワーク表示装置
へ送信しなおしてもよいが、共起データベース作成装置
で予め表現レベルの高い共起ネットワークを作成しでお
くとともに、共起ネットワークの各自立語間の共起線に
レベル識別子を設定しておくようにしてもよい。ここで
いうレベル識別子は、各自立語間の共起関係の強さを識
別する情報である。
に分類する場合には、予め3つの定数A、B、C(A>
B>C)を決めておき、(条件1)前述の(3)式(も
しくは(4)式)を満たし且つ差分(左辺−右辺)が定
数Aより大きい共起関係にある自立語間、(条件2)前
述の(3)式(もしくは(4)式)を満たし且つ差分が
定数B以上であるとともに定数A以下の共起関係にある
自立語間、(条件3)前述の(3)式(もしくは(4)
式)を満たし且つ差分が定数C未満の共起関係にある自
立語間の3つに分類する。
レベル識別子“1”を、上記条件2を満たす自立語間に
はレベル識別子“2”を、上記条件3を満たす自立語間
にはレベル識別子“3”を付加する。
子が付加された共起ネットワークを大容量記憶装置に記
憶しておく。そして、主題示唆自立語ネットワーク表示
装置から共起ネットワーク作成装置に対して、任意のキ
ーワードを含む共起ネットワークの送信要求が送信され
ると、共起ネットワーク作成装置は、大容量記憶装置に
記憶された共起ネットワークを検索し、任意のキーワー
ドを含む共起ネットワークとそのレベル識別子とを抽出
する。そして、共起ネットワーク作成装置は、共起ネッ
トワークとともにレベル識別子を主題示唆自立語ネット
ワーク表示装置へ送信する。
先ず、レベル識別子“1”が付加された自立語間と、レ
ベル識別子“2”が付加された自立語間とを画面表示す
る。そして、ユーザが表現レベルを上げる(共起レベル
を下げる)ことを指定した場合には、主題示唆自立語ネ
ットワーク表示装置は、レベル識別子“1”が付加され
た自立語間と、レベル識別子“2”が付加された自立語
間と、レベル識別子“3”が付加された自立語間とを画
面表示する。
レベルを上げる)ことを指定した場合には、主題示唆自
立語ネットワーク表示装置は、レベル識別子“1”が付
加された自立語間のみを画面表示する。
語間の意味的な繋がりを示すことにより、オペレータに
とって可視的な文書主題の把握が可能となる。
とにより、文書の種類を問わずに汎用的なデータベース
の作成、共起ネットワークの抽出が可能である。
(cj/wi)との関係をα=1.5において示したグ
ラフ図
(cj/wi)との関係をα=2.5において示したグ
ラフ図
(cj/wi)との関係をα=0.5において示したグ
ラフ図
明図
図
す説明図
結果を示す説明図
と、主題示唆自立語ネットワーク表示処理を示すフロー
図
示す説明図
行したときの初期画面
行したときの操作画面(1)
行したときの操作画面(2)
ネットワーク表示画面
場合の操作画面
後の表示画面(1)
後の表示画面(2)
(1)
(2)
(3)
(4)
(5)
柄はくり返し述べられるものであり、頻繁に出現する単
語が文書の主題を示す可能性が高い」という理論に基づ
いている。しかし、自立語のなかには、「そして」、
「その」、「この」、「早く」、「(そんな)こと」、
「か(よわい)」、「(つやっ)ぽい」等のように、言
語機能として出現する単語(接続詞、連体詞、副詞、形
式名詞、接頭辞、接尾辞、指示代名詞の一部等)があ
る。このため、単に出現頻度だけで重要単語を決定する
ことはできない。このような言語機能単語を除外した上
で単独で意味をもち、文書の特徴を表わす単語を抽出し
なければならない。そのためにまず、大量の語彙をもつ
重要語リストを予め準備しておいてから文書中の単一語
の出現頻度を計算してキーワードを決定する。このキー
ワードの決定に際しては後述の言語的解析の結果を利用
してもよい。そしてこのキーワード群のうち出現頻度の
高い単語をもとに要約を生成する。
学校に通っている」という文に基づいて共起テーブルを
作成する例を示している。次に、前記共起テーブルに基
づいて共起関係の強さを表わす共起確率を算出する共起
確率算出ステップが実行される。ここで共起確率とは、
ある自立語wiが出現したとき、wiに対する共起単語
cjがwiと共起する確率P(cj/wi)であり、下記
の(1)式により算出可能である。
例えば、キーワードと一致する自立語を強調又は他と区
別して表示するようにしてもよい。強調または区別する
方法としては、キーワードと一致する自立語を他の自立
語とは異なる色、書体、あるいは大きさ等で表示する方
法を例示できる。
画面表示する場合には、原文章の全部を画面表示する方
法と、原文章の一部を画面表示する方法とがある。原文
章の一部を画面表示する場合には、文書検索ステップに
て入力されたキーワードを含む文又は文字列、あるいは
キーワードを含む文又は文字列とその前後の文又は文字
列を表示するようにしてもよい。このとき、キーワード
のみ、あるいはキーワードを含む文を強調して表示する
ようにしてもよい。強調する方法としては、例えば、キ
ーワードのみあるいはキーワードを含む文を網掛け表示
する方法、反転表示する方法、文字の色、書体、大きさ
を他の文字とは異なるようにする方法等を例示できる。
その原文章に対応する共起ネットワークの表示座標を位
置指定手段によって指定する方法を例示できる。さら
に、キーワードを含む文が原文章中に複数存在する可能
性があるので、複数ある文のうちの一文を画面表示する
とともに、前記キーワード(検索式)と、キーワードを
含む文が原文章中に幾つあるかを示す数値と、キーワー
ドを含む文のうち現在表示されている文が何番目の文で
あるかを示す数値と、キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力する前文表
示命令入力部と、キーワードを含む文のうち現在表示さ
れている文より後の文の表示命令を入力する次文表示命
令入力部とを画面表示するようにしてもよい。
が原文章中に幾つあるかを示す数値と、キーワードを含
む文のうち現在表示されている文が何番目の文であるか
を示す数値とを参照することによって、現在表示されて
いる文の前あるいは後にも、キーワードを含む文が存在
することを認識することができる。そして、ユーザが前
文表示命令入力部に前文表示命令を入力すれば、キーワ
ードを含む文のうち現在表示されている文の前の文が画
面表示されるとともに、キーワードを含む文のうち現在
表示されている文が何番目の文であるかを示す数値が1
つデクリメントされる。また、ユーザが次文表示命令入
力部に次文表示命令を入力すれば、キーワードを含む文
のうち現在表示されている文の次の文が画面表示される
とともに、キーワードを含む文のうち現在表示されてい
る文が何番目の文であるかを示す数値が1つインクリメ
ントされる。
に基づいて共起回数の期待値を算出する。主題示唆自立
語群選定手段は、期待値と共起回数とを比較して文書の
主題を示唆する自立語群を選定する。
立語群選定手段によって選定された自立語群の各自立語
を表す文字列と、それらの文字列のうち共起関係にある
文字列間を前記共起確率の大きさに応じた表示形態の共
起線によって結んで共起ネットワークを生成する。
ドであり、ユーザがキーワードを特定する検索式を入力
する装置である。文書検索手段は、共起ネットワーク生
成手段によって生成された1つあるいは2つ以上の共起
ネットワークを検索し、検索式によって特定されるキー
ワードを含む1つあるいは2つ以上の共起ネットワーク
を抽出して画面表示する。
ある自立語間の共起確率の大きさによってその線種、向
き、色、濃淡、長さ、又は太さが決定される線もしくは
矢印であり、これらの線種、向き、色、濃淡、長さ、又
は太さはユーザによって任意に変更されるようにしても
よい。
た文書データから、自立語を抽出し、その文書中の総自
立語数と語彙数を算出する。共起テーブル作成処理(1
20)は、自立語抽出処理(110)によって抽出され
た自立語毎に、各自立語に対する共起単語とその共起回
数とを登録する共起テーブル(TBLn)を作成する。
(200))主題示唆自立語ネットワーク表示処理(2
00)は、共起データベース(KDB)に基づいて共起
ネットワークを作成し、作成された共起ネットワークを
CRTやプリンタ等の出力装置に出力するとともに、共
起ネットワークの原文章を検索して出力装置に出力する
処理である。本実施の形態では、出力装置としてCRT
を用いる。
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブル(TBLn)と共起確率テーブル(T
BMn)と期待値テーブル(TBNn)とを読み出す。そ
して、全ての自立語について、自立語とそれに対する共
起単語との関係(すなわち、共起回数期待値と実際の共
起回数との関係)が前述の(4)式を満たす自立語とそ
れに対する共起単語との組み合わせを判別し、これらの
組み合わせを登録するテーブルを作成する。通常、
(4)式の定数αには、初期値(1.5)が設定されて
いる。
は、自立語抽出処理(110)が実行されて、文1〜文
Ns(ここではNs=687)を順次読み出し、各文に
対して自立語wiの抽出が行われる。この自立語抽出処
理(110)は、具体的にはCPUが大容量外部記憶装
置上に設定された自立語・付属語辞書(DIC)を参照
しながら行われる。この自立語・付属語辞書(DIC)
には、自立語の語幹及び活用や、自立語に付随する可能
性のある付属語の接続情報等が格納されている。さら
に、自立語・付属語辞書(DIC)には、本発明の自立
語の対象から除外される自立語、例えば、接続詞、連体
詞、副詞、形式名詞、及び接頭尾辞等の品詞からなる自
立語のように文書の主題となる可能性が低い自立語も格
納されている。
「新規作成」を選択すると、図15に示すような「新規
作成」のダイアログボックスが表示される。このダイア
ログボックスには、ハードディスク装置内で文書ファイ
ルが格納されている場所「bunsyo」(既定値)と、その
文書ファイルに格納されている文書の数「4」とが表示
される。さらに、ダイアログボックスには、「全文書表
示」ボタン、「1文書ずつ表示」ボタン、「キャンセ
ル」ボタンが設定されている。「全文書表示」ボタン
は、複数の共起ネットワークを1画面上に並べて表示す
る場合に選択するボタンであり、「1文書ずつ表示」ボ
タンは複数の共起ネットワークを1画面上に重ねて表示
する場合に選択するボタンである。「キャンセル」ボタ
ンは新規作成処理を終了する場合に選択するボタンであ
る。
選択すると、図17に示すようにプルダウンメニュー
「検索」が表示される。続いて、ユーザがプルダウンメ
ニュー「検索」を選択すると、図18に示すように「検
索」のダイアログボックスが表示される。このダイアロ
グボックスには、検索文字列(自立語)を入力する領域
(図面上では3語まで入力可能)と、「検索実行」ボタ
ンと、「キャンセル」ボタンとが設けられている。検索
文字列は、キーボード等の入力装置から入力される(図
19参照)。検索文字列の入力が終了すると、ユーザは
「検索実行」ボタンを選択する。
る文書の原文章を参照する場合には、文書検索処理(2
30)で入力されたキーワード(第1のキーワード)と
は別のキーワード(第2のキーワード)を入力して原文
章を参照する手順と、第2のキーワードを入力せずに原
文章を参照する手順とがある。
Claims (16)
- 【請求項1】 与えられた文書から自立語を抽出する自
立語抽出ステップと、 前記で抽出された各自立語に対
する共起単語とその共起回数を記録する共起テーブルを
作成する共起テーブル作成ステップと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出ステップと、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出ステップと、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定ステップと、 前記で選定された主題を示唆する共起関係にある自立語
間にリンクを設定するとともに、リンクの表現形式を前
記共起確率に基づいて決定した共起ネットワークとして
表示する共起ネットワーク生成ステップとを含むドキュ
メントデータベースの構築方法。 - 【請求項2】 前記主題示唆自立語群選定ステップは、
前記共起回数と前記期待値に所定の定数を加算した数値
とを比較して、文書の主題を示唆し得る共起関係にある
自立語群を選定することを特徴とする請求項1記載のド
キュメントデータベースの構築方法。 - 【請求項3】 前記共起ネットワーク生成ステップは、 前記主題示唆自立語群選定ステップで選定された共起関
係にある自立語群の各自立語を表す文字列と、共起関係
にある自立語それぞれを表す文字列を視覚的に結ぶ共起
線とから形成される共起ネットワークを画面表示するス
テップを含む請求項1記載のドキュメントデータベース
の構築方法。 - 【請求項4】 前記共起線は、共起関係にある自立語間
の共起確率の大きさによってその線種、色、濃淡、向
き、長さ、又は太さが決定される線もしくは矢印である
請求項3記載のドキュメントデータベースの構築方法。 - 【請求項5】 前記共起ネットワーク生成ステップで生
成された1つあるいは2つ以上の共起ネットワークを検
索して、任意のキーワードを含む1つあるいは2つ以上
の共起ネットワークを抽出し、その共起ネットワークを
画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章の全てある
いは一部を画面表示する原文参照ステップとを含む請求
項1記載のドキュメントデータベースの構築方法。 - 【請求項6】 前記共起ネットワーク生成ステップで生
成された1つあるいは2つ以上の共起ネットワークを検
索して、1つ又は2つ以上の第1のキーワードを含む1
つあるいは2つ以上の共起ネットワークを抽出し、その
共起ネットワークを画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章のうち1つ
又は2つ以上の第2のキーワードを含む文又は文字列、
あるいは第2のキーワードを含む文又は文字列とその前
後の文又は文字列を画面表示する原文参照ステップとを
含む請求項1記載のドキュメントデータベースの構築方
法。 - 【請求項7】 前記原文参照ステップは、前記1つ又は
2つ以上の第2のキーワードを含む文又は文字列とその
前後の文又は文字列を画面表示するときに、前記第2の
キーワードあるいは第2のキーワードを含む文を区別し
て表示する請求項6記載のドキュメントデータベースの
構築方法。 - 【請求項8】 前記文書検索ステップは、 キーワードを特定する検索式を入力するための検索式入
力部と検索実行命令を入力するための検索実行命令入力
部とを表示するステップと、 前記検索式入力部に検索式が入力され、前記検索実行命
令入力部に検索実行命令が入力されたときに、前記共起
ネットワーク生成ステップにおいて生成された1つある
いは2つ以上の共起ネットワークを検索し、前記検索式
によって特定されるキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出するステップと、 前記で抽出された1つあるいは2つ以上の共起ネットワ
ークを画面表示するとともに、前記共起ネットワークに
含まれる自立語のうち前記検索式によって特定されるキ
ーワードを区別して表示するステップと、を含む請求項
5記載のドキュメントデータベースの構築方法。 - 【請求項9】 前記原文参照ステップでは、前記キーワ
ードを含む文を画面表示するときに、 前記キーワードと、前記キーワードを含む文が原文章中
に幾つ含まれているかを示す数値と、前記キーワードを
含む文のうち現在表示されている文が何番目の文である
かを示す数値と、前記キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力するための
前文表示命令入力部と、前記キーワードを含む文のうち
現在表示されている文より後の文の表示命令を入力する
ための次文表示命令入力部とを表示し、 前記前文表示命令入力部に前文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の前の文を画面表示し、 前記次文表示命令入力部に次文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の次の文を画面表示する請求項5記載のドキュメント
データベースの構築方法。 - 【請求項10】 前記共起ネットワーク生成ステップ
は、 生成された共起ネットワークとともに、前記期待値に加
算される所定の定数を変更する指示を入力する定数変更
指示入力部を画面表示するステップと、 前記定数変更指示入力部に定数の変更指示が入力された
ときに、前記主題示唆自立語選定ステップを再起動し、
前記共起回数と前記期待値に変更後の定数を加算した数
値とを比較して文書の主題を示唆し得る共起関係にある
自立語群を選定し直すステップと、 前記で選定し直された自立語に基づいて共起ネットワー
クを作り直すステップと、 前記で作り直された共起ネットワークを画面表示するス
テップとを含む請求項2記載のドキュメントデータベー
スの構築方法。 - 【請求項11】 文書の主題を示唆し得る共起関係にあ
る自立語群の各自立語を表す文字列と、共起関係にある
自立語それぞれの文字列を視覚的に結ぶ共起線とから構
成される共起ネットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れ、前記共起ネットワークの表示座標が位置指定手段に
よって指定されると、前記共起ネットワークに対応する
文書の原文章を抽出し、その原文章のうち前記位置指定
手段によって指定された文字列を含む文又は文字列、あ
るいは前記文字列を含む文又は文字列とその前後の文又
は文字列を画面表示するドキュメントデータベースの表
示方法。 - 【請求項12】 前記共起線は、共起関係にある自立語
間の共起確率の大きさによってその線種、向き、色、長
さ、又は太さが決定される線もしくは矢印である請求項
11記載のドキュメントデータベースの表示方法。 - 【請求項13】 与えられた文書から抽出された自立語
毎に、各自立語に対する共起単語とその共起回数とを記
録する共起テーブルと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出手段と、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出手段と、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定手段と、 前記主題示唆自立語群選定手段によって選定された自立
語群の各自立語を表す文字列と、それらの文字列のうち
共起関係にあるそれぞれの自立語を表す文字列間を共起
確率の大きさに応じた形態で結ぶ共起線とからなる共起
ネットワークを生成する共起ネットワーク生成手段と、 キーワードを入力するためのキーワード入力手段と、 前記共起ネットワーク生成手段によって生成された1つ
あるいは2つ以上の共起ネットワークを検索し、前記入
力手段に入力されたキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出して画面表示する文書検
索手段と、 前記文書検索手段によって画面表示された1つあるいは
2つ以上の共起ネットワークのうちの任意の共起ネット
ワークを指定する共起ネットワーク指定手段と、 前記
共起ネットワーク指定手段によって指定された共起ネッ
トワークに対応する文書の原文章を読み出し、その原文
章の一部あるいは全部を画面表示する原文参照手段とを
備えるドキュメントデータベース表示装置。 - 【請求項14】 文書の主題を示唆し得る自立語群の各
自立語を表す文字列と、共起関係にあるそれぞれの自立
語を表す文字列間を結ぶ共起線とから構成される共起ネ
ットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れたのちに、前記共起ネットワークの表示座標が位置指
定手段によって指定されると、前記共起ネットワークに
対応する文書の原文章を読み出し、その原文章のうち前
記指定された文字列を含む文又は文字列、あるいは前記
文字列を含む文又は文字列とその前後の文又は文字列を
画面表示するとともに前記文字列を含む文あるいは前記
文字列のみを区別して表示するドキュメントデータベー
ス表示装置。 - 【請求項15】 前記共起線は、共起関係にある自立語
間の共起確率の大きさによってその線種、向き、色、濃
淡、長さ、又は太さが決定される線もしくは矢印である
請求項14記載のドキュメントデータベースの表示装
置。 - 【請求項16】 前記共起線の線種、色、濃淡、長さ、
又は太さは、ユーザによって任意に変更される請求項1
4記載のドキュメントデータベースの表示装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8087013A JP2806867B2 (ja) | 1995-03-13 | 1996-03-04 | ドキュメントデータベースの構築方法、表示方法、及び表示装置 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7-53085 | 1995-03-13 | ||
| JP5308595 | 1995-03-13 | ||
| JP8087013A JP2806867B2 (ja) | 1995-03-13 | 1996-03-04 | ドキュメントデータベースの構築方法、表示方法、及び表示装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08314980A true JPH08314980A (ja) | 1996-11-29 |
| JP2806867B2 JP2806867B2 (ja) | 1998-09-30 |
Family
ID=26393797
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8087013A Expired - Fee Related JP2806867B2 (ja) | 1995-03-13 | 1996-03-04 | ドキュメントデータベースの構築方法、表示方法、及び表示装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2806867B2 (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000010986A (ja) * | 1998-06-18 | 2000-01-14 | Trendy:Kk | ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 |
| JP2001195427A (ja) * | 2000-01-15 | 2001-07-19 | Takuboku Kagi Kofun Yugenkoshi | デジタルドキュメントのキー特徴の自動抽出方法 |
| JP2001290833A (ja) * | 2000-04-04 | 2001-10-19 | Nec Corp | 文章処理装置 |
| JP2003330966A (ja) * | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 |
| JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
| JP2005352849A (ja) * | 2004-06-11 | 2005-12-22 | Fuji Xerox Co Ltd | 画面表示制御のためのプログラム、方法及び携帯情報機器 |
| WO2008139568A1 (ja) * | 2007-05-08 | 2008-11-20 | Fujitsu Limited | キーワード出力プログラム、キーワード出力装置およびキーワード出力方法 |
| CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
| KR20190110428A (ko) * | 2018-03-20 | 2019-09-30 | 가부시키가이샤 스크린 홀딩스 | 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 |
| JP2020067830A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト表示方法及び、テキスト表示装置 |
-
1996
- 1996-03-04 JP JP8087013A patent/JP2806867B2/ja not_active Expired - Fee Related
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000010986A (ja) * | 1998-06-18 | 2000-01-14 | Trendy:Kk | ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 |
| JP2001195427A (ja) * | 2000-01-15 | 2001-07-19 | Takuboku Kagi Kofun Yugenkoshi | デジタルドキュメントのキー特徴の自動抽出方法 |
| JP2001290833A (ja) * | 2000-04-04 | 2001-10-19 | Nec Corp | 文章処理装置 |
| JP2003330966A (ja) * | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 |
| JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
| JP2005352849A (ja) * | 2004-06-11 | 2005-12-22 | Fuji Xerox Co Ltd | 画面表示制御のためのプログラム、方法及び携帯情報機器 |
| WO2008139568A1 (ja) * | 2007-05-08 | 2008-11-20 | Fujitsu Limited | キーワード出力プログラム、キーワード出力装置およびキーワード出力方法 |
| US8244773B2 (en) | 2007-05-08 | 2012-08-14 | Fujitsu Limited | Keyword output apparatus and method |
| CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
| CN107193803B (zh) * | 2017-05-26 | 2020-07-10 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
| KR20190110428A (ko) * | 2018-03-20 | 2019-09-30 | 가부시키가이샤 스크린 홀딩스 | 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 |
| JP2020067830A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト表示方法及び、テキスト表示装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2806867B2 (ja) | 1998-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5257186A (en) | Digital computing apparatus for preparing document text | |
| US5200893A (en) | Computer aided text generation method and system | |
| CA1235817A (en) | Method and apparatus for natural language processing | |
| JP6074820B2 (ja) | アノテーション補助装置及びそのためのコンピュータプログラム | |
| KR100650427B1 (ko) | 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴 | |
| JPH04127370A (ja) | 情報収集システム | |
| US6286014B1 (en) | Method and apparatus for acquiring a file to be linked | |
| JP2002215617A (ja) | 品詞タグ付けをする方法 | |
| US20060200336A1 (en) | Creating a lexicon using automatic template matching | |
| JPH08314980A (ja) | ドキュメントデータベースの構築方法、表示方法、及び表示装置 | |
| US20060200338A1 (en) | Method and system for creating a lexicon | |
| JP2957875B2 (ja) | 文書情報検索装置及び文書検索結果表示方法 | |
| JP3195252B2 (ja) | 文書ブラウズ支援方法及びシステム | |
| US20060200337A1 (en) | System and method for template authoring and a template data structure | |
| Weisser | Manual for the dialogue annotation & research tool (DART) | |
| JP2004070376A (ja) | 文書表示装置および方法 | |
| JP4257407B2 (ja) | 辞書評価支援装置、辞書評価支援プログラム | |
| JP3408830B2 (ja) | 日本語文構文解析装置 | |
| JPH0561902A (ja) | 機械翻訳システム | |
| JP2675912B2 (ja) | 文字処理装置 | |
| JP2002183134A (ja) | 翻訳装置 | |
| JP2856775B2 (ja) | 文書作成装置 | |
| JP2003173338A (ja) | 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム | |
| JPH10149364A (ja) | 訳語選択装置と記憶媒体 | |
| JP2899087B2 (ja) | 文字処理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070724 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080724 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080724 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090724 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100724 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110724 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 15 |
|
| LAPS | Cancellation because of no payment of annual fees |