JPH0934905A - キーセンテンス抽出方式及び抄録方式及び文検索方式 - Google Patents

キーセンテンス抽出方式及び抄録方式及び文検索方式

Info

Publication number
JPH0934905A
JPH0934905A JP7182890A JP18289095A JPH0934905A JP H0934905 A JPH0934905 A JP H0934905A JP 7182890 A JP7182890 A JP 7182890A JP 18289095 A JP18289095 A JP 18289095A JP H0934905 A JPH0934905 A JP H0934905A
Authority
JP
Japan
Prior art keywords
sentence
degree
key
association
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7182890A
Other languages
English (en)
Other versions
JP3594701B2 (ja
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18289095A priority Critical patent/JP3594701B2/ja
Publication of JPH0934905A publication Critical patent/JPH0934905A/ja
Application granted granted Critical
Publication of JP3594701B2 publication Critical patent/JP3594701B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書内のキーセンテンスを抽出するための文
の重要度の評価において、文書内の他の文との関連度に
基づくことにより、文脈に基づいたより適切な重要度を
与え、キーセンテンスの抽出の精度を高める。 【解決手段】 文切り出し手段2により電子化文書1内
の文間の関連度を評価し、文重要度評価手段4により文
の重要度を評価し、キーセンテンス抽出手段5により文
書1内からキーセンテンスを抽出し、更には、抽出した
キーセンテンスから抄録文を作成する。文間の関連度
は、文内の名詞を主体としたキーワード候補単語間の重
複度に基づき、また、文の重要度は、他の文群との関連
度の強さと関連の有無に基づいて求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書から重要文
(キーセンテンス)を抽出するキーセンテンス抽出方
式、及び、該キーセンテテンス抽出方式を用いた抄録方
式、及び、前記キーセンテンス抽出方式における文間関
連度評価手段を用いた文検索方式に関する。
【0002】
【従来の技術】文書の要約は、文書の概要を把握する上
で重要であり、自動要約装置が期待されている。しか
し、人間によっても難しい要約の作成を自動化するの
は、さらに難しい。そこで、要約に代わるものとして、
文書中のキーセンテンス(重要文)の抽出や、それらの
重要文をつないで作成する抄録の自動化の方が実現性が
高い。キーセンテンスの抽出には、高い頻度の単語
[1:特開昭61−117658号公報(文章抄録装
置)]やキーワードの重要度[2:特開平3−2782
70号公報(抄録文作成装置)]やキー構文との照合
[3:特開昭61−100861号公報(文書編集装
置)]、重要語と原文の論理的な構造[4:特開平2−
181261号公報(自動抄録生成装置)]、重要部分
を認識する知識[5:特開平4−74259号公報(文
書要約装置)]等に基づく方法等、さまざまな方法があ
る。
【0003】なお、前記特開昭61−117658号公
報[1]に記載の発明は、文章をパラグラフ毎等の形に
順次分割し、該分割した各パラグラフ等中に存在する文
単位に用語を夫々分担して当該用語の使用頻度等に基づ
いて文の重要度を夫々判別し、各パラグラフ毎に最重要
度の文を順次つなぐ形で抄録を編集することにより、文
章の抄録を自動的に編集するようにしたものである。
【0004】また、前記特開平3−278270号公報
[2]に記載の発明は、キーワード抽出評価手段が入力
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたものである。
【0005】また、前記特開昭61−100861号公
報[3]に記載の発明は、入力された文章中の各文を構
文的または意味的に解析し、この構文的または意味的に
解析された文構造の全体またはその一部分と辞書に予め
登録された部分文構造(文のキー構造)とを照合して、
上記辞書に登録された部分文構造を含む文を前記入力文
章中から抽出し、これらの抽出された文を用いて文章を
再構成するようにしたもので、例えば、辞書に登録され
た部分文構造中の削除規則に該当する文要素を、前記入
力文章中から抽出された文中から削除して文を再構成す
るようにしたものである。
【0006】また、前記特開平2−181261号公報
[4]に記載の発明は、日本語辞書を用いて機能語を完
全に除去し、一般名詞と固有名詞を対象として、これら
の頻度情報および位置情報から、文章の主題や記述の核
となる重要語を高精度に抽出するとともに、原文の文章
の論理的な構造の解析を行い、文章の構造の情報から著
者が重要と思っている内容や強調したい内容に関する記
述を抄録の中に含ませるようにしたものである。
【0007】更に、前記特開平4−74259号公報
[5]に記載の発明は、要約対象とする文書を構成して
いる文をそれぞれ解析し、この解析結果と知識記憶手段
に格納されている文書中の重要な部分を認識するための
知識、例えば、文字修飾情報とを用いて前記文書中の重
要な文を認識判定し、この判定結果に従って前記文書中
から重要な文を抽出して要約文を作成するようにしたも
のである。
【0008】
【発明が解決しようとする課題】しかし、上記従来の方
法は、外部からの情報[前記公報2,3,4,5]や、
構文解析[前記公報3,4,5]を必要としたり、1文
ごとの独立した評価を行っており、文書内の文の関連性
に重きが置かれていない。なお、特開平6−25942
4号公報(文書表示装置及び文書要約装置並びにディジ
タル複写装置)は、文書内の見出しに限っているが、キ
ーワードの可能性の高い文書内の見出しとの関連性の高
い文を見出し内の単語との照合により抽出しており、文
脈的な選択となっている。
【0009】本発明は、上述のごとき実情に鑑みてなさ
れたもので、特に、文書内のキーセンテンスを抽出する
ための文の重要度の評価において、文書内の他の文との
関連度に基づくことにより、文脈に基づいたより適切な
重要度を与え、キーセンテンスの抽出の精度を高めるこ
と、また、文の重要度の評価として、外部知識や構文解
析等の大きな負担のない簡単な方法を適用可能にするこ
とを目的としてなされたものである。
【0010】
【課題を解決するための手段】請求項1の発明は、電子
化された文書から文を切り出す「文切り出し手段」と、
文書内の1文と他の1文との関連度を評価する「文間関
連度評価手段」と、文書内の他の文群との関連度に基づ
き、文の重要度を評価する「文重要度評価手段」と、文
の重要度に基づき、キーセンテンスを抽出する「キーセ
ンテンス抽出手段」とを有すること、請求項2の発明
は、請求項1の発明において、前記「文間関連度評価手
段」は、文からキーワード候補単語群を抽出し、各々の
文に含まれるキーワード候補単語間の類似度に基づき関
連度を評価すること、請求項3の発明は、請求項2の発
明において、前記「文間関連度評価手段」におけるキー
ワード候補単語間の類似度として、キーワード候補単語
の文字列間の文字の重複度を用いること、請求項4の発
明は、請求項1乃至3の発明において、前記「文重要度
評価手段」が、他の文群との関連度の強さと他の文群と
の関連のカバレージ度の一方あるいは双方とによって文
の重要度を評価すること、請求項5の発明は、請求項4
の発明において、前記他の文群との関連度の強さとし
て、他の文との関連度の平均値、前記他の文群との関連
のカバレージ度として、他の文との関連度の有無の平均
値を用いること、請求項6の発明は、請求項4の発明に
おいて、前記文の重要度として、他の文群との関連度の
強さと他の文群との関連のカバレージ度との積を用いる
こと、を特徴としたものであり、これら請求項1乃至請
求項6の発明により、文書内の文間の関連度に基づいた
文の重要度によるキーセンテンスの抽出を可能とし、特
に、請求項2乃至請求項6で提供する文間の関連度と文
の重要度を評価する方式は、外部知識や構文解析等を用
いず、名詞判定程度の解析処理と文字列照合の処理によ
って簡単に得られる効果的な方法である。
【0011】請求項7の発明は、請求項1乃至6のいず
れかのキーセンテンス抽出方式を用いて、文の重要度の
高いキーセンテンスを抽出し、文書内の文の順番に並べ
ることを特徴としたものであり、これにより、文書内に
文間の関連度に基づいた文の重要度によるキーセンテン
スの抽出、抄録作成を行うようにしたものである。
【0012】請求項8の発明は、請求項1乃至3のいず
れかに記載のキーセンテンス抽出方式における「文間関
連度評価手段」に基づき、検索要求の文あるいは単語群
との関連度に基づき文書内の文を検索することを特徴と
したものであり、これにより、請求項1乃至請求項3の
発明の文間の関連度を利用して、文書内から選択した特
定の文、外部から与えた検索文やキーワード群と関連の
大きい文を検索する方式としても効果があるようにした
ものである。
【0013】
【発明の実施の形態】図1は、本発明によるキーセンテ
ンス抽出方式、抄録方式、及び、文検索方式を説明する
ための構成図で、図中、1は電子化文書、2は文切り出
し手段、3は文間関連度評価手段、4は文重要度評価手
段、5はキーセンテンス抽出手段で、「文切り出し手
段」2は、電子化文書1から文を1文づつ切り出す。通
常、文書内の文は、句点「。」で1文づつ区切られてい
るか、見出しのように句点なしに1行が1文をなしたり
する。一般に、電子化された文書ファイルから文を1文
づつ切り出す技術は、機械翻訳システム等で既に実現さ
れている技術であり、ここでは詳細を述べない。図2
に、以下の説明に用いる文書の内容を示し、図3には、
「文切り出し手段」によって切り出された文を示す(各
文の先頭に付加されているのは文番号である。なお、図
2に示した原文では、最初の3文が見出しとなってい
る)。
【0014】文間関連度評価手段3では、切り出された
各文と他の各文との関連がどの程度あるかを評価し、関
連度として求める。文間の関連度を求める方法は、さま
ざま考えられるが、請求項2の発明では、各文からキー
ワード候補単語群を抽出し、各々の文に含まれるキーワ
ード候補単語間の類似度に基づき関連度を評価するよう
にしている。
【0015】キーワード候補単語としては、一般には名
詞が挙げられる。図4に、各文からキーワードになりに
くい日付け等の数名詞や1字漢字の名詞を除く名詞を抽
出した結果を示す。名詞の抽出は、従来の日本語文の形
態素解析技術に依ることができる。あるいは、漢字、カ
タカナやアルファベットの文字列を切り出すだけでも、
ほぼ同等の結果を得ることができる。
【0016】キーワード候補単語の類似に基づき文間の
関連度を得る方法もさまざまありえるが、請求項3の発
明では、キーワード候補単語間の類似度として、キーワ
ード候補単語の文字列間の文字の重複度を用いる。ここ
では、文iの文jに対する関連度R(i,j)を、文i
のキーワード候補単語文字の総数に対する文iのキーワ
ード候補単語文字のうち、一方の文jのキーワード候補
単語の文字と重複する文字の総数の比とする。
【0017】たとえば、第5文と第6文のキーワード候
補単語は、次のようになっているが、 [5]英米 主要先進 G7 合意 規制 イラク 対
象 対共産圏輸出統制委員会 ココム リスト [6]G7 対象 品目 話し合い 冷戦終結 輸出規
制 両文のキーワード候補単語間の組合せでの部分文字列照
合により、容易に重複する文字は「G7」、「規制」、
「対象」、「輸出」であることがわかる。重複する文字
の数は8であり、一方、各文のキーワード候補単語の文
字の総数は、各々34と18であるので、その比は、各
文について、 R(5,6):8/34=0.235 R(6,5):8/18=0.444 となる。
【0018】図5に第5文の他の文との関連度を示し、
図6に文間の関連度をマトリクスで示す(なお、図中、
関連度は上記の値を100倍[パーセント化]し、整数
化して示してある)。上記の方法は、単語文字列の部分
一致に基づいているが、キーワード候補単語が一致する
単語数の割合をとれば、上記の場合は、「G7」、「規
制」、「対象」の3単語が一致し、一方、各々の単語数
は10と6であるので、次のようになる。 R(5,6):3/10=0.30 R(6,5):3/6 =0.50
【0019】また、請求項2の発明に立ち戻って、より
一般的な関連度としては、たとえば、文jに対する文i
の関連度R(i,j)を、文i内の単語の文j内の各単
語との類似度の和の平均とする等が考えられる。これ
は、文i内のキーワード候補単語の集合をW(i)、単
語xと単語yの類似度をr(x,y)[0〜1]、文i
内のキーワード候補単語数をN(i)とすると、次の式
(1)で示す表わすことができる。
【0020】
【数1】
【0021】単語間の類似度を厳密に考えると、単語間
の上位・下位関係が与えられたシソーラス体系を利用す
る方法等も考えられる。
【0022】文重要度評価手段4では、各文について得
られた他の文との関連度に基づいて、文の重要度を評価
する。請求項4の発明では、文の重要度を他の文群との
関連度の強さ及び他の文群との関連のカバレージによっ
て評価する。前者は、他の文とどれだけ強く関連してい
るかを示し、後者は、どれだけ広く他の文と関連してい
るかを示す。具体的な算出方法としては、請求項6の発
明において、他の文群との関連度の強さは、他の文との
関連度の平均値、他の文群との関連のカバレージ度は、
他の文との関連度の有無の平均値を用いる。第5文につ
いて見れば、表1のようになる。
【0023】
【表1】
【0024】図7に、図6の関連度に基づいた各文の関
連度の強さとカバレージとその積の値を示す(いずれも
100倍し、整数化してある。積は‘=>’の右に示
す)。関連度の強さに着目すると、第2文、第3文が.
33,.27と高く、第4,6,7,10文が.15〜.
17の範囲の第2グループをなしている。関連のカバレ
ージに着目すると、第5文、第7文が.91と高く、第
4,6文が.73で続く。
【0025】関連度の強さが高い文群は、見出しが高く
なっているように、文書のテーマに強く関わっている文
であることが想定される。また、関連のカバレージが高
い文は、新聞記事等で要約的な内容をもつといわれる第
1段落の文を含んでおり、全体の内容を含んでいる可能
性が高いことが想定される。逆に、この値が低い文は、
非常に個別的な話題を述べている文であると考えられ
る。このように、いずれの値もキーセンテンスを抽出す
るための文の重要度として意味のあるものになってい
る。
【0026】さらに、請求項6の発明では、この両者の
積によって、双方の効果を加味した文の重要度を与え
る。この重要度に基づくと、.10以上では、第2文、
第7文、第6文、第4文、第10文、第5文の順とな
り、見出し第2文、第1段落の3文(第4,5,6
文)、第2段落の第1文(第7文)と最終文(第10
文)がキーセンテンスとして抽出される。
【0027】請求項7の発明は、抽出されたキーセンテ
ンスを順に示して、抄録となすもので、上記の重要度に
基づけば、抄録として、図8(上位2文:第2文、第7
文)や図9(上位6文:第2文、第4文、第5文、第6
文、第7文、第10文)が得られる。
【0028】請求項8の発明は、検索要求として与えた
文やキーワード群に対して関連する文を本発明の文の関
連度により検索するものである。たとえば、見出し文が
重要なキーワードを含んでいると考えられることから、
見出し文の第1文「通常兵器関連の工業製品」を検索文
とすれば、第4文「通常兵器の部品や加工機械に転用で
きる工業製品の輸出規制が二十日、…」が検索され(図
10)、見出し文の第2文によれば、第1段落の3文と
最終段落の第1文が関連度が高い文として検索される
(図11)。
【0029】
【発明の効果】請求項1の発明は、電子化された文書か
ら文を切り出す「文切り出し手段」と、文書内の1文と
他の1文との関連度を評価する「文間関連度評価手段」
と、文書内の他の文群との関連度に基づき、文の重要度
を評価する「文重要度評価手段」と、文の重要度に基づ
き、キーセンテンスを抽出する「キーセンテンス抽出手
段」とを有することを特徴としたものであり、請求項2
の発明は、請求項1の発明において、前記「文間関連度
評価手段」は、文からキーワード候補単語群を抽出し、
各々の文に含まれるキーワード候補単語間の類似度に基
づき関連度を評価すること、請求項3の発明は、請求項
2の発明において、前記「文間関連度評価手段」におけ
るキーワード候補単語間の類似度として、キーワード候
補単語の文字列間の文字の重複度を用いること、請求項
4の発明は、請求項1乃至3の発明において、前記「文
重要度評価手段」が、他の文群との関連度の強さと他の
文群との関連のカバレージ度の一方あるいは双方とによ
って文の重要度を評価すること、請求項5の発明は、請
求項4の発明において、前記他の文群との関連度の強さ
として、他の文との関連度の平均値、前記他の文群との
関連のカバレージ度として、他の文との関連度の有無の
平均値を用いること、請求項6の発明は、請求項4の発
明において、前記文の重要度として、他の文群との関連
度の強さと他の文群との関連のカバレージ度との積を用
いることを特徴としたものであり、これら請求項1乃至
請求項6の発明により、文書内の文間の関連度に基づい
た文の重要度によるキーセンテンスの抽出を可能とし、
特に、請求項2乃至請求項6で提供する文間の関連度と
文の重要度を評価する方式は、外部知識や構文解析等を
用いず、名詞判定程度の解析処理と文字列照合の処理に
よって簡単に得られる効果的な方式である。
【0030】請求項7の発明は、請求項1乃至6の発明
のいずれかのキーセンテンス抽出方式を用いて、文の重
要度の高いキーセンテンスを抽出し、文書内の文の順番
に並べることを特徴としたものであり、これにより、文
書内に文間の関連度に基づいた文の重要度によるキーセ
ンテンスの抽出、抄録作成を行うようにしたものであ
る。
【0031】請求項8の発明は、請求項1乃至3のいず
れかに記載のキーセンテンス抽出方式における「文間関
連度評価手段」に基づき、検索要求の文あるいは単語群
との関連度に基づき文書内の文を検索することを特徴と
したものであり、これにより、請求項1乃至請求項3の
発明の文間の関連度を利用して、文書内から選択した特
定の文、外部から与えた検索文やキーワード群と関連の
大きい文を検索する方式としても効果があるようにした
ものである。
【図面の簡単な説明】
【図1】 本発明によるキーセンテンス抽出方式、抄録
方式、及び、文検索方式を説明するための構成図であ
る。
【図2】 本発明の一実施例を説明するための電子化文
書の一例(原文)を示す図である。
【図3】 図2に示した原文の文切り出し結果を示す図
である。
【図4】 文ごとのキーワード候補単語を示す図であ
る。
【図5】 第5文の他の文との関連度を示す図である。
【図6】 文間の関連度マトリクスを示す図である。
【図7】 関連度の強さ、関連のカバレージ、及びその
積を示す図である。
【図8】 抄録の一例(抄録1)を示す図である。
【図9】 抄録の他の例(抄録2)を示す図である。
【図10】 見出し第1文による関連文の検索結果を示
す図である。
【図11】 見出し第2文による関連文の検索結果を示
す図である。
【符号の説明】
1…電子化文書、2…文切り出し手段、3…文間関連度
評価手段、4…文重要度評価手段、5…キーセンテンス
抽出手段。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書から文を切り出す文切
    り出し手段と、文書内の1文と他の1文との関連度を評
    価する文間関連度評価手段と、文書内の他の文群との関
    連度に基づいて、文の重要度を評価する文重要度評価手
    段と、文の重要度に基づいて、キーセンテンスを抽出す
    るキーセンテンス抽出手段とを有することを特徴とする
    キーセンテンス抽出方式。
  2. 【請求項2】 前記文間関連度評価手段は、文からキー
    ワード候補単語群を抽出し、各々の文に含まれるキーワ
    ード候補単語間の類似度に基づいて関連度を評価するこ
    とを特徴とする請求項1に記載のキーセンテンス抽出方
    式。
  3. 【請求項3】 前記文間関連度評価手段におけるキーワ
    ード候補単語間の類似度として、キーワード候補単語の
    文字列間の文字の重複度を用いることを特徴とする請求
    項2に記載のキーセンテンス抽出方式。
  4. 【請求項4】 前記文重要度評価手段が、他の文群との
    関連度の強さと他の文群との関連のカバレージ度の一方
    あるいは双方とによって文の重要度を評価することを特
    徴とする請求項1乃至3のいずれかに記載のキーセンテ
    ンス抽出方式。
  5. 【請求項5】 前記他の文群との関連度の強さとして、
    他の文との関連度の平均値、前記他の文群との関連のカ
    バレージ度として、他の文との関連度の有無の平均値を
    用いることを特徴とする請求項4に記載のキーセンテン
    ス抽出方式。
  6. 【請求項6】 前記文の重要度として、他の文群との関
    連度の強さと他の文群との関連のカバレージ度との積を
    用いることを特徴とする請求項4に記載のキーセンテン
    ス抽出方式。
  7. 【請求項7】 請求項1乃至6のいずれかのキーセンテ
    ンス抽出方式を用いて、文の重要度の高いキーセンテン
    スを抽出し、文書内の文の順番に並べることを特徴とす
    る抄録方式。
  8. 【請求項8】 請求項1乃至3のいずれかに記載のキー
    センテンス抽出方式における文間関連度評価手段に基づ
    いて、検索要求の文あるいは単語群との関連度に基づき
    文書内の文を検索することを特徴とする文検索方式。
JP18289095A 1995-07-19 1995-07-19 キーセンテンス抽出装置 Expired - Fee Related JP3594701B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18289095A JP3594701B2 (ja) 1995-07-19 1995-07-19 キーセンテンス抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18289095A JP3594701B2 (ja) 1995-07-19 1995-07-19 キーセンテンス抽出装置

Publications (2)

Publication Number Publication Date
JPH0934905A true JPH0934905A (ja) 1997-02-07
JP3594701B2 JP3594701B2 (ja) 2004-12-02

Family

ID=16126196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18289095A Expired - Fee Related JP3594701B2 (ja) 1995-07-19 1995-07-19 キーセンテンス抽出装置

Country Status (1)

Country Link
JP (1) JP3594701B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
JPH11238064A (ja) * 1998-02-20 1999-08-31 Toshiba Corp データベース作成方法および情報記憶検索装置および記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272664A (ja) * 1998-03-19 1999-10-08 Sharp Corp テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
US6424429B1 (en) 1997-11-14 2002-07-23 Ricoh Company, Ltd. File system and a recording medium with a program used in the system stored therein
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
JP2009015795A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
CN111291214A (zh) * 2020-01-15 2020-06-16 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
US6424429B1 (en) 1997-11-14 2002-07-23 Ricoh Company, Ltd. File system and a recording medium with a program used in the system stored therein
JPH11238064A (ja) * 1998-02-20 1999-08-31 Toshiba Corp データベース作成方法および情報記憶検索装置および記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272664A (ja) * 1998-03-19 1999-10-08 Sharp Corp テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
JP2009015795A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム
CN111291214A (zh) * 2020-01-15 2020-06-16 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质
CN111291214B (zh) * 2020-01-15 2023-09-12 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质

Also Published As

Publication number Publication date
JP3594701B2 (ja) 2004-12-02

Similar Documents

Publication Publication Date Title
Kannan et al. Preprocessing techniques for text mining
EP0530993B1 (en) An iterative technique for phrase query formation and an information retrieval system employing same
CN103136352B (zh) 基于双层语义分析的全文检索系统
US5937422A (en) Automatically generating a topic description for text and searching and sorting text by topic using the same
Wu et al. Domain-specific keyphrase extraction
Vossen Extending, trimming and fusing WordNet for technical documents
KR20010015368A (ko) 정보 검색 방법과 정보 검색 장치
KR100406671B1 (ko) 문장 표절 및 도용 검색 방법
JP3594701B2 (ja) キーセンテンス抽出装置
Litvak et al. Degext: a language-independent keyphrase extractor
JP2572314B2 (ja) キーワード抽出装置
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
JPH0844771A (ja) 情報検索装置
Chaibi et al. Topic segmentation for textual document written in arabic language
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Atwan et al. Impact of stemmer on arabic text retrieval
Chi et al. Word segmentation and recognition for web document framework
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Kiyota et al. Automatic summarization of Japanese sentences and its application to a WWW KWIC index
JP3578618B2 (ja) 文書分割装置
Panunzi et al. Keyword extraction in open-domain multilingual textual resources
Rosner et al. Multisum: query-based multi-document summarization
Yoshioka et al. On a combination of probabilistic and Boolean IR models for WWW document retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040901

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120910

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees