JPH0934905A - キーセンテンス抽出方式及び抄録方式及び文検索方式 - Google Patents
キーセンテンス抽出方式及び抄録方式及び文検索方式Info
- Publication number
- JPH0934905A JPH0934905A JP7182890A JP18289095A JPH0934905A JP H0934905 A JPH0934905 A JP H0934905A JP 7182890 A JP7182890 A JP 7182890A JP 18289095 A JP18289095 A JP 18289095A JP H0934905 A JPH0934905 A JP H0934905A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- degree
- key
- association
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
の重要度の評価において、文書内の他の文との関連度に
基づくことにより、文脈に基づいたより適切な重要度を
与え、キーセンテンスの抽出の精度を高める。 【解決手段】 文切り出し手段2により電子化文書1内
の文間の関連度を評価し、文重要度評価手段4により文
の重要度を評価し、キーセンテンス抽出手段5により文
書1内からキーセンテンスを抽出し、更には、抽出した
キーセンテンスから抄録文を作成する。文間の関連度
は、文内の名詞を主体としたキーワード候補単語間の重
複度に基づき、また、文の重要度は、他の文群との関連
度の強さと関連の有無に基づいて求める。
Description
(キーセンテンス)を抽出するキーセンテンス抽出方
式、及び、該キーセンテテンス抽出方式を用いた抄録方
式、及び、前記キーセンテンス抽出方式における文間関
連度評価手段を用いた文検索方式に関する。
で重要であり、自動要約装置が期待されている。しか
し、人間によっても難しい要約の作成を自動化するの
は、さらに難しい。そこで、要約に代わるものとして、
文書中のキーセンテンス(重要文)の抽出や、それらの
重要文をつないで作成する抄録の自動化の方が実現性が
高い。キーセンテンスの抽出には、高い頻度の単語
[1:特開昭61−117658号公報(文章抄録装
置)]やキーワードの重要度[2:特開平3−2782
70号公報(抄録文作成装置)]やキー構文との照合
[3:特開昭61−100861号公報(文書編集装
置)]、重要語と原文の論理的な構造[4:特開平2−
181261号公報(自動抄録生成装置)]、重要部分
を認識する知識[5:特開平4−74259号公報(文
書要約装置)]等に基づく方法等、さまざまな方法があ
る。
報[1]に記載の発明は、文章をパラグラフ毎等の形に
順次分割し、該分割した各パラグラフ等中に存在する文
単位に用語を夫々分担して当該用語の使用頻度等に基づ
いて文の重要度を夫々判別し、各パラグラフ毎に最重要
度の文を順次つなぐ形で抄録を編集することにより、文
章の抄録を自動的に編集するようにしたものである。
[2]に記載の発明は、キーワード抽出評価手段が入力
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたものである。
報[3]に記載の発明は、入力された文章中の各文を構
文的または意味的に解析し、この構文的または意味的に
解析された文構造の全体またはその一部分と辞書に予め
登録された部分文構造(文のキー構造)とを照合して、
上記辞書に登録された部分文構造を含む文を前記入力文
章中から抽出し、これらの抽出された文を用いて文章を
再構成するようにしたもので、例えば、辞書に登録され
た部分文構造中の削除規則に該当する文要素を、前記入
力文章中から抽出された文中から削除して文を再構成す
るようにしたものである。
[4]に記載の発明は、日本語辞書を用いて機能語を完
全に除去し、一般名詞と固有名詞を対象として、これら
の頻度情報および位置情報から、文章の主題や記述の核
となる重要語を高精度に抽出するとともに、原文の文章
の論理的な構造の解析を行い、文章の構造の情報から著
者が重要と思っている内容や強調したい内容に関する記
述を抄録の中に含ませるようにしたものである。
[5]に記載の発明は、要約対象とする文書を構成して
いる文をそれぞれ解析し、この解析結果と知識記憶手段
に格納されている文書中の重要な部分を認識するための
知識、例えば、文字修飾情報とを用いて前記文書中の重
要な文を認識判定し、この判定結果に従って前記文書中
から重要な文を抽出して要約文を作成するようにしたも
のである。
法は、外部からの情報[前記公報2,3,4,5]や、
構文解析[前記公報3,4,5]を必要としたり、1文
ごとの独立した評価を行っており、文書内の文の関連性
に重きが置かれていない。なお、特開平6−25942
4号公報(文書表示装置及び文書要約装置並びにディジ
タル複写装置)は、文書内の見出しに限っているが、キ
ーワードの可能性の高い文書内の見出しとの関連性の高
い文を見出し内の単語との照合により抽出しており、文
脈的な選択となっている。
れたもので、特に、文書内のキーセンテンスを抽出する
ための文の重要度の評価において、文書内の他の文との
関連度に基づくことにより、文脈に基づいたより適切な
重要度を与え、キーセンテンスの抽出の精度を高めるこ
と、また、文の重要度の評価として、外部知識や構文解
析等の大きな負担のない簡単な方法を適用可能にするこ
とを目的としてなされたものである。
化された文書から文を切り出す「文切り出し手段」と、
文書内の1文と他の1文との関連度を評価する「文間関
連度評価手段」と、文書内の他の文群との関連度に基づ
き、文の重要度を評価する「文重要度評価手段」と、文
の重要度に基づき、キーセンテンスを抽出する「キーセ
ンテンス抽出手段」とを有すること、請求項2の発明
は、請求項1の発明において、前記「文間関連度評価手
段」は、文からキーワード候補単語群を抽出し、各々の
文に含まれるキーワード候補単語間の類似度に基づき関
連度を評価すること、請求項3の発明は、請求項2の発
明において、前記「文間関連度評価手段」におけるキー
ワード候補単語間の類似度として、キーワード候補単語
の文字列間の文字の重複度を用いること、請求項4の発
明は、請求項1乃至3の発明において、前記「文重要度
評価手段」が、他の文群との関連度の強さと他の文群と
の関連のカバレージ度の一方あるいは双方とによって文
の重要度を評価すること、請求項5の発明は、請求項4
の発明において、前記他の文群との関連度の強さとし
て、他の文との関連度の平均値、前記他の文群との関連
のカバレージ度として、他の文との関連度の有無の平均
値を用いること、請求項6の発明は、請求項4の発明に
おいて、前記文の重要度として、他の文群との関連度の
強さと他の文群との関連のカバレージ度との積を用いる
こと、を特徴としたものであり、これら請求項1乃至請
求項6の発明により、文書内の文間の関連度に基づいた
文の重要度によるキーセンテンスの抽出を可能とし、特
に、請求項2乃至請求項6で提供する文間の関連度と文
の重要度を評価する方式は、外部知識や構文解析等を用
いず、名詞判定程度の解析処理と文字列照合の処理によ
って簡単に得られる効果的な方法である。
れかのキーセンテンス抽出方式を用いて、文の重要度の
高いキーセンテンスを抽出し、文書内の文の順番に並べ
ることを特徴としたものであり、これにより、文書内に
文間の関連度に基づいた文の重要度によるキーセンテン
スの抽出、抄録作成を行うようにしたものである。
れかに記載のキーセンテンス抽出方式における「文間関
連度評価手段」に基づき、検索要求の文あるいは単語群
との関連度に基づき文書内の文を検索することを特徴と
したものであり、これにより、請求項1乃至請求項3の
発明の文間の関連度を利用して、文書内から選択した特
定の文、外部から与えた検索文やキーワード群と関連の
大きい文を検索する方式としても効果があるようにした
ものである。
ンス抽出方式、抄録方式、及び、文検索方式を説明する
ための構成図で、図中、1は電子化文書、2は文切り出
し手段、3は文間関連度評価手段、4は文重要度評価手
段、5はキーセンテンス抽出手段で、「文切り出し手
段」2は、電子化文書1から文を1文づつ切り出す。通
常、文書内の文は、句点「。」で1文づつ区切られてい
るか、見出しのように句点なしに1行が1文をなしたり
する。一般に、電子化された文書ファイルから文を1文
づつ切り出す技術は、機械翻訳システム等で既に実現さ
れている技術であり、ここでは詳細を述べない。図2
に、以下の説明に用いる文書の内容を示し、図3には、
「文切り出し手段」によって切り出された文を示す(各
文の先頭に付加されているのは文番号である。なお、図
2に示した原文では、最初の3文が見出しとなってい
る)。
各文と他の各文との関連がどの程度あるかを評価し、関
連度として求める。文間の関連度を求める方法は、さま
ざま考えられるが、請求項2の発明では、各文からキー
ワード候補単語群を抽出し、各々の文に含まれるキーワ
ード候補単語間の類似度に基づき関連度を評価するよう
にしている。
詞が挙げられる。図4に、各文からキーワードになりに
くい日付け等の数名詞や1字漢字の名詞を除く名詞を抽
出した結果を示す。名詞の抽出は、従来の日本語文の形
態素解析技術に依ることができる。あるいは、漢字、カ
タカナやアルファベットの文字列を切り出すだけでも、
ほぼ同等の結果を得ることができる。
関連度を得る方法もさまざまありえるが、請求項3の発
明では、キーワード候補単語間の類似度として、キーワ
ード候補単語の文字列間の文字の重複度を用いる。ここ
では、文iの文jに対する関連度R(i,j)を、文i
のキーワード候補単語文字の総数に対する文iのキーワ
ード候補単語文字のうち、一方の文jのキーワード候補
単語の文字と重複する文字の総数の比とする。
補単語は、次のようになっているが、 [5]英米 主要先進 G7 合意 規制 イラク 対
象 対共産圏輸出統制委員会 ココム リスト [6]G7 対象 品目 話し合い 冷戦終結 輸出規
制 両文のキーワード候補単語間の組合せでの部分文字列照
合により、容易に重複する文字は「G7」、「規制」、
「対象」、「輸出」であることがわかる。重複する文字
の数は8であり、一方、各文のキーワード候補単語の文
字の総数は、各々34と18であるので、その比は、各
文について、 R(5,6):8/34=0.235 R(6,5):8/18=0.444 となる。
図6に文間の関連度をマトリクスで示す(なお、図中、
関連度は上記の値を100倍[パーセント化]し、整数
化して示してある)。上記の方法は、単語文字列の部分
一致に基づいているが、キーワード候補単語が一致する
単語数の割合をとれば、上記の場合は、「G7」、「規
制」、「対象」の3単語が一致し、一方、各々の単語数
は10と6であるので、次のようになる。 R(5,6):3/10=0.30 R(6,5):3/6 =0.50
一般的な関連度としては、たとえば、文jに対する文i
の関連度R(i,j)を、文i内の単語の文j内の各単
語との類似度の和の平均とする等が考えられる。これ
は、文i内のキーワード候補単語の集合をW(i)、単
語xと単語yの類似度をr(x,y)[0〜1]、文i
内のキーワード候補単語数をN(i)とすると、次の式
(1)で示す表わすことができる。
の上位・下位関係が与えられたシソーラス体系を利用す
る方法等も考えられる。
られた他の文との関連度に基づいて、文の重要度を評価
する。請求項4の発明では、文の重要度を他の文群との
関連度の強さ及び他の文群との関連のカバレージによっ
て評価する。前者は、他の文とどれだけ強く関連してい
るかを示し、後者は、どれだけ広く他の文と関連してい
るかを示す。具体的な算出方法としては、請求項6の発
明において、他の文群との関連度の強さは、他の文との
関連度の平均値、他の文群との関連のカバレージ度は、
他の文との関連度の有無の平均値を用いる。第5文につ
いて見れば、表1のようになる。
連度の強さとカバレージとその積の値を示す(いずれも
100倍し、整数化してある。積は‘=>’の右に示
す)。関連度の強さに着目すると、第2文、第3文が.
33,.27と高く、第4,6,7,10文が.15〜.
17の範囲の第2グループをなしている。関連のカバレ
ージに着目すると、第5文、第7文が.91と高く、第
4,6文が.73で続く。
なっているように、文書のテーマに強く関わっている文
であることが想定される。また、関連のカバレージが高
い文は、新聞記事等で要約的な内容をもつといわれる第
1段落の文を含んでおり、全体の内容を含んでいる可能
性が高いことが想定される。逆に、この値が低い文は、
非常に個別的な話題を述べている文であると考えられ
る。このように、いずれの値もキーセンテンスを抽出す
るための文の重要度として意味のあるものになってい
る。
積によって、双方の効果を加味した文の重要度を与え
る。この重要度に基づくと、.10以上では、第2文、
第7文、第6文、第4文、第10文、第5文の順とな
り、見出し第2文、第1段落の3文(第4,5,6
文)、第2段落の第1文(第7文)と最終文(第10
文)がキーセンテンスとして抽出される。
ンスを順に示して、抄録となすもので、上記の重要度に
基づけば、抄録として、図8(上位2文:第2文、第7
文)や図9(上位6文:第2文、第4文、第5文、第6
文、第7文、第10文)が得られる。
文やキーワード群に対して関連する文を本発明の文の関
連度により検索するものである。たとえば、見出し文が
重要なキーワードを含んでいると考えられることから、
見出し文の第1文「通常兵器関連の工業製品」を検索文
とすれば、第4文「通常兵器の部品や加工機械に転用で
きる工業製品の輸出規制が二十日、…」が検索され(図
10)、見出し文の第2文によれば、第1段落の3文と
最終段落の第1文が関連度が高い文として検索される
(図11)。
ら文を切り出す「文切り出し手段」と、文書内の1文と
他の1文との関連度を評価する「文間関連度評価手段」
と、文書内の他の文群との関連度に基づき、文の重要度
を評価する「文重要度評価手段」と、文の重要度に基づ
き、キーセンテンスを抽出する「キーセンテンス抽出手
段」とを有することを特徴としたものであり、請求項2
の発明は、請求項1の発明において、前記「文間関連度
評価手段」は、文からキーワード候補単語群を抽出し、
各々の文に含まれるキーワード候補単語間の類似度に基
づき関連度を評価すること、請求項3の発明は、請求項
2の発明において、前記「文間関連度評価手段」におけ
るキーワード候補単語間の類似度として、キーワード候
補単語の文字列間の文字の重複度を用いること、請求項
4の発明は、請求項1乃至3の発明において、前記「文
重要度評価手段」が、他の文群との関連度の強さと他の
文群との関連のカバレージ度の一方あるいは双方とによ
って文の重要度を評価すること、請求項5の発明は、請
求項4の発明において、前記他の文群との関連度の強さ
として、他の文との関連度の平均値、前記他の文群との
関連のカバレージ度として、他の文との関連度の有無の
平均値を用いること、請求項6の発明は、請求項4の発
明において、前記文の重要度として、他の文群との関連
度の強さと他の文群との関連のカバレージ度との積を用
いることを特徴としたものであり、これら請求項1乃至
請求項6の発明により、文書内の文間の関連度に基づい
た文の重要度によるキーセンテンスの抽出を可能とし、
特に、請求項2乃至請求項6で提供する文間の関連度と
文の重要度を評価する方式は、外部知識や構文解析等を
用いず、名詞判定程度の解析処理と文字列照合の処理に
よって簡単に得られる効果的な方式である。
のいずれかのキーセンテンス抽出方式を用いて、文の重
要度の高いキーセンテンスを抽出し、文書内の文の順番
に並べることを特徴としたものであり、これにより、文
書内に文間の関連度に基づいた文の重要度によるキーセ
ンテンスの抽出、抄録作成を行うようにしたものであ
る。
れかに記載のキーセンテンス抽出方式における「文間関
連度評価手段」に基づき、検索要求の文あるいは単語群
との関連度に基づき文書内の文を検索することを特徴と
したものであり、これにより、請求項1乃至請求項3の
発明の文間の関連度を利用して、文書内から選択した特
定の文、外部から与えた検索文やキーワード群と関連の
大きい文を検索する方式としても効果があるようにした
ものである。
方式、及び、文検索方式を説明するための構成図であ
る。
書の一例(原文)を示す図である。
である。
る。
積を示す図である。
す図である。
す図である。
評価手段、4…文重要度評価手段、5…キーセンテンス
抽出手段。
Claims (8)
- 【請求項1】 電子化された文書から文を切り出す文切
り出し手段と、文書内の1文と他の1文との関連度を評
価する文間関連度評価手段と、文書内の他の文群との関
連度に基づいて、文の重要度を評価する文重要度評価手
段と、文の重要度に基づいて、キーセンテンスを抽出す
るキーセンテンス抽出手段とを有することを特徴とする
キーセンテンス抽出方式。 - 【請求項2】 前記文間関連度評価手段は、文からキー
ワード候補単語群を抽出し、各々の文に含まれるキーワ
ード候補単語間の類似度に基づいて関連度を評価するこ
とを特徴とする請求項1に記載のキーセンテンス抽出方
式。 - 【請求項3】 前記文間関連度評価手段におけるキーワ
ード候補単語間の類似度として、キーワード候補単語の
文字列間の文字の重複度を用いることを特徴とする請求
項2に記載のキーセンテンス抽出方式。 - 【請求項4】 前記文重要度評価手段が、他の文群との
関連度の強さと他の文群との関連のカバレージ度の一方
あるいは双方とによって文の重要度を評価することを特
徴とする請求項1乃至3のいずれかに記載のキーセンテ
ンス抽出方式。 - 【請求項5】 前記他の文群との関連度の強さとして、
他の文との関連度の平均値、前記他の文群との関連のカ
バレージ度として、他の文との関連度の有無の平均値を
用いることを特徴とする請求項4に記載のキーセンテン
ス抽出方式。 - 【請求項6】 前記文の重要度として、他の文群との関
連度の強さと他の文群との関連のカバレージ度との積を
用いることを特徴とする請求項4に記載のキーセンテン
ス抽出方式。 - 【請求項7】 請求項1乃至6のいずれかのキーセンテ
ンス抽出方式を用いて、文の重要度の高いキーセンテン
スを抽出し、文書内の文の順番に並べることを特徴とす
る抄録方式。 - 【請求項8】 請求項1乃至3のいずれかに記載のキー
センテンス抽出方式における文間関連度評価手段に基づ
いて、検索要求の文あるいは単語群との関連度に基づき
文書内の文を検索することを特徴とする文検索方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP18289095A JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP18289095A JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0934905A true JPH0934905A (ja) | 1997-02-07 |
| JP3594701B2 JP3594701B2 (ja) | 2004-12-02 |
Family
ID=16126196
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP18289095A Expired - Fee Related JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3594701B2 (ja) |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
| JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
| JPH11238064A (ja) * | 1998-02-20 | 1999-08-31 | Toshiba Corp | データベース作成方法および情報記憶検索装置および記録媒体 |
| JPH11259521A (ja) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
| JP2001034638A (ja) * | 1999-07-27 | 2001-02-09 | Fujitsu Ltd | 索引生成装置及び方法及び記録媒体 |
| US6424429B1 (en) | 1997-11-14 | 2002-07-23 | Ricoh Company, Ltd. | File system and a recording medium with a program used in the system stored therein |
| KR100434526B1 (ko) * | 1997-06-12 | 2004-09-04 | 삼성전자주식회사 | 문맥정보및지역적문서형태를이용한문장추출방법 |
| JP2009015795A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
| JP2015132899A (ja) * | 2014-01-09 | 2015-07-23 | 日本放送協会 | 重要語抽出装置、及びプログラム |
| JP2016538616A (ja) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 知識抽出方法及びシステム |
| CN111291214A (zh) * | 2020-01-15 | 2020-06-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
| JPH06259424A (ja) * | 1993-03-02 | 1994-09-16 | Ricoh Co Ltd | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
-
1995
- 1995-07-19 JP JP18289095A patent/JP3594701B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
| JPH06259424A (ja) * | 1993-03-02 | 1994-09-16 | Ricoh Co Ltd | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
| JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
| KR100434526B1 (ko) * | 1997-06-12 | 2004-09-04 | 삼성전자주식회사 | 문맥정보및지역적문서형태를이용한문장추출방법 |
| US6424429B1 (en) | 1997-11-14 | 2002-07-23 | Ricoh Company, Ltd. | File system and a recording medium with a program used in the system stored therein |
| JPH11238064A (ja) * | 1998-02-20 | 1999-08-31 | Toshiba Corp | データベース作成方法および情報記憶検索装置および記録媒体 |
| JPH11259521A (ja) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
| JP2001034638A (ja) * | 1999-07-27 | 2001-02-09 | Fujitsu Ltd | 索引生成装置及び方法及び記録媒体 |
| JP2009015795A (ja) * | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
| JP2016538616A (ja) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | 知識抽出方法及びシステム |
| JP2015132899A (ja) * | 2014-01-09 | 2015-07-23 | 日本放送協会 | 重要語抽出装置、及びプログラム |
| CN111291214A (zh) * | 2020-01-15 | 2020-06-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
| CN111291214B (zh) * | 2020-01-15 | 2023-09-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3594701B2 (ja) | 2004-12-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kannan et al. | Preprocessing techniques for text mining | |
| EP0530993B1 (en) | An iterative technique for phrase query formation and an information retrieval system employing same | |
| CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
| US5937422A (en) | Automatically generating a topic description for text and searching and sorting text by topic using the same | |
| Wu et al. | Domain-specific keyphrase extraction | |
| Vossen | Extending, trimming and fusing WordNet for technical documents | |
| KR20010015368A (ko) | 정보 검색 방법과 정보 검색 장치 | |
| KR100406671B1 (ko) | 문장 표절 및 도용 검색 방법 | |
| JP3594701B2 (ja) | キーセンテンス抽出装置 | |
| Litvak et al. | Degext: a language-independent keyphrase extractor | |
| JP2572314B2 (ja) | キーワード抽出装置 | |
| CN111209737B (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
| JPH0844771A (ja) | 情報検索装置 | |
| Chaibi et al. | Topic segmentation for textual document written in arabic language | |
| Ramirez et al. | ACE: improving search engines via Automatic Concept Extraction | |
| EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
| Atwan et al. | Impact of stemmer on arabic text retrieval | |
| Chi et al. | Word segmentation and recognition for web document framework | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
| Kiyota et al. | Automatic summarization of Japanese sentences and its application to a WWW KWIC index | |
| JP3578618B2 (ja) | 文書分割装置 | |
| Panunzi et al. | Keyword extraction in open-domain multilingual textual resources | |
| Rosner et al. | Multisum: query-based multi-document summarization | |
| Yoshioka et al. | On a combination of probabilistic and Boolean IR models for WWW document retrieval |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040412 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040831 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040901 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |