JPH11250072A - 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体 - Google Patents
情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体Info
- Publication number
- JPH11250072A JPH11250072A JP10045770A JP4577098A JPH11250072A JP H11250072 A JPH11250072 A JP H11250072A JP 10045770 A JP10045770 A JP 10045770A JP 4577098 A JP4577098 A JP 4577098A JP H11250072 A JPH11250072 A JP H11250072A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- information
- words
- destination
- reference information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】
【課題】 分類対象の情報と当該情報が参照する情報よ
り単語を抽出し、抽出した単語を既存の階層型知識体系
に対応付けることにより、従来におけるキーワード抽出
の曖昧性を起因とする分類精度の悪さ、長い学習時間に
よる実時間処理の問題を解決した情報分類方法及び装置
及び情報分類プログラムを格納した記憶媒体を提供す
る。 【解決手段】 本発明は、分類対象情報が参照している
参照情報を取得し、分類対象情報と参照情報から分類に
有用な単語を抽出し、抽出された単語を階層型知識体系
の分類項目に対応付けし、対応付けされた分類項目中か
ら分類先を決定し、分類対象情報の分類を行う。
り単語を抽出し、抽出した単語を既存の階層型知識体系
に対応付けることにより、従来におけるキーワード抽出
の曖昧性を起因とする分類精度の悪さ、長い学習時間に
よる実時間処理の問題を解決した情報分類方法及び装置
及び情報分類プログラムを格納した記憶媒体を提供す
る。 【解決手段】 本発明は、分類対象情報が参照している
参照情報を取得し、分類対象情報と参照情報から分類に
有用な単語を抽出し、抽出された単語を階層型知識体系
の分類項目に対応付けし、対応付けされた分類項目中か
ら分類先を決定し、分類対象情報の分類を行う。
Description
【0001】
【発明の属する技術分野】本発明は、情報分類方法及び
装置及び情報分類プログラムを格納した記憶媒体に係
り、特に、情報内の単語の頻度を分析し、当該単語を階
層型知識体系に対応させることで、予め整理された分類
項目の中から妥当な分類先に情報を分類する情報分類方
法及び装置及び情報分類プログラムを格納した記憶媒体
に関する。
装置及び情報分類プログラムを格納した記憶媒体に係
り、特に、情報内の単語の頻度を分析し、当該単語を階
層型知識体系に対応させることで、予め整理された分類
項目の中から妥当な分類先に情報を分類する情報分類方
法及び装置及び情報分類プログラムを格納した記憶媒体
に関する。
【0002】
【従来の技術】従来の情報分類技術として、当該情報内
のテキスト情報を形態素解析技術等により単語に分解
し、その中から当該情報を特徴付けるような予め用意し
てあるキーワードを抽出し、そのキーワードに対応する
分類先に分類する方法がある。この例として、電子メー
ル整理ソフトの“Visual Mail ”の自動分類機能があ
る。
のテキスト情報を形態素解析技術等により単語に分解
し、その中から当該情報を特徴付けるような予め用意し
てあるキーワードを抽出し、そのキーワードに対応する
分類先に分類する方法がある。この例として、電子メー
ル整理ソフトの“Visual Mail ”の自動分類機能があ
る。
【0003】また、その他の分類方法として、予め分類
されている情報を答えとして特徴を学習することによ
り、分類する当該情報の特徴から分類先を決定する方法
がある。
されている情報を答えとして特徴を学習することによ
り、分類する当該情報の特徴から分類先を決定する方法
がある。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
予め用意されているキーワードを用いて分類する方法で
は、当該情報から当該情報を特徴付ける妥当なキーワー
ドを抽出するのが困難であり、分類精度が悪いという問
題がある。さらに、特徴を学習することにより分類先を
決定する方法は、長い学習時間が必要となり、実時間処
理が必要なシステムへの応用は困難である。
予め用意されているキーワードを用いて分類する方法で
は、当該情報から当該情報を特徴付ける妥当なキーワー
ドを抽出するのが困難であり、分類精度が悪いという問
題がある。さらに、特徴を学習することにより分類先を
決定する方法は、長い学習時間が必要となり、実時間処
理が必要なシステムへの応用は困難である。
【0005】このように、上記従来の方法では、当該情
報からのキーワードの曖昧性から分類精度が悪くなるこ
とが考えられる。また、予め分類されている情報の特徴
の学習時間は、実時間処理の実現には問題である。本発
明は、上記の点に鑑みなされたもので、分類対象の情報
と当該情報が参照する情報より単語を抽出し、抽出した
単語を既存の階層型知識体系に対応付けることにより、
従来におけるキーワード抽出の曖昧性を起因とする分類
精度の悪さ、長い学習時間による実時間処理の問題を解
決した情報分類方法及び装置及び情報分類プログラムを
格納した記憶媒体を提供することを目的とする。
報からのキーワードの曖昧性から分類精度が悪くなるこ
とが考えられる。また、予め分類されている情報の特徴
の学習時間は、実時間処理の実現には問題である。本発
明は、上記の点に鑑みなされたもので、分類対象の情報
と当該情報が参照する情報より単語を抽出し、抽出した
単語を既存の階層型知識体系に対応付けることにより、
従来におけるキーワード抽出の曖昧性を起因とする分類
精度の悪さ、長い学習時間による実時間処理の問題を解
決した情報分類方法及び装置及び情報分類プログラムを
格納した記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、分類
対象の情報を妥当な分類先に分類する情報分類方法にお
いて、分類対象情報が参照している参照情報を取得し
(ステップ1)、分類対象情報と参照情報から分類に有
用な単語を抽出し(ステップ2)、抽出された単語を階
層型知識体系の分類項目に対応付けし(ステップ3)、
対応付けされた分類項目中から分類先を決定し、分類対
象情報の分類を行う(ステップ4)。
説明するための図である。本発明(請求項1)は、分類
対象の情報を妥当な分類先に分類する情報分類方法にお
いて、分類対象情報が参照している参照情報を取得し
(ステップ1)、分類対象情報と参照情報から分類に有
用な単語を抽出し(ステップ2)、抽出された単語を階
層型知識体系の分類項目に対応付けし(ステップ3)、
対応付けされた分類項目中から分類先を決定し、分類対
象情報の分類を行う(ステップ4)。
【0007】本発明(請求項2)は、参照情報を取得す
る際に、分類対象情報の文書を解析し、構造情報を取得
し、構造情報に基づいてアクセスし、リンク情報や関連
情報を含む。本発明(請求項3)は、分類に有用な単語
を抽出する際に、分類対象情報と参照情報内のテキスト
情報を形態素解析し、形態素解析により分割された単語
の品詞のうち、名詞、形容動詞を抽出し、出現頻度の大
きい順にソートし、最も出現頻度の大きい単語を抽出す
る。
る際に、分類対象情報の文書を解析し、構造情報を取得
し、構造情報に基づいてアクセスし、リンク情報や関連
情報を含む。本発明(請求項3)は、分類に有用な単語
を抽出する際に、分類対象情報と参照情報内のテキスト
情報を形態素解析し、形態素解析により分割された単語
の品詞のうち、名詞、形容動詞を抽出し、出現頻度の大
きい順にソートし、最も出現頻度の大きい単語を抽出す
る。
【0008】本発明(請求項4)は、分類先を決定する
際に、抽出された単語の出現頻度と、階層型知識体系を
用いて対応付けられた分類項目の頻度の積和を取り、最
も該積和の大きいものを分類先として決定する。図2
は、本発明の原理構成図である。本発明(請求項5)
は、分類対象の情報を妥当な分類先に分類する情報分類
装置であって、分類対象情報が参照している参照情報を
取得する参照情報取得手段1と、分類対象情報と参照情
報から分類に有用な単語を抽出する単語抽出手段2と、
単語抽出手段2により抽出された単語を階層型知識体系
4の分類項目に対応付けする分類項目対応付け手段3
と、対応付けされた分類項目中から分類先を決定する分
類先決定手段5とを有する。
際に、抽出された単語の出現頻度と、階層型知識体系を
用いて対応付けられた分類項目の頻度の積和を取り、最
も該積和の大きいものを分類先として決定する。図2
は、本発明の原理構成図である。本発明(請求項5)
は、分類対象の情報を妥当な分類先に分類する情報分類
装置であって、分類対象情報が参照している参照情報を
取得する参照情報取得手段1と、分類対象情報と参照情
報から分類に有用な単語を抽出する単語抽出手段2と、
単語抽出手段2により抽出された単語を階層型知識体系
4の分類項目に対応付けする分類項目対応付け手段3
と、対応付けされた分類項目中から分類先を決定する分
類先決定手段5とを有する。
【0009】本発明(請求項6)は、参照情報取得手段
1において、分類対象情報の文書を解析し、構造情報を
取得する手段と、構造情報に基づいてアクセスし、リン
ク情報や関連情報を含む参照情報を取得する手段を含
む。本発明(請求項7)は、単語抽出手段2において、
分類対象情報と参照情報内のテキスト情報を形態素解析
する手段と、形態素解析により分割された単語の品詞の
うち、名詞、形容動詞を抽出し、出現頻度の大きい順に
ソートし、最も出現頻度の大きい単語を抽出する手段と
を含む。
1において、分類対象情報の文書を解析し、構造情報を
取得する手段と、構造情報に基づいてアクセスし、リン
ク情報や関連情報を含む参照情報を取得する手段を含
む。本発明(請求項7)は、単語抽出手段2において、
分類対象情報と参照情報内のテキスト情報を形態素解析
する手段と、形態素解析により分割された単語の品詞の
うち、名詞、形容動詞を抽出し、出現頻度の大きい順に
ソートし、最も出現頻度の大きい単語を抽出する手段と
を含む。
【0010】本発明(請求項8)は、分類先決定手段5
において、抽出された単語の出現頻度と、階層型知識体
系を用いて対応付けられた分類項目の頻度の積和を取
り、最も該積和の大きいものを分類先として決定する手
段を含む。本発明(請求項9)は、分類対象の情報を妥
当な分類先に分類する情報分類プログラムを格納した記
憶媒体であって、分類対象情報が参照している参照情報
を取得する参照情報取得プロセスと、分類対象情報と参
照情報から分類に有用な単語を抽出する単語抽出プロセ
スと、単語抽出プロセスにより抽出された単語を階層型
知識体系の分類項目に対応付けする分類項目対応付けプ
ロセスと、対応付けされた分類項目中から分類先を決定
する分類先決定プロセスとを有する。
において、抽出された単語の出現頻度と、階層型知識体
系を用いて対応付けられた分類項目の頻度の積和を取
り、最も該積和の大きいものを分類先として決定する手
段を含む。本発明(請求項9)は、分類対象の情報を妥
当な分類先に分類する情報分類プログラムを格納した記
憶媒体であって、分類対象情報が参照している参照情報
を取得する参照情報取得プロセスと、分類対象情報と参
照情報から分類に有用な単語を抽出する単語抽出プロセ
スと、単語抽出プロセスにより抽出された単語を階層型
知識体系の分類項目に対応付けする分類項目対応付けプ
ロセスと、対応付けされた分類項目中から分類先を決定
する分類先決定プロセスとを有する。
【0011】本発明(請求項10)は、参照情報取得プ
ロセスにおいて、分類対象情報の文書を解析し、構造情
報を取得するプロセスと、構造情報に基づいてアクセス
し、リンク情報や関連情報を含む参照情報を取得するプ
ロセスを含む。本発明(請求項11)は、単語抽出プロ
セスにおいて、分類対象情報と参照情報内のテキスト情
報を形態素解析するプロセスと、形態素解析により分割
された単語の品詞のうち、名詞、形容動詞を抽出し、出
現頻度の大きい順にソートし、最も出現頻度の大きい単
語を抽出するプロセスとを含む。
ロセスにおいて、分類対象情報の文書を解析し、構造情
報を取得するプロセスと、構造情報に基づいてアクセス
し、リンク情報や関連情報を含む参照情報を取得するプ
ロセスを含む。本発明(請求項11)は、単語抽出プロ
セスにおいて、分類対象情報と参照情報内のテキスト情
報を形態素解析するプロセスと、形態素解析により分割
された単語の品詞のうち、名詞、形容動詞を抽出し、出
現頻度の大きい順にソートし、最も出現頻度の大きい単
語を抽出するプロセスとを含む。
【0012】本発明(請求項12)は、分類先決定プロ
セスにおいて、抽出された単語の出現頻度と、階層型知
識体系を用いて対応付けられた分類項目の頻度の積和を
取り、最も該積和の大きいものを分類先として決定する
プロセスを含む。上記のように、本発明は、分類対象情
報からだけではなく、当該情報が参照する参照情報から
も単語を抽出する。そのために、分類のためにより有用
な単語を抽出することが可能であり、精度のよい分類を
可能とする。
セスにおいて、抽出された単語の出現頻度と、階層型知
識体系を用いて対応付けられた分類項目の頻度の積和を
取り、最も該積和の大きいものを分類先として決定する
プロセスを含む。上記のように、本発明は、分類対象情
報からだけではなく、当該情報が参照する参照情報から
も単語を抽出する。そのために、分類のためにより有用
な単語を抽出することが可能であり、精度のよい分類を
可能とする。
【0013】また、抽出した単語を既存の階層知識体系
に対応付けするため、分類対象情報から特定のキーワー
ドが抽出されなくとも、精度のよい分類が可能となり、
分類前の学習も不要となる。
に対応付けするため、分類対象情報から特定のキーワー
ドが抽出されなくとも、精度のよい分類が可能となり、
分類前の学習も不要となる。
【0014】
【発明の実施の形態】図3は、本発明の分類装置の構成
を示す。同図に示す分類装置は、分類対象情報が参照し
ている参照情報を取得する参照情報取得部1、分類対象
情報と参照情報から単語を抽出する単語抽出部2、単語
抽出部2で抽出した単語を階層型知識体系に対応付ける
検索部3、既存の階層型知識体系4、検索部3で得た分
類先の候補の中から分類先を決定する分類先決定部5か
ら構成される。
を示す。同図に示す分類装置は、分類対象情報が参照し
ている参照情報を取得する参照情報取得部1、分類対象
情報と参照情報から単語を抽出する単語抽出部2、単語
抽出部2で抽出した単語を階層型知識体系に対応付ける
検索部3、既存の階層型知識体系4、検索部3で得た分
類先の候補の中から分類先を決定する分類先決定部5か
ら構成される。
【0015】参照情報取得部1は、入力された分類対象
情報を解析して構造情報に基づいて、関連する情報、補
足説明のための情報参照情報(リンク情報)を取得し、
分類対象情報と当該参照情報を単語抽出部2に転送す
る。単語抽出部2は、取得した分類対象情報と参照情報
の形態素解析を行い、単語分割と分割された単語に対し
て品詞を付与する。付与された品詞のうち、名詞及び形
容動詞を抽出して、それらの出現頻度を求め、出現頻度
の最も高い単語を検索部3に転送する。
情報を解析して構造情報に基づいて、関連する情報、補
足説明のための情報参照情報(リンク情報)を取得し、
分類対象情報と当該参照情報を単語抽出部2に転送す
る。単語抽出部2は、取得した分類対象情報と参照情報
の形態素解析を行い、単語分割と分割された単語に対し
て品詞を付与する。付与された品詞のうち、名詞及び形
容動詞を抽出して、それらの出現頻度を求め、出現頻度
の最も高い単語を検索部3に転送する。
【0016】検索部3は、単語抽出部2で抽出された単
語で階層型知識体系4を検索し、当該単語に対応する分
類項目を対応付け、分類候補を取得する。分類先決定部
5は、単語抽出部2で取得した単語の出現頻度と、検索
部3で取得した分類項目の頻度を用いて計算を行い、そ
の値をソートして、上位となった項目を分類先項目とし
て決定する。
語で階層型知識体系4を検索し、当該単語に対応する分
類項目を対応付け、分類候補を取得する。分類先決定部
5は、単語抽出部2で取得した単語の出現頻度と、検索
部3で取得した分類項目の頻度を用いて計算を行い、そ
の値をソートして、上位となった項目を分類先項目とし
て決定する。
【0017】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下では、インターネット上のHTML形式で書か
れたホームページの情報を既存の階層型知識体系4とし
て、“Yahoo Japan(http://www.yahoo.co.jp/)やNTT
DIRECTORY(http://navi.ntt.co.jp/)に代表
されるインターネット上のディレクトリ型サーチエンジ
ンを利用した場合を例として分類する過程を説明する。
この場合、分類先はこのディレクトリ型サーチエンジン
の各分類項目となる。
る。以下では、インターネット上のHTML形式で書か
れたホームページの情報を既存の階層型知識体系4とし
て、“Yahoo Japan(http://www.yahoo.co.jp/)やNTT
DIRECTORY(http://navi.ntt.co.jp/)に代表
されるインターネット上のディレクトリ型サーチエンジ
ンを利用した場合を例として分類する過程を説明する。
この場合、分類先はこのディレクトリ型サーチエンジン
の各分類項目となる。
【0018】参照情報取得部1は、分類対象情報の文書
を解析してタグと呼ばれる構造情報に基づいて参照情報
を取得する。図4は、本発明の一実施例のHTML文書
の例を示す。インターネット上のホームページが同図に
示すように、HTML(Hyper Text Markup Language)形
式と呼ばれる言語で記述されている場合、 <a href=" URL "> 〜</a> <frame src=" URL "> というタグに注目し、その中に記述されているURL(U
niform Resource Locator)にアクセスすることにより、
参照情報を取得する。図4の例では、 http://aaa.bbb.com/ http://ccc.ddd.com/ へアクセスし、参照情報を取得する。この参照情報はリ
ンク情報とも呼ばれ、当該情報に関連する情報であった
り、当該情報を捕捉説明する情報である可能性が高い。
参照情報をも考慮に入れることにより、分類対象情報に
十分なテキスト情報が含まれなくとも精度の良い分類が
可能になる。
を解析してタグと呼ばれる構造情報に基づいて参照情報
を取得する。図4は、本発明の一実施例のHTML文書
の例を示す。インターネット上のホームページが同図に
示すように、HTML(Hyper Text Markup Language)形
式と呼ばれる言語で記述されている場合、 <a href=" URL "> 〜</a> <frame src=" URL "> というタグに注目し、その中に記述されているURL(U
niform Resource Locator)にアクセスすることにより、
参照情報を取得する。図4の例では、 http://aaa.bbb.com/ http://ccc.ddd.com/ へアクセスし、参照情報を取得する。この参照情報はリ
ンク情報とも呼ばれ、当該情報に関連する情報であった
り、当該情報を捕捉説明する情報である可能性が高い。
参照情報をも考慮に入れることにより、分類対象情報に
十分なテキスト情報が含まれなくとも精度の良い分類が
可能になる。
【0019】単語抽出部2では、まず、当該分類対象情
報と参照情報のテキスト情報を既存技術である茶筌(htt
p://cactus.aist-nara.ac.jp/lab/nlt/chasen.html) の
ような形態素解析にかけて単語分解する。これにより、
当該分類対象情報と参照情報内のテキスト情報が単語に
分解され、それぞれの単語の品詞が判別される。当該分
類対象情報と参照情報を単語分解した結果の例を図5に
示す。この分解された単語の中から名詞、形容動詞を抽
出し、出現頻度でソートし、出現頻度の大きいものを採
用する。図6は、本発明の一実施例の抽出単語と出現度
数の例を示す。同図の例は、抽出単語を出現頻度でソー
トした結果を示しており、この例では、「特許庁」とい
う単語の出現頻度が一番大きいことが分かる。
報と参照情報のテキスト情報を既存技術である茶筌(htt
p://cactus.aist-nara.ac.jp/lab/nlt/chasen.html) の
ような形態素解析にかけて単語分解する。これにより、
当該分類対象情報と参照情報内のテキスト情報が単語に
分解され、それぞれの単語の品詞が判別される。当該分
類対象情報と参照情報を単語分解した結果の例を図5に
示す。この分解された単語の中から名詞、形容動詞を抽
出し、出現頻度でソートし、出現頻度の大きいものを採
用する。図6は、本発明の一実施例の抽出単語と出現度
数の例を示す。同図の例は、抽出単語を出現頻度でソー
トした結果を示しており、この例では、「特許庁」とい
う単語の出現頻度が一番大きいことが分かる。
【0020】検索部3は、単語抽出部2で抽出した各単
語に対して、階層型知識体系4の分類項目を対応付け
る。具体的には、ディレクトリ検索サービスの“Yahoo
Japan(http://www.yahoo.co.jp/) ”のように、単語を
検索語句として入力すると、階層型知識体系4に格納さ
れている情報の中から検索語句を含む情報とその情報が
格納されている階層型知識体系4の分類項目を出力する
モジュールを用いて、この検索結果から分類項目とその
頻度を得る。分類項目の頻度とは検索結果の情報の中
で、その分類項目に該当する情報の数を示す。
語に対して、階層型知識体系4の分類項目を対応付け
る。具体的には、ディレクトリ検索サービスの“Yahoo
Japan(http://www.yahoo.co.jp/) ”のように、単語を
検索語句として入力すると、階層型知識体系4に格納さ
れている情報の中から検索語句を含む情報とその情報が
格納されている階層型知識体系4の分類項目を出力する
モジュールを用いて、この検索結果から分類項目とその
頻度を得る。分類項目の頻度とは検索結果の情報の中
で、その分類項目に該当する情報の数を示す。
【0021】図7は、本発明の一実施例の検索結果の例
である。同図において「タイトルn」とあるのが、検索
語句を含む情報で、「ジャンル・・・」とあるのが、情
報が格納されている階層型知識体系4の分類項目であ
る。この例で、 ジャンル:[趣味・生活]−[趣味]−[その他]−
[発明]−[]−[] に注目すると、タイトル2、7、9、10が該当するの
で度数は「4」となる。このように、単語を階層型知識
体系4に対応付けることにより分類先の候補を得る。
である。同図において「タイトルn」とあるのが、検索
語句を含む情報で、「ジャンル・・・」とあるのが、情
報が格納されている階層型知識体系4の分類項目であ
る。この例で、 ジャンル:[趣味・生活]−[趣味]−[その他]−
[発明]−[]−[] に注目すると、タイトル2、7、9、10が該当するの
で度数は「4」となる。このように、単語を階層型知識
体系4に対応付けることにより分類先の候補を得る。
【0022】分類先決定部では、Fwi を単語抽出部2
で得られる単語iの出現頻度とし、Fcijを検索部3で
得られる単語iを検索語句とした時の分類項目jの頻度
とした時の
で得られる単語iの出現頻度とし、Fcijを検索部3で
得られる単語iを検索語句とした時の分類項目jの頻度
とした時の
【0023】
【数1】
【0024】を分類項目について計算し、この値をソー
トし、この上位項目を採用する。図8は、本発明の一実
施例の分類項目とソート結果の例を示す。この例では、 [趣味・生活]−[趣味]−[その他]−[発明] が分類先として決定される。また、上記の実施例では、
図3の構成要素に基づいて説明したが、この例に限定さ
れることなく、図3の各構成要素をプログラムとして構
築し、当該分類装置として利用されるコンピュータに接
続されるディスク装置や、フロッピーディスクやCD−
ROM等の可搬記憶媒体に格納しておき、本発明を実行
する際に、インストールすることにより容易に本発明を
実現することができる。
トし、この上位項目を採用する。図8は、本発明の一実
施例の分類項目とソート結果の例を示す。この例では、 [趣味・生活]−[趣味]−[その他]−[発明] が分類先として決定される。また、上記の実施例では、
図3の構成要素に基づいて説明したが、この例に限定さ
れることなく、図3の各構成要素をプログラムとして構
築し、当該分類装置として利用されるコンピュータに接
続されるディスク装置や、フロッピーディスクやCD−
ROM等の可搬記憶媒体に格納しておき、本発明を実行
する際に、インストールすることにより容易に本発明を
実現することができる。
【0025】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0026】
【発明の効果】上述のように、本発明によれば、分類対
象情報と当該分類対象情報が参照する情報から単語を抽
出し、階層型知識体系に対応付けすることにより、事前
の学習をすることなしに、当該情報の分類が可能にな
る。さらに、特定のキーワードが抽出されなくとも精度
の良い分類が可能となる。
象情報と当該分類対象情報が参照する情報から単語を抽
出し、階層型知識体系に対応付けすることにより、事前
の学習をすることなしに、当該情報の分類が可能にな
る。さらに、特定のキーワードが抽出されなくとも精度
の良い分類が可能となる。
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の分類装置の構成図である。
【図4】本発明の一実施例のHTML文書の例である。
【図5】本発明の一実施例の形態素解析結果の例であ
る。
る。
【図6】本発明の一実施例の抽出単語と出現度数の例で
ある。
ある。
【図7】本発明の一実施例の検索結果の例である。
【図8】本発明の一実施例の分類項目とソート結果の例
である。
である。
1 参照情報取得部、参照情報取得手段 2 単語抽出部、単語抽出手段 3 検索部、分類項目対応付け手段 4 階層型知識体系 5 分類先決定部、分類先決定手段
Claims (12)
- 【請求項1】 分類対象の情報を妥当な分類先に分類す
る情報分類方法において、 分類対象情報が参照している参照情報を取得し、 前記分類対象情報と前記参照情報から分類に有用な単語
を抽出し、 抽出された前記単語を階層型知識体系の分類項目に対応
付けし、 対応付けされた分類項目中から分類先を決定し、前記分
類対象情報の分類を行うことを特徴とする情報分類方
法。 - 【請求項2】 前記参照情報を取得する際に、 前記分類対象情報の文書を解析し、構造情報を取得し、 前記構造情報に基づいてアクセスし、リンク情報や関連
情報を含む参照情報を取得する請求項1記載の情報分類
方法。 - 【請求項3】 前記分類に有用な単語を抽出する際に、 前記分類対象情報と前記参照情報内のテキスト情報を形
態素解析し、 前記形態素解析により分割された単語の品詞のうち、名
詞、形容動詞を抽出し、出現頻度の大きい順にソート
し、最も出現頻度の大きい単語を抽出する請求項1記載
の情報分類方法。 - 【請求項4】 前記分類先を決定する際に、 抽出された前記単語の出現頻度と、前記階層型知識体系
を用いて対応付けられた分類項目の頻度の積和を取り、
最も該積和の大きいものを分類先として決定する請求項
1記載の情報分類方法。 - 【請求項5】 分類対象の情報を妥当な分類先に分類す
る情報分類装置であって、 分類対象情報が参照している参照情報を取得する参照情
報取得手段と、 前記分類対象情報と前記参照情報から分類に有用な単語
を抽出する単語抽出手段と、 前記単語抽出手段により抽出された前記単語を階層型知
識体系の分類項目に対応付けする分類項目対応付け手段
と、 対応付けされた分類項目中から分類先を決定する分類先
決定手段とを有することを特徴とする情報分類装置。 - 【請求項6】 前記参照情報取得手段は、 前記分類対象情報の文書を解析し、構造情報を取得する
手段と、 前記構造情報に基づいてアクセスし、リンク情報や関連
情報を含む参照情報を取得する手段を含む請求項5記載
の情報分類装置。 - 【請求項7】 前記単語抽出手段は、 前記分類対象情報と前記参照情報内のテキスト情報を形
態素解析する手段と、 前記形態素解析により分割された単語の品詞のうち、名
詞、形容動詞を抽出し、出現頻度の大きい順にソート
し、最も出現頻度の大きい単語を抽出する手段とを含む
請求項5記載の情報分類装置。 - 【請求項8】 前記分類先決定手段は、 抽出された前記単語の出現頻度と、前記階層型知識体系
を用いて対応付けられた分類項目の頻度の積和を取り、
最も該積和の大きいものを分類先として決定する手段を
含む請求項5記載の情報分類装置。 - 【請求項9】 分類対象の情報を妥当な分類先に分類す
る情報分類プログラムを格納した記憶媒体であって、 分類対象情報が参照している参照情報を取得する参照情
報取得プロセスと、 前記分類対象情報と前記参照情報から分類に有用な単語
を抽出する単語抽出プロセスと、 前記単語抽出プロセスにより抽出された前記単語を階層
型知識体系の分類項目に対応付けする分類項目対応付け
プロセスと、 対応付けされた分類項目中から分類先を決定する分類先
決定プロセスとを有することを特徴とする情報分類プロ
グラムを格納した記憶媒体。 - 【請求項10】 前記参照情報取得プロセスは、 前記分類対象情報の文書を解析し、構造情報を取得する
プロセスと、 前記構造情報に基づいてアクセスし、リンク情報や関連
情報を含む参照情報を取得するプロセスを含む請求項9
記載の情報分類プログラムを格納した記憶媒体。 - 【請求項11】 前記単語抽出プロセスは、 前記分類対象情報と前記参照情報内のテキスト情報を形
態素解析するプロセスと、 前記形態素解析により分割された単語の品詞のうち、名
詞、形容動詞を抽出し、出現頻度の大きい順にソート
し、最も出現頻度の大きい単語を抽出するプロセスとを
含む請求項9記載の情報分類プログラムを格納した記憶
媒体。 - 【請求項12】 前記分類先決定プロセスは、 抽出された前記単語の出現頻度と、前記階層型知識体系
を用いて対応付けられた分類項目の頻度の積和を取り、
最も該積和の大きいものを分類先として決定するプロセ
スを含む請求項9記載の情報分類プログラムを格納した
記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10045770A JPH11250072A (ja) | 1998-02-26 | 1998-02-26 | 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10045770A JPH11250072A (ja) | 1998-02-26 | 1998-02-26 | 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11250072A true JPH11250072A (ja) | 1999-09-17 |
Family
ID=12728536
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10045770A Pending JPH11250072A (ja) | 1998-02-26 | 1998-02-26 | 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11250072A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001273214A (ja) * | 2000-03-24 | 2001-10-05 | Oki Software Kk | ウェブページ解読システム |
| US6876990B2 (en) | 2000-03-15 | 2005-04-05 | Nec Corporation | Questionnaire analysis system |
| CN107577656A (zh) * | 2017-07-12 | 2018-01-12 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0922414A (ja) * | 1995-07-06 | 1997-01-21 | Hitachi Ltd | 文書分類支援方法および装置 |
-
1998
- 1998-02-26 JP JP10045770A patent/JPH11250072A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0922414A (ja) * | 1995-07-06 | 1997-01-21 | Hitachi Ltd | 文書分類支援方法および装置 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6876990B2 (en) | 2000-03-15 | 2005-04-05 | Nec Corporation | Questionnaire analysis system |
| JP2001273214A (ja) * | 2000-03-24 | 2001-10-05 | Oki Software Kk | ウェブページ解読システム |
| CN107577656A (zh) * | 2017-07-12 | 2018-01-12 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
| CN107577656B (zh) * | 2017-07-12 | 2020-02-14 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100815215B1 (ko) | 웹사이트 통합 검색 장치 및 방법 | |
| US8090724B1 (en) | Document analysis and multi-word term detector | |
| CN100394427C (zh) | 网络搜寻系统及方法 | |
| US20030163454A1 (en) | Subject specific search engine | |
| JP2001510607A (ja) | 増殖概念による索引付け手法を用いたインテリジェントネットワークブラウザ | |
| KR100434902B1 (ko) | 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법 | |
| CN106776567A (zh) | 一种互联网大数据分析提取方法及系统 | |
| JP2002245061A (ja) | キーワード抽出 | |
| JP4859779B2 (ja) | 有害コンテンツの評価付与装置、プログラム及び方法 | |
| KR100455439B1 (ko) | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 | |
| JP2009223372A (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
| US8117205B2 (en) | Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric | |
| JP3683687B2 (ja) | 情報フィルタリング装置および情報フィルタリング方法 | |
| JPH1145257A (ja) | Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH11250072A (ja) | 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体 | |
| JPH11338869A (ja) | 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体 | |
| JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
| JP4417497B2 (ja) | 情報検索装置及びプログラムを記憶した記憶媒体 | |
| JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
| JP2006529044A (ja) | 定義付けシステムおよび方法 | |
| JP2002183175A (ja) | テキストマイニング方法 | |
| KR100371805B1 (ko) | 관련 웹 사이트 제공 방법 및 시스템 | |
| JP2000105769A (ja) | 文書表示方法 | |
| JP5187187B2 (ja) | 体験情報検索システム | |
| JP4842921B2 (ja) | 検索システムおよびその方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040127 |