JP2014120140A - クラスタ処理方法、クラスタ処理装置およびプログラム - Google Patents
クラスタ処理方法、クラスタ処理装置およびプログラム Download PDFInfo
- Publication number
- JP2014120140A JP2014120140A JP2012277491A JP2012277491A JP2014120140A JP 2014120140 A JP2014120140 A JP 2014120140A JP 2012277491 A JP2012277491 A JP 2012277491A JP 2012277491 A JP2012277491 A JP 2012277491A JP 2014120140 A JP2014120140 A JP 2014120140A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- processing
- information
- result
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本開示の技術における解決手段の一観点は、第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行し、前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行し、前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する、クラスタ処理方法、クラスタ処理装置およびプログラムである。
【選択図】図4
Description
また、他の先行技術として、データ集合を部分クラスタの集合に変換し(大分類し)、部分クラスタの集合をクラスタリングするにあたり部分クラスタの局所的な密度に関する属性を考慮して詳細分類を行う技術が知られている。(例えば、特許文献2参照)
はk個のクラスタ、
はi番目のクラスタであり、データ集合の網羅的で互いに疎な部分集合である。また、kはクラスタ数であり、
はセントロイド(重心)である。
において、各クラスタのセントロイド
との距離
を計算し、距離が最小であるクラスタ
を見つけ、データをそのクラスタに割り当てる。このようにして、全てのデータがクラスタに割り当てると、式2においてセントロイドを更新する。
が出力される。なお、反復数が設定回数に達する前に、クラスタの割り当てが前回の反復時のクラスタの割り当てから変化がなかった場合に、繰り返し処理が終了されるようにしてもよい。このアルゴリズムによる計算量は、データ数をN、反復回数を定数とすると、O(Nk)となる。
(付記1)
コンピュータが、
第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行し、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行し、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する、
ことを特徴とするクラスタ処理方法。
(付記2)
前記対象情報の分類を決定することは、前記第1の分類処理の結果と前記第2の分類処理の結果間で分類の変更がなかった前記第1の分類処理の結果または前記第2の分類処理の結果に基づいて前記対象情報の分類を決定する、
ことを特徴とする付記1のクラスタ処理方法。
(付記3)
前記第1の分類処理の結果は、前記対象情報に関連した分類個数情報を含み、
前記第2の分類処理は、前記分類個数情報を前記第2のクラスタ手法における初期情報として実行される、
ことを特徴とする付記1または2のクラスタ処理方法。
(付記4)
前記第1の分類処理の結果は、前記対象情報に含まれるキーワードを基にした前記対象情報の特徴情報を含み、
前記第2の分類処理は、前記対象情報の特徴情報を前記第2のクラスタ手法における前記初期情報として実行される、
ことを特徴とする付記3のクラスタ処理方法。
(付記5)
前記第1の分類処理は、前記対象情報を用いた前記キーワード別の集合を作成し、異なる前記キーワードに対応する前記集合を異なる分類とする、
ことを特徴とする付記4のクラスタ処理方法。
(付記6)
前記第2のクラスタ手法は、処理対象情報の類似性を基に処理対象情報を分類する手法である、
ことを特徴とする付記1乃至5のいずれか1つのクラスタ処理方法。
(付記7)
第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行する第1処理部と、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行する第2処理部と、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する決定部と、
を有することを特徴とするクラスタ処理装置。
(付記8)
前記決定部は、前記第1の分類処理の結果と前記第2の分類処理の結果間で分類の変更がなかった前記第1の分類処理の結果または前記第2の分類処理の結果に基づいて前記対象情報の分類を決定する、
ことを特徴とする付記7のクラスタ処理装置。
(付記9)
前記第1処理部による前記第1の分類処理の結果は、前記対象情報に関連した分類個数情報を含み、
前記第2処理部は、前記分類個数情報を前記第2のクラスタ手法における初期情報として前記第2の分類処理を実行する、
ことを特徴とする付記7または8のクラスタ処理装置。
(付記10)
前記第1処理部による前記第1の分類処理の結果は、前記対象情報に含まれるキーワードを基にした前記対象情報の特徴情報を含み、
前記第2処理部は、前記対象情報の特徴情報を前記第2のクラスタ手法における前記初期情報として前記第2の分類処理を実行する、
ことを特徴とする付記9のクラスタ処理方法。
(付記11)
前記第1処理部は、前記対象情報を用いた前記キーワード別の集合を作成し、異なる前記キーワードに対応する前記集合を異なる分類とする、
ことを特徴とする付記10のクラスタ処理装置。
(付記12)
前記第2のクラスタ手法は、処理対象情報の類似性を基に処理対象情報を分類する手法である、
ことを特徴とする付記7乃至11のいずれか1つのクラスタ処理装置。
(付記13)
コンピュータに、
第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行し、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行し、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する、
処理を実行させるためのプログラム。
(付記14)
前記対象情報の分類を決定することは、前記第1の分類処理の結果と前記第2の分類処理の結果間で分類の変更がなかった前記第1の分類処理の結果または前記第2の分類処理の結果に基づいて前記対象情報の分類を決定する、
ことを特徴とする付記13のプログラム。
(付記15)
前記第1の分類処理の結果は、前記対象情報に関連した分類個数情報を含み、
前記第2の分類処理は、前記分類個数情報を前記第2のクラスタ手法における初期情報として実行される、
ことを特徴とする付記13または14のプログラム。
(付記16)
前記第1の分類処理の結果は、前記対象情報に含まれるキーワードを基にした前記対象情報の特徴情報を含み、
前記第2の分類処理は、前記対象情報の特徴情報を前記第2のクラスタ手法における前記初期情報として実行される、
ことを特徴とする付記15のプログラム。
(付記17)
前記第1の分類処理は、前記対象情報を用いた前記キーワード別の集合を作成し、異なる前記キーワードに対応する前記集合を異なる分類とする、
ことを特徴とする付記16のプログラム。
(付記18)
前記第2のクラスタ手法は、処理対象情報の類似性を基に処理対象情報を分類する手法である、
ことを特徴とする付記13乃至17のいずれか1つのプログラム。
100、400、500:コンピュータ
200:ネットワーク
300:サーバ
320:ストレージシステム
600:NAS
10:プロセッサ
20:RAM
30:ドライブ装置
32:記憶媒体
40:入力インターフェース
42:入力デバイス
50:出力インターフェース
52:出力デバイス
60:通信インターフェース
70:バス
110:制御部
120:記憶部
130:取得部
140:第1クラスタ処理部
150:第2クラスタ処理部
160:決定部
170:出力部
Claims (8)
- コンピュータが、
第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行し、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行し、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する、
ことを特徴とするクラスタ処理方法。 - 前記対象情報の分類を決定することは、前記第1の分類処理の結果と前記第2の分類処理の結果間で分類の変更がなかった前記第1の分類処理の結果または前記第2の分類処理の結果に基づいて前記対象情報の分類を決定する、
ことを特徴とする請求項1記載のクラスタ処理方法。 - 前記第1の分類処理の結果は、前記対象情報に関連した分類個数情報を含み、
前記第2の分類処理は、前記分類個数情報を前記第2のクラスタ手法における初期情報として実行される、
ことを特徴とする請求項1または2記載のクラスタ処理方法。 - 前記第1の分類処理の結果は、前記対象情報に含まれるキーワードを基にした前記対象情報の特徴情報を含み、
前記第2の分類処理は、前記対象情報の特徴情報を前記第2のクラスタ手法における前記初期情報として実行される、
ことを特徴とする請求項3記載のクラスタ処理方法。 - 前記第1の分類処理は、前記対象情報を用いた前記キーワード別の集合を作成し、異なる前記キーワードに対応する前記集合を異なる分類とする、
ことを特徴とする請求項4記載のクラスタ処理方法。 - 前記第2のクラスタ手法は、処理対象情報の類似性を基に処理対象情報を分類する手法である、
ことを特徴とする請求項1乃至5のいずれか1項に記載のクラスタ処理方法。 - 第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行する第1処理部と、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行する第2処理部と、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する決定部と、
を有することを特徴とするクラスタ処理装置。 - コンピュータに、
第2のクラスタ手法と異なりかつ該第2のクラスタ手法よりも高速な第1のクラスタ手法によって対象情報に対して第1の分類処理を実行し、
前記第1の分類処理の結果に基づいて前記第2のクラスタ手法によって第2の分類処理を実行し、
前記第1の分類処理の結果と前記第2の分類処理の結果とに基づいて前記対象情報の分類を決定する、
処理を実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012277491A JP6015417B2 (ja) | 2012-12-19 | 2012-12-19 | クラスタ処理方法、クラスタ処理装置およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012277491A JP6015417B2 (ja) | 2012-12-19 | 2012-12-19 | クラスタ処理方法、クラスタ処理装置およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014120140A true JP2014120140A (ja) | 2014-06-30 |
| JP6015417B2 JP6015417B2 (ja) | 2016-10-26 |
Family
ID=51174885
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012277491A Expired - Fee Related JP6015417B2 (ja) | 2012-12-19 | 2012-12-19 | クラスタ処理方法、クラスタ処理装置およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6015417B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101828995B1 (ko) | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11296552A (ja) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2005346223A (ja) * | 2004-06-01 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
| US7430717B1 (en) * | 2000-09-26 | 2008-09-30 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
| JP2008305268A (ja) * | 2007-06-08 | 2008-12-18 | Hitachi Ltd | 文書分類装置及び分類方法 |
-
2012
- 2012-12-19 JP JP2012277491A patent/JP6015417B2/ja not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11296552A (ja) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US7430717B1 (en) * | 2000-09-26 | 2008-09-30 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
| JP2005346223A (ja) * | 2004-06-01 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
| JP2008305268A (ja) * | 2007-06-08 | 2008-12-18 | Hitachi Ltd | 文書分類装置及び分類方法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101828995B1 (ko) | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6015417B2 (ja) | 2016-10-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107291792B (zh) | 用于确定相关实体的方法和系统 | |
| CN104331477B (zh) | 基于联邦式检索的云平台并发性能测试方法 | |
| JP6167493B2 (ja) | 情報を管理するための方法、コンピュータプログラム、記憶媒体及びシステム | |
| US10067913B2 (en) | Cross-lingual automatic query annotation | |
| CN104160390B (zh) | 来自潜在关系数据的实体扩充服务 | |
| US8781916B1 (en) | Providing nuanced product recommendations based on similarity channels | |
| US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
| JP2009510637A (ja) | 表示のための高品質レビューの選択 | |
| CN105431844A (zh) | 用于搜索系统的第三方搜索应用 | |
| US9407589B2 (en) | System and method for following topics in an electronic textual conversation | |
| CN104428767A (zh) | 相关实体 | |
| CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
| JP2008250722A (ja) | 文書検索システム、文書番号部分列取得装置、および文書検索方法 | |
| US11567906B2 (en) | Generation and traversal of a hierarchical index structure for efficient data retrieval | |
| US20160350293A1 (en) | System and Method for Automatic Document Classification and Grouping Based on Document Topic | |
| WO2017113592A1 (zh) | 模型生成方法、词语赋权方法、装置、设备及计算机存储介质 | |
| JP5226241B2 (ja) | タグを付与する方法 | |
| CN106447419A (zh) | 基于特征选择的拜访者标识 | |
| JP2018088051A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP5048852B2 (ja) | 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 | |
| US11086905B1 (en) | Method and system for presenting stories | |
| JP2017045196A (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
| CN110291515B (zh) | 计算系统中的分布式索引搜索 | |
| Li et al. | A probabilistic topic-based ranking framework for location-sensitive domain information retrieval | |
| JP6015417B2 (ja) | クラスタ処理方法、クラスタ処理装置およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150804 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20160401 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160614 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160617 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160815 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160912 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6015417 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |
