WO2015016133A1

WO2015016133A1 - 情報管理装置及び情報管理方法

Info

Publication number: WO2015016133A1
Application number: PCT/JP2014/069571
Authority: WO
Inventors: 靖岡野; 慎吾折原; 佐藤　徹; 浩志朝倉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2013-07-30
Filing date: 2014-07-24
Publication date: 2015-02-05
Anticipated expiration: 2016-01-30
Also published as: US20160170983A1; JPWO2015016133A1; CN105408896A; EP3012748A4; EP3012748A1

Abstract

　情報管理装置（１０）では、ネットワーク上における複数の文書データを収集する。続いて、情報管理装置（１０）では、収集された各文書データに含まれる単語を用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。そして、情報管理装置（１０）では、検索対象とする文書データの分野の指定を受け付ける。続いて、情報管理装置（１０）では、受け付けられた分野に対応するタグ情報が付与された文書データを検索する。

Description

情報管理装置及び情報管理方法

　本発明は、情報管理装置及び情報管理方法に関する。

　従来、インターネット上における不特定多数の文書を対象とし、特定の単語（キーワード）に関連する文書データを検索する手段として、様々なサーチエンジンが提供されている。例えば、サーチエンジンでは、キーワードの入力を受け付けることで、キーワードに関連する文書データを検索し、該文書データを出力する。

　このようにサーチエンジンで検索された文書データから主要コンテンツのみを自動で抽出する技術が知られている（例えば、特許文献１参照）。また、検索対象となるインターネット上の複数の文書データを、類似する内容同士に分類する技術が知られている（例えば、特許文献２参照）。

特開２０１０－１１７９４１号公報特許第４１２５９５１号

　しかしながら、従来の技術では、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合には、適切に文書データを検索できない場合があるという問題があった。例えば、セキュリティに関する記事のように、もともと話題が少ない記事を検索しようとした場合に、類似する記事や関連する記事を適切に検索することが困難であった。

　そこで、この発明は、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、適切に文書データを検索することを目的とする。

　上述した課題を解決し、目的を達成するため、情報管理装置は、ネットワーク上における複数の文書データを収集する収集部と、前記収集部によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与部と、検索対象とする文書データの分野の指定を受け付ける受付部と、前記受付部によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索部と、を有することを特徴とする。

　また、情報管理方法は、情報管理装置によって実行される情報管理方法であって、ネットワーク上における複数の文書データを収集する収集工程と、前記収集工程によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与工程と、検索対象とする文書データの分野の指定を受け付ける受付工程と、前記受付工程によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索工程と、を含んだことを特徴とする。

　本願に開示する情報管理装置及び情報管理方法は、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、例えば、検索漏れや関係のない文書データの混入を減らし、適切に文書データを検索することが可能である。

図１は、第一の実施形態に係る情報管理装置の構成の一例を示す図である。図２は、第一の実施形態に係る文書データ記憶部によって記憶される情報の一例を示す図である。図３は、第一の実施形態に係る情報管理装置において、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図４は、第一の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。図５は、第一の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。図６は、第二の実施形態に係る情報管理装置の構成の一例を示す図である。図７は、第二の実施形態に係る分野別単語リスト記憶部によって記憶される情報の一例を示す図である。図８は、第二の実施形態に係る情報管理装置において、分野別単語リストを参照して記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図９は、第二の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。図１０は、第三の実施形態に係る情報管理装置において、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する図である。図１１は、第三の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。図１２は、情報管理プログラムを実行するコンピュータを示す図である。

　以下に添付図面を参照して、この発明に係る情報管理装置及び情報管理方法の実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。

［第一の実施形態］
　以下の実施形態では、第一の実施形態に係る情報管理装置及び情報管理方法による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。

［情報管理装置の構成］
　図１に示した情報管理装置１０の構成を説明する。図１は、第一の実施形態に係る情報管理装置１０の構成を説明するための図である。図１に示すように、情報管理装置１０は、通信処理部１１、機能部１２、記憶部１３および制御部１４を有する。また、情報管理装置１０は、インターネットに接続されている。

　通信処理部１１は、インターネットにおける装置との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部１１は、インターネットにおけるサーバに対して記事等を含む文書データを要求し、文書データを受信する。

　記憶部１３は、図１に示すように、文書データ記憶部１３ａを有する。記憶部１３は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

　文書データ記憶部１３ａは、インターネット上のニュースサイト、ＢＢＳ（Bulletin　Board　System）、Ｔｗｉｔｔｅｒ（登録商標）などから収集された記事や投稿の文書データを記憶する。また、文書データ記憶部１３ａは、文書データに対応付けて、該文書データのジャンル（分野）を示すタグ情報を記憶する。なお、文書データ記憶部１３ａは、一般のデータベース（ＭｙＳＱＬやＰｏｓｔｇｒｅＳＱＬ等）を用いてもよいし、表形式やテキスト形式での格納など、その蓄積方法の種類は問わない。

　例えば、文書データ記憶部１３ａは、図２に例示するように、文書データの内容を示す「記事本文」と、記事本文のジャンルを示す「タグ」とを対応付けて記憶する。ここで、「タグ」は、一つの記事に対して、一つであってもよいし、複数であってもよい。具体的な例を挙げて説明すると、図２に示すように、記事本文「スマホに充電機器経由でウィルス感染する脆弱性が発見される」と、タグ「セキュリティ、携帯」とが対応付けて記憶されている。

　図１の説明に戻って、機能部１２は、収集部１２ａ、変換部１２ｂ、付与部１２ｃ、受付部１２ｄおよび検索部１２ｅを有する。ここで、機能部１２は、各処理を受け持つところであり、実際にはソフトウェア（の１コンポーネント）またはミドルウェアとして実現される。また、制御部１４は、通信処理部１１、機能部１２、記憶部１３の動作を制御し、情報管理装置１０の動作を司るもので、実際にはＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等の集積回路等で実現される。

　収集部１２ａは、ネットワーク上における複数の文書データを収集する。例えば、収集部１２ａは、インターネット上のニュースサイト、ＢＢＳ、Ｔｗｉｔｔｅｒなどから記事を収集する。ここで、ニュースサイト、ＢＢＳについては、収集部１２ａは、事前にユーザが定めた収集先リストに基づいて、サイトへアクセスし、記事を収集する。

　また、Ｔｗｉｔｔｅｒについては、収集部１２ａは、例えばＳｔｒｅａｍｉｎｇ　ＡＰＩやＳｅａｒｃｈ　ＡＰＩを用いて、全Ｔｗｅｅｔから一部を取得したり、ユーザが事前に定めたキーワードやＴｗｉｔｔｅｒユーザＩＤに基づき、条件に当てはまるＴｗｅｅｔを取得する。

　さらに、収集部１２ａは、収集した記事を、分析に活用できるように整形する。具体的には、ニュースやＢＢＳについては、不必要なＨＴＭＬタグやスクリプト、あるいは記事と関係ない広告を取り除いたりする。

　変換部１２ｂは、収集部１２ａによって収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する。具体的には、変換部１２ｂは、収集した記事データについて、不要文字の除去および文字種の統一を行った後、記事データを機械学習エンジンにかけるための特徴ベクトル変換を行う。

　ここで、変換部１２ｂは、不要文字の除去として、例えば、記事データに対して、余計な空白や言語処理の障害となるＵＲＬ等の削除を行う。また、例えば、変換部１２ｂは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。

　また、変換部１２ｂは、特徴ベクトルへの変換について、例えば、形態素解析によるもの、ｎ－ｇｒａｍによるもの、区切り文字によるもの、のいずれかを利用することができる。変換部１２ｂは、形態素解析によるものを利用した場合には、記事データを品詞によって分割し、それらを特徴ベクトルへ変換する。このような形態素解析には、例えばオープンソースのＭｅｃａｂ等のライブラリを利用することができる。例えば、変換部１２ｂは、記事データが「Ｔｗｉｔｔｅｒの使い方が、まだ、よくわからん。」という文章だった場合に、形態素解析を利用し、「Ｔｗｉｔｔｅｒ／の／使い方／が／、／まだ／、／よく／わから／ん／。」と分割する。

　また、変換部１２ｂは、ｎ－ｇｒａｍによるものを利用した場合には、記事データを先頭から１文字ずつずらしながらｎ文字の組を作り、それらを特徴ベクトルへ変換する。例えば、変換部１２ｂは、記事データが「Ｔｗｉｔｔｅｒの使い方が、まだ、よくわからん。」という文章だった場合に、ｎ－ｇｒａｍ（ｎ＝３）を利用し、「Ｔｗｉ／ｗｉｔ／ｉｔｔ／ｔｔｅ／ｔｅｒ／ｅｒの／ｒの使／の使い／・・・」と分割する。

　また、変換部１２ｂは、区切り文字によるものを利用した場合には、記事データを別途定めた区切り文字（空白やカンマ”,”など）によって分割し、それらを特徴ベクトルへ変換する。一般に、形態素解析は日本語の文章に、空白区切りは英語に適用されることが多い。例えば、変換部１２ｂは、記事データが「Ｔｗｉｔｔｅｒの使い方が、まだ、よくわからん。」という文章で区切り文字にカンマ“，”を指定した場合に、区切り文字を利用し、「Ｔｗｉｔｔｅｒの使い方が／まだ／よくわからん。」と分割する。

　そして、変換部１２ｂは、このようにして要素に分割された記事データを特徴ベクトルに変換する。特徴ベクトルの変換手法としては、例えば、各要素の出現回数をそのまま特徴ベクトルとする方式、回数によらず出現するか否かを１または０に対応させる方式、文章全体の出現回数を考慮した重みづけを行う方式などがある。これらは、使用する機械学習ライブラリの具備する手法であれば、どのようなものを用いても構わない。

　付与部１２ｃは、収集部１２ａによって収集された各文書データに含まれる単語を用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。具体的には、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。

　例えば、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する。ここで事前に与えられたカテゴリとしては、例えば、「セキュリティ」、「プログラミング」、「携帯」などのユーザにとって関心がある分野とする。ここで使用する機械学習のエンジンは種類を問わないが、例えばオープンソースのＪｕｂａｔｕｓ等を用いることができる。そして、付与部１２ｃは、記事データに対して、機械学習で分類されたカテゴリのタグを付与し、記事とタグを合わせて文書データ記憶部１３ａに格納する。

　受付部１２ｄは、検索対象とする文書データの分野の指定を受け付ける。具体的には、受付部１２ｄは、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付ける。

　例えば、受付部１２ｄは、検索を開始する検索指示を受け付けると、検索対象となる文書データの分野の候補として、例えば、「セキュリティ」、「プログラミング」、「携帯」などの分野を示す単語を表示するとともに、各単語の近傍にチェックボックスを表示する。そして、受付部１２ｄは、チェックボックスにチェック記号が入れられた単語を、指定された分野として受け付ける。なお、受付部１２ｄが指定を受け付ける分野の数は１つでもよいし、複数であってもよい。

　検索部１２ｅは、受付部１２ｄによって受け付けられた分野に対応するタグ情報が付与された文書データを検索する。例えば、検索部１２ｅは、分野「セキュリティ」について検索の指示を受け付けた場合には、「セキュリティ」のタグが付与された文書データを文書データ記憶部１３ａから検索する。そして、検索部１２ｅは、検索した文書データを表示する。

　なお、検索部１２ｅは、複数の分野について検索の指示を受け付けた場合には、全ての分野に対応するタグが付与された文書データを文書データ記憶部１３ａから検索してもよいし、複数の分野のうちのいずれかの分野に対応するタグが付与された文書データを全て検索するようにしてもよい。

　ここで、図３を用いて、情報管理装置１０が、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する。図３は、第一の実施形態に係る情報管理装置において、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図３に示すように、情報管理装置１０の収集部１２ａは、インターネット上のニュースサイト、Ｔｗｉｔｔｅｒ、ＢＢＳ等から記事等の情報を収集する（図３の（１）参照）。

　そして、変換部１２ｂが収集部１２ａによって収集された各記事に含まれる単語に基づいて、該記事を特徴ベクトルに変換する。その後、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する（図３の（２）参照）。そして、検索部１２ｅは、ユーザに指定された分野に対応するタグ情報が付与された文書データを検索する（図３の（３）参照）。

［情報管理装置による処理］
　次に、図４、５を用いて、第一の実施形態に係る情報管理装置１０による処理を説明する。図４は、第一の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。図５は、第一の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。

　まず、図４を用いて、第一の実施形態に係る情報管理装置１０におけるタグ付与処理の流れを説明する。図４に示すように、情報管理装置１０の収集部１２ａは、インターネット上のＷｅｂサイト（ニュースサイト、ＢＢＳ、Ｔｗｉｔｔｅｒ、ブログ等）から記事を収集する（ステップＳ１０１）。

　そして、変換部１２ｂは、収集した記事について、不要文字の除去を行う（ステップＳ１０２）。例えば、変換部１２ｂは、不要文字の除去として、記事データに対して、余計な空白や言語処理の障害となるＵＲＬ等の削除を行う。

　続いて、変換部１２ｂは、収集した記事について、文字種の統一を行う（ステップＳ１０３）。例えば、変換部１２ｂは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。

　変換部１２ｂは、収集した記事について、不要文字の除去および文字種の統一を行った後、機械学習エンジンにかけるための特徴ベクトル変換を行う（ステップＳ１０４）。例えば、変換部１２ｂは、特徴ベクトルへの変換について、形態素解析によるもの、ｎ－ｇｒａｍによるもの、区切り文字によるもの、のいずれかを利用して記事を分割し、特徴ベクトルの変換を行う。

　続いて、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する（ステップＳ１０５）。そして、付与部１２ｃは、記事データに対して、機械学習で分類されたカテゴリのタグを付与する（ステップＳ１０６）。その後、付与部１２ｃは、収集した記事と付与されたカテゴリを文書データ記憶部１３ａに格納する（ステップＳ１０７）。

　次に、図５を用いて、第一の実施形態に係る情報管理装置１０における情報検索処理の流れを説明する。図５に示すように、情報管理装置１０の受付部１２ｄは、検索を開始する検索指示を受け付けると（ステップＳ２０１肯定）、検索対象となり得る複数の分野の候補を表示する（ステップＳ２０２）。

　そして、受付部１２ｄは、表示した分野の候補のなかから分野の指定を受け付けた否かを判定する（ステップＳ２０３）。この結果、受付部１２ｄが表示した分野の候補のなかから分野の指定を受け付けたと判定した場合に（ステップＳ２０３肯定）、選択された分野に対応するタグを有する記事を検索する（ステップＳ２０４）。例えば、検索部１２ｅは、分野「セキュリティ」について検索の指示を受け付けた場合には、「セキュリティ」のタグが付与された文書データを文書データ記憶部１３ａから検索する。そして、検索部１２ｅは、検索された記事を出力する（ステップＳ２０５）。

[第一の実施形態の効果]
　上述してきたように、第一の実施形態にかかる情報管理装置１０では、ネットワーク上における複数の文書データを収集し、収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。そして、情報管理装置１０では、検索対象とする文書データの分野の指定を受け付け、受け付けられた分野に対応するタグ情報が付与された文書データを検索する。利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、適切に文書データを検索することが可能である。

　例えば、情報管理装置１０では、インターネット上のＷｅｂサイト（ニュース、Ｔｗｉｔｔｅｒ、ＢＢＳ、ブログ等）から記事を収集し、機械学習によってこれらの記事の分類・タグ付けを行い、記事とタグを格納する。そして、記事に付与されたタグを基に、利用者が望む記事を検索することができるため、利用者が望むジャンルの記事が記事全体の量に比べて少ない場合でも、タグ情報を基に、利用者が望む記事を多くの記事から探し出すことができる。

　また、情報管理装置１０では、収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する。そして、情報管理装置１０では、変換された特徴ベクトルを用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。このため、文書データに対して適切にタグを付与することが可能である。

　また、情報管理装置１０では、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付ける。このため、ユーザが検索キーワードを知らないような場合、例えば新しい話題に関する記事であっても、検索を行うことが可能である。

［第二の実施形態］
　第二の実施形態において、情報管理装置が、所定の分野に関する単語リストを記憶し、単語リストを参照して、分野に対応するタグ情報を文書データごとに付与するようにしてもよい。そこで、以下では、図６～図９を用いて、所定の分野に関する単語リストを記憶し、単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する場合について説明する。なお、第一の実施形態と共通する構成および処理については、説明を省略する。

　まず、図６を用いて、第二の実施の形態に係る情報管理装置１０Ａの構成を説明する。図６は、第二の実施形態に係る情報管理装置の構成の一例を示す図である。第二の実施の形態に係る情報管理装置１０Ａは、図１に示した第一の実施の形態に係る情報管理装置１０と比較して、分野別単語リスト記憶部１３ｂを新たに備える点が相違する。

　分野別単語リスト記憶部１３ｂは、所定の分野に関する分野別単語リストを記憶する。例えば、分野別単語リスト記憶部１３ｂは、図７に例示するように、分野に対応付けて、各分野に関する単語リストを記憶する。図７の例を挙げて説明すると、例えば、分野別単語リスト記憶部１３ｂは、分野「セキュリティ」に対応付けて単語「脆弱性、ウィルス・・・」を記憶する。図７は、第二の実施形態に係る分野別単語リスト記憶部１３ｂによって記憶される情報の一例を示す図である。ここでは、分野別単語リスト記憶部１３ｂは、ユーザが望むジャンルの単語を分野別単語リストとして記憶しているものとする。

　変換部１２ｂは、分野別単語リスト記憶部１３ｂに記憶された単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。

　例えば、変換部１２ｂは、収集した記事データについて、不要文字の除去および文字種の統一を行った後、分野別単語抽出処理として、あらかじめ与えられた分野別単語リストを基に、各分野のリストに含まれる単語を記事本文から抽出し、抽出した結果である単語を特徴ベクトルに変換する。

　具体的な例を挙げて説明すると、変換部１２ｂは、記事本文が「スマホに充電機器経由でウィルス感染する脆弱性が発見される」である場合に、図７に例示した分野別単語リストを参照して、リストに含まれる単語を記事本文から抽出処理を行うと、その結果として、分野「セキュリティ」の単語「ウィルス」、「脆弱性」と、分野「携帯」の単語「スマホ」を抽出することとなる。そして、変換部１２ｂは、「ウィルス」、「脆弱性」および「スマホ」を特徴ベクトルに変換する。

　その後、第一の実施形態と同様に、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する。そして、付与部１２ｃは、記事データに対して、機械学習で分類されたカテゴリにタグを付与し、記事とタグを合わせて文書データ記憶部１３ａに格納する。

　なお、上記の処理において、特徴ベクトルに変換する処理を省略し、抽出した単語に対応する分野をタグとして記事データに付与してもよい。つまり、上記の例を用いて説明すると、付与部１２ｃは、例えば、リストに含まれる単語を記事本文から抽出処理が行われた結果、「ウィルス」、「脆弱性」および「スマホ」が抽出された場合には、ウィルスおよび脆弱性に対応する「セキュリティ」と、スマホに対応する「携帯」とを、タグとして付与してもよいし、単語数が最も多い単語に対応する「セキュリティ」のみをタグとして付与してもよい。

　ここで、図８を用いて、情報管理装置１０Ａが、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する。図８は、第二の実施形態に係る情報管理装置において、分野別単語リストを参照して記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図８に示すように、情報管理装置１０Ａの収集部１２ａは、インターネット上のニュースサイト、Ｔｗｉｔｔｅｒ、ＢＢＳ等から記事等の情報を収集する（図８の（１）参照）。

　そして、変換部１２ｂが分野別単語リスト記憶部１３ｂに記憶された単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。その後、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する（図８の（２）参照）。そして、検索部１２ｅは、ユーザに指定された分野に対応するタグ情報が付与された文書データを検索する（図８の（３）参照）。

　次に、図９を用いて、第二の実施形態に係る情報管理装置１０Ａによる処理を説明する。図９は、第二の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。

　図９に示すように、情報管理装置１０Ａの収集部１２ａは、インターネット上のＷｅｂサイト（ニュースサイト、ＢＢＳ、Ｔｗｉｔｔｅｒ、ブログ等）から記事を収集する（ステップＳ３０１）。そして、変換部１２ｂは、収集した記事について、不要文字の除去を行う（ステップＳ３０２）。例えば、変換部１２ｂは、不要文字の除去として、記事データに対して、余計な空白や言語処理の障害となるＵＲＬ等の削除を行う。

　続いて、変換部１２ｂは、収集した記事について、文字種の統一を行う（ステップＳ３０３）。例えば、変換部１２ｂは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。

　変換部１２ｂは、分野別単語リストを参照し、各分野のリストに含まれる単語を記事本文から抽出する（ステップＳ３０４）。そして、機械学習エンジンにかけるための特徴ベクトル変換を行う（ステップＳ３０５）。例えば、変換部１２ｂは、特徴ベクトルへの変換について、抽出した単語をそのまま用いるもの、形態素解析によるもの、ｎ－ｇｒａｍによるもの、区切り文字によるもの、のいずれかを利用して記事を分割し、特徴ベクトルの変換を行う。

　続いて、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する（ステップＳ３０６）。そして、付与部１２ｃは、記事データに対して、機械学習で分類されたカテゴリのタグを付与する（ステップＳ３０７）。その後、付与部１２ｃは、収集した記事と付与されたカテゴリを文書データ記憶部１３ａに格納する（ステップＳ３０８）。

　このように、第二の実施形態に係る情報管理装置１０Ａでは、所定の分野に関する単語リストを記憶する。そして、情報管理装置１０Ａは、単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。このため、特徴ベクトルへの変換の際に、単語リストの単語を使用することで、より分野に特化した分類が可能である。

［第三の実施形態］
　第三の実施形態では、情報管理装置が、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、受け付けられたキーワードに対応するタグ情報が付与された文書データを検索するようにしてもよい。そこで、以下では、図１０および図１１を用いて、キーワードに関連する記事の検索を行い、類似した記事を出力する場合について説明する。なお、第一の実施形態と共通する構成および処理については、説明を省略する。

　まず、図１０を用いて、第三の実施形態に係る情報管理装置１０Ｂにおいて、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する。図１０は、第三の実施形態に係る情報管理装置において、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する図である。

　図１０に示すように、情報管理装置１０Ｂの収集部１２ａは、インターネット上のニュースサイト、Ｔｗｉｔｔｅｒ、ＢＢＳ等から記事等の情報を収集する（図１０の（１）参照）。

　そして、付与部１２ｃは、変換部１２ｂによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する（図１０の（２）参照）。そして、受付部１２ｄは、ユーザからキーワードの入力を受け付ける（図１０の（３）参照）。

　続いて、検索部１２ｅは、キーワードに対応するタグが付与された記事を検索する（図１０の（４）参照）。例えば、キーワードとして「脆弱性」が付与された場合には、「脆弱性」に対応するタグ「セキュリティ」が付与された記事を検索する。そして、検索部１２ｅは、検索した結果を推薦結果として、キーワードに関連する記事をユーザへ出力する（図１０の（５）参照）。

　次に、図１１を用いて、第三の実施形態に係る情報管理装置１０Ｂによる処理を説明する。図１１は、第三の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。

　図１１に示すように、情報管理装置１０Ｂの受付部１２ｄは、検索を開始する検索指示を受け付けると（ステップＳ４０１肯定）、キーワードの入力を受け付けたか否かを判定する（ステップＳ４０２）。そして、受付部１２ｄは、キーワードの入力を受け付け場合には（ステップＳ４０２肯定）、キーワードに対応するタグを有する記事を検索する（ステップＳ４０３）。例えば、検索部１２ｅは、キーワードとして「脆弱性」が付与された場合には、「脆弱性」に対応するタグ「セキュリティ」が付与された記事を検索する。そして、検索部１２ｅは、検索された記事を出力する（ステップＳ４０４）。

　このように、第三の実施形態に係る情報管理装置１０Ｂでは、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、受け付けられたキーワードに対応するタグ情報が付与された文書データを検索する。このため、情報管理装置１０Ｂでは、ユーザが入力したキーワードを基に、適切に文書データを検索することが可能である。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、変換部１２ｂと付与部１２ｃとを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　また、上記実施形態において説明した情報管理装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係る情報管理装置１０が実行する処理をコンピュータが実行可能な言語で記述した情報管理プログラムを作成することもできる。この場合、コンピュータが情報管理プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる情報管理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された情報管理プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。以下に、図１に示した情報管理装置１０と同様の機能を実現する情報管理プログラムを実行するコンピュータの一例を説明する。

　図１２は、情報管理プログラムを実行するコンピュータ１０００を示す図である。図１２に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図１２に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１２に例示するように、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、図１２に例示するように、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、図１２に例示するように、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、図１２に例示するように、例えばディスプレイ１０６１に接続される。

　ここで、図１２に例示するように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の情報管理プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０３１に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

　なお、情報管理プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、情報管理プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０、１０Ａ、１０Ｂ　情報管理装置
　１１　通信処理部
　１２　機能部
　１２ａ　収集部
　１２ｂ　変換部
　１２ｃ　付与部
　１２ｄ　受付部
　１２ｅ　検索部
　１３　記憶部
　１３ａ　文書データ記憶部
　１３ｂ　分野別単語リスト記憶部
　１４　制御部

Claims

　ネットワーク上における複数の文書データを収集する収集部と、
　前記収集部によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与部と、
　検索対象とする文書データの分野の指定を受け付ける受付部と、
　前記受付部によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索部と、
　を有することを特徴とする情報管理装置。
　前記収集部によって収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する変換部をさらに有し、
　前記付与部は、前記変換部によって変換された特徴ベクトルを用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与することを特徴とする請求項１に記載の情報管理装置。
　所定の分野に関する単語リストを記憶する記憶部をさらに有し、
　前記変換部は、前記記憶部に記憶された単語リストを参照して、前記各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換することを特徴とする請求項２に記載の情報管理装置。
　前記受付部は、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付けることを特徴とする請求項１～３のいずれか一つに記載の情報管理装置。
　前記受付部は、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、
　前記検索部は、前記受付部によって受け付けられたキーワードに対応するタグ情報が付与された文書データを検索することを特徴とする請求項１～３のいずれか一つに記載の情報管理装置。
　情報管理装置によって実行される情報管理方法であって、
　ネットワーク上における複数の文書データを収集する収集工程と、
　前記収集工程によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与工程と、
　検索対象とする文書データの分野の指定を受け付ける受付工程と、
　前記受付工程によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索工程と、
　を含んだことを特徴とする情報管理方法。