JPH096799A - 文書分類装置及び文書検索装置 - Google Patents
文書分類装置及び文書検索装置Info
- Publication number
- JPH096799A JPH096799A JP7151640A JP15164095A JPH096799A JP H096799 A JPH096799 A JP H096799A JP 7151640 A JP7151640 A JP 7151640A JP 15164095 A JP15164095 A JP 15164095A JP H096799 A JPH096799 A JP H096799A
- Authority
- JP
- Japan
- Prior art keywords
- document
- concept
- feature vector
- classification
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 言語の種類を問わず、文書を分類したり検索
したりすることができる装置を提供する。 【構成】 文書分類装置において、文書データを記憶す
る文書記憶部101と、文書データを解析する文書解析
部102と、文書中の概念識別子の特徴ベクトルを生成
する概念ベクトル生成部103と、その特徴ベクトルを
記憶する概念ベクトル記憶部104と、文書内に含まれ
ている概念識別子の特徴ベクトルから文書の特徴ベクト
ルを生成する文書ベクトル生成部105と、その特徴ベ
クトルを記憶する文書ベクトル記憶部106と、文書特
徴ベクトル間の類似度を利用して文書を分類する分類部
107と、その分類した結果を記憶する結果記憶部10
8と、特徴ベクトル生成時に使用する単語や概念識別子
が登録されている特徴ベクトル生成用辞書109とを備
える。
したりすることができる装置を提供する。 【構成】 文書分類装置において、文書データを記憶す
る文書記憶部101と、文書データを解析する文書解析
部102と、文書中の概念識別子の特徴ベクトルを生成
する概念ベクトル生成部103と、その特徴ベクトルを
記憶する概念ベクトル記憶部104と、文書内に含まれ
ている概念識別子の特徴ベクトルから文書の特徴ベクト
ルを生成する文書ベクトル生成部105と、その特徴ベ
クトルを記憶する文書ベクトル記憶部106と、文書特
徴ベクトル間の類似度を利用して文書を分類する分類部
107と、その分類した結果を記憶する結果記憶部10
8と、特徴ベクトル生成時に使用する単語や概念識別子
が登録されている特徴ベクトル生成用辞書109とを備
える。
Description
【0001】
【産業上の利用分野】本発明は、文書や電子メール等を
分類する文書分類装置及び大量の文書データの中から必
要な情報を取り出す文書検索装置に関する。本発明の装
置は、ワープロやファイリングシステムなどの分野にも
利用される。さらに、どの言語も区別することなく使用
することができる。
分類する文書分類装置及び大量の文書データの中から必
要な情報を取り出す文書検索装置に関する。本発明の装
置は、ワープロやファイリングシステムなどの分野にも
利用される。さらに、どの言語も区別することなく使用
することができる。
【0002】
【従来の技術】文書を自動的に分類する方法としては、
例えば、田村他「統計的手法による文書自動分類」(情
報処理学会第36回全国大会論文集,1987年)や、
特開平2−158871号公報に開示された「文書分類
装置」や、特開平6−348755号公報に開示された
「文書分類方法およびそのシステム」があげられる。田
村他の方法はキーワードの出現頻度の分野による偏りを
示す指標としてカイ自乗値を求め文書を分類するもので
あるが、この方法は、キーワードの出現頻度の偏りを用
いるために、予め標本データを人手によって分野別に分
類してカイ自乗値を計算し、分類用データを用意してお
く必要がある。他方、特開平2−158871号公報に
開示された「文書分類装置」は、標本データを分野別に
分類しておく必要はないが、文書分類用のシソーラスや
キーワード分類項目を予め人手により登録しておく必要
がある。また、特開平6−348755号公報に開示さ
れた「文書分類方法およびそのシステム」では文書分類
用のシソーラスやキーワード分類項目を登録しておく必
要はないが、一分類が一文書データ以上からなる分類済
みの文書データを用意しておく必要がある。
例えば、田村他「統計的手法による文書自動分類」(情
報処理学会第36回全国大会論文集,1987年)や、
特開平2−158871号公報に開示された「文書分類
装置」や、特開平6−348755号公報に開示された
「文書分類方法およびそのシステム」があげられる。田
村他の方法はキーワードの出現頻度の分野による偏りを
示す指標としてカイ自乗値を求め文書を分類するもので
あるが、この方法は、キーワードの出現頻度の偏りを用
いるために、予め標本データを人手によって分野別に分
類してカイ自乗値を計算し、分類用データを用意してお
く必要がある。他方、特開平2−158871号公報に
開示された「文書分類装置」は、標本データを分野別に
分類しておく必要はないが、文書分類用のシソーラスや
キーワード分類項目を予め人手により登録しておく必要
がある。また、特開平6−348755号公報に開示さ
れた「文書分類方法およびそのシステム」では文書分類
用のシソーラスやキーワード分類項目を登録しておく必
要はないが、一分類が一文書データ以上からなる分類済
みの文書データを用意しておく必要がある。
【0003】
【発明が解決しようとする課題】従来の文書分類方法で
は、標本データを人手によって分野別に分類したり、シ
ソーラスやキーワード分類項目を人手により登録してお
く必要があり、分類に際してなんらかの人手を必要とす
るという問題があった。特開平6−348755号公報
に開示された「文書分類方法およびそのシステム」にお
いては、一分類が一文書データでよいので、人手による
手間は比較的少ないが、分類精度を向上させたければよ
り多くの分類済み文書データを用意しておく必要があ
る。
は、標本データを人手によって分野別に分類したり、シ
ソーラスやキーワード分類項目を人手により登録してお
く必要があり、分類に際してなんらかの人手を必要とす
るという問題があった。特開平6−348755号公報
に開示された「文書分類方法およびそのシステム」にお
いては、一分類が一文書データでよいので、人手による
手間は比較的少ないが、分類精度を向上させたければよ
り多くの分類済み文書データを用意しておく必要があ
る。
【0004】また、従来の文書分類方式では同一言語で
の(日本語なら日本語の)文書を分類することしか考慮
されていなかった。
の(日本語なら日本語の)文書を分類することしか考慮
されていなかった。
【0005】本発明の課題は、上記問題を解決するため
に、特に分類されていない状態の単語データや文書デー
タを用意するだけで、文書データ内での出現頻度から分
類に用いる特徴ベクトルを自動的に生成し、この特徴ベ
クトルを用いることで、未知の文書を自動的に分類する
装置を提供することである。単語データや文書データは
特に分類されていない状態で使用するので、人手による
手間を全く必要としない。さらに、本発明の副次的な課
題は、言語によらない分類を行なうことができる装置を
提供することである。
に、特に分類されていない状態の単語データや文書デー
タを用意するだけで、文書データ内での出現頻度から分
類に用いる特徴ベクトルを自動的に生成し、この特徴ベ
クトルを用いることで、未知の文書を自動的に分類する
装置を提供することである。単語データや文書データは
特に分類されていない状態で使用するので、人手による
手間を全く必要としない。さらに、本発明の副次的な課
題は、言語によらない分類を行なうことができる装置を
提供することである。
【0006】
【課題を解決するための手段】請求項1に記載の発明の
文書分類装置は、文書データを記憶する文書記憶部と、
予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、特徴ベクトル生成用辞書によって、
記憶した文書データの単語を解析する文書解析部と、特
徴ベクトル生成用辞書によって、文書データの単語を概
念識別子に変換し、概念識別子間の共起関係に基づい
て、概念識別子の特徴ベクトルを自動的に生成する概念
ベクトル生成部と、生成した概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、概念識別子の特徴ベ
クトルから文書の特徴ベクトルを生成する文書ベクトル
生成部と、文書の特徴ベクトルを記憶する文書ベクトル
記憶部と、文書の特徴ベクトル間の類似度を利用して文
書を分類する分類部と、分類した結果を記憶する結果記
憶部とを含むことを特徴とする。
文書分類装置は、文書データを記憶する文書記憶部と、
予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、特徴ベクトル生成用辞書によって、
記憶した文書データの単語を解析する文書解析部と、特
徴ベクトル生成用辞書によって、文書データの単語を概
念識別子に変換し、概念識別子間の共起関係に基づい
て、概念識別子の特徴ベクトルを自動的に生成する概念
ベクトル生成部と、生成した概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、概念識別子の特徴ベ
クトルから文書の特徴ベクトルを生成する文書ベクトル
生成部と、文書の特徴ベクトルを記憶する文書ベクトル
記憶部と、文書の特徴ベクトル間の類似度を利用して文
書を分類する分類部と、分類した結果を記憶する結果記
憶部とを含むことを特徴とする。
【0007】請求項2に記載の発明の文書分類装置は、
結果記憶部に記憶された分類ごとに概念識別子の出現率
を調べ、分類に有用な概念識別子を選出し、分類に有用
な概念識別子を特徴ベクトル生成用辞書に登録する、有
用概念識別部をさらに含み、分類に有用な概念識別子を
用いることで分類の精度を向上させることを特徴とす
る。
結果記憶部に記憶された分類ごとに概念識別子の出現率
を調べ、分類に有用な概念識別子を選出し、分類に有用
な概念識別子を特徴ベクトル生成用辞書に登録する、有
用概念識別部をさらに含み、分類に有用な概念識別子を
用いることで分類の精度を向上させることを特徴とす
る。
【0008】請求項3に記載の発明の文書分類装置は、
結果記憶部に記憶された分類ごとに、概念識別子の特徴
ベクトルと文書の特徴ベクトルとの少なくとも一方を用
いて、その分類を代表する文書の特徴ベクトルを求める
代表ベクトル生成部と、分類を代表する文書の特徴ベク
トルを記憶する代表ベクトル記憶部とをさらに含むこと
を特徴とする。
結果記憶部に記憶された分類ごとに、概念識別子の特徴
ベクトルと文書の特徴ベクトルとの少なくとも一方を用
いて、その分類を代表する文書の特徴ベクトルを求める
代表ベクトル生成部と、分類を代表する文書の特徴ベク
トルを記憶する代表ベクトル記憶部とをさらに含むこと
を特徴とする。
【0009】請求項4に記載の発明の文書分類装置は、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことを特徴とする。
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことを特徴とする。
【0010】請求項5に記載の文書検索装置は、文書デ
ータを記憶する文書記憶部と、検索文を入力する検索文
入力部と、予め定められた単語及び概念識別子を登録し
た特徴ベクトル生成用辞書と、特徴ベクトル生成用辞書
によって、記憶した文書データの単語を解析する文書解
析部と、特徴ベクトル生成用辞書によって、文書データ
の単語を概念識別子に変換し、概念識別子間の共起関係
に基づいて、概念識別子の特徴ベクトルを自動的に生成
する概念ベクトル生成部と、概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、文書データ及び検索
文中に含まれている概念識別子の特徴ベクトルから文書
データ及び検索文の特徴ベクトルを生成する文書ベクト
ル生成部と、文書データ及び前記検索文の特徴ベクトル
を記憶する文書ベクトル記憶部と、文書データの特徴ベ
クトルと検索文の特徴ベクトルとの類似度を利用して文
書データ中から検索文に類似した文を検索する検索部
と、その検索した結果を出力する出力部とを含むことを
特徴とする。
ータを記憶する文書記憶部と、検索文を入力する検索文
入力部と、予め定められた単語及び概念識別子を登録し
た特徴ベクトル生成用辞書と、特徴ベクトル生成用辞書
によって、記憶した文書データの単語を解析する文書解
析部と、特徴ベクトル生成用辞書によって、文書データ
の単語を概念識別子に変換し、概念識別子間の共起関係
に基づいて、概念識別子の特徴ベクトルを自動的に生成
する概念ベクトル生成部と、概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、文書データ及び検索
文中に含まれている概念識別子の特徴ベクトルから文書
データ及び検索文の特徴ベクトルを生成する文書ベクト
ル生成部と、文書データ及び前記検索文の特徴ベクトル
を記憶する文書ベクトル記憶部と、文書データの特徴ベ
クトルと検索文の特徴ベクトルとの類似度を利用して文
書データ中から検索文に類似した文を検索する検索部
と、その検索した結果を出力する出力部とを含むことを
特徴とする。
【0011】請求項6に記載の文書検索装置は、特徴ベ
クトル生成用辞書が複数の言語の辞書を含んでおり、複
数の言語のどの言語の単語であっても同じ概念の単語は
同じ概念識別子に変換し、言語の種類によらない文書検
索を行うことを特徴とする。
クトル生成用辞書が複数の言語の辞書を含んでおり、複
数の言語のどの言語の単語であっても同じ概念の単語は
同じ概念識別子に変換し、言語の種類によらない文書検
索を行うことを特徴とする。
【0012】
【作用】請求項1に記載の文書分類装置においては、文
書の学習と学習に基づいた文書の分類が行われる。文書
の学習においては、文書記憶部に記憶されている学習対
象の文書データの内容が文書解析部に渡され、特徴ベク
トル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、概念ベクトル生成部において、特徴ベクト
ル生成用辞書の概念識別子を使用して単語から概念識別
子への変換が行われ、概念識別子間の共起関係を用いて
概念識別子の特徴を表現する概念識別子の特徴ベクトル
が自動的に生成される。こうして生成された概念識別子
の特徴ベクトルは、概念ベクトル記憶部に記憶される。
文書の分類においては、文書記憶部に記憶されている分
類対象の文書データの内容が文書解析部に渡され、特徴
ベクトル生成用辞書の単語を使用して文書の解析が行わ
れる。つぎに、文書ベクトル生成部において、概念ベク
トル記憶部に登録された概念識別子から、文書の特徴ベ
クトルを生成する。こうして生成された文書の特徴ベク
トルは、文書ベクトル記憶部に記憶される。分類部にお
いて、文書の特徴ベクトルの類似度によって文書が分類
される。分類結果は、結果記憶部に記憶される。
書の学習と学習に基づいた文書の分類が行われる。文書
の学習においては、文書記憶部に記憶されている学習対
象の文書データの内容が文書解析部に渡され、特徴ベク
トル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、概念ベクトル生成部において、特徴ベクト
ル生成用辞書の概念識別子を使用して単語から概念識別
子への変換が行われ、概念識別子間の共起関係を用いて
概念識別子の特徴を表現する概念識別子の特徴ベクトル
が自動的に生成される。こうして生成された概念識別子
の特徴ベクトルは、概念ベクトル記憶部に記憶される。
文書の分類においては、文書記憶部に記憶されている分
類対象の文書データの内容が文書解析部に渡され、特徴
ベクトル生成用辞書の単語を使用して文書の解析が行わ
れる。つぎに、文書ベクトル生成部において、概念ベク
トル記憶部に登録された概念識別子から、文書の特徴ベ
クトルを生成する。こうして生成された文書の特徴ベク
トルは、文書ベクトル記憶部に記憶される。分類部にお
いて、文書の特徴ベクトルの類似度によって文書が分類
される。分類結果は、結果記憶部に記憶される。
【0013】請求項2に記載の文書分類装置において
は、結果記憶部に記憶された分類ごとに概念識別子の出
現率を調べ、分類に有用な概念識別子を選出し、分類に
有用な概念識別子を特徴ベクトル生成用辞書に登録す
る、有用概念識別部をさらに含むように構成されている
ので、分類に有用な概念識別子を用いることによって、
特徴ベクトルの記憶空間を削減したり、分類の精度を向
上させることができる。
は、結果記憶部に記憶された分類ごとに概念識別子の出
現率を調べ、分類に有用な概念識別子を選出し、分類に
有用な概念識別子を特徴ベクトル生成用辞書に登録す
る、有用概念識別部をさらに含むように構成されている
ので、分類に有用な概念識別子を用いることによって、
特徴ベクトルの記憶空間を削減したり、分類の精度を向
上させることができる。
【0014】請求項3に記載の文書分類装置において
は、結果記憶部に記憶された分類ごとに、概念識別子や
文書の特徴ベクトルを用いて、その分類を代表する文書
の特徴ベクトルを求める代表ベクトル生成部と、分類を
代表する文書の特徴ベクトルを記憶する代表ベクトル記
憶部とをさらに含むように構成されているので、一度各
分類群の代表ベクトルを生成してしまえば、新たな文書
データを分類するときには、その文書の特徴ベクトルと
各分類群の代表ベクトルとの比較を行なうだけでその文
書がどの分類群に属すかを判定できるようになる。
は、結果記憶部に記憶された分類ごとに、概念識別子や
文書の特徴ベクトルを用いて、その分類を代表する文書
の特徴ベクトルを求める代表ベクトル生成部と、分類を
代表する文書の特徴ベクトルを記憶する代表ベクトル記
憶部とをさらに含むように構成されているので、一度各
分類群の代表ベクトルを生成してしまえば、新たな文書
データを分類するときには、その文書の特徴ベクトルと
各分類群の代表ベクトルとの比較を行なうだけでその文
書がどの分類群に属すかを判定できるようになる。
【0015】請求項4に記載の文書分類装置において
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書分類を行うことができる。
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書分類を行うことができる。
【0016】請求項5に記載の文書検索装置において
は、文書の学習と学習に基づいた文書の検索が行われ
る。文書の学習においては、文書記憶部に記憶されてい
る学習対象の文書データの内容が文書解析部に渡され、
特徴ベクトル生成用辞書の単語を使用して文書の解析が
行われる。つぎに、概念ベクトル生成部において、特徴
ベクトル生成用辞書の概念識別子を使用して単語から概
念識別子への変換が行われ、概念識別子間の共起関係を
用いて概念識別子の特徴を表現する概念識別子の特徴ベ
クトルが自動的に生成される。こうして生成された概念
識別子の特徴ベクトルは、概念ベクトル記憶部に記憶さ
れる。文書の検索においては、検索文入力部から検索キ
ーとなる文書が入力され、文書解析部に渡され、特徴ベ
クトル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、文書ベクトル生成部において、概念ベクト
ル記憶部に登録された概念識別子から、文書の特徴ベク
トルを生成する。こうして生成された文書の特徴ベクト
ルは、文書ベクトル記憶部に記憶される。検索部におい
て、検索キーとなる文書と学習された文書との特徴ベク
トルの類似度が比較され、類似度の高いものが検索結果
として出力部に渡され、検索結果として出力される。
は、文書の学習と学習に基づいた文書の検索が行われ
る。文書の学習においては、文書記憶部に記憶されてい
る学習対象の文書データの内容が文書解析部に渡され、
特徴ベクトル生成用辞書の単語を使用して文書の解析が
行われる。つぎに、概念ベクトル生成部において、特徴
ベクトル生成用辞書の概念識別子を使用して単語から概
念識別子への変換が行われ、概念識別子間の共起関係を
用いて概念識別子の特徴を表現する概念識別子の特徴ベ
クトルが自動的に生成される。こうして生成された概念
識別子の特徴ベクトルは、概念ベクトル記憶部に記憶さ
れる。文書の検索においては、検索文入力部から検索キ
ーとなる文書が入力され、文書解析部に渡され、特徴ベ
クトル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、文書ベクトル生成部において、概念ベクト
ル記憶部に登録された概念識別子から、文書の特徴ベク
トルを生成する。こうして生成された文書の特徴ベクト
ルは、文書ベクトル記憶部に記憶される。検索部におい
て、検索キーとなる文書と学習された文書との特徴ベク
トルの類似度が比較され、類似度の高いものが検索結果
として出力部に渡され、検索結果として出力される。
【0017】請求項6に記載の文書検索装置において
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書検索を行うことができる。
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書検索を行うことができる。
【0018】
【実施例】請求項1に記載の発明の文書分類装置の一実
施例を図1に示す。ここで、図1(a)は、全体の装置
構成、図1(b)は、学習時に使用される装置の構成、
図1(c)は、分類時に使用される装置の構成を夫々示
す。図中101は文書記憶部、102は文書解析部、1
03は概念ベクトル生成部、104は概念ベクトル記憶
部、105は文書ベクトル生成部、106は文書ベクト
ル記憶部、107は分類部、108は結果記憶部、10
9は特徴ベクトル生成用辞書である。
施例を図1に示す。ここで、図1(a)は、全体の装置
構成、図1(b)は、学習時に使用される装置の構成、
図1(c)は、分類時に使用される装置の構成を夫々示
す。図中101は文書記憶部、102は文書解析部、1
03は概念ベクトル生成部、104は概念ベクトル記憶
部、105は文書ベクトル生成部、106は文書ベクト
ル記憶部、107は分類部、108は結果記憶部、10
9は特徴ベクトル生成用辞書である。
【0019】文書記憶部101には、学習に用いるため
の文書や、分類する文書を記憶する。文書解析部102
は文書記憶部101から文書を渡され、特徴ベクトル生
成用辞書109中の単語辞書を用いてその文書の形態素
解析を行なう。ここで、文書の形態素解析とは、文書を
単語等に分けることをいう。
の文書や、分類する文書を記憶する。文書解析部102
は文書記憶部101から文書を渡され、特徴ベクトル生
成用辞書109中の単語辞書を用いてその文書の形態素
解析を行なう。ここで、文書の形態素解析とは、文書を
単語等に分けることをいう。
【0020】概念ベクトルを学習する場合の各構成要素
の作用の概要について、図1(b)に基づいて説明す
る。概念ベクトル生成部103では、文書解析部102
から渡された単語データを、特徴ベクトル生成用辞書1
09中の概念辞書(単語と概念識別子との関連付けを行
なっている辞書)を参照して概念識別子に変換し、概念
識別子間の共起関係を利用して概念識別子の特徴ベクト
ルを生成する。概念ベクトル記憶部104は、概念ベク
トル生成部103で生成された概念識別子の特徴ベクト
ルを記憶する。
の作用の概要について、図1(b)に基づいて説明す
る。概念ベクトル生成部103では、文書解析部102
から渡された単語データを、特徴ベクトル生成用辞書1
09中の概念辞書(単語と概念識別子との関連付けを行
なっている辞書)を参照して概念識別子に変換し、概念
識別子間の共起関係を利用して概念識別子の特徴ベクト
ルを生成する。概念ベクトル記憶部104は、概念ベク
トル生成部103で生成された概念識別子の特徴ベクト
ルを記憶する。
【0021】つぎに、文書を分類する場合の各構成要素
の作用の概要について、図1(c)に基づいて説明す
る。文書ベクトル生成部105では、文書解析部102
から渡された単語データを、特徴ベクトル生成用辞書1
09中の概念辞書を参照して概念識別子に変換し、そこ
で得られた概念識別子の特徴ベクトルを概念ベクトル記
憶部104を参照して求め、文書中から得られる全ての
単語についてこのようにして求めた概念識別子の特徴ベ
クトルから(平均化するなどして)文書の特徴ベクトル
を求める。文書ベクトル記憶部106は、文書ベクトル
生成部で求められた文書の特徴ベクトルを記憶する。分
類部107は、文書ベクトル記憶部106から渡された
文書の特徴ベクトルを用いて、文書を分類する。結果記
憶部108は、分類部107で分類された文書の情報
(どの文書がどの分野に分類されたか)を記憶する。
の作用の概要について、図1(c)に基づいて説明す
る。文書ベクトル生成部105では、文書解析部102
から渡された単語データを、特徴ベクトル生成用辞書1
09中の概念辞書を参照して概念識別子に変換し、そこ
で得られた概念識別子の特徴ベクトルを概念ベクトル記
憶部104を参照して求め、文書中から得られる全ての
単語についてこのようにして求めた概念識別子の特徴ベ
クトルから(平均化するなどして)文書の特徴ベクトル
を求める。文書ベクトル記憶部106は、文書ベクトル
生成部で求められた文書の特徴ベクトルを記憶する。分
類部107は、文書ベクトル記憶部106から渡された
文書の特徴ベクトルを用いて、文書を分類する。結果記
憶部108は、分類部107で分類された文書の情報
(どの文書がどの分野に分類されたか)を記憶する。
【0022】特徴ベクトル生成用辞書109は、文書を
形態素解析する時に用いる単語辞書と、各単語に関連付
けられた概念識別子を求めるための概念辞書とからな
る。これは必ずしも二つの辞書に分けられているという
ことではなく、一つの辞書において、各単語に概念識別
子が割り当てられているような辞書であってもよい。
形態素解析する時に用いる単語辞書と、各単語に関連付
けられた概念識別子を求めるための概念辞書とからな
る。これは必ずしも二つの辞書に分けられているという
ことではなく、一つの辞書において、各単語に概念識別
子が割り当てられているような辞書であってもよい。
【0023】一般に通常の文書に使用されている全ての
単語に関連付けられた概念識別子の個数を合計すると非
常に大きな数値になるため、特徴ベクトルを作成する際
に用いる概念識別子の個数を制限しておくのが好まし
い。このために特徴ベクトル生成用辞書109の概念辞
書において、ここに登録されている概念識別子のみを用
いて概念識別子の特徴ベクトルを作成することで、特徴
ベクトルの記憶空間の巨大化を抑えることができる。
単語に関連付けられた概念識別子の個数を合計すると非
常に大きな数値になるため、特徴ベクトルを作成する際
に用いる概念識別子の個数を制限しておくのが好まし
い。このために特徴ベクトル生成用辞書109の概念辞
書において、ここに登録されている概念識別子のみを用
いて概念識別子の特徴ベクトルを作成することで、特徴
ベクトルの記憶空間の巨大化を抑えることができる。
【0024】概念識別子の特徴ベクトルの学習時には、
学習用の大量の文書データを文書記憶部101に記憶さ
せておき、文書記憶部101から読み出した文書データ
は記事、段落、一文等の適当な単位ごとに文書解析部1
02に読み込まれ、文書解析部102でその文書データ
を解析して単語が抽出される。抽出された単語に関連し
ている概念識別子を特徴ベクトル生成用辞書109を参
照して求め、ここで求められた概念識別子の列をもとに
して概念ベクトル生成部103で概念識別子の特徴ベク
トルを生成し、103で生成された概念識別子の特徴ベ
クトルは概念ベクトル記憶部104に記憶される。こう
して概念識別子の特徴ベクトルを学習する。
学習用の大量の文書データを文書記憶部101に記憶さ
せておき、文書記憶部101から読み出した文書データ
は記事、段落、一文等の適当な単位ごとに文書解析部1
02に読み込まれ、文書解析部102でその文書データ
を解析して単語が抽出される。抽出された単語に関連し
ている概念識別子を特徴ベクトル生成用辞書109を参
照して求め、ここで求められた概念識別子の列をもとに
して概念ベクトル生成部103で概念識別子の特徴ベク
トルを生成し、103で生成された概念識別子の特徴ベ
クトルは概念ベクトル記憶部104に記憶される。こう
して概念識別子の特徴ベクトルを学習する。
【0025】文書の分類をする時には、分類する文書の
データを文書記憶部101に記憶させておき、文書記憶
部101から読み出した文書データは分類を行なわせた
い単位(例えば記事単位)ごとに文書解析部102に読
み込まれ、文書解析部102でその文書データの解析を
して単語が抽出される。ここで抽出された単語に関連し
ている概念識別子の特徴ベクトルを概念ベクトル記憶部
104の内容を参照して求める。通常は文書データの一
つの単位(例えば一つの記事)から複数の単語が抽出さ
れ、それに関連する概念識別子も複数になるが、この場
合には関連するすべての概念識別子の特徴ベクトルの値
を平均化することで文書の特徴ベクトルが計算される。
データを文書記憶部101に記憶させておき、文書記憶
部101から読み出した文書データは分類を行なわせた
い単位(例えば記事単位)ごとに文書解析部102に読
み込まれ、文書解析部102でその文書データの解析を
して単語が抽出される。ここで抽出された単語に関連し
ている概念識別子の特徴ベクトルを概念ベクトル記憶部
104の内容を参照して求める。通常は文書データの一
つの単位(例えば一つの記事)から複数の単語が抽出さ
れ、それに関連する概念識別子も複数になるが、この場
合には関連するすべての概念識別子の特徴ベクトルの値
を平均化することで文書の特徴ベクトルが計算される。
【0026】この時、単純に平均化するのではなく、各
概念識別子の特徴ベクトルをその概念識別子の出現頻度
の逆数に応じて重み付けをしてから(例えば、大量の記
事からその概念識別子の出現している記事数を調査し、
log(全記事数/その概念識別子の出現している記事
数)をその概念識別子の特徴ベクトルに乗じてから)平
均化するとより良い値が得られる場合がある。
概念識別子の特徴ベクトルをその概念識別子の出現頻度
の逆数に応じて重み付けをしてから(例えば、大量の記
事からその概念識別子の出現している記事数を調査し、
log(全記事数/その概念識別子の出現している記事
数)をその概念識別子の特徴ベクトルに乗じてから)平
均化するとより良い値が得られる場合がある。
【0027】文書の特徴ベクトルが求まったら従来のク
ラスタリングの手法を適用することで文書の分類を行な
うことができる。これは例えば文書の特徴ベクトル間の
距離が近い文書同士は同じ分野に属するとみなせば良
い。
ラスタリングの手法を適用することで文書の分類を行な
うことができる。これは例えば文書の特徴ベクトル間の
距離が近い文書同士は同じ分野に属するとみなせば良
い。
【0028】また、人間が各分類群ごとに典型的な文書
を選び、その文書から抽出される概念識別子の特徴ベク
トルからその分類群の仮の代表ベクトルを生成してお
き、文書記憶部101から読み込まれる文書の特徴ベク
トルがどの分類群の仮の代表ベクトルに近いかで文書を
分類することもできる。このような分類手法でも101
から大量に文書データを読み込ませれば仮の代表ベクト
ルを人間が選んでいるということに起因する誤差の影響
が少なくなり、最終的には各分野毎のかなり一般的な代
表ベクトルを生成することができる。
を選び、その文書から抽出される概念識別子の特徴ベク
トルからその分類群の仮の代表ベクトルを生成してお
き、文書記憶部101から読み込まれる文書の特徴ベク
トルがどの分類群の仮の代表ベクトルに近いかで文書を
分類することもできる。このような分類手法でも101
から大量に文書データを読み込ませれば仮の代表ベクト
ルを人間が選んでいるということに起因する誤差の影響
が少なくなり、最終的には各分野毎のかなり一般的な代
表ベクトルを生成することができる。
【0029】以下に、概念識別子の特徴ベクトルの生成
法を説明する。
法を説明する。
【0030】文書を形態素解析する単語をword1 ,
word2 ,・・・,wordp のp個とし、特徴ベク
トルの各要素に対応する概念識別子をconc1 ,co
nc2 ,・・・,concn のn個とし、特徴ベクトル
を持たせる概念識別子(特徴ベクトル作成概念識別子と
呼ぶことにする)をcid1 ,cid2 ,・・・,ci
dq のq個とし、概念識別子の特徴ベクトルを学習する
ために用意された記事はm個あるとする。
word2 ,・・・,wordp のp個とし、特徴ベク
トルの各要素に対応する概念識別子をconc1 ,co
nc2 ,・・・,concn のn個とし、特徴ベクトル
を持たせる概念識別子(特徴ベクトル作成概念識別子と
呼ぶことにする)をcid1 ,cid2 ,・・・,ci
dq のq個とし、概念識別子の特徴ベクトルを学習する
ために用意された記事はm個あるとする。
【0031】ここで単語とは、「私」「I」「ich」
など、扱いたい言語の単語であり、概念識別子とは、各
概念に付けられた番号である。辞書によっては各単語と
関連している概念識別子のリストが得られるようになっ
ているものがある。例えば、(株)日本電子化辞書研究
所のEDR電子化辞書等である。このような辞書が利用
できない場合でも、辞書に登録されている単語を、例え
ばコードの小さい順にソートして各単語に番号を割り振
り、「その単語の番号」=「その単語に関連している概
念識別子」とすることで、本分類手法を用いることがで
きる。ここで、各単語に番号を割り振るには、ソートし
た場合に何行目にくるかをその単語の番号にすれば良
い。
など、扱いたい言語の単語であり、概念識別子とは、各
概念に付けられた番号である。辞書によっては各単語と
関連している概念識別子のリストが得られるようになっ
ているものがある。例えば、(株)日本電子化辞書研究
所のEDR電子化辞書等である。このような辞書が利用
できない場合でも、辞書に登録されている単語を、例え
ばコードの小さい順にソートして各単語に番号を割り振
り、「その単語の番号」=「その単語に関連している概
念識別子」とすることで、本分類手法を用いることがで
きる。ここで、各単語に番号を割り振るには、ソートし
た場合に何行目にくるかをその単語の番号にすれば良
い。
【0032】また、日常的に使用される国語辞典、英和
辞典、独和辞典等を利用することによっても各単語と関
連している概念識別子を得ることができる。例えば、概
念「私」の番号を『私』で表すとすると、単語「私」に
関連している概念識別子は『私』となる。ここで、概念
「私」の番号は、単語「私」の番号とするなど適当に定
めてしまって構わない。英和辞典に『I:私』という項
目があれば、単語「I」に関連している概念識別子も
『私』とすることができる。また独和辞典に「ich:
私」という項目があれば、単語「ich」に関連してい
る概念識別子も『私』とすることができる。一般には一
つの単語には複数の概念が関連していることがあるの
で、各単語に関連している概念識別子は複数存在しても
良い。
辞典、独和辞典等を利用することによっても各単語と関
連している概念識別子を得ることができる。例えば、概
念「私」の番号を『私』で表すとすると、単語「私」に
関連している概念識別子は『私』となる。ここで、概念
「私」の番号は、単語「私」の番号とするなど適当に定
めてしまって構わない。英和辞典に『I:私』という項
目があれば、単語「I」に関連している概念識別子も
『私』とすることができる。また独和辞典に「ich:
私」という項目があれば、単語「ich」に関連してい
る概念識別子も『私』とすることができる。一般には一
つの単語には複数の概念が関連していることがあるの
で、各単語に関連している概念識別子は複数存在しても
良い。
【0033】記事iに含まれる単語の出現頻度ベクトル
Vi を
Vi を
【0034】
【数1】
【0035】で表し、記事iに含まれる特徴ベクトル作
成概念識別子の出現頻度ベクトルUiを
成概念識別子の出現頻度ベクトルUiを
【0036】
【数2】
【0037】で表す。
【0038】単語wordi と概念識別子concj と
の関連の強さを返す関数をf(wordi ,con
cj )とする。使用する概念辞書によっては関連の強さ
が記述されていない場合があるが、この場合は単語wo
rdi と概念識別子concj とが関連していればf
(wordi ,concj )=1、単語wordi と概
念識別子concj とが関連していなければf(wor
di ,concj )=0と定義する。
の関連の強さを返す関数をf(wordi ,con
cj )とする。使用する概念辞書によっては関連の強さ
が記述されていない場合があるが、この場合は単語wo
rdi と概念識別子concj とが関連していればf
(wordi ,concj )=1、単語wordi と概
念識別子concj とが関連していなければf(wor
di ,concj )=0と定義する。
【0039】一つの単語には複数の概念識別子が関連付
けられている場合があるが、概念識別子の出現頻度ベク
トルUi を作成する時に、これを全部使う方法と、一つ
あるいは適当な個数まで使う方法とがある。つまり、よ
り一般的には複数の概念識別子のうちr個までを使うと
いうことにすれば、これらの全ての場合に対応できる。
例えば、全ての概念識別子を使いたければr=nにすれ
ば良いし、一つだけ使いたければr=1とすれば良い。
そこで、記事iに含まれている単語に関連付けられてい
る概念識別子のうちr個までを扱う場合の概念識別子出
現頻度ベクトルをTi で表すことにすると次のように定
義される。
けられている場合があるが、概念識別子の出現頻度ベク
トルUi を作成する時に、これを全部使う方法と、一つ
あるいは適当な個数まで使う方法とがある。つまり、よ
り一般的には複数の概念識別子のうちr個までを使うと
いうことにすれば、これらの全ての場合に対応できる。
例えば、全ての概念識別子を使いたければr=nにすれ
ば良いし、一つだけ使いたければr=1とすれば良い。
そこで、記事iに含まれている単語に関連付けられてい
る概念識別子のうちr個までを扱う場合の概念識別子出
現頻度ベクトルをTi で表すことにすると次のように定
義される。
【0040】
【数3】
【0041】すると、特徴ベクトル作成概念識別子ci
dj の特徴ベクトルWj は、以下の式で表される。
dj の特徴ベクトルWj は、以下の式で表される。
【0042】
【数4】
【0043】この式からわかるように、全記事について
概念識別子の出現頻度ベクトルTiをその記事中での出
現頻度分の重み付きで加算していくため、特徴ベクトル
作成概念識別子cidj の特徴ベクトルWj は特徴ベク
トル作成概念識別子cidjが頻繁に含まれる記事の分
野の概念識別子出現頻度分布に類似した値を持つことに
なる。
概念識別子の出現頻度ベクトルTiをその記事中での出
現頻度分の重み付きで加算していくため、特徴ベクトル
作成概念識別子cidj の特徴ベクトルWj は特徴ベク
トル作成概念識別子cidjが頻繁に含まれる記事の分
野の概念識別子出現頻度分布に類似した値を持つことに
なる。
【0044】記事の特徴ベクトルA1 ,A2 ,・・・,
Am は、概念識別子の特徴ベクトルから以下の式で算出
される。
Am は、概念識別子の特徴ベクトルから以下の式で算出
される。
【0045】
【数5】
【0046】なお、特徴ベクトルを持たせる概念識別子
と、特徴ベクトルの各要素の対応する概念識別子とは全
く同一のものにしても良いし、全く別のものにしても良
い。例えばベクトルの次元数は100程度にして、特徴
ベクトルを持たせる概念識別子を1000程度にするこ
ともできる。以下の具体的な説明の際にはわかりやすく
するために、全く同一のものを使用する。つまり、n=
qであり、すべてのi(1<i<n)において、con
ci =cidi であるとする。
と、特徴ベクトルの各要素の対応する概念識別子とは全
く同一のものにしても良いし、全く別のものにしても良
い。例えばベクトルの次元数は100程度にして、特徴
ベクトルを持たせる概念識別子を1000程度にするこ
ともできる。以下の具体的な説明の際にはわかりやすく
するために、全く同一のものを使用する。つまり、n=
qであり、すべてのi(1<i<n)において、con
ci =cidi であるとする。
【0047】以下に、具体的に概念識別子の特徴ベクト
ルの生成法を説明する。
ルの生成法を説明する。
【0048】例文A「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削減する意向のようだ。」 という文書データからどのように概念識別子の特徴ベク
トルを作成するかを説明する。ここでは、文書データは
「一文」という単位で読み込まれることとするが、これ
は一記事など他の単位でも構わない。
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削減する意向のようだ。」 という文書データからどのように概念識別子の特徴ベク
トルを作成するかを説明する。ここでは、文書データは
「一文」という単位で読み込まれることとするが、これ
は一記事など他の単位でも構わない。
【0049】また、特徴ベクトルの次元数が21次元、
すなわち、特徴ベクトル生成用辞書に登録されている概
念識別子の個数が21個で、各要素は『アメリカ』『政
府』『進んでいる』『おもな』『国家』『ココム』『規
制』『抜本的』『見直し』『提案』『対象』『戦いの道
具』『作り出す』『工業』『製品』『輸出』『条件』
『品物の種類』『大幅』『削減』『意向』という概念識
別子に対応しているとする。(『言葉』は、「言葉」と
いう概念に付けられている概念識別子を表す。実際に使
用する時にはなんらかの数値であるが、特にここで数値
を限定する必要はないので、このように自由度の高い形
で記述している。)そして、「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」「対象」「兵器」「製造」「工業」「製
品」「輸出」「条件」「品目」「大幅」「削減」「意
向」という各単語に関連付けられている概念識別子は以
下のようになっているとする。
すなわち、特徴ベクトル生成用辞書に登録されている概
念識別子の個数が21個で、各要素は『アメリカ』『政
府』『進んでいる』『おもな』『国家』『ココム』『規
制』『抜本的』『見直し』『提案』『対象』『戦いの道
具』『作り出す』『工業』『製品』『輸出』『条件』
『品物の種類』『大幅』『削減』『意向』という概念識
別子に対応しているとする。(『言葉』は、「言葉」と
いう概念に付けられている概念識別子を表す。実際に使
用する時にはなんらかの数値であるが、特にここで数値
を限定する必要はないので、このように自由度の高い形
で記述している。)そして、「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」「対象」「兵器」「製造」「工業」「製
品」「輸出」「条件」「品目」「大幅」「削減」「意
向」という各単語に関連付けられている概念識別子は以
下のようになっているとする。
【0050】単語「アメリカ」に対して概念識別子『ア
メリカ』 単語「政府」に対して概念識別子『政府』 単語「先進」に対して概念識別子『進んでいる』 単語「主要」に対して概念識別子『おもな』 単語「国」に対して概念識別子『国家』 単語「ココム」に対して概念識別子『ココム』 単語「規制」に対して概念識別子『規制』 単語「抜本的」に対して概念識別子『抜本的』 単語「見直し」に対して概念識別子『見直し』 単語「提案」に対して概念識別子『提案』 単語「対象」に対して概念識別子『対象』 単語「兵器」に対して概念識別子『戦いの道具』 単語「製造」に対して概念識別子『作り出す』 単語「工業」に対して概念識別子『工業』 単語「製品」に対して概念識別子『製品』 単語「輸出」に対して概念識別子『輸出』 単語「条件」に対して概念識別子『条件』 単語「品目」に対して概念識別子『品物の種類』 単語「大幅」に対して概念識別子『大幅』 単語「削減」に対して概念識別子『削減』 単語「意向」に対して概念識別子『意向』 このような条件のもとで、例文Aが101から読み込ま
れると、102で解析されて「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」という単語が抽出される。各単語は10
3にてそれぞれ概念識別子『アメリカ』『政府』『進ん
でいる』『おもな』『国家』『ココム』『規制』『抜本
的』『見直し』『提案』に変換され、概念識別子の出現
頻度分布ベクトルが求められる。
メリカ』 単語「政府」に対して概念識別子『政府』 単語「先進」に対して概念識別子『進んでいる』 単語「主要」に対して概念識別子『おもな』 単語「国」に対して概念識別子『国家』 単語「ココム」に対して概念識別子『ココム』 単語「規制」に対して概念識別子『規制』 単語「抜本的」に対して概念識別子『抜本的』 単語「見直し」に対して概念識別子『見直し』 単語「提案」に対して概念識別子『提案』 単語「対象」に対して概念識別子『対象』 単語「兵器」に対して概念識別子『戦いの道具』 単語「製造」に対して概念識別子『作り出す』 単語「工業」に対して概念識別子『工業』 単語「製品」に対して概念識別子『製品』 単語「輸出」に対して概念識別子『輸出』 単語「条件」に対して概念識別子『条件』 単語「品目」に対して概念識別子『品物の種類』 単語「大幅」に対して概念識別子『大幅』 単語「削減」に対して概念識別子『削減』 単語「意向」に対して概念識別子『意向』 このような条件のもとで、例文Aが101から読み込ま
れると、102で解析されて「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」という単語が抽出される。各単語は10
3にてそれぞれ概念識別子『アメリカ』『政府』『進ん
でいる』『おもな』『国家』『ココム』『規制』『抜本
的』『見直し』『提案』に変換され、概念識別子の出現
頻度分布ベクトルが求められる。
【0051】これから得られる概念識別子の出現頻度分
布ベクトルは (1,1,1,1,1,1,1,1,1,1,0,0,
0,0,0,0,0,0,0,0,0)=VA である。すると、『アメリカ』『政府』等、例文Aに出
現する概念識別子の特徴ベクトルには(1,1,1,
1,1,1,1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0)=VA を加算する。正確に
は、このベクトル=VAの絶対値を1に正規化したもの
を加算する。図4は、例文Aを読み込んだ後の概念識別
子の特徴ベクトルを並べて行列にしたものである。
布ベクトルは (1,1,1,1,1,1,1,1,1,1,0,0,
0,0,0,0,0,0,0,0,0)=VA である。すると、『アメリカ』『政府』等、例文Aに出
現する概念識別子の特徴ベクトルには(1,1,1,
1,1,1,1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0)=VA を加算する。正確に
は、このベクトル=VAの絶対値を1に正規化したもの
を加算する。図4は、例文Aを読み込んだ後の概念識別
子の特徴ベクトルを並べて行列にしたものである。
【0052】次に例文Bが文書記憶部101から読み込
まれると、文書解析部102で解析されて「規制」「対
象」「国」「兵器」「製造」「工業」「製品」「輸出」
「規制」「条件」「ココム」「規制」「品目」「大幅」
「削減」「意向」という単語が抽出される。各単語は概
念ベクトル生成部103にてそれぞれ概念識別子『規
制』『対象』『国家』『戦いの道具』『作り出す』『工
業』『製品』『輸出』『規制』『条件』『ココム』『規
制』『品物の種類』『大幅』『削減』『意向』に変換さ
れる。
まれると、文書解析部102で解析されて「規制」「対
象」「国」「兵器」「製造」「工業」「製品」「輸出」
「規制」「条件」「ココム」「規制」「品目」「大幅」
「削減」「意向」という単語が抽出される。各単語は概
念ベクトル生成部103にてそれぞれ概念識別子『規
制』『対象』『国家』『戦いの道具』『作り出す』『工
業』『製品』『輸出』『規制』『条件』『ココム』『規
制』『品物の種類』『大幅』『削減』『意向』に変換さ
れる。
【0053】これから得られる概念識別子の出現頻度分
布ベクトルは (0,0,0,0,1,1,3,0,0,0,1,1,
1,1,1,1,1,1,1,1,1)=VB である。『規制』は3回出現しているので、この概念識
別子の出現頻度分布ベクトル=VB を3倍したベクトル
である(0,0,0,0,3,3,9,0,0,0,
3,3,3,3,3,3,3,3,3,3,3)を『規
制』の特徴ベクトルに加算する。正確には、ベクトルV
B の絶対値を1に正規化したものを3倍したベクトルを
加算する。『対象』『国家』等、例文Bに1回しか出現
しない概念識別子の特徴ベクトルには(0,0,0,
0,1,1,3,0,0,0,1,1,1,1,1,
1,1,1,1,1,1)=VB を加算する。正確に
は、このベクトル=VB の絶対値を1に正規化したもの
を加算する。図5は、例文A、Bを読み込んだ後の概念
識別子の特徴ベクトルを並べて行列にしたものである。
である。
布ベクトルは (0,0,0,0,1,1,3,0,0,0,1,1,
1,1,1,1,1,1,1,1,1)=VB である。『規制』は3回出現しているので、この概念識
別子の出現頻度分布ベクトル=VB を3倍したベクトル
である(0,0,0,0,3,3,9,0,0,0,
3,3,3,3,3,3,3,3,3,3,3)を『規
制』の特徴ベクトルに加算する。正確には、ベクトルV
B の絶対値を1に正規化したものを3倍したベクトルを
加算する。『対象』『国家』等、例文Bに1回しか出現
しない概念識別子の特徴ベクトルには(0,0,0,
0,1,1,3,0,0,0,1,1,1,1,1,
1,1,1,1,1,1)=VB を加算する。正確に
は、このベクトル=VB の絶対値を1に正規化したもの
を加算する。図5は、例文A、Bを読み込んだ後の概念
識別子の特徴ベクトルを並べて行列にしたものである。
である。
【0054】なお、図ではわかりやすくするため、以上
のように常に整数を加算することにして説明したが、こ
の方法では文の長さによって加算するベクトルの大きさ
が変化してしまうので、実際には、加算するベクトルの
絶対値を1に正規化したり、出現頻度分布のベクトルの
絶対値を1に正規化してから出現数に比例した値を掛け
た後に加算する方法をとった方が良い。この方法につい
ては、これまでの説明の中で、「正確には、」として記
述した。
のように常に整数を加算することにして説明したが、こ
の方法では文の長さによって加算するベクトルの大きさ
が変化してしまうので、実際には、加算するベクトルの
絶対値を1に正規化したり、出現頻度分布のベクトルの
絶対値を1に正規化してから出現数に比例した値を掛け
た後に加算する方法をとった方が良い。この方法につい
ては、これまでの説明の中で、「正確には、」として記
述した。
【0055】そして最終的に得られた特徴ベクトルは、
絶対値を1に正規化しておく。
絶対値を1に正規化しておく。
【0056】こうして得られた概念識別子の特徴ベクト
ルは概念ベクトル記憶部104に記憶され、文書の分類
時に利用される。具体例として以下の例文Cが読み込ま
れた時の処理を説明する。
ルは概念ベクトル記憶部104に記憶され、文書の分類
時に利用される。具体例として以下の例文Cが読み込ま
れた時の処理を説明する。
【0057】例文C「アメリカ政府は兵器の削減を提案
した。」 例文Cが101から読み込まれると、文書解析部102
で解析されて「アメリカ」「政府」「兵器」「削減」
「提案」という単語が抽出される。各単語は文書ベクト
ル生成部105にてそれぞれ概念識別子『アメリカ』
『政府』『戦う道具』『提案』に変換される。
した。」 例文Cが101から読み込まれると、文書解析部102
で解析されて「アメリカ」「政府」「兵器」「削減」
「提案」という単語が抽出される。各単語は文書ベクト
ル生成部105にてそれぞれ概念識別子『アメリカ』
『政府』『戦う道具』『提案』に変換される。
【0058】すると文書ベクトル生成部105では概念
ベクトル記憶部104の内容を参照して『アメリカ』
『政府』等、例文Cに出現する概念識別子の特徴ベクト
ルを加算していき、例文Cの特徴ベクトルとして (3,3,3,3,5,5,9,3,3,3,2,2,
2,2,2,2,2,2,2,2,2) を得る。図6は、図5に示した概念識別子の特徴ベクト
ルを利用して例文Cの特徴ベクトルを生成した結果を示
す。である。図6ではわかりやすさを優先するためにベ
クトルの正規化を行なっていないが、実際の処理では加
算する前に各概念識別子の特徴ベクトルの絶対値を1に
正規化してから加算を行ない、最後に得られた特徴ベク
トルの絶対値も1に正規化しておく。
ベクトル記憶部104の内容を参照して『アメリカ』
『政府』等、例文Cに出現する概念識別子の特徴ベクト
ルを加算していき、例文Cの特徴ベクトルとして (3,3,3,3,5,5,9,3,3,3,2,2,
2,2,2,2,2,2,2,2,2) を得る。図6は、図5に示した概念識別子の特徴ベクト
ルを利用して例文Cの特徴ベクトルを生成した結果を示
す。である。図6ではわかりやすさを優先するためにベ
クトルの正規化を行なっていないが、実際の処理では加
算する前に各概念識別子の特徴ベクトルの絶対値を1に
正規化してから加算を行ない、最後に得られた特徴ベク
トルの絶対値も1に正規化しておく。
【0059】次に、分類時に文書の特徴ベクトルをどの
ように利用するのかを説明する。簡単には、まず求まっ
た文書の特徴ベクトルの絶対値を1に正規化してから、
K−means法などの従来からある手法を用いて分類
したり、分類群の(仮)代表ベクトルとの類似度で分類
すれば良い。ここで、類似度は、距離を求めたり内積を
計算することによって得られる。
ように利用するのかを説明する。簡単には、まず求まっ
た文書の特徴ベクトルの絶対値を1に正規化してから、
K−means法などの従来からある手法を用いて分類
したり、分類群の(仮)代表ベクトルとの類似度で分類
すれば良い。ここで、類似度は、距離を求めたり内積を
計算することによって得られる。
【0060】分類の具体例として、分類群が3つあり、
それぞれの分類群の代表ベクトルが以下のように求めら
れていたとする。
それぞれの分類群の代表ベクトルが以下のように求めら
れていたとする。
【0061】
【数6】
【0062】類似度の尺度として、文書の特徴ベクト
ル、分類群の代表ベクトル共に絶対値を1に正規化して
から両者の内積を計算し、一番大きな値をとるものが一
番類似度が高いとすると、
ル、分類群の代表ベクトル共に絶対値を1に正規化して
から両者の内積を計算し、一番大きな値をとるものが一
番類似度が高いとすると、
【0063】
【数7】
【0064】なので、例文Cの特徴ベクトルと各分類群
の代表ベクトルとの内積は
の代表ベクトルとの内積は
【0065】
【数8】
【0066】となり、例文Cの特徴ベクトルは分類群3
の代表ベクトルに一番近いことがわかるので、例文Cは
分類群3に分類される。図7は、この結果を示す。図7
も図6と同様わかりやすさを優先するためにベクトルの
正規化を行なっていないが、実際の処理では比較を行な
う前に各ベクトルの絶対値を1に正規化してから比較を
行なう。
の代表ベクトルに一番近いことがわかるので、例文Cは
分類群3に分類される。図7は、この結果を示す。図7
も図6と同様わかりやすさを優先するためにベクトルの
正規化を行なっていないが、実際の処理では比較を行な
う前に各ベクトルの絶対値を1に正規化してから比較を
行なう。
【0067】この分類装置の有効性を評価するための実
験を行なった。
験を行なった。
【0068】実験方法として、具体的には、1987年
の朝日新聞の400記事を、「政府」「経済」「国際」
「社会(犯罪,事件)」「社会(教育,人間)」の五つ
の分野に分類するタスクにおいて、人間が分類した結果
を正解として分類正解率を求めた。但し、二つの分野に
分類できるような記事は、そのどちらに分類されても正
解とみなした。
の朝日新聞の400記事を、「政府」「経済」「国際」
「社会(犯罪,事件)」「社会(教育,人間)」の五つ
の分野に分類するタスクにおいて、人間が分類した結果
を正解として分類正解率を求めた。但し、二つの分野に
分類できるような記事は、そのどちらに分類されても正
解とみなした。
【0069】このタスクを行なう場合の特徴ベクトルの
構成時に、 1.単語をそのまま用いる 2.EDRの辞書を利用して求めた概念識別子を用いる の2種類の方法で分類正解率を比較した。
構成時に、 1.単語をそのまま用いる 2.EDRの辞書を利用して求めた概念識別子を用いる の2種類の方法で分類正解率を比較した。
【0070】実験に使用したデータとその使用目的等は
以下の通りである。
以下の通りである。
【0071】1.EDR電子化辞書評価版第2.1版 単語データの抽出にEDR電子化辞書の日本語単語辞書
評価版第2.1版を使用し、単語間の類似度の計算に上
記日本語単語辞書とEDR電子化辞書の概念辞書評価版
第2.1版を使用した。
評価版第2.1版を使用し、単語間の類似度の計算に上
記日本語単語辞書とEDR電子化辞書の概念辞書評価版
第2.1版を使用した。
【0072】評価版第2.1版の日本語単語辞書の登録
語数は基本語約16万語、専門用語約4.2万語であ
り、評価版第2.1版の概念辞書の収録概念数は約36
万概念である。
語数は基本語約16万語、専門用語約4.2万語であ
り、評価版第2.1版の概念辞書の収録概念数は約36
万概念である。
【0073】2.CD−HIASK(朝日新聞のCD−
ROM)1990年版(約150Mバイト、10196
6記事) 特徴ベクトルを生成するためのデータとして使用した。
また各分野の典型的な記事もここから抜き出し、各分野
の代表ベクトルを生成する時にも使用した。
ROM)1990年版(約150Mバイト、10196
6記事) 特徴ベクトルを生成するためのデータとして使用した。
また各分野の典型的な記事もここから抜き出し、各分野
の代表ベクトルを生成する時にも使用した。
【0074】3.CD−HIASK(朝日新聞のCD−
ROM)1987年版から抜き出した記事 人間による分類と分類装置による分類との比較に使用し
た。この記事の一例を以下に示す。
ROM)1987年版から抜き出した記事 人間による分類と分類装置による分類との比較に使用し
た。この記事の一例を以下に示す。
【0075】物価と為替の安定維持が最大の課題 澄田
日銀総裁が語る 澄田日銀総裁は31日、朝日新聞との
インタビューで、新年の金融政策について、物価の安定
維持が最大の課題であることを強調しつつ、内需拡大、
対外不均衡の是正に取り組む姿勢を明らかにした。その
一方で、日本経済が国際的に影響力を増していることを
踏まえ、国際協調がますます重要になっていることを指
摘しながらも、金融政策が外圧や国内政治からの独立性
と自主性を確保することが一層…… 4.単語データ EDR電子化辞書評価版第2.1版の日本語単語辞書中
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語を使用した。文書か
ら単語を抽出する方法は、長さの長いものを優先して選
択するパターンマッチング(最長一致法)によるが、連
続する二単語を複数の組み合わせで抽出できる場合に
は、その二単語の合計の長さが最長になる組み合わせの
最初の単語を選択する手法(二文節最長一致法)を用い
た。ただし誤抽出をできるだけ減らすため、漢字一文字
の単語の場合は前後が非漢字の場合のみ抽出した。朝日
新聞1990年1月1日朝刊の最初から抽出された50
0単語について調査した結果、この方法で95%程度正
しく抽出されることを確認した。
日銀総裁が語る 澄田日銀総裁は31日、朝日新聞との
インタビューで、新年の金融政策について、物価の安定
維持が最大の課題であることを強調しつつ、内需拡大、
対外不均衡の是正に取り組む姿勢を明らかにした。その
一方で、日本経済が国際的に影響力を増していることを
踏まえ、国際協調がますます重要になっていることを指
摘しながらも、金融政策が外圧や国内政治からの独立性
と自主性を確保することが一層…… 4.単語データ EDR電子化辞書評価版第2.1版の日本語単語辞書中
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語を使用した。文書か
ら単語を抽出する方法は、長さの長いものを優先して選
択するパターンマッチング(最長一致法)によるが、連
続する二単語を複数の組み合わせで抽出できる場合に
は、その二単語の合計の長さが最長になる組み合わせの
最初の単語を選択する手法(二文節最長一致法)を用い
た。ただし誤抽出をできるだけ減らすため、漢字一文字
の単語の場合は前後が非漢字の場合のみ抽出した。朝日
新聞1990年1月1日朝刊の最初から抽出された50
0単語について調査した結果、この方法で95%程度正
しく抽出されることを確認した。
【0076】5.概念識別子データ EDR電子化辞書評価版第2.1版の日本語単語辞書中
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語について、関連する
概念識別子を調査し、使用頻度の高いものを採用した。
関連する概念識別子を全部使用する場合と、一つだけ使
用する場合との二通りで実験を行なった。
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語について、関連する
概念識別子を調査し、使用頻度の高いものを採用した。
関連する概念識別子を全部使用する場合と、一つだけ使
用する場合との二通りで実験を行なった。
【0077】6.特徴ベクトル 特徴ベクトルの各要素に対応する概念識別子(または単
語)と、特徴ベクトルが付加される概念識別子(または
単語)とは、同一のものをしようすることにした。
語)と、特徴ベクトルが付加される概念識別子(または
単語)とは、同一のものをしようすることにした。
【0078】また、特徴ベクトルの次元数は4096,
2048,1024,512,256,128,64の
7種類で実験した。
2048,1024,512,256,128,64の
7種類で実験した。
【0079】この次元数個分の概念識別子(または単
語)の選出の方法であるが、単純に朝日新聞1990年
版の中で出現頻度の高いものから順番に選出した。
語)の選出の方法であるが、単純に朝日新聞1990年
版の中で出現頻度の高いものから順番に選出した。
【0080】このようにして得られた、実験結果につい
て以下に説明する。
て以下に説明する。
【0081】分類する時に、分野の第1位候補と第2位
候補とのスコア(記事の特徴ベクトルと、分野の代表ベ
クトルとの内積の値)の比の大小によって、分野がまぎ
らわしいかはっきりしているかを判定できるので、スコ
アの比が大きいもの(分野がはっきりしているもの)は
分類の易しい記事群、スコアの比が小さいもの(分野が
まぎらわしいもの)は分類の難しい記事群として、分類
の正解率は分類の易しい記事群(200記事)、難しい
記事群(200記事)、全体(400記事)、の3つの
値を出した。この結果を表1に示す。
候補とのスコア(記事の特徴ベクトルと、分野の代表ベ
クトルとの内積の値)の比の大小によって、分野がまぎ
らわしいかはっきりしているかを判定できるので、スコ
アの比が大きいもの(分野がはっきりしているもの)は
分類の易しい記事群、スコアの比が小さいもの(分野が
まぎらわしいもの)は分類の難しい記事群として、分類
の正解率は分類の易しい記事群(200記事)、難しい
記事群(200記事)、全体(400記事)、の3つの
値を出した。この結果を表1に示す。
【0082】
【表1】
【0083】表1より、ベクトルの次元数が512以上
の時には概念識別子を一つだけ用いると、かなり高い精
度での分類ができることが確認できる。特に次元数20
48における易しい記事の分類正解率は99%となり、
ほぼ100%近い正解率で分類できることがわかる。こ
れはEDR電子化辞書評価版第2.1版をそのまま使用
した場合の実験結果だが、他の辞書を用いれば辞書の単
語や概念識別子の粒度に応じて最適なベクトルの次元数
が変化することが予想される。
の時には概念識別子を一つだけ用いると、かなり高い精
度での分類ができることが確認できる。特に次元数20
48における易しい記事の分類正解率は99%となり、
ほぼ100%近い正解率で分類できることがわかる。こ
れはEDR電子化辞書評価版第2.1版をそのまま使用
した場合の実験結果だが、他の辞書を用いれば辞書の単
語や概念識別子の粒度に応じて最適なベクトルの次元数
が変化することが予想される。
【0084】つまり、ベクトルの次元数を高くとれる場
合には、粒度の細かい辞書を使用し、ベクトルの次元数
があまり高くとれない場合には、粒度の粗い辞書を使用
すると、高い正解率が得られることが予想されるため、
分類装置が使用できる記憶容量に応じて、その容量にあ
った粒度の辞書を使用すると良い。
合には、粒度の細かい辞書を使用し、ベクトルの次元数
があまり高くとれない場合には、粒度の粗い辞書を使用
すると、高い正解率が得られることが予想されるため、
分類装置が使用できる記憶容量に応じて、その容量にあ
った粒度の辞書を使用すると良い。
【0085】請求項2に記載の発明の文書分類装置の一
実施例を図2に示す。ここで、図2(a)は、全体の装
置構成、図2(b)は、学習時に使用される装置の構
成、図2(c)は、分類時に使用される装置の構成を夫
々示す。図中、201は文書記憶部、202は文書解析
部、203は概念ベクトル生成部、204は概念ベクト
ル記憶部、205は文書ベクトル生成部、206は文書
ベクトル記憶部、207は分類部、208は結果記憶
部、209は特徴ベクトル生成用辞書、210は有用概
念識別子選出部である。
実施例を図2に示す。ここで、図2(a)は、全体の装
置構成、図2(b)は、学習時に使用される装置の構
成、図2(c)は、分類時に使用される装置の構成を夫
々示す。図中、201は文書記憶部、202は文書解析
部、203は概念ベクトル生成部、204は概念ベクト
ル記憶部、205は文書ベクトル生成部、206は文書
ベクトル記憶部、207は分類部、208は結果記憶
部、209は特徴ベクトル生成用辞書、210は有用概
念識別子選出部である。
【0086】図1に示した実施例と同様の方法によっ
て、概念識別子の特徴ベクトルを学習し、それをもとに
大量の文書データを分類する。分類した結果は結果記憶
部208に記憶されているが、この結果を元にして、有
用概念識別子選出部210で有用概念識別子の選出を行
なう。これは、分類群ごとに各概念識別子の出現頻度を
求め、どの分類群にも同じような割合で含まれている概
念識別子を除去したり(方法1:最高頻度と最低頻度と
の比がある閾値以下のものを除去)、ある分類にだけ高
い割合で含まれているものを選出したり(方法2:最高
頻度と第二位頻度との比がある閾値以上のものを選出)
する。なお、有用概念識別子選出部210で選出を行な
う概念識別子は必ずしも特徴ベクトル生成用辞書209
に登録されている概念識別子からでなくても良く、もっ
と広い範囲の概念識別子から選出を行なうことができ
る。
て、概念識別子の特徴ベクトルを学習し、それをもとに
大量の文書データを分類する。分類した結果は結果記憶
部208に記憶されているが、この結果を元にして、有
用概念識別子選出部210で有用概念識別子の選出を行
なう。これは、分類群ごとに各概念識別子の出現頻度を
求め、どの分類群にも同じような割合で含まれている概
念識別子を除去したり(方法1:最高頻度と最低頻度と
の比がある閾値以下のものを除去)、ある分類にだけ高
い割合で含まれているものを選出したり(方法2:最高
頻度と第二位頻度との比がある閾値以上のものを選出)
する。なお、有用概念識別子選出部210で選出を行な
う概念識別子は必ずしも特徴ベクトル生成用辞書209
に登録されている概念識別子からでなくても良く、もっ
と広い範囲の概念識別子から選出を行なうことができ
る。
【0087】具体例として分類群がa,b,cの三つあ
ったとして、特徴ベクトル生成用辞書209に登録され
ている概念識別子が『政治』『日本』『国際』の三つだ
ったとする。そして分類群ごとに各概念識別子(特徴ベ
クトル生成用辞書209に登録されている概念識別子以
外に『選挙』『問題』についても頻度を調べるとする)
の頻度が次のようだったとする。
ったとして、特徴ベクトル生成用辞書209に登録され
ている概念識別子が『政治』『日本』『国際』の三つだ
ったとする。そして分類群ごとに各概念識別子(特徴ベ
クトル生成用辞書209に登録されている概念識別子以
外に『選挙』『問題』についても頻度を調べるとする)
の頻度が次のようだったとする。
【0088】分類群a 政治30%,日本5%,国際3
5%,選挙10%,問題20% 分類群b 政治3%,日本55%,国際35%,選挙2
%,問題5% 分類群c 政治3%,日本30%,国際35%,選挙2
%,問題30% この場合に、方法1を用いると『国際』はどの分類群に
も同じような割合で含まれているので、特徴ベクトル生
成用辞書から除去することになる。『政治』『日本』
『選挙』『問題』は分類群ごとの頻度に偏りがあるの
で、有用概念識別子として選出され、特徴ベクトル生成
用辞書209に登録する(この時登録概念識別子数を抑
えたい場合は、頻度に偏りのある概念識別子の中で、合
計の出現頻度の順番に登録したい個数だけ取ってくれば
良い。)方法2を用いた場合『政治』と『選挙』だけが
選出され特徴ベクトル生成用辞書209に登録し、『日
本』や『国際』や『問題』は特徴ベクトル生成用辞書2
09には登録しない。方法1と方法2の中間的な方法と
して、第1位の頻度と第n位(nは3以上、分類群の個
数−1以下)の頻度との比がある閾値以上であるかどう
かで有用概念識別子を選出する方法も考えられる。
5%,選挙10%,問題20% 分類群b 政治3%,日本55%,国際35%,選挙2
%,問題5% 分類群c 政治3%,日本30%,国際35%,選挙2
%,問題30% この場合に、方法1を用いると『国際』はどの分類群に
も同じような割合で含まれているので、特徴ベクトル生
成用辞書から除去することになる。『政治』『日本』
『選挙』『問題』は分類群ごとの頻度に偏りがあるの
で、有用概念識別子として選出され、特徴ベクトル生成
用辞書209に登録する(この時登録概念識別子数を抑
えたい場合は、頻度に偏りのある概念識別子の中で、合
計の出現頻度の順番に登録したい個数だけ取ってくれば
良い。)方法2を用いた場合『政治』と『選挙』だけが
選出され特徴ベクトル生成用辞書209に登録し、『日
本』や『国際』や『問題』は特徴ベクトル生成用辞書2
09には登録しない。方法1と方法2の中間的な方法と
して、第1位の頻度と第n位(nは3以上、分類群の個
数−1以下)の頻度との比がある閾値以上であるかどう
かで有用概念識別子を選出する方法も考えられる。
【0089】また、頻度の比ではなく、頻度の分散の値
が大きいものを選出する方法も考えられる。
が大きいものを選出する方法も考えられる。
【0090】なお、このようにして選出された概念識別
子は頻度の比(あるいは頻度の分散)に応じた重要度を
持っていると考えることができるので、文書の特徴ベク
トルを計算する時にはその文書内の概念識別子の特徴ベ
クトルをこの比(あるいは分散)に応じて重み付けをし
てから(例えばlog(頻度の比)をその概念識別子の
特徴ベクトルに掛けてから)平均化するとより良い文書
の特徴ベクトルの値が得られる場合がある。
子は頻度の比(あるいは頻度の分散)に応じた重要度を
持っていると考えることができるので、文書の特徴ベク
トルを計算する時にはその文書内の概念識別子の特徴ベ
クトルをこの比(あるいは分散)に応じて重み付けをし
てから(例えばlog(頻度の比)をその概念識別子の
特徴ベクトルに掛けてから)平均化するとより良い文書
の特徴ベクトルの値が得られる場合がある。
【0091】こうして特徴ベクトル生成用辞書209
に、分類に有用な概念識別子だけを登録し、もう一度、
概念識別子の特徴ベクトルを学習し、それを用いて文書
を分類すると、特徴ベクトル生成辞書をより小さくでき
たり、分類の精度をあげることができる。
に、分類に有用な概念識別子だけを登録し、もう一度、
概念識別子の特徴ベクトルを学習し、それを用いて文書
を分類すると、特徴ベクトル生成辞書をより小さくでき
たり、分類の精度をあげることができる。
【0092】請求項3に記載した発明の文書分類装置の
一実施例を図3に示す。ここで、図3(a)は、全体の
装置構成、図3(b)は、学習時に使用される装置の構
成、図3(c)は、分類時に使用される装置の構成を夫
々示す。図中301は文書記憶部、302は文書解析
部、303は概念ベクトル生成部、304は概念ベクト
ル記憶部、305は文書ベクトル生成部、306は文書
ベクトル記憶部、307は分類部、308は結果記憶
部、309は特徴ベクトル生成用辞書、310は有用概
念識別子選出部、311は代表ベクトル生成部、312
は代表ベクトル記憶部である。図1に示した実施例を基
にして、本実施例の装置を構成する場合には有用概念識
別子選出部310が無いシステムとなる。
一実施例を図3に示す。ここで、図3(a)は、全体の
装置構成、図3(b)は、学習時に使用される装置の構
成、図3(c)は、分類時に使用される装置の構成を夫
々示す。図中301は文書記憶部、302は文書解析
部、303は概念ベクトル生成部、304は概念ベクト
ル記憶部、305は文書ベクトル生成部、306は文書
ベクトル記憶部、307は分類部、308は結果記憶
部、309は特徴ベクトル生成用辞書、310は有用概
念識別子選出部、311は代表ベクトル生成部、312
は代表ベクトル記憶部である。図1に示した実施例を基
にして、本実施例の装置を構成する場合には有用概念識
別子選出部310が無いシステムとなる。
【0093】図1及び図2に示した実施例と同様の方法
によって、概念識別子の特徴ベクトルを学習し、それを
もとに大量の文書データを分類する。分類した結果は3
08に記憶されているが、この結果を元にして、311
で代表ベクトルを生成する。これは、分類群ごとの各概
念識別子の頻度を求め、各概念識別子の特徴ベクトルを
頻度の重みをつけて平均したものである。具体例として
分類群がa,b,cの三つあったとして、特徴ベクトル
生成用辞書309に登録されている概念識別子が『政
治』『国会』『国際』の三つだったとする。そして分類
群ごとの各概念識別子の頻度が次のようだったとする。
によって、概念識別子の特徴ベクトルを学習し、それを
もとに大量の文書データを分類する。分類した結果は3
08に記憶されているが、この結果を元にして、311
で代表ベクトルを生成する。これは、分類群ごとの各概
念識別子の頻度を求め、各概念識別子の特徴ベクトルを
頻度の重みをつけて平均したものである。具体例として
分類群がa,b,cの三つあったとして、特徴ベクトル
生成用辞書309に登録されている概念識別子が『政
治』『国会』『国際』の三つだったとする。そして分類
群ごとの各概念識別子の頻度が次のようだったとする。
【0094】 分類群a 政治40%,国会50%,国際10% 分類群b 政治10%,国会10%,国際80% 分類群c 政治20%,国会10%,国際70% すると、分類群aの代表ベクトルは、『政治』の特徴ベ
クトルに0.4を掛けたものと、『国会』の特徴ベクト
ルに0.5を掛けたものと、『国際』の特徴ベクトルに
0.1を掛けたものの和として与えられる。
クトルに0.4を掛けたものと、『国会』の特徴ベクト
ルに0.5を掛けたものと、『国際』の特徴ベクトルに
0.1を掛けたものの和として与えられる。
【0095】また、分類群aに分類された文書全部の特
徴ベクトルの平均をとったものを分類群aの代表ベクト
ルとする方法も考えられる。
徴ベクトルの平均をとったものを分類群aの代表ベクト
ルとする方法も考えられる。
【0096】こうして、代表ベクトルが生成されたらそ
れを代表ベクトル記憶部312に記憶しておくことで、
以後の文書の分類時にはこの代表ベクトルを参照するこ
とで、文書記憶部301から読み込まれた文書は、その
文書の特徴ベクトルにもっとも類似した代表ベクトルに
対応する分類群に分類することができるようになる。こ
れにより、分類の処理が高速化できる。
れを代表ベクトル記憶部312に記憶しておくことで、
以後の文書の分類時にはこの代表ベクトルを参照するこ
とで、文書記憶部301から読み込まれた文書は、その
文書の特徴ベクトルにもっとも類似した代表ベクトルに
対応する分類群に分類することができるようになる。こ
れにより、分類の処理が高速化できる。
【0097】本実施例を用いて文書を分類している様子
の一例を図8に示す。これは、分類装置側の「分類した
い文を入力して下さい。」という質問に対して、ユーザ
が「大手保険会社の債券投資姿勢に格差が生じてき
た。」という文を入力した場合の例である。このユーザ
入力文の特徴ベクトルと分類群「政治」の代表ベクトル
との類似度は約0.4583、分類群「国際」の代表ベ
クトルとの類似度は約0.5759、分類群「経済」の
代表ベクトルとの類似度は約0.9438となり、この
ユーザ入力文はもっとも類似度の高い分類群「経済」に
分類されている。
の一例を図8に示す。これは、分類装置側の「分類した
い文を入力して下さい。」という質問に対して、ユーザ
が「大手保険会社の債券投資姿勢に格差が生じてき
た。」という文を入力した場合の例である。このユーザ
入力文の特徴ベクトルと分類群「政治」の代表ベクトル
との類似度は約0.4583、分類群「国際」の代表ベ
クトルとの類似度は約0.5759、分類群「経済」の
代表ベクトルとの類似度は約0.9438となり、この
ユーザ入力文はもっとも類似度の高い分類群「経済」に
分類されている。
【0098】請求項5に記載した文書検索装置の一実施
例を図10に示す。ここで、図10(a)は、全体の装
置構成、図10(b)は、学習時に使用される装置の構
成、図10(c)は、検索時に使用される装置の構成を
夫々示す。図中1001は文書記憶部、1002は文書
解析部、1003は概念ベクトル生成部、1004は概
念ベクトル記憶部、1005は文書ベクトル生成部、1
006は文書ベクトル記憶部、1007は検索部、10
08は出力部、1009は特徴ベクトル生成用辞書、1
010は検索文入力部である。
例を図10に示す。ここで、図10(a)は、全体の装
置構成、図10(b)は、学習時に使用される装置の構
成、図10(c)は、検索時に使用される装置の構成を
夫々示す。図中1001は文書記憶部、1002は文書
解析部、1003は概念ベクトル生成部、1004は概
念ベクトル記憶部、1005は文書ベクトル生成部、1
006は文書ベクトル記憶部、1007は検索部、10
08は出力部、1009は特徴ベクトル生成用辞書、1
010は検索文入力部である。
【0099】文書記憶部1001には、学習に用いるた
めの文書や、検索対象の文書を記憶する。検索文入力部
1010からは、検索したい文(単語だけでも良い)が
入力される。文書解析部1002は文書記憶部1001
や検索文入力部1010から文書を渡され、特徴ベクト
ル生成用辞書1009中の単語辞書を用いてその文書の
形態素解析(単語等に分けること)を行なう。
めの文書や、検索対象の文書を記憶する。検索文入力部
1010からは、検索したい文(単語だけでも良い)が
入力される。文書解析部1002は文書記憶部1001
や検索文入力部1010から文書を渡され、特徴ベクト
ル生成用辞書1009中の単語辞書を用いてその文書の
形態素解析(単語等に分けること)を行なう。
【0100】概念ベクトルを学習する時の各構成要素の
作用の概要を、図10(b)に基づいて説明する。概念
ベクトル生成部1003では、文書解析部1002から
渡された単語データを、特徴ベクトル生成用辞書100
9中の概念辞書(単語と概念識別子との関連付けを行な
っている辞書)を参照して概念識別子に変換し、概念識
別子間の共起関係を利用して概念識別子の特徴ベクトル
を生成する。概念ベクトル記憶部1004は、概念ベク
トル生成部1003で生成された概念識別子の特徴ベク
トルを記憶する。
作用の概要を、図10(b)に基づいて説明する。概念
ベクトル生成部1003では、文書解析部1002から
渡された単語データを、特徴ベクトル生成用辞書100
9中の概念辞書(単語と概念識別子との関連付けを行な
っている辞書)を参照して概念識別子に変換し、概念識
別子間の共起関係を利用して概念識別子の特徴ベクトル
を生成する。概念ベクトル記憶部1004は、概念ベク
トル生成部1003で生成された概念識別子の特徴ベク
トルを記憶する。
【0101】文書を検索する時の各構成要素の作用の概
要を、図10(c)に基づいて説明する。文書ベクトル
生成部1005では、文書解析部1002から渡された
単語データを、特徴ベクトル生成用辞書1009中の概
念辞書を参照して概念識別子に変換し、そこで得られた
概念識別子の特徴ベクトルを概念ベクトル記憶部100
4を参照して求め、文書中から得られる全ての単語につ
いてこのようにして求めた概念識別子の特徴ベクトルか
ら、平均化するなどして文書の特徴ベクトルを求める。
文書ベクトル記憶部1006は、文書ベクトル生成部で
求められた文書の特徴ベクトルを記憶する。検索文入力
部1010から入力された文も、同様にして特徴ベクト
ルが求められ、文書ベクトル記憶部1006には、検索
文の特徴ベクトルも記憶される。検索部1007は、文
書ベクトル記憶部1006から検索文の特徴ベクトルを
取得し、文書ベクトル記憶部1006に記憶されている
各文書の特徴ベクトルと検索文の特徴ベクトルとの類似
度が高いものを検索結果として出力部1008に渡す。
出力部1008では、検索部1007から渡された検索
結果を出力する。
要を、図10(c)に基づいて説明する。文書ベクトル
生成部1005では、文書解析部1002から渡された
単語データを、特徴ベクトル生成用辞書1009中の概
念辞書を参照して概念識別子に変換し、そこで得られた
概念識別子の特徴ベクトルを概念ベクトル記憶部100
4を参照して求め、文書中から得られる全ての単語につ
いてこのようにして求めた概念識別子の特徴ベクトルか
ら、平均化するなどして文書の特徴ベクトルを求める。
文書ベクトル記憶部1006は、文書ベクトル生成部で
求められた文書の特徴ベクトルを記憶する。検索文入力
部1010から入力された文も、同様にして特徴ベクト
ルが求められ、文書ベクトル記憶部1006には、検索
文の特徴ベクトルも記憶される。検索部1007は、文
書ベクトル記憶部1006から検索文の特徴ベクトルを
取得し、文書ベクトル記憶部1006に記憶されている
各文書の特徴ベクトルと検索文の特徴ベクトルとの類似
度が高いものを検索結果として出力部1008に渡す。
出力部1008では、検索部1007から渡された検索
結果を出力する。
【0102】検索部1007での類似度の高さの判定
は、検索文の特徴ベクトルの絶対値を1に正規化したも
のと、各文書の特徴ベクトルの絶対値を1に正規化した
ものとの内積をとって判断する。内積がある閾値(例え
ば0.9)より高いものを検索結果として出力部100
8に渡す方法や、内積の高い順番に文書を適当な個数
(例えば10個)選出して出力部1008に渡す方法等
がある。
は、検索文の特徴ベクトルの絶対値を1に正規化したも
のと、各文書の特徴ベクトルの絶対値を1に正規化した
ものとの内積をとって判断する。内積がある閾値(例え
ば0.9)より高いものを検索結果として出力部100
8に渡す方法や、内積の高い順番に文書を適当な個数
(例えば10個)選出して出力部1008に渡す方法等
がある。
【0103】この実施例での曖昧検索の一例を図11に
示す。ここで、図11(a)は日本語による曖昧検索の
例を示し、図11(b)は英語による曖昧検索の例を示
す。この例では大量の電子メールの中から、検索文「歌
を歌いたい」と検索文「Iwant to sing」
とで、どちらもカラオケ関連のメールが検索されること
を示している。
示す。ここで、図11(a)は日本語による曖昧検索の
例を示し、図11(b)は英語による曖昧検索の例を示
す。この例では大量の電子メールの中から、検索文「歌
を歌いたい」と検索文「Iwant to sing」
とで、どちらもカラオケ関連のメールが検索されること
を示している。
【0104】同じく、この実施例でのもう一つの曖昧検
索例を図12に示す。この例では、検索文「歌を歌いた
い」を入力すると(図12(a))、日本語のメール
(カラオケ、図12(b))と英語のメール(コーラス
パーティ、図12(c))とが検索されることを示して
いる。
索例を図12に示す。この例では、検索文「歌を歌いた
い」を入力すると(図12(a))、日本語のメール
(カラオケ、図12(b))と英語のメール(コーラス
パーティ、図12(c))とが検索されることを示して
いる。
【0105】請求項4に記載の発明の文書分類装置及び
請求項6に記載の発明の文書分類装置に使用される「言
語毎の特徴ベクトル生成用辞書」は、各言語毎の単語辞
書と、各言語で共通に用いる概念識別子と各言語の単語
との関連を表す概念辞書とを使用したい言語の種類数だ
け備える。図9は、複数の言語に対応した特徴ベクトル
生成用辞書の概念図を示す。図9では、日本語、英語、
ドイツ語という3か国語に対応した特徴ベクトル生成用
辞書の例である。例えば、日本語の「私」という単語
と、英語の「I」という単語と、ドイツ後の「ich」
という単語が、ともに概念識別子「0001」 と関連
付けられていることを示している。他の単語についても
同様である。ただし、この図では「0001」は「私」
という概念に付けられた概念識別子であり、「000
2」は「貴方」という概念に付けられた概念識別子であ
り、「0005」は「我々」という概念に付けられた概
念識別子であり、「0006」は「貴方達」という概念
に付けられた概念識別子であり、「0105」は「赤
い」という概念に付けられた概念識別子である。なお、
この概念識別子の数値自体は、同じ概念に同じ番号が割
り当てられ、違う概念には違う番号が割り当てられてい
ればどんな数値を使っても良いので、本実施例中では
「0001」という直接の数値の代わりに『私』という
形で概念識別子を表している。この特徴ベクトル生成用
辞書により、入力文書や検索文の言語の種類に応じて辞
書を切替えることで、どの言語を用いても共通の概念識
別子を用いて分類や検索を行なうことができる。
請求項6に記載の発明の文書分類装置に使用される「言
語毎の特徴ベクトル生成用辞書」は、各言語毎の単語辞
書と、各言語で共通に用いる概念識別子と各言語の単語
との関連を表す概念辞書とを使用したい言語の種類数だ
け備える。図9は、複数の言語に対応した特徴ベクトル
生成用辞書の概念図を示す。図9では、日本語、英語、
ドイツ語という3か国語に対応した特徴ベクトル生成用
辞書の例である。例えば、日本語の「私」という単語
と、英語の「I」という単語と、ドイツ後の「ich」
という単語が、ともに概念識別子「0001」 と関連
付けられていることを示している。他の単語についても
同様である。ただし、この図では「0001」は「私」
という概念に付けられた概念識別子であり、「000
2」は「貴方」という概念に付けられた概念識別子であ
り、「0005」は「我々」という概念に付けられた概
念識別子であり、「0006」は「貴方達」という概念
に付けられた概念識別子であり、「0105」は「赤
い」という概念に付けられた概念識別子である。なお、
この概念識別子の数値自体は、同じ概念に同じ番号が割
り当てられ、違う概念には違う番号が割り当てられてい
ればどんな数値を使っても良いので、本実施例中では
「0001」という直接の数値の代わりに『私』という
形で概念識別子を表している。この特徴ベクトル生成用
辞書により、入力文書や検索文の言語の種類に応じて辞
書を切替えることで、どの言語を用いても共通の概念識
別子を用いて分類や検索を行なうことができる。
【0106】本発明の文書分類装置及び文書検索装置
は、通常の文書の分類や通常の文書の検索にのみ用いら
れるものではない。すなわち、電子メールや電子ニュー
スを自動的に分類したり、電子メールや電子ニュースの
中からユーザーの興味を持ちそうなものを選出(検索)
したり(ユーザーがそれまでに読んだメールやニュース
の特徴ベクトルとの類似度で判定できる)、仮名漢字変
換における同音異義語の選択(それまでに変換した内容
から得られる特徴ベクトルとの類似度で同音異義語を選
択する)に利用できる。また、音声認識・手書き文字認
識などにおいて過去の文脈に最も適合した変換結果を選
択する方法をとる(それまでに認識した内容から得られ
る特徴ベクトルとの類似度で認識結果を選択する)際
や、認識時等において単語等の検索空間を狭める(それ
までに認識した内容から得られる特徴ベクトルの平均値
に近い概念識別子と関連付けられている単語だけを検索
するようにする)際にも利用できる。この場合には、文
書記憶部又は、検索入力部に、通常の文書データの代わ
りに、上記のデータを入力する。また、複数の言語につ
いて単語と概念識別子との関連を表す情報があれば、言
語の種類を問わずに分類や検索等を行なうことができ
る。
は、通常の文書の分類や通常の文書の検索にのみ用いら
れるものではない。すなわち、電子メールや電子ニュー
スを自動的に分類したり、電子メールや電子ニュースの
中からユーザーの興味を持ちそうなものを選出(検索)
したり(ユーザーがそれまでに読んだメールやニュース
の特徴ベクトルとの類似度で判定できる)、仮名漢字変
換における同音異義語の選択(それまでに変換した内容
から得られる特徴ベクトルとの類似度で同音異義語を選
択する)に利用できる。また、音声認識・手書き文字認
識などにおいて過去の文脈に最も適合した変換結果を選
択する方法をとる(それまでに認識した内容から得られ
る特徴ベクトルとの類似度で認識結果を選択する)際
や、認識時等において単語等の検索空間を狭める(それ
までに認識した内容から得られる特徴ベクトルの平均値
に近い概念識別子と関連付けられている単語だけを検索
するようにする)際にも利用できる。この場合には、文
書記憶部又は、検索入力部に、通常の文書データの代わ
りに、上記のデータを入力する。また、複数の言語につ
いて単語と概念識別子との関連を表す情報があれば、言
語の種類を問わずに分類や検索等を行なうことができ
る。
【0107】
【発明の効果】請求項1に記載の文書分類装置によれ
ば、概念識別子の特徴ベクトル及びそれから生成された
文書の特徴ベクトルを使用して、文書の学習と学習に基
づいた文書の分類が行われる。したがって、文書データ
を用意するだけで、概念識別子の特徴ベクトルを生成で
き、人手を全く必要としない文書自動分類を実現でき
る。また、概念識別子を用いて特徴ベクトルを生成する
ことで、単純に単語を用いる場合に比べて分類の精度を
高めることができる。
ば、概念識別子の特徴ベクトル及びそれから生成された
文書の特徴ベクトルを使用して、文書の学習と学習に基
づいた文書の分類が行われる。したがって、文書データ
を用意するだけで、概念識別子の特徴ベクトルを生成で
き、人手を全く必要としない文書自動分類を実現でき
る。また、概念識別子を用いて特徴ベクトルを生成する
ことで、単純に単語を用いる場合に比べて分類の精度を
高めることができる。
【0108】請求項2に記載の文書分類装置によれば、
分類に有用な概念識別子を用いることによって、特徴ベ
クトルの記憶空間を削減したり、分類の精度を向上させ
ることができる。
分類に有用な概念識別子を用いることによって、特徴ベ
クトルの記憶空間を削減したり、分類の精度を向上させ
ることができる。
【0109】請求項3に記載の文書分類装置によれば、
結果記憶部に記憶された分類ごとに、概念識別子や文書
の特徴ベクトルを用いて、その分類を代表する文書の特
徴ベクトルを求める代表ベクトル生成部と、分類を代表
する文書の特徴ベクトルを記憶する代表ベクトル記憶部
とをさらに含むように構成されているので、一度各分類
群の代表ベクトルを生成してしまえば、新たな文書デー
タを分類するときには、その文書の特徴ベクトルと各分
類群の代表ベクトルとの比較を行なうだけでその文書が
どの分類群に属すかを判定できるようになる。したがっ
て、分類処理を単純化・高速化できる。
結果記憶部に記憶された分類ごとに、概念識別子や文書
の特徴ベクトルを用いて、その分類を代表する文書の特
徴ベクトルを求める代表ベクトル生成部と、分類を代表
する文書の特徴ベクトルを記憶する代表ベクトル記憶部
とをさらに含むように構成されているので、一度各分類
群の代表ベクトルを生成してしまえば、新たな文書デー
タを分類するときには、その文書の特徴ベクトルと各分
類群の代表ベクトルとの比較を行なうだけでその文書が
どの分類群に属すかを判定できるようになる。したがっ
て、分類処理を単純化・高速化できる。
【0110】請求項4に記載の文書分類装置によれば、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことができる。また、特徴ベクトルは概
念識別子に対して生成されるので、言語毎に単語に対し
て特徴ベクトルを生成する場合に比較して特徴ベクトル
の記憶領域を小さく抑えることができる。
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことができる。また、特徴ベクトルは概
念識別子に対して生成されるので、言語毎に単語に対し
て特徴ベクトルを生成する場合に比較して特徴ベクトル
の記憶領域を小さく抑えることができる。
【0111】請求項5に記載の文書検索装置によれば、
概念識別子の特徴ベクトル及びそれから生成された文書
の特徴ベクトルを使用して、文書の学習と学習に基づい
た文書の検索が行われる。したがって、特徴ベクトルの
類似度で文書を検索することで、文字列のパターンマッ
チングによる検索とは違い、文字列が一致していなくて
も意味的に類似度が高いものを検索(曖昧検索)するこ
とができる。
概念識別子の特徴ベクトル及びそれから生成された文書
の特徴ベクトルを使用して、文書の学習と学習に基づい
た文書の検索が行われる。したがって、特徴ベクトルの
類似度で文書を検索することで、文字列のパターンマッ
チングによる検索とは違い、文字列が一致していなくて
も意味的に類似度が高いものを検索(曖昧検索)するこ
とができる。
【0112】請求項6に記載の文書検索装置によれば、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書検索を行うことができる。
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書検索を行うことができる。
【0113】また、特徴ベクトルは概念識別子に対して
生成されるので、言語毎に単語に対して特徴ベクトルを
生成する場合に比較して特徴ベクトルの記憶領域を小さ
く抑えることができる。
生成されるので、言語毎に単語に対して特徴ベクトルを
生成する場合に比較して特徴ベクトルの記憶領域を小さ
く抑えることができる。
【0114】また、本発明の装置で作成される概念識別
子の特徴ベクトルは、文書の分類時や検索時に使えるだ
けでなく、仮名漢字変換における同音異義語の選択にも
利用できるし、音声認識・手書き文字認識などにおい
て、過去の文脈に最も適合した認識結果を選択する方法
をとる際にも利用できる。
子の特徴ベクトルは、文書の分類時や検索時に使えるだ
けでなく、仮名漢字変換における同音異義語の選択にも
利用できるし、音声認識・手書き文字認識などにおい
て、過去の文脈に最も適合した認識結果を選択する方法
をとる際にも利用できる。
【図1】本発明の請求項1の基本構成を示すブロック図
である。
である。
【図2】本発明の請求項2の基本構成を示すブロック図
である。
である。
【図3】本発明の請求項3の基本構成を示すブロック図
である。
である。
【図4】本発明の概念識別子の特徴ベクトルの生成を説
明する図1である。
明する図1である。
【図5】本発明の概念識別子の特徴ベクトルの生成を説
明する図2である。
明する図2である。
【図6】本発明の文書の特徴ベクトルの生成を説明する
図である。
図である。
【図7】本発明による文書の分類を説明する図である。
【図8】本発明による文書の分類の例を説明する図であ
る。
る。
【図9】本発明の請求項5の言語毎の複数の特徴ベクト
ル生成用辞書を説明する図である。
ル生成用辞書を説明する図である。
【図10】本発明の請求項4の基本構成を示すブロック
図である。
図である。
【図11】本発明の請求項4の実施例による文書検索装
置での曖昧検索例を説明する図である。
置での曖昧検索例を説明する図である。
【図12】本発明の請求項4の実施例による文書検索装
置での曖昧検索例を説明する図2である。
置での曖昧検索例を説明する図2である。
101 文書記憶部 102 文書解析部 103 概念ベクトル生成部 104 概念ベクトル記憶部 105 文書ベクトル生成部 106 文書ベクトル記憶部 107 分類部 108 結果記憶部 109 特徴ベクトル生成用辞書
Claims (6)
- 【請求項1】 文書の内容にしたがって文書の分類を行
う文書分類装置であって、 文書データを記憶する文書記憶部と、 予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、 前記特徴ベクトル生成用辞書によって、記憶した文書デ
ータの単語を解析する文書解析部と、 前記特徴ベクトル生成用辞書によって、文書データの単
語を概念識別子に変換し、概念識別子間の共起関係に基
づいて、概念識別子の特徴ベクトルを自動的に生成する
概念ベクトル生成部と、 生成した概念識別子の特徴ベクトルを記憶する概念ベク
トル記憶部と、 概念識別子の特徴ベクトルから文書の特徴ベクトルを生
成する文書ベクトル生成部と、 文書の特徴ベクトルを記憶する文書ベクトル記憶部と、 文書の特徴ベクトル間の類似度を利用して文書を分類す
る分類部と、 分類した結果を記憶する結果記憶部と、を含むことを特
徴とする文書分類装置。 - 【請求項2】 前記結果記憶部に記憶された分類ごとに
概念識別子の出現率を調べ、分類に有用な概念識別子を
選出し、分類に有用な概念識別子を前記特徴ベクトル生
成用辞書に登録する、有用概念識別子選出部をさらに含
み、分類に有用な概念識別子を用いることで分類の精度
を向上させることを特徴とする請求項1に記載の文書分
類装置。 - 【請求項3】 前記結果記憶部に記憶された分類ごと
に、概念識別子の特徴ベクトルと文書の特徴ベクトルと
の少なくとも一方を用いて、その分類を代表する文書の
特徴ベクトルを求める代表ベクトル生成部と、分類を代
表する文書の特徴ベクトルを記憶する代表ベクトル記憶
部とをさらに含む請求項1又は請求項2に記載の文書分
類装置。 - 【請求項4】 前記特徴ベクトル生成用辞書が複数の言
語の辞書を含んでおり、前記複数の言語のどの言語の単
語であっても同じ概念の単語は同じ概念識別子に変換
し、言語の種類によらない文書分類を行う請求項1から
請求項3のいずれか一項に記載の文書分類装置。 - 【請求項5】 文書検索装置であって、 文書データを記憶する文書記憶部と、 検索文を入力する検索文入力部と、 予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、 前記特徴ベクトル生成用辞書によって、記憶した文書デ
ータの単語を解析する文書解析部と、 前記特徴ベクトル生成用辞書によって、文書データの単
語を概念識別子に変換し、概念識別子間の共起関係に基
づいて、概念識別子の特徴ベクトルを自動的に生成する
概念ベクトル生成部と、 概念識別子の特徴ベクトルを記憶する概念ベクトル記憶
部と、 文書データ及び検索文中に含まれている概念識別子の特
徴ベクトルから文書データ及び検索文の特徴ベクトルを
生成する文書ベクトル生成部と、 文書データ及び前記検索文の特徴ベクトルを記憶する文
書ベクトル記憶部と、 文書データの特徴ベクトルと検索文の特徴ベクトルとの
類似度を利用して文書データ中から検索文に類似した文
を検索する検索部と、 その検索した結果を出力する出力部と、を含む文書検索
装置。 - 【請求項6】 前記特徴ベクトル生成用辞書が複数の言
語の辞書を含んでおり、前記複数の言語のどの言語の単
語であっても同じ概念の単語は同じ概念識別子に変換
し、言語の種類によらない文書検索を行う請求項5に記
載の文書検索装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7151640A JPH096799A (ja) | 1995-06-19 | 1995-06-19 | 文書分類装置及び文書検索装置 |
| EP96302992A EP0750266B1 (en) | 1995-06-19 | 1996-04-29 | Document classification unit and document retrieval unit |
| DE69613433T DE69613433T2 (de) | 1995-06-19 | 1996-04-29 | Dokumentklassifizierungseinheit und Dokumentwiederauffindungseinheit |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7151640A JPH096799A (ja) | 1995-06-19 | 1995-06-19 | 文書分類装置及び文書検索装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH096799A true JPH096799A (ja) | 1997-01-10 |
Family
ID=15522983
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7151640A Pending JPH096799A (ja) | 1995-06-19 | 1995-06-19 | 文書分類装置及び文書検索装置 |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP0750266B1 (ja) |
| JP (1) | JPH096799A (ja) |
| DE (1) | DE69613433T2 (ja) |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10240762A (ja) * | 1997-02-28 | 1998-09-11 | Matsushita Electric Ind Co Ltd | 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法 |
| JPH10307843A (ja) * | 1997-05-09 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体 |
| JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
| JP2001312505A (ja) * | 2000-05-02 | 2001-11-09 | Internatl Business Mach Corp <Ibm> | データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡 |
| JP2002015001A (ja) * | 2000-06-29 | 2002-01-18 | Nri & Ncc Co Ltd | 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム |
| JP2002041557A (ja) * | 2000-07-25 | 2002-02-08 | Nri & Ncc Co Ltd | 概念検索装置、概念検索方法、記録媒体およびコンピュータプログラム |
| JP2002108935A (ja) * | 2000-09-29 | 2002-04-12 | Nri & Ncc Co Ltd | 非テキスト入力に基づく概念検索装置、非テキスト入力に基づく概念検索方法、記録媒体およびプログラム |
| JP2002230015A (ja) * | 2001-01-30 | 2002-08-16 | Ssr:Kk | データ解析方法およびその装置ならびにコンピュータ・プログラム |
| JP2007072610A (ja) * | 2005-09-05 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理方法及び装置及びプログラム |
| US7467079B2 (en) | 2003-09-29 | 2008-12-16 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
| JP2009116867A (ja) * | 2007-11-07 | 2009-05-28 | Internatl Business Mach Corp <Ibm> | マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置 |
| JP2010009238A (ja) * | 2008-06-25 | 2010-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
| JP2010186421A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegraph & Telephone West Corp | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム |
| JP2012118369A (ja) * | 2010-12-02 | 2012-06-21 | Kobe Steel Ltd | 教材コンテンツ生成システム、教材コンテンツ生成方法、及びコンピュータプログラム |
| WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
| JP2015170241A (ja) * | 2014-03-10 | 2015-09-28 | 富士ゼロックス株式会社 | 多言語文書分類プログラム及び情報処理装置 |
| JP2018142131A (ja) * | 2017-02-27 | 2018-09-13 | 日本放送協会 | 情報判定モデル学習装置、情報判定装置およびそれらのプログラム |
| JP2019159826A (ja) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 表示制御プログラム、表示制御装置及び表示制御方法 |
| JP2022052212A (ja) * | 2020-09-23 | 2022-04-04 | 有限責任監査法人トーマツ | 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置 |
| WO2022180796A1 (ja) * | 2021-02-26 | 2022-09-01 | 日本電気株式会社 | 分類システム、方法およびプログラム |
Families Citing this family (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3195752B2 (ja) | 1997-02-28 | 2001-08-06 | シャープ株式会社 | 検索装置 |
| FR2763715B1 (fr) * | 1997-05-22 | 2000-05-26 | Bertin & Cie | Procede de traitement et de recherche d'informations dans des documents enregistres dans un systeme informatique |
| US6842876B2 (en) * | 1998-04-14 | 2005-01-11 | Fuji Xerox Co., Ltd. | Document cache replacement policy for automatically generating groups of documents based on similarity of content |
| JP3344953B2 (ja) * | 1998-11-02 | 2002-11-18 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
| EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
| US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
| EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| ATE537507T1 (de) | 2001-08-27 | 2011-12-15 | Bdgb Entpr Software Sarl | Verfahren zum automatischen indizieren von dokumenten |
| ES2391261T3 (es) * | 2001-11-21 | 2012-11-22 | Werner Voegeli | Método y aparato para recuperar información importante |
| US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
| US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
| US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
| US8321357B2 (en) | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
| US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
| CN106030570B (zh) | 2014-12-23 | 2020-09-29 | 微软技术许可有限责任公司 | 显现数据集间的关系 |
| EP3193265A1 (en) * | 2016-01-18 | 2017-07-19 | Wipro Limited | System and method for classifying and resolving software production incident tickets |
| KR102144010B1 (ko) * | 2018-09-05 | 2020-08-12 | 성균관대학교산학협력단 | 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치 |
| CN110765230B (zh) * | 2019-09-03 | 2022-08-09 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05324719A (ja) * | 1992-05-26 | 1993-12-07 | Sanyo Electric Co Ltd | 文書検索システム |
| JPH0644309A (ja) * | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1988004454A2 (en) * | 1986-12-04 | 1988-06-16 | Tnet, Inc. | Information retrieval system and method |
| US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
| US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
-
1995
- 1995-06-19 JP JP7151640A patent/JPH096799A/ja active Pending
-
1996
- 1996-04-29 EP EP96302992A patent/EP0750266B1/en not_active Expired - Lifetime
- 1996-04-29 DE DE69613433T patent/DE69613433T2/de not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05324719A (ja) * | 1992-05-26 | 1993-12-07 | Sanyo Electric Co Ltd | 文書検索システム |
| JPH0644309A (ja) * | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
Cited By (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10240762A (ja) * | 1997-02-28 | 1998-09-11 | Matsushita Electric Ind Co Ltd | 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法 |
| JPH10307843A (ja) * | 1997-05-09 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類方法及び装置及び文書分類プログラムを格納した記憶媒体 |
| JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
| JP2001312505A (ja) * | 2000-05-02 | 2001-11-09 | Internatl Business Mach Corp <Ibm> | データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡 |
| JP2002015001A (ja) * | 2000-06-29 | 2002-01-18 | Nri & Ncc Co Ltd | 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム |
| JP2002041557A (ja) * | 2000-07-25 | 2002-02-08 | Nri & Ncc Co Ltd | 概念検索装置、概念検索方法、記録媒体およびコンピュータプログラム |
| JP2002108935A (ja) * | 2000-09-29 | 2002-04-12 | Nri & Ncc Co Ltd | 非テキスト入力に基づく概念検索装置、非テキスト入力に基づく概念検索方法、記録媒体およびプログラム |
| JP2002230015A (ja) * | 2001-01-30 | 2002-08-16 | Ssr:Kk | データ解析方法およびその装置ならびにコンピュータ・プログラム |
| US7467079B2 (en) | 2003-09-29 | 2008-12-16 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
| JP2007072610A (ja) * | 2005-09-05 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理方法及び装置及びプログラム |
| JP2009116867A (ja) * | 2007-11-07 | 2009-05-28 | Internatl Business Mach Corp <Ibm> | マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置 |
| JP2010009238A (ja) * | 2008-06-25 | 2010-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
| JP2010186421A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegraph & Telephone West Corp | タクソノミ検索装置、タクソノミ検索方法およびタクソノミ検索プログラム |
| JP2012118369A (ja) * | 2010-12-02 | 2012-06-21 | Kobe Steel Ltd | 教材コンテンツ生成システム、教材コンテンツ生成方法、及びコンピュータプログラム |
| WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
| JP2015170241A (ja) * | 2014-03-10 | 2015-09-28 | 富士ゼロックス株式会社 | 多言語文書分類プログラム及び情報処理装置 |
| US9262400B2 (en) | 2014-03-10 | 2016-02-16 | Fuji Xerox Co., Ltd. | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents |
| JP2018142131A (ja) * | 2017-02-27 | 2018-09-13 | 日本放送協会 | 情報判定モデル学習装置、情報判定装置およびそれらのプログラム |
| JP2019159826A (ja) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 表示制御プログラム、表示制御装置及び表示制御方法 |
| JP2022052212A (ja) * | 2020-09-23 | 2022-04-04 | 有限責任監査法人トーマツ | 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置 |
| WO2022180796A1 (ja) * | 2021-02-26 | 2022-09-01 | 日本電気株式会社 | 分類システム、方法およびプログラム |
| US12216696B2 (en) | 2021-02-26 | 2025-02-04 | Nec Corporation | Classification system, method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0750266A1 (en) | 1996-12-27 |
| DE69613433D1 (de) | 2001-07-26 |
| EP0750266B1 (en) | 2001-06-20 |
| DE69613433T2 (de) | 2002-05-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH096799A (ja) | 文書分類装置及び文書検索装置 | |
| JP2978044B2 (ja) | 文書分類装置 | |
| Ko et al. | Automatic text categorization by unsupervised learning | |
| Steinberger et al. | Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc | |
| Syiam et al. | An intelligent system for Arabic text categorization | |
| US7246129B2 (en) | System and method for identifying relationships between database records | |
| JP2742115B2 (ja) | 類似文書検索装置 | |
| US8510312B1 (en) | Automatic metadata identification | |
| US6286000B1 (en) | Light weight document matcher | |
| US20080052289A1 (en) | System and method for the triage and classification of documents | |
| CN110471948A (zh) | 一种基于历史数据挖掘的海关报关商品智能归类方法 | |
| NL9201684A (nl) | Werkwijze voor het identificeren, herverkrijgen en sorteren van documenten. | |
| CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
| Raskutti et al. | Second order features for maximising text classification performance | |
| Tkach | Text Mining Technology | |
| JP3428068B2 (ja) | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 | |
| WO2000033215A1 (en) | Term-length term-frequency method for measuring document similarity and classifying text | |
| JP3198932B2 (ja) | 文書検索装置 | |
| JPH0782504B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| JPH06301722A (ja) | 形態素解析装置及びキーワード抽出装置 | |
| Tsuboi | Authorship identification for heterogeneous documents | |
| JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
| CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
| JPH09297766A (ja) | 類似文書検索装置 | |
| Junker et al. | Evaluating ocr and non-ocr text representations for learning document classifiers |