JPH096799A

JPH096799A - 文書分類装置及び文書検索装置

Info

Publication number: JPH096799A
Application number: JP7151640A
Authority: JP
Inventors: Natsuki Yuasa; 夏樹湯浅
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1995-06-19
Filing date: 1995-06-19
Publication date: 1997-01-10
Also published as: DE69613433T2; EP0750266A1; EP0750266B1; DE69613433D1

Abstract

(57)【要約】【目的】言語の種類を問わず、文書を分類したり検索
したりすることができる装置を提供する。【構成】文書分類装置において、文書データを記憶す
る文書記憶部１０１と、文書データを解析する文書解析
部１０２と、文書中の概念識別子の特徴ベクトルを生成
する概念ベクトル生成部１０３と、その特徴ベクトルを
記憶する概念ベクトル記憶部１０４と、文書内に含まれ
ている概念識別子の特徴ベクトルから文書の特徴ベクト
ルを生成する文書ベクトル生成部１０５と、その特徴ベ
クトルを記憶する文書ベクトル記憶部１０６と、文書特
徴ベクトル間の類似度を利用して文書を分類する分類部
１０７と、その分類した結果を記憶する結果記憶部１０
８と、特徴ベクトル生成時に使用する単語や概念識別子
が登録されている特徴ベクトル生成用辞書１０９とを備
える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書や電子メール等を
分類する文書分類装置及び大量の文書データの中から必
要な情報を取り出す文書検索装置に関する。本発明の装
置は、ワープロやファイリングシステムなどの分野にも
利用される。さらに、どの言語も区別することなく使用
することができる。

【０００２】

【従来の技術】文書を自動的に分類する方法としては、
例えば、田村他「統計的手法による文書自動分類」（情
報処理学会第３６回全国大会論文集，１９８７年）や、
特開平２−１５８８７１号公報に開示された「文書分類
装置」や、特開平６−３４８７５５号公報に開示された
「文書分類方法およびそのシステム」があげられる。田
村他の方法はキーワードの出現頻度の分野による偏りを
示す指標としてカイ自乗値を求め文書を分類するもので
あるが、この方法は、キーワードの出現頻度の偏りを用
いるために、予め標本データを人手によって分野別に分
類してカイ自乗値を計算し、分類用データを用意してお
く必要がある。他方、特開平２−１５８８７１号公報に
開示された「文書分類装置」は、標本データを分野別に
分類しておく必要はないが、文書分類用のシソーラスや
キーワード分類項目を予め人手により登録しておく必要
がある。また、特開平６−３４８７５５号公報に開示さ
れた「文書分類方法およびそのシステム」では文書分類
用のシソーラスやキーワード分類項目を登録しておく必
要はないが、一分類が一文書データ以上からなる分類済
みの文書データを用意しておく必要がある。

【０００３】

【発明が解決しようとする課題】従来の文書分類方法で
は、標本データを人手によって分野別に分類したり、シ
ソーラスやキーワード分類項目を人手により登録してお
く必要があり、分類に際してなんらかの人手を必要とす
るという問題があった。特開平６−３４８７５５号公報
に開示された「文書分類方法およびそのシステム」にお
いては、一分類が一文書データでよいので、人手による
手間は比較的少ないが、分類精度を向上させたければよ
り多くの分類済み文書データを用意しておく必要があ
る。

【０００４】また、従来の文書分類方式では同一言語で
の（日本語なら日本語の）文書を分類することしか考慮
されていなかった。

【０００５】本発明の課題は、上記問題を解決するため
に、特に分類されていない状態の単語データや文書デー
タを用意するだけで、文書データ内での出現頻度から分
類に用いる特徴ベクトルを自動的に生成し、この特徴ベ
クトルを用いることで、未知の文書を自動的に分類する
装置を提供することである。単語データや文書データは
特に分類されていない状態で使用するので、人手による
手間を全く必要としない。さらに、本発明の副次的な課
題は、言語によらない分類を行なうことができる装置を
提供することである。

【０００６】

【課題を解決するための手段】請求項１に記載の発明の
文書分類装置は、文書データを記憶する文書記憶部と、
予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、特徴ベクトル生成用辞書によって、
記憶した文書データの単語を解析する文書解析部と、特
徴ベクトル生成用辞書によって、文書データの単語を概
念識別子に変換し、概念識別子間の共起関係に基づい
て、概念識別子の特徴ベクトルを自動的に生成する概念
ベクトル生成部と、生成した概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、概念識別子の特徴ベ
クトルから文書の特徴ベクトルを生成する文書ベクトル
生成部と、文書の特徴ベクトルを記憶する文書ベクトル
記憶部と、文書の特徴ベクトル間の類似度を利用して文
書を分類する分類部と、分類した結果を記憶する結果記
憶部とを含むことを特徴とする。

【０００７】請求項２に記載の発明の文書分類装置は、
結果記憶部に記憶された分類ごとに概念識別子の出現率
を調べ、分類に有用な概念識別子を選出し、分類に有用
な概念識別子を特徴ベクトル生成用辞書に登録する、有
用概念識別部をさらに含み、分類に有用な概念識別子を
用いることで分類の精度を向上させることを特徴とす
る。

【０００８】請求項３に記載の発明の文書分類装置は、
結果記憶部に記憶された分類ごとに、概念識別子の特徴
ベクトルと文書の特徴ベクトルとの少なくとも一方を用
いて、その分類を代表する文書の特徴ベクトルを求める
代表ベクトル生成部と、分類を代表する文書の特徴ベク
トルを記憶する代表ベクトル記憶部とをさらに含むこと
を特徴とする。

【０００９】請求項４に記載の発明の文書分類装置は、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことを特徴とする。

【００１０】請求項５に記載の文書検索装置は、文書デ
ータを記憶する文書記憶部と、検索文を入力する検索文
入力部と、予め定められた単語及び概念識別子を登録し
た特徴ベクトル生成用辞書と、特徴ベクトル生成用辞書
によって、記憶した文書データの単語を解析する文書解
析部と、特徴ベクトル生成用辞書によって、文書データ
の単語を概念識別子に変換し、概念識別子間の共起関係
に基づいて、概念識別子の特徴ベクトルを自動的に生成
する概念ベクトル生成部と、概念識別子の特徴ベクトル
を記憶する概念ベクトル記憶部と、文書データ及び検索
文中に含まれている概念識別子の特徴ベクトルから文書
データ及び検索文の特徴ベクトルを生成する文書ベクト
ル生成部と、文書データ及び前記検索文の特徴ベクトル
を記憶する文書ベクトル記憶部と、文書データの特徴ベ
クトルと検索文の特徴ベクトルとの類似度を利用して文
書データ中から検索文に類似した文を検索する検索部
と、その検索した結果を出力する出力部とを含むことを
特徴とする。

【００１１】請求項６に記載の文書検索装置は、特徴ベ
クトル生成用辞書が複数の言語の辞書を含んでおり、複
数の言語のどの言語の単語であっても同じ概念の単語は
同じ概念識別子に変換し、言語の種類によらない文書検
索を行うことを特徴とする。

【００１２】

【作用】請求項１に記載の文書分類装置においては、文
書の学習と学習に基づいた文書の分類が行われる。文書
の学習においては、文書記憶部に記憶されている学習対
象の文書データの内容が文書解析部に渡され、特徴ベク
トル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、概念ベクトル生成部において、特徴ベクト
ル生成用辞書の概念識別子を使用して単語から概念識別
子への変換が行われ、概念識別子間の共起関係を用いて
概念識別子の特徴を表現する概念識別子の特徴ベクトル
が自動的に生成される。こうして生成された概念識別子
の特徴ベクトルは、概念ベクトル記憶部に記憶される。
文書の分類においては、文書記憶部に記憶されている分
類対象の文書データの内容が文書解析部に渡され、特徴
ベクトル生成用辞書の単語を使用して文書の解析が行わ
れる。つぎに、文書ベクトル生成部において、概念ベク
トル記憶部に登録された概念識別子から、文書の特徴ベ
クトルを生成する。こうして生成された文書の特徴ベク
トルは、文書ベクトル記憶部に記憶される。分類部にお
いて、文書の特徴ベクトルの類似度によって文書が分類
される。分類結果は、結果記憶部に記憶される。

【００１３】請求項２に記載の文書分類装置において
は、結果記憶部に記憶された分類ごとに概念識別子の出
現率を調べ、分類に有用な概念識別子を選出し、分類に
有用な概念識別子を特徴ベクトル生成用辞書に登録す
る、有用概念識別部をさらに含むように構成されている
ので、分類に有用な概念識別子を用いることによって、
特徴ベクトルの記憶空間を削減したり、分類の精度を向
上させることができる。

【００１４】請求項３に記載の文書分類装置において
は、結果記憶部に記憶された分類ごとに、概念識別子や
文書の特徴ベクトルを用いて、その分類を代表する文書
の特徴ベクトルを求める代表ベクトル生成部と、分類を
代表する文書の特徴ベクトルを記憶する代表ベクトル記
憶部とをさらに含むように構成されているので、一度各
分類群の代表ベクトルを生成してしまえば、新たな文書
データを分類するときには、その文書の特徴ベクトルと
各分類群の代表ベクトルとの比較を行なうだけでその文
書がどの分類群に属すかを判定できるようになる。

【００１５】請求項４に記載の文書分類装置において
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書分類を行うことができる。

【００１６】請求項５に記載の文書検索装置において
は、文書の学習と学習に基づいた文書の検索が行われ
る。文書の学習においては、文書記憶部に記憶されてい
る学習対象の文書データの内容が文書解析部に渡され、
特徴ベクトル生成用辞書の単語を使用して文書の解析が
行われる。つぎに、概念ベクトル生成部において、特徴
ベクトル生成用辞書の概念識別子を使用して単語から概
念識別子への変換が行われ、概念識別子間の共起関係を
用いて概念識別子の特徴を表現する概念識別子の特徴ベ
クトルが自動的に生成される。こうして生成された概念
識別子の特徴ベクトルは、概念ベクトル記憶部に記憶さ
れる。文書の検索においては、検索文入力部から検索キ
ーとなる文書が入力され、文書解析部に渡され、特徴ベ
クトル生成用辞書の単語を使用して文書の解析が行われ
る。つぎに、文書ベクトル生成部において、概念ベクト
ル記憶部に登録された概念識別子から、文書の特徴ベク
トルを生成する。こうして生成された文書の特徴ベクト
ルは、文書ベクトル記憶部に記憶される。検索部におい
て、検索キーとなる文書と学習された文書との特徴ベク
トルの類似度が比較され、類似度の高いものが検索結果
として出力部に渡され、検索結果として出力される。

【００１７】請求項６に記載の文書検索装置において
は、特徴ベクトル生成用辞書が複数の言語の辞書を含ん
でおり、複数の言語のどの言語の単語であっても同じ概
念の単語は同じ概念識別子に変換し、言語の種類によら
ない文書検索を行うことができる。

【００１８】

【実施例】請求項１に記載の発明の文書分類装置の一実
施例を図１に示す。ここで、図１（ａ）は、全体の装置
構成、図１（ｂ）は、学習時に使用される装置の構成、
図１（ｃ）は、分類時に使用される装置の構成を夫々示
す。図中１０１は文書記憶部、１０２は文書解析部、１
０３は概念ベクトル生成部、１０４は概念ベクトル記憶
部、１０５は文書ベクトル生成部、１０６は文書ベクト
ル記憶部、１０７は分類部、１０８は結果記憶部、１０
９は特徴ベクトル生成用辞書である。

【００１９】文書記憶部１０１には、学習に用いるため
の文書や、分類する文書を記憶する。文書解析部１０２
は文書記憶部１０１から文書を渡され、特徴ベクトル生
成用辞書１０９中の単語辞書を用いてその文書の形態素
解析を行なう。ここで、文書の形態素解析とは、文書を
単語等に分けることをいう。

【００２０】概念ベクトルを学習する場合の各構成要素
の作用の概要について、図１（ｂ）に基づいて説明す
る。概念ベクトル生成部１０３では、文書解析部１０２
から渡された単語データを、特徴ベクトル生成用辞書１
０９中の概念辞書（単語と概念識別子との関連付けを行
なっている辞書）を参照して概念識別子に変換し、概念
識別子間の共起関係を利用して概念識別子の特徴ベクト
ルを生成する。概念ベクトル記憶部１０４は、概念ベク
トル生成部１０３で生成された概念識別子の特徴ベクト
ルを記憶する。

【００２１】つぎに、文書を分類する場合の各構成要素
の作用の概要について、図１（ｃ）に基づいて説明す
る。文書ベクトル生成部１０５では、文書解析部１０２
から渡された単語データを、特徴ベクトル生成用辞書１
０９中の概念辞書を参照して概念識別子に変換し、そこ
で得られた概念識別子の特徴ベクトルを概念ベクトル記
憶部１０４を参照して求め、文書中から得られる全ての
単語についてこのようにして求めた概念識別子の特徴ベ
クトルから（平均化するなどして）文書の特徴ベクトル
を求める。文書ベクトル記憶部１０６は、文書ベクトル
生成部で求められた文書の特徴ベクトルを記憶する。分
類部１０７は、文書ベクトル記憶部１０６から渡された
文書の特徴ベクトルを用いて、文書を分類する。結果記
憶部１０８は、分類部１０７で分類された文書の情報
（どの文書がどの分野に分類されたか）を記憶する。

【００２２】特徴ベクトル生成用辞書１０９は、文書を
形態素解析する時に用いる単語辞書と、各単語に関連付
けられた概念識別子を求めるための概念辞書とからな
る。これは必ずしも二つの辞書に分けられているという
ことではなく、一つの辞書において、各単語に概念識別
子が割り当てられているような辞書であってもよい。

【００２３】一般に通常の文書に使用されている全ての
単語に関連付けられた概念識別子の個数を合計すると非
常に大きな数値になるため、特徴ベクトルを作成する際
に用いる概念識別子の個数を制限しておくのが好まし
い。このために特徴ベクトル生成用辞書１０９の概念辞
書において、ここに登録されている概念識別子のみを用
いて概念識別子の特徴ベクトルを作成することで、特徴
ベクトルの記憶空間の巨大化を抑えることができる。

【００２４】概念識別子の特徴ベクトルの学習時には、
学習用の大量の文書データを文書記憶部１０１に記憶さ
せておき、文書記憶部１０１から読み出した文書データ
は記事、段落、一文等の適当な単位ごとに文書解析部１
０２に読み込まれ、文書解析部１０２でその文書データ
を解析して単語が抽出される。抽出された単語に関連し
ている概念識別子を特徴ベクトル生成用辞書１０９を参
照して求め、ここで求められた概念識別子の列をもとに
して概念ベクトル生成部１０３で概念識別子の特徴ベク
トルを生成し、１０３で生成された概念識別子の特徴ベ
クトルは概念ベクトル記憶部１０４に記憶される。こう
して概念識別子の特徴ベクトルを学習する。

【００２５】文書の分類をする時には、分類する文書の
データを文書記憶部１０１に記憶させておき、文書記憶
部１０１から読み出した文書データは分類を行なわせた
い単位（例えば記事単位）ごとに文書解析部１０２に読
み込まれ、文書解析部１０２でその文書データの解析を
して単語が抽出される。ここで抽出された単語に関連し
ている概念識別子の特徴ベクトルを概念ベクトル記憶部
１０４の内容を参照して求める。通常は文書データの一
つの単位（例えば一つの記事）から複数の単語が抽出さ
れ、それに関連する概念識別子も複数になるが、この場
合には関連するすべての概念識別子の特徴ベクトルの値
を平均化することで文書の特徴ベクトルが計算される。

【００２６】この時、単純に平均化するのではなく、各
概念識別子の特徴ベクトルをその概念識別子の出現頻度
の逆数に応じて重み付けをしてから（例えば、大量の記
事からその概念識別子の出現している記事数を調査し、
ｌｏｇ（全記事数／その概念識別子の出現している記事
数）をその概念識別子の特徴ベクトルに乗じてから）平
均化するとより良い値が得られる場合がある。

【００２７】文書の特徴ベクトルが求まったら従来のク
ラスタリングの手法を適用することで文書の分類を行な
うことができる。これは例えば文書の特徴ベクトル間の
距離が近い文書同士は同じ分野に属するとみなせば良
い。

【００２８】また、人間が各分類群ごとに典型的な文書
を選び、その文書から抽出される概念識別子の特徴ベク
トルからその分類群の仮の代表ベクトルを生成してお
き、文書記憶部１０１から読み込まれる文書の特徴ベク
トルがどの分類群の仮の代表ベクトルに近いかで文書を
分類することもできる。このような分類手法でも１０１
から大量に文書データを読み込ませれば仮の代表ベクト
ルを人間が選んでいるということに起因する誤差の影響
が少なくなり、最終的には各分野毎のかなり一般的な代
表ベクトルを生成することができる。

【００２９】以下に、概念識別子の特徴ベクトルの生成
法を説明する。

【００３０】文書を形態素解析する単語をｗｏｒｄ₁，
ｗｏｒｄ₂，・・・，ｗｏｒｄ_pのｐ個とし、特徴ベク
トルの各要素に対応する概念識別子をｃｏｎｃ₁，ｃｏ
ｎｃ₂，・・・，ｃｏｎｃ_nのｎ個とし、特徴ベクトル
を持たせる概念識別子（特徴ベクトル作成概念識別子と
呼ぶことにする）をｃｉｄ₁，ｃｉｄ₂，・・・，ｃｉ
ｄ_qのｑ個とし、概念識別子の特徴ベクトルを学習する
ために用意された記事はｍ個あるとする。

【００３１】ここで単語とは、「私」「Ｉ」「ｉｃｈ」
など、扱いたい言語の単語であり、概念識別子とは、各
概念に付けられた番号である。辞書によっては各単語と
関連している概念識別子のリストが得られるようになっ
ているものがある。例えば、（株）日本電子化辞書研究
所のＥＤＲ電子化辞書等である。このような辞書が利用
できない場合でも、辞書に登録されている単語を、例え
ばコードの小さい順にソートして各単語に番号を割り振
り、「その単語の番号」＝「その単語に関連している概
念識別子」とすることで、本分類手法を用いることがで
きる。ここで、各単語に番号を割り振るには、ソートし
た場合に何行目にくるかをその単語の番号にすれば良
い。

【００３２】また、日常的に使用される国語辞典、英和
辞典、独和辞典等を利用することによっても各単語と関
連している概念識別子を得ることができる。例えば、概
念「私」の番号を『私』で表すとすると、単語「私」に
関連している概念識別子は『私』となる。ここで、概念
「私」の番号は、単語「私」の番号とするなど適当に定
めてしまって構わない。英和辞典に『Ｉ：私』という項
目があれば、単語「Ｉ」に関連している概念識別子も
『私』とすることができる。また独和辞典に「ｉｃｈ：
私」という項目があれば、単語「ｉｃｈ」に関連してい
る概念識別子も『私』とすることができる。一般には一
つの単語には複数の概念が関連していることがあるの
で、各単語に関連している概念識別子は複数存在しても
良い。

【００３３】記事ｉに含まれる単語の出現頻度ベクトル
Ｖ_iを

【００３４】

【数１】

【００３５】で表し、記事ｉに含まれる特徴ベクトル作
成概念識別子の出現頻度ベクトルＵ_iを

【００３６】

【数２】

【００３７】で表す。

【００３８】単語ｗｏｒｄ_iと概念識別子ｃｏｎｃ_jと
の関連の強さを返す関数をｆ（ｗｏｒｄ_i，ｃｏｎ
ｃ_j）とする。使用する概念辞書によっては関連の強さ
が記述されていない場合があるが、この場合は単語ｗｏ
ｒｄ_iと概念識別子ｃｏｎｃ_jとが関連していればｆ
（ｗｏｒｄ_i，ｃｏｎｃ_j）＝１、単語ｗｏｒｄ_iと概
念識別子ｃｏｎｃ_jとが関連していなければｆ（ｗｏｒ
ｄ_i，ｃｏｎｃ_j）＝０と定義する。

【００３９】一つの単語には複数の概念識別子が関連付
けられている場合があるが、概念識別子の出現頻度ベク
トルＵ_iを作成する時に、これを全部使う方法と、一つ
あるいは適当な個数まで使う方法とがある。つまり、よ
り一般的には複数の概念識別子のうちｒ個までを使うと
いうことにすれば、これらの全ての場合に対応できる。
例えば、全ての概念識別子を使いたければｒ＝ｎにすれ
ば良いし、一つだけ使いたければｒ＝１とすれば良い。
そこで、記事ｉに含まれている単語に関連付けられてい
る概念識別子のうちｒ個までを扱う場合の概念識別子出
現頻度ベクトルをＴ_iで表すことにすると次のように定
義される。

【００４０】

【数３】

【００４１】すると、特徴ベクトル作成概念識別子ｃｉ
ｄ_jの特徴ベクトルＷ_jは、以下の式で表される。

【００４２】

【数４】

【００４３】この式からわかるように、全記事について
概念識別子の出現頻度ベクトルＴ_iをその記事中での出
現頻度分の重み付きで加算していくため、特徴ベクトル
作成概念識別子ｃｉｄ_jの特徴ベクトルＷ_jは特徴ベク
トル作成概念識別子ｃｉｄ_jが頻繁に含まれる記事の分
野の概念識別子出現頻度分布に類似した値を持つことに
なる。

【００４４】記事の特徴ベクトルＡ₁，Ａ₂，・・・，
Ａ_mは、概念識別子の特徴ベクトルから以下の式で算出
される。

【００４５】

【数５】

【００４６】なお、特徴ベクトルを持たせる概念識別子
と、特徴ベクトルの各要素の対応する概念識別子とは全
く同一のものにしても良いし、全く別のものにしても良
い。例えばベクトルの次元数は１００程度にして、特徴
ベクトルを持たせる概念識別子を１０００程度にするこ
ともできる。以下の具体的な説明の際にはわかりやすく
するために、全く同一のものを使用する。つまり、ｎ＝
ｑであり、すべてのｉ（１＜ｉ＜ｎ）において、ｃｏｎ
ｃ_i＝ｃｉｄ_iであるとする。

【００４７】以下に、具体的に概念識別子の特徴ベクト
ルの生成法を説明する。

【００４８】例文Ａ「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」例文Ｂ「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削減する意向のようだ。」という文書データからどのように概念識別子の特徴ベク
トルを作成するかを説明する。ここでは、文書データは
「一文」という単位で読み込まれることとするが、これ
は一記事など他の単位でも構わない。

【００４９】また、特徴ベクトルの次元数が２１次元、
すなわち、特徴ベクトル生成用辞書に登録されている概
念識別子の個数が２１個で、各要素は『アメリカ』『政
府』『進んでいる』『おもな』『国家』『ココム』『規
制』『抜本的』『見直し』『提案』『対象』『戦いの道
具』『作り出す』『工業』『製品』『輸出』『条件』
『品物の種類』『大幅』『削減』『意向』という概念識
別子に対応しているとする。（『言葉』は、「言葉」と
いう概念に付けられている概念識別子を表す。実際に使
用する時にはなんらかの数値であるが、特にここで数値
を限定する必要はないので、このように自由度の高い形
で記述している。）そして、「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」「対象」「兵器」「製造」「工業」「製
品」「輸出」「条件」「品目」「大幅」「削減」「意
向」という各単語に関連付けられている概念識別子は以
下のようになっているとする。

【００５０】単語「アメリカ」に対して概念識別子『ア
メリカ』単語「政府」に対して概念識別子『政府』単語「先進」に対して概念識別子『進んでいる』単語「主要」に対して概念識別子『おもな』単語「国」に対して概念識別子『国家』単語「ココム」に対して概念識別子『ココム』単語「規制」に対して概念識別子『規制』単語「抜本的」に対して概念識別子『抜本的』単語「見直し」に対して概念識別子『見直し』単語「提案」に対して概念識別子『提案』単語「対象」に対して概念識別子『対象』単語「兵器」に対して概念識別子『戦いの道具』単語「製造」に対して概念識別子『作り出す』単語「工業」に対して概念識別子『工業』単語「製品」に対して概念識別子『製品』単語「輸出」に対して概念識別子『輸出』単語「条件」に対して概念識別子『条件』単語「品目」に対して概念識別子『品物の種類』単語「大幅」に対して概念識別子『大幅』単語「削減」に対して概念識別子『削減』単語「意向」に対して概念識別子『意向』このような条件のもとで、例文Ａが１０１から読み込ま
れると、１０２で解析されて「アメリカ」「政府」「先
進」「主要」「国」「ココム」「規制」「抜本的」「見
直し」「提案」という単語が抽出される。各単語は１０
３にてそれぞれ概念識別子『アメリカ』『政府』『進ん
でいる』『おもな』『国家』『ココム』『規制』『抜本
的』『見直し』『提案』に変換され、概念識別子の出現
頻度分布ベクトルが求められる。

【００５１】これから得られる概念識別子の出現頻度分
布ベクトルは（１，１，１，１，１，１，１，１，１，１，０，０，
０，０，０，０，０，０，０，０，０）＝Ｖ_A である。すると、『アメリカ』『政府』等、例文Ａに出
現する概念識別子の特徴ベクトルには（１，１，１，
１，１，１，１，１，１，１，０，０，０，０，０，
０，０，０，０，０，０）＝Ｖ_Aを加算する。正確に
は、このベクトル＝Ｖ_Aの絶対値を１に正規化したもの
を加算する。図４は、例文Ａを読み込んだ後の概念識別
子の特徴ベクトルを並べて行列にしたものである。

【００５２】次に例文Ｂが文書記憶部１０１から読み込
まれると、文書解析部１０２で解析されて「規制」「対
象」「国」「兵器」「製造」「工業」「製品」「輸出」
「規制」「条件」「ココム」「規制」「品目」「大幅」
「削減」「意向」という単語が抽出される。各単語は概
念ベクトル生成部１０３にてそれぞれ概念識別子『規
制』『対象』『国家』『戦いの道具』『作り出す』『工
業』『製品』『輸出』『規制』『条件』『ココム』『規
制』『品物の種類』『大幅』『削減』『意向』に変換さ
れる。

【００５３】これから得られる概念識別子の出現頻度分
布ベクトルは（０，０，０，０，１，１，３，０，０，０，１，１，
１，１，１，１，１，１，１，１，１）＝Ｖ_B である。『規制』は３回出現しているので、この概念識
別子の出現頻度分布ベクトル＝Ｖ_Bを３倍したベクトル
である（０，０，０，０，３，３，９，０，０，０，
３，３，３，３，３，３，３，３，３，３，３）を『規
制』の特徴ベクトルに加算する。正確には、ベクトルＶ
_Bの絶対値を１に正規化したものを３倍したベクトルを
加算する。『対象』『国家』等、例文Ｂに１回しか出現
しない概念識別子の特徴ベクトルには（０，０，０，
０，１，１，３，０，０，０，１，１，１，１，１，
１，１，１，１，１，１）＝Ｖ_Bを加算する。正確に
は、このベクトル＝Ｖ_Bの絶対値を１に正規化したもの
を加算する。図５は、例文Ａ、Ｂを読み込んだ後の概念
識別子の特徴ベクトルを並べて行列にしたものである。
である。

【００５４】なお、図ではわかりやすくするため、以上
のように常に整数を加算することにして説明したが、こ
の方法では文の長さによって加算するベクトルの大きさ
が変化してしまうので、実際には、加算するベクトルの
絶対値を１に正規化したり、出現頻度分布のベクトルの
絶対値を１に正規化してから出現数に比例した値を掛け
た後に加算する方法をとった方が良い。この方法につい
ては、これまでの説明の中で、「正確には、」として記
述した。

【００５５】そして最終的に得られた特徴ベクトルは、
絶対値を１に正規化しておく。

【００５６】こうして得られた概念識別子の特徴ベクト
ルは概念ベクトル記憶部１０４に記憶され、文書の分類
時に利用される。具体例として以下の例文Ｃが読み込ま
れた時の処理を説明する。

【００５７】例文Ｃ「アメリカ政府は兵器の削減を提案
した。」例文Ｃが１０１から読み込まれると、文書解析部１０２
で解析されて「アメリカ」「政府」「兵器」「削減」
「提案」という単語が抽出される。各単語は文書ベクト
ル生成部１０５にてそれぞれ概念識別子『アメリカ』
『政府』『戦う道具』『提案』に変換される。

【００５８】すると文書ベクトル生成部１０５では概念
ベクトル記憶部１０４の内容を参照して『アメリカ』
『政府』等、例文Ｃに出現する概念識別子の特徴ベクト
ルを加算していき、例文Ｃの特徴ベクトルとして（３，３，３，３，５，５，９，３，３，３，２，２，
２，２，２，２，２，２，２，２，２）を得る。図６は、図５に示した概念識別子の特徴ベクト
ルを利用して例文Ｃの特徴ベクトルを生成した結果を示
す。である。図６ではわかりやすさを優先するためにベ
クトルの正規化を行なっていないが、実際の処理では加
算する前に各概念識別子の特徴ベクトルの絶対値を１に
正規化してから加算を行ない、最後に得られた特徴ベク
トルの絶対値も１に正規化しておく。

【００５９】次に、分類時に文書の特徴ベクトルをどの
ように利用するのかを説明する。簡単には、まず求まっ
た文書の特徴ベクトルの絶対値を１に正規化してから、
Ｋ−ｍｅａｎｓ法などの従来からある手法を用いて分類
したり、分類群の（仮）代表ベクトルとの類似度で分類
すれば良い。ここで、類似度は、距離を求めたり内積を
計算することによって得られる。

【００６０】分類の具体例として、分類群が３つあり、
それぞれの分類群の代表ベクトルが以下のように求めら
れていたとする。

【００６１】

【数６】

【００６２】類似度の尺度として、文書の特徴ベクト
ル、分類群の代表ベクトル共に絶対値を１に正規化して
から両者の内積を計算し、一番大きな値をとるものが一
番類似度が高いとすると、

【００６３】

【数７】

【００６４】なので、例文Ｃの特徴ベクトルと各分類群
の代表ベクトルとの内積は

【００６５】

【数８】

【００６６】となり、例文Ｃの特徴ベクトルは分類群３
の代表ベクトルに一番近いことがわかるので、例文Ｃは
分類群３に分類される。図７は、この結果を示す。図７
も図６と同様わかりやすさを優先するためにベクトルの
正規化を行なっていないが、実際の処理では比較を行な
う前に各ベクトルの絶対値を１に正規化してから比較を
行なう。

【００６７】この分類装置の有効性を評価するための実
験を行なった。

【００６８】実験方法として、具体的には、１９８７年
の朝日新聞の４００記事を、「政府」「経済」「国際」
「社会（犯罪，事件）」「社会（教育，人間）」の五つ
の分野に分類するタスクにおいて、人間が分類した結果
を正解として分類正解率を求めた。但し、二つの分野に
分類できるような記事は、そのどちらに分類されても正
解とみなした。

【００６９】このタスクを行なう場合の特徴ベクトルの
構成時に、１．単語をそのまま用いる２．ＥＤＲの辞書を利用して求めた概念識別子を用いるの２種類の方法で分類正解率を比較した。

【００７０】実験に使用したデータとその使用目的等は
以下の通りである。

【００７１】１．ＥＤＲ電子化辞書評価版第２．１版単語データの抽出にＥＤＲ電子化辞書の日本語単語辞書
評価版第２．１版を使用し、単語間の類似度の計算に上
記日本語単語辞書とＥＤＲ電子化辞書の概念辞書評価版
第２．１版を使用した。

【００７２】評価版第２．１版の日本語単語辞書の登録
語数は基本語約１６万語、専門用語約４．２万語であ
り、評価版第２．１版の概念辞書の収録概念数は約３６
万概念である。

【００７３】２．ＣＤ−ＨＩＡＳＫ（朝日新聞のＣＤ−
ＲＯＭ）１９９０年版（約１５０Ｍバイト、１０１９６
６記事）特徴ベクトルを生成するためのデータとして使用した。
また各分野の典型的な記事もここから抜き出し、各分野
の代表ベクトルを生成する時にも使用した。

【００７４】３．ＣＤ−ＨＩＡＳＫ（朝日新聞のＣＤ−
ＲＯＭ）１９８７年版から抜き出した記事人間による分類と分類装置による分類との比較に使用し
た。この記事の一例を以下に示す。

【００７５】物価と為替の安定維持が最大の課題澄田
日銀総裁が語る澄田日銀総裁は３１日、朝日新聞との
インタビューで、新年の金融政策について、物価の安定
維持が最大の課題であることを強調しつつ、内需拡大、
対外不均衡の是正に取り組む姿勢を明らかにした。その
一方で、日本経済が国際的に影響力を増していることを
踏まえ、国際協調がますます重要になっていることを指
摘しながらも、金融政策が外圧や国内政治からの独立性
と自主性を確保することが一層…… ４．単語データＥＤＲ電子化辞書評価版第２．１版の日本語単語辞書中
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語を使用した。文書か
ら単語を抽出する方法は、長さの長いものを優先して選
択するパターンマッチング（最長一致法）によるが、連
続する二単語を複数の組み合わせで抽出できる場合に
は、その二単語の合計の長さが最長になる組み合わせの
最初の単語を選択する手法（二文節最長一致法）を用い
た。ただし誤抽出をできるだけ減らすため、漢字一文字
の単語の場合は前後が非漢字の場合のみ抽出した。朝日
新聞１９９０年１月１日朝刊の最初から抽出された５０
０単語について調査した結果、この方法で９５％程度正
しく抽出されることを確認した。

【００７６】５．概念識別子データＥＤＲ電子化辞書評価版第２．１版の日本語単語辞書中
から「平仮名だけからなる三文字以下の単語」と「漢字
以外の一文字単語」を除いた全単語について、関連する
概念識別子を調査し、使用頻度の高いものを採用した。
関連する概念識別子を全部使用する場合と、一つだけ使
用する場合との二通りで実験を行なった。

【００７７】６．特徴ベクトル特徴ベクトルの各要素に対応する概念識別子（または単
語）と、特徴ベクトルが付加される概念識別子（または
単語）とは、同一のものをしようすることにした。

【００７８】また、特徴ベクトルの次元数は４０９６，
２０４８，１０２４，５１２，２５６，１２８，６４の
７種類で実験した。

【００７９】この次元数個分の概念識別子（または単
語）の選出の方法であるが、単純に朝日新聞１９９０年
版の中で出現頻度の高いものから順番に選出した。

【００８０】このようにして得られた、実験結果につい
て以下に説明する。

【００８１】分類する時に、分野の第１位候補と第２位
候補とのスコア（記事の特徴ベクトルと、分野の代表ベ
クトルとの内積の値）の比の大小によって、分野がまぎ
らわしいかはっきりしているかを判定できるので、スコ
アの比が大きいもの（分野がはっきりしているもの）は
分類の易しい記事群、スコアの比が小さいもの（分野が
まぎらわしいもの）は分類の難しい記事群として、分類
の正解率は分類の易しい記事群（２００記事）、難しい
記事群（２００記事）、全体（４００記事）、の３つの
値を出した。この結果を表１に示す。

【００８２】

【表１】

【００８３】表１より、ベクトルの次元数が５１２以上
の時には概念識別子を一つだけ用いると、かなり高い精
度での分類ができることが確認できる。特に次元数２０
４８における易しい記事の分類正解率は９９％となり、
ほぼ１００％近い正解率で分類できることがわかる。こ
れはＥＤＲ電子化辞書評価版第２．１版をそのまま使用
した場合の実験結果だが、他の辞書を用いれば辞書の単
語や概念識別子の粒度に応じて最適なベクトルの次元数
が変化することが予想される。

【００８４】つまり、ベクトルの次元数を高くとれる場
合には、粒度の細かい辞書を使用し、ベクトルの次元数
があまり高くとれない場合には、粒度の粗い辞書を使用
すると、高い正解率が得られることが予想されるため、
分類装置が使用できる記憶容量に応じて、その容量にあ
った粒度の辞書を使用すると良い。

【００８５】請求項２に記載の発明の文書分類装置の一
実施例を図２に示す。ここで、図２（ａ）は、全体の装
置構成、図２（ｂ）は、学習時に使用される装置の構
成、図２（ｃ）は、分類時に使用される装置の構成を夫
々示す。図中、２０１は文書記憶部、２０２は文書解析
部、２０３は概念ベクトル生成部、２０４は概念ベクト
ル記憶部、２０５は文書ベクトル生成部、２０６は文書
ベクトル記憶部、２０７は分類部、２０８は結果記憶
部、２０９は特徴ベクトル生成用辞書、２１０は有用概
念識別子選出部である。

【００８６】図１に示した実施例と同様の方法によっ
て、概念識別子の特徴ベクトルを学習し、それをもとに
大量の文書データを分類する。分類した結果は結果記憶
部２０８に記憶されているが、この結果を元にして、有
用概念識別子選出部２１０で有用概念識別子の選出を行
なう。これは、分類群ごとに各概念識別子の出現頻度を
求め、どの分類群にも同じような割合で含まれている概
念識別子を除去したり（方法１：最高頻度と最低頻度と
の比がある閾値以下のものを除去）、ある分類にだけ高
い割合で含まれているものを選出したり（方法２：最高
頻度と第二位頻度との比がある閾値以上のものを選出）
する。なお、有用概念識別子選出部２１０で選出を行な
う概念識別子は必ずしも特徴ベクトル生成用辞書２０９
に登録されている概念識別子からでなくても良く、もっ
と広い範囲の概念識別子から選出を行なうことができ
る。

【００８７】具体例として分類群がａ，ｂ，ｃの三つあ
ったとして、特徴ベクトル生成用辞書２０９に登録され
ている概念識別子が『政治』『日本』『国際』の三つだ
ったとする。そして分類群ごとに各概念識別子（特徴ベ
クトル生成用辞書２０９に登録されている概念識別子以
外に『選挙』『問題』についても頻度を調べるとする）
の頻度が次のようだったとする。

【００８８】分類群ａ政治３０％，日本５％，国際３
５％，選挙１０％，問題２０％分類群ｂ政治３％，日本５５％，国際３５％，選挙２
％，問題５％分類群ｃ政治３％，日本３０％，国際３５％，選挙２
％，問題３０％この場合に、方法１を用いると『国際』はどの分類群に
も同じような割合で含まれているので、特徴ベクトル生
成用辞書から除去することになる。『政治』『日本』
『選挙』『問題』は分類群ごとの頻度に偏りがあるの
で、有用概念識別子として選出され、特徴ベクトル生成
用辞書２０９に登録する（この時登録概念識別子数を抑
えたい場合は、頻度に偏りのある概念識別子の中で、合
計の出現頻度の順番に登録したい個数だけ取ってくれば
良い。）方法２を用いた場合『政治』と『選挙』だけが
選出され特徴ベクトル生成用辞書２０９に登録し、『日
本』や『国際』や『問題』は特徴ベクトル生成用辞書２
０９には登録しない。方法１と方法２の中間的な方法と
して、第１位の頻度と第ｎ位（ｎは３以上、分類群の個
数−１以下）の頻度との比がある閾値以上であるかどう
かで有用概念識別子を選出する方法も考えられる。

【００８９】また、頻度の比ではなく、頻度の分散の値
が大きいものを選出する方法も考えられる。

【００９０】なお、このようにして選出された概念識別
子は頻度の比（あるいは頻度の分散）に応じた重要度を
持っていると考えることができるので、文書の特徴ベク
トルを計算する時にはその文書内の概念識別子の特徴ベ
クトルをこの比（あるいは分散）に応じて重み付けをし
てから（例えばｌｏｇ（頻度の比）をその概念識別子の
特徴ベクトルに掛けてから）平均化するとより良い文書
の特徴ベクトルの値が得られる場合がある。

【００９１】こうして特徴ベクトル生成用辞書２０９
に、分類に有用な概念識別子だけを登録し、もう一度、
概念識別子の特徴ベクトルを学習し、それを用いて文書
を分類すると、特徴ベクトル生成辞書をより小さくでき
たり、分類の精度をあげることができる。

【００９２】請求項３に記載した発明の文書分類装置の
一実施例を図３に示す。ここで、図３（ａ）は、全体の
装置構成、図３（ｂ）は、学習時に使用される装置の構
成、図３（ｃ）は、分類時に使用される装置の構成を夫
々示す。図中３０１は文書記憶部、３０２は文書解析
部、３０３は概念ベクトル生成部、３０４は概念ベクト
ル記憶部、３０５は文書ベクトル生成部、３０６は文書
ベクトル記憶部、３０７は分類部、３０８は結果記憶
部、３０９は特徴ベクトル生成用辞書、３１０は有用概
念識別子選出部、３１１は代表ベクトル生成部、３１２
は代表ベクトル記憶部である。図１に示した実施例を基
にして、本実施例の装置を構成する場合には有用概念識
別子選出部３１０が無いシステムとなる。

【００９３】図１及び図２に示した実施例と同様の方法
によって、概念識別子の特徴ベクトルを学習し、それを
もとに大量の文書データを分類する。分類した結果は３
０８に記憶されているが、この結果を元にして、３１１
で代表ベクトルを生成する。これは、分類群ごとの各概
念識別子の頻度を求め、各概念識別子の特徴ベクトルを
頻度の重みをつけて平均したものである。具体例として
分類群がａ，ｂ，ｃの三つあったとして、特徴ベクトル
生成用辞書３０９に登録されている概念識別子が『政
治』『国会』『国際』の三つだったとする。そして分類
群ごとの各概念識別子の頻度が次のようだったとする。

【００９４】分類群ａ政治４０％，国会５０％，国際１０％分類群ｂ政治１０％，国会１０％，国際８０％分類群ｃ政治２０％，国会１０％，国際７０％すると、分類群ａの代表ベクトルは、『政治』の特徴ベ
クトルに０．４を掛けたものと、『国会』の特徴ベクト
ルに０．５を掛けたものと、『国際』の特徴ベクトルに
０．１を掛けたものの和として与えられる。

【００９５】また、分類群ａに分類された文書全部の特
徴ベクトルの平均をとったものを分類群ａの代表ベクト
ルとする方法も考えられる。

【００９６】こうして、代表ベクトルが生成されたらそ
れを代表ベクトル記憶部３１２に記憶しておくことで、
以後の文書の分類時にはこの代表ベクトルを参照するこ
とで、文書記憶部３０１から読み込まれた文書は、その
文書の特徴ベクトルにもっとも類似した代表ベクトルに
対応する分類群に分類することができるようになる。こ
れにより、分類の処理が高速化できる。

【００９７】本実施例を用いて文書を分類している様子
の一例を図８に示す。これは、分類装置側の「分類した
い文を入力して下さい。」という質問に対して、ユーザ
が「大手保険会社の債券投資姿勢に格差が生じてき
た。」という文を入力した場合の例である。このユーザ
入力文の特徴ベクトルと分類群「政治」の代表ベクトル
との類似度は約０．４５８３、分類群「国際」の代表ベ
クトルとの類似度は約０．５７５９、分類群「経済」の
代表ベクトルとの類似度は約０．９４３８となり、この
ユーザ入力文はもっとも類似度の高い分類群「経済」に
分類されている。

【００９８】請求項５に記載した文書検索装置の一実施
例を図１０に示す。ここで、図１０（ａ）は、全体の装
置構成、図１０（ｂ）は、学習時に使用される装置の構
成、図１０（ｃ）は、検索時に使用される装置の構成を
夫々示す。図中１００１は文書記憶部、１００２は文書
解析部、１００３は概念ベクトル生成部、１００４は概
念ベクトル記憶部、１００５は文書ベクトル生成部、１
００６は文書ベクトル記憶部、１００７は検索部、１０
０８は出力部、１００９は特徴ベクトル生成用辞書、１
０１０は検索文入力部である。

【００９９】文書記憶部１００１には、学習に用いるた
めの文書や、検索対象の文書を記憶する。検索文入力部
１０１０からは、検索したい文（単語だけでも良い）が
入力される。文書解析部１００２は文書記憶部１００１
や検索文入力部１０１０から文書を渡され、特徴ベクト
ル生成用辞書１００９中の単語辞書を用いてその文書の
形態素解析（単語等に分けること）を行なう。

【０１００】概念ベクトルを学習する時の各構成要素の
作用の概要を、図１０（ｂ）に基づいて説明する。概念
ベクトル生成部１００３では、文書解析部１００２から
渡された単語データを、特徴ベクトル生成用辞書１００
９中の概念辞書（単語と概念識別子との関連付けを行な
っている辞書）を参照して概念識別子に変換し、概念識
別子間の共起関係を利用して概念識別子の特徴ベクトル
を生成する。概念ベクトル記憶部１００４は、概念ベク
トル生成部１００３で生成された概念識別子の特徴ベク
トルを記憶する。

【０１０１】文書を検索する時の各構成要素の作用の概
要を、図１０（ｃ）に基づいて説明する。文書ベクトル
生成部１００５では、文書解析部１００２から渡された
単語データを、特徴ベクトル生成用辞書１００９中の概
念辞書を参照して概念識別子に変換し、そこで得られた
概念識別子の特徴ベクトルを概念ベクトル記憶部１００
４を参照して求め、文書中から得られる全ての単語につ
いてこのようにして求めた概念識別子の特徴ベクトルか
ら、平均化するなどして文書の特徴ベクトルを求める。
文書ベクトル記憶部１００６は、文書ベクトル生成部で
求められた文書の特徴ベクトルを記憶する。検索文入力
部１０１０から入力された文も、同様にして特徴ベクト
ルが求められ、文書ベクトル記憶部１００６には、検索
文の特徴ベクトルも記憶される。検索部１００７は、文
書ベクトル記憶部１００６から検索文の特徴ベクトルを
取得し、文書ベクトル記憶部１００６に記憶されている
各文書の特徴ベクトルと検索文の特徴ベクトルとの類似
度が高いものを検索結果として出力部１００８に渡す。
出力部１００８では、検索部１００７から渡された検索
結果を出力する。

【０１０２】検索部１００７での類似度の高さの判定
は、検索文の特徴ベクトルの絶対値を１に正規化したも
のと、各文書の特徴ベクトルの絶対値を１に正規化した
ものとの内積をとって判断する。内積がある閾値（例え
ば０．９）より高いものを検索結果として出力部１００
８に渡す方法や、内積の高い順番に文書を適当な個数
（例えば１０個）選出して出力部１００８に渡す方法等
がある。

【０１０３】この実施例での曖昧検索の一例を図１１に
示す。ここで、図１１（ａ）は日本語による曖昧検索の
例を示し、図１１（ｂ）は英語による曖昧検索の例を示
す。この例では大量の電子メールの中から、検索文「歌
を歌いたい」と検索文「Ｉｗａｎｔｔｏｓｉｎｇ」
とで、どちらもカラオケ関連のメールが検索されること
を示している。

【０１０４】同じく、この実施例でのもう一つの曖昧検
索例を図１２に示す。この例では、検索文「歌を歌いた
い」を入力すると（図１２（ａ））、日本語のメール
（カラオケ、図１２（ｂ））と英語のメール（コーラス
パーティ、図１２（ｃ））とが検索されることを示して
いる。

【０１０５】請求項４に記載の発明の文書分類装置及び
請求項６に記載の発明の文書分類装置に使用される「言
語毎の特徴ベクトル生成用辞書」は、各言語毎の単語辞
書と、各言語で共通に用いる概念識別子と各言語の単語
との関連を表す概念辞書とを使用したい言語の種類数だ
け備える。図９は、複数の言語に対応した特徴ベクトル
生成用辞書の概念図を示す。図９では、日本語、英語、
ドイツ語という３か国語に対応した特徴ベクトル生成用
辞書の例である。例えば、日本語の「私」という単語
と、英語の「Ｉ」という単語と、ドイツ後の「ｉｃｈ」
という単語が、ともに概念識別子「０００１」と関連
付けられていることを示している。他の単語についても
同様である。ただし、この図では「０００１」は「私」
という概念に付けられた概念識別子であり、「０００
２」は「貴方」という概念に付けられた概念識別子であ
り、「０００５」は「我々」という概念に付けられた概
念識別子であり、「０００６」は「貴方達」という概念
に付けられた概念識別子であり、「０１０５」は「赤
い」という概念に付けられた概念識別子である。なお、
この概念識別子の数値自体は、同じ概念に同じ番号が割
り当てられ、違う概念には違う番号が割り当てられてい
ればどんな数値を使っても良いので、本実施例中では
「０００１」という直接の数値の代わりに『私』という
形で概念識別子を表している。この特徴ベクトル生成用
辞書により、入力文書や検索文の言語の種類に応じて辞
書を切替えることで、どの言語を用いても共通の概念識
別子を用いて分類や検索を行なうことができる。

【０１０６】本発明の文書分類装置及び文書検索装置
は、通常の文書の分類や通常の文書の検索にのみ用いら
れるものではない。すなわち、電子メールや電子ニュー
スを自動的に分類したり、電子メールや電子ニュースの
中からユーザーの興味を持ちそうなものを選出（検索）
したり（ユーザーがそれまでに読んだメールやニュース
の特徴ベクトルとの類似度で判定できる）、仮名漢字変
換における同音異義語の選択（それまでに変換した内容
から得られる特徴ベクトルとの類似度で同音異義語を選
択する）に利用できる。また、音声認識・手書き文字認
識などにおいて過去の文脈に最も適合した変換結果を選
択する方法をとる（それまでに認識した内容から得られ
る特徴ベクトルとの類似度で認識結果を選択する）際
や、認識時等において単語等の検索空間を狭める（それ
までに認識した内容から得られる特徴ベクトルの平均値
に近い概念識別子と関連付けられている単語だけを検索
するようにする）際にも利用できる。この場合には、文
書記憶部又は、検索入力部に、通常の文書データの代わ
りに、上記のデータを入力する。また、複数の言語につ
いて単語と概念識別子との関連を表す情報があれば、言
語の種類を問わずに分類や検索等を行なうことができ
る。

【０１０７】

【発明の効果】請求項１に記載の文書分類装置によれ
ば、概念識別子の特徴ベクトル及びそれから生成された
文書の特徴ベクトルを使用して、文書の学習と学習に基
づいた文書の分類が行われる。したがって、文書データ
を用意するだけで、概念識別子の特徴ベクトルを生成で
き、人手を全く必要としない文書自動分類を実現でき
る。また、概念識別子を用いて特徴ベクトルを生成する
ことで、単純に単語を用いる場合に比べて分類の精度を
高めることができる。

【０１０８】請求項２に記載の文書分類装置によれば、
分類に有用な概念識別子を用いることによって、特徴ベ
クトルの記憶空間を削減したり、分類の精度を向上させ
ることができる。

【０１０９】請求項３に記載の文書分類装置によれば、
結果記憶部に記憶された分類ごとに、概念識別子や文書
の特徴ベクトルを用いて、その分類を代表する文書の特
徴ベクトルを求める代表ベクトル生成部と、分類を代表
する文書の特徴ベクトルを記憶する代表ベクトル記憶部
とをさらに含むように構成されているので、一度各分類
群の代表ベクトルを生成してしまえば、新たな文書デー
タを分類するときには、その文書の特徴ベクトルと各分
類群の代表ベクトルとの比較を行なうだけでその文書が
どの分類群に属すかを判定できるようになる。したがっ
て、分類処理を単純化・高速化できる。

【０１１０】請求項４に記載の文書分類装置によれば、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書分類を行うことができる。また、特徴ベクトルは概
念識別子に対して生成されるので、言語毎に単語に対し
て特徴ベクトルを生成する場合に比較して特徴ベクトル
の記憶領域を小さく抑えることができる。

【０１１１】請求項５に記載の文書検索装置によれば、
概念識別子の特徴ベクトル及びそれから生成された文書
の特徴ベクトルを使用して、文書の学習と学習に基づい
た文書の検索が行われる。したがって、特徴ベクトルの
類似度で文書を検索することで、文字列のパターンマッ
チングによる検索とは違い、文字列が一致していなくて
も意味的に類似度が高いものを検索（曖昧検索）するこ
とができる。

【０１１２】請求項６に記載の文書検索装置によれば、
特徴ベクトル生成用辞書が複数の言語の辞書を含んでお
り、複数の言語のどの言語の単語であっても同じ概念の
単語は同じ概念識別子に変換し、言語の種類によらない
文書検索を行うことができる。

【０１１３】また、特徴ベクトルは概念識別子に対して
生成されるので、言語毎に単語に対して特徴ベクトルを
生成する場合に比較して特徴ベクトルの記憶領域を小さ
く抑えることができる。

【０１１４】また、本発明の装置で作成される概念識別
子の特徴ベクトルは、文書の分類時や検索時に使えるだ
けでなく、仮名漢字変換における同音異義語の選択にも
利用できるし、音声認識・手書き文字認識などにおい
て、過去の文脈に最も適合した認識結果を選択する方法
をとる際にも利用できる。

【図面の簡単な説明】

【図１】本発明の請求項１の基本構成を示すブロック図
である。

【図２】本発明の請求項２の基本構成を示すブロック図
である。

【図３】本発明の請求項３の基本構成を示すブロック図
である。

【図４】本発明の概念識別子の特徴ベクトルの生成を説
明する図１である。

【図５】本発明の概念識別子の特徴ベクトルの生成を説
明する図２である。

【図６】本発明の文書の特徴ベクトルの生成を説明する
図である。

【図７】本発明による文書の分類を説明する図である。

【図８】本発明による文書の分類の例を説明する図であ
る。

【図９】本発明の請求項５の言語毎の複数の特徴ベクト
ル生成用辞書を説明する図である。

【図１０】本発明の請求項４の基本構成を示すブロック
図である。

【図１１】本発明の請求項４の実施例による文書検索装
置での曖昧検索例を説明する図である。

【図１２】本発明の請求項４の実施例による文書検索装
置での曖昧検索例を説明する図２である。

【符号の説明】

１０１文書記憶部１０２文書解析部１０３概念ベクトル生成部１０４概念ベクトル記憶部１０５文書ベクトル生成部１０６文書ベクトル記憶部１０７分類部１０８結果記憶部１０９特徴ベクトル生成用辞書

Claims

【特許請求の範囲】

【請求項１】文書の内容にしたがって文書の分類を行
う文書分類装置であって、文書データを記憶する文書記憶部と、予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、前記特徴ベクトル生成用辞書によって、記憶した文書デ
ータの単語を解析する文書解析部と、前記特徴ベクトル生成用辞書によって、文書データの単
語を概念識別子に変換し、概念識別子間の共起関係に基
づいて、概念識別子の特徴ベクトルを自動的に生成する
概念ベクトル生成部と、生成した概念識別子の特徴ベクトルを記憶する概念ベク
トル記憶部と、概念識別子の特徴ベクトルから文書の特徴ベクトルを生
成する文書ベクトル生成部と、文書の特徴ベクトルを記憶する文書ベクトル記憶部と、文書の特徴ベクトル間の類似度を利用して文書を分類す
る分類部と、分類した結果を記憶する結果記憶部と、を含むことを特
徴とする文書分類装置。
【請求項２】前記結果記憶部に記憶された分類ごとに
概念識別子の出現率を調べ、分類に有用な概念識別子を
選出し、分類に有用な概念識別子を前記特徴ベクトル生
成用辞書に登録する、有用概念識別子選出部をさらに含
み、分類に有用な概念識別子を用いることで分類の精度
を向上させることを特徴とする請求項１に記載の文書分
類装置。
【請求項３】前記結果記憶部に記憶された分類ごと
に、概念識別子の特徴ベクトルと文書の特徴ベクトルと
の少なくとも一方を用いて、その分類を代表する文書の
特徴ベクトルを求める代表ベクトル生成部と、分類を代
表する文書の特徴ベクトルを記憶する代表ベクトル記憶
部とをさらに含む請求項１又は請求項２に記載の文書分
類装置。
【請求項４】前記特徴ベクトル生成用辞書が複数の言
語の辞書を含んでおり、前記複数の言語のどの言語の単
語であっても同じ概念の単語は同じ概念識別子に変換
し、言語の種類によらない文書分類を行う請求項１から
請求項３のいずれか一項に記載の文書分類装置。
【請求項５】文書検索装置であって、文書データを記憶する文書記憶部と、検索文を入力する検索文入力部と、予め定められた単語及び概念識別子を登録した特徴ベク
トル生成用辞書と、前記特徴ベクトル生成用辞書によって、記憶した文書デ
ータの単語を解析する文書解析部と、前記特徴ベクトル生成用辞書によって、文書データの単
語を概念識別子に変換し、概念識別子間の共起関係に基
づいて、概念識別子の特徴ベクトルを自動的に生成する
概念ベクトル生成部と、概念識別子の特徴ベクトルを記憶する概念ベクトル記憶
部と、文書データ及び検索文中に含まれている概念識別子の特
徴ベクトルから文書データ及び検索文の特徴ベクトルを
生成する文書ベクトル生成部と、文書データ及び前記検索文の特徴ベクトルを記憶する文
書ベクトル記憶部と、文書データの特徴ベクトルと検索文の特徴ベクトルとの
類似度を利用して文書データ中から検索文に類似した文
を検索する検索部と、その検索した結果を出力する出力部と、を含む文書検索
装置。
【請求項６】前記特徴ベクトル生成用辞書が複数の言
語の辞書を含んでおり、前記複数の言語のどの言語の単
語であっても同じ概念の単語は同じ概念識別子に変換
し、言語の種類によらない文書検索を行う請求項５に記
載の文書検索装置。