JPH06282587A - 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 - Google Patents
文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置Info
- Publication number
- JPH06282587A JPH06282587A JP5087774A JP8777493A JPH06282587A JP H06282587 A JPH06282587 A JP H06282587A JP 5087774 A JP5087774 A JP 5087774A JP 8777493 A JP8777493 A JP 8777493A JP H06282587 A JPH06282587 A JP H06282587A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- field
- dictionary
- document
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 文章の意味内容や表記上の相違を考慮してよ
り精度の高い自動分類を行うとともに、その分類を行う
ための辞書を自動的に形成すること 【構成】 文書中のキーワード対の同時出現頻度値を用
いて文書間の親近性を定量化(辞書化)し、親近性が高
いほど共通の文書であると認定できることを利用し、分
野既知の文書に基づいて各分野ごとの辞書を作成し、新
規の文書と最も親近性の高い辞書の分野を、その文書の
分野と決定する。この時、キーワードを抽出するに際
し、その種別(主語,目的語,その他等)も同時に判別
し、種別まで一致するキーワードを同一としてとらえ
(意味内容を考慮した辞書作成)、しかもキーワード対
の出現数を係数するに際し、文字列一致を同一のキーワ
ードとしてとらえ(表記上の相違に影響されない辞書を
作成)、各処理を行う。
り精度の高い自動分類を行うとともに、その分類を行う
ための辞書を自動的に形成すること 【構成】 文書中のキーワード対の同時出現頻度値を用
いて文書間の親近性を定量化(辞書化)し、親近性が高
いほど共通の文書であると認定できることを利用し、分
野既知の文書に基づいて各分野ごとの辞書を作成し、新
規の文書と最も親近性の高い辞書の分野を、その文書の
分野と決定する。この時、キーワードを抽出するに際
し、その種別(主語,目的語,その他等)も同時に判別
し、種別まで一致するキーワードを同一としてとらえ
(意味内容を考慮した辞書作成)、しかもキーワード対
の出現数を係数するに際し、文字列一致を同一のキーワ
ードとしてとらえ(表記上の相違に影響されない辞書を
作成)、各処理を行う。
Description
【0001】
【産業上の利用分野】本発明は、文書の自動分類方法及
び装置並びに分類用の辞書作成方法及び装置に関するも
のである。
び装置並びに分類用の辞書作成方法及び装置に関するも
のである。
【0002】
【発明の背景】各種の文書をファイリングしてデータベ
ースを構築するに際し、そのデータベースに格納する文
書に対して分類を決定したりキーワード付けをしたりす
る必要があり、係る作業の正確さがその後のデータベー
ス利用の便利さに繋がるため、重要な作業である。しか
し、係る分類分け等を人間が行うとすると、その文章を
すべて読み、理解した上で分類の決定等を行わなければ
ならず、その作業が極めて煩雑となるばかりでなく、作
業者によってばらつき正確さ(信頼性)にかける。
ースを構築するに際し、そのデータベースに格納する文
書に対して分類を決定したりキーワード付けをしたりす
る必要があり、係る作業の正確さがその後のデータベー
ス利用の便利さに繋がるため、重要な作業である。しか
し、係る分類分け等を人間が行うとすると、その文章を
すべて読み、理解した上で分類の決定等を行わなければ
ならず、その作業が極めて煩雑となるばかりでなく、作
業者によってばらつき正確さ(信頼性)にかける。
【0003】そこで、係る文書の分類を自動的に行うシ
ステムとして、種々のものが開発されている。そしてそ
の中の1つは、例えば特開平3−2009563号に開
示された知的検索方式のようにある分野の意味関係を表
した意味辞書を作成し、それに基づいてその後の未知デ
ータの検索を行うものがある。
ステムとして、種々のものが開発されている。そしてそ
の中の1つは、例えば特開平3−2009563号に開
示された知的検索方式のようにある分野の意味関係を表
した意味辞書を作成し、それに基づいてその後の未知デ
ータの検索を行うものがある。
【0004】しかし、この方式では、予め意味辞書を人
為的分析により形成する必要があり、分野が異なるとそ
の分野についての解析が再度必要で、係る処理が、煩雑
となるという問題を有する。
為的分析により形成する必要があり、分野が異なるとそ
の分野についての解析が再度必要で、係る処理が、煩雑
となるという問題を有する。
【0005】また、他の方式としては、例えば「ファジ
ィ文書検索システム」(情報処理学会第39回全国大会
予稿集第1067〜1068頁)に代表されるように、
特定分野における文書の表記の特徴を統計処理した辞書
を用いて検索するものがある。係る方式は、1つの文書
に共通に含まれるキーワード対は、文書を既成概念と考
えた時に、何等かの概念上のつながりをもっていること
に着目し、キーワード対の同時出現頻度値を用いて文書
間の親近性を定量化(辞書化)している。そして、親近
性が高いほど共通の文書であると認定できる。そこで、
予め分野のわかっている文書に基づいて辞書を作成し、
新規の文書と分野既知の文書との親近性を求め、親近性
の高い文書の分野を、その新規な文書の分野に決定する
ものである。
ィ文書検索システム」(情報処理学会第39回全国大会
予稿集第1067〜1068頁)に代表されるように、
特定分野における文書の表記の特徴を統計処理した辞書
を用いて検索するものがある。係る方式は、1つの文書
に共通に含まれるキーワード対は、文書を既成概念と考
えた時に、何等かの概念上のつながりをもっていること
に着目し、キーワード対の同時出現頻度値を用いて文書
間の親近性を定量化(辞書化)している。そして、親近
性が高いほど共通の文書であると認定できる。そこで、
予め分野のわかっている文書に基づいて辞書を作成し、
新規の文書と分野既知の文書との親近性を求め、親近性
の高い文書の分野を、その新規な文書の分野に決定する
ものである。
【0006】しかし、この方式では、前者に比べ人間が
介在しないで辞書を構築できるため異なる分野に対して
も自動的に辞書を作成できる点が有用性が高いが、文章
の意味理解までは行っていないため、生成した親近性
(ファジィな値)の精度が低い(曖昧な範囲が広い)と
いう問題がある。その結果、より近似する文書をそれぞ
れ適切な分野に分類しようとした場合には、曖昧な範囲
内に存在してしまい、正しく分類できなくなるおそれが
ある。
介在しないで辞書を構築できるため異なる分野に対して
も自動的に辞書を作成できる点が有用性が高いが、文章
の意味理解までは行っていないため、生成した親近性
(ファジィな値)の精度が低い(曖昧な範囲が広い)と
いう問題がある。その結果、より近似する文書をそれぞ
れ適切な分野に分類しようとした場合には、曖昧な範囲
内に存在してしまい、正しく分類できなくなるおそれが
ある。
【0007】さらに、上記の「共通のキーワード対を多
く有する文書同士ほど、両者の類似度は高い(共通の分
野に属する蓋然性が高い)」という方式では、係る判定
を行うための同一のキーワードが完全一致を前提として
いるため、そのままでは例えば「○×電力」とその略称
である「○電」や、電気関連の分野における「領収書」
と「電気料金領収書」のように本来は同一の意味として
扱うべきキーワード同士が、単に表記上の相違だけで別
のキーワードとして扱われてしまいう。その結果、さら
なる精度の低下を招くことになる。
く有する文書同士ほど、両者の類似度は高い(共通の分
野に属する蓋然性が高い)」という方式では、係る判定
を行うための同一のキーワードが完全一致を前提として
いるため、そのままでは例えば「○×電力」とその略称
である「○電」や、電気関連の分野における「領収書」
と「電気料金領収書」のように本来は同一の意味として
扱うべきキーワード同士が、単に表記上の相違だけで別
のキーワードとして扱われてしまいう。その結果、さら
なる精度の低下を招くことになる。
【0008】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、文章の意味内容や表
記上の相違を考慮してより精度の高い自動分類を行うと
ともに、その分類を行うための辞書を自動的に形成する
ことのできる文書の自動分類方法及び装置並びに分類用
の辞書作成方法及び装置を提供するものである。
もので、その目的とするところは、文章の意味内容や表
記上の相違を考慮してより精度の高い自動分類を行うと
ともに、その分類を行うための辞書を自動的に形成する
ことのできる文書の自動分類方法及び装置並びに分類用
の辞書作成方法及び装置を提供するものである。
【0009】
【課題を解決するための手段】上記した目的を達成する
ため、本発明に係る文書の自動分類用の辞書作成方法で
は、分野既知の複数の文書をそれぞれ構成する語句の中
から主語,目的語などの種類分けを行いつつキーワード
抽出をし、抽出されたキーワードの出現文書数並びに任
意の2つのキーワードが同時に出現するキーワード対の
出現文書数を求める。そして、前記キーワードの出現文
書数と前記キーワード対の出現文書数から前記キーワー
ドを構成する2つのキーワード間の距離を算出する。次
いで、そのキーワード間の距離から各キーワード対のそ
の分野の依存度を算出し、少なくともその分野における
キーワード対と依存度の関係を辞書に格納する。
ため、本発明に係る文書の自動分類用の辞書作成方法で
は、分野既知の複数の文書をそれぞれ構成する語句の中
から主語,目的語などの種類分けを行いつつキーワード
抽出をし、抽出されたキーワードの出現文書数並びに任
意の2つのキーワードが同時に出現するキーワード対の
出現文書数を求める。そして、前記キーワードの出現文
書数と前記キーワード対の出現文書数から前記キーワー
ドを構成する2つのキーワード間の距離を算出する。次
いで、そのキーワード間の距離から各キーワード対のそ
の分野の依存度を算出し、少なくともその分野における
キーワード対と依存度の関係を辞書に格納する。
【0010】そして、好ましくは、前記キーワード対の
出現文書数を求めるに際し、予め同一意味を表すキーワ
ードのグループを求め、同一グループに属するキーワー
ドがあれば前記出現文書数に加算するようにすることで
ある。
出現文書数を求めるに際し、予め同一意味を表すキーワ
ードのグループを求め、同一グループに属するキーワー
ドがあれば前記出現文書数に加算するようにすることで
ある。
【0011】また、上記した辞書を製造するための好適
な装置としては、分野既知の文書を入力する入力装置
と、その入力装置を介して与えられた文書に対してそれ
を構成する語句の中から主語,目的語などの種類分けを
行いつつキーワードを抽出する手段と、前記キーワード
を抽出する手段の出力を受けて、同一のキーワードを有
する同一分野の文書数を計数する第1計数手段と、前記
キーワードを抽出する手段の出力を受けて、同一のキー
ワード対を有する同一分野の文書数を計数する第2計数
手段と、前記両計数手段の出力を受け、前記キーワード
対を構成する2つのキーワード間の距離を求めるととも
に、そのキーワード対の前記分野に対する依存度を算出
し、求められたその分野におけるキーワード対の依存度
を辞書に格納する手段とから構成することで、さらに
は、前記キーワードを抽出する手段の出力を受けて、同
一意味を表すキーワードのグループを求める手段をさら
に設けるとともに、前記第2計数手段を、前記グループ
を求める手段と前記キーワード抽出する手段の出力を受
け、同一グループに属するキーワードがあれば前記キー
ワード対の出現文書数に加算するようにすると好まし
い。
な装置としては、分野既知の文書を入力する入力装置
と、その入力装置を介して与えられた文書に対してそれ
を構成する語句の中から主語,目的語などの種類分けを
行いつつキーワードを抽出する手段と、前記キーワード
を抽出する手段の出力を受けて、同一のキーワードを有
する同一分野の文書数を計数する第1計数手段と、前記
キーワードを抽出する手段の出力を受けて、同一のキー
ワード対を有する同一分野の文書数を計数する第2計数
手段と、前記両計数手段の出力を受け、前記キーワード
対を構成する2つのキーワード間の距離を求めるととも
に、そのキーワード対の前記分野に対する依存度を算出
し、求められたその分野におけるキーワード対の依存度
を辞書に格納する手段とから構成することで、さらに
は、前記キーワードを抽出する手段の出力を受けて、同
一意味を表すキーワードのグループを求める手段をさら
に設けるとともに、前記第2計数手段を、前記グループ
を求める手段と前記キーワード抽出する手段の出力を受
け、同一グループに属するキーワードがあれば前記キー
ワード対の出現文書数に加算するようにすると好まし
い。
【0012】一方、本発明に係る文書の自動分類方法で
は、入力された分野未知の文書を構成する語句の中から
主語,目的語などの種類分けを行いつつキーワード抽出
をし、抽出されたキーワードが、前記辞書製造方法によ
り製造された辞書に格納された所定の分野に出現するキ
ーワードと一致するか否かの関係を求める。次いで、前
記求めた関係と、前記辞書に格納されたその分野の各キ
ーワード対の依存度とを掛け算して前記入力された文書
から抽出された各キーワードのその分野における依存度
を算出し、その依存度から各分野に対する曖昧度を求
め、最小の曖昧度となる分野を、前記入力された文書が
属する分野に決定するようにした。
は、入力された分野未知の文書を構成する語句の中から
主語,目的語などの種類分けを行いつつキーワード抽出
をし、抽出されたキーワードが、前記辞書製造方法によ
り製造された辞書に格納された所定の分野に出現するキ
ーワードと一致するか否かの関係を求める。次いで、前
記求めた関係と、前記辞書に格納されたその分野の各キ
ーワード対の依存度とを掛け算して前記入力された文書
から抽出された各キーワードのその分野における依存度
を算出し、その依存度から各分野に対する曖昧度を求
め、最小の曖昧度となる分野を、前記入力された文書が
属する分野に決定するようにした。
【0013】そして、係る方法を実施するための装置と
しては、分野未知の文書を入力する入力装置と、その入
力装置を介して与えられた文書に対してそれを構成する
語句の中から主語,目的語などの種類分けを行いつつキ
ーワードを抽出する手段と、上記した辞書製造装置によ
りデータが格納された辞書と、前記キーワードを抽出す
る手段と前記辞書に接続され、前記抽出されたキーワー
ドが前記辞書に格納された所定の分野に出現するキーワ
ードと一致するか否かの関係を求める手段と、前記求め
る手段から出力される関係と、前記辞書に格納されたそ
の分野の各キーワード対の依存度とを受け、それら関係
と依存度とを掛け算して入力された文書から抽出された
各キーワードのその分野に対する依存度を算出する依存
度算出手段と、前記依存度算出手段の出力を受け、前記
文書の各分野に対する曖昧度を求める曖昧度算出手段
と、前記曖昧度算出手段の出力を受け、各分野の曖昧度
を比較し最小の曖昧度となる分野を検出する判定手段と
を備えた。
しては、分野未知の文書を入力する入力装置と、その入
力装置を介して与えられた文書に対してそれを構成する
語句の中から主語,目的語などの種類分けを行いつつキ
ーワードを抽出する手段と、上記した辞書製造装置によ
りデータが格納された辞書と、前記キーワードを抽出す
る手段と前記辞書に接続され、前記抽出されたキーワー
ドが前記辞書に格納された所定の分野に出現するキーワ
ードと一致するか否かの関係を求める手段と、前記求め
る手段から出力される関係と、前記辞書に格納されたそ
の分野の各キーワード対の依存度とを受け、それら関係
と依存度とを掛け算して入力された文書から抽出された
各キーワードのその分野に対する依存度を算出する依存
度算出手段と、前記依存度算出手段の出力を受け、前記
文書の各分野に対する曖昧度を求める曖昧度算出手段
と、前記曖昧度算出手段の出力を受け、各分野の曖昧度
を比較し最小の曖昧度となる分野を検出する判定手段と
を備えた。
【0014】
【作用】文書中のキーワード対の同時出現頻度値を用い
て文書間の親近性を定量化(辞書化)し、親近性が高い
ほど共通の文書であると認定できることを利用し、分野
既知の文書に基づいて各分野ごとの辞書を作成し、新規
の文書と最も親近性の高い辞書の分野を、その文書の分
野と決定する。この時、キーワードを抽出するに際し、
その種類(主語,目的語,その他等)も同時に判別し、
種別まで同一で始めて同一のキーワードとしてとらえる
ようにしたため、文章の意味内容まで考慮して辞書が作
成される。よって、文書の意味内容に近い高精度の辞書
が作成され、その後の係る辞書に基づいて処理される分
野未知の文書に対する自動分類が正確に行われる。
て文書間の親近性を定量化(辞書化)し、親近性が高い
ほど共通の文書であると認定できることを利用し、分野
既知の文書に基づいて各分野ごとの辞書を作成し、新規
の文書と最も親近性の高い辞書の分野を、その文書の分
野と決定する。この時、キーワードを抽出するに際し、
その種類(主語,目的語,その他等)も同時に判別し、
種別まで同一で始めて同一のキーワードとしてとらえる
ようにしたため、文章の意味内容まで考慮して辞書が作
成される。よって、文書の意味内容に近い高精度の辞書
が作成され、その後の係る辞書に基づいて処理される分
野未知の文書に対する自動分類が正確に行われる。
【0015】また、キーワード対の出現数を係数するに
際し、同一意味を表すキーワードのグループを求め、同
一グループに属するキーワードがあれば前記出現文書数
に加算するようにした場合には、たとえ表記上の相違が
あったとしても、それに影響されることなく正しい辞書
が作成でき、より正確な自動分類が行われる。
際し、同一意味を表すキーワードのグループを求め、同
一グループに属するキーワードがあれば前記出現文書数
に加算するようにした場合には、たとえ表記上の相違が
あったとしても、それに影響されることなく正しい辞書
が作成でき、より正確な自動分類が行われる。
【0016】
【実施例】以下、本発明に係る文書の自動分類方法及び
装置並びに分類用の辞書作成方法及び装置の好適な実施
例について添付図面を参照にして詳述する。図1は本発
明に係る辞書作成装置の一実施例を示している。同図に
示すように、キーボードやOCR等の入力装置1を介し
て、分野が既知の文書を入力するようになっている。そ
して、その入力された文書が次段のキーワード抽出部2
に送られ、文書中に存在する名詞を抽出するようになっ
ている。
装置並びに分類用の辞書作成方法及び装置の好適な実施
例について添付図面を参照にして詳述する。図1は本発
明に係る辞書作成装置の一実施例を示している。同図に
示すように、キーボードやOCR等の入力装置1を介し
て、分野が既知の文書を入力するようになっている。そ
して、その入力された文書が次段のキーワード抽出部2
に送られ、文書中に存在する名詞を抽出するようになっ
ている。
【0017】ここで本発明では、まずキーワードを抽出
するに際し、単に名詞を取り出すのではなく、その名詞
のすぐ後ろに付いている助詞や格助詞に着目してその名
詞の種類(主語,目的語,その他)を併せて抽出するよ
うになっている。これにより、抽出した名詞(キーワー
ド)がその文書中でどの様な使われ方をしているのかが
わかり、意味内容の理解が図れる。
するに際し、単に名詞を取り出すのではなく、その名詞
のすぐ後ろに付いている助詞や格助詞に着目してその名
詞の種類(主語,目的語,その他)を併せて抽出するよ
うになっている。これにより、抽出した名詞(キーワー
ド)がその文書中でどの様な使われ方をしているのかが
わかり、意味内容の理解が図れる。
【0018】そこで本例におけるキーワード抽出部2
は、図2に示すフローにより処理される機能を有してい
る。すなわち、まず入力された文書に対して単語単位に
分割する「分かち書き処理」を行う(S101)。次
に、上記分かち書き処理したものに対し「文節切り出
し」処理を行う。この文節切り出し処理は、分かち書き
により単語毎に分割されたものの中から、所定のルール
にしたがって文節の区切りとなる言葉を見付け、文節と
して切断し直すものである(S102)。
は、図2に示すフローにより処理される機能を有してい
る。すなわち、まず入力された文書に対して単語単位に
分割する「分かち書き処理」を行う(S101)。次
に、上記分かち書き処理したものに対し「文節切り出
し」処理を行う。この文節切り出し処理は、分かち書き
により単語毎に分割されたものの中から、所定のルール
にしたがって文節の区切りとなる言葉を見付け、文節と
して切断し直すものである(S102)。
【0019】そして、そのようにして文節を切り出した
ら、次にその切り出された文節の中から以下の抽出ルー
ルに従って重要文節を抽出する(S103)。 文節末が、「が」,「は」,「を」,「に」,
「で」,「や],「も」の文節を抽出する。これによ
り、主語・目的語を含む節等が抽出される。 文節末の言葉が「ひらがな混在」でないものを取り出
す。動詞等の節の場合には、その終わりに「ひらがな」
が記載されることに着目したもので、これによりキーワ
ードになりにくい動詞等が排除される。
ら、次にその切り出された文節の中から以下の抽出ルー
ルに従って重要文節を抽出する(S103)。 文節末が、「が」,「は」,「を」,「に」,
「で」,「や],「も」の文節を抽出する。これによ
り、主語・目的語を含む節等が抽出される。 文節末の言葉が「ひらがな混在」でないものを取り出
す。動詞等の節の場合には、その終わりに「ひらがな」
が記載されることに着目したもので、これによりキーワ
ードになりにくい動詞等が排除される。
【0020】さらに、上記の処理により重要文節を抽出
したなら、その重要文節に対し再び分かち書き処理を
し、単語単位に再分割する。そして、各単語中、キーワ
ードになりにくい、「動詞」や「助詞」,「助動詞」、
さらには「すばらしい」等の「形容詞」等取り除くこと
により、キーワード(名詞)候補を抽出する(S10
4)。
したなら、その重要文節に対し再び分かち書き処理を
し、単語単位に再分割する。そして、各単語中、キーワ
ードになりにくい、「動詞」や「助詞」,「助動詞」、
さらには「すばらしい」等の「形容詞」等取り除くこと
により、キーワード(名詞)候補を抽出する(S10
4)。
【0021】次に、上記S104までの処理にて抽出さ
れたキーワード候補の次に来る語を見て、キーワードの
種類(主語,目的語,その他)分け等をおなう(S10
5)。すなわち、キーワードの次に来る語が「が」,
「は」の場合にはそのキーワードは、「主語」とする。
また、「を」,「と」,「で」,「や」,「も」の場合
は「目的語」とする。そして、上記に該当しないキーワ
ードは、すべて「その他」とする。
れたキーワード候補の次に来る語を見て、キーワードの
種類(主語,目的語,その他)分け等をおなう(S10
5)。すなわち、キーワードの次に来る語が「が」,
「は」の場合にはそのキーワードは、「主語」とする。
また、「を」,「と」,「で」,「や」,「も」の場合
は「目的語」とする。そして、上記に該当しないキーワ
ードは、すべて「その他」とする。
【0022】さらに、このようにして抽出されたキーワ
ード(種類付き)は、同一文書中に複数回出現すること
があるため、重複するキーワードを削除し、同一文書に
1つのみ残す処理を行う。これにより、キーワード(種
類付き)抽出処理が終了する。
ード(種類付き)は、同一文書中に複数回出現すること
があるため、重複するキーワードを削除し、同一文書に
1つのみ残す処理を行う。これにより、キーワード(種
類付き)抽出処理が終了する。
【0023】そして、その抽出結果の一例(サンプル文
書としては同一分野(TVCMについての意見)の45
個の文書を使用)を図3に示す。なお、図から明らかな
ように、従来方式では、同一キーワードと処理されたも
のが明確に分離される。すなわち、例えば文書10の
「○電(その他)」と、文書22の「○電(目的語)」
は、従来では同じとして処理されたが、本発明では異な
るものとして処理され、また、文書2のように同じ「○
電」でも、「主語」,「目的語」,「その他」というよ
うに違う使われ方をしている場合は、従来ではまとめて
1語として扱われたが、本発明では、3つの語として分
離されて扱われることになる。つまり、種類まで同じキ
ーワード、例えば文書2,3,10の「○電(その
他)」や、文書22,41の「○電(目的語)」がそれ
ぞれ同一のキーワードとして取り扱われる。
書としては同一分野(TVCMについての意見)の45
個の文書を使用)を図3に示す。なお、図から明らかな
ように、従来方式では、同一キーワードと処理されたも
のが明確に分離される。すなわち、例えば文書10の
「○電(その他)」と、文書22の「○電(目的語)」
は、従来では同じとして処理されたが、本発明では異な
るものとして処理され、また、文書2のように同じ「○
電」でも、「主語」,「目的語」,「その他」というよ
うに違う使われ方をしている場合は、従来ではまとめて
1語として扱われたが、本発明では、3つの語として分
離されて扱われることになる。つまり、種類まで同じキ
ーワード、例えば文書2,3,10の「○電(その
他)」や、文書22,41の「○電(目的語)」がそれ
ぞれ同一のキーワードとして取り扱われる。
【0024】なおまた、この図3では、キーワードを具
体的な文字列として表記したが、高速処理を図るために
は、ID番号を付与し、ID番号に基づいて以下の一致
か否かの判断等の処理を行うようにし、それにともな
い、ID番号管理ファイルも別途も受けることである
(以下同じ)。
体的な文字列として表記したが、高速処理を図るために
は、ID番号を付与し、ID番号に基づいて以下の一致
か否かの判断等の処理を行うようにし、それにともな
い、ID番号管理ファイルも別途も受けることである
(以下同じ)。
【0025】そして、このようにして抽出されたキーワ
ード(種類付き)が、文書毎に次段のキーワードファイ
ル3に格納されるようになっている。さらに、本発明で
は、「○電」と「○×電力」等の表記上相違するが同一
の意味として取り扱うべきキーワードを抽出するため
に、上記キーワードファイル3に格納されたキーワード
を読み出すとともにキーワードのグループを求める手段
たる文字列一致キーワード抽出部4に与え、ここにおい
て、同一の意味を表すキーワード(種類付き)のグルー
プ化を求めるようになっている。すなわち、基となるキ
ーワード(比較キーワード)と、それと同一のグループ
に属するキーワード(要素キーワード)のテーブルを作
成する。
ード(種類付き)が、文書毎に次段のキーワードファイ
ル3に格納されるようになっている。さらに、本発明で
は、「○電」と「○×電力」等の表記上相違するが同一
の意味として取り扱うべきキーワードを抽出するため
に、上記キーワードファイル3に格納されたキーワード
を読み出すとともにキーワードのグループを求める手段
たる文字列一致キーワード抽出部4に与え、ここにおい
て、同一の意味を表すキーワード(種類付き)のグルー
プ化を求めるようになっている。すなわち、基となるキ
ーワード(比較キーワード)と、それと同一のグループ
に属するキーワード(要素キーワード)のテーブルを作
成する。
【0026】そして具体的に本例では、各キーワードの
文字列の出現順序に着目し、基となるキーワードを構成
する文字の出現順序で同じ文字を含むキーワードは、同
一のキーワード(要素キーワード)としてみなすように
している。なお、出現順序が同じであれば、各文字間に
他の文字が介在してもかまわないものとしている。
文字列の出現順序に着目し、基となるキーワードを構成
する文字の出現順序で同じ文字を含むキーワードは、同
一のキーワード(要素キーワード)としてみなすように
している。なお、出現順序が同じであれば、各文字間に
他の文字が介在してもかまわないものとしている。
【0027】すなわち、図4(A)に示すように、「○
電」が基(比較キーワード)とすると、文字列「○,
電」の順に並んでいるキーワードは完全一致の「○電」
はもちろんのこと、「○×電力」も同一グループ(要素
キーワード)となりカウントの対象となる。しかし、同
図(B)に示すように基が「○×電力」とすると、その
略称である「○電」は、「×」と「力」が含まれていな
いためカウントされない。なお、この方式をとると、同
図(C)に示すように、「PR」と意味の関係ない「P
OINTER」もカウントされてまうが、たとえこのよ
うなものが同一の仲間としてグループ化されたとして
も、係るキーワードがキーワード対として現れる可能性
が少いとともに、後段の特徴量算出等の処理における影
響度が少ないためさほど問題はない。一方、同図(D)
のように基が「CI」とすると、「CI」や「CIマー
ク」は上記した理由により同一グループとしてカウント
されるが、「IC」はその出現順序が異なる(逆であ
る)ためカウントされない。
電」が基(比較キーワード)とすると、文字列「○,
電」の順に並んでいるキーワードは完全一致の「○電」
はもちろんのこと、「○×電力」も同一グループ(要素
キーワード)となりカウントの対象となる。しかし、同
図(B)に示すように基が「○×電力」とすると、その
略称である「○電」は、「×」と「力」が含まれていな
いためカウントされない。なお、この方式をとると、同
図(C)に示すように、「PR」と意味の関係ない「P
OINTER」もカウントされてまうが、たとえこのよ
うなものが同一の仲間としてグループ化されたとして
も、係るキーワードがキーワード対として現れる可能性
が少いとともに、後段の特徴量算出等の処理における影
響度が少ないためさほど問題はない。一方、同図(D)
のように基が「CI」とすると、「CI」や「CIマー
ク」は上記した理由により同一グループとしてカウント
されるが、「IC」はその出現順序が異なる(逆であ
る)ためカウントされない。
【0028】そして、実際には読み出されたキーワード
を構成する文字の順列を相互に比較することにより求め
られる。さらに、この文字列一致キーワードを抽出する
際には、同一分野を構成するすべて文書を一纏めにとら
えて処理する。そして、このようにして抽出された文字
列一致キーワード(比較キーワード:要素キーワードの
テーブル)を、文字列一致キーワードファイル5に格納
する。
を構成する文字の順列を相互に比較することにより求め
られる。さらに、この文字列一致キーワードを抽出する
際には、同一分野を構成するすべて文書を一纏めにとら
えて処理する。そして、このようにして抽出された文字
列一致キーワード(比較キーワード:要素キーワードの
テーブル)を、文字列一致キーワードファイル5に格納
する。
【0029】なお、上記した図3に示す文書10の「C
I 目的語」が基とすると、文書1の「CIマーク 主
語」は、図4(D)からすると同一となるが、「目的
語」と「主語」というように種類がそもそも異なるた
め、異なるキーワードとして扱われ、文字列一致ファイ
ル5に格納されない。そして、仮に総文書数が図3に示
す8文書とすると、文字列一致キーワードファイルに
は、図5に示すような状態で格納されることになる。
I 目的語」が基とすると、文書1の「CIマーク 主
語」は、図4(D)からすると同一となるが、「目的
語」と「主語」というように種類がそもそも異なるた
め、異なるキーワードとして扱われ、文字列一致ファイ
ル5に格納されない。そして、仮に総文書数が図3に示
す8文書とすると、文字列一致キーワードファイルに
は、図5に示すような状態で格納されることになる。
【0030】さらに、上記キーワードファイル3の出力
が、第1計数手段たるキーワードカウント部6並びに第
2計数手段たるキーワード対カウント部7に接続され、
また、このキーワード対カウント部7には、上記文字列
一致キーワードファイル5の出力も接続されている。そ
して、前者のキーワードカウント部6では、各キーワー
ドが出現する(存在する)文書の数を求めるようになっ
ている。
が、第1計数手段たるキーワードカウント部6並びに第
2計数手段たるキーワード対カウント部7に接続され、
また、このキーワード対カウント部7には、上記文字列
一致キーワードファイル5の出力も接続されている。そ
して、前者のキーワードカウント部6では、各キーワー
ドが出現する(存在する)文書の数を求めるようになっ
ている。
【0031】一方、キーワード対カウント部7では、同
一のキーワード対が同時出現する文書の数を求めるよう
になっている。ここでキーワード対とは、1つの文書中
に存在する異なる2つのキーワードのペアの組み合わせ
で、組み合わせの前者を基準キーワード、後者を比較キ
ーワードとする。そして、カウントする際には、基準ワ
ードは完全一致とし、比較キーワードは上記求めた文字
列一致キーワードにより同一とされたワード(要素キー
ワード)が対象となる。
一のキーワード対が同時出現する文書の数を求めるよう
になっている。ここでキーワード対とは、1つの文書中
に存在する異なる2つのキーワードのペアの組み合わせ
で、組み合わせの前者を基準キーワード、後者を比較キ
ーワードとする。そして、カウントする際には、基準ワ
ードは完全一致とし、比較キーワードは上記求めた文字
列一致キーワードにより同一とされたワード(要素キー
ワード)が対象となる。
【0032】すなわち、同一文書中に存在するキーワー
ドの組み合わせ表を作成し、作成したキーワードの組み
合わせ表に基づいて両ファイル3,5に格納されたデー
タをアクセスし、基準キーワードXi別に比較キーワー
ドXjと要素キーワードが一致する組み合わせが存在す
る文書があったなら、そのキーワードの組み合わせ(キ
ーワード対)に対してカウントアップする。これによ
り、キーワード対の出現文書数が求められる。
ドの組み合わせ表を作成し、作成したキーワードの組み
合わせ表に基づいて両ファイル3,5に格納されたデー
タをアクセスし、基準キーワードXi別に比較キーワー
ドXjと要素キーワードが一致する組み合わせが存在す
る文書があったなら、そのキーワードの組み合わせ(キ
ーワード対)に対してカウントアップする。これによ
り、キーワード対の出現文書数が求められる。
【0033】そして、その一例を示すと仮に総文書数が
図3に示す8つと仮定すると、例えば、「○電(目的
語)」(基準キーワード)と「温水器(その他)」(比
較キーワード)からなるキーワード対の場合は、完全一
致をとるとその出現文書数は1回(文書22のみ)とな
るが、要素キーワードをも考慮した本例では、出現文書
数は2回(文書22,42)となる。また、同様に、
「コマーシャル(目的語),○電(その他)」からなる
キーワード対の出現文書数は2回(文書3,10)とな
る。なお、文書4のコマーシャルは、その種類が「主
語」であるため、カウントされない。
図3に示す8つと仮定すると、例えば、「○電(目的
語)」(基準キーワード)と「温水器(その他)」(比
較キーワード)からなるキーワード対の場合は、完全一
致をとるとその出現文書数は1回(文書22のみ)とな
るが、要素キーワードをも考慮した本例では、出現文書
数は2回(文書22,42)となる。また、同様に、
「コマーシャル(目的語),○電(その他)」からなる
キーワード対の出現文書数は2回(文書3,10)とな
る。なお、文書4のコマーシャルは、その種類が「主
語」であるため、カウントされない。
【0034】さらに、上記各カウント部6,7で求めた
各キーワード,キーワード対の出現文書数を特徴量算出
部8に送り、辞書を作るための各特徴量を求めるように
なっている。すなわち、まず、キーワード対を構成する
基準キーワード(xi)と比較キーワード(xj)との
間の距離L(xi,xj)を求め、さらに、そのキーワード
間の距離L(xi,xj)を用いてキーワードのファジィ集
合f(x)を求めるようになっている。そして具体的に
は、以下の式に基づいて算出される。
各キーワード,キーワード対の出現文書数を特徴量算出
部8に送り、辞書を作るための各特徴量を求めるように
なっている。すなわち、まず、キーワード対を構成する
基準キーワード(xi)と比較キーワード(xj)との
間の距離L(xi,xj)を求め、さらに、そのキーワード
間の距離L(xi,xj)を用いてキーワードのファジィ集
合f(x)を求めるようになっている。そして具体的に
は、以下の式に基づいて算出される。
【0035】まず、キーワード間の距離Lは、キーワー
ド対の同時出現頻度値を用いて親近性の定量化を求める
もので、下記式(1)により求められる。
ド対の同時出現頻度値を用いて親近性の定量化を求める
もので、下記式(1)により求められる。
【0036】
【数1】 L(xi,xj)=(N(xi)+N(xj)−N(xi,xj))/N(xi,xj) …(1) N(xi):基準キーワードxiを含む文書数(カウント
部6から出力) N(xj):比較キーワードxjを含む文書数(カウント
部6から出力) N(xi,xj):xi,xjを同時に含む文書数(カウン
ト部7から出力) 次いで、上記算出された数値を下記式(2)に代入する
ことによりファジィ集合(基準キーワードxiに対する
比較キーワードxjの依存度)f(x)を求める。
部6から出力) N(xj):比較キーワードxjを含む文書数(カウント
部6から出力) N(xi,xj):xi,xjを同時に含む文書数(カウン
ト部7から出力) 次いで、上記算出された数値を下記式(2)に代入する
ことによりファジィ集合(基準キーワードxiに対する
比較キーワードxjの依存度)f(x)を求める。
【0037】
【数2】 f(x)=exp(−a|L(xi,xj)2 |) なお、上記式(2)中「a」は類推の強さを示し、距離
L(xi,xj)の最長となるキーワード対の依存度が0.
05以下となるような任意の値をとる。そこで本例で
は、同一分野のすべての文書に対して上記式(1)に基
づいて各キーワード対の距離L(xi,xj)を求め、その
距離L(xi,xj)の最大値を式(2)に代入するととも
に依存度f(x)に0.05を代入し、「a」について
解くことによりその分野についての「a」を決定する。
なお、求めた依存度は、0〜1の値となり、1に近いほ
どその分野の概念上の特徴を顕著に表していることを意
味している。
L(xi,xj)の最長となるキーワード対の依存度が0.
05以下となるような任意の値をとる。そこで本例で
は、同一分野のすべての文書に対して上記式(1)に基
づいて各キーワード対の距離L(xi,xj)を求め、その
距離L(xi,xj)の最大値を式(2)に代入するととも
に依存度f(x)に0.05を代入し、「a」について
解くことによりその分野についての「a」を決定する。
なお、求めた依存度は、0〜1の値となり、1に近いほ
どその分野の概念上の特徴を顕著に表していることを意
味している。
【0038】そして、この特徴量抽出部8の出力が分類
用辞書9に接続されており、上記のようにして求めた特
徴量を係る分類用辞書9に格納するようになっている。
なお、自動分類するためには、少なくともキーワード対
に対する依存度が関連付けられた格納されていればよい
が、後述するように、係る分類用辞書9に格納されたデ
ータに基づいて新規の文書の分野の分類を行ったなら、
係る新規文書のデータに基づいて分類用辞書9の内容を
更新し、より最新の多数の文書情報に基づいてより正確
な辞書の更新を行うために、本例では、依存度に加えて
キーワードの出現回数N(xi),N(xj),キーワード
対の出現文書数N(xi,xj)や距離L(xi,xj)も併せ
て格納するようにしている。そして、格納のデータ構造
の一例を示すと図6のようになっている。さらに、係る
分類用辞書9と上記キーワードファイル3とにより、自
動分類をするための辞書を構成することになる。
用辞書9に接続されており、上記のようにして求めた特
徴量を係る分類用辞書9に格納するようになっている。
なお、自動分類するためには、少なくともキーワード対
に対する依存度が関連付けられた格納されていればよい
が、後述するように、係る分類用辞書9に格納されたデ
ータに基づいて新規の文書の分野の分類を行ったなら、
係る新規文書のデータに基づいて分類用辞書9の内容を
更新し、より最新の多数の文書情報に基づいてより正確
な辞書の更新を行うために、本例では、依存度に加えて
キーワードの出現回数N(xi),N(xj),キーワード
対の出現文書数N(xi,xj)や距離L(xi,xj)も併せ
て格納するようにしている。そして、格納のデータ構造
の一例を示すと図6のようになっている。さらに、係る
分類用辞書9と上記キーワードファイル3とにより、自
動分類をするための辞書を構成することになる。
【0039】次に、上記した実施例を用いて、本発明方
法(辞書作成方法)の一実施例を説明する。図7に示す
ように分野が既知の複数のサンプル文書を用い、分野と
ともに各サンプル文書(同一分野のサンプル文書をそれ
ぞれ複数用意する)を、入力装置1を介して辞書作成装
置に入力する(S201)。次いで、各文書からキーワ
ード(種類付き)を抽出し、さらに、あるキーワードと
同一の意味内容を表す要素キーワードを文字列一致キー
ワード抽出部5を用いて求める(S202,203)。
法(辞書作成方法)の一実施例を説明する。図7に示す
ように分野が既知の複数のサンプル文書を用い、分野と
ともに各サンプル文書(同一分野のサンプル文書をそれ
ぞれ複数用意する)を、入力装置1を介して辞書作成装
置に入力する(S201)。次いで、各文書からキーワ
ード(種類付き)を抽出し、さらに、あるキーワードと
同一の意味内容を表す要素キーワードを文字列一致キー
ワード抽出部5を用いて求める(S202,203)。
【0040】そして、各カウント部6,7にて各分野毎
にキーワードを有する文書の数並びにキーワード対を有
する文書(基準キーワードと比較キーワードのペアが同
時に出現する文書)の数をそれぞれ求める(S20
4)。なお、本例ではキーワード対を求めるに際し、比
較キーワードが要素キーワードも含めるようにしたた
が、係る要素キーワードは考慮せずに比較キーワードも
基準キーワードと同様に完全一致としてもよい。
にキーワードを有する文書の数並びにキーワード対を有
する文書(基準キーワードと比較キーワードのペアが同
時に出現する文書)の数をそれぞれ求める(S20
4)。なお、本例ではキーワード対を求めるに際し、比
較キーワードが要素キーワードも含めるようにしたた
が、係る要素キーワードは考慮せずに比較キーワードも
基準キーワードと同様に完全一致としてもよい。
【0041】そして、求めたキーワード,キーワード対
の出現文書数を特徴量算出部8に与え、各キーワード間
(基準キーワードと比較キーワードとの間)の距離を算
出し、それに基づいて係るキーワード間の依存度を算出
する。そして、算出した結果を、分類用辞書9に格納
し、処理を終了する(S205〜207)。
の出現文書数を特徴量算出部8に与え、各キーワード間
(基準キーワードと比較キーワードとの間)の距離を算
出し、それに基づいて係るキーワード間の依存度を算出
する。そして、算出した結果を、分類用辞書9に格納
し、処理を終了する(S205〜207)。
【0042】そして、具体的にサンプル文書として同一
分野(TVCMについての意見)の45個の文書を上記
辞書作成装置に入力し、得られた結果(辞書)の一部
は、図6のようになる。また、同一のサンプル文書に対
し従来の方式(キーワードの種類分けをせずに、しか
も、比較キーワードの完全一致によりキーワード対の出
現文書数をカウントする方式)を用いて得られた辞書の
一部を図8に示す。図6,8から明らかなように両方式
により得られた辞書の内容は異なる。ところで、この辞
書を見ただけでは両辞書の精度の良否は不明であるが、
辞書を作成した際に用いた45個のサンプル文書を次に
説明する自動分類装置に入力し、係る文書が本分野に属
する度合い(曖昧度)を求めることにより、良否を判定
することができ、その結果、本発明により製造された辞
書の方が属する度合いが高い(曖昧度が低い)ことが確
認された。
分野(TVCMについての意見)の45個の文書を上記
辞書作成装置に入力し、得られた結果(辞書)の一部
は、図6のようになる。また、同一のサンプル文書に対
し従来の方式(キーワードの種類分けをせずに、しか
も、比較キーワードの完全一致によりキーワード対の出
現文書数をカウントする方式)を用いて得られた辞書の
一部を図8に示す。図6,8から明らかなように両方式
により得られた辞書の内容は異なる。ところで、この辞
書を見ただけでは両辞書の精度の良否は不明であるが、
辞書を作成した際に用いた45個のサンプル文書を次に
説明する自動分類装置に入力し、係る文書が本分野に属
する度合い(曖昧度)を求めることにより、良否を判定
することができ、その結果、本発明により製造された辞
書の方が属する度合いが高い(曖昧度が低い)ことが確
認された。
【0043】図9は、本発明に係る自動分類装置の一実
施例を示している。同図に示すように、上記した図1に
示す辞書作成装置と同様の入力装置1′,キーワード抽
出部2′並びに辞書作成装置で作成されたキーワードフ
ァイル3並びに分類用辞書9を備えており、さらに、そ
れらキーワード抽出部2′,キーワードファイル3の出
力をファジィ関係作成部10に入力するようにしてい
る。このファジィ関係作成部10では、各分野のファジ
ィ集合の基準ワード(キーワードファイル3から得られ
る)と分野の未知の新規文書の抽出結果(キーワード抽
出部2より与えられる)とを比較し、一致する場合には
ファジィ関係1を「1」とし、一致しない場合に「0」
とする。そして、その様にして求めたファジィ関係Rを
ファジィ関係ファイル11に格納する。
施例を示している。同図に示すように、上記した図1に
示す辞書作成装置と同様の入力装置1′,キーワード抽
出部2′並びに辞書作成装置で作成されたキーワードフ
ァイル3並びに分類用辞書9を備えており、さらに、そ
れらキーワード抽出部2′,キーワードファイル3の出
力をファジィ関係作成部10に入力するようにしてい
る。このファジィ関係作成部10では、各分野のファジ
ィ集合の基準ワード(キーワードファイル3から得られ
る)と分野の未知の新規文書の抽出結果(キーワード抽
出部2より与えられる)とを比較し、一致する場合には
ファジィ関係1を「1」とし、一致しない場合に「0」
とする。そして、その様にして求めたファジィ関係Rを
ファジィ関係ファイル11に格納する。
【0044】今、説明の便宜上、分類用辞書9に格納さ
れたある分野のデータが図10に示すようであったとし
(キーワード数は8個)、新規の文書からは、図11に
示す5個のキーワードが抽出されたとすると、ファジィ
関係ファイル11には、例えば図12に示すような状態
で格納される。
れたある分野のデータが図10に示すようであったとし
(キーワード数は8個)、新規の文書からは、図11に
示す5個のキーワードが抽出されたとすると、ファジィ
関係ファイル11には、例えば図12に示すような状態
で格納される。
【0045】そして、ファジィ関係ファイル11と、分
類用辞書9を分野別依存度算出部12に接続し、そこに
おいて、既知の分野別に、分類用辞書9に格納されたフ
ァジィ集合Fと入力された文書(分野未知)に基づいて
作成されたファジィ関係Rとを合成し(下記式
(3))、新たなファジィ集合(依存度)を作成する。
これにより、各分野毎にその文書の各キーワードの依存
度が求められる。
類用辞書9を分野別依存度算出部12に接続し、そこに
おいて、既知の分野別に、分類用辞書9に格納されたフ
ァジィ集合Fと入力された文書(分野未知)に基づいて
作成されたファジィ関係Rとを合成し(下記式
(3))、新たなファジィ集合(依存度)を作成する。
これにより、各分野毎にその文書の各キーワードの依存
度が求められる。
【0046】
【数3】 そして、図10に示す分野に対するキーワードの依存度
は、図13,図14に示す計算式にのっとり演算処理さ
れ、図14中に示すような各値が得られる。ここで
「*」は論理積(最小値をとる)であり、「U」は結ば
れた数値の中の最大値をとることを意味する。そして、
係る演算処理がすべての分野毎に行われるため、結局、
図14に示すような各キーワードに対する依存度の関係
(表)が分野の数だけ存在することになる。
は、図13,図14に示す計算式にのっとり演算処理さ
れ、図14中に示すような各値が得られる。ここで
「*」は論理積(最小値をとる)であり、「U」は結ば
れた数値の中の最大値をとることを意味する。そして、
係る演算処理がすべての分野毎に行われるため、結局、
図14に示すような各キーワードに対する依存度の関係
(表)が分野の数だけ存在することになる。
【0047】そして、係る求めた分野別の依存度を、次
段の分野別曖昧度算出部13に送り、ここにおいて上記
得られたファジィ集合を下記式(4)に代入し、各分類
毎の曖昧度dを求める。この曖昧度dが小さいほど、曖
昧さが少ない、すなわち、その分野にマッチした文書で
あることを意味する。
段の分野別曖昧度算出部13に送り、ここにおいて上記
得られたファジィ集合を下記式(4)に代入し、各分類
毎の曖昧度dを求める。この曖昧度dが小さいほど、曖
昧さが少ない、すなわち、その分野にマッチした文書で
あることを意味する。
【0048】
【数4】 d(category) =(Δ1+Δ2+…+Δn)/n Δn=-ua(ai)log2 ua(ai)-(1-ua(ai))log2 (1-ua(ai)) ここで、nは分野別のキーワードの数を示し、ua(ai)は
キーワード対の依存度を示している。そして、その計算
の一例(図10のある分野に対する図11の新規文書の
曖昧度の算出)を図15に示す。
キーワード対の依存度を示している。そして、その計算
の一例(図10のある分野に対する図11の新規文書の
曖昧度の算出)を図15に示す。
【0049】そして、その様にして得られた分野別曖昧
度算出部13を判定・処理部14に送り、そこにおいて
最も曖昧度の小さい分野を、入力した文書の分野に決定
し、その結果を出力装置(CRTやプリンター等)15
に出力する。なお、通常は、データベースの作成を行う
に際し本発明を実施してデータベースに格納する文書の
分野を確定するため、抽出したキーワードと決定した分
野を所定のデータベース16に格納するようにしてもよ
い。なお、文書の全文は入力装置1′を介してそのまま
データベース16に格納される。
度算出部13を判定・処理部14に送り、そこにおいて
最も曖昧度の小さい分野を、入力した文書の分野に決定
し、その結果を出力装置(CRTやプリンター等)15
に出力する。なお、通常は、データベースの作成を行う
に際し本発明を実施してデータベースに格納する文書の
分野を確定するため、抽出したキーワードと決定した分
野を所定のデータベース16に格納するようにしてもよ
い。なお、文書の全文は入力装置1′を介してそのまま
データベース16に格納される。
【0050】さらに、本例では上記した図1に示した辞
書作成装置に、入力された処理対象の新規な文書を決定
した分野とともに送るようになっている。そして、その
新規な文書に基づいて、辞書の更新を行えるようになっ
ている。なお、図1に示す各カウント部6,7における
キーワード,キーワード対の出現文書数のカウントは、
実際には、分類用辞書9に格納された各回数のうち、該
当する箇所(新規な文書に存在するキーワード,キーワ
ード対)の数値をインクリメントする処理を行うことに
なる。
書作成装置に、入力された処理対象の新規な文書を決定
した分野とともに送るようになっている。そして、その
新規な文書に基づいて、辞書の更新を行えるようになっ
ている。なお、図1に示す各カウント部6,7における
キーワード,キーワード対の出現文書数のカウントは、
実際には、分類用辞書9に格納された各回数のうち、該
当する箇所(新規な文書に存在するキーワード,キーワ
ード対)の数値をインクリメントする処理を行うことに
なる。
【0051】なお上記のように分類用辞書の更新を行う
ようにした場合には、上記したキーワード抽出部2′に
て抽出されたキーワードのうち、既知の文書からすでに
抽出されてキーワードファイル3に格納されたキーワー
ドに含まれないものがあった場合には、その後の自動分
類のために係るキーワード並びにそれに基づくデータ
(要素キーワード等)を作成し、所定のファイル3,5
等に格納するのが好ましい。
ようにした場合には、上記したキーワード抽出部2′に
て抽出されたキーワードのうち、既知の文書からすでに
抽出されてキーワードファイル3に格納されたキーワー
ドに含まれないものがあった場合には、その後の自動分
類のために係るキーワード並びにそれに基づくデータ
(要素キーワード等)を作成し、所定のファイル3,5
等に格納するのが好ましい。
【0052】次に、上記した装置を用いて本発明に係る
自動部類方法の一例について説明する。まず、本例では
分類用辞書9に、2つの分野についてのファジィ集合が
格納されている。この2つの分野は、上記した「TVC
Mについての意見(第1分野)」と「紙を媒体としたC
Mについての意見(第2分野)」であり、第1分野につ
いては45個のサンプル文書に基づいて辞書を作成し、
また第2分野については69個のサンプル文書に基づい
て辞書を作成した。
自動部類方法の一例について説明する。まず、本例では
分類用辞書9に、2つの分野についてのファジィ集合が
格納されている。この2つの分野は、上記した「TVC
Mについての意見(第1分野)」と「紙を媒体としたC
Mについての意見(第2分野)」であり、第1分野につ
いては45個のサンプル文書に基づいて辞書を作成し、
また第2分野については69個のサンプル文書に基づい
て辞書を作成した。
【0053】この状態において、未知の文書を入力装
置1′を介して自動分類装置に入力し、まず、キーワー
ド抽出部2′によりキーワード(種類付き)を抽出す
る。この時、重複するキーワードは1個のみ残す。そし
て、その結果を図16に示す。
置1′を介して自動分類装置に入力し、まず、キーワー
ド抽出部2′によりキーワード(種類付き)を抽出す
る。この時、重複するキーワードは1個のみ残す。そし
て、その結果を図16に示す。
【0054】次いで、ファジィ関係作成部10によりフ
ァジィ関係を求めた後、分野別に入力された新規な文書
に存在する、キーワードに一致する新たに求めたファジ
ィ集合を構成するキーワード(xj )とそのファジィ集
合Fを抽出する。これにより第1分野についてのファジ
ィ集合(図17)並びに第2分野についてのファジィ集
合(図18)が求められる。それに基づいて、分野別依
存度算出部12にてファジィ集合(依存度)を求める。
ァジィ関係を求めた後、分野別に入力された新規な文書
に存在する、キーワードに一致する新たに求めたファジ
ィ集合を構成するキーワード(xj )とそのファジィ集
合Fを抽出する。これにより第1分野についてのファジ
ィ集合(図17)並びに第2分野についてのファジィ集
合(図18)が求められる。それに基づいて、分野別依
存度算出部12にてファジィ集合(依存度)を求める。
【0055】さらに、分野別曖昧度算出部13にて、曖
昧度を求める。そして、その結果を図19に示す(な
お、依存度が「0」となったキーワードについては記載
を省略している)。そして、判定・処理部14では、各
分野毎の曖昧度を比較し、最も小さい値を示す分野を選
択する。そして、本例では第1分野に決定される。
昧度を求める。そして、その結果を図19に示す(な
お、依存度が「0」となったキーワードについては記載
を省略している)。そして、判定・処理部14では、各
分野毎の曖昧度を比較し、最も小さい値を示す分野を選
択する。そして、本例では第1分野に決定される。
【0056】また、他の文書(図20に示すキーワー
ドを有する)を入力し、上記と同様の処理を行った結
果、図21に示すような曖昧度が得られ、この文書の
場合には第2分野に属する文書であると判定できる。そ
して、上記した処理フロー(本発明にかかる自動分類方
法の一実施例)を図22に示す。
ドを有する)を入力し、上記と同様の処理を行った結
果、図21に示すような曖昧度が得られ、この文書の
場合には第2分野に属する文書であると判定できる。そ
して、上記した処理フロー(本発明にかかる自動分類方
法の一実施例)を図22に示す。
【0057】さらに、上記の文書と文書を従来の方
式に基づいて自動分類し、第1分野に対する曖昧度を求
めた結果、図23に示すようになった。すなわち、この
図から明らかなように、このサンプル文書の場合では従
来方式でも正しく分類(文書→第1分野,文書→第
2分野)されたが、その曖昧度に着目すると、文書の
曖昧度は「0.106…」で、これは本発明により得ら
れた曖昧度「0.0841…」より大きな数値となり、
逆に文書の曖昧度は「0.40496…」で、これは
本発明により得られた曖昧度「0.5392…」よりも
小さな数値となっている。このことから、本発明のもの
では、正しい分野に対しては曖昧度がより小さくなる一
方誤った分野に対しては曖昧度がより大きくなることに
なり、似かよった分野に対しても精度よく分離して分類
できることがわかる。
式に基づいて自動分類し、第1分野に対する曖昧度を求
めた結果、図23に示すようになった。すなわち、この
図から明らかなように、このサンプル文書の場合では従
来方式でも正しく分類(文書→第1分野,文書→第
2分野)されたが、その曖昧度に着目すると、文書の
曖昧度は「0.106…」で、これは本発明により得ら
れた曖昧度「0.0841…」より大きな数値となり、
逆に文書の曖昧度は「0.40496…」で、これは
本発明により得られた曖昧度「0.5392…」よりも
小さな数値となっている。このことから、本発明のもの
では、正しい分野に対しては曖昧度がより小さくなる一
方誤った分野に対しては曖昧度がより大きくなることに
なり、似かよった分野に対しても精度よく分離して分類
できることがわかる。
【0058】また、辞書を作成する際に用いた第1分野
の45のサンプル文書を構成するすべてのキーワードを
上記分類装置に入力して処理した結果得られた第1分野
についての曖昧度は、0.08077581となった。
また同様に従来方式のものでは、0.08242087
となった。すなわち、本発明の方が曖昧度が小さく、正
確に辞書が作成されていることがわかる。
の45のサンプル文書を構成するすべてのキーワードを
上記分類装置に入力して処理した結果得られた第1分野
についての曖昧度は、0.08077581となった。
また同様に従来方式のものでは、0.08242087
となった。すなわち、本発明の方が曖昧度が小さく、正
確に辞書が作成されていることがわかる。
【0059】
【発明の効果】以上のように本発明に係る文書の自動分
類方法及び装置並びに分類用の辞書作成方法及び装置で
は、キーワードを抽出するに際し、その種別(主語,目
的語,その他等)も同時に判別し、種別まで同一で始め
て同一のキーワードとしてとらえるようにしたため、文
章の意味内容まで考慮して辞書が作成されるため、文書
の内容に近い高精度の辞書が作成でき、分野の未知の文
書に対する自動分類が正確に行える。
類方法及び装置並びに分類用の辞書作成方法及び装置で
は、キーワードを抽出するに際し、その種別(主語,目
的語,その他等)も同時に判別し、種別まで同一で始め
て同一のキーワードとしてとらえるようにしたため、文
章の意味内容まで考慮して辞書が作成されるため、文書
の内容に近い高精度の辞書が作成でき、分野の未知の文
書に対する自動分類が正確に行える。
【0060】また、キーワード対の出現数を係数するに
際し、文字列一致を同一のキーワードとしてとらえるよ
うにしたため、たとえ表記上の相違があったとしても、
それに影響されることなく正しい辞書が作成でき、自動
分類が可能となる。
際し、文字列一致を同一のキーワードとしてとらえるよ
うにしたため、たとえ表記上の相違があったとしても、
それに影響されることなく正しい辞書が作成でき、自動
分類が可能となる。
【図1】本発明に係る辞書作成装置の一実施例を示すブ
ロック図である。
ロック図である。
【図2】キーワード抽出部の機能を示すフローチャート
図である。
図である。
【図3】キーワード抽出部により抽出されたキーワード
の一例を示す図である。
の一例を示す図である。
【図4】文字列一致キーワード抽出部の作用を説明する
図である。
図である。
【図5】文字列一致キーワード抽出部により抽出された
同一グループを構成するキーワード群の一例を示す図で
ある。
同一グループを構成するキーワード群の一例を示す図で
ある。
【図6】分類用辞書のデータ構造の一例を示す図であ
る。
る。
【図7】本発明に係る辞書作成方法の一実施例を示すフ
ローチャート図である。
ローチャート図である。
【図8】従来方式により作成された分類用辞書の一部を
示す図である。
示す図である。
【図9】本発明に係る自動分類装置の一実施例を示すブ
ロック図である。
ロック図である。
【図10】分類用辞書に格納された辞書の一例を示す図
である。
である。
【図11】キーワード抽出部により抽出されたキーワー
ドの一例を示す図である。
ドの一例を示す図である。
【図12】ファジィ関係作成部により作成された関係を
示す図である。
示す図である。
【図13】分野別依存度算出部の作用を説明する図であ
る。
る。
【図14】分野別依存度算出部の作用を説明する図であ
る。
る。
【図15】分野別曖昧度算出部の作用を説明する図であ
る。
る。
【図16】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図17】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図18】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図19】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図20】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図21】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。
法の処理過程を示す図である。
【図22】自動分類装置を用いて実施される本発明に係
る自動分類方法の一例を示すフローチャート図である。
る自動分類方法の一例を示すフローチャート図である。
【図23】従来方式により分類処理された結果を示す図
である。
である。
1,1′ 入力装置 2,2′ キーワード抽出装置 3 キーワードファイル 4 文字列一致キーワード抽出部 5 文字列一致キーワードファイル 6 キーワードカウント部 7 キーワード対カウント部 8 特徴量算出部 9 分類用辞書 10 ファジィ関係作成部 11 ファジィ関係ファイル 12 分野別依存度算出部 13 分野別曖昧度算出部 14 判定・処理部 15 出力装置 16 データベース
Claims (6)
- 【請求項1】 分野既知の複数の文書をそれぞれ構成す
る語句の中から主語,目的語などの種類分けを行いつつ
キーワードを抽出し、 抽出されたキーワードの出現文書数並びに任意の2つの
キーワードが同時に出現するキーワード対の出現文書数
を求め、 前記キーワードの出現文書数と前記キーワード対の出現
文書数から前記キーワードを構成する2つのキーワード
間の距離を算出し、 そのキーワード間の距離から各キーワード対のその分野
の依存度を算出し、少なくともその分野におけるキーワ
ード対と依存度の関係を辞書に格納するようにした文書
の自動分類用の辞書作成方法。 - 【請求項2】 前記キーワード対の出現文書数を求める
に際し、予め同一意味を表すキーワードのグループを求
め、同一グループに属するキーワードがあれば前記出現
文書数に加算するようにした請求項1に記載の文書の自
動分類用の辞書作成方法。 - 【請求項3】 分野既知の文書を入力する入力装置と、 その入力装置を介して与えられた文書に対してそれを構
成する語句の中から主語,目的語などの種類分けを行い
つつキーワードを抽出する手段と、 前記キーワードを抽出する手段の出力を受けて、同一の
キーワードを有する同一分野の文書数を計数する第1計
数手段と、 前記キーワードを抽出する手段の出力を受けて、同一の
キーワード対を有する同一分野の文書数を計数する第2
計数手段と、 前記両計数手段の出力を受け、前記キーワード対を構成
する2つのキーワード間の距離を求めるとともに、その
キーワード対の前記分野に対する依存度を算出し、求め
られたその分野におけるキーワード対の依存度を辞書に
格納する手段とを備えた文書の自動分類用の辞書作成装
置。 - 【請求項4】 前記キーワードを抽出する手段の出力を
受けて、同一意味を表すキーワードのグループを求める
手段をさらに備え、 前記第2計数手段を、前記グループを求める手段と前記
キーワード抽出する手段の出力を受け、同一グループに
属するキーワードがあれば前記キーワード対の出現文書
数に加算するようにした請求項3に記載の文書の自動分
類用の辞書作成装置。 - 【請求項5】 入力された分野未知の文書を構成する語
句の中から主語,目的語などの種類分けを行いつつキー
ワードを抽出し、 抽出されたキーワードが、請求項1または2に記載の方
法により製造された辞書に格納された所定の分野に出現
するキーワードと一致するか否かの関係を求め、 次いで、前記求めた関係と、前記辞書に格納されたその
分野の各キーワード対の依存度とを掛け算して前記入力
された文書から抽出された各キーワードのその分野にお
ける依存度を算出し、 その依存度から各分野に対する曖昧度を求め、最小の曖
昧度となる分野を、前記入力された文書が属する分野に
決定するようにした文書の自動分類方法。 - 【請求項6】 分野未知の文書を入力する入力装置と、 その入力装置を介して与えられた文書に対してそれを構
成する語句の中から主語,目的語などの種類分けを行い
つつキーワードを抽出する手段と、 請求項3または4に記載の装置によりデータ格納された
辞書と、 前記キーワードを抽出する手段と前記辞書に接続され、
前記抽出されたキーワードが前記辞書に格納された所定
の分野に出現するキーワードと一致するか否かの関係を
求める手段と、 前記求める手段から出力される関係と、前記辞書に格納
されたその分野の各キーワード対の依存度とを受け、そ
れら関係と依存度とを掛け算して入力された文書から抽
出された各キーワードのその分野に対する依存度を算出
する依存度算出手段と、 前記依存度算出手段の出力を受け、前記文書の各分野に
対する曖昧度を求める曖昧度算出手段と、 前記曖昧度算出手段の出力を受け、各分野の曖昧度を比
較し最小の曖昧度となる分野を検出する判定手段とを備
えた請求項5に記載の文書の自動分類装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5087774A JPH06282587A (ja) | 1993-03-24 | 1993-03-24 | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5087774A JPH06282587A (ja) | 1993-03-24 | 1993-03-24 | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06282587A true JPH06282587A (ja) | 1994-10-07 |
Family
ID=13924333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5087774A Pending JPH06282587A (ja) | 1993-03-24 | 1993-03-24 | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06282587A (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08329118A (ja) * | 1994-11-18 | 1996-12-13 | Matsushita Electric Ind Co Ltd | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
| JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
| JPH10334106A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
| JPH1166077A (ja) * | 1997-08-22 | 1999-03-09 | Toshiba Corp | 索引生成装置及び方法並びに索引生成プログラムを記録した記録媒体 |
| JPH11126212A (ja) * | 1997-10-24 | 1999-05-11 | Fujitsu Ltd | 特徴量選択装置 |
| JP2000132553A (ja) * | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US6243723B1 (en) | 1997-05-21 | 2001-06-05 | Nec Corporation | Document classification apparatus |
| WO2002039319A1 (fr) * | 2000-11-10 | 2002-05-16 | Cai Co., Ltd. | Procede et systeme de preparation d'un dictionnaire permettant de retrouver des matieres, procede pour retrouver des matieres et systeme pour retrouver des matieres |
| WO2005066837A1 (ja) * | 2003-12-26 | 2005-07-21 | Matsushita Electric Industrial Co., Ltd. | 辞書作成装置および辞書作成方法 |
| CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
-
1993
- 1993-03-24 JP JP5087774A patent/JPH06282587A/ja active Pending
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08329118A (ja) * | 1994-11-18 | 1996-12-13 | Matsushita Electric Ind Co Ltd | 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。 |
| JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
| US6243723B1 (en) | 1997-05-21 | 2001-06-05 | Nec Corporation | Document classification apparatus |
| JPH10334106A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
| JPH1166077A (ja) * | 1997-08-22 | 1999-03-09 | Toshiba Corp | 索引生成装置及び方法並びに索引生成プログラムを記録した記録媒体 |
| JPH11126212A (ja) * | 1997-10-24 | 1999-05-11 | Fujitsu Ltd | 特徴量選択装置 |
| JP2000132553A (ja) * | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| WO2002039319A1 (fr) * | 2000-11-10 | 2002-05-16 | Cai Co., Ltd. | Procede et systeme de preparation d'un dictionnaire permettant de retrouver des matieres, procede pour retrouver des matieres et systeme pour retrouver des matieres |
| WO2005066837A1 (ja) * | 2003-12-26 | 2005-07-21 | Matsushita Electric Industrial Co., Ltd. | 辞書作成装置および辞書作成方法 |
| US7840565B2 (en) | 2003-12-26 | 2010-11-23 | Panasonic Corporation | Dictionary creation device and dictionary creation method |
| US7921113B2 (en) | 2003-12-26 | 2011-04-05 | Panasonic Corporation | Dictionary creation device and dictionary creation method |
| CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5606690A (en) | Non-literal textual search using fuzzy finite non-deterministic automata | |
| US6018735A (en) | Non-literal textual search using fuzzy finite-state linear non-deterministic automata | |
| CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
| CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
| US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
| CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
| CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
| CN114491062A (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
| CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
| CN109062895B (zh) | 一种智能语义处理方法 | |
| Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
| Noaman et al. | Naive Bayes classifier based Arabic document categorization | |
| JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
| McMahon et al. | Unix time-sharing system: Statistical text processing | |
| JPH0782504B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
| CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
| CN118349621A (zh) | 一种索引建立方法、检索方法和电子设备 | |
| KR102807787B1 (ko) | 데이터 정제가 강화된 쇼핑몰 리뷰데이터 분석 방법 및 데이터 정제가 강화된 쇼핑몰 리뷰데이터 분석 장치 | |
| CN115114914B (zh) | 日志模式识别方法和系统 | |
| Junker et al. | Evaluating ocr and non-ocr text representations for learning document classifiers | |
| Oguntunde et al. | Towards an automatic text analysis and summarization in yoruba language using transfer learning approach in natural language processing | |
| Bakar et al. | An evaluation of retrieval effectiveness using spelling‐correction and string‐similarity matching methods on Malay texts | |
| Thambi et al. | Graph based document model and its application in keyphrase extraction | |
| CN116414939B (zh) | 基于多维度数据的文章生成方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20010321 |