JPH103478A

JPH103478A - 概念の類似性判別方法

Info

Publication number: JPH103478A
Application number: JP8154466A
Authority: JP
Inventors: Keisuke Nakamura; 圭介中村; Kazumitsu Matsuzawa; 和光松澤; Kaname Kasahara; 要笠原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1996-06-14
Filing date: 1996-06-14
Publication date: 1998-01-06

Abstract

(57)【要約】【課題】概念の任意の組合せ間の類似度を適確に計算
し、複数の概念の組合せが固有の意味を有する場合でも
類似性判別を適確に行うことができる概念の類似性判別
方法を提供する。【解決手段】テキストデータＴと２つの概念データ
ａ，ｂを入力し、該入力テキストデータを形態素解析し
て部分テキスト集合Ｃを作成し、観測対象の言葉集合Ｗ
の全組合せについて部分テキスト集合Ｃを集計して頻度
分布Ｆを作成し、前記２つの概念データに着目して確率
分布Ｐを作成し、該確率分布をもとに前記２つの概念の
意味的距離Ｄを計算し、別の２つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば気象観測デ
ータに基づく類似性判別のように一定のテキスト内で固
有の意味を持ちうる概念間の類似性を機械的に計算して
抽出する概念の類似性判別方法に関する。

【０００２】

【従来の技術】近年、電子化文書の爆発的な普及ととも
に、概念を表現する「言葉」の意味や規則を自然言語テ
キストから自動獲得する技術が注目を集めている。

【０００３】特に、言葉の類似性の判断に関しては、
「他の言葉との共起頻度が似ている言葉どうしは似てい
る」という立場にたち、一定のテキスト中におけるある
言葉と他の各言葉との共起頻度や相互情報量を計算し、
それを「特徴ベクトル」として他のベクトルと距離計算
などの比較を行い類似度を計算するという方法およびそ
れを拡張したものが一般的である。

【０００４】例えば、天気予報のテキストＴを文ごとで
区切った上で、観測しようとする言葉集合

【数１】Ｗ＝｛パリ，横浜，東京，大阪，長崎，晴れ，曇り｝の全組合せについて各々集計した頻度分布Ｆが以下のよ
うに求められたとする。

【０００５】ここで、例えば「東京は晴れのち曇りで
す。」という文があったときには、｛東京，晴れ，曇
り｝をカウントし、「東京は曇り時々雨です。」という
文があったときには、｛東京，曇り｝をカウントしてい
る。なお、１回も出現しなかった組合せは、いちいち
｛…｝／０と書かずに省略している。

【０００６】

【数２】次に、この頻度分布Ｆから、一度以上共起したもの同士
の相互情報量を計算すると以下のようになる。

【０００７】

【表１】これより、例えば都市間の意味的距離を以下のように計
算する。

【０００８】パリ−東京間の距離Ｄ、すなわちベクトル
空間（晴れ，曇り）に対するパリの特徴ベクトル（ｌｏ
ｇ１．００，ｌｏｇ１．００）とベクトル空間（晴れ，
曇り）に対する東京の特徴ベクトル（ｌｏｇ１．００，
ｌｏｇ１．００）との距離Ｄは、

【数３】つまり、パリと東京の意味的距離は、パリと大阪の意味
的距離よりも近いことが計算でき、より類似性が高いこ
とが判別できる。

【０００９】他の組合せについても同様に類似度を計算
し類似度が近いもの同士をカテゴリとして集めること
で、以下のように分類を行うことができる。

【００１０】

【表２】

【００１１】

【発明が解決しようとする課題】上述した従来の方法で
は、２つの言葉同士の一対一の共起関係だけを抽出して
いるので、複数の言葉の組合せ間の共起情報は近似的に
しか計算できない。

【００１２】例えば、前述の例では｛晴れ，曇り｝との
共起頻度が高い「東京」「横浜」を、｛晴れ｝および
｛曇り｝との共起頻度が高い「パリ」から区別すること
ができず、「東京は晴れのち曇りです。」といった文の
「晴れのち曇り」という組合せ表現がもつ固有の意味
を、パリ〜東京〜横浜間の類似性判別に生かすことがで
きないという問題が生じる。

【００１３】本発明は、上記に鑑みてなされたもので、
その目的とするところは、概念の任意の組合せ間の類似
度を適確に計算し、複数の概念の組合せが固有の意味を
有する場合でも類似性判別を適確に行うことができる概
念の類似性判別方法を提供することにある。

【００１４】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、自然言語または形式言語
で記述されたテキストを分割して部分テキスト集合Ｃを
作成し、ｎ個の概念を含む一定の概念集合Ｗの２ⁿ個の
各部分集合（集合Ｗのベキ集合の要素）毎に該１つの部
分集合の全要素だけが出現している部分テキスト集合Ｃ
の要素数を集計して、集合Ｗの各部分集合への部分テキ
スト集合Ｃの頻度分布Ｆを得、集合Ｗから異なる２つの
概念（ａ，ｂ）を選択し、部分テキスト集合Ｃのうち概
念ａが出現している部分テキスト集合Ｃａについて概念
ｂの出現／非出現を区別せずにＷ−｛ａ，ｂ｝の各部分
集合毎に集計した頻度分布Ｆａ（ｂ）を部分テキスト集
合Ｃａの要素数｜Ｃａ｜で割った確率分布Ｐａ（ｂ）と
部分テキスト集合Ｃのうち概念ｂが出現している部分テ
キスト集合Ｃｂについて概念ａの出現／非出現を区別せ
ずにＷ−｛ｂ，ａ｝の各部分集合毎に集計した頻度分布
Ｆｂ（ａ）を部分テキスト集合Ｃｂの要素数｜Ｃｂ｜で
割った確率分布Ｐｂ（ａ）との差異によって概念ａとｂ
との意味的な距離を計算することを要旨とする。

【００１５】請求項１記載の本発明にあっては、テキス
トを分割して部分テキスト集合Ｃを作成し、概念集合Ｗ
の２ⁿ個の各部分集合毎に１つの部分集合の全要素だけ
が出現している部分テキスト集合Ｃの要素数を集計し、
集合Ｗの各部分集合への部分テキスト集合Ｃの頻度分布
Ｆを得、２つの概念ａ，ｂを選択し、概念ａが出現して
いる部分テキスト集合ＣａについてＷ−｛ａ，ｂ｝の各
部分集合毎に集計した頻度分布Ｆａ（ｂ）を部分テキス
ト集合の要素数｜Ｃａ｜で割った確率分布Ｐａ（ｂ）と
概念ｂが出現している部分テキスト集合ＣｂについてＷ
−｛ｂ，ａ｝の各部分集合毎に集計した頻度分布Ｆｂ
（ａ）を部分テキスト集合の要素数｜Ｃｂ｜で割った確
率分布Ｐｂ（ａ）との差異によって概念ａとｂとの意味
的な距離を計算する。

【００１６】また、請求項２記載の本発明は、自然言語
または形式言語で記述されたテキストデータおよび２つ
の概念データを入力する入力工程と、（イ）所定の部分
テキスト作成ルールに基づいて、前記入力テキストデー
タを形態素解析して部分テキストを作成する部分テキス
ト作成工程と、（ロ）所定の頻度分布作成ルールに基づ
いて、観測対象の言葉集合Ｗの全組合せについて部分テ
キストを集計して頻度分布を作成する頻度分布作成工程
と、（ハ）所定の確率分布作成ルールに基づいて、前記
２つの概念データに着目して確率分布を作成する確率分
布作成工程と、（ニ）所定の意味的距離計算ルールに基
づいて、前記確率分布をもとに前記２つの概念の意味的
距離を計算する意味的距離計算工程と、別の２つの概念
データを入力し、上記（イ）ないし（ニ）の工程を所定
回数繰り返し行った後、所定のカテゴリ判別ルールに基
づいて、前記意味的距離からカテゴリ要素対応テーブル
として格納するカテゴリ判別工程と、結果のカテゴリ要
素対応テーブルを出力する出力工程とを有することを要
旨とする。

【００１７】請求項２記載の本発明にあっては、テキス
トデータと２つの概念データを入力し、該入力テキスト
データを形態素解析して部分テキストを作成し、観測対
象の言葉集合Ｗの全組合せについて部分テキストを集計
して頻度分布を作成し、前記２つの概念データに着目し
て確率分布を作成し、該確率分布をもとに前記２つの概
念の意味的距離を計算し、別の２つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。

【００１８】更に、請求項３記載の本発明は、請求項２
記載の発明において、前記意味的距離計算工程に関し
て、前記部分テキストのうち、入力された概念データａ
が出現している部分テキスト集合Ｃａについて入力され
た概念データｂの出現／非出現を区別せずに言葉集合Ｗ
−｛ｂ，ａ｝の各部分集合毎に集計した頻度分布Ｆａ
（ｂ）を部分テキスト集合Ｃａの要素数｜Ｃａ｜で割っ
た確率分布Ｐａ（ｂ）と前記部分テキストのうち入力さ
れた概念データｂが出現している部分テキスト集合Ｃｂ
について入力された概念データａの出現／非出現を区別
せずに言葉集合Ｗ−｛ｂ，ａ｝の各部分集合毎に集計し
た頻度分布Ｆｂ（ａ）を部分テキスト集合Ｃｂの要素数
｜Ｃｂ｜で割った確率分布Ｐｂ（ａ）との差異によって
２つの概念ａ，ｂの意味的距離を計算することを要旨と
する。

【００１９】請求項３記載の本発明にあっては、概念デ
ータａが出現している部分テキスト集合Ｃａについて言
葉集合Ｗ−｛ｂ，ａ｝の各部分集合毎に集計した頻度分
布Ｆａ（ｂ）を部分テキスト集合の要素数｜Ｃａ｜で割
った確率分布Ｐａ（ｂ）と概念データｂが出現している
部分テキスト集合Ｃｂについて言葉集合Ｗ−｛ｂ，ａ｝
の各部分集合毎に集計した頻度分布Ｆｂ（ａ）を部分テ
キスト集合の要素数｜Ｃｂ｜で割った確率分布Ｐｂ
（ａ）との差異によって２つの概念ａ，ｂの意味的距離
を計算する。

【００２０】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。

【００２１】図１は、本発明の一実施形態に係る概念の
類似性判別方法を実施するシステムの構成を示すブロッ
ク図である。本システムは、自然言語または形式言語で
記述されたテキストデータＴおよび２つの概念データ
ａ，ｂを入力する入力部Ａ１、所定の部分テキスト作成
ルールに基づいて、入力テキストデータを形態素解析し
て部分テキストＣを作成する部分テキスト作成工程部Ａ
２、所定の頻度分布作成ルールに基づいて、観測対象の
言葉集合Ｗの全組合せについて部分テキストを集計して
頻度分布Ｆを作成する頻度分布作成工程部Ａ３、所定の
確率分布作成ルールに基づいて、２つの概念データａ，
ｂに着目して確率分布Ｐを作成する確率分布作成工程部
Ａ４、所定の意味的距離計算ルールに基づいて、前記確
率分布をもとに２つの概念ａ，ｂの意味的距離を計算す
る意味的距離計算工程部Ａ５、所定のカテゴリ判別ルー
ルに基づいて、前記意味的距離からカテゴリ要素対応テ
ーブルとして格納するカテゴリ判別工程部Ａ６、結果の
カテゴリ要素対応テーブルを出力する出力部Ａ７、入力
データを格納する入力データ格納部Ａ８、および出力デ
ータを格納する出力データ格納部Ａ９を有する。

【００２２】各工程部Ａ２，Ａ３，Ａ４，Ａ５，Ａ６
は、所定の計算を行う演算部Ａ２２，Ａ３２，Ａ４２，
Ａ５２，Ａ６２と、計算の途中結果を保持するバッファ
領域Ａ２３，Ａ３３，Ａ４３，Ａ５３，Ａ６３と、計算
を行う際のルール（条件）を格納するデータベースＡ２
１，Ａ３１，Ａ４１，Ａ５１，Ａ６１とをそれぞれ備え
ている。

【００２３】なお、本システムは、所謂計算機システム
で実現されるものであり、各演算部はＣＰＵが受け持
ち、各バッファ領域およびデータベースはメモリまたは
外部記憶装置が受け持つことになる。

【００２４】図１に示すシステムは、図２に示すよう
に、ユーザ６から入力された言語ａおよびｂを前記各工
程部からなる主要部１で受け取り、この２つの言語ａお
よびｂ、すなわち２つの概念ａおよびｂの間の類似度を
算出してユーザに出力するものであり、主要部１は電子
化されたテキストＴ（２）を分割して部分テキスト集合
Ｃ（３）を作成している。また、この作成された部分テ
キスト集合Ｃを各部分集合毎に集計して頻度分布Ｆ
（４）を作成し、この頻度分布Ｆを要素数｜Ｃ｜で割っ
て確率分布Ｐ（５）を算出している。更に具体的には、
部分テキスト集合Ｃのうち概念ａが出現している部分テ
キスト集合Ｃａについて概念ｂの出現／非出現を区別せ
ずにＷ−｛ａ，ｂ｝の各部分集合毎に集計した頻度分布
Ｆａ（ｂ）を部分テキスト集合Ｃａの要素数｜Ｃａ｜で
割った確率分布Ｐａ（ｂ）と部分テキスト集合Ｃのうち
概念ｂが出現している部分テキスト集合Ｃｂについて概
念ａの出現／非出現を区別せずにＷ−｛ｂ，ａ｝の各部
分集合毎に集計した頻度分布Ｆｂ（ａ）を部分テキスト
集合Ｃｂの要素数｜Ｃｂ｜で割った確率分布Ｐｂ（ａ）
を計算し、この確率分布Ｐａ（ｂ）と確率分布Ｐｂ
（ａ）との差異によって概念ａとｂとの意味的な距離を
計算し、ユーザ６に出力している。

【００２５】次に、図３に示すフローチャートを参照し
て、作用を説明する。

【００２６】図３においては、まずテキストＴを分割し
て部分テキスト集合Ｃを生成する（ステップＳ１）。そ
れから、概念集合Ｗの各部分集合毎に部分テキスト集合
Ｃを集計して、頻度分布Ｆを作成する（ステップＳ
２）。次に、各頻度分布Ｆを要素数｜Ｃ｜で割って、部
分テキスト集合Ｃの確率分布Ｐを算出する（ステップＳ
３）。その後、比較すべき２つの概念ａおよびｂをユー
ザが入力すると（ステップＳ４）、確率分布Ｐから各概
念ａ，ｂ毎の確率分布Ｐａおよび確率分布Ｐｂを計算
し、この確率分布Ｐａ，Ｐｂを縮約して確率分布Ｐａ
（ｂ），Ｐｂ（ａ）がそれぞれ求められる（ステップＳ
５）。それから、この確率分布Ｐａ（ｂ），Ｐｂ（ａ）
を比較し、概念ａ，ｂの類似性が判別される（ステップ
Ｓ６）。

【００２７】上記処理においては、ステップＳ３までの
処理により一旦確率分布Ｐが得られると、入力する２つ
の概念ａ，ｂを変えて、同一の確率分布Ｐにより両概念
の類似性の判別を繰り返し行うことができる。

【００２８】上述したように、テキストに含まれる概念
の共起関係をステップＳ２の処理において観測する単語
（概念）集合の全組合せ空間への頻度分布Ｆに変換する
ことにより、単語の任意の組合せ間の共起頻度を正確に
計算することができる。

【００２９】次に、前述した天気予報のデータを例にと
って、更に具体的に本発明の実施形態を説明する。

【００３０】まず、天気予報のテキストＴを形態素解析
し、「文」ごとに区切って部分テキスト集合Ｃを作成す
る。

【００３１】次に、観測しようとする言葉集合

【数４】Ｗ＝｛パリ，横浜，東京，大阪，長崎，晴れ，曇り｝の全組合せについてＣを集計する。

【００３２】前述の例と同様、Ｆが以下のように求めら
れたとする。

【００３３】（ただし、ここでは、１回も出現しなかっ
た組合せは、｛…｝／０と書かずに省略している。）

【数５】ここで２つの概念データの対として「パリ」、「東京」
をとりあげる。

【００３４】Ｆをもとに、「パリ」の出現する部分テキ
スト集合Ｃ_パリを、「東京」を無視して集計し、｜Ｃ
_パリ｜で割ることでＰ_{パリ（東京）}を計算すると、以下
のようになる。

【００３５】

【数６】また、同様にＦから、Ｐ東京（パリ）を計算すると、以
下のようになる。

【００３６】

【数７】また、別の概念データの対として、「東京」、「横浜」
をとりあげてＦから、Ｐ東京（横浜）を計算すると、以
下のようになる。

【００３７】

【数８】これらの表、式をもとに、Ｐパリ（東京）とＰ東京（パ
リ）との距離を計算すると、以下のようになる。距離
（パリ，東京）Ｄは、

【数９】つまり、パリ〜東京よりも東京〜横浜のほうが、距離が
近く、概念としての類似性が高いことがわかる。

【００３８】これは、前述した従来の方法では判断でき
なかった内容であり、本発明の方法ではその他の概念デ
ータの対についても互いの距離の計算を繰り返した後、
カテゴリと要素の対応をテーブルとして格納することに
より、以下のように従来法よりも詳細な分類が可能とな
る。

【００３９】

【表３】なお、上述した例において、比較される言葉ａとｂはそ
れぞれＷに含まれる１つの概念を想定しているが、それ
ぞれについてＷに含まれる概念の論理的な組合せと考え
ても同様に計算することが可能である。

【００４０】したがって、例えば「男子生徒」という複
合的な概念（以降、複合概念）がＷに含まれていないと
きには、ａ＝「男子」∧「生徒」：（論理積）とすることで、１つの概念の場合と同様に他の概念との
比較を行うことができる。また、例えば「山河」という
複合概念は、ａ＝「山」∨「河」：（論理和）の形で表現することができ、同様の比較が可能である。

【００４１】ただしこれらの場合、｛ａ，ｂ｝は、ａを
構成する概念の集合とｂを構成する概念の集合との和集
合と読み替えることにする。例えば、ａ＝「男子」∧「生徒」ｂ＝「女子」∧（「生徒」∨「大学生」）のとき、

【数１０】｛ａ，ｂ｝＝｛「男子」，「女子」，「生
徒」，「大学生」｝となる。また、「ａがある部分テキストに出現」は、
「ａの式中の概念Ｘがある部分テキストに出現する場合
にＸの値を真とし、かつ出現しない場合に偽とするとし
て、Ｘ等を含む式全体の値が真となること」と読み替え
ることにする。したがって、例えば、ａ＝「女子」∧（「生徒」∨¬「大学生」）のとき、「部分テキストｃ₁にａが出現する」の意味
は、（部分テキストｃ₁に「女子」が出現し、かつ、
「生徒」が出現するか「大学生」が出現しないかであ
る）となる。

【００４２】

【発明の効果】以上説明したように、本発明によれば、
テキスト中に出現する概念の任意の組合せ間の類似度を
必要に応じて精密に算出でき、複数の言葉の組合せがそ
の固有の意味を表現する場合にも正確な類似性判別を行
うことができる。

【００４３】更に、複合概念をいちいち辞書に登録しな
くても、既に登録されている基本的な概念の論理積ある
いは論理和等として複合概念をとらえ、それらの間の類
似性を近似的に計算することができる。

【００４４】また、単語を自由に組合せたもの同士の類
似性を一定の計算で判断できるので、既に定着した複合
語に限らず、まだ名前のついていない複雑な概念や非常
に混み入った状況などを、辞書に登録された単語の性格
／量／粒度にあまり左右されずに、自由自在に比較する
ことができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る概念の類似性判別方
法を実施するシステムの構成を示すブロック図である。

【図２】図１に示すシステムの情報の流れを主として示
す具体的構成を示す図である。

【図３】本システムの処理を示すフローチャートであ
る。

【符号の説明】

Ａ１入力部Ａ２部分テキスト作成工程部Ａ３頻度分布作成工程部Ａ４確率分布作成工程部Ａ５意味的距離計算工程部Ａ６カテゴリ判別工程部Ａ７出力部Ａ８入力データ格納部Ａ９出力データ格納部

Claims

【特許請求の範囲】

【請求項１】自然言語または形式言語で記述されたテ
キストを分割して部分テキスト集合Ｃを作成し、ｎ個の概念を含む一定の概念集合Ｗの２ⁿ個の各部分集
合（集合Ｗのベキ集合の要素）毎に該１つの部分集合の
全要素だけが出現している部分テキスト集合Ｃの要素数
を集計して、集合Ｗの各部分集合への部分テキスト集合
Ｃの頻度分布Ｆを得、集合Ｗから異なる２つの概念（ａ，ｂ）を選択し、部分テキスト集合Ｃのうち概念ａが出現している部分テ
キスト集合Ｃａについて概念ｂの出現／非出現を区別せ
ずにＷ−｛ａ，ｂ｝の各部分集合毎に集計した頻度分布
Ｆａ（ｂ）を部分テキスト集合Ｃａの要素数｜Ｃａ｜で
割った確率分布Ｐａ（ｂ）と部分テキスト集合Ｃのうち
概念ｂが出現している部分テキスト集合Ｃｂについて概
念ａの出現／非出現を区別せずにＷ−｛ｂ，ａ｝の各部
分集合毎に集計した頻度分布Ｆｂ（ａ）を部分テキスト
集合Ｃｂの要素数｜Ｃｂ｜で割った確率分布Ｐｂ（ａ）
との差異によって概念ａとｂとの意味的な距離を計算す
ることを特徴とする概念の類似性判別方法。
【請求項２】自然言語または形式言語で記述されたテ
キストデータおよび２つの概念データを入力する入力工
程と、（イ）所定の部分テキスト作成ルールに基づいて、前記
入力テキストデータを解析して部分テキストを作成する
部分テキスト作成工程と、（ロ）所定の頻度分布作成ルールに基づいて、観測対象
の言葉集合Ｗの各部分集合毎に該集合の要素が過不足な
く出現している部分テキスト数を集計して言葉集合Ｗの
出来集合への頻度分布を作成する頻度分布作成工程と、（ハ）所定の確率分布作成ルールに基づいて、前記２つ
の概念データに着目して確率分布を作成する確率分布作
成工程と、（ニ）所定の意味的距離計算ルールに基づいて、前記確
率分布をもとに前記２つの概念の意味的距離を計算する
意味的距離計算工程と、別の２つの概念データを入力し、上記（イ）ないし
（ニ）の工程を所定回数繰り返し行った後、所定のカテ
ゴリ判別ルールに基づいて、前記意味的距離からカテゴ
リ要素対応テーブルとして格納するカテゴリ判別工程
と、結果のカテゴリ要素対応テーブルを出力する出力工程と
を有することを特徴とする概念の類似性判別方法。
【請求項３】前記意味的距離計算工程に関して、前記
部分テキスト集合のうち、入力された概念データａが出
現している部分テキスト集合Ｃａについて入力された概
念データｂの出現／非出現を区別せずに言葉集合Ｗ−
｛ｂ，ａ｝の各部分集合毎に集計した頻度分布Ｆａ
（ｂ）を部分テキスト集合Ｃａの要素数｜Ｃａ｜で割っ
た確率分布Ｐａ（ｂ）と前記部分テキスト集合のうち入
力された概念データｂが出現している部分テキスト集合
Ｃｂについて入力された概念データａの出現／非出現を
区別せずに言葉集合Ｗ−｛ｂ，ａ｝の各部分集合毎に集
計した頻度分布Ｆｂ（ａ）を部分テキスト集合Ｃｂの要
素数｜Ｃｂ｜で割った確率分布Ｐｂ（ａ）との差異によ
って２つの概念ａ，ｂの意味的距離を計算することを特
徴とする請求項２記載の概念の類似性判別方法。