JPH103478A - 概念の類似性判別方法 - Google Patents
概念の類似性判別方法Info
- Publication number
- JPH103478A JPH103478A JP8154466A JP15446696A JPH103478A JP H103478 A JPH103478 A JP H103478A JP 8154466 A JP8154466 A JP 8154466A JP 15446696 A JP15446696 A JP 15446696A JP H103478 A JPH103478 A JP H103478A
- Authority
- JP
- Japan
- Prior art keywords
- concept
- partial text
- data
- concepts
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 概念の任意の組合せ間の類似度を適確に計算
し、複数の概念の組合せが固有の意味を有する場合でも
類似性判別を適確に行うことができる概念の類似性判別
方法を提供する。 【解決手段】 テキストデータTと2つの概念データ
a,bを入力し、該入力テキストデータを形態素解析し
て部分テキスト集合Cを作成し、観測対象の言葉集合W
の全組合せについて部分テキスト集合Cを集計して頻度
分布Fを作成し、前記2つの概念データに着目して確率
分布Pを作成し、該確率分布をもとに前記2つの概念の
意味的距離Dを計算し、別の2つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。
し、複数の概念の組合せが固有の意味を有する場合でも
類似性判別を適確に行うことができる概念の類似性判別
方法を提供する。 【解決手段】 テキストデータTと2つの概念データ
a,bを入力し、該入力テキストデータを形態素解析し
て部分テキスト集合Cを作成し、観測対象の言葉集合W
の全組合せについて部分テキスト集合Cを集計して頻度
分布Fを作成し、前記2つの概念データに着目して確率
分布Pを作成し、該確率分布をもとに前記2つの概念の
意味的距離Dを計算し、別の2つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。
Description
【0001】
【発明の属する技術分野】本発明は、例えば気象観測デ
ータに基づく類似性判別のように一定のテキスト内で固
有の意味を持ちうる概念間の類似性を機械的に計算して
抽出する概念の類似性判別方法に関する。
ータに基づく類似性判別のように一定のテキスト内で固
有の意味を持ちうる概念間の類似性を機械的に計算して
抽出する概念の類似性判別方法に関する。
【0002】
【従来の技術】近年、電子化文書の爆発的な普及ととも
に、概念を表現する「言葉」の意味や規則を自然言語テ
キストから自動獲得する技術が注目を集めている。
に、概念を表現する「言葉」の意味や規則を自然言語テ
キストから自動獲得する技術が注目を集めている。
【0003】特に、言葉の類似性の判断に関しては、
「他の言葉との共起頻度が似ている言葉どうしは似てい
る」という立場にたち、一定のテキスト中におけるある
言葉と他の各言葉との共起頻度や相互情報量を計算し、
それを「特徴ベクトル」として他のベクトルと距離計算
などの比較を行い類似度を計算するという方法およびそ
れを拡張したものが一般的である。
「他の言葉との共起頻度が似ている言葉どうしは似てい
る」という立場にたち、一定のテキスト中におけるある
言葉と他の各言葉との共起頻度や相互情報量を計算し、
それを「特徴ベクトル」として他のベクトルと距離計算
などの比較を行い類似度を計算するという方法およびそ
れを拡張したものが一般的である。
【0004】例えば、天気予報のテキストTを文ごとで
区切った上で、観測しようとする言葉集合
区切った上で、観測しようとする言葉集合
【数1】 W={パリ,横浜,東京,大阪,長崎,晴れ,曇り} の全組合せについて各々集計した頻度分布Fが以下のよ
うに求められたとする。
うに求められたとする。
【0005】ここで、例えば「東京は晴れのち曇りで
す。」という文があったときには、{東京,晴れ,曇
り}をカウントし、「東京は曇り時々雨です。」という
文があったときには、{東京,曇り}をカウントしてい
る。なお、1回も出現しなかった組合せは、いちいち
{…}/0と書かずに省略している。
す。」という文があったときには、{東京,晴れ,曇
り}をカウントし、「東京は曇り時々雨です。」という
文があったときには、{東京,曇り}をカウントしてい
る。なお、1回も出現しなかった組合せは、いちいち
{…}/0と書かずに省略している。
【0006】
【数2】 次に、この頻度分布Fから、一度以上共起したもの同士
の相互情報量を計算すると以下のようになる。
の相互情報量を計算すると以下のようになる。
【0007】
【表1】 これより、例えば都市間の意味的距離を以下のように計
算する。
算する。
【0008】パリ−東京間の距離D、すなわちベクトル
空間(晴れ,曇り)に対するパリの特徴ベクトル(lo
g1.00,log1.00)とベクトル空間(晴れ,
曇り)に対する東京の特徴ベクトル(log1.00,
log1.00)との距離Dは、
空間(晴れ,曇り)に対するパリの特徴ベクトル(lo
g1.00,log1.00)とベクトル空間(晴れ,
曇り)に対する東京の特徴ベクトル(log1.00,
log1.00)との距離Dは、
【数3】 つまり、パリと東京の意味的距離は、パリと大阪の意味
的距離よりも近いことが計算でき、より類似性が高いこ
とが判別できる。
的距離よりも近いことが計算でき、より類似性が高いこ
とが判別できる。
【0009】他の組合せについても同様に類似度を計算
し類似度が近いもの同士をカテゴリとして集めること
で、以下のように分類を行うことができる。
し類似度が近いもの同士をカテゴリとして集めること
で、以下のように分類を行うことができる。
【0010】
【表2】
【0011】
【発明が解決しようとする課題】上述した従来の方法で
は、2つの言葉同士の一対一の共起関係だけを抽出して
いるので、複数の言葉の組合せ間の共起情報は近似的に
しか計算できない。
は、2つの言葉同士の一対一の共起関係だけを抽出して
いるので、複数の言葉の組合せ間の共起情報は近似的に
しか計算できない。
【0012】例えば、前述の例では{晴れ,曇り}との
共起頻度が高い「東京」「横浜」を、{晴れ}および
{曇り}との共起頻度が高い「パリ」から区別すること
ができず、「東京は晴れのち曇りです。」といった文の
「晴れのち曇り」という組合せ表現がもつ固有の意味
を、パリ〜東京〜横浜間の類似性判別に生かすことがで
きないという問題が生じる。
共起頻度が高い「東京」「横浜」を、{晴れ}および
{曇り}との共起頻度が高い「パリ」から区別すること
ができず、「東京は晴れのち曇りです。」といった文の
「晴れのち曇り」という組合せ表現がもつ固有の意味
を、パリ〜東京〜横浜間の類似性判別に生かすことがで
きないという問題が生じる。
【0013】本発明は、上記に鑑みてなされたもので、
その目的とするところは、概念の任意の組合せ間の類似
度を適確に計算し、複数の概念の組合せが固有の意味を
有する場合でも類似性判別を適確に行うことができる概
念の類似性判別方法を提供することにある。
その目的とするところは、概念の任意の組合せ間の類似
度を適確に計算し、複数の概念の組合せが固有の意味を
有する場合でも類似性判別を適確に行うことができる概
念の類似性判別方法を提供することにある。
【0014】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、自然言語または形式言語
で記述されたテキストを分割して部分テキスト集合Cを
作成し、n個の概念を含む一定の概念集合Wの2n 個の
各部分集合(集合Wのベキ集合の要素)毎に該1つの部
分集合の全要素だけが出現している部分テキスト集合C
の要素数を集計して、集合Wの各部分集合への部分テキ
スト集合Cの頻度分布Fを得、集合Wから異なる2つの
概念(a,b)を選択し、部分テキスト集合Cのうち概
念aが出現している部分テキスト集合Caについて概念
bの出現/非出現を区別せずにW−{a,b}の各部分
集合毎に集計した頻度分布Fa(b)を部分テキスト集
合Caの要素数|Ca|で割った確率分布Pa(b)と
部分テキスト集合Cのうち概念bが出現している部分テ
キスト集合Cbについて概念aの出現/非出現を区別せ
ずにW−{b,a}の各部分集合毎に集計した頻度分布
Fb(a)を部分テキスト集合Cbの要素数|Cb|で
割った確率分布Pb(a)との差異によって概念aとb
との意味的な距離を計算することを要旨とする。
め、請求項1記載の本発明は、自然言語または形式言語
で記述されたテキストを分割して部分テキスト集合Cを
作成し、n個の概念を含む一定の概念集合Wの2n 個の
各部分集合(集合Wのベキ集合の要素)毎に該1つの部
分集合の全要素だけが出現している部分テキスト集合C
の要素数を集計して、集合Wの各部分集合への部分テキ
スト集合Cの頻度分布Fを得、集合Wから異なる2つの
概念(a,b)を選択し、部分テキスト集合Cのうち概
念aが出現している部分テキスト集合Caについて概念
bの出現/非出現を区別せずにW−{a,b}の各部分
集合毎に集計した頻度分布Fa(b)を部分テキスト集
合Caの要素数|Ca|で割った確率分布Pa(b)と
部分テキスト集合Cのうち概念bが出現している部分テ
キスト集合Cbについて概念aの出現/非出現を区別せ
ずにW−{b,a}の各部分集合毎に集計した頻度分布
Fb(a)を部分テキスト集合Cbの要素数|Cb|で
割った確率分布Pb(a)との差異によって概念aとb
との意味的な距離を計算することを要旨とする。
【0015】請求項1記載の本発明にあっては、テキス
トを分割して部分テキスト集合Cを作成し、概念集合W
の2n 個の各部分集合毎に1つの部分集合の全要素だけ
が出現している部分テキスト集合Cの要素数を集計し、
集合Wの各部分集合への部分テキスト集合Cの頻度分布
Fを得、2つの概念a,bを選択し、概念aが出現して
いる部分テキスト集合CaについてW−{a,b}の各
部分集合毎に集計した頻度分布Fa(b)を部分テキス
ト集合の要素数|Ca|で割った確率分布Pa(b)と
概念bが出現している部分テキスト集合CbについてW
−{b,a}の各部分集合毎に集計した頻度分布Fb
(a)を部分テキスト集合の要素数|Cb|で割った確
率分布Pb(a)との差異によって概念aとbとの意味
的な距離を計算する。
トを分割して部分テキスト集合Cを作成し、概念集合W
の2n 個の各部分集合毎に1つの部分集合の全要素だけ
が出現している部分テキスト集合Cの要素数を集計し、
集合Wの各部分集合への部分テキスト集合Cの頻度分布
Fを得、2つの概念a,bを選択し、概念aが出現して
いる部分テキスト集合CaについてW−{a,b}の各
部分集合毎に集計した頻度分布Fa(b)を部分テキス
ト集合の要素数|Ca|で割った確率分布Pa(b)と
概念bが出現している部分テキスト集合CbについてW
−{b,a}の各部分集合毎に集計した頻度分布Fb
(a)を部分テキスト集合の要素数|Cb|で割った確
率分布Pb(a)との差異によって概念aとbとの意味
的な距離を計算する。
【0016】また、請求項2記載の本発明は、自然言語
または形式言語で記述されたテキストデータおよび2つ
の概念データを入力する入力工程と、(イ)所定の部分
テキスト作成ルールに基づいて、前記入力テキストデー
タを形態素解析して部分テキストを作成する部分テキス
ト作成工程と、(ロ)所定の頻度分布作成ルールに基づ
いて、観測対象の言葉集合Wの全組合せについて部分テ
キストを集計して頻度分布を作成する頻度分布作成工程
と、(ハ)所定の確率分布作成ルールに基づいて、前記
2つの概念データに着目して確率分布を作成する確率分
布作成工程と、(ニ)所定の意味的距離計算ルールに基
づいて、前記確率分布をもとに前記2つの概念の意味的
距離を計算する意味的距離計算工程と、別の2つの概念
データを入力し、上記(イ)ないし(ニ)の工程を所定
回数繰り返し行った後、所定のカテゴリ判別ルールに基
づいて、前記意味的距離からカテゴリ要素対応テーブル
として格納するカテゴリ判別工程と、結果のカテゴリ要
素対応テーブルを出力する出力工程とを有することを要
旨とする。
または形式言語で記述されたテキストデータおよび2つ
の概念データを入力する入力工程と、(イ)所定の部分
テキスト作成ルールに基づいて、前記入力テキストデー
タを形態素解析して部分テキストを作成する部分テキス
ト作成工程と、(ロ)所定の頻度分布作成ルールに基づ
いて、観測対象の言葉集合Wの全組合せについて部分テ
キストを集計して頻度分布を作成する頻度分布作成工程
と、(ハ)所定の確率分布作成ルールに基づいて、前記
2つの概念データに着目して確率分布を作成する確率分
布作成工程と、(ニ)所定の意味的距離計算ルールに基
づいて、前記確率分布をもとに前記2つの概念の意味的
距離を計算する意味的距離計算工程と、別の2つの概念
データを入力し、上記(イ)ないし(ニ)の工程を所定
回数繰り返し行った後、所定のカテゴリ判別ルールに基
づいて、前記意味的距離からカテゴリ要素対応テーブル
として格納するカテゴリ判別工程と、結果のカテゴリ要
素対応テーブルを出力する出力工程とを有することを要
旨とする。
【0017】請求項2記載の本発明にあっては、テキス
トデータと2つの概念データを入力し、該入力テキスト
データを形態素解析して部分テキストを作成し、観測対
象の言葉集合Wの全組合せについて部分テキストを集計
して頻度分布を作成し、前記2つの概念データに着目し
て確率分布を作成し、該確率分布をもとに前記2つの概
念の意味的距離を計算し、別の2つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。
トデータと2つの概念データを入力し、該入力テキスト
データを形態素解析して部分テキストを作成し、観測対
象の言葉集合Wの全組合せについて部分テキストを集計
して頻度分布を作成し、前記2つの概念データに着目し
て確率分布を作成し、該確率分布をもとに前記2つの概
念の意味的距離を計算し、別の2つの概念データを入力
し、該概念データに対して上述した処理を繰り返し、前
記意味的距離からカテゴリ要素対応テーブルとして格納
し、結果のカテゴリ要素対応テーブルを出力する。
【0018】更に、請求項3記載の本発明は、請求項2
記載の発明において、前記意味的距離計算工程に関し
て、前記部分テキストのうち、入力された概念データa
が出現している部分テキスト集合Caについて入力され
た概念データbの出現/非出現を区別せずに言葉集合W
−{b,a}の各部分集合毎に集計した頻度分布Fa
(b)を部分テキスト集合Caの要素数|Ca|で割っ
た確率分布Pa(b)と前記部分テキストのうち入力さ
れた概念データbが出現している部分テキスト集合Cb
について入力された概念データaの出現/非出現を区別
せずに言葉集合W−{b,a}の各部分集合毎に集計し
た頻度分布Fb(a)を部分テキスト集合Cbの要素数
|Cb|で割った確率分布Pb(a)との差異によって
2つの概念a,bの意味的距離を計算することを要旨と
する。
記載の発明において、前記意味的距離計算工程に関し
て、前記部分テキストのうち、入力された概念データa
が出現している部分テキスト集合Caについて入力され
た概念データbの出現/非出現を区別せずに言葉集合W
−{b,a}の各部分集合毎に集計した頻度分布Fa
(b)を部分テキスト集合Caの要素数|Ca|で割っ
た確率分布Pa(b)と前記部分テキストのうち入力さ
れた概念データbが出現している部分テキスト集合Cb
について入力された概念データaの出現/非出現を区別
せずに言葉集合W−{b,a}の各部分集合毎に集計し
た頻度分布Fb(a)を部分テキスト集合Cbの要素数
|Cb|で割った確率分布Pb(a)との差異によって
2つの概念a,bの意味的距離を計算することを要旨と
する。
【0019】請求項3記載の本発明にあっては、概念デ
ータaが出現している部分テキスト集合Caについて言
葉集合W−{b,a}の各部分集合毎に集計した頻度分
布Fa(b)を部分テキスト集合の要素数|Ca|で割
った確率分布Pa(b)と概念データbが出現している
部分テキスト集合Cbについて言葉集合W−{b,a}
の各部分集合毎に集計した頻度分布Fb(a)を部分テ
キスト集合の要素数|Cb|で割った確率分布Pb
(a)との差異によって2つの概念a,bの意味的距離
を計算する。
ータaが出現している部分テキスト集合Caについて言
葉集合W−{b,a}の各部分集合毎に集計した頻度分
布Fa(b)を部分テキスト集合の要素数|Ca|で割
った確率分布Pa(b)と概念データbが出現している
部分テキスト集合Cbについて言葉集合W−{b,a}
の各部分集合毎に集計した頻度分布Fb(a)を部分テ
キスト集合の要素数|Cb|で割った確率分布Pb
(a)との差異によって2つの概念a,bの意味的距離
を計算する。
【0020】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
の形態について説明する。
【0021】図1は、本発明の一実施形態に係る概念の
類似性判別方法を実施するシステムの構成を示すブロッ
ク図である。本システムは、自然言語または形式言語で
記述されたテキストデータTおよび2つの概念データ
a,bを入力する入力部A1、所定の部分テキスト作成
ルールに基づいて、入力テキストデータを形態素解析し
て部分テキストCを作成する部分テキスト作成工程部A
2、所定の頻度分布作成ルールに基づいて、観測対象の
言葉集合Wの全組合せについて部分テキストを集計して
頻度分布Fを作成する頻度分布作成工程部A3、所定の
確率分布作成ルールに基づいて、2つの概念データa,
bに着目して確率分布Pを作成する確率分布作成工程部
A4、所定の意味的距離計算ルールに基づいて、前記確
率分布をもとに2つの概念a,bの意味的距離を計算す
る意味的距離計算工程部A5、所定のカテゴリ判別ルー
ルに基づいて、前記意味的距離からカテゴリ要素対応テ
ーブルとして格納するカテゴリ判別工程部A6、結果の
カテゴリ要素対応テーブルを出力する出力部A7、入力
データを格納する入力データ格納部A8、および出力デ
ータを格納する出力データ格納部A9を有する。
類似性判別方法を実施するシステムの構成を示すブロッ
ク図である。本システムは、自然言語または形式言語で
記述されたテキストデータTおよび2つの概念データ
a,bを入力する入力部A1、所定の部分テキスト作成
ルールに基づいて、入力テキストデータを形態素解析し
て部分テキストCを作成する部分テキスト作成工程部A
2、所定の頻度分布作成ルールに基づいて、観測対象の
言葉集合Wの全組合せについて部分テキストを集計して
頻度分布Fを作成する頻度分布作成工程部A3、所定の
確率分布作成ルールに基づいて、2つの概念データa,
bに着目して確率分布Pを作成する確率分布作成工程部
A4、所定の意味的距離計算ルールに基づいて、前記確
率分布をもとに2つの概念a,bの意味的距離を計算す
る意味的距離計算工程部A5、所定のカテゴリ判別ルー
ルに基づいて、前記意味的距離からカテゴリ要素対応テ
ーブルとして格納するカテゴリ判別工程部A6、結果の
カテゴリ要素対応テーブルを出力する出力部A7、入力
データを格納する入力データ格納部A8、および出力デ
ータを格納する出力データ格納部A9を有する。
【0022】各工程部A2,A3,A4,A5,A6
は、所定の計算を行う演算部A22,A32,A42,
A52,A62と、計算の途中結果を保持するバッファ
領域A23,A33,A43,A53,A63と、計算
を行う際のルール(条件)を格納するデータベースA2
1,A31,A41,A51,A61とをそれぞれ備え
ている。
は、所定の計算を行う演算部A22,A32,A42,
A52,A62と、計算の途中結果を保持するバッファ
領域A23,A33,A43,A53,A63と、計算
を行う際のルール(条件)を格納するデータベースA2
1,A31,A41,A51,A61とをそれぞれ備え
ている。
【0023】なお、本システムは、所謂計算機システム
で実現されるものであり、各演算部はCPUが受け持
ち、各バッファ領域およびデータベースはメモリまたは
外部記憶装置が受け持つことになる。
で実現されるものであり、各演算部はCPUが受け持
ち、各バッファ領域およびデータベースはメモリまたは
外部記憶装置が受け持つことになる。
【0024】図1に示すシステムは、図2に示すよう
に、ユーザ6から入力された言語aおよびbを前記各工
程部からなる主要部1で受け取り、この2つの言語aお
よびb、すなわち2つの概念aおよびbの間の類似度を
算出してユーザに出力するものであり、主要部1は電子
化されたテキストT(2)を分割して部分テキスト集合
C(3)を作成している。また、この作成された部分テ
キスト集合Cを各部分集合毎に集計して頻度分布F
(4)を作成し、この頻度分布Fを要素数|C|で割っ
て確率分布P(5)を算出している。更に具体的には、
部分テキスト集合Cのうち概念aが出現している部分テ
キスト集合Caについて概念bの出現/非出現を区別せ
ずにW−{a,b}の各部分集合毎に集計した頻度分布
Fa(b)を部分テキスト集合Caの要素数|Ca|で
割った確率分布Pa(b)と部分テキスト集合Cのうち
概念bが出現している部分テキスト集合Cbについて概
念aの出現/非出現を区別せずにW−{b,a}の各部
分集合毎に集計した頻度分布Fb(a)を部分テキスト
集合Cbの要素数|Cb|で割った確率分布Pb(a)
を計算し、この確率分布Pa(b)と確率分布Pb
(a)との差異によって概念aとbとの意味的な距離を
計算し、ユーザ6に出力している。
に、ユーザ6から入力された言語aおよびbを前記各工
程部からなる主要部1で受け取り、この2つの言語aお
よびb、すなわち2つの概念aおよびbの間の類似度を
算出してユーザに出力するものであり、主要部1は電子
化されたテキストT(2)を分割して部分テキスト集合
C(3)を作成している。また、この作成された部分テ
キスト集合Cを各部分集合毎に集計して頻度分布F
(4)を作成し、この頻度分布Fを要素数|C|で割っ
て確率分布P(5)を算出している。更に具体的には、
部分テキスト集合Cのうち概念aが出現している部分テ
キスト集合Caについて概念bの出現/非出現を区別せ
ずにW−{a,b}の各部分集合毎に集計した頻度分布
Fa(b)を部分テキスト集合Caの要素数|Ca|で
割った確率分布Pa(b)と部分テキスト集合Cのうち
概念bが出現している部分テキスト集合Cbについて概
念aの出現/非出現を区別せずにW−{b,a}の各部
分集合毎に集計した頻度分布Fb(a)を部分テキスト
集合Cbの要素数|Cb|で割った確率分布Pb(a)
を計算し、この確率分布Pa(b)と確率分布Pb
(a)との差異によって概念aとbとの意味的な距離を
計算し、ユーザ6に出力している。
【0025】次に、図3に示すフローチャートを参照し
て、作用を説明する。
て、作用を説明する。
【0026】図3においては、まずテキストTを分割し
て部分テキスト集合Cを生成する(ステップS1)。そ
れから、概念集合Wの各部分集合毎に部分テキスト集合
Cを集計して、頻度分布Fを作成する(ステップS
2)。次に、各頻度分布Fを要素数|C|で割って、部
分テキスト集合Cの確率分布Pを算出する(ステップS
3)。その後、比較すべき2つの概念aおよびbをユー
ザが入力すると(ステップS4)、確率分布Pから各概
念a,b毎の確率分布Paおよび確率分布Pbを計算
し、この確率分布Pa,Pbを縮約して確率分布Pa
(b),Pb(a)がそれぞれ求められる(ステップS
5)。それから、この確率分布Pa(b),Pb(a)
を比較し、概念a,bの類似性が判別される(ステップ
S6)。
て部分テキスト集合Cを生成する(ステップS1)。そ
れから、概念集合Wの各部分集合毎に部分テキスト集合
Cを集計して、頻度分布Fを作成する(ステップS
2)。次に、各頻度分布Fを要素数|C|で割って、部
分テキスト集合Cの確率分布Pを算出する(ステップS
3)。その後、比較すべき2つの概念aおよびbをユー
ザが入力すると(ステップS4)、確率分布Pから各概
念a,b毎の確率分布Paおよび確率分布Pbを計算
し、この確率分布Pa,Pbを縮約して確率分布Pa
(b),Pb(a)がそれぞれ求められる(ステップS
5)。それから、この確率分布Pa(b),Pb(a)
を比較し、概念a,bの類似性が判別される(ステップ
S6)。
【0027】上記処理においては、ステップS3までの
処理により一旦確率分布Pが得られると、入力する2つ
の概念a,bを変えて、同一の確率分布Pにより両概念
の類似性の判別を繰り返し行うことができる。
処理により一旦確率分布Pが得られると、入力する2つ
の概念a,bを変えて、同一の確率分布Pにより両概念
の類似性の判別を繰り返し行うことができる。
【0028】上述したように、テキストに含まれる概念
の共起関係をステップS2の処理において観測する単語
(概念)集合の全組合せ空間への頻度分布Fに変換する
ことにより、単語の任意の組合せ間の共起頻度を正確に
計算することができる。
の共起関係をステップS2の処理において観測する単語
(概念)集合の全組合せ空間への頻度分布Fに変換する
ことにより、単語の任意の組合せ間の共起頻度を正確に
計算することができる。
【0029】次に、前述した天気予報のデータを例にと
って、更に具体的に本発明の実施形態を説明する。
って、更に具体的に本発明の実施形態を説明する。
【0030】まず、天気予報のテキストTを形態素解析
し、「文」ごとに区切って部分テキスト集合Cを作成す
る。
し、「文」ごとに区切って部分テキスト集合Cを作成す
る。
【0031】次に、観測しようとする言葉集合
【数4】 W={パリ,横浜,東京,大阪,長崎,晴れ,曇り} の全組合せについてCを集計する。
【0032】前述の例と同様、Fが以下のように求めら
れたとする。
れたとする。
【0033】(ただし、ここでは、1回も出現しなかっ
た組合せは、{…}/0と書かずに省略している。)
た組合せは、{…}/0と書かずに省略している。)
【数5】 ここで2つの概念データの対として「パリ」、「東京」
をとりあげる。
をとりあげる。
【0034】Fをもとに、「パリ」の出現する部分テキ
スト集合Cパリを、「東京」を無視して集計し、|C
パリ|で割ることでPパリ(東京)を計算すると、以下
のようになる。
スト集合Cパリを、「東京」を無視して集計し、|C
パリ|で割ることでPパリ(東京)を計算すると、以下
のようになる。
【0035】
【数6】 また、同様にFから、P東京(パリ)を計算すると、以
下のようになる。
下のようになる。
【0036】
【数7】 また、別の概念データの対として、「東京」、「横浜」
をとりあげてFから、P東京(横浜)を計算すると、以
下のようになる。
をとりあげてFから、P東京(横浜)を計算すると、以
下のようになる。
【0037】
【数8】 これらの表、式をもとに、Pパリ(東京)とP東京(パ
リ)との距離を計算すると、以下のようになる。距離
(パリ,東京)Dは、
リ)との距離を計算すると、以下のようになる。距離
(パリ,東京)Dは、
【数9】 つまり、パリ〜東京よりも東京〜横浜のほうが、距離が
近く、概念としての類似性が高いことがわかる。
近く、概念としての類似性が高いことがわかる。
【0038】これは、前述した従来の方法では判断でき
なかった内容であり、本発明の方法ではその他の概念デ
ータの対についても互いの距離の計算を繰り返した後、
カテゴリと要素の対応をテーブルとして格納することに
より、以下のように従来法よりも詳細な分類が可能とな
る。
なかった内容であり、本発明の方法ではその他の概念デ
ータの対についても互いの距離の計算を繰り返した後、
カテゴリと要素の対応をテーブルとして格納することに
より、以下のように従来法よりも詳細な分類が可能とな
る。
【0039】
【表3】 なお、上述した例において、比較される言葉aとbはそ
れぞれWに含まれる1つの概念を想定しているが、それ
ぞれについてWに含まれる概念の論理的な組合せと考え
ても同様に計算することが可能である。
れぞれWに含まれる1つの概念を想定しているが、それ
ぞれについてWに含まれる概念の論理的な組合せと考え
ても同様に計算することが可能である。
【0040】したがって、例えば「男子生徒」という複
合的な概念(以降、複合概念)がWに含まれていないと
きには、 a=「男子」∧「生徒」:(論理積) とすることで、1つの概念の場合と同様に他の概念との
比較を行うことができる。また、例えば「山河」という
複合概念は、 a=「山」∨「河」:(論理和) の形で表現することができ、同様の比較が可能である。
合的な概念(以降、複合概念)がWに含まれていないと
きには、 a=「男子」∧「生徒」:(論理積) とすることで、1つの概念の場合と同様に他の概念との
比較を行うことができる。また、例えば「山河」という
複合概念は、 a=「山」∨「河」:(論理和) の形で表現することができ、同様の比較が可能である。
【0041】ただしこれらの場合、{a,b}は、aを
構成する概念の集合とbを構成する概念の集合との和集
合と読み替えることにする。例えば、 a=「男子」∧「生徒」 b=「女子」∧(「生徒」∨「大学生」) のとき、
構成する概念の集合とbを構成する概念の集合との和集
合と読み替えることにする。例えば、 a=「男子」∧「生徒」 b=「女子」∧(「生徒」∨「大学生」) のとき、
【数10】{a,b}={「男子」,「女子」,「生
徒」,「大学生」} となる。また、「aがある部分テキストに出現」は、
「aの式中の概念Xがある部分テキストに出現する場合
にXの値を真とし、かつ出現しない場合に偽とするとし
て、X等を含む式全体の値が真となること」と読み替え
ることにする。したがって、例えば、 a=「女子」∧(「生徒」∨¬「大学生」) のとき、「部分テキストc1 にaが出現する」の意味
は、(部分テキストc1 に「女子」が出現し、かつ、
「生徒」が出現するか「大学生」が出現しないかであ
る)となる。
徒」,「大学生」} となる。また、「aがある部分テキストに出現」は、
「aの式中の概念Xがある部分テキストに出現する場合
にXの値を真とし、かつ出現しない場合に偽とするとし
て、X等を含む式全体の値が真となること」と読み替え
ることにする。したがって、例えば、 a=「女子」∧(「生徒」∨¬「大学生」) のとき、「部分テキストc1 にaが出現する」の意味
は、(部分テキストc1 に「女子」が出現し、かつ、
「生徒」が出現するか「大学生」が出現しないかであ
る)となる。
【0042】
【発明の効果】以上説明したように、本発明によれば、
テキスト中に出現する概念の任意の組合せ間の類似度を
必要に応じて精密に算出でき、複数の言葉の組合せがそ
の固有の意味を表現する場合にも正確な類似性判別を行
うことができる。
テキスト中に出現する概念の任意の組合せ間の類似度を
必要に応じて精密に算出でき、複数の言葉の組合せがそ
の固有の意味を表現する場合にも正確な類似性判別を行
うことができる。
【0043】更に、複合概念をいちいち辞書に登録しな
くても、既に登録されている基本的な概念の論理積ある
いは論理和等として複合概念をとらえ、それらの間の類
似性を近似的に計算することができる。
くても、既に登録されている基本的な概念の論理積ある
いは論理和等として複合概念をとらえ、それらの間の類
似性を近似的に計算することができる。
【0044】また、単語を自由に組合せたもの同士の類
似性を一定の計算で判断できるので、既に定着した複合
語に限らず、まだ名前のついていない複雑な概念や非常
に混み入った状況などを、辞書に登録された単語の性格
/量/粒度にあまり左右されずに、自由自在に比較する
ことができる。
似性を一定の計算で判断できるので、既に定着した複合
語に限らず、まだ名前のついていない複雑な概念や非常
に混み入った状況などを、辞書に登録された単語の性格
/量/粒度にあまり左右されずに、自由自在に比較する
ことができる。
【図1】本発明の一実施形態に係る概念の類似性判別方
法を実施するシステムの構成を示すブロック図である。
法を実施するシステムの構成を示すブロック図である。
【図2】図1に示すシステムの情報の流れを主として示
す具体的構成を示す図である。
す具体的構成を示す図である。
【図3】本システムの処理を示すフローチャートであ
る。
る。
A1 入力部 A2 部分テキスト作成工程部 A3 頻度分布作成工程部 A4 確率分布作成工程部 A5 意味的距離計算工程部 A6 カテゴリ判別工程部 A7 出力部 A8 入力データ格納部 A9 出力データ格納部
Claims (3)
- 【請求項1】 自然言語または形式言語で記述されたテ
キストを分割して部分テキスト集合Cを作成し、 n個の概念を含む一定の概念集合Wの2n 個の各部分集
合(集合Wのベキ集合の要素)毎に該1つの部分集合の
全要素だけが出現している部分テキスト集合Cの要素数
を集計して、集合Wの各部分集合への部分テキスト集合
Cの頻度分布Fを得、 集合Wから異なる2つの概念(a,b)を選択し、 部分テキスト集合Cのうち概念aが出現している部分テ
キスト集合Caについて概念bの出現/非出現を区別せ
ずにW−{a,b}の各部分集合毎に集計した頻度分布
Fa(b)を部分テキスト集合Caの要素数|Ca|で
割った確率分布Pa(b)と部分テキスト集合Cのうち
概念bが出現している部分テキスト集合Cbについて概
念aの出現/非出現を区別せずにW−{b,a}の各部
分集合毎に集計した頻度分布Fb(a)を部分テキスト
集合Cbの要素数|Cb|で割った確率分布Pb(a)
との差異によって概念aとbとの意味的な距離を計算す
ることを特徴とする概念の類似性判別方法。 - 【請求項2】 自然言語または形式言語で記述されたテ
キストデータおよび2つの概念データを入力する入力工
程と、 (イ)所定の部分テキスト作成ルールに基づいて、前記
入力テキストデータを解析して部分テキストを作成する
部分テキスト作成工程と、 (ロ)所定の頻度分布作成ルールに基づいて、観測対象
の言葉集合Wの各部分集合毎に該集合の要素が過不足な
く出現している部分テキスト数を集計して言葉集合Wの
出来集合への頻度分布を作成する頻度分布作成工程と、 (ハ)所定の確率分布作成ルールに基づいて、前記2つ
の概念データに着目して確率分布を作成する確率分布作
成工程と、 (ニ)所定の意味的距離計算ルールに基づいて、前記確
率分布をもとに前記2つの概念の意味的距離を計算する
意味的距離計算工程と、 別の2つの概念データを入力し、上記(イ)ないし
(ニ)の工程を所定回数繰り返し行った後、所定のカテ
ゴリ判別ルールに基づいて、前記意味的距離からカテゴ
リ要素対応テーブルとして格納するカテゴリ判別工程
と、 結果のカテゴリ要素対応テーブルを出力する出力工程と
を有することを特徴とする概念の類似性判別方法。 - 【請求項3】 前記意味的距離計算工程に関して、前記
部分テキスト集合のうち、入力された概念データaが出
現している部分テキスト集合Caについて入力された概
念データbの出現/非出現を区別せずに言葉集合W−
{b,a}の各部分集合毎に集計した頻度分布Fa
(b)を部分テキスト集合Caの要素数|Ca|で割っ
た確率分布Pa(b)と前記部分テキスト集合のうち入
力された概念データbが出現している部分テキスト集合
Cbについて入力された概念データaの出現/非出現を
区別せずに言葉集合W−{b,a}の各部分集合毎に集
計した頻度分布Fb(a)を部分テキスト集合Cbの要
素数|Cb|で割った確率分布Pb(a)との差異によ
って2つの概念a,bの意味的距離を計算することを特
徴とする請求項2記載の概念の類似性判別方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8154466A JPH103478A (ja) | 1996-06-14 | 1996-06-14 | 概念の類似性判別方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8154466A JPH103478A (ja) | 1996-06-14 | 1996-06-14 | 概念の類似性判別方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH103478A true JPH103478A (ja) | 1998-01-06 |
Family
ID=15584868
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8154466A Pending JPH103478A (ja) | 1996-06-14 | 1996-06-14 | 概念の類似性判別方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH103478A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4812526A (en) * | 1987-06-08 | 1989-03-14 | Union Carbide Corporation | Impact polypropylene |
| KR101178310B1 (ko) | 2011-02-24 | 2012-08-29 | 포항공과대학교 산학협력단 | 대화 관리 방법 및 이를 실행하는 시스템 |
| CN104584005A (zh) * | 2012-08-22 | 2015-04-29 | 株式会社东芝 | 文档分类装置及文档分类方法 |
| WO2016176310A1 (en) * | 2015-04-27 | 2016-11-03 | Altep Inc. | Conceptual document analysis and characterization |
| CN112528894A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种差异项判别方法及装置 |
-
1996
- 1996-06-14 JP JP8154466A patent/JPH103478A/ja active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4812526A (en) * | 1987-06-08 | 1989-03-14 | Union Carbide Corporation | Impact polypropylene |
| KR101178310B1 (ko) | 2011-02-24 | 2012-08-29 | 포항공과대학교 산학협력단 | 대화 관리 방법 및 이를 실행하는 시스템 |
| WO2012115324A1 (ko) * | 2011-02-24 | 2012-08-30 | 포항공과대학교 산학협력단 | 대화 관리 방법 및 이를 실행하는 장치 |
| JP2014508968A (ja) * | 2011-02-24 | 2014-04-10 | ポハン工科大学校産学協力団 | 対話管理方法及びこれを実行する装置 |
| CN104584005A (zh) * | 2012-08-22 | 2015-04-29 | 株式会社东芝 | 文档分类装置及文档分类方法 |
| CN104584005B (zh) * | 2012-08-22 | 2018-01-05 | 株式会社东芝 | 文档分类装置及文档分类方法 |
| WO2016176310A1 (en) * | 2015-04-27 | 2016-11-03 | Altep Inc. | Conceptual document analysis and characterization |
| US9886488B2 (en) | 2015-04-27 | 2018-02-06 | Altep, Inc. | Conceptual document analysis and characterization |
| CN112528894A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种差异项判别方法及装置 |
| CN112528894B (zh) * | 2020-12-17 | 2024-05-31 | 科大讯飞股份有限公司 | 一种差异项判别方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
| CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
| JP2742115B2 (ja) | 類似文書検索装置 | |
| CN109190117A (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
| CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
| JP2004110161A (ja) | テキスト文比較装置 | |
| Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
| CN105975453A (zh) | 评论标签提取方法和装置 | |
| CN107203520A (zh) | 酒店情感词典的建立方法、评论的情感分析方法及系统 | |
| JP7593043B2 (ja) | 要約生成装置、制御方法及びシステム | |
| CN115269780B (zh) | 一种基于语句相似度的事件图谱构造推理方法及装置 | |
| CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
| CN108614814B (zh) | 一种评价信息的抽取方法、装置及设备 | |
| JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
| JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
| Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
| Harikrishna et al. | Children story classification based on structure of the story | |
| JPH103478A (ja) | 概念の類似性判別方法 | |
| Harikrishna et al. | Classification of children stories in Hindi using keywords and POS density | |
| Chiarello et al. | Design and implementation of a text mining-based tool to support scoping reviews | |
| JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
| Brum et al. | Unsupervised Grouping of Public Procurement Similar Items: Which text representation should I use? | |
| Arivarasan et al. | Data mining K-means document clustering using tfidf and word frequency count | |
| JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
| KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 |