JPH07295989A - データを解析するためのインタプリタを形成する装置 - Google Patents
データを解析するためのインタプリタを形成する装置Info
- Publication number
- JPH07295989A JPH07295989A JP7107085A JP10708595A JPH07295989A JP H07295989 A JPH07295989 A JP H07295989A JP 7107085 A JP7107085 A JP 7107085A JP 10708595 A JP10708595 A JP 10708595A JP H07295989 A JPH07295989 A JP H07295989A
- Authority
- JP
- Japan
- Prior art keywords
- data
- interpreter
- classifier
- certainty
- annotated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 デジタルコンピュータで実施可能な習得知識
の有効性を増加し、効率的で、任意の実世界のデータセ
ットでも用いられるような注釈を付けたデータアイテム
を選択する。 【構成】 第1のインタープリター(IP)は、トレー
ニングデータ(TD)に基づいて以前に訓練されたもの
である。そして、例示データ(ED)の組が、このIP
に提示され、このIPがそれらを解釈する。ある例示の
解釈の確実度が低い場合には、このIPは、このEDを
第2のIPに転送し、この第2のIPが、このEDに注
釈を付ける。その後、この注釈の付いたEDがTDに加
えられる。IPが、全ての例示に対し働いた後、新たな
IPが、追加の注釈付き例示を有するTDを用いて生成
されもとの例示上で動作する。この繰り返し動作をIP
に所望の精度が得られるまで継続する。
の有効性を増加し、効率的で、任意の実世界のデータセ
ットでも用いられるような注釈を付けたデータアイテム
を選択する。 【構成】 第1のインタープリター(IP)は、トレー
ニングデータ(TD)に基づいて以前に訓練されたもの
である。そして、例示データ(ED)の組が、このIP
に提示され、このIPがそれらを解釈する。ある例示の
解釈の確実度が低い場合には、このIPは、このEDを
第2のIPに転送し、この第2のIPが、このEDに注
釈を付ける。その後、この注釈の付いたEDがTDに加
えられる。IPが、全ての例示に対し働いた後、新たな
IPが、追加の注釈付き例示を有するTDを用いて生成
されもとの例示上で動作する。この繰り返し動作をIP
に所望の精度が得られるまで継続する。
Description
【0001】
【産業上の利用分野】本発明は、データの分類装置、お
よび、データの分類方法に関し、これらのデータを分類
する際のトレーニング方法と装置に関する。
よび、データの分類方法に関し、これらのデータを分類
する際のトレーニング方法と装置に関する。
【0002】
【従来技術】オンラインで記憶されるデータの量と種類
は、急速に多くなっている。このことは、多くの形態
(ニュース、論文、メモ、電子メール、修理報告書等)
での自然言語のテキスト文についても当てはまる。これ
らのデータへのコンピュータによるアクセスの利点は計
りしれず、これらのデータが情報に変換されない限り、
これらデータは、理解し得ないものである。データから
情報への変換は、データを類別に分類することである。
例えば、仕事中に受け取ったニュースの内容は、その仕
事に関連する適切な人に伝達された場合にのみ有効(情
報)となる。従来から、ニュースの中身を読み、その内
容が属するカテゴリーを決定し、その後、各内容をその
カテゴリーが、それに関連するような興味を有するユー
ザに配送を行うことが人海戦術により行われていた。デ
ータの量が増加するにつれて、人海戦術によるデータの
解釈は、ますます不可能となっている。
は、急速に多くなっている。このことは、多くの形態
(ニュース、論文、メモ、電子メール、修理報告書等)
での自然言語のテキスト文についても当てはまる。これ
らのデータへのコンピュータによるアクセスの利点は計
りしれず、これらのデータが情報に変換されない限り、
これらデータは、理解し得ないものである。データから
情報への変換は、データを類別に分類することである。
例えば、仕事中に受け取ったニュースの内容は、その仕
事に関連する適切な人に伝達された場合にのみ有効(情
報)となる。従来から、ニュースの中身を読み、その内
容が属するカテゴリーを決定し、その後、各内容をその
カテゴリーが、それに関連するような興味を有するユー
ザに配送を行うことが人海戦術により行われていた。デ
ータの量が増加するにつれて、人海戦術によるデータの
解釈は、ますます不可能となっている。
【0003】データを情報に変換する際の問題点は、あ
らゆる種類のデータに対して存在し、特に、テキスト文
に関しては、急を要する問題である。この場合、データ
を情報に変換することとは、無限にもおよぶあらゆる種
類の可能な自然言語表現を限られた組の解釈に制限する
ことを意味する。これらの解釈は、テキスト文が帰属す
べきいくつかの意味を有するカテゴリーを示すようなラ
ベル程度の単純なものもあれば、あるいは、パースツリ
ー、あるいは、テキスト文から抽出された情報を含むデ
ータベースレコード、あるいは、知能表示言語に基づく
表現のような複雑なものもある。解釈の同様な形態は、
他のデータの形態についても必要なものである。
らゆる種類のデータに対して存在し、特に、テキスト文
に関しては、急を要する問題である。この場合、データ
を情報に変換することとは、無限にもおよぶあらゆる種
類の可能な自然言語表現を限られた組の解釈に制限する
ことを意味する。これらの解釈は、テキスト文が帰属す
べきいくつかの意味を有するカテゴリーを示すようなラ
ベル程度の単純なものもあれば、あるいは、パースツリ
ー、あるいは、テキスト文から抽出された情報を含むデ
ータベースレコード、あるいは、知能表示言語に基づく
表現のような複雑なものもある。解釈の同様な形態は、
他のデータの形態についても必要なものである。
【0004】解釈の費用を減少させる一つのアプローチ
は、データインタプリタを用いることである。このデー
タインタプリタは、あるデータに対し、解釈を自動的に
生成するコンピュータシステムである。このデータイン
タプリタの単純な形態は、分類装置(classifier)であ
り、これは、データ部分が属すべき数個のカテゴリーを
決定するコンピュータシステムである。データインタプ
リタがうまく機能するためには、データの構造に関して
の知識が必要である。例えば、テキスト型のデータに対
しては、人間の言語に関する広範な知識、および、人間
の言語を情報に符号化する方法が必要である。この知識
を人手によってデータインタプリタに覚え込ませること
は不可能であり、また、時間のかかることである。必要
な知識の量とデータが情報に変換されるようなあらゆる
方法を予測することが困難なためである。
は、データインタプリタを用いることである。このデー
タインタプリタは、あるデータに対し、解釈を自動的に
生成するコンピュータシステムである。このデータイン
タプリタの単純な形態は、分類装置(classifier)であ
り、これは、データ部分が属すべき数個のカテゴリーを
決定するコンピュータシステムである。データインタプ
リタがうまく機能するためには、データの構造に関して
の知識が必要である。例えば、テキスト型のデータに対
しては、人間の言語に関する広範な知識、および、人間
の言語を情報に符号化する方法が必要である。この知識
を人手によってデータインタプリタに覚え込ませること
は不可能であり、また、時間のかかることである。必要
な知識の量とデータが情報に変換されるようなあらゆる
方法を予測することが困難なためである。
【0005】このために、様々な機械学習技術が開発さ
れ、完全な、あるいは、部分的な解釈に基づいて、注釈
がつけられたデータから、解釈知識を自動的に獲得する
ことが行われている。この自動的な知識の獲得のプロセ
スは、トレーニングと称する。例えば、ドキュメントを
カテゴリーに分類するシステムは、その正確なカテゴリ
ーでもって人手で注釈をつけたドキュメントからトレー
ニングされる。このトレーニングプロセスは、注釈のつ
いたドキュメントを検査して、特定のカテゴリーに帰属
するある種の単語が、そのドキュメント内に表れるか、
表れないかの確率を予測する。その後、この確率(確実
度)を用いて、ドキュメントをカテゴリーに割り当て
る。他の例としては、病気を診断する実験的なシステム
では、医者の診断により人手で注釈のつけられた患者の
記録からトレーニングされる。このトレーニングプロセ
スは、複数の情報を組み合わせて、それに関連する病気
のと間の統計的、あるいは、偶然の関係を発見すること
になる。
れ、完全な、あるいは、部分的な解釈に基づいて、注釈
がつけられたデータから、解釈知識を自動的に獲得する
ことが行われている。この自動的な知識の獲得のプロセ
スは、トレーニングと称する。例えば、ドキュメントを
カテゴリーに分類するシステムは、その正確なカテゴリ
ーでもって人手で注釈をつけたドキュメントからトレー
ニングされる。このトレーニングプロセスは、注釈のつ
いたドキュメントを検査して、特定のカテゴリーに帰属
するある種の単語が、そのドキュメント内に表れるか、
表れないかの確率を予測する。その後、この確率(確実
度)を用いて、ドキュメントをカテゴリーに割り当て
る。他の例としては、病気を診断する実験的なシステム
では、医者の診断により人手で注釈のつけられた患者の
記録からトレーニングされる。このトレーニングプロセ
スは、複数の情報を組み合わせて、それに関連する病気
のと間の統計的、あるいは、偶然の関係を発見すること
になる。
【0006】一般的に、注釈のつけられたデータが多い
と、トレーニングがより正確になり、インタプリタもよ
くなる。これにより、大部分のリソース(資源)をトレ
ーニングの目的のために、注釈付きのデータを大量に生
成するために振り向けるような構成が完成される。これ
に関しては、“Computational Linguistics” Vol.19,
No.2, June 1993の313〜330ページの“Building
a Large Annotated Corpus of English: The Penn Tree
bank”(Mitchell P. Marcus, Beatrice Santorini, Ma
ry Ann Marcinkiewicz共著)を参照のこと。
と、トレーニングがより正確になり、インタプリタもよ
くなる。これにより、大部分のリソース(資源)をトレ
ーニングの目的のために、注釈付きのデータを大量に生
成するために振り向けるような構成が完成される。これ
に関しては、“Computational Linguistics” Vol.19,
No.2, June 1993の313〜330ページの“Building
a Large Annotated Corpus of English: The Penn Tree
bank”(Mitchell P. Marcus, Beatrice Santorini, Ma
ry Ann Marcinkiewicz共著)を参照のこと。
【0007】しかし、大きな機構だからといって、全て
のデータに対し注釈をつけられるわけではない。さら
に、新たな解釈システムが、新たな種類の注釈を有する
データからのトレーニングを必要とする。このことは、
注釈をつけるティーチャー(訓練実施者)が一人、ある
いは、複数であろうとも、あるいはまた、それがコンピ
ュータシステムであろうとも、実際に注釈がつけられた
ものよりもはるかに大きなデータがある場合について常
に当てはまることである。データに対し、良好なインタ
プリタとなるようなコンピュータシステムが既に存在し
たとしても、より良いインタプリタ、例えば、より早い
インタプリタを可能とするような知識を習得する必要が
ある。
のデータに対し注釈をつけられるわけではない。さら
に、新たな解釈システムが、新たな種類の注釈を有する
データからのトレーニングを必要とする。このことは、
注釈をつけるティーチャー(訓練実施者)が一人、ある
いは、複数であろうとも、あるいはまた、それがコンピ
ュータシステムであろうとも、実際に注釈がつけられた
ものよりもはるかに大きなデータがある場合について常
に当てはまることである。データに対し、良好なインタ
プリタとなるようなコンピュータシステムが既に存在し
たとしても、より良いインタプリタ、例えば、より早い
インタプリタを可能とするような知識を習得する必要が
ある。
【0008】トレーニングに必要とされる注釈の量を減
らす様々な試みが行われており、特に、トレーニング分
離装置においても行われている。一つのアプローチとし
ては、メンバーシップ質問(membership queries)を行
うような機械学習アルゴリズムを用いて、分類装置をト
レーニングすることである。これについては、“Machin
e Learning”2(1988年)の319〜342ページ
の“Queries and concept learning”(Angluin D.
著)を参照のこと。このアプローチにおいては、この学
習アルゴリズムは、現在のトレーニング状態において
は、信頼性高く分類できないようなこの学習アルゴリズ
ムが決定した人工的なデータ部分を生成してしまう。こ
のアルゴリズムは、訓練実施者に対し、この人工的なデ
ータ部分に注釈をつけさせ、そして、この注釈のついた
データ部分が、トレーニングの効果を上げるために、注
釈のついたデータの残りの部分に付加される。このアプ
ローチにおける問題点は、このデータ部分が人間の言語
の形で表現されているものと仮定されている場合には、
訓練実施者に対しては何の意味も有さないことである。
らす様々な試みが行われており、特に、トレーニング分
離装置においても行われている。一つのアプローチとし
ては、メンバーシップ質問(membership queries)を行
うような機械学習アルゴリズムを用いて、分類装置をト
レーニングすることである。これについては、“Machin
e Learning”2(1988年)の319〜342ページ
の“Queries and concept learning”(Angluin D.
著)を参照のこと。このアプローチにおいては、この学
習アルゴリズムは、現在のトレーニング状態において
は、信頼性高く分類できないようなこの学習アルゴリズ
ムが決定した人工的なデータ部分を生成してしまう。こ
のアルゴリズムは、訓練実施者に対し、この人工的なデ
ータ部分に注釈をつけさせ、そして、この注釈のついた
データ部分が、トレーニングの効果を上げるために、注
釈のついたデータの残りの部分に付加される。このアプ
ローチにおける問題点は、このデータ部分が人間の言語
の形で表現されているものと仮定されている場合には、
訓練実施者に対しては何の意味も有さないことである。
【0009】推定近似を含むような統計からの様々な関
連技術(“SIAM Journal on Scientific and Statistic
al Computing”11(4)(1990年7月)の702
〜712ページの“Random search in the presence of
noise with application tomachine learning”(Yako
witz S., Lugosi E.共著)を参照のこと)と、重要サン
プリング(“Artificial Intelligence Frontiers in S
tatistics: AI andStatistice III”(D. J. Hand編、C
hapman & Hall, London, 1993年)の90〜105
ページの“Adaptive importance sampling for bayesia
n networks applied to filtering problems”(Runnal
ls A.著)を参照のこと)は、メンバーシップ質問と類
似であり、同一の問題点を有する。ひずみモデル手段に
より、人工的な注釈データを生成することに基づくアプ
ローチも、同一環境化では失敗している。
連技術(“SIAM Journal on Scientific and Statistic
al Computing”11(4)(1990年7月)の702
〜712ページの“Random search in the presence of
noise with application tomachine learning”(Yako
witz S., Lugosi E.共著)を参照のこと)と、重要サン
プリング(“Artificial Intelligence Frontiers in S
tatistics: AI andStatistice III”(D. J. Hand編、C
hapman & Hall, London, 1993年)の90〜105
ページの“Adaptive importance sampling for bayesia
n networks applied to filtering problems”(Runnal
ls A.著)を参照のこと)は、メンバーシップ質問と類
似であり、同一の問題点を有する。ひずみモデル手段に
より、人工的な注釈データを生成することに基づくアプ
ローチも、同一環境化では失敗している。
【0010】この問題に対する別のアプローチは、その
サンプル、すなわち、注釈用に表示されたデータのサブ
セットを選択された一つとして処理することである。こ
のサンプリングアプローチは、特定の注釈は、ときど
き、非常にまれにしか発生しない、という問題を処理し
なければならない。1000個のデータ部分のうち、わ
ずか1個のデータ部分のみが注釈Xを持たなければなら
ないと仮定すると、500個のデータ部分のみが有効に
注釈をつけることができる。どのデータ部分に注釈をつ
けるべきかを選択するために、ランダムサンプリングを
用いることは、通常、注釈Xがつくデータ部分は、存在
しないことになる。かくして、注釈Xをいかに識別する
かについては、何等知識が得られないことになる。
サンプル、すなわち、注釈用に表示されたデータのサブ
セットを選択された一つとして処理することである。こ
のサンプリングアプローチは、特定の注釈は、ときど
き、非常にまれにしか発生しない、という問題を処理し
なければならない。1000個のデータ部分のうち、わ
ずか1個のデータ部分のみが注釈Xを持たなければなら
ないと仮定すると、500個のデータ部分のみが有効に
注釈をつけることができる。どのデータ部分に注釈をつ
けるべきかを選択するために、ランダムサンプリングを
用いることは、通常、注釈Xがつくデータ部分は、存在
しないことになる。かくして、注釈Xをいかに識別する
かについては、何等知識が得られないことになる。
【0011】層化サンプリング(“Sampling Technique
s” Cochran W.John 著、Wiley & Sons, New York, 3rd
edition, 1977を参照のこと)は、ある注釈の少ない頻
度のアドレスに対する通常のアプローチである。全て可
能なデータアイテムのスペースは、概念的には、複数の
層、すなわち、グループに、このデータのある観察可能
な特徴に基づいて分割される。その後、サンプリングが
各層から別個に行われ、注釈が最も不確実、すなわち、
変化し得ると期待されるような複数の層から複数のデー
タアイテムが取り出される。このアプローチは、適当な
複数の層が明白である、あるいは、慣習の問題(大衆の
意見の聴取のように)の場合には、良く機能するが、こ
のアプローチは、多くの実世界のデータセットに対して
は機能せず、可能な層化の数が膨大になったときには、
それらの適切な選択は非常に不明瞭となる。例えば、こ
のことは、データアイテムが自然言語のテキスト文の場
合には言い得ることである。
s” Cochran W.John 著、Wiley & Sons, New York, 3rd
edition, 1977を参照のこと)は、ある注釈の少ない頻
度のアドレスに対する通常のアプローチである。全て可
能なデータアイテムのスペースは、概念的には、複数の
層、すなわち、グループに、このデータのある観察可能
な特徴に基づいて分割される。その後、サンプリングが
各層から別個に行われ、注釈が最も不確実、すなわち、
変化し得ると期待されるような複数の層から複数のデー
タアイテムが取り出される。このアプローチは、適当な
複数の層が明白である、あるいは、慣習の問題(大衆の
意見の聴取のように)の場合には、良く機能するが、こ
のアプローチは、多くの実世界のデータセットに対して
は機能せず、可能な層化の数が膨大になったときには、
それらの適切な選択は非常に不明瞭となる。例えば、こ
のことは、データアイテムが自然言語のテキスト文の場
合には言い得ることである。
【0012】しかし、近年、注釈問題に対する新たなア
プローチが出現した。それは、層化サンプリングとメン
バーシップ質問の組み合わせとして考えられるものであ
る。これらの方法は、未知の注釈の不確実性の観点か
ら、直接複数の階層を規定し、その後、充分に不確実な
複数の階層からのみサンプリングするものである。我々
は、この方法を不確実性サンプリングと称する。この不
確実性サンプリングの方法の重要な特徴点は、それら
は、繰り返し動作することである。すなわち、いったん
その解釈が不確実であるデータに注釈がつけられると、
この注釈のつけられたデータを用いて、他のデータの解
釈の不確実性を減少させる。
プローチが出現した。それは、層化サンプリングとメン
バーシップ質問の組み合わせとして考えられるものであ
る。これらの方法は、未知の注釈の不確実性の観点か
ら、直接複数の階層を規定し、その後、充分に不確実な
複数の階層からのみサンプリングするものである。我々
は、この方法を不確実性サンプリングと称する。この不
確実性サンプリングの方法の重要な特徴点は、それら
は、繰り返し動作することである。すなわち、いったん
その解釈が不確実であるデータに注釈がつけられると、
この注釈のつけられたデータを用いて、他のデータの解
釈の不確実性を減少させる。
【0013】未知の注釈の不確実性を予測するいくつか
の方法が提案されている。これについては、“Advances
in Neural Information Processing Systems 2”(Dav
id S. Touretzky編、Morgan Kaufmann, San Mateo, CA,
1990年)の566〜573ページの“Training co
nnectionist networks with queries and selectivesam
pling”(Atlas L, Cohn D.他著)、および、“Machine
Learning”の“Improving generalization with self-
directed learning”(Cohn D.他著、1992年)を参
照のこと。このCohnにより提案された方法においては、
インタプリタは、分類装置でもある。
の方法が提案されている。これについては、“Advances
in Neural Information Processing Systems 2”(Dav
id S. Touretzky編、Morgan Kaufmann, San Mateo, CA,
1990年)の566〜573ページの“Training co
nnectionist networks with queries and selectivesam
pling”(Atlas L, Cohn D.他著)、および、“Machine
Learning”の“Improving generalization with self-
directed learning”(Cohn D.他著、1992年)を参
照のこと。このCohnにより提案された方法においては、
インタプリタは、分類装置でもある。
【0014】2つのニューラルネットの分類装置は、入
手可能な注釈付きデータからトレーニングされる。第1
の分類装置は、そのトレーニングデータと適合する最も
一般的な分類装置の近似として意図されるものである。
それは、ニューラルネットのトレーニングアルゴリズム
に、全ての注釈付き例示と、正の例示として一次的に注
釈のつけられたランダムな大量の例示の全てを与えるこ
とにより生成される。第2の分類装置は、このトレーニ
ングデータと適合する最も特殊な分類装置の近似として
意図されるものである。これは、ニューラルネットのト
レーニングアルゴリズムに、全ての注釈付き例示と、負
の例示として一次的に注釈のつけられた大量のランダム
な例示の全てを与えることにより生成される。Cohnは、
いかに多くの一次的な注釈付きの例示が、その数が大き
い場合を除いて、何れの場合にも必要であるということ
を示してはいない。その数は、データアイテムを表示す
るのに用いられる特徴の数と共に、急速に増加するよう
に見える。この一次的にラベルの付されたアイテムは、
このラベル付きデータの外側の全体のスペースをカバー
できることを意味し、このスペースは、特徴の数と共に
指数関数的に増加する。
手可能な注釈付きデータからトレーニングされる。第1
の分類装置は、そのトレーニングデータと適合する最も
一般的な分類装置の近似として意図されるものである。
それは、ニューラルネットのトレーニングアルゴリズム
に、全ての注釈付き例示と、正の例示として一次的に注
釈のつけられたランダムな大量の例示の全てを与えるこ
とにより生成される。第2の分類装置は、このトレーニ
ングデータと適合する最も特殊な分類装置の近似として
意図されるものである。これは、ニューラルネットのト
レーニングアルゴリズムに、全ての注釈付き例示と、負
の例示として一次的に注釈のつけられた大量のランダム
な例示の全てを与えることにより生成される。Cohnは、
いかに多くの一次的な注釈付きの例示が、その数が大き
い場合を除いて、何れの場合にも必要であるということ
を示してはいない。その数は、データアイテムを表示す
るのに用いられる特徴の数と共に、急速に増加するよう
に見える。この一次的にラベルの付されたアイテムは、
このラベル付きデータの外側の全体のスペースをカバー
できることを意味し、このスペースは、特徴の数と共に
指数関数的に増加する。
【0015】Cohnの2つの分類装置は、注釈のないデー
タアイテムに適用され、この分類装置が合意しないこれ
らのアイテムが注釈の訓練実施者に示される。その後、
この注釈付きデータは、更新され、分類装置の新たなバ
ージョンがトレーニングされ、より多くの注釈のつかな
いデータがテストされる。
タアイテムに適用され、この分類装置が合意しないこれ
らのアイテムが注釈の訓練実施者に示される。その後、
この注釈付きデータは、更新され、分類装置の新たなバ
ージョンがトレーニングされ、より多くの注釈のつかな
いデータがテストされる。
【0016】関連するアプローチとしては、委員会アル
ゴリズムによる問い合わせ(queryby committee algori
thm)である。これに関しては、“Proceedings of the
Fifth Annual ACM Workshop on Computational Learnin
g Theory”(1992年)の287〜294ページの
“Query by committee”(Seung H.他著)、および、
“Advance in Neural Informations Processing System
s 5”(Morgan Kaufmann, San Mateo, CA, 1992
年)の“Information, prediction, and query by comm
ittee”(Freund Y.他著)を参照のこと。この委員会に
よる問い合わせは、各注釈のつかないデータアイテムに
対し、既に注釈のついたデータと適合する2つの分類装
置を選択する。これら2つの分類装置は、対応する注釈
のないデータアイテムに適用され、この分類装置が合意
しない場合には、このアイテムの注釈は、不確実とみな
され、訓練実施者は、それに注釈をつけるよう要請され
る。そして、このプロセスは、繰り返し行われ、どの分
類装置が選択されるか、そして、どのアイテムが将来不
確実とみなされるかに影響を及ぼすような前のアイテム
の注釈を用いて繰り返される。前掲の論文には、このア
ルゴリズムの理論的な側面のみが示されているが、Seun
g他は、分類装置を実際に選択する方法については何等
開示していない。
ゴリズムによる問い合わせ(queryby committee algori
thm)である。これに関しては、“Proceedings of the
Fifth Annual ACM Workshop on Computational Learnin
g Theory”(1992年)の287〜294ページの
“Query by committee”(Seung H.他著)、および、
“Advance in Neural Informations Processing System
s 5”(Morgan Kaufmann, San Mateo, CA, 1992
年)の“Information, prediction, and query by comm
ittee”(Freund Y.他著)を参照のこと。この委員会に
よる問い合わせは、各注釈のつかないデータアイテムに
対し、既に注釈のついたデータと適合する2つの分類装
置を選択する。これら2つの分類装置は、対応する注釈
のないデータアイテムに適用され、この分類装置が合意
しない場合には、このアイテムの注釈は、不確実とみな
され、訓練実施者は、それに注釈をつけるよう要請され
る。そして、このプロセスは、繰り返し行われ、どの分
類装置が選択されるか、そして、どのアイテムが将来不
確実とみなされるかに影響を及ぼすような前のアイテム
の注釈を用いて繰り返される。前掲の論文には、このア
ルゴリズムの理論的な側面のみが示されているが、Seun
g他は、分類装置を実際に選択する方法については何等
開示していない。
【0017】第3の方法については、平均限界情報ゲイ
ン関数に基づいて注釈されたデータアイテムを選択する
ことが示唆されている。これについては、“Neural Com
putation”4(5)(1992年)の720〜736ペ
ージの“The evidence framework applied to classifi
cation networks”(MacKay D.著)を参照のこと。この
関数は、概略を計算するにしても、現在の分類装置の膨
大な計算解析を必要とし、そして、同時に、また、最終
分類装置が適用されるようなデータの分配についての情
報を必要とする。MacKayは、実験結果を提示している。
それによれば、このアプローチは、適合しているモデル
が、データ内の実際の規則性に充分にマッチしていると
きのみ、機能することを示している。また、同著者は、
平均限界情報ゲインに基づいた明白な注釈アルゴリズム
については開示していない。
ン関数に基づいて注釈されたデータアイテムを選択する
ことが示唆されている。これについては、“Neural Com
putation”4(5)(1992年)の720〜736ペ
ージの“The evidence framework applied to classifi
cation networks”(MacKay D.著)を参照のこと。この
関数は、概略を計算するにしても、現在の分類装置の膨
大な計算解析を必要とし、そして、同時に、また、最終
分類装置が適用されるようなデータの分配についての情
報を必要とする。MacKayは、実験結果を提示している。
それによれば、このアプローチは、適合しているモデル
が、データ内の実際の規則性に充分にマッチしていると
きのみ、機能することを示している。また、同著者は、
平均限界情報ゲインに基づいた明白な注釈アルゴリズム
については開示していない。
【0018】上記のどの方法も、注釈用にデータを選択
する問題に対し、一般的な回答を与えるものではない。
委員会による問い合わせ方式は、計算上有効なものでは
なく、また、MacKayのアルゴリズムは、理論的に興味は
あるが、実際には機能しないように思われる。Cohnの方
法は、最も実際的な方法に近いものであるが、費用が相
当かかり、それは、一次的にラベルの付されたデータの
量に基づいて、2個の分類装置をトレーニングする必要
があるからである。Cohnは、自分自身の方法の他の限界
についても指摘している。さらに、これらの方法の何れ
も大きな実世界のデータ収集、例えば、テキストデータ
ベース(ここでのデータアイテムは、非常に大きな数
(例:一万個)の特徴単語により特徴づけられる)でも
って機能するのに適したような方法では実行できないも
のである。
する問題に対し、一般的な回答を与えるものではない。
委員会による問い合わせ方式は、計算上有効なものでは
なく、また、MacKayのアルゴリズムは、理論的に興味は
あるが、実際には機能しないように思われる。Cohnの方
法は、最も実際的な方法に近いものであるが、費用が相
当かかり、それは、一次的にラベルの付されたデータの
量に基づいて、2個の分類装置をトレーニングする必要
があるからである。Cohnは、自分自身の方法の他の限界
についても指摘している。さらに、これらの方法の何れ
も大きな実世界のデータ収集、例えば、テキストデータ
ベース(ここでのデータアイテムは、非常に大きな数
(例:一万個)の特徴単語により特徴づけられる)でも
って機能するのに適したような方法では実行できないも
のである。
【0019】MacKayとCohnの両者は、別の方法、すなわ
ち、トレーニングデータに適用される機械学習アルゴリ
ズムにより生成される1個の分類装置の決定境界(deci
sionboundary)の近傍のデータを選択することについて
は、明白に反対している。彼らは、単一の分類装置を用
いる理論的な欠陥について指摘しており、それらには、
真の不確実性の過小見積と、非表示的な分類装置により
実行されるバイアスを含んでいる。
ち、トレーニングデータに適用される機械学習アルゴリ
ズムにより生成される1個の分類装置の決定境界(deci
sionboundary)の近傍のデータを選択することについて
は、明白に反対している。彼らは、単一の分類装置を用
いる理論的な欠陥について指摘しており、それらには、
真の不確実性の過小見積と、非表示的な分類装置により
実行されるバイアスを含んでいる。
【0020】しかし、MacKayとCohnによる理由付けにつ
いて、議論の余地はある。まず、第1に、MacKayとCohn
の実験は、ノイズのないデータから少数の特徴点の決定
的な関数を習得しようとするものである。最も実際のデ
ータの解釈問題は、多数の特徴、それもそのデータ内に
相当なノイズを含み、そして、データとその解釈との間
の非決定的な(統計的な)関係により特徴づけられるも
のである。これら全ての特徴は、MacKayとCohnにより提
起された理論的な問題を緩和するよう働くものである。
いて、議論の余地はある。まず、第1に、MacKayとCohn
の実験は、ノイズのないデータから少数の特徴点の決定
的な関数を習得しようとするものである。最も実際のデ
ータの解釈問題は、多数の特徴、それもそのデータ内に
相当なノイズを含み、そして、データとその解釈との間
の非決定的な(統計的な)関係により特徴づけられるも
のである。これら全ての特徴は、MacKayとCohnにより提
起された理論的な問題を緩和するよう働くものである。
【0021】第2に、単一の分類装置は、メンバーシッ
プ質問(“IEEE Transactions on Neural Networks”2
(1)(January 1991)の131〜136ページの“Quer
y-based learning applied to partially trained mult
ilayer perceptrons”(Hwang J.著)を参照のこと)を
生成する関連するタスクのため、および、既に注釈付き
のデータセットのサイズを減少する(“International
Joint Conference onNeural Networks”(Baltimore, M
D, June 7-11 1992)のI−676〜I−681ページの
“Attentional focus training by boundary region da
ta selection”(Davis D, Hwang J.共著)、および、
“IEEE Transacitons on Neural Networks”4(2)(M
arch 1993)の305〜318ページの“Selecting conc
ise training sets from clean data”(Plutowski M.,
White H.共著)を参照のこと)ために、成功裡に用い
られている点である。
プ質問(“IEEE Transactions on Neural Networks”2
(1)(January 1991)の131〜136ページの“Quer
y-based learning applied to partially trained mult
ilayer perceptrons”(Hwang J.著)を参照のこと)を
生成する関連するタスクのため、および、既に注釈付き
のデータセットのサイズを減少する(“International
Joint Conference onNeural Networks”(Baltimore, M
D, June 7-11 1992)のI−676〜I−681ページの
“Attentional focus training by boundary region da
ta selection”(Davis D, Hwang J.共著)、および、
“IEEE Transacitons on Neural Networks”4(2)(M
arch 1993)の305〜318ページの“Selecting conc
ise training sets from clean data”(Plutowski M.,
White H.共著)を参照のこと)ために、成功裡に用い
られている点である。
【0022】第3の点としては、1個の分類装置が、不
確実性サンプリング方法ではなく、ラベルの付されてい
ないデータから選択するために用いられている一つの応
用が存在することである。これは、テキスト文取り出し
システムにおける関連フィードバック(relevance feed
back)である。これについては、“Automatic Text Pro
cessing: The Transformation, Analysis, and Retriec
al of Information byComputer”(Addison-Wesley, Rea
ding, MA, 1989)(Salton G.著)を参照のこと。この関
連フィードバックを用いたテキスト文取り出しシステム
は、次のように動作する。使用者が最初の質問をこのシ
ステムに発し、このシステムは、内部で統計的な分類装
置に変換される。この分類装置を用いて、どの文章が最
もその使用者に関連するかを予測し、その文章を使用者
に表示する。その後、この使用者は、取り出された文章
に注釈をつけて、それが関係するか否かを示す。この注
釈付きの文章が、最初の質問と同時に用いられて、新た
な分類装置をトレーニングする。この新たな分類装置を
用いて、再び、使用者に最も関連すると思われる文章を
選択し、そして、このプロセスを使用者が望む回数だけ
繰り返す。
確実性サンプリング方法ではなく、ラベルの付されてい
ないデータから選択するために用いられている一つの応
用が存在することである。これは、テキスト文取り出し
システムにおける関連フィードバック(relevance feed
back)である。これについては、“Automatic Text Pro
cessing: The Transformation, Analysis, and Retriec
al of Information byComputer”(Addison-Wesley, Rea
ding, MA, 1989)(Salton G.著)を参照のこと。この関
連フィードバックを用いたテキスト文取り出しシステム
は、次のように動作する。使用者が最初の質問をこのシ
ステムに発し、このシステムは、内部で統計的な分類装
置に変換される。この分類装置を用いて、どの文章が最
もその使用者に関連するかを予測し、その文章を使用者
に表示する。その後、この使用者は、取り出された文章
に注釈をつけて、それが関係するか否かを示す。この注
釈付きの文章が、最初の質問と同時に用いられて、新た
な分類装置をトレーニングする。この新たな分類装置を
用いて、再び、使用者に最も関連すると思われる文章を
選択し、そして、このプロセスを使用者が望む回数だけ
繰り返す。
【0023】この関連フィードバックは、テキスト文取
り出しシステムの性能を向上するには有効とみなされて
おり、そして、これは、単語の意味の不確実性を取り除
くためのトレーニングデータを選択するのに用いられて
いる。これに関しては、“Computers and the Humaniti
es”26(1993年)の415〜439ページの“A
methos for disambiguating word senses in a large c
orpus”(Gale W.他著)を参照のこと。しかし、これ
は、選択問題に対する一般的な回答ではない。関連フィ
ードバックシステムは、特定の注釈を有する可能なデー
タアイテムのスペースの小さな部分に向けられたもので
あり、その注釈付きデータアイテムの完全な範囲、ある
いは、注釈のないデータアイテムの完全な範囲の例示を
得ることではない。特に、このシステムは、同一の注釈
付きの冗長なアイテムが多数ある場合においては、適正
に動作せず、また、このシステムは、2つの注釈につい
てのみ適用可能である。
り出しシステムの性能を向上するには有効とみなされて
おり、そして、これは、単語の意味の不確実性を取り除
くためのトレーニングデータを選択するのに用いられて
いる。これに関しては、“Computers and the Humaniti
es”26(1993年)の415〜439ページの“A
methos for disambiguating word senses in a large c
orpus”(Gale W.他著)を参照のこと。しかし、これ
は、選択問題に対する一般的な回答ではない。関連フィ
ードバックシステムは、特定の注釈を有する可能なデー
タアイテムのスペースの小さな部分に向けられたもので
あり、その注釈付きデータアイテムの完全な範囲、ある
いは、注釈のないデータアイテムの完全な範囲の例示を
得ることではない。特に、このシステムは、同一の注釈
付きの冗長なアイテムが多数ある場合においては、適正
に動作せず、また、このシステムは、2つの注釈につい
てのみ適用可能である。
【0024】
【発明が解決しようとする課題】したがって、本発明の
目的は、習得知識の有効性を増加し、効率的で、任意の
実世界のデータセットでも用いられるような注釈を付け
たデータアイテムを選択することであり、これらは、デ
ジタルコンピュータで実施可能で、上記した方法の問題
点を解決するような方法を提供するものである。
目的は、習得知識の有効性を増加し、効率的で、任意の
実世界のデータセットでも用いられるような注釈を付け
たデータアイテムを選択することであり、これらは、デ
ジタルコンピュータで実施可能で、上記した方法の問題
点を解決するような方法を提供するものである。
【0025】
【課題を解決するための手段】本発明の方法は、ある種
のインタプリタが、その解釈の確実度を規定できるとい
うことを利用したものである。本発明の方法は、繰り返
し反復する動作型で、以下のように動作する。本発明の
システムは、第1のインタプリタを有し、この第1のイ
ンタプリタは、上記のインタプリタの一つで、トレーニ
ングデータに基づいて以前に訓練されたものである。そ
して、この例示データの組は、このインタプリタに提示
され、このインタプリタがそれらを解釈する。ある例示
の解釈の確実度が低い場合には、このインタプリタは、
この例示データを第2のインタプリタ(ここでは訓練実
施者(teacher)と称する)に転送し、この第2のインタ
プリタが、この例示データに注釈を付ける。その後、こ
の注釈の付いた例示データがトレーニングデータに加え
られる。このインタプリタが、前述したように、全ての
例示に対し働いた後、新たなインタプリタが、追加の注
釈付き例示を有するトレーニングデータを用いて生成さ
れ、上記したもとの例示上で動作する。この繰り返し動
作は、インタプリタが所望の精度が得られるまで継続さ
れる。
のインタプリタが、その解釈の確実度を規定できるとい
うことを利用したものである。本発明の方法は、繰り返
し反復する動作型で、以下のように動作する。本発明の
システムは、第1のインタプリタを有し、この第1のイ
ンタプリタは、上記のインタプリタの一つで、トレーニ
ングデータに基づいて以前に訓練されたものである。そ
して、この例示データの組は、このインタプリタに提示
され、このインタプリタがそれらを解釈する。ある例示
の解釈の確実度が低い場合には、このインタプリタは、
この例示データを第2のインタプリタ(ここでは訓練実
施者(teacher)と称する)に転送し、この第2のインタ
プリタが、この例示データに注釈を付ける。その後、こ
の注釈の付いた例示データがトレーニングデータに加え
られる。このインタプリタが、前述したように、全ての
例示に対し働いた後、新たなインタプリタが、追加の注
釈付き例示を有するトレーニングデータを用いて生成さ
れ、上記したもとの例示上で動作する。この繰り返し動
作は、インタプリタが所望の精度が得られるまで継続さ
れる。
【0026】他の実施例においては、本発明は、トレー
ニング情報を生成する一般的な技術である。訓練実施者
により生成された注釈付き例示データは、トレーニング
情報を表し、このトレーニング情報は、全ての種類のイ
ンタプリタをトレーニングするために用いられ、第1の
インタプリタにより用いられたものとは異なる解釈の基
準を用いている。
ニング情報を生成する一般的な技術である。訓練実施者
により生成された注釈付き例示データは、トレーニング
情報を表し、このトレーニング情報は、全ての種類のイ
ンタプリタをトレーニングするために用いられ、第1の
インタプリタにより用いられたものとは異なる解釈の基
準を用いている。
【0027】
【実施例】図1は、分類装置を構成するインタプリタ形
成装置を表す図である。このインタプリタ形成装置は、
例示データ102と確実度分類装置103とティーチン
グ分類装置106と注釈付きトレーニングデータ105
とを有する。例示データ102は、インタプリタ形成装
置により構成される分類装置が分類分けするデータ部分
を含む。この例示データを用いて、分類装置をトレーニ
ングし、その結果、例示データと同一の特徴を有する他
のデータをうまく分類することができるようになる。確
実度分類装置103は、データを分類するだけでなく、
確実度分類装置103がどの程度の確実性でもって分類
できるかを表す確実度も生成する。
成装置を表す図である。このインタプリタ形成装置は、
例示データ102と確実度分類装置103とティーチン
グ分類装置106と注釈付きトレーニングデータ105
とを有する。例示データ102は、インタプリタ形成装
置により構成される分類装置が分類分けするデータ部分
を含む。この例示データを用いて、分類装置をトレーニ
ングし、その結果、例示データと同一の特徴を有する他
のデータをうまく分類することができるようになる。確
実度分類装置103は、データを分類するだけでなく、
確実度分類装置103がどの程度の確実性でもって分類
できるかを表す確実度も生成する。
【0028】ティーチング分類装置106は、例示デー
タ102からのデータ部分を取り出す分類装置であり、
このデータ部分がいかに分類されるかを表すために、そ
れらのデータ部分に注釈をつける。この注釈は、データ
部分の正確な分類を単に指示する場合もあれば、データ
部分が適切な分類に対する近似度を表すより複雑な値の
場合もある。何れの場合においても、この注釈は、1ビ
ット、あるいは、複数のビットのアレイとして表され
る。例えば、8個の分類がある場合においては、このア
レイは、3ビットである。
タ102からのデータ部分を取り出す分類装置であり、
このデータ部分がいかに分類されるかを表すために、そ
れらのデータ部分に注釈をつける。この注釈は、データ
部分の正確な分類を単に指示する場合もあれば、データ
部分が適切な分類に対する近似度を表すより複雑な値の
場合もある。何れの場合においても、この注釈は、1ビ
ット、あるいは、複数のビットのアレイとして表され
る。例えば、8個の分類がある場合においては、このア
レイは、3ビットである。
【0029】ティーチング分類装置106は、他の自動
分類装置でもよく、あるいは、人間との相互作用を行う
ものでもよい。後者の場合、ティーチング分類装置10
6は、ディスプレイ113とキーボード115とマウス
117とでもって、双方向で動作することもできる。こ
のような実施例においては、ティーチング分類装置10
6は、確実度分類装置103上に例示データ部分107
を表示し、人間がキーボード115から、あるいは、マ
ウス117を用いて、メニューから注釈を選択するため
に、入力された注釈を指示する。
分類装置でもよく、あるいは、人間との相互作用を行う
ものでもよい。後者の場合、ティーチング分類装置10
6は、ディスプレイ113とキーボード115とマウス
117とでもって、双方向で動作することもできる。こ
のような実施例においては、ティーチング分類装置10
6は、確実度分類装置103上に例示データ部分107
を表示し、人間がキーボード115から、あるいは、マ
ウス117を用いて、メニューから注釈を選択するため
に、入力された注釈を指示する。
【0030】別法として、ティーチング分類装置106
が自動分類装置の場合には、このティーチング分類装置
106は、例示データ部分107をデータ構造として受
領し、注釈をデータ構造と共に出力する。実行方法によ
っては、注釈は、確実度分類装置103により提供され
た分類を含むこともある。注釈付きトレーニングデータ
105は、ティーチング分類装置106、あるいは、他
の注釈装置の何れかにより注釈をつけられたデータ部分
の集合体である。
が自動分類装置の場合には、このティーチング分類装置
106は、例示データ部分107をデータ構造として受
領し、注釈をデータ構造と共に出力する。実行方法によ
っては、注釈は、確実度分類装置103により提供され
た分類を含むこともある。注釈付きトレーニングデータ
105は、ティーチング分類装置106、あるいは、他
の注釈装置の何れかにより注釈をつけられたデータ部分
の集合体である。
【0031】インタプリタ形成装置の動作は、繰り返さ
れる。所定の繰り返し指数に対し、確実度分類装置10
3(n)は、注釈付きトレーニングデータ105(n)
に基づいてトレーニングされる。その後、確実度分類装
置103(n)は、例示データ102からのデータ部分
を分類する。例示データ102内の各データ部分に対
し、確実度分類装置103は、データ部分の分類と、こ
の分類に対する確実度を決定する。この確実度は、デー
タ部分に対する低い確実度を表す場合には、確実度分類
装置103(n)は、この例示データ部分107をティ
ーチング分類装置106に提供する。その後、ティーチ
ング分類装置106は、例示データ部分107に注釈を
つけて、この注釈付きデータ部分109を注釈付きトレ
ーニングデータ105に提供する。
れる。所定の繰り返し指数に対し、確実度分類装置10
3(n)は、注釈付きトレーニングデータ105(n)
に基づいてトレーニングされる。その後、確実度分類装
置103(n)は、例示データ102からのデータ部分
を分類する。例示データ102内の各データ部分に対
し、確実度分類装置103は、データ部分の分類と、こ
の分類に対する確実度を決定する。この確実度は、デー
タ部分に対する低い確実度を表す場合には、確実度分類
装置103(n)は、この例示データ部分107をティ
ーチング分類装置106に提供する。その後、ティーチ
ング分類装置106は、例示データ部分107に注釈を
つけて、この注釈付きデータ部分109を注釈付きトレ
ーニングデータ105に提供する。
【0032】かくして、確実度分類装置103(n)が
例示データ102内の全てのデータ部分を分類した後、
複数の注釈付きデータ部分109が注釈付きトレーニン
グデータ105に追加される。前の注釈付きトレーニン
グデータ105(n)と新たな注釈付きデータ部分10
9とは、注釈付きトレーニングデータ105(n+1)
を形成する。その後、注釈付きトレーニングデータ10
5(n+1)を用いて、新たな確実度分類装置103
(n+1)を生成する。このようにして、確実度分類装
置103(n+x)が生成され、それが当初の目的に充
分近くなるまで繰り返し行われる。この繰り返しは、確
実度分類装置103(n+x)が、例示データ102内
のデータ部分の全てを正確に分類したとき、あるいは、
繰り返し演算がもはや正確にならないとなった時点で、
この繰り返しは中断する。
例示データ102内の全てのデータ部分を分類した後、
複数の注釈付きデータ部分109が注釈付きトレーニン
グデータ105に追加される。前の注釈付きトレーニン
グデータ105(n)と新たな注釈付きデータ部分10
9とは、注釈付きトレーニングデータ105(n+1)
を形成する。その後、注釈付きトレーニングデータ10
5(n+1)を用いて、新たな確実度分類装置103
(n+1)を生成する。このようにして、確実度分類装
置103(n+x)が生成され、それが当初の目的に充
分近くなるまで繰り返し行われる。この繰り返しは、確
実度分類装置103(n+x)が、例示データ102内
のデータ部分の全てを正確に分類したとき、あるいは、
繰り返し演算がもはや正確にならないとなった時点で、
この繰り返しは中断する。
【0033】インタプリタ形成装置の動作効率は、ある
注釈付きトレーニングデータ105が第1回の繰り返し
の前に提供された場合に増加する。経験上、注釈用に用
いられるビット列内の各ビットCiにたいし、Ci=1で
は最初の注釈付きトレーニングデータ105内に少なく
とも3個の注釈が存在するように、そして、Ci=0の
場合にも少なくとも3個の注釈が存在するように、デー
タ部分が存在しなければならない。かくして、注釈がデ
ータ部分が特定のカテゴリーに帰属するか否かを表すよ
うな単一ビットである場合には、少なくとも6個のデー
タ部分が注釈付きトレーニングデータ105内に存在し
なければならず、そして、そのうち3個のデータ部分
は、そのカテゴリーに属し、残りの3個は属さないとい
うことになる。この最初のトレーニングデータの特徴
は、不確実性の悪い予測が生成されるような長い繰り返
し周期を避けるために役立つことがわかった。
注釈付きトレーニングデータ105が第1回の繰り返し
の前に提供された場合に増加する。経験上、注釈用に用
いられるビット列内の各ビットCiにたいし、Ci=1で
は最初の注釈付きトレーニングデータ105内に少なく
とも3個の注釈が存在するように、そして、Ci=0の
場合にも少なくとも3個の注釈が存在するように、デー
タ部分が存在しなければならない。かくして、注釈がデ
ータ部分が特定のカテゴリーに帰属するか否かを表すよ
うな単一ビットである場合には、少なくとも6個のデー
タ部分が注釈付きトレーニングデータ105内に存在し
なければならず、そして、そのうち3個のデータ部分
は、そのカテゴリーに属し、残りの3個は属さないとい
うことになる。この最初のトレーニングデータの特徴
は、不確実性の悪い予測が生成されるような長い繰り返
し周期を避けるために役立つことがわかった。
【0034】ティーチング分類装置106により生成さ
れた注釈付きデータ部分109が、インタプリタ形成装
置内で用いられて、次の確実度分類装置103をトレー
ニングしながら、これが他の分類装置も同時にトレーニ
ングるするように用いられる。かくして、注釈付きデー
タ部分109は、一般的に、有効なトレーニングデータ
を表し、インタプリタ形成装置は、確実度分類装置10
3を構成する装置としてのみならず、トレーニングデー
タを生成する装置でもある。インタプリタ形成装置によ
り生成されたこのトレーニングデータは、特に有効であ
る。その理由は、確実度分類装置103(n)は、この
トレーニングに最も有効な例示データ部分107に対
し、例示データ102を有効にフィルタ処理する。
れた注釈付きデータ部分109が、インタプリタ形成装
置内で用いられて、次の確実度分類装置103をトレー
ニングしながら、これが他の分類装置も同時にトレーニ
ングるするように用いられる。かくして、注釈付きデー
タ部分109は、一般的に、有効なトレーニングデータ
を表し、インタプリタ形成装置は、確実度分類装置10
3を構成する装置としてのみならず、トレーニングデー
タを生成する装置でもある。インタプリタ形成装置によ
り生成されたこのトレーニングデータは、特に有効であ
る。その理由は、確実度分類装置103(n)は、この
トレーニングに最も有効な例示データ部分107に対
し、例示データ102を有効にフィルタ処理する。
【0035】図2は、確実度分類装置103の詳細を表
す図である。確実度分類装置103の要素である分割装
置207は、例示データ102を不確実度測定装置20
3により解釈されるのに適したデータ部分208に分割
する。確実度分類装置103の要素であるこの不確実度
測定装置203は、分類111と、不確実性の程度を表
すエントロピー値209とをデータ部分208に割り当
てる。そして、確実度分類装置103の要素である選択
装置204は、どのデータ部分208がティーチング分
類装置106に提供されるべきかを決定する。不確実度
測定装置203は、UMD生成装置206により分類パ
ラメータ210が与えられる。このUMD生成装置20
6は、注釈付きトレーニングデータ105を用いて分類
パラメータ210を計算する。
す図である。確実度分類装置103の要素である分割装
置207は、例示データ102を不確実度測定装置20
3により解釈されるのに適したデータ部分208に分割
する。確実度分類装置103の要素であるこの不確実度
測定装置203は、分類111と、不確実性の程度を表
すエントロピー値209とをデータ部分208に割り当
てる。そして、確実度分類装置103の要素である選択
装置204は、どのデータ部分208がティーチング分
類装置106に提供されるべきかを決定する。不確実度
測定装置203は、UMD生成装置206により分類パ
ラメータ210が与えられる。このUMD生成装置20
6は、注釈付きトレーニングデータ105を用いて分類
パラメータ210を計算する。
【0036】確実度分類装置103の動作について次に
述べる。例示データ102は、分割装置207に入力さ
れる。この分割装置207は、このデータを不確実度測
定装置203の入力に適したようにデータ部分208に
分割する。例えば、例示データ102がニューズワイヤ
の出力である場合には、分割装置207は、例示データ
102を個別のニュースストーリーに分割する。分割装
置207は、注釈付きトレーニングデータ105に対
し、データ部分208をチェックして、データ部分20
8が注釈付きトレーニングデータ105内に含まれるか
どうかを見る。もし含まれない場合には、分割装置20
7は、データ部分208を不確実度測定装置203に転
送する。
述べる。例示データ102は、分割装置207に入力さ
れる。この分割装置207は、このデータを不確実度測
定装置203の入力に適したようにデータ部分208に
分割する。例えば、例示データ102がニューズワイヤ
の出力である場合には、分割装置207は、例示データ
102を個別のニュースストーリーに分割する。分割装
置207は、注釈付きトレーニングデータ105に対
し、データ部分208をチェックして、データ部分20
8が注釈付きトレーニングデータ105内に含まれるか
どうかを見る。もし含まれない場合には、分割装置20
7は、データ部分208を不確実度測定装置203に転
送する。
【0037】不確実度測定装置203は、分類パラメー
タ210に基づいて、注釈のないデータ部分208を分
類し、分類のそのデータ部分へのエントロピー値209
を計算する。このエントロピーは、データ部分208に
対する分類111の正確度の不確実性の数値表現であ
る。この不確実性が大きくなると、エントロピー値20
9も大きくなる。
タ210に基づいて、注釈のないデータ部分208を分
類し、分類のそのデータ部分へのエントロピー値209
を計算する。このエントロピーは、データ部分208に
対する分類111の正確度の不確実性の数値表現であ
る。この不確実性が大きくなると、エントロピー値20
9も大きくなる。
【0038】データ部分208とエントロピー値209
と、おそらくは、分類111も、選択装置204に出力
される。選択装置204は、エントロピー値209のベ
ースに基づいて、確実度分類装置103の出力となるべ
きデータ部分のサブセットを選択する。実施例において
は、選択装置204は、最も高いエントロピー値209
を有する1個のデータ部分を確実度分類装置103の出
力として選択する。他の方法もある種の状況下では有効
である。例えば、高いエントロピー値209を有する数
個のデータ部分208を表示して、人間がティーチング
分類装置106と対話しながらそれらを一度に決めるこ
ともできる。可能な分類の数が少ない場合には、選択装
置204が各分類に対し、最も高いエントロピー値20
9を有するデータ部分208を取り出すことは、分類に
関わらず最も高いエントロピー値209を有するデータ
部分208を単に取り出すよりも有効である。
と、おそらくは、分類111も、選択装置204に出力
される。選択装置204は、エントロピー値209のベ
ースに基づいて、確実度分類装置103の出力となるべ
きデータ部分のサブセットを選択する。実施例において
は、選択装置204は、最も高いエントロピー値209
を有する1個のデータ部分を確実度分類装置103の出
力として選択する。他の方法もある種の状況下では有効
である。例えば、高いエントロピー値209を有する数
個のデータ部分208を表示して、人間がティーチング
分類装置106と対話しながらそれらを一度に決めるこ
ともできる。可能な分類の数が少ない場合には、選択装
置204が各分類に対し、最も高いエントロピー値20
9を有するデータ部分208を取り出すことは、分類に
関わらず最も高いエントロピー値209を有するデータ
部分208を単に取り出すよりも有効である。
【0039】トレーニングに対するこのデータ部分の質
のエントロピー以外の他の尺度を、データ部分の選択に
用いることも可能である。例えば、分類装置の所望の出
力として、確率予測を用いて、この確率予測の分散の予
測を質の尺度として用いることもできる。ファジィ論理
に基づいた分類装置を用いる場合には、分類装置により
生成される帰属関係の程度を用いることもできる。分類
装置がデータ部分のいくつかのビットのみを検査するこ
とにより、このデータ部分のクラスを決定することがで
きる場合には、質の尺度は、データ部分を分類する前
に、そのデータ部分のビット数を考慮に入れることであ
る。すなわち、考慮しなければならないビット数が増え
ると、データ部分は、さらにトレーニング用に有効とな
る。
のエントロピー以外の他の尺度を、データ部分の選択に
用いることも可能である。例えば、分類装置の所望の出
力として、確率予測を用いて、この確率予測の分散の予
測を質の尺度として用いることもできる。ファジィ論理
に基づいた分類装置を用いる場合には、分類装置により
生成される帰属関係の程度を用いることもできる。分類
装置がデータ部分のいくつかのビットのみを検査するこ
とにより、このデータ部分のクラスを決定することがで
きる場合には、質の尺度は、データ部分を分類する前
に、そのデータ部分のビット数を考慮に入れることであ
る。すなわち、考慮しなければならないビット数が増え
ると、データ部分は、さらにトレーニング用に有効とな
る。
【0040】次に、図3において、不確実度測定装置2
03の構成を説明する。この不確実度測定装置203に
は、分類装置列302とエントロピー計算プログラム3
03とが含有される。このエントロピー計算プログラム
303は、注釈を形成するビットのアレイ内の各ビット
に対し、二進の確率分類装置305を有する。この確率
分類装置305の詳細を次に説明する。確率分類装置3
05の動作において、各確率分類装置305(i)は、
UMD生成装置206からの分類パラメータ210
(i)と、識別されるべきデータ部分208とを受領す
る。i番目の確率分類装置305(i)は、P(Ci=
1|W)の予測値を出力する。この予測は、データ部分
の正確な注釈のi番目のビットが1であるものである。
この分類装置列302の出力は、一組の値P(Ci=1
|W)、i=1...nである。
03の構成を説明する。この不確実度測定装置203に
は、分類装置列302とエントロピー計算プログラム3
03とが含有される。このエントロピー計算プログラム
303は、注釈を形成するビットのアレイ内の各ビット
に対し、二進の確率分類装置305を有する。この確率
分類装置305の詳細を次に説明する。確率分類装置3
05の動作において、各確率分類装置305(i)は、
UMD生成装置206からの分類パラメータ210
(i)と、識別されるべきデータ部分208とを受領す
る。i番目の確率分類装置305(i)は、P(Ci=
1|W)の予測値を出力する。この予測は、データ部分
の正確な注釈のi番目のビットが1であるものである。
この分類装置列302の出力は、一組の値P(Ci=1
|W)、i=1...nである。
【0041】P(Ci=1|W)の予測値に対しては、
全てのビットが独立しているという仮定のもとでは、所
定のデータ部分208(W)の完全なnビット注釈C=
(C1,C2,...,Cn)に関する不確実性のひとつ
の尺度は、P(C1|W),...,P(Cn|W)によ
り与えられた結合確率分布のエントロピーH(W)であ
る。(このエントロピーは、“Intext Scranton”(1
971年)の“Information and Coding Theory”(Ing
els F.著)を参照のこと。)エントロピーH(W)は、
次式で表される。
全てのビットが独立しているという仮定のもとでは、所
定のデータ部分208(W)の完全なnビット注釈C=
(C1,C2,...,Cn)に関する不確実性のひとつ
の尺度は、P(C1|W),...,P(Cn|W)によ
り与えられた結合確率分布のエントロピーH(W)であ
る。(このエントロピーは、“Intext Scranton”(1
971年)の“Information and Coding Theory”(Ing
els F.著)を参照のこと。)エントロピーH(W)は、
次式で表される。
【数1】 ここで、ログは、底が2であり、統計の規則により、H
(W)は、より簡単に計算できる次式と等しい。
(W)は、より簡単に計算できる次式と等しい。
【数2】
【0042】データ部分208(W)に対するH(W)
の計算は、エントロピー計算プログラム303内で実行
され、その入力は、分類装置列302により出力された
P(Ci=1|W)の一組の予測値であり、その出力
は、H(W)309、すなわち、データ部分208
(W)の注釈に関連するエントロピーの予測値である。
この値H(W)は、データ部分208(W)の注釈が最
も不確実なときに最大となる。
の計算は、エントロピー計算プログラム303内で実行
され、その入力は、分類装置列302により出力された
P(Ci=1|W)の一組の予測値であり、その出力
は、H(W)309、すなわち、データ部分208
(W)の注釈に関連するエントロピーの予測値である。
この値H(W)は、データ部分208(W)の注釈が最
も不確実なときに最大となる。
【0043】図4は、好ましい実施例における確率分類
装置305(i)の詳細を表す図である。UMD生成装
置206は、各確率分類装置305(i)に対し、一組
の分類パラメータ210(i)を供給する。ここには、
3個のパラメータ、Q404(i),A406(i),
B408(i)がある。このQ404(i)は、テキス
ト部分208(W)に対し提示された質問であり、テキ
スト部分208(W)が所定の分類を有する確率を反映
する分類帰属関係スコアM(W)407を決定する。こ
の問い合わせは、所定の分類に対し、特徴的なターム
と、分類用のタームの重要性を表す数値重みからなる。
分類帰属関係スコアM(W)407は、問い合わせター
ムから決定され、これは、テキスト部分208(W)
と、その重み付けとを表す。A406(i)とB408
(i)は、論理パラメータであり、これは、分類帰属関
係スコアM(W)407をエントロピー計算プログラム
303に対する表示用の特定のフォームに入力される。
UMD生成装置206によりパラメータがいかに生成さ
れるかについて次に説明する。
装置305(i)の詳細を表す図である。UMD生成装
置206は、各確率分類装置305(i)に対し、一組
の分類パラメータ210(i)を供給する。ここには、
3個のパラメータ、Q404(i),A406(i),
B408(i)がある。このQ404(i)は、テキス
ト部分208(W)に対し提示された質問であり、テキ
スト部分208(W)が所定の分類を有する確率を反映
する分類帰属関係スコアM(W)407を決定する。こ
の問い合わせは、所定の分類に対し、特徴的なターム
と、分類用のタームの重要性を表す数値重みからなる。
分類帰属関係スコアM(W)407は、問い合わせター
ムから決定され、これは、テキスト部分208(W)
と、その重み付けとを表す。A406(i)とB408
(i)は、論理パラメータであり、これは、分類帰属関
係スコアM(W)407をエントロピー計算プログラム
303に対する表示用の特定のフォームに入力される。
UMD生成装置206によりパラメータがいかに生成さ
れるかについて次に説明する。
【0044】確率分類装置305(i)は、Q404
(i)とデータ部分208(W)をテキスト文取り出し
システム403の入力に提供することにより実行され、
その結果、データ部分208(W)に対し、分類帰属関
係スコアM(W)407を生成し、その後、この分類帰
属関係スコアM(W)407とパラメータA406
(i)とB408(i)を、論理関数計算機405内で
用いる。論理関数計算機405は、次の数式を実行する
プログラムである。
(i)とデータ部分208(W)をテキスト文取り出し
システム403の入力に提供することにより実行され、
その結果、データ部分208(W)に対し、分類帰属関
係スコアM(W)407を生成し、その後、この分類帰
属関係スコアM(W)407とパラメータA406
(i)とB408(i)を、論理関数計算機405内で
用いる。論理関数計算機405は、次の数式を実行する
プログラムである。
【数3】 ここでeは、自然対数の底である係数で2.71828
である。論理関数計算機405の機能は、確率分類装置
305(i)により出力されるP(Ci=1|W)30
7(i)の予測値である。当然のことながら、全ての確
率分類装置305は、同一のテキスト文取り出しシステ
ム403と論理関数計算機405とを使用する。テキス
ト文取り出しシステム403は、テキストデータと非テ
キストデータの両方を処理する。例えば、数値データ値
は、標準の技術により、公称変数値に変換され(これに
関しては、“A Statistician's Guide”(Chapman and H
all, London, 1988)の“Problem Solving”(Chatfield
C.著)を参照のこと)、この公称変数値の名前は、テ
キスト取り出しシステムによるワードとして、その後処
理することができる。
である。論理関数計算機405の機能は、確率分類装置
305(i)により出力されるP(Ci=1|W)30
7(i)の予測値である。当然のことながら、全ての確
率分類装置305は、同一のテキスト文取り出しシステ
ム403と論理関数計算機405とを使用する。テキス
ト文取り出しシステム403は、テキストデータと非テ
キストデータの両方を処理する。例えば、数値データ値
は、標準の技術により、公称変数値に変換され(これに
関しては、“A Statistician's Guide”(Chapman and H
all, London, 1988)の“Problem Solving”(Chatfield
C.著)を参照のこと)、この公称変数値の名前は、テ
キスト取り出しシステムによるワードとして、その後処
理することができる。
【0045】次に、図5において、確率分類装置305
(i)のトレーニングについて説明する。確率分類装置
305(i)により生成されたP(Ci=1|W)の精
度は、トレーニングデータからのパラメータのUMD生
成装置206の計算に依存する。この計算が、そのパラ
メータをトレーニングすることにより、確率分類装置3
05(i)をトレーニングすることになる。
(i)のトレーニングについて説明する。確率分類装置
305(i)により生成されたP(Ci=1|W)の精
度は、トレーニングデータからのパラメータのUMD生
成装置206の計算に依存する。この計算が、そのパラ
メータをトレーニングすることにより、確率分類装置3
05(i)をトレーニングすることになる。
【0046】質問Q404(i)のトレーニングは、テ
キスト文取り出しシステム403の関連フィードバック
能力を利用する。この関連フィードバックは、関連する
(特定のテキストのクラスのメンバーとして)マークさ
れたテキストの一部から、および、関連しない(特定の
テキストのクラスのメンバーではない)としてマークさ
れたテキストの一部からのテキスト取り出し質問の自動
的な構成である。この場合、テキストのこれらの部分
は、注釈付きトレーニングデータ105から得られる。
関連フィードバックは、関連テキストと非関連テキスト
と共に提供される最初の示唆された問い合わせを考慮に
いれている。関連フィードバックにより形成された出力
問い合わせは、関連、および、非関連の例示部分である
注釈付きデータ部分109から、および、関連するテキ
ストを識別する際に、これらのワードの重要性を指示す
る数値重みと共に、最初の質問から取り出されたワード
からなる。これらの重み付けは、様々な方法を用いて計
算されるが、その方法としては、例えば、関連文章内で
発生するワードの確率、および、非関連文章内で発生す
る確率の予測を利用することにより行われる。
キスト文取り出しシステム403の関連フィードバック
能力を利用する。この関連フィードバックは、関連する
(特定のテキストのクラスのメンバーとして)マークさ
れたテキストの一部から、および、関連しない(特定の
テキストのクラスのメンバーではない)としてマークさ
れたテキストの一部からのテキスト取り出し質問の自動
的な構成である。この場合、テキストのこれらの部分
は、注釈付きトレーニングデータ105から得られる。
関連フィードバックは、関連テキストと非関連テキスト
と共に提供される最初の示唆された問い合わせを考慮に
いれている。関連フィードバックにより形成された出力
問い合わせは、関連、および、非関連の例示部分である
注釈付きデータ部分109から、および、関連するテキ
ストを識別する際に、これらのワードの重要性を指示す
る数値重みと共に、最初の質問から取り出されたワード
からなる。これらの重み付けは、様々な方法を用いて計
算されるが、その方法としては、例えば、関連文章内で
発生するワードの確率、および、非関連文章内で発生す
る確率の予測を利用することにより行われる。
【0047】この関連フィードバックを実行するテキス
ト取り出しシステムの構成が、“The Transformation,
Analysis, and Retriebal of Information by Compute
r”(Addison-Wesley Publishing, 1989)の“Automatic
Text Processing”(Gerard Salton著)、または、“Da
ta Structures and Algorithms”(Prentice-Hall Publi
shcing, 1992)の“Information Retrieval”(Donna Ha
rman著)に開示されている。
ト取り出しシステムの構成が、“The Transformation,
Analysis, and Retriebal of Information by Compute
r”(Addison-Wesley Publishing, 1989)の“Automatic
Text Processing”(Gerard Salton著)、または、“Da
ta Structures and Algorithms”(Prentice-Hall Publi
shcing, 1992)の“Information Retrieval”(Donna Ha
rman著)に開示されている。
【0048】UMD生成装置206の詳細を図5に示
す。準備装置A501は、注釈つきデータ部分105
(n)を入力として取り入れ、マークのついたデータ部
分502(n)を出力として生成する。準備装置A50
1は、注釈付きトレーニングデータ105(n)から注
釈を取り除くが、そのことを実行する前に、各データ部
分の注釈のビットCiを検査する。ビットCiが1に等し
い場合には、データ部分は、テキスト取り出しシステム
に対し、適当な方法で関連するものとしてマークされ
る。ビットCiが0の場合には、これも適当な方法で非
関連としてその部分はマークされる。
す。準備装置A501は、注釈つきデータ部分105
(n)を入力として取り入れ、マークのついたデータ部
分502(n)を出力として生成する。準備装置A50
1は、注釈付きトレーニングデータ105(n)から注
釈を取り除くが、そのことを実行する前に、各データ部
分の注釈のビットCiを検査する。ビットCiが1に等し
い場合には、データ部分は、テキスト取り出しシステム
に対し、適当な方法で関連するものとしてマークされ
る。ビットCiが0の場合には、これも適当な方法で非
関連としてその部分はマークされる。
【0049】準備装置A501により生成されたマーク
付きデータ部分502(n)は、テキスト文取り出しシ
ステム403の関連フィードバック要素507に、ラベ
ル付きデータ部分506を動作させる適当なコマンドと
共に入力される。関連フィードバック要素507は、マ
ーク付きデータ部分502(n)に応答して、Q404
(n)を出力する。
付きデータ部分502(n)は、テキスト文取り出しシ
ステム403の関連フィードバック要素507に、ラベ
ル付きデータ部分506を動作させる適当なコマンドと
共に入力される。関連フィードバック要素507は、マ
ーク付きデータ部分502(n)に応答して、Q404
(n)を出力する。
【0050】その後、準備装置B503は、注釈付きト
レーニングデータ105(n)を入力として取り入れ、
注釈付きトレーニングデータ105(n)から注釈を取
り除き、この注釈無しデータ部分504(n)をテキス
ト文取り出しシステム403の取り出し要素509に出
力する。問い合わせQ404(n)は、テキスト文取り
出しシステム403を取り出しモードで動作させるため
の適当なコマンドと共に、取り出し要素509に入力さ
れる。テキスト文取り出しシステム403は、質問Q4
04(n)と、注釈無しデータ部分504(n)を用い
て、分類帰属関係スコアM510(n)の一組を計算す
る。この分類帰属関係スコアM510(n)は、注釈付
きトレーニングデータ105内の各データ部分Wに対す
る一つの分類帰属関係スコアM(W,n)を含む。
レーニングデータ105(n)を入力として取り入れ、
注釈付きトレーニングデータ105(n)から注釈を取
り除き、この注釈無しデータ部分504(n)をテキス
ト文取り出しシステム403の取り出し要素509に出
力する。問い合わせQ404(n)は、テキスト文取り
出しシステム403を取り出しモードで動作させるため
の適当なコマンドと共に、取り出し要素509に入力さ
れる。テキスト文取り出しシステム403は、質問Q4
04(n)と、注釈無しデータ部分504(n)を用い
て、分類帰属関係スコアM510(n)の一組を計算す
る。この分類帰属関係スコアM510(n)は、注釈付
きトレーニングデータ105内の各データ部分Wに対す
る一つの分類帰属関係スコアM(W,n)を含む。
【0051】関連フィードバックは、Q404(n)を
生成するために用いられているため、データ部分Wの各
分類帰属関係スコアM(W,n)は、P(Ci=1|
W)と統計的に相関関係がある。各分類帰属関係スコア
M(W,n)をP(Ci=1|W)の実際の予測値に変
換することは、論理パラメータA406(n)とB40
8(n)により、この実施例では行われる。
生成するために用いられているため、データ部分Wの各
分類帰属関係スコアM(W,n)は、P(Ci=1|
W)と統計的に相関関係がある。各分類帰属関係スコア
M(W,n)をP(Ci=1|W)の実際の予測値に変
換することは、論理パラメータA406(n)とB40
8(n)により、この実施例では行われる。
【0052】論理パラメータA406(n)、B408
(n)は、次のようにして、論理回帰推定計算機511
を用いて生成される。準備装置505Cは、注釈付きト
レーニングデータ105(n)を受領し、ラベル付きデ
ータ部分506(n)を生成する。準備装置505C
は、注釈付きトレーニングデータ105(n)から注釈
を取り除くが、それを実行する前に、準備装置505C
は、各注釈のビットCiを検査する。注釈のビットCiが
1に等しい場合には、そのデータ部分は、論理回帰ソフ
トウェアに対し適当な方法により応答値1のラベルが付
される。ビットCiが0に等しい場合には、このデータ
部分は、テキスト取り出しシステムに対し適当な方法で
応答値0のラベルが付される。
(n)は、次のようにして、論理回帰推定計算機511
を用いて生成される。準備装置505Cは、注釈付きト
レーニングデータ105(n)を受領し、ラベル付きデ
ータ部分506(n)を生成する。準備装置505C
は、注釈付きトレーニングデータ105(n)から注釈
を取り除くが、それを実行する前に、準備装置505C
は、各注釈のビットCiを検査する。注釈のビットCiが
1に等しい場合には、そのデータ部分は、論理回帰ソフ
トウェアに対し適当な方法により応答値1のラベルが付
される。ビットCiが0に等しい場合には、このデータ
部分は、テキスト取り出しシステムに対し適当な方法で
応答値0のラベルが付される。
【0053】準備装置505Cにより出力されたラベル
付きデータ部分506(n)は、論理回帰推定計算機5
11に分類帰属関係スコアM(n)510と共に入力さ
れる。論理回帰推定計算機511の出力は、ラベル付き
データ部分506(n)と、分類帰属関係ラベルM51
0(n)から得られた一対のパラメータA406(n)
とB408(n)である。この論理回帰ソフトウェア
は、パラメータA406(n)とB408(n)を選択
し、その結果、これらのパラメータによる論理機能は、
各データ部分Wに対し、分類帰属関係スコアM(W)が
入力される場合には、正確な応答値(0、または、1)
に近い値を出力する。このような出力は、P(Ci=1
|W)の確率の良好な予測として機能する。この実施例
における論理回帰計算は、二進モデルの両方を用いるこ
とができる。
付きデータ部分506(n)は、論理回帰推定計算機5
11に分類帰属関係スコアM(n)510と共に入力さ
れる。論理回帰推定計算機511の出力は、ラベル付き
データ部分506(n)と、分類帰属関係ラベルM51
0(n)から得られた一対のパラメータA406(n)
とB408(n)である。この論理回帰ソフトウェア
は、パラメータA406(n)とB408(n)を選択
し、その結果、これらのパラメータによる論理機能は、
各データ部分Wに対し、分類帰属関係スコアM(W)が
入力される場合には、正確な応答値(0、または、1)
に近い値を出力する。このような出力は、P(Ci=1
|W)の確率の良好な予測として機能する。この実施例
における論理回帰計算は、二進モデルの両方を用いるこ
とができる。
【0054】この論理回帰ソフトウェアを実行する技術
は公知であり、これに関して詳細は、“Categorical Da
ta Analysis”(John Wiley, Ner York, 1990)(Agresti
A.著)、および、“Generalized Linear Models”(Cha
mpion & Hall, London, 2ndedition, 1989)(McCullagh
P., Nelder J.共著)を参照のこと。論理回帰は、ま
た、SPSS社(Chicago, IL)のSPSSとして市販
されている統計パッケージでも実行できる。
は公知であり、これに関して詳細は、“Categorical Da
ta Analysis”(John Wiley, Ner York, 1990)(Agresti
A.著)、および、“Generalized Linear Models”(Cha
mpion & Hall, London, 2ndedition, 1989)(McCullagh
P., Nelder J.共著)を参照のこと。論理回帰は、ま
た、SPSS社(Chicago, IL)のSPSSとして市販
されている統計パッケージでも実行できる。
【0055】次に、図6において、トレーニングデータ
を生成するインタプリタ形成装置について説明する。こ
のインタプリタ形成装置においては、注釈付きトレーニ
ングデータ105を用いて、確実度分類装置103のシ
ーケンスをトレーニングする。所望の正確度が達成され
ると、最後の確実度分類装置103は、正確なデータの
もとで動作し、どのようなアプリケーションが情報を得
ようとも、例示データ部分107と分類111が、確実
度分類装置103により出力される。この場合、例示デ
ータ部分107とティーチング分類装置106により注
釈のつけられた分類111を生成する確実度分類装置1
03(i)と、実際の分類動作を実行するのに用いられ
る確実度分類装置103(j)は、同一タイプであり、
確実度分類装置103は、同一種類の不確実性サンプル
でもってトレーニングされる。しかし、例示データ部分
107と分類111をティーチング分類装置106に提
供する確実度分類装置103は、注釈付きトレーニング
データ105によりトレーニングされる確実度分類装置
103と同一タイプである必要はない。それらが同一タ
イプでない場合には、そのトレーニングは、非類似の不
確実サンプリングにより行われる、ということができ
る。
を生成するインタプリタ形成装置について説明する。こ
のインタプリタ形成装置においては、注釈付きトレーニ
ングデータ105を用いて、確実度分類装置103のシ
ーケンスをトレーニングする。所望の正確度が達成され
ると、最後の確実度分類装置103は、正確なデータの
もとで動作し、どのようなアプリケーションが情報を得
ようとも、例示データ部分107と分類111が、確実
度分類装置103により出力される。この場合、例示デ
ータ部分107とティーチング分類装置106により注
釈のつけられた分類111を生成する確実度分類装置1
03(i)と、実際の分類動作を実行するのに用いられ
る確実度分類装置103(j)は、同一タイプであり、
確実度分類装置103は、同一種類の不確実性サンプル
でもってトレーニングされる。しかし、例示データ部分
107と分類111をティーチング分類装置106に提
供する確実度分類装置103は、注釈付きトレーニング
データ105によりトレーニングされる確実度分類装置
103と同一タイプである必要はない。それらが同一タ
イプでない場合には、そのトレーニングは、非類似の不
確実サンプリングにより行われる、ということができ
る。
【0056】同一種類の不確実サンプリングは、1種類
の不確実サンプリングよりも、より有効なデータ解釈が
できる。しかし、異種類の不確実サンプリングを用いて
トレーニングすることは、時に必要なこともある。例え
ば、最後のインタプリタとアプリケーションに必要なト
レーニング方法が、確実度分類装置103を用いるため
にはあまりにも非効率的な場合、あるいは、最終のイン
タプリタが不確実性が予測し得るような形態で出力を生
成しない場合である。
の不確実サンプリングよりも、より有効なデータ解釈が
できる。しかし、異種類の不確実サンプリングを用いて
トレーニングすることは、時に必要なこともある。例え
ば、最後のインタプリタとアプリケーションに必要なト
レーニング方法が、確実度分類装置103を用いるため
にはあまりにも非効率的な場合、あるいは、最終のイン
タプリタが不確実性が予測し得るような形態で出力を生
成しない場合である。
【0057】図6は、既にトレーニングされた確実度分
類装置103とティーチング分類装置106をどのよう
に用いて、分類装置A605をトレーニングするため
に、トレーナ603により用いられる注釈付きデータ部
分109を提供する方法が示されている。例示データ1
02は、トレーナ603に入力され、このトレーナ60
3は、その分類の確実度が低い場合に、例示データ部分
107と分類111を出力する。その後、分類付けする
ティーチング分類装置106が例示部分に注釈をつけ
て、確実度分類装置103により提供された分類111
が正確か否かを表し、この注釈付きデータ部分109を
トレーナ603に送る。そして、このトレーナ603
は、これらを用いて分類装置A605をトレーニングす
る。分類装置A605は、確実度分類装置103と異な
るタイプのものでもよい。
類装置103とティーチング分類装置106をどのよう
に用いて、分類装置A605をトレーニングするため
に、トレーナ603により用いられる注釈付きデータ部
分109を提供する方法が示されている。例示データ1
02は、トレーナ603に入力され、このトレーナ60
3は、その分類の確実度が低い場合に、例示データ部分
107と分類111を出力する。その後、分類付けする
ティーチング分類装置106が例示部分に注釈をつけ
て、確実度分類装置103により提供された分類111
が正確か否かを表し、この注釈付きデータ部分109を
トレーナ603に送る。そして、このトレーナ603
は、これらを用いて分類装置A605をトレーニングす
る。分類装置A605は、確実度分類装置103と異な
るタイプのものでもよい。
【0058】
【発明の効果】分類付けするティーチング分類装置10
6に、人間が参加するような場合においては、本発明の
装置は、早急で、かつ、簡単な注釈をつけられるよう
に、訓練実施者に対し、例示的データ部分を表示するよ
うなインターフェースを用いて行われる。
6に、人間が参加するような場合においては、本発明の
装置は、早急で、かつ、簡単な注釈をつけられるよう
に、訓練実施者に対し、例示的データ部分を表示するよ
うなインターフェースを用いて行われる。
【図1】本発明によりインタプリタを訂正する装置のブ
ロック図。
ロック図。
【図2】確実度に応じて、解釈を選択する装置のブロッ
ク図。
ク図。
【図3】不確実度を測定する装置を表すブロック図。
【図4】不確実度を測定するのに用いられる確率的分類
装置の詳細図。
装置の詳細図。
【図5】確率的分類装置をトレーニングする装置を表す
図。
図。
【図6】本発明によりインタプリタを構成する第2の装
置を表すブロック図。
置を表すブロック図。
101 インタプリタを形成する装置 102 例示データ 103 確実度分類装置 105 注釈付きトレーニングデータ 106 ティーチング分類装置 107 例示データ部分 109 注釈付きデータ部分 111 分類 113 ディスプレイ 115 キーボード 117 マウス 203 不確実度測定装置 204 選択装置 206 UMD生成装置 207 分割装置 208 データ部分 209 エントロピー値 210 分類パラメータ 302 分類装置列 303 エントロピー計算プログラム 305 確率分類装置 403 テキスト文取り出しシステム 404、406、408 論理パラメータ 405 論理関数計算機 407 分類帰属関係スコア 501 準備装置A 502 マーク付きデータ部分 503 準備装置B 504 注釈無しデータ部分 505 準備装置C 506 ラベル付きデータ部分 507 関連フィードバック要素 509 取り出し要素 510 分類帰属関係スコア 511 論理回帰推定計算機 603 トレーナ 605 分類装置
フロントページの続き (72)発明者 ウィリアム アーサー ゲイル アメリカ合衆国、07040 ニュージャージ ー、 メイプルウッド、エセックス アヴ ェニュー 17 (72)発明者 ディヴィット ドラン ルイス アメリカ合衆国、07901 ニュージャージ ー、 サミット、10ジー アパートメン ト、スプリングフィールド アヴェニュー 851
Claims (9)
- 【請求項1】 (A)例示データを解析し、各例示デー
タに対する解析の確実度を指示する現行の第1インタプ
リタと、 (B)前記第1インタプリタが低い確実度でもって解析
した例示データを受領し、注釈をつける第2インタプリ
タと、 (C)前記注釈付きの確実度の低い例示データを受領
し、より高い確実度でもって例示データを解析すること
のできる次の第1インタプリタを生成することにより、
それに応答するインタプリタ形成装置とからなることを
特徴とするデータを解析するためのインタプリタを構成
する装置。 - 【請求項2】 一組の例示データからのデータを解析す
る第3インタプリタをトレーニングするトレーニング情
報を生成する装置において、 (A)各例示データを分類し、解釈の確実度を指示する
第1インタプリタと、 (B)第2インタプリタが低い確実度でもって解釈する
ような例示データを受領し、この受領した例示データに
注釈をつけ、この注釈のついた受領例示データをトレー
ニング情報として提供する第2インタプリタとからなる
ことを特徴とするトレーニング情報生成装置。 - 【請求項3】 (A)例示データを第1原則に基づいて
解析し、各例示データに対する解析の確実度を指示する
第1インタプリタと、 (B)前記第1インタプリタが低い確実度でもって解析
する例示データを受領し、注釈をつける第2インタプリ
タと、 (C)前記注釈付きの例示データを受領し、前記第1の
原則とは異なる第2原則に基づいて、データを解析する
第3インタプリタを生成することにより、それに応答す
るインタプリタ形成装置とからなることを特徴とするデ
ータを解析するためのインタプリタを構成する装置。 - 【請求項4】 前記第1インタプリタは、1個のインタ
プリタであることを特徴とする請求項1、2、3何れか
の装置。 - 【請求項5】 前記インタプリタは、前記データを類別
に分類する分類装置であることを特徴とする請求項1、
2、3何れかの装置。 - 【請求項6】 前記データは、テキスト文であることを
特徴とする請求項1、2、3何れかの装置。 - 【請求項7】 前記第2インタプリタは、前記例示デー
タを訓練実施者に提供し、前記訓練実施者の判断から注
釈を受領する双方向手段であることを特徴とする請求項
1、2、3何れかの装置。 - 【請求項8】 前記インタプリタ形成装置は、次の第1
インタプリタを生成するために、関連フィードバックを
用いる手段を有することを特徴とする請求項1の装置。 - 【請求項9】 前記インタプリタは、データを類別に分
類し、 前記(C)のインタプリタ形成装置は、 (C1)各注釈付きの確実度の低い例示データに対し、
類別帰属関係(class membership)スコアを生成する手
段と、 (C2)前記注釈付きの確実度の低い例示データが類別
に属する確率を表す分類帰属関係スコアを修正する各注
釈付き確実度の低い例示データに対し、パラメータを生
成するために、論理回帰を用いる手段と を有すること
を特徴とする請求項1の装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US224599 | 1994-04-07 | ||
| US08/224,599 US5671333A (en) | 1994-04-07 | 1994-04-07 | Training apparatus and method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07295989A true JPH07295989A (ja) | 1995-11-10 |
Family
ID=22841361
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7107085A Pending JPH07295989A (ja) | 1994-04-07 | 1995-04-07 | データを解析するためのインタプリタを形成する装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5671333A (ja) |
| EP (1) | EP0676704A2 (ja) |
| JP (1) | JPH07295989A (ja) |
| KR (1) | KR950033898A (ja) |
| CA (1) | CA2144255A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6704905B2 (en) | 2000-12-28 | 2004-03-09 | Matsushita Electric Industrial Co., Ltd. | Text classifying parameter generator and a text classifier using the generated parameter |
| JP2011514995A (ja) * | 2008-02-25 | 2011-05-12 | アティジオ リミテッド ライアビリティ カンパニー | 関心領域についての関連情報の決定 |
Families Citing this family (77)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0877010A (ja) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | データ分析方法および装置 |
| DE19623033C1 (de) * | 1996-06-08 | 1997-10-16 | Aeg Electrocom Gmbh | Verfahren und Anordnung zur Mustererkennung auf statistischer Basis |
| US6480194B1 (en) | 1996-11-12 | 2002-11-12 | Silicon Graphics, Inc. | Computer-related method, system, and program product for controlling data visualization in external dimension(s) |
| US6373483B1 (en) | 1997-01-13 | 2002-04-16 | Silicon Graphics, Inc. | Method, system and computer program product for visually approximating scattered data using color to represent values of a categorical variable |
| US6182058B1 (en) | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
| US6278464B1 (en) | 1997-03-07 | 2001-08-21 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing a decision-tree classifier |
| US6137499A (en) | 1997-03-07 | 2000-10-24 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing data using partial hierarchies |
| US5960435A (en) * | 1997-03-11 | 1999-09-28 | Silicon Graphics, Inc. | Method, system, and computer program product for computing histogram aggregations |
| US6546378B1 (en) * | 1997-04-24 | 2003-04-08 | Bright Ideas, L.L.C. | Signal interpretation engine |
| US5930803A (en) * | 1997-04-30 | 1999-07-27 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing an evidence classifier |
| US6026399A (en) * | 1997-05-30 | 2000-02-15 | Silicon Graphics, Inc. | System and method for selection of important attributes |
| US6301579B1 (en) | 1998-10-20 | 2001-10-09 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing a data structure |
| US6460049B1 (en) | 1998-12-22 | 2002-10-01 | Silicon Graphics, Inc. | Method system and computer program product for visualizing an evidence classifier |
| US6456622B1 (en) | 1999-03-03 | 2002-09-24 | Hewlett-Packard Company | Method for knowledge acquisition for diagnostic bayesian networks |
| EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| US6523017B1 (en) | 1999-05-04 | 2003-02-18 | At&T Corp. | Methods and apparatus for communicating information in a supervised learning system |
| US6931383B2 (en) * | 1999-05-04 | 2005-08-16 | At&T Corp. | Methods and apparatus for communicating information in a supervised learning system |
| US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
| US7194681B1 (en) * | 1999-07-30 | 2007-03-20 | Microsoft Corporation | Method for automatically assigning priorities to documents and messages |
| US6714967B1 (en) | 1999-07-30 | 2004-03-30 | Microsoft Corporation | Integration of a computer-based message priority system with mobile electronic devices |
| US8271316B2 (en) * | 1999-12-17 | 2012-09-18 | Buzzmetrics Ltd | Consumer to business data capturing system |
| DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
| US6937994B1 (en) | 2000-02-24 | 2005-08-30 | International Business Machines Corporation | System and method for efficiently generating models for targeting products and promotions using classification method by choosing points to be labeled |
| WO2001067225A2 (en) * | 2000-03-06 | 2001-09-13 | Kanisa Inc. | A system and method for providing an intelligent multi-step dialog with a user |
| US6879967B1 (en) * | 2000-03-24 | 2005-04-12 | Ricoh Co., Ltd. | Method and apparatus for open data collection |
| AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
| SG93868A1 (en) | 2000-06-07 | 2003-01-21 | Kent Ridge Digital Labs | Method and system for user-configurable clustering of information |
| US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
| EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| US7185065B1 (en) | 2000-10-11 | 2007-02-27 | Buzzmetrics Ltd | System and method for scoring electronic messages |
| US7197470B1 (en) | 2000-10-11 | 2007-03-27 | Buzzmetrics, Ltd. | System and method for collection analysis of electronic discussion methods |
| US6714897B2 (en) * | 2001-01-02 | 2004-03-30 | Battelle Memorial Institute | Method for generating analyses of categorical data |
| US20020133392A1 (en) * | 2001-02-22 | 2002-09-19 | Angel Mark A. | Distributed customer relationship management systems and methods |
| US6823323B2 (en) | 2001-04-26 | 2004-11-23 | Hewlett-Packard Development Company, L.P. | Automatic classification method and apparatus |
| US20020184169A1 (en) * | 2001-05-31 | 2002-12-05 | Opitz David William | Method and device for creating a sequence of hypotheses |
| US20050124863A1 (en) * | 2001-06-28 | 2005-06-09 | Cook Daniel R. | Drug profiling apparatus and method |
| EP1288792B1 (en) * | 2001-08-27 | 2011-12-14 | BDGB Enterprise Software Sàrl | A method for automatically indexing documents |
| US7206778B2 (en) | 2001-12-17 | 2007-04-17 | Knova Software Inc. | Text search ordered along one or more dimensions |
| US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
| JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
| US20030220917A1 (en) * | 2002-04-03 | 2003-11-27 | Max Copperman | Contextual search |
| US20030204507A1 (en) * | 2002-04-25 | 2003-10-30 | Li Jonathan Qiang | Classification of rare events with high reliability |
| US6904367B2 (en) * | 2002-10-04 | 2005-06-07 | Daniel R. Cook | Petroleum exploration and prediction apparatus and method |
| US6952649B2 (en) * | 2002-10-04 | 2005-10-04 | Cook Daniel R | Petroleum exploration and prediction apparatus and method |
| US8055503B2 (en) | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
| US7266559B2 (en) * | 2002-12-05 | 2007-09-04 | Microsoft Corporation | Method and apparatus for adapting a search classifier based on user queries |
| US7590695B2 (en) | 2003-05-09 | 2009-09-15 | Aol Llc | Managing electronic messages |
| US7383241B2 (en) * | 2003-07-25 | 2008-06-03 | Enkata Technologies, Inc. | System and method for estimating performance of a classifier |
| EP1656662B1 (en) | 2003-08-22 | 2016-06-01 | Unify Inc. | System for and method of automated quality monitoring |
| US7287012B2 (en) * | 2004-01-09 | 2007-10-23 | Microsoft Corporation | Machine-learned approach to determining document relevance for search over large electronic collections of documents |
| US7725414B2 (en) * | 2004-03-16 | 2010-05-25 | Buzzmetrics, Ltd An Israel Corporation | Method for developing a classifier for classifying communications |
| WO2006024324A1 (en) * | 2004-08-31 | 2006-03-09 | Freescale Semiconductor, Inc. | Design rule checking system |
| WO2006039566A2 (en) | 2004-09-30 | 2006-04-13 | Intelliseek, Inc. | Topical sentiments in electronically stored communications |
| US7577709B1 (en) | 2005-02-17 | 2009-08-18 | Aol Llc | Reliability measure for a classifier |
| US9158855B2 (en) | 2005-06-16 | 2015-10-13 | Buzzmetrics, Ltd | Extracting structured data from weblogs |
| US20070100779A1 (en) | 2005-08-05 | 2007-05-03 | Ori Levy | Method and system for extracting web data |
| US8688673B2 (en) * | 2005-09-27 | 2014-04-01 | Sarkar Pte Ltd | System for communication and collaboration |
| US8726144B2 (en) * | 2005-12-23 | 2014-05-13 | Xerox Corporation | Interactive learning-based document annotation |
| US7702631B1 (en) | 2006-03-14 | 2010-04-20 | Google Inc. | Method and system to produce and train composite similarity functions for product normalization |
| US20070288164A1 (en) * | 2006-06-08 | 2007-12-13 | Microsoft Corporation | Interactive map application |
| US8862591B2 (en) * | 2006-08-22 | 2014-10-14 | Twitter, Inc. | System and method for evaluating sentiment |
| US20080126275A1 (en) * | 2006-09-27 | 2008-05-29 | Crnojevic Vladimir S | Method of developing a classifier using adaboost-over-genetic programming |
| US7660783B2 (en) | 2006-09-27 | 2010-02-09 | Buzzmetrics, Inc. | System and method of ad-hoc analysis of data |
| US8347326B2 (en) | 2007-12-18 | 2013-01-01 | The Nielsen Company (US) | Identifying key media events and modeling causal relationships between key events and reported feelings |
| US9082080B2 (en) * | 2008-03-05 | 2015-07-14 | Kofax, Inc. | Systems and methods for organizing data sets |
| US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
| US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
| US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
| US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
| US8874727B2 (en) | 2010-05-31 | 2014-10-28 | The Nielsen Company (Us), Llc | Methods, apparatus, and articles of manufacture to rank users in an online social network |
| US8396875B2 (en) | 2010-06-17 | 2013-03-12 | Microsoft Corporation | Online stratified sampling for classifier evaluation |
| US9589254B2 (en) | 2010-12-08 | 2017-03-07 | Microsoft Technology Licensing, Llc | Using e-mail message characteristics for prioritization |
| US20120290293A1 (en) * | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
| US9558176B2 (en) | 2013-12-06 | 2017-01-31 | Microsoft Technology Licensing, Llc | Discriminating between natural language and keyword language items |
| US11640436B2 (en) * | 2017-05-15 | 2023-05-02 | Ebay Inc. | Methods and systems for query segmentation |
| GB2597664B (en) * | 2020-07-24 | 2024-08-21 | Advanced Risc Mach Ltd | Certainty-based classification networks |
| CN113673631B (zh) * | 2021-10-22 | 2022-03-29 | 广东众聚人工智能科技有限公司 | 异常图像检测方法及装置 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5402519A (en) * | 1990-11-26 | 1995-03-28 | Hitachi, Ltd. | Neural network system adapted for non-linear processing |
| US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
-
1994
- 1994-04-07 US US08/224,599 patent/US5671333A/en not_active Expired - Fee Related
-
1995
- 1995-03-09 CA CA002144255A patent/CA2144255A1/en not_active Abandoned
- 1995-03-29 EP EP95302110A patent/EP0676704A2/en not_active Withdrawn
- 1995-04-06 KR KR1019950007955A patent/KR950033898A/ko not_active Withdrawn
- 1995-04-07 JP JP7107085A patent/JPH07295989A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6704905B2 (en) | 2000-12-28 | 2004-03-09 | Matsushita Electric Industrial Co., Ltd. | Text classifying parameter generator and a text classifier using the generated parameter |
| JP2011514995A (ja) * | 2008-02-25 | 2011-05-12 | アティジオ リミテッド ライアビリティ カンパニー | 関心領域についての関連情報の決定 |
| JP2013218727A (ja) * | 2008-02-25 | 2013-10-24 | Atigeo Llc | 関心領域についての関連情報の決定 |
| US8706664B2 (en) | 2008-02-25 | 2014-04-22 | Atigeo Llc | Determining relevant information for domains of interest |
Also Published As
| Publication number | Publication date |
|---|---|
| US5671333A (en) | 1997-09-23 |
| EP0676704A2 (en) | 1995-10-11 |
| KR950033898A (ko) | 1995-12-26 |
| CA2144255A1 (en) | 1995-10-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
| CN109255031B (zh) | 基于知识图谱的数据处理方法 | |
| CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
| Ranjan et al. | LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features | |
| CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
| CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
| CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
| CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
| Grobelnik et al. | Automated knowledge discovery in advanced knowledge management | |
| CN110019736A (zh) | 基于语言模型的问答匹配方法、系统、设备及存储介质 | |
| CN117272142B (zh) | 一种日志异常检测方法、系统及电子设备 | |
| CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
| CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
| Tallapragada et al. | Improved resume parsing based on contextual meaning extraction using bert | |
| CN120407775B (zh) | 一种集成预训练nlp模型的文本数据自动化标注方法及系统 | |
| Jasim et al. | Analyzing social media sentiment: Twitter as a case study | |
| Hridoy et al. | Leveraging web scraping and stacking ensemble machine learning techniques to enhance detection of major depressive disorder from social media posts | |
| CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
| CN117251567A (zh) | 多领域知识抽取方法 | |
| CN119204182B (zh) | 民航服务领域知识图谱构建方法、系统及存储介质 | |
| JP7498876B1 (ja) | 検索支援システム、検索支援方法及びプログラム | |
| Bagwan et al. | Artificially intelligent health chatbot using deep learning | |
| Liu | Research on the Construction Method of Curriculum Teaching Knowledge Graph Based on Bi-LSTM and CNN Algorithm | |
| Dawar et al. | Text categorization by content using Naïve Bayes approach | |
| Liu et al. | An Embedded Co-AdaBoost based construction of software document relation coupled resource spaces for cyber–physical society |