JPH07295989A

JPH07295989A - データを解析するためのインタプリタを形成する装置

Info

Publication number: JPH07295989A
Application number: JP7107085A
Authority: JP
Inventors: Jason A Catlett; エイ．カトレットジェイソン; William Arthur Gale; アーサーゲイルウィリアム; David D Lewis; ドランルイスディヴィット
Original assignee: American Telephone and Telegraph Co Inc; AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-04-07
Filing date: 1995-04-07
Publication date: 1995-11-10
Also published as: US5671333A; EP0676704A2; KR950033898A; CA2144255A1

Abstract

(57)【要約】【目的】デジタルコンピュータで実施可能な習得知識
の有効性を増加し、効率的で、任意の実世界のデータセ
ットでも用いられるような注釈を付けたデータアイテム
を選択する。【構成】第１のインタープリター（ＩＰ）は、トレー
ニングデータ（ＴＤ）に基づいて以前に訓練されたもの
である。そして、例示データ（ＥＤ）の組が、このＩＰ
に提示され、このＩＰがそれらを解釈する。ある例示の
解釈の確実度が低い場合には、このＩＰは、このＥＤを
第２のＩＰに転送し、この第２のＩＰが、このＥＤに注
釈を付ける。その後、この注釈の付いたＥＤがＴＤに加
えられる。ＩＰが、全ての例示に対し働いた後、新たな
ＩＰが、追加の注釈付き例示を有するＴＤを用いて生成
されもとの例示上で動作する。この繰り返し動作をＩＰ
に所望の精度が得られるまで継続する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データの分類装置、お
よび、データの分類方法に関し、これらのデータを分類
する際のトレーニング方法と装置に関する。

【０００２】

【従来技術】オンラインで記憶されるデータの量と種類
は、急速に多くなっている。このことは、多くの形態
（ニュース、論文、メモ、電子メール、修理報告書等）
での自然言語のテキスト文についても当てはまる。これ
らのデータへのコンピュータによるアクセスの利点は計
りしれず、これらのデータが情報に変換されない限り、
これらデータは、理解し得ないものである。データから
情報への変換は、データを類別に分類することである。
例えば、仕事中に受け取ったニュースの内容は、その仕
事に関連する適切な人に伝達された場合にのみ有効（情
報）となる。従来から、ニュースの中身を読み、その内
容が属するカテゴリーを決定し、その後、各内容をその
カテゴリーが、それに関連するような興味を有するユー
ザに配送を行うことが人海戦術により行われていた。デ
ータの量が増加するにつれて、人海戦術によるデータの
解釈は、ますます不可能となっている。

【０００３】データを情報に変換する際の問題点は、あ
らゆる種類のデータに対して存在し、特に、テキスト文
に関しては、急を要する問題である。この場合、データ
を情報に変換することとは、無限にもおよぶあらゆる種
類の可能な自然言語表現を限られた組の解釈に制限する
ことを意味する。これらの解釈は、テキスト文が帰属す
べきいくつかの意味を有するカテゴリーを示すようなラ
ベル程度の単純なものもあれば、あるいは、パースツリ
ー、あるいは、テキスト文から抽出された情報を含むデ
ータベースレコード、あるいは、知能表示言語に基づく
表現のような複雑なものもある。解釈の同様な形態は、
他のデータの形態についても必要なものである。

【０００４】解釈の費用を減少させる一つのアプローチ
は、データインタプリタを用いることである。このデー
タインタプリタは、あるデータに対し、解釈を自動的に
生成するコンピュータシステムである。このデータイン
タプリタの単純な形態は、分類装置（classifier）であ
り、これは、データ部分が属すべき数個のカテゴリーを
決定するコンピュータシステムである。データインタプ
リタがうまく機能するためには、データの構造に関して
の知識が必要である。例えば、テキスト型のデータに対
しては、人間の言語に関する広範な知識、および、人間
の言語を情報に符号化する方法が必要である。この知識
を人手によってデータインタプリタに覚え込ませること
は不可能であり、また、時間のかかることである。必要
な知識の量とデータが情報に変換されるようなあらゆる
方法を予測することが困難なためである。

【０００５】このために、様々な機械学習技術が開発さ
れ、完全な、あるいは、部分的な解釈に基づいて、注釈
がつけられたデータから、解釈知識を自動的に獲得する
ことが行われている。この自動的な知識の獲得のプロセ
スは、トレーニングと称する。例えば、ドキュメントを
カテゴリーに分類するシステムは、その正確なカテゴリ
ーでもって人手で注釈をつけたドキュメントからトレー
ニングされる。このトレーニングプロセスは、注釈のつ
いたドキュメントを検査して、特定のカテゴリーに帰属
するある種の単語が、そのドキュメント内に表れるか、
表れないかの確率を予測する。その後、この確率（確実
度）を用いて、ドキュメントをカテゴリーに割り当て
る。他の例としては、病気を診断する実験的なシステム
では、医者の診断により人手で注釈のつけられた患者の
記録からトレーニングされる。このトレーニングプロセ
スは、複数の情報を組み合わせて、それに関連する病気
のと間の統計的、あるいは、偶然の関係を発見すること
になる。

【０００６】一般的に、注釈のつけられたデータが多い
と、トレーニングがより正確になり、インタプリタもよ
くなる。これにより、大部分のリソース（資源）をトレ
ーニングの目的のために、注釈付きのデータを大量に生
成するために振り向けるような構成が完成される。これ
に関しては、“Computational Linguistics” Vol.19,
No.2, June 1993の３１３〜３３０ページの“Building
a Large Annotated Corpus of English: The Penn Tree
bank”（Mitchell P. Marcus, Beatrice Santorini, Ma
ry Ann Marcinkiewicz共著）を参照のこと。

【０００７】しかし、大きな機構だからといって、全て
のデータに対し注釈をつけられるわけではない。さら
に、新たな解釈システムが、新たな種類の注釈を有する
データからのトレーニングを必要とする。このことは、
注釈をつけるティーチャー（訓練実施者）が一人、ある
いは、複数であろうとも、あるいはまた、それがコンピ
ュータシステムであろうとも、実際に注釈がつけられた
ものよりもはるかに大きなデータがある場合について常
に当てはまることである。データに対し、良好なインタ
プリタとなるようなコンピュータシステムが既に存在し
たとしても、より良いインタプリタ、例えば、より早い
インタプリタを可能とするような知識を習得する必要が
ある。

【０００８】トレーニングに必要とされる注釈の量を減
らす様々な試みが行われており、特に、トレーニング分
離装置においても行われている。一つのアプローチとし
ては、メンバーシップ質問（membership queries）を行
うような機械学習アルゴリズムを用いて、分類装置をト
レーニングすることである。これについては、“Machin
e Learning”２（１９８８年）の３１９〜３４２ページ
の“Queries and concept learning”（Angluin D.
著）を参照のこと。このアプローチにおいては、この学
習アルゴリズムは、現在のトレーニング状態において
は、信頼性高く分類できないようなこの学習アルゴリズ
ムが決定した人工的なデータ部分を生成してしまう。こ
のアルゴリズムは、訓練実施者に対し、この人工的なデ
ータ部分に注釈をつけさせ、そして、この注釈のついた
データ部分が、トレーニングの効果を上げるために、注
釈のついたデータの残りの部分に付加される。このアプ
ローチにおける問題点は、このデータ部分が人間の言語
の形で表現されているものと仮定されている場合には、
訓練実施者に対しては何の意味も有さないことである。

【０００９】推定近似を含むような統計からの様々な関
連技術（“SIAM Journal on Scientific and Statistic
al Computing”１１（４）（１９９０年７月）の７０２
〜７１２ページの“Random search in the presence of
noise with application tomachine learning”（Yako
witz S., Lugosi E.共著）を参照のこと）と、重要サン
プリング（“Artificial Intelligence Frontiers in S
tatistics: AI andStatistice III”（D. J. Hand編、C
hapman & Hall, London, １９９３年）の９０〜１０５
ページの“Adaptive importance sampling for bayesia
n networks applied to filtering problems”（Runnal
ls A.著）を参照のこと）は、メンバーシップ質問と類
似であり、同一の問題点を有する。ひずみモデル手段に
より、人工的な注釈データを生成することに基づくアプ
ローチも、同一環境化では失敗している。

【００１０】この問題に対する別のアプローチは、その
サンプル、すなわち、注釈用に表示されたデータのサブ
セットを選択された一つとして処理することである。こ
のサンプリングアプローチは、特定の注釈は、ときど
き、非常にまれにしか発生しない、という問題を処理し
なければならない。１０００個のデータ部分のうち、わ
ずか１個のデータ部分のみが注釈Ｘを持たなければなら
ないと仮定すると、５００個のデータ部分のみが有効に
注釈をつけることができる。どのデータ部分に注釈をつ
けるべきかを選択するために、ランダムサンプリングを
用いることは、通常、注釈Ｘがつくデータ部分は、存在
しないことになる。かくして、注釈Ｘをいかに識別する
かについては、何等知識が得られないことになる。

【００１１】層化サンプリング（“Sampling Technique
s” Cochran W.John 著、Wiley & Sons, New York, 3rd
edition, 1977を参照のこと）は、ある注釈の少ない頻
度のアドレスに対する通常のアプローチである。全て可
能なデータアイテムのスペースは、概念的には、複数の
層、すなわち、グループに、このデータのある観察可能
な特徴に基づいて分割される。その後、サンプリングが
各層から別個に行われ、注釈が最も不確実、すなわち、
変化し得ると期待されるような複数の層から複数のデー
タアイテムが取り出される。このアプローチは、適当な
複数の層が明白である、あるいは、慣習の問題（大衆の
意見の聴取のように）の場合には、良く機能するが、こ
のアプローチは、多くの実世界のデータセットに対して
は機能せず、可能な層化の数が膨大になったときには、
それらの適切な選択は非常に不明瞭となる。例えば、こ
のことは、データアイテムが自然言語のテキスト文の場
合には言い得ることである。

【００１２】しかし、近年、注釈問題に対する新たなア
プローチが出現した。それは、層化サンプリングとメン
バーシップ質問の組み合わせとして考えられるものであ
る。これらの方法は、未知の注釈の不確実性の観点か
ら、直接複数の階層を規定し、その後、充分に不確実な
複数の階層からのみサンプリングするものである。我々
は、この方法を不確実性サンプリングと称する。この不
確実性サンプリングの方法の重要な特徴点は、それら
は、繰り返し動作することである。すなわち、いったん
その解釈が不確実であるデータに注釈がつけられると、
この注釈のつけられたデータを用いて、他のデータの解
釈の不確実性を減少させる。

【００１３】未知の注釈の不確実性を予測するいくつか
の方法が提案されている。これについては、“Advances
in Neural Information Processing Systems 2”（Dav
id S. Touretzky編、Morgan Kaufmann, San Mateo, CA,
１９９０年）の５６６〜５７３ページの“Training co
nnectionist networks with queries and selectivesam
pling”（Atlas L, Cohn D.他著）、および、“Machine
Learning”の“Improving generalization with self-
directed learning”（Cohn D.他著、１９９２年）を参
照のこと。このCohnにより提案された方法においては、
インタプリタは、分類装置でもある。

【００１４】２つのニューラルネットの分類装置は、入
手可能な注釈付きデータからトレーニングされる。第１
の分類装置は、そのトレーニングデータと適合する最も
一般的な分類装置の近似として意図されるものである。
それは、ニューラルネットのトレーニングアルゴリズム
に、全ての注釈付き例示と、正の例示として一次的に注
釈のつけられたランダムな大量の例示の全てを与えるこ
とにより生成される。第２の分類装置は、このトレーニ
ングデータと適合する最も特殊な分類装置の近似として
意図されるものである。これは、ニューラルネットのト
レーニングアルゴリズムに、全ての注釈付き例示と、負
の例示として一次的に注釈のつけられた大量のランダム
な例示の全てを与えることにより生成される。Cohnは、
いかに多くの一次的な注釈付きの例示が、その数が大き
い場合を除いて、何れの場合にも必要であるということ
を示してはいない。その数は、データアイテムを表示す
るのに用いられる特徴の数と共に、急速に増加するよう
に見える。この一次的にラベルの付されたアイテムは、
このラベル付きデータの外側の全体のスペースをカバー
できることを意味し、このスペースは、特徴の数と共に
指数関数的に増加する。

【００１５】Cohnの２つの分類装置は、注釈のないデー
タアイテムに適用され、この分類装置が合意しないこれ
らのアイテムが注釈の訓練実施者に示される。その後、
この注釈付きデータは、更新され、分類装置の新たなバ
ージョンがトレーニングされ、より多くの注釈のつかな
いデータがテストされる。

【００１６】関連するアプローチとしては、委員会アル
ゴリズムによる問い合わせ（queryby committee algori
thm）である。これに関しては、“Proceedings of the
Fifth Annual ACM Workshop on Computational Learnin
g Theory”（１９９２年）の２８７〜２９４ページの
“Query by committee”（Seung H.他著）、および、
“Advance in Neural Informations Processing System
s 5”（Morgan Kaufmann, San Mateo, CA, １９９２
年）の“Information, prediction, and query by comm
ittee”（Freund Y.他著）を参照のこと。この委員会に
よる問い合わせは、各注釈のつかないデータアイテムに
対し、既に注釈のついたデータと適合する２つの分類装
置を選択する。これら２つの分類装置は、対応する注釈
のないデータアイテムに適用され、この分類装置が合意
しない場合には、このアイテムの注釈は、不確実とみな
され、訓練実施者は、それに注釈をつけるよう要請され
る。そして、このプロセスは、繰り返し行われ、どの分
類装置が選択されるか、そして、どのアイテムが将来不
確実とみなされるかに影響を及ぼすような前のアイテム
の注釈を用いて繰り返される。前掲の論文には、このア
ルゴリズムの理論的な側面のみが示されているが、Seun
g他は、分類装置を実際に選択する方法については何等
開示していない。

【００１７】第３の方法については、平均限界情報ゲイ
ン関数に基づいて注釈されたデータアイテムを選択する
ことが示唆されている。これについては、“Neural Com
putation”４（５）（１９９２年）の７２０〜７３６ペ
ージの“The evidence framework applied to classifi
cation networks”（MacKay D.著）を参照のこと。この
関数は、概略を計算するにしても、現在の分類装置の膨
大な計算解析を必要とし、そして、同時に、また、最終
分類装置が適用されるようなデータの分配についての情
報を必要とする。MacKayは、実験結果を提示している。
それによれば、このアプローチは、適合しているモデル
が、データ内の実際の規則性に充分にマッチしていると
きのみ、機能することを示している。また、同著者は、
平均限界情報ゲインに基づいた明白な注釈アルゴリズム
については開示していない。

【００１８】上記のどの方法も、注釈用にデータを選択
する問題に対し、一般的な回答を与えるものではない。
委員会による問い合わせ方式は、計算上有効なものでは
なく、また、MacKayのアルゴリズムは、理論的に興味は
あるが、実際には機能しないように思われる。Cohnの方
法は、最も実際的な方法に近いものであるが、費用が相
当かかり、それは、一次的にラベルの付されたデータの
量に基づいて、２個の分類装置をトレーニングする必要
があるからである。Cohnは、自分自身の方法の他の限界
についても指摘している。さらに、これらの方法の何れ
も大きな実世界のデータ収集、例えば、テキストデータ
ベース（ここでのデータアイテムは、非常に大きな数
（例：一万個）の特徴単語により特徴づけられる）でも
って機能するのに適したような方法では実行できないも
のである。

【００１９】MacKayとCohnの両者は、別の方法、すなわ
ち、トレーニングデータに適用される機械学習アルゴリ
ズムにより生成される１個の分類装置の決定境界（deci
sionboundary）の近傍のデータを選択することについて
は、明白に反対している。彼らは、単一の分類装置を用
いる理論的な欠陥について指摘しており、それらには、
真の不確実性の過小見積と、非表示的な分類装置により
実行されるバイアスを含んでいる。

【００２０】しかし、MacKayとCohnによる理由付けにつ
いて、議論の余地はある。まず、第１に、MacKayとCohn
の実験は、ノイズのないデータから少数の特徴点の決定
的な関数を習得しようとするものである。最も実際のデ
ータの解釈問題は、多数の特徴、それもそのデータ内に
相当なノイズを含み、そして、データとその解釈との間
の非決定的な（統計的な）関係により特徴づけられるも
のである。これら全ての特徴は、MacKayとCohnにより提
起された理論的な問題を緩和するよう働くものである。

【００２１】第２に、単一の分類装置は、メンバーシッ
プ質問（“IEEE Transactions on Neural Networks”２
（１）(January 1991)の１３１〜１３６ページの“Quer
y-based learning applied to partially trained mult
ilayer perceptrons”（Hwang J.著）を参照のこと）を
生成する関連するタスクのため、および、既に注釈付き
のデータセットのサイズを減少する（“International
Joint Conference onNeural Networks”(Baltimore, M
D, June 7-11 1992)のＩ−６７６〜Ｉ−６８１ページの
“Attentional focus training by boundary region da
ta selection”（Davis D, Hwang J.共著）、および、
“IEEE Transacitons on Neural Networks”４（２）(M
arch 1993)の３０５〜３１８ページの“Selecting conc
ise training sets from clean data”（Plutowski M.,
White H.共著）を参照のこと）ために、成功裡に用い
られている点である。

【００２２】第３の点としては、１個の分類装置が、不
確実性サンプリング方法ではなく、ラベルの付されてい
ないデータから選択するために用いられている一つの応
用が存在することである。これは、テキスト文取り出し
システムにおける関連フィードバック（relevance feed
back）である。これについては、“Automatic Text Pro
cessing: The Transformation, Analysis, and Retriec
al of Information byComputer”(Addison-Wesley, Rea
ding, MA, 1989)（Salton G.著）を参照のこと。この関
連フィードバックを用いたテキスト文取り出しシステム
は、次のように動作する。使用者が最初の質問をこのシ
ステムに発し、このシステムは、内部で統計的な分類装
置に変換される。この分類装置を用いて、どの文章が最
もその使用者に関連するかを予測し、その文章を使用者
に表示する。その後、この使用者は、取り出された文章
に注釈をつけて、それが関係するか否かを示す。この注
釈付きの文章が、最初の質問と同時に用いられて、新た
な分類装置をトレーニングする。この新たな分類装置を
用いて、再び、使用者に最も関連すると思われる文章を
選択し、そして、このプロセスを使用者が望む回数だけ
繰り返す。

【００２３】この関連フィードバックは、テキスト文取
り出しシステムの性能を向上するには有効とみなされて
おり、そして、これは、単語の意味の不確実性を取り除
くためのトレーニングデータを選択するのに用いられて
いる。これに関しては、“Computers and the Humaniti
es”２６（１９９３年）の４１５〜４３９ページの“A
methos for disambiguating word senses in a large c
orpus”（Gale W.他著）を参照のこと。しかし、これ
は、選択問題に対する一般的な回答ではない。関連フィ
ードバックシステムは、特定の注釈を有する可能なデー
タアイテムのスペースの小さな部分に向けられたもので
あり、その注釈付きデータアイテムの完全な範囲、ある
いは、注釈のないデータアイテムの完全な範囲の例示を
得ることではない。特に、このシステムは、同一の注釈
付きの冗長なアイテムが多数ある場合においては、適正
に動作せず、また、このシステムは、２つの注釈につい
てのみ適用可能である。

【００２４】

【発明が解決しようとする課題】したがって、本発明の
目的は、習得知識の有効性を増加し、効率的で、任意の
実世界のデータセットでも用いられるような注釈を付け
たデータアイテムを選択することであり、これらは、デ
ジタルコンピュータで実施可能で、上記した方法の問題
点を解決するような方法を提供するものである。

【００２５】

【課題を解決するための手段】本発明の方法は、ある種
のインタプリタが、その解釈の確実度を規定できるとい
うことを利用したものである。本発明の方法は、繰り返
し反復する動作型で、以下のように動作する。本発明の
システムは、第１のインタプリタを有し、この第１のイ
ンタプリタは、上記のインタプリタの一つで、トレーニ
ングデータに基づいて以前に訓練されたものである。そ
して、この例示データの組は、このインタプリタに提示
され、このインタプリタがそれらを解釈する。ある例示
の解釈の確実度が低い場合には、このインタプリタは、
この例示データを第２のインタプリタ（ここでは訓練実
施者(teacher)と称する）に転送し、この第２のインタ
プリタが、この例示データに注釈を付ける。その後、こ
の注釈の付いた例示データがトレーニングデータに加え
られる。このインタプリタが、前述したように、全ての
例示に対し働いた後、新たなインタプリタが、追加の注
釈付き例示を有するトレーニングデータを用いて生成さ
れ、上記したもとの例示上で動作する。この繰り返し動
作は、インタプリタが所望の精度が得られるまで継続さ
れる。

【００２６】他の実施例においては、本発明は、トレー
ニング情報を生成する一般的な技術である。訓練実施者
により生成された注釈付き例示データは、トレーニング
情報を表し、このトレーニング情報は、全ての種類のイ
ンタプリタをトレーニングするために用いられ、第１の
インタプリタにより用いられたものとは異なる解釈の基
準を用いている。

【００２７】

【実施例】図１は、分類装置を構成するインタプリタ形
成装置を表す図である。このインタプリタ形成装置は、
例示データ１０２と確実度分類装置１０３とティーチン
グ分類装置１０６と注釈付きトレーニングデータ１０５
とを有する。例示データ１０２は、インタプリタ形成装
置により構成される分類装置が分類分けするデータ部分
を含む。この例示データを用いて、分類装置をトレーニ
ングし、その結果、例示データと同一の特徴を有する他
のデータをうまく分類することができるようになる。確
実度分類装置１０３は、データを分類するだけでなく、
確実度分類装置１０３がどの程度の確実性でもって分類
できるかを表す確実度も生成する。

【００２８】ティーチング分類装置１０６は、例示デー
タ１０２からのデータ部分を取り出す分類装置であり、
このデータ部分がいかに分類されるかを表すために、そ
れらのデータ部分に注釈をつける。この注釈は、データ
部分の正確な分類を単に指示する場合もあれば、データ
部分が適切な分類に対する近似度を表すより複雑な値の
場合もある。何れの場合においても、この注釈は、１ビ
ット、あるいは、複数のビットのアレイとして表され
る。例えば、８個の分類がある場合においては、このア
レイは、３ビットである。

【００２９】ティーチング分類装置１０６は、他の自動
分類装置でもよく、あるいは、人間との相互作用を行う
ものでもよい。後者の場合、ティーチング分類装置１０
６は、ディスプレイ１１３とキーボード１１５とマウス
１１７とでもって、双方向で動作することもできる。こ
のような実施例においては、ティーチング分類装置１０
６は、確実度分類装置１０３上に例示データ部分１０７
を表示し、人間がキーボード１１５から、あるいは、マ
ウス１１７を用いて、メニューから注釈を選択するため
に、入力された注釈を指示する。

【００３０】別法として、ティーチング分類装置１０６
が自動分類装置の場合には、このティーチング分類装置
１０６は、例示データ部分１０７をデータ構造として受
領し、注釈をデータ構造と共に出力する。実行方法によ
っては、注釈は、確実度分類装置１０３により提供され
た分類を含むこともある。注釈付きトレーニングデータ
１０５は、ティーチング分類装置１０６、あるいは、他
の注釈装置の何れかにより注釈をつけられたデータ部分
の集合体である。

【００３１】インタプリタ形成装置の動作は、繰り返さ
れる。所定の繰り返し指数に対し、確実度分類装置１０
３（ｎ）は、注釈付きトレーニングデータ１０５（ｎ）
に基づいてトレーニングされる。その後、確実度分類装
置１０３（ｎ）は、例示データ１０２からのデータ部分
を分類する。例示データ１０２内の各データ部分に対
し、確実度分類装置１０３は、データ部分の分類と、こ
の分類に対する確実度を決定する。この確実度は、デー
タ部分に対する低い確実度を表す場合には、確実度分類
装置１０３（ｎ）は、この例示データ部分１０７をティ
ーチング分類装置１０６に提供する。その後、ティーチ
ング分類装置１０６は、例示データ部分１０７に注釈を
つけて、この注釈付きデータ部分１０９を注釈付きトレ
ーニングデータ１０５に提供する。

【００３２】かくして、確実度分類装置１０３（ｎ）が
例示データ１０２内の全てのデータ部分を分類した後、
複数の注釈付きデータ部分１０９が注釈付きトレーニン
グデータ１０５に追加される。前の注釈付きトレーニン
グデータ１０５（ｎ）と新たな注釈付きデータ部分１０
９とは、注釈付きトレーニングデータ１０５（ｎ＋１）
を形成する。その後、注釈付きトレーニングデータ１０
５（ｎ＋１）を用いて、新たな確実度分類装置１０３
（ｎ＋１）を生成する。このようにして、確実度分類装
置１０３（ｎ＋ｘ）が生成され、それが当初の目的に充
分近くなるまで繰り返し行われる。この繰り返しは、確
実度分類装置１０３（ｎ＋ｘ）が、例示データ１０２内
のデータ部分の全てを正確に分類したとき、あるいは、
繰り返し演算がもはや正確にならないとなった時点で、
この繰り返しは中断する。

【００３３】インタプリタ形成装置の動作効率は、ある
注釈付きトレーニングデータ１０５が第１回の繰り返し
の前に提供された場合に増加する。経験上、注釈用に用
いられるビット列内の各ビットＣ_iにたいし、Ｃ_i＝１で
は最初の注釈付きトレーニングデータ１０５内に少なく
とも３個の注釈が存在するように、そして、Ｃ_i＝０の
場合にも少なくとも３個の注釈が存在するように、デー
タ部分が存在しなければならない。かくして、注釈がデ
ータ部分が特定のカテゴリーに帰属するか否かを表すよ
うな単一ビットである場合には、少なくとも６個のデー
タ部分が注釈付きトレーニングデータ１０５内に存在し
なければならず、そして、そのうち３個のデータ部分
は、そのカテゴリーに属し、残りの３個は属さないとい
うことになる。この最初のトレーニングデータの特徴
は、不確実性の悪い予測が生成されるような長い繰り返
し周期を避けるために役立つことがわかった。

【００３４】ティーチング分類装置１０６により生成さ
れた注釈付きデータ部分１０９が、インタプリタ形成装
置内で用いられて、次の確実度分類装置１０３をトレー
ニングしながら、これが他の分類装置も同時にトレーニ
ングるするように用いられる。かくして、注釈付きデー
タ部分１０９は、一般的に、有効なトレーニングデータ
を表し、インタプリタ形成装置は、確実度分類装置１０
３を構成する装置としてのみならず、トレーニングデー
タを生成する装置でもある。インタプリタ形成装置によ
り生成されたこのトレーニングデータは、特に有効であ
る。その理由は、確実度分類装置１０３（ｎ）は、この
トレーニングに最も有効な例示データ部分１０７に対
し、例示データ１０２を有効にフィルタ処理する。

【００３５】図２は、確実度分類装置１０３の詳細を表
す図である。確実度分類装置１０３の要素である分割装
置２０７は、例示データ１０２を不確実度測定装置２０
３により解釈されるのに適したデータ部分２０８に分割
する。確実度分類装置１０３の要素であるこの不確実度
測定装置２０３は、分類１１１と、不確実性の程度を表
すエントロピー値２０９とをデータ部分２０８に割り当
てる。そして、確実度分類装置１０３の要素である選択
装置２０４は、どのデータ部分２０８がティーチング分
類装置１０６に提供されるべきかを決定する。不確実度
測定装置２０３は、ＵＭＤ生成装置２０６により分類パ
ラメータ２１０が与えられる。このＵＭＤ生成装置２０
６は、注釈付きトレーニングデータ１０５を用いて分類
パラメータ２１０を計算する。

【００３６】確実度分類装置１０３の動作について次に
述べる。例示データ１０２は、分割装置２０７に入力さ
れる。この分割装置２０７は、このデータを不確実度測
定装置２０３の入力に適したようにデータ部分２０８に
分割する。例えば、例示データ１０２がニューズワイヤ
の出力である場合には、分割装置２０７は、例示データ
１０２を個別のニュースストーリーに分割する。分割装
置２０７は、注釈付きトレーニングデータ１０５に対
し、データ部分２０８をチェックして、データ部分２０
８が注釈付きトレーニングデータ１０５内に含まれるか
どうかを見る。もし含まれない場合には、分割装置２０
７は、データ部分２０８を不確実度測定装置２０３に転
送する。

【００３７】不確実度測定装置２０３は、分類パラメー
タ２１０に基づいて、注釈のないデータ部分２０８を分
類し、分類のそのデータ部分へのエントロピー値２０９
を計算する。このエントロピーは、データ部分２０８に
対する分類１１１の正確度の不確実性の数値表現であ
る。この不確実性が大きくなると、エントロピー値２０
９も大きくなる。

【００３８】データ部分２０８とエントロピー値２０９
と、おそらくは、分類１１１も、選択装置２０４に出力
される。選択装置２０４は、エントロピー値２０９のベ
ースに基づいて、確実度分類装置１０３の出力となるべ
きデータ部分のサブセットを選択する。実施例において
は、選択装置２０４は、最も高いエントロピー値２０９
を有する１個のデータ部分を確実度分類装置１０３の出
力として選択する。他の方法もある種の状況下では有効
である。例えば、高いエントロピー値２０９を有する数
個のデータ部分２０８を表示して、人間がティーチング
分類装置１０６と対話しながらそれらを一度に決めるこ
ともできる。可能な分類の数が少ない場合には、選択装
置２０４が各分類に対し、最も高いエントロピー値２０
９を有するデータ部分２０８を取り出すことは、分類に
関わらず最も高いエントロピー値２０９を有するデータ
部分２０８を単に取り出すよりも有効である。

【００３９】トレーニングに対するこのデータ部分の質
のエントロピー以外の他の尺度を、データ部分の選択に
用いることも可能である。例えば、分類装置の所望の出
力として、確率予測を用いて、この確率予測の分散の予
測を質の尺度として用いることもできる。ファジィ論理
に基づいた分類装置を用いる場合には、分類装置により
生成される帰属関係の程度を用いることもできる。分類
装置がデータ部分のいくつかのビットのみを検査するこ
とにより、このデータ部分のクラスを決定することがで
きる場合には、質の尺度は、データ部分を分類する前
に、そのデータ部分のビット数を考慮に入れることであ
る。すなわち、考慮しなければならないビット数が増え
ると、データ部分は、さらにトレーニング用に有効とな
る。

【００４０】次に、図３において、不確実度測定装置２
０３の構成を説明する。この不確実度測定装置２０３に
は、分類装置列３０２とエントロピー計算プログラム３
０３とが含有される。このエントロピー計算プログラム
３０３は、注釈を形成するビットのアレイ内の各ビット
に対し、二進の確率分類装置３０５を有する。この確率
分類装置３０５の詳細を次に説明する。確率分類装置３
０５の動作において、各確率分類装置３０５（ｉ）は、
ＵＭＤ生成装置２０６からの分類パラメータ２１０
（ｉ）と、識別されるべきデータ部分２０８とを受領す
る。ｉ番目の確率分類装置３０５（ｉ）は、Ｐ（Ｃ_i＝
１｜Ｗ）の予測値を出力する。この予測は、データ部分
の正確な注釈のｉ番目のビットが１であるものである。
この分類装置列３０２の出力は、一組の値Ｐ（Ｃ_i＝１
｜Ｗ）、ｉ＝１．．．ｎである。

【００４１】Ｐ（Ｃ_i＝１｜Ｗ）の予測値に対しては、
全てのビットが独立しているという仮定のもとでは、所
定のデータ部分２０８（Ｗ）の完全なｎビット注釈Ｃ＝
（Ｃ₁，Ｃ₂，．．．，Ｃ_n）に関する不確実性のひとつ
の尺度は、Ｐ（Ｃ₁｜Ｗ），．．．，Ｐ（Ｃ_n｜Ｗ）によ
り与えられた結合確率分布のエントロピーＨ（Ｗ）であ
る。（このエントロピーは、“Intext Scranton”（１
９７１年）の“Information and Coding Theory”（Ing
els F.著）を参照のこと。）エントロピーＨ（Ｗ）は、
次式で表される。

【数１】ここで、ログは、底が２であり、統計の規則により、Ｈ
（Ｗ）は、より簡単に計算できる次式と等しい。

【数２】

【００４２】データ部分２０８（Ｗ）に対するＨ（Ｗ）
の計算は、エントロピー計算プログラム３０３内で実行
され、その入力は、分類装置列３０２により出力された
Ｐ（Ｃ_i＝１｜Ｗ）の一組の予測値であり、その出力
は、Ｈ（Ｗ）３０９、すなわち、データ部分２０８
（Ｗ）の注釈に関連するエントロピーの予測値である。
この値Ｈ（Ｗ）は、データ部分２０８（Ｗ）の注釈が最
も不確実なときに最大となる。

【００４３】図４は、好ましい実施例における確率分類
装置３０５（ｉ）の詳細を表す図である。ＵＭＤ生成装
置２０６は、各確率分類装置３０５（ｉ）に対し、一組
の分類パラメータ２１０（ｉ）を供給する。ここには、
３個のパラメータ、Ｑ４０４（ｉ），Ａ４０６（ｉ），
Ｂ４０８（ｉ）がある。このＱ４０４（ｉ）は、テキス
ト部分２０８（Ｗ）に対し提示された質問であり、テキ
スト部分２０８（Ｗ）が所定の分類を有する確率を反映
する分類帰属関係スコアＭ（Ｗ）４０７を決定する。こ
の問い合わせは、所定の分類に対し、特徴的なターム
と、分類用のタームの重要性を表す数値重みからなる。
分類帰属関係スコアＭ（Ｗ）４０７は、問い合わせター
ムから決定され、これは、テキスト部分２０８（Ｗ）
と、その重み付けとを表す。Ａ４０６（ｉ）とＢ４０８
（ｉ）は、論理パラメータであり、これは、分類帰属関
係スコアＭ（Ｗ）４０７をエントロピー計算プログラム
３０３に対する表示用の特定のフォームに入力される。
ＵＭＤ生成装置２０６によりパラメータがいかに生成さ
れるかについて次に説明する。

【００４４】確率分類装置３０５（ｉ）は、Ｑ４０４
（ｉ）とデータ部分２０８（Ｗ）をテキスト文取り出し
システム４０３の入力に提供することにより実行され、
その結果、データ部分２０８（Ｗ）に対し、分類帰属関
係スコアＭ（Ｗ）４０７を生成し、その後、この分類帰
属関係スコアＭ（Ｗ）４０７とパラメータＡ４０６
（ｉ）とＢ４０８（ｉ）を、論理関数計算機４０５内で
用いる。論理関数計算機４０５は、次の数式を実行する
プログラムである。

【数３】ここでｅは、自然対数の底である係数で２．７１８２８
である。論理関数計算機４０５の機能は、確率分類装置
３０５（ｉ）により出力されるＰ（Ｃ_i＝１｜Ｗ）３０
７（ｉ）の予測値である。当然のことながら、全ての確
率分類装置３０５は、同一のテキスト文取り出しシステ
ム４０３と論理関数計算機４０５とを使用する。テキス
ト文取り出しシステム４０３は、テキストデータと非テ
キストデータの両方を処理する。例えば、数値データ値
は、標準の技術により、公称変数値に変換され（これに
関しては、“A Statistician's Guide”(Chapman and H
all, London, 1988)の“Problem Solving”（Chatfield
C.著）を参照のこと）、この公称変数値の名前は、テ
キスト取り出しシステムによるワードとして、その後処
理することができる。

【００４５】次に、図５において、確率分類装置３０５
（ｉ）のトレーニングについて説明する。確率分類装置
３０５（ｉ）により生成されたＰ（Ｃ_i＝１｜Ｗ）の精
度は、トレーニングデータからのパラメータのＵＭＤ生
成装置２０６の計算に依存する。この計算が、そのパラ
メータをトレーニングすることにより、確率分類装置３
０５（ｉ）をトレーニングすることになる。

【００４６】質問Ｑ４０４（ｉ）のトレーニングは、テ
キスト文取り出しシステム４０３の関連フィードバック
能力を利用する。この関連フィードバックは、関連する
（特定のテキストのクラスのメンバーとして）マークさ
れたテキストの一部から、および、関連しない（特定の
テキストのクラスのメンバーではない）としてマークさ
れたテキストの一部からのテキスト取り出し質問の自動
的な構成である。この場合、テキストのこれらの部分
は、注釈付きトレーニングデータ１０５から得られる。
関連フィードバックは、関連テキストと非関連テキスト
と共に提供される最初の示唆された問い合わせを考慮に
いれている。関連フィードバックにより形成された出力
問い合わせは、関連、および、非関連の例示部分である
注釈付きデータ部分１０９から、および、関連するテキ
ストを識別する際に、これらのワードの重要性を指示す
る数値重みと共に、最初の質問から取り出されたワード
からなる。これらの重み付けは、様々な方法を用いて計
算されるが、その方法としては、例えば、関連文章内で
発生するワードの確率、および、非関連文章内で発生す
る確率の予測を利用することにより行われる。

【００４７】この関連フィードバックを実行するテキス
ト取り出しシステムの構成が、“The Transformation,
Analysis, and Retriebal of Information by Compute
r”(Addison-Wesley Publishing, 1989)の“Automatic
Text Processing”（Gerard Salton著）、または、“Da
ta Structures and Algorithms”(Prentice-Hall Publi
shcing, 1992)の“Information Retrieval”（Donna Ha
rman著）に開示されている。

【００４８】ＵＭＤ生成装置２０６の詳細を図５に示
す。準備装置Ａ５０１は、注釈つきデータ部分１０５
（ｎ）を入力として取り入れ、マークのついたデータ部
分５０２（ｎ）を出力として生成する。準備装置Ａ５０
１は、注釈付きトレーニングデータ１０５（ｎ）から注
釈を取り除くが、そのことを実行する前に、各データ部
分の注釈のビットＣ_iを検査する。ビットＣ_iが１に等し
い場合には、データ部分は、テキスト取り出しシステム
に対し、適当な方法で関連するものとしてマークされ
る。ビットＣ_iが０の場合には、これも適当な方法で非
関連としてその部分はマークされる。

【００４９】準備装置Ａ５０１により生成されたマーク
付きデータ部分５０２（ｎ）は、テキスト文取り出しシ
ステム４０３の関連フィードバック要素５０７に、ラベ
ル付きデータ部分５０６を動作させる適当なコマンドと
共に入力される。関連フィードバック要素５０７は、マ
ーク付きデータ部分５０２（ｎ）に応答して、Ｑ４０４
（ｎ）を出力する。

【００５０】その後、準備装置Ｂ５０３は、注釈付きト
レーニングデータ１０５（ｎ）を入力として取り入れ、
注釈付きトレーニングデータ１０５（ｎ）から注釈を取
り除き、この注釈無しデータ部分５０４（ｎ）をテキス
ト文取り出しシステム４０３の取り出し要素５０９に出
力する。問い合わせＱ４０４（ｎ）は、テキスト文取り
出しシステム４０３を取り出しモードで動作させるため
の適当なコマンドと共に、取り出し要素５０９に入力さ
れる。テキスト文取り出しシステム４０３は、質問Ｑ４
０４（ｎ）と、注釈無しデータ部分５０４（ｎ）を用い
て、分類帰属関係スコアＭ５１０（ｎ）の一組を計算す
る。この分類帰属関係スコアＭ５１０（ｎ）は、注釈付
きトレーニングデータ１０５内の各データ部分Ｗに対す
る一つの分類帰属関係スコアＭ（Ｗ，ｎ）を含む。

【００５１】関連フィードバックは、Ｑ４０４（ｎ）を
生成するために用いられているため、データ部分Ｗの各
分類帰属関係スコアＭ（Ｗ，ｎ）は、Ｐ（Ｃ_i＝１｜
Ｗ）と統計的に相関関係がある。各分類帰属関係スコア
Ｍ（Ｗ，ｎ）をＰ（Ｃ_i＝１｜Ｗ）の実際の予測値に変
換することは、論理パラメータＡ４０６（ｎ）とＢ４０
８（ｎ）により、この実施例では行われる。

【００５２】論理パラメータＡ４０６（ｎ）、Ｂ４０８
（ｎ）は、次のようにして、論理回帰推定計算機５１１
を用いて生成される。準備装置５０５Ｃは、注釈付きト
レーニングデータ１０５（ｎ）を受領し、ラベル付きデ
ータ部分５０６（ｎ）を生成する。準備装置５０５Ｃ
は、注釈付きトレーニングデータ１０５（ｎ）から注釈
を取り除くが、それを実行する前に、準備装置５０５Ｃ
は、各注釈のビットＣ_iを検査する。注釈のビットＣ_iが
１に等しい場合には、そのデータ部分は、論理回帰ソフ
トウェアに対し適当な方法により応答値１のラベルが付
される。ビットＣ_iが０に等しい場合には、このデータ
部分は、テキスト取り出しシステムに対し適当な方法で
応答値０のラベルが付される。

【００５３】準備装置５０５Ｃにより出力されたラベル
付きデータ部分５０６（ｎ）は、論理回帰推定計算機５
１１に分類帰属関係スコアＭ（ｎ）５１０と共に入力さ
れる。論理回帰推定計算機５１１の出力は、ラベル付き
データ部分５０６（ｎ）と、分類帰属関係ラベルＭ５１
０（ｎ）から得られた一対のパラメータＡ４０６（ｎ）
とＢ４０８（ｎ）である。この論理回帰ソフトウェア
は、パラメータＡ４０６（ｎ）とＢ４０８（ｎ）を選択
し、その結果、これらのパラメータによる論理機能は、
各データ部分Ｗに対し、分類帰属関係スコアＭ（Ｗ）が
入力される場合には、正確な応答値（０、または、１）
に近い値を出力する。このような出力は、Ｐ（Ｃ_i＝１
｜Ｗ）の確率の良好な予測として機能する。この実施例
における論理回帰計算は、二進モデルの両方を用いるこ
とができる。

【００５４】この論理回帰ソフトウェアを実行する技術
は公知であり、これに関して詳細は、“Categorical Da
ta Analysis”(John Wiley, Ner York, 1990)（Agresti
A.著）、および、“Generalized Linear Models”(Cha
mpion & Hall, London, 2ndedition, 1989)（McCullagh
P., Nelder J.共著）を参照のこと。論理回帰は、ま
た、ＳＰＳＳ社（Chicago, IL）のＳＰＳＳとして市販
されている統計パッケージでも実行できる。

【００５５】次に、図６において、トレーニングデータ
を生成するインタプリタ形成装置について説明する。こ
のインタプリタ形成装置においては、注釈付きトレーニ
ングデータ１０５を用いて、確実度分類装置１０３のシ
ーケンスをトレーニングする。所望の正確度が達成され
ると、最後の確実度分類装置１０３は、正確なデータの
もとで動作し、どのようなアプリケーションが情報を得
ようとも、例示データ部分１０７と分類１１１が、確実
度分類装置１０３により出力される。この場合、例示デ
ータ部分１０７とティーチング分類装置１０６により注
釈のつけられた分類１１１を生成する確実度分類装置１
０３（ｉ）と、実際の分類動作を実行するのに用いられ
る確実度分類装置１０３（ｊ）は、同一タイプであり、
確実度分類装置１０３は、同一種類の不確実性サンプル
でもってトレーニングされる。しかし、例示データ部分
１０７と分類１１１をティーチング分類装置１０６に提
供する確実度分類装置１０３は、注釈付きトレーニング
データ１０５によりトレーニングされる確実度分類装置
１０３と同一タイプである必要はない。それらが同一タ
イプでない場合には、そのトレーニングは、非類似の不
確実サンプリングにより行われる、ということができ
る。

【００５６】同一種類の不確実サンプリングは、１種類
の不確実サンプリングよりも、より有効なデータ解釈が
できる。しかし、異種類の不確実サンプリングを用いて
トレーニングすることは、時に必要なこともある。例え
ば、最後のインタプリタとアプリケーションに必要なト
レーニング方法が、確実度分類装置１０３を用いるため
にはあまりにも非効率的な場合、あるいは、最終のイン
タプリタが不確実性が予測し得るような形態で出力を生
成しない場合である。

【００５７】図６は、既にトレーニングされた確実度分
類装置１０３とティーチング分類装置１０６をどのよう
に用いて、分類装置Ａ６０５をトレーニングするため
に、トレーナ６０３により用いられる注釈付きデータ部
分１０９を提供する方法が示されている。例示データ１
０２は、トレーナ６０３に入力され、このトレーナ６０
３は、その分類の確実度が低い場合に、例示データ部分
１０７と分類１１１を出力する。その後、分類付けする
ティーチング分類装置１０６が例示部分に注釈をつけ
て、確実度分類装置１０３により提供された分類１１１
が正確か否かを表し、この注釈付きデータ部分１０９を
トレーナ６０３に送る。そして、このトレーナ６０３
は、これらを用いて分類装置Ａ６０５をトレーニングす
る。分類装置Ａ６０５は、確実度分類装置１０３と異な
るタイプのものでもよい。

【００５８】

【発明の効果】分類付けするティーチング分類装置１０
６に、人間が参加するような場合においては、本発明の
装置は、早急で、かつ、簡単な注釈をつけられるよう
に、訓練実施者に対し、例示的データ部分を表示するよ
うなインターフェースを用いて行われる。

【図面の簡単な説明】

【図１】本発明によりインタプリタを訂正する装置のブ
ロック図。

【図２】確実度に応じて、解釈を選択する装置のブロッ
ク図。

【図３】不確実度を測定する装置を表すブロック図。

【図４】不確実度を測定するのに用いられる確率的分類
装置の詳細図。

【図５】確率的分類装置をトレーニングする装置を表す
図。

【図６】本発明によりインタプリタを構成する第２の装
置を表すブロック図。

【符号の説明】

１０１インタプリタを形成する装置１０２例示データ１０３確実度分類装置１０５注釈付きトレーニングデータ１０６ティーチング分類装置１０７例示データ部分１０９注釈付きデータ部分１１１分類１１３ディスプレイ１１５キーボード１１７マウス２０３不確実度測定装置２０４選択装置２０６ＵＭＤ生成装置２０７分割装置２０８データ部分２０９エントロピー値２１０分類パラメータ３０２分類装置列３０３エントロピー計算プログラム３０５確率分類装置４０３テキスト文取り出しシステム４０４、４０６、４０８論理パラメータ４０５論理関数計算機４０７分類帰属関係スコア５０１準備装置Ａ５０２マーク付きデータ部分５０３準備装置Ｂ５０４注釈無しデータ部分５０５準備装置Ｃ５０６ラベル付きデータ部分５０７関連フィードバック要素５０９取り出し要素５１０分類帰属関係スコア５１１論理回帰推定計算機６０３トレーナ６０５分類装置

フロントページの続き (72)発明者ウィリアムアーサーゲイルアメリカ合衆国、07040 ニュージャージー、メイプルウッド、エセックスアヴェニュー 17 (72)発明者ディヴィットドランルイスアメリカ合衆国、07901 ニュージャージー、サミット、10ジーアパートメント、スプリングフィールドアヴェニュー 851

Claims

【特許請求の範囲】

【請求項１】（Ａ）例示データを解析し、各例示デー
タに対する解析の確実度を指示する現行の第１インタプ
リタと、（Ｂ）前記第１インタプリタが低い確実度でもって解析
した例示データを受領し、注釈をつける第２インタプリ
タと、（Ｃ）前記注釈付きの確実度の低い例示データを受領
し、より高い確実度でもって例示データを解析すること
のできる次の第１インタプリタを生成することにより、
それに応答するインタプリタ形成装置とからなることを
特徴とするデータを解析するためのインタプリタを構成
する装置。
【請求項２】一組の例示データからのデータを解析す
る第３インタプリタをトレーニングするトレーニング情
報を生成する装置において、（Ａ）各例示データを分類し、解釈の確実度を指示する
第１インタプリタと、（Ｂ）第２インタプリタが低い確実度でもって解釈する
ような例示データを受領し、この受領した例示データに
注釈をつけ、この注釈のついた受領例示データをトレー
ニング情報として提供する第２インタプリタとからなる
ことを特徴とするトレーニング情報生成装置。
【請求項３】（Ａ）例示データを第１原則に基づいて
解析し、各例示データに対する解析の確実度を指示する
第１インタプリタと、（Ｂ）前記第１インタプリタが低い確実度でもって解析
する例示データを受領し、注釈をつける第２インタプリ
タと、（Ｃ）前記注釈付きの例示データを受領し、前記第１の
原則とは異なる第２原則に基づいて、データを解析する
第３インタプリタを生成することにより、それに応答す
るインタプリタ形成装置とからなることを特徴とするデ
ータを解析するためのインタプリタを構成する装置。
【請求項４】前記第１インタプリタは、１個のインタ
プリタであることを特徴とする請求項１、２、３何れか
の装置。
【請求項５】前記インタプリタは、前記データを類別
に分類する分類装置であることを特徴とする請求項１、
２、３何れかの装置。
【請求項６】前記データは、テキスト文であることを
特徴とする請求項１、２、３何れかの装置。
【請求項７】前記第２インタプリタは、前記例示デー
タを訓練実施者に提供し、前記訓練実施者の判断から注
釈を受領する双方向手段であることを特徴とする請求項
１、２、３何れかの装置。
【請求項８】前記インタプリタ形成装置は、次の第１
インタプリタを生成するために、関連フィードバックを
用いる手段を有することを特徴とする請求項１の装置。
【請求項９】前記インタプリタは、データを類別に分
類し、前記（Ｃ）のインタプリタ形成装置は、（Ｃ１）各注釈付きの確実度の低い例示データに対し、
類別帰属関係（class membership）スコアを生成する手
段と、（Ｃ２）前記注釈付きの確実度の低い例示データが類別
に属する確率を表す分類帰属関係スコアを修正する各注
釈付き確実度の低い例示データに対し、パラメータを生
成するために、論理回帰を用いる手段とを有すること
を特徴とする請求項１の装置。