JPH1173417A

JPH1173417A - テキストジャンル識別方法

Info

Publication number: JPH1173417A
Application number: JP10187640A
Authority: JP
Inventors: Geoffrey D Nunberg; ディー．ナンバーグジョフリー; Heinrich Schuetze; シェッツェハインリッチ; Jan O Pedersen; オー．ペダーセンジャン; Brett L Kessler; エル．ケッセラーブレット
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-07-02
Filing date: 1998-07-02
Publication date: 1999-03-16
Also published as: US6505150B2; EP0889417A3; US20020002450A1; EP0889417A2

Abstract

(57)【要約】【課題】テキストの構造分析なしに、マシン可読形式
のタグ付けなしのテキストのテキストジャンルをプロセ
ッサを用いて識別する方法を提供する。【解決手段】テキストを分析してキューベクトルを生
成し（ステップ102)、２値ファセットを選択する（ステ
ップ104)。キューベクトル及びファセット重み付けベク
トルを用いてファセットのテキストとの関連性を決定す
る（ステップ106)。キューベクトル及び適切なキュー重
み付けベクトルを用いてファセットのテキストとの関連
性を決定する（ステップ114)。選択されたファセットの
最も関連した値を識別する（ステップ118)。全てのファ
セットの関連性を決定（ステップ120)した後、識別され
たファセットに基づいてテキストのタイプを決定する
（ステップ122)。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は計算言語学に関す
る。より詳細には、本発明は、タグ付けされていないテ
キスト内にみられる表面レベルのキューに基づいてマシ
ン可読テキストのテキストジャンルを自動的に決定する
方法に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】「ジャ
ンル」という言葉は通常、「テキストの種類」の代わり
に用いる文学的な言葉として機能する。テキストジャン
ルは、テキストトピック（題目）及び文書ジャンルの関
連概念とは異なる。テキストジャンル及びテキストトピ
ックは、互いから完全に独立してはいない。新聞に記載
の話、小説及び科学的な記事などの顕著なテキストジャ
ンルは主に、異なる範囲のトピックを扱っている。しか
し、これらのテキストジャンルの各々におけるトピック
の共通性は非常に広く抽象的である。更に、単一のトピ
ックに関連する大量のテキストの集まりはどれも１つよ
り多くのテキストジャンルの作品を殆ど常に含み、よっ
てこれらの間の形式的な類似点は語彙アイテムの存在に
限られる。概念としてのテキストジャンルは文書ジャン
ルとは無関係であるが、これら２つのジャンルのタイプ
は濃密な機能的相互依存と歴史的に密接に関連して発達
している。例えば、単一のテキストジャンルはいくつか
の文書ジャンルと関連しうる。ショートストーリーを雑
誌又は選集に掲載したり、又は小説を複数部分に分けて
連続出版したり、小説をハードカバー、そして後にペー
パーバックとして再出版したりすることができる。同様
に、新聞のような文書ジャンルは、特集記事、コラム、
失恋した人へのアドバイス及びクロスワードパズルな
ど、いくつかのテキストジャンルを含むことができる。
これらのテキストジャンルは、「昨日」及び「ローカ
ル」のような文脈に依存する単語の使用を許容する新聞
に現れなければ、現在のように読まれていない可能性が
ある。これらが密接して関連しているために、文書ジャ
ンルの物質的な特徴がテキストジャンルを示すことが多
い。例えば、新聞はあるフォントを「ハードニュース
（政治・経済・国際関係などに関するニュース）」の見
出しに使用して別のフォントを分析の見出しに使用した
り、定期刊行物は用紙（paper stock)によってそのトピ
ック内容を示したり、ビジネスレター及び私信をページ
のレイアウトに基づいて区別したりすることができる。
異種のデジタルテキストの集まりから関連テキストを検
索するのが難しいことが多いのは、デジタル化によって
テキスト及び文書ジャンルに関連するこれらの物理的な
手掛かりが取り除かれてしまうためである。

【０００３】公と私、ジェネラリストとスペシャリス
ト、仕事と休養などのテキストジャンル間の境界は、社
会生活が別個の役割及び行動に分かれていることを反映
する。ジャンルは、文書を解釈可能にする情況を提供す
るため、ジャンルは内容に劣らずユーザの関連概念を形
成する。例えば、スーパーコライダー（超衝突装置：su
percollider)又はナポレオンに関する情報を求めている
研究者は、内容と同じくらいテキストジャンルに注意す
る。研究者は、出所の内容だけでなく、その出所が学術
雑誌に記載されているか又は一般雑誌に記載されている
かということも知りたいと思うであろう。

【０００４】最近まで、情報検索及びテキスト分類の研
究は、テキストジャンルではなくトピックの識別に殆ど
独占的に焦点を当ててきた。テキストジャンルの識別が
殆ど研究されなかった理由は２つある。第１に、従来の
プリントベース文書の世界ではジャンル分類の必要性が
みられなかった。何故なら、この世界では、ジャンルは
本質的に、又は画一的な文脈上の特徴によって明確に示
されているからである。低温融合に関する記事を探しに
図書館を訪ねた科学者は、どうやって定期刊行雑誌の記
事に研究を制限するかを心配しなくてもよい。何故な
ら、定期刊行雑誌は一般的な科学雑誌と区別できるよう
に目録が作られ、書架に置かれているからである。第２
に、オンラインのテキストデータベースを用いた迅速な
情報検索作業は、百科事典又は新聞のデータベースのよ
うに、テキストジャンルが外的に統制される小さく比較
的同種のデータベースに焦点を当てていた。テキストジ
ャンル間の境界が示されていないことが多い大きな異種
のテキストデータベースによって、テキストのジャンル
分類の重要性が強調される。トピックベースの検索ツー
ルのみでは、大きな異種データベースを検索する際に読
者の興味の対象物の範囲を適切に選択することができな
い。

【０００５】ジャンル分類のアプリケーション（用途）
は、情報検索の分野に限られていない。いくつかの言語
学技術も、このアプリケーションから利益を得ることが
できる。単語の意味の分布はジャンルによって大幅に異
なることが既知であるため、自動的な文（センテンス）
の部分のタガー（タグを付けるもの）及び意味のタガー
は共にジャンル分類から利益を得ることができる。

【０００６】書籍の分類の論述はアリストテレスまでさ
かのぼる。ジャンルに関する文献は分類スキーム及びシ
ステムが豊富であり、そのうちのいくつかを単純な属性
システムとして分析することができる。これらの論述は
あいまいで、牧歌又は小説のような文学的形式や、これ
よりも程度が小さいが新聞の犯罪レポート又はラブレタ
ーのようなパラ文学的な（paraliterary) 形式に専ら焦
点を当てる傾向にある。分類の論述は、年次報告、Ｅメ
ール通信及び科学的なアブストラクトなど、文学的では
ないテキストのタイプを無視する傾向にある。更に、こ
れらの論述のうちで、ジャンルを区別するアブストラク
トディメンション（摘要の範囲）をテキストのあらゆる
形式的特徴に関連づける努力をしているものは１つもな
い。

【０００７】テキストのジャンル分類の量化方法に具体
的に関連する唯一の言語学研究は、バイバー（Douglas
Biber)の研究である。彼の研究は、以下を含む："Spoke
n and Written Textual Dimensions in English: Resol
ving the Contradictory Findings"（Language、62(2):
384-413, 1986)；"Variation Across Speech and Writi
ng" (Cambridge University Press 、1988); "The Mult
idimensional Approach to Linguistic Analyses of Ge
nre Variation: An Overview of Methodologyand Findi
ng" (Computers in the Humanities 、 26(5-6):331-34
7、1992); "Using Register-Diversified Corpora for
General Language Studies"（Using Large Corpora 、
第179-202 頁（Susan Armstrong 編集)(1994))；及びフ
ィネガン（Edward Finegan）と共著の "Drift and the
Evolution of English Style: AHistory of Three Genr
es"（Language、65(1):93-124、1989）。バイバーの研
究は記述的であり、各々が利用する傾向にある言語学的
特徴のタイプに従ってテキストジャンルを機能的に区別
することを目的としている。バイバーは、「学究散文」
及び「一般的なフィクション」など、手作業によって多
数の別個のジャンルに分けられたコーパスから始めてい
る。次に、通常は３つか５つである、テキストのいくつ
かの「ディメンション」又は要素に沿ってこれらのジャ
ンルをランク付けする。バイバーは、殆どが統語的又は
語彙的なものである言語学的特徴のセットにこの要素分
析を適用することによって要素を個性化している。これ
らの要素には、例えば過去時制の動詞、過去分詞節及び
"ｗｈ−”から始まる質問などが含まれる。次にバイバ
ーは、言語学者が各要素の個々の構成部分に割り当てて
用いてきた談話機能（例えば、「情報を与えるｖｓ関係
のある」ディメンション、「説話的ｖｓ非説話的」ディ
メンションなどとして）を抜粋することにより、一般的
な意味又は機能を要素に割り当てている。ジャンルに従
って個々のテキストを分類する際に、これらの要素はそ
の有用性に従って個性化されるのではないことに注意す
る。所与の要素又は要素のセットに対してあらゆるテキ
ストが受け取るスコアは、そのジャンルほど多くの情報
を与えるものではない場合がある。何故なら、あらゆる
個々の要素に関連するジャンル間に大幅な重複があるか
らである。

【０００８】カールグレン（Jussi Karlgren) 及びカッ
ティング（Douglass Cutting) は、"Recognizing Text
Genres with Simple Metric Using Discriminant Analy
sis"（Proceedings of Coling '94 、第II巻、第1071-1
075 頁、1994年８月）において、バイバーの結果の一部
をジャンルの自動分類に適用するための努力を述べてい
る。彼らもまた、手作業で分類したテキストのコーパ
ス、即ちブラウンコーパスから始めている。ブラウンコ
ーパスをまとめた人々はこの分類を総称的なものと述べ
ているが、教養のある読者が認識するテキストとジャン
ルとの間の適合はおおよそにすぎない。カールグレン及
びカッティングは、語彙特徴又は分布特徴のいずれかを
用いる。語彙特徴は第１人称代名詞の総数及び現在時制
の動詞の総数を含み、分布特徴は長い単語の総数及び単
語当たりの平均文字数を含む。彼らは、句読レベル又は
文字レベルの特徴を使用しない。この２人の著者は、判
別分析を用いてテキストを様々な数のカテゴリーに分類
する。カールグレン及びカッティングが手作業で割り当
てたカテゴリーの数に等しい数の機能を用いたとき、自
動的に得たカテゴリーと手作業で分類したカテゴリーと
の間の適合は５１．６％であった。機能の数を減少さ
せ、コーパスのカテゴリーを再構成することによって、
彼らは実施を改良した。カールグレン及びカッティング
は、このような方法が情報検索の目的に有用であるか定
かではないと考えており、以下のように述べている：
「自動的に得たカテゴリーを使用する際の問題は、たと
えこれらのカテゴリーがデータによって支持されている
という意味で実質的なものであっても、この技術を検索
ツールにおいて使用することが目的である場合、これら
のカテゴリーは熱心でない素人に対して説明することが
難しくなりうる、ということである。」更に、ブラウン
コーパスの特有の「ジャンル」が、ユーザが情報検索の
タスクに関連して見出すカテゴリーとどの程度一致する
かが明らかではない。

【０００９】ナンバーグ（Geoffrey Nunberg) 及びヴィ
オリ（Patrizia Violi) は、"Text,Form and Genre" (P
roceedings of OED '92 、第118-122 頁、1992年10月）
において、ジャンルの認識が、情報検索のタスク及び自
然言語処理のタスクに重要であることを示唆している。
これらの著者は、テキストのジャンルをクラスではなく
属性として処理することができると提案している。しか
し、彼らは識別を達成できる態様に関する具体的な提案
を提供していない。

【００１０】

【課題を解決するための手段】マシン可読でタグ付けさ
れていないテキストのジャンルを自動的に識別する本発
明の方法は、様々な利点を提供する。簡潔に説明する
と、プロセッサによって実施される本方法は、テキスト
からキューベクトルを生成することによって始まる。キ
ューベクトルは、容易に計算可能である非構造的な表面
キューの第１セットがテキストにおいて発生する回数を
表す。その後、プロセッサは、キューベクトルと、第１
のテキストジャンルに関連する重み付けベクトルとを用
いて、テキストが第１のテキストジャンルのインスタン
スであるか否かを決定する。

【００１１】

【発明の実施の形態】図１は、命令１００を実行するこ
とによって本発明の方法が行われるコンピュータシステ
ム１００をブロック図で示している。本発明の方法はコ
ンピュータシステム１０の動作を変え、マシン可読形式
でシステムに提供されるタグ付けされていないテキスト
のテキストジャンルを自動的に決定することができるよ
うにする。命令１００によって、テキストの構造分析、
単語のステミング（語幹化：word stemming)又は品詞の
タグ付けを行わずにテキストジャンルの分類を行うこと
ができる。命令１００は、構造ベースの特徴よりもより
迅速に計算することができる新しい表面レベルのキュー
又は特徴に依存する。簡潔に述べると、命令１００に従
って、コンピュータシステム１０はテキストを分析し、
このテキスト内の各表面キューの発生回数を決定してキ
ューベクトルを生成する。次にコンピュータシステム１
０は、テキストが特定のテキストジャンル及び／又はフ
ァセットのインスタンスであるか否かを、キューベクト
ルと、特定のテキストジャンル及び／又はファセットに
関連する重み付けベクトルとを用いて決定する。命令１
００は、図３に関連して詳しく説明される。コンピュー
タシステム１０は、学習（トレーニング）命令５０を用
いて各テキストジャンル及び／又はファセットに適切な
重み付けベクトルを決定する。これは、図２に関連して
詳しく説明される。

【００１２】Ａ．テキストジャンルを自動的に決定する
コンピュータシステム命令５０及び１００をより詳しく説明する前に、これら
の命令を実行するコンピュータシステム１０について説
明する。図１に示されるように、コンピュータシステム
１０は情報をコンピュータユーザに視覚的に表示するモ
ニタ１２を含む。また、コンピュータシステム１０はプ
リンタ１３を介してコンピュータユーザに情報を出力す
る。コンピュータシステム１０は、データを入力する複
数の経路をコンピュータユーザに提供する。キーボード
１４を打つことによって、コンピュータユーザはコンピ
ュータシステム１０に入力データを入力することができ
る。マウス１６を動かすことによって、コンピュータユ
ーザはモニタ１２に表示されたポインタを動かすことが
できる。また、コンピュータユーザは、スタイラス２０
又はペンで電子タブレット１８に書き込むことによって
コンピュータシステム１０に情報を入力することもでき
る。あるいは、フロッピーディスクなどの磁気媒体をフ
ロッピーディスクドライブ２２に挿入することにより、
コンピュータユーザは磁気媒体に記憶されたデータを入
力することができる。スキャナー２４によって、コンピ
ュータユーザはハードコピー文書のマシン可読バージョ
ン、例えばＡＳＣＩＩを生成することができる。

【００１３】プロセッサ１１は、コンピュータシステム
１０の動作の制御及び統制を行い、コンピュータユーザ
のコマンドを実行する。プロセッサ１１は、メモリ２８
又はディスクドライブ内のフロッピーディスクに電子的
に記憶された命令５０及び１００などの命令を実行する
ことにより、各ユーザのコマンドに応答する適切な動作
を判断し、これを行う。通常、プロセッサ１１のための
動作命令は固体メモリに記憶され、これによって命令に
頻繁かつ迅速にアクセスすることができる。メモリの具
現に使用することができる半導体論理デバイスには、読
出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ
（ＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、プログ
ラマブルＲＯＭ（ＰＲＯＭ）、消去可能型ＰＲＯＭ（Ｅ
ＰＲＯＭ）及びフラッシュメモリなどの電気的書き込み
可能型ＲＯＭ（ＥＥＰＲＯＭ）が含まれる。

【００１４】Ｂ．テキストのジャンル、ファセット及び
キューコンピュータシステム１０は命令５０及び１００に従っ
て、構造分析、ステミング、解析又は意味もしくは品詞
のタグ付けをまだ行っていないトークン化されたマシン
可読テキストのテキストジャンルを決定する。本明細書
中に使用されるように、「テキストジャンル」とは、テ
キストが示す直接のトピックによって直接に生じたもの
ではないいくつかの形式キュー又は共通属性に機能が関
係していることを条件として、いくつかの共通の通信目
的特徴又は他の機能的特徴（trait)によって定義される
テキストの広く認識された任意のクラス（種類）をい
う。テキストのクラスが広く認識されていることによ
り、一般の人々は解釈原理の特徴的なセットを用いてク
ラスのテキストを解釈することができる。本明細書中に
使用されるように、テキストジャンルは文（センテン
ス）のジャンルのみに適用する。即ち、テキストジャン
ルは、句読及びパラグラフなどのテキストカテゴリーイ
ンジケータの十分なレパートリーを利用するストリング
のような文（単数及び複数）を主に介して伝わるジャン
ルのみに適用する。従って、本発明では、航空路のスケ
ジュール、株式の表及びコマ漫画はテキストジャンルと
して認識されない。また、本発明は会話のジャンルもテ
キストジャンルとして認識しない。テキストジャンルに
よって定義されるクラスは拡張可能であることが好まし
い。従って、本発明では、ジェーン・オースティン（Ja
ne Austen)によって書かれた小説のクラスは拡張可能で
はないため、好適なテキストジャンルではない。

【００１５】命令５０及び１００の方法は、テキストジ
ャンルをファセットの集まりとみなす。各ファセット
は、キュー又は特徴と呼ばれる計算可能な言語学特性の
特徴的なセットと関連しており、これらはテキストの形
式の表面レベル特徴から観察することができる。これら
のキューを使用して、各ファセットは一定の実用的な対
象物に応えるテキストのクラスを区別する。１つのファ
セットが複数のジャンルに関連する場合があるため、フ
ァセットはテキストジャンルを間接的に識別する傾向に
ある。どのテキストジャンルもファセットの特定のクラ
スタとして定義することができるため、本発明の方法
は、他のアプローチと同じ正確さであるが以前にはなか
った新規のテキストジャンルを容易に追加することがで
きるという利点を有してテキストジャンル及びスーパー
ジャンルを識別することができる。

【００１６】ファセットの概念を更に定義しようとする
代わりに、例示的な具体例をいくつか説明する。読者
（audience) ファセットは、広範囲のテキストと、より
限られた読者にむけられたテキストとを区別する。長さ
ファセットは、短いテキストと長いテキストの区別をす
る。組織又は匿名及び個人によって書かれたテキストの
区別は、著者ファセットによって表される。下記のリス
トは、これらの値が明確でないときの他のファセット及
びその値である。ファセットは２値でなくてもよいこと
に注意する。ファセット名可能な値１．日付あり／なし２．説話的Ｙｅｓ／Ｎｏ３．説得的（議論的）／記述的（教育的）４．フィクション／ノンフィクション５．法的Ｙｅｓ／Ｎｏ６．科学及び技術的Ｙｅｓ／Ｎｏ７．知的水準平俗Ｙｅｓ／Ｎｏ (Brow) 中Ｙｅｓ／Ｎｏ高Ｙｅｓ／Ｎｏ

【００１７】他のファセットを定義して、本発明と矛盾
せず上記リストのファセットに追加することができる。
テキストジャンルを定義するのに全てのファセットを用
いる必要はなく、テキストジャンルを単一のファセット
で定義することができる。下記のリストは、前述のファ
セット及び値を用いて定義することができる、従来認識
されているテキストジャンルのいくつかの例にすぎな
い。１．新聞の報道ａ．読者広範囲ｂ．日付ありｃ．説得的記述的ｄ．説話的Ｙｅｓｅ．フィクションＮｏｆ．知的水準平俗ｇ．著者記名なしｈ．法的Ｎｏ２．論説の意見ａ．読者広範囲ｂ．日付ありｃ．説得的Ｙｅｓｄ．説話的Ｙｅｓｅ．フィクションＮｏｆ．知的水準平俗ｇ．著者記名ありｈ．科学及び技術的Ｎｏｉ．法的Ｎｏ３．市場分析ａ．読者広範囲ｂ．日付ありｃ．説得的記述的ｄ．説話的Ｎｏｅ．フィクションＮｏｆ．知的水準高ｇ．著者組織ｈ．科学及び技術的Ｙｅｓｉ．法的Ｎｏ４．Ｅメールａ．読者受取人ｂ．日付ありｃ．フィクションＮｏｄ．知的水準平俗ｅ．著者記名あり

【００１８】テキストジャンルがファセットのグループ
に分解するように、ファセットも本方法に従った表面レ
ベルのキューに分解する。本発明の表面レベルキュー
は、単語のステミング、解析、又は意味もしくは品詞の
タグ付けなどの構造分析を全く行わずにトークン化され
たＡＳＣＩＩテキストを用いて計算することができるた
め、本発明の表面レベルキューは従来の特徴とは異な
る。本発明に関連するのは、大抵はテキスト内のこれら
の表面レベルキューの発生回数（頻度）である。表面レ
ベル又は形式キューのいくつかのタイプを下記に定義で
きるが、これらに限定されない：数／統計、句読、構
造、式文、語彙及び逸脱。方式タイプのキューは、従来
特定のテキストジャンルに関連するコロケーション又は
定着した表現である。例えば、おとぎ話は "Once upon
a time（むかしむかし）" で始まり、聖母マリアの讃歌
は「ヘイルメアリー（Hail Mary ：聖母マリアに捧げる
祈り）」で始まる。他の式文は、法律文書、認可承諾書
などを示す。語彙タイプのキューは、テキストジャンル
を示すことができる一定の語彙アイテムの回数に関連す
る。例えば、Mr. 、Mrs.及び Ms.などの習慣的な敬称用
語がニューヨークタイムズの記事に使用されており、
「昨日」及び「ローカル」などの単語が新聞の報道に頻
繁に使用されている。更に、"it's pretty much a sna
p" などのフレーズを使用する場合、テキストが例えば
百科事典の記事の一部ではないことを示している。いく
つかの語彙アイテムの使用は、いくつかのテキストジャ
ンルのトピック及び修辞学的な共通属性によって保証さ
れる。構造的な特徴は従来技術において既知であるが、
その殆どの計算にはタグ付けされたか又は十分に解析さ
れたテキストが必要である。ストリング認識が可能であ
るこれら２つの新しい表面レベル構造キューは、本発明
によって定義される。句読タイプのキューは、テキスト
内の句読的特徴の総数である。このタイプのキューは以
前に使用されていないが、これらは有意であり、非常に
多いため、テキストジャンルの有用なインジケータとし
て機能することができる。例えば、クエスチョンマーク
の総数が多ければ、テキストは読者を説得しようとして
いることを示す可能性が高い。特定のテキスト内の表面
レベル特徴の回数を測定する殆どの他のキュータイプと
は対照的に、逸脱タイプのキューは単位サイズ内の逸脱
に関連する。例えば、逸脱キューを使用して、テキスト
ジャンルによって変化しうる特徴である文及びパラグラ
フの長さの変化を追跡することができる。キューのタイ
プは、テキストの特徴を示すために測定することができ
る表面レベルの特徴の種類を示唆するために説明したに
すぎず、キューのタイプの特徴付けは本発明にとって重
要ではない。定義することができるキューの数は、理論
的に無制限である。使用可能なキューのほんのいくつか
を例示的な目的で下記に列挙する。Ａ．句読のキュー１．ログ（コンマの総数（カウント）＋１）２．平均値（コンマ／文）／記事３．平均値（ダッシュ／文）／記事４．ログ（クエスチョンマークの総数＋１）５．平均値（クエスチョンマーク／文）／記事６．ログ（ダッシュの総数＋１）７．ログ（セミコロンの総数＋１）Ｂ．ストリング認識が可能な構造のキュー１．"and" 、"but" 及び "so" で始まる文／記事２．副詞＋コンマで始まる文／記事Ｃ．式文のキュー１．"Once upon a time..." Ｄ．語彙のキュー（他の指示がない限りトークンの総数
のみを示す）１．"Mr.、Mrs." などの略称２．頭文字語３．法助動詞４．動詞 "be" の形式５．暦−曜日、月６、７．大文字−大文字で始まる文ではない初めの単語
のタイプ及びトークン数８．文字数９、１０．短縮タイプ及びトークン数１１、１２．"ed"で終わる単語のタイプ及びトークン数１３．数式１４．動詞 "have" の形式１５、１６．ハイフン付きの単語のタイプ及びトークン
数１７、１８．多音節語のタイプ及びトークン数１９．単語 "it" ２０、２１．ラテン語の接頭辞及び接尾辞のタイプ及び
トークン数２２、２３．６文字よりも多い単語のタイプ及びトーク
ン数２４、２５．１０文字よりも多い単語のタイプ及びトー
クン数２６、２７．３つより多い単語句（Three + word phras
es) のタイプ及びトークン数２８、２９．"ly"で終わる多節語のタイプ及びトークン
数３０．明白な否定語３１、３２．少なくとも１つの数字を含む単語のタイプ
及びトークン数３３．左かっこ３４、３５．前置詞のタイプ及びトークン数３６．第１人称単数の代名詞３７．第１人称複数の代名詞３８．引用符の対３９．ローマ数字４０．"that"のインスタンス４１．"which" のインスタンス４２．第２人称複数の代名詞Ｆ．逸脱のキュー１．文の標準の長さからの逸脱（単語数）２．単語の標準の長さからの逸脱（文字数）３．句読点間のテキストセグメントの標準の長さからの
逸脱（単語数）４．平均値（文字／単語）／記事

【００１９】約４００のテキストのコーパスを用いた事
前試行の結果として、下記の表１はいくつかの表面レベ
ルのキューがファセット／テキストジャンルによって変
化しうる態様を示している。（この試行は、上記のよう
にテキストジャンルを分解せず、いくつかのテキストジ
ャンルを単一のファセットとみなした。双方のアプロー
チは本発明と矛盾しない。前述のように、テキストジャ
ンルを単一のファセットによって定義することができ
る。）例えば、このコーパス内で、新聞の報道は１つの
記事当たり１．２個のセミコロンしか含まなかったが、
法律文書は４．７８個含んだ。同様に、テキスト当たり
のダッシュの数は、新聞の報道、論説の意見及びフィク
ションにおいて異なっていた。

【００２０】

【表１】

【００２１】異なるキュー値にどの位の重みを付けるべ
きか？換言すると、特定のファセット又はテキストジャ
ンルのキュー値又はキュー値のセットはどれだけ密接に
相関しているのか？人間が判断する事柄であるテキスト
ジャンルのファセット値への分解とは対照的に、この質
問に対する答えは人間が判断する事柄ではない。ファセ
ットに従って各キューに合った重みを決定するには、図
２に関連して後述する学習が必要である。

【００２２】Ｃ．キューの重みを決定するための学習図２は、各キュー毎にキューの重みを決定するための学
習方法３０をフロー図で示している。学習方法３０は完
全に自動ではなく、ステップ３２、３４及び３６はマニ
ュアルで実行され、命令５０のステップはプロセッサに
よって実行される。命令５０は、固体メモリ又はフロッ
ピーディスクドライブ内に配置したフロッピーディスク
に記憶させることができ、ＬＩＳＰ及びＣ＋＋を含むあ
らゆるコンピュータ言語で実現させることができる。

【００２３】学習方法３０は１セットのキュー及び別の
１セットのファセットの選択で始まり、これらを使用し
て広く認識された１セットのテキストジャンルを定義す
ることができる。ステップ３２において約５０〜５５個
の表面レベルキューを選択することが好ましいが、これ
よりも少ないか又は多い数を本発明と矛盾せず使用する
ことができる。また、語彙及び句読タイプの表面レベル
キューの数を選択することが好ましい。ユーザは定義さ
れる各ファセットに表面レベルキューを全て組み込むこ
とができるが、これは必須ではない。ステップ３２にお
いて任意の数のファセットを定義し選択できるが、ユー
ザは何らかの数のファセットを定義しなければならな
い。反対に、後述するように、ファセットそのものが多
数のアプリケーションにおいて有用であるため、ユーザ
はこの時点ではテキストジャンルを定義しなくてよい。
この後、ステップ３４においてユーザはテキストの異種
コーパスを選択する。テキストジャンルが定義されてい
ない場合、選択されるコーパスは、選択されるテキスト
ジャンル又はファセットの各々において約２０個のイン
スタンスを含むことが好ましい。通常はＡＳＣＩＩであ
るデジタル又はマシン可読形式でない場合、命令５０に
進む前にコーパスを変換してトークン化しなければなら
ない。ファセット、表面レベルキュー及び異種コーパス
の選択後、ユーザはステップ３６においてマシン可読フ
ァセット値をコーパスのテキストの各々に関連づける。
この後に、ユーザは残りの学習タスクをコンピュータシ
ステム１０に引き継ぐ。

【００２４】命令５０はステップ５２から始まる。この
ステップにおいて、プロセッサ１１はコーパスの各テキ
スト毎にキューベクトルＸを生成する。キューベクトル
は、選択されたキューの各々に対して１つの値を有する
多次元のベクトルである。プロセッサ１１は、特定のテ
キスト内にみられる関連した表面レベルの特徴に基づい
て、各キューの値を決定する。選択されたキューの定義
に基づいてキュー値を決定する方法は当業者には明らか
であるため、本明細書では詳しく説明しないことにす
る。これらの方法にはテキストの構造分析又はタグ付け
が必要ではないため、プロセッサ１１はステップ５２に
おいてキュー値を決定するために比較的わずかな計算を
行うだけでよい。

【００２５】ステップ５４において、プロセッサ１１は
ファセット値に従って各キューに付けられるべき重みを
決定する。即ち、ステップ５４において、プロセッサ１
１は各ファセットに対して重み付けベクトルβを生成す
る。キューベクトルＸのように、重み付けベクトルβは
選択されたキューの各々に対して１つの値を有する多次
元ベクトルである。ロジスティック回帰を含む多数の数
学的アプローチを使用して、コーパスのキューベクトル
から重み付けベクトルを生成することができる。ロジス
ティック回帰を用いて、プロセッサ１１はステップ５２
で生成されたキューベクトルを同一のキューベクトルの
セットに分割する。次に、各２値ファセットに対して、
プロセッサ１１は同一キューベクトルの各セットに対す
るログ奇関数を解く。ログ奇関数ｇ（ψ）は、下記のよ
うに表される。ｇ（ψ）＝ｌｏｇ（ψ／１−ψ）＝Ｘβ 式中、ψはファセット値が真であるベクトルの割合であ
り、１−ψはファセット値が偽であるセット内のベクト
ルの割合である。

【００２６】ファセット値の先のタグ付けは、同一のキ
ューベクトルを有するテキストの各セット内に各ファセ
ット値を有するテキストの数を示すため、プロセッサ１
１はψ及び１−ψの値を決定することができる。従っ
て、プロセッサ１１は、同一キューベクトルのセット、
既知のψ値のセット、１−ψ値のセット及びキューベク
トル値のセット全てによって定義される連立方程式のシ
ステムを解くことにより、各２値ファセットのための重
み付けベクトルβの値を決定することができる。ロジス
ティック回帰は公知であり、本明細書では詳しく説明し
ないことにする。ロジスティック回帰のより詳細な論述
に関しては、本明細書に援用されるマッカラー（McCull
agh, P.)及びネルダー（Nelder, J.A.) の "Generalize
d Linear Models" (第２版、1989 (Chapman and Hall p
ub.)の第４章を参照のこと。

【００２７】当業者には明白であるように、プロセッサ
１１は前述の方法を使用し、知的水準ファセットのよう
な２値ではないファセットの各値を２値ファセットとみ
なすことによってこれらのファセットのための重み付け
ベクトルを生成することができる。即ち、非２値ファセ
ットの各値に対して重み付けベクトルを生成する。

【００２８】好適な数（５０〜５５）のキューを用いた
ロジスティック回帰を使用すると、オーバーフィッティ
ング（overfitting)を生じる場合がある。更に、ロジス
ティック回帰は可変の相互作用のモデルを作らない。可
変相互作用のモデリングを可能としてオーバーフィッテ
ィングを避けるために、ニューラルネットワークをステ
ップ５４に使用して重み付けベクトルを生成し、性能を
改良することができる。しかし、どちらのアプローチも
本発明と矛盾せずステップ５４で使用することができ
る。

【００２９】後のテキストジャンルの自動識別を可能に
するために、プロセッサ１１は選択されたファセットの
各々に対する重み付けベクトルをメモリに記憶する。こ
れが終了すると、学習は完了する。

【００３０】Ｄ．テキストジャンル及びファセットの自
動識別図３は、命令１００をフロー図で示している。命令１０
０を実行することで、プロセッサ１１は、表面レベルの
キュー、ファセットのセット及び重み付けベクトルを用
いてマシン可読でタグ付けされていないテキスト２６の
テキストジャンルを自動的に識別する。簡潔に説明する
と、命令１００に従って、プロセッサ１１はまず、分類
されるべきトークン化マシン可読テキストのキューベク
トルを生成する。続いて、プロセッサ１１はキューベク
トルとファセットに関連する重み付けベクトルとを使用
して、各ファセットのテキストとの関連性を決定する。
各ファセットのテキストとの関連性を決定した後、プロ
セッサ１１はテキストのジャンル（単数又は複数）を識
別する。命令１００は、固体メモリ又はフロッピーディ
スクドライブ内に配置したフロッピーディスクに記憶さ
せることができ、ＬＩＳＰ及びＣ＋＋を含むあらゆるコ
ンピュータ言語で実現させることができる。

【００３１】選択されたトークン化マシン可読テキスト
のジャンルを識別するというユーザの要求に応答して、
プロセッサ１１はステップ１０２に進む。このステップ
において、プロセッサ１１はテキストのためのキューベ
クトルＸを生成する。これは、選択されたテキスト内
の、先に定義した表面レベルキューの各々に対する観測
値を表している。前述したように、キューの定義に基づ
いてキュー値を決定する方法は当業者には明白であり、
本明細書に詳しく説明する必要はない。次に、プロセッ
サ１１はステップ１０４に進み、選択されたテキストに
関連するファセットを識別するプロセスを開始する。

【００３２】命令１００に従って、関連ファセットの識
別は２値のファセットを用いて始まる。しかし、本発明
と矛盾せず、非２値の値のファセットを用いて識別を始
めてもよい。２値ファセットの評価は、プロセッサ１１
がステップ１０４において１つのファセットを選択する
ことによって始まる。次にプロセッサ１１は選択された
ファセットに関連する重みベクトルβをメモリから検索
し、ステップ１０２において生成されたキューベクトル
Ｘと重みベクトルβとを組み合わせる。プロセッサ１１
は、これらの２つのベクトルを組み合わせ、選択された
ファセットの分類されるテキストとの関連性のインジケ
ータを生成するために多数の数学的アプローチを使用す
ることができ、これらにはロジスティック回帰及びログ
奇関数が含まれる。学習の際の使用とは反対に、プロセ
ッサ１１はステップ１０６においてログ奇関数を解いて
ψを得る。ψは、ここでは選択されたファセットのテキ
ストとの関連性を表す。ログ奇関数の答が０よりも大き
い値を生じた場合、プロセッサ１１はファセットをテキ
ストと関連性があるものとみなすが、本発明と矛盾せず
関連性のカットオフ値として他の値を選択してもよい。

【００３３】１つの２値ファセットの関連性を決定した
後、プロセッサ１１はステップ１０８に進み、他の２値
ファセットの評価が必要であるか否かを確認する。必要
であれば、プロセッサ１１は分岐してステップ１０４に
戻り、全ての２値ファセットを処理するまでステップ１
０４、１０６及び１０８のループを実行することによっ
て、１度に１つずつファセットの関連性の評価を続け
る。２値ファセットの処理が終わると、プロセッサ１１
はステップ１０８から分岐してステップ１１０に進み、
非２値ファセットの関連性を決定するプロセスを始め
る。

【００３４】ここでもまた、プロセッサ１１はループを
実行して非２値ファセットの関連性を決定する。各ファ
セット値を別個に評価しなくてはならないという点で、
非２値ファセットの処理は２値ファセットのそれとは異
なっている。従って、ステップ１１４を繰り返し実行す
ることによって選択されたファセットの各値に対するロ
グ奇関数の値を生成した後、プロセッサ１１はステップ
１１８においてどのファセット値が最も関連しているか
を決定しなくてはならない。プロセッサ１１は、スコア
が最も高いファセット値を最も関連しているものとみな
す。非２値ファセットの各々に対して適切なファセット
値を決定した後、プロセッサ１１はステップ１２０から
ステップ１２２に進む。

【００３５】ステップ１２２において、プロセッサ１１
は、関連性があると判断したファセットとファセット値
によるテキストジャンルの定義とを用いて、選択された
テキストがどのテキストジャンルを表すかを識別する。
これを実行する方法は当業者には明白であり、本明細書
に詳しく説明する必要はない。この後、プロセッサ１１
は、選択されたテキストに関連性があると判断されたテ
キストジャンル及びファセットを選択されたテキストに
関連させる。ステップ１２２におけるテキストジャンル
の決定は好ましいものであるが、これは任意である。何
故なら、前述のように、ファセット分類はそのものが有
用であるためテキストジャンルを定義しなくてもよいか
らである。

【００３６】Ｅ．テキストジャンル及びファセット分類
のアプリケーション自然言語分野及び情報検索分野は共に、テキストジャン
ル及びファセットの自動分類の多数のアプリケーション
（用途）を提供する。自然言語では、自動テキスト分類
はタガー及び翻訳において有用である。情報検索分野で
は、テキストジャンル分類は、文書の書式（フォーマッ
ト）の改訂及び自動要約の強化の際に検索フィルタ及び
パラメータとして有用である。

【００３７】現行の意味タガー及び品詞タガーは共に、
テキスト内のアイテムの頻度数に関する生統計を使用し
ている。テキストジャンルに従ってテキストを自動的に
分類し、テキストジャンルに従ってタガーに関連する確
率を計算することにより、これらのタガーの性能を改良
することができる。例えば、"sore"という単語が「怒っ
た」という意味を有する確率又は "cool" という単語が
「すばらしい」という意味を有する確率は、批評家の伝
記においてよりも新聞のショートストーリーの映画の批
評においてずっと高い。

【００３８】言語翻訳システム及び言語生成システムは
共に、同義語のセット同士の区別をする。どの同義語の
セットを選択すべきかを示す条件は複雑であり、調節が
必要である。言語翻訳システムは、元の言語における単
語の意味を認識し、標的言語における適切な同義語を識
別しなくてはならない。これらの難点は、例えば同じ
「スラング」のフランス語の単語を英語の同等の「スラ
ング」に無条件に置き換えるなど、単に各言語のアイテ
ムをラベル付けして言語間で系統的に翻訳するだけでは
解決することができない。"Il cherche un boulot"とい
うフランス語の文は、１つの文脈では「彼は一夜興行
（gig)を探している」と翻訳され、別の文脈では「彼は
仕事を探している」と翻訳されうる。"Il (re)cherche
un travail"という文は、「彼は仕事を探している」又
は「彼は雇用を求めている」になる、などである。適切
な選択は、ソースアイテムが得られるテキストのジャン
ルの分析に依存する。自動テキストジャンル分類は、言
語翻訳システム及び言語生成システム双方の性能を改良
することができる。何故ならば、この分類によって言語
の種々のテキストジャンル及び種々のレジスター、従っ
て多くの同義語セットのメンバ間の区別を認識すること
ができるからである。このような同義語セットには以下
が含まれる："dismiss/fire/can"、"rather/pretty"
、"want/wish" 、"buy it/die/decease"、"wheels/car
/automobile" 及び "gig/job/position" 。

【００３９】多くの情報検索システムは同種のデータベ
ースを用いて発達しており、これらの異種のデータベー
スに対する実行が不十分な傾向にある。自動テキストジ
ャンル分類は、トピックベースの検索の出力に対するフ
ィルタ又は独立した検索パラメータとして動作すること
により、異種のデータベースを有する情報検索システム
の性能を改良することができる。例えば、検索者はスー
パーコライダーに関する新聞の論説を検索するが新聞の
記事を除いて検索したい場合や、専門誌ではなく大衆雑
誌においてＬＡＮＳに関する記事を検索したい場合があ
る。同様に、検索者は特定のテキストを用いて検索を開
始し、そのテキストのジャンル及びトピックと類似する
他のテキストを検索するように検索システムに要求する
場合がある。情報検索システムは、トピックベースの検
索の結果をランク付け又はクラスタリングする１つの方
法として、ジャンル分類を使用することができる。

【００４０】また、自動ジャンル分類は文書の書式に関
連する情報検索アプリケーション（用途）を有する。現
在、多数の文書データベースが、電子テキストの外観に
関する情報を含んでいる。例えば、マークアップ言語は
インターネット上のデジタルテキストの書式を指定する
ために頻繁に使用されている。ハードコピー文書のＯＣ
Ｒも、大量の書式情報を含む電子文書を生成している。
しかし、書式特徴の意味は、異種のデータベース内でジ
ャンルによって様々でありうる。１つの例として、テキ
ストにおいてボールドフェース及び通常のタイプを交互
に使用することを考えてみる。雑誌の記事では、この書
式特徴は恐らくインタビューを示す。百科事典では、こ
の同一の特徴は見出しと後に続くテキストを示す。マニ
ュアルでは、この特徴は非常に重要であるか又はさほど
重要ではない情報を示すために使用されうる。しかし、
Wired という雑誌では、この書式特徴は様々な記事を区
別するために使用されている。自動テキストジャンル分
類を使用して書式特徴の意味を決定することは、多数の
アプリケーションにおいて有用である。このようにする
ことで、ユーザは見出し、要約及びタイトルなどの主な
分野又は文書ドメインに検索を限定することができる。
同様に、書式特徴の意味を決定することにより、自動文
書要約、トピックのクラスタリング及び他の情報検索タ
スクの際に、非常に重要な文書ドメインとさほど重要で
はない文書ドメインとの間の区別をつけることができ
る。また、書式特徴の意味を決定することにより、元の
書式を保存することができないか又は望まれないいくつ
かの状況において、デジタル文書を新しい書式で表すこ
とができる。例えば、いくつかの既存テキストを異なる
書式のスタイルと組み合わせることによって新しい文書
を生成する際は、均一な書式が望ましい。

【００４１】同様に、自動ジャンル分類は、書式設定さ
れていないＡＳＣＩＩテキストの書式設定の態様を決定
する際に有用である。

【００４２】テキストジャンルの自動分類は、自動文書
要約に対して多数のアプリケーションを有する。第１
に、いくつかの自動要約システムは、文を抽出すべきか
否かを決定する際の特徴として、パラグラフ内の文の相
対位置を使用している。しかし、文の特定の位置の有意
性はジャンルによって様々である。新聞の記事の冒頭付
近の文は、終わり付近の文よりも重要である可能性が高
い。これは、法的決定及び雑誌のストーリーのような他
のジャンルでは異なることが想定される。これらの相関
関係は、自動ジャンル分類を用いて経験的に決定するこ
とができる。第２に、ジャンル分類により、要約される
テキストのジャンルに適した要約を作成することができ
る。読者が適切であると考える要約はジャンルによって
異なるため、これは望ましいことである。自動要約シス
テムは、前置きの文があるためにどこからテキストが始
まるかを決定するのが困難である場合が多く、これは自
動ジャンル分類の第３のアプリケーションを生じる。テ
キストに関連する前置きの文は、テキストのジャンルに
よって異なることが多い。

【図面の簡単な説明】

【図１】マシン可読テキストのテキストジャンルを自動
的に決定するコンピュータシステムを示している。

【図２】学習コーパスから重み付けベクトル値を生成す
る学習のためのフロー形式の命令を示している。

【図３】テキストジャンル及びファセットのマシン可読
テキストとの関連を決定するフロー形式の命令を示して
いる。

【符号の説明】

１０コンピュータシステム１１プロセッサ１２モニタ１３プリンタ１４キーボード１６マウス１８電子タブレット２０スタイラス２２フロッピーディスクドライブ２４スキャナー２６テキスト２８固体メモリ５０、１００命令

───────────────────────────────────────────────────── フロントページの続き (72)発明者ハインリッチシェッツェアメリカ合衆国 94305 カリフォルニア州スタンフォードベンチュラーホールシーエスエルアイ（番地なし) (72)発明者ジャンオー．ペダーセンアメリカ合衆国 94555 カリフォルニア州フレモントウェルマンテラス 34398 (72)発明者ブレットエル．ケッセラーアメリカ合衆国 94025 カリフォルニア州メンロパークサンアントニオアベニュー 1508 アパートメントエヌ

Claims

【特許請求の範囲】

【請求項１】テキストの構造分析を行わずに、マシン
可読形式のタグ付けされていないテキストのテキストジ
ャンルをプロセッサを用いて識別する方法であって、ａ）非構造的な表面キューの第１セットが前記テキスト
において発生する回数を表すキューベクトルを前記テキ
ストから生成するステップと、ｂ）前記キューベクトルと、第１のテキストジャンルに
関連する重み付けベクトルを用いて、前記テキストが前
記第１のテキストジャンルのインスタンスであるか否か
を決定するステップと、を含む、テキストジャンル識別
方法。