JPH1173417A - テキストジャンル識別方法 - Google Patents

テキストジャンル識別方法

Info

Publication number
JPH1173417A
JPH1173417A JP10187640A JP18764098A JPH1173417A JP H1173417 A JPH1173417 A JP H1173417A JP 10187640 A JP10187640 A JP 10187640A JP 18764098 A JP18764098 A JP 18764098A JP H1173417 A JPH1173417 A JP H1173417A
Authority
JP
Japan
Prior art keywords
text
genre
facet
facets
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10187640A
Other languages
English (en)
Inventor
Geoffrey D Nunberg
ディー.ナンバーグ ジョフリー
Heinrich Schuetze
シェッツェ ハインリッチ
Jan O Pedersen
オー.ペダーセン ジャン
Brett L Kessler
エル.ケッセラー ブレット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH1173417A publication Critical patent/JPH1173417A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキストの構造分析なしに、マシン可読形式
のタグ付けなしのテキストのテキストジャンルをプロセ
ッサを用いて識別する方法を提供する。 【解決手段】 テキストを分析してキューベクトルを生
成し(ステップ102)、2値ファセットを選択する(ステ
ップ104)。キューベクトル及びファセット重み付けベク
トルを用いてファセットのテキストとの関連性を決定す
る(ステップ106)。キューベクトル及び適切なキュー重
み付けベクトルを用いてファセットのテキストとの関連
性を決定する(ステップ114)。選択されたファセットの
最も関連した値を識別する(ステップ118)。全てのファ
セットの関連性を決定(ステップ120)した後、識別され
たファセットに基づいてテキストのタイプを決定する
(ステップ122)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は計算言語学に関す
る。より詳細には、本発明は、タグ付けされていないテ
キスト内にみられる表面レベルのキューに基づいてマシ
ン可読テキストのテキストジャンルを自動的に決定する
方法に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】「ジャ
ンル」という言葉は通常、「テキストの種類」の代わり
に用いる文学的な言葉として機能する。テキストジャン
ルは、テキストトピック(題目)及び文書ジャンルの関
連概念とは異なる。テキストジャンル及びテキストトピ
ックは、互いから完全に独立してはいない。新聞に記載
の話、小説及び科学的な記事などの顕著なテキストジャ
ンルは主に、異なる範囲のトピックを扱っている。しか
し、これらのテキストジャンルの各々におけるトピック
の共通性は非常に広く抽象的である。更に、単一のトピ
ックに関連する大量のテキストの集まりはどれも1つよ
り多くのテキストジャンルの作品を殆ど常に含み、よっ
てこれらの間の形式的な類似点は語彙アイテムの存在に
限られる。概念としてのテキストジャンルは文書ジャン
ルとは無関係であるが、これら2つのジャンルのタイプ
は濃密な機能的相互依存と歴史的に密接に関連して発達
している。例えば、単一のテキストジャンルはいくつか
の文書ジャンルと関連しうる。ショートストーリーを雑
誌又は選集に掲載したり、又は小説を複数部分に分けて
連続出版したり、小説をハードカバー、そして後にペー
パーバックとして再出版したりすることができる。同様
に、新聞のような文書ジャンルは、特集記事、コラム、
失恋した人へのアドバイス及びクロスワードパズルな
ど、いくつかのテキストジャンルを含むことができる。
これらのテキストジャンルは、「昨日」及び「ローカ
ル」のような文脈に依存する単語の使用を許容する新聞
に現れなければ、現在のように読まれていない可能性が
ある。これらが密接して関連しているために、文書ジャ
ンルの物質的な特徴がテキストジャンルを示すことが多
い。例えば、新聞はあるフォントを「ハードニュース
(政治・経済・国際関係などに関するニュース)」の見
出しに使用して別のフォントを分析の見出しに使用した
り、定期刊行物は用紙(paper stock)によってそのトピ
ック内容を示したり、ビジネスレター及び私信をページ
のレイアウトに基づいて区別したりすることができる。
異種のデジタルテキストの集まりから関連テキストを検
索するのが難しいことが多いのは、デジタル化によって
テキスト及び文書ジャンルに関連するこれらの物理的な
手掛かりが取り除かれてしまうためである。
【0003】公と私、ジェネラリストとスペシャリス
ト、仕事と休養などのテキストジャンル間の境界は、社
会生活が別個の役割及び行動に分かれていることを反映
する。ジャンルは、文書を解釈可能にする情況を提供す
るため、ジャンルは内容に劣らずユーザの関連概念を形
成する。例えば、スーパーコライダー(超衝突装置:su
percollider)又はナポレオンに関する情報を求めている
研究者は、内容と同じくらいテキストジャンルに注意す
る。研究者は、出所の内容だけでなく、その出所が学術
雑誌に記載されているか又は一般雑誌に記載されている
かということも知りたいと思うであろう。
【0004】最近まで、情報検索及びテキスト分類の研
究は、テキストジャンルではなくトピックの識別に殆ど
独占的に焦点を当ててきた。テキストジャンルの識別が
殆ど研究されなかった理由は2つある。第1に、従来の
プリントベース文書の世界ではジャンル分類の必要性が
みられなかった。何故なら、この世界では、ジャンルは
本質的に、又は画一的な文脈上の特徴によって明確に示
されているからである。低温融合に関する記事を探しに
図書館を訪ねた科学者は、どうやって定期刊行雑誌の記
事に研究を制限するかを心配しなくてもよい。何故な
ら、定期刊行雑誌は一般的な科学雑誌と区別できるよう
に目録が作られ、書架に置かれているからである。第2
に、オンラインのテキストデータベースを用いた迅速な
情報検索作業は、百科事典又は新聞のデータベースのよ
うに、テキストジャンルが外的に統制される小さく比較
的同種のデータベースに焦点を当てていた。テキストジ
ャンル間の境界が示されていないことが多い大きな異種
のテキストデータベースによって、テキストのジャンル
分類の重要性が強調される。トピックベースの検索ツー
ルのみでは、大きな異種データベースを検索する際に読
者の興味の対象物の範囲を適切に選択することができな
い。
【0005】ジャンル分類のアプリケーション(用途)
は、情報検索の分野に限られていない。いくつかの言語
学技術も、このアプリケーションから利益を得ることが
できる。単語の意味の分布はジャンルによって大幅に異
なることが既知であるため、自動的な文(センテンス)
の部分のタガー(タグを付けるもの)及び意味のタガー
は共にジャンル分類から利益を得ることができる。
【0006】書籍の分類の論述はアリストテレスまでさ
かのぼる。ジャンルに関する文献は分類スキーム及びシ
ステムが豊富であり、そのうちのいくつかを単純な属性
システムとして分析することができる。これらの論述は
あいまいで、牧歌又は小説のような文学的形式や、これ
よりも程度が小さいが新聞の犯罪レポート又はラブレタ
ーのようなパラ文学的な(paraliterary) 形式に専ら焦
点を当てる傾向にある。分類の論述は、年次報告、Eメ
ール通信及び科学的なアブストラクトなど、文学的では
ないテキストのタイプを無視する傾向にある。更に、こ
れらの論述のうちで、ジャンルを区別するアブストラク
トディメンション(摘要の範囲)をテキストのあらゆる
形式的特徴に関連づける努力をしているものは1つもな
い。
【0007】テキストのジャンル分類の量化方法に具体
的に関連する唯一の言語学研究は、バイバー(Douglas
Biber)の研究である。彼の研究は、以下を含む:"Spoke
n and Written Textual Dimensions in English: Resol
ving the Contradictory Findings"(Language、62(2):
384-413, 1986);"Variation Across Speech and Writi
ng" (Cambridge University Press 、1988); "The Mult
idimensional Approach to Linguistic Analyses of Ge
nre Variation: An Overview of Methodologyand Findi
ng" (Computers in the Humanities 、 26(5-6):331-34
7、1992); "Using Register-Diversified Corpora for
General Language Studies"(Using Large Corpora 、
第179-202 頁(Susan Armstrong 編集)(1994));及びフ
ィネガン(Edward Finegan)と共著の "Drift and the
Evolution of English Style: AHistory of Three Genr
es"(Language、65(1):93-124、1989)。バイバーの研
究は記述的であり、各々が利用する傾向にある言語学的
特徴のタイプに従ってテキストジャンルを機能的に区別
することを目的としている。バイバーは、「学究散文」
及び「一般的なフィクション」など、手作業によって多
数の別個のジャンルに分けられたコーパスから始めてい
る。次に、通常は3つか5つである、テキストのいくつ
かの「ディメンション」又は要素に沿ってこれらのジャ
ンルをランク付けする。バイバーは、殆どが統語的又は
語彙的なものである言語学的特徴のセットにこの要素分
析を適用することによって要素を個性化している。これ
らの要素には、例えば過去時制の動詞、過去分詞節及び
"wh−”から始まる質問などが含まれる。次にバイバ
ーは、言語学者が各要素の個々の構成部分に割り当てて
用いてきた談話機能(例えば、「情報を与えるvs関係
のある」ディメンション、「説話的vs非説話的」ディ
メンションなどとして)を抜粋することにより、一般的
な意味又は機能を要素に割り当てている。ジャンルに従
って個々のテキストを分類する際に、これらの要素はそ
の有用性に従って個性化されるのではないことに注意す
る。所与の要素又は要素のセットに対してあらゆるテキ
ストが受け取るスコアは、そのジャンルほど多くの情報
を与えるものではない場合がある。何故なら、あらゆる
個々の要素に関連するジャンル間に大幅な重複があるか
らである。
【0008】カールグレン(Jussi Karlgren) 及びカッ
ティング(Douglass Cutting) は、"Recognizing Text
Genres with Simple Metric Using Discriminant Analy
sis"(Proceedings of Coling '94 、第II巻、第1071-1
075 頁、1994年8月)において、バイバーの結果の一部
をジャンルの自動分類に適用するための努力を述べてい
る。彼らもまた、手作業で分類したテキストのコーパ
ス、即ちブラウンコーパスから始めている。ブラウンコ
ーパスをまとめた人々はこの分類を総称的なものと述べ
ているが、教養のある読者が認識するテキストとジャン
ルとの間の適合はおおよそにすぎない。カールグレン及
びカッティングは、語彙特徴又は分布特徴のいずれかを
用いる。語彙特徴は第1人称代名詞の総数及び現在時制
の動詞の総数を含み、分布特徴は長い単語の総数及び単
語当たりの平均文字数を含む。彼らは、句読レベル又は
文字レベルの特徴を使用しない。この2人の著者は、判
別分析を用いてテキストを様々な数のカテゴリーに分類
する。カールグレン及びカッティングが手作業で割り当
てたカテゴリーの数に等しい数の機能を用いたとき、自
動的に得たカテゴリーと手作業で分類したカテゴリーと
の間の適合は51.6%であった。機能の数を減少さ
せ、コーパスのカテゴリーを再構成することによって、
彼らは実施を改良した。カールグレン及びカッティング
は、このような方法が情報検索の目的に有用であるか定
かではないと考えており、以下のように述べている:
「自動的に得たカテゴリーを使用する際の問題は、たと
えこれらのカテゴリーがデータによって支持されている
という意味で実質的なものであっても、この技術を検索
ツールにおいて使用することが目的である場合、これら
のカテゴリーは熱心でない素人に対して説明することが
難しくなりうる、ということである。」更に、ブラウン
コーパスの特有の「ジャンル」が、ユーザが情報検索の
タスクに関連して見出すカテゴリーとどの程度一致する
かが明らかではない。
【0009】ナンバーグ(Geoffrey Nunberg) 及びヴィ
オリ(Patrizia Violi) は、"Text,Form and Genre" (P
roceedings of OED '92 、第118-122 頁、1992年10月)
において、ジャンルの認識が、情報検索のタスク及び自
然言語処理のタスクに重要であることを示唆している。
これらの著者は、テキストのジャンルをクラスではなく
属性として処理することができると提案している。しか
し、彼らは識別を達成できる態様に関する具体的な提案
を提供していない。
【0010】
【課題を解決するための手段】マシン可読でタグ付けさ
れていないテキストのジャンルを自動的に識別する本発
明の方法は、様々な利点を提供する。簡潔に説明する
と、プロセッサによって実施される本方法は、テキスト
からキューベクトルを生成することによって始まる。キ
ューベクトルは、容易に計算可能である非構造的な表面
キューの第1セットがテキストにおいて発生する回数を
表す。その後、プロセッサは、キューベクトルと、第1
のテキストジャンルに関連する重み付けベクトルとを用
いて、テキストが第1のテキストジャンルのインスタン
スであるか否かを決定する。
【0011】
【発明の実施の形態】図1は、命令100を実行するこ
とによって本発明の方法が行われるコンピュータシステ
ム100をブロック図で示している。本発明の方法はコ
ンピュータシステム10の動作を変え、マシン可読形式
でシステムに提供されるタグ付けされていないテキスト
のテキストジャンルを自動的に決定することができるよ
うにする。命令100によって、テキストの構造分析、
単語のステミング(語幹化:word stemming)又は品詞の
タグ付けを行わずにテキストジャンルの分類を行うこと
ができる。命令100は、構造ベースの特徴よりもより
迅速に計算することができる新しい表面レベルのキュー
又は特徴に依存する。簡潔に述べると、命令100に従
って、コンピュータシステム10はテキストを分析し、
このテキスト内の各表面キューの発生回数を決定してキ
ューベクトルを生成する。次にコンピュータシステム1
0は、テキストが特定のテキストジャンル及び/又はフ
ァセットのインスタンスであるか否かを、キューベクト
ルと、特定のテキストジャンル及び/又はファセットに
関連する重み付けベクトルとを用いて決定する。命令1
00は、図3に関連して詳しく説明される。コンピュー
タシステム10は、学習(トレーニング)命令50を用
いて各テキストジャンル及び/又はファセットに適切な
重み付けベクトルを決定する。これは、図2に関連して
詳しく説明される。
【0012】A.テキストジャンルを自動的に決定する
コンピュータシステム 命令50及び100をより詳しく説明する前に、これら
の命令を実行するコンピュータシステム10について説
明する。図1に示されるように、コンピュータシステム
10は情報をコンピュータユーザに視覚的に表示するモ
ニタ12を含む。また、コンピュータシステム10はプ
リンタ13を介してコンピュータユーザに情報を出力す
る。コンピュータシステム10は、データを入力する複
数の経路をコンピュータユーザに提供する。キーボード
14を打つことによって、コンピュータユーザはコンピ
ュータシステム10に入力データを入力することができ
る。マウス16を動かすことによって、コンピュータユ
ーザはモニタ12に表示されたポインタを動かすことが
できる。また、コンピュータユーザは、スタイラス20
又はペンで電子タブレット18に書き込むことによって
コンピュータシステム10に情報を入力することもでき
る。あるいは、フロッピーディスクなどの磁気媒体をフ
ロッピーディスクドライブ22に挿入することにより、
コンピュータユーザは磁気媒体に記憶されたデータを入
力することができる。スキャナー24によって、コンピ
ュータユーザはハードコピー文書のマシン可読バージョ
ン、例えばASCIIを生成することができる。
【0013】プロセッサ11は、コンピュータシステム
10の動作の制御及び統制を行い、コンピュータユーザ
のコマンドを実行する。プロセッサ11は、メモリ28
又はディスクドライブ内のフロッピーディスクに電子的
に記憶された命令50及び100などの命令を実行する
ことにより、各ユーザのコマンドに応答する適切な動作
を判断し、これを行う。通常、プロセッサ11のための
動作命令は固体メモリに記憶され、これによって命令に
頻繁かつ迅速にアクセスすることができる。メモリの具
現に使用することができる半導体論理デバイスには、読
出し専用メモリ(ROM)、ランダムアクセスメモリ
(RAM)、ダイナミックRAM(DRAM)、プログ
ラマブルROM(PROM)、消去可能型PROM(E
PROM)及びフラッシュメモリなどの電気的書き込み
可能型ROM(EEPROM)が含まれる。
【0014】B.テキストのジャンル、ファセット及び
キュー コンピュータシステム10は命令50及び100に従っ
て、構造分析、ステミング、解析又は意味もしくは品詞
のタグ付けをまだ行っていないトークン化されたマシン
可読テキストのテキストジャンルを決定する。本明細書
中に使用されるように、「テキストジャンル」とは、テ
キストが示す直接のトピックによって直接に生じたもの
ではないいくつかの形式キュー又は共通属性に機能が関
係していることを条件として、いくつかの共通の通信目
的特徴又は他の機能的特徴(trait)によって定義される
テキストの広く認識された任意のクラス(種類)をい
う。テキストのクラスが広く認識されていることによ
り、一般の人々は解釈原理の特徴的なセットを用いてク
ラスのテキストを解釈することができる。本明細書中に
使用されるように、テキストジャンルは文(センテン
ス)のジャンルのみに適用する。即ち、テキストジャン
ルは、句読及びパラグラフなどのテキストカテゴリーイ
ンジケータの十分なレパートリーを利用するストリング
のような文(単数及び複数)を主に介して伝わるジャン
ルのみに適用する。従って、本発明では、航空路のスケ
ジュール、株式の表及びコマ漫画はテキストジャンルと
して認識されない。また、本発明は会話のジャンルもテ
キストジャンルとして認識しない。テキストジャンルに
よって定義されるクラスは拡張可能であることが好まし
い。従って、本発明では、ジェーン・オースティン(Ja
ne Austen)によって書かれた小説のクラスは拡張可能で
はないため、好適なテキストジャンルではない。
【0015】命令50及び100の方法は、テキストジ
ャンルをファセットの集まりとみなす。各ファセット
は、キュー又は特徴と呼ばれる計算可能な言語学特性の
特徴的なセットと関連しており、これらはテキストの形
式の表面レベル特徴から観察することができる。これら
のキューを使用して、各ファセットは一定の実用的な対
象物に応えるテキストのクラスを区別する。1つのファ
セットが複数のジャンルに関連する場合があるため、フ
ァセットはテキストジャンルを間接的に識別する傾向に
ある。どのテキストジャンルもファセットの特定のクラ
スタとして定義することができるため、本発明の方法
は、他のアプローチと同じ正確さであるが以前にはなか
った新規のテキストジャンルを容易に追加することがで
きるという利点を有してテキストジャンル及びスーパー
ジャンルを識別することができる。
【0016】ファセットの概念を更に定義しようとする
代わりに、例示的な具体例をいくつか説明する。読者
(audience) ファセットは、広範囲のテキストと、より
限られた読者にむけられたテキストとを区別する。長さ
ファセットは、短いテキストと長いテキストの区別をす
る。組織又は匿名及び個人によって書かれたテキストの
区別は、著者ファセットによって表される。下記のリス
トは、これらの値が明確でないときの他のファセット及
びその値である。ファセットは2値でなくてもよいこと
に注意する。 ファセット名 可能な値 1.日付 あり/なし 2.説話的 Yes/No 3.説得的(議論的)/記述的(教育的) 4.フィクション/ノンフィクション 5.法的 Yes/No 6.科学及び技術的 Yes/No 7.知的水準 平俗 Yes/No (Brow) 中 Yes/No 高 Yes/No
【0017】他のファセットを定義して、本発明と矛盾
せず上記リストのファセットに追加することができる。
テキストジャンルを定義するのに全てのファセットを用
いる必要はなく、テキストジャンルを単一のファセット
で定義することができる。下記のリストは、前述のファ
セット及び値を用いて定義することができる、従来認識
されているテキストジャンルのいくつかの例にすぎな
い。 1. 新聞の報道 a.読者 広範囲 b.日付 あり c.説得的 記述的 d.説話的 Yes e.フィクション No f.知的水準 平俗 g.著者 記名なし h.法的 No 2. 論説の意見 a.読者 広範囲 b.日付 あり c.説得的 Yes d.説話的 Yes e.フィクション No f.知的水準 平俗 g.著者 記名あり h.科学及び技術的 No i.法的 No 3. 市場分析 a.読者 広範囲 b.日付 あり c.説得的 記述的 d.説話的 No e.フィクション No f.知的水準 高 g.著者 組織 h.科学及び技術的 Yes i.法的 No 4. Eメール a.読者 受取人 b.日付 あり c.フィクション No d.知的水準 平俗 e.著者 記名あり
【0018】テキストジャンルがファセットのグループ
に分解するように、ファセットも本方法に従った表面レ
ベルのキューに分解する。本発明の表面レベルキュー
は、単語のステミング、解析、又は意味もしくは品詞の
タグ付けなどの構造分析を全く行わずにトークン化され
たASCIIテキストを用いて計算することができるた
め、本発明の表面レベルキューは従来の特徴とは異な
る。本発明に関連するのは、大抵はテキスト内のこれら
の表面レベルキューの発生回数(頻度)である。表面レ
ベル又は形式キューのいくつかのタイプを下記に定義で
きるが、これらに限定されない:数/統計、句読、構
造、式文、語彙及び逸脱。方式タイプのキューは、従来
特定のテキストジャンルに関連するコロケーション又は
定着した表現である。例えば、おとぎ話は "Once upon
a time(むかしむかし)" で始まり、聖母マリアの讃歌
は「ヘイルメアリー(Hail Mary :聖母マリアに捧げる
祈り)」で始まる。他の式文は、法律文書、認可承諾書
などを示す。語彙タイプのキューは、テキストジャンル
を示すことができる一定の語彙アイテムの回数に関連す
る。例えば、Mr. 、Mrs.及び Ms.などの習慣的な敬称用
語がニューヨークタイムズの記事に使用されており、
「昨日」及び「ローカル」などの単語が新聞の報道に頻
繁に使用されている。更に、"it's pretty much a sna
p" などのフレーズを使用する場合、テキストが例えば
百科事典の記事の一部ではないことを示している。いく
つかの語彙アイテムの使用は、いくつかのテキストジャ
ンルのトピック及び修辞学的な共通属性によって保証さ
れる。構造的な特徴は従来技術において既知であるが、
その殆どの計算にはタグ付けされたか又は十分に解析さ
れたテキストが必要である。ストリング認識が可能であ
るこれら2つの新しい表面レベル構造キューは、本発明
によって定義される。句読タイプのキューは、テキスト
内の句読的特徴の総数である。このタイプのキューは以
前に使用されていないが、これらは有意であり、非常に
多いため、テキストジャンルの有用なインジケータとし
て機能することができる。例えば、クエスチョンマーク
の総数が多ければ、テキストは読者を説得しようとして
いることを示す可能性が高い。特定のテキスト内の表面
レベル特徴の回数を測定する殆どの他のキュータイプと
は対照的に、逸脱タイプのキューは単位サイズ内の逸脱
に関連する。例えば、逸脱キューを使用して、テキスト
ジャンルによって変化しうる特徴である文及びパラグラ
フの長さの変化を追跡することができる。キューのタイ
プは、テキストの特徴を示すために測定することができ
る表面レベルの特徴の種類を示唆するために説明したに
すぎず、キューのタイプの特徴付けは本発明にとって重
要ではない。定義することができるキューの数は、理論
的に無制限である。使用可能なキューのほんのいくつか
を例示的な目的で下記に列挙する。 A.句読のキュー 1.ログ(コンマの総数(カウント)+1) 2.平均値(コンマ/文)/記事 3.平均値(ダッシュ/文)/記事 4.ログ(クエスチョンマークの総数+1) 5.平均値(クエスチョンマーク/文)/記事 6.ログ(ダッシュの総数+1) 7.ログ(セミコロンの総数+1) B.ストリング認識が可能な構造のキュー 1."and" 、"but" 及び "so" で始まる文/記事 2.副詞+コンマで始まる文/記事 C.式文のキュー 1."Once upon a time..." D.語彙のキュー(他の指示がない限りトークンの総数
のみを示す) 1."Mr.、Mrs." などの略称 2.頭文字語 3.法助動詞 4.動詞 "be" の形式 5.暦−曜日、月 6、7.大文字−大文字で始まる文ではない初めの単語
のタイプ及びトークン数 8.文字数 9、10.短縮タイプ及びトークン数 11、12."ed"で終わる単語のタイプ及びトークン数 13.数式 14.動詞 "have" の形式 15、16.ハイフン付きの単語のタイプ及びトークン
数 17、18.多音節語のタイプ及びトークン数 19.単語 "it" 20、21.ラテン語の接頭辞及び接尾辞のタイプ及び
トークン数 22、23.6文字よりも多い単語のタイプ及びトーク
ン数 24、25.10文字よりも多い単語のタイプ及びトー
クン数 26、27.3つより多い単語句(Three + word phras
es) のタイプ及びトークン数 28、29."ly"で終わる多節語のタイプ及びトークン
数 30.明白な否定語 31、32.少なくとも1つの数字を含む単語のタイプ
及びトークン数 33.左かっこ 34、35.前置詞のタイプ及びトークン数 36.第1人称単数の代名詞 37.第1人称複数の代名詞 38.引用符の対 39.ローマ数字 40."that"のインスタンス 41."which" のインスタンス 42.第2人称複数の代名詞 F.逸脱のキュー 1.文の標準の長さからの逸脱(単語数) 2.単語の標準の長さからの逸脱(文字数) 3.句読点間のテキストセグメントの標準の長さからの
逸脱(単語数) 4.平均値(文字/単語)/記事
【0019】約400のテキストのコーパスを用いた事
前試行の結果として、下記の表1はいくつかの表面レベ
ルのキューがファセット/テキストジャンルによって変
化しうる態様を示している。(この試行は、上記のよう
にテキストジャンルを分解せず、いくつかのテキストジ
ャンルを単一のファセットとみなした。双方のアプロー
チは本発明と矛盾しない。前述のように、テキストジャ
ンルを単一のファセットによって定義することができ
る。)例えば、このコーパス内で、新聞の報道は1つの
記事当たり1.2個のセミコロンしか含まなかったが、
法律文書は4.78個含んだ。同様に、テキスト当たり
のダッシュの数は、新聞の報道、論説の意見及びフィク
ションにおいて異なっていた。
【0020】
【表1】
【0021】異なるキュー値にどの位の重みを付けるべ
きか?換言すると、特定のファセット又はテキストジャ
ンルのキュー値又はキュー値のセットはどれだけ密接に
相関しているのか?人間が判断する事柄であるテキスト
ジャンルのファセット値への分解とは対照的に、この質
問に対する答えは人間が判断する事柄ではない。ファセ
ットに従って各キューに合った重みを決定するには、図
2に関連して後述する学習が必要である。
【0022】C.キューの重みを決定するための学習 図2は、各キュー毎にキューの重みを決定するための学
習方法30をフロー図で示している。学習方法30は完
全に自動ではなく、ステップ32、34及び36はマニ
ュアルで実行され、命令50のステップはプロセッサに
よって実行される。命令50は、固体メモリ又はフロッ
ピーディスクドライブ内に配置したフロッピーディスク
に記憶させることができ、LISP及びC++を含むあ
らゆるコンピュータ言語で実現させることができる。
【0023】学習方法30は1セットのキュー及び別の
1セットのファセットの選択で始まり、これらを使用し
て広く認識された1セットのテキストジャンルを定義す
ることができる。ステップ32において約50〜55個
の表面レベルキューを選択することが好ましいが、これ
よりも少ないか又は多い数を本発明と矛盾せず使用する
ことができる。また、語彙及び句読タイプの表面レベル
キューの数を選択することが好ましい。ユーザは定義さ
れる各ファセットに表面レベルキューを全て組み込むこ
とができるが、これは必須ではない。ステップ32にお
いて任意の数のファセットを定義し選択できるが、ユー
ザは何らかの数のファセットを定義しなければならな
い。反対に、後述するように、ファセットそのものが多
数のアプリケーションにおいて有用であるため、ユーザ
はこの時点ではテキストジャンルを定義しなくてよい。
この後、ステップ34においてユーザはテキストの異種
コーパスを選択する。テキストジャンルが定義されてい
ない場合、選択されるコーパスは、選択されるテキスト
ジャンル又はファセットの各々において約20個のイン
スタンスを含むことが好ましい。通常はASCIIであ
るデジタル又はマシン可読形式でない場合、命令50に
進む前にコーパスを変換してトークン化しなければなら
ない。ファセット、表面レベルキュー及び異種コーパス
の選択後、ユーザはステップ36においてマシン可読フ
ァセット値をコーパスのテキストの各々に関連づける。
この後に、ユーザは残りの学習タスクをコンピュータシ
ステム10に引き継ぐ。
【0024】命令50はステップ52から始まる。この
ステップにおいて、プロセッサ11はコーパスの各テキ
スト毎にキューベクトルXを生成する。キューベクトル
は、選択されたキューの各々に対して1つの値を有する
多次元のベクトルである。プロセッサ11は、特定のテ
キスト内にみられる関連した表面レベルの特徴に基づい
て、各キューの値を決定する。選択されたキューの定義
に基づいてキュー値を決定する方法は当業者には明らか
であるため、本明細書では詳しく説明しないことにす
る。これらの方法にはテキストの構造分析又はタグ付け
が必要ではないため、プロセッサ11はステップ52に
おいてキュー値を決定するために比較的わずかな計算を
行うだけでよい。
【0025】ステップ54において、プロセッサ11は
ファセット値に従って各キューに付けられるべき重みを
決定する。即ち、ステップ54において、プロセッサ1
1は各ファセットに対して重み付けベクトルβを生成す
る。キューベクトルXのように、重み付けベクトルβは
選択されたキューの各々に対して1つの値を有する多次
元ベクトルである。ロジスティック回帰を含む多数の数
学的アプローチを使用して、コーパスのキューベクトル
から重み付けベクトルを生成することができる。ロジス
ティック回帰を用いて、プロセッサ11はステップ52
で生成されたキューベクトルを同一のキューベクトルの
セットに分割する。次に、各2値ファセットに対して、
プロセッサ11は同一キューベクトルの各セットに対す
るログ奇関数を解く。ログ奇関数g(ψ)は、下記のよ
うに表される。 g(ψ)=log(ψ/1−ψ)=Xβ 式中、ψはファセット値が真であるベクトルの割合であ
り、1−ψはファセット値が偽であるセット内のベクト
ルの割合である。
【0026】ファセット値の先のタグ付けは、同一のキ
ューベクトルを有するテキストの各セット内に各ファセ
ット値を有するテキストの数を示すため、プロセッサ1
1はψ及び1−ψの値を決定することができる。従っ
て、プロセッサ11は、同一キューベクトルのセット、
既知のψ値のセット、1−ψ値のセット及びキューベク
トル値のセット全てによって定義される連立方程式のシ
ステムを解くことにより、各2値ファセットのための重
み付けベクトルβの値を決定することができる。ロジス
ティック回帰は公知であり、本明細書では詳しく説明し
ないことにする。ロジスティック回帰のより詳細な論述
に関しては、本明細書に援用されるマッカラー(McCull
agh, P.)及びネルダー(Nelder, J.A.) の "Generalize
d Linear Models" (第2版、1989 (Chapman and Hall p
ub.)の第4章を参照のこと。
【0027】当業者には明白であるように、プロセッサ
11は前述の方法を使用し、知的水準ファセットのよう
な2値ではないファセットの各値を2値ファセットとみ
なすことによってこれらのファセットのための重み付け
ベクトルを生成することができる。即ち、非2値ファセ
ットの各値に対して重み付けベクトルを生成する。
【0028】好適な数(50〜55)のキューを用いた
ロジスティック回帰を使用すると、オーバーフィッティ
ング(overfitting)を生じる場合がある。更に、ロジス
ティック回帰は可変の相互作用のモデルを作らない。可
変相互作用のモデリングを可能としてオーバーフィッテ
ィングを避けるために、ニューラルネットワークをステ
ップ54に使用して重み付けベクトルを生成し、性能を
改良することができる。しかし、どちらのアプローチも
本発明と矛盾せずステップ54で使用することができ
る。
【0029】後のテキストジャンルの自動識別を可能に
するために、プロセッサ11は選択されたファセットの
各々に対する重み付けベクトルをメモリに記憶する。こ
れが終了すると、学習は完了する。
【0030】D.テキストジャンル及びファセットの自
動識別 図3は、命令100をフロー図で示している。命令10
0を実行することで、プロセッサ11は、表面レベルの
キュー、ファセットのセット及び重み付けベクトルを用
いてマシン可読でタグ付けされていないテキスト26の
テキストジャンルを自動的に識別する。簡潔に説明する
と、命令100に従って、プロセッサ11はまず、分類
されるべきトークン化マシン可読テキストのキューベク
トルを生成する。続いて、プロセッサ11はキューベク
トルとファセットに関連する重み付けベクトルとを使用
して、各ファセットのテキストとの関連性を決定する。
各ファセットのテキストとの関連性を決定した後、プロ
セッサ11はテキストのジャンル(単数又は複数)を識
別する。命令100は、固体メモリ又はフロッピーディ
スクドライブ内に配置したフロッピーディスクに記憶さ
せることができ、LISP及びC++を含むあらゆるコ
ンピュータ言語で実現させることができる。
【0031】選択されたトークン化マシン可読テキスト
のジャンルを識別するというユーザの要求に応答して、
プロセッサ11はステップ102に進む。このステップ
において、プロセッサ11はテキストのためのキューベ
クトルXを生成する。これは、選択されたテキスト内
の、先に定義した表面レベルキューの各々に対する観測
値を表している。前述したように、キューの定義に基づ
いてキュー値を決定する方法は当業者には明白であり、
本明細書に詳しく説明する必要はない。次に、プロセッ
サ11はステップ104に進み、選択されたテキストに
関連するファセットを識別するプロセスを開始する。
【0032】命令100に従って、関連ファセットの識
別は2値のファセットを用いて始まる。しかし、本発明
と矛盾せず、非2値の値のファセットを用いて識別を始
めてもよい。2値ファセットの評価は、プロセッサ11
がステップ104において1つのファセットを選択する
ことによって始まる。次にプロセッサ11は選択された
ファセットに関連する重みベクトルβをメモリから検索
し、ステップ102において生成されたキューベクトル
Xと重みベクトルβとを組み合わせる。プロセッサ11
は、これらの2つのベクトルを組み合わせ、選択された
ファセットの分類されるテキストとの関連性のインジケ
ータを生成するために多数の数学的アプローチを使用す
ることができ、これらにはロジスティック回帰及びログ
奇関数が含まれる。学習の際の使用とは反対に、プロセ
ッサ11はステップ106においてログ奇関数を解いて
ψを得る。ψは、ここでは選択されたファセットのテキ
ストとの関連性を表す。ログ奇関数の答が0よりも大き
い値を生じた場合、プロセッサ11はファセットをテキ
ストと関連性があるものとみなすが、本発明と矛盾せず
関連性のカットオフ値として他の値を選択してもよい。
【0033】1つの2値ファセットの関連性を決定した
後、プロセッサ11はステップ108に進み、他の2値
ファセットの評価が必要であるか否かを確認する。必要
であれば、プロセッサ11は分岐してステップ104に
戻り、全ての2値ファセットを処理するまでステップ1
04、106及び108のループを実行することによっ
て、1度に1つずつファセットの関連性の評価を続け
る。2値ファセットの処理が終わると、プロセッサ11
はステップ108から分岐してステップ110に進み、
非2値ファセットの関連性を決定するプロセスを始め
る。
【0034】ここでもまた、プロセッサ11はループを
実行して非2値ファセットの関連性を決定する。各ファ
セット値を別個に評価しなくてはならないという点で、
非2値ファセットの処理は2値ファセットのそれとは異
なっている。従って、ステップ114を繰り返し実行す
ることによって選択されたファセットの各値に対するロ
グ奇関数の値を生成した後、プロセッサ11はステップ
118においてどのファセット値が最も関連しているか
を決定しなくてはならない。プロセッサ11は、スコア
が最も高いファセット値を最も関連しているものとみな
す。非2値ファセットの各々に対して適切なファセット
値を決定した後、プロセッサ11はステップ120から
ステップ122に進む。
【0035】ステップ122において、プロセッサ11
は、関連性があると判断したファセットとファセット値
によるテキストジャンルの定義とを用いて、選択された
テキストがどのテキストジャンルを表すかを識別する。
これを実行する方法は当業者には明白であり、本明細書
に詳しく説明する必要はない。この後、プロセッサ11
は、選択されたテキストに関連性があると判断されたテ
キストジャンル及びファセットを選択されたテキストに
関連させる。ステップ122におけるテキストジャンル
の決定は好ましいものであるが、これは任意である。何
故なら、前述のように、ファセット分類はそのものが有
用であるためテキストジャンルを定義しなくてもよいか
らである。
【0036】E.テキストジャンル及びファセット分類
のアプリケーション 自然言語分野及び情報検索分野は共に、テキストジャン
ル及びファセットの自動分類の多数のアプリケーション
(用途)を提供する。自然言語では、自動テキスト分類
はタガー及び翻訳において有用である。情報検索分野で
は、テキストジャンル分類は、文書の書式(フォーマッ
ト)の改訂及び自動要約の強化の際に検索フィルタ及び
パラメータとして有用である。
【0037】現行の意味タガー及び品詞タガーは共に、
テキスト内のアイテムの頻度数に関する生統計を使用し
ている。テキストジャンルに従ってテキストを自動的に
分類し、テキストジャンルに従ってタガーに関連する確
率を計算することにより、これらのタガーの性能を改良
することができる。例えば、"sore"という単語が「怒っ
た」という意味を有する確率又は "cool" という単語が
「すばらしい」という意味を有する確率は、批評家の伝
記においてよりも新聞のショートストーリーの映画の批
評においてずっと高い。
【0038】言語翻訳システム及び言語生成システムは
共に、同義語のセット同士の区別をする。どの同義語の
セットを選択すべきかを示す条件は複雑であり、調節が
必要である。言語翻訳システムは、元の言語における単
語の意味を認識し、標的言語における適切な同義語を識
別しなくてはならない。これらの難点は、例えば同じ
「スラング」のフランス語の単語を英語の同等の「スラ
ング」に無条件に置き換えるなど、単に各言語のアイテ
ムをラベル付けして言語間で系統的に翻訳するだけでは
解決することができない。"Il cherche un boulot"とい
うフランス語の文は、1つの文脈では「彼は一夜興行
(gig)を探している」と翻訳され、別の文脈では「彼は
仕事を探している」と翻訳されうる。"Il (re)cherche
un travail"という文は、「彼は仕事を探している」又
は「彼は雇用を求めている」になる、などである。適切
な選択は、ソースアイテムが得られるテキストのジャン
ルの分析に依存する。自動テキストジャンル分類は、言
語翻訳システム及び言語生成システム双方の性能を改良
することができる。何故ならば、この分類によって言語
の種々のテキストジャンル及び種々のレジスター、従っ
て多くの同義語セットのメンバ間の区別を認識すること
ができるからである。このような同義語セットには以下
が含まれる:"dismiss/fire/can"、"rather/pretty"
、"want/wish" 、"buy it/die/decease"、"wheels/car
/automobile" 及び "gig/job/position" 。
【0039】多くの情報検索システムは同種のデータベ
ースを用いて発達しており、これらの異種のデータベー
スに対する実行が不十分な傾向にある。自動テキストジ
ャンル分類は、トピックベースの検索の出力に対するフ
ィルタ又は独立した検索パラメータとして動作すること
により、異種のデータベースを有する情報検索システム
の性能を改良することができる。例えば、検索者はスー
パーコライダーに関する新聞の論説を検索するが新聞の
記事を除いて検索したい場合や、専門誌ではなく大衆雑
誌においてLANSに関する記事を検索したい場合があ
る。同様に、検索者は特定のテキストを用いて検索を開
始し、そのテキストのジャンル及びトピックと類似する
他のテキストを検索するように検索システムに要求する
場合がある。情報検索システムは、トピックベースの検
索の結果をランク付け又はクラスタリングする1つの方
法として、ジャンル分類を使用することができる。
【0040】また、自動ジャンル分類は文書の書式に関
連する情報検索アプリケーション(用途)を有する。現
在、多数の文書データベースが、電子テキストの外観に
関する情報を含んでいる。例えば、マークアップ言語は
インターネット上のデジタルテキストの書式を指定する
ために頻繁に使用されている。ハードコピー文書のOC
Rも、大量の書式情報を含む電子文書を生成している。
しかし、書式特徴の意味は、異種のデータベース内でジ
ャンルによって様々でありうる。1つの例として、テキ
ストにおいてボールドフェース及び通常のタイプを交互
に使用することを考えてみる。雑誌の記事では、この書
式特徴は恐らくインタビューを示す。百科事典では、こ
の同一の特徴は見出しと後に続くテキストを示す。マニ
ュアルでは、この特徴は非常に重要であるか又はさほど
重要ではない情報を示すために使用されうる。しかし、
Wired という雑誌では、この書式特徴は様々な記事を区
別するために使用されている。自動テキストジャンル分
類を使用して書式特徴の意味を決定することは、多数の
アプリケーションにおいて有用である。このようにする
ことで、ユーザは見出し、要約及びタイトルなどの主な
分野又は文書ドメインに検索を限定することができる。
同様に、書式特徴の意味を決定することにより、自動文
書要約、トピックのクラスタリング及び他の情報検索タ
スクの際に、非常に重要な文書ドメインとさほど重要で
はない文書ドメインとの間の区別をつけることができ
る。また、書式特徴の意味を決定することにより、元の
書式を保存することができないか又は望まれないいくつ
かの状況において、デジタル文書を新しい書式で表すこ
とができる。例えば、いくつかの既存テキストを異なる
書式のスタイルと組み合わせることによって新しい文書
を生成する際は、均一な書式が望ましい。
【0041】同様に、自動ジャンル分類は、書式設定さ
れていないASCIIテキストの書式設定の態様を決定
する際に有用である。
【0042】テキストジャンルの自動分類は、自動文書
要約に対して多数のアプリケーションを有する。第1
に、いくつかの自動要約システムは、文を抽出すべきか
否かを決定する際の特徴として、パラグラフ内の文の相
対位置を使用している。しかし、文の特定の位置の有意
性はジャンルによって様々である。新聞の記事の冒頭付
近の文は、終わり付近の文よりも重要である可能性が高
い。これは、法的決定及び雑誌のストーリーのような他
のジャンルでは異なることが想定される。これらの相関
関係は、自動ジャンル分類を用いて経験的に決定するこ
とができる。第2に、ジャンル分類により、要約される
テキストのジャンルに適した要約を作成することができ
る。読者が適切であると考える要約はジャンルによって
異なるため、これは望ましいことである。自動要約シス
テムは、前置きの文があるためにどこからテキストが始
まるかを決定するのが困難である場合が多く、これは自
動ジャンル分類の第3のアプリケーションを生じる。テ
キストに関連する前置きの文は、テキストのジャンルに
よって異なることが多い。
【図面の簡単な説明】
【図1】マシン可読テキストのテキストジャンルを自動
的に決定するコンピュータシステムを示している。
【図2】学習コーパスから重み付けベクトル値を生成す
る学習のためのフロー形式の命令を示している。
【図3】テキストジャンル及びファセットのマシン可読
テキストとの関連を決定するフロー形式の命令を示して
いる。
【符号の説明】
10 コンピュータシステム 11 プロセッサ 12 モニタ 13 プリンタ 14 キーボード 16 マウス 18 電子タブレット 20 スタイラス 22 フロッピーディスクドライブ 24 スキャナー 26 テキスト 28 固体メモリ 50、100 命令
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ハインリッチ シェッツェ アメリカ合衆国 94305 カリフォルニア 州 スタンフォード ベンチュラー ホー ル シーエスエルアイ(番地なし) (72)発明者 ジャン オー.ペダーセン アメリカ合衆国 94555 カリフォルニア 州 フレモント ウェルマン テラス 34398 (72)発明者 ブレット エル.ケッセラー アメリカ合衆国 94025 カリフォルニア 州 メンロパーク サンアントニオ アベ ニュー 1508 アパートメント エヌ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 テキストの構造分析を行わずに、マシン
    可読形式のタグ付けされていないテキストのテキストジ
    ャンルをプロセッサを用いて識別する方法であって、 a)非構造的な表面キューの第1セットが前記テキスト
    において発生する回数を表すキューベクトルを前記テキ
    ストから生成するステップと、 b)前記キューベクトルと、第1のテキストジャンルに
    関連する重み付けベクトルを用いて、前記テキストが前
    記第1のテキストジャンルのインスタンスであるか否か
    を決定するステップと、を含む、テキストジャンル識別
    方法。
JP10187640A 1997-07-02 1998-07-02 テキストジャンル識別方法 Withdrawn JPH1173417A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5155897P 1997-07-02 1997-07-02
US051558 1997-07-02

Publications (1)

Publication Number Publication Date
JPH1173417A true JPH1173417A (ja) 1999-03-16

Family

ID=21972042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10187640A Withdrawn JPH1173417A (ja) 1997-07-02 1998-07-02 テキストジャンル識別方法

Country Status (3)

Country Link
US (1) US6505150B2 (ja)
EP (1) EP0889417A3 (ja)
JP (1) JPH1173417A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US6675356B1 (en) * 1998-12-22 2004-01-06 Xerox Corporation Distributed document-based calendaring system
US6651218B1 (en) * 1998-12-22 2003-11-18 Xerox Corporation Dynamic content database for multiple document genres
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US7194681B1 (en) 1999-07-30 2007-03-20 Microsoft Corporation Method for automatically assigning priorities to documents and messages
US6714967B1 (en) * 1999-07-30 2004-03-30 Microsoft Corporation Integration of a computer-based message priority system with mobile electronic devices
US6622160B1 (en) * 1999-07-30 2003-09-16 Microsoft Corporation Methods for routing items for communications based on a measure of criticality
US7356604B1 (en) * 2000-04-18 2008-04-08 Claritech Corporation Method and apparatus for comparing scores in a vector space retrieval process
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
US7191252B2 (en) 2000-11-13 2007-03-13 Digital Doors, Inc. Data security system and method adjunct to e-mail, browser or telecom program
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
US7249058B2 (en) * 2001-11-13 2007-07-24 International Business Machines Corporation Method of promoting strategic documents by bias ranking of search results
US7220910B2 (en) * 2002-03-21 2007-05-22 Microsoft Corporation Methods and systems for per persona processing media content-associated metadata
US8055713B2 (en) * 2003-11-17 2011-11-08 Hewlett-Packard Development Company, L.P. Email application with user voice interface
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7996208B2 (en) 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
CN101124537B (zh) 2004-11-12 2011-01-26 马克森斯公司 采用术语构建知识关联的知识发现技术
US8843536B1 (en) 2004-12-31 2014-09-23 Google Inc. Methods and systems for providing relevant advertisements or other content for inactive uniform resource locators using search queries
WO2006083684A2 (en) * 2005-01-28 2006-08-10 Aol Llc Web query classification
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
FI20060995A0 (fi) * 2006-11-13 2006-11-13 Tiksis Technologies Oy Luonnollisen kielen käsittely
US8423565B2 (en) * 2006-12-21 2013-04-16 Digital Doors, Inc. Information life cycle search engine and method
US8468244B2 (en) 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US9589254B2 (en) 2010-12-08 2017-03-07 Microsoft Technology Licensing, Llc Using e-mail message characteristics for prioritization
US20160170983A1 (en) * 2013-07-30 2016-06-16 Nippon Telegraph And Telephone Corporation Information management apparatus and information management method
US9984062B1 (en) 2015-07-10 2018-05-29 Google Llc Generating author vectors
US20170371956A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
US20170371955A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
CN110377904A (zh) * 2019-06-25 2019-10-25 厦门美域中央信息科技有限公司 一种基于语料库的近义词辨析方法
US12321428B2 (en) * 2021-07-08 2025-06-03 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
US12596709B2 (en) * 2023-08-07 2026-04-07 Adobe Inc. Machine learning recollection as part of question answering using a corpus

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773009A (en) * 1986-06-06 1988-09-20 Houghton Mifflin Company Method and apparatus for text analysis
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
EP0287713B1 (en) * 1987-04-23 1994-06-22 Océ-Nederland B.V. A text processing system and methods for checking in a text processing system the correct and consistent use of units or chemical formulae
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5424945A (en) * 1993-08-31 1995-06-13 Xerox Corporation System for evaluating a psychological effect of a document
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Also Published As

Publication number Publication date
US6505150B2 (en) 2003-01-07
EP0889417A3 (en) 1999-11-24
US20020002450A1 (en) 2002-01-03
EP0889417A2 (en) 1999-01-07

Similar Documents

Publication Publication Date Title
JPH1173417A (ja) テキストジャンル識別方法
Christopher et al. Introduction to information retrieval
Al-Saleh et al. Automatic Arabic text summarization: a survey
Yadav et al. State-of-the-art approach to extractive text summarization: a comprehensive review
US7890500B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
Hatzigeorgiu et al. Design and Implementation of the Online ILSP Greek Corpus.
Azmi et al. A text summarizer for Arabic
US8060357B2 (en) Linguistic user interface
US6094652A (en) Hierarchical query feedback in an information retrieval system
US8346795B2 (en) System and method for guiding entity-based searching
Koppel et al. Feature instability as a criterion for selecting potential style markers
US20130218914A1 (en) System and method for providing recommendations based on information extracted from reviewers' comments
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Hajbi et al. Natural language processing based approach to overcome Arabizi and code switching in social media Moroccan dialect
Patel et al. An automatic text summarization: A systematic review
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
Klochikhin et al. Text analysis
Iwatsuki et al. Using formulaic expressions in writing assistance systems
Fauzi et al. Image understanding and the web: a state-of-the-art review
Riaz Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu
Ojokoh et al. Online question answering system
Chang et al. Wikisense: Supersense tagging of wikipedia named entities based wordnet
Yeshambel et al. Construction of Amharic information retrieval resources and corpora
US20240311892A1 (en) System and Method for Catalog Data Enrichment

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050906