JPH0652221A

JPH0652221A - 固有名詞の自動抽出方式

Info

Publication number: JPH0652221A
Application number: JP4115816A
Authority: JP
Inventors: Yukari Saitou; 由香梨斎藤; Toshiaki Yoshino; 利明吉野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-05-08
Filing date: 1992-05-08
Publication date: 1994-02-25

Abstract

(57)【要約】【目的】本発明は自然言語処理システムの固有名詞抽出
方式に関し、固有名詞の抽出と固有名詞辞書拡張の自動
化を目的とする。【構成】オンライン・テキスト１をアクセスして新規テ
キストを抽出するデータベース・アクセス手段２と、新
規テキストと固有名詞パターン６のマッチングをとり、
固有名詞候補を抽出する固有名詞抽出手段３と、抽出し
た固有名詞候補が既に辞書７に登録されているか否かを
判定する固有名詞判定手段４と、辞書７に未登録と判定
された固有名詞候補を辞書７に登録する固有名詞登録手
段５で構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータベース・システム
やエキスパート・システム等の自然言語インタフェー
ス、機械翻訳などの自然言語処理システムに関する。更
に詳しくは、自然言語のなかから固有名詞を自動的に抽
出する固有名詞の自動抽出方式に関する。

【０００２】

【従来の技術】近年、エキスパート・システムやデータ
ベース・システムのような質問応答システムにおいて、
質問と応答を自然言語、すなわち、普通の文章によって
行なわせようとする技術の開発が行なわれている。

【０００３】自然言語処理においての問題の一つに、固
有名詞の取り扱いがある。一般的に使用される固有名詞
は辞書に登録されてはいるが、固有名詞の種類はどんど
ん増加するものであり、そのような固有名詞は辞書に登
録されていない。その結果、自然言語処理において目的
とする処理がうまくいかなくなる場合がある。

【０００４】例えば、処理対象のテキスト中に製品名と
して「ＯＡＳＹＳＰｏｃｋｅｔ（登録商標）」という
語が入っていた場合、この語は本来、固有名詞として一
語の扱いをしなければならない。しかし、辞書登録して
いない未登録語であるために、形態素解析時に“ＯＡＳ
ＹＳ（登録商標）”と“Ｐｏｃｋｅｔ”の二語に分割さ
れてしまい、その後の処理がうまくいかなくなる。例え
ば、“ＯＡＳＹＳ”を修飾語と解釈し、“ＯＡＳＹＳ”
のポケットという解釈をする可能性もある。

【０００５】従来、このような固有名詞は、人手で見つ
け出し、一つ一つ辞書登録していた。一部に、自動的に
未登録語を抽出し辞書登録する技術が開発されているが
（出願番号Ｓ63-186526 ）、この技術で抽出できる未登
録語は、学術用語等の特定の書体の文字に限られてお
り、一般的な固有名詞は抽出できない。

【０００６】

【発明が解決しようとする課題】従来の方式では、人手
で固有名詞を辞書登録しなければならず、この作業に多
大な労力が必要であるという問題がある。

【０００７】本発明は、文章中の固有名詞を自動的に抽
出し、自動的な辞書登録を可能にすることを目的とす
る。

【０００８】

【課題を解決するための手段】図１は、本発明の機能ブ
ロック図である。本発明は、データベースやエキスパー
ト・システム、機械翻訳システム等から出力されるオン
ライン・テキスト１を対象とし、該オンライン・テキス
ト１から固有名詞を自動的に抽出し、辞書７に登録する
ことを前提とする。

【０００９】まず、データベース・アクセス手段２は、
データベース等のシステムをアクセスし、オンライン・
テキスト１を得る。また、得られたオンライン・テキス
ト１のなかで、既に固有名詞を自動抽出登録する処理を
終えたテキストを除外し、未処理のオンライン・テキス
ト１のみを取り出す。

【００１０】次に、固有名詞抽出手段３を有する。固有
名詞抽出手段３は、前記データベース・アクセス手段２
が得た未処理のオンライン・テキスト１を入力とし、固
有名詞の候補を抽出する。このとき、固有名詞パターン
６を使用する。固有名詞パターン６は、固有名詞の特徴
を捕らえたパターンであり、そのパターンとマッチする
語を固有名詞候補とするものである。固有名詞パターン
６は前もって作成しておく。

【００１１】固有名詞判定手段４は、前記固有名詞抽出
手段３によって抽出された固有名詞候補について、辞書
７を検索し、未登録であるか否かを判定する。そして、
固有名詞登録手段５は、前記固有名詞判定手段４が未登
録と判定した語を辞書７に固有名詞として登録する。

【００１２】

【作用】データベース・アクセス手段２がオンライン・
データベース等にアクセスし、オンライン・テキスト１
を得る。対象がオンライン・データベースである場合に
は、例えば一定時間間隔ごとにアクセスし、オンライン
・テキスト１を得る。そして、該オンライン・テキスト
１のなかで、以前にもアクセスしたことのあるテキスト
を除外し、初めてアクセスしたオンライン・テキスト１
のみを固有名詞抽出手段３に送る。対象が機械翻訳シス
テムやエキスパート・システムの場合には、システムが
出力した、あるいはユーザが入力したテキストをデータ
ベース・アクセス手段２が取り込み、固有名詞抽出手段
３に送る。

【００１３】固有名詞抽出手段３は、前もって作成済の
固有名詞パターンと、データベース・アクセス手段２か
ら送られたテキストをマッチングし、マッチする部分を
固有名詞の候補として抽出して固有名詞判定手段４に送
る。

【００１４】固有名詞判定手段４は、送られてきた固有
名詞候補が辞書７に登録されているか否かを判断し、未
登録の語を固有名詞登録手段５に送る。既に登録されて
いる固有名詞候補は再度登録する必要はないので捨て
る。

【００１５】固有名詞登録手段５は、送られてきた語を
固有名詞として辞書７に登録する。この一連の作用をデ
ータベース・アクセス手段２がオンライン・テキスト１
を得る毎に繰り返すことにより、固有名詞が自動的に抽
出され、固有名詞を登録する辞書７が自動的に拡張され
ていくことになる。

【００１６】

【実施例】以下に、本発明の実施例を説明する。システ
ム構成としては、例えば、オンライン・データベースと
通信機能によって接続することが可能なパーソナル・コ
ンピュータやワークステーション上のソフトウエアとし
て実現することができる。また、機械翻訳システムで使
用する場合には、被翻訳対象テキストに対して翻訳の前
処理として実行するソフトウエアとして実現でき、テキ
ストを入力するワークステーション上で、あるいは機械
翻訳システムの前処理ソフトウエアとして実現すること
ができる。

【００１７】以下では、オンライン・データベースから
のオンライン・テキスト中の固有名詞を抽出し、辞書登
録する処理を例に実施例を説明する。図２は、一実施例
の動作フローチャートである。

【００１８】まず、オンライン・データベースに接続す
る（Ｓ１）。この接続は、ユーザのコマンド入力によっ
て行なわれてもよいし、データベース・アクセス手段２
によって一定間隔毎に自動的にワークステーションにロ
グオンして、前もって指定したオンライン・データベー
スに自動的に接続してもよい。

【００１９】次に、接続したデータベースから、オンラ
イン・テキスト１を取り込み、そのなかから、初めてア
クセスするテキスト、すなわち、未だ固有名詞自動抽出
登録処理を行なっていないテキストを取り出し、収集す
る（Ｓ２）。

【００２０】そして、収集した未処理のテキストを対象
に固有名詞の候補を抽出する（Ｓ３）。抽出した固有名
詞候補のなかで、辞書に未登録のものを取り出す（Ｓ
４）。最後に取り出した未登録の固有名詞を辞書７に登
録する（Ｓ５）。

【００２１】図３は、オンライン・データベースへの接
続（Ｓ１）および未処理データの収集（Ｓ２）の処理の
動作フローチャートである。まず、オンライン・データ
ベースに接続する（Ｓ３１）。この処理は、ユーザのコ
マンド入力によって行なうか、所定の時間に、パーソナ
ル・コンピュータあるいはワークステーションが自動的
にコマンドを発生して自動的に接続する。

【００２２】そして、接続したデータベースのなかの取
り出したいデータのキーを選択する（Ｓ３２）。例え
ば、新製品のニュースを取り出したい場合には「新製
品」等の該当するキーを入力する。このキーは前もって
指定しておき、自動的にデータベース検索することがで
きる。

【００２３】この操作により、オンライン・データベー
スは該当するデータを送り返してくる。該当するデータ
が一つもない場合（Ｓ３３のＹｅｓ）には何も実行せず
に処理を終了する。データがある場合には（Ｓ３３のＮ
ｏ、Ｓ３４のＹｅｓ）、該データが既にアクセス済みの
データか否か、すなわち、固有名詞の抽出登録処理を実
行済みが否かを判定する（Ｓ３５）。データにはそのデ
ータを登録した日時が付けてある。そのデータの登録日
時を参照して処理済のデータの登録日時より古いものは
処理済と判定できる。

【００２４】処理済みのデータの場合（Ｙｅｓ）は次の
データの処理（存在するか否かの判定Ｓ３４と処理済み
のデータの判定Ｓ３５）を行なう。未処理のデータの場
合には（Ｓ３５のＮｏ）、該データの内容を取り出して
ファイルに蓄える（Ｓ３６）。そして、次のデータの処
理（Ｓ３４〜Ｓ３６）を該当するデータがなくなるまで
（Ｓ３４のＮｏ）行なう。該当データがなくなった時点
で、ファイルに蓄えた最新のデータの登録日時を記録す
る（Ｓ３７）。この登録日時を後の処理済みデータの判
定Ｓ３５に使用する。

【００２５】図３の動作フローチャートに沿って最新の
データを取り出した後、固有名詞を抽出する処理を行な
う。図４は固有名詞抽出処理の動作フローチャートであ
る。

【００２６】図３の処理で作成した最新データのファイ
ルにアクセスし、データがあるか否かを判定し（Ｓ４
１）、データがある場合（Ｎｏ）にはファイルからデー
タの一文を取り出す（Ｓ４２）。そして、前もって作成
した固有名詞のパターンとマッチングし、マッチするか
否かを判定する（Ｓ４３）。固有名詞のパターンおよび
マッチングについては後述する。

【００２７】パターンとマッチしない場合（Ｎｏ）には
次のデータの処理（Ｓ４１）に移る。一方、パターンと
マッチした場合（Ｙｅｓ）には、マッチした部分を蓄え
ておくメモリ部分にアクセスし、そこに既に蓄えてある
語のなかに同一の語があるか否かを判定する（Ｓ４
４）。今回マッチした部分が既に取り出したことのある
語である場合には（Ｙｅｓ）、次のデータの処理（Ｓ４
１）に移る。一方、まだ取り出したことのなり語である
場合（Ｎｏ）にはマッチする部分をメモリに蓄える（Ｓ
４５）。ここで、このメモリの内容は、固有名詞抽出処
理（図４の動作フローチャート）を始める前にクリアし
ておく。

【００２８】Ｓ４５の後、次のデータの処理に移る（Ｓ
４１）。以上の処理（Ｓ４１〜Ｓ４５）をデータがなく
なったと判定されるまで（Ｓ４１のＹｅｓ）繰り返す。
データがなくなった場合（Ｓ４１のＹｅｓ）には処理を
終了する。

【００２９】図５は、固有名詞の抽出を行なうパターン
・マッチング処理（図４のＳ４３）の動作フローチャー
トである。まず、Ｓ４２で取り出した一文に対して単語
に分割する形態素解析処理を行なう（Ｓ５１）。「Ａは
Ｂを発売した。」という文であれば、Ａ、は、Ｂ、を、
発売した、という５つの形態素に分割される。

【００３０】次に、パターン・マッチング処理を行なう
（Ｓ５２）。固有名詞のパターンは、例えば、ルールと
して記述できる。固有名詞のパターンとパターン・マッ
チングの実例については後述する。

【００３１】パターンがルールで記述されている場合、
ルールを適用し、ルールが成り立つならばパターンとマ
ッチすると判断され、マッチした部分が固有名詞の候補
となる。ルールが成り立たない場合は固有名詞ではない
と判断する。

【００３２】そして、パターンとマッチした場合には、
マッチした部分を取り出す（Ｓ５３）。取り出した部分
が固有名詞の候補である。以上の処理を図４、図５の動
作フローチャートに沿って全データに対して行なうこと
により、メモリ上に固有名詞候補が蓄積される。

【００３３】図６は、固有名詞判定の動作フローチャー
トである。固有名詞判定処理の対象となるのは図４の処
理でメモリ上に蓄えられた固有名詞候補である。まず、
メモリ上に固有名詞候補があるか否かを判定し（Ｓ６
１）、ある場合（ＮＯ）には固有名詞候補を一つ取り出
す（Ｓ６２）。そして、固有名詞の辞書を検索し、該固
有名詞候補が登録されているか否かを判定する（Ｓ６
３）。登録されている場合（Ｙｅｓ）には、次の固有名
詞候補の処理に移る（Ｓ６１）。

【００３４】一方、登録されていない場合には（Ｓ６３
のＮｏ）、固有名詞候補にリストアップする処理（Ｓ６
４）を行なったうえで次の固有名詞候補の処理に移る
（Ｓ６１）。

【００３５】以上の処理（Ｓ６１〜Ｓ６４）を全固有名
詞候補について行なう。メモリ上の全固有名詞候補につ
いて処理を行なったならば（Ｓ６１のＹｅｓ）、処理を
終了する。

【００３６】次に、固有名詞の辞書への登録を行なう。
図７は辞書登録の動作フローチャートである。辞書登録
すべき固有名詞は図６の処理によって固有名詞リストに
リストアップされている。そこで、この固有名詞リスト
を参照し、一つずつ登録処理を行なう。すなわち、固有
名詞リストに語があるか否か判定し（Ｓ７１）、ある場
合には（Ｎｏ）、一つ取り出して（Ｓ７２）、属性を付
加して辞書に登録する（Ｓ７３）。この処理を固有名詞
リストにリストアップされたすべての語について行な
う。すべての語について処理が完了した（Ｓ７１のＹｅ
ｓ）ら処理を終了する。

【００３７】図７の動作フローチャートによって登録処
理を行なうことにより、抽出された固有名詞が自動的に
辞書登録される。これによって、固有名詞の辞書が自動
的に拡張されていくことになる。

【００３８】辞書登録は他にも存在する。図８は、辞書
登録のもう一つの実施例の動作フローチャートである。
まず、図６の処理によって作成された固有名詞リストを
ディスプレイ等に表示し、ユーザに提示する（Ｓ８
１）。ここで、ユーザはこのリストを見て、辞書登録を
する語があるか否かを判定し、登録する語がない場合に
は「終了」と入力する。システムは終了と指定されたか
否かを判定し、終了と指定されていない場合には（Ｎ
ｏ）、どの語を登録するかの選択情報をユーザに指定さ
せる。そして仕手された語を受け取り（Ｓ８３）、属性
を付加して辞書に登録する（Ｓ８４）。登録後、登録を
終了するか否かの判定に戻る（Ｓ８２）。

【００３９】登録する語がないとユーザが判断し、終了
と指定された場合には（Ｓ８２のＹｅｓ）処理を終了す
る。以上、図８の動作フローチャートに沿って辞書登録
することにより、ユーザが指定した語のみを固有名詞の
辞書に登録することも可能である。

【００４０】図９はオンライン・テキストの例、図１０
は固有名詞のパターンの例である。図９に示してあるの
は、新製品ニュースについてのデータベースであり、図
２Ｓ２の未処理データの収集処理において３件のデータ
が収集された場合である（(1) 、(2) 、(3) ）。

【００４１】一方、固有名詞のパターンは図１０に示す
ようなルールで記述することが可能である。同図では、
３種類のパターンを３つのルール（(1) 、(2) 、(3))で
記述している。すなわち、(1) のパターンは、“ある未
登録語「Ｘ」の直後に「、」があり、かつ、その後に括
弧付きの未登録語「「Ｙ」」があり、かつ、さらにその
後に「発売」という語があるならば、「Ｘ」を会社名の
固有名詞、「「Ｙ」」を商品名の固有名詞とする”とい
うルールで記述される。

【００４２】このようなルールは取り出すオンライン・
テキストの特徴に従って作成することが可能である。図
９、図１０の例では、対象が新製品ニュースなので、カ
ンマや括弧付きの未登録語、発売、販売、開発といった
語をキーとして固有名詞抽出ルールを作成している。

【００４３】図５のルール適用処理Ｓ５２では、このよ
うなルールが収集されたオンライン・テキストに適用さ
れる。図９（１）のデータに図１０のルールを適用する
と、タイトルの「富士通（登録商標）、・・・「ＯＡＳ
ＹＳ５０ＮＦ」発売・・」で図１０（１）のルールが
成立し、固有名詞候補Ｘ＝富士通、Ｙ＝「ＯＡＳＹＳ
５０ＮＦ」が抽出される。そしてこの二つの語がメモリ
上に蓄えられる。そして、次の文「富士通はこのほど・
・・「ＯＡＳＹＳ５０ＮＦ」・・開発」は図１０
（３）のルールが成立し、固有名詞候補Ｘ＝富士通、Ｙ
＝「ＯＡＳＹＳ５０ＮＦ」が抽出される。しかし、こ
れらの語は既にメモリ上に蓄えられている語と同じなの
で、図４のＳ４４の処理でメモリ上への格納（Ｓ４５）
は行なわれない。

【００４４】次に、図９（２）のデータに図１０のルー
ルが適用される。これによると、タイトルの「富士通、
『ＯＡＳＹＳＰｏｃｋｅｔ』・・・発売」で図１０
（２）のルールが成立し、固有名詞候補Ｘ＝富士通、Ｙ
＝『ＯＡＳＹＳＰｏｃｋｅｔ』が抽出される。ここで
メモリに蓄えられた語が参照され、富士通は既にメモリ
上に蓄えられているので、『ＯＡＳＹＳＰｏｃｋｅ
ｔ』のみがメモリ上に蓄えられる。以上のような処理を
取り出された全データについて行なうことにより、固有
名詞候補が抽出される。

【００４５】

【発明の効果】本発明によって、テキスト中の固有名詞
を自動的に抽出され、辞書に登録することが可能にな
る。これによって、従来必要であった手作業による固有
名詞の登録処理が自動化され、処理効率が向上する。

【図面の簡単な説明】

【図１】本発明の機能ブロック図である。

【図２】一実施例の動作フローチャートである。

【図３】一実施例のデータベース・アクセスの動作フロ
ーチャートである。

【図４】一実施例の固有名詞抽出の動作フローチャート
である。

【図５】一実施例の固有名詞抽出の詳細動作フローチャ
ートである。

【図６】一実施例の固有名詞判定の動作フローチャート
である。

【図７】一実施例の固有名詞登録の動作フローチャート
である。

【図８】固有名詞登録のもう一つの実施例の動作フロー
チャートである。

【図９】オンライン・テキストの例である。

【図１０】固有名詞のパターンの説明図である。

【符号の説明】

１オンライン・テキスト２データベース・アクセス手段３固有名詞抽出手段４固有名詞判定手段５固有名詞登録手段６固有名詞パターン７辞書

Claims

【特許請求の範囲】

【請求項１】オンライン・データベースやエキスパー
ト・システム、機械翻訳システム等の自然言語インタフ
ェースにおいて、オンライン・テキスト（１）をアクセスするデータベー
ス・アクセス手段（２）と、前もって作成してある固有名詞パターン（６）を参照
し、前記データベース・アクセス手段（２）がアクセス
して得たテキストから固有名詞候補を抽出する固有名詞
抽出手段（３）と、前記固有名詞抽出手段（３）が抽出した固有名詞候補が
既に辞書（７）に登録してあるか否かを判定し、未登録
の固有名詞候補を抽出する固有名詞判定手段（４）と、前記固有名詞判定手段（４）が抽出した未登録の固有名
詞候補を辞書（７）に登録する固有名詞登録手段（５）
とを有することを特徴とする固有名詞の自動抽出方式。
【請求項２】請求項１のデータベース・アクセス手段
（２）は、オンライン・テキスト（１）に一定時間毎に
アクセスすることを特徴とする固有名詞の自動抽出方
式。
【請求項３】請求項１の固有名詞抽出手段（３）は、
固有名詞のパターンを利用してオンライン・テキスト
（１）から固有名詞を抽出することを特徴とする固有名
詞の自動抽出方式。
【請求項４】請求項３記載の固有名詞抽出手段（３）
が使用するパターンは、オンライン・テキスト（１）の
特徴を利用して作成することを特徴とする固有名詞の自
動抽出方式。