JPH04673A - 連語登録方法および装置 - Google Patents
連語登録方法および装置Info
- Publication number
- JPH04673A JPH04673A JP2100484A JP10048490A JPH04673A JP H04673 A JPH04673 A JP H04673A JP 2100484 A JP2100484 A JP 2100484A JP 10048490 A JP10048490 A JP 10048490A JP H04673 A JPH04673 A JP H04673A
- Authority
- JP
- Japan
- Prior art keywords
- collocation
- dictionary
- user
- candidate
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、連語登録方法および装置に関し、さらに詳し
くは、テキストから連語を抽出して辞書に登録する連語
登録方法および装置に関する。
くは、テキストから連語を抽出して辞書に登録する連語
登録方法および装置に関する。
[従来の技術]
自然言語処理システム(例えば自然言語文による質問応
答システムや機械翻訳システム)の処理精度は辞書の精
度に大きく依存しており、対象分野で用いられる専門用
語を漏れなく辞書に登録する必要がある。
答システムや機械翻訳システム)の処理精度は辞書の精
度に大きく依存しており、対象分野で用いられる専門用
語を漏れなく辞書に登録する必要がある。
しかし、専門用語は不変ではなく (例えば、科学技術
の分野における専門用語は技術革新とともに増大する)
、システムを運用しつつ、何回も辞書に追加登録する必
要がある。
の分野における専門用語は技術革新とともに増大する)
、システムを運用しつつ、何回も辞書に追加登録する必
要がある。
ところで、専門用語は、連語によって構成されているこ
とが多いため1、連語を如何に効率良く辞書に登録する
かが重要になる。
とが多いため1、連語を如何に効率良く辞書に登録する
かが重要になる。
この連語の登録に関する従来技術としては、まずテキス
トから単語列を機械的に抽出し、次にその単語列の出現
頻度の小さいものを削除し、残りを連語とする技術が、
[テキスト・データ・ベースからの慣用表現の自動抽出
/情報処理学会第37回(昭和63年後期)全国大会論
文誌7B−6P1032〜P、 1033Jに開示され
ている。
トから単語列を機械的に抽出し、次にその単語列の出現
頻度の小さいものを削除し、残りを連語とする技術が、
[テキスト・データ・ベースからの慣用表現の自動抽出
/情報処理学会第37回(昭和63年後期)全国大会論
文誌7B−6P1032〜P、 1033Jに開示され
ている。
また、まずテキストから単語列を機械的に抽出し、次に
その単語列の出現頻度に基づいて重複のある単語列を削
除し、残りを連語とする技術が、特開平1−10267
9号に開示されている。
その単語列の出現頻度に基づいて重複のある単語列を削
除し、残りを連語とする技術が、特開平1−10267
9号に開示されている。
さらに、連語についてKWICリストを表示し、それを
ガイドとしてユーザに連語についての情報を入力させ、
辞書を更新する技術が、特開昭63261467号に開
示されている。
ガイドとしてユーザに連語についての情報を入力させ、
辞書を更新する技術が、特開昭63261467号に開
示されている。
[発明が解決しようとする課題]
上記従来技術のうち、単語列の出現頻度に基づいて単語
列の一部を削除し、残りを連語とするものでは、連語と
したものの中にも連語として不適切な単語列が残る問題
点がある。
列の一部を削除し、残りを連語とするものでは、連語と
したものの中にも連語として不適切な単語列が残る問題
点がある。
他方、連語についてKWICリストを表示する従来技術
では、その表示を見てユーザか連語としての適切性を判
定することが出来るが、単語列の出現回数だけその単語
列を含む文が表示されるため、リストの量が膨大となり
、ユーザにかかる負担が大きくなる問題がある。
では、その表示を見てユーザか連語としての適切性を判
定することが出来るが、単語列の出現回数だけその単語
列を含む文が表示されるため、リストの量が膨大となり
、ユーザにかかる負担が大きくなる問題がある。
そこで、本発明の目的は、テキストから連語を適切に抽
出して辞書に登録することが出来ると共に、ユーザにか
かる負担を軽減することができる連語登録方法および装
置を提供することにある。
出して辞書に登録することが出来ると共に、ユーザにか
かる負担を軽減することができる連語登録方法および装
置を提供することにある。
[課題を解決するための手段〕
本発明は、所与のテキストから所定の連語候補抽出規則
に基づいて連語候補を抽出する連語候補抽出ステップと
、前記抽出した各連語候補をユーザに提示し、1つの連
語候補を指定させる連語候補提示ステップと、ユーザが
指定した連語候補と包含関係にある他の連語候補を選び
出し、これらの連語候補を包含関係が分かる形式でユー
ザに提示する包含関係提示ステップと、ユーザが指定し
た連語候補についての所定の情報をユーザに入力させ、
その連語候補を連語として前記情報と共に辞書に登録す
る辞書登録ステップとを有することをさらに有する連語
登録方法を提供する。
に基づいて連語候補を抽出する連語候補抽出ステップと
、前記抽出した各連語候補をユーザに提示し、1つの連
語候補を指定させる連語候補提示ステップと、ユーザが
指定した連語候補と包含関係にある他の連語候補を選び
出し、これらの連語候補を包含関係が分かる形式でユー
ザに提示する包含関係提示ステップと、ユーザが指定し
た連語候補についての所定の情報をユーザに入力させ、
その連語候補を連語として前記情報と共に辞書に登録す
る辞書登録ステップとを有することをさらに有する連語
登録方法を提供する。
また、本発明は、上記連語登録方法を好適に実施する連
語登録装置を提供する。
語登録装置を提供する。
[作用]
本発明の連語登録方法では、連語候補抽出ステップにお
いて、テキストから単語列を抽出し、必要に応じて出現
頻度に基づく単語列の削除や、形態素解析/構文解析に
よる単語列の削除を行うことにより、可能な限り無意味
な単語列を除去して、連語候補を得る。また、包含関係
提示ステップにおいて、連語候補間の包含関係が容易に
把握できる形式の包含関係リストを生成し、表示する。
いて、テキストから単語列を抽出し、必要に応じて出現
頻度に基づく単語列の削除や、形態素解析/構文解析に
よる単語列の削除を行うことにより、可能な限り無意味
な単語列を除去して、連語候補を得る。また、包含関係
提示ステップにおいて、連語候補間の包含関係が容易に
把握できる形式の包含関係リストを生成し、表示する。
このように、連語候補間の包含関係が容易に把握できる
形式の包含関係リストを表示するから、ユーザは、容易
に無意味な単語列を除去できるようになる。従って、テ
キストから連語を適切に抽出し、辞書に登録することが
出来るようになる。
形式の包含関係リストを表示するから、ユーザは、容易
に無意味な単語列を除去できるようになる。従って、テ
キストから連語を適切に抽出し、辞書に登録することが
出来るようになる。
[実施例コ
以下、本発明の実施例を図面に基づいて詳細に説明する
。なお、これにより本発明が限定されるものではない。
。なお、これにより本発明が限定されるものではない。
第1図は、本発明の一実施例の連語辞書保守袋W50の
ブロック図である。
ブロック図である。
この連語辞書保守装置50は、英文テキストを記憶する
テキストファイル1と、そのテキストファイル1の英文
テキストを編集するためのテキスト編集手段7と、英文
テキストから連語候補を抽出するための規則を記憶した
連語候補抽出規則ファイルと、単語情報を蓄えた単語辞
書5と、前記テキストファイル1の英文テキストから前
記連語候補抽出規則ファイル3の連語候補抽出規則や前
記単語辞書5の辞書情報に基づいて連語候補を抽出する
連語候補抽出手段6と、抽出した連語候補を記憶する連
語候補ファイル2と、その連語候補ファイル2の連語候
補の相互の包含関係を把握できる形式のリストを生成し
たり連語候補が出現する文脈を把握できるようにKWI
Cリストを生成するリスト生成手段9と、連語候補に対
してユーザが設定した訳語などの情報をもとに辞書情報
を作成する辞書保守手段8と1作成した辞書情報を蓄え
る連語辞書4と、前記連語候補や前記リストや前記辞書
情報をユーザに提示するための表示手段12と、ユーザ
がデータを入力するための入力手段11と、前記テキス
ト編集手段7や前記リスト生成手段9や前記辞書保守手
段8を制御すると共にデータの入出力などの制御を行な
う制御手段10とを具備している。
テキストファイル1と、そのテキストファイル1の英文
テキストを編集するためのテキスト編集手段7と、英文
テキストから連語候補を抽出するための規則を記憶した
連語候補抽出規則ファイルと、単語情報を蓄えた単語辞
書5と、前記テキストファイル1の英文テキストから前
記連語候補抽出規則ファイル3の連語候補抽出規則や前
記単語辞書5の辞書情報に基づいて連語候補を抽出する
連語候補抽出手段6と、抽出した連語候補を記憶する連
語候補ファイル2と、その連語候補ファイル2の連語候
補の相互の包含関係を把握できる形式のリストを生成し
たり連語候補が出現する文脈を把握できるようにKWI
Cリストを生成するリスト生成手段9と、連語候補に対
してユーザが設定した訳語などの情報をもとに辞書情報
を作成する辞書保守手段8と1作成した辞書情報を蓄え
る連語辞書4と、前記連語候補や前記リストや前記辞書
情報をユーザに提示するための表示手段12と、ユーザ
がデータを入力するための入力手段11と、前記テキス
ト編集手段7や前記リスト生成手段9や前記辞書保守手
段8を制御すると共にデータの入出力などの制御を行な
う制御手段10とを具備している。
第2図は、前記連語辞書保守装置50の作動のフローチ
ャートである。
ャートである。
ステップ101では、制御手段10は、ユーザに対して
パラメータの値を入力するように要求する。ユーザは、
パラメータとして、連語候補を抽出する対象となる英文
テキストの指定情報や、抽出する連語候補の単語数や、
出現頻度の閾値や。
パラメータの値を入力するように要求する。ユーザは、
パラメータとして、連語候補を抽出する対象となる英文
テキストの指定情報や、抽出する連語候補の単語数や、
出現頻度の閾値や。
連語候補を抽出する処理方式の指定情報などを入力する
。
。
ステップ102では、連語候補抽出手段6は、前記ユー
ザの入力したパラメータに基づいて英文テキストから連
語候補を抽出し、抽出した連語候補を連語候補ファイル
2に記憶する。この連語候補抽出処理のフローチャート
を第3図に示す。
ザの入力したパラメータに基づいて英文テキストから連
語候補を抽出し、抽出した連語候補を連語候補ファイル
2に記憶する。この連語候補抽出処理のフローチャート
を第3図に示す。
すなわち、第3図において、ステップ301では、制御
手段1oは、前記第1図のステップ101でユーザが入
力したパラメータの値を連語抽出手段6に設定する。
手段1oは、前記第1図のステップ101でユーザが入
力したパラメータの値を連語抽出手段6に設定する。
ステップ302では、連語候補抽出手段6は、指定の英
文テキストから指定の条件にあう単語列を指定の抽出処
理方式で抽出する。
文テキストから指定の条件にあう単語列を指定の抽出処
理方式で抽出する。
抽出処理方式としては、(1)指定の単語数の条件を満
たす単語列を全て抽出する方式や、(2)所定の抽出パ
ターンにマツチする単語列だけを抽出する方式がある。
たす単語列を全て抽出する方式や、(2)所定の抽出パ
ターンにマツチする単語列だけを抽出する方式がある。
前者を第4図(1)に示す(但し、指定の単語数を「2
」とした場合)。後者を第4図(2)に示す(但し、抽
出パターンを名詞句とした場合)。
」とした場合)。後者を第4図(2)に示す(但し、抽
出パターンを名詞句とした場合)。
なお、第4図(2)では、各単語には1つの品詞だけを
あてているが、複数の品詞をあてて、その場合に形成さ
れる全ての名詞句を抽出するようにしてもよい。また、
第4図(2)では、専門用語は名詞句が多いという特徴
を考慮して、抽出パターンを名詞句に固定しているが、
ユーザがパラメータの一つとして抽出パターンを指定す
るようにしてもよい。
あてているが、複数の品詞をあてて、その場合に形成さ
れる全ての名詞句を抽出するようにしてもよい。また、
第4図(2)では、専門用語は名詞句が多いという特徴
を考慮して、抽出パターンを名詞句に固定しているが、
ユーザがパラメータの一つとして抽出パターンを指定す
るようにしてもよい。
ステップ303では、抽出した単語列の中から無意味な
単語列を削除する。例えば、第4図(1)では、連語候
補として不適切な単語列(例えば、■■)も抽出されて
いるが、これらは無意味な単語列を削除するための規則
を連語抽出規則ファイル3に設定し、その規則を適用す
ることによって除去可能である。例えば「冠詞(あるい
は、単語“a” ”the”、 an″)は単語
列の右端にはならない」という規則を設定しておけば、
第4図(1)の■を除去できる。また、連語辞書4に既
に登録されている単語列か否かをチェックし、既に登録
されていれば、削除する。
単語列を削除する。例えば、第4図(1)では、連語候
補として不適切な単語列(例えば、■■)も抽出されて
いるが、これらは無意味な単語列を削除するための規則
を連語抽出規則ファイル3に設定し、その規則を適用す
ることによって除去可能である。例えば「冠詞(あるい
は、単語“a” ”the”、 an″)は単語
列の右端にはならない」という規則を設定しておけば、
第4図(1)の■を除去できる。また、連語辞書4に既
に登録されている単語列か否かをチェックし、既に登録
されていれば、削除する。
ステップ304では、連語候補抽出手段6は、抽出した
単語列をソートし、重複する単語列を削除し、各単語列
の出現頻度を求める。この際、活用形を含む単語列に対
しては、パターンとして一般化できる場合は一般化して
出現頻度を算出する。
単語列をソートし、重複する単語列を削除し、各単語列
の出現頻度を求める。この際、活用形を含む単語列に対
しては、パターンとして一般化できる場合は一般化して
出現頻度を算出する。
例えば、jstructural ambiguity
j と rstruc−tural ambigui
tiesJの2つの単語列の場合、複数型である後者を
単数型の前者に一般化し、出現頻度を合計する。そして
、この種の単語列をユーザに提示する際には、どの単語
か活用形を一般化したものかを認識可能な形態で提示す
る。一方、例えばrvending machineJ
という単語列を抽出し、活用形を考えて一般化しf
vend machineJとしても、fvend m
achineJという単語列が存在しない場合は、元の
rvending machineJをそのまま単語列
として採用する。
j と rstruc−tural ambigui
tiesJの2つの単語列の場合、複数型である後者を
単数型の前者に一般化し、出現頻度を合計する。そして
、この種の単語列をユーザに提示する際には、どの単語
か活用形を一般化したものかを認識可能な形態で提示す
る。一方、例えばrvending machineJ
という単語列を抽出し、活用形を考えて一般化しf
vend machineJとしても、fvend m
achineJという単語列が存在しない場合は、元の
rvending machineJをそのまま単語列
として採用する。
出現頻度を算出した後、指定された出現頻度の閾値未満
の出現頻度の単語列を削除する。
の出現頻度の単語列を削除する。
ステップ305では、連語候補抽出手段6は、残った単
語列を連語候補としてその出現頻度と共に連語候補ファ
イル2に書き込む。
語列を連語候補としてその出現頻度と共に連語候補ファ
イル2に書き込む。
以上によって、英文テキストから連語候補が抽出され、
連語候補ファイル2に蓄積される。
連語候補ファイル2に蓄積される。
ステップ103では、制御手段10は、表示手段12に
おいて前記連語候補やその他の情報を表示する。第5図
はその表示画面の一例であり、1202が連語候補の表
示ウィンドウである。また、1201は各種処理を起動
するためのメニューウィンドウである。なお、第5図で
は、連語候補を英文テキスト中での出現頻度の大きい順
に表示しているが、他の順序(例えばABC順)で表示
するようにメニューウィンドウ1201で選択できるよ
うにすることも可能である。
おいて前記連語候補やその他の情報を表示する。第5図
はその表示画面の一例であり、1202が連語候補の表
示ウィンドウである。また、1201は各種処理を起動
するためのメニューウィンドウである。なお、第5図で
は、連語候補を英文テキスト中での出現頻度の大きい順
に表示しているが、他の順序(例えばABC順)で表示
するようにメニューウィンドウ1201で選択できるよ
うにすることも可能である。
ステップ104では、ユーザは、表示ウィンドウ120
2を参照し、注目する連語候補があるかチェックする。
2を参照し、注目する連語候補があるかチェックする。
この際、メニューウィンドウ1201のスクロール機能
「↑」 「↓」を用いて、ウィンドウ1202に表示し
きれない連語候補を参照できる。注目する連語候補がな
ければ、連語抽出処理を終了する。注目する連語候補が
あれば、ステップ105に進む。
「↑」 「↓」を用いて、ウィンドウ1202に表示し
きれない連語候補を参照できる。注目する連語候補がな
ければ、連語抽出処理を終了する。注目する連語候補が
あれば、ステップ105に進む。
ステップ105では、ユーザは、マウス等の入力手段1
1を用いて、注目する連語候補を指定する。
1を用いて、注目する連語候補を指定する。
ステップ106では、ユーザは、メニューウィンドウ1
201の「包含関係J rKWICJ r辞書登録
」 「完了」のいずれかの機能を選択する。
201の「包含関係J rKWICJ r辞書登録
」 「完了」のいずれかの機能を選択する。
「包含関係」を選択すると、ステップ107に進む。r
KWIcJを選択すると、ステップ108に進む。「辞
書登録」を選択すると、ステップ109に進む。「完了
」を選択すると、前記ステップ104に戻る。
KWIcJを選択すると、ステップ108に進む。「辞
書登録」を選択すると、ステップ109に進む。「完了
」を選択すると、前記ステップ104に戻る。
ステップ107では、リスト生成手段9は、前記ステッ
プ105で指定した連語候補と包含関係にある他の連語
候補を前記連語候補ファイル2から取り出し、相互に共
通する単語列の位置を揃えてリスト化した包含関係リス
トを生成し、表示装置12において表示する。第6図は
その表示画面の一例であり、1203が前記包含関係リ
ストを表示するウィンドウである。なお、第6図は、前
記ステップ105で連語候補rLINE FEEDJが
指定された場合で、連語候補rLINE FEEDJ
を含む他の連語候補rLTNE FEED MODE
、J 、 rLINE FEEDKEYJ 、 r
PREssING LINE FEEDJ 、 r
PREssrNGLINE FEED KEYJ等が
連語候補ファイル2から取り出され、共通する単語列[
LINE FEEDI の位置を揃えてウィンドウ1
203に表示されている。
プ105で指定した連語候補と包含関係にある他の連語
候補を前記連語候補ファイル2から取り出し、相互に共
通する単語列の位置を揃えてリスト化した包含関係リス
トを生成し、表示装置12において表示する。第6図は
その表示画面の一例であり、1203が前記包含関係リ
ストを表示するウィンドウである。なお、第6図は、前
記ステップ105で連語候補rLINE FEEDJが
指定された場合で、連語候補rLINE FEEDJ
を含む他の連語候補rLTNE FEED MODE
、J 、 rLINE FEEDKEYJ 、 r
PREssING LINE FEEDJ 、 r
PREssrNGLINE FEED KEYJ等が
連語候補ファイル2から取り出され、共通する単語列[
LINE FEEDI の位置を揃えてウィンドウ1
203に表示されている。
ユーザは、注目する連語候補と包含関係にある連語候補
系列を参照することによって、無意味な単語列を容易に
見つけ出すことが出来る。例えば、第5図の連語候補r
PREssING LINE FEEDJは、その出
現頻度より明らかに、rPREssING LINE
FEED KEYJの部分としてだけ出現するから、
独立した連語としては意味を持たないことが分かる。
系列を参照することによって、無意味な単語列を容易に
見つけ出すことが出来る。例えば、第5図の連語候補r
PREssING LINE FEEDJは、その出
現頻度より明らかに、rPREssING LINE
FEED KEYJの部分としてだけ出現するから、
独立した連語としては意味を持たないことが分かる。
なお、連語候補の出現頻度を重複分を引いた値で表示す
れば、無意味な単語列をさらに容易に見つけ出すことが
出来る。
れば、無意味な単語列をさらに容易に見つけ出すことが
出来る。
ステップ108では、リスト生成手段9は、前記ステッ
プ105で指定した連語候補を含む文を編集してKWI
Cリストを生成し、表示手段12において表示する。第
7図はその表示画面の一例であり、1204が前記KW
ICリストを表示するウィンドウである。なお、KWI
Cリストは、注目する連語候補の位置をそろえて文を見
やすくリスト化したものであり、注目する連語候補か如
何なる文脈に出現しているのかを容易に把握することが
出来る。
プ105で指定した連語候補を含む文を編集してKWI
Cリストを生成し、表示手段12において表示する。第
7図はその表示画面の一例であり、1204が前記KW
ICリストを表示するウィンドウである。なお、KWI
Cリストは、注目する連語候補の位置をそろえて文を見
やすくリスト化したものであり、注目する連語候補か如
何なる文脈に出現しているのかを容易に把握することが
出来る。
ステップ109では、辞書保守手段8は、前記ステップ
105で指定した連語候補を連語辞書4に登録するため
に必要な辞書情報の入力をユーザに要求し、ユーザか入
力すると、連語辞書4に登録する。第8図に示すウィン
ドウ1205は、辞書情報の入力をユーザに要求するウ
ィンドウであり、指定された連語候補rLINE F
EEDJが専門用語の欄に表示されている。ユーザは、
見出し語。
105で指定した連語候補を連語辞書4に登録するため
に必要な辞書情報の入力をユーザに要求し、ユーザか入
力すると、連語辞書4に登録する。第8図に示すウィン
ドウ1205は、辞書情報の入力をユーザに要求するウ
ィンドウであり、指定された連語候補rLINE F
EEDJが専門用語の欄に表示されている。ユーザは、
見出し語。
品詞、意味コード、訳語の欄に入力する。例えば、見出
し語の欄にはr FEEDJを入力し、品詞の欄には名
詞を表わすrNJを入力し、意味コードの欄には動作を
表わすrBJを入力し、訳語の欄には「改行」を入力す
る。
し語の欄にはr FEEDJを入力し、品詞の欄には名
詞を表わすrNJを入力し、意味コードの欄には動作を
表わすrBJを入力し、訳語の欄には「改行」を入力す
る。
なお、辞書保守手段8は、注目する連語候補の構文的・
意味的なパターンから中心語(ヘッド)を決定し、その
中心語を見出し語の欄に暫定値として設定すると共にそ
の中心語の辞書情報に基づいて品詞、意味コード、訳語
の値を推定し、暫定値として各欄に自動設定する。この
ため、多くの場合は自動設定された値を確定する入力を
行なうだけでよく、ユーザの入力の手間が軽減される。
意味的なパターンから中心語(ヘッド)を決定し、その
中心語を見出し語の欄に暫定値として設定すると共にそ
の中心語の辞書情報に基づいて品詞、意味コード、訳語
の値を推定し、暫定値として各欄に自動設定する。この
ため、多くの場合は自動設定された値を確定する入力を
行なうだけでよく、ユーザの入力の手間が軽減される。
前記中心語の決定方法としては、例えば連語候補の最後
の単語や、前置詞句の前の単語を中心語とするものが挙
げられる。
の単語や、前置詞句の前の単語を中心語とするものが挙
げられる。
ユーザは、ウィンドウ1205に暫定値が表示されてい
る状態で見出し語を変えることか出来る。
る状態で見出し語を変えることか出来る。
見出し語を変えると、辞書保守手段8は、その見出し語
の辞書情報に基づいて品詞、意味コード。
の辞書情報に基づいて品詞、意味コード。
訳語の暫定値を自動設定する。
また、ユーザは、ウィンドウ1205に表示されている
値を確定させた後で、見出し語1品詞。
値を確定させた後で、見出し語1品詞。
意味コード、訳語を個別に変えることが出来る。
以上説明したように、ユーザはシステムが抽出した連語
候補に関し、その出現頻度や他の連語候補との包含関係
、英文テキスト上での文脈などを包含関係リストやKW
ICリストで調べ、登録すべき連語か否かを判断するこ
とが出来る。そして、登録すべき連語であると判断した
場合は、容易に情報を設定して、連語辞書4に登録する
ことが出来る。
候補に関し、その出現頻度や他の連語候補との包含関係
、英文テキスト上での文脈などを包含関係リストやKW
ICリストで調べ、登録すべき連語か否かを判断するこ
とが出来る。そして、登録すべき連語であると判断した
場合は、容易に情報を設定して、連語辞書4に登録する
ことが出来る。
本発明の他の実施例としては、第3図のステップ302
またはステップ304において、抽出した単語列が既に
連語辞書4に登録済みか否かをチェックし、登録済みの
単語列は自動削除するものが挙げられる。あるいは、登
録済みの単語列を自動削除せずに、登録済みであること
が分かるように表示色を変えるなどして表示装置12の
ウィンドウ1202に表示し、ユーザに削除させるもの
が挙げられる。いずれにしても、無駄な辞書登録処理を
避けることが出来る。
またはステップ304において、抽出した単語列が既に
連語辞書4に登録済みか否かをチェックし、登録済みの
単語列は自動削除するものが挙げられる。あるいは、登
録済みの単語列を自動削除せずに、登録済みであること
が分かるように表示色を変えるなどして表示装置12の
ウィンドウ1202に表示し、ユーザに削除させるもの
が挙げられる。いずれにしても、無駄な辞書登録処理を
避けることが出来る。
また、他の実施例としては、前記第5図、第6図、第7
図のように、「包含関係」のウィンドウ1203と、
rKWI CJのウィンドウ1204と、 「辞書登
録」のウィンドウ1205を択一的に表示せずに、これ
らウィンドウ1203,1204.1205をオーバー
ラツプして一時に表示するものが挙げられる。
図のように、「包含関係」のウィンドウ1203と、
rKWI CJのウィンドウ1204と、 「辞書登
録」のウィンドウ1205を択一的に表示せずに、これ
らウィンドウ1203,1204.1205をオーバー
ラツプして一時に表示するものが挙げられる。
また、さらに他の実施例としては、第3図のステップ1
05で、連語候補表示用ウィンドウ1202に表示され
た連語候補の中からユーザが所望の連語候補を指定する
だけでなく、「包含関係」のウィンドウ1203や、r
KWIcJのウインドウ1204や7 「辞書登録」の
ウィンドウ1205に表示された単語列をも連語候補と
して指定できるようにしたものが挙げられる。また、編
集手段7で英文テキストを編集するときのウィンドウ(
図示省略)に表示された単語列をも連語候補として指定
できるようにしたものが挙げられる。
05で、連語候補表示用ウィンドウ1202に表示され
た連語候補の中からユーザが所望の連語候補を指定する
だけでなく、「包含関係」のウィンドウ1203や、r
KWIcJのウインドウ1204や7 「辞書登録」の
ウィンドウ1205に表示された単語列をも連語候補と
して指定できるようにしたものが挙げられる。また、編
集手段7で英文テキストを編集するときのウィンドウ(
図示省略)に表示された単語列をも連語候補として指定
できるようにしたものが挙げられる。
さらに他の実施例としては、英語−日本語以外の言語の
翻訳用辞書を保守する装置として本発明を適用したもの
が挙げられる。
翻訳用辞書を保守する装置として本発明を適用したもの
が挙げられる。
また、翻訳以外の処理(例えばデータベース検索)を行
なう自然言語処理システムで使う連語辞書を保守する装
置として本発明を適用したものが挙げられる。
なう自然言語処理システムで使う連語辞書を保守する装
置として本発明を適用したものが挙げられる。
[発明の効果コ
本発明の連語登録方法および装置によれば、自動的に除
去することのできない不適切な連語候補をユーザが容易
に認識することができるような形式で、テキストから抽
出した連語候補を提示するから、ユーザに大きな負担を
かけることなく、適切な連語を辞書に登録することが出
来るようになる。
去することのできない不適切な連語候補をユーザが容易
に認識することができるような形式で、テキストから抽
出した連語候補を提示するから、ユーザに大きな負担を
かけることなく、適切な連語を辞書に登録することが出
来るようになる。
第1図は本発明の一実施例の連語辞書保守装置のブロッ
ク図、第2図は第1図の連語辞書保守装置の処理のフロ
ーチャート、第3図は連語候補抽出処理のフローチャー
ト、第4図(1)(2)は連語候補抽出方式の説明図、
第5図は連語候補を提示する画面の例示図、第6図は包
含関係リストを提示する画面の例示図、第7図はKWI
Cリストを提示する画面の例示図、第8図は辞書情報を
提示する画面の例示図である。 (符号の説明) 50・・・連語辞書保守装置 1・・・テキストファイル、 2・・・連語候補ファイル、 3・・・連語候補抽出規則ファイル、 4・・・連語辞書、 5・・・単語辞書、 6・・・連語候補抽出手段、 7・・・テキスト編集手段、 8・・・辞書保守手段、 9・・・リスト生成手段、 10・・・制御手段、 11・・・入力手段、 12・・・表示手段。 第1図
ク図、第2図は第1図の連語辞書保守装置の処理のフロ
ーチャート、第3図は連語候補抽出処理のフローチャー
ト、第4図(1)(2)は連語候補抽出方式の説明図、
第5図は連語候補を提示する画面の例示図、第6図は包
含関係リストを提示する画面の例示図、第7図はKWI
Cリストを提示する画面の例示図、第8図は辞書情報を
提示する画面の例示図である。 (符号の説明) 50・・・連語辞書保守装置 1・・・テキストファイル、 2・・・連語候補ファイル、 3・・・連語候補抽出規則ファイル、 4・・・連語辞書、 5・・・単語辞書、 6・・・連語候補抽出手段、 7・・・テキスト編集手段、 8・・・辞書保守手段、 9・・・リスト生成手段、 10・・・制御手段、 11・・・入力手段、 12・・・表示手段。 第1図
Claims (1)
- 【特許請求の範囲】 1、所与のテキストから所定の連語候補抽出規則に基づ
いて連語候補を抽出する連語候補抽出ステップと、 前記抽出した各連語候補をユーザに提示し、1つの連語
候補を指定させる連語候補提示ステップと、 ユーザが指定した連語候補と包含関係にある他の連語候
補を選び出し、これらの連語候補を包含関係が分かる形
式でユーザに提示する包含関係提示ステップと、 ユーザが指定した連語候補についての所定の情報をユー
ザに入力させ、その連語候補を連語として前記情報と共
に辞書に登録する辞書登録ステップと を有することを特徴とする連語登録方法。 2、ユーザが指定した連語候補を含む文をテキストから
抽出し、KWICリストの形式でユーザに提示するKW
IC提示ステップをさらに有する請求項1の連語登録方
法。 3、辞書登録ステップにおいて、 ユーザが指定した連語候補のパターンに応じて中心語を
推定し、その中心語の辞書情報を辞書から引き出してそ
れを前記連語候補の辞書情報の暫定値としてユーザに提
示し、その暫定値が適正か否かの情報をユーザに入力さ
せ、適正との入力があれば前記暫定値を前記連語候補の
辞書情報として辞書に登録する請求項1または請求項2
の連語登録方法。 4、辞書登録ステップにおいて、 ユーザが指定した連語候補を構成する単語の1つを中心
語としてユーザに選択させ、その中心語の辞書情報を辞
書から引き出してそれを前記連語候補の辞書情報の暫定
値としてユーザに提示し、その暫定値が適正か否かの情
報をユーザに入力させ、適正であれば前記暫定値を前記
連語候補の辞書情報として辞書に登録する請求項1また
は請求項2の連語登録方法。 5、辞書登録ステップにおいて、 ユーザが指定した連語候補を構成する各単語の辞書情報
を辞書から引き出して結合し、それを前記連語候補の辞
書情報の暫定値としてユーザに提示し、その暫定値が適
正か否かの情報をユーザに入力させ、適正であれば前記
暫定値を前記連語候補の辞書情報として辞書に登録する
請求項1または請求項2の連語登録方法。 6、連語候補抽出ステップにおいて、 テキストから抽出した各連語候補が既に辞書に登録済か
否かをチェックし、登録済のものは連語候補から削除す
る請求項1から請求項5のいずれかの連語登録方法。 7、単語および連語の辞書情報を登録した辞書と、 テキストから連語候補を抽出するための連語候補抽出規
則を記憶した連語候補抽出規則ファイルと、 テキストから前記辞書情報と前記連語抽出規則とに基づ
いて連語候補を抽出する連語候補抽出手段と、 抽出された連語候補を表示装置で表示する連語候補表示
手段と、 表示された連語候補の中の1つをユーザに指定させるた
めの連語候補指定手段と、 ユーザが指定した連語候補と包含関係にある他の連語候
補を選び出し、これらの連語候補を包含関係が分かる形
式で表示装置で表示する包含関係表示手段と、 ユーザが指定した連語候補についての所定の情報をユー
ザに入力させるための情報入力手段と、 ユーザが指定した連語候補を連語として前記入力された
情報と共に辞書に登録する辞書登録手段と を具備したことを特徴とする連語登録装置。 8、ユーザが指定した連語候補を含む文をテキストから
抽出し、KWICリストの形式でユーザに提示するKW
IC提示手段をさらに具備してなる請求項7の連語登録
装置。 9、情報入力手段が、ユーザの指定した連語候補のパタ
ーンに応じて中心語を推定し、中心語の辞書情報を辞書
から引き出してそれを前記連語候補の辞書情報の暫定値
としてユーザに提示する暫定値提示手段と、その暫定値
が適正か否かの情報をユーザに入力させる確認入力手段
とを具備してなり、 辞書登録手段が、前記暫定値が適正との入力があったと
きに、前記暫定値を前記連語候補の辞書情報として辞書
に登録する請求項7または請求項8の連語登録装置。 10、情報入力手段が、ユーザの指定した連語候補を構
成する単語の1つを中心語として指定させる中心語指定
手段と、指定された中心語の辞書情報を辞書から引き出
してそれを前記連語候補の辞書情報の暫定値としてユー
ザに提示する暫定値提示手段と、その暫定値が適正か否
かの情報をユーザに入力させる確認入力手段とを具備し
てなり、 辞書登録手段が、前記暫定値が適正との入力があったと
きに前記暫定値を前記連語候補の辞書情報として辞書に
登録する 請求項7または請求項8の連語登録装置。 11、情報入力手段が、ユーザの指定した連語候補を構
成する各単語の辞書情報を辞書から引き出して結合しそ
れを前記連語候補の辞書情報の暫定値としてユーザに提
示する暫定値提示手段と、その暫定値が適正か否かの情
報をユーザに入力させる確認入力手段とを具備してなり
、 辞書登録手段が、前記暫定値が適正との入力があったと
きに前記暫定値を前記連語候補の辞書情報として辞書に
登録する 請求項7または請求項8の連語登録装置。 12、辞書が、言語翻訳用の対訳辞書であって、訳語を
辞書情報として含み、 情報入力手段が、ユーザの指定した連語候補を構成する
各単語の訳語を辞書から引き出して結合しそれを前記連
語候補の訳語の暫定値としてユーザに提示する暫定値提
示手段と、その暫定値が適正か否かの情報をユーザに入
力させる確認入力手段とを具備してなり、 辞書登録手段が、前記暫定値が適正との入力があったと
きに前記暫定値を前記連語候補の辞書情報として辞書に
登録する 請求項7から請求項11のいずれかの連語登録装置。 13、連語候補抽出手段が、テキストから抽出した各連
語候補が既に辞書に登録済か否かをチェックする登録チ
ェック手段と、登録済のものは連語候補から削除する連
語候補絞り込み手段とを具備してなる請求項7から請求
項12のいずれかの連語登録装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2100484A JPH04673A (ja) | 1990-04-18 | 1990-04-18 | 連語登録方法および装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2100484A JPH04673A (ja) | 1990-04-18 | 1990-04-18 | 連語登録方法および装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04673A true JPH04673A (ja) | 1992-01-06 |
Family
ID=14275205
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2100484A Pending JPH04673A (ja) | 1990-04-18 | 1990-04-18 | 連語登録方法および装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04673A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08305730A (ja) * | 1995-05-01 | 1996-11-22 | Xerox Corp | 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 |
| US5579722A (en) * | 1994-07-06 | 1996-12-03 | Uni-Charm Corporation | Absorbent composite panel for pet animal |
| US5797347A (en) * | 1995-08-02 | 1998-08-25 | Uni-Charm Corporation | Absorbent panel for pet animals |
| JP2012141783A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | 情報処理装置、複合語抽出方法、及び複合語抽出プログラム |
-
1990
- 1990-04-18 JP JP2100484A patent/JPH04673A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5579722A (en) * | 1994-07-06 | 1996-12-03 | Uni-Charm Corporation | Absorbent composite panel for pet animal |
| JPH08305730A (ja) * | 1995-05-01 | 1996-11-22 | Xerox Corp | 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 |
| US5797347A (en) * | 1995-08-02 | 1998-08-25 | Uni-Charm Corporation | Absorbent panel for pet animals |
| JP2012141783A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | 情報処理装置、複合語抽出方法、及び複合語抽出プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0201324B1 (en) | Language forming system | |
| JPH04673A (ja) | 連語登録方法および装置 | |
| JPH11328166A (ja) | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0877196A (ja) | 文書情報抽出装置 | |
| JP3311567B2 (ja) | 対訳文対応付け装置 | |
| JP2947686B2 (ja) | 翻訳支援システムにおける検索結果表示方式 | |
| JP2536221B2 (ja) | 複合語抽出装置 | |
| JPH0877179A (ja) | 文書索引生成装置 | |
| JPH1011431A (ja) | 漢字検索装置および方法 | |
| JPH1031676A (ja) | 対訳例文検索装置 | |
| JPS62163174A (ja) | 機械翻訳装置 | |
| JPH03260764A (ja) | 翻訳用辞書登録方式 | |
| JP4043176B2 (ja) | 自然言語処理装置 | |
| JPH08297675A (ja) | 翻訳支援装置 | |
| JPH0612453A (ja) | 未知語抽出登録装置 | |
| JP3376047B2 (ja) | プログラム編集装置 | |
| JPH08263490A (ja) | 法規文書更新システム | |
| JPH0778166A (ja) | 翻訳方法及び機械翻訳装置 | |
| JP3051747B2 (ja) | 機械翻訳方法及び機械翻訳システム | |
| JP2001067356A (ja) | 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
| JPS62282364A (ja) | 文字列検索方式 | |
| JPH0773185A (ja) | 機械翻訳装置及び方法 | |
| JP2009211691A (ja) | 翻訳支援システム及びその方法及びそのプログラム | |
| JPH07262189A (ja) | 文型パタン抽出装置 | |
| JPS62245368A (ja) | 文章編集装置 |