JPH05290081A - 辞書作成装置及び言語解析装置 - Google Patents

辞書作成装置及び言語解析装置

Info

Publication number
JPH05290081A
JPH05290081A JP4118193A JP11819392A JPH05290081A JP H05290081 A JPH05290081 A JP H05290081A JP 4118193 A JP4118193 A JP 4118193A JP 11819392 A JP11819392 A JP 11819392A JP H05290081 A JPH05290081 A JP H05290081A
Authority
JP
Japan
Prior art keywords
dictionary
usage
speech
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4118193A
Other languages
English (en)
Inventor
Hideo Ito
秀夫 伊東
Sakiko Honma
咲子 本間
Ayako Oono
亜矢子 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP4118193A priority Critical patent/JPH05290081A/ja
Publication of JPH05290081A publication Critical patent/JPH05290081A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 分野に応じた品詞と、該品詞の使用度を設定
する。 【構成】 入力部1は対象分野の語毎の品詞の使用度を
入力し、源辞書2は語毎に一般的に用いられる品詞とそ
の使用度を記憶している。使用度表3は、前記入力部1
により入力された使用度を記憶する。辞書作成部4によ
り辞書情報を作成し、該辞書作成部4により作成された
辞書情報を出力部5により出力する。辞書作成部4は、
源辞書内の語に関して、使用度表に現れる品詞の最少使
用度より小さい使用度を持つ品詞を削除することなどを
行う。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、辞書作成装置及び言語解析装置
に関する。
【0002】
【従来技術】自然言語の解析システム等では、語に関す
る情報を記憶した辞書を用いる。この辞書には、品詞に
関する情報が含まれることが多い。また、1つの語に対
して、複数の品詞が対応する場合がある。このような語
を多品詞語と呼ぶ。解析システムでは、多品詞語におけ
る品詞の曖昧さを解消して、正しい品詞を選択すること
が必要となる(品詞多義解消)。この品詞多義解消のた
めに、よく使用される情報として、品詞の使用度があ
る。すなわち、品詞の使用度とは、語がどれくらいその
品詞として使用されやすいかを表わすものである。一般
に、語の品度使用度は、語が属する文章分野によって異
なる。したがって、分野に応じて品詞と品詞の使用度を
設定しなければ正しく品詞多義解消ができないという問
題がある。
【0003】これらの問題を解決するために、例えば、
特開昭63−37474号公報に「辞書検索方式」が提
案されている。この公報のものは処理するテキストにつ
いて、文書ごとに対象分野と文の種類の情報を蓄積し、
辞書検索時に蓄積情報を利用するものである。また、特
開平1−251160号公報に提案されている「文書処
理装置」は、基本語を登録する基本辞書と、該基本語と
各分野の用語とを分野別に登録する複数の分野別辞書
と、該分野別辞書に登録された用語を合成して登録する
カレント辞書を有するものである。しかしながら、これ
らのものは、分野ごとに辞書を用意すると、それらの共
通部分に関して、種々の辞書調整や管理が重複し、その
作業のコストが増大するという問題点がある。
【0004】また、特開昭63−236168号公報に
提案されている「機械翻訳辞書アクセス方式」は、多段
構成の辞書をアクセスする時に、該複数の辞書を優先順
位の高いものから順次アクセスし、複数の辞書に同一デ
ータが存在する場合は優先順位の高い辞書のものを取り
込み、異なるデータについては各辞書のデータを取り込
むものである。しかしながら、優先順が辞書単位にしか
行えず、語毎の細かな優先度の指定ができないという問
題点があった。
【0005】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、分野に応じた品詞と、該品詞の使用度を設定す
るようにした辞書作成装置及び該辞書作成装置によって
作成された辞書を用いた言語解析装置を提供することを
目的としてなされたものである。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
語毎に一般的に用いられる品詞とその使用度を記憶して
いる源辞書と、対象分野の語毎の品詞の使用度を入力す
る入力部と、該入力部により入力された使用度を記憶す
る使用度表と、辞書情報を作成する辞書作成部と、該辞
書作成部により作成された辞書情報を出力する出力部と
を有し、前記辞書作成部は、前記源辞書内の語に関し
て、前記使用度表に現れる品詞の最少使用度より小さい
使用度を持つ品詞を削除すること、或いは、(2)語毎
に一般的に用いられる品詞とその使用度を記憶している
源辞書と、対象分野の語毎の品詞の使用度を入力する入
力部と、該入力部により入力された使用度を記憶する使
用度表と、辞書情報を作成する辞書作成部と、該辞書作
成部により作成された辞書情報を出力する出力部とを有
し、前記辞書作成部は、前記源辞書内の語に関して、あ
る一定の使用度以下で、かつ使用度表に現れない品詞を
削除すること、或いは、(3)語毎に一般的に用いられ
る品詞とその使用度を記憶している源辞書と、対象分野
の語毎の品詞の使用度を入力する入力部と、該入力部に
より入力された使用度を記憶する使用度表と、辞書情報
を作成する辞書作成部と、該辞書作成部により作成され
た辞書情報を出力する出力部とを有し、前記辞書作成部
は、前記源辞書内の語に関して、前記源辞書の使用度と
使用度表の使用度から新しい使用度を設定すること、或
いは、(4)文を入力するための入力部と、結果を出力
するための出力部と、入力文の品詞列を選択する品詞選
択部を少なくとも備え、該品詞選択部では前記(1),
(2)又は(3)記載の辞書作成装置によって作成され
た辞書を用いることを特徴としたものである。以下、本
発明の実施例に基づいて説明する。
【0007】図1は、本発明による辞書作成装置の一実
施例を説明するための構成図で、図中、1は入力部、2
は源辞書、3は使用度表、4は辞書作成部、5は出力部
である。入力部1は対象分野の語毎の品詞の使用度を入
力し、源辞書2は語毎に一般的に用いられる品詞とその
使用度を記憶している。使用度表3は、前記入力部1に
より入力された使用度を記憶する。辞書作成部4により
辞書情報を作成し、該辞書作成部4により作成された辞
書情報を出力部5により出力する。
【0008】前記辞書作成部4は以下の3つの動作を行
う。 源辞書内の語に関して、使用度表に現れる品詞の最少
使用度より小さい使用度を持つ品詞を削除すること。 源辞書内の語に関して、ある一定の使用度以下で、か
つ使用度表に現れない品詞を削除すること。 源辞書内の語に関して、源辞書の使用度と使用度表の
使用度から新しい使用度を設定すること。
【0009】品詞とは、語の分類名である。例えば、名
詞や動詞等がある。一方、品詞の使用度とは、品詞の使
用しやすさを表わす順序尺度であり、大きいほど使用し
やすいことを表す。ここでは、使用度の例として、使用
率、すなわち、語が使用された回数Mと語が品詞Xとし
て使用された回数NよりN/Mによって定義される0〜
1の確率値を考える。図2は、源辞書の記憶内容の例を
示す図である。同様の構造を持つ情報が辞書作成部によ
り作成され、出力部から出力されるものとする。図3
は、使用度表の記憶内容の例を示す図である。同様の構
造をもつ情報が入力部より入力され、この図のように記
憶されるものとする。
【0010】図4は、請求項1の実施例(実施例1)の
動作を示すフローチャートである。以下、各ステップに
従って順に説明する。step1 :まず、源辞書から語を取り出す。step2 :次に、バッファをクリアする。step3 :語の語形、品詞、使用度Xを取り出す。step4 :使用度表で語形と品詞の組を検索する。step5 :語形と品詞の組があるかどうかを判断する。語
形と品詞の組が存在すれば、次のstep6に行く。存在し
なければ、後述するstep7へ行く。step6 :前記step5において、語形と品詞の組が存在す
れば、使用度Xをバッファに追加する。
【0011】step7:最後の語形、品詞、使用度Xであ
るかどうかを判断する。NOであれば前記step3へ行
く。step8 :前記step7において、YESであればバッファ
内の最小値Minを取り出す。step9 :語の語形、品詞、使用度Xを取り出す。step10 :Min>使用度Xならば、語形、品詞、使用
度Xの組を出力する。step11 :最後の語形、品詞、使用度Xであるかどうか
を判断する。NOであれば、前記step9へ行く。step12 :前記step11において、YESであれば、今
度は最後の源であるかどうかを判断する。NOであれば
前記step1へ行く。YESであれば終了する。
【0012】図5は、請求項2の実施例(実施例2)の
動作を示すフローチャートである。以下、各ステップに
従って順に説明する。step1 :まず、使用度の定数Minをセットする。step2 :次に、源語書から語を取り出す。step3 :語の語形、品詞、使用度Xを取り出す。step4 :使用度表で語形と品詞の組を検索する。step5 :語形と品詞の組が存在するかどうかを判断す
る。存在しなければ、後述するstep7へ行く。step6 :前記step5において、語形と品詞の組が存在す
れば、語形、品詞、使用度を出力し、後述するstep9へ
行く。step7 :前記step5において、語形と品詞の組が存在し
なければ、Min<Xを判断する。step8 :前記step7において、Min<Xであれば、語
形、品詞、使用度を出力する。step9 :最後の語形、品詞、使用度Xであるかどうかを
判断する。NOであれば、前記step3へ戻る。step10 :前記step9において、YESであれば、今度
は、最後の語であるかどうかを判断する。NOであれば
前記step2へ戻り、YESであれば終了する。
【0013】図6は、請求項3の実施例(実施例3)の
動作を示すフローチャートである。以下、各ステップに
従って順に説明する。step1 :まず、源辞書から語を取り出す。step2 :次に、語の語形、品詞、使用度Xを取り出す。step3 :使用度表で語形と品詞の組をキーとして使用度
Yを検索する。step4 :使用度Yが存在するかどうかを判断する。存在
すれば、後述するstep6へ行く。step5 :前記step4において、使用度Yが存在しなけれ
ば、使用度Yとして定数Zをセットする。step6 :使用度Xと使用度Yとから新しい使用度Wを求
める。使用度Wを求める方法は種々のものが考えられる
が、例えば、次のような重みA,Bによる重みづけの方
法がある。W=A・X+B・Ystep7 :語形、品詞、使用度Wを出力する。step8 :最後の語形、品詞、使用度Xであるかを判断す
る。NOであれば前記step2へ戻る。step9 :前記step8において、YESであれば、今度は
最後の語であるかどうかを判断する。NOであれば前記
step1へ戻り、YESであれば終了する。
【0014】図7は、本発明による言語解析装置の一実
施例を説明するための構成図で、図中、11は入力部、
12は出力部、13は辞書、14は品詞選択部である。
入力部11により文を入力し、出力部12により言語解
析結果を出力する。辞書13は、辞書作成装置により作
成された辞書である。品詞選択部14は入力文の品詞列
を選択し、前記実施例1〜3に示した辞書作成装置によ
って作成された辞書を用いて言語解析を行う。すなわ
ち、入力部11より、図8に示すような原文を入力し、
原文バッファの各語に関して辞書を検索し、次に、図9
に示すような品詞候補表を作成して記憶する。品詞候補
表中の各品詞候補の内、使用度が最大のものを1つだけ
選び、品詞選択結果を出力部12により出力する。
【0015】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。分野に応じて簡単に品詞
の使用度を調節できるので、作成した辞書を用いたシス
テムは、その分野に関して、正しく品詞多義解消をする
ことができる。
【図面の簡単な説明】
【図1】 本発明による辞書作成装置の一実施例を説明
するための構成図である。
【図2】 本発明による源辞書の記憶内容の例を示す図
である。
【図3】 本発明による使用度表の記憶内容の例を示す
図である。
【図4】 本発明の実施例1の動作を説明するためのフ
ローチャートである。
【図5】 本発明の実施例2のの動作を説明するための
フローチャートである。
【図6】 本発明の実施例3の動作を説明するためのフ
ローチャートである。
【図7】 本発明による言語解析装置の一実施例を説明
するための構成図である。
【図8】 本発明による原文の例を示す図である。
【図9】 本発明による品詞候補表を示す図である。
【図10】 本発明による品詞選択結果を示す図であ
る。
【符号の説明】
1…入力部、2…源辞書、3…使用度表、4…辞書作成
部、5…出力部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 語毎に一般的に用いられる品詞とその使
    用度を記憶している源辞書と、対象分野の語毎の品詞の
    使用度を入力する入力部と、該入力部により入力された
    使用度を記憶する使用度表と、辞書情報を作成する辞書
    作成部と、該辞書作成部により作成された辞書情報を出
    力する出力部とを有し、前記辞書作成部は、前記源辞書
    内の語に関して、前記使用度表に現れる品詞の最少使用
    度より小さい使用度を持つ品詞を削除することを特徴と
    する辞書作成装置。
  2. 【請求項2】 語毎に一般的に用いられる品詞とその使
    用度を記憶している源辞書と、対象分野の語毎の品詞の
    使用度を入力する入力部と、該入力部により入力された
    使用度を記憶する使用度表と、辞書情報を作成する辞書
    作成部と、該辞書作成部により作成された辞書情報を出
    力する出力部とを有し、前記辞書作成部は、前記源辞書
    内の語に関して、ある一定の使用度以下で、かつ使用度
    表に現れない品詞を削除することを特徴とする辞書作成
    装置。
  3. 【請求項3】 語毎に一般的に用いられる品詞とその使
    用度を記憶している源辞書と、対象分野の語毎の品詞の
    使用度を入力する入力部と、該入力部により入力された
    使用度を記憶する使用度表と、辞書情報を作成する辞書
    作成部と、該辞書作成部により作成された辞書情報を出
    力する出力部とを有し、前記辞書作成部は、前記源辞書
    内の語に関して、前記源辞書の使用度と使用度表の使用
    度から新しい使用度を設定することを特徴とする辞書作
    成装置。
  4. 【請求項4】 文を入力するための入力部と、結果を出
    力するための出力部と、入力文の品詞列を選択する品詞
    選択部を少なくとも備え、該品詞選択部では請求項1,
    2又は3記載の辞書作成装置によって作成された辞書を
    用いることを特徴とする言語解析装置。
JP4118193A 1992-04-10 1992-04-10 辞書作成装置及び言語解析装置 Pending JPH05290081A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4118193A JPH05290081A (ja) 1992-04-10 1992-04-10 辞書作成装置及び言語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4118193A JPH05290081A (ja) 1992-04-10 1992-04-10 辞書作成装置及び言語解析装置

Publications (1)

Publication Number Publication Date
JPH05290081A true JPH05290081A (ja) 1993-11-05

Family

ID=14730470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4118193A Pending JPH05290081A (ja) 1992-04-10 1992-04-10 辞書作成装置及び言語解析装置

Country Status (1)

Country Link
JP (1) JPH05290081A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998039711A1 (en) 1997-03-04 1998-09-11 Hiroshi Ishikura Language analysis system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998039711A1 (en) 1997-03-04 1998-09-11 Hiroshi Ishikura Language analysis system and method

Similar Documents

Publication Publication Date Title
US20030028566A1 (en) Text comparison apparatus
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JPH1049543A (ja) 文書検索装置
JPH05290081A (ja) 辞書作成装置及び言語解析装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH06251076A (ja) データ・ベース検索装置および方法
CN110083679B (zh) 搜索请求的处理方法、装置、电子设备和存储介质
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP2003288366A (ja) 類似テキスト検索装置
KR20160093922A (ko) 환자 개인정보 식별 방법
JPH05282360A (ja) 多国語入力装置
JPH10232871A (ja) 検索装置
JPH04369763A (ja) かな漢字変換装置及び方法
JP3369207B2 (ja) 漢字入力装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3036005B2 (ja) かな漢字変換装置
JPS6175952A (ja) 文書入力処理方式
JPS63278174A (ja) 翻訳装置
JP2996823B2 (ja) 文字認識装置
JP3447127B2 (ja) 機械翻訳装置
JP2813207B2 (ja) 音声認識装置