JPS6389976A - 言語解析装置 - Google Patents
言語解析装置Info
- Publication number
- JPS6389976A JPS6389976A JP61234328A JP23432886A JPS6389976A JP S6389976 A JPS6389976 A JP S6389976A JP 61234328 A JP61234328 A JP 61234328A JP 23432886 A JP23432886 A JP 23432886A JP S6389976 A JPS6389976 A JP S6389976A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- unit
- dictionary
- basic
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
本発明は言語解析装置、特に自動翻訳装置に有用な言語
解析装置に関する。
解析装置に関する。
従来技術
例えば英語等の外国語の文からそれに対応する日本語の
文を作成する場合、入力された英文の形態素を解析し、
その構文を解析し、その文構造を変換し、その後に日本
語の訳文を生成する。
文を作成する場合、入力された英文の形態素を解析し、
その構文を解析し、その文構造を変換し、その後に日本
語の訳文を生成する。
すなわち、辞書を検索することによって入力文を構成す
る各単語等の形態素を解析し、これらの形態素について
の品詞等の情報を得る。その後、得られた品詞等の情報
に基づいて、各々の単語またはこれらの単語により形成
されるブロック相互の修飾関係を文法ルールにより解析
することにより、入力文の構造の解析、すなわち構文解
析な行う、さらに、解析された構文に基づいて入力文の
文構造を日本語の構文配列の順序に変換し、変換された
配列に従って日本語の形態素を生成し、日本語文を生成
する。
る各単語等の形態素を解析し、これらの形態素について
の品詞等の情報を得る。その後、得られた品詞等の情報
に基づいて、各々の単語またはこれらの単語により形成
されるブロック相互の修飾関係を文法ルールにより解析
することにより、入力文の構造の解析、すなわち構文解
析な行う、さらに、解析された構文に基づいて入力文の
文構造を日本語の構文配列の順序に変換し、変換された
配列に従って日本語の形態素を生成し、日本語文を生成
する。
このような訳文生成の際に行われる形態素解析において
は、辞書を検索することによって単語等の形態素の品詞
その他の情報を得ている。通常の名詞、動詞等の単語の
場合にはその多くを辞書に格納しておくことができるか
ら、容易に検索され、情報を得ることができる。
は、辞書を検索することによって単語等の形態素の品詞
その他の情報を得ている。通常の名詞、動詞等の単語の
場合にはその多くを辞書に格納しておくことができるか
ら、容易に検索され、情報を得ることができる。
しかし、例えば長さ、速度、加速度その他の単位を表す
表現は非常に多くの種類が存在するため、これらをすべ
て辞書に格納しておくことは辞書情報の記憶容量をいた
ずらに大きくすることになり、非能率的である。これら
の単位は、例えばm/s 、 km/s等のように、単
位を表す表現を複数組み合わせた複合的な表現のものが
多いためである。
表現は非常に多くの種類が存在するため、これらをすべ
て辞書に格納しておくことは辞書情報の記憶容量をいた
ずらに大きくすることになり、非能率的である。これら
の単位は、例えばm/s 、 km/s等のように、単
位を表す表現を複数組み合わせた複合的な表現のものが
多いためである。
ところがこれらの単位の一部のみを辞書に記憶しておく
装置の場合には入力文に含まれるこれらの複合的な表現
の単位の情報を得ることができないため、形態素解析を
行うことができず、誤った言語解析を行う恐れがあった
。
装置の場合には入力文に含まれるこれらの複合的な表現
の単位の情報を得ることができないため、形態素解析を
行うことができず、誤った言語解析を行う恐れがあった
。
目 的
本発明はこのような従来技術の欠点を解消し、複合的な
表現からなる文字列のすべてを辞書に記憶しておくこと
なしに、このような文字列を含む入力文の形態素解析を
行うことのできる言語解析装置を提供することを目的と
する。
表現からなる文字列のすべてを辞書に記憶しておくこと
なしに、このような文字列を含む入力文の形態素解析を
行うことのできる言語解析装置を提供することを目的と
する。
構成
本発明は上記の目的を達成させるため、所定の言語の文
字列を入力する入力手段と、入力された文字列の検索に
用いられ、基本的なデータを記憶する基本辞書手段と、
入力された文字列について基本辞書手段を検索すること
により文字列を解析する解析手段とを有し、解析手段は
、入力された文字列について基本辞書手段を検索するこ
とにより文字列の一部が検索された場合に、文字列の他
の部分について同様に基本辞書手段を検索することによ
り、文字列を解析することを特徴としたものである。以
下、本発明の一実施例に基づいて具体的に説明する。
字列を入力する入力手段と、入力された文字列の検索に
用いられ、基本的なデータを記憶する基本辞書手段と、
入力された文字列について基本辞書手段を検索すること
により文字列を解析する解析手段とを有し、解析手段は
、入力された文字列について基本辞書手段を検索するこ
とにより文字列の一部が検索された場合に、文字列の他
の部分について同様に基本辞書手段を検索することによ
り、文字列を解析することを特徴としたものである。以
下、本発明の一実施例に基づいて具体的に説明する。
第1図には、本発明による言語解析装置を英日目動翻訳
装置に適用した一実施例が示されている。なお、本発明
は、英語の入力文の形態素解析以外にも用いることがで
き、英語を日本語に翻訳する英日翻訳装置のみならず、
ある1つの言語を他の言語に翻訳する自動翻訳装置にも
効果的に適用されることは、言うまでもない。
装置に適用した一実施例が示されている。なお、本発明
は、英語の入力文の形態素解析以外にも用いることがで
き、英語を日本語に翻訳する英日翻訳装置のみならず、
ある1つの言語を他の言語に翻訳する自動翻訳装置にも
効果的に適用されることは、言うまでもない。
木実流側は入力部14を有し、入力部14には入力装置
10または入力文書ファイル12からデータが入力され
る。入力装置10は例えば、英数字キー等の文字キーや
機能キー等を有するキーボード、紙に記録された英字テ
キストを読み取る光学的文字読み取り装置等を含む、入
力文書ファイル12は、磁気ディスク等の記憶媒体に英
字テキストを記録した記憶装置である。
10または入力文書ファイル12からデータが入力され
る。入力装置10は例えば、英数字キー等の文字キーや
機能キー等を有するキーボード、紙に記録された英字テ
キストを読み取る光学的文字読み取り装置等を含む、入
力文書ファイル12は、磁気ディスク等の記憶媒体に英
字テキストを記録した記憶装置である。
入力部14は入力文字列バッファ14aを有し・入力装
置10または入力文書ファイル12から入力された英語
の入力文を入力文字列バッファ14aに記憶する。入力
部14は入力文字列バッファ14aに記憶された入力文
を読み出して処理部16に出力する。
置10または入力文書ファイル12から入力された英語
の入力文を入力文字列バッファ14aに記憶する。入力
部14は入力文字列バッファ14aに記憶された入力文
を読み出して処理部16に出力する。
処理部18は、辞書ファイルの検索によって、入力部1
4から送られた入力文の形態素解析を行う機能部である
。処理部teは辞書情報保存テーブルleaを有し、後
述する辞書ファイル22または基本単位辞書ファイル2
6を検索して得た情報を辞書情報保存テーブルleaに
記憶する。
4から送られた入力文の形態素解析を行う機能部である
。処理部teは辞書情報保存テーブルleaを有し、後
述する辞書ファイル22または基本単位辞書ファイル2
6を検索して得た情報を辞書情報保存テーブルleaに
記憶する。
処理部18は、入力部14から入力された入力文を構成
する文字列から辞書を検索する場合の単位となる検索キ
ー文字列を探索する。この検索キー文字列の探索は、入
力文を構成する文字列の最初の文字から順に所定の探索
ルールにより探索する。
する文字列から辞書を検索する場合の単位となる検索キ
ー文字列を探索する。この検索キー文字列の探索は、入
力文を構成する文字列の最初の文字から順に所定の探索
ルールにより探索する。
例えば、入力文をスペース、コンマ等のデリミツタによ
り文頭から順に区分し、区分された文字列をそれぞれ検
索キー文字列とする。この場合に■、 km、 mis
等の単位を表す文字列はそれぞれこれらが検索キー文字
列とされる。処理部1Gは入力文を構成する文字列から
探索した検索キー文字列を辞書検索部20に送る。
り文頭から順に区分し、区分された文字列をそれぞれ検
索キー文字列とする。この場合に■、 km、 mis
等の単位を表す文字列はそれぞれこれらが検索キー文字
列とされる。処理部1Gは入力文を構成する文字列から
探索した検索キー文字列を辞書検索部20に送る。
文字列に基づいて辞書ファイル22を検索する。辞書フ
ァイル22は、第2図に示すようにエントリおよび品詞
等の文法情報が記憶されている。辞書検索部20は、辞
書ファイル22にエントリがある場合にはそのエントリ
の品詞情報等を読み出し、これを処理部1Bに出力する
。辞書検索部20は、辞書ファイル22を検索した結果
、辞書ファイル22にエントリがない場合にはその旨を
処理部1Bに出力する。
ァイル22は、第2図に示すようにエントリおよび品詞
等の文法情報が記憶されている。辞書検索部20は、辞
書ファイル22にエントリがある場合にはそのエントリ
の品詞情報等を読み出し、これを処理部1Bに出力する
。辞書検索部20は、辞書ファイル22を検索した結果
、辞書ファイル22にエントリがない場合にはその旨を
処理部1Bに出力する。
処理部1Bは、辞書検索部20により検索された品詞情
報等を辞書情報保存テーブルleaに記憶する。処理部
1Bは、辞書ファイル22に検索キー文字列のエントリ
がない場合には、その検索キー文字列を単位認II部2
4に出力する。
報等を辞書情報保存テーブルleaに記憶する。処理部
1Bは、辞書ファイル22に検索キー文字列のエントリ
がない場合には、その検索キー文字列を単位認II部2
4に出力する。
単位認識部24は処理部1Bから送られた検索キー文字
列に基づいて基本単位辞書ファイル2Bを検索する。基
本単位辞書ファイル28は、883図に示すように基本
単位エントリが記憶されている。単位認識部24は、基
本単位辞書ファイル2Bに基本単位エントリがある場合
にはその基本単位エントリな読み出す、基本単位辞書フ
ァイル2Bにエントリがない場合には、後述するように
検索キー文字列を複数の文字列に分割して基本単位辞書
ファイル2Bを複数回検索し、複数回の検索において基
本単位辞書ファイル2Bにそれぞれ基本単位エントリが
ある場合には、これらの基本単位エントリから複合単位
情報を得る。複数回の検索においてそのいずれかに基本
単位エントリがない場合には、辞書未登録語である旨の
情報を得る。
列に基づいて基本単位辞書ファイル2Bを検索する。基
本単位辞書ファイル28は、883図に示すように基本
単位エントリが記憶されている。単位認識部24は、基
本単位辞書ファイル2Bに基本単位エントリがある場合
にはその基本単位エントリな読み出す、基本単位辞書フ
ァイル2Bにエントリがない場合には、後述するように
検索キー文字列を複数の文字列に分割して基本単位辞書
ファイル2Bを複数回検索し、複数回の検索において基
本単位辞書ファイル2Bにそれぞれ基本単位エントリが
ある場合には、これらの基本単位エントリから複合単位
情報を得る。複数回の検索においてそのいずれかに基本
単位エントリがない場合には、辞書未登録語である旨の
情報を得る。
単位認i!1ffi24は、基本単位エントリ、複合単
位情報および辞書未登録語である旨の情報を処理部IB
に出力する。処理部IBは、単位認識部24から入力さ
れたこれらの情報を辞書情報保存テーブルIElaに記
憶する。
位情報および辞書未登録語である旨の情報を処理部IB
に出力する。処理部IBは、単位認識部24から入力さ
れたこれらの情報を辞書情報保存テーブルIElaに記
憶する。
辞書情報保存テーブル18aは、第4図に示すように検
索キー文字列のエントリと、検索キー文字列について辞
書ファイル22または基本単位辞書ファイル26を検索
して得た品詞等の文法情報を記憶保存する。処理部16
は、辞書情報保存テーブル18aにこれらのデータが記
憶された後、これらのデータを入力文とともに出力イン
ターフェース1Bに出力する。出力インターフェース1
8は処理部1Bから出力された入力文および形態素解析
のデータをプリンタ、ディスプレイ等の出力装置30.
または磁気ディスク等の記憶ファイル32に出力する。
索キー文字列のエントリと、検索キー文字列について辞
書ファイル22または基本単位辞書ファイル26を検索
して得た品詞等の文法情報を記憶保存する。処理部16
は、辞書情報保存テーブル18aにこれらのデータが記
憶された後、これらのデータを入力文とともに出力イン
ターフェース1Bに出力する。出力インターフェース1
8は処理部1Bから出力された入力文および形態素解析
のデータをプリンタ、ディスプレイ等の出力装置30.
または磁気ディスク等の記憶ファイル32に出力する。
または、出力インターフェース18を設けることなく、
処理部16から出力される入力文および形態素解析のデ
ータを直接構文解析手段(図示せず)に入力し、構文解
析手段において入力文の構文解析を行い、さらにその構
文解析に基づいて訳文を生成するようにしてもよい。
処理部16から出力される入力文および形態素解析のデ
ータを直接構文解析手段(図示せず)に入力し、構文解
析手段において入力文の構文解析を行い、さらにその構
文解析に基づいて訳文を生成するようにしてもよい。
制御部2Bは、本装置の各機能部の動作を制御するもの
であり、マイクロプロセッサにより有利に構成される。
であり、マイクロプロセッサにより有利に構成される。
第5図に示すフローチャートにより、本装置の動作を説
明する。
明する。
まず、入力装置10または入力文書ファイル12から英
語の入力文を入力部14に読み込む(100) 、入力
部14に読み込まれた入力文は入力文字列バッファ14
aに格納される。入力文字列バッファ14aに記憶され
た入力文は読み出されて処理部18に出力される。
語の入力文を入力部14に読み込む(100) 、入力
部14に読み込まれた入力文は入力文字列バッファ14
aに格納される。入力文字列バッファ14aに記憶され
た入力文は読み出されて処理部18に出力される。
処理部1Bでは、入力文が入力されると、辞書引き単位
の切り出しが行われる(102)。すなわち、入力され
た入力文を構成する文字列は、所定のルールによって、
辞書ファイル22または基本単位辞書ファイル2Bを検
索する場合の単位である検索キー文字列に、文字列の先
頭から順に分割される0分割された検索キー文字列があ
るか否かを判断しく104) 、ある場合には検索キー
文字列を辞書検索部20に送る。
の切り出しが行われる(102)。すなわち、入力され
た入力文を構成する文字列は、所定のルールによって、
辞書ファイル22または基本単位辞書ファイル2Bを検
索する場合の単位である検索キー文字列に、文字列の先
頭から順に分割される0分割された検索キー文字列があ
るか否かを判断しく104) 、ある場合には検索キー
文字列を辞書検索部20に送る。
辞書検索部20に検索キー文字列が送られると、辞書検
索部20はこの検索キー文字列について辞書ファイル2
2を検索する(toe) ’、第2図に示すような辞書
ファイル22のエントリに検索キー文字列があるか否か
を判断しく1o8) 、エントリがある場合には辞書フ
ァイル22に記憶されている品詞等の文法情報を読み出
し、読み出したデータを処理部16に送り、辞書情報保
存テーブル16aに記録する(110) 、その後、ス
テップ102に戻り、再び辞書引き単位の切り出しを行
う。
索部20はこの検索キー文字列について辞書ファイル2
2を検索する(toe) ’、第2図に示すような辞書
ファイル22のエントリに検索キー文字列があるか否か
を判断しく1o8) 、エントリがある場合には辞書フ
ァイル22に記憶されている品詞等の文法情報を読み出
し、読み出したデータを処理部16に送り、辞書情報保
存テーブル16aに記録する(110) 、その後、ス
テップ102に戻り、再び辞書引き単位の切り出しを行
う。
辞書ファイル22にエントリがない場合には、辞書検索
部20は検索キー文字列を処理部1Bに送り返し、処理
部1Bはこの検索キー文字列を単位認識部24に送り、
単位認識部24において単位の認識を行う(112)
。
部20は検索キー文字列を処理部1Bに送り返し、処理
部1Bはこの検索キー文字列を単位認識部24に送り、
単位認識部24において単位の認識を行う(112)
。
辞書検索部20に送られた検索キー文字列が通常の名詞
、動詞等の単語である場合には殆ど辞書ファイル22の
エントリがあるから、辞書ファイル22から品詞等の文
法情報を読み出し、このデータを処理部1Bに送り、辞
書情報保存テーブルteaに記録する。辞書ファイル2
2は上記のように通常の名詞、動詞等の単語のエントリ
が形成され、単位を表す文字列のエントリは形成されて
いない、したがって、検索キー文字列がkm、■/S等
の単位を表す文字列である場合には、辞書ファイル22
のエントリがないから、ステップ112に進み、単位の
認識を行う。
、動詞等の単語である場合には殆ど辞書ファイル22の
エントリがあるから、辞書ファイル22から品詞等の文
法情報を読み出し、このデータを処理部1Bに送り、辞
書情報保存テーブルteaに記録する。辞書ファイル2
2は上記のように通常の名詞、動詞等の単語のエントリ
が形成され、単位を表す文字列のエントリは形成されて
いない、したがって、検索キー文字列がkm、■/S等
の単位を表す文字列である場合には、辞書ファイル22
のエントリがないから、ステップ112に進み、単位の
認識を行う。
ステップ112の単位の認識の動作について、第6図に
より説明する。
より説明する。
辞書ファイル22の検索において、辞書ファイル22に
エントリの存在しなかった検索キー文字列が処理部1B
から単位認識部24に送られると、単位認識部24にお
いて検索キー文字列の先頭の文字にポインタPをセット
する(200) 。
エントリの存在しなかった検索キー文字列が処理部1B
から単位認識部24に送られると、単位認識部24にお
いて検索キー文字列の先頭の文字にポインタPをセット
する(200) 。
次に、単位認識部24は、ポインタPがセットされてい
る文字から始まる文字列について基本単位辞書ファイル
26を検索する(202)。この検索は、基本単位辞書
ファイル2Bにエントリの存在する基本単位が、ポイン
タPのセットされた文字から始まる文字列中に完全な文
字列として現れ、かつポインタPのセットされた文字を
始点としているか否かを検索する。すなわち、この検索
はポインタPがセットされている文字から始まる1文字
ないし複数文字の文字列が、基本単位辞書ファイル2B
にエントリの存在する基本単位のいずれかと一致するか
否かを検索する。例えば、ポインタPがセットされてい
る文字が、k、薦、S等の場合にl乙 は、ポインタPがセットされている文字から始まるこれ
らの1文字について、第3図に示すように基本単位辞書
ファイル26にエントリが存在する。
る文字から始まる文字列について基本単位辞書ファイル
26を検索する(202)。この検索は、基本単位辞書
ファイル2Bにエントリの存在する基本単位が、ポイン
タPのセットされた文字から始まる文字列中に完全な文
字列として現れ、かつポインタPのセットされた文字を
始点としているか否かを検索する。すなわち、この検索
はポインタPがセットされている文字から始まる1文字
ないし複数文字の文字列が、基本単位辞書ファイル2B
にエントリの存在する基本単位のいずれかと一致するか
否かを検索する。例えば、ポインタPがセットされてい
る文字が、k、薦、S等の場合にl乙 は、ポインタPがセットされている文字から始まるこれ
らの1文字について、第3図に示すように基本単位辞書
ファイル26にエントリが存在する。
単位認識部24は、基本単位辞書ファイル2Bの検索の
結果、基本単位辞書ファイル2B中にエントリが存在す
るか否かを判断しく204) 、エントリが存在する場
合には、認識した基本単位の長さ分だけポインタPを進
める(208)。したがって、基本単位がk、鳳、S等
の場合には、ポインタPを1文字分進め、検索キー文字
列内の次の文字にセットする。
結果、基本単位辞書ファイル2B中にエントリが存在す
るか否かを判断しく204) 、エントリが存在する場
合には、認識した基本単位の長さ分だけポインタPを進
める(208)。したがって、基本単位がk、鳳、S等
の場合には、ポインタPを1文字分進め、検索キー文字
列内の次の文字にセットする。
単位認識部24は、ポインタPがセットされている文字
から始まる文字列がさらに存在するか否かを判断する(
208)。このような文字列がさらに存在する場合には
、ステップ202に戻り、ポインタPがセットされてい
る文字から始まる文字列で再び基本単位辞書ファイル2
8を検索する。そして、基本単位辞書ファイル26の検
索の結果、基本単位中にエントリが存在するか否かを判
断しく204)、エントリが存在する場合には、認識し
た基本単位の長さ分だけポインタPを進める。
から始まる文字列がさらに存在するか否かを判断する(
208)。このような文字列がさらに存在する場合には
、ステップ202に戻り、ポインタPがセットされてい
る文字から始まる文字列で再び基本単位辞書ファイル2
8を検索する。そして、基本単位辞書ファイル26の検
索の結果、基本単位中にエントリが存在するか否かを判
断しく204)、エントリが存在する場合には、認識し
た基本単位の長さ分だけポインタPを進める。
ステップ208において、ポインタPがセットされてい
る文字から始まる文字列がもう存在しない場合には、基
本単位辞書ファイル2Bの検索が終了し、複合単位の認
識に成功したことになる。
る文字から始まる文字列がもう存在しない場合には、基
本単位辞書ファイル2Bの検索が終了し、複合単位の認
識に成功したことになる。
例えば単位認識部24に送られた検索キー文字列が単位
を表すkm/sである場合には、このに■/s目体は複
雑な単位であるため、基本単位辞書ファイル2Bにエン
トリが存在しない。そこで、最初にポインタPをkにセ
ットしく200) 、 kを基本単位辞書ファイル28
により検索してエントリの存在を確認する(202)。
を表すkm/sである場合には、このに■/s目体は複
雑な単位であるため、基本単位辞書ファイル2Bにエン
トリが存在しない。そこで、最初にポインタPをkにセ
ットしく200) 、 kを基本単位辞書ファイル28
により検索してエントリの存在を確認する(202)。
次に、ポインタPをlにセットしく20B) 、層を基
本単位辞書ファイル28により検索して(202)、同
様にエントリの存在を確認する。単位認識部24は、ス
ラッシュl、中黒・等を単位の一部とみなすので、次に
km/s中のlをとばしてポインタPをSにセットする
(2H)。そしてSを基本単位辞書ファイル26により
検索して同様にエントリの存在を確認する(、202)
、これらの結果、k、m、およびSのいずれも基本単
位辞書ファイル2Bの検索によりエントリが存在したの
で、k−/Sは単位を表す文字列であると判断される。
本単位辞書ファイル28により検索して(202)、同
様にエントリの存在を確認する。単位認識部24は、ス
ラッシュl、中黒・等を単位の一部とみなすので、次に
km/s中のlをとばしてポインタPをSにセットする
(2H)。そしてSを基本単位辞書ファイル26により
検索して同様にエントリの存在を確認する(、202)
、これらの結果、k、m、およびSのいずれも基本単
位辞書ファイル2Bの検索によりエントリが存在したの
で、k−/Sは単位を表す文字列であると判断される。
このように、検索キー文字列を構成するすべての文字に
ついて基本単位辞書ファイル2Bにエントリが存在する
場合、。
ついて基本単位辞書ファイル2Bにエントリが存在する
場合、。
またはスラッシュ、中黒等の単位の一部とみなされる記
号を除いたすべての文字について基本単位辞書ファイル
2Bにエントリが存在する場合に、その検索キー文字列
は単位を表す文字列であると判断される。
号を除いたすべての文字について基本単位辞書ファイル
2Bにエントリが存在する場合に、その検索キー文字列
は単位を表す文字列であると判断される。
単位認識部24は、基本単位辞書ファイル26の検索を
終了し、複合単位の認識に成功すると、得られた単位情
報を処理部1Bに送り、辞書情報保存テーブル18aに
格納する(210)。これにより単位の認識が終了する
。
終了し、複合単位の認識に成功すると、得られた単位情
報を処理部1Bに送り、辞書情報保存テーブル18aに
格納する(210)。これにより単位の認識が終了する
。
ステップ204において、ポインタPがセットされてい
る文字から始まる文字列についての基本単位辞書ファイ
ル28の検索の結果、基本単位辞書ファイル2B中にエ
ントリが存在しない場合には、lに の文字列を基本単位または複合単位として認識すること
ができなかったことになるので、単位認識部24はこの
文字列が辞書未登録語であるという情報、すなわち単位
を表すものではないという情報を処理部1Bに送り、処
理部18の辞書情報保存テーブルleaに保存すること
により(212) 、 中位の認識が終了する。
る文字から始まる文字列についての基本単位辞書ファイ
ル28の検索の結果、基本単位辞書ファイル2B中にエ
ントリが存在しない場合には、lに の文字列を基本単位または複合単位として認識すること
ができなかったことになるので、単位認識部24はこの
文字列が辞書未登録語であるという情報、すなわち単位
を表すものではないという情報を処理部1Bに送り、処
理部18の辞書情報保存テーブルleaに保存すること
により(212) 、 中位の認識が終了する。
第5図に戻って、単位の認識(112)が終了すると、
ステップ102に戻り、再び処理部16による辞書引き
単位の切り出しが行われる。
ステップ102に戻り、再び処理部16による辞書引き
単位の切り出しが行われる。
辞書引き単位の切り出しの後、処理部16は切り出した
単位がまだあるか否かを判断しく104) 、切り出し
た単位、すなわち検索キー文字列がもうない場合には、
辞書情報保存テーブルleaに記憶されている情報を、
出力インターフェース18を通して出力装置30に出力
する(114)。これにより、入力文の解析が終了する
。
単位がまだあるか否かを判断しく104) 、切り出し
た単位、すなわち検索キー文字列がもうない場合には、
辞書情報保存テーブルleaに記憶されている情報を、
出力インターフェース18を通して出力装置30に出力
する(114)。これにより、入力文の解析が終了する
。
以上のように本実施例によれば、英語の入力文を検索キ
ー文字列に分割して、まず通常の辞書ファイル22によ
り検索し、辞書ファイル22にエントリがない場合に単
位の認識を行う。単位の認識においては、検索キー文字
列を分割してポインタPにより指示し、分割された文字
列ごとに基本単位辞書ファイル2Bを検索し、基本単位
辞書ファイル28に記録されているもの、または基本単
位辞書ファイル26に記録されているものの連続からな
るものを、単位を表す文字列と判断する。
ー文字列に分割して、まず通常の辞書ファイル22によ
り検索し、辞書ファイル22にエントリがない場合に単
位の認識を行う。単位の認識においては、検索キー文字
列を分割してポインタPにより指示し、分割された文字
列ごとに基本単位辞書ファイル2Bを検索し、基本単位
辞書ファイル28に記録されているもの、または基本単
位辞書ファイル26に記録されているものの連続からな
るものを、単位を表す文字列と判断する。
したがって、複雑な単位を表す文字列であっても、基本
単位辞書ファイル26に記憶された基本単゛位を組み合
わせることにより単位の認識を行うことができるから、
多様な単位表現に対応して解析を行づことができる。し
かも、基本単位辞書ファイル2Bに′は基某的な単位の
み、例えばに、+w、s等のみを記憶しておけばよく、
これらを組み合わせた複雑な単位、例えばに■、に■/
S等を記憶しておく必要がないため、辞書ファイルの容
量を少なくすることができる。
単位辞書ファイル26に記憶された基本単゛位を組み合
わせることにより単位の認識を行うことができるから、
多様な単位表現に対応して解析を行づことができる。し
かも、基本単位辞書ファイル2Bに′は基某的な単位の
み、例えばに、+w、s等のみを記憶しておけばよく、
これらを組み合わせた複雑な単位、例えばに■、に■/
S等を記憶しておく必要がないため、辞書ファイルの容
量を少なくすることができる。
効果
本発明によれば、入力された文字列について基本辞書手
段を検索し、文字列の一部が検索された場合に、文字列
の他の部分について同様に基本辞書手段を検索し、文字
列を解析する。したがって、基本辞書手段に多くのデー
タを記憶しておくことなく、多種類の文字列について解
析を行うことができる。
段を検索し、文字列の一部が検索された場合に、文字列
の他の部分について同様に基本辞書手段を検索し、文字
列を解析する。したがって、基本辞書手段に多くのデー
タを記憶しておくことなく、多種類の文字列について解
析を行うことができる。
第1図は本発明による言語解析装置の一実施例を示すブ
ロック図、 第2図は第1図の辞書ファイルに記憶されるデータの一
例を示す図、 第3図は第1図の基本単位辞書ファイルに記憶されるデ
ータの一例を示す図、 第4図は第1図の辞書情報保存テーブルに記憶されるデ
ータの一例を示す図、 第5図は第1図の装置の動作を示すフローチャート。 第6図は585図に示す動作のうち単位の認識を示すフ
ローチャートである。 18、、、処理部 20、、、辞書検索部 22、、、辞書ファイル 24、、、単位認識部
ロック図、 第2図は第1図の辞書ファイルに記憶されるデータの一
例を示す図、 第3図は第1図の基本単位辞書ファイルに記憶されるデ
ータの一例を示す図、 第4図は第1図の辞書情報保存テーブルに記憶されるデ
ータの一例を示す図、 第5図は第1図の装置の動作を示すフローチャート。 第6図は585図に示す動作のうち単位の認識を示すフ
ローチャートである。 18、、、処理部 20、、、辞書検索部 22、、、辞書ファイル 24、、、単位認識部
Claims (1)
- 【特許請求の範囲】 1、所定の言語の文字列を入力する入力手段と、該入力
された文字列の検索に用いられ、基本的なデータを記憶
する基本辞書手段と、 前記入力された文字列について該基本辞書手段を検索す
ることにより該文字列を解析する解析手段とを有し、 該解析手段は、前記入力された文字列について前記基本
辞書手段を検索することにより該文字列の一部が検索さ
れた場合に、該文字列の他の部分について同様に前記基
本辞書手段を検索することにより、該文字列を解析する
ことを特徴とする言語解析装置。 2、特許請求の範囲第1項記載の装置において、前記基
本辞書手段は、単位を表すデータを記憶する基本単位辞
書手段であり、前記解析手段は、前記入力された文字列
について該基本単位辞書手段を検索することにより該文
字列が単位を表すものであるか否かを解析するものであ
ることを特徴とする言語解析装置。 3、特許請求の範囲第2項記載の装置において、前記解
析手段は、前記基本単位辞書手段を検索した結果、前記
文字列が該基本単位辞書手段に記憶されている単位を表
す文字列の組合せのみからなる場合に単位を表す文字列
と判断することを特徴とする言語解析装置。 4、特許請求の範囲第1項ないし第3項のいずれかに記
載の装置において、前記解析手段は、ポインタを有し、
該ポインタを前記入力された文字列の先頭の文字にセッ
トし、該ポインタのセットされた文字から始まる文字列
について前記基本辞書手段を検索することにより該文字
列の一部が検索された場合に、該検索された文字列の一
部に続く文字列に該ポインタをセットし、さらに該ポイ
ンタのセットされた文字列について前記基本辞書手段を
検索することを特徴とする言語解析装置。 5、特許請求の範囲第1項ないし第4項のいずれかに記
載の装置において、前記入力される文字列は、通常の辞
書手段により検索され、該辞書手段に記憶されていなか
ったものであることを特徴とする言語解析装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61234328A JPH0821031B2 (ja) | 1986-10-03 | 1986-10-03 | 言語解析装置 |
| NL8702359A NL8702359A (nl) | 1986-10-03 | 1987-10-02 | Taal analyse inrichting. |
| FR8713742A FR2604814B1 (fr) | 1986-10-03 | 1987-10-05 | Analyseur de langage |
| DE19873733674 DE3733674A1 (de) | 1986-10-03 | 1987-10-05 | Sprachanalysator |
| US07/714,990 US5225981A (en) | 1986-10-03 | 1991-06-14 | Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61234328A JPH0821031B2 (ja) | 1986-10-03 | 1986-10-03 | 言語解析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6389976A true JPS6389976A (ja) | 1988-04-20 |
| JPH0821031B2 JPH0821031B2 (ja) | 1996-03-04 |
Family
ID=16969282
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61234328A Expired - Fee Related JPH0821031B2 (ja) | 1986-10-03 | 1986-10-03 | 言語解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0821031B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0736917A (ja) * | 1993-06-29 | 1995-02-07 | Nec Corp | キーワード自動抽出装置 |
| US10504364B2 (en) | 2016-01-05 | 2019-12-10 | Locix, Inc. | Systems and methods for using radio frequency signals and sensors to monitor environments |
| US11856483B2 (en) | 2016-07-10 | 2023-12-26 | ZaiNar, Inc. | Method and system for radiolocation asset tracking via a mesh network |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57113187A (en) * | 1980-12-19 | 1982-07-14 | Ibm | Method of processing text |
| JPS6091478A (ja) * | 1983-10-25 | 1985-05-22 | Sharp Corp | 単語の綴り検査方式 |
-
1986
- 1986-10-03 JP JP61234328A patent/JPH0821031B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57113187A (en) * | 1980-12-19 | 1982-07-14 | Ibm | Method of processing text |
| JPS6091478A (ja) * | 1983-10-25 | 1985-05-22 | Sharp Corp | 単語の綴り検査方式 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0736917A (ja) * | 1993-06-29 | 1995-02-07 | Nec Corp | キーワード自動抽出装置 |
| US10504364B2 (en) | 2016-01-05 | 2019-12-10 | Locix, Inc. | Systems and methods for using radio frequency signals and sensors to monitor environments |
| US11856483B2 (en) | 2016-07-10 | 2023-12-26 | ZaiNar, Inc. | Method and system for radiolocation asset tracking via a mesh network |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0821031B2 (ja) | 1996-03-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
| JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
| EP0378848A2 (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
| JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
| JPS58192173A (ja) | 機械翻訳装置 | |
| JPH09204437A (ja) | 文書検索装置 | |
| JPS6389976A (ja) | 言語解析装置 | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
| JP3343941B2 (ja) | 例文検索システム | |
| JPH03116375A (ja) | 情報検索装置 | |
| Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
| KR100371135B1 (ko) | 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법 | |
| JPH04330565A (ja) | 自然言語処理システム | |
| JP3508312B2 (ja) | キーワード抽出装置 | |
| JPH01114976A (ja) | 文書処理装置の辞書構造 | |
| JP3233283B2 (ja) | 日本文文章解析装置 | |
| JP3048793B2 (ja) | 文字変換装置 | |
| JPH01258069A (ja) | 日本語文字列の形態素解析方式 | |
| JP3020230B2 (ja) | 辞書コンパクト装置および自然言語処理方法 | |
| JPH0821034B2 (ja) | 言語解析装置 | |
| JPS6132167A (ja) | カナ漢字変換処理装置 | |
| JP2002297590A (ja) | 翻訳システム、翻訳方法およびプログラム | |
| JP2009265845A (ja) | 例文検索装置および例文検索処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |