JPS6389976A

JPS6389976A - 言語解析装置

Info

Publication number: JPS6389976A
Application number: JP61234328A
Authority: JP
Inventors: Toshihiko Yokogawa; 横川　壽彦
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-10-03
Filing date: 1986-10-03
Publication date: 1988-04-20
Anticipated expiration: 2011-03-04
Also published as: JPH0821031B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は言語解析装置、特に自動翻訳装置に有用な言語
解析装置に関する。

従来技術例えば英語等の外国語の文からそれに対応する日本語の
文を作成する場合、入力された英文の形態素を解析し、
その構文を解析し、その文構造を変換し、その後に日本
語の訳文を生成する。

すなわち、辞書を検索することによって入力文を構成す
る各単語等の形態素を解析し、これらの形態素について
の品詞等の情報を得る。その後、得られた品詞等の情報
に基づいて、各々の単語またはこれらの単語により形成
されるブロック相互の修飾関係を文法ルールにより解析
することにより、入力文の構造の解析、すなわち構文解
析な行う、さらに、解析された構文に基づいて入力文の
文構造を日本語の構文配列の順序に変換し、変換された
配列に従って日本語の形態素を生成し、日本語文を生成
する。

このような訳文生成の際に行われる形態素解析において
は、辞書を検索することによって単語等の形態素の品詞
その他の情報を得ている。通常の名詞、動詞等の単語の
場合にはその多くを辞書に格納しておくことができるか
ら、容易に検索され、情報を得ることができる。

しかし、例えば長さ、速度、加速度その他の単位を表す
表現は非常に多くの種類が存在するため、これらをすべ
て辞書に格納しておくことは辞書情報の記憶容量をいた
ずらに大きくすることになり、非能率的である。これら
の単位は、例えばｍ／ｓ　、　ｋｍ／ｓ等のように、単
位を表す表現を複数組み合わせた複合的な表現のものが
多いためである。

ところがこれらの単位の一部のみを辞書に記憶しておく
装置の場合には入力文に含まれるこれらの複合的な表現
の単位の情報を得ることができないため、形態素解析を
行うことができず、誤った言語解析を行う恐れがあった
。

目　　　的本発明はこのような従来技術の欠点を解消し、複合的な
表現からなる文字列のすべてを辞書に記憶しておくこと
なしに、このような文字列を含む入力文の形態素解析を
行うことのできる言語解析装置を提供することを目的と
する。

構成本発明は上記の目的を達成させるため、所定の言語の文
字列を入力する入力手段と、入力された文字列の検索に
用いられ、基本的なデータを記憶する基本辞書手段と、
入力された文字列について基本辞書手段を検索すること
により文字列を解析する解析手段とを有し、解析手段は
、入力された文字列について基本辞書手段を検索するこ
とにより文字列の一部が検索された場合に、文字列の他
の部分について同様に基本辞書手段を検索することによ
り、文字列を解析することを特徴としたものである。以
下、本発明の一実施例に基づいて具体的に説明する。

第１図には、本発明による言語解析装置を英日目動翻訳
装置に適用した一実施例が示されている。なお、本発明
は、英語の入力文の形態素解析以外にも用いることがで
き、英語を日本語に翻訳する英日翻訳装置のみならず、
ある１つの言語を他の言語に翻訳する自動翻訳装置にも
効果的に適用されることは、言うまでもない。

木実流側は入力部１４を有し、入力部１４には入力装置
１０または入力文書ファイル１２からデータが入力され
る。入力装置１０は例えば、英数字キー等の文字キーや
機能キー等を有するキーボード、紙に記録された英字テ
キストを読み取る光学的文字読み取り装置等を含む、入
力文書ファイル１２は、磁気ディスク等の記憶媒体に英
字テキストを記録した記憶装置である。

入力部１４は入力文字列バッファ１４ａを有し・入力装
置１０または入力文書ファイル１２から入力された英語
の入力文を入力文字列バッファ１４ａに記憶する。入力
部１４は入力文字列バッファ１４ａに記憶された入力文
を読み出して処理部１６に出力する。

処理部１８は、辞書ファイルの検索によって、入力部１
４から送られた入力文の形態素解析を行う機能部である
。処理部ｔｅは辞書情報保存テーブルｌｅａを有し、後
述する辞書ファイル２２または基本単位辞書ファイル２
６を検索して得た情報を辞書情報保存テーブルｌｅａに
記憶する。

処理部１８は、入力部１４から入力された入力文を構成
する文字列から辞書を検索する場合の単位となる検索キ
ー文字列を探索する。この検索キー文字列の探索は、入
力文を構成する文字列の最初の文字から順に所定の探索
ルールにより探索する。

例えば、入力文をスペース、コンマ等のデリミツタによ
り文頭から順に区分し、区分された文字列をそれぞれ検
索キー文字列とする。この場合に■、　ｋｍ、　ｍｉｓ
等の単位を表す文字列はそれぞれこれらが検索キー文字
列とされる。処理部１Ｇは入力文を構成する文字列から
探索した検索キー文字列を辞書検索部２０に送る。

文字列に基づいて辞書ファイル２２を検索する。辞書フ
ァイル２２は、第２図に示すようにエントリおよび品詞
等の文法情報が記憶されている。辞書検索部２０は、辞
書ファイル２２にエントリがある場合にはそのエントリ
の品詞情報等を読み出し、これを処理部１Ｂに出力する
。辞書検索部２０は、辞書ファイル２２を検索した結果
、辞書ファイル２２にエントリがない場合にはその旨を
処理部１Ｂに出力する。

処理部１Ｂは、辞書検索部２０により検索された品詞情
報等を辞書情報保存テーブルｌｅａに記憶する。処理部
１Ｂは、辞書ファイル２２に検索キー文字列のエントリ
がない場合には、その検索キー文字列を単位認ＩＩ部２
４に出力する。

単位認識部２４は処理部１Ｂから送られた検索キー文字
列に基づいて基本単位辞書ファイル２Ｂを検索する。基
本単位辞書ファイル２８は、８８３図に示すように基本
単位エントリが記憶されている。単位認識部２４は、基
本単位辞書ファイル２Ｂに基本単位エントリがある場合
にはその基本単位エントリな読み出す、基本単位辞書フ
ァイル２Ｂにエントリがない場合には、後述するように
検索キー文字列を複数の文字列に分割して基本単位辞書
ファイル２Ｂを複数回検索し、複数回の検索において基
本単位辞書ファイル２Ｂにそれぞれ基本単位エントリが
ある場合には、これらの基本単位エントリから複合単位
情報を得る。複数回の検索においてそのいずれかに基本
単位エントリがない場合には、辞書未登録語である旨の
情報を得る。

単位認ｉ！１ｆｆｉ２４は、基本単位エントリ、複合単
位情報および辞書未登録語である旨の情報を処理部ＩＢ
に出力する。処理部ＩＢは、単位認識部２４から入力さ
れたこれらの情報を辞書情報保存テーブルＩＥｌａに記
憶する。

辞書情報保存テーブル１８ａは、第４図に示すように検
索キー文字列のエントリと、検索キー文字列について辞
書ファイル２２または基本単位辞書ファイル２６を検索
して得た品詞等の文法情報を記憶保存する。処理部１６
は、辞書情報保存テーブル１８ａにこれらのデータが記
憶された後、これらのデータを入力文とともに出力イン
ターフェース１Ｂに出力する。出力インターフェース１
８は処理部１Ｂから出力された入力文および形態素解析
のデータをプリンタ、ディスプレイ等の出力装置３０．
または磁気ディスク等の記憶ファイル３２に出力する。

または、出力インターフェース１８を設けることなく、
処理部１６から出力される入力文および形態素解析のデ
ータを直接構文解析手段（図示せず）に入力し、構文解
析手段において入力文の構文解析を行い、さらにその構
文解析に基づいて訳文を生成するようにしてもよい。

制御部２Ｂは、本装置の各機能部の動作を制御するもの
であり、マイクロプロセッサにより有利に構成される。

第５図に示すフローチャートにより、本装置の動作を説
明する。

まず、入力装置１０または入力文書ファイル１２から英
語の入力文を入力部１４に読み込む（１００）　、入力
部１４に読み込まれた入力文は入力文字列バッファ１４
ａに格納される。入力文字列バッファ１４ａに記憶され
た入力文は読み出されて処理部１８に出力される。

処理部１Ｂでは、入力文が入力されると、辞書引き単位
の切り出しが行われる（１０２）。すなわち、入力され
た入力文を構成する文字列は、所定のルールによって、
辞書ファイル２２または基本単位辞書ファイル２Ｂを検
索する場合の単位である検索キー文字列に、文字列の先
頭から順に分割される０分割された検索キー文字列があ
るか否かを判断しく１０４）　、ある場合には検索キー
文字列を辞書検索部２０に送る。

辞書検索部２０に検索キー文字列が送られると、辞書検
索部２０はこの検索キー文字列について辞書ファイル２
２を検索する（ｔｏｅ）　’、第２図に示すような辞書
ファイル２２のエントリに検索キー文字列があるか否か
を判断しく１ｏ８）　、エントリがある場合には辞書フ
ァイル２２に記憶されている品詞等の文法情報を読み出
し、読み出したデータを処理部１６に送り、辞書情報保
存テーブル１６ａに記録する（１１０）　、その後、ス
テップ１０２に戻り、再び辞書引き単位の切り出しを行
う。

辞書ファイル２２にエントリがない場合には、辞書検索
部２０は検索キー文字列を処理部１Ｂに送り返し、処理
部１Ｂはこの検索キー文字列を単位認識部２４に送り、
単位認識部２４において単位の認識を行う（１１２）　
。

辞書検索部２０に送られた検索キー文字列が通常の名詞
、動詞等の単語である場合には殆ど辞書ファイル２２の
エントリがあるから、辞書ファイル２２から品詞等の文
法情報を読み出し、このデータを処理部１Ｂに送り、辞
書情報保存テーブルｔｅａに記録する。辞書ファイル２
２は上記のように通常の名詞、動詞等の単語のエントリ
が形成され、単位を表す文字列のエントリは形成されて
いない、したがって、検索キー文字列がｋｍ、■／Ｓ等
の単位を表す文字列である場合には、辞書ファイル２２
のエントリがないから、ステップ１１２に進み、単位の
認識を行う。

ステップ１１２の単位の認識の動作について、第６図に
より説明する。

辞書ファイル２２の検索において、辞書ファイル２２に
エントリの存在しなかった検索キー文字列が処理部１Ｂ
から単位認識部２４に送られると、単位認識部２４にお
いて検索キー文字列の先頭の文字にポインタＰをセット
する（２００）　。

次に、単位認識部２４は、ポインタＰがセットされてい
る文字から始まる文字列について基本単位辞書ファイル
２６を検索する（２０２）。この検索は、基本単位辞書
ファイル２Ｂにエントリの存在する基本単位が、ポイン
タＰのセットされた文字から始まる文字列中に完全な文
字列として現れ、かつポインタＰのセットされた文字を
始点としているか否かを検索する。すなわち、この検索
はポインタＰがセットされている文字から始まる１文字
ないし複数文字の文字列が、基本単位辞書ファイル２Ｂ
にエントリの存在する基本単位のいずれかと一致するか
否かを検索する。例えば、ポインタＰがセットされてい
る文字が、ｋ、薦、Ｓ等の場合にｌ乙は、ポインタＰがセットされている文字から始まるこれ
らの１文字について、第３図に示すように基本単位辞書
ファイル２６にエントリが存在する。

単位認識部２４は、基本単位辞書ファイル２Ｂの検索の
結果、基本単位辞書ファイル２Ｂ中にエントリが存在す
るか否かを判断しく２０４）　、エントリが存在する場
合には、認識した基本単位の長さ分だけポインタＰを進
める（２０８）。したがって、基本単位がｋ、鳳、Ｓ等
の場合には、ポインタＰを１文字分進め、検索キー文字
列内の次の文字にセットする。

単位認識部２４は、ポインタＰがセットされている文字
から始まる文字列がさらに存在するか否かを判断する（
２０８）。このような文字列がさらに存在する場合には
、ステップ２０２に戻り、ポインタＰがセットされてい
る文字から始まる文字列で再び基本単位辞書ファイル２
８を検索する。そして、基本単位辞書ファイル２６の検
索の結果、基本単位中にエントリが存在するか否かを判
断しく２０４）、エントリが存在する場合には、認識し
た基本単位の長さ分だけポインタＰを進める。

ステップ２０８において、ポインタＰがセットされてい
る文字から始まる文字列がもう存在しない場合には、基
本単位辞書ファイル２Ｂの検索が終了し、複合単位の認
識に成功したことになる。

例えば単位認識部２４に送られた検索キー文字列が単位
を表すｋｍ／ｓである場合には、このに■／ｓ目体は複
雑な単位であるため、基本単位辞書ファイル２Ｂにエン
トリが存在しない。そこで、最初にポインタＰをｋにセ
ットしく２００）　、　ｋを基本単位辞書ファイル２８
により検索してエントリの存在を確認する（２０２）。

次に、ポインタＰをｌにセットしく２０Ｂ）　、層を基
本単位辞書ファイル２８により検索して（２０２）、同
様にエントリの存在を確認する。単位認識部２４は、ス
ラッシュｌ、中黒・等を単位の一部とみなすので、次に
ｋｍ／ｓ中のｌをとばしてポインタＰをＳにセットする
（２Ｈ）。そしてＳを基本単位辞書ファイル２６により
検索して同様にエントリの存在を確認する（、２０２）
　、これらの結果、ｋ、ｍ、およびＳのいずれも基本単
位辞書ファイル２Ｂの検索によりエントリが存在したの
で、ｋ−／Ｓは単位を表す文字列であると判断される。

このように、検索キー文字列を構成するすべての文字に
ついて基本単位辞書ファイル２Ｂにエントリが存在する
場合、。

またはスラッシュ、中黒等の単位の一部とみなされる記
号を除いたすべての文字について基本単位辞書ファイル
２Ｂにエントリが存在する場合に、その検索キー文字列
は単位を表す文字列であると判断される。

単位認識部２４は、基本単位辞書ファイル２６の検索を
終了し、複合単位の認識に成功すると、得られた単位情
報を処理部１Ｂに送り、辞書情報保存テーブル１８ａに
格納する（２１０）。これにより単位の認識が終了する
。

ステップ２０４において、ポインタＰがセットされてい
る文字から始まる文字列についての基本単位辞書ファイ
ル２８の検索の結果、基本単位辞書ファイル２Ｂ中にエ
ントリが存在しない場合には、ｌにの文字列を基本単位または複合単位として認識すること
ができなかったことになるので、単位認識部２４はこの
文字列が辞書未登録語であるという情報、すなわち単位
を表すものではないという情報を処理部１Ｂに送り、処
理部１８の辞書情報保存テーブルｌｅａに保存すること
により（２１２）　、　中位の認識が終了する。

第５図に戻って、単位の認識（１１２）が終了すると、
ステップ１０２に戻り、再び処理部１６による辞書引き
単位の切り出しが行われる。

辞書引き単位の切り出しの後、処理部１６は切り出した
単位がまだあるか否かを判断しく１０４）　、切り出し
た単位、すなわち検索キー文字列がもうない場合には、
辞書情報保存テーブルｌｅａに記憶されている情報を、
出力インターフェース１８を通して出力装置３０に出力
する（１１４）。これにより、入力文の解析が終了する
。

以上のように本実施例によれば、英語の入力文を検索キ
ー文字列に分割して、まず通常の辞書ファイル２２によ
り検索し、辞書ファイル２２にエントリがない場合に単
位の認識を行う。単位の認識においては、検索キー文字
列を分割してポインタＰにより指示し、分割された文字
列ごとに基本単位辞書ファイル２Ｂを検索し、基本単位
辞書ファイル２８に記録されているもの、または基本単
位辞書ファイル２６に記録されているものの連続からな
るものを、単位を表す文字列と判断する。

したがって、複雑な単位を表す文字列であっても、基本
単位辞書ファイル２６に記憶された基本単゛位を組み合
わせることにより単位の認識を行うことができるから、
多様な単位表現に対応して解析を行づことができる。し
かも、基本単位辞書ファイル２Ｂに′は基某的な単位の
み、例えばに、＋ｗ、ｓ等のみを記憶しておけばよく、
これらを組み合わせた複雑な単位、例えばに■、に■／
Ｓ等を記憶しておく必要がないため、辞書ファイルの容
量を少なくすることができる。

効果本発明によれば、入力された文字列について基本辞書手
段を検索し、文字列の一部が検索された場合に、文字列
の他の部分について同様に基本辞書手段を検索し、文字
列を解析する。したがって、基本辞書手段に多くのデー
タを記憶しておくことなく、多種類の文字列について解
析を行うことができる。

【図面の簡単な説明】

第１図は本発明による言語解析装置の一実施例を示すブ
ロック図、第２図は第１図の辞書ファイルに記憶されるデータの一
例を示す図、第３図は第１図の基本単位辞書ファイルに記憶されるデ
ータの一例を示す図、第４図は第１図の辞書情報保存テーブルに記憶されるデ
ータの一例を示す図、第５図は第１図の装置の動作を示すフローチャート。第６図は５８５図に示す動作のうち単位の認識を示すフ
ローチャートである。１８、、、処理部２０、、、辞書検索部２２、、、辞書ファイル２４、、、単位認識部

Claims

【特許請求の範囲】１、所定の言語の文字列を入力する入力手段と、該入力
された文字列の検索に用いられ、基本的なデータを記憶
する基本辞書手段と、前記入力された文字列について該基本辞書手段を検索す
ることにより該文字列を解析する解析手段とを有し、該解析手段は、前記入力された文字列について前記基本
辞書手段を検索することにより該文字列の一部が検索さ
れた場合に、該文字列の他の部分について同様に前記基
本辞書手段を検索することにより、該文字列を解析する
ことを特徴とする言語解析装置。２、特許請求の範囲第１項記載の装置において、前記基
本辞書手段は、単位を表すデータを記憶する基本単位辞
書手段であり、前記解析手段は、前記入力された文字列
について該基本単位辞書手段を検索することにより該文
字列が単位を表すものであるか否かを解析するものであ
ることを特徴とする言語解析装置。３、特許請求の範囲第２項記載の装置において、前記解
析手段は、前記基本単位辞書手段を検索した結果、前記
文字列が該基本単位辞書手段に記憶されている単位を表
す文字列の組合せのみからなる場合に単位を表す文字列
と判断することを特徴とする言語解析装置。４、特許請求の範囲第１項ないし第３項のいずれかに記
載の装置において、前記解析手段は、ポインタを有し、
該ポインタを前記入力された文字列の先頭の文字にセッ
トし、該ポインタのセットされた文字から始まる文字列
について前記基本辞書手段を検索することにより該文字
列の一部が検索された場合に、該検索された文字列の一
部に続く文字列に該ポインタをセットし、さらに該ポイ
ンタのセットされた文字列について前記基本辞書手段を
検索することを特徴とする言語解析装置。５、特許請求の範囲第１項ないし第４項のいずれかに記
載の装置において、前記入力される文字列は、通常の辞
書手段により検索され、該辞書手段に記憶されていなか
ったものであることを特徴とする言語解析装置。