JPH05233686A

JPH05233686A - 日本語処理装置

Info

Publication number: JPH05233686A
Application number: JP4032448A
Authority: JP
Inventors: Hiroko Tanabe; 裕子田邊
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-02-20
Filing date: 1992-02-20
Publication date: 1993-09-10

Abstract

(57)【要約】【目的】ユーザの辞書登録の負荷を大幅に軽減し、解析
の適切さおよび翻訳に用いる場合に訳語の適切さが格段
にすぐれている日本語処理装置の提供。【構成】固有名詞の登録を排除した機械処理用の辞書１
と、この辞書１を用いて入力文を形態素に分かち書きす
る形態素解析手段２と、未定義語区間になったり、一文
字漢字連続に分かち書きされる等、ある特定の形態素解
析結果を不自然と定義する形態素解析結果チェックテー
ブル３と、固有名詞の前後に出現する接辞の情報を保持
する固有名詞承接語関係認定テーブル４と、これら２つ
のテーブルを利用して固有名詞辞書６を引く区間を認定
する辞書再検索候補区間認定手段５と、固有名詞辞書６
と、固有名詞辞書検索手段７とから構成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は日本語処理装置に関し、
特に辞書への登録が必要でありながら大量に辞書に登録
をすると入力文章の形態素分割処理に悪影響を及ぼすた
め従来取り扱いが困難であるとされていた固有名詞辞書
の有効利用を図る日本語処理装置に関する。

【０００２】

【従来の技術】従来の日本語処理装置は、固有名詞の辞
書登録は他の未知語と同様ユーザに委ねられている。固
有名詞がシステム辞書で扱われない理由としては、語数
が多いこと、一語当りのヒット率が低い、すなわち、異
なり出現語数と延べ出現語数の比が１に近いこと、そし
て何より固有名詞見出しの存在が入力文の分かち書きに
悪影響を及ぼすことがあげられている。

【０００３】ところが、機械処理向きであるとされてい
るマニュアル文章においても固有名詞の出現頻度は無視
できない位存在する。そのため従来よりユーザの固有名
詞の辞書登録の負担を軽減するために、従来の日本語処
理装置に対しいくつかの方法が試みられてきた。

【０００４】１つは未登録区間を固有名詞または数詞と
して処理する方法（特開昭62-280966 ）である。しかし
この方法には名詞として扱われる部分の意味属性情報が
不確かであるという問題がある。

【０００５】この問題を解決する方法として、固有名詞
の前後に現れ易い語の情報から固有名詞部分の属性情報
を収集することも考えられている（特開昭63-94365）。
しかし、こちらの方法は前後に承接語が存在しない場合
には役に立たない。

【０００６】

【発明が解決しようとする課題】上述した従来の日本語
処理装置は、固有名詞見出しの存在により文の分かち書
き結果に悪影響を及ぼすという問題と、ユーザの固有名
詞辞書登録の負担増加という問題とを抱えており、それ
に対して、通常前者を優先し、後者の問題は、固有名詞
辞書区間およびその内容の推定という手段でカバーしよ
うという方法がとられてきた。しかし、この方法では、
辞書情報の保証がないので、例えば翻訳の場合に訳語の
保証もなく、結局は必要なだけの固有名詞の辞書登録コ
ストがユーザの側に発生するという問題点があった。

【０００７】本発明の目的は、先づ固有名詞候補区間の
認定を行ない、しかるのちに固有名詞の辞書引きを行な
うことにより、ユーザの辞書登録の負荷を大幅に軽減
し、また解析の適切さを保証し、翻訳に際しては訳語の
適切さが保証できる日本語処理装置を提供することにあ
る。

【０００８】

【課題を解決するための手段】第１の発明の日本語処理
装置は、固有名詞の登録を排除している第１の辞書と、
人名、地名等固有名詞のみ登録されている第２の辞書
と、入力文字列を前記第１の辞書に登録されている形態
素単位に分かち書きする形態素解析手段と、前記形態素
解析手段から出力された結果に対して予め定められた規
則に従って再検索候補区間を判別する辞書再検索候補区
間認定手段と、前記辞書再検索候補区間認定手段により
出力された候補区間に対して前記第２の辞書を引きにい
く固有名詞辞書検索手段とを含んで構成されている。

【０００９】第２の発明の日本語処理装置は、第１の発
明の日本語処理装置において、不自然な形態素解析結果
の定義を複数格納する形態素解析結果チェックテーブル
と、固有名詞承接語の見出し情報とその品詞情報と意味
属性情報とを格納する固有名詞承接語関係認定テーブル
とを含み、辞書再検索候補区間認定手段は前記形態素解
析結果チェックテーブルと前記固有名詞承接語関係認定
テーブルとを参照して再検索候補区間を判別して構成さ
れる。

【００１０】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【００１１】図１は本発明の日本語処理装置の一実施例
を示すブロック図である。

【００１２】本実施例の日本語処理装置は、図１に示す
ように、固有名詞の登録を排除した機械処理用の辞書１
と、この辞書１を用いて入力文を形態素に分かち書きす
る形態素解析手段２と、未定義語区間になったり、一文
字漢字連続に分かち書きされる等、ある特定の形態素解
析結果を不自然と定義する形態素解析結果チェックテー
ブル３と、固有名詞の前後に出現する接辞の情報を保持
する固有名詞承接語関係認定テーブル４と、これら２つ
のテーブルを利用して、固有名詞辞書６を引く区間を認
定する辞書再検索候補区間認定手段５と、固有名詞辞書
６と、固有名詞辞書検索手段７とから構成される。

【００１３】形態素解析手段２は辞書１を用いて日本語
の入力文を辞書１の見出しである形態素に分割し、各形
態素に辞書情報を割り付ける。辞書再検索候補区間認定
手段５は形態素分割の結果および辞書情報を、形態素解
析結果チェックテーブル３および固有名詞承接語関係認
定テーブル４と照会して、辞書引きをやり直した方がよ
いと考えられる区間を認定する。

【００１４】形態素解析結果チェックテーブル３は不自
然な形態素解析結果の定義の羅列である。定義に用いら
れるのは字種、形態素長およびその組合せ、対応する辞
書見出しの有無で、例えば、・未登録語区間（対応する辞書見出しが存在しない区
間）・カタカナ列が２つ以上の形態素に分割されている区間・２文字の漢字列が１文字ずつの漢字形態素に分割され
ている区間・４文字の漢字列が１文字・２文字・１文字の形態素に
分割されている区間というような定義か記述されている。

【００１５】固有名詞承接語関係認定テーブル４は、見
出し語の情報、品詞の情報、前／後接語の可能な意味属
性情報の３つ組をセットにして格納する。図２は固有名
詞承接語関係認定テーブル４の内容を例示するものであ
る。

【００１６】固有名詞辞書検索手段７は、辞書再検索候
補区間認定手段５により出力された区間に対し固有名詞
辞書６を引きに行き、検索に成功したらその結果を新た
な形態素解析および辞書引き結果とし、失敗した場合に
はその区間に対し形態素解析手段２の出力を尊重する。

【００１７】図３を参照して本実施例の動作について説
明する。「以下については山田（オックスフォード大学
教授）の論文を参照のこと。」という解析対象の文を入
力すると（ステップ３１）、形態素解析手段２は辞書１
を用いて入力文を分かち書きする（ステップ３２）。ス
テップ３２の分かち書き結果の各形態素から下がってい
る箱の中には、辞書１の辞書引き結果の辞書情報が格納
されている（図に示した辞書情報は必要な部分のみを抜
粋してある）。

【００１８】辞書１からは固有名詞の見出しを排除して
あるので「山田」は「山」と「田」という２つの形態素
に分割されており、「オックスフォード」は未登録語に
なって、そこにつながる箱の中には未登録語のデフォル
ト辞書情報が格納されている。また、「大学」という形
態素からつながる箱には、名詞の可能性と接尾辞の可能
性とがあること、等の情報が格納されている。

【００１９】形態素解析手段２の出力に対し辞書再検索
候補区間認定手段５は、まず形態素解析結果チェックテ
ーブル３に該当する文字列の有無を検索する。ステップ
３２で得た分かち書き文には、１文字形態素に分割され
てしまっている２文字漢字列「山田」および未登録語区
間「オックスフォード」が含まれている。

【００２０】辞書再検索候補区間認定手段５はそれら２
つの区間の前後の語が名詞と接続可能な語であるかどう
かをチェックした上で、これら２つの文字列を再検索候
補区間として保持する。その際、再検索候補区間に対す
る意味属性の条件は制限なしである、という情報と対に
して格納する。

【００２１】辞書再検索候補区間認定手段５は、次に固
有名詞承接語関係認定テーブル４の見出しに該当する語
が文中に含まれているがどうかチェックする。「大学」
と「教授」という２つの見出しが固有名詞承接語関係認
定テーブル４の見出しに適合し、ステップ３２において
「大学」および「教授」に保持される品詞情報は固有名
詞承接語関係認定テーブル４の該当エントリの品詞条件
を満たす。

【００２２】辞書再検索候補区間認定手段５は、それぞ
れの語の直前の文字から左方に、字種が変るまての文字
列を抽出する。その結果「オックスフォード」と「大
学」とが接尾辞「大学」および「教授」の結合語候補と
してそれぞれ認定される。

【００２３】辞書再検索候補区間認定手段５はそれら候
補文字列と、固有名詞承接語関係認定テーブル４から得
られる意味属性情報「場所、組織」および「人」とをそ
れぞれ対にして保持する。その際、「オックスフォー
ド」という文字列に関する情報対に対しては形態素解析
結果チェックテーブル３を参照して既に得られている結
果を上書きすることになる。

【００２４】これは、固有名詞承接語関係認定テーブル
４により認定された区間には意味属性の制限がかかるた
め、より厳密な条件で固有名詞辞書６を引きに行くこと
が可能になるからである。結果として辞書再検索候補区
間認定手段５の出力は以下のようになる。

【００２５】（文字列）（意味属性条件）山田ＡＮＹオックスフォード場所、組織大学人上記の「ＡＮＹ」とは「意味属性の条件は制限なし」と
いうことである。

【００２６】固有名詞辞書検索手段７はこの出力結果を
元に固有名詞辞書６を引き、「山田」で「人」の意味属
性をもつ辞書と「オックスフォード」で「場所」の意味
属性をもつ辞書との検索に成功する。しかし、「大学」
はそもそも固有名詞辞書６中に存在しないため検索に失
敗する。辞書検索手段７は「山田」と「オックスフォー
ド」の辞書中の意味属性情報が上記の出力結果の条件に
該当することをチェックした上で、上記２つの文字列区
間に対する形態素分割結果および辞書情報の差替えを行
なう（ステップ３３）。

【００２７】このようにして、本実施例では日本語の解
析の適切さの保証、およびそれにもとずく翻訳の場合の
訳語の適切さが保証されることとなる。

【００２８】

【発明の効果】以上説明したように、本発明の日本語処
理装置は、固有名詞候補区間の認定、固有名詞辞書引き
という２段階に分けた処理を行なうことにより固有名詞
辞書の登録が引き起こす悪影響を防ぐと同時に、辞書に
ない固有名詞の情報を推論するという危険を排除するこ
とができる。

【００２９】従って、ユーザの辞書登録の負荷が軽減さ
れ、解析の適切さの保証、および翻訳に用いる場合なら
ば訳語の適切さが保証されるという効果がある。

【図面の簡単な説明】

【図１】本発明の日本語処理装置の一実施例を示すブロ
ック図である。

【図２】固有名詞承接語関係認定テーブルのデータ構成
例示図である。

【図３】本実施例の処理動作を示す流れ図である。

【符号の説明】

１辞書２形態素解析手段３形態素解析結果チェックテーブル４固有名詞承接語関係認定テーブル５辞書再検索候補区間認定手段６固有名詞辞書７固有名詞辞書検索手段３１、３２、３３流れ図のステップ

Claims

【特許請求の範囲】

【請求項１】固有名詞の登録を排除している第１の辞
書と、人名、地名等固有名詞のみ登録されている第２の
辞書と、入力文字列を前記第１の辞書に登録されている
形態素単位に分かち書きする形態素解析手段と、前記形
態素解析手段から出力された結果に対して予め定められ
た規則に従って再検索候補区間を判別する辞書再検索候
補区間認定手段と、前記辞書再検索候補区間認定手段に
より出力された候補区間に対して前記第２の辞書を引き
にいく固有名詞辞書検索手段とを含むことを特徴とする
日本語処理装置。
【請求項２】不自然な形態素解析結果の定義を複数格
納する形態素解析結果チェックテーブルと、固有名詞承
接語の見出し情報とその品詞情報と意味属性情報とを格
納する固有名詞承接語関係認定テーブルとを含み、辞書
再検索候補区間認定手段は前記形態素解析結果チェック
テーブルと前記固有名詞承接語関係認定テーブルとを参
照して再検索候補区間を判別することを特徴とする請求
項１記載の日本語処理装置。