JPH05233686A - 日本語処理装置 - Google Patents

日本語処理装置

Info

Publication number
JPH05233686A
JPH05233686A JP4032448A JP3244892A JPH05233686A JP H05233686 A JPH05233686 A JP H05233686A JP 4032448 A JP4032448 A JP 4032448A JP 3244892 A JP3244892 A JP 3244892A JP H05233686 A JPH05233686 A JP H05233686A
Authority
JP
Japan
Prior art keywords
dictionary
proper noun
morpheme
search candidate
candidate section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4032448A
Other languages
English (en)
Inventor
Hiroko Tanabe
裕子 田邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4032448A priority Critical patent/JPH05233686A/ja
Publication of JPH05233686A publication Critical patent/JPH05233686A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】ユーザの辞書登録の負荷を大幅に軽減し、解析
の適切さおよび翻訳に用いる場合に訳語の適切さが格段
にすぐれている日本語処理装置の提供。 【構成】固有名詞の登録を排除した機械処理用の辞書1
と、この辞書1を用いて入力文を形態素に分かち書きす
る形態素解析手段2と、未定義語区間になったり、一文
字漢字連続に分かち書きされる等、ある特定の形態素解
析結果を不自然と定義する形態素解析結果チェックテー
ブル3と、固有名詞の前後に出現する接辞の情報を保持
する固有名詞承接語関係認定テーブル4と、これら2つ
のテーブルを利用して固有名詞辞書6を引く区間を認定
する辞書再検索候補区間認定手段5と、固有名詞辞書6
と、固有名詞辞書検索手段7とから構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は日本語処理装置に関し、
特に辞書への登録が必要でありながら大量に辞書に登録
をすると入力文章の形態素分割処理に悪影響を及ぼすた
め従来取り扱いが困難であるとされていた固有名詞辞書
の有効利用を図る日本語処理装置に関する。
【0002】
【従来の技術】従来の日本語処理装置は、固有名詞の辞
書登録は他の未知語と同様ユーザに委ねられている。固
有名詞がシステム辞書で扱われない理由としては、語数
が多いこと、一語当りのヒット率が低い、すなわち、異
なり出現語数と延べ出現語数の比が1に近いこと、そし
て何より固有名詞見出しの存在が入力文の分かち書きに
悪影響を及ぼすことがあげられている。
【0003】ところが、機械処理向きであるとされてい
るマニュアル文章においても固有名詞の出現頻度は無視
できない位存在する。そのため従来よりユーザの固有名
詞の辞書登録の負担を軽減するために、従来の日本語処
理装置に対しいくつかの方法が試みられてきた。
【0004】1つは未登録区間を固有名詞または数詞と
して処理する方法(特開昭62-280966 )である。しかし
この方法には名詞として扱われる部分の意味属性情報が
不確かであるという問題がある。
【0005】この問題を解決する方法として、固有名詞
の前後に現れ易い語の情報から固有名詞部分の属性情報
を収集することも考えられている(特開昭63-94365)。
しかし、こちらの方法は前後に承接語が存在しない場合
には役に立たない。
【0006】
【発明が解決しようとする課題】上述した従来の日本語
処理装置は、固有名詞見出しの存在により文の分かち書
き結果に悪影響を及ぼすという問題と、ユーザの固有名
詞辞書登録の負担増加という問題とを抱えており、それ
に対して、通常前者を優先し、後者の問題は、固有名詞
辞書区間およびその内容の推定という手段でカバーしよ
うという方法がとられてきた。しかし、この方法では、
辞書情報の保証がないので、例えば翻訳の場合に訳語の
保証もなく、結局は必要なだけの固有名詞の辞書登録コ
ストがユーザの側に発生するという問題点があった。
【0007】本発明の目的は、先づ固有名詞候補区間の
認定を行ない、しかるのちに固有名詞の辞書引きを行な
うことにより、ユーザの辞書登録の負荷を大幅に軽減
し、また解析の適切さを保証し、翻訳に際しては訳語の
適切さが保証できる日本語処理装置を提供することにあ
る。
【0008】
【課題を解決するための手段】第1の発明の日本語処理
装置は、固有名詞の登録を排除している第1の辞書と、
人名、地名等固有名詞のみ登録されている第2の辞書
と、入力文字列を前記第1の辞書に登録されている形態
素単位に分かち書きする形態素解析手段と、前記形態素
解析手段から出力された結果に対して予め定められた規
則に従って再検索候補区間を判別する辞書再検索候補区
間認定手段と、前記辞書再検索候補区間認定手段により
出力された候補区間に対して前記第2の辞書を引きにい
く固有名詞辞書検索手段とを含んで構成されている。
【0009】第2の発明の日本語処理装置は、第1の発
明の日本語処理装置において、不自然な形態素解析結果
の定義を複数格納する形態素解析結果チェックテーブル
と、固有名詞承接語の見出し情報とその品詞情報と意味
属性情報とを格納する固有名詞承接語関係認定テーブル
とを含み、辞書再検索候補区間認定手段は前記形態素解
析結果チェックテーブルと前記固有名詞承接語関係認定
テーブルとを参照して再検索候補区間を判別して構成さ
れる。
【0010】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0011】図1は本発明の日本語処理装置の一実施例
を示すブロック図である。
【0012】本実施例の日本語処理装置は、図1に示す
ように、固有名詞の登録を排除した機械処理用の辞書1
と、この辞書1を用いて入力文を形態素に分かち書きす
る形態素解析手段2と、未定義語区間になったり、一文
字漢字連続に分かち書きされる等、ある特定の形態素解
析結果を不自然と定義する形態素解析結果チェックテー
ブル3と、固有名詞の前後に出現する接辞の情報を保持
する固有名詞承接語関係認定テーブル4と、これら2つ
のテーブルを利用して、固有名詞辞書6を引く区間を認
定する辞書再検索候補区間認定手段5と、固有名詞辞書
6と、固有名詞辞書検索手段7とから構成される。
【0013】形態素解析手段2は辞書1を用いて日本語
の入力文を辞書1の見出しである形態素に分割し、各形
態素に辞書情報を割り付ける。辞書再検索候補区間認定
手段5は形態素分割の結果および辞書情報を、形態素解
析結果チェックテーブル3および固有名詞承接語関係認
定テーブル4と照会して、辞書引きをやり直した方がよ
いと考えられる区間を認定する。
【0014】形態素解析結果チェックテーブル3は不自
然な形態素解析結果の定義の羅列である。定義に用いら
れるのは字種、形態素長およびその組合せ、対応する辞
書見出しの有無で、例えば、 ・未登録語区間(対応する辞書見出しが存在しない区
間) ・カタカナ列が2つ以上の形態素に分割されている区間 ・2文字の漢字列が1文字ずつの漢字形態素に分割され
ている区間 ・4文字の漢字列が1文字・2文字・1文字の形態素に
分割されている区間 というような定義か記述されている。
【0015】固有名詞承接語関係認定テーブル4は、見
出し語の情報、品詞の情報、前/後接語の可能な意味属
性情報の3つ組をセットにして格納する。図2は固有名
詞承接語関係認定テーブル4の内容を例示するものであ
る。
【0016】固有名詞辞書検索手段7は、辞書再検索候
補区間認定手段5により出力された区間に対し固有名詞
辞書6を引きに行き、検索に成功したらその結果を新た
な形態素解析および辞書引き結果とし、失敗した場合に
はその区間に対し形態素解析手段2の出力を尊重する。
【0017】図3を参照して本実施例の動作について説
明する。「以下については山田(オックスフォード大学
教授)の論文を参照のこと。」という解析対象の文を入
力すると(ステップ31)、形態素解析手段2は辞書1
を用いて入力文を分かち書きする(ステップ32)。ス
テップ32の分かち書き結果の各形態素から下がってい
る箱の中には、辞書1の辞書引き結果の辞書情報が格納
されている(図に示した辞書情報は必要な部分のみを抜
粋してある)。
【0018】辞書1からは固有名詞の見出しを排除して
あるので「山田」は「山」と「田」という2つの形態素
に分割されており、「オックスフォード」は未登録語に
なって、そこにつながる箱の中には未登録語のデフォル
ト辞書情報が格納されている。また、「大学」という形
態素からつながる箱には、名詞の可能性と接尾辞の可能
性とがあること、等の情報が格納されている。
【0019】形態素解析手段2の出力に対し辞書再検索
候補区間認定手段5は、まず形態素解析結果チェックテ
ーブル3に該当する文字列の有無を検索する。ステップ
32で得た分かち書き文には、1文字形態素に分割され
てしまっている2文字漢字列「山田」および未登録語区
間「オックスフォード」が含まれている。
【0020】辞書再検索候補区間認定手段5はそれら2
つの区間の前後の語が名詞と接続可能な語であるかどう
かをチェックした上で、これら2つの文字列を再検索候
補区間として保持する。その際、再検索候補区間に対す
る意味属性の条件は制限なしである、という情報と対に
して格納する。
【0021】辞書再検索候補区間認定手段5は、次に固
有名詞承接語関係認定テーブル4の見出しに該当する語
が文中に含まれているがどうかチェックする。「大学」
と「教授」という2つの見出しが固有名詞承接語関係認
定テーブル4の見出しに適合し、ステップ32において
「大学」および「教授」に保持される品詞情報は固有名
詞承接語関係認定テーブル4の該当エントリの品詞条件
を満たす。
【0022】辞書再検索候補区間認定手段5は、それぞ
れの語の直前の文字から左方に、字種が変るまての文字
列を抽出する。その結果「オックスフォード」と「大
学」とが接尾辞「大学」および「教授」の結合語候補と
してそれぞれ認定される。
【0023】辞書再検索候補区間認定手段5はそれら候
補文字列と、固有名詞承接語関係認定テーブル4から得
られる意味属性情報「場所、組織」および「人」とをそ
れぞれ対にして保持する。その際、「オックスフォー
ド」という文字列に関する情報対に対しては形態素解析
結果チェックテーブル3を参照して既に得られている結
果を上書きすることになる。
【0024】これは、固有名詞承接語関係認定テーブル
4により認定された区間には意味属性の制限がかかるた
め、より厳密な条件で固有名詞辞書6を引きに行くこと
が可能になるからである。結果として辞書再検索候補区
間認定手段5の出力は以下のようになる。
【0025】 (文字列) (意味属性条件) 山田 ANY オックスフォード 場所、組織 大学 人 上記の「ANY」とは「意味属性の条件は制限なし」と
いうことである。
【0026】固有名詞辞書検索手段7はこの出力結果を
元に固有名詞辞書6を引き、「山田」で「人」の意味属
性をもつ辞書と「オックスフォード」で「場所」の意味
属性をもつ辞書との検索に成功する。しかし、「大学」
はそもそも固有名詞辞書6中に存在しないため検索に失
敗する。辞書検索手段7は「山田」と「オックスフォー
ド」の辞書中の意味属性情報が上記の出力結果の条件に
該当することをチェックした上で、上記2つの文字列区
間に対する形態素分割結果および辞書情報の差替えを行
なう(ステップ33)。
【0027】このようにして、本実施例では日本語の解
析の適切さの保証、およびそれにもとずく翻訳の場合の
訳語の適切さが保証されることとなる。
【0028】
【発明の効果】以上説明したように、本発明の日本語処
理装置は、固有名詞候補区間の認定、固有名詞辞書引き
という2段階に分けた処理を行なうことにより固有名詞
辞書の登録が引き起こす悪影響を防ぐと同時に、辞書に
ない固有名詞の情報を推論するという危険を排除するこ
とができる。
【0029】従って、ユーザの辞書登録の負荷が軽減さ
れ、解析の適切さの保証、および翻訳に用いる場合なら
ば訳語の適切さが保証されるという効果がある。
【図面の簡単な説明】
【図1】本発明の日本語処理装置の一実施例を示すブロ
ック図である。
【図2】固有名詞承接語関係認定テーブルのデータ構成
例示図である。
【図3】本実施例の処理動作を示す流れ図である。
【符号の説明】
1 辞書 2 形態素解析手段 3 形態素解析結果チェックテーブル 4 固有名詞承接語関係認定テーブル 5 辞書再検索候補区間認定手段 6 固有名詞辞書 7 固有名詞辞書検索手段 31、32、33 流れ図のステップ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 固有名詞の登録を排除している第1の辞
    書と、人名、地名等固有名詞のみ登録されている第2の
    辞書と、入力文字列を前記第1の辞書に登録されている
    形態素単位に分かち書きする形態素解析手段と、前記形
    態素解析手段から出力された結果に対して予め定められ
    た規則に従って再検索候補区間を判別する辞書再検索候
    補区間認定手段と、前記辞書再検索候補区間認定手段に
    より出力された候補区間に対して前記第2の辞書を引き
    にいく固有名詞辞書検索手段とを含むことを特徴とする
    日本語処理装置。
  2. 【請求項2】 不自然な形態素解析結果の定義を複数格
    納する形態素解析結果チェックテーブルと、固有名詞承
    接語の見出し情報とその品詞情報と意味属性情報とを格
    納する固有名詞承接語関係認定テーブルとを含み、辞書
    再検索候補区間認定手段は前記形態素解析結果チェック
    テーブルと前記固有名詞承接語関係認定テーブルとを参
    照して再検索候補区間を判別することを特徴とする請求
    項1記載の日本語処理装置。
JP4032448A 1992-02-20 1992-02-20 日本語処理装置 Withdrawn JPH05233686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4032448A JPH05233686A (ja) 1992-02-20 1992-02-20 日本語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4032448A JPH05233686A (ja) 1992-02-20 1992-02-20 日本語処理装置

Publications (1)

Publication Number Publication Date
JPH05233686A true JPH05233686A (ja) 1993-09-10

Family

ID=12359249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4032448A Withdrawn JPH05233686A (ja) 1992-02-20 1992-02-20 日本語処理装置

Country Status (1)

Country Link
JP (1) JPH05233686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH05314166A (ja) 電子化辞書および辞書検索装置
JPH09198395A (ja) 文書検索装置
JPH05233686A (ja) 日本語処理装置
JP4007630B2 (ja) 対訳例文登録装置
JP2719453B2 (ja) 機械翻訳装置
JP2546486B2 (ja) 文書解析方法および装置
JPH0561902A (ja) 機械翻訳システム
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JPH01185766A (ja) かな漢字変換装置
JPS6368972A (ja) 未登録語処理方式
JPH10254881A (ja) 機械翻訳装置
JP2000207395A (ja) 日本語解析装置および日本語解析方法ならびに日本語解析プログラムを記録した記録媒体
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH07200592A (ja) 文章処理装置
JPH0816910B2 (ja) 言語解析装置
JPH0973454A (ja) 文書作成装置及び文書作成方法
JPS63136264A (ja) 機械翻訳装置
JPH0973460A (ja) 文書検索装置
JPH09319746A (ja) 文書解析方法および装置
JPH04213164A (ja) 辞書引き方式
JPH01232471A (ja) 形態素解析装置
JPS6395570A (ja) 言語解析方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518