JPH0785057A - 構文解析方法及び装置 - Google Patents

構文解析方法及び装置

Info

Publication number
JPH0785057A
JPH0785057A JP5180682A JP18068293A JPH0785057A JP H0785057 A JPH0785057 A JP H0785057A JP 5180682 A JP5180682 A JP 5180682A JP 18068293 A JP18068293 A JP 18068293A JP H0785057 A JPH0785057 A JP H0785057A
Authority
JP
Japan
Prior art keywords
character string
kana
sentence
kanji
hiragana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5180682A
Other languages
English (en)
Inventor
Junichi Aoe
順一 青江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP5180682A priority Critical patent/JPH0785057A/ja
Publication of JPH0785057A publication Critical patent/JPH0785057A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本来漢字で表される文字列が何らかの原因で
ひらがなのままであっても、構文解析の質的な向上を行
わせる。 【構成】 与えられた一文に対する構文解析が失敗に終
わったら、その失敗の原因がひらがな文字列の存在によ
るものかどうかを判断する。ひらがな文字列であると判
断したら、そのひらがな文字列に対するかな漢字変換を
行う。そして、そのかな漢字変換の結果、得られたかな
漢字混じり文字列で、該当するひらがな文字列部分を置
き換え、再度の構文解析を行う。

Description

【発明の詳細な説明】
【0001】
【産業状の利用分野】本発明は構文解析方法及び装置に
関し、詳しくは既存の日本語文書ファイル内の文書の構
文を解析する構文解析方法及び装置に関するものであ
る。
【0002】
【従来の技術】今日、自然言語からなる文章の解析につ
いての様々な試みがなされている。構文解析自身は、例
えば言語間翻訳(例えば日本語から英語への翻訳)、音
声認識或いは音声出力等に活用される手段であって、そ
のもの自身が最終的な目的とはならないが、上記処理を
行うには必須のことである。
【0003】
【発明が解決しようとする課題】さて、今日広く普及し
ているワードプロセッサ装置或いはそのプログラムで作
成された文章を構文解析するとしよう。構文解析するに
は、文章を構成する最小単位毎に切り出し、切り出した
最小単位間の関係を形態素辞書を基に解析していくこと
になる。ここで、上記文章は、フロッピーディスク等の
記憶媒体に記憶された状態であるので、その中から順次
文字を読み出して構文解析することになる。ここで問題
となるのは、入力した文字或いは文字列が形態素解析用
の辞書にない場合、その注目している文字或いは文字列
に対する解析処理が失敗してしまうことである。形態素
解析用辞書にない文字或いは文字列としては、本来漢字
で表記されるべきところが“ひらがな”のままである場
合が往々にしてある。
【0004】
【課題を解決するための手段】本発明はかかる従来技術
に鑑み成されたものであり、本来漢字で表される文字列
が何らかの原因でひらがなのままであっても、構文解析
率の質的な向上を行わせることが可能な構文解析方法及
び装置を提供しようとするものである。この課題を解決
するため、本発明の構文解析方法は以下に示す工程を備
える。すなわち、日本語文の構文解析を行う構文解析方
法であって、与えられた文に対する構文解析が失敗した
場合、入力された文中のひらがな文字列に対してかな漢
字変換を行う工程と、該工程によってかな漢字混じり文
字列に変換された場合、対応するひらがな文字列部分を
変換されたかな漢字混じり文字列で置き換え、構文解析
を再度行わせる工程とを備える。
【0005】また、本発明の構文解析装置は以下に示す
構成を備える。日本語文の構文解析を行う構文解析装置
であって、与えられた文に対する構文解析が失敗した場
合、入力された文中のひらがな文字列に対してかな漢字
変換を行う手段と、該手段によってかな漢字混じり文字
列に変換された場合、対応するひらがな文字列部分を変
換されたかな漢字混じり文字列で置き換え、構文解析を
再度行わせる手段とを備える。
【0006】
【作用】かかる本発明の工程或いは構成において、構文
解析が失敗した場合、その文中にひらがな文字列に対し
てかな漢字変換を行わせる。そして、そのかな漢字変換
によって得られたかな漢字混じり文字列で、該当するひ
らがな文字列部分を置き換えて、構文解析を再度行う。
【0007】
【実施例】以下、添付図面を参照し、本発明の実施例を
詳細に説明する。図1は実施例の自然言語処理システム
のブロック構成図である。図示において、1は本システ
ム全体を制御するCPU、2はCPU1のブートプログ
ラム及び文字フォント等を記憶しているROMである。
3は各種プログラムをロードしたり、CPU1のワーク
エリアとして使用されるRAMである。4は文字或いは
各種処理を本システムに与えるためのキーボード、5は
表示しようとする文字パターン等を展開するVRAM、
6はVRAM5に展開されたイメージに対応する映像を
表示する表示装置である。7はフロッピーディスクドラ
イブ、ハードディスクドライブ等から構成される外部記
憶装置であり、この中には、図2に示すような各種情報
がファイルとして記憶保持されている。
【0008】図2において、21は本システムに電源が
投入された場合に、RAM3にロードされるシステムプ
ログラム(OS)であり、22は構文解析を行うための
形態素辞書、23は通常の文書編集等で使われるかな漢
字変換辞書、24は後述する図4のフローチャートの処
理を行う文書解析プログラム、25はユーザが作成した
文書ファイルである。
【0009】上記構成における動作内容を以下に説明す
る。図3は、解析しようとしている文章の一例を示して
いる。尚、構文解析自身は形態素辞書22によって行わ
れるが、それ自身に本発明の特徴があるものではないの
で、また、構文解析自身も個々の単語の関係を解析する
ものであって、一般に公知であるので、そのものの説明
は省略する。さて、図示の文章を注目すると、先頭の文
字列“私”もしくは助詞も含めて“私は”については構
文解析が正常に行われることは明かであろう。問題は、
次の文字列“かいしゃに”がひらがなであるので、構文
解析が失敗することが予想される。
【0010】本実施例においては、かかる文字列をかな
漢字変換辞書23を用いて、かな漢字変換を行わせる。
現在のかな漢字変換を鑑みた場合、一括変換の変換効率
はまだしも、文節変換に関しての変換率は相当のレベル
にあるのは周知の事実である。そこで、本実施例でも、
この文字列“かいしゃに”を通常のキーボードで入力し
た読みと同様に、かな漢字変換プログラム(システム起
動時にRAM3に常駐している)に引数として渡す。か
な漢字変換プログラムには、この読みとしても文字列を
受け、かな漢字変換辞書23を参照して漢字混じり文に
変換し、要求元に変換結果を返してくる。この結果、
“かいしゃに”が意図した通りの“会社に”と変換され
ることになる。
【0011】実施例では、この変換された文字列“会社
に”を当初の解析対象であった文章中の文字列“かいし
ゃに”に置き換えて構文解析を行うものである。構文解
析結果は、例えば、本システムが日英翻訳装置であれ
ば、個々の単語の関係を英文の文法に当てた情報とし
て、次段の日英翻訳処理に渡すことになる。但し、この
日英翻訳処理自身に本発明の特徴があるわけではないの
で、その説明は省略する。
【0012】尚、かな漢字変換も失敗した場合には、原
則として注目している文の構文解析は失敗に終わるが、
従来技術との比較で、その失敗になる率は少なくとも減
少させることができることは上記説明からすれば、容易
に推察されよう。また、“かいしゃ”もしくは“かいし
ゃに”という文字列を読みとしてかな漢字変換させた場
合には、ほぼ100%の確率で“会社”或いは“会社
に”と変換されるが、同音異義語が複数個あるような場
合、ユーザが使用していたかな漢字変換辞書22による
変換結果の第1の候補をもってして変換結果とする。但
し、変換候補の中からユーザが適宜1つを選択するよう
にしても良い。この場合には、少なくとも構文解析処理
を行っている注目文全体を(できれば、前後の文も含め
て)表示させること、及び、どのひらがな文字に対する
候補なのかを明示(反転表示や色を付ければよい)す
る。これは、同音異義語が複数ある場合には、その読み
からだけでは判断できないからである。
【0013】上記処理を具体的に行うため、実施例の文
書解析プログラム24は、図4に示す手順に従って処理
が進められる。先ず、ステップS1において、外部記憶
装置7から(或いは文章がRAM3にある場合にはその
RAM3から)解析しようとする文章中の一文を取得す
る。ステップS2では、一文取得を試みたがそれができ
たかどうか、換言すれば解析対象の最後(EOF:End Of F
ile)を検出したかどうかを判断する。注目している文
章全体に対する解析処理が終了したと判断した場合には
本処理を終え、一文の所得が行われたと判断した場合に
はステップS3に処理を進める。
【0014】ステップS3においては、構文解析を行
う。この結果判断は、次のステップS4で行われ、解析
成功に終わったと判断したら、ステップS5に進んで、
注目文の解析結果を例えばファイルとして保存したり、
解析結果に基づいて何らかの処理を行うのであればその
処理に渡し、次の文の解析を行うべく、ステップS1に
戻る。一方、ステップS4において、解析が失敗に終わ
ったと判断したら、ステップS6に進んで、注目してい
る文中の構文解析が失敗に終わった原因の文字列にひら
がなによる文字列が存在するかどうかを判断する。
【0015】もし、ひらがな文字列が存在するのであれ
ば、ステップS7に進んで、その文字列に基づいてかな
漢字変換を行わせる。この結果、首尾良くかな漢字変換
が成功すれば、この変換結果の文字列を注目している文
中の対応するひらがな文字列に置き換えて、再度ステッ
プS3の構文解析を行う。ひらがな文字列が多数あっ
て、構文解析が失敗に終わった場合、そのひらがな文字
列の数だけ、上記処理をループすることになっている。
従ってこの間注目している一文の漢字占有率は徐々に高
くなっていくことになる。さて、ステップS6におい
て、構文解析が失敗した原因がひらがな文字列によるも
のではない、或いはひらがな文字列であってもそのかな
漢字変換が失敗した場合には、注目している一文に対す
る構文解析に対して失敗処理を行う。例えば、不明な場
合があっても解析できた内容を出力する処理を行い、ス
テップS1に戻る。
【0016】以上の処理の結果、構文解析しようとして
いる文章中にかな漢字変換し忘れた部分があっても、そ
れによる構文解析への影響を少なくすることができ、ひ
いては構文解析の解析率を向上させることが可能にな
る。尚、実施例では解析しようとする文章の入力先を外
部記憶装置として説明したが、入力先としては文章が文
字コード列として送られてくればどのようなものであっ
てもよい(例えばオンラインで送られてくる場合等)の
で、かかる点によって本発明が限定されるものではな
い。
【0017】
【発明の効果】以上説明したように本発明によれば、本
来漢字で表される文字列が何らかの原因でひらがなのま
まであっても、構文解析率の質的な向上を行わせること
が可能になる。
【図面の簡単な説明】
【図1】実施例におけるシステム構成図である。
【図2】実施例の外部記憶装置の内部構造を示す図であ
る。
【図3】構文解析にかかる処理概要を説明するための図
である。
【図4】実施例における構文解析処理における全体的な
フローチャートである。
【符号の説明】
1 CPU 2 ROM 3 RAM 4 キーボード 5 VRAM 6 表示装置 7 外部記憶装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語文の構文解析を行う構文解析方法
    であって、 与えられた文に対する構文解析が失敗した場合、入力さ
    れた文中のひらがな文字列に対してかな漢字変換を行う
    工程と、 該工程によってかな漢字混じり文字列に変換された場
    合、対応するひらがな文字列部分を変換されたかな漢字
    混じり文字列で置き換え、構文解析を再度行わせる工程
    と、 を備えることを特徴とする構文解析方法。
  2. 【請求項2】 日本語文の構文解析を行う構文解析装置
    であって、 与えられた文に対する構文解析が失敗した場合、入力さ
    れた文中のひらがな文字列に対してかな漢字変換を行う
    手段と、 該手段によってかな漢字混じり文字列に変換された場
    合、対応するひらがな文字列部分を変換されたかな漢字
    混じり文字列で置き換え、構文解析を再度行わせる手段
    と、 を備えることを特徴とする構文解析装置。
JP5180682A 1993-06-26 1993-06-26 構文解析方法及び装置 Pending JPH0785057A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5180682A JPH0785057A (ja) 1993-06-26 1993-06-26 構文解析方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5180682A JPH0785057A (ja) 1993-06-26 1993-06-26 構文解析方法及び装置

Publications (1)

Publication Number Publication Date
JPH0785057A true JPH0785057A (ja) 1995-03-31

Family

ID=16087466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5180682A Pending JPH0785057A (ja) 1993-06-26 1993-06-26 構文解析方法及び装置

Country Status (1)

Country Link
JP (1) JPH0785057A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0781990A1 (en) 1995-12-30 1997-07-02 Kyoto Dai-ichi Kagaku Co., Ltd. Scattered light measuring apparatus
JP2010039864A (ja) * 2008-08-06 2010-02-18 Fujitsu Ltd 形態素解析装置、形態素解析方法及びコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0781990A1 (en) 1995-12-30 1997-07-02 Kyoto Dai-ichi Kagaku Co., Ltd. Scattered light measuring apparatus
JP2010039864A (ja) * 2008-08-06 2010-02-18 Fujitsu Ltd 形態素解析装置、形態素解析方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US20030023425A1 (en) Tokenizer for a natural language processing system
US5001633A (en) Computer assisted language translating machine with sentence extracting function
JP2806452B2 (ja) かな漢字変換装置および方法、並びに記録媒体
JPH0785057A (ja) 構文解析方法及び装置
JPS6180362A (ja) 翻訳装置
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2632806B2 (ja) 言語解析装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JP4313967B2 (ja) 自然言語変換システム
JP3267168B2 (ja) 自然言語変換システム
JP2856736B2 (ja) 辞書参照装置及び辞書参照方法
JP2798683B2 (ja) 自然言語処理システム
JP3244286B2 (ja) 翻訳処理装置
JPH0850588A (ja) 未知語登録装置
JP2000207395A (ja) 日本語解析装置および日本語解析方法ならびに日本語解析プログラムを記録した記録媒体
JPS62271054A (ja) 翻訳装置における形態素解析結果修正方式
JPH0612449A (ja) 機械翻訳装置及びその方法
JPH1027176A (ja) 機械翻訳装置及び機械翻訳方法
JP3061855B2 (ja) かな漢字変換装置及びかな漢字変換方法
JP2000099536A (ja) 自動要約装置および自動要約プログラムを記録した記録媒体
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
JPS63138465A (ja) 構文解析装置
JP2003296323A (ja) 形態素解析装置
JPH0528142A (ja) 文章検査装置