JPH0785057A

JPH0785057A - 構文解析方法及び装置

Info

Publication number: JPH0785057A
Application number: JP5180682A
Authority: JP
Inventors: Junichi Aoe; 順一青江
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 1993-06-26
Filing date: 1993-06-26
Publication date: 1995-03-31

Abstract

(57)【要約】【目的】本来漢字で表される文字列が何らかの原因で
ひらがなのままであっても、構文解析の質的な向上を行
わせる。【構成】与えられた一文に対する構文解析が失敗に終
わったら、その失敗の原因がひらがな文字列の存在によ
るものかどうかを判断する。ひらがな文字列であると判
断したら、そのひらがな文字列に対するかな漢字変換を
行う。そして、そのかな漢字変換の結果、得られたかな
漢字混じり文字列で、該当するひらがな文字列部分を置
き換え、再度の構文解析を行う。

Description

【発明の詳細な説明】

【０００１】

【産業状の利用分野】本発明は構文解析方法及び装置に
関し、詳しくは既存の日本語文書ファイル内の文書の構
文を解析する構文解析方法及び装置に関するものであ
る。

【０００２】

【従来の技術】今日、自然言語からなる文章の解析につ
いての様々な試みがなされている。構文解析自身は、例
えば言語間翻訳（例えば日本語から英語への翻訳）、音
声認識或いは音声出力等に活用される手段であって、そ
のもの自身が最終的な目的とはならないが、上記処理を
行うには必須のことである。

【０００３】

【発明が解決しようとする課題】さて、今日広く普及し
ているワードプロセッサ装置或いはそのプログラムで作
成された文章を構文解析するとしよう。構文解析するに
は、文章を構成する最小単位毎に切り出し、切り出した
最小単位間の関係を形態素辞書を基に解析していくこと
になる。ここで、上記文章は、フロッピーディスク等の
記憶媒体に記憶された状態であるので、その中から順次
文字を読み出して構文解析することになる。ここで問題
となるのは、入力した文字或いは文字列が形態素解析用
の辞書にない場合、その注目している文字或いは文字列
に対する解析処理が失敗してしまうことである。形態素
解析用辞書にない文字或いは文字列としては、本来漢字
で表記されるべきところが“ひらがな”のままである場
合が往々にしてある。

【０００４】

【課題を解決するための手段】本発明はかかる従来技術
に鑑み成されたものであり、本来漢字で表される文字列
が何らかの原因でひらがなのままであっても、構文解析
率の質的な向上を行わせることが可能な構文解析方法及
び装置を提供しようとするものである。この課題を解決
するため、本発明の構文解析方法は以下に示す工程を備
える。すなわち、日本語文の構文解析を行う構文解析方
法であって、与えられた文に対する構文解析が失敗した
場合、入力された文中のひらがな文字列に対してかな漢
字変換を行う工程と、該工程によってかな漢字混じり文
字列に変換された場合、対応するひらがな文字列部分を
変換されたかな漢字混じり文字列で置き換え、構文解析
を再度行わせる工程とを備える。

【０００５】また、本発明の構文解析装置は以下に示す
構成を備える。日本語文の構文解析を行う構文解析装置
であって、与えられた文に対する構文解析が失敗した場
合、入力された文中のひらがな文字列に対してかな漢字
変換を行う手段と、該手段によってかな漢字混じり文字
列に変換された場合、対応するひらがな文字列部分を変
換されたかな漢字混じり文字列で置き換え、構文解析を
再度行わせる手段とを備える。

【０００６】

【作用】かかる本発明の工程或いは構成において、構文
解析が失敗した場合、その文中にひらがな文字列に対し
てかな漢字変換を行わせる。そして、そのかな漢字変換
によって得られたかな漢字混じり文字列で、該当するひ
らがな文字列部分を置き換えて、構文解析を再度行う。

【０００７】

【実施例】以下、添付図面を参照し、本発明の実施例を
詳細に説明する。図１は実施例の自然言語処理システム
のブロック構成図である。図示において、１は本システ
ム全体を制御するＣＰＵ、２はＣＰＵ１のブートプログ
ラム及び文字フォント等を記憶しているＲＯＭである。
３は各種プログラムをロードしたり、ＣＰＵ１のワーク
エリアとして使用されるＲＡＭである。４は文字或いは
各種処理を本システムに与えるためのキーボード、５は
表示しようとする文字パターン等を展開するＶＲＡＭ、
６はＶＲＡＭ５に展開されたイメージに対応する映像を
表示する表示装置である。７はフロッピーディスクドラ
イブ、ハードディスクドライブ等から構成される外部記
憶装置であり、この中には、図２に示すような各種情報
がファイルとして記憶保持されている。

【０００８】図２において、２１は本システムに電源が
投入された場合に、ＲＡＭ３にロードされるシステムプ
ログラム（ＯＳ）であり、２２は構文解析を行うための
形態素辞書、２３は通常の文書編集等で使われるかな漢
字変換辞書、２４は後述する図４のフローチャートの処
理を行う文書解析プログラム、２５はユーザが作成した
文書ファイルである。

【０００９】上記構成における動作内容を以下に説明す
る。図３は、解析しようとしている文章の一例を示して
いる。尚、構文解析自身は形態素辞書２２によって行わ
れるが、それ自身に本発明の特徴があるものではないの
で、また、構文解析自身も個々の単語の関係を解析する
ものであって、一般に公知であるので、そのものの説明
は省略する。さて、図示の文章を注目すると、先頭の文
字列“私”もしくは助詞も含めて“私は”については構
文解析が正常に行われることは明かであろう。問題は、
次の文字列“かいしゃに”がひらがなであるので、構文
解析が失敗することが予想される。

【００１０】本実施例においては、かかる文字列をかな
漢字変換辞書２３を用いて、かな漢字変換を行わせる。
現在のかな漢字変換を鑑みた場合、一括変換の変換効率
はまだしも、文節変換に関しての変換率は相当のレベル
にあるのは周知の事実である。そこで、本実施例でも、
この文字列“かいしゃに”を通常のキーボードで入力し
た読みと同様に、かな漢字変換プログラム（システム起
動時にＲＡＭ３に常駐している）に引数として渡す。か
な漢字変換プログラムには、この読みとしても文字列を
受け、かな漢字変換辞書２３を参照して漢字混じり文に
変換し、要求元に変換結果を返してくる。この結果、
“かいしゃに”が意図した通りの“会社に”と変換され
ることになる。

【００１１】実施例では、この変換された文字列“会社
に”を当初の解析対象であった文章中の文字列“かいし
ゃに”に置き換えて構文解析を行うものである。構文解
析結果は、例えば、本システムが日英翻訳装置であれ
ば、個々の単語の関係を英文の文法に当てた情報とし
て、次段の日英翻訳処理に渡すことになる。但し、この
日英翻訳処理自身に本発明の特徴があるわけではないの
で、その説明は省略する。

【００１２】尚、かな漢字変換も失敗した場合には、原
則として注目している文の構文解析は失敗に終わるが、
従来技術との比較で、その失敗になる率は少なくとも減
少させることができることは上記説明からすれば、容易
に推察されよう。また、“かいしゃ”もしくは“かいし
ゃに”という文字列を読みとしてかな漢字変換させた場
合には、ほぼ１００％の確率で“会社”或いは“会社
に”と変換されるが、同音異義語が複数個あるような場
合、ユーザが使用していたかな漢字変換辞書２２による
変換結果の第１の候補をもってして変換結果とする。但
し、変換候補の中からユーザが適宜１つを選択するよう
にしても良い。この場合には、少なくとも構文解析処理
を行っている注目文全体を（できれば、前後の文も含め
て）表示させること、及び、どのひらがな文字に対する
候補なのかを明示（反転表示や色を付ければよい）す
る。これは、同音異義語が複数ある場合には、その読み
からだけでは判断できないからである。

【００１３】上記処理を具体的に行うため、実施例の文
書解析プログラム２４は、図４に示す手順に従って処理
が進められる。先ず、ステップＳ１において、外部記憶
装置７から（或いは文章がＲＡＭ３にある場合にはその
ＲＡＭ３から）解析しようとする文章中の一文を取得す
る。ステップＳ２では、一文取得を試みたがそれができ
たかどうか、換言すれば解析対象の最後（EOF:End Of F
ile）を検出したかどうかを判断する。注目している文
章全体に対する解析処理が終了したと判断した場合には
本処理を終え、一文の所得が行われたと判断した場合に
はステップＳ３に処理を進める。

【００１４】ステップＳ３においては、構文解析を行
う。この結果判断は、次のステップＳ４で行われ、解析
成功に終わったと判断したら、ステップＳ５に進んで、
注目文の解析結果を例えばファイルとして保存したり、
解析結果に基づいて何らかの処理を行うのであればその
処理に渡し、次の文の解析を行うべく、ステップＳ１に
戻る。一方、ステップＳ４において、解析が失敗に終わ
ったと判断したら、ステップＳ６に進んで、注目してい
る文中の構文解析が失敗に終わった原因の文字列にひら
がなによる文字列が存在するかどうかを判断する。

【００１５】もし、ひらがな文字列が存在するのであれ
ば、ステップＳ７に進んで、その文字列に基づいてかな
漢字変換を行わせる。この結果、首尾良くかな漢字変換
が成功すれば、この変換結果の文字列を注目している文
中の対応するひらがな文字列に置き換えて、再度ステッ
プＳ３の構文解析を行う。ひらがな文字列が多数あっ
て、構文解析が失敗に終わった場合、そのひらがな文字
列の数だけ、上記処理をループすることになっている。
従ってこの間注目している一文の漢字占有率は徐々に高
くなっていくことになる。さて、ステップＳ６におい
て、構文解析が失敗した原因がひらがな文字列によるも
のではない、或いはひらがな文字列であってもそのかな
漢字変換が失敗した場合には、注目している一文に対す
る構文解析に対して失敗処理を行う。例えば、不明な場
合があっても解析できた内容を出力する処理を行い、ス
テップＳ１に戻る。

【００１６】以上の処理の結果、構文解析しようとして
いる文章中にかな漢字変換し忘れた部分があっても、そ
れによる構文解析への影響を少なくすることができ、ひ
いては構文解析の解析率を向上させることが可能にな
る。尚、実施例では解析しようとする文章の入力先を外
部記憶装置として説明したが、入力先としては文章が文
字コード列として送られてくればどのようなものであっ
てもよい（例えばオンラインで送られてくる場合等）の
で、かかる点によって本発明が限定されるものではな
い。

【００１７】

【発明の効果】以上説明したように本発明によれば、本
来漢字で表される文字列が何らかの原因でひらがなのま
まであっても、構文解析率の質的な向上を行わせること
が可能になる。

【図面の簡単な説明】

【図１】実施例におけるシステム構成図である。

【図２】実施例の外部記憶装置の内部構造を示す図であ
る。

【図３】構文解析にかかる処理概要を説明するための図
である。

【図４】実施例における構文解析処理における全体的な
フローチャートである。

【符号の説明】

１ＣＰＵ２ＲＯＭ３ＲＡＭ４キーボード５ＶＲＡＭ６表示装置７外部記憶装置

Claims

【特許請求の範囲】

【請求項１】日本語文の構文解析を行う構文解析方法
であって、与えられた文に対する構文解析が失敗した場合、入力さ
れた文中のひらがな文字列に対してかな漢字変換を行う
工程と、該工程によってかな漢字混じり文字列に変換された場
合、対応するひらがな文字列部分を変換されたかな漢字
混じり文字列で置き換え、構文解析を再度行わせる工程
と、を備えることを特徴とする構文解析方法。
【請求項２】日本語文の構文解析を行う構文解析装置
であって、与えられた文に対する構文解析が失敗した場合、入力さ
れた文中のひらがな文字列に対してかな漢字変換を行う
手段と、該手段によってかな漢字混じり文字列に変換された場
合、対応するひらがな文字列部分を変換されたかな漢字
混じり文字列で置き換え、構文解析を再度行わせる手段
と、を備えることを特徴とする構文解析装置。