JPH01287771A

JPH01287771A - 形態素解析装置

Info

Publication number: JPH01287771A
Application number: JP63117266A
Authority: JP
Inventors: Kenji Nagao; 健司長尾; Yuji Sugano; 祐司菅野; Kenichi Ueda; 謙一上田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-05-13
Filing date: 1988-05-13
Publication date: 1989-11-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、日本語から他国語への機械翻訳システムや、
日本語による質問応答システム、文章自動校正システム
などの文章処理手続きにおいて用いられる形態素解析装
置に関する。

従来の技術一般に、日本語の文章を計算機システムなどにより、文
法的、あるいは、意味的な観点から解析すると、数多く
の解析結果が得られるが、機械翻訳システムや文章自動
校正システムでは、これら複数の解析結果を最も適切な
解析結果に絞り込む必要がある。その際、語零レベルか
ら文法、意味レベルまでの一連の解析の中で、特に、解
析の前段にあたる形態素解析ではかなり精度の高い絞り
込みが要求される。

この形態素解析においては、以前は、この精度高い絞り
込みをするために、最長−散性や文節最小法などの方法
が知られていた。これら方法は、日本語文章についての
ある種の優れた「直感」を利用しているが、最近では、
これら方法に加えて、辞書に保持した単語の頻度情報を
用いることにより、かなり・精度の高い解析が得られる
ようになっている。

この単語の頻度情報は、単に辞書に静的に保持されてい
る。即ち、いかなるジャンルの文章においても、個々の
単語の頻度として同一の値を用いて形態素解析の際の解
析（単語の句切り方）をおこなっている。この従来の形
態素解析装置によって、静的な単語頻度情報に基づき、
文章を解析する手続きを説明する。第５図は、その場合
の電子辞書内の、単語、読み、頻度を示す図である。

さて、入力文字列として、言語情報処理の分野の文章が
平仮名で、「これらのしようほうのどうしのいみによる
せいやく」と与えられたとする。

解析（単語の切り出し）のもっともらし７さの判定には
、頻度情報を先ず第１に優先し、優先度が等しい場合は
、続いて最長−散性を用いるεととする。

いま、「じようほうの」の部分に着目すると、第５図の
辞書内容と、もっともらしさの判定基準によって、「（
譲歩）（宇野）」と分割されてしまう。これは、日常の
文章を想定した単語頻度情報を利用した結果、「（情報
）の」よりも「（譲歩）（宇野）」が優先されたという
ことである。

発明が解決しようとする課題ｊ〜かしながら、この解析の対象とする文章のジャンル
が異なると、頻度情報の信頼性が低くなり、結果的に解
析の精度（正しい単語の句切りの割合）が低くなるとい
う課題がある。

本発明は、以上のような従来の形態素解析の課題を解決
するもので、様々な文章に対して、高精度の形態素解析
を可能とする形態素解析装置を提供することを目的とす
る。

課題を解決するだめの手段本発明は、個々の単語の頻度情報に基づき、入力された
文章を単語単位に分割する単語分割装置と、その単語分
割装置が前記入力文章の文字列とのマツチングをとる為
の前記単語及びそれら単語の頻度情報を格納した電子辞
書と、その電子辞書に格納された前記単語の前記頻度情
報を、前記入力文章の前記分割装置の分割結果に基づい
て更新する頻度更新装置とによって、上記目的を達成す
るものである。

作用本発明は、上記構成により、単語分割装置が電子辞書に
保持されている単語とのマツチングを繰り返すことによ
り、日本語入力文字列を単語の並びに変換（分割）する
。その際、分割のパターンとしては複数種類有り得るの
で、電子辞書に保持された単語の頻度情報を利用して、
もっともらしい分割だけを選択的に抽出する。最終的に
抽出した分割パターンも一般には複数種類有シ得るが、
これらのパターンの中の単語の出現度数に基づき、今度
は電子辞書の単語の頻度情報を更新しておく。

これて一つのサイクルが終了するが、この際に、分割の
精度が適当なものであれば、更新された頻度は同一分野
の対象文に対してはより信頼性の高いものとなる。この
ように、自分の解析結果を基に解析精度をリアルタイム
で向上させていくことが出来るので、対象分野が異なっ
ても精度の高い解析を得ることが出来る。

実施例以下、本発明の一実施例について図面を参照しながら説
明する。

第１図は、本発明の一実施例における形態解析装置のブ
ロック図である。第２図は、いわゆる日常の文章に近い
ものであり、第３図は、言語情報処理の分野の文章で、
文法に関する記述をしたものであり、やや特殊な用語が
多いものである。即ち、両文章は、異なるジャンルの文
章に属する。

第１図において、１は、個々の単語の頻度情報に基づき
、入力された文章を単語単位に分割する、中央演算処理
装置（ＣＰＵ）等の単語分割装置である。３は、単語分
割装置１が前記入力文章の文字列とのマツチングをとる
単語及びそれら単語の頻度情報を格納した、ラム（ＲＡ
Ｍ）メモリなどの電子辞書である。２は、電子辞書３に
格納された単語の頻度情報を、入力文章の分割装置１の
分割結果に基づいて更新する、ＣＰＵ等の頻度更新装置
である。

次に、上記の構成の本発明の詳細な説明する。

例えば、・「じようほうの」を解析する前に既に、第３
図に示される文章を解析して、第４図に示すような頻度
情報を保持した辞書に更新済みであるとすれば、「じよ
うほうの」は、「（情報）の」と変換される。この時、
重要なことは、単語の頻度情報を自らの解析結果に基づ
き自動的に更新するので、形態素解析そのものの精度が
かなりよくない゛と、更新された頻度の信頼性が低くな
ってしまうということである。しかし、現在、よく知ら
れている最長−散性や文節数最小法は、かなり高精度の
解析を実現するものであり、特に文節数最小法の場合、
最小文節数の解析の中に正解が含まれる確率は９０チ以
上であると報告されている（吉村ほか；文節数最小法を
用いたべた書き日本語文の形態素解析、情報処理論文誌
、Ｖｏｌ　１２４　ｎＯ２＋１９８３　）。従って、こ
れと単語の頻度情報を併用した場合には、かなり精度の
高い解析を実現することが出来るので、適切な解析をい
くつか取り出し、単語使用頻度を抽出して、単語頻度を
更新していくことにより、かなり高精度の頻度情報を得
ることが出来る。

このように、本発明の形態素解析装置によれば、常にジ
ャンルに応じた適切な頻度情報を用いて解析することが
出来る。

なお、本発明の形態素解析装置は他国語文章にも適用可
能である。

発明の効果以上述べたように、本発明にかかる形態素解析装置は、
静的な単語頻度情報を利用するものではなく、形態素解
析結果に基づき単語情報を更新するもので、より高精度
の形態素解析が可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例における形態素解析装置のブ
ロック図、第２図は同形態素解析装置で処理される日本
語文章の一例を示す文字列図、第３図は同形態素解析装
置で処理される日本語文章の他の例を示す文字列図、第
４図は同形態素解析装置の電子辞書の内容を示すデータ
図、第５図は従来の形態素解析装置の電子辞書の内容を
示すデータ図である。１・・・単語分割装置、２・・・頻度更新装置、３・・
・電子辞書。代理人の氏名　弁理士　中　尾　敏　男ほか１名第１図第２図（日暗誹〈県／■する交電）第３図（茗官吾／１１Ｔ！射θ几理のりｒ予の立春）第４０第５図

Claims

【特許請求の範囲】

（１）個々の単語の頻度情報に基づき、入力された文章
を単語単位に分割する単語分割装置と、その単語分割装
置が前記入力文章の文字列とのマッチングをとる為の前
記単語及びそれら単語の頻度情報を格納した電子辞書と
、その電子辞書に格納された前記単語の前記頻度情報を
、前記入力文章の前記分割装置の分割結果に基づいて更
新する頻度更新装置とを備えたことを特徴とする形態素
解析装置。