JPH01287771A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH01287771A
JPH01287771A JP63117266A JP11726688A JPH01287771A JP H01287771 A JPH01287771 A JP H01287771A JP 63117266 A JP63117266 A JP 63117266A JP 11726688 A JP11726688 A JP 11726688A JP H01287771 A JPH01287771 A JP H01287771A
Authority
JP
Japan
Prior art keywords
word
morphological analysis
frequency information
words
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63117266A
Other languages
English (en)
Inventor
Kenji Nagao
健司 長尾
Yuji Sugano
祐司 菅野
Kenichi Ueda
謙一 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63117266A priority Critical patent/JPH01287771A/ja
Publication of JPH01287771A publication Critical patent/JPH01287771A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語から他国語への機械翻訳システムや、
日本語による質問応答システム、文章自動校正システム
などの文章処理手続きにおいて用いられる形態素解析装
置に関する。
従来の技術 一般に、日本語の文章を計算機システムなどにより、文
法的、あるいは、意味的な観点から解析すると、数多く
の解析結果が得られるが、機械翻訳システムや文章自動
校正システムでは、これら複数の解析結果を最も適切な
解析結果に絞り込む必要がある。その際、語零レベルか
ら文法、意味レベルまでの一連の解析の中で、特に、解
析の前段にあたる形態素解析ではかなり精度の高い絞り
込みが要求される。
この形態素解析においては、以前は、この精度高い絞り
込みをするために、最長−散性や文節最小法などの方法
が知られていた。これら方法は、日本語文章についての
ある種の優れた「直感」を利用しているが、最近では、
これら方法に加えて、辞書に保持した単語の頻度情報を
用いることにより、かなり・精度の高い解析が得られる
ようになっている。
この単語の頻度情報は、単に辞書に静的に保持されてい
る。即ち、いかなるジャンルの文章においても、個々の
単語の頻度として同一の値を用いて形態素解析の際の解
析(単語の句切り方)をおこなっている。この従来の形
態素解析装置によって、静的な単語頻度情報に基づき、
文章を解析する手続きを説明する。第5図は、その場合
の電子辞書内の、単語、読み、頻度を示す図である。
さて、入力文字列として、言語情報処理の分野の文章が
平仮名で、「これらのしようほうのどうしのいみによる
せいやく」と与えられたとする。
解析(単語の切り出し)のもっともらし7さの判定には
、頻度情報を先ず第1に優先し、優先度が等しい場合は
、続いて最長−散性を用いるεととする。
いま、「じようほうの」の部分に着目すると、第5図の
辞書内容と、もっともらしさの判定基準によって、「(
譲歩)(宇野)」と分割されてしまう。これは、日常の
文章を想定した単語頻度情報を利用した結果、「(情報
)の」よりも「(譲歩)(宇野)」が優先されたという
ことである。
発明が解決しようとする課題 j〜かしながら、この解析の対象とする文章のジャンル
が異なると、頻度情報の信頼性が低くなり、結果的に解
析の精度(正しい単語の句切りの割合)が低くなるとい
う課題がある。
本発明は、以上のような従来の形態素解析の課題を解決
するもので、様々な文章に対して、高精度の形態素解析
を可能とする形態素解析装置を提供することを目的とす
る。
課題を解決するだめの手段 本発明は、個々の単語の頻度情報に基づき、入力された
文章を単語単位に分割する単語分割装置と、その単語分
割装置が前記入力文章の文字列とのマツチングをとる為
の前記単語及びそれら単語の頻度情報を格納した電子辞
書と、その電子辞書に格納された前記単語の前記頻度情
報を、前記入力文章の前記分割装置の分割結果に基づい
て更新する頻度更新装置とによって、上記目的を達成す
るものである。
作用 本発明は、上記構成により、単語分割装置が電子辞書に
保持されている単語とのマツチングを繰り返すことによ
り、日本語入力文字列を単語の並びに変換(分割)する
。その際、分割のパターンとしては複数種類有り得るの
で、電子辞書に保持された単語の頻度情報を利用して、
もっともらしい分割だけを選択的に抽出する。最終的に
抽出した分割パターンも一般には複数種類有シ得るが、
これらのパターンの中の単語の出現度数に基づき、今度
は電子辞書の単語の頻度情報を更新しておく。
これて一つのサイクルが終了するが、この際に、分割の
精度が適当なものであれば、更新された頻度は同一分野
の対象文に対してはより信頼性の高いものとなる。この
ように、自分の解析結果を基に解析精度をリアルタイム
で向上させていくことが出来るので、対象分野が異なっ
ても精度の高い解析を得ることが出来る。
実施例 以下、本発明の一実施例について図面を参照しながら説
明する。
第1図は、本発明の一実施例における形態解析装置のブ
ロック図である。第2図は、いわゆる日常の文章に近い
ものであり、第3図は、言語情報処理の分野の文章で、
文法に関する記述をしたものであり、やや特殊な用語が
多いものである。即ち、両文章は、異なるジャンルの文
章に属する。
第1図において、1は、個々の単語の頻度情報に基づき
、入力された文章を単語単位に分割する、中央演算処理
装置(CPU)等の単語分割装置である。3は、単語分
割装置1が前記入力文章の文字列とのマツチングをとる
単語及びそれら単語の頻度情報を格納した、ラム(RA
M)メモリなどの電子辞書である。2は、電子辞書3に
格納された単語の頻度情報を、入力文章の分割装置1の
分割結果に基づいて更新する、CPU等の頻度更新装置
である。
次に、上記の構成の本発明の詳細な説明する。
例えば、・「じようほうの」を解析する前に既に、第3
図に示される文章を解析して、第4図に示すような頻度
情報を保持した辞書に更新済みであるとすれば、「じよ
うほうの」は、「(情報)の」と変換される。この時、
重要なことは、単語の頻度情報を自らの解析結果に基づ
き自動的に更新するので、形態素解析そのものの精度が
かなりよくない゛と、更新された頻度の信頼性が低くな
ってしまうということである。しかし、現在、よく知ら
れている最長−散性や文節数最小法は、かなり高精度の
解析を実現するものであり、特に文節数最小法の場合、
最小文節数の解析の中に正解が含まれる確率は90チ以
上であると報告されている(吉村ほか;文節数最小法を
用いたべた書き日本語文の形態素解析、情報処理論文誌
、Vol 124 nO2+1983 )。従って、こ
れと単語の頻度情報を併用した場合には、かなり精度の
高い解析を実現することが出来るので、適切な解析をい
くつか取り出し、単語使用頻度を抽出して、単語頻度を
更新していくことにより、かなり高精度の頻度情報を得
ることが出来る。
このように、本発明の形態素解析装置によれば、常にジ
ャンルに応じた適切な頻度情報を用いて解析することが
出来る。
なお、本発明の形態素解析装置は他国語文章にも適用可
能である。
発明の効果 以上述べたように、本発明にかかる形態素解析装置は、
静的な単語頻度情報を利用するものではなく、形態素解
析結果に基づき単語情報を更新するもので、より高精度
の形態素解析が可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例における形態素解析装置のブ
ロック図、第2図は同形態素解析装置で処理される日本
語文章の一例を示す文字列図、第3図は同形態素解析装
置で処理される日本語文章の他の例を示す文字列図、第
4図は同形態素解析装置の電子辞書の内容を示すデータ
図、第5図は従来の形態素解析装置の電子辞書の内容を
示すデータ図である。 1・・・単語分割装置、2・・・頻度更新装置、3・・
・電子辞書。 代理人の氏名 弁理士 中 尾 敏 男ほか1名第1図 第2図 (日暗誹〈県/■する交電) 第3図 (茗官吾/11T!射θ几理のりr予の立春)第40 第5図

Claims (1)

    【特許請求の範囲】
  1. (1)個々の単語の頻度情報に基づき、入力された文章
    を単語単位に分割する単語分割装置と、その単語分割装
    置が前記入力文章の文字列とのマッチングをとる為の前
    記単語及びそれら単語の頻度情報を格納した電子辞書と
    、その電子辞書に格納された前記単語の前記頻度情報を
    、前記入力文章の前記分割装置の分割結果に基づいて更
    新する頻度更新装置とを備えたことを特徴とする形態素
    解析装置。
JP63117266A 1988-05-13 1988-05-13 形態素解析装置 Pending JPH01287771A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63117266A JPH01287771A (ja) 1988-05-13 1988-05-13 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63117266A JPH01287771A (ja) 1988-05-13 1988-05-13 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH01287771A true JPH01287771A (ja) 1989-11-20

Family

ID=14707504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63117266A Pending JPH01287771A (ja) 1988-05-13 1988-05-13 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH01287771A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535722A (ja) * 1991-07-31 1993-02-12 Sharp Corp 学習単語決定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5692675A (en) * 1979-12-26 1981-07-27 Fujitsu Ltd Dictionary study system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5692675A (en) * 1979-12-26 1981-07-27 Fujitsu Ltd Dictionary study system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535722A (ja) * 1991-07-31 1993-02-12 Sharp Corp 学習単語決定方法

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
US6539348B1 (en) Systems and methods for parsing a natural language sentence
Yeniterzi Exploiting morphology in Turkish named entity recognition system
Sedláček et al. A new Czech morphological analyser ajka
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Németh et al. Multilingual statistical text analysis, Zipf's law and Hungarian speech generation
JPS58192173A (ja) 機械翻訳装置
JPH01287771A (ja) 形態素解析装置
Souter et al. Using Parsed Corpora: A review of current practice
Aggarwal et al. A survey on parts of speech tagging for Indian languages
JP2821143B2 (ja) 形態素分解装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
Lhioui et al. A rule-based approach for arabic temporal expression extraction
JPS6368972A (ja) 未登録語処理方式
Megyesi Brill’s rule-based PoS tagger
Tran et al. Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation.
JPH03125264A (ja) キーワード抽出装置
JPH0251772A (ja) 品詞のあいまい性除去装置
Lehal et al. A transliteration based word segmentation system for Shahmukhi script
JP3139624B2 (ja) 形態素解析装置
JPH01134563A (ja) かな漢字変換装置
JPH0290364A (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
Segert et al. A Computer Program for Analysis of Words According to Their Meaning (Conceptual analysis of Latin equivalents for the comparative dictionary of Semitic languages)
Jiménez et al. Instance metrics improvement by probabilistic support