JPS62203276A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPS62203276A
JPS62203276A JP61046661A JP4666186A JPS62203276A JP S62203276 A JPS62203276 A JP S62203276A JP 61046661 A JP61046661 A JP 61046661A JP 4666186 A JP4666186 A JP 4666186A JP S62203276 A JPS62203276 A JP S62203276A
Authority
JP
Japan
Prior art keywords
word
property
series
category
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61046661A
Other languages
English (en)
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP61046661A priority Critical patent/JPS62203276A/ja
Publication of JPS62203276A publication Critical patent/JPS62203276A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は形態素解析装置、特に日本語処理のための形態
素解析装置に関するものである。
〔従来の技術〕
文音声変換システムや機械翻訳システムなとの漢字かな
混じりの日本語テキストを入力として何らかの処理を行
うシステムでは、ます、テキスト中の連続した文字の列
をそれを構成している単語に分割すること、すなわち形
態素解析を行う必要がある。ところが、日本語文は、単
語単位で分かち書きされる英語文などと違って、単語と
単語の境界がテキスト中に明示的に示されていない。そ
こで従来から、情報処理学会第28回全国大会5t−6
に見られるように、単語辞書と隣接可能な単語の文法的
カテゴリーに関する知識を用いて形態素解析を行うとい
う方法が広く行われている。
〔発明が解決しようとする問題点〕
上述した一般の形態素解析方法において、解析の対象と
なる日本語テキストは一般に特有のスタイルを持ってい
ることが多く、ある特定の表現が繰り返しテキスト中に
出現することがよく見受けられる。ところが、繰り返し
テキスト中に出現する表現が、「・・・のである」、「
・・・なのである」などのように複数の単語から構成さ
れている場合は、出現のたびにその表現を構成する個々
の単語ごとの辞書引きおよび文法的な接続可能性の判定
を行わな(うればならない。しかし、単語辞書は大規模
になり勝ぢなので、二次記憶に収容されていることが多
いことから、この辞書引きに要する時間は膨大なものと
なり、また接続可能性の判定にも多くの処理時間を要す
るという問題点がある。
本発明の目的は、この問題点を解決した高速な形態素解
析装置を提供することにある。
r問題点を解決するための手段) 本発明の形態素解析装置は、少なくとも日本語の単語辞
書と日本語中−語間の接続の性質を用いながら入力され
た日本語テキストの形態素解析を行う形態素解析装置に
おいて、あらかじめ定められた文法カテゴリーの並びと
なる単語の系列が前記入力日本語テキスト中に出現した
場合に、その単語系列を最左単詰の前方接続の性質と最
右単語の後方接続の性質を持った単語として単語辞書に
登録する手段を備えている。
〔作用1 本発明においては、あらかじめ定められた文法カテゴリ
ーの並びとなる単語の系列が入力テキスト中に出現した
ら、その単語系列を最左単詰の前方接続の性質と最右単
語の後方接続の性質を持った単語として単語辞書に登録
するので、入力テキスト中に高い頻度で現れる複数の単
語が連接してできる表現を1慴語として辞書に登録する
ことが可能となる。例えば、あらかじめ定められた文法
カテゴリーの並びの一つに、(く形式動詞ン〈重体助詞
〉〈助動詞〉く助動詞〉1)があるとする。ただし、こ
こで〈助動詞〉1は1個以上の助動詞の並びを表す。い
ま、入力テキストの途中で1・・・世界が揺さぶられて
いるのである。1といつ文字列を入力したとすると、形
態素解析の結果、この文字列には、名詞「世界」、格助
詞「が」、動詞「揺さぶら」、助動詞「れ」、接続助詞
1て」。
形式動詞「いる」、重体助詞「の」、助動詞「である」
という単語の系列が存在することが分かる。
すると、この中に含まれている「いる1 「の」 [で
あるJという単語系列は、あらかじめ定められた文法カ
テゴリーの並びとなっているので、形式名詞「いる]の
前方接続の性質と、助動詞「である」の後方接続の性質
を持った「いるのである」という単語が新しく辞書に登
録されることになる。
すると、後はど入力テキスト中に例えば[・・・直面し
ているのである。」という文字列が現れた時には、「い
るのである」という単語が辞書中に存在するので、単語
1いる」、「の」、「である」の辞書引きおよび「いる
」・「の」間の接続可能性の検定と「の」・「である」
間の接続可能性の検定を行う必要がなくなる。
r実施例〕 次に、本発明について図面を参照して詳細に説明する。
第1図は本発明の形態素解析装置の一実施例を示すブロ
ック図である。
解析制御部101はテキストバッファ103から文字列
を受は取り、辞書検索部104を用いて辞書引きを行い
、接続可能性判定部102により隣接する単語との接続
が可能か否かを判定し、解析結果109を出力するとい
うことの繰り返しにより形態素解析を行っていく。
辞書検索部104は解析制御部101より供給された文
字列により、最長優先の原則で出来るたけ長い単語を優
先に、まず複合語記憶部106を、次に単語辞書105
を検索する。複合語記憶部106は解析開始の時点にお
いては空きである。
接続可能性判定部102は隣接する2つの候補単語を供
給され、左側の単語の後方接続カテゴリーと右側の単語
の前方接続力゛テゴリーが文法的に接続し得るか否かを
検定することにより、2つの候補単語が接続可能である
か否かを判定し、解析制御部101に結果を出力する。
複合語パターン同定部108は解析制御部101が単語
を同定するたびにその単語を表す文字列およびその単語
の文法カテゴリーを供給され、複合語パターン記憶10
7にあらかじめ登録された単語の文法カテゴリーの系列
として表現された複6語パターンに該当するような単語
系列が出現したら、複合語記憶部106にその単語系列
を最左単詰の前方接続の性質と最右単語の後方接続の性
質とを持つような単語として登録する。
いま、複合語パターン記憶1.07に(く形式動詞〉(
重体助詞〉く助動詞〉1)という文法カテゴリーの並び
が1つの複合語パターンとして登録されているとする。
ここで〈助動詞〉“とは、1個以上の助動詞の列を表す
。解析制御部101がテキストバッファ103から「直
面しているのであるJという文字列を読み込んでいて、
f直面Jまでの単語の同定が終わっている時、解析制御
部101は辞書検索部104に、続く文字列「している
のである」を供給する。辞書検索部104はまず複合語
記憶部106を検索し、もし失敗したら次に単語辞書】
05を検索して、す変動側の連用形または未然形である
「シ」を単語候補として取り」−ばて解析制御部101
に送る。解析制御部101は次に接続可能性判定部10
2に先に決定されている単語「直面」と、それに隣接す
る候補単語1し」を供給する。接続可能性判定部1C〕
2は「直面」の後方接続カテゴリーと、[し1の前方接
続カテゴリーが文法的に接続し得るか否かを検定し、確
かに接続し得るので、接続可能であるという情報を解析
制御部101に返す。解析制御部101は1直面し」ま
での単語の同定が成功したので、解析結果109として
単語「シ」を出力し、複合語パターン同定部108に単
語「しJとその文法カテゴリー〈す変動側〉を送り、次
に「ているのである」を辞書検索部104に供給し、以
上に述べられているのと同様な処理を繰り返して行く。
[であるJまでの単語の同定が終了した時、複合語パタ
ーン同定部108に供給された単語の文法カテゴリーと
その表記は、供給された順に[・・・〈す変名詞〉・「
直面」、<す変動側2・「シ」。
〈接続助詞〉・「て」、く形式動詞〉・「いる」。
〈塗体助詞ン・「の」、〈助動詞〉・ [である1]と
なっているが、最後の3つの単語く形式動詞〉・「いる
」、〈重体助詞〉・ 「の」、〈助動詞〉・ rである
」、は、複合語パターン記!]07にあらかじめ登録さ
れている複合語パターン(く形式動詞〉〈重体助詞〉〈
助動詞〉1)に該当する文法カテゴリーの系列となるの
で、複合語パターン同定部108は「いるのである」を
形式動詞「いる」の前方接続の性質と単語「である」の
後方接続の性質を持つ単語として複合語記憶部106に
登録する。
すると、この後(揺すぶられているのである」という文
字列が入力テキスト中に現れたときには、「揺すぶられ
て」までの単語が同定された後、辞書検索部104が「
いるの・である」を用いて複合語記憶部106を検索す
ると、先程登録された複合語[いるのである1が見つか
り、1回の辞書検索で「いるのである」の同定を行うこ
とが可能となる。
〔発明の効果〕
以」二述べたように本発明は、あらかじめ定められた文
法カテゴリーの並びとなる単語の系列が入カテキスト中
に出現したら、その単語系列を最左単詰の前方接続の性
質と最右単語の後方接続の性質を持った単語として登録
するので、入力テキスト中に高い頻度で現れる複数の単
語が連接してできる表現を1単語として辞書に登録する
ことが可能となり、辞書の検索にがかるコスI・および
隣接する単語の接続可能性の判定にかかる計算コストを
削減する効果がある。
【図面の簡単な説明】
第1図は本発明の形態素解析装置の一実施例を示すブロ
ック図である。 101・・・解析制御部、102・・・接続可能性判定
部、103・・・テキストバッファ、104・・・辞書
検索部、105・・・単語辞書、106・・・複合語記
憶部、107・・・複合語パターン記憶、108・・・
複合語パターン同定部。

Claims (1)

    【特許請求の範囲】
  1. 少なくとも日本語の単語辞書と日本語単語間の接続の性
    質を用いながら入力された日本語テキストの形態素解析
    を行う形態素解析装置において、あらかじめ定められた
    文法カテゴリーの並びとなる単語の系列が前記入力日本
    語テキスト中に出現した場合に、その単語系列を系列中
    の最左単詰の前方接続の性質と最右単詰の後方接続の性
    質を持った単語として単語辞書に登録する手段を備える
    ことを特徴とする形態素解析装置。
JP61046661A 1986-03-03 1986-03-03 形態素解析装置 Pending JPS62203276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61046661A JPS62203276A (ja) 1986-03-03 1986-03-03 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61046661A JPS62203276A (ja) 1986-03-03 1986-03-03 形態素解析装置

Publications (1)

Publication Number Publication Date
JPS62203276A true JPS62203276A (ja) 1987-09-07

Family

ID=12753517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61046661A Pending JPS62203276A (ja) 1986-03-03 1986-03-03 形態素解析装置

Country Status (1)

Country Link
JP (1) JPS62203276A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324705A (ja) * 1992-05-20 1993-12-07 Csk Corp 日本語形態素解析システム及び形態素解析方式
JP2013097533A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324705A (ja) * 1992-05-20 1993-12-07 Csk Corp 日本語形態素解析システム及び形態素解析方式
JP2013097533A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
EP0424032B1 (en) Naturel language processing apparatus
JPH0351020B2 (ja)
US5084817A (en) System for translating a language having polite expressions
JPS62203276A (ja) 形態素解析装置
KR0123403B1 (ko) 한·영 자동 전환 방법
JPS6368972A (ja) 未登録語処理方式
JPH03125264A (ja) キーワード抽出装置
JPH03259376A (ja) 日本語長文分割支援装置
KR19980036108A (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JPS59197929A (ja) カナ漢字変換処理装置
JPH04120660A (ja) 日本語形態素解析装置
JPH0443308B2 (ja)
JPH01211176A (ja) 形態素解析装置
JPH0228761A (ja) 漢字読み付与方法
JPH06180695A (ja) かな漢字変換方式
JPH1185746A (ja) テキスト解析方法
JPH04241066A (ja) 文書処理装置における電子化辞書検索方式
JPH0546612A (ja) 文章誤り検出装置
JPH0378874A (ja) 自然言語の機械翻訳装置
JPH02110771A (ja) 電訳機
JPH04326160A (ja) 形態素解析装置
JPH0567076A (ja) かな漢字変換装置
JPS6366672A (ja) 漢字かな混じりの形態素解析における未知語処理方式
JPH02140869A (ja) 文章の構造解析方法