JPH01211176A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH01211176A
JPH01211176A JP63036876A JP3687688A JPH01211176A JP H01211176 A JPH01211176 A JP H01211176A JP 63036876 A JP63036876 A JP 63036876A JP 3687688 A JP3687688 A JP 3687688A JP H01211176 A JPH01211176 A JP H01211176A
Authority
JP
Japan
Prior art keywords
word
dictionary
character
jimo
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63036876A
Other languages
English (en)
Other versions
JPH0795321B2 (ja
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63036876A priority Critical patent/JPH0795321B2/ja
Publication of JPH01211176A publication Critical patent/JPH01211176A/ja
Publication of JPH0795321B2 publication Critical patent/JPH0795321B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は形B累解析方式に関し、特に日本語テキスト音
声合成システム、日英機械翻訳システム等の必須構成要
素である日本語の形態素解析の方式に関するものである
〔従来の技術〕
従来、「情報処理」第27巻第8号951ページに記載
されているように、最長一致法、二文節最長一致法、分
節数最小法、拡張文節モデル上のコスト最小法等の日本
語形態素解析の技術が知られている。
〔発明が解決しようとする課題〕
従来の形態素解析方式では、自立語、付属語などの語紮
カテゴリーの他には、接頭辞・接尾辞などの造語要素し
か用いられていなかった。これら接頭辞・接尾辞という
語禦カテゴリーを設けることにより、他の単語に接頭辞
・接尾辞が結合することによる造語に対処することは可
能であった。
しかしながら、日本語のテキストにおいては、そのよう
なタイプの造語だけでなく、例えば、「訪中」、「訪ソ
」、「訪韓」のように、それだけでは単語とみなされな
いような「造語要素」どうしの結合による造語があられ
れるので、従来の形態素解析方式においては、このよう
な造語が一語として登録されていない場合は、未知語と
して扱わざるを得なかった。
本発明の目的はこの欠点を改良した高精度の形態素解析
方式を提供することにある。
〔課題を解決するための手段〕
本発明の形態素解析方式は、単語と結合して造語を行な
うことは必すしもできないが、他の接辞や「字母」と結
合して造語を行なう能力がある「字母」という語酋カテ
ゴリーを有し、前記「字母」と結合して合成語を形成す
ることが可能な語酋項目が持つべき属性情報をその「字
母」とともに保持し、入力中に前記[字母Jの表記が存
在する場合に、前記属性情報を用いて、前記入力中にお
いて前記「字母」が隣接する語酋項目と結合して合成語
を形成することが可能であるが否かを決定して構成され
る。
〔作用〕
日本語の文章においては、すでに単語と見なされている
もの以外に、「字母」すなわち、強い造語能力をもつ造
語成分によって形成される造語が頻繁に出現する。これ
は、たとえば「新明解国語辞典J (三省堂・初版19
72年)においては、「造語成分」と呼ばれているもの
である。本発明においては、従来日本語の形態素解析に
おいて扱われている自立語、付属語のような「単語」と
呼ばれる開傘カテゴリー、接頭辞・接尾辞のような「辞
」と呼ばれる開傘カテゴリーのほかに、単語と結合して
造語を行なうことは必ずしもできないが、他の接辞や「
字母」と結合して造語を行なう能力がある「字母」とい
う語酋カテゴリーを用いて形態素解析を行う。
これにより、入力テキスト中に、単語としては登録され
ていないが、「字母」として登録されている文字からな
る部分文字列が存在する場合に、その区間を未知語とす
ることなく、単語候補を形成することが可能となる。
〔実施例〕
次に第1図から第3図を命照しつつ、実施例に従って本
発明の詳細な説明する。第1図はこのような本発明の原
理を実現するための一実施例を示すブロック図である。
第1図において、接続テーブル102は品詞の下位分類
カテゴリーの順序対(r+ 、IJ )に対して1ある
いはOという値を与える表である。これが1ならばr、
と1ノは文法的に隣接可能、そうでないならば隣接不可
能であることを表現している。単語辞書103は自立語
・付属語および接頭辞・接尾辞の情報を格納している。
字母辞書104は各字母の表記、カテゴリーおよび結合
して造語を行うことが可能な相手のカテゴリーの情報を
格納している。
解析制御部101は、入力文章に対して単語辞書103
を検索し、複数の候補単語が存在する場合は、表記が最
長の候補単語を優先してまず選び、接続テーブル102
を用いて左側の単語との隣接可能性の検定を行い、隣接
可能ならば、その候補単語をその区間の単語であると仮
定する。単語辞書103中に候補単語が存在しない場合
は、字母辞書104を検索し、同様に接続テーブル10
2を用いて左側の単語あるいは字母との隣接可能性の検
定を行い、隣接可能ならば、その候補字母をその区間に
存在しうると仮定する。もし、現在位置の候補が字母で
あり、かつ左側が字母である場合は、字母辞書104か
ら得られる字母のカテゴリーおよび結合して造語を行う
ことが可能な相手のカテゴリーを用いて、造語可能性を
判定する。
もし、ある位置で辞書を引いても候補単語が存在しない
場合、あるいは接続テーブル102を用いた隣接可能性
の検定で隣接不可能と判定される場合、あるいは、字母
と字母の結合による造語可能性の判定において造語不可
能と判定される場合は、一つ前に仮定された単語の位置
までもどり、その位置における次候補を選択して、先に
進む。
辞書引き、接続検定あるいは字母の造語可能性の検定が
成功したら、候補単語あるいは字母の表記の次の文字位
置で再び単語辞書103の検索を行い、候補がない場合
は字母辞8104を検索するという様にして、上記の処
理を繰り返していく。文字種が漢字からその他の文字に
変わる位置まできたら、解析制御部101は、それまで
に仮定された単語を解析結果と決定する。
第2図は入力日本語テキストの一例を示す説明図である
。いま、「外相の」まで辞書引きが追わっているものと
する。解析制御部101は、まず201の文字位置で単
語辞書103を検索すると、該当単語が存在しないので
、次に字母辞書104を検索し、字母「訪」を得る。次
の文字位置においても単語辞書103には該当単語が存
在しないので、解析制御部101は、字母辞書104を
検索し、字母「ソ」を得る。ここで、字母「ソ」と字母
「訪]の結合による造語が可能であるかの判定が行われ
、「訪Jの辞書情報301および[ソ」の辞書情報30
2は矛盾しないので結合可能であると判定される。
〔発明の効果〕
以上述べたように本発明の形態素解析方式によれば、単
語辞書には登録されていないが、「字母」の造語能力に
よって形成される合成語を含んだ日本語文を解析するこ
とが可能となる。日本語においては、「字母」による造
語がしばしば行われるので、本発明による形態素解析の
性能の向上の効果は極めて大きい。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
入力日本語テキストの一例を示す説明図、第3図は「字
母」の辞書内容の一例を示す説明図。 101・・・解析制御部、102・・・接続テーブル、
103・・・単語辞書、104・・・字母辞書。

Claims (1)

    【特許請求の範囲】
  1. 単語と結合して造語を行なうことは必ずしもできないが
    、他の接辞や「字母」と結合して造語を行なう能力があ
    る「字母」という語彙カテゴリーを有し、前記「字母」
    と結合して合成語を形成することが可能な語彙項目が持
    つべき属性情報をその「字母」とともに保持し、入力中
    に前記「字母」の表記が存在する場合に、前記属性情報
    を用いて、前記入力中において前記「字母」が隣接する
    語彙項目と結合して合成語を形成することが可能である
    か否かを決定することを特徴とする形態素解析方式。
JP63036876A 1988-02-19 1988-02-19 形態素解析装置 Expired - Lifetime JPH0795321B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63036876A JPH0795321B2 (ja) 1988-02-19 1988-02-19 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63036876A JPH0795321B2 (ja) 1988-02-19 1988-02-19 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH01211176A true JPH01211176A (ja) 1989-08-24
JPH0795321B2 JPH0795321B2 (ja) 1995-10-11

Family

ID=12481983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63036876A Expired - Lifetime JPH0795321B2 (ja) 1988-02-19 1988-02-19 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH0795321B2 (ja)

Also Published As

Publication number Publication date
JPH0795321B2 (ja) 1995-10-11

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
KR940022316A (ko) 일문 문서용 키 워드 추출장치
JPH0351020B2 (ja)
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3594701B2 (ja) キーセンテンス抽出装置
JPH01211176A (ja) 形態素解析装置
Daciuk Treatment of unknown words
JPH01211175A (ja) 形態素解析方式
JP2821143B2 (ja) 形態素分解装置
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
JPH10171807A (ja) 語義曖昧性解消装置及び方法
JPS62203276A (ja) 形態素解析装置
JPS6368972A (ja) 未登録語処理方式
JPS6395570A (ja) 言語解析方式
JP3139624B2 (ja) 形態素解析装置
JPH01232471A (ja) 形態素解析装置
KR920005023A (ko) 한글문장의 형태소 분석방식
JPH0262665A (ja) 形熊素分解方式
JPS63103378A (ja) 言語解析装置
JPH05233686A (ja) 日本語処理装置
JPS61204771A (ja) 形態素解析装置
JPH05197752A (ja) 機械翻訳装置
JPH02230370A (ja) 形態素解析装置
JPH01236361A (ja) 日本語文章処理方式
JPH03152667A (ja) 日本語文解析方法