JPH02230370A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH02230370A
JPH02230370A JP1051114A JP5111489A JPH02230370A JP H02230370 A JPH02230370 A JP H02230370A JP 1051114 A JP1051114 A JP 1051114A JP 5111489 A JP5111489 A JP 5111489A JP H02230370 A JPH02230370 A JP H02230370A
Authority
JP
Japan
Prior art keywords
word
words
adjacent
candidate
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1051114A
Other languages
English (en)
Other versions
JP2526657B2 (ja
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1051114A priority Critical patent/JP2526657B2/ja
Publication of JPH02230370A publication Critical patent/JPH02230370A/ja
Application granted granted Critical
Publication of JP2526657B2 publication Critical patent/JP2526657B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔産業上の利用分野〕 本発明は日英機械翻訳システム、日本語テキスト音声合
成システム等の必須構成要素である日本語の形態素解析
方式およびその装置に間するものである。 〔従来の技術〕 従来、単語の境界に空白などの切れ目がないという特徴
がある日本語テキストの解析を行なうために、単語の境
界を決定する形態素分割の種々の方式が提案されている
。これらには、たとえば「情報処理」第27巻第8号9
51ページに記載されているように、最長一致法、二文
節最長一致法、文節数最小法,拡張文節モデル上のコス
ト最小法等の日本語形態素解析の技術が知られている. 〔発明が解決しようとする課題〕 しかしながら、従来の形態素解析方式においては、単語
が有する、ある種の性質をもつ語とは隣接しやすいとい
う語禽的な情報を用いて多義解消を行なうことがなかっ
た. 本発明の目的は、このような欠点を改良した高精度の形
態素解析方式を提供することにある。 〔課題を解決するための手段〕 本発明の形態素解析方式は、単語の構文・意味的な諸性
質を単語の属性として有する辞書を用いる形態素解析方
式において、文中で隣接しやすい語がもつ属性を単語の
辞書情報として登録しておき、入力文中の各単語区間に
おいて、前記隣接しやすい語がもつ属性を実際に満足す
るような単語の隣接数が最大となるような候補単語を選
択することを特徴としている。 また、本発明の形態素解析装置は、文中で隣接しやすい
語がもつ属性が登録された辞書と、入力文を辞書引きに
よって候補単語区間に分割する手段と、前記各候補単語
区間における複数の候補単語を保持する手段と、前記各
候補単語区間の各候補単語に対して前記隣接しやすい語
がもつ属性を実際に満足するような隣接候補単語の数を
保持する手段と、各候補単語区間において、前記属性を
実際に満足するような隣接候補単語の数が最大であるよ
うな候補単語を選択する手段とを含んで構成されること
を特徴としている。 また、本発明の形態素解析方式は、単語の構文・意味的
な諸性質を単語の属性として有する辞書を用いる形態素
解析方式において、文中で隣接しやすい語がもつ属性を
単語の辞書情報として登録しておき、前記隣接しやすい
語がもつ属性を実際に隣接語が有するということの出現
数が最大となるような単語の組合せを選択することを特
徴としている. また、本発明の形態素解析装置は、文中で隣接しやすい
語がもつ属性が登録された辞書と、入力文を辞書引きに
よって候補単語区間に分割する手段と、前記各候補単語
区間における複数の候補単語を保持する手段と、前記各
候補単語区間の各候補単語に対して、前記隣接しやすい
語がもつ属性を実際に満足するような隣接候補単語の識
別子を保持する手段と、前記各候補単語区間の各候補単
詰に対して、その単語までの文頭からの前記隣接しやす
い語がもつ属性を実際に満足するような隣接候補単語の
累積数が最大となるような前接候補単語の識別子を保持
する手段と、前記各候補単語区間の各候補単語に対して
、前記隣接しやすい語がもつ属性を実際に満足するよう
な隣接候補単語の数の文頭からの最大累積数を保持する
手段とを含んで構成されることを特徴としている。 〔作用〕 日本語の語禦には、同じ表記で別の意味をあらわす語・
辞が複数存在し得るという多義性の問題があり、形態素
解析処理においては、この多義性をできるだけ解消せね
ばならない。例えば、「高」という表記には、(1)r
[高】いく形容詞語幹)J.(2)r生産
【高】 (接
尾辞・量をあらわす)J,(3)’立川
【高】 (接尾
辞・高校をあらわす)J、(4)’ドル
〔実施例〕
次に、第2図を参照しつつ、本発明の第一の実施例につ
いて詳細に説明する. 第2図は本発明の原理を実現するための一実施例をあら
わすブロック図である. 入力文は、形慧素分割部201の処理の結果、第1図に
みられるような単語区間の系列となり、分割結果保持部
204に出力される.ひとつの単語区間には、複数の候
補単語が存在する可能性がある。解析制御部203は、
形態素分割部201の処理終了信号を受取ったら、分割
結果保持部204中の各単語区間の各候補単語に対して
、次の処理を行なう. (1)辞書情報中にPREが存在するならば、そこに記
述されている情報をもつ候補単語が左側の単語区間に存
在するか否かをチェックし、もし存在するならば、L=
1とする.そうでなければ、L=Oとする. (2》辞書情報中にPOSTが存在するならば、そこに
記述されている情報をもつ候補単語が右側の単語区間に
存在するか否かをチェックし、もし存在するならば、R
=1とする.そうでなければ、R=Oとする。 (3)S=L+Rを求め、これを満足条件数保持部20
5の現在の候補単語に対するエントリーとする. 解析制御部203の処理終了信号を受け取ったら、最大
候補選択部206は、満足条件数保持部205に保持さ
れている各単語区間において、Sの値が最大であるよう
な候補単語を選択し、その区間の単語として出力する. 以上に説明した実施例の形態素解析装置により、各単語
区間において条件満足数が最大となる解析結果が得られ
る. 次に、本発明の第2の実施例について、第3図を参照し
ながら説明する.第3図は、本発明の原理を実現するた
めのブロック図である.入力文は、形態素分割部301
の処理の結果、第1図にみられるような単語区間の系列
となり、分割結果保持部304に出力される.解析制御
部303は、形態素分割部301の処理終了信号を受取
ったら、分割結果保持部304中の各単語区間の各候補
単語Wに対して、次の処理を行なう。 (1−1)辞書情報中にPREが存在するならば、そこ
に記述されている情報をもつ候補単語が左側の単語区間
に存在するか否かをチェックし、もし存在するならば、
その識別子の集合をw,Lとする. (1−2)辞書情報中にPOSTが存在するならば、そ
こに記述されている情報をもつ候補単語が右側の単語区
間に存在するか否かをチェックし、もし存在するならば
、その識別子の集合をw,Rとする。 (1−3) 2つ組(w,L,w,R)を、条件満足単
語識別子保持部305の現在の候補単語に対するエント
リーとする。 次に、解析制御部303は、分割結果保持部304に保
持されている各単語区間の各候補単語Wに対して、次の
処理を行なう。 (2−1)左側の単語区間の各候補単語wjに対して以
下の処理を行なう。 もし、wj,RにWの識別子が含まれているならば、p
i (wj,w)=1、そうでないならば、pi (w
j,w)=Oとする。 もし、w,Lにwjの識別子が含まれているならば、p
2 (wj ,w>=1、そうでないならば、p2 (
wj ,w>=Oとする。 (2−2) wに対する最大累積満足条件数Sを次式に
よって求め、累積満足条件数保持部306に格納する.
ここで、Sjは、wjにおける最大累積満足条件数であ
る。 S = m3x(Sj +P1 (wj . w)+p
2(wj . w))また、この右辺の最大値を与える
候補単語Wj*の識別子を前接単語識別子保持部307
の現在の候補単語Wに対するエントリーb(w)として
格納する. (3)最後に、解析制御部303は、累積満足条件数保
持部306より、最も右側の単語区間に対する最大累積
満足条件数Sが最大となる候補単語W*を同定し、前接
単語識別子保持部307を参照して、b(w*)から順
に、前接単語をつぎつぎと左端まで決定して行く.これ
によって得られる単語列を、解析結果として出力する。 以上説明した本実施例の形態素解析装置により、文全体
にわたって条件満足数の累積が最大となる解析結果が得
られる. において、辞書に保持された隣接に関する選択情報を利
用して、強力な多義解消機能を実現することが可能とな
る。
【図面の簡単な説明】
第1図は形態素分割部から解析制御部へ出力される形態
素分割結果の一例をあらわす図、第2図及び第3図は本
発明の第1及び第2の実施例を示すブロック図である. 201・・・形態素分割部、202・・・辞書、203
・・・解析制御部、204・・・分割結果保持部、20
5・・・満足条件数保持部、206・・・最大候補選択
部、301・・・形態素分割部、302・・・辞書、3
03・・・解析制御部、304・・・分割結果保持部、
305・・・条件満足単語識別子保持部、306・・・
累積満足条件数保持部、307・・・前接単語識別子保
持部。

Claims (4)

    【特許請求の範囲】
  1. (1)単語の構文・意味的な諸性質を単語の属性として
    有する辞書を用いる形態素解析方式において、文中で隣
    接しやすい語がもつ属性を単語の辞書情報として登録し
    ておき、入力文中の各単語区間において、前記隣接しや
    すい語がもつ属性を実際に満足するような単語の隣接数
    が最大となるような候補単語を選択することを特徴とす
    る形態素解析方式。
  2. (2)文中で隣接しやすい語がもつ属性が登録された辞
    書と、入力文を辞書引きによって候補単語区間に分割す
    る手段と、前記各候補単語区間における複数の候補単語
    を保持する手段と、前記各候補単語区間の各候補単語に
    対して前記隣接しやすい語がもつ属性を実際に満足する
    ような隣接候補単語の数を保持する手段と、各候補単語
    区間において、前記属性を実際に満足するような隣接候
    補単語の数が最大であるような候補単語を選択する手段
    とを含むことを特徴とする形態素解析装置。
  3. (3)単語の構文・意味的な諸性質を単語の属性として
    有する辞書を用いる形態素解析方式において、文中で隣
    接しやすい語がもつ属性を単語の辞書情報として登録し
    ておき、前記隣接しやすい語がもつ属性を実際に隣接語
    が有するということの出現数が最大となるような単語の
    組合せを選択することを特徴とする形態素解析方式。
  4. (4)文中で隣接しやすい語がもつ属性が登録された辞
    書と、入力文を辞書引きによって候補単語区間に分割す
    る手段と、前記各候補単語区間における複数の候補単語
    を保持する手段と、前記各候補単語区間の各候補単語に
    対して、前記隣接しやすい語がもつ属性を実際に満足す
    るような隣接候補単語の識別子を保持する手段と、前記
    各候補単語区間の各候補単語に対して、その単語までの
    文頭からの前記隣接しやすい語がもつ属性を実際に満足
    するような隣接候補単語の累積数が最大となるような前
    接候補単語の識別子を保持する手段と、前記各候補単語
    区間の各候補単語に対して、前記隣接しやすい語がもつ
    属性を実際に満足するような隣接候補単語の数の文頭か
    らの最大累積数を保持する手段とを含むことを特徴とす
    る形態素解析装置。
JP1051114A 1989-03-02 1989-03-02 形態素解析装置 Expired - Lifetime JP2526657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1051114A JP2526657B2 (ja) 1989-03-02 1989-03-02 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1051114A JP2526657B2 (ja) 1989-03-02 1989-03-02 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH02230370A true JPH02230370A (ja) 1990-09-12
JP2526657B2 JP2526657B2 (ja) 1996-08-21

Family

ID=12877780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1051114A Expired - Lifetime JP2526657B2 (ja) 1989-03-02 1989-03-02 形態素解析装置

Country Status (1)

Country Link
JP (1) JP2526657B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5990167A (ja) * 1982-11-12 1984-05-24 Fujitsu Ltd 文章解析装置
JPS61187077A (ja) * 1985-02-14 1986-08-20 Ricoh Co Ltd 日本語解析装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5990167A (ja) * 1982-11-12 1984-05-24 Fujitsu Ltd 文章解析装置
JPS61187077A (ja) * 1985-02-14 1986-08-20 Ricoh Co Ltd 日本語解析装置

Also Published As

Publication number Publication date
JP2526657B2 (ja) 1996-08-21

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN104679850B (zh) 地址结构化方法及装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH02297195A (ja) 形態素解析方式
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH06149887A (ja) テキスト型データベース装置
JPH02230370A (ja) 形態素解析装置
KR100282610B1 (ko) 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
Uchimoto et al. Morphological Annotation of a Large Spontaneous Speech Corpus in Japanese.
JP2655711B2 (ja) 同形語読み分け方式
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH02140869A (ja) 文章の構造解析方法
JPH10269228A (ja) 重要部分抽出装置および文書検索装置
JP2786211B2 (ja) 機械翻訳装置における後編集装置
JPH0756937A (ja) 単語抽出システム
JPS6395570A (ja) 言語解析方式
JPH08212225A (ja) 言語判定装置
JPH0855121A (ja) 文対応装置及び原文と訳文の対応付け方法
JPH02257363A (ja) 自動翻訳装置
JPH09319746A (ja) 文書解析方法および装置
JPH11175522A (ja) 自然言語処理方法及び装置
JP2001229163A (ja) 言語処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080614

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090614

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090614

Year of fee payment: 13