JP3048101B2 - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JP3048101B2 JP3048101B2 JP5187907A JP18790793A JP3048101B2 JP 3048101 B2 JP3048101 B2 JP 3048101B2 JP 5187907 A JP5187907 A JP 5187907A JP 18790793 A JP18790793 A JP 18790793A JP 3048101 B2 JP3048101 B2 JP 3048101B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- likelihood
- candidates
- morphological
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000000877 morphologic effect Effects 0.000 title claims description 45
- 230000001186 cumulative effect Effects 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
て、情報処理分野で用いられ、特に、かな漢字変換や機
械翻訳や情報検索などの自然言語を処理するために形態
素の連接頻度を利用して処理を行うような形態素解析装
置に関する。
から得られた複数の形態素候補に対して、形態素が連接
可能であるかどうかを記した連接テーブル、または文法
などによって連接チェックを行うことにより形態素候補
数を絞っていた。さらに、処理の流れの制御や出力結果
の決定に関しては、単一の形態素の出現頻度を優先した
り、出現形のより長い形態素を優先する最長一致法など
のヒューリスティクスを用いたりしていた。
では、 連接テーブルまたは文法を利用して解析を行ってい
るため、そこから得られる情報は形態素が連接可能かど
うかということだけであり、そのチェックを通過しただ
けでは形態素候補数の十分な絞り込みができず、候補数
の爆発が生じる。このことは多くの曖昧性を残し、処理
速度の低下または処理結果の信頼性の低下を引き起こ
す。
め、前後の形態素との連接に関する情報が得られず、誤
った結果を生じやすい。
または最終的な出力候補の尤度を与えるための最長一致
法などの単語の連接の個別性を無視した一般的ヒューリ
スティクスに頼らなければならない。この方法では、シ
ステムの性能を向上させるための調整が困難である。こ
のように、従来の方法は多くの問題点を抱えている。
態素連接頻度を用いて、部分的形態素連接尤度を求め、
その値に基づいて効果的に形態素解析処理を行うことが
できるような形態素解析装置を提供することである。
入力された自然言語文を形態素ごとに分割し、その結果
を出力する形態素解析装置であって、形態素の出現形か
ら当該形態素の他の情報(見出し,活用,品詞など)を
引くための形態素辞書と、単語連鎖確率および品詞連鎖
確率を予め算出して連接頻度データとして記憶する記憶
手段と、入力された自然言語文から複数の形態素候補を
形態素辞書を参照して抽出する形態素候補抽出手段と、
抽出された複数の形態素候補に対して記憶手段に記憶さ
れている単語連鎖確率に重み係数を乗じ、これに品詞連
鎖確率を加算して部分的形態素連接尤度を求める手段と
を備えて構成される。
書は、形態素の出現形から当該形態素の他の形態素情報
を引くために用いる。
頻度データは、形態素情報の一部、あるいは全部に着目
し、互いに連接する形態素の頻度を予め算出する。
素辞書によって得られる複数の形態素候補に対して、連
接頻度を用いて部分的形態素連接尤度を求める。
補を選択するために、部分的形態素連接尤度を請求項1
を使って得られた各形態素列候補にわたって累積した累
積形態素連接尤度を各形態素列候補の尤度とする。
れた累積形態素連接尤度により各形態素列候補に優先順
位を付け、形態素列候補数が一定数より多い場合には優
先順位の低い候補を削除して候補数を一定数以下にする
ことを特徴とする。
現形からその形態素の他の情報(見出し,活用,品詞な
ど)を引くための形態素辞書を設けるとともに、単語連
鎖確率および品詞連鎖確率を予め算出して記憶してお
き、入力された自然言語文から複数の形態素候補を形態
素辞書を参照して抽出し、抽出された複数の形態素候補
に対して単語連鎖確率に重み係数を乗じ、これに品詞連
鎖確率を加算して部分的形態素連接尤度を求めることに
より、ヒューリスティックスを用いることなく形態素候
補の絞り込みができ、また出力結果に対して信頼性の尺
度となる尤度を与えることができる。
例の概略ブロック図である。図1において、入力文は形
態素解析処理モジュール1に与えられ、この形態素解析
処理モジュール1は形態素辞書引きモジュール2によっ
て形態素辞書3から形態素を読出すとともに、形態素連
接尤度計算モジュール4によって形態素連接頻度データ
5を読出しながら処理を実行する。
す図である。図2において形態素辞書は、形態素の出現
形から当該形態素の他の形態素情報(標準形,品詞,活
用形,活用型など)を引くための辞書である。
図である。形態素連接頻度データとは、連接するn個の
形態素の組の出現頻度(nグラム頻度という。ここで連
接数nは1以上の整数)である。n=1の時は各形態素
の出現頻度と等価である。
すべての形態素情報に関して連接する場合の連接頻度に
対してn=1の場合(以下、単語モノグラム頻度とい
う)、およびn=2の場合(以下、単語バイグラム頻度
という)と、品詞,活用形,活用型の3項目に関して連
接する場合の連接頻度に対してn=1の場合(以下、品
詞モノグラム頻度という)、およびn=2の場合(以
下、品詞バイグラム頻度という)を考えた計4種類の連
接頻度を想定している。
装置の処理手続について詳細に説明する。
素列候補のダミーに文頭形態素をセットし、同じく未処
理部分自然言語文に入力文をセットし、累積形態素連接
尤度Yp=1に初期化した状態から(1)の処理に入
る。ここで、ダミーの文頭形態素とは、出力結果には現
れないが、文頭と初めの形態素との連接尤度計算のため
にだけ使われる仮想的な形態素である。
然言語文の先頭部分文字列に一致する形態素候補を形態
素辞書から引く。ここで形態素が一つも辞書引きできな
かった場合は、その形態素列候補は失敗とし、その形態
素列候補を取り除く。
のモノグラム頻度およびc1と(1)で得られた一般に
複数の形態素候補のそれぞれc2との間のバイグラム頻
度を用いて、次の第(1)式〜第(3)式で示される形
態素連接尤度Ycを求める。
度の重み係数 Wm(c1) :形態素c1の単語モノグラム頻度 Wb(c1,c2):形態素c1,c2間の単語バイグ
ラム頻度 Pm(c1) :形態素c1の品詞モノグラム頻度 Pb(c1,c2):形態素c1,c2間の品詞バイグ
ラム頻度 (3) Ycが0の場合、連接しないので失敗とし、そ
の形態素列候補を取り除く。Yc>0の場合、連接可能
として形態素列候補に当該形態素を付加し、未処理部分
自然言語文から当該形態素を除く。さらに、形態素連接
尤度Ycを累積形態素連接尤度Ypに累積する。
態素列候補に優先順位をつけ、候補数が多すぎる場合に
は優先順位の低いものから削除し、適当な数にする。
素列候補のそれぞれに対して、未処理の部分自然言語文
に対して、次の終了条件を満たすまで(1)〜(4)を
繰返す。
して、未処理の部分自然言語文が存在しなくなり処理が
完全に終了すること。
列候補に対して未処理の部分自然言語文が存在しなくな
り処理が部分的に終了すること。
敗する場合、換言すれば次の形態素が辞書引きできない
かあるいはYcが0となって解析を進めるのに必要な形
態素列候補が存在しなくなった場合。
に得られた累積形態素連接尤度Ypの値を尤度として、
未処理の部分自然言語文がなくなった形態素列候補尤度
付き形態素列候補として出力する。
を説明するためのフローチャートである。この図4で
は、連接頻度を用いた形態素解析の基本的な処理の流れ
を次の(入力文1)を例として示している。
素がそれぞれ一つずつであったとする。このとき、形態
素列候補およびそれに対する未処理部分自然言語文(以
下、未処理部分と称する)と累積形態素連接尤度はたと
えば次のようになる。
の複数の形態素候補が得られたとする。
局(0.80) ただし、括弧内の数値は1つ前の形態素“は”との形態
素連接尤度Ycであり、0.00は連接しないことを意
味する。
それぞれ次のように複数の組合せに分裂する。また、累
積形態素連接尤度が0.00になったものは失敗として
以降の処理から除外する。
り失敗する。
分に対する形態素辞書引きにより、次の複数の形態素候
補が得られたとする。 (2b)に対して 局(0.50) (2c)に対して で(0.20) です(0.80) ただし、括弧内の数値はそれぞれの1つ前の形態素との
形態素連接尤度Ycである。すると、形態素列候補と未
処理部分はそれぞれ次のようになる。
析処理では、結果の候補数が処理が進むにつれて増大す
る傾向がある。しかし、連接頻度を用いる手法では、処
理の各時点で累積形態素連接尤度が得られるので、必要
があれば可能性の低い候補を削除することができる。
解析処理に対して、形態素連接頻度情報を用いることに
より、処理結果の精度を向上させることが可能となる。
また、一般に処理速度の向上と処理結果の信頼性の向上
の間にはトレード・オフの関係が生じるが、これに対し
ても処理途中での形態素列候補数を調整することによ
り、必要に応じて適度なバランスにすることが可能とな
る。
図である。
流れを示すフローチャートである。
Claims (3)
- 【請求項1】 入力された自然言語文を形態素ごとに分
割し、その結果を出力する形態素解析装置であって、 形態素の出現形から当該形態素の他の情報(見出し,活
用,品詞など)を引くための形態素辞書、単 語連鎖確率および品詞連鎖確率を予め算出して記憶す
る記憶手段、 前記入力された自然言語文から複数の形態素候補を前記
形態素辞書を参照して抽出する形態素候補抽出手段、お
よび前記形態素候補抽出手段によって抽出された複数の
形態素候補に対して、前記記憶手段に記憶されている単
語連鎖確率に係数を重み付けし、これに品詞連鎖確率を
加算して部分的形態素連接尤度を求める手段を備えた、
形態素解析装置。 - 【請求項2】 最尤の形態素列候補を選択するために、
前記部分的形態素連接尤度を得られた各形態素列候補に
わたって累積した累積形態素連接尤度を各形態素列候補
の尤度とすることを特徴とする、請求項1の形態素解析
装置。 - 【請求項3】 前記累積形態素連接尤度により各形態素
列候補に優先順位を付け、候補数が一定数より多い場合
には優先順位の低い候補を削除して候補数を一定数以下
にすることを特徴とする、請求項2の形態素解析装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5187907A JP3048101B2 (ja) | 1993-07-29 | 1993-07-29 | 形態素解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5187907A JP3048101B2 (ja) | 1993-07-29 | 1993-07-29 | 形態素解析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH07129589A JPH07129589A (ja) | 1995-05-19 |
| JP3048101B2 true JP3048101B2 (ja) | 2000-06-05 |
Family
ID=16214297
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5187907A Expired - Lifetime JP3048101B2 (ja) | 1993-07-29 | 1993-07-29 | 形態素解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3048101B2 (ja) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61187077A (ja) * | 1985-02-14 | 1986-08-20 | Ricoh Co Ltd | 日本語解析装置 |
| JPH01156869A (ja) * | 1987-12-14 | 1989-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 日本文解析処理装置 |
| JPH04312168A (ja) * | 1991-04-11 | 1992-11-04 | Mitsubishi Electric Corp | 統計的言語処理装置 |
-
1993
- 1993-07-29 JP JP5187907A patent/JP3048101B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
| Title |
|---|
| 情報処理学会第35回(昭和62年後期)全国大会講演論文集(▲II▼)P.1321−1322 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07129589A (ja) | 1995-05-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
| JPS63231569A (ja) | 複合語の解析方法 | |
| US5745875A (en) | Stenographic translation system automatic speech recognition | |
| JP3048101B2 (ja) | 形態素解析装置 | |
| JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
| JP2005339347A (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
| JPH1055196A (ja) | 音声認識装置および方法、情報記憶媒体 | |
| JPH08221091A (ja) | 音声認識装置 | |
| JP6043651B2 (ja) | 読みがな割当装置およびプログラム | |
| JP2000276482A (ja) | 文書検索装置及び文書検索方法 | |
| JP2009086911A (ja) | 固有表現抽出装置、その方法、プログラム及び記録媒体 | |
| JPH0140372B2 (ja) | ||
| JP4140248B2 (ja) | データベース検索装置 | |
| JP3628565B2 (ja) | 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体 | |
| JP4007504B2 (ja) | 単語分割装置、記憶媒体およびプログラム | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JPS61190657A (ja) | 日本語文字列認定方式 | |
| JP3091540B2 (ja) | 日本語文の形態素解析方式 | |
| JP3344793B2 (ja) | かな漢字変換装置 | |
| JPS6389976A (ja) | 言語解析装置 | |
| JPH02105968A (ja) | 日本文誤り自動検定・訂正方式 | |
| JP2738386B2 (ja) | 仮名漢字変換装置 | |
| JP2695772B2 (ja) | 仮名漢字変換装置 | |
| JPS63187299A (ja) | 単語つづり―発音記号変換装置 | |
| JP3048793B2 (ja) | 文字変換装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19971111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090324 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090324 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100324 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100324 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110324 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110324 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120324 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120324 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130324 Year of fee payment: 13 |