JP3048101B2 - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JP3048101B2
JP3048101B2 JP5187907A JP18790793A JP3048101B2 JP 3048101 B2 JP3048101 B2 JP 3048101B2 JP 5187907 A JP5187907 A JP 5187907A JP 18790793 A JP18790793 A JP 18790793A JP 3048101 B2 JP3048101 B2 JP 3048101B2
Authority
JP
Japan
Prior art keywords
morpheme
likelihood
candidates
morphological
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5187907A
Other languages
English (en)
Other versions
JPH07129589A (ja
Inventor
淳 河井
英一郎 隅田
蔵 古瀬
仁一 村上
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP5187907A priority Critical patent/JP3048101B2/ja
Publication of JPH07129589A publication Critical patent/JPH07129589A/ja
Application granted granted Critical
Publication of JP3048101B2 publication Critical patent/JP3048101B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は形態素解析装置に関し
て、情報処理分野で用いられ、特に、かな漢字変換や機
械翻訳や情報検索などの自然言語を処理するために形態
素の連接頻度を利用して処理を行うような形態素解析装
置に関する。
【0002】
【従来の技術】従来の形態素解析装置では、形態素辞書
から得られた複数の形態素候補に対して、形態素が連接
可能であるかどうかを記した連接テーブル、または文法
などによって連接チェックを行うことにより形態素候補
数を絞っていた。さらに、処理の流れの制御や出力結果
の決定に関しては、単一の形態素の出現頻度を優先した
り、出現形のより長い形態素を優先する最長一致法など
のヒューリスティクスを用いたりしていた。
【0003】
【発明が解決しようとする課題】ところが、従来の方法
では、 連接テーブルまたは文法を利用して解析を行ってい
るため、そこから得られる情報は形態素が連接可能かど
うかということだけであり、そのチェックを通過しただ
けでは形態素候補数の十分な絞り込みができず、候補数
の爆発が生じる。このことは多くの曖昧性を残し、処理
速度の低下または処理結果の信頼性の低下を引き起こ
す。
【0004】 形態素の出現頻度のみを用いているた
め、前後の形態素との連接に関する情報が得られず、誤
った結果を生じやすい。
【0005】 処理の過程で生じる分岐の優先順位、
または最終的な出力候補の尤度を与えるための最長一致
法などの単語の連接の個別性を無視した一般的ヒューリ
スティクスに頼らなければならない。この方法では、シ
ステムの性能を向上させるための調整が困難である。こ
のように、従来の方法は多くの問題点を抱えている。
【0006】それゆえに、この発明の主たる目的は、形
態素連接頻度を用いて、部分的形態素連接尤度を求め、
その値に基づいて効果的に形態素解析処理を行うことが
できるような形態素解析装置を提供することである。
【0007】
【課題を解決するための手段】請求項1に係る発明は、
入力された自然言語文を形態素ごとに分割し、その結果
を出力する形態素解析装置であって、形態素の出現形か
ら当該形態素の他の情報(見出し,活用,品詞など)を
引くための形態素辞書と、単語連鎖確率および品詞連鎖
率を予め算出し連接頻度データとして記憶する記憶
手段と、入力された自然言語文から複数の形態素候補を
形態素辞書を参照して抽出する形態素候補抽出手段と、
抽出された複数の形態素候補に対して記憶手段に記憶さ
れている単語連鎖確率に重み係数を乗じ、これに品詞連
鎖確率を加算して部分的形態素連接尤度を求める手段と
を備えて構成される。
【0008】請求項2の発明では、請求項1の形態素辞
書は、形態素の出現形から当該形態素の他の形態素情報
を引くために用いる。
【0009】請求項3に係る発明では、請求項1の連接
頻度データは、形態素情報の一部、あるいは全部に着目
し、互いに連接する形態素の頻度を予め算出する。
【0010】請求項4に係る発明では、請求項2の形態
素辞書によって得られる複数の形態素候補に対して、連
接頻度を用いて部分的形態素連接尤度を求める。
【0011】請求項2に係る発明では、最尤形態素列候
補を選択するために、部分的形態素連接尤度を請求項1
を使って得られた各形態素列候補にわたって累積した累
積形態素連接尤度を各形態素列候補の尤度とする。
【0012】請求項3に係る発明では、請求項2で得ら
れた累積形態素連接尤度により各形態素列候補に優先順
位を付け、形態素列候補数が一定数より多い場合には優
先順位の低い候補を削除して候補数を一定数以下にする
ことを特徴とする。
【0013】
【作用】この発明に係る形態素解析装置は、形態素の出
現形からその形態素の他の情報(見出し,活用,品詞な
ど)を引くための形態素辞書を設けるとともに、単語連
鎖確率および品詞連鎖確率を予め算出して記憶してお
き、入力された自然言語文から複数の形態素候補を形態
素辞書を参照して抽出し、抽出された複数の形態素候補
に対して単語連鎖確率に重み係数を乗じ、これに品詞連
鎖確率を加算して部分的形態素連接尤度を求めることに
り、ヒューリスティックスを用いることなく形態素候
補の絞り込みができ、また出力結果に対して信頼性の尺
度となる尤度を与えることができる。
【0014】
【実施例】図1はこの発明を日本語文に適用した一実施
例の概略ブロック図である。図1において、入力文は形
態素解析処理モジュール1に与えられ、この形態素解析
処理モジュール1は形態素辞書引きモジュール2によっ
て形態素辞書3から形態素を読出すとともに、形態素連
接尤度計算モジュール4によって形態素連接頻度データ
5を読出しながら処理を実行する。
【0015】図2は図1に示した形態素辞書の一例を示
す図である。図2において形態素辞書は、形態素の出現
形から当該形態素の他の形態素情報(標準形,品詞,活
用形,活用型など)を引くための辞書である。
【0016】図3は形態素連接頻度データの一例を示す
図である。形態素連接頻度データとは、連接するn個の
形態素の組の出現頻度(nグラム頻度という。ここで連
接数nは1以上の整数)である。n=1の時は各形態素
の出現頻度と等価である。
【0017】この実施例では、形態素連接頻度として、
すべての形態素情報に関して連接する場合の連接頻度に
対してn=1の場合(以下、単語モノグラム頻度とい
う)、およびn=2の場合(以下、単語バイグラム頻度
という)と、品詞,活用形,活用型の3項目に関して連
接する場合の連接頻度に対してn=1の場合(以下、品
詞モノグラム頻度という)、およびn=2の場合(以
下、品詞バイグラム頻度という)を考えた計4種類の連
接頻度を想定している。
【0018】以下に、連接頻度を用いた形態素解析処理
装置の処理手続について詳細に説明する。
【0019】(0) 初め、次の(1)に出てくる形態
素列候補のダミーに文頭形態素をセットし、同じく未処
理部分自然言語文に入力文をセットし、累積形態素連接
尤度Yp=1に初期化した状態から(1)の処理に入
る。ここで、ダミーの文頭形態素とは、出力結果には現
れないが、文頭と初めの形態素との連接尤度計算のため
にだけ使われる仮想的な形態素である。
【0020】(1) 形態素列候補に続く未処理部分自
然言語文の先頭部分文字列に一致する形態素候補を形態
素辞書から引く。ここで形態素が一つも辞書引きできな
かった場合は、その形態素列候補は失敗とし、その形態
素列候補を取り除く。
【0021】(2) 形態素列候補の最後の形態素c1
のモノグラム頻度およびc1と(1)で得られた一般に
複数の形態素候補のそれぞれc2との間のバイグラム頻
度を用いて、次の第(1)式〜第(3)式で示される形
態素連接尤度Ycを求める。
【0022】 形態素連接尤度Yc=(C・Wc+Pc)/(C+1)…(1) 単語連接尤度Wc=Wb(c1,c2)/Wm(c1)…(2) 品詞連接尤度Pc=Pb(c1,c2)/Pm(c1)…(3) ただし、 C :品詞連接尤度に対する単語連接尤
度の重み係数 Wm(c1) :形態素c1の単語モノグラム頻度 Wb(c1,c2):形態素c1,c2間の単語バイグ
ラム頻度 Pm(c1) :形態素c1の品詞モノグラム頻度 Pb(c1,c2):形態素c1,c2間の品詞バイグ
ラム頻度 (3) Ycが0の場合、連接しないので失敗とし、そ
の形態素列候補を取り除く。Yc>0の場合、連接可能
として形態素列候補に当該形態素を付加し、未処理部分
自然言語文から当該形態素を除く。さらに、形態素連接
尤度Ycを累積形態素連接尤度Ypに累積する。
【0023】(4) 累積形態素連接尤度Ypにより形
態素列候補に優先順位をつけ、候補数が多すぎる場合に
は優先順位の低いものから削除し、適当な数にする。
【0024】(5) (4)で残った一般に複数の形態
素列候補のそれぞれに対して、未処理の部分自然言語文
に対して、次の終了条件を満たすまで(1)〜(4)を
繰返す。
【0025】<終了条件1> 全ての形態素列候補に対
して、未処理の部分自然言語文が存在しなくなり処理が
完全に終了すること。
【0026】<終了条件2> 予め設定した数の形態素
列候補に対して未処理の部分自然言語文が存在しなくな
り処理が部分的に終了すること。
【0027】<終了条件3> 全ての形態素列候補が失
敗する場合、換言すれば次の形態素が辞書引きできない
かあるいはYcが0となって解析を進めるのに必要な形
態素列候補が存在しなくなった場合。
【0028】(6) 終了条件を満たした場合、最終的
に得られた累積形態素連接尤度Ypの値を尤度として、
未処理の部分自然言語文がなくなった形態素列候補尤度
付き形態素列候補として出力する。
【0029】図4はこの発明の一実施例の具体的な動作
を説明するためのフローチャートである。この図4で
は、連接頻度を用いた形態素解析の基本的な処理の流れ
を次の(入力文1)を例として示している。
【0030】“こちらは事務局です”…(入力文1) まず、“こちら”,“は”に対して登録されている形態
素がそれぞれ一つずつであったとする。このとき、形態
素列候補およびそれに対する未処理部分自然言語文(以
下、未処理部分と称する)と累積形態素連接尤度はたと
えば次のようになる。
【0031】 累積形態素連接尤度Yp 形態素列候補 未処理部分 (1) 0.60 (こちら は) “事務局です” (1)の未処理部分に対する形態素辞書引きにより、次
の複数の形態素候補が得られたとする。
【0032】事(0.00) 事務(0.50) 事務
局(0.80) ただし、括弧内の数値は1つ前の形態素“は”との形態
素連接尤度Ycであり、0.00は連接しないことを意
味する。
【0033】すると、形態素列候補とは未処理部分は、
それぞれ次のように複数の組合せに分裂する。また、累
積形態素連接尤度が0.00になったものは失敗として
以降の処理から除外する。
【0034】 累積形態素連接尤度Yp 形態素列候補 未処理部分 (2a)0.60×0.00=0.00 (こちら は 事) “務局です”→失敗 (2b)0.60×0.50=0.30 (こちら は 事務) “局です” (2c)0.60×0.80=0.48 (こちら は 事務局) “です” ここで、(2a)は累積形態素連接尤度は0.00とな
り失敗する。
【0035】さらに、(2b),(2c)の各未処理部
分に対する形態素辞書引きにより、次の複数の形態素候
補が得られたとする。 (2b)に対して 局(0.50) (2c)に対して で(0.20) です(0.80) ただし、括弧内の数値はそれぞれの1つ前の形態素との
形態素連接尤度Ycである。すると、形態素列候補と未
処理部分はそれぞれ次のようになる。
【0036】 累積形態素連接尤度Yp 形態素列候補 未処理部分 (3b)0.30×0.50=0.15 (こちら は 事務 局) “です” (3c)0.48×0.20=0.09 (こちら は 事務局 で) “す” (3d)0.48×0.80=0.33 (こちら は 事務局 です) …→終了 以下、同様に終了条件を満たすまで処理を繰返す。
【0037】この例でもわかるとおり、一般に形態素解
析処理では、結果の候補数が処理が進むにつれて増大す
る傾向がある。しかし、連接頻度を用いる手法では、処
理の各時点で累積形態素連接尤度が得られるので、必要
があれば可能性の低い候補を削除することができる。
【0038】
【発明の効果】以上のように、この発明によれば形態素
解析処理に対して、形態素連接頻度情報を用いることに
より、処理結果の精度を向上させることが可能となる。
また、一般に処理速度の向上と処理結果の信頼性の向上
の間にはトレード・オフの関係が生じるが、これに対し
ても処理途中での形態素列候補数を調整することによ
り、必要に応じて適度なバランスにすることが可能とな
る。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】形態素辞書の具体的な一例を示した図である。
【図3】形態素連接頻度データの具体的な一例を示した
図である。
【図4】連接頻度を用いた形態素解析の基本的な処理の
流れを示すフローチャートである。
【符号の説明】
1 形態素解析処理モジュール 2 形態素辞書引きモジュール 3 形態素辞書 4 形態素連接尤度計算モジュール 5 形態素連接頻度データ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 隅田 英一郎 京都府相楽郡精華町光台2丁目2番地 株式会社エイ・ティ・アール音声翻訳通 信研究所内 (72)発明者 古瀬 蔵 京都府相楽郡精華町光台2丁目2番地 株式会社エイ・ティ・アール音声翻訳通 信研究所内 (72)発明者 村上 仁一 京都府相楽郡精華町光台2丁目2番地 株式会社エイ・ティ・アール音声翻訳通 信研究所内 (56)参考文献 特開 平4−312168(JP,A) 特開 平1−156869(JP,A) 情報処理学会第35回(昭和62年後期) 全国大会講演論文集(▲II▼)P. 1321−1322

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された自然言語文を形態素ごとに分
    割し、その結果を出力する形態素解析装置であって、 形態素の出現形から当該形態素の他の情報(見出し,活
    用,品詞など)を引くための形態素辞書、 語連鎖確率および品詞連鎖確率を予め算出して記憶す
    る記憶手段、 前記入力された自然言語文から複数の形態素候補を前記
    形態素辞書を参照して抽出する形態素候補抽出手段、お
    よび前記形態素候補抽出手段によって抽出された複数の
    形態素候補に対して、前記記憶手段に記憶されている単
    語連鎖確率に係数を重み付けし、これに品詞連鎖確率を
    加算して部分的形態素連接尤度を求める手段を備えた、
    形態素解析装置。
  2. 【請求項2】 最尤の形態素列候補を選択するために、
    前記部分的形態素連接尤度を得られた各形態素列候補に
    わたって累積した累積形態素連接尤度を各形態素列候補
    の尤度とすることを特徴とする、請求項1の形態素解析
    装置。
  3. 【請求項3】 前記累積形態素連接尤度により各形態素
    列候補に優先順位を付け、候補数が一定数より多い場合
    には優先順位の低い候補を削除して候補数を一定数以下
    にすることを特徴とする、請求項の形態素解析装置。
JP5187907A 1993-07-29 1993-07-29 形態素解析装置 Expired - Lifetime JP3048101B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5187907A JP3048101B2 (ja) 1993-07-29 1993-07-29 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5187907A JP3048101B2 (ja) 1993-07-29 1993-07-29 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH07129589A JPH07129589A (ja) 1995-05-19
JP3048101B2 true JP3048101B2 (ja) 2000-06-05

Family

ID=16214297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5187907A Expired - Lifetime JP3048101B2 (ja) 1993-07-29 1993-07-29 形態素解析装置

Country Status (1)

Country Link
JP (1) JP3048101B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61187077A (ja) * 1985-02-14 1986-08-20 Ricoh Co Ltd 日本語解析装置
JPH01156869A (ja) * 1987-12-14 1989-06-20 Nippon Telegr & Teleph Corp <Ntt> 日本文解析処理装置
JPH04312168A (ja) * 1991-04-11 1992-11-04 Mitsubishi Electric Corp 統計的言語処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会第35回(昭和62年後期)全国大会講演論文集(▲II▼)P.1321−1322

Also Published As

Publication number Publication date
JPH07129589A (ja) 1995-05-19

Similar Documents

Publication Publication Date Title
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JPS63231569A (ja) 複合語の解析方法
US5745875A (en) Stenographic translation system automatic speech recognition
JP3048101B2 (ja) 形態素解析装置
JP2013134753A (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP2005339347A (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JPH1055196A (ja) 音声認識装置および方法、情報記憶媒体
JPH08221091A (ja) 音声認識装置
JP6043651B2 (ja) 読みがな割当装置およびプログラム
JP2000276482A (ja) 文書検索装置及び文書検索方法
JP2009086911A (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
JPH0140372B2 (ja)
JP4140248B2 (ja) データベース検索装置
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP4007504B2 (ja) 単語分割装置、記憶媒体およびプログラム
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS61190657A (ja) 日本語文字列認定方式
JP3091540B2 (ja) 日本語文の形態素解析方式
JP3344793B2 (ja) かな漢字変換装置
JPS6389976A (ja) 言語解析装置
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JP2738386B2 (ja) 仮名漢字変換装置
JP2695772B2 (ja) 仮名漢字変換装置
JPS63187299A (ja) 単語つづり―発音記号変換装置
JP3048793B2 (ja) 文字変換装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19971111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090324

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090324

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100324

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100324

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110324

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110324

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120324

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120324

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130324

Year of fee payment: 13