JPH07200595A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH07200595A
JPH07200595A JP5351270A JP35127093A JPH07200595A JP H07200595 A JPH07200595 A JP H07200595A JP 5351270 A JP5351270 A JP 5351270A JP 35127093 A JP35127093 A JP 35127093A JP H07200595 A JPH07200595 A JP H07200595A
Authority
JP
Japan
Prior art keywords
word
candidate
unregistered
string
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5351270A
Other languages
English (en)
Inventor
Junko Komatsu
順子 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5351270A priority Critical patent/JPH07200595A/ja
Publication of JPH07200595A publication Critical patent/JPH07200595A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 辞書検索回数を増加させずに未登録語処理を
行なうことができ、また、複数の字種が混じって一単語
を構成している未登録語にも良好に対処できる。 【構成】 解析文字列が与えられたときに、該解析文字
列から単語列を構成する単語候補を生成する単語候補生
成部4と、単語列のコスト値を、該単語列を構成する単
語候補の出現のしやすさを表す指標としての単語候補の
単語コストと単語候補間の連鎖のしやすさを表す指標と
しての接続コストとの総和により求め、単語列のコスト
値が最小の単語列をもっともらしい解とする単語候補検
証部5とを有しており、単語候補生成部5は、与えられ
た解析文字列の部分文字列を表記とする未登録語候補を
常に単語候補として生成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、漢字かな混じり文を単
語列に分解する形態素解析処理を行なう形態素解析装置
に関する。
【0002】
【従来の技術】従来、漢字かな混じり文(解析文字列)を
単語列に分解する形態素解析の手法として、単語列のも
っともらしさを表す指標(単語列のコスト値)を定め、
解析文字列を単語に分割した場合の考えられうる全ての
単語列のうち(一般には、複数通りの単語列のうち)、コ
スト値が最小のものを最適解として選択するコスト最小
法が知られている。コスト最小法は、コスト値をうまく
与えることができれば、解析系を統一的な枠組みで扱う
ことができ、また、複数解を出力することができるとい
う点で他の手法に比べて有効な手法である。
【0003】また、コスト最小法では、適当な未登録語
候補を生成しておいて、その未登録語候補の単語コスト
や未登録語候補と他の単語候補との接続コストを通常単
語候補(単語辞書に登録されている単語)のものよりも
大きめに設定しておけば、通常単語のみで単語列が構成
できない場合に限り、未登録語を含む解が得られること
になり、未登録語に対処できる。例えば、文献「“未登
録語を含む日本語文の形態素解析”情報処理学会論文誌
Vol.30,No.3 1989年3月」には、この
ような観点からの未登録語処理方法が示されており、こ
の文献では、コスト最小法を用いた形態素解析アルゴリ
ズムにより、単語辞書に登録されていない片仮名列、ア
ルファベット列、一文字漢字、一文字平仮名を未登録語
候補として生成する方法が提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の手法では、未登録語候補を生成する度に、単語
辞書を検索して単語辞書に未登録語候補が登録されてい
るか否かをチェックするために、辞書検索回数が増加
し、相当の処理時間を要するという問題がある。また、
漢字と平仮名、片仮名と平仮名など複数の字種が混じっ
て一単語を構成している未登録語に対しては、良好に対
処できない場合がある。
【0005】本発明は、辞書検索回数を増加させずに未
登録語処理を行なうことができ、また、複数の字種が混
じって一単語を構成している未登録語にも良好に対処す
ることの可能な形態素解析装置を提供することを目的と
している。
【0006】
【課題を解決するための手段および作用】上記目的を達
成するため、本発明は、与えられた解析文字列の部分文
字列を表記とし、単語辞書に登録されている単語(通常
単語候補)の他に、与えられた解析文字列の各文字1文
字分を表記とする単語(未登録語候補)を常に単語候補
として生成し、未登録語候補の単語コストを通常単語候
補の単語コストより大きい値に設定し、未登録語候補と
通常単語候補の接続コスト、通常単語候補と未登録単語
候補の接続コストを、文法的に接続しうる通常単語候補
と通常単語候補の接続コストより大きい値に設定するよ
うにしている。これによって、未登録語候補を生成する
際に辞書検索を行なわずに済み、辞書検索回数の増加を
防止できる。
【0007】また、本発明では、未登録語候補と未登録
語候補との接続コストは、それぞれの候補の表記の文字
種の連鎖のしやすさに基づいて求め、未登録語候補と通
常単語候補の接続コスト、通常単語候補と未登録語候補
の接続コストは、未登録語候補の表記の文字種と、通常
単語候補の表記のうち未登録語候補と接する部分の文字
の文字種との連鎖のしやすさに基づいて求め、形態素解
析の結果もっもらしい解として得られた単語列の中に、
未登録語が連続する部分がある場合は、それらをまとめ
て1つの未登録語としている。これによって、複数の字
種が混じって一単語を構成している未登録語にもうまく
対処できる。
【0008】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明に係る形態素解析装置の一実施例
の構成図である。図1を参照すると、本実施例の形態素
解析装置は、単語のコスト(単語の出現しやすさを表す
指標),品詞,読みなどの単語情報が記憶されている単
語辞書1と、単語間の接続コスト(単語間の連鎖のしや
すさを表す指標)が記憶されている接続表2と、1つの
単語の表記内の字種の連鎖のしやすさをコスト値として
表わしたマトリックスが記憶されている字種連鎖表3
と、単語候補を生成する単語候補生成部4と、単語候補
生成部4からの単語候補を単語コストと単語間の接続コ
ストとに基づいて絞り込み、コスト値が最小の単語列を
もっともらしい解とする単語候補検証部5とを有してい
る。
【0009】ここで、字種連鎖表3において、字種とし
て、例えば、片仮名,平仮名,アルファベット,数字,
漢字の5種類を考えることにする。この場合、単語の表
記を構成する文字種の並びには傾向があり、例えば、外
来語などは通常片仮名で書かれるので、片仮名−片仮名
の連鎖はしやすく、また、日本語には漢字複合語が多い
ので、漢字−漢字の連鎖もしやすい。一方、漢字と数字
の混じった単語はほとんどないので、漢字−数字の連鎖
はしにくい。このように、字種連鎖表3には、25(5
×5)種類の文字種の連鎖に対して、連鎖のしやすいも
のほど小さい値を与えたコスト値が設定されている。
【0010】また、単語候補生成部4は、単語辞書1を
検索しながら解析文字列の部分文字列を表記とする単語
候補(単語辞書1に登録されている単語であり、以後、
これを通常単語候補と呼ぶ)を生成すると同時に、解析
文字列の各文字1文字分を表記とする単語候補(以後、
これを未登録語候補と呼ぶ)を生成するようになってい
る。なお、句読点を表す文字(”、”,”。”など)を
表記とする未登録語候補は生成しないものとする。
【0011】また、単語候補検証部5は、より具体的に
は、n個の単語で構成された単語列W=(w1,w2,w
3・・・wn)のコスト値Cpath(W)を、次式のよう
に、単語列Wを構成する単語wiのコスト値C
word(wi)と、単語間の接続コスト値,すなわち、単
語wi-1とwiとの接続コスト値Ccnct(wi-1,wi)と
の総和により求め、コスト値Cpath(W)が最小の単語
列(最小コストパスの単語列)をもっともらしい解として
選択するようになっている。
【0012】
【数1】
【0013】なお、この際、単語wi-1と単語wiとの間
の接続コスト値Ccnct(wi-1,wi)は、具体的には、
以下のようにして求められる。すなわち、未登録語候補
は1文字表記を持つ単語であるが、2つ以上の未登録語
が連続した単語列が生成された場合は、1つにまとめら
れて1単語になるので、未登録語候補同士の接続コスト
には、それぞれの表記文字の連鎖が1つの単語の表記と
してもっもらしい度合いを反映させればよい。一方、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストには、未登録語候補の表記
文字と通常単語候補の表記のうち未登録語候補に接する
部分の文字との連鎖が1つの単語の表記としてもっとも
らしくない度合いを反映させればよい。
【0014】そこで、wi-1,wiがともに未登録語候補
である場合、その接続コストCcnctは、次式のようにし
て求められる。
【0015】
【数2】 Ccnct(wi-1,wi)=Z×CharMtx(ci-1,ci)
【0016】また、wi-1,wiの一方が未登録語候補
で、他方が通常単語候補である場合、その接続コストC
cnctは、、次式のようにして求められる。
【0017】
【数3】Ccnct(wi-1,wi)=offset+Z×(Cmax−Ch
arMtx(ci-1,ci))
【0018】数2,数3において、ci-1は単語候補w
i-1の表記のうち、wiと接する部分の文字種、ciは単
語候補wiの表記のうち、wi-1と接する部分の文字種を
表わしている。また、CharMtx(ci-1,ci)は字種連
鎖表3の値であり、Cmaxは字種連鎖コストの最大値で
あり、Zはウェイト(重み)を表わしている。また、offs
etは、オフセット値であり、offset値は、未登録語候補
と通常単語候補の接続コスト、通常単語候補と未登録単
語候補の接続コストが、文法的に接続しうる通常単語候
補と通常単語候補の接続コストよりも大きくなるように
設定されている。
【0019】次に、このような構成の形態素解析装置の
処理動作例について説明する。いま、解析文字列が“彼
はサボるのが好きだ。”であるとする。ここで、単語辞
書1には、“サボる”という単語が登録されていないも
のとすると、単語候補生成部4は、この解析文字列をも
とに図2に示すような単語候補を生成し、単語候補検証
部5に渡す。
【0020】単語候補検証部5では、図2のような単語
候補で構成される全ての考えられうる単語列のコスト値
を数1により求め、コストが最小の単語列をもっともら
しい解として出力する。
【0021】この際、単語候補生成部4,単語候補検証
部5では、通常単語候補(図2の例では、“サ”,
“ボ”,“る”の候補)のコストとして単語辞書1に記
憶されているコスト値を用い、また、未登録語候補(図
2の例では、“サ”,“ボ”,“る”の候補)のコスト
として通常単語候補のコスト値よりも大きめに設定され
た一定値を用いる。また、単語候補検証部5では、通常
単語候補と通常単語候補との接続コストについては、接
続表2に設定されている値を用いる。さらに、未登録語
候補同士の接続コスト、未登録語候補と通常単語候補の
接続コストについては、これらを数2,数3により求め
て用いる。
【0022】このようにして単語候補検証部5はもっと
もらしい単語列を出力する。図3には、その結果が示さ
れている。ここで、未登録語“サ”、“ボ”、“る”が
3つ連続しているので、これらを“サボる”という1つ
の単語にまとめることによって、図4に示すような最終
的な解析結果を得ることができる。
【0023】なお、上述の実施例において、単語候補生
成部4と単語候補検証部5とが別々に設けられているも
のとして説明したが、これらを1つにまとめ、例えば単
語処理部とすることもできる。
【0024】
【発明の効果】以上に説明したように、本発明によれ
ば、与えられた解析文字列の部分文字列を表記とし、単
語辞書に登録されている単語(通常単語候補)の他に、
与えられた解析文字列の各文字1文字分を表記とする単
語(未登録語候補)を常に単語候補として生成し、未登
録語候補の単語コストを通常単語候補の単語コストより
も大きい値に設定し、未登録語候補と通常単語候補の接
続コスト、通常単語候補と未登録単語候補の接続コスト
を、文法的に接続しうる通常単語候補と通常単語候補の
接続コストよりも大きい値に設定するようにしているの
で、未登録語候補を生成する際に辞書の検索を全く行な
わずに済み、辞書検索回数の増加を防止し、処理時間を
低減することができる。
【0025】また、本発明では、未登録語候補と未登録
語候補との接続コストについては、それぞれの候補の表
記の文字種の連鎖のしやすさに基づいて求め、また、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストについては、未登録語候補
の表記の文字種と、通常単語候補の表記のうち未登録語
候補と接する部分の文字の文字種との連鎖のしやすさに
基づいて求め、形態素解析の結果もっともらしい解とし
て得られた単語列の中に、未登録語が連続する部分があ
る場合、それらをまとめて1つの未登録語とするように
しているので、これによって、複数の字種が混じって一
単語を構成している未登録語にも良好に対処することが
できる。
【図面の簡単な説明】
【図1】本発明に係る形態素解析装置の一実施例の構成
図である。
【図2】単語候補の生成例を示す図である。
【図3】本発明による形態素解析結果の一例を示す図で
ある。
【図4】本発明による形態素解析結果の一例を示す図で
ある。
【符号の説明】
1 単語辞書 2 接続表 3 字種連鎖表 4 単語候補生成部 5 単語候補検証部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 単語列のもっともらしさを表す指標とし
    て、単語列のコスト値を定め、解析文字列を単語に分割
    した場合の考えられうる全ての単語列のうち、コスト値
    が最小の単語列をもっともらしい解として選択する形態
    素解析装置において、解析文字列が与えられたときに、
    該解析文字列から単語列を構成する単語候補を生成する
    単語候補生成手段と、単語列のコスト値を、該単語列を
    構成する単語候補の出現のしやすさを表す指標としての
    単語候補の単語コストと単語候補間の連鎖のしやすさを
    表す指標としての接続コストとの総和により求め、該単
    語列のコスト値が最小の単語列をもっともらしい解とす
    る単語候補検証手段とを有しており、前記単語候補生成
    手段は、与えられた解析文字列の部分文字列を表記とす
    る通常単語候補の他に、与えられた解析文字列の各文字
    1文字分を表記とする未登録語候補を常に単語候補とし
    て生成するようになっていることを特徴とする形態素解
    析装置。
  2. 【請求項2】 請求項1記載の形態素解析装置におい
    て、未登録語候補の単語コストは、通常単語候補の単語
    コストよりも大きい値に設定されることを特徴とする形
    態素解析装置。
  3. 【請求項3】 請求項1記載の形態素解析装置におい
    て、未登録語候補と通常単語候補の接続コスト、およ
    び、通常単語候補と未登録語候補の接続コストは、文法
    的に接続しうる通常単語候補と通常単語候補の接続コス
    トよりも大きい値に設定されることを特徴とする形態素
    解析装置。
  4. 【請求項4】 請求項1記載の形態素解析装置におい
    て、未登録語候補と未登録語候補との接続コストは、そ
    れぞれの候補の表記の文字種の連鎖のしやすさに基づい
    て求められることを特徴とする形態素解析装置。
  5. 【請求項5】 請求項1記載の形態素解析装置におい
    て、未登録語候補と通常単語候補の接続コスト、およ
    び、通常単語候補と未登録語候補の接続コストは、未登
    録語候補の表記の文字種と、通常単語候補の表記のうち
    未登録候補と接する部分の文字の文字種との連鎖のしや
    すさに基づいて求められることを特徴とする形態素解析
    装置。
  6. 【請求項6】 請求項1記載の形態素解析装置におい
    て、もっともらしい解として得られた単語列の中に、未
    登録語が連続する部分がある場合には、連続する未登録
    語を1つにまとめて1つの未登録語とすることを特徴と
    する形態素解析装置。
JP5351270A 1993-12-30 1993-12-30 形態素解析装置 Pending JPH07200595A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5351270A JPH07200595A (ja) 1993-12-30 1993-12-30 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5351270A JPH07200595A (ja) 1993-12-30 1993-12-30 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH07200595A true JPH07200595A (ja) 1995-08-04

Family

ID=18416183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5351270A Pending JPH07200595A (ja) 1993-12-30 1993-12-30 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH07200595A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (ja) * 1997-03-19 1998-12-04 Ricoh Co Ltd 文書検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (ja) * 1997-03-19 1998-12-04 Ricoh Co Ltd 文書検索方法

Similar Documents

Publication Publication Date Title
US7584093B2 (en) Method and system for generating spelling suggestions
US6401060B1 (en) Method for typographical detection and replacement in Japanese text
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US20030023425A1 (en) Tokenizer for a natural language processing system
US11386269B2 (en) Fault-tolerant information extraction
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Panchapagesan et al. Hindi text normalization
JP2007206975A (ja) 言語情報変換装置及びその方法
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JPH07200595A (ja) 形態素解析装置
JPH0619960A (ja) 形態素解析処理方法
JPH07244665A (ja) 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3348909B2 (ja) 形態素解析装置
JP3048793B2 (ja) 文字変換装置
JP2574741B2 (ja) 言語処理方法
JP2995717B2 (ja) 形態素解析方法およびその装置
JP3139624B2 (ja) 形態素解析装置
JP3216725B2 (ja) 文章構造解析装置
JPH04344523A (ja) メッセージ生成方式
JPH10301597A (ja) 音声認識装置
JPH10240736A (ja) 形態素解析装置