JPH07200595A - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JPH07200595A JPH07200595A JP5351270A JP35127093A JPH07200595A JP H07200595 A JPH07200595 A JP H07200595A JP 5351270 A JP5351270 A JP 5351270A JP 35127093 A JP35127093 A JP 35127093A JP H07200595 A JPH07200595 A JP H07200595A
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- unregistered
- string
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 辞書検索回数を増加させずに未登録語処理を
行なうことができ、また、複数の字種が混じって一単語
を構成している未登録語にも良好に対処できる。 【構成】 解析文字列が与えられたときに、該解析文字
列から単語列を構成する単語候補を生成する単語候補生
成部4と、単語列のコスト値を、該単語列を構成する単
語候補の出現のしやすさを表す指標としての単語候補の
単語コストと単語候補間の連鎖のしやすさを表す指標と
しての接続コストとの総和により求め、単語列のコスト
値が最小の単語列をもっともらしい解とする単語候補検
証部5とを有しており、単語候補生成部5は、与えられ
た解析文字列の部分文字列を表記とする未登録語候補を
常に単語候補として生成する。
行なうことができ、また、複数の字種が混じって一単語
を構成している未登録語にも良好に対処できる。 【構成】 解析文字列が与えられたときに、該解析文字
列から単語列を構成する単語候補を生成する単語候補生
成部4と、単語列のコスト値を、該単語列を構成する単
語候補の出現のしやすさを表す指標としての単語候補の
単語コストと単語候補間の連鎖のしやすさを表す指標と
しての接続コストとの総和により求め、単語列のコスト
値が最小の単語列をもっともらしい解とする単語候補検
証部5とを有しており、単語候補生成部5は、与えられ
た解析文字列の部分文字列を表記とする未登録語候補を
常に単語候補として生成する。
Description
【0001】
【産業上の利用分野】本発明は、漢字かな混じり文を単
語列に分解する形態素解析処理を行なう形態素解析装置
に関する。
語列に分解する形態素解析処理を行なう形態素解析装置
に関する。
【0002】
【従来の技術】従来、漢字かな混じり文(解析文字列)を
単語列に分解する形態素解析の手法として、単語列のも
っともらしさを表す指標(単語列のコスト値)を定め、
解析文字列を単語に分割した場合の考えられうる全ての
単語列のうち(一般には、複数通りの単語列のうち)、コ
スト値が最小のものを最適解として選択するコスト最小
法が知られている。コスト最小法は、コスト値をうまく
与えることができれば、解析系を統一的な枠組みで扱う
ことができ、また、複数解を出力することができるとい
う点で他の手法に比べて有効な手法である。
単語列に分解する形態素解析の手法として、単語列のも
っともらしさを表す指標(単語列のコスト値)を定め、
解析文字列を単語に分割した場合の考えられうる全ての
単語列のうち(一般には、複数通りの単語列のうち)、コ
スト値が最小のものを最適解として選択するコスト最小
法が知られている。コスト最小法は、コスト値をうまく
与えることができれば、解析系を統一的な枠組みで扱う
ことができ、また、複数解を出力することができるとい
う点で他の手法に比べて有効な手法である。
【0003】また、コスト最小法では、適当な未登録語
候補を生成しておいて、その未登録語候補の単語コスト
や未登録語候補と他の単語候補との接続コストを通常単
語候補(単語辞書に登録されている単語)のものよりも
大きめに設定しておけば、通常単語のみで単語列が構成
できない場合に限り、未登録語を含む解が得られること
になり、未登録語に対処できる。例えば、文献「“未登
録語を含む日本語文の形態素解析”情報処理学会論文誌
Vol.30,No.3 1989年3月」には、この
ような観点からの未登録語処理方法が示されており、こ
の文献では、コスト最小法を用いた形態素解析アルゴリ
ズムにより、単語辞書に登録されていない片仮名列、ア
ルファベット列、一文字漢字、一文字平仮名を未登録語
候補として生成する方法が提案されている。
候補を生成しておいて、その未登録語候補の単語コスト
や未登録語候補と他の単語候補との接続コストを通常単
語候補(単語辞書に登録されている単語)のものよりも
大きめに設定しておけば、通常単語のみで単語列が構成
できない場合に限り、未登録語を含む解が得られること
になり、未登録語に対処できる。例えば、文献「“未登
録語を含む日本語文の形態素解析”情報処理学会論文誌
Vol.30,No.3 1989年3月」には、この
ような観点からの未登録語処理方法が示されており、こ
の文献では、コスト最小法を用いた形態素解析アルゴリ
ズムにより、単語辞書に登録されていない片仮名列、ア
ルファベット列、一文字漢字、一文字平仮名を未登録語
候補として生成する方法が提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の手法では、未登録語候補を生成する度に、単語
辞書を検索して単語辞書に未登録語候補が登録されてい
るか否かをチェックするために、辞書検索回数が増加
し、相当の処理時間を要するという問題がある。また、
漢字と平仮名、片仮名と平仮名など複数の字種が混じっ
て一単語を構成している未登録語に対しては、良好に対
処できない場合がある。
た従来の手法では、未登録語候補を生成する度に、単語
辞書を検索して単語辞書に未登録語候補が登録されてい
るか否かをチェックするために、辞書検索回数が増加
し、相当の処理時間を要するという問題がある。また、
漢字と平仮名、片仮名と平仮名など複数の字種が混じっ
て一単語を構成している未登録語に対しては、良好に対
処できない場合がある。
【0005】本発明は、辞書検索回数を増加させずに未
登録語処理を行なうことができ、また、複数の字種が混
じって一単語を構成している未登録語にも良好に対処す
ることの可能な形態素解析装置を提供することを目的と
している。
登録語処理を行なうことができ、また、複数の字種が混
じって一単語を構成している未登録語にも良好に対処す
ることの可能な形態素解析装置を提供することを目的と
している。
【0006】
【課題を解決するための手段および作用】上記目的を達
成するため、本発明は、与えられた解析文字列の部分文
字列を表記とし、単語辞書に登録されている単語(通常
単語候補)の他に、与えられた解析文字列の各文字1文
字分を表記とする単語(未登録語候補)を常に単語候補
として生成し、未登録語候補の単語コストを通常単語候
補の単語コストより大きい値に設定し、未登録語候補と
通常単語候補の接続コスト、通常単語候補と未登録単語
候補の接続コストを、文法的に接続しうる通常単語候補
と通常単語候補の接続コストより大きい値に設定するよ
うにしている。これによって、未登録語候補を生成する
際に辞書検索を行なわずに済み、辞書検索回数の増加を
防止できる。
成するため、本発明は、与えられた解析文字列の部分文
字列を表記とし、単語辞書に登録されている単語(通常
単語候補)の他に、与えられた解析文字列の各文字1文
字分を表記とする単語(未登録語候補)を常に単語候補
として生成し、未登録語候補の単語コストを通常単語候
補の単語コストより大きい値に設定し、未登録語候補と
通常単語候補の接続コスト、通常単語候補と未登録単語
候補の接続コストを、文法的に接続しうる通常単語候補
と通常単語候補の接続コストより大きい値に設定するよ
うにしている。これによって、未登録語候補を生成する
際に辞書検索を行なわずに済み、辞書検索回数の増加を
防止できる。
【0007】また、本発明では、未登録語候補と未登録
語候補との接続コストは、それぞれの候補の表記の文字
種の連鎖のしやすさに基づいて求め、未登録語候補と通
常単語候補の接続コスト、通常単語候補と未登録語候補
の接続コストは、未登録語候補の表記の文字種と、通常
単語候補の表記のうち未登録語候補と接する部分の文字
の文字種との連鎖のしやすさに基づいて求め、形態素解
析の結果もっもらしい解として得られた単語列の中に、
未登録語が連続する部分がある場合は、それらをまとめ
て1つの未登録語としている。これによって、複数の字
種が混じって一単語を構成している未登録語にもうまく
対処できる。
語候補との接続コストは、それぞれの候補の表記の文字
種の連鎖のしやすさに基づいて求め、未登録語候補と通
常単語候補の接続コスト、通常単語候補と未登録語候補
の接続コストは、未登録語候補の表記の文字種と、通常
単語候補の表記のうち未登録語候補と接する部分の文字
の文字種との連鎖のしやすさに基づいて求め、形態素解
析の結果もっもらしい解として得られた単語列の中に、
未登録語が連続する部分がある場合は、それらをまとめ
て1つの未登録語としている。これによって、複数の字
種が混じって一単語を構成している未登録語にもうまく
対処できる。
【0008】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明に係る形態素解析装置の一実施例
の構成図である。図1を参照すると、本実施例の形態素
解析装置は、単語のコスト(単語の出現しやすさを表す
指標),品詞,読みなどの単語情報が記憶されている単
語辞書1と、単語間の接続コスト(単語間の連鎖のしや
すさを表す指標)が記憶されている接続表2と、1つの
単語の表記内の字種の連鎖のしやすさをコスト値として
表わしたマトリックスが記憶されている字種連鎖表3
と、単語候補を生成する単語候補生成部4と、単語候補
生成部4からの単語候補を単語コストと単語間の接続コ
ストとに基づいて絞り込み、コスト値が最小の単語列を
もっともらしい解とする単語候補検証部5とを有してい
る。
明する。図1は本発明に係る形態素解析装置の一実施例
の構成図である。図1を参照すると、本実施例の形態素
解析装置は、単語のコスト(単語の出現しやすさを表す
指標),品詞,読みなどの単語情報が記憶されている単
語辞書1と、単語間の接続コスト(単語間の連鎖のしや
すさを表す指標)が記憶されている接続表2と、1つの
単語の表記内の字種の連鎖のしやすさをコスト値として
表わしたマトリックスが記憶されている字種連鎖表3
と、単語候補を生成する単語候補生成部4と、単語候補
生成部4からの単語候補を単語コストと単語間の接続コ
ストとに基づいて絞り込み、コスト値が最小の単語列を
もっともらしい解とする単語候補検証部5とを有してい
る。
【0009】ここで、字種連鎖表3において、字種とし
て、例えば、片仮名,平仮名,アルファベット,数字,
漢字の5種類を考えることにする。この場合、単語の表
記を構成する文字種の並びには傾向があり、例えば、外
来語などは通常片仮名で書かれるので、片仮名−片仮名
の連鎖はしやすく、また、日本語には漢字複合語が多い
ので、漢字−漢字の連鎖もしやすい。一方、漢字と数字
の混じった単語はほとんどないので、漢字−数字の連鎖
はしにくい。このように、字種連鎖表3には、25(5
×5)種類の文字種の連鎖に対して、連鎖のしやすいも
のほど小さい値を与えたコスト値が設定されている。
て、例えば、片仮名,平仮名,アルファベット,数字,
漢字の5種類を考えることにする。この場合、単語の表
記を構成する文字種の並びには傾向があり、例えば、外
来語などは通常片仮名で書かれるので、片仮名−片仮名
の連鎖はしやすく、また、日本語には漢字複合語が多い
ので、漢字−漢字の連鎖もしやすい。一方、漢字と数字
の混じった単語はほとんどないので、漢字−数字の連鎖
はしにくい。このように、字種連鎖表3には、25(5
×5)種類の文字種の連鎖に対して、連鎖のしやすいも
のほど小さい値を与えたコスト値が設定されている。
【0010】また、単語候補生成部4は、単語辞書1を
検索しながら解析文字列の部分文字列を表記とする単語
候補(単語辞書1に登録されている単語であり、以後、
これを通常単語候補と呼ぶ)を生成すると同時に、解析
文字列の各文字1文字分を表記とする単語候補(以後、
これを未登録語候補と呼ぶ)を生成するようになってい
る。なお、句読点を表す文字(”、”,”。”など)を
表記とする未登録語候補は生成しないものとする。
検索しながら解析文字列の部分文字列を表記とする単語
候補(単語辞書1に登録されている単語であり、以後、
これを通常単語候補と呼ぶ)を生成すると同時に、解析
文字列の各文字1文字分を表記とする単語候補(以後、
これを未登録語候補と呼ぶ)を生成するようになってい
る。なお、句読点を表す文字(”、”,”。”など)を
表記とする未登録語候補は生成しないものとする。
【0011】また、単語候補検証部5は、より具体的に
は、n個の単語で構成された単語列W=(w1,w2,w
3・・・wn)のコスト値Cpath(W)を、次式のよう
に、単語列Wを構成する単語wiのコスト値C
word(wi)と、単語間の接続コスト値,すなわち、単
語wi-1とwiとの接続コスト値Ccnct(wi-1,wi)と
の総和により求め、コスト値Cpath(W)が最小の単語
列(最小コストパスの単語列)をもっともらしい解として
選択するようになっている。
は、n個の単語で構成された単語列W=(w1,w2,w
3・・・wn)のコスト値Cpath(W)を、次式のよう
に、単語列Wを構成する単語wiのコスト値C
word(wi)と、単語間の接続コスト値,すなわち、単
語wi-1とwiとの接続コスト値Ccnct(wi-1,wi)と
の総和により求め、コスト値Cpath(W)が最小の単語
列(最小コストパスの単語列)をもっともらしい解として
選択するようになっている。
【0012】
【数1】
【0013】なお、この際、単語wi-1と単語wiとの間
の接続コスト値Ccnct(wi-1,wi)は、具体的には、
以下のようにして求められる。すなわち、未登録語候補
は1文字表記を持つ単語であるが、2つ以上の未登録語
が連続した単語列が生成された場合は、1つにまとめら
れて1単語になるので、未登録語候補同士の接続コスト
には、それぞれの表記文字の連鎖が1つの単語の表記と
してもっもらしい度合いを反映させればよい。一方、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストには、未登録語候補の表記
文字と通常単語候補の表記のうち未登録語候補に接する
部分の文字との連鎖が1つの単語の表記としてもっとも
らしくない度合いを反映させればよい。
の接続コスト値Ccnct(wi-1,wi)は、具体的には、
以下のようにして求められる。すなわち、未登録語候補
は1文字表記を持つ単語であるが、2つ以上の未登録語
が連続した単語列が生成された場合は、1つにまとめら
れて1単語になるので、未登録語候補同士の接続コスト
には、それぞれの表記文字の連鎖が1つの単語の表記と
してもっもらしい度合いを反映させればよい。一方、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストには、未登録語候補の表記
文字と通常単語候補の表記のうち未登録語候補に接する
部分の文字との連鎖が1つの単語の表記としてもっとも
らしくない度合いを反映させればよい。
【0014】そこで、wi-1,wiがともに未登録語候補
である場合、その接続コストCcnctは、次式のようにし
て求められる。
である場合、その接続コストCcnctは、次式のようにし
て求められる。
【0015】
【数2】 Ccnct(wi-1,wi)=Z×CharMtx(ci-1,ci)
【0016】また、wi-1,wiの一方が未登録語候補
で、他方が通常単語候補である場合、その接続コストC
cnctは、、次式のようにして求められる。
で、他方が通常単語候補である場合、その接続コストC
cnctは、、次式のようにして求められる。
【0017】
【数3】Ccnct(wi-1,wi)=offset+Z×(Cmax−Ch
arMtx(ci-1,ci))
arMtx(ci-1,ci))
【0018】数2,数3において、ci-1は単語候補w
i-1の表記のうち、wiと接する部分の文字種、ciは単
語候補wiの表記のうち、wi-1と接する部分の文字種を
表わしている。また、CharMtx(ci-1,ci)は字種連
鎖表3の値であり、Cmaxは字種連鎖コストの最大値で
あり、Zはウェイト(重み)を表わしている。また、offs
etは、オフセット値であり、offset値は、未登録語候補
と通常単語候補の接続コスト、通常単語候補と未登録単
語候補の接続コストが、文法的に接続しうる通常単語候
補と通常単語候補の接続コストよりも大きくなるように
設定されている。
i-1の表記のうち、wiと接する部分の文字種、ciは単
語候補wiの表記のうち、wi-1と接する部分の文字種を
表わしている。また、CharMtx(ci-1,ci)は字種連
鎖表3の値であり、Cmaxは字種連鎖コストの最大値で
あり、Zはウェイト(重み)を表わしている。また、offs
etは、オフセット値であり、offset値は、未登録語候補
と通常単語候補の接続コスト、通常単語候補と未登録単
語候補の接続コストが、文法的に接続しうる通常単語候
補と通常単語候補の接続コストよりも大きくなるように
設定されている。
【0019】次に、このような構成の形態素解析装置の
処理動作例について説明する。いま、解析文字列が“彼
はサボるのが好きだ。”であるとする。ここで、単語辞
書1には、“サボる”という単語が登録されていないも
のとすると、単語候補生成部4は、この解析文字列をも
とに図2に示すような単語候補を生成し、単語候補検証
部5に渡す。
処理動作例について説明する。いま、解析文字列が“彼
はサボるのが好きだ。”であるとする。ここで、単語辞
書1には、“サボる”という単語が登録されていないも
のとすると、単語候補生成部4は、この解析文字列をも
とに図2に示すような単語候補を生成し、単語候補検証
部5に渡す。
【0020】単語候補検証部5では、図2のような単語
候補で構成される全ての考えられうる単語列のコスト値
を数1により求め、コストが最小の単語列をもっともら
しい解として出力する。
候補で構成される全ての考えられうる単語列のコスト値
を数1により求め、コストが最小の単語列をもっともら
しい解として出力する。
【0021】この際、単語候補生成部4,単語候補検証
部5では、通常単語候補(図2の例では、“サ”,
“ボ”,“る”の候補)のコストとして単語辞書1に記
憶されているコスト値を用い、また、未登録語候補(図
2の例では、“サ”,“ボ”,“る”の候補)のコスト
として通常単語候補のコスト値よりも大きめに設定され
た一定値を用いる。また、単語候補検証部5では、通常
単語候補と通常単語候補との接続コストについては、接
続表2に設定されている値を用いる。さらに、未登録語
候補同士の接続コスト、未登録語候補と通常単語候補の
接続コストについては、これらを数2,数3により求め
て用いる。
部5では、通常単語候補(図2の例では、“サ”,
“ボ”,“る”の候補)のコストとして単語辞書1に記
憶されているコスト値を用い、また、未登録語候補(図
2の例では、“サ”,“ボ”,“る”の候補)のコスト
として通常単語候補のコスト値よりも大きめに設定され
た一定値を用いる。また、単語候補検証部5では、通常
単語候補と通常単語候補との接続コストについては、接
続表2に設定されている値を用いる。さらに、未登録語
候補同士の接続コスト、未登録語候補と通常単語候補の
接続コストについては、これらを数2,数3により求め
て用いる。
【0022】このようにして単語候補検証部5はもっと
もらしい単語列を出力する。図3には、その結果が示さ
れている。ここで、未登録語“サ”、“ボ”、“る”が
3つ連続しているので、これらを“サボる”という1つ
の単語にまとめることによって、図4に示すような最終
的な解析結果を得ることができる。
もらしい単語列を出力する。図3には、その結果が示さ
れている。ここで、未登録語“サ”、“ボ”、“る”が
3つ連続しているので、これらを“サボる”という1つ
の単語にまとめることによって、図4に示すような最終
的な解析結果を得ることができる。
【0023】なお、上述の実施例において、単語候補生
成部4と単語候補検証部5とが別々に設けられているも
のとして説明したが、これらを1つにまとめ、例えば単
語処理部とすることもできる。
成部4と単語候補検証部5とが別々に設けられているも
のとして説明したが、これらを1つにまとめ、例えば単
語処理部とすることもできる。
【0024】
【発明の効果】以上に説明したように、本発明によれ
ば、与えられた解析文字列の部分文字列を表記とし、単
語辞書に登録されている単語(通常単語候補)の他に、
与えられた解析文字列の各文字1文字分を表記とする単
語(未登録語候補)を常に単語候補として生成し、未登
録語候補の単語コストを通常単語候補の単語コストより
も大きい値に設定し、未登録語候補と通常単語候補の接
続コスト、通常単語候補と未登録単語候補の接続コスト
を、文法的に接続しうる通常単語候補と通常単語候補の
接続コストよりも大きい値に設定するようにしているの
で、未登録語候補を生成する際に辞書の検索を全く行な
わずに済み、辞書検索回数の増加を防止し、処理時間を
低減することができる。
ば、与えられた解析文字列の部分文字列を表記とし、単
語辞書に登録されている単語(通常単語候補)の他に、
与えられた解析文字列の各文字1文字分を表記とする単
語(未登録語候補)を常に単語候補として生成し、未登
録語候補の単語コストを通常単語候補の単語コストより
も大きい値に設定し、未登録語候補と通常単語候補の接
続コスト、通常単語候補と未登録単語候補の接続コスト
を、文法的に接続しうる通常単語候補と通常単語候補の
接続コストよりも大きい値に設定するようにしているの
で、未登録語候補を生成する際に辞書の検索を全く行な
わずに済み、辞書検索回数の増加を防止し、処理時間を
低減することができる。
【0025】また、本発明では、未登録語候補と未登録
語候補との接続コストについては、それぞれの候補の表
記の文字種の連鎖のしやすさに基づいて求め、また、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストについては、未登録語候補
の表記の文字種と、通常単語候補の表記のうち未登録語
候補と接する部分の文字の文字種との連鎖のしやすさに
基づいて求め、形態素解析の結果もっともらしい解とし
て得られた単語列の中に、未登録語が連続する部分があ
る場合、それらをまとめて1つの未登録語とするように
しているので、これによって、複数の字種が混じって一
単語を構成している未登録語にも良好に対処することが
できる。
語候補との接続コストについては、それぞれの候補の表
記の文字種の連鎖のしやすさに基づいて求め、また、未
登録語候補と通常単語候補の接続コスト、通常単語候補
と未登録語候補の接続コストについては、未登録語候補
の表記の文字種と、通常単語候補の表記のうち未登録語
候補と接する部分の文字の文字種との連鎖のしやすさに
基づいて求め、形態素解析の結果もっともらしい解とし
て得られた単語列の中に、未登録語が連続する部分があ
る場合、それらをまとめて1つの未登録語とするように
しているので、これによって、複数の字種が混じって一
単語を構成している未登録語にも良好に対処することが
できる。
【図1】本発明に係る形態素解析装置の一実施例の構成
図である。
図である。
【図2】単語候補の生成例を示す図である。
【図3】本発明による形態素解析結果の一例を示す図で
ある。
ある。
【図4】本発明による形態素解析結果の一例を示す図で
ある。
ある。
1 単語辞書 2 接続表 3 字種連鎖表 4 単語候補生成部 5 単語候補検証部
Claims (6)
- 【請求項1】 単語列のもっともらしさを表す指標とし
て、単語列のコスト値を定め、解析文字列を単語に分割
した場合の考えられうる全ての単語列のうち、コスト値
が最小の単語列をもっともらしい解として選択する形態
素解析装置において、解析文字列が与えられたときに、
該解析文字列から単語列を構成する単語候補を生成する
単語候補生成手段と、単語列のコスト値を、該単語列を
構成する単語候補の出現のしやすさを表す指標としての
単語候補の単語コストと単語候補間の連鎖のしやすさを
表す指標としての接続コストとの総和により求め、該単
語列のコスト値が最小の単語列をもっともらしい解とす
る単語候補検証手段とを有しており、前記単語候補生成
手段は、与えられた解析文字列の部分文字列を表記とす
る通常単語候補の他に、与えられた解析文字列の各文字
1文字分を表記とする未登録語候補を常に単語候補とし
て生成するようになっていることを特徴とする形態素解
析装置。 - 【請求項2】 請求項1記載の形態素解析装置におい
て、未登録語候補の単語コストは、通常単語候補の単語
コストよりも大きい値に設定されることを特徴とする形
態素解析装置。 - 【請求項3】 請求項1記載の形態素解析装置におい
て、未登録語候補と通常単語候補の接続コスト、およ
び、通常単語候補と未登録語候補の接続コストは、文法
的に接続しうる通常単語候補と通常単語候補の接続コス
トよりも大きい値に設定されることを特徴とする形態素
解析装置。 - 【請求項4】 請求項1記載の形態素解析装置におい
て、未登録語候補と未登録語候補との接続コストは、そ
れぞれの候補の表記の文字種の連鎖のしやすさに基づい
て求められることを特徴とする形態素解析装置。 - 【請求項5】 請求項1記載の形態素解析装置におい
て、未登録語候補と通常単語候補の接続コスト、およ
び、通常単語候補と未登録語候補の接続コストは、未登
録語候補の表記の文字種と、通常単語候補の表記のうち
未登録候補と接する部分の文字の文字種との連鎖のしや
すさに基づいて求められることを特徴とする形態素解析
装置。 - 【請求項6】 請求項1記載の形態素解析装置におい
て、もっともらしい解として得られた単語列の中に、未
登録語が連続する部分がある場合には、連続する未登録
語を1つにまとめて1つの未登録語とすることを特徴と
する形態素解析装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5351270A JPH07200595A (ja) | 1993-12-30 | 1993-12-30 | 形態素解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5351270A JPH07200595A (ja) | 1993-12-30 | 1993-12-30 | 形態素解析装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07200595A true JPH07200595A (ja) | 1995-08-04 |
Family
ID=18416183
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5351270A Pending JPH07200595A (ja) | 1993-12-30 | 1993-12-30 | 形態素解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07200595A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10320421A (ja) * | 1997-03-19 | 1998-12-04 | Ricoh Co Ltd | 文書検索方法 |
-
1993
- 1993-12-30 JP JP5351270A patent/JPH07200595A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10320421A (ja) * | 1997-03-19 | 1998-12-04 | Ricoh Co Ltd | 文書検索方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7584093B2 (en) | Method and system for generating spelling suggestions | |
| US6401060B1 (en) | Method for typographical detection and replacement in Japanese text | |
| JP3971373B2 (ja) | ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置 | |
| US20030023425A1 (en) | Tokenizer for a natural language processing system | |
| US11386269B2 (en) | Fault-tolerant information extraction | |
| US20010029443A1 (en) | Machine translation system, machine translation method, and storage medium storing program for executing machine translation method | |
| JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
| Panchapagesan et al. | Hindi text normalization | |
| JP2007206975A (ja) | 言語情報変換装置及びその方法 | |
| JP4018668B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
| JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
| JPH07200595A (ja) | 形態素解析装置 | |
| JPH0619960A (ja) | 形態素解析処理方法 | |
| JPH07244665A (ja) | 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置 | |
| JP3197110B2 (ja) | 自然言語解析装置および機械翻訳装置 | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JP3348909B2 (ja) | 形態素解析装置 | |
| JP3048793B2 (ja) | 文字変換装置 | |
| JP2574741B2 (ja) | 言語処理方法 | |
| JP2995717B2 (ja) | 形態素解析方法およびその装置 | |
| JP3139624B2 (ja) | 形態素解析装置 | |
| JP3216725B2 (ja) | 文章構造解析装置 | |
| JPH04344523A (ja) | メッセージ生成方式 | |
| JPH10301597A (ja) | 音声認識装置 | |
| JPH10240736A (ja) | 形態素解析装置 |