JPH0895976A - 自然言語解析装置 - Google Patents
自然言語解析装置Info
- Publication number
- JPH0895976A JPH0895976A JP6232745A JP23274594A JPH0895976A JP H0895976 A JPH0895976 A JP H0895976A JP 6232745 A JP6232745 A JP 6232745A JP 23274594 A JP23274594 A JP 23274594A JP H0895976 A JPH0895976 A JP H0895976A
- Authority
- JP
- Japan
- Prior art keywords
- unregistered word
- word candidate
- unit
- unregistered
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 75
- 238000000605 extraction Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000972773 Aulopiformes Species 0.000 description 1
- 241000555825 Clupeidae Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 235000019512 sardine Nutrition 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 未登録語の抽出に、文字列の反復出現と、反
復出現文字列に後続する文字列の出現状況とを利用す
る。 【構成】 入力部1は、入力された文章を未登録語候補
抽出部2と言語解析部5とに送る。未登録語候補抽出部
2は、入力部1から送られた文章中から未登録語候補を
抽出して前後に接続する文字列とともに未登録語候補出
現情報記録部3に記録する。未登録語候補評価部4は、
未登録語候補出現情報記録部3に記録された情報を分析
して各未登録語候補の評価を行なう。言語解析部5は、
未登録語候補出現情報評価部4の評価結果を参照しなが
ら入力部1から送られた文章の解析を行ない、結果を出
力部7に送る言語解析を行なう。出力部6が解析結果を
出力する。以上の方法によって、自然言語解析を行な
う。
復出現文字列に後続する文字列の出現状況とを利用す
る。 【構成】 入力部1は、入力された文章を未登録語候補
抽出部2と言語解析部5とに送る。未登録語候補抽出部
2は、入力部1から送られた文章中から未登録語候補を
抽出して前後に接続する文字列とともに未登録語候補出
現情報記録部3に記録する。未登録語候補評価部4は、
未登録語候補出現情報記録部3に記録された情報を分析
して各未登録語候補の評価を行なう。言語解析部5は、
未登録語候補出現情報評価部4の評価結果を参照しなが
ら入力部1から送られた文章の解析を行ない、結果を出
力部7に送る言語解析を行なう。出力部6が解析結果を
出力する。以上の方法によって、自然言語解析を行な
う。
Description
【0001】
【産業上の利用分野】本発明は、言語処理分野で広く利
用される自然言語解析装置に関する。
用される自然言語解析装置に関する。
【0002】
【従来の技術】近年、機械翻訳や自然言語インタフェー
スの実用化などに伴い、自然言語処理分野は急速に発展
してきている。これに伴って、解析対象とする自然言語
文もまた多様なものになってきている。
スの実用化などに伴い、自然言語処理分野は急速に発展
してきている。これに伴って、解析対象とする自然言語
文もまた多様なものになってきている。
【0003】しかし、自然言語は常に変化を続けてお
り、そこで使用される単語も常に変化し続ける。そのた
めシステム作成時に組み込まれなかった単語、いわゆる
未登録語を適切に扱う能力が自然言語解析装置には不可
欠である。
り、そこで使用される単語も常に変化し続ける。そのた
めシステム作成時に組み込まれなかった単語、いわゆる
未登録語を適切に扱う能力が自然言語解析装置には不可
欠である。
【0004】これに対して従来は、解析に失敗した部分
の文字を未登録語としたり失敗した部分を含む字種ブロ
ックを未登録語としたりするなどの方法で未登録語を検
出し、それを名詞であると想定したり、あるいは接続検
定に成功する品詞の中で最も出現頻度の高いものと想定
したりするなどの処理を行なっていた。これらの方法
は、未登録語の多くが漢字またはカタカナから構成され
る名詞であるということを利用したヒューリスティック
スであると考えることもでき、それなりの有効性がある
ことが実証されている。
の文字を未登録語としたり失敗した部分を含む字種ブロ
ックを未登録語としたりするなどの方法で未登録語を検
出し、それを名詞であると想定したり、あるいは接続検
定に成功する品詞の中で最も出現頻度の高いものと想定
したりするなどの処理を行なっていた。これらの方法
は、未登録語の多くが漢字またはカタカナから構成され
る名詞であるということを利用したヒューリスティック
スであると考えることもでき、それなりの有効性がある
ことが実証されている。
【0005】
【発明が解決しようとする課題】しかしながら上記の方
法による検出精度は必ずしも充分なものではなく、字種
境界が単語の区切りと一致しない単語や相対的に出現頻
度の低い品詞の単語などは人間ならば容易に把握できる
ような単語でも検出が困難であった。例えば、「……。
サケがね鯔鰯ってしまった。……。ね鯔鰯るともう使え
ない。……」という文章があったとき、人間ならば意味
などの高度な内容を用いることなく「ね鯔鰯る」という
ラ行五段動詞を把握することが出来る。しかし、従来の
技術でこれを検出することは困難であった。
法による検出精度は必ずしも充分なものではなく、字種
境界が単語の区切りと一致しない単語や相対的に出現頻
度の低い品詞の単語などは人間ならば容易に把握できる
ような単語でも検出が困難であった。例えば、「……。
サケがね鯔鰯ってしまった。……。ね鯔鰯るともう使え
ない。……」という文章があったとき、人間ならば意味
などの高度な内容を用いることなく「ね鯔鰯る」という
ラ行五段動詞を把握することが出来る。しかし、従来の
技術でこれを検出することは困難であった。
【0006】本発明の目的は、このような字種が混合し
ている未登録語や相対的に出現頻度が低い品詞の未登録
語などを適切に処理できる自然言語解析装置を提供する
ことである。
ている未登録語や相対的に出現頻度が低い品詞の未登録
語などを適切に処理できる自然言語解析装置を提供する
ことである。
【0007】
【課題を解決するための手段】本発明の自然言語解析装
置は、入力文章を受け取る入力部と、前記言語解析部の
解析結果を出力する出力部と、前記入力部から入力文章
を受け取り、該文章中から未登録語の可能性がある文字
列を抽出する未登録語候補抽出部と、前記未登録語候補
抽出部が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部と、前
記未登録語出現情報記録部に記録された情報をもとに未
登録語候補の評価を行なう未登録語候補評価部と、前記
未登録語候補評価部の評価結果を参照し、前記入力部か
ら受け取った入力文章を解析する言語解析部とを具備す
ることを特徴とする。
置は、入力文章を受け取る入力部と、前記言語解析部の
解析結果を出力する出力部と、前記入力部から入力文章
を受け取り、該文章中から未登録語の可能性がある文字
列を抽出する未登録語候補抽出部と、前記未登録語候補
抽出部が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部と、前
記未登録語出現情報記録部に記録された情報をもとに未
登録語候補の評価を行なう未登録語候補評価部と、前記
未登録語候補評価部の評価結果を参照し、前記入力部か
ら受け取った入力文章を解析する言語解析部とを具備す
ることを特徴とする。
【0008】本発明の自然言語解析方法は、入力された
文章の中から未登録語候補を抽出し、該未登録語候補と
該未登録語候補に隣接する文字列とを記録し、この記録
内容から未登録語候補出現情報を獲得し、各未登録語候
補の評価を行ない、未登録語候補評価を利用して、入力
文章を解析し、解析結果を出力することを特徴とする。
文章の中から未登録語候補を抽出し、該未登録語候補と
該未登録語候補に隣接する文字列とを記録し、この記録
内容から未登録語候補出現情報を獲得し、各未登録語候
補の評価を行ない、未登録語候補評価を利用して、入力
文章を解析し、解析結果を出力することを特徴とする。
【0009】
【実施例】次に本発明の実施例について、図面を参照し
て説明する。
て説明する。
【0010】図1は、請求項1の発明の一実施例を示す
ブロック図である。
ブロック図である。
【0011】この自然言語解析装置は、入力文章を受け
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
前記未登録語候補出現情報記録部3に記録された情報を
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
前記未登録語候補出現情報記録部3に記録された情報を
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。
【0012】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行なう。言語解析部5は、
データ線45を通して得られる未登録語候補評価部の未
登録語候補評価を利用して、入力部1から送られた入力
文章を解析し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行なう。言語解析部5は、
データ線45を通して得られる未登録語候補評価部の未
登録語候補評価を利用して、入力部1から送られた入力
文章を解析し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。
【0013】次に、具体例を用いて動作原理を説明す
る。
る。
【0014】まず、図4(a)に示す文章が入力された
とする。
とする。
【0015】未登録語候補抽出部2は、図4(a)の文
章中から図4(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図5に示す。
章中から図4(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図5に示す。
【0016】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行なう。図6に評価方法の一例を、図7に評価結果
の一例を示す。
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行なう。図6に評価方法の一例を、図7に評価結果
の一例を示す。
【0017】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図8に解析結果の一例を示す。
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図8に解析結果の一例を示す。
【0018】なお、本実施例の未登録語候補出現情報記
録部3には先行および後続文字列の文境界までの部分が
記録されている。しかし、未登録語候補評価部4の評価
方法によっては先行または後続のどちらか一方だけで済
ませてもよい。記録される文字列の長さも文境界までで
あることは本発明の本質ではなく、より短い又はより長
い文字列を記録しても構わない。
録部3には先行および後続文字列の文境界までの部分が
記録されている。しかし、未登録語候補評価部4の評価
方法によっては先行または後続のどちらか一方だけで済
ませてもよい。記録される文字列の長さも文境界までで
あることは本発明の本質ではなく、より短い又はより長
い文字列を記録しても構わない。
【0019】次に、請求項2の発明について説明する。
【0020】図2は、請求項2の発明の一実施例を示す
ブロック図である。
ブロック図である。
【0021】この自然言語解析装置は、入力文章を受け
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
文字とその文字に対応する意味情報とを格納した文字意
味辞書7と、前記未登録語候補出現情報記録部3に記録
された情報と前記文字意味辞書7に格納された情報とを
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
文字とその文字に対応する意味情報とを格納した文字意
味辞書7と、前記未登録語候補出現情報記録部3に記録
された情報と前記文字意味辞書7に格納された情報とを
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。
【0022】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を、デ
ータ線47を通して文字意味辞書7から各未登録語候補
の構成文字列の意味情報を獲得し、各未登録語候補の評
価を行なう。言語解析部5は、データ線45を通して得
られる未登録語候補評価部の未登録語候補評価を利用し
て、入力部1から送られた入力文章を解析し、解析結果
をデータ線56を通して出力部6に送る。出力部6は解
析結果を出力する。
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を、デ
ータ線47を通して文字意味辞書7から各未登録語候補
の構成文字列の意味情報を獲得し、各未登録語候補の評
価を行なう。言語解析部5は、データ線45を通して得
られる未登録語候補評価部の未登録語候補評価を利用し
て、入力部1から送られた入力文章を解析し、解析結果
をデータ線56を通して出力部6に送る。出力部6は解
析結果を出力する。
【0023】以下、具体例を用いて説明する。
【0024】まず、図9(a)に示す文章が入力された
とする。
とする。
【0025】未登録語候補抽出部2は、図9(a)の文
章中から図9(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図10に示す。
章中から図9(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図10に示す。
【0026】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容と文字意味辞書7から得られ
る意味情報とをもとに各未登録語候補の評価を行なう。
図11(a)に文字味辞書7から得た意味情報の一例
を、図11(b)に意味情報を利用した評価方法の一例
を、図12に評価結果の一例を示す。
現情報記録部3の記録内容と文字意味辞書7から得られ
る意味情報とをもとに各未登録語候補の評価を行なう。
図11(a)に文字味辞書7から得た意味情報の一例
を、図11(b)に意味情報を利用した評価方法の一例
を、図12に評価結果の一例を示す。
【0027】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図13に解析結果の一例を示す。
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図13に解析結果の一例を示す。
【0028】図3は、請求項3の発明の一実施例を示す
ブロック図である。
ブロック図である。
【0029】この自然言語解析装置は、入力文章を受け
取る入力部1と、言語解析用情報を格納した更新可能な
辞書8と、前記入力部1から受け取った入力文章を前記
辞書8を参照しながら解析し、解析結果を元に前記辞書
8の内容を更新する言語解析部5と、前記言語解析部5
の解析結果を出力する出力部6と前記入力部1から入力
文章を受け取り、該文章中から未登録語の可能性がある
文字列を抽出する未登録語候補抽出部2と、前記未登録
語候補抽出部2が抽出した未登録語候補と該未登録語候
補に隣接する文字列とを記録する未登録語出現情報記録
部3と、前記未登録語候補出現情報記録部3に記録され
た情報をもとに未登録語候補の評価を行ない、評価結果
を元に前記辞書8の内容を更新する未登録語候補評価部
4とを備えている。
取る入力部1と、言語解析用情報を格納した更新可能な
辞書8と、前記入力部1から受け取った入力文章を前記
辞書8を参照しながら解析し、解析結果を元に前記辞書
8の内容を更新する言語解析部5と、前記言語解析部5
の解析結果を出力する出力部6と前記入力部1から入力
文章を受け取り、該文章中から未登録語の可能性がある
文字列を抽出する未登録語候補抽出部2と、前記未登録
語候補抽出部2が抽出した未登録語候補と該未登録語候
補に隣接する文字列とを記録する未登録語出現情報記録
部3と、前記未登録語候補出現情報記録部3に記録され
た情報をもとに未登録語候補の評価を行ない、評価結果
を元に前記辞書8の内容を更新する未登録語候補評価部
4とを備えている。
【0030】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行ない、評価結果を元にデ
ータ線48を通して辞書8の内容を更新する。言語解析
部5は、データ線45を通して得られる未登録語候補評
価部の未登録語候補評価とデータ線58を通して得られ
る辞書情報とを利用して、入力部1から送られた入力を
解析し、解析結果を元にデータ線58を通して辞書8の
内容を更新し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行ない、評価結果を元にデ
ータ線48を通して辞書8の内容を更新する。言語解析
部5は、データ線45を通して得られる未登録語候補評
価部の未登録語候補評価とデータ線58を通して得られ
る辞書情報とを利用して、入力部1から送られた入力を
解析し、解析結果を元にデータ線58を通して辞書8の
内容を更新し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。
【0031】以下、具体例を用いて説明する。
【0032】まず、図14(a)に示す文章が入力され
たとする。
たとする。
【0033】未登録語候補抽出部2は、図14(a)の
文章中から図14(b)のような未登録語候補を抽出
し、隣接文字列とともに未登録語候補出現情報記録部3
に記録する。このときの未登録語候補出現情報記録部3
の記録内容の一部を図15に示す。
文章中から図14(b)のような未登録語候補を抽出
し、隣接文字列とともに未登録語候補出現情報記録部3
に記録する。このときの未登録語候補出現情報記録部3
の記録内容の一部を図15に示す。
【0034】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行ない、評価結果をもとに辞書8の内容を更新す
る。図16に評価結果の一例を、図17に評価結果によ
る辞書8の内容の更新の一例を示す。
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行ない、評価結果をもとに辞書8の内容を更新す
る。図16に評価結果の一例を、図17に評価結果によ
る辞書8の内容の更新の一例を示す。
【0035】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行ない、解析結果を元に辞書8の内容を更新す
る。
評価を参考にしながら入力部1から送られてきた文章の
解析を行ない、解析結果を元に辞書8の内容を更新す
る。
【0036】図18に解析結果を元にした辞書8の内容
の更新の一例を示す。
の更新の一例を示す。
【0037】別の具体例として、未登録語候補抽出部2
が抽出用テンプレートを用いて抽出を行なう場合を説明
する。
が抽出用テンプレートを用いて抽出を行なう場合を説明
する。
【0038】図19に示す文章が入力されたとする。更
に、未登録語候補抽出部2が図20に示す抽出用テンプ
レートを用いるとする。但し、抽出用テンプレート中の
[]は任意の長さの文字列を意味する。未登録語候補抽
出部2は、入力文章に対して抽出用テンプレートを適用
することで未登録語候補を抽出する。その結果、未登録
語候補出現情報記録部3には、図21に示す未登録語候
補が記録される。
に、未登録語候補抽出部2が図20に示す抽出用テンプ
レートを用いるとする。但し、抽出用テンプレート中の
[]は任意の長さの文字列を意味する。未登録語候補抽
出部2は、入力文章に対して抽出用テンプレートを適用
することで未登録語候補を抽出する。その結果、未登録
語候補出現情報記録部3には、図21に示す未登録語候
補が記録される。
【0039】別の具体例として、未登録語候補評価部4
が出現頻度を用いて評価を行なう場合を説明する。
が出現頻度を用いて評価を行なう場合を説明する。
【0040】未登録語候補評価部4が未登録語候補出現
情報記録部3に記録されている情報を検索し、各表層語
とその表層語の出現回数とを計数する。図22に計数結
果の一例を示す。未登録語候補評価部4は計数結果をも
とに各表層の評価を行なう。図23に評価結果の一例を
示す。
情報記録部3に記録されている情報を検索し、各表層語
とその表層語の出現回数とを計数する。図22に計数結
果の一例を示す。未登録語候補評価部4は計数結果をも
とに各表層の評価を行なう。図23に評価結果の一例を
示す。
【0041】別の具体例として、未登録語候補評価部4
が候補の音の並びを用いて評価を行なう場合を説明す
る。
が候補の音の並びを用いて評価を行なう場合を説明す
る。
【0042】未登録語候補評価部4が用いる評価方法の
一例を図24に示す。
一例を図24に示す。
【0043】未登録語候補評価部4は未登録語候補出現
情報記録部3に記録されている未登録語候補に該評価方
法を適用して評価を行なう。評価結果の一例を図25に
示す。
情報記録部3に記録されている未登録語候補に該評価方
法を適用して評価を行なう。評価結果の一例を図25に
示す。
【0044】別の例として、複数の評価部を持つ例を図
26に示す。
26に示す。
【0045】2つの異なった方法で未登録語候補の評価
を行なう未登録語候補評価部αと未登録語候補評価部β
とがあり、両評価部の評価を総合する評価総合部とがあ
る。このとき、点線で囲んだ部分全体を1つの未登録語
候補評価部であるとみなすことができ、請求項1と同じ
発明であるといえる。
を行なう未登録語候補評価部αと未登録語候補評価部β
とがあり、両評価部の評価を総合する評価総合部とがあ
る。このとき、点線で囲んだ部分全体を1つの未登録語
候補評価部であるとみなすことができ、請求項1と同じ
発明であるといえる。
【0046】ここでは2つの評価部を持つ例を示した
が、3つ以上の評価部を持つ場合も同様に考えることが
できる。
が、3つ以上の評価部を持つ場合も同様に考えることが
できる。
【0047】また、本実施例では説明文、数値、記号、
などが用いられているが、これらの表現方式は本発明の
本質ではなく、同等の説明文、数値、記号などに適宜置
き換えても構わない。
などが用いられているが、これらの表現方式は本発明の
本質ではなく、同等の説明文、数値、記号などに適宜置
き換えても構わない。
【0048】
【発明の効果】以上に述べたように、本発明では未登録
語候補を該当候補出現回数と隣接文字列情報とによって
評価しており、従来の手法では困難であった複数の字種
からなる未登録語や出現頻度の低い品詞である未登録語
などを高精度に抽出することが可能になる。
語候補を該当候補出現回数と隣接文字列情報とによって
評価しており、従来の手法では困難であった複数の字種
からなる未登録語や出現頻度の低い品詞である未登録語
などを高精度に抽出することが可能になる。
【図1】請求項1の発明の一実施例を示すブロック図で
ある。
ある。
【図2】請求項2の発明の一実施例を示すブロック図で
ある。
ある。
【図3】請求項3の発明の一実施例を示すブロック図で
ある。
ある。
【図4】入力文章、未登録語候補抽出の一例を示すブロ
ック図である。
ック図である。
【図5】未登録語候補出現情報記録部の内容を一例を示
す説明図である。
す説明図である。
【図6】未登録語候補評価部の評価方法の一例を示す説
明図である。
明図である。
【図7】未登録語候補候補評価結果の一例を示す説明図
である。
である。
【図8】入力文章の解析結果の一例を示す説明図であ
る。
る。
【図9】入力文章、未登録語候補抽出の一例を示す説明
図である。
図である。
【図10】未登録語候補出現情報記録部の内容の一例を
示す説明図である。
示す説明図である。
【図11】文字意味辞書の内容と文字意味辞書の内容を
利用した評価方法の一例を示す説明図である。
利用した評価方法の一例を示す説明図である。
【図12】文字意味辞書の内容を利用した評価結果の一
例を示す説明図である。
例を示す説明図である。
【図13】入力文章の解析結果の一例を示す説明図であ
る。
る。
【図14】入力文章、未登録語候補抽出の一例を示す説
明図である。
明図である。
【図15】未登録語候補出現情報記録部の内容の一例を
示す説明図である。
示す説明図である。
【図16】未登録語候補評価結果の一例を示す説明図で
ある。
ある。
【図17】未登録語候補評価結果を用いた辞書の内容更
新の一例を示す説明図である。
新の一例を示す説明図である。
【図18】言語解析部の解析結果を基にした辞書内容更
新の一例を示す説明図である。
新の一例を示す説明図である。
【図19】入力文章の一例を示す説明図である。
【図20】抽出用テンプレートの一例を示す説明図であ
る。
る。
【図21】抽出用テンプレートによって抽出された未登
録語候補の一例を示す説明図である。
録語候補の一例を示す説明図である。
【図22】頻度情報の一例を示す説明図である。
【図23】頻度情報を用いた評価結果の一例を示す説明
図である。
図である。
【図24】音の並びを用いた評価方法の一例を示す説明
図である。
図である。
【図25】音の並びを用いた評価結果の一例を示す説明
図である。
図である。
【図26】複数の評価部を持つ例を示すブロック図であ
る。
る。
1 入力部 2 未登録語候補抽出部 3 未登録語候補出現情報記録部 4 未登録語候補評価部 5 言語解析部 6 出力部 7 文字意味辞書 8 辞書
Claims (4)
- 【請求項1】 入力文章を受け取る入力部と、 前記言語解析部の解析結果を出力する出力部と、 前記入力部から入力文章を受け取り、該文章中から未登
録語の可能性がある文字列を抽出する未登録語候補抽出
部と、 前記未登録語候補抽出部が抽出した未登録語候補と該未
登録語候補に隣接する文字列とを記録する未登録語出現
情報記録部と、 前記未登録語出現情報記録部に記録された情報をもとに
未登録語候補の評価を行なう未登録語候補評価部と、 前記未登録語候補評価部の評価結果を参照し、前記入力
部から受け取った入力文章を解析する言語解析部とを具
備することを特徴とする自然言語解析装置。 - 【請求項2】 文字とその文字に対応する意味情報とを
格納した文字意味辞書を更に備え、 前記未登録語候補評価部が未登録語候補を評価する際に
前記文字意味辞書を参照して行なうことを特徴とする請
求項1記載の自然言語解析装置。 - 【請求項3】 言語解析用情報を格納した更新可能な辞
書を更に備え、 前記未登録語候補評価部が評価結果に基づいて前記辞書
の内容を更新し、前記言語解析部が解析結果に基づいて
前記辞書の内容を更新し、前記言語解析部が入力文章を
解析する際に前記辞書の情報を参照することを特徴とす
る請求項1記載の自然言語解析装置。 - 【請求項4】 入力された文章の中から未登録語候補を
抽出し、該未登録語候補と該未登録語候補に隣接する文
字列とを記録し、この記録内容から未登録語候補出現情
報を獲得し、各未登録語候補の評価を行ない、未登録語
候補評価を利用して、入力文章を解析し、解析結果を出
力することを特徴とする自然言語解析方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6232745A JPH0895976A (ja) | 1994-09-28 | 1994-09-28 | 自然言語解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6232745A JPH0895976A (ja) | 1994-09-28 | 1994-09-28 | 自然言語解析装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0895976A true JPH0895976A (ja) | 1996-04-12 |
Family
ID=16944101
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6232745A Pending JPH0895976A (ja) | 1994-09-28 | 1994-09-28 | 自然言語解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0895976A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024038566A (ja) * | 2022-09-08 | 2024-03-21 | 株式会社東芝 | キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム |
-
1994
- 1994-09-28 JP JP6232745A patent/JPH0895976A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024038566A (ja) * | 2022-09-08 | 2024-03-21 | 株式会社東芝 | キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lita et al. | Truecasing | |
| KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
| EP1217533A2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
| KR940022316A (ko) | 일문 문서용 키 워드 추출장치 | |
| JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
| JP2536633B2 (ja) | 複合語抽出装置 | |
| JP2828692B2 (ja) | 情報検索装置 | |
| JPH0895976A (ja) | 自然言語解析装置 | |
| Osman et al. | Plagiarism detection using graph-based representation | |
| KR100617317B1 (ko) | 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치 | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
| Totmina | Detoxification of Russian texts based on combination of controlled generation using pretrained ruGPT3 and the Delete method | |
| JP3956730B2 (ja) | 言語処理装置 | |
| JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
| JP2004102856A (ja) | 形態素列処理装置および方法 | |
| JPS6132167A (ja) | カナ漢字変換処理装置 | |
| JP2007072841A (ja) | 単語抽出方法、データベース構築方法、データベース構築装置、データベース構築プログラムおよび記録媒体 | |
| JPS6389976A (ja) | 言語解析装置 | |
| JPS6395570A (ja) | 言語解析方式 | |
| JPS6175467A (ja) | 仮名漢字変換方式 | |
| JP2001022752A (ja) | 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 | |
| JPH1011460A (ja) | キーワード抽出装置 | |
| JPH047670A (ja) | 文章解析方式 | |
| JPH02289033A (ja) | 未登録語処理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19980310 |