JPH0895976A - Natural language analyzer - Google Patents
Natural language analyzerInfo
- Publication number
- JPH0895976A JPH0895976A JP6232745A JP23274594A JPH0895976A JP H0895976 A JPH0895976 A JP H0895976A JP 6232745 A JP6232745 A JP 6232745A JP 23274594 A JP23274594 A JP 23274594A JP H0895976 A JPH0895976 A JP H0895976A
- Authority
- JP
- Japan
- Prior art keywords
- unregistered word
- word candidate
- unit
- unregistered
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 75
- 238000000605 extraction Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000972773 Aulopiformes Species 0.000 description 1
- 241000555825 Clupeidae Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 235000019512 sardine Nutrition 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、言語処理分野で広く利
用される自然言語解析装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language analyzer widely used in the field of language processing.
【0002】[0002]
【従来の技術】近年、機械翻訳や自然言語インタフェー
スの実用化などに伴い、自然言語処理分野は急速に発展
してきている。これに伴って、解析対象とする自然言語
文もまた多様なものになってきている。2. Description of the Related Art In recent years, the field of natural language processing has been rapidly developing with the practical use of machine translation and natural language interfaces. Along with this, the natural language sentences to be analyzed have become diverse.
【0003】しかし、自然言語は常に変化を続けてお
り、そこで使用される単語も常に変化し続ける。そのた
めシステム作成時に組み込まれなかった単語、いわゆる
未登録語を適切に扱う能力が自然言語解析装置には不可
欠である。However, natural language is constantly changing, and the words used therein are also constantly changing. Therefore, it is essential for the natural language analysis device to have the ability to properly handle words that have not been incorporated when the system was created, so-called unregistered words.
【0004】これに対して従来は、解析に失敗した部分
の文字を未登録語としたり失敗した部分を含む字種ブロ
ックを未登録語としたりするなどの方法で未登録語を検
出し、それを名詞であると想定したり、あるいは接続検
定に成功する品詞の中で最も出現頻度の高いものと想定
したりするなどの処理を行なっていた。これらの方法
は、未登録語の多くが漢字またはカタカナから構成され
る名詞であるということを利用したヒューリスティック
スであると考えることもでき、それなりの有効性がある
ことが実証されている。On the other hand, conventionally, an unregistered word is detected by a method such that the character of the part whose analysis has failed is an unregistered word or the character type block including the failed part is an unregistered word. Was assumed to be a noun, or was assumed to be the most frequently occurring part-of-speech that succeeded in connection verification. These methods can also be considered as heuristics that take advantage of the fact that many unregistered words are nouns composed of Kanji or Katakana, and have proved to be reasonably effective.
【0005】[0005]
【発明が解決しようとする課題】しかしながら上記の方
法による検出精度は必ずしも充分なものではなく、字種
境界が単語の区切りと一致しない単語や相対的に出現頻
度の低い品詞の単語などは人間ならば容易に把握できる
ような単語でも検出が困難であった。例えば、「……。
サケがね鯔鰯ってしまった。……。ね鯔鰯るともう使え
ない。……」という文章があったとき、人間ならば意味
などの高度な内容を用いることなく「ね鯔鰯る」という
ラ行五段動詞を把握することが出来る。しかし、従来の
技術でこれを検出することは困難であった。However, the accuracy of detection by the above method is not always sufficient, and humans cannot recognize words whose character boundaries do not match word divisions or words of relatively low frequency of occurrence. It was difficult to detect even words that could be easily grasped. For example, "...
The salmon has gone sardines. ……. It cannot be used anymore if you eat sea bream. When the sentence "..." is found, a human being can understand the ra-gyu five-verb verb "ne-ni-ru-ru" without using advanced content such as meaning. However, it was difficult to detect this by the conventional technique.
【0006】本発明の目的は、このような字種が混合し
ている未登録語や相対的に出現頻度が低い品詞の未登録
語などを適切に処理できる自然言語解析装置を提供する
ことである。An object of the present invention is to provide a natural language analysis apparatus capable of appropriately processing unregistered words in which such character types are mixed or unregistered words of a part of speech having a relatively low frequency of occurrence. is there.
【0007】[0007]
【課題を解決するための手段】本発明の自然言語解析装
置は、入力文章を受け取る入力部と、前記言語解析部の
解析結果を出力する出力部と、前記入力部から入力文章
を受け取り、該文章中から未登録語の可能性がある文字
列を抽出する未登録語候補抽出部と、前記未登録語候補
抽出部が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部と、前
記未登録語出現情報記録部に記録された情報をもとに未
登録語候補の評価を行なう未登録語候補評価部と、前記
未登録語候補評価部の評価結果を参照し、前記入力部か
ら受け取った入力文章を解析する言語解析部とを具備す
ることを特徴とする。A natural language analysis apparatus according to the present invention includes an input section for receiving an input sentence, an output section for outputting an analysis result of the language analysis section, and an input sentence for receiving the input sentence from the input section. An unregistered word candidate extraction unit that extracts a character string that may be an unregistered word from a sentence, an unregistered word candidate extracted by the unregistered word candidate extraction unit, and a character string adjacent to the unregistered word candidate An unregistered word appearance information recording unit, an unregistered word candidate evaluation unit that evaluates an unregistered word candidate based on the information recorded in the unregistered word appearance information recording unit, and the unregistered word candidate. A language analysis unit for analyzing the input sentence received from the input unit with reference to the evaluation result of the evaluation unit.
【0008】本発明の自然言語解析方法は、入力された
文章の中から未登録語候補を抽出し、該未登録語候補と
該未登録語候補に隣接する文字列とを記録し、この記録
内容から未登録語候補出現情報を獲得し、各未登録語候
補の評価を行ない、未登録語候補評価を利用して、入力
文章を解析し、解析結果を出力することを特徴とする。The natural language analysis method of the present invention extracts an unregistered word candidate from an input sentence, records the unregistered word candidate and a character string adjacent to the unregistered word candidate, and records the unregistered word candidate. It is characterized in that the unregistered word candidate appearance information is acquired from the content, each unregistered word candidate is evaluated, the input sentence is analyzed using the unregistered word candidate evaluation, and the analysis result is output.
【0009】[0009]
【実施例】次に本発明の実施例について、図面を参照し
て説明する。Embodiments of the present invention will now be described with reference to the drawings.
【0010】図1は、請求項1の発明の一実施例を示す
ブロック図である。FIG. 1 is a block diagram showing an embodiment of the invention of claim 1.
【0011】この自然言語解析装置は、入力文章を受け
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
前記未登録語候補出現情報記録部3に記録された情報を
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。This natural language analysis apparatus has an input unit 1 for receiving an input sentence, a language analysis unit 5 for analyzing the input sentence received from the input unit 1, and an output unit for outputting an analysis result of the language analysis unit 5. 6, an unregistered word candidate extraction unit 2 that receives an input sentence from the input unit 1 and extracts a character string that may be an unregistered word from the sentence, and an unregistered word candidate extraction unit 2 extracts the unregistered word candidate extraction unit 2. An unregistered word appearance information recording unit 3 that records a registered word candidate and a character string adjacent to the unregistered word candidate,
An unregistered word candidate evaluation unit 4 that evaluates an unregistered word candidate based on the information recorded in the unregistered word candidate appearance information recording unit 3 is provided.
【0012】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行なう。言語解析部5は、
データ線45を通して得られる未登録語候補評価部の未
登録語候補評価を利用して、入力部1から送られた入力
文章を解析し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。The text input to the input unit 1 is the data line 1
2 to the unregistered word candidate extraction unit 2 and the data line 15 to the language analysis unit 6. Unregistered word candidate extraction unit 2
Extracts an unregistered word candidate from the input sentence, and connects the unregistered word candidate and a character string adjacent to the unregistered word candidate to the data line 2
It records in the unregistered word candidate appearance information recording unit 3 through 3.
The unregistered word candidate evaluation unit 4 acquires unregistered word candidate appearance information from the unregistered word candidate appearance information recording unit 3 through the data line 34, and evaluates each unregistered word candidate. The language analysis unit 5
The input sentence sent from the input unit 1 is analyzed using the unregistered word candidate evaluation of the unregistered word candidate evaluation unit obtained through the data line 45, and the analysis result is sent to the output unit 6 through the data line 56. The output unit 6 outputs the analysis result.
【0013】次に、具体例を用いて動作原理を説明す
る。Next, the operation principle will be described using a specific example.
【0014】まず、図4(a)に示す文章が入力された
とする。First, it is assumed that the sentence shown in FIG. 4 (a) is input.
【0015】未登録語候補抽出部2は、図4(a)の文
章中から図4(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図5に示す。The unregistered word candidate extraction unit 2 extracts unregistered word candidates as shown in FIG. 4B from the sentence of FIG. 4A, and the unregistered word candidate appearance information recording unit 3 together with the adjacent character string. To record. FIG. 5 shows a part of the recorded contents of the unregistered word candidate appearance information recording unit 3 at this time.
【0016】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行なう。図6に評価方法の一例を、図7に評価結果
の一例を示す。The unregistered word candidate evaluation unit 4 evaluates each unregistered word candidate based on the recorded contents of the unregistered word candidate appearance information recording unit 3. FIG. 6 shows an example of the evaluation method, and FIG. 7 shows an example of the evaluation result.
【0017】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図8に解析結果の一例を示す。The language analysis unit 5 analyzes the sentence sent from the input unit 1 with reference to the evaluation of the unregistered word candidate evaluation unit 4. FIG. 8 shows an example of the analysis result.
【0018】なお、本実施例の未登録語候補出現情報記
録部3には先行および後続文字列の文境界までの部分が
記録されている。しかし、未登録語候補評価部4の評価
方法によっては先行または後続のどちらか一方だけで済
ませてもよい。記録される文字列の長さも文境界までで
あることは本発明の本質ではなく、より短い又はより長
い文字列を記録しても構わない。In the unregistered word candidate appearance information recording unit 3 of this embodiment, the portions up to the sentence boundary of the preceding and succeeding character strings are recorded. However, depending on the evaluation method of the unregistered word candidate evaluation unit 4, only the preceding or succeeding one may be sufficient. It is not the essence of the present invention that the length of the recorded character string is up to the sentence boundary, and a shorter or longer character string may be recorded.
【0019】次に、請求項2の発明について説明する。Next, the invention of claim 2 will be described.
【0020】図2は、請求項2の発明の一実施例を示す
ブロック図である。FIG. 2 is a block diagram showing an embodiment of the invention of claim 2.
【0021】この自然言語解析装置は、入力文章を受け
取る入力部1と、前記入力部1から受け取った入力文章
を解析する言語解析部5と、前記言語解析部5の解析結
果を出力する出力部6と前記入力部1から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部2と、前記未登録語候補抽
出部2が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部3と、
文字とその文字に対応する意味情報とを格納した文字意
味辞書7と、前記未登録語候補出現情報記録部3に記録
された情報と前記文字意味辞書7に格納された情報とを
もとに未登録語候補の評価を行なう未登録語候補評価部
4とを備えている。This natural language analysis apparatus has an input unit 1 for receiving an input sentence, a language analysis unit 5 for analyzing the input sentence received from the input unit 1, and an output unit for outputting an analysis result of the language analysis unit 5. 6, an unregistered word candidate extraction unit 2 that receives an input sentence from the input unit 1 and extracts a character string that may be an unregistered word from the sentence, and an unregistered word candidate extraction unit 2 extracts the unregistered word candidate extraction unit 2. An unregistered word appearance information recording unit 3 that records a registered word candidate and a character string adjacent to the unregistered word candidate,
A character meaning dictionary 7 storing characters and meaning information corresponding to the characters, based on information recorded in the unregistered word candidate appearance information recording unit 3 and information stored in the character meaning dictionary 7. An unregistered word candidate evaluation unit 4 that evaluates unregistered word candidates.
【0022】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を、デ
ータ線47を通して文字意味辞書7から各未登録語候補
の構成文字列の意味情報を獲得し、各未登録語候補の評
価を行なう。言語解析部5は、データ線45を通して得
られる未登録語候補評価部の未登録語候補評価を利用し
て、入力部1から送られた入力文章を解析し、解析結果
をデータ線56を通して出力部6に送る。出力部6は解
析結果を出力する。The text input to the input unit 1 is the data line 1
2 to the unregistered word candidate extraction unit 2 and the data line 15 to the language analysis unit 6. Unregistered word candidate extraction unit 2
Extracts an unregistered word candidate from the input sentence, and connects the unregistered word candidate and a character string adjacent to the unregistered word candidate to the data line 2
It records in the unregistered word candidate appearance information recording unit 3 through 3.
The unregistered word candidate evaluation unit 4 receives the unregistered word candidate appearance information from the unregistered word candidate appearance information recording unit 3 through the data line 34 and the meaning of the constituent character string of each unregistered word candidate from the character meaning dictionary 7 through the data line 47. Obtain information and evaluate each unregistered word candidate. The language analysis unit 5 analyzes the input sentence sent from the input unit 1 by using the unregistered word candidate evaluation of the unregistered word candidate evaluation unit obtained through the data line 45, and outputs the analysis result through the data line 56. Send to Part 6. The output unit 6 outputs the analysis result.
【0023】以下、具体例を用いて説明する。A specific example will be described below.
【0024】まず、図9(a)に示す文章が入力された
とする。First, it is assumed that the sentence shown in FIG. 9A is input.
【0025】未登録語候補抽出部2は、図9(a)の文
章中から図9(b)のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部3に記録
する。このときの未登録語候補出現情報記録部3の記録
内容の一部を図10に示す。The unregistered word candidate extraction unit 2 extracts unregistered word candidates as shown in FIG. 9B from the sentence of FIG. 9A, and the unregistered word candidate appearance information recording unit 3 together with the adjacent character string. To record. FIG. 10 shows a part of the recorded contents of the unregistered word candidate appearance information recording unit 3 at this time.
【0026】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容と文字意味辞書7から得られ
る意味情報とをもとに各未登録語候補の評価を行なう。
図11(a)に文字味辞書7から得た意味情報の一例
を、図11(b)に意味情報を利用した評価方法の一例
を、図12に評価結果の一例を示す。The unregistered word candidate evaluation unit 4 evaluates each unregistered word candidate based on the recorded contents of the unregistered word candidate appearance information recording unit 3 and the semantic information obtained from the character meaning dictionary 7.
FIG. 11A shows an example of the semantic information obtained from the character dictionary 7, an example of the evaluation method using the semantic information is shown in FIG. 11B, and an example of the evaluation result is shown in FIG.
【0027】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行なう。図13に解析結果の一例を示す。The language analysis unit 5 analyzes the sentence sent from the input unit 1 with reference to the evaluation of the unregistered word candidate evaluation unit 4. FIG. 13 shows an example of the analysis result.
【0028】図3は、請求項3の発明の一実施例を示す
ブロック図である。FIG. 3 is a block diagram showing an embodiment of the invention of claim 3.
【0029】この自然言語解析装置は、入力文章を受け
取る入力部1と、言語解析用情報を格納した更新可能な
辞書8と、前記入力部1から受け取った入力文章を前記
辞書8を参照しながら解析し、解析結果を元に前記辞書
8の内容を更新する言語解析部5と、前記言語解析部5
の解析結果を出力する出力部6と前記入力部1から入力
文章を受け取り、該文章中から未登録語の可能性がある
文字列を抽出する未登録語候補抽出部2と、前記未登録
語候補抽出部2が抽出した未登録語候補と該未登録語候
補に隣接する文字列とを記録する未登録語出現情報記録
部3と、前記未登録語候補出現情報記録部3に記録され
た情報をもとに未登録語候補の評価を行ない、評価結果
を元に前記辞書8の内容を更新する未登録語候補評価部
4とを備えている。This natural language analyzing apparatus refers to the input section 1 for receiving an input sentence, an updatable dictionary 8 storing information for language analysis, and the input sentence received from the input section 1 with reference to the dictionary 8. A language analysis unit 5 that analyzes and updates the contents of the dictionary 8 based on the analysis result; and the language analysis unit 5
An unregistered word candidate extraction unit 2 that receives an input sentence from the output unit 6 that outputs the analysis result of 1 and the input unit 1 and extracts a character string that may be an unregistered word from the sentence; The unregistered word appearance information recording unit 3 which records the unregistered word candidate extracted by the candidate extraction unit 2 and the character string adjacent to the unregistered word candidate, and the unregistered word candidate appearance information recording unit 3 are recorded. An unregistered word candidate evaluation unit 4 that evaluates unregistered word candidates based on the information and updates the contents of the dictionary 8 based on the evaluation result.
【0030】入力部1に入力された文章は、データ線1
2を通して未登録語候補抽出部2に、データ線15を通
して言語解析部6に、送られる。未登録語候補抽出部2
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線2
3を通して未登録語候補出現情報記録部3に記録する。
未登録語候補評価部4はデータ線34を通して未登録語
候補出現情報記録部3から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行ない、評価結果を元にデ
ータ線48を通して辞書8の内容を更新する。言語解析
部5は、データ線45を通して得られる未登録語候補評
価部の未登録語候補評価とデータ線58を通して得られ
る辞書情報とを利用して、入力部1から送られた入力を
解析し、解析結果を元にデータ線58を通して辞書8の
内容を更新し、解析結果をデータ線56を通して出力部
6に送る。出力部6は解析結果を出力する。The text input to the input unit 1 is the data line 1
2 to the unregistered word candidate extraction unit 2 and the data line 15 to the language analysis unit 6. Unregistered word candidate extraction unit 2
Extracts an unregistered word candidate from the input sentence, and connects the unregistered word candidate and a character string adjacent to the unregistered word candidate to the data line 2
It records in the unregistered word candidate appearance information recording unit 3 through 3.
The unregistered word candidate evaluation unit 4 acquires the unregistered word candidate appearance information from the unregistered word candidate appearance information recording unit 3 through the data line 34, evaluates each unregistered word candidate, and based on the evaluation result, the data line 48. To update the contents of the dictionary 8. The language analysis unit 5 analyzes the input sent from the input unit 1 using the unregistered word candidate evaluation of the unregistered word candidate evaluation unit obtained through the data line 45 and the dictionary information obtained through the data line 58. , The contents of the dictionary 8 are updated through the data line 58 based on the analysis result, and the analysis result is sent to the output unit 6 through the data line 56. The output unit 6 outputs the analysis result.
【0031】以下、具体例を用いて説明する。A specific example will be described below.
【0032】まず、図14(a)に示す文章が入力され
たとする。First, it is assumed that the sentence shown in FIG. 14A is input.
【0033】未登録語候補抽出部2は、図14(a)の
文章中から図14(b)のような未登録語候補を抽出
し、隣接文字列とともに未登録語候補出現情報記録部3
に記録する。このときの未登録語候補出現情報記録部3
の記録内容の一部を図15に示す。The unregistered word candidate extraction unit 2 extracts unregistered word candidates as shown in FIG. 14B from the sentence of FIG. 14A, and the unregistered word candidate appearance information recording unit 3 together with the adjacent character string.
To record. Unregistered word candidate appearance information recording unit 3 at this time
FIG. 15 shows a part of the recorded contents of FIG.
【0034】未登録語候補評価部4は、未登録語候補出
現情報記録部3の記録内容をもとに各未登録語候補の評
価を行ない、評価結果をもとに辞書8の内容を更新す
る。図16に評価結果の一例を、図17に評価結果によ
る辞書8の内容の更新の一例を示す。The unregistered word candidate evaluation unit 4 evaluates each unregistered word candidate based on the recorded contents of the unregistered word candidate appearance information recording unit 3, and updates the contents of the dictionary 8 based on the evaluation result. To do. FIG. 16 shows an example of the evaluation result, and FIG. 17 shows an example of updating the contents of the dictionary 8 based on the evaluation result.
【0035】言語解析部5は、未登録語候補評価部4の
評価を参考にしながら入力部1から送られてきた文章の
解析を行ない、解析結果を元に辞書8の内容を更新す
る。The language analysis unit 5 analyzes the sentence sent from the input unit 1 while referring to the evaluation of the unregistered word candidate evaluation unit 4, and updates the contents of the dictionary 8 based on the analysis result.
【0036】図18に解析結果を元にした辞書8の内容
の更新の一例を示す。FIG. 18 shows an example of updating the contents of the dictionary 8 based on the analysis result.
【0037】別の具体例として、未登録語候補抽出部2
が抽出用テンプレートを用いて抽出を行なう場合を説明
する。As another specific example, the unregistered word candidate extraction unit 2
A case will be described in which extraction is performed using the extraction template.
【0038】図19に示す文章が入力されたとする。更
に、未登録語候補抽出部2が図20に示す抽出用テンプ
レートを用いるとする。但し、抽出用テンプレート中の
[]は任意の長さの文字列を意味する。未登録語候補抽
出部2は、入力文章に対して抽出用テンプレートを適用
することで未登録語候補を抽出する。その結果、未登録
語候補出現情報記録部3には、図21に示す未登録語候
補が記録される。It is assumed that the text shown in FIG. 19 is input. Further, it is assumed that the unregistered word candidate extraction unit 2 uses the extraction template shown in FIG. However, [] in the extraction template means a character string of an arbitrary length. The unregistered word candidate extraction unit 2 extracts unregistered word candidates by applying the extraction template to the input sentence. As a result, the unregistered word candidate appearance information recording unit 3 records the unregistered word candidates shown in FIG.
【0039】別の具体例として、未登録語候補評価部4
が出現頻度を用いて評価を行なう場合を説明する。As another specific example, the unregistered word candidate evaluation unit 4
A case will be described where is evaluated using the appearance frequency.
【0040】未登録語候補評価部4が未登録語候補出現
情報記録部3に記録されている情報を検索し、各表層語
とその表層語の出現回数とを計数する。図22に計数結
果の一例を示す。未登録語候補評価部4は計数結果をも
とに各表層の評価を行なう。図23に評価結果の一例を
示す。The unregistered word candidate evaluation unit 4 searches the information recorded in the unregistered word candidate appearance information recording unit 3, and counts each surface word and the number of appearances of the surface word. FIG. 22 shows an example of the counting result. The unregistered word candidate evaluation unit 4 evaluates each surface layer based on the counting result. FIG. 23 shows an example of the evaluation result.
【0041】別の具体例として、未登録語候補評価部4
が候補の音の並びを用いて評価を行なう場合を説明す
る。As another specific example, the unregistered word candidate evaluation unit 4
A case will be described in which the evaluation is performed using a sequence of candidate sounds.
【0042】未登録語候補評価部4が用いる評価方法の
一例を図24に示す。FIG. 24 shows an example of an evaluation method used by the unregistered word candidate evaluation unit 4.
【0043】未登録語候補評価部4は未登録語候補出現
情報記録部3に記録されている未登録語候補に該評価方
法を適用して評価を行なう。評価結果の一例を図25に
示す。The unregistered word candidate evaluation unit 4 evaluates the unregistered word candidates recorded in the unregistered word candidate appearance information recording unit 3 by applying the evaluation method. An example of the evaluation result is shown in FIG.
【0044】別の例として、複数の評価部を持つ例を図
26に示す。As another example, FIG. 26 shows an example having a plurality of evaluation sections.
【0045】2つの異なった方法で未登録語候補の評価
を行なう未登録語候補評価部αと未登録語候補評価部β
とがあり、両評価部の評価を総合する評価総合部とがあ
る。このとき、点線で囲んだ部分全体を1つの未登録語
候補評価部であるとみなすことができ、請求項1と同じ
発明であるといえる。An unregistered word candidate evaluation unit α and an unregistered word candidate evaluation unit β that evaluate unregistered word candidates by two different methods.
There is a comprehensive evaluation section that combines the evaluations of both evaluation sections. At this time, the entire part surrounded by the dotted line can be regarded as one unregistered word candidate evaluation part, and can be said to be the same invention as claim 1.
【0046】ここでは2つの評価部を持つ例を示した
が、3つ以上の評価部を持つ場合も同様に考えることが
できる。Although an example having two evaluation sections is shown here, the case of having three or more evaluation sections can be considered in the same manner.
【0047】また、本実施例では説明文、数値、記号、
などが用いられているが、これらの表現方式は本発明の
本質ではなく、同等の説明文、数値、記号などに適宜置
き換えても構わない。In the present embodiment, the explanation, numerical values, symbols,
, Etc. are used, but these expressions are not the essence of the present invention, and may be appropriately replaced with equivalent explanations, numerical values, symbols, and the like.
【0048】[0048]
【発明の効果】以上に述べたように、本発明では未登録
語候補を該当候補出現回数と隣接文字列情報とによって
評価しており、従来の手法では困難であった複数の字種
からなる未登録語や出現頻度の低い品詞である未登録語
などを高精度に抽出することが可能になる。As described above, according to the present invention, unregistered word candidates are evaluated based on the number of appearances of the corresponding candidate and the adjacent character string information. It becomes possible to extract an unregistered word, an unregistered word that is a part of speech with a low occurrence frequency, and the like with high accuracy.
【図1】請求項1の発明の一実施例を示すブロック図で
ある。FIG. 1 is a block diagram showing an embodiment of the invention of claim 1;
【図2】請求項2の発明の一実施例を示すブロック図で
ある。FIG. 2 is a block diagram showing an embodiment of the invention of claim 2;
【図3】請求項3の発明の一実施例を示すブロック図で
ある。FIG. 3 is a block diagram showing an embodiment of the invention of claim 3;
【図4】入力文章、未登録語候補抽出の一例を示すブロ
ック図である。FIG. 4 is a block diagram showing an example of input sentence and extraction of unregistered word candidates.
【図5】未登録語候補出現情報記録部の内容を一例を示
す説明図である。FIG. 5 is an explanatory diagram showing an example of contents of an unregistered word candidate appearance information recording unit.
【図6】未登録語候補評価部の評価方法の一例を示す説
明図である。FIG. 6 is an explanatory diagram showing an example of an evaluation method of an unregistered word candidate evaluation unit.
【図7】未登録語候補候補評価結果の一例を示す説明図
である。FIG. 7 is an explanatory diagram showing an example of an unregistered word candidate candidate evaluation result.
【図8】入力文章の解析結果の一例を示す説明図であ
る。FIG. 8 is an explanatory diagram showing an example of an analysis result of an input sentence.
【図9】入力文章、未登録語候補抽出の一例を示す説明
図である。FIG. 9 is an explanatory diagram showing an example of an input sentence and extraction of unregistered word candidates.
【図10】未登録語候補出現情報記録部の内容の一例を
示す説明図である。FIG. 10 is an explanatory diagram showing an example of the contents of an unregistered word candidate appearance information recording unit.
【図11】文字意味辞書の内容と文字意味辞書の内容を
利用した評価方法の一例を示す説明図である。FIG. 11 is an explanatory diagram showing an example of an evaluation method using the contents of the character meaning dictionary and the contents of the character meaning dictionary.
【図12】文字意味辞書の内容を利用した評価結果の一
例を示す説明図である。FIG. 12 is an explanatory diagram showing an example of an evaluation result using the contents of a character meaning dictionary.
【図13】入力文章の解析結果の一例を示す説明図であ
る。FIG. 13 is an explanatory diagram showing an example of an analysis result of an input sentence.
【図14】入力文章、未登録語候補抽出の一例を示す説
明図である。FIG. 14 is an explanatory diagram showing an example of input sentence and extraction of unregistered word candidates.
【図15】未登録語候補出現情報記録部の内容の一例を
示す説明図である。FIG. 15 is an explanatory diagram showing an example of contents of an unregistered word candidate appearance information recording unit.
【図16】未登録語候補評価結果の一例を示す説明図で
ある。FIG. 16 is an explanatory diagram showing an example of an unregistered word candidate evaluation result.
【図17】未登録語候補評価結果を用いた辞書の内容更
新の一例を示す説明図である。FIG. 17 is an explanatory diagram showing an example of updating the contents of a dictionary using an unregistered word candidate evaluation result.
【図18】言語解析部の解析結果を基にした辞書内容更
新の一例を示す説明図である。FIG. 18 is an explanatory diagram showing an example of dictionary content update based on an analysis result of a language analysis unit.
【図19】入力文章の一例を示す説明図である。FIG. 19 is an explanatory diagram showing an example of an input sentence.
【図20】抽出用テンプレートの一例を示す説明図であ
る。FIG. 20 is an explanatory diagram showing an example of an extraction template.
【図21】抽出用テンプレートによって抽出された未登
録語候補の一例を示す説明図である。FIG. 21 is an explanatory diagram showing an example of unregistered word candidates extracted by the extraction template.
【図22】頻度情報の一例を示す説明図である。FIG. 22 is an explanatory diagram showing an example of frequency information.
【図23】頻度情報を用いた評価結果の一例を示す説明
図である。FIG. 23 is an explanatory diagram showing an example of an evaluation result using frequency information.
【図24】音の並びを用いた評価方法の一例を示す説明
図である。FIG. 24 is an explanatory diagram showing an example of an evaluation method using a sequence of sounds.
【図25】音の並びを用いた評価結果の一例を示す説明
図である。FIG. 25 is an explanatory diagram showing an example of an evaluation result using a sequence of sounds.
【図26】複数の評価部を持つ例を示すブロック図であ
る。FIG. 26 is a block diagram showing an example having a plurality of evaluation units.
1 入力部 2 未登録語候補抽出部 3 未登録語候補出現情報記録部 4 未登録語候補評価部 5 言語解析部 6 出力部 7 文字意味辞書 8 辞書 1 input unit 2 unregistered word candidate extraction unit 3 unregistered word candidate appearance information recording unit 4 unregistered word candidate evaluation unit 5 language analysis unit 6 output unit 7 character semantic dictionary 8 dictionary
Claims (4)
録語の可能性がある文字列を抽出する未登録語候補抽出
部と、 前記未登録語候補抽出部が抽出した未登録語候補と該未
登録語候補に隣接する文字列とを記録する未登録語出現
情報記録部と、 前記未登録語出現情報記録部に記録された情報をもとに
未登録語候補の評価を行なう未登録語候補評価部と、 前記未登録語候補評価部の評価結果を参照し、前記入力
部から受け取った入力文章を解析する言語解析部とを具
備することを特徴とする自然言語解析装置。1. An input unit that receives an input sentence, an output unit that outputs an analysis result of the language analysis unit, a character string that receives the input sentence from the input unit, and may be an unregistered word from the sentence. An unregistered word candidate extraction unit that extracts the unregistered word candidate, and an unregistered word appearance information recording unit that records the unregistered word candidate extracted by the unregistered word candidate extraction unit and a character string adjacent to the unregistered word candidate, With reference to the unregistered word candidate evaluation unit that evaluates unregistered word candidates based on the information recorded in the unregistered word appearance information recording unit, the evaluation result of the unregistered word candidate evaluation unit, and from the input unit A natural language analysis device, comprising: a language analysis unit that analyzes a received input sentence.
格納した文字意味辞書を更に備え、 前記未登録語候補評価部が未登録語候補を評価する際に
前記文字意味辞書を参照して行なうことを特徴とする請
求項1記載の自然言語解析装置。2. A character semantic dictionary that stores characters and semantic information corresponding to the characters, further comprising: referring to the character semantic dictionary when the unregistered word candidate evaluation unit evaluates unregistered word candidates. The natural language analysis device according to claim 1, which is performed.
書を更に備え、 前記未登録語候補評価部が評価結果に基づいて前記辞書
の内容を更新し、前記言語解析部が解析結果に基づいて
前記辞書の内容を更新し、前記言語解析部が入力文章を
解析する際に前記辞書の情報を参照することを特徴とす
る請求項1記載の自然言語解析装置。3. An updatable dictionary storing information for language analysis is further provided, wherein the unregistered word candidate evaluation unit updates the contents of the dictionary based on an evaluation result, and the language analysis unit based on the analysis result. 2. The natural language analysis device according to claim 1, wherein the content of the dictionary is updated by referring to the information of the dictionary when the language analysis unit analyzes the input sentence.
抽出し、該未登録語候補と該未登録語候補に隣接する文
字列とを記録し、この記録内容から未登録語候補出現情
報を獲得し、各未登録語候補の評価を行ない、未登録語
候補評価を利用して、入力文章を解析し、解析結果を出
力することを特徴とする自然言語解析方法。4. An unregistered word candidate is extracted from an input sentence, the unregistered word candidate and a character string adjacent to the unregistered word candidate are recorded, and an unregistered word candidate appears from the recorded content. A natural language analysis method characterized by acquiring information, evaluating each unregistered word candidate, analyzing the input sentence using the unregistered word candidate evaluation, and outputting the analysis result.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6232745A JPH0895976A (en) | 1994-09-28 | 1994-09-28 | Natural language analyzer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6232745A JPH0895976A (en) | 1994-09-28 | 1994-09-28 | Natural language analyzer |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0895976A true JPH0895976A (en) | 1996-04-12 |
Family
ID=16944101
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6232745A Pending JPH0895976A (en) | 1994-09-28 | 1994-09-28 | Natural language analyzer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0895976A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024038566A (en) * | 2022-09-08 | 2024-03-21 | 株式会社東芝 | Keyword detection device, keyword detection method, and keyword detection program |
-
1994
- 1994-09-28 JP JP6232745A patent/JPH0895976A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024038566A (en) * | 2022-09-08 | 2024-03-21 | 株式会社東芝 | Keyword detection device, keyword detection method, and keyword detection program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lita et al. | Truecasing | |
| KR100999488B1 (en) | Method and apparatus for detecting document plagiarism | |
| EP1217533A2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
| KR940022316A (en) | Keyword Extractor for Japanese Documents | |
| JPH05242138A (en) | Word disambiguation device and its method | |
| JP2536633B2 (en) | Compound word extraction device | |
| JP2828692B2 (en) | Information retrieval device | |
| JPH0895976A (en) | Natural language analyzer | |
| Osman et al. | Plagiarism detection using graph-based representation | |
| KR100617317B1 (en) | Method for re-analysis of compound noun to decide lexical entries and apparatus thereof | |
| JPS61248160A (en) | Document information registering system | |
| JPH07230468A (en) | Automatic keyword extracting device and automatic keyword extracting method | |
| Totmina | Detoxification of Russian texts based on combination of controlled generation using pretrained ruGPT3 and the Delete method | |
| JP3956730B2 (en) | Language processor | |
| JPS63228326A (en) | Automatic key word extracting system | |
| JP2004102856A (en) | Device and method for morpheme string processing | |
| JPS6132167A (en) | Kana-kanji conversion processing device | |
| JP2007072841A (en) | Word extraction method, database construction method, database construction device, database construction program, and recording medium | |
| JPS6389976A (en) | Language analyzer | |
| JPS6395570A (en) | Language analysis system | |
| JPS6175467A (en) | Kana-kanji conversion method | |
| JP2001022752A (en) | Method and device for character group extraction, and recording medium for character group extraction | |
| JPH1011460A (en) | Key word extraction device | |
| JPH047670A (en) | Sentence analysis system | |
| JPH02289033A (en) | Unregistered word processor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19980310 |