JPH06223057A - 未知語抽出装置 - Google Patents
未知語抽出装置Info
- Publication number
- JPH06223057A JPH06223057A JP5010799A JP1079993A JPH06223057A JP H06223057 A JPH06223057 A JP H06223057A JP 5010799 A JP5010799 A JP 5010799A JP 1079993 A JP1079993 A JP 1079993A JP H06223057 A JPH06223057 A JP H06223057A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- unknown
- unknown word
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 未知語抽出装置に於いて、従来は未知語とし
て抽出されなかった単語の中で変換時の順位が低くすぐ
に出力されないものや、途中に無意味語がはさまれて変
換出力される単語よりも変換時の出力順位が低いものを
未知語として抽出できるようにすること。 【構成】 未知語抽出装置に於いて、日本語文章を入力
する入力部、入力された日本語文章を記憶する記憶部、
漢字を含む多数の単語についてその読み情報を記憶して
いる辞書部、日本語文章を言語解析する解析部、言語解
析した結果を用いて辞書部に存在しない語を未知語とし
て、入力した日本語文章の中から一括抽出する抽出部、
抽出した語を保存する保存部を備えた構成。
て抽出されなかった単語の中で変換時の順位が低くすぐ
に出力されないものや、途中に無意味語がはさまれて変
換出力される単語よりも変換時の出力順位が低いものを
未知語として抽出できるようにすること。 【構成】 未知語抽出装置に於いて、日本語文章を入力
する入力部、入力された日本語文章を記憶する記憶部、
漢字を含む多数の単語についてその読み情報を記憶して
いる辞書部、日本語文章を言語解析する解析部、言語解
析した結果を用いて辞書部に存在しない語を未知語とし
て、入力した日本語文章の中から一括抽出する抽出部、
抽出した語を保存する保存部を備えた構成。
Description
【0001】
【産業上の利用分野】本発明は、日本語ワードプロセッ
サ、コンピュータ等の未知語の抽出及び辞書登録を行う
未知語抽出登録装置に関するものである。
サ、コンピュータ等の未知語の抽出及び辞書登録を行う
未知語抽出登録装置に関するものである。
【0002】
【従来の技術】未知語の抽出装置の従来技術として、日
本語文章校正システムの未登録抽出機能がある。この技
術は、日本語を言語解析(形態素解析)し、それによっ
て分かち書きされた自立語の単語が基準辞書等にあるか
どうかを調べ、辞書にない語を未登録語として抽出して
いたものである。
本語文章校正システムの未登録抽出機能がある。この技
術は、日本語を言語解析(形態素解析)し、それによっ
て分かち書きされた自立語の単語が基準辞書等にあるか
どうかを調べ、辞書にない語を未登録語として抽出して
いたものである。
【0003】形態素解析で未知語を検出する場合に、そ
の障害となるのが1文字自立語である。漢字は1文字で
何らかの意味を持つため辞書に多く登録されているが、
未知語が抽出できなくなる可能性がある(例 「未知
語」を「未知」と「語」に分けて1つのまとまった語と
して認識しない)。特整92−01748では、この1
文字自立語に着目し、1文字自立語と、ある種の単語
(特に接辞語、数詞、従来技術で抽出された未登録語な
ど)が前後に結合している場合を結合ルールより成り立
つ語が基本辞書(自立語辞書/固有名詞辞書)に登録し
ていない場合にこれを未知語として抽出している。
の障害となるのが1文字自立語である。漢字は1文字で
何らかの意味を持つため辞書に多く登録されているが、
未知語が抽出できなくなる可能性がある(例 「未知
語」を「未知」と「語」に分けて1つのまとまった語と
して認識しない)。特整92−01748では、この1
文字自立語に着目し、1文字自立語と、ある種の単語
(特に接辞語、数詞、従来技術で抽出された未登録語な
ど)が前後に結合している場合を結合ルールより成り立
つ語が基本辞書(自立語辞書/固有名詞辞書)に登録し
ていない場合にこれを未知語として抽出している。
【0004】
【発明が解決しようとする課題】従来の未知語抽出装置
では、上記結合ルールによると、条件が合致すれば未知
語にならない中に、実際の変換ではなかなか出にくい単
語が多く含まれている。例えば「総裁選」の場合、自立
語(総裁)+接尾語(選)の条件に合致するので未知語
として抽出されないが、実際には「相殺線」「相殺戦」
「相殺船」「相殺選」「総裁選」と無意味語の後に出て
くる可能性がある。なかなか出てこない単語に対して、
未知語から省くのは本来の目的からはずれる。
では、上記結合ルールによると、条件が合致すれば未知
語にならない中に、実際の変換ではなかなか出にくい単
語が多く含まれている。例えば「総裁選」の場合、自立
語(総裁)+接尾語(選)の条件に合致するので未知語
として抽出されないが、実際には「相殺線」「相殺戦」
「相殺船」「相殺選」「総裁選」と無意味語の後に出て
くる可能性がある。なかなか出てこない単語に対して、
未知語から省くのは本来の目的からはずれる。
【0005】
【課題を解決するための手段】本発明は上記課題の解決
を目的としてなされたものであり日本語文章を入力する
入力手段と、入力された日本語文章を記憶する記憶手段
と、漢字を含む多数の単語について読みや品詞情報等を
記憶している辞書部と、日本語文章を言語解析する解析
手段と、言語解析した結果を用いて辞書部に存在しない
語を未知語として、入力した日本語文章の中から一括抽
出する抽出手段と、抽出した語を保存する保存手段とを
備えてなる未知語抽出装置である。
を目的としてなされたものであり日本語文章を入力する
入力手段と、入力された日本語文章を記憶する記憶手段
と、漢字を含む多数の単語について読みや品詞情報等を
記憶している辞書部と、日本語文章を言語解析する解析
手段と、言語解析した結果を用いて辞書部に存在しない
語を未知語として、入力した日本語文章の中から一括抽
出する抽出手段と、抽出した語を保存する保存手段とを
備えてなる未知語抽出装置である。
【0006】
【作用】上記構成により、従来は未知語として抽出され
ない単語の中でかつ変換時の出力順位が低い為に変換を
実行してもすぐに出力されない単語や、又途中に無意味
語がはさまれて変換出力される単語よりも変換時の出力
順位が低い単語を未知語として抽出することが可能とな
る。
ない単語の中でかつ変換時の出力順位が低い為に変換を
実行してもすぐに出力されない単語や、又途中に無意味
語がはさまれて変換出力される単語よりも変換時の出力
順位が低い単語を未知語として抽出することが可能とな
る。
【0007】
【実施例】図1は本発明装置の要部構成図である。
【0008】1は未知語の抽出を行いたい入力文章を読
込む入力部であり、入力手段としてはキーボードからで
もOCR(光学式文字読取装置)や入力ペン等でもよ
い。2は形態素解析部であり入力部1のデータを形態素
単位に分かち、品詞やその他の情報を得る。3は未知語
抽出処理部であり、ここでは自立語辞書や固有名詞辞
書、接辞用例辞書及び共起関係辞書が格納されている基
本辞書5更に品詞の連続性に対して一定のルールを定め
て格納してある結合ルール部6、未知語を取り決めて格
納してある未知語判定ルール7をそれぞれ参照して判断
し未知語を抽出する。
込む入力部であり、入力手段としてはキーボードからで
もOCR(光学式文字読取装置)や入力ペン等でもよ
い。2は形態素解析部であり入力部1のデータを形態素
単位に分かち、品詞やその他の情報を得る。3は未知語
抽出処理部であり、ここでは自立語辞書や固有名詞辞
書、接辞用例辞書及び共起関係辞書が格納されている基
本辞書5更に品詞の連続性に対して一定のルールを定め
て格納してある結合ルール部6、未知語を取り決めて格
納してある未知語判定ルール7をそれぞれ参照して判断
し未知語を抽出する。
【0009】4は出力部で、抽出された未知語候補を表
示させ、内容を保存する部分である。
示させ、内容を保存する部分である。
【0010】図2は本発明の動作を示すフローチャート
である。
である。
【0011】S1では形態素解析処理部2で得られた情
報をもとに、文節候補を抽出している。
報をもとに、文節候補を抽出している。
【0012】S2では抽出された文節候補が基本辞書及
び結合ルールとの適応性を判断し、結合ルールに合致し
ない場合(S7)は、S11で不要語を削除する。上記
にて合致する場合はS3にて読み情報からこの表記が何
番目に出力されるか算出し、指定順番以外(S8)なら
S11で不要語を削除する。指定順番内ならS4にて候
補単語が基本辞書に直接登録されているか否か判断し、
直接登録されていない(S9)ならS11で不要語を削
除する。直接登録されているならば、S5にてこの表記
以前の候補単語で直接登録されていない単語があるか否
か判断し、直接登録単語ではない候補がある(S10)
ならばS11で不要語を削除する。直接登録単語ではな
い候補がないなら(全て直接登録の単語)その語は未知
語ではないと判断する(S6)。上記でS11にて不要
語を削除された語は全て未知語候補と判断される(S1
2)。
び結合ルールとの適応性を判断し、結合ルールに合致し
ない場合(S7)は、S11で不要語を削除する。上記
にて合致する場合はS3にて読み情報からこの表記が何
番目に出力されるか算出し、指定順番以外(S8)なら
S11で不要語を削除する。指定順番内ならS4にて候
補単語が基本辞書に直接登録されているか否か判断し、
直接登録されていない(S9)ならS11で不要語を削
除する。直接登録されているならば、S5にてこの表記
以前の候補単語で直接登録されていない単語があるか否
か判断し、直接登録単語ではない候補がある(S10)
ならばS11で不要語を削除する。直接登録単語ではな
い候補がないなら(全て直接登録の単語)その語は未知
語ではないと判断する(S6)。上記でS11にて不要
語を削除された語は全て未知語候補と判断される(S1
2)。
【0013】図3は本発明の実施例の説明図であり、結
合ルールの詳細を示している。
合ルールの詳細を示している。
【0014】図中に於いて線で結ばれた語(品詞)が連
続(結合)している場合で、○印なら未知語として扱
う。×印の時は図2の未知語抽出処理部の未知語判定ル
ールに従い、未知語候補となった場合は未知語として扱
いそれ以外は勿論未知語ではないとして扱う。
続(結合)している場合で、○印なら未知語として扱
う。×印の時は図2の未知語抽出処理部の未知語判定ル
ールに従い、未知語候補となった場合は未知語として扱
いそれ以外は勿論未知語ではないとして扱う。
【0015】尚この結合ルール及び未知語判定ルールは
固定ではなく、利用者が結合パタンを変更したり他の語
(品詞)を追加したり、削除したりして結合パタンを変
更することも可能である。
固定ではなく、利用者が結合パタンを変更したり他の語
(品詞)を追加したり、削除したりして結合パタンを変
更することも可能である。
【0016】以上のように本発明では、実際は未知語で
はないが変換出力順位が低い(後の)為、変換するのに
手間がかかる単語候補についても未知語として出力でき
るようにすることが可能となる。その他、本発明は上記
し、かつ図面に示した実施例のみに限定されるものでは
なく、要旨を逸脱しない範囲内で適宜変形して実施でき
ることは勿論である。
はないが変換出力順位が低い(後の)為、変換するのに
手間がかかる単語候補についても未知語として出力でき
るようにすることが可能となる。その他、本発明は上記
し、かつ図面に示した実施例のみに限定されるものでは
なく、要旨を逸脱しない範囲内で適宜変形して実施でき
ることは勿論である。
【0017】
【発明の効果】本発明の未知語抽出装置によれば、未知
語として抽出されない単語の中でかつ変換時の出力順位
が低い為に変換を実行してもすぐに出力されない単語
や、又途中に無意味語がはさまれて変換出力される単語
よりも変換時の出力順位が低い単語を未知語として抽出
することが可能となり、上記の未知語としてのデータを
格納することにより、日本語ワードプロセッサの基本辞
書、ユーザー辞書等の各種辞書作成に利用することがで
きる。
語として抽出されない単語の中でかつ変換時の出力順位
が低い為に変換を実行してもすぐに出力されない単語
や、又途中に無意味語がはさまれて変換出力される単語
よりも変換時の出力順位が低い単語を未知語として抽出
することが可能となり、上記の未知語としてのデータを
格納することにより、日本語ワードプロセッサの基本辞
書、ユーザー辞書等の各種辞書作成に利用することがで
きる。
【図1】本発明装置の要部構成図である。
【図2】本発明の動作を示すフローチャートである。
【図3】本発明の実施例の説明図である。
1 入力部 2 形態素解析処理部 3 未知語抽出処理部 4 表示・保存部 5 基本辞書部 6 結合ルール部 7 未知語判定ルール部
Claims (1)
- 【請求項1】 日本語文章を入力する入力手段と、入力
された日本語文章を記憶する記憶手段と、漢字を含む多
数の単語について読みや品詞情報等を記憶している辞書
部と、日本語文章を言語解析する解析手段と、言語解析
した結果を用いて辞書部に存在しない語を未知語とし
て、入力した日本語文章の中から一括抽出する抽出手段
と、抽出した語を保存する保存手段とを備えてなる未知
語抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5010799A JPH06223057A (ja) | 1993-01-26 | 1993-01-26 | 未知語抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5010799A JPH06223057A (ja) | 1993-01-26 | 1993-01-26 | 未知語抽出装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06223057A true JPH06223057A (ja) | 1994-08-12 |
Family
ID=11760389
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5010799A Pending JPH06223057A (ja) | 1993-01-26 | 1993-01-26 | 未知語抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06223057A (ja) |
-
1993
- 1993-01-26 JP JP5010799A patent/JPH06223057A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3220560B2 (ja) | 機械翻訳装置 | |
| US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
| US5678051A (en) | Translating apparatus with special display mode for supplemented words | |
| US5475586A (en) | Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words | |
| JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
| JPS5892063A (ja) | イデイオム処理方式 | |
| JPS60254367A (ja) | 文章分析装置 | |
| JPH06223057A (ja) | 未知語抽出装置 | |
| JP2821143B2 (ja) | 形態素分解装置 | |
| JPH03129568A (ja) | 文書処理装置 | |
| JPH0350668A (ja) | 文字処理装置 | |
| JPH0816910B2 (ja) | 言語解析装置 | |
| JPS6395570A (ja) | 言語解析方式 | |
| KR20010026991A (ko) | 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법 | |
| JPH11232268A (ja) | 文書処理装置、ルビ割り付け方法、及び記録媒体 | |
| JPH09160913A (ja) | 外国語単語検索装置 | |
| JPH06289890A (ja) | 自然言語処理装置 | |
| JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
| JPH01185766A (ja) | かな漢字変換装置 | |
| JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
| JPS5927338A (ja) | カナ漢字変換処理方式 | |
| JPH05233686A (ja) | 日本語処理装置 | |
| JPH0229858A (ja) | 機械翻訳処理方法 | |
| JPH01205377A (ja) | 日本文文書解析装置 | |
| JPH11110387A (ja) | 機械翻訳装置および機械翻訳プログラムを記録したコンピュータ読取可能な記録媒体 |