JPS60181973A - 未定義単語認定方式 - Google Patents

未定義単語認定方式

Info

Publication number
JPS60181973A
JPS60181973A JP59037892A JP3789284A JPS60181973A JP S60181973 A JPS60181973 A JP S60181973A JP 59037892 A JP59037892 A JP 59037892A JP 3789284 A JP3789284 A JP 3789284A JP S60181973 A JPS60181973 A JP S60181973A
Authority
JP
Japan
Prior art keywords
word
grammatical
words
dictionary
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59037892A
Other languages
English (en)
Inventor
Masato Kobe
正人 小部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59037892A priority Critical patent/JPS60181973A/ja
Publication of JPS60181973A publication Critical patent/JPS60181973A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の技術分桁 本発明は機械翻訳システムに関するもので、情報処理装
置に日本語文を入力して解析する際辞書に登録されてい
ない単語が出現した場合の処理に係るものである。
(2)従来技術と問題点 機械翻訳システムにおいて、連続して書かれた日本語文
の構文解析を行なう際は、まず、該日本語文を単語単位
に分割する必要がある。
連続して書かれた日本語文を単語単位に分割するには、
一定の規則に基づいて元の日本語文から順次取り出した
字並びを予め磁気ファイル等に辞書として登録しておい
た単語や文法情報と照合して判断することにより、単語
の区切シや該単語の属性等を決定する方法が採られる。
一般に辞書には相当量の単語が収録されているが、文章
中に出現する単語について網羅することは不可能である
。特に技術的な内容について記した文章などでは特殊な
用語が使われることが多く、判別困難な単語が発生する
機会が多い。
従来、機械翻訳システムにおける単語の分割処理におい
て、辞書に存在しない単語が出現した場合には、該単語
を漢字、ひらがな、カタカナ等字種の異なるものごとに
分断してそれぞれを固有名詞として扱うことにより処理
していた。
このような従来の方式では該当する単語の文法的属性な
どは不明のまま一律に処理するので、構文解析に際して
の処理不能個所や曖昧な個所が多く発生すると言う欠点
があった。
(3)発明の目的 本発明は上記従来の欠点に鑑み入力された文章の構文解
析に係る単語の分割に除し、辞書に存在しない単語が出
現したとき、これを単に固有名詞として扱うのではなく
、該単語についての文法的性質を出力して構分解析の精
度を高めることの可能な未定義単語認定部式を提供する
ことを目的としている。
(4)発明の構成 そしてこの目的は本発明によれば特許請求の範囲に記載
のとおシ、入力された日本語文を細分化して、予め辞書
ファイルに格納しておいた単語と照合することによシ該
日本語文を単語単位に分割する手段を有する構文解析方
式において、特定の接頭語とその後に結合する単語の文
法的性格および特定の接尾語とその前に結合する単語の
文法的性格を定義する手段と、文章中で隣り合う単語間
におけるそれぞれの単語の文法的属性の関係を定義する
手段とを設け、入力された文章中に予め辞書に格納され
ていない単語が出現したとき、該単語の前に位置する単
語または後続の単語またはそれらの文法的性格によって
当該単語の文法的性格を推定するが、あるいは前記前に
位置する単語の文法的性格と後続の単語の文法的性格と
の関係によって当該単語の文法的性格を識別して、当該
単語の文法的属性に係る情報を出力することを特徴とす
る未定義単語認定方式により達成される。
(5)発明の実施例 一般に辞書に登録されていない様な単語が、文章の中に
孤立して出現すると云うことは少なく、通常は活用語尾
や接尾語、接頭後などを伴なっていることが多い。そし
て、これらの活用語尾や接尾語等は特定の文法属性を持
った単語と親和性が強い。本発明はこの様な文章の性質
を利用して辞書に登録されていない単語の文法的性質−
tg定しようとするものである。
第1図は本発明の1実施例のブロック図であって、1は
入力部、2は単語分割部、3は辞書ファイル、4は未定
義単語認定部、5は前置単語解析部、6は後続単語解析
部、7は未定義単語情報出力部を示している。
第1図において、単語分割部2は、入力された日本語の
文章を後尾から順次、辞書ファイル3に格納されている
単語と照合するととによυ単語に分割するが、処理中に
辞書に定義されていない単語が出現すると、該単語を未
定義単語認定部4に出力すると共に、該単語の前の単語
および後続の単語をそれぞれIiJ置単語解析部5ある
いは後続単語解析部6に送り込む。
未定義単語認定部4は前置単語解析部5による前置単語
の解析結果と、後続単語解析部6による後続の単語の解
析結果とを参照して先に送り込まれた辞書に定義されて
いない単語について、その文法的性格を解析して該単語
の属性に関する情報を出力する。
例えば[ディスクにアクセスする」と云う文章が入力さ
れたとき、6アクセス″なる単語が辞書に存在しなかっ
た場合、後続の単語゛する”から、その前の単語はす行
変格活用の動詞か、または、”する”と結合して動詞化
する名詞であることが分かるのでその旨を出力する。ま
た後続の単語が1先生”であれば、その前の単語は6人
名”である確率が高く、後続の単語が1化合物”であれ
ば、その前の単語は物質等の名称である等の様に推定出
来るし、一方、該当する単語の前の単語が“御”、“大
”、”小”、′真”等、その後に続く単語の性格が分る
ものもあり、また、該当する単語の前後の単語の関係か
ら推察出来るものもある。
(6)発明の効果 以上詳細に説明したように本発明の未定義単語認定装置
圧よれば、機械翻訳システムにおける単語の分割処理に
おいて、入力文章中に辞書に存在しない単語が出現した
とき、該単語の文法的性格を認定して出力することが出
来るので、構文解析の精度が向上するから効果は大であ
る。
【図面の簡単な説明】
第1図は本発明の1実施例のブロック図である。 1・・・・・・・・・入力部、2・・・・・・・・・単
語分割部、3・・・・・・・・・辞書ファイル、4・・
・・・・・・・未定義単語認定部、5・・・・・・・・
・前置単語解析部、6・・・・・・・・・後続単語解析
部、7・・・・・・・・・未定義単語情報出力部

Claims (1)

    【特許請求の範囲】
  1. 入力された日本語文を細分化して、予め辞書7アイルに
    格納しておいた単語と照合することにより該日本語文を
    単語単位に分割する手段を有する構文解析方式において
    、特定の接頭語とその後に結合する単語の文法的性格お
    よび特定の接尾語とその前に結合する単語の文法的性格
    を定義する手段と、文章中で隣り合う単語間におけるそ
    れぞれの単語の文法的属性の関係を定義する手段とを設
    け、入力された文章中に予め辞書に格納されていない単
    語が出現したとき、該単語の前に位置する単語または後
    続の単語またはそれらの文法的性格によって当該単語の
    文法的性格を推定するか、あるいは前記前に位置する単
    語の文法的性格と後続の単語の文法的性格との関係によ
    って当該単語の文法的性格e[別して、当該単語の文法
    的鵬性に係る情報を出力することを特徴とする未定義単
    語認定方式。
JP59037892A 1984-02-29 1984-02-29 未定義単語認定方式 Pending JPS60181973A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59037892A JPS60181973A (ja) 1984-02-29 1984-02-29 未定義単語認定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59037892A JPS60181973A (ja) 1984-02-29 1984-02-29 未定義単語認定方式

Publications (1)

Publication Number Publication Date
JPS60181973A true JPS60181973A (ja) 1985-09-17

Family

ID=12510189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59037892A Pending JPS60181973A (ja) 1984-02-29 1984-02-29 未定義単語認定方式

Country Status (1)

Country Link
JP (1) JPS60181973A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPS63300359A (ja) * 1987-05-30 1988-12-07 Toshiba Corp 翻訳装置及び翻訳方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPS63300359A (ja) * 1987-05-30 1988-12-07 Toshiba Corp 翻訳装置及び翻訳方法

Similar Documents

Publication Publication Date Title
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPS60181973A (ja) 未定義単語認定方式
JP2960936B2 (ja) 係り受け解析装置
JPS6118074A (ja) プレ・エデイツト方式
JPH06259423A (ja) 要約自動作成方式
JPH03105465A (ja) 複合語抽出装置
JP3258079B2 (ja) 複合語辞書登録装置
JPH0157826B2 (ja)
JPH0773200A (ja) キーワード抽出方法
JPH03125264A (ja) キーワード抽出装置
KR940022312A (ko) 기계번역장치 및 방법
JPH05233689A (ja) 文書自動要約方法
JPS6368972A (ja) 未登録語処理方式
Orhun Similar words in Turkic languages
JPH04372047A (ja) 仮名漢字変換装置
JPH05250403A (ja) 日本文単語解析方式
JP2770536B2 (ja) 文章解析装置
JP3931633B2 (ja) 統語解析装置および方法
JPS6395570A (ja) 言語解析方式
JPS6151270A (ja) 二語間関係抽出方式
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH0750487B2 (ja) 情報抽出装置
JPH06139274A (ja) テキスト自動前編集装置
JPH05216922A (ja) 辞書編集装置
JPH0895976A (ja) 自然言語解析装置