JPS62251876A - 言語処理システム - Google Patents
言語処理システムInfo
- Publication number
- JPS62251876A JPS62251876A JP62049022A JP4902287A JPS62251876A JP S62251876 A JPS62251876 A JP S62251876A JP 62049022 A JP62049022 A JP 62049022A JP 4902287 A JP4902287 A JP 4902287A JP S62251876 A JPS62251876 A JP S62251876A
- Authority
- JP
- Japan
- Prior art keywords
- word
- class
- ending
- words
- stem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
本発明は言語処理システムに関し、特に計算機で遂行さ
れる辞書操作に関する。
れる辞書操作に関する。
B、従来技術とその問題点
インドヨーロッパ語族の言語はすべて、文法上の機能を
示す種々の形をとる単語を含んでいる。
示す種々の形をとる単語を含んでいる。
成る単語に着目した場合、その単語がとり得る屈折形(
inflection)の集合を形態(morphol
ogy)と呼ぶ、これは云うならば屈折パターンである
にれまでに、計算機を用いて単語の関連付は及び識別を
行う様々な試みがなされてきた。しかし従来の試みには
、例えば双方向性の欠如という重大な欠陥があった。双
方向性とは、成る単語の任意の形から、当該単語の形態
的に関係する他のすべての形に行ける能力のことを意味
する。従来の手法では、例えば単語の基本形から屈折形
へ行くことだけが可能であった。従って、単語の屈折形
からその同義語を見つけることは不可能であった。
inflection)の集合を形態(morphol
ogy)と呼ぶ、これは云うならば屈折パターンである
にれまでに、計算機を用いて単語の関連付は及び識別を
行う様々な試みがなされてきた。しかし従来の試みには
、例えば双方向性の欠如という重大な欠陥があった。双
方向性とは、成る単語の任意の形から、当該単語の形態
的に関係する他のすべての形に行ける能力のことを意味
する。従来の手法では、例えば単語の基本形から屈折形
へ行くことだけが可能であった。従って、単語の屈折形
からその同義語を見つけることは不可能であった。
言語学的解析は、同義語生成の他に、文書の分類及び検
索1文法検査、独立型解析等の応用も持っている。これ
らの応用の多くにおいては、単語の双方向的関連付は及
び識別が必要であるが、計算機を用いた従来の手法では
これらを完全しこ達成することはできない。
索1文法検査、独立型解析等の応用も持っている。これ
らの応用の多くにおいては、単語の双方向的関連付は及
び識別が必要であるが、計算機を用いた従来の手法では
これらを完全しこ達成することはできない。
単語の関連付は及び識別に関する従来技術に欠けている
もう一つの事柄は、データベースの適切な圧縮である。
もう一つの事柄は、データベースの適切な圧縮である。
計算機データベース・システムでは記憶容量が限られて
いるため、単語を広範囲にわたって集めるには何らかの
圧縮技術が必要である。この問題は、記憶容量が小さい
パーソナル・コンピュータの分野で切実になってきてい
る。それと共に、対話式の実時間アプリケーションを考
えると、データベースの探索速度を速くする必要がある
。
いるため、単語を広範囲にわたって集めるには何らかの
圧縮技術が必要である。この問題は、記憶容量が小さい
パーソナル・コンピュータの分野で切実になってきてい
る。それと共に、対話式の実時間アプリケーションを考
えると、データベースの探索速度を速くする必要がある
。
計算機を用いて単語の関連付は及び識別を行う従来の手
法には、単語の接頭辞又は接尾辞に基いて単語の文法的
機能を推定するアルゴリズムを使用するものもある。し
かし、殆んどの自然言語においては1語幹或いは語根に
付加される接頭辞及び接尾辞のパターンがかなり不規則
なため、コノアルゴリズム手法では言語学的解析で誤り
が生じるおそれがある。
法には、単語の接頭辞又は接尾辞に基いて単語の文法的
機能を推定するアルゴリズムを使用するものもある。し
かし、殆んどの自然言語においては1語幹或いは語根に
付加される接頭辞及び接尾辞のパターンがかなり不規則
なため、コノアルゴリズム手法では言語学的解析で誤り
が生じるおそれがある。
複数の言語にわたって言語学的解析をを適用することも
、これまでは十分には行われていない。
、これまでは十分には行われていない。
従って本発明の目的は、辞書に含まれるすへての単語の
関連付は及び識別を双方向的に行う言語処理システムを
提供することにある。
関連付は及び識別を双方向的に行う言語処理システムを
提供することにある。
C0問題点を解決するための手段
本発明は形態論的手法によって上記の目的を達成する0
本発明は、辞書に含まれる全単語のための分類(クラス
)テーブル、及びこの分類テーブルから出力された特定
の分類(クラス)番号によって参照される屈折パターン
・テーブルを使用する。動作時には、入力単語により分
類テーブルが探索され、入力単語に対応する分類番号が
識別される。1つの単語に対して複数の分類番号が識別
されることもある。識別された分類番号は、単語の接尾
辞又は接頭辞について種々の屈折形を有する特定の屈折
パターン・テーブルを指示する。特定の屈折パターン・
テーブルがその分類番号によって識別されると入力単語
と該屈折パターン・テーブルにある屈折パターンすなわ
ち語尾又は接頭辞の形との突合せ操作(マツチング)が
実行される1例えば、屈折パターン・テーブルが入力単
語と比較すべき種々の語尾形を含んでいる場合は。
本発明は、辞書に含まれる全単語のための分類(クラス
)テーブル、及びこの分類テーブルから出力された特定
の分類(クラス)番号によって参照される屈折パターン
・テーブルを使用する。動作時には、入力単語により分
類テーブルが探索され、入力単語に対応する分類番号が
識別される。1つの単語に対して複数の分類番号が識別
されることもある。識別された分類番号は、単語の接尾
辞又は接頭辞について種々の屈折形を有する特定の屈折
パターン・テーブルを指示する。特定の屈折パターン・
テーブルがその分類番号によって識別されると入力単語
と該屈折パターン・テーブルにある屈折パターンすなわ
ち語尾又は接頭辞の形との突合せ操作(マツチング)が
実行される1例えば、屈折パターン・テーブルが入力単
語と比較すべき種々の語尾形を含んでいる場合は。
入力単語の後の文字から前の文字に向って順にテーブル
内容との突合せを行う、突合せがうまくゆくと、入力単
語に対する文法上の正しい形が識別される。入ガ単語の
うち、突合せで一致した語尾の部分を除いた残りは不変
の要素であって、語幹又は語根と呼ばれる(以下1語幹
で代表させる)。
内容との突合せを行う、突合せがうまくゆくと、入力単
語に対する文法上の正しい形が識別される。入ガ単語の
うち、突合せで一致した語尾の部分を除いた残りは不変
の要素であって、語幹又は語根と呼ばれる(以下1語幹
で代表させる)。
入力単語の語幹は、屈折パターン・テーブルにある種々
の語尾と組合せることによって、当該入力jr1語に関
連する形を構成するのに使用できるにの手法は、言語学
的解析、同義語生成1文書の分類及び検査、文法検査、
文の解剖(パージング)等の種々の応用が可能である。
の語尾と組合せることによって、当該入力jr1語に関
連する形を構成するのに使用できるにの手法は、言語学
的解析、同義語生成1文書の分類及び検査、文法検査、
文の解剖(パージング)等の種々の応用が可能である。
屈折パターン・テーブル中での一致した形の位置は、単
語の文法的機能に対応する。従って本発明によれば、辞
書に含まれるすべての単語を双方向的に関連付けたり識
別したりすることができ、入力単語は任意の形であって
よく5それに関連するすべての形(1&本形を含む)を
識別できる。
語の文法的機能に対応する。従って本発明によれば、辞
書に含まれるすべての単語を双方向的に関連付けたり識
別したりすることができ、入力単語は任意の形であって
よく5それに関連するすべての形(1&本形を含む)を
識別できる。
単語のグループをそれらの形態パターンに従って関連付
けるとデータ圧縮が可能になり、関連語の辞書に必要な
記憶容量を減らすことができる。
けるとデータ圧縮が可能になり、関連語の辞書に必要な
記憶容量を減らすことができる。
また、屈折形のパターンに応じた決定論的グループ分け
が行われるので、言語学的解析にあいまいさは生じない
、その際辞書に現われるすべての単語に各々特定のクラ
スが割当てられる0本発明は、単語のグループを同様な
形態パターンへ組織化することを基本にしているので、
実質的にインドヨーロッパ語族のあらゆる言語に応用で
きる。
が行われるので、言語学的解析にあいまいさは生じない
、その際辞書に現われるすべての単語に各々特定のクラ
スが割当てられる0本発明は、単語のグループを同様な
形態パターンへ組織化することを基本にしているので、
実質的にインドヨーロッパ語族のあらゆる言語に応用で
きる。
D、実施例の説明
Dl、システム構成
本発明に従う言語処理システムの構成を第1図に示す、
このシステムは、種々のルーチン・テーブル、辞書及び
リストを記憶しているシステム・メモリ10、並びにこ
のシステム・メモリ10にシステム・バス12を介して
接続されたキーボード14.実行ユニット16、大容量
記憶装[18゜ディスプレイ20及びプリンタ22で構
成されている。単語はキーボード14から入力され、入
力レジスタ24に保管される。実行ユニット16は、シ
ステム・メモリ10に記憶されている種々のルーチンの
命令を実行する。大容量記憶装置1118は。
このシステムは、種々のルーチン・テーブル、辞書及び
リストを記憶しているシステム・メモリ10、並びにこ
のシステム・メモリ10にシステム・バス12を介して
接続されたキーボード14.実行ユニット16、大容量
記憶装[18゜ディスプレイ20及びプリンタ22で構
成されている。単語はキーボード14から入力され、入
力レジスタ24に保管される。実行ユニット16は、シ
ステム・メモリ10に記憶されている種々のルーチンの
命令を実行する。大容量記憶装置1118は。
種々のルーチン、テーブル、リスト等をシステム・メモ
リ10に初期ロードし、また必要に応じて補助データベ
ースを格納する。ディスプレイ20及びプリンタ22は
、出力レジスタ26の内容を表示したり印刷したりする
標準の出力装置である。
リ10に初期ロードし、また必要に応じて補助データベ
ースを格納する。ディスプレイ20及びプリンタ22は
、出力レジスタ26の内容を表示したり印刷したりする
標準の出力装置である。
システム・メモリ10の内容についてはあとで詳述する
。
。
D2.独立機能
この機能は、任意の単語の任意の形からすべての形に行
くものである(以下特にことわらない限り、単に「形」
といえば、単語の基本形及び屈折形の一方又は両方を意
味するものとする)、屈折形を有するすべての単語が関
連付けられる。言語による差はあるが、このような単語
は、動詞1名詞。
くものである(以下特にことわらない限り、単に「形」
といえば、単語の基本形及び屈折形の一方又は両方を意
味するものとする)、屈折形を有するすべての単語が関
連付けられる。言語による差はあるが、このような単語
は、動詞1名詞。
形容詞、代名詞、及び副詞を含む、(英語の場合は、
5oon、 5ooner、 5oonest/wel
l+better、 best/early、 Car
lier、earliest等の若干の例外を除くと、
殆んどの副詞は1つの形しか持たない、)屈折形を持た
ない単語は品詞情報を与えるように分類される(パダミ
ー・クラス″と関連付けられる)。例えば英単語の”b
ehind”は、前置詞(屈折形なし)としてのクラス
と、副詞(屈折形なし)としてのクラスと、名詞(複数
形の’bahinds″′がある)としてのクラスとを
持っている。
5oon、 5ooner、 5oonest/wel
l+better、 best/early、 Car
lier、earliest等の若干の例外を除くと、
殆んどの副詞は1つの形しか持たない、)屈折形を持た
ない単語は品詞情報を与えるように分類される(パダミ
ー・クラス″と関連付けられる)。例えば英単語の”b
ehind”は、前置詞(屈折形なし)としてのクラス
と、副詞(屈折形なし)としてのクラスと、名詞(複数
形の’bahinds″′がある)としてのクラスとを
持っている。
″形機能′″ (本システムを独立型においてこう呼ぶ
)は、成る単語がとり得るすべての品詞の形を示す1例
えば英単語の1“d o v e ”は動詞“dive
”からくるものであるか(他の関連する形はdives
及びdiving) 、又は名詞”dove”からのも
のである(他の関連する形はdoves) @この機能
は、六方単語”dove’″につぃて動詞又は名詞のす
べての形を要求により示す。
)は、成る単語がとり得るすべての品詞の形を示す1例
えば英単語の1“d o v e ”は動詞“dive
”からくるものであるか(他の関連する形はdives
及びdiving) 、又は名詞”dove”からのも
のである(他の関連する形はdoves) @この機能
は、六方単語”dove’″につぃて動詞又は名詞のす
べての形を要求により示す。
この機能は辞書中のすべての単語を関連付け、識別する
もので、従来可能であったものよりも多くの言語学的情
報を与える。形態論以前は、ハイフン情報、品詞情報、
及びゲルマン諸諸における複合語を検査するためのコー
ドしかなかった。形態論を辞書に組込む場合は、動詞に
関して次のような情報を持たせる。
もので、従来可能であったものよりも多くの言語学的情
報を与える。形態論以前は、ハイフン情報、品詞情報、
及びゲルマン諸諸における複合語を検査するためのコー
ドしかなかった。形態論を辞書に組込む場合は、動詞に
関して次のような情報を持たせる。
(a)人称及び数
1人称単数=I 1人称複数=ve2人称単
数=you 2人称複数=you3人称単数=
he、 she、it 3人称複数= they(b
)時制 不定詞、現在、過去、及び過去分詞 (他の言語では、助動詞によらないでより多くの時制を
持つものがある。例えば、I ”wo、uldbrin
g”は条件時制と呼ばれるもので、英語では2つの単語
で示されるが、フランス語では次のように1つで示され
る: J’apportarais=I wouldb
ring) (c)法 仮定法及び直脱法 名詞については、英語の場合は数情報があり、不規則変
化の単語を関連付け、識別する(単数か複数)ことがで
きる。
数=you 2人称複数=you3人称単数=
he、 she、it 3人称複数= they(b
)時制 不定詞、現在、過去、及び過去分詞 (他の言語では、助動詞によらないでより多くの時制を
持つものがある。例えば、I ”wo、uldbrin
g”は条件時制と呼ばれるもので、英語では2つの単語
で示されるが、フランス語では次のように1つで示され
る: J’apportarais=I wouldb
ring) (c)法 仮定法及び直脱法 名詞については、英語の場合は数情報があり、不規則変
化の単語を関連付け、識別する(単数か複数)ことがで
きる。
英語の名詞には、単数形と複数形が同じもの(shee
p等)や、不規則な複数形を持つもの(Imouse(
単)とm1ce (複)、 addendum(単)と
addenda (複)等)がある。
p等)や、不規則な複数形を持つもの(Imouse(
単)とm1ce (複)、 addendum(単)と
addenda (複)等)がある。
ロマンス語(フランス語、スペイン語、イタリア語、ポ
ルトガル語等)には性情報がある。例えば女性名詞の場
合、それを修飾する形容詞の語尾変化は女性形である(
数によっても変化する)。
ルトガル語等)には性情報がある。例えば女性名詞の場
合、それを修飾する形容詞の語尾変化は女性形である(
数によっても変化する)。
ドイツ語には、男性及び女性の他に中性があり、また格
(主格、4格、所有格及び対格)もある。
(主格、4格、所有格及び対格)もある。
名詞の形は、英語の場合は2種類であるが、ドイツ語の
場合は17種類ある。本発明は、各言語の各品詞につい
て必要とされるすべての形を取り扱うことができる。
場合は17種類ある。本発明は、各言語の各品詞につい
て必要とされるすべての形を取り扱うことができる。
本発明はまたtravelling及びtraveli
ngの如き異なった綴りを有する単語を識別する。ノル
ウェー語には、6種類の綴りを持った単語が幾つかある
。
ngの如き異なった綴りを有する単語を識別する。ノル
ウェー語には、6種類の綴りを持った単語が幾つかある
。
実用上は、この機能は例えば次のようなことをユーザに
知らせる。
知らせる。
11 have swum又はI have swam
−I have dreamed又はI have d
reamt・複数形” a d d e n d u
m s ”は可能か、又は” a d d e n d
a ”たけか ・“boBoes”か、又は”bongos”か1“c
rescendoes ”か、又は’ crescen
dos ”か・“afterlifes”か、又は”a
fterlives”か+”electrolysis
es”か、又は’ 01ectrolyses”か 、 IIH5huの複数形は”fishes”か、又は
ii fjsh #か ・1oaf″の複数形は’1oafs”か、又は”1o
aves”か(例えば、動詞の場合は、flheloa
fs all day”と云えるが、名詞の場合は、”
there are many 1oafs of b
read”とは云えない。“1eafs”も同じである
。)本発明は、単語について多くの形を持った言語で主
要になる。言語を教えたり学んだりするための道具とし
てこの機能は極めて有用である。従来は1例えばII
b uyII及び’bought”が共に動詞であるこ
とは知ることできたが、それらが関連しているかどうか
を知ることはできなかった。
−I have dreamed又はI have d
reamt・複数形” a d d e n d u
m s ”は可能か、又は” a d d e n d
a ”たけか ・“boBoes”か、又は”bongos”か1“c
rescendoes ”か、又は’ crescen
dos ”か・“afterlifes”か、又は”a
fterlives”か+”electrolysis
es”か、又は’ 01ectrolyses”か 、 IIH5huの複数形は”fishes”か、又は
ii fjsh #か ・1oaf″の複数形は’1oafs”か、又は”1o
aves”か(例えば、動詞の場合は、flheloa
fs all day”と云えるが、名詞の場合は、”
there are many 1oafs of b
read”とは云えない。“1eafs”も同じである
。)本発明は、単語について多くの形を持った言語で主
要になる。言語を教えたり学んだりするための道具とし
てこの機能は極めて有用である。従来は1例えばII
b uyII及び’bought”が共に動詞であるこ
とは知ることできたが、それらが関連しているかどうか
を知ることはできなかった。
従来の計算機能を利用した言語学的手法は、不定詞から
他の形に行けるだけであった(単方向性)。
他の形に行けるだけであった(単方向性)。
これに対して本発明は、不定詞からすべての形に行ける
だけでなく、任意の形から他のすべての関連形に行くこ
とができる(双方向性)。前述のように、従来の手法に
は次のような欠点がある6(1)双方向性ではない。
だけでなく、任意の形から他のすべての関連形に行くこ
とができる(双方向性)。前述のように、従来の手法に
は次のような欠点がある6(1)双方向性ではない。
(2)簡潔ではない。
(3)包括的ではない。
(4)誤りが生じやすい。
アルゴリズムを用いて形態情報を決める手法では、II
V語の個々の特殊性を取り扱えない0例えば、11 f
Itで終る名詞の場合、普通は最後の11 f 77
を落として“ves’″を付けることにより複数形を作
る。しかし、例えば II beef $1は“bee
fs”及び“b e a v e s ″という2つの
複数形を持っている。
V語の個々の特殊性を取り扱えない0例えば、11 f
Itで終る名詞の場合、普通は最後の11 f 77
を落として“ves’″を付けることにより複数形を作
る。しかし、例えば II beef $1は“bee
fs”及び“b e a v e s ″という2つの
複数形を持っている。
この他にも、複数形が不規則なものとして。
”criterion”と“criteria”、bu
3″と” b u s e s ” 又は” b u
s s e s ”、複数形のない”bioche+5
istry”。
3″と” b u s e s ” 又は” b u
s s e s ”、複数形のない”bioche+5
istry”。
”bagful”と” b ag s f u l ”
又は”bagfulg”等がある・本発明は単語対応型
であって、あらゆる不規則性及び特殊性を取り扱える。
又は”bagfulg”等がある・本発明は単語対応型
であって、あらゆる不規則性及び特殊性を取り扱える。
(5)言語従属型である
本発明は融通性に富んでおり、すべての言語に対して適
用できる。
用できる。
第2図及び第3図は形機能の流れを示したものである。
フローチャート中の(辞書」については米国特許第43
42085号明細書に詳しい。
42085号明細書に詳しい。
「語尾テーブル」のところで基本形を見つけるため、所
与の単語に関するクラス・テーブルによって識別された
語尾テーブル(複数も可)を用いて拍ノ4の突合せを行
う。成る語尾が一致すると(後述のスキップ・カウント
を考慮する)、当該単語の残りの前部分(語幹)を取り
出し、最初の形のために語尾を付加する。
与の単語に関するクラス・テーブルによって識別された
語尾テーブル(複数も可)を用いて拍ノ4の突合せを行
う。成る語尾が一致すると(後述のスキップ・カウント
を考慮する)、当該単語の残りの前部分(語幹)を取り
出し、最初の形のために語尾を付加する。
002(EV) 009(EV) 901(E
N)01、 01i#% 0102s
02ij% 02 s03 ad
03 ouJ%04 ing
04 i1%ing05 ad 05
ou#%クラス002の場合、 woundに合う
唯一の語尾はブランクであり、従って語幹は”woun
d″′である。最初の語尾(ブランク)を語幹に付加す
ると基本形“wound”が得られる。コードEVは、
当該単語が動詞であることを示す。
N)01、 01i#% 0102s
02ij% 02 s03 ad
03 ouJ%04 ing
04 i1%ing05 ad 05
ou#%クラス002の場合、 woundに合う
唯一の語尾はブランクであり、従って語幹は”woun
d″′である。最初の語尾(ブランク)を語幹に付加す
ると基本形“wound”が得られる。コードEVは、
当該単語が動詞であることを示す。
クラス069の場合、 woundに合う語尾はou1
%である(nもdも子音のため)。この場合は、#=n
及び%=dである。この語尾を取り去ると。
%である(nもdも子音のため)。この場合は、#=n
及び%=dである。この語尾を取り去ると。
語幹” w ”が得られる。次に語尾形01(今の場合
はif%=ind)に行き、それを語幹に付加すると、
基本形゛″wind”が得られる6 クラス901の場合、νoundに合う唯一の語尾はブ
ランクであり、従って語幹は°〜oand” である。
はif%=ind)に行き、それを語幹に付加すると、
基本形゛″wind”が得られる6 クラス901の場合、νoundに合う唯一の語尾はブ
ランクであり、従って語幹は°〜oand” である。
最初の語尾(ブランク)を語幹に付加すると。
基本形”wound”が得られる。コードENは、当該
単語が名詞であることを示す。
単語が名詞であることを示す。
上述の3つの基本形は中間画面の情報を与える。
ユーザがそのうちの最初の基本形を選択すると、システ
ムは下記の情報を示す。
ムは下記の情報を示す。
動詞:
不定詞 讐ound
現在分詞 wounding
過去分詞 wounded
直脱法現在
I wound we ti
oundyou wound yo
u woundhe+ she+ it −ou
nds they wound過
去 I 1roundad we
woundedyou wounded
you woundedhe、′she、 it
wounded they wounda
dユーザが2看目の基本形を選択すると、システムは下
記の情報を示す。
oundyou wound yo
u woundhe+ she+ it −ou
nds they wound過
去 I 1roundad we
woundedyou wounded
you woundedhe、′she、 it
wounded they wounda
dユーザが2看目の基本形を選択すると、システムは下
記の情報を示す。
動詞:
不定詞 νind
現在分詞 讐inding
過去分詞 wound
直脱法現在
I wind we win
dyou wind you w
indhe、 she、 it winds
they wind過去 I wound’ we wound
you wound you w
oundhe、 she、 it wound
they woundユーザが31目の基本形を
選択すると、システムは下記の情報を示す。
dyou wind you w
indhe、 she、 it winds
they wind過去 I wound’ we wound
you wound you w
oundhe、 she、 it wound
they woundユーザが31目の基本形を
選択すると、システムは下記の情報を示す。
名詞:
単数 itound
複数 wounds
D2.1 処理の流れ(形態論的並列データベースのア
クセス) 多くのアプリケーションは形態論的データベースを様々
な目的で用いる。ここでは、任意のアプリケーションに
ついてテーブルを用し)るためしこ実行しなければなら
ない内部オペレーションを説明する。この説明は、同義
語及び活用/語形変イし解析指令をサポートする形態論
的テーブル処理の最初の実施に基づいている。他のアプ
リケーションは、ヨーロッパ言語用の文法解析、及び同
義語照会/キーワード文書索引機能を含む。
クセス) 多くのアプリケーションは形態論的データベースを様々
な目的で用いる。ここでは、任意のアプリケーションに
ついてテーブルを用し)るためしこ実行しなければなら
ない内部オペレーションを説明する。この説明は、同義
語及び活用/語形変イし解析指令をサポートする形態論
的テーブル処理の最初の実施に基づいている。他のアプ
リケーションは、ヨーロッパ言語用の文法解析、及び同
義語照会/キーワード文書索引機能を含む。
D2.2処理
ここでは、形機能或いは単語活用形表示機能をサポート
するのに必要なオペレーションを考える。
するのに必要なオペレーションを考える。
これはテーブルを用いた処理の代表的なもので、この機
能は本システムの全能力を働かせる。形機能においては
、テキスト中の1つの単語に対して、動詞のすにての活
用形又は名詞のすべての語形変化を示すために辞書プロ
セッサを呼出すことが要求される。例えば、英語の動詞
11be″′の解析を要求すると、次のような結果が一
例として得られる。
能は本システムの全能力を働かせる。形機能においては
、テキスト中の1つの単語に対して、動詞のすにての活
用形又は名詞のすべての語形変化を示すために辞書プロ
セッサを呼出すことが要求される。例えば、英語の動詞
11be″′の解析を要求すると、次のような結果が一
例として得られる。
不定詞: to be
完了形不定詞: to hnve been現
在分詞: being 過去分詞: been 直脱法: 現在 I aIlwe are you are yo
u arehe(she、 1t)is
tbey are過去 I was
we wereyou 1Ilere
you itarehe(she、
1t)tzas they ware現在完了
I have been we have
beenyou have been y
ou have beenhe(she、 1t)ha
s been they have been上記の
他にも、過去完了、未来完了、仮定法及び命令法を含む
すべての時制が示される。次に、第4図を参照しながら
、処理の各ステップについて説明する。
在分詞: being 過去分詞: been 直脱法: 現在 I aIlwe are you are yo
u arehe(she、 1t)is
tbey are過去 I was
we wereyou 1Ilere
you itarehe(she、
1t)tzas they ware現在完了
I have been we have
beenyou have been y
ou have beenhe(she、 1t)ha
s been they have been上記の
他にも、過去完了、未来完了、仮定法及び命令法を含む
すべての時制が示される。次に、第4図を参照しながら
、処理の各ステップについて説明する。
ステップ1:単語が単純文字トリングとしてその長さと
共に辞書サービス・ルーチン28へ送られる。
共に辞書サービス・ルーチン28へ送られる。
ステップ2:活用援助ルーチン3oが呼出される。この
ルーチンは処理全体の上位レベル管理プログラムである
。
ルーチンは処理全体の上位レベル管理プログラムである
。
ステップ3:活用擾助ルーチン30が単語を主辞書探索
ルーチン32へ送る。主辞書探索ルーチン32は、入力
単語24が正しいものであるかどうかを調べるために主
辞書データベース34(第、図参照)を探索する。探索
により一致する単語が見つかると、それを−、意的に識
別する索引番号が活用援助ルーチン30に戻される・主
辞書で一致する単語が見つからなければ、入力単語が誤
っているから、その時点で処理は終了する。
ルーチン32へ送る。主辞書探索ルーチン32は、入力
単語24が正しいものであるかどうかを調べるために主
辞書データベース34(第、図参照)を探索する。探索
により一致する単語が見つかると、それを−、意的に識
別する索引番号が活用援助ルーチン30に戻される・主
辞書で一致する単語が見つからなければ、入力単語が誤
っているから、その時点で処理は終了する。
ステップ4:活用援助ルーチン30がクラス。
テーブル36(第1図参照)を探索するルーチン38を
呼出す。このテーブル36は、主辞書34にある単語項
目毎に1つ又は複数のクラス番号を含む、クラス・テー
ブル探索ルーチン38は、探索を開始する適切なレコー
ド番号を得るため、入力単語の索引番号を、クラス・テ
ーブルの索引に対する探索キーとして用いる0次いで、
このルーチンは当該テーブル・レコードにおける最初の
ニブル(4ビット項目)から始めて、ニブル単位で探索
を進め、入力単語の主辞書索引番号と一致するまでカウ
ントを増分する。このように、適切なレコードへの直接
ランダム・アクセス及びニブル単位での順次探索を組合
せると、アクセス時間が速くなると共に、テーブルの大
きさを最小限度に抑えることができる。
呼出す。このテーブル36は、主辞書34にある単語項
目毎に1つ又は複数のクラス番号を含む、クラス・テー
ブル探索ルーチン38は、探索を開始する適切なレコー
ド番号を得るため、入力単語の索引番号を、クラス・テ
ーブルの索引に対する探索キーとして用いる0次いで、
このルーチンは当該テーブル・レコードにおける最初の
ニブル(4ビット項目)から始めて、ニブル単位で探索
を進め、入力単語の主辞書索引番号と一致するまでカウ
ントを増分する。このように、適切なレコードへの直接
ランダム・アクセス及びニブル単位での順次探索を組合
せると、アクセス時間が速くなると共に、テーブルの大
きさを最小限度に抑えることができる。
ステップ5:活用援助ルーチン30は、ステップ4で戻
されたクラス番号を用いることによって。
されたクラス番号を用いることによって。
可能な各クラスを定義する項目を含む別のテーブル(:
!i尾子テーブル40をアクセスすることができる。各
クラスは1時制、人称又は数を示す代表的な接尾辞すな
わち語尾のリストとして定義される。動詞、名詞、形容
詞等の各品詞は一組のクラス、すなわち代表的語尾のリ
ストを持っている。
!i尾子テーブル40をアクセスすることができる。各
クラスは1時制、人称又は数を示す代表的な接尾辞すな
わち語尾のリストとして定義される。動詞、名詞、形容
詞等の各品詞は一組のクラス、すなわち代表的語尾のリ
ストを持っている。
ステップ4で戻されたクラス番号を用いることにより1
語尾テーブル探索ルーチン42は語尾テーブル40の索
引を探索して、適切なりラスを直接アクセスすることが
できる。(前述のように、クラスは単語の形を変えるの
に用いる代表的語尾の集合であり、英語の場合、例えば
動詞クラスは、−ed、−ing、−3等の語尾を含む
、)ステップ6:ここでは1M尾突合せルーチン44で
語尾リストを用いて単語の変化しない部分すなゎち語幹
を求めるため、入力単語の語尾トリスト中の各語尾を突
合せる6例えば、久方単語ヲ” helping ”と
すると、リスト中の語尾−3や−adとの突合せでは不
一致が生ずるが、 −ingとの突合せで一致が生じ、
従って語幹として、“help”が得られる。
語尾テーブル探索ルーチン42は語尾テーブル40の索
引を探索して、適切なりラスを直接アクセスすることが
できる。(前述のように、クラスは単語の形を変えるの
に用いる代表的語尾の集合であり、英語の場合、例えば
動詞クラスは、−ed、−ing、−3等の語尾を含む
、)ステップ6:ここでは1M尾突合せルーチン44で
語尾リストを用いて単語の変化しない部分すなゎち語幹
を求めるため、入力単語の語尾トリスト中の各語尾を突
合せる6例えば、久方単語ヲ” helping ”と
すると、リスト中の語尾−3や−adとの突合せでは不
一致が生ずるが、 −ingとの突合せで一致が生じ、
従って語幹として、“help”が得られる。
ステップ7:所与の言語における各単語は基本形を有し
ており、時制、人称、数等を示すすべての屈折形はこの
基本形に関係している。ステップ9で戻される語幹は基
本形のこともあるが、戻された語幹に特別の語尾を付加
することによって基本形を生成しなければならない場合
もある。語尾テーブル40は、基本形を得るために語幹
に語尾を付加すべきか否かを示す。同義語機能の場合。
ており、時制、人称、数等を示すすべての屈折形はこの
基本形に関係している。ステップ9で戻される語幹は基
本形のこともあるが、戻された語幹に特別の語尾を付加
することによって基本形を生成しなければならない場合
もある。語尾テーブル40は、基本形を得るために語幹
に語尾を付加すべきか否かを示す。同義語機能の場合。
同義語辞書にはノん木彫の項目しか含まれていないので
、基本形を知ることは重要である。
、基本形を知ることは重要である。
ステップ8ニステツプ6が終った時点で、処理の流れは
、ポインタ・リスト・ルーチン48により、位置に応じ
て位べられた語尾ポインタのリスト46を参照すること
1;よって単語のすべての形(基本形を含む)を生成で
きるようになる。ポインタ・リスト46は語尾自身と共
に記憶される。
、ポインタ・リスト・ルーチン48により、位置に応じ
て位べられた語尾ポインタのリスト46を参照すること
1;よって単語のすべての形(基本形を含む)を生成で
きるようになる。ポインタ・リスト46は語尾自身と共
に記憶される。
リスト中のポインタは、ステップ6で使った語尾文字ス
トリングを示すが、ここでは語尾を別の目的で用いる。
トリングを示すが、ここでは語尾を別の目的で用いる。
ステップ6では、−ad、s、−ing等の語尾を突合
せに用いていたが、ステップ8では、入力単語のすべて
の形(時制、人称及び数に関するすべての変化を含む)
を生成するのに用いる。
せに用いていたが、ステップ8では、入力単語のすべて
の形(時制、人称及び数に関するすべての変化を含む)
を生成するのに用いる。
ポインタ・リスト46の内容は位置に応じた配列になっ
ている。すなわち、最初のポインタは、最初の形(例え
ば動詞の原形)を生成するのに必要な語尾を示し、2番
目のポインタは2番目の形(例えば動詞の過去形)を生
成するのに必要な語尾を示す(以下同様)。特定のポイ
ンタによって示された語尾がわかると、それをステップ
6で求めた語幹に付加することにより、対応する形が生
成される。ステップ7で述べた基本形もこれと同じ方法
で生成される。ポインタ・リスト46中の最初のポイン
タは、M初の形すなわち基本形を生成するのに必要な語
尾を示す。特定の言語の特定の品詞に関しては、リス1
−中のポインタの位置は不変であり、形を完全に識別す
る。しかし本発明の特長の1つは、各言語における特殊
な形をカバーするように、言語に応じてポインタの位置
を変えられるということである・例えばリスト中の3番
目のポインタが、英語の動詞クラスにおし)て(ま1人
称過去形に用いる語尾を示し・フランス語の動詞クラス
においては2人称現在形に用いる語尾を示すようにでき
る。基本となる考え方は、コード及びテーブルの構造を
包括的で統一のとれたものにしておくと、言語によって
異なるすべての形の変化に対処できるということである
。
ている。すなわち、最初のポインタは、最初の形(例え
ば動詞の原形)を生成するのに必要な語尾を示し、2番
目のポインタは2番目の形(例えば動詞の過去形)を生
成するのに必要な語尾を示す(以下同様)。特定のポイ
ンタによって示された語尾がわかると、それをステップ
6で求めた語幹に付加することにより、対応する形が生
成される。ステップ7で述べた基本形もこれと同じ方法
で生成される。ポインタ・リスト46中の最初のポイン
タは、M初の形すなわち基本形を生成するのに必要な語
尾を示す。特定の言語の特定の品詞に関しては、リス1
−中のポインタの位置は不変であり、形を完全に識別す
る。しかし本発明の特長の1つは、各言語における特殊
な形をカバーするように、言語に応じてポインタの位置
を変えられるということである・例えばリスト中の3番
目のポインタが、英語の動詞クラスにおし)て(ま1人
称過去形に用いる語尾を示し・フランス語の動詞クラス
においては2人称現在形に用いる語尾を示すようにでき
る。基本となる考え方は、コード及びテーブルの構造を
包括的で統一のとれたものにしておくと、言語によって
異なるすべての形の変化に対処できるということである
。
ステップ9:これですべての形が内部的に生成されたこ
とになり、従ってそれらは表示のため表示管理ルーチン
50に送られる。
とになり、従ってそれらは表示のため表示管理ルーチン
50に送られる。
(注=1つの単語についてステップ4で2以上のクラス
番号が戻された場合は、その各クラ 。
番号が戻された場合は、その各クラ 。
ス番号毎にステップ5〜8を繰返すことになる。例えば
′″r u n ”が入力されると、動詞クラス番号及
び名詞クラス番号で戻される。
′″r u n ”が入力されると、動詞クラス番号及
び名詞クラス番号で戻される。
D2.3 検討事項
(イ)デフオールド語尾テーブル
所与の品詞に関する語尾テーブルには、1つ又は2つの
形を生成するための語尾だけが異なっていて残りは同じ
ものが幾つかある。多くの同じ語尾を重複して保持する
のは無駄であるから、所与のクラスが他の成るクラスと
殆んど同じ場合には、後者のクラスが参照され、実際に
異なっている部分だけが指定される。テーブル構造の詳
細についてはあとで説明する。
形を生成するための語尾だけが異なっていて残りは同じ
ものが幾つかある。多くの同じ語尾を重複して保持する
のは無駄であるから、所与のクラスが他の成るクラスと
殆んど同じ場合には、後者のクラスが参照され、実際に
異なっている部分だけが指定される。テーブル構造の詳
細についてはあとで説明する。
(ロ)スキップ・カウント
クラス内での突合せ処理は順次的である。すなわち、そ
のクラスの最初の語尾が入力単語と突合され、それがう
まくいかなければ、2番目の語尾・が試みられ、以下同
様にして一致が生じるまで、後続の語尾が順次に試みら
れる。しかし時には、正しい語尾に出会う前に、それと
は別の語尾で一致が生じてしまうことがある。これは、
語尾リストを構成している文字ストリングに同一性があ
るためである。圧縮のために幾つかのクラスの語尾を併
合した場合にもこのような一致が生じ得る。
のクラスの最初の語尾が入力単語と突合され、それがう
まくいかなければ、2番目の語尾・が試みられ、以下同
様にして一致が生じるまで、後続の語尾が順次に試みら
れる。しかし時には、正しい語尾に出会う前に、それと
は別の語尾で一致が生じてしまうことがある。これは、
語尾リストを構成している文字ストリングに同一性があ
るためである。圧縮のために幾つかのクラスの語尾を併
合した場合にもこのような一致が生じ得る。
この問題を解決するため、各単語について尚早一致が生
じるか否かを示す単一ビットがクラス・テーブルに設け
られる。このビットがオンであれば、尚早一致の数を示
すカウント(スキップ・カラン1、)がクラス番号と共
に保持される。これの−例を次に述べる。
じるか否かを示す単一ビットがクラス・テーブルに設け
られる。このビットがオンであれば、尚早一致の数を示
すカウント(スキップ・カラン1、)がクラス番号と共
に保持される。これの−例を次に述べる。
入力単語がフランス語の”brillera”であった
とする。これは、クラス003において語尾番号12の
“1 e r a ”と一致し、従ってこのままであれ
ば語幹はLLbrHllになる。しかし、正しい語幹は
“brill”であるから“1era”での一致を無視
するために、単語”brillara”について尚早一
致ビットがターンオンされると共にスキップ・カウント
″“1″が保持される。この結果、システムは”1er
a”で一致が生じてもそれを無視してテーブル探索を進
め1次に語尾番号28の” e r a IIのところ
で再び一致を見出す。スキップ・カウントは1であるか
ら、この2回目の一致は有効である。従ってシステムは
、単語“brillera”のすべての形を形成するた
めの語幹として”brill’″を戻す。
とする。これは、クラス003において語尾番号12の
“1 e r a ”と一致し、従ってこのままであれ
ば語幹はLLbrHllになる。しかし、正しい語幹は
“brill”であるから“1era”での一致を無視
するために、単語”brillara”について尚早一
致ビットがターンオンされると共にスキップ・カウント
″“1″が保持される。この結果、システムは”1er
a”で一致が生じてもそれを無視してテーブル探索を進
め1次に語尾番号28の” e r a IIのところ
で再び一致を見出す。スキップ・カウントは1であるか
ら、この2回目の一致は有効である。従ってシステムは
、単語“brillera”のすべての形を形成するた
めの語幹として”brill’″を戻す。
(ハ)語尾における総称文字
語尾を付加して屈折形を生成するとき、文字を若干変更
しなければならないことがある。この変更が一定の規則
に従っていると1語尾リストにおいてそれを一般的に指
定することができる0例えば、英語の動詞には、run
ning、 betting、grabbing等のよ
うに、 −ingを付加するときに最後の子音を2重化
するものがかなりある。従って。
しなければならないことがある。この変更が一定の規則
に従っていると1語尾リストにおいてそれを一般的に指
定することができる0例えば、英語の動詞には、run
ning、 betting、grabbing等のよ
うに、 −ingを付加するときに最後の子音を2重化
するものがかなりある。従って。
別々の語尾リストを準備する代りに、システムは、最後
の子音の2重化を示す’−#ing”を含んだ単一のリ
ストを参照する。かくて、 run、 bat、 gr
ab等の動詞については1つのクラスですむ。このよう
な取扱いは種々な言語で可能である。
の子音の2重化を示す’−#ing”を含んだ単一のリ
ストを参照する。かくて、 run、 bat、 gr
ab等の動詞については1つのクラスですむ。このよう
な取扱いは種々な言語で可能である。
(ニ)テーブルの圧縮技術
テーブル・データには何種類がの共通性及び繰返しパタ
ーンがあるから、これを十分に利用する。
ーンがあるから、これを十分に利用する。
例えば、語尾に用いるアルファベット文字に対し。
最も頻繁に呪われる文字が最短のコードを有するように
、頻度に基いてコードを割当てる。更に。
、頻度に基いてコードを割当てる。更に。
主辞書34中で順番に並んでいる単語が同一のクラス°
データを有している場合は、それを単語毎に繰返す代り
に、カウントを保持する。別の例はグラス番号の割当て
である。ここでも、最も頻繁に使用されるクラスに対し
て最も小さい番号を割当てる。また実験によれば、テー
ブルに含まれるデータの性質」―、コード化の最小デー
タ単位を2ビツトにすれば最適の圧縮を行えることがわ
かった。ただしこれが適用されるのはテーブルだけであ
り、IIII書では別の単位を用いる。
データを有している場合は、それを単語毎に繰返す代り
に、カウントを保持する。別の例はグラス番号の割当て
である。ここでも、最も頻繁に使用されるクラスに対し
て最も小さい番号を割当てる。また実験によれば、テー
ブルに含まれるデータの性質」―、コード化の最小デー
タ単位を2ビツトにすれば最適の圧縮を行えることがわ
かった。ただしこれが適用されるのはテーブルだけであ
り、IIII書では別の単位を用いる。
(ホ)不規則語
単語には、ttbθ′″のように、共通部分のないもの
がある。これらは不規則語と呼ばれる。例えば、基本形
″′gO″の1つの屈折形である” w e n t
”は“go Itと同じ文字を含んでいない。しかし、
不規則語に対しても、前と同じテーブル構造及びアクセ
ス・コー1(を用いることができる。11go”を例に
とると。
がある。これらは不規則語と呼ばれる。例えば、基本形
″′gO″の1つの屈折形である” w e n t
”は“go Itと同じ文字を含んでいない。しかし、
不規則語に対しても、前と同じテーブル構造及びアクセ
ス・コー1(を用いることができる。11go”を例に
とると。
”go”が割当てられている動詞クラスのための語)6
を、−ing、−want、−one等のように設定し
、入力単語との突合せを必要に応じてその左端の文字ま
で含めて行えばよい。入力単語が’went”の場合は
、それとテーブル中の語尾″’went”とが完全に一
致することになる。II gon 、IIの場合は語尾
゛″o n e ”で一致が生じ、“g”だけが残る。
を、−ing、−want、−one等のように設定し
、入力単語との突合せを必要に応じてその左端の文字ま
で含めて行えばよい。入力単語が’went”の場合は
、それとテーブル中の語尾″’went”とが完全に一
致することになる。II gon 、IIの場合は語尾
゛″o n e ”で一致が生じ、“g”だけが残る。
一致した語尾を除いた残りの部分が如何なるものであっ
ても(”went’″のように何も残らない場合もある
)、当該クラス中の残りの単語を語尾を用いて構成する
ことができる。
ても(”went’″のように何も残らない場合もある
)、当該クラス中の残りの単語を語尾を用いて構成する
ことができる。
(へ)同じ形の複数綴り
単語の中には、その所与の形(例えば動詞の過去分詞)
を表わすのに2種類の綴りを持っているものがある。こ
れは英語ではそう珍しいことではなく、過去分詞を例に
とると、beむ/betted。
を表わすのに2種類の綴りを持っているものがある。こ
れは英語ではそう珍しいことではなく、過去分詞を例に
とると、beむ/betted。
pled/pleaded、 wrapt/wrapp
ed+drea+mt/areamed等、多くの例が
ある。ノルウェー類には同じ形を表わすのに6種類の終
りを持っている単語がある。本発明は、このような複数
綴りにも対処できる。
ed+drea+mt/areamed等、多くの例が
ある。ノルウェー類には同じ形を表わすのに6種類の終
りを持っている単語がある。本発明は、このような複数
綴りにも対処できる。
(ト)性情報
語尾リストは、各単語の変化情報だけでなく。
必要に応じて性情報も特定する・これは、殆んどノヨー
ロッパ系言語で重要となる。
ロッパ系言語で重要となる。
(チ)特定形の欠如
各単語はすべての形を持っているわけではなく特定の形
がないものが多い。例えば、“”snow″や”rai
n”は命令形を持ってい°ない9本システムはこのよう
な単語を正しく分析し、存在していない形を生成量るこ
とはない。
がないものが多い。例えば、“”snow″や”rai
n”は命令形を持ってい°ない9本システムはこのよう
な単語を正しく分析し、存在していない形を生成量るこ
とはない。
D、3 同義語
同義語、¥?lFは基本形の見出ししか持っていないの
で、成る単語について同義語を見つけるためには、まず
その基本形を知る必要がある。これは。
で、成る単語について同義語を見つけるためには、まず
その基本形を知る必要がある。これは。
これまで説明してまた本発明の形態論的システムにより
達成される。従って、ユーザが成る単語の任意の形を示
してその同義語を要求すると、基本形(複数のこともあ
る)を見つけるため、内部的に同義語システムが形態論
的システムを呼出す。
達成される。従って、ユーザが成る単語の任意の形を示
してその同義語を要求すると、基本形(複数のこともあ
る)を見つけるため、内部的に同義語システムが形態論
的システムを呼出す。
例えば、ユーザが’reading”を入力すると、形
態論的システムは基本形として“’read” (動詞
)及び’rCading” (名詞)を出力する。同義
語システムはこれらを用いて同義語辞書をアクセスする
ことにより、次のような同義語を表示する。
態論的システムは基本形として“’read” (動詞
)及び’rCading” (名詞)を出力する。同義
語システムはこれらを用いて同義語辞書をアクセスする
ことにより、次のような同義語を表示する。
動詞”read″:
understand、 accept+appreh
end、 catch++”construe、 1n
terpret+ taka=show、 1ndic
ate、 +*ark11名詞”reading” : 1nterpretation、 randition
%execution。
end、 catch++”construe、 1n
terpret+ taka=show、 1ndic
ate、 +*ark11名詞”reading” : 1nterpretation、 randition
%execution。
perforwanca、 realization”
入力単語が“す。und#の場合は、第3図に示したよ
うに、3つの基本形が得られ、同義語システムはそれら
に基いて次のような同義語を表示する。
入力単語が“す。und#の場合は、第3図に示したよ
うに、3つの基本形が得られ、同義語システムはそれら
に基いて次のような同義語を表示する。
名詞“wound” :
trauma、 1njury、 hurt′11+6
動詞11wound″: hurt+ 1njure、 5hock”動詞″w
ind” : twist、 coil、 meander、 5na
ke、 5piral。
動詞11wound″: hurt+ 1njure、 5hock”動詞″w
ind” : twist、 coil、 meander、 5na
ke、 5piral。
curl、 entwine”
inSinuatej111
形態論的システムがなければ、同義語システムは不規則
変化語に関しては全く働かず、また成る単語の1つの屈
折形が別のだ単語の基本形と同じであった場合には、不
正確或いは不完全な出力を生じることがある(例えば、
” becoming”はattractive、 p
retty等の同義語を持っているが、それを動詞”
b e c ocme ”と関連付ける平置てはない)
。
変化語に関しては全く働かず、また成る単語の1つの屈
折形が別のだ単語の基本形と同じであった場合には、不
正確或いは不完全な出力を生じることがある(例えば、
” becoming”はattractive、 p
retty等の同義語を持っているが、それを動詞”
b e c ocme ”と関連付ける平置てはない)
。
この問題は、単語の屈折形が多い言語ではより顕著であ
る。
る。
次に、第5図を参照しながら、同義語処理について説明
する1図から明らかなように、語尾テーブルのブロック
までは第2図及び第3図と同じである。次の処理ブロッ
クでは、入力単語及びすべての基本形において共通する
ものを1つにまとめ、そして同義語テーブルをアクセス
するために、主辞書中の語幹番号及び語尾番号を得る。
する1図から明らかなように、語尾テーブルのブロック
までは第2図及び第3図と同じである。次の処理ブロッ
クでは、入力単語及びすべての基本形において共通する
ものを1つにまとめ、そして同義語テーブルをアクセス
するために、主辞書中の語幹番号及び語尾番号を得る。
同義語テーブルはすべての形についてアクセスされるが
、そのうち同義語を持っている形についてその同義語が
表示される。
、そのうち同義語を持っている形についてその同義語が
表示される。
腹1i
ユーザが”turns”を入力したとする。クラス・テ
ーブル36及び語尾テーブル4oの探索により、クラス
002及び901において基本形turn(v)及びt
urn(n)が見っがる。(V)は動詞、(n)は名詞
を示す、この時点で利用可能なのは、入力単語であるt
urns(n)又はturns(v)と、基本形tur
n(n)及びturn(v)である、共通部分を1つに
まとめると、turns(nv)及びturn (nv
)が得られる。turnsについては既に語幹番号及び
語尾番号を得ているので、次にturnの語幹番号及び
語尾番号を得る。これらに基いて同義語シャドウ・テー
ブルをアクセスすると、turnsについては同義語は
見つからないが、動詞及び名詞のturnについては次
のような同義語が表示される。
ーブル36及び語尾テーブル4oの探索により、クラス
002及び901において基本形turn(v)及びt
urn(n)が見っがる。(V)は動詞、(n)は名詞
を示す、この時点で利用可能なのは、入力単語であるt
urns(n)又はturns(v)と、基本形tur
n(n)及びturn(v)である、共通部分を1つに
まとめると、turns(nv)及びturn (nv
)が得られる。turnsについては既に語幹番号及び
語尾番号を得ているので、次にturnの語幹番号及び
語尾番号を得る。これらに基いて同義語シャドウ・テー
ブルをアクセスすると、turnsについては同義語は
見つからないが、動詞及び名詞のturnについては次
のような同義語が表示される。
動詞”turn” ニ
ーcircla、 gyrate、 revolve1
1+0−bend、 angle” −reverse −break、 plow” 一5prain、wrench” −avert、deflect+1+ −change、alter+ deflect”名詞
“turn”ニ ーrevolution、circuit、gyrat
ion・・・・−bend、bow、crook、cu
rvature、curve=−shift、burs
t= −movament、8シolution11−bou
t、 go、hitch・・−−夕じζ ユーザが’bidding”を入力したとする。クラス
・テーブル36及び語尾テーブル40の探索により。
1+0−bend、 angle” −reverse −break、 plow” 一5prain、wrench” −avert、deflect+1+ −change、alter+ deflect”名詞
“turn”ニ ーrevolution、circuit、gyrat
ion・・・・−bend、bow、crook、cu
rvature、curve=−shift、burs
t= −movament、8シolution11−bou
t、 go、hitch・・−−夕じζ ユーザが’bidding”を入力したとする。クラス
・テーブル36及び語尾テーブル40の探索により。
クラス901.062及び034において基本形bic
lding(n)、bid(v)及びbid(v)が見
つかる。これらと入力単語のbidding(n)又は
biddiB (v)をまとめると、bidding(
nv)及びbid(v)が得られる。
lding(n)、bid(v)及びbid(v)が見
つかる。これらと入力単語のbidding(n)又は
biddiB (v)をまとめると、bidding(
nv)及びbid(v)が得られる。
bj、ddingについては既に主辞書34の探索で語
幹番号及び語尾番号を得ているので、次にbidの語幹
番号及び語尾番号を得る。これらに基いて同義語シャド
ウ・テーブルをアクセスすると、次のような同義語が表
示される。
幹番号及び語尾番号を得ているので、次にbidの語幹
番号及び語尾番号を得る。これらに基いて同義語シャド
ウ・テーブルをアクセスすると、次のような同義語が表
示される。
名詞“bidding” ニ
ーcommand+ charge、 comman
dLlent”−1njunction+1nstru
ction、 mandate、 order動詞“b
id” ニ 一1nvite、ask#鴫・・ −go、 offer” −command、 charge+direct=本
実施例の同義語機能は、関連するシソーラスにおいて使
用可能なすべての同義語を見つけることができるので、
従来の同義語処理よりも優れている。従来は、可能なす
べての品詞のうちの一部しか考慮されておらず、辞書の
取扱いにも限界があり、応用も単一言語に限られ、圧縮
も不十分であった。
dLlent”−1njunction+1nstru
ction、 mandate、 order動詞“b
id” ニ 一1nvite、ask#鴫・・ −go、 offer” −command、 charge+direct=本
実施例の同義語機能は、関連するシソーラスにおいて使
用可能なすべての同義語を見つけることができるので、
従来の同義語処理よりも優れている。従来は、可能なす
べての品詞のうちの一部しか考慮されておらず、辞書の
取扱いにも限界があり、応用も単一言語に限られ、圧縮
も不十分であった。
D、4 文書検索システム
複数言語の文書検索システムは、その処理における3つ
の異なった部分で形態論的処理を必要とする。(文書検
索システムの背景については、例えば特公昭58−28
616号公報を参照されたい) (イ)索引付は 重要な単語すなわちキーワードを決めるため、索引付け
されるべきテキスト中の単語が頻度に応じてランク付け
される。もし成る単語が様々な形で現われ、それらの形
が基本形と関連付けられなければ、それらは別の単語と
みなされて、ランクか下ってしまう。例えば、成る名詞
が全部で122回現れ、そのうち単数形と複数形が半々
であったとすると、もしそれらが形態論的解析によって
関連付けられなければ、頻度についての点数は、実際は
12点であるにもかかわらず、単数形及び複数形がそれ
ぞれ6点ずつを分は合うことになる。
の異なった部分で形態論的処理を必要とする。(文書検
索システムの背景については、例えば特公昭58−28
616号公報を参照されたい) (イ)索引付は 重要な単語すなわちキーワードを決めるため、索引付け
されるべきテキスト中の単語が頻度に応じてランク付け
される。もし成る単語が様々な形で現われ、それらの形
が基本形と関連付けられなければ、それらは別の単語と
みなされて、ランクか下ってしまう。例えば、成る名詞
が全部で122回現れ、そのうち単数形と複数形が半々
であったとすると、もしそれらが形態論的解析によって
関連付けられなければ、頻度についての点数は、実際は
12点であるにもかかわらず、単数形及び複数形がそれ
ぞれ6点ずつを分は合うことになる。
名詞の屈折形が多い言語では、この問題はもつと深刻で
ある。勿論、他の品詞についても同じこと云える。
ある。勿論、他の品詞についても同じこと云える。
例文:
’The General Con5truction
Company isrebuilding our
office、 The offica was r
ebuilt before in 1957 and
in 1963 byother 1ocal
companies−1ife would 1i
ke t。
Company isrebuilding our
office、 The offica was r
ebuilt before in 1957 and
in 1963 byother 1ocal
companies−1ife would 1i
ke t。
have General Con5tructi
on rebuild the mainent
ry、but they usually co
ntract t。
on rebuild the mainent
ry、but they usually co
ntract t。
another co+mpany for m
ain entries and thesub
contractor who rebuilds
entries is notaveilab
le、” (ゼネラル建設が我々のオフィスを改築中です。
ain entries and thesub
contractor who rebuilds
entries is notaveilab
le、” (ゼネラル建設が我々のオフィスを改築中です。
オフィスは以前1957年及び1963年に別の地元会
社によって改築されました。我々としてはゼネラル建設
に正面玄関を改築させたいのですが、彼等は普通正面玄
関については別の会社に請負わせ、玄関を改築する不精
会社はありません、) 上の例文では、単語“rebuild”の幾つかの形(
rebuilding、 rebuilt、 rebu
ild、及びrebuilds)が現われている。もし
形態論的解析を行わなければ、これらの形は別の単語と
みなされ、JJI度点はそれぞれ5点ずつになる。もし
それらが基本形”rebuild”に関連付けられれば
、それに対して4点の頻度点が与えられ、従って’re
build”がキーワードとして認識される可能性が大
きくなる6名詞”co+mpany”は単数形で2回、
複数形で1回現われている。従って、”cos+pan
ies”が”corspany”に関連付けられると2
名詞゛1CO腸p anyIIの頻度点は2点ではなく
3点になる。同様に、単数形が1回及び複数形で2回現
われている名詞11.。t r、 Hにライても、“e
ntriss”が# entryItに関連付けられれ
ば、頻度点は1点ではなく3点になる。
社によって改築されました。我々としてはゼネラル建設
に正面玄関を改築させたいのですが、彼等は普通正面玄
関については別の会社に請負わせ、玄関を改築する不精
会社はありません、) 上の例文では、単語“rebuild”の幾つかの形(
rebuilding、 rebuilt、 rebu
ild、及びrebuilds)が現われている。もし
形態論的解析を行わなければ、これらの形は別の単語と
みなされ、JJI度点はそれぞれ5点ずつになる。もし
それらが基本形”rebuild”に関連付けられれば
、それに対して4点の頻度点が与えられ、従って’re
build”がキーワードとして認識される可能性が大
きくなる6名詞”co+mpany”は単数形で2回、
複数形で1回現われている。従って、”cos+pan
ies”が”corspany”に関連付けられると2
名詞゛1CO腸p anyIIの頻度点は2点ではなく
3点になる。同様に、単数形が1回及び複数形で2回現
われている名詞11.。t r、 Hにライても、“e
ntriss”が# entryItに関連付けられれ
ば、頻度点は1点ではなく3点になる。
(ロ)同義語
文書検索システムにおいても、同義語検索に対する形態
論的システムの重要性は前述したところと変らない、基
本形との関連付けができない限り。
論的システムの重要性は前述したところと変らない、基
本形との関連付けができない限り。
大多数の単語について同義語を見つけることはできない
。
。
(ハ)検索
ユーザが情報を求めて文を入力すると、次に説明するパ
ーザがそれを構文解析し、品詞を決める。
ーザがそれを構文解析し、品詞を決める。
次に、照会で見つかったキーワードと使用可能な文書の
索引付けとを突合せるため、再び形態論的システムによ
って基本形を見つけなければならない1例えばユーザが
次の文を入力したとする。
索引付けとを突合せるため、再び形態論的システムによ
って基本形を見つけなければならない1例えばユーザが
次の文を入力したとする。
”I would 1ike information
on companieswho have reb
uilt entries、”(玄関を改築した会社に
関する情報が欲しい)単語が基本形と関連付けられるの
であれば、単語”C01lpany”、”rebuil
d”及び“entry”について高い頻度点を有する文
書が探索されることになる。
on companieswho have reb
uilt entries、”(玄関を改築した会社に
関する情報が欲しい)単語が基本形と関連付けられるの
であれば、単語”C01lpany”、”rebuil
d”及び“entry”について高い頻度点を有する文
書が探索されることになる。
関連付けがなければ、” c ota p a n i
e s ”、”rebuHt”、及び“entries
”が探索されるので、上記の例は見つからない。
e s ”、”rebuHt”、及び“entries
”が探索されるので、上記の例は見つからない。
(ニ)パージング
パーザはまず解析中の文に含まれる単語の品詞を見出し
1次にあいまいさをなくそうと試みる。
1次にあいまいさをなくそうと試みる。
例文:
“The code to find the bas
e for+s is in themorpholo
gical system、”(基本形を見つけるため
のコードの形態論的システムにある。) 上の文で“code”は名詞又は動詞であるが、It
ti eIIが前に付いているので、名詞とみなされる
。II j ol)は副詞、前置詞又は不定詞標識であ
るが、後に動詞の原形があるので不定詞標識とみなされ
る。
e for+s is in themorpholo
gical system、”(基本形を見つけるため
のコードの形態論的システムにある。) 上の文で“code”は名詞又は動詞であるが、It
ti eIIが前に付いているので、名詞とみなされる
。II j ol)は副詞、前置詞又は不定詞標識であ
るが、後に動詞の原形があるので不定詞標識とみなされ
る。
II fHndsrは動詞の原形である。II ba、
e 11は形容詞。
e 11は形容詞。
名詞又は動詞であるが II t l、e17の後で且
つ他の名詞の前にあるので形容詞とみなされる。以下、
同様な解析が行われる。
つ他の名詞の前にあるので形容詞とみなされる。以下、
同様な解析が行われる。
しかし、上の文で’find”が“finds”に変わ
っていると、これは原形ではないので、その前の“tO
″は前置詞とみなされ、 ”finds″′は名詞(前
置詞の目的語)とみなされる、パーザがもつと洗練され
ていると、このような文法上の誤りを見つけることがで
きよう。そのためには、主語及び動詞がどれ程離れてい
ても、それらを見い出して、形態論的解析を行うことに
より、それらが一致するかどうかを調べなければならな
い。例えば、見い出した主語が’code”で動詞が’
ara’″の場合、前者が単数であるのに対し後者は複
数を表わすから、これらは数において一致しない、従来
のパーザにも形態論的処理を行うものがあるが、これは
辞書の外部に設定されていて、圧縮されておらず。
っていると、これは原形ではないので、その前の“tO
″は前置詞とみなされ、 ”finds″′は名詞(前
置詞の目的語)とみなされる、パーザがもつと洗練され
ていると、このような文法上の誤りを見つけることがで
きよう。そのためには、主語及び動詞がどれ程離れてい
ても、それらを見い出して、形態論的解析を行うことに
より、それらが一致するかどうかを調べなければならな
い。例えば、見い出した主語が’code”で動詞が’
ara’″の場合、前者が単数であるのに対し後者は複
数を表わすから、これらは数において一致しない、従来
のパーザにも形態論的処理を行うものがあるが、これは
辞書の外部に設定されていて、圧縮されておらず。
また屈折形から基本形に行くだけであるがら、正しい可
能性を見つけられない。更に、このパーザは英語専用の
アルゴリズムを用いており、取扱いも名詞及び動詞に限
られている。これに比べて本システムは、(1)圧縮さ
れて辞書に組込まれており、(2)の他の言語に応用で
き、(3)双方向性であり、(4)誤りが生じず(各単
語のあらゆる特殊性を考慮している)、そして(5)包
括的である(辞書中の全単語の全品詞をカバーする)、
という利点を持っている。
能性を見つけられない。更に、このパーザは英語専用の
アルゴリズムを用いており、取扱いも名詞及び動詞に限
られている。これに比べて本システムは、(1)圧縮さ
れて辞書に組込まれており、(2)の他の言語に応用で
き、(3)双方向性であり、(4)誤りが生じず(各単
語のあらゆる特殊性を考慮している)、そして(5)包
括的である(辞書中の全単語の全品詞をカバーする)、
という利点を持っている。
D5.クラス・テーブル及び語尾テーブルの詳細D5.
1 クラス・シャドウ・テーブル(1)クラス索引 最初のレコードの前に8バイトのヘッダを持っており、
そのうちバイトO及びバイト1は、索引テーブルにある
3バイトの項目の数を示す。バイト2〜7は予約バイト
である。3バイトの各項目(バイトミルバイトi+2)
は、各クラス・テーブル・レコード中の最初のクラス項
目に対応する絶対語幹番号を表わす、3バイトの項目が
レコードの残りの部分に入りきらなければ、その部分は
x ’00’ を埋め込まれ、その項目は新しいレコー
ドを生成する。このテーブルにおける最後の3バイト項
目はx ’7fffff’を含む、最後のレコードは後
にX’00’ を埋め込まれる。
1 クラス・シャドウ・テーブル(1)クラス索引 最初のレコードの前に8バイトのヘッダを持っており、
そのうちバイトO及びバイト1は、索引テーブルにある
3バイトの項目の数を示す。バイト2〜7は予約バイト
である。3バイトの各項目(バイトミルバイトi+2)
は、各クラス・テーブル・レコード中の最初のクラス項
目に対応する絶対語幹番号を表わす、3バイトの項目が
レコードの残りの部分に入りきらなければ、その部分は
x ’00’ を埋め込まれ、その項目は新しいレコー
ドを生成する。このテーブルにおける最後の3バイト項
目はx ’7fffff’を含む、最後のレコードは後
にX’00’ を埋め込まれる。
(2)クラス・データ
このテーブルは、クラス索引テーブルの終りに続いて、
辞書の最初のレコードで始まる。これは。
辞書の最初のレコードで始まる。これは。
語幹のクラス情報(接尾辞変形により元の語幹と異なる
クラスになるものも含む)を含み、更に所与の各クラス
について前述のスキップ・カラン1−を含む。このテー
ブルの各項目は次のような形式%式% (イ)語幹のクラス番号 クラス番号項目は最少6ビツトから成り、最初のニブル
(4ビツト)にフラグを含む。最初のニブルの解釈は次
の通りである。
クラスになるものも含む)を含み、更に所与の各クラス
について前述のスキップ・カラン1−を含む。このテー
ブルの各項目は次のような形式%式% (イ)語幹のクラス番号 クラス番号項目は最少6ビツトから成り、最初のニブル
(4ビツト)にフラグを含む。最初のニブルの解釈は次
の通りである。
’0xxx’ =次のクラスが当該語幹の最後のクラス
であることを示す。
であることを示す。
’1xxx’ =当該語幹について更に別のクラスがあ
ることを示す。
ることを示す。
1スlxx’ =スキップ・カウントが0より大きく。
クラス番号項目の次にニブル・ラン
レングス符号化スキップ・カウント
が続くことを示す。
’xOxx’ =このクラスについてはスキップ・カウ
ントがOであることを示す。
ントがOであることを示す。
最初のニブルの残りの2ビツトはクラス番号であり、そ
れが111′であれば1次のニブルが加えられ。次のニ
ブルが’1111’であれば、番号の残りはバイト・ラ
ンレングス符号化される。
れが111′であれば1次のニブルが加えられ。次のニ
ブルが’1111’であれば、番号の残りはバイト・ラ
ンレングス符号化される。
(ロ)変形のクラス番号
最初のニブルの解釈は次の通りである。
’0Oxx’ =すべでの語幹クラスがこの変形に当て
はまることを示す。この場合、こ のようなデフオールド変形の数を表 わすニブル・ランレングス符号化カ ウントが後に続く。
はまることを示す。この場合、こ のようなデフオールド変形の数を表 わすニブル・ランレングス符号化カ ウントが後に続く。
’01xx’ =語幹のすべての情報及び続くクラス(
語幹に関して符号化され、次の二 プルから始まる)が使用されること を示す。
語幹に関して符号化され、次の二 プルから始まる)が使用されること を示す。
’1xxx’ =語幹のどのクラス情報も使用されない
ことを示す。この場合、変形につ いてのクラス情報が後に続く (次の ニブルから始まり、語幹に関して符 号化される)。
ことを示す。この場合、変形につ いてのクラス情報が後に続く (次の ニブルから始まり、語幹に関して符 号化される)。
’xxOx’ =これが、例外クラス情報が与えられる
最後の変形であることを示す。
最後の変形であることを示す。
’xxlx’ =Qi変形が、例外クラス情報が与えら
れる最後の変形ではないことを示す。
れる最後の変形ではないことを示す。
’ oooo″ =すべでの変形が語幹のクラス情報を
デフオールドとするが、又は語幹が 変形を持たないことを示す。項目を アクセスする時には変形の数がわか っているので、処理コードにとって は、 “oooo’ が何れを示すかは明らかである。
デフオールドとするが、又は語幹が 変形を持たないことを示す。項目を アクセスする時には変形の数がわか っているので、処理コードにとって は、 “oooo’ が何れを示すかは明らかである。
注:上述のニブルは“変形フラグニブルである。このニ
ブルの最終ビット(上の例では常にx+)が1であれば
、変形フラグに続くニブルは、現変形と全く同じ特性を
有する後続の変形のニブル・ランレングス符号化カウン
トである。このカウントはOより大きくなければならな
い。現語幹に関する次の変形が先行の変形をデフオール
1〜としないのであれば、変形フラグ・ニブルの最終ビ
ットはOにされ、カウントも含まれない(次のニブルは
変形フラグである)。項目がレコードの残りの部分に入
りきらなければ、そのレコードはx ’00’ を埋め
込まれ、当該項目は次のレコードで始まる。
ブルの最終ビット(上の例では常にx+)が1であれば
、変形フラグに続くニブルは、現変形と全く同じ特性を
有する後続の変形のニブル・ランレングス符号化カウン
トである。このカウントはOより大きくなければならな
い。現語幹に関する次の変形が先行の変形をデフオール
1〜としないのであれば、変形フラグ・ニブルの最終ビ
ットはOにされ、カウントも含まれない(次のニブルは
変形フラグである)。項目がレコードの残りの部分に入
りきらなければ、そのレコードはx ’00’ を埋め
込まれ、当該項目は次のレコードで始まる。
最後のレコードはx ’00’ を埋め込まれる。
D5.2 形態論的解析システムの語尾テーブル構成要
素 (1)索引 8バイトの索引ヘッダ及び4バイトの索引項目を含む、
索引ヘッダは、語尾索引項目のカウント(2バイト)、
文法コードのカウント(2バイト)、及び語尾索引ブ。
素 (1)索引 8バイトの索引ヘッダ及び4バイトの索引項目を含む、
索引ヘッダは、語尾索引項目のカウント(2バイト)、
文法コードのカウント(2バイト)、及び語尾索引ブ。
ツクのカウント(2バイト)がら成り、残り2バイトは
予約されている。索引項目は語尾リスト毎に1つあり、
開始ブロック番号(2バイト)及び開始ブロックにおけ
るオフセット(2バイト)から成っている・ 索引は、前述のクラス・シャドウ・テーブルで使用され
ているクラス番号割当てと正確に関係するクラス割当て
の頻度に同じて並べられる・索引項目は、デフオールド
語尾リストを使うか否かには関係なく、クラス毎に存在
する。しかしクラスが成る別のクラスをデフオールドし
ている場合、その索引項目の開始ブロック番号はOにさ
れる。これがOであれば1次の2バイトは、現クラスの
デフオールドになっているクラスの番号(語尾テーブル
索引を再アクセスするのに直接使用)である。
予約されている。索引項目は語尾リスト毎に1つあり、
開始ブロック番号(2バイト)及び開始ブロックにおけ
るオフセット(2バイト)から成っている・ 索引は、前述のクラス・シャドウ・テーブルで使用され
ているクラス番号割当てと正確に関係するクラス割当て
の頻度に同じて並べられる・索引項目は、デフオールド
語尾リストを使うか否かには関係なく、クラス毎に存在
する。しかしクラスが成る別のクラスをデフオールドし
ている場合、その索引項目の開始ブロック番号はOにさ
れる。これがOであれば1次の2バイトは、現クラスの
デフオールドになっているクラスの番号(語尾テーブル
索引を再アクセスするのに直接使用)である。
文法コードは、索引ヘッダの直後で且つ上述した実際の
索引項目の前に置かれる。コードの数は索引ヘッダ中に
与えられている。コードは各々8バイトであり、実際の
索引項目と同じ長さであるが、その最終バイトは、クラ
スの品詞コードにセットされる。
索引項目の前に置かれる。コードの数は索引ヘッダ中に
与えられている。コードは各々8バイトであり、実際の
索引項目と同じ長さであるが、その最終バイトは、クラ
スの品詞コードにセットされる。
(2)語尾テーブル・データ
各語尾リストのへツク:
索引項目中のブロック番号及びオフセットにより指示さ
れ、下記の内容を含んでいる。
れ、下記の内容を含んでいる。
・形リストの開始ブロック(2バイト)@R1・形リス
トのブロックにおけるオフセット(2バイト)@R1 ・文法コード番号(2バイト) ・形カウント(2バイト) ・明示語尾カウント(2バイト) ・テンプレート索引番号(2バイト) 語尾文字ストリング: これはヘッダの直後に続く。語尾文字ストリングの開始
位置及び終了位置はバイト境界上にあるが1文字自身は
主辞書における文字圧縮テーブルに従い頻度に応じて符
号化される。
トのブロックにおけるオフセット(2バイト)@R1 ・文法コード番号(2バイト) ・形カウント(2バイト) ・明示語尾カウント(2バイト) ・テンプレート索引番号(2バイト) 語尾文字ストリング: これはヘッダの直後に続く。語尾文字ストリングの開始
位置及び終了位置はバイト境界上にあるが1文字自身は
主辞書における文字圧縮テーブルに従い頻度に応じて符
号化される。
語尾リストは、語尾リストにおいてニブル符号化を用い
る唯一の場所である。各語尾の前には、ニブル・ランレ
ングス符号化長(この長さは、未圧縮語尾に含まれる文
字の数である)がある。ヘッダと語尾リスト開始位置の
間、又は任意の2つの裏金な語尾の間でブロック境界を
越えることがある。
る唯一の場所である。各語尾の前には、ニブル・ランレ
ングス符号化長(この長さは、未圧縮語尾に含まれる文
字の数である)がある。ヘッダと語尾リスト開始位置の
間、又は任意の2つの裏金な語尾の間でブロック境界を
越えることがある。
形リスト:
形リストは語尾文字ストリングの直後に始まり(ブロッ
ク境界を越えることがある)、その開始位置はクラスの
各索引項目にある形ブロック番号及びオフセットによっ
て明示的に指示される。すべてのクラスが併合されてお
り、別のクラスをデフオールドとするものは索引項目を
除いて最早存在しないので、形リス1〜は、現クラスを
デフオールドとして用いるクラスのうちの何れがリス]
−中に形を有しているかを識別しなければならない。形
リストは、形番号、語尾リスト識別番号及び語尾リスト
・ポインタ(文字ストリングへのポインタ)から成って
いる。形番号は、クラス・テーブル及び語尾テーブルの
入力で使用する。
ク境界を越えることがある)、その開始位置はクラスの
各索引項目にある形ブロック番号及びオフセットによっ
て明示的に指示される。すべてのクラスが併合されてお
り、別のクラスをデフオールドとするものは索引項目を
除いて最早存在しないので、形リス1〜は、現クラスを
デフオールドとして用いるクラスのうちの何れがリス]
−中に形を有しているかを識別しなければならない。形
リストは、形番号、語尾リスト識別番号及び語尾リスト
・ポインタ(文字ストリングへのポインタ)から成って
いる。形番号は、クラス・テーブル及び語尾テーブルの
入力で使用する。
語尾リスト識別番号は、別のクラスをデフオールドとし
ているクラス(シャドウ・クラスと云う)にのみ適用さ
れる語尾リスト・ポインタの前に置かれる。理由は、索
引項目としての存在を除くと圧縮されたテーブル中には
存在しない幾つかのシャドウ・クラスが1つの″フル”
クラスを参照する場合があるからである。語尾リスト・
ポインタは、上述の語尾文字ストリング・リストにおけ
る文字ストリングを参照する。
ているクラス(シャドウ・クラスと云う)にのみ適用さ
れる語尾リスト・ポインタの前に置かれる。理由は、索
引項目としての存在を除くと圧縮されたテーブル中には
存在しない幾つかのシャドウ・クラスが1つの″フル”
クラスを参照する場合があるからである。語尾リスト・
ポインタは、上述の語尾文字ストリング・リストにおけ
る文字ストリングを参照する。
形番号: 63−256−256・・・・ランレンズ符
号化、最初の2ビツトはフラグ ’00’ x。
号化、最初の2ビツトはフラグ ’00’ x。
語尾リスト識別番号: 63−256−256・°°°
ランレングス符号化。最初の2 ビツトはフラグ’01’ x。
ランレングス符号化。最初の2 ビツトはフラグ’01’ x。
語尾リスト・ポインタ:63−256−256・・・・
ランレングス符号化。最初の2ビツトは、形についての
最後のポ インタであればフラグ’10’ x。
ランレングス符号化。最初の2ビツトは、形についての
最後のポ インタであればフラグ’10’ x。
さもなければ’11’ x。
E8発明の効果
本発明によれば、単語の1つの形からそれに関連する他
のすべての形を容易に導き出せるので、同義語探索や文
書探索等において絶大な効果を発揮する。
のすべての形を容易に導き出せるので、同義語探索や文
書探索等において絶大な効果を発揮する。
第1図は本発明に従う言語処理システムの構成を示すブ
ロック図。 第2図乃至第5図は第1図のシステムにおける処理の流
れを示す流れ図。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 代理人 弁理士 頓 宮 孝 −(外1名)
ロック図。 第2図乃至第5図は第1図のシステムにおける処理の流
れを示す流れ図。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 代理人 弁理士 頓 宮 孝 −(外1名)
Claims (1)
- 【特許請求の範囲】 単語を入力する手段と、 各単語のクラスを識別するクラス・テーブル、及びクラ
ス毎の屈折パターンをその文法上の機能に応じた位置に
保持する屈折パターン・テーブルを記憶する記憶手段と
、 前記入力手段からの入力単語に応答して前記クラス・テ
ーブルをアクセスすることにより該入力単語のクラスを
識別し、該クラスに対応する屈折パターン・テーブルの
内容と前記入力単語を比較し、一致した屈折パターン部
分を前記入力単語から取り除くことにより前記入力単語
の不変部分を見出す手段と、 を具備することを特徴とする言語処理システム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US85349086A | 1986-04-18 | 1986-04-18 | |
| US853490 | 1986-04-18 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS62251876A true JPS62251876A (ja) | 1987-11-02 |
Family
ID=25316174
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62049022A Pending JPS62251876A (ja) | 1986-04-18 | 1987-03-05 | 言語処理システム |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP0241717A3 (ja) |
| JP (1) | JPS62251876A (ja) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
| US5754847A (en) * | 1987-05-26 | 1998-05-19 | Xerox Corporation | Word/number and number/word mapping |
| US5553283A (en) * | 1987-05-26 | 1996-09-03 | Xerox Corporation | Stored mapping data with information for skipping branches while keeping count of suffix endings |
| US4852003A (en) * | 1987-11-18 | 1989-07-25 | International Business Machines Corporation | Method for removing enclitic endings from verbs in romance languages |
| US5099426A (en) * | 1989-01-19 | 1992-03-24 | International Business Machines Corporation | Method for use of morphological information to cross reference keywords used for information retrieval |
| CA2100956C (en) * | 1991-02-01 | 1999-01-12 | A. Julie Kadashevich | Text searching and indexing system |
| US5940624A (en) * | 1991-02-01 | 1999-08-17 | Wang Laboratories, Inc. | Text management system |
| NL9101286A (nl) * | 1991-07-23 | 1993-02-16 | Oce Nederland Bv | Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze. |
| DE4209280C2 (de) * | 1992-03-21 | 1995-12-07 | Ibm | Verfahren und Computersystem zur automatisierten Analyse von Texten |
| DE19526263C1 (de) * | 1995-07-19 | 1996-11-07 | Daimler Benz Ag | Verfahren zur Klassifizierung eines Textes |
| CA2320151A1 (en) * | 1998-03-27 | 1999-10-07 | Lernout & Hauspie Speech Products N.V. | Speech recognition dictionary enlargement using derived words |
| FR2838211A1 (fr) * | 2002-04-09 | 2003-10-10 | Thomson Multimedia Sa | Procede de codage et de generation de texte |
| US6694229B1 (en) * | 2002-12-20 | 2004-02-17 | Honeywell International Inc. | Method for simplifying manual radio frequency entries |
| US8706477B1 (en) | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
| US8762131B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
| US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
| JP5024347B2 (ja) * | 2009-09-30 | 2012-09-12 | カシオ計算機株式会社 | 辞書機能を備えた電子機器およびプログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60159970A (ja) * | 1984-01-30 | 1985-08-21 | Hitachi Ltd | 情報蓄積検索方式 |
| JPS60251464A (ja) * | 1984-05-28 | 1985-12-12 | Brother Ind Ltd | 電子辞書 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4499553A (en) * | 1981-09-30 | 1985-02-12 | Dickinson Robert V | Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words |
| US4597057A (en) * | 1981-12-31 | 1986-06-24 | System Development Corporation | System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles |
-
1987
- 1987-03-05 JP JP62049022A patent/JPS62251876A/ja active Pending
- 1987-03-13 EP EP87103633A patent/EP0241717A3/en not_active Withdrawn
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60159970A (ja) * | 1984-01-30 | 1985-08-21 | Hitachi Ltd | 情報蓄積検索方式 |
| JPS60251464A (ja) * | 1984-05-28 | 1985-12-12 | Brother Ind Ltd | 電子辞書 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0241717A3 (en) | 1988-12-07 |
| EP0241717A2 (en) | 1987-10-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
| EP0266001B1 (en) | A parser for natural language text | |
| US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
| US7421386B2 (en) | Full-form lexicon with tagged data and methods of constructing and using the same | |
| Christopher et al. | Introduction to information retrieval | |
| US4862408A (en) | Paradigm-based morphological text analysis for natural languages | |
| US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
| US5895446A (en) | Pattern-based translation method and system | |
| US5541838A (en) | Translation machine having capability of registering idioms | |
| US6424983B1 (en) | Spelling and grammar checking system | |
| JPS62251876A (ja) | 言語処理システム | |
| JPH07325829A (ja) | 文法チェックシステム | |
| EP2350871A1 (en) | Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media | |
| JPH03172966A (ja) | 類似文書検索装置 | |
| JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
| Ekmekcioglu et al. | Stemming and n-gram matching for term conflation in Turkish texts | |
| JPH03150668A (ja) | 検索システムの入力文字列正規化方式 | |
| JP2621999B2 (ja) | 文書処理装置 | |
| JPH0140372B2 (ja) | ||
| JPH07182354A (ja) | 電子文書の作成方法 | |
| JPS6389976A (ja) | 言語解析装置 | |
| JPH04330565A (ja) | 自然言語処理システム | |
| JPS62144269A (ja) | 情報検索装置 | |
| GB2327133A (en) | Automatic recognition and expansion of abbreviated medical descriptions | |
| JPH07141381A (ja) | 電子辞書表示装置 |