JPS62251876A

JPS62251876A - 言語処理システム

Info

Publication number: JPS62251876A
Application number: JP62049022A
Authority: JP
Inventors: ビバリー・ウインガード　クニストータス; スコツト・エメリ・メレデイス; ウイリアム・デービツド・モドリン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-04-18
Filing date: 1987-03-05
Publication date: 1987-11-02
Also published as: EP0241717A3; EP0241717A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は言語処理システムに関し、特に計算機で遂行さ
れる辞書操作に関する。

Ｂ、従来技術とその問題点インドヨーロッパ語族の言語はすべて、文法上の機能を
示す種々の形をとる単語を含んでいる。

成る単語に着目した場合、その単語がとり得る屈折形（
ｉｎｆｌｅｃｔｉｏｎ）の集合を形態（ｍｏｒｐｈｏｌ
ｏｇｙ）と呼ぶ、これは云うならば屈折パターンである
にれまでに、計算機を用いて単語の関連付は及び識別を
行う様々な試みがなされてきた。しかし従来の試みには
、例えば双方向性の欠如という重大な欠陥があった。双
方向性とは、成る単語の任意の形から、当該単語の形態
的に関係する他のすべての形に行ける能力のことを意味
する。従来の手法では、例えば単語の基本形から屈折形
へ行くことだけが可能であった。従って、単語の屈折形
からその同義語を見つけることは不可能であった。

言語学的解析は、同義語生成の他に、文書の分類及び検
索１文法検査、独立型解析等の応用も持っている。これ
らの応用の多くにおいては、単語の双方向的関連付は及
び識別が必要であるが、計算機を用いた従来の手法では
これらを完全しこ達成することはできない。

単語の関連付は及び識別に関する従来技術に欠けている
もう一つの事柄は、データベースの適切な圧縮である。

計算機データベース・システムでは記憶容量が限られて
いるため、単語を広範囲にわたって集めるには何らかの
圧縮技術が必要である。この問題は、記憶容量が小さい
パーソナル・コンピュータの分野で切実になってきてい
る。それと共に、対話式の実時間アプリケーションを考
えると、データベースの探索速度を速くする必要がある
。

計算機を用いて単語の関連付は及び識別を行う従来の手
法には、単語の接頭辞又は接尾辞に基いて単語の文法的
機能を推定するアルゴリズムを使用するものもある。し
かし、殆んどの自然言語においては１語幹或いは語根に
付加される接頭辞及び接尾辞のパターンがかなり不規則
なため、コノアルゴリズム手法では言語学的解析で誤り
が生じるおそれがある。

複数の言語にわたって言語学的解析をを適用することも
、これまでは十分には行われていない。

従って本発明の目的は、辞書に含まれるすへての単語の
関連付は及び識別を双方向的に行う言語処理システムを
提供することにある。

Ｃ０問題点を解決するための手段本発明は形態論的手法によって上記の目的を達成する０
本発明は、辞書に含まれる全単語のための分類（クラス
）テーブル、及びこの分類テーブルから出力された特定
の分類（クラス）番号によって参照される屈折パターン
・テーブルを使用する。動作時には、入力単語により分
類テーブルが探索され、入力単語に対応する分類番号が
識別される。１つの単語に対して複数の分類番号が識別
されることもある。識別された分類番号は、単語の接尾
辞又は接頭辞について種々の屈折形を有する特定の屈折
パターン・テーブルを指示する。特定の屈折パターン・
テーブルがその分類番号によって識別されると入力単語
と該屈折パターン・テーブルにある屈折パターンすなわ
ち語尾又は接頭辞の形との突合せ操作（マツチング）が
実行される１例えば、屈折パターン・テーブルが入力単
語と比較すべき種々の語尾形を含んでいる場合は。

入力単語の後の文字から前の文字に向って順にテーブル
内容との突合せを行う、突合せがうまくゆくと、入力単
語に対する文法上の正しい形が識別される。入ガ単語の
うち、突合せで一致した語尾の部分を除いた残りは不変
の要素であって、語幹又は語根と呼ばれる（以下１語幹
で代表させる）。

入力単語の語幹は、屈折パターン・テーブルにある種々
の語尾と組合せることによって、当該入力ｊｒ１語に関
連する形を構成するのに使用できるにの手法は、言語学
的解析、同義語生成１文書の分類及び検査、文法検査、
文の解剖（パージング）等の種々の応用が可能である。

屈折パターン・テーブル中での一致した形の位置は、単
語の文法的機能に対応する。従って本発明によれば、辞
書に含まれるすべての単語を双方向的に関連付けたり識
別したりすることができ、入力単語は任意の形であって
よく５それに関連するすべての形（１＆本形を含む）を
識別できる。

単語のグループをそれらの形態パターンに従って関連付
けるとデータ圧縮が可能になり、関連語の辞書に必要な
記憶容量を減らすことができる。

また、屈折形のパターンに応じた決定論的グループ分け
が行われるので、言語学的解析にあいまいさは生じない
、その際辞書に現われるすべての単語に各々特定のクラ
スが割当てられる０本発明は、単語のグループを同様な
形態パターンへ組織化することを基本にしているので、
実質的にインドヨーロッパ語族のあらゆる言語に応用で
きる。

Ｄ、実施例の説明Ｄｌ、システム構成本発明に従う言語処理システムの構成を第１図に示す、
このシステムは、種々のルーチン・テーブル、辞書及び
リストを記憶しているシステム・メモリ１０、並びにこ
のシステム・メモリ１０にシステム・バス１２を介して
接続されたキーボード１４．実行ユニット１６、大容量
記憶装［１８゜ディスプレイ２０及びプリンタ２２で構
成されている。単語はキーボード１４から入力され、入
力レジスタ２４に保管される。実行ユニット１６は、シ
ステム・メモリ１０に記憶されている種々のルーチンの
命令を実行する。大容量記憶装置１１１８は。

種々のルーチン、テーブル、リスト等をシステム・メモ
リ１０に初期ロードし、また必要に応じて補助データベ
ースを格納する。ディスプレイ２０及びプリンタ２２は
、出力レジスタ２６の内容を表示したり印刷したりする
標準の出力装置である。

システム・メモリ１０の内容についてはあとで詳述する
。

Ｄ２．独立機能この機能は、任意の単語の任意の形からすべての形に行
くものである（以下特にことわらない限り、単に「形」
といえば、単語の基本形及び屈折形の一方又は両方を意
味するものとする）、屈折形を有するすべての単語が関
連付けられる。言語による差はあるが、このような単語
は、動詞１名詞。

形容詞、代名詞、及び副詞を含む、（英語の場合は、　
５ｏｏｎ、　５ｏｏｎｅｒ、　５ｏｏｎｅｓｔ／ｗｅｌ
ｌ＋ｂｅｔｔｅｒ、　ｂｅｓｔ／ｅａｒｌｙ、　Ｃａｒ
ｌｉｅｒ、ｅａｒｌｉｅｓｔ等の若干の例外を除くと、
殆んどの副詞は１つの形しか持たない、）屈折形を持た
ない単語は品詞情報を与えるように分類される（パダミ
ー・クラス″と関連付けられる）。例えば英単語の”ｂ
ｅｈｉｎｄ”は、前置詞（屈折形なし）としてのクラス
と、副詞（屈折形なし）としてのクラスと、名詞（複数
形の’ｂａｈｉｎｄｓ″′がある）としてのクラスとを
持っている。

″形機能′″　（本システムを独立型においてこう呼ぶ
）は、成る単語がとり得るすべての品詞の形を示す１例
えば英単語の１“ｄ　ｏ　ｖ　ｅ　”は動詞“ｄｉｖｅ
”からくるものであるか（他の関連する形はｄｉｖｅｓ
及びｄｉｖｉｎｇ）　、又は名詞”ｄｏｖｅ”からのも
のである（他の関連する形はｄｏｖｅｓ）　＠この機能
は、六方単語”ｄｏｖｅ’″につぃて動詞又は名詞のす
べての形を要求により示す。

この機能は辞書中のすべての単語を関連付け、識別する
もので、従来可能であったものよりも多くの言語学的情
報を与える。形態論以前は、ハイフン情報、品詞情報、
及びゲルマン諸諸における複合語を検査するためのコー
ドしかなかった。形態論を辞書に組込む場合は、動詞に
関して次のような情報を持たせる。

（ａ）人称及び数１人称単数＝Ｉ　　　　　　１人称複数＝ｖｅ２人称単
数＝ｙｏｕ　　　　　２人称複数＝ｙｏｕ３人称単数＝
　ｈｅ、　ｓｈｅ、ｉｔ　３人称複数＝　ｔｈｅｙ（ｂ
）時制不定詞、現在、過去、及び過去分詞（他の言語では、助動詞によらないでより多くの時制を
持つものがある。例えば、Ｉ　”ｗｏ、ｕｌｄｂｒｉｎ
ｇ”は条件時制と呼ばれるもので、英語では２つの単語
で示されるが、フランス語では次のように１つで示され
る：　Ｊ’ａｐｐｏｒｔａｒａｉｓ＝Ｉ　ｗｏｕｌｄｂ
ｒｉｎｇ）（ｃ）法仮定法及び直脱法名詞については、英語の場合は数情報があり、不規則変
化の単語を関連付け、識別する（単数か複数）ことがで
きる。

英語の名詞には、単数形と複数形が同じもの（ｓｈｅｅ
ｐ等）や、不規則な複数形を持つもの（Ｉｍｏｕｓｅ（
単）とｍ１ｃｅ　（複）、　ａｄｄｅｎｄｕｍ（単）と
ａｄｄｅｎｄａ　（複）等）がある。

ロマンス語（フランス語、スペイン語、イタリア語、ポ
ルトガル語等）には性情報がある。例えば女性名詞の場
合、それを修飾する形容詞の語尾変化は女性形である（
数によっても変化する）。

ドイツ語には、男性及び女性の他に中性があり、また格
（主格、４格、所有格及び対格）もある。

名詞の形は、英語の場合は２種類であるが、ドイツ語の
場合は１７種類ある。本発明は、各言語の各品詞につい
て必要とされるすべての形を取り扱うことができる。

本発明はまたｔｒａｖｅｌｌｉｎｇ及びｔｒａｖｅｌｉ
ｎｇの如き異なった綴りを有する単語を識別する。ノル
ウェー語には、６種類の綴りを持った単語が幾つかある
。

実用上は、この機能は例えば次のようなことをユーザに
知らせる。

１１　ｈａｖｅ　ｓｗｕｍ又はＩ　ｈａｖｅ　ｓｗａｍ
−Ｉ　ｈａｖｅ　ｄｒｅａｍｅｄ又はＩ　ｈａｖｅ　ｄ
ｒｅａｍｔ・複数形”　ａ　ｄ　ｄ　ｅ　ｎ　ｄ　ｕ　
ｍ　ｓ　”は可能か、又は”　ａ　ｄ　ｄ　ｅ　ｎ　ｄ
　ａ　”たけか・“ｂｏＢｏｅｓ”か、又は”ｂｏｎｇｏｓ”か１“ｃ
ｒｅｓｃｅｎｄｏｅｓ　”か、又は’　ｃｒｅｓｃｅｎ
ｄｏｓ　”か・“ａｆｔｅｒｌｉｆｅｓ”か、又は”ａ
ｆｔｅｒｌｉｖｅｓ”か＋”ｅｌｅｃｔｒｏｌｙｓｉｓ
ｅｓ”か、又は’　０１ｅｃｔｒｏｌｙｓｅｓ”か、　ＩＩＨ５ｈｕの複数形は”ｆｉｓｈｅｓ”か、又は
ｉｉ　ｆｊｓｈ　＃か・１ｏａｆ″の複数形は’１ｏａｆｓ”か、又は”１ｏ
ａｖｅｓ”か（例えば、動詞の場合は、ｆｌｈｅｌｏａ
ｆｓ　ａｌｌ　ｄａｙ”と云えるが、名詞の場合は、”
ｔｈｅｒｅ　ａｒｅ　ｍａｎｙ　１ｏａｆｓ　ｏｆ　ｂ
ｒｅａｄ”とは云えない。“１ｅａｆｓ”も同じである
。）本発明は、単語について多くの形を持った言語で主
要になる。言語を教えたり学んだりするための道具とし
てこの機能は極めて有用である。従来は１例えばＩＩ　
ｂ　ｕｙＩＩ及び’ｂｏｕｇｈｔ”が共に動詞であるこ
とは知ることできたが、それらが関連しているかどうか
を知ることはできなかった。

従来の計算機能を利用した言語学的手法は、不定詞から
他の形に行けるだけであった（単方向性）。

これに対して本発明は、不定詞からすべての形に行ける
だけでなく、任意の形から他のすべての関連形に行くこ
とができる（双方向性）。前述のように、従来の手法に
は次のような欠点がある６（１）双方向性ではない。

（２）簡潔ではない。

（３）包括的ではない。

（４）誤りが生じやすい。

アルゴリズムを用いて形態情報を決める手法では、ＩＩ
Ｖ語の個々の特殊性を取り扱えない０例えば、１１　ｆ
　Ｉｔで終る名詞の場合、普通は最後の１１　ｆ　７７
を落として“ｖｅｓ’″を付けることにより複数形を作
る。しかし、例えば　ＩＩ　ｂｅｅｆ　＄１は“ｂｅｅ
ｆｓ”及び“ｂ　ｅ　ａ　ｖ　ｅ　ｓ　″という２つの
複数形を持っている。

この他にも、複数形が不規則なものとして。

”ｃｒｉｔｅｒｉｏｎ”と“ｃｒｉｔｅｒｉａ”、ｂｕ
３″と”　ｂ　ｕ　ｓ　ｅ　ｓ　”　又は”　ｂ　ｕ　
ｓ　ｓ　ｅ　ｓ　”、複数形のない”ｂｉｏｃｈｅ＋５
ｉｓｔｒｙ”。

”ｂａｇｆｕｌ”と”　ｂ　ａｇ　ｓ　ｆ　ｕ　ｌ　”
又は”ｂａｇｆｕｌｇ”等がある・本発明は単語対応型
であって、あらゆる不規則性及び特殊性を取り扱える。

（５）言語従属型である本発明は融通性に富んでおり、すべての言語に対して適
用できる。

第２図及び第３図は形機能の流れを示したものである。

フローチャート中の（辞書」については米国特許第４３
４２０８５号明細書に詳しい。

「語尾テーブル」のところで基本形を見つけるため、所
与の単語に関するクラス・テーブルによって識別された
語尾テーブル（複数も可）を用いて拍ノ４の突合せを行
う。成る語尾が一致すると（後述のスキップ・カウント
を考慮する）、当該単語の残りの前部分（語幹）を取り
出し、最初の形のために語尾を付加する。

００２（ＥＶ）　　　００９（ＥＶ）　　　９０１（Ｅ
Ｎ）０１、　　　　　０１ｉ＃％　　　０１０２ｓ　　
　　　０２ｉｊ％　　　０２　　ｓ０３　　　ａｄ　　
　　　　０３　　ｏｕＪ％０４　　　ｉｎｇ　　　　　
０４　　ｉ１％ｉｎｇ０５　　　ａｄ　　　　　　０５
　　ｏｕ＃％クラス００２の場合、　ｗｏｕｎｄに合う
唯一の語尾はブランクであり、従って語幹は”ｗｏｕｎ
ｄ″′である。最初の語尾（ブランク）を語幹に付加す
ると基本形“ｗｏｕｎｄ”が得られる。コードＥＶは、
当該単語が動詞であることを示す。

クラス０６９の場合、　ｗｏｕｎｄに合う語尾はｏｕ１
％である（ｎもｄも子音のため）。この場合は、＃＝ｎ
及び％＝ｄである。この語尾を取り去ると。

語幹”　ｗ　”が得られる。次に語尾形０１（今の場合
はｉｆ％＝ｉｎｄ）に行き、それを語幹に付加すると、
基本形゛″ｗｉｎｄ”が得られる６クラス９０１の場合、νｏｕｎｄに合う唯一の語尾はブ
ランクであり、従って語幹は°〜ｏａｎｄ”　である。

最初の語尾（ブランク）を語幹に付加すると。

基本形”ｗｏｕｎｄ”が得られる。コードＥＮは、当該
単語が名詞であることを示す。

上述の３つの基本形は中間画面の情報を与える。

ユーザがそのうちの最初の基本形を選択すると、システ
ムは下記の情報を示す。

動詞：不定詞　讐ｏｕｎｄ現在分詞　ｗｏｕｎｄｉｎｇ過去分詞　ｗｏｕｎｄｅｄ直脱法現在Ｉ　　　　　　　ｗｏｕｎｄ　　　　　ｗｅ　　　ｔｉ
ｏｕｎｄｙｏｕ　　　　　　ｗｏｕｎｄ　　　　　ｙｏ
ｕ　　ｗｏｕｎｄｈｅ＋　ｓｈｅ＋　ｉｔ　　　−ｏｕ
ｎｄｓ　　　　　　　　　ｔｈｅｙ　　　ｗｏｕｎｄ過
去Ｉ　　　　　　　１ｒｏｕｎｄａｄ　　　　ｗｅ　　　
ｗｏｕｎｄｅｄｙｏｕ　　　　　　ｗｏｕｎｄｅｄ　　
　　ｙｏｕ　　ｗｏｕｎｄｅｄｈｅ、′ｓｈｅ、　ｉｔ
　　ｗｏｕｎｄｅｄ　　　　ｔｈｅｙ　　ｗｏｕｎｄａ
ｄユーザが２看目の基本形を選択すると、システムは下
記の情報を示す。

動詞：不定詞　νｉｎｄ現在分詞　讐ｉｎｄｉｎｇ過去分詞　ｗｏｕｎｄ直脱法現在Ｉ　　　　　　　ｗｉｎｄ　　　　　ｗｅ　　　ｗｉｎ
ｄｙｏｕ　　　　　　ｗｉｎｄ　　　　　ｙｏｕ　　ｗ
ｉｎｄｈｅ、　ｓｈｅ、　ｉｔ　　ｗｉｎｄｓ　　　　
　ｔｈｅｙ　　ｗｉｎｄ過去Ｉ　　　　　　ｗｏｕｎｄ’　　　ｗｅ　　ｗｏｕｎｄ
ｙｏｕ　　　　　　ｗｏｕｎｄ　　　　　ｙｏｕ　　ｗ
ｏｕｎｄｈｅ、　ｓｈｅ、　ｉｔ　　ｗｏｕｎｄ　　　
　　ｔｈｅｙ　　ｗｏｕｎｄユーザが３１目の基本形を
選択すると、システムは下記の情報を示す。

名詞：単数　ｉｔｏｕｎｄ複数　ｗｏｕｎｄｓＤ２．１　処理の流れ（形態論的並列データベースのア
クセス）多くのアプリケーションは形態論的データベースを様々
な目的で用いる。ここでは、任意のアプリケーションに
ついてテーブルを用し）るためしこ実行しなければなら
ない内部オペレーションを説明する。この説明は、同義
語及び活用／語形変イし解析指令をサポートする形態論
的テーブル処理の最初の実施に基づいている。他のアプ
リケーションは、ヨーロッパ言語用の文法解析、及び同
義語照会／キーワード文書索引機能を含む。

Ｄ２．２処理ここでは、形機能或いは単語活用形表示機能をサポート
するのに必要なオペレーションを考える。

これはテーブルを用いた処理の代表的なもので、この機
能は本システムの全能力を働かせる。形機能においては
、テキスト中の１つの単語に対して、動詞のすにての活
用形又は名詞のすべての語形変化を示すために辞書プロ
セッサを呼出すことが要求される。例えば、英語の動詞
１１ｂｅ″′の解析を要求すると、次のような結果が一
例として得られる。

不定詞：　　　　　　ｔｏ　　ｂｅ完了形不定詞：　　　ｔｏ　　ｈｎｖｅ　　ｂｅｅｎ現
在分詞：　　　　　ｂｅｉｎｇ過去分詞：　　　　　ｂｅｅｎ直脱法：現在　　　Ｉ　ａＩｌｗｅ　ａｒｅｙｏｕ　　ａｒｅ　　　　　　　　　　　　　　　ｙｏ
ｕ　　ａｒｅｈｅ（ｓｈｅ、　１ｔ）ｉｓ　　　　　　
ｔｂｅｙ　ａｒｅ過去　　　Ｉ　ｗａｓ　　　　　　　
　　ｗｅ　ｗｅｒｅｙｏｕ　　１Ｉｌｅｒｅ　　　　　
　　　　　　　ｙｏｕ　　ｉｔａｒｅｈｅ（ｓｈｅ、　
１ｔ）ｔｚａｓ　　　　　ｔｈｅｙ　ｗａｒｅ現在完了
　Ｉ　ｈａｖｅ　ｂｅｅｎ　　　　　　ｗｅ　ｈａｖｅ
　ｂｅｅｎｙｏｕ　ｈａｖｅ　ｂｅｅｎ　　　　　　ｙ
ｏｕ　ｈａｖｅ　ｂｅｅｎｈｅ（ｓｈｅ、　１ｔ）ｈａ
ｓ　ｂｅｅｎ　　ｔｈｅｙ　ｈａｖｅ　ｂｅｅｎ上記の
他にも、過去完了、未来完了、仮定法及び命令法を含む
すべての時制が示される。次に、第４図を参照しながら
、処理の各ステップについて説明する。

ステップ１：単語が単純文字トリングとしてその長さと
共に辞書サービス・ルーチン２８へ送られる。

ステップ２：活用援助ルーチン３ｏが呼出される。この
ルーチンは処理全体の上位レベル管理プログラムである
。

ステップ３：活用擾助ルーチン３０が単語を主辞書探索
ルーチン３２へ送る。主辞書探索ルーチン３２は、入力
単語２４が正しいものであるかどうかを調べるために主
辞書データベース３４（第、図参照）を探索する。探索
により一致する単語が見つかると、それを−、意的に識
別する索引番号が活用援助ルーチン３０に戻される・主
辞書で一致する単語が見つからなければ、入力単語が誤
っているから、その時点で処理は終了する。

ステップ４：活用援助ルーチン３０がクラス。

テーブル３６（第１図参照）を探索するルーチン３８を
呼出す。このテーブル３６は、主辞書３４にある単語項
目毎に１つ又は複数のクラス番号を含む、クラス・テー
ブル探索ルーチン３８は、探索を開始する適切なレコー
ド番号を得るため、入力単語の索引番号を、クラス・テ
ーブルの索引に対する探索キーとして用いる０次いで、
このルーチンは当該テーブル・レコードにおける最初の
ニブル（４ビット項目）から始めて、ニブル単位で探索
を進め、入力単語の主辞書索引番号と一致するまでカウ
ントを増分する。このように、適切なレコードへの直接
ランダム・アクセス及びニブル単位での順次探索を組合
せると、アクセス時間が速くなると共に、テーブルの大
きさを最小限度に抑えることができる。

ステップ５：活用援助ルーチン３０は、ステップ４で戻
されたクラス番号を用いることによって。

可能な各クラスを定義する項目を含む別のテーブル（：
！ｉ尾子テーブル４０をアクセスすることができる。各
クラスは１時制、人称又は数を示す代表的な接尾辞すな
わち語尾のリストとして定義される。動詞、名詞、形容
詞等の各品詞は一組のクラス、すなわち代表的語尾のリ
ストを持っている。

ステップ４で戻されたクラス番号を用いることにより１
語尾テーブル探索ルーチン４２は語尾テーブル４０の索
引を探索して、適切なりラスを直接アクセスすることが
できる。（前述のように、クラスは単語の形を変えるの
に用いる代表的語尾の集合であり、英語の場合、例えば
動詞クラスは、−ｅｄ、−ｉｎｇ、−３等の語尾を含む
、）ステップ６：ここでは１Ｍ尾突合せルーチン４４で
語尾リストを用いて単語の変化しない部分すなゎち語幹
を求めるため、入力単語の語尾トリスト中の各語尾を突
合せる６例えば、久方単語ヲ”　ｈｅｌｐｉｎｇ　”と
すると、リスト中の語尾−３や−ａｄとの突合せでは不
一致が生ずるが、　−ｉｎｇとの突合せで一致が生じ、
従って語幹として、“ｈｅｌｐ”が得られる。

ステップ７：所与の言語における各単語は基本形を有し
ており、時制、人称、数等を示すすべての屈折形はこの
基本形に関係している。ステップ９で戻される語幹は基
本形のこともあるが、戻された語幹に特別の語尾を付加
することによって基本形を生成しなければならない場合
もある。語尾テーブル４０は、基本形を得るために語幹
に語尾を付加すべきか否かを示す。同義語機能の場合。

同義語辞書にはノん木彫の項目しか含まれていないので
、基本形を知ることは重要である。

ステップ８ニステツプ６が終った時点で、処理の流れは
、ポインタ・リスト・ルーチン４８により、位置に応じ
て位べられた語尾ポインタのリスト４６を参照すること
１；よって単語のすべての形（基本形を含む）を生成で
きるようになる。ポインタ・リスト４６は語尾自身と共
に記憶される。

リスト中のポインタは、ステップ６で使った語尾文字ス
トリングを示すが、ここでは語尾を別の目的で用いる。

ステップ６では、−ａｄ、ｓ、−ｉｎｇ等の語尾を突合
せに用いていたが、ステップ８では、入力単語のすべて
の形（時制、人称及び数に関するすべての変化を含む）
を生成するのに用いる。

ポインタ・リスト４６の内容は位置に応じた配列になっ
ている。すなわち、最初のポインタは、最初の形（例え
ば動詞の原形）を生成するのに必要な語尾を示し、２番
目のポインタは２番目の形（例えば動詞の過去形）を生
成するのに必要な語尾を示す（以下同様）。特定のポイ
ンタによって示された語尾がわかると、それをステップ
６で求めた語幹に付加することにより、対応する形が生
成される。ステップ７で述べた基本形もこれと同じ方法
で生成される。ポインタ・リスト４６中の最初のポイン
タは、Ｍ初の形すなわち基本形を生成するのに必要な語
尾を示す。特定の言語の特定の品詞に関しては、リス１
−中のポインタの位置は不変であり、形を完全に識別す
る。しかし本発明の特長の１つは、各言語における特殊
な形をカバーするように、言語に応じてポインタの位置
を変えられるということである・例えばリスト中の３番
目のポインタが、英語の動詞クラスにおし）て（ま１人
称過去形に用いる語尾を示し・フランス語の動詞クラス
においては２人称現在形に用いる語尾を示すようにでき
る。基本となる考え方は、コード及びテーブルの構造を
包括的で統一のとれたものにしておくと、言語によって
異なるすべての形の変化に対処できるということである
。

ステップ９：これですべての形が内部的に生成されたこ
とになり、従ってそれらは表示のため表示管理ルーチン
５０に送られる。

（注＝１つの単語についてステップ４で２以上のクラス
番号が戻された場合は、その各クラ　。

ス番号毎にステップ５〜８を繰返すことになる。例えば
′″ｒ　ｕ　ｎ　”が入力されると、動詞クラス番号及
び名詞クラス番号で戻される。

Ｄ２．３　検討事項（イ）デフオールド語尾テーブル所与の品詞に関する語尾テーブルには、１つ又は２つの
形を生成するための語尾だけが異なっていて残りは同じ
ものが幾つかある。多くの同じ語尾を重複して保持する
のは無駄であるから、所与のクラスが他の成るクラスと
殆んど同じ場合には、後者のクラスが参照され、実際に
異なっている部分だけが指定される。テーブル構造の詳
細についてはあとで説明する。

（ロ）スキップ・カウントクラス内での突合せ処理は順次的である。すなわち、そ
のクラスの最初の語尾が入力単語と突合され、それがう
まくいかなければ、２番目の語尾・が試みられ、以下同
様にして一致が生じるまで、後続の語尾が順次に試みら
れる。しかし時には、正しい語尾に出会う前に、それと
は別の語尾で一致が生じてしまうことがある。これは、
語尾リストを構成している文字ストリングに同一性があ
るためである。圧縮のために幾つかのクラスの語尾を併
合した場合にもこのような一致が生じ得る。

この問題を解決するため、各単語について尚早一致が生
じるか否かを示す単一ビットがクラス・テーブルに設け
られる。このビットがオンであれば、尚早一致の数を示
すカウント（スキップ・カラン１、）がクラス番号と共
に保持される。これの−例を次に述べる。

入力単語がフランス語の”ｂｒｉｌｌｅｒａ”であった
とする。これは、クラス００３において語尾番号１２の
“１　ｅ　ｒ　ａ　”と一致し、従ってこのままであれ
ば語幹はＬＬｂｒＨｌｌになる。しかし、正しい語幹は
“ｂｒｉｌｌ”であるから“１ｅｒａ”での一致を無視
するために、単語”ｂｒｉｌｌａｒａ”について尚早一
致ビットがターンオンされると共にスキップ・カウント
″“１″が保持される。この結果、システムは”１ｅｒ
ａ”で一致が生じてもそれを無視してテーブル探索を進
め１次に語尾番号２８の”　ｅ　ｒ　ａ　ＩＩのところ
で再び一致を見出す。スキップ・カウントは１であるか
ら、この２回目の一致は有効である。従ってシステムは
、単語“ｂｒｉｌｌｅｒａ”のすべての形を形成するた
めの語幹として”ｂｒｉｌｌ’″を戻す。

（ハ）語尾における総称文字語尾を付加して屈折形を生成するとき、文字を若干変更
しなければならないことがある。この変更が一定の規則
に従っていると１語尾リストにおいてそれを一般的に指
定することができる０例えば、英語の動詞には、ｒｕｎ
ｎｉｎｇ、　ｂｅｔｔｉｎｇ、ｇｒａｂｂｉｎｇ等のよ
うに、　−ｉｎｇを付加するときに最後の子音を２重化
するものがかなりある。従って。

別々の語尾リストを準備する代りに、システムは、最後
の子音の２重化を示す’−＃ｉｎｇ”を含んだ単一のリ
ストを参照する。かくて、　ｒｕｎ、　ｂａｔ、　ｇｒ
ａｂ等の動詞については１つのクラスですむ。このよう
な取扱いは種々な言語で可能である。

（ニ）テーブルの圧縮技術テーブル・データには何種類がの共通性及び繰返しパタ
ーンがあるから、これを十分に利用する。

例えば、語尾に用いるアルファベット文字に対し。

最も頻繁に呪われる文字が最短のコードを有するように
、頻度に基いてコードを割当てる。更に。

主辞書３４中で順番に並んでいる単語が同一のクラス°
データを有している場合は、それを単語毎に繰返す代り
に、カウントを保持する。別の例はグラス番号の割当て
である。ここでも、最も頻繁に使用されるクラスに対し
て最も小さい番号を割当てる。また実験によれば、テー
ブルに含まれるデータの性質」―、コード化の最小デー
タ単位を２ビツトにすれば最適の圧縮を行えることがわ
かった。ただしこれが適用されるのはテーブルだけであ
り、ＩＩＩＩ書では別の単位を用いる。

（ホ）不規則語単語には、ｔｔｂθ′″のように、共通部分のないもの
がある。これらは不規則語と呼ばれる。例えば、基本形
″′ｇＯ″の１つの屈折形である”　ｗ　ｅ　ｎ　ｔ　
”は“ｇｏ　Ｉｔと同じ文字を含んでいない。しかし、
不規則語に対しても、前と同じテーブル構造及びアクセ
ス・コー１（を用いることができる。１１ｇｏ”を例に
とると。

”ｇｏ”が割当てられている動詞クラスのための語）６
を、−ｉｎｇ、−ｗａｎｔ、−ｏｎｅ等のように設定し
、入力単語との突合せを必要に応じてその左端の文字ま
で含めて行えばよい。入力単語が’ｗｅｎｔ”の場合は
、それとテーブル中の語尾″’ｗｅｎｔ”とが完全に一
致することになる。ＩＩ　ｇｏｎ　、ＩＩの場合は語尾
゛″ｏ　ｎ　ｅ　”で一致が生じ、“ｇ”だけが残る。

一致した語尾を除いた残りの部分が如何なるものであっ
ても（”ｗｅｎｔ’″のように何も残らない場合もある
）、当該クラス中の残りの単語を語尾を用いて構成する
ことができる。

（へ）同じ形の複数綴り単語の中には、その所与の形（例えば動詞の過去分詞）
を表わすのに２種類の綴りを持っているものがある。こ
れは英語ではそう珍しいことではなく、過去分詞を例に
とると、ｂｅむ／ｂｅｔｔｅｄ。

ｐｌｅｄ／ｐｌｅａｄｅｄ、　ｗｒａｐｔ／ｗｒａｐｐ
ｅｄ＋ｄｒｅａ＋ｍｔ／ａｒｅａｍｅｄ等、多くの例が
ある。ノルウェー類には同じ形を表わすのに６種類の終
りを持っている単語がある。本発明は、このような複数
綴りにも対処できる。

（ト）性情報語尾リストは、各単語の変化情報だけでなく。

必要に応じて性情報も特定する・これは、殆んどノヨー
ロッパ系言語で重要となる。

（チ）特定形の欠如各単語はすべての形を持っているわけではなく特定の形
がないものが多い。例えば、“”ｓｎｏｗ″や”ｒａｉ
ｎ”は命令形を持ってい°ない９本システムはこのよう
な単語を正しく分析し、存在していない形を生成量るこ
とはない。

Ｄ、３　　同義語同義語、￥？ｌＦは基本形の見出ししか持っていないの
で、成る単語について同義語を見つけるためには、まず
その基本形を知る必要がある。これは。

これまで説明してまた本発明の形態論的システムにより
達成される。従って、ユーザが成る単語の任意の形を示
してその同義語を要求すると、基本形（複数のこともあ
る）を見つけるため、内部的に同義語システムが形態論
的システムを呼出す。

例えば、ユーザが’ｒｅａｄｉｎｇ”を入力すると、形
態論的システムは基本形として“’ｒｅａｄ”　（動詞
）及び’ｒＣａｄｉｎｇ”　（名詞）を出力する。同義
語システムはこれらを用いて同義語辞書をアクセスする
ことにより、次のような同義語を表示する。

動詞”ｒｅａｄ″：ｕｎｄｅｒｓｔａｎｄ、　ａｃｃｅｐｔ＋ａｐｐｒｅｈ
ｅｎｄ、　ｃａｔｃｈ＋＋”ｃｏｎｓｔｒｕｅ、　１ｎ
ｔｅｒｐｒｅｔ＋　ｔａｋａ＝ｓｈｏｗ、　１ｎｄｉｃ
ａｔｅ、　＋＊ａｒｋ１１名詞”ｒｅａｄｉｎｇ”　：１ｎｔｅｒｐｒｅｔａｔｉｏｎ、　ｒａｎｄｉｔｉｏｎ
％ｅｘｅｃｕｔｉｏｎ。

ｐｅｒｆｏｒｗａｎｃａ、　ｒｅａｌｉｚａｔｉｏｎ”
入力単語が“す。ｕｎｄ＃の場合は、第３図に示したよ
うに、３つの基本形が得られ、同義語システムはそれら
に基いて次のような同義語を表示する。

名詞“ｗｏｕｎｄ”　：ｔｒａｕｍａ、　１ｎｊｕｒｙ、　ｈｕｒｔ′１１＋６
動詞１１ｗｏｕｎｄ″：ｈｕｒｔ＋　１ｎｊｕｒｅ、　　５ｈｏｃｋ”動詞″ｗ
ｉｎｄ”　：ｔｗｉｓｔ、　ｃｏｉｌ、　ｍｅａｎｄｅｒ、　５ｎａ
ｋｅ、　５ｐｉｒａｌ。

ｃｕｒｌ、　　ｅｎｔｗｉｎｅ” ｉｎＳｉｎｕａｔｅｊ１１１形態論的システムがなければ、同義語システムは不規則
変化語に関しては全く働かず、また成る単語の１つの屈
折形が別のだ単語の基本形と同じであった場合には、不
正確或いは不完全な出力を生じることがある（例えば、
”　ｂｅｃｏｍｉｎｇ”はａｔｔｒａｃｔｉｖｅ、　ｐ
ｒｅｔｔｙ等の同義語を持っているが、それを動詞”　
ｂ　ｅ　ｃ　ｏｃｍｅ　”と関連付ける平置てはない）
。

この問題は、単語の屈折形が多い言語ではより顕著であ
る。

次に、第５図を参照しながら、同義語処理について説明
する１図から明らかなように、語尾テーブルのブロック
までは第２図及び第３図と同じである。次の処理ブロッ
クでは、入力単語及びすべての基本形において共通する
ものを１つにまとめ、そして同義語テーブルをアクセス
するために、主辞書中の語幹番号及び語尾番号を得る。

同義語テーブルはすべての形についてアクセスされるが
、そのうち同義語を持っている形についてその同義語が
表示される。

腹１ｉユーザが”ｔｕｒｎｓ”を入力したとする。クラス・テ
ーブル３６及び語尾テーブル４ｏの探索により、クラス
００２及び９０１において基本形ｔｕｒｎ（ｖ）及びｔ
ｕｒｎ（ｎ）が見っがる。（Ｖ）は動詞、（ｎ）は名詞
を示す、この時点で利用可能なのは、入力単語であるｔ
ｕｒｎｓ（ｎ）又はｔｕｒｎｓ（ｖ）と、基本形ｔｕｒ
ｎ（ｎ）及びｔｕｒｎ（ｖ）である、共通部分を１つに
まとめると、ｔｕｒｎｓ（ｎｖ）及びｔｕｒｎ　（ｎｖ
）が得られる。ｔｕｒｎｓについては既に語幹番号及び
語尾番号を得ているので、次にｔｕｒｎの語幹番号及び
語尾番号を得る。これらに基いて同義語シャドウ・テー
ブルをアクセスすると、ｔｕｒｎｓについては同義語は
見つからないが、動詞及び名詞のｔｕｒｎについては次
のような同義語が表示される。

動詞”ｔｕｒｎ”　ニーｃｉｒｃｌａ、　ｇｙｒａｔｅ、　ｒｅｖｏｌｖｅ１
１＋０−ｂｅｎｄ、　ａｎｇｌｅ” −ｒｅｖｅｒｓｅ −ｂｒｅａｋ、　ｐｌｏｗ” 一５ｐｒａｉｎ、ｗｒｅｎｃｈ” −ａｖｅｒｔ、ｄｅｆｌｅｃｔ＋１＋ −ｃｈａｎｇｅ、ａｌｔｅｒ＋　ｄｅｆｌｅｃｔ”名詞
“ｔｕｒｎ”ニーｒｅｖｏｌｕｔｉｏｎ、ｃｉｒｃｕｉｔ、ｇｙｒａｔ
ｉｏｎ・・・・−ｂｅｎｄ、ｂｏｗ、ｃｒｏｏｋ、ｃｕ
ｒｖａｔｕｒｅ、ｃｕｒｖｅ＝−ｓｈｉｆｔ、ｂｕｒｓ
ｔ＝ −ｍｏｖａｍｅｎｔ、８シｏｌｕｔｉｏｎ１１−ｂｏｕ
ｔ、　　ｇｏ、ｈｉｔｃｈ・・−−夕じζ ユーザが’ｂｉｄｄｉｎｇ”を入力したとする。クラス
・テーブル３６及び語尾テーブル４０の探索により。

クラス９０１．０６２及び０３４において基本形ｂｉｃ
ｌｄｉｎｇ（ｎ）、ｂｉｄ（ｖ）及びｂｉｄ（ｖ）が見
つかる。これらと入力単語のｂｉｄｄｉｎｇ（ｎ）又は
ｂｉｄｄｉＢ　（ｖ）をまとめると、ｂｉｄｄｉｎｇ（
ｎｖ）及びｂｉｄ（ｖ）が得られる。

ｂｊ、ｄｄｉｎｇについては既に主辞書３４の探索で語
幹番号及び語尾番号を得ているので、次にｂｉｄの語幹
番号及び語尾番号を得る。これらに基いて同義語シャド
ウ・テーブルをアクセスすると、次のような同義語が表
示される。

名詞“ｂｉｄｄｉｎｇ”　ニーｃｏｍｍａｎｄ＋　ｃｈａｒｇｅ、　　ｃｏｍｍａｎ
ｄＬｌｅｎｔ”−１ｎｊｕｎｃｔｉｏｎ＋１ｎｓｔｒｕ
ｃｔｉｏｎ、　ｍａｎｄａｔｅ、　ｏｒｄｅｒ動詞“ｂ
ｉｄ”　ニ一１ｎｖｉｔｅ、ａｓｋ＃鴫・・ −ｇｏ、　ｏｆｆｅｒ” −ｃｏｍｍａｎｄ、　ｃｈａｒｇｅ＋ｄｉｒｅｃｔ＝本
実施例の同義語機能は、関連するシソーラスにおいて使
用可能なすべての同義語を見つけることができるので、
従来の同義語処理よりも優れている。従来は、可能なす
べての品詞のうちの一部しか考慮されておらず、辞書の
取扱いにも限界があり、応用も単一言語に限られ、圧縮
も不十分であった。

Ｄ、４　　文書検索システム複数言語の文書検索システムは、その処理における３つ
の異なった部分で形態論的処理を必要とする。（文書検
索システムの背景については、例えば特公昭５８−２８
６１６号公報を参照されたい）（イ）索引付は重要な単語すなわちキーワードを決めるため、索引付け
されるべきテキスト中の単語が頻度に応じてランク付け
される。もし成る単語が様々な形で現われ、それらの形
が基本形と関連付けられなければ、それらは別の単語と
みなされて、ランクか下ってしまう。例えば、成る名詞
が全部で１２２回現れ、そのうち単数形と複数形が半々
であったとすると、もしそれらが形態論的解析によって
関連付けられなければ、頻度についての点数は、実際は
１２点であるにもかかわらず、単数形及び複数形がそれ
ぞれ６点ずつを分は合うことになる。

名詞の屈折形が多い言語では、この問題はもつと深刻で
ある。勿論、他の品詞についても同じこと云える。

例文： ’Ｔｈｅ　Ｇｅｎｅｒａｌ　Ｃｏｎ５ｔｒｕｃｔｉｏｎ
　Ｃｏｍｐａｎｙ　ｉｓｒｅｂｕｉｌｄｉｎｇ　ｏｕｒ
　ｏｆｆｉｃｅ、　Ｔｈｅ　ｏｆｆｉｃａ　ｗａｓ　ｒ
ｅｂｕｉｌｔ　ｂｅｆｏｒｅ　ｉｎ　１９５７　ａｎｄ
　ｉｎ　１９６３　ｂｙｏｔｈｅｒ　　１ｏｃａｌ　　
ｃｏｍｐａｎｉｅｓ−１ｉｆｅ　　ｗｏｕｌｄ　　１ｉ
ｋｅ　ｔ。

ｈａｖｅ　　Ｇｅｎｅｒａｌ　　Ｃｏｎ５ｔｒｕｃｔｉ
ｏｎ　　ｒｅｂｕｉｌｄ　　ｔｈｅ　　ｍａｉｎｅｎｔ
ｒｙ、ｂｕｔ　　ｔｈｅｙ　　ｕｓｕａｌｌｙ　　ｃｏ
ｎｔｒａｃｔ　　ｔ。

ａｎｏｔｈｅｒ　　ｃｏ＋ｍｐａｎｙ　　ｆｏｒ　　ｍ
ａｉｎ　　ｅｎｔｒｉｅｓ　　ａｎｄ　　ｔｈｅｓｕｂ
ｃｏｎｔｒａｃｔｏｒ　　ｗｈｏ　　ｒｅｂｕｉｌｄｓ
　　ｅｎｔｒｉｅｓ　　ｉｓ　　ｎｏｔａｖｅｉｌａｂ
ｌｅ、” （ゼネラル建設が我々のオフィスを改築中です。

オフィスは以前１９５７年及び１９６３年に別の地元会
社によって改築されました。我々としてはゼネラル建設
に正面玄関を改築させたいのですが、彼等は普通正面玄
関については別の会社に請負わせ、玄関を改築する不精
会社はありません、）上の例文では、単語“ｒｅｂｕｉｌｄ”の幾つかの形（
ｒｅｂｕｉｌｄｉｎｇ、　ｒｅｂｕｉｌｔ、　ｒｅｂｕ
ｉｌｄ、及びｒｅｂｕｉｌｄｓ）が現われている。もし
形態論的解析を行わなければ、これらの形は別の単語と
みなされ、ＪＪＩ度点はそれぞれ５点ずつになる。もし
それらが基本形”ｒｅｂｕｉｌｄ”に関連付けられれば
、それに対して４点の頻度点が与えられ、従って’ｒｅ
ｂｕｉｌｄ”がキーワードとして認識される可能性が大
きくなる６名詞”ｃｏ＋ｍｐａｎｙ”は単数形で２回、
複数形で１回現われている。従って、”ｃｏｓ＋ｐａｎ
ｉｅｓ”が”ｃｏｒｓｐａｎｙ”に関連付けられると２
名詞゛１ＣＯ腸ｐ　ａｎｙＩＩの頻度点は２点ではなく
３点になる。同様に、単数形が１回及び複数形で２回現
われている名詞１１．。ｔ　ｒ、　Ｈにライても、“ｅ
ｎｔｒｉｓｓ”が＃　ｅｎｔｒｙＩｔに関連付けられれ
ば、頻度点は１点ではなく３点になる。

（ロ）同義語文書検索システムにおいても、同義語検索に対する形態
論的システムの重要性は前述したところと変らない、基
本形との関連付けができない限り。

大多数の単語について同義語を見つけることはできない
。

（ハ）検索ユーザが情報を求めて文を入力すると、次に説明するパ
ーザがそれを構文解析し、品詞を決める。

次に、照会で見つかったキーワードと使用可能な文書の
索引付けとを突合せるため、再び形態論的システムによ
って基本形を見つけなければならない１例えばユーザが
次の文を入力したとする。

”Ｉ　ｗｏｕｌｄ　１ｉｋｅ　ｉｎｆｏｒｍａｔｉｏｎ
　ｏｎ　ｃｏｍｐａｎｉｅｓｗｈｏ　ｈａｖｅ　ｒｅｂ
ｕｉｌｔ　ｅｎｔｒｉｅｓ、”（玄関を改築した会社に
関する情報が欲しい）単語が基本形と関連付けられるの
であれば、単語”Ｃ０１ｌｐａｎｙ”、”ｒｅｂｕｉｌ
ｄ”及び“ｅｎｔｒｙ”について高い頻度点を有する文
書が探索されることになる。

関連付けがなければ、”　ｃ　ｏｔａ　ｐ　ａ　ｎ　ｉ
ｅ　ｓ　”、”ｒｅｂｕＨｔ”、及び“ｅｎｔｒｉｅｓ
”が探索されるので、上記の例は見つからない。

（ニ）パージングパーザはまず解析中の文に含まれる単語の品詞を見出し
１次にあいまいさをなくそうと試みる。

例文： “Ｔｈｅ　ｃｏｄｅ　ｔｏ　ｆｉｎｄ　ｔｈｅ　ｂａｓ
ｅ　ｆｏｒ＋ｓ　ｉｓ　ｉｎ　ｔｈｅｍｏｒｐｈｏｌｏ
ｇｉｃａｌ　ｓｙｓｔｅｍ、”（基本形を見つけるため
のコードの形態論的システムにある。）上の文で“ｃｏｄｅ”は名詞又は動詞であるが、Ｉｔ　
ｔｉ　ｅＩＩが前に付いているので、名詞とみなされる
。ＩＩ　ｊ　ｏｌ）は副詞、前置詞又は不定詞標識であ
るが、後に動詞の原形があるので不定詞標識とみなされ
る。

ＩＩ　ｆＨｎｄｓｒは動詞の原形である。ＩＩ　ｂａ、
ｅ　１１は形容詞。

名詞又は動詞であるが　ＩＩ　ｔ　ｌ、ｅ１７の後で且
つ他の名詞の前にあるので形容詞とみなされる。以下、
同様な解析が行われる。

しかし、上の文で’ｆｉｎｄ”が“ｆｉｎｄｓ”に変わ
っていると、これは原形ではないので、その前の“ｔＯ
″は前置詞とみなされ、　”ｆｉｎｄｓ″′は名詞（前
置詞の目的語）とみなされる、パーザがもつと洗練され
ていると、このような文法上の誤りを見つけることがで
きよう。そのためには、主語及び動詞がどれ程離れてい
ても、それらを見い出して、形態論的解析を行うことに
より、それらが一致するかどうかを調べなければならな
い。例えば、見い出した主語が’ｃｏｄｅ”で動詞が’
ａｒａ’″の場合、前者が単数であるのに対し後者は複
数を表わすから、これらは数において一致しない、従来
のパーザにも形態論的処理を行うものがあるが、これは
辞書の外部に設定されていて、圧縮されておらず。

また屈折形から基本形に行くだけであるがら、正しい可
能性を見つけられない。更に、このパーザは英語専用の
アルゴリズムを用いており、取扱いも名詞及び動詞に限
られている。これに比べて本システムは、（１）圧縮さ
れて辞書に組込まれており、（２）の他の言語に応用で
き、（３）双方向性であり、（４）誤りが生じず（各単
語のあらゆる特殊性を考慮している）、そして（５）包
括的である（辞書中の全単語の全品詞をカバーする）、
という利点を持っている。

Ｄ５．クラス・テーブル及び語尾テーブルの詳細Ｄ５．
１　クラス・シャドウ・テーブル（１）クラス索引最初のレコードの前に８バイトのヘッダを持っており、
そのうちバイトＯ及びバイト１は、索引テーブルにある
３バイトの項目の数を示す。バイト２〜７は予約バイト
である。３バイトの各項目（バイトミルバイトｉ＋２）
は、各クラス・テーブル・レコード中の最初のクラス項
目に対応する絶対語幹番号を表わす、３バイトの項目が
レコードの残りの部分に入りきらなければ、その部分は
ｘ　’００’　を埋め込まれ、その項目は新しいレコー
ドを生成する。このテーブルにおける最後の３バイト項
目はｘ　’７ｆｆｆｆｆ’を含む、最後のレコードは後
にＸ’００’　を埋め込まれる。

（２）クラス・データこのテーブルは、クラス索引テーブルの終りに続いて、
辞書の最初のレコードで始まる。これは。

語幹のクラス情報（接尾辞変形により元の語幹と異なる
クラスになるものも含む）を含み、更に所与の各クラス
について前述のスキップ・カラン１−を含む。このテー
ブルの各項目は次のような形式％式％（イ）語幹のクラス番号クラス番号項目は最少６ビツトから成り、最初のニブル
（４ビツト）にフラグを含む。最初のニブルの解釈は次
の通りである。

’０ｘｘｘ’　＝次のクラスが当該語幹の最後のクラス
であることを示す。

’１ｘｘｘ’　＝当該語幹について更に別のクラスがあ
ることを示す。

１スｌｘｘ’　＝スキップ・カウントが０より大きく。

クラス番号項目の次にニブル・ランレングス符号化スキップ・カウントが続くことを示す。

’ｘＯｘｘ’　＝このクラスについてはスキップ・カウ
ントがＯであることを示す。

最初のニブルの残りの２ビツトはクラス番号であり、そ
れが１１１′であれば１次のニブルが加えられ。次のニ
ブルが’１１１１’であれば、番号の残りはバイト・ラ
ンレングス符号化される。

（ロ）変形のクラス番号最初のニブルの解釈は次の通りである。

’０Ｏｘｘ’　＝すべでの語幹クラスがこの変形に当て
はまることを示す。この場合、このようなデフオールド変形の数を表わすニブル・ランレングス符号化カウントが後に続く。

’０１ｘｘ’　＝語幹のすべての情報及び続くクラス（
語幹に関して符号化され、次の二プルから始まる）が使用されることを示す。

’１ｘｘｘ’　＝語幹のどのクラス情報も使用されない
ことを示す。この場合、変形についてのクラス情報が後に続く　（次のニブルから始まり、語幹に関して符号化される）。

’ｘｘＯｘ’　＝これが、例外クラス情報が与えられる
最後の変形であることを示す。

’ｘｘｌｘ’　＝Ｑｉ変形が、例外クラス情報が与えら
れる最後の変形ではないことを示す。

’　ｏｏｏｏ″　＝すべでの変形が語幹のクラス情報を
デフオールドとするが、又は語幹が変形を持たないことを示す。項目をアクセスする時には変形の数がわかっているので、処理コードにとっては、　“ｏｏｏｏ’　が何れを示すかは明らかである。

注：上述のニブルは“変形フラグニブルである。このニ
ブルの最終ビット（上の例では常にｘ＋）が１であれば
、変形フラグに続くニブルは、現変形と全く同じ特性を
有する後続の変形のニブル・ランレングス符号化カウン
トである。このカウントはＯより大きくなければならな
い。現語幹に関する次の変形が先行の変形をデフオール
１〜としないのであれば、変形フラグ・ニブルの最終ビ
ットはＯにされ、カウントも含まれない（次のニブルは
変形フラグである）。項目がレコードの残りの部分に入
りきらなければ、そのレコードはｘ　’００’　を埋め
込まれ、当該項目は次のレコードで始まる。

最後のレコードはｘ　’００’　を埋め込まれる。

Ｄ５．２　形態論的解析システムの語尾テーブル構成要
素（１）索引８バイトの索引ヘッダ及び４バイトの索引項目を含む、
索引ヘッダは、語尾索引項目のカウント（２バイト）、
文法コードのカウント（２バイト）、及び語尾索引ブ。

ツクのカウント（２バイト）がら成り、残り２バイトは
予約されている。索引項目は語尾リスト毎に１つあり、
開始ブロック番号（２バイト）及び開始ブロックにおけ
るオフセット（２バイト）から成っている・索引は、前述のクラス・シャドウ・テーブルで使用され
ているクラス番号割当てと正確に関係するクラス割当て
の頻度に同じて並べられる・索引項目は、デフオールド
語尾リストを使うか否かには関係なく、クラス毎に存在
する。しかしクラスが成る別のクラスをデフオールドし
ている場合、その索引項目の開始ブロック番号はＯにさ
れる。これがＯであれば１次の２バイトは、現クラスの
デフオールドになっているクラスの番号（語尾テーブル
索引を再アクセスするのに直接使用）である。

文法コードは、索引ヘッダの直後で且つ上述した実際の
索引項目の前に置かれる。コードの数は索引ヘッダ中に
与えられている。コードは各々８バイトであり、実際の
索引項目と同じ長さであるが、その最終バイトは、クラ
スの品詞コードにセットされる。

（２）語尾テーブル・データ各語尾リストのへツク：索引項目中のブロック番号及びオフセットにより指示さ
れ、下記の内容を含んでいる。

・形リストの開始ブロック（２バイト）＠Ｒ１・形リス
トのブロックにおけるオフセット（２バイト）＠Ｒ１・文法コード番号（２バイト）・形カウント（２バイト）・明示語尾カウント（２バイト）・テンプレート索引番号（２バイト）語尾文字ストリング：これはヘッダの直後に続く。語尾文字ストリングの開始
位置及び終了位置はバイト境界上にあるが１文字自身は
主辞書における文字圧縮テーブルに従い頻度に応じて符
号化される。

語尾リストは、語尾リストにおいてニブル符号化を用い
る唯一の場所である。各語尾の前には、ニブル・ランレ
ングス符号化長（この長さは、未圧縮語尾に含まれる文
字の数である）がある。ヘッダと語尾リスト開始位置の
間、又は任意の２つの裏金な語尾の間でブロック境界を
越えることがある。

形リスト：形リストは語尾文字ストリングの直後に始まり（ブロッ
ク境界を越えることがある）、その開始位置はクラスの
各索引項目にある形ブロック番号及びオフセットによっ
て明示的に指示される。すべてのクラスが併合されてお
り、別のクラスをデフオールドとするものは索引項目を
除いて最早存在しないので、形リス１〜は、現クラスを
デフオールドとして用いるクラスのうちの何れがリス］
−中に形を有しているかを識別しなければならない。形
リストは、形番号、語尾リスト識別番号及び語尾リスト
・ポインタ（文字ストリングへのポインタ）から成って
いる。形番号は、クラス・テーブル及び語尾テーブルの
入力で使用する。

語尾リスト識別番号は、別のクラスをデフオールドとし
ているクラス（シャドウ・クラスと云う）にのみ適用さ
れる語尾リスト・ポインタの前に置かれる。理由は、索
引項目としての存在を除くと圧縮されたテーブル中には
存在しない幾つかのシャドウ・クラスが１つの″フル”
クラスを参照する場合があるからである。語尾リスト・
ポインタは、上述の語尾文字ストリング・リストにおけ
る文字ストリングを参照する。

形番号：　６３−２５６−２５６・・・・ランレンズ符
号化、最初の２ビツトはフラグ ’００’　ｘ。

語尾リスト識別番号：　６３−２５６−２５６・°°°
ランレングス符号化。最初の２ビツトはフラグ’０１’　　ｘ。

語尾リスト・ポインタ：６３−２５６−２５６・・・・
ランレングス符号化。最初の２ビツトは、形についての
最後のポインタであればフラグ’１０’　ｘ。

さもなければ’１１’　ｘ。

Ｅ８発明の効果本発明によれば、単語の１つの形からそれに関連する他
のすべての形を容易に導き出せるので、同義語探索や文
書探索等において絶大な効果を発揮する。

【図面の簡単な説明】

第１図は本発明に従う言語処理システムの構成を示すブ
ロック図。第２図乃至第５図は第１図のシステムにおける処理の流
れを示す流れ図。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名）

Claims

【特許請求の範囲】単語を入力する手段と、各単語のクラスを識別するクラス・テーブル、及びクラ
ス毎の屈折パターンをその文法上の機能に応じた位置に
保持する屈折パターン・テーブルを記憶する記憶手段と
、前記入力手段からの入力単語に応答して前記クラス・テ
ーブルをアクセスすることにより該入力単語のクラスを
識別し、該クラスに対応する屈折パターン・テーブルの
内容と前記入力単語を比較し、一致した屈折パターン部
分を前記入力単語から取り除くことにより前記入力単語
の不変部分を見出す手段と、を具備することを特徴とする言語処理システム。