JPH1074203A

JPH1074203A - 大文字及び非強調テキストの語彙処理の方法及びシステム

Info

Publication number: JPH1074203A
Application number: JP9149827A
Authority: JP
Inventors: Joseph E Pentheroudakis; イーペンサロウダキスジョセフ; Steve Richardson; リチャードソンスティーヴ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-05-02
Filing date: 1997-05-02
Publication date: 1998-03-17
Also published as: US6651220B1; EP0805404A1; US5995922A

Abstract

(57)【要約】【課題】発音区別符号がストリップされた入力語に対
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出す方法を提供する。【解決手段】電子辞書から情報を検索する方法及びシ
ステムである。システムは、同じ正規化された形式を有
する語についての全ての情報を電子辞書内の単一エント
リに記憶する。語の正規化された形式は、全て小文字を
有しかつ発音区別符号を有さない。情報が語に対して辞
書から検索されるべきであるときに、語は、まず正規化
されそして辞書がその正規化された語に対応しているエ
ントリに対して検索される。見出されたエントリは、そ
の語に対する情報を含む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然言語処理（“ＮＬ
Ｐ”）の分野に関し、より特定的には、電子辞書から情
報を編成しかつ検索する方法及びシステムに関する。

【０００２】

【従来の技術】自然言語処理自動自然言語処理用コンピュータ・システムは、入力テ
キストを分析しかつ自然言語のマシン・アンダスタンデ
ィング（機械理解）のレベルを達成すべく形態素(morph
ological) 、構文(syntactic) 、及び意味解析(semanti
c analysis) の言語分野にほぼ対応している、種々のサ
ブシステムを用いる。あるレベルへの入力テキストを理
解して、コンピュータ・システムは、例えば、入力テキ
ステへの文法的及び文体（形式）的変更を提案し、入力
テキストにおいて提起された質問に答えるか、または入
力テキストによって表される情報を効果的に記憶するこ
とができる。

【０００３】形態素解析は、入力語(input words) を識
別しかつ自然言語の話者(human speaker) が辞書を用い
て決定することができる各語に対する情報を供給する。
そのような情報は、語がプレイすることができる構文ロ
ール(syntactic roles) （例えば、名詞または動詞）及
び異なる、関連語を生成すべく接頭部(prefixes)または
接尾部(suffixes)を加えることによって語を変更するこ
とができる方法を含みうる。例えば、語“fish”に加え
て、辞書は、また、“fishes”、“fished”、“fishin
g ”、“fisher”、“fisherman ”、“fishable”、
“fishability ”、“fishbowl”、“fisherwoman ”、
“fishery ”、“fishhook”、“fishnet”、及び“fis
hy ”を含んでいる、語“fish”に関連し、かつそれか
ら導き出される種々の語をリストしうる。

【０００４】構文解析は、開始点として、入力語の形態
素解析によって供給された情報を、開始点として、用
い、かつ入力文が書き込まれた言語の文法を定義するシ
ンタックス規則(syntax rules)の組を用いて各入力文を
解析する。次のものは、サンプル・シンタックス規則で
ある： sentence ＝ noun phrase ＋ verbphrase （文）（名詞句）（動詞句） noun phrase ＝ adjective ＋ noun （名詞句）（形容詞）（名詞） verb phrase ＝ adverb ＋ verb （動詞句）（副詞）（動詞）構文解析は、入力文の語に適用されたときに、語のグル
ープを語句に結合し、そして語句を完全な文に結合す
る、シンタックス規則の順序付けられたサブセットを見
出すことを試みる。例えば、入力文：“Big dogs fierc
ely bite”を考える。上に掲げた３つの簡単な規則を用
いて、構文解析は、それぞれ形容詞及び名詞として語
“Big ”及び“dogs”を識別し、かつ名詞句“Big dog
s”を生成すべく第２の規則を適用するであろう。構文
解析は、それぞれ副詞及び動詞として語“fiercely”及
び“bite”を識別し、かつ動詞句“fiercely bite ”を
生成すべく第３の規則を適用するであろう。そして、構
文解析は、先に生成された名詞句及び動詞句から完全な
文を形成すべく第１の規則を適用するであろう。最終的
な完全な文を含んでいる、規則の順序付けられた組及び
それらを適用した結果として生じた語句は、構文解析系
（パーズ(parse) ）と呼ばれる。

【０００５】しかしながら、ある文は、複数の異なるパ
ーズを有することができる。そのような多重パーズに対
する古典的例文は：“Time flies like an arrow. ”で
ある。この文の３つの可能な意味に対応している少なく
とも３つの可能なパーズが存在する。第１のパーズで
は、“time”は、文の主語であり、“flies ”は、動詞
であり、かつ“like an arrow ”は、動詞“flies ”を
修飾している前置詞句である。しかしながら、少なくと
も二つの予期していないパーズも同様に存在する。第２
のパーズでは、“time”は、“flies ”を修飾している
形容詞であり、“like”は、動詞であり、かつ“an arr
ow”は、動詞の目的語である。このパーズは、ある一定
の型のフライ、“time flies”が矢を好きかまたはそれ
に魅せられるという意味に対応する。第３のパーズで
は、“time”が命令形動詞であり、“flies ”は、目的
語であり、かつ“like an arrow ”は、“time”を修飾
している前置詞句である。このパーズは、たぶんストッ
プウォッチで、あるものが矢を計時するような、time f
liesへの命令に対応する。

【０００６】構文解析は、シンタックス・パーズ・ツリ
ーと呼ばれる一つ以上の階層ツリーを構築することによ
ってしばしば達成される。シンタックス・パーズ・ツリ
ーの各リーフ・ノードは、入力文の一語を表す。シンタ
ックス規則のアプリケーションは、下から一つ、二つ、
または時々それ以上の既存のノードにリンクする中間準
位ノードを生成する。既存のノードは、初めはリーフ・
ノードだけを備えるが、構文解析がシンタックス規則を
適用すると、既存のノードは、リーフ・ノード及び中間
準位ノードの両方を備える。完全なシンタックス・パー
ズ・ツリーの単一ルート・ノードは、文全体を表す。意
味解析(semantic analysis) は、シンタックス・パーズ
・ツリーだけによって記述することができるよりも深み
のある方法で入力テキストの意味を記述する論理形式グ
ラフを生成する。意味解析は、二つ以上のシンタックス
・パーズ・ツリーが構文解析によって生成されたなら
ば、シンタックス・パーズ・ツリーによっ表された、正
しいパーズを選択することをまず試みる。正しいパーズ
に対応している論理形式グラフは、言語の話者によっ
て達成されたものに相当する準位で入力テキストを理解
するための最初の試みである。

【０００７】論理形式グラフは、ノード及びリンクを有
するが、上述したシンタックス・パーズ・ツリーとは異
なり、階層的に順序付けられていない。論理形式グラフ
のリンクは、一対のノード間の関係を示すためにラベル
表示される。例えば、意味解析は、動詞のディープ・サ
ブジェクト(deep subject)またはディープ・オブジェク
ト(deep object) として文のある一定の名詞を識別しう
る。動詞のディープ・サブジェクトは、アクションのド
ゥアー(doer)であり、動詞のディープ・オブジェクト
は、動詞によって特定されたアクションの目的語であ
る。能動態動詞のディープ・サブジェクトは、文の構文
主語でありうるし、能動態動詞のディープ・オブジェク
トは、動詞の構文目的語でありうる。しかしながら、受
動態動詞のディープ・サブジェクトは、具格節(instrum
ental clause) で表現されうるし、かつ受動態動詞のデ
ィープ・オブジェクトは、文の構文主語でありうる。例
えば、二つの文：（１）“Dogs bite people”及び
（２）“People are bitten by dogs ”を考える。第１
の文は、能動態動詞を有し、第２の文は、受動態動詞を
有する。第１の文の構文主語は、“Dogs”でありかつ動
詞“bite”の構文目的語は、“people”である。対象的
に、第２の文の構文主語は、“People”でありかつ動詞
句“are bitten”は、具格節“by dogs ”によって修飾
される。両方の文に対して、“dogs”は、ディープ・サ
ブジェクトであり、“people”は、動詞のディープ・オ
ブジェクトまたは文の動詞句である。文１及び２に対す
る構文解析によって生成されたシンタックス・パーズ・
ツリーは、異なるけれども、二つの文の基礎をなす意味
が同じなので、意味解析によって生成された論理形式グ
ラフは、同じである。

【０００８】更に、論理形式グラフの生成後の意味処理
は、理解のさらに深い準位を達成するために解析したテ
キストを実際の内容と関連させるべくナレッジ・データ
ベースを利用する。ナレッジ・ベースの例は、特定の語
に対してより綿密な定義及びコンテキスト的情報を得る
ことができるオン−ライン百科辞典である。次に、３つ
の自然言語処理サブシステム−−形態素、構文、及び意
味−−がサンプル入力テキスト：“The person whome I
met was my friend”を処理するコンテキストにおいて
説明される。図１は、自然言語処理のサブシステム間の
情報の流れを示しているブロック図である。形態素サブ
システム１０１は、入力テキストを受け取りかつ各語を
用いることができる音声の種々の部分のそれぞれに対す
る語及びセンスの識別を出力する。構文サブシステム１
０２は、この情報を受け取りかつシンタックス規則を適
用することによってシンタックス・パーズ・ツリーを生
成する。意味サブシステム１０３は、シンタックス・パ
ーズ・ツリーを受け取りかつ論理形式グラフを生成す
る。

【０００９】図２〜５は、形態素解析中にサンプル入力
テキストの入力語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する。図２は、入力語“the ”
２０１及び“person”２０２に対する辞書エントリを示
す。エントリ２０１は、キー“the ”２０３及び属性／
値ペアのリストを備えている。第１の属性“Adj ”２０
４は、その値として、中括弧２０５及び２０６内に含ま
れた記号を有する。これらの記号は、二つの更なる属性
／値ペア：（１）“Lemma ”／“the ”及び（２）“Bi
ts”／“Sing Plur Wa6 Det Art B0 Def”を備えてい
る。Lemma は、語の基本的な非屈折形式(uninflected f
orm)である。従って、属性“Lemma ”は、“the ”が辞
書においてこのエントリによって表された語の基本的な
非屈折形式であるということを示す。属性“Bits”は、
語についてのある一定の形態素及び構文情報を表してい
る一組の略語を備えている。この情報は、“the ”は：
（１）単数形；（２）複数形；（３）屈折可能でない；
（４）決定詞；（５）冠詞；（６）通常の形容詞；及び
（７）限定的な、であるということを示す。属性２０４
は、語“the ”が形容詞としてサーブできるということ
を示す。属性２１２は、語“the ”が副詞としてサーブ
できるということを示す。属性“Senses”２０７は、個
別の定義及び例として語の種々の意味を表し、その一部
分が中括弧２０８〜２０９の間及び中括弧２１０〜２１
１の間の属性／値ペアのリストに含まれる。“the ”に
対するエントリに実際に含まれる更なる意味は、図２に
おいて省略され、括弧で囲まれた表現“(more sense re
cords)”２１３によって示されている。

【００１０】自然言語処理の第１のステップでは、形態
素サブシステムは、個別のトークンとして入力テキスト
の各語及び句読記号を認識しかつ辞書情報を用いて各ト
ークンに対する属性／値記録を構築する。属性は、トー
クン型（例えば、語、句読）及び、語が自然言語文で表
すことができる音声の異なる部分を含む。構文サブシス
テムは、サンプル入力テキストに対する属性／値記録の
初期の組を入力し、それぞれからシンタックス・パーズ
・ツリー・ノードを生成し、かつサンプル入力テキスト
を表す可能なシンタックス・パーズ・ツリーのより高準
位なノードを構築するためにこれらの初期ノードにシン
タックス規則を適用する。完全なシンタックス・パーズ
・ツリーは、ルート・ノード、中間準位ノード、及びリ
ーフ・ノードを含む。ルート・ノードは、サンプル入力
テキストに対する構文構築（例えば、平述文）を表す。
中間準位ノードは、中間構文構築（例えば、動詞、名
詞、または前置詞句）を表す。リーフ・ノードは、属性
／値記録の初期の組を表す。

【００１１】ある一定のＮＬＰシステムでは、シンタッ
クス規則は、トップ−ダウン方法で適用される。ここで
説明したＮＬＰシステムの構文サブシステムは、ボトム
−アップ（上昇）方法でシンタックス規則をリーフ・ノ
ードに適用する。即ち、構文サブシステムは、単一リー
フ・ノードに対して一度に一つ、シンタックス規則をリ
ーフ・ノードのペアに、かつ時々、リーフ・ノードのよ
り大きなグループに適用することを試みる。シンタック
ス規則が、その上で動作すべく二つのリーフ・ノード、
及び両方が規則において特定された要求事項に一致する
属性を含む一対のリーフ・ノードを必要とするならば、
規則は、より高準位なノード構文構築を生成すべくそれ
に適用される。例えば、語“my friend ”は、それぞれ
形容詞及び名詞を表すことができ、名詞句のより高水準
な構文構築に結合することができる。文法規則、“noun
phrase = adjective + noun”に対応しているシンタッ
クス規則は、中間水準名詞句ノードを生成し、かつ“m
y”及び“friend”を表している二つのリーフ・ノード
を新しく生成した中間水準ノードにリンクする。各新し
い中間水準ノードが生成されると、それは既に存在して
いるリーフ・ノード及び中間水準ノードにリンクされ、
かつシンタックス規則が適用されるノードの合計の組の
一部になる。ノードの成長している組にシンタックス規
則を適用する処理は、完全シンタックス・パーズ・ツリ
ーが生成されるかまたはもはやシンタックス規則が適用
できないかのいずれかになるまで継続する。完全シンタ
ックス・パーズ・ツリーは、リーフ・ノードとして入力
文の語の全てを含みかつ文の一つの可能なパーズを表
す。

【００１２】シンタックス・パージングのこのボトム−
アップ方法は、最終的な、完全シンタックス・パーズ・
ツリーに決して含まれないであろう、多くの中間水準ノ
ード及びサブ・ツリーを生成する。更に、パーシングの
この方法は、二つ以上の完全シンタックス・パーズ・ツ
リーを同時に生成することができる。シンタックス・サ
ブシステムは、もはや更なる規則を適用できなくなるま
で規則を連続的に適用することによって全ての可能な完
全シンタックス・パーズ・ツリーに対するしらみ潰しの
探索(exhaustive search) を実行することができる。構
文サブシステムは、また、最も可能なノード(most prob
able nodes) を最初に生成すべく種々のヒューリスティ
ック・アプローチを試みることができる。一つまたは２
〜３の完全シンタックス・パーズ・ツリーが生成された
後、入力文を最もよく表しているとして選択されるであ
ろうシンタックス・パーズ・ツリーがたぶん最初に生成
されたシンタックス・パーズ・ツリーの一つだから、構
文サブシステムは、探索を一般に終了することができ
る。適当な探索の後に完全なシンタックス・パーズ・ツ
リーが生成されなかったならば、適合パーズ(fitted pa
rse)は、特別な集約規則(aggregation rule)のアプリケ
ーションによって生成されるルート・ノードを用いて最
も見込みのあるサブ−ツリーを一緒に単一のツリーに結
合することによって達成することができる。

【００１３】図６は、図２〜５に最初に示された辞書エ
ントリに対する構文サブシステムによって生成された初
期リーフ・ノードを示す。リーフ・ノードは、文の始ま
り及び文を終了する期間をそれぞれ表す、二つの特別な
ノード、６０１及び６１４を含む。ノード６０２〜６１
３のそれぞれは、入力語が文で表すことができる音声の
単一部分を表す。音声のこれらの部分は、辞書エントリ
において属性／値ペアとして見出される。例えば、リー
フ・ノード６０２及び６０３は、図２の属性２０４及び
２１２として見出される、語“The ”に対する音声の二
つの可能な部分を表す。図７〜２２は、構文サブシステ
ムによる最終シンタックス・パーズ・ツリーの規則毎(r
ule-by-rule)構築を示す。図のそれぞれは、構文構成を
表す中間水準ノードを生成するための単一シンタックス
規則のアプリケーションを示す。最終シンタックス・ツ
リーを備えている中間水準ノードを生成する規則だけが
示されている。構文サブシステムは、最終シンタックス
・パーズ・ツリーに最後には含まれるようにならない多
くの中間水準ノードを生成する。

【００１４】図７〜１４では、構文サブシステムは、簡
単な動詞、名詞、及び形容詞句を表す中間水準ノードを
生成する単項(unary) シンタックス規則を適用する。図
１５から始めると、構文サブシステムは、簡単な動詞、
名詞、及び形容詞句を多重−語(multiple-word) 構文構
築に結合する２進(binary)シンタックス規則を適用し始
める。構文サブシステムは、成功するアプリケーション
(successful application)のそれらの可能性によって規
則を順序付け、そしてそれが既存のノードに成功裏に適
用することができる規則を見出すまで一つずつそれらを
適用することを試みる。例えば、図１５に示すように、
構文サブシステムは、形容詞句及び名詞句から名詞句を
表しているノードを生成する規則を成功裏に適用する。
規則は、形容詞及び名詞句の要求された特性を特定す
る。この例では、形容詞句は、確定的数量句(determina
te quantifier)でなければならない。ノード１５０１か
らノード１５０３へ戻るようにポインタをファローし、
そしてノード１５０３に含まれた形態素情報をアクセス
することによって、構文サブシステムは、ノード１５０
１が確定的数量句を表すということを決定する。規則に
よって要求された特性に一致する二つのノード１５０１
及び１５０２を捜し出すことにより、構文サブシステム
は、次いで、名詞句“my friend ”を表す中間水準ノー
ドを二つの簡単な句１５０１及び１５０２から生成する
ために規則を適用する。図２２では、構文サブシステム
は、特別のBegin 1 リーフ・ノード２２０１、動詞句
“The person whom I met was my friend ”２２０２、
及び平述文を表しているノード２２０４を形成すべく最
終終了期間を表すリーフ・ノード２２０３を結合する、
３重規則(trinary rule)を適用するこによって入力文を
表している最終的な、完全シンタックス・パーズ・ツリ
ーを生成する。

【００１５】意味サブシステムは、完全シンタックス・
パーズ・ツリーから論理形式グラフを生成する。一般的
に、論理形式グラフは、シンタックス・パーズ・ツリー
のノードから構築され、それらに属性及び新しい双方向
リンクを加える。論理形式グラフは、ラベル付き、有向
グラフである。それは、入力文の意味表現である。形態
素サブシステムによって各語に対して得られた情報は、
論理形式グラフのノード内からシンタックス・パーズ・
ツリーのリーフ・ノードへの参照を通してまだ利用可能
である。論理形式グラフのリンクのディレクション（方
向）及びラベルの両方は、論理形式グラフのノードに対
する機能的役割を含んでいる、意味情報を表す。その解
析中に、意味サブシステムは、（１）省略されている
が、暗黙の、語；（２）動詞句に対する失われているか
または不明瞭な論拠（アーギュメント(arguments) ）及
び付加詞（修飾語句）；及び（３）前置詞句が参照する
目的語、を表すためにリンク及びノードを加える。

【００１６】図２３は、例示入力文に対して意味サブシ
ステムによって生成された完全な論理形式グラフを示
す。有意味なラベルが意味規則の成功裏のアプリケーシ
ョンの産物(product) として意味サブシステムによって
リンク２３０１〜２３０６に割り当てられる。６つのノ
ード２３０７〜２３１２は、それらの間のリンクと共
に、文のセマンティック・ミーニング(semantic meanin
g)の本質的なコンポーネントを表す。一般に、論理形式
ノードは、入力された語におおよそ対応するが、“The
”及び“whom”のような、セマンティッ・ミーニング
を運ぶために不要なある一定の語は、論理形式グラフに
表されず、かつ入力された動詞“met ”及び“was ”
は、それらの不定詞形“meet”及び“be”として表され
る。ノードは、記録（レコード）としてコンピュータ・
システムにおいて表され、かつ図２３に示されていない
更なる情報を含む。動詞が単数過去形で入力されたとい
う事実は、動詞、２３０７及び２３１０の意味に対応し
ている論理形式ノード内の更なる情報によって表され
る。

【００１７】シンタックス・パーズ・ツリーと論理形式
グラフの間の相違は、図２２に対する図２３の比較から
容易に明らかである。図２２に示されたシンタックス・
パーズ・ツリーは、１０のリーフ・ノード及び厳密階層
構造(strict hierarchy)において一緒にリンクされた１
６の中間水準ノードを含むのに対して、図２３に示され
た論理形式グラフは、６つのノードだけを含む。シンタ
ックス・パーズ・ツリーとは異なり、論理形式グラフ
は、ノード２３０７と２３０８の間で反対方向を有して
いる二つのリンクから明らかなように、階層的に順序付
けられていない。更に、上記したように、ノードは、入
力語の正確な形式をもはや表さないが、その代わりそれ
らの意味を表す。さらなる自然言語処理段階は、意味解
析の後に生じる。それらは、論理形式グラフを知識ベー
スから得られたさらなる情報に結合し、文のグループを
解析し、かつ人間が自然言語を処理するように近づける
豊富な文脈環境(rich contextualenvironment) を各論
理形式グラフの周りにアセンブリすべく一般に試みるこ
とを含む。

【００１８】大文字及び非強調テキストの語彙処理形態素サブシステムの上記一般的説明では、形態素サブ
システムは、各入力語に対する辞書情報を供給するもの
として記述された。形態素サブシステムは、その情報を
見出すために電子辞書を採用する。各入力語に対して、
形態素サブシステムは、情報をそれから得るべく辞書に
おける対応エントリ(corresponding entry or entries)
を見出さなければならない。電子辞書における入力語を
ルック・アップするこの処理は、その答えがＮＬＰ全体
の精度及び効率に非常に影響する、複数の関連問題を与
える。一般的に用いられる辞書のキーは、発音区別符
号、及び固有名詞の場合には、大文字の両方を含む。例
えば、英語辞書では、強調符号なしで、動詞“resume”
に対し、かつ強調符号ありで、

【００１９】

【外１】

【００２０】に対して、個別エントリが存在する。別の
例として、英語辞書は、名詞“polish”及び動詞“poli
sh”を表している、キー“polish”を有している二つの
エントリと共に、固有名詞“Polish”及び固有形容詞
“Polish”を表している、キー“Polish”を有する二つ
のエントリを一般的に含む。残念ながら、入力テキスト
における文字のケース(cases) 及び発音区別符号は、そ
れらにに対応する辞書キーのケース(cases) 及び発音区
別符号に一致せず、形態素解析の間中に辞書エントリを
見出すことのタスクを非常に複雑化する。例えば、全て
大文字を有する入力テキスト、並びに電子メール・メッ
セージからの入力テキストでは、発音区別符号は、一般
に取り除かれる。発音区別符号が欠如している大文字の
語は、多数の小文字通常形式のいずれかをあるいは表し
うる。例えば、“student ”を意味する、フランス語の

【００２１】

【外２】

【００２２】、及び“raised”を意味する、

【００２３】

【外３】

【００２４】は、両方とも大文字形式“ELEVE ”を有す
る。大文字のテキストが処理されて、フランス語辞書が
小文字エントリを有するならば、それは、どの小文字エ
ントリが入力語“ELEVE ”を記述すべく選ばれるべきか
不明瞭である。通常の辞書におけるエントリが一般的に
小文字形式であり、かつ入力語の文字のケースが、語の
形態素機能からではなく、文の最初の語としての語の発
生または題名における語の発生によってしばしば決定さ
れるので、形態素サブシステムは、語を辞書のキーに一
致させる前に入力語の文字を全て小文字にまず変更しう
る。全ての文字を小文字に変更する処理は、ケース正規
化(case normalization)の特定の型である。入力語の文
字から全ての発音区別符号を除去することは、別の型の
正規化の例である。正規化の処理は、語間の不要な区別
(unwanted distinctions) を除去するために入力語にお
ける他のものの代わりにある一定の文字を用いる。全小
文字に正規化することによって、入力語“Polish”及び
“polish”は、両方ともに正規化された語“polish”に
なる。

【００２５】ケース正規化は、形態素サブシステムが、
その最初の文字が大文字にされた、、文の最初の語とし
てのその発生で、語を一致させる辞書キーを見出しやす
くするけれども、ケース正規化は、大文字使用に基づく
形態素区別の損失をもたらしうる。例えば、本の文
は、：“I told him to polish his shoes. ”と読め
る。

【００２６】

【外４】

【００２７】本の題名は、“POLISH YOUR SHOES!”であ
る。３つの文における“polish”、“Polish”、及び
“POLISH”に対する正規化された語は、“polish”であ
る。しかしながら、文：“The Polish government anno
unced new elections today.”を考える。語“Polish”
が後続の解析の前に“polish”に正規化されたならば、
“Polish”と“polish”の間の形態素区別は、失われ
る。この最後の場合には、語“Polish”の大文字使用
は、語“polish”からのその形態素的相違を示し、文ま
たは題名におけるその位置を示さない。

【００２８】

【発明が解決しようとする課題】発音区別符号の損失及
びケース区別の損失の両方に対する基本的な問題は、各
入力語に対する多重エントリについて電子辞書を検索す
る必要性によってもたらされた辞書ルックアップにおけ
る効率の欠如である。上記したフランス語の例に対し
て、語の第１、第３、及び第５の位置における印が付け
られていない及び印が付けられた文字“e ”のあらゆる
可能な組合せを含んでいる、入力語“ELEVE”に対応し
ているかなり多数の可能な辞書エントリが存在する。大
文字“E ”に対応する４つの小文字が存在する。これら
は、

【００２９】

【外５】

【００３０】である。従って、入力語“ELEVE ”内のこ
れら４つの小文字の４³または６４の異なる可能な組合
せが存在する。フランス語において生じることができな
いある一定の組合せを取り除くために種々の正字法的(o
rthographic)及び音韻的(phonologic)規則を用いても、
３６の有効な組合せが残る。辞書ルックアップは、高価
である。各ルックアップは、一つ以上のディスク・アク
セスを含みうる。上記した英語例では、入力語“Polis
h”は、キー“polish”を有している二つの個別のエン
トリに対して２つのルックアップ、及びキー“Polish”
を有している二つの個別エントリに対して２つのルック
アップの、４つのルックアップを常に必要とする。もち
ろん、形態素サブシステムが、ケースにおける変更によ
ってまたはあるいは省略された発音区別符号の追加によ
って入力語に関する全てのエントリについて徹底的に検
索するを失敗したならば、それは、構文及び意味サブシ
ステムに誤った結果を供給し、間違ったパーズ及び論理
形式グラフへ導く。

【００３１】従来技術の電子辞書及び形態素解析サブシ
ステムは、大文字で始まる入力語の正規化の問題を処理
することを失敗した。電子メールを介する転送により発
音区別符号がそれからストリップされた入力語に対応す
るか、または大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出す方法に対する必要性が
自然言語処理の分野において認識されている。本発明の
目的は、上記従来の技術における問題点に鑑み、発音区
別符号がストリップされた入力語に対応するかまたは大
文字入力語に対応する電子辞書における全てのエントリ
を効率的に見出す方法を提供することである。

【００３２】

【課題を解決するための手段】本発明の上記目的は、電
子辞書の情報を捜し出すコンピュータ・システムにおけ
る方法であって、全て小文字を有しかつ発音区別符号を
有さない正規化された形式を複数の語のそれぞれの基準
化形式から生成し、かつ語の各固有な正規化された形式
に対して、それぞれが語の正規化された形式に設定され
るキー及びレコードを有しているエントリを電子辞書に
記憶し、その正規化された形式が固有な正規化された形
式に等しい語の各基準化形式に対して、語の基準化形式
に関する情報を含んでいるサブ−レコードをレコード内
に記憶することによって電子辞書を生成し；入力語を受
け取り；入力語の正規化された形式を生成し；かつエン
トリが語の基準化形式に関する情報を有するサブ−レコ
ードを含むような入力語の正規化された形式に一致する
キーを有するエントリに対して生成された電子辞書を検
索する段階を具備する方法によって達成される。

【００３３】本発明の方法では、複数の語は、生成され
た電子辞書が形態素形式として完全に特定されるように
語の全ての可能な形態素形式に対する語を含むように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に一致するキーが見出されないときに、生成され
た電子辞書が入力語を含まないということを示すように
構成してもよい。本発明の方法では、入力語の正規化さ
れた形式に一致するキーが見出されたとき、見出された
エントリが情報を含むことを示すように構成してもよ
い。本発明の方法では、複数の語は、生成された電子辞
書が同綴異義語に対して完全に特定されるように全ての
可能な同綴異義語に対する語を含むように構成してもよ
い。

【００３４】本発明の方法では、入力語の正規化された
形式に一致するキーが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに一致するキーを有するエントリ
に対して生成した電子辞書を検索するように構成しても
よい。本発明の方法では、入力語の正規化された形式に
一致するキーが見出されたとき、見出されたエントリが
情報を含むことを示すように構成してもよい。本発明の
方法では、入力語の正規化された形式に一致するキーが
見出されたときに、入力語に形態素規則を適用すること
によって入力語の全ての語彙見出しを生成し、生成した
語彙見出しを正規化し、かつ正規化された語彙見出しに
一致するキーを有するエントリに対して生成した電子辞
書を検索するように構成してもよい。

【００３５】また、本発明の上記目的は、それぞれが基
準化形式を有している語の電子辞書を生成すコンピュー
タ・システムにおける方法であって、複数の語のそれぞ
れの基準化形式から正規化された形式を生成し；かつ語
の各固有な正規化された形式に対して、それぞれが語の
正規化された形式に設定されるキー及びレコードを有し
ているエントリを電子辞書に記憶し、その正規化された
形式が固有な正規化された形式に等しい語の各基準化形
式に対して、語の基準化形式に関する情報をレコード内
に記憶する段階を具備する方法によって達成される。本
発明の方法では、正規化された形式の生成は、語の各文
字を小文字に設定することを含むように構成してもよ
い。本発明の方法では、正規化された形式の生成は、発
音区別符号を除去することを含むように構成してもよ
い。

【００３６】更に、本発明の上記目的は、電子辞書を生
成すコンピュータ・システムにおける方法であって、多
数の語の複数の正規化された形式のそれぞれに対するエ
ントリを生成し；かつ単一のエントリを検索することに
よって同じ正規化された形式を有する各語に対する情報
を検索することができるように同じ正規化された形式を
有する語のそれぞれに関する情報を各エントリ内に記憶
する方法によって達成される。本発明の方法では、各エ
ントリは、正規化された形式及びその正規化された形式
を有する各語の基準化形式を当該基準化形式に関する情
報と一緒に含むように構成してもよい。本発明の方法で
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。

【００３７】本発明の方法では、正規化された形式の生
成は、発音区別符号を除去することを含むように構成し
てもよい。また、本発明の上記目的は、複数の語のそれ
ぞれの基準化形式から正規化された形式を生成し、かつ
語の各固有な正規化された形式に対して、それぞれが語
の正規化された形式に設定されるキー及びレコードを有
しているエントリを電子辞書に記憶し、その正規化され
た形式が固有な正規化された形式に等しい語の各基準化
形式に対して、語の基準化形式に関する情報をレコード
内に記憶することによって、それぞれが基準化形式を有
している語の電子辞書をコンピュータ・システムに生成
させるコンピュータ命令を含んでいるコンピュータ読取
り可能媒体によって達成される。

【００３８】本発明のコンピュータ読取り可能媒体で
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。本発明のコ
ンピュータ読取り可能媒体では、正規化された形式の生
成は、発音区別符号を除去することを含むように構成し
てもよい。更に、本発明の上記目的は、電子辞書を生成
するコンピュータ・システムであって、多数の語の複数
の正規化された形式のそれぞれに対するエントリを生成
する手段；及び単一のエントリを検索することによって
同じ正規化された形式を有する各語に対する情報を検索
することができるように同じ正規化された形式を有する
語のそれぞれに関する情報を各エントリ内に記憶する手
段を備えているコンピュータ・システムによって達成さ
れる。

【００３９】本発明のコンピュータ・システムでは、各
エントリは、正規化された形式及びその正規化された形
式を有する各語の基準化形式を当該基準化形式に関する
情報と一緒に含むように構成してもよい。本発明のコン
ピュータ・システムでは、正規化された形式の生成は、
語の各文字を小文字に設定することを含むように構成し
てもよい。本発明のコンピュータ・システムでは、正規
化された形式の生成は、発音区別符号を除去することを
含むように構成してもよい。更に、本発明の上記目的
は、同じ正規化された形式を有する語の基準化形式に関
する情報を含んでいるエントリを有している電子辞書か
ら情報を検索するコンピュータ・システムにおける方法
であって、入力語を受け取り；入力語の正規化された形
式を生成し；かつエントリが入力語に関する情報を含む
ように入力語の正規化された形式に対応しているエント
リに対して電子辞書を検索する方法によって達成され
る。

【００４０】本発明の方法では、電子辞書は、生成され
た電子辞書が形態素形式に対して完全に特定されるよう
に語の全ての可能な形態素形式に対するエントリを含む
ように構成してもよい。本発明の方法では、入力語の正
規化された形式に対応しているエントリが見出されない
とき、電子辞書が入力語を含まないことを示すように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に対応しているエントリが見出されたときに、見
出されたエントリが情報を含むこと示すように構成して
もよい。本発明の方法では、電子辞書は、生成された電
子辞書が同綴異義語に対して完全に特定されるように全
ての可能な同綴異義語に対するエントリを含むように構
成してもよい。

【００４１】本発明の方法では、入力語の正規化された
形式に対応しているエントリが見出されないときに、入
力語に形態素規則を適用することによって入力語の全て
の語彙見出しを生成し、生成した語彙見出しを正規化
し、かつ正規化された語彙見出しに対応しているエント
リに対して生成した電子辞書を検索するように構成して
もよい。本発明の方法では、入力語の正規化された形式
に対応しているエントリが見出されたときに、見出され
たエントリが情報を含むこと示すように構成してもよ
い。本発明の方法では、入力語の正規化された形式に対
応しているエントリが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに対応しているエントリに対して
生成した電子辞書を検索するように構成してもよい。

【００４２】また、本発明の上記目的は、自然言語の語
についての形態素及び構文情報を有している電子辞書を
含んでいるコンピュータ読取り可能媒体であって、電子
辞書は、それぞれがキー及びレコードを含んでいる一組
のエントリを備え、レコードは、キーによって表された
少なくとも一つの語についての情報を含み、辞書の各キ
ーは、正規化され；かつ少なくとも二つの異なる語が同
じ標準化された形式を有するときに、標準化された形式
に一致しているキーを有する電子辞書エントリは、同じ
標準化された形式を有している各異なる語に対応してい
る少なくとも一つのサブ−レコードを含むコンピュータ
読取り可能媒体によって達成される。本発明のコンピュ
ータ読取り可能媒体では、電子辞書の各キーは、ケース
に関して正規化されるように構成してもよい。

【００４３】本発明のコンピュータ読取り可能媒体で
は、電子辞書の各キーは、発音区別符号に関して正規化
されるように構成してもよい。更に、本発明の上記目的
は、電子辞書に記憶された語についての情報を見出すコ
ンピュータ・システムであり、電子辞書は、自然言語の
語についての形態素及び構文情報を含み、電子辞書は、
一組のエントリを備え、各エントリは、キー及びレコー
ドを備え、レコードは、キーによって表された少なくと
も一つの語についての情報を含み、辞書の各キーは、語
の標準化された形式であり、コンピュータ・システム
は、：入力語の標準化された形式を生成する手段；及び
入力語の標準化された形式に一致するキーを有している
電子辞書においてエントリを検索する手段を備えている
コンピュータ・システムによって達成される。

【００４４】本発明のコンピュータ・システムでは、エ
ントリが見出されずかつ電子辞書が形態素形式に関して
完全に特定されるときに、電子辞書が入力語についての
情報を含んでいないという表示をリターンする手段を備
えているように構成してもよい。本発明のコンピュータ
・システムでは、各レコードは、語の各基準化形式に対
するサブ−レコードを含みかつエントリが見出されたか
つ電子辞書が形態素形式に関して完全に特定されるとき
に、サブ−レコードが入力語に一致する基準化形式を有
する表示を伴う見出されたエントリをリターンする手段
を備えているように構成してもよい。本発明のコンピュ
ータ・システムでは、検索している場合にエントリが見
出されずかつ電子辞書が形態素形式に関して完全に特定
されないときに、入力語の異なる語彙を生成し；入力語
の異なる語彙の標準化された形式を生成し；かつ入力語
の異なる語彙の標準化された形式に一致するキーを有し
ている電子辞書においてエントリを検索する手段を含ん
でいるように構成してもよい。

【００４５】本発明のコンピュータ・システムでは、エ
ントリが見出されかつ電子辞書が同綴異義語形式に関し
て完全に特定されないときに、入力語の異なる語彙を生
成し；入力語の異なる語彙の標準化された形式を生成
し；かつ入力語の異なる語彙の標準化された形式に一致
するキーを有している電子辞書においてエントリを検索
する手段を含んでいるように構成してもよい。本発明の
コンピュータ・システムでは、エントリが見出されかつ
電子辞書が同綴異義語形式に関して完全に特定されると
きに、見出されたエントリ及び当該エントリのサブ−レ
コードが一致している語彙値を有する表示をリターンす
る手段を含んでいるように構成してもよい。本発明のコ
ンピュータ・システムでは、入力語の正規化された形式
の生成は、ケースに関して入力語を正規化するように構
成してもよい。

【００４６】本発明のコンピュータ・システムでは、入
力語の正規化された形式の生成は、発音区別符号に関し
て入力語を正規化するように構成してもよい。また、本
発明の上記目的は、入力語を受け取り；入力語の正規化
された形式を生成し；かつエントリが入力語に関する情
報を含むように入力語の正規化された形式に対応してい
るエントリに対して生成された電子辞書を検索すること
によって、同じ正規化された形式を有する語の基準化形
式に関する情報を含んでいるエントリを有している電子
辞書から情報をコンピュータ・システムに検索させる命
令を含んでいるコンピュータ読取り可能媒体によって達
成される。本発明のコンピュータ読取り可能媒体では、
正規化された形式は、全て小文字を含むように構成して
もよい。

【００４７】本発明のコンピュータ読取り可能媒体で
は、正規化された形式は、発音区別符号を含まないよう
に構成してもよい。

【００４８】

【作用】本発明は、電子辞書における情報を捜し出すた
めの方法及びシステムに指向される。システムは、辞書
に記憶されるべき語の基準形式から正規化された形式を
まず生成することによって電子辞書を生成する。語の基
準または通常の形式は、適切な大文字と小文字及び適切
な発音区別符号を用いる。語の基準形式は、語が通常の
印刷された辞書におけるエントリに対するキーとして表
されるような形式である。語の正規化された形式は、全
て小文字を有し発音区別符号を有さない。例えば、“Po
lish”は、Poland（ポーランド）に関する語の基準形式
であり、“polish”は、“wax ”に関する語の基準形式
である。しかしながら、両方の語の正規化された形式
は、“polish”である。システムは、次いで、語（例え
ば、“polish”）の各固有の正規化された形式に対して
電子辞書にエントリを記憶する。各エントリは、キー及
び記録（レコード）を有する。キーは、語の正規化され
た形式に設定される。その正規化された形式が固有の正
規化された形式に等しい語の各基準形式に対して、シス
テムは、レコード内にサブレコードを記憶する。サブレ
コードは、その語の定義及びその語に対する品詞(part
of speech)のような語の基準形式に関する情報を含む。
同じ例で継続すると、一つのエントリに対するキーは、
“polish”でありかつそのエントリは、“polish”及び
“Polish”に対するサブ−レコードを含みうる。情報を
捜し出すために、システムは、入力語（例えば、“POLI
SH”）を受け取りかつ入力語の標準化された形式を生成
する。システムは、次いで、入力語の標準化された形式
に一致するキーでエントリに対して電子辞書を検索す
る。見出されたエントリは、語の基準化形式に関する情
報を有するサブ−レコードを含む。標準化された形式に
より電子辞書を編成することによって、入力語に関する
情報は、大文字使用及び発音区別符号の存在または不在
に係わりなく、一つのエントリだけを検索することによ
って見出すことができる。

【００４９】

【実施例】本発明は、電子辞書に情報を記憶しかつ捜し
出す方法及びシステムに指向される。好ましい実施例で
は、システムは、辞書に記憶されるべき語のそれぞれの
基準化形式から標準化された形式をまず生成することに
よって電子辞書を生成する。語の標準化された形式は、
全て小文字を有しかつ発音区別符号を有さない。システ
ムは、次いで、語の各固有の標準化された形式に対し
て、電子辞書にエントリを記憶する。各エントリは、キ
ー及びレコード（記録）を有する。キーは、語の標準化
された形式に設定される。その標準化形式が固有の標準
化形式に等しい語の各基準化形式に対して、システム
は、レコード内にサブ−レコードを記憶する。サブ−レ
コードは、語の基準化形式に関する情報を含む。電子辞
書を用いて情報を捜し出すために、システムは、入力語
を受け取りかつ入力語の標準化された形式を生成する。
システムは、次いで、入力語の標準化された形式に一致
するキーでエントリに対して電子辞書を検索する。見出
されたエントリは、語の基準化形式に関する情報を有す
るサブ−レコードを含む。

【００５０】図２４は、自然言語処理システムに対する
好ましいコンピュータ・システムを示しているブロック
図である。コンピュータ・システム２４０１は、中央処
理装置、メモリ、及び記憶装置を含む。形態素サブシス
テム２４０６及び自然言語処理システム２４０７の他の
サブシステムは、ディスクのようなコンピュータ読取り
可能メモリ装置からメモリ２４０４に一般にロードされ
る。自然言語処理システム２４０５によって供給された
サービスを用いるアプリケーション・プログラムもまた
一般にメモリにロードされる。電子辞書２４０９は、デ
ィスク２４０８のような、記憶装置に記憶され、かつエ
ントリは、形態素サブシステムによって使用のためにメ
モリに読み出される。一実施例では、ユーザ（使用者）
は、入力装置２４０４に一つ以上の自然言語文を入力す
ることによって出力装置２４０３上に表示されたプロン
プトに一般に応答する。自然言語文は、アプリケーショ
ンによって受け取られ、処理され、そして形態素サブシ
ステムにより自然言語処理システムにパスされる。形態
素サブシステムは、電子辞書から情報を抽出し、それに
パスされた入力テキストを処理すべくその情報を用い、
そして処理された入力テキスト及び辞書情報を自然言語
処理システムの他のサブシステムにパスする。次いでア
プリケーション・プログラムは、自然言語処理システム
によって達成された入力テキストを理解するマシンを使
用するために自然言語処理サブシステムに情報を送りか
つ受け取ることができ、そして出力装置２４０３でユー
ザへ最終的に応答を出力する。

【００５１】本発明の好ましい実施例は、電子辞書の内
容を編成しかつ電子辞書を検索する新しい辞書方法及び
システムを供給する。新しい辞書システムは、辞書生成
コンポーネント（“ＤＣＣ”）及び辞書ルックアップ・
コンポーネント（“ＤＬＣ”）を供給する。

【００５２】辞書生成ＤＣＣは、通常の、印刷された辞書に見出されるエント
リに相当する言語の語に対するエントリを生成する。図
２５は、語“interpret ”に対する電子辞書エントリの
形式を示す。エントリは、属性／値ペアを含んでいるレ
コードを後続する、キー２５０１を有する。第１の属性
２５０２は、この語が言語で表すことができる品詞であ
る。属性２５０２の値は、サブ−レコード２５０３であ
り、一連の属性／値ペアを含む。サブ−レコード２５０
３の第１の属性は、“Lemma ”２５０４である。“Lemm
a ”の値は、この場合にはキー２５０１と同じであり、
属性／値ペア２５０４−２５０５によって表された語の
不屈折された形式(uninflected form)である。属性“Bi
ts”２５０６は、動詞“interpret ”が他動詞(transit
ive)であり人間主語(human subject) を取るということ
を意味する値“T1 Hsubj”２５０７を有する。属性“In
fl”２５０８は、動詞は、語尾-ed, -s,及び-ingを“Le
mma ”属性２５０５の値として特定された動詞の形式に
加えることによってデフォルト・ファッションで屈折形
式(inflected forms) を想定するということを示す値
“Verb-default”を有する。このエントリの主レコード
の第２の属性、“Senses”２５１０は、語“interpret
”の定義及び例を含むサブ−レコード値２５１１を有
する。サブ−レコード属性“Defin ”２５１２は、語の
意味を説明する値２５１３を有し、サブ−レコード属性
“Exs ”２５１４は、語の使用の簡潔な例を供給する値
２５１５を有する。

【００５３】ＤＣＣは、言語の各ケース−正規化されか
つ発音区別−正規化された語に対して、またはケース−
正規化されかつ発音区別−正規化された語のサブセット
に対して電子辞書においてエントリを生成する。ケース
−正規化された語は、小文字だけを有し、かつ発音区別
−正規化された語は、発音区別符号を含まない。ケース
及び発音区別符号に関する正規化は、ある一定の場合に
おいて、異なる語を単一のキーにマッピングする効果を
有する。以下の説明において、“正規化された語”は、
ケース及び発音区別−正規化された語を称する。図２６
は、ケース−正規化されたキー“polish”２６０１に対
する電子辞書エントリを示す。ケース−正規化されたキ
ー“polish”を有する語が表すことができる音声の３つ
の品詞、“Noun（名詞）”、“Verb（動詞）”、及び
“Adverb（副詞）”、及びケース−正規化された形式
“polish”を有する語の種々の意味を表す属性“Sense
s”に対応する、主レコードのエントリ内の４つの主属
性２６０２−２６０５が存在する。属性“Noun”の値を
表しているサブ−レコードでは、二つの“Lemma ”属性
２６０８及び２６０９を含むサブ−レコード２６０７を
その値として有する属性“Lexemes ”２６０６である。
これら二つの“Lemma ”属性、“polish”２６１０及び
“Polish”２６１１の値は、語の基準化形式としても知
られる、二つの異なる語の不正規化された形式(un-norm
alized forms) である。“Lemma ”２６１０によって表
された語は、その一つの意味が“a waxy substance tha
t one smears on a car to protect its surface（自動
車の表面を保護するために自動車に塗る蝋質物）”であ
る、名詞“polish”である。“Lemma”２６１１によっ
て表された語は、名詞であり、その一つの意味が“Slav
ic language of the Poles（ポーランド人のスラヴ
語）”である。属性“Lexemes ”は、それゆえに、正規
化された形式の“polish”を有している一つ以上の語が
特定の品詞として生じることができるということを示
す。エントリの残り全体を通して、語“polish”に関連
している情報は、例えば、定義２６１２として、属性／
値ペア“Lemma ”／“polish”によって導入されるのに
対して、語“Polish”に関連している情報は、例えば、
定義２６１３として、属性／値ペア“Lemma ”／“Poli
sh”によって導入される。

【００５４】図２７は、発音区別符号を含んでいる語の
正規化を説明すべくフランス語辞書から二つのエントリ
２７０１及び２７０２を示す。正規化されたキー“elev
e ”２７０２は、二つの異なる基準化形式

【００５５】

【外６】

【００５６】及び

【００５７】

【外７】

【００５８】を表す。正規化されたキー“ou”２７０５
は、二つの異なる基準化形式“ou”及び

【００５９】

【外８】

【００６０】を表す。電子辞書は、形態素的に導出され
た語形式に関して部分的にまたは完全に特定することが
できる。形態素語形式に関して完全に特定された辞書(f
ully-specified dictionary)（“ＦＳＭ辞書”）は、
“hike”、“hiked ”、“hiking”、及び“hikes ”に
対して個別のエントリを含むのに対して、形態素語形式
に関して特定されない辞書(unspecified dictionary)
（“ＵＳＭ辞書”）は、形式“hike”と共に、語“hik
e”から導出することができる形式“hiked ”、“hikin
g”、及び“hikes ”を表す単一エントリ“hike”を含
む。ＦＳＭ辞書は、より多くのエントリを明らかに含
む。それらは、語“hike”及びその関連形式の例におけ
るように、密接に関連した語に対して個別のエントリを
含むので、ＦＳＭ辞書は、非常に多数の冗長定義及び他
の情報を含みうる。“hike”、“hikes ”、及び“hike
d ”に対するエントリは、全て、楽しみまたは運動のた
めに行われる歩く動作の基本的定義を含みうる。代替的
に、エントリの一つだけが、例えば、“hike”に対する
エントリのような、定義を含むことができ、かつ他のエ
ントリは、それらの定義へのポインタを含むことができ
る。

【００６１】一般に、ＵＳＭ辞書が好ましく、その理由
は、それらがより小さく、それらを固定された大きさの
記憶媒体により容易に配置させかつそれらをメモリにお
いてより有効的にキャッシュされるからである。更に、
例えば、語“hike”から“hikes ”及び“hiked ”を生
成するように、語の関連形式を生成するために形態素規
則を適用するためのオーバーヘッド(overhead)は、非常
に小さい。不規則形式は、例えば、現在形式“keep”か
ら過去形式“kept”を導出する規則のような、多数の非
常に特定な規則を含むために形態素規則のセットを拡張
することを避けるべく個別エントリとして辞書に含まれ
る。ＤＣＣは、形態素的に導出された形式に関して部分
的に特定されたエントリを通常生成する。入力語が辞書
のキーに初め一致したならば、入力語に対応しうる他の
可能な形式を見出すために入力語に形態素規則が適用さ
れる必要がないということが保証されるように、辞書
は、構築されうる。例えば、入力文“I am building a
bridge”から入力語“building”をルックアップするこ
とを考える。この場合には、“building”は、非屈折形
式“build ”の屈折形式である。キー“building”に対
応しているエントリにおいて、非屈折形式“building”
を表しているレコードだけが見出されるか、または、換
言すると、名詞“building”を表しているレコードだけ
が見出されるという場合でありうる。現在形単数動詞
“building”に対応しているレコードを見出すために、
ＤＬＣは、この場合、動詞“to build”を生成すべく形
態素規則を“building”に適用し、そして“build ”を
ルックアップするであろう。この型の辞書は、同綴異義
語形式に関するそれ以下に特定された辞書(under-speci
fied dictionary)（“ＵＳＨ辞書”）として知られてい
る。名詞“building”に対するＵＳＨ辞書エントリは、
図２８に示される。キー“building”２８０２を有する
エントリにおける、唯一の属性／値ペアは、名詞“buil
ding”に対応する。同綴異義語形式に関して完全に特定
された辞書（“ＦＳＨ辞書”）は、キー“building”を
有するエントリが動詞“build ”に対応している属性／
値ペアを含むということを保証する。キー“building”
に対するＦＳＨ辞書エントリを図２９に示す。正規化さ
れた入力語がＦＳＨ辞書のキーに一致するならば、全て
の関連するレコードを見出すために入力語に形態素規則
を適用される必要はない。

【００６２】ＦＳＨ辞書は、ＦＳＭ辞書と同じではな
い。ＦＳＭ辞書では、形態素規則が適用される必要がな
い。ＦＳＨ辞書では、入力語に対する一致（マッチン
グ）キーが見出されないときに形態素規則が適用され
る。例えば、ＦＳＭ辞書において入力語“buildings ”
に一致しているキーが存在する。ＦＳＨ辞書は、対照的
に、キー“buildings ”を含まない。“buildings ”が
複数の“building”であると特定した形態素規則は、Ｆ
ＳＨ辞書において適切なエントリをルックアップするた
めに形式“building”を生成すべく適用される必要があ
る。ＦＳＨ辞書は、形態素形式に関して部分的に特定さ
れる。ＤＣＣが電子辞書を構築するとき、それは、先に
コンパイルされた自然言語辞書また語の他のコンパラブ
ル・ソース(comparable source) から得られた自然言語
の各語に言語特定ルックアップ表を用いて正規化機能
（正規化関数）を適用する。言語特定ルックアップ表
は、言語の各ＡＳＣＩＩ文字とその正規化された形式の
間の簡単なマッピングである。一つのマッピングの一部
分の例は、：

【００６３】

【表１】

【００６４】である。好ましい実施例では、ルックアッ
プ表は、単に置換文字のアレーである。入力文字に対す
るＡＳＣＩＩコードに対応している小さな整数値は、入
力文字に対する置換文字を見出すべくアレーへのインデ
ックスとして用いられる。図３０は、正規化機能（正規
化関数）に対するフロー図を示す。ステップ３００１か
ら３００４は、ＤＣＣが各繰り返しにおいて次の文字を
選択するところの、入力語を含んでいる全ての文字を通
るループを表す。ＤＣＣは、ステップ３００２で言語特
定ルックアップ表において選択した文字をルックアップ
し、かつステップ３００３で選択した文字に対応するル
ックアップ表の文字で入力語内の選択した文字を置換す
る。選択した文字が大文字形式、または発音区別符号に
よって変更されたならば、ルックアップ表エントリは、
選択した文字に対応している小文字または符号が付され
ていない文字を含む。ルーチンの結果は、ケース及び発
音区別符号に関して完全に正規化された語である。

【００６５】図３１は、簡単な電子辞書構築ルーチンに
対するフロー図を示す。このルーチンは、正規化された
キーなしで既存のソース辞書からの正規化されたキーを
有する電子辞書を生成する。ステップ３１０１−３１１
３は、その各繰り返しの間中にＤＣＣがソース辞書から
エントリを選択しかつ選択したエントリからの情報を電
子辞書に配置する、ループを表す。ステップ３１０１で
は、ＤＣＣは、第１のエントリで始まる、次のソース・
エントリを選択する。ステップ３１０２では、ＤＣＣ
は、上記した正規化ルーチンを用いて選択したエントリ
のキーを正規化する。ステップ３１０３では、ＤＣＣ
は、選択したソース・エントリの正規化されたキーに対
応しているキーが電子辞書に既に存在しているかどうか
を決定する。そのようなキーが電子辞書に存在しないな
らば、ＤＣＣは、ステップ３１０４においてそのキーと
して正規化されたキーを有している電子辞書に新しいエ
ントリを生成する。そのようなキーが既に存在するなら
ば、ステップ３１０５から３１１１によって表されたル
ープは、選択したソース・エントリの各品詞にわたり繰
り返す。選択したエントリは、例えば、動詞に対する定
義及び名詞に対する定義を含みうる。ＤＣＣは、ステッ
プ３１０５において、第１の品詞で始まる、次の品詞を
選択する。ステップ３１０６では、ＤＣＣは、例えば、
図２６の名詞属性２６０２のような、その品詞に対する
属性が電子辞書エントリに既に存在するかどうかを決定
する。そうでないならば、ＤＣＣは、ステップ３１０７
においてその品詞に対する新しい属性を加える。そのよ
うな属性が既に存在するならば、ＤＣＣは、例えば、図
２６のLexemes 属性２６０６のような、既存の属性の値
にLexeme属性が存在するかどうかを決定する。そうでな
いならば、ＤＣＣは、既存の品詞属性にLexeme属性を加
え、かつ例えば、図２６の属性２６０８及び２６０９の
ような、ステップ３１１０における新しいLexeme属性内
の値として品詞に対する既存の属性及び選択した品詞に
対する新しい属性を配置する。Lexeme属性が既に存在す
るならば、ＤＣＣは、ステップ３１０９においてLexeme
属性に選択した品詞を単に加える。一度選択したエント
リの全品詞が選択されたならば、ＤＣＣは、ステップ３
１１２において新しいまたは既存の電子辞書に選択した
エントリの定義を加える。

【００６６】ＤＣＣは、ＦＳＭ、ＦＳＨ、またはＵＨＳ
辞書を生成することができる。パーシング中に用いた広
域変数（グローバル・バリアブル）は、辞書がＦＳＭ、
ＦＳＨ、またはＵＳＨの型であることを示す。異なる広
域変数は、電子辞書が正規化されたキーを有するかどう
かを示す。辞書ルックアップ上述したように、電子辞書は、多数の異なる編成を有し
うる。それは、ＦＳＭ辞書でありうるし、そのような場
合には、辞書においてその対応キーを見出すために入力
語に形態素規則を適用する必要がない。それは、ＦＳＨ
辞書でありうるし、そのような場合には、マッチング・
キーが見出されないときにだけ形態素規則を適用する必
要がある。

【００６７】全ての３つの型の辞書で、ＤＬＣは、入力
語に、図２９に記述された、正規化機能（正規化関数）
をまず適用する。辞書がＦＳＭ型であれば、ＤＬＣは、
次いで、正規化された入力語に一致しているキーについ
て辞書を検索する。キーが見出せたならば、ＤＬＣは、
それらが表す基準化形式が正規化されていない入力語に
正確に一致するかどうかの表示を有するそのキーを有し
ているエントリ内に含まれたサブ−レコードをリターン
する。マッチング・キーが見出せないならば、語は、辞
書に存在しない。辞書がＦＳＨの型であれば、ＤＬＣ
は、正規化された入力語に一致しているキーに対する辞
書を検索する。キーが見出されたならば、それが含むサ
ブ−レコードは、それらが表す基準化語が入力語と正確
に一致するかどうかという表示と共にリターンされる。
一致するキーが見出されないならば、ＤＬＣは、語に対
して一つ以上の語彙見出し(lemmas)を生成する入力語に
適用可能な形態素規則を適用し、そして生成された語彙
見出しに一致するキーに対して辞書を検索する。ＤＬＣ
がマッチング・キーを見出したならば、それは、マッチ
ング・キーに対応しているエントリ内に含まれたサブ−
レコードを検索し、かつ正規化されていない入力語がサ
ブ−レコードによって表された基準化形式に正確に一致
するかどうかの表示を有する各サブ−レコードをリター
ンする。マッチング・キーが見出されなかったならば、
語は、辞書に存在しない。

【００６８】辞書が同綴異義語形式に関して完全に特定
されていないならば、ＤＬＣは、語に対して一つ以上の
語彙見出しを生成する入力語に適用可能な形態素規則を
適用し、そして、入力語または生成された語彙見出しに
一致するキーに対して辞書を検索する。ＤＬＣがマッチ
ング・キーを見出したならば、それは、マッチング・キ
ーに対応しているエントリ内に含まれたサブ−レコード
を検索し、かつ正規化されていない入力語がサブ−レコ
ードによって表された基準化形式に正確に一致するかど
うかという表示を有する各サブ−レコードをリターンす
る。マッチング・キーが見出されなかったならば、語
は、辞書に存在しない。ＤＬＣは、単にその基準化形式
が正規化していない入力語に正確に一致するサブ−レコ
ードでなく、エントリにおけるサブ−レコードの全てを
リターンする。一致は、一般に、含まれた定義の正当性
（正確さ）の表示を与えることができるが、それは、確
定的（限定的）ではない。二つの例文：（１）“I told
him topolish his shoes. ”及び（２）“`Polish you
r shoes,' I told him.”を再び考える。第１の文につ
いて、ＤＬＣは、語“polish”を“polish”に正規化
し、かつそれが入力語に正確に一致する表示を有する、
“to shine”に対する同義語、基準化形式“polish”、
を表しているサブ−レコード、及びそれが入力語に正確
に一致しない表示を有する基準化形式“Polish”を表し
ているサブ−レコードをリターンする。この場合には、
正確に一致している基準化形式を有するレコードが所望
のレコードである。同じルックアップ結果が第２の文に
対して得られるが、この場合には、それは、所望のサブ
−レコードである正確に一致している基準化形式を有さ
ないサブ−レコードである。

【００６９】キーのケース及び発音区別正規化及び多重
サブ−レコードの含有が単一エントリ内の基準化形式を
表しているので、さらなるサブ−レコードは、全ての３
つの辞書型における各辞書ルックアップの結果として得
られる。一つのルックアップで、ＤＬＣは、全てのケー
ス及び発音区別符号組合せ（結合）を直接得る。ＦＳＭ
辞書の場合には、一つのルックアップだけが必要であ
る。ＦＳＨ辞書の場合には、エントリが見出されないな
らば、語彙見出しをそれに形態素規則を適用することに
よって入力語から生成することができる場合に更なるル
ックアップが要求されるけれども、一つのルックアップ
だけがしばしば要求される。ＵＳＨ辞書の場合には、要
求されるルックアップの数は、一つプラス（＋）入力語
に形態素規則を適用することによって生成することがで
きる語彙見出しの数に等しい。

【００７０】各ルックアップでさらなるレコードをリタ
ーンすることによって、語を徹底的（網羅的）に検索す
るために必要なルックアップの数は、減少される。ルッ
クアップにおけるこの減少は、ディスク・フェッチの数
を相応じて減少し、かつ辞書検索の処理をスピード・ア
ップする。図３２は、アーギュメント“ilemma（アイレ
マ）”としてサブルーチンにパスされた入力語の可能な
品詞及び定義を表すレコードを含む電子辞書における全
てのエントリを見出す語彙サブルーチンに対するフロー
図を示す。ステップ３２０１では、語彙サブルーチン
は、空であるべく変数“record＿list”を初期化し、か
つilemma（アイレマ）の変数を変数“next＿lemma ”に
割り当てる。ステップ３２０２では、語彙サブルーチン
は、ilemma（アイレマ）に対応しているキーを有する電
子辞書からのエントリを見出すべく図３３に示されたル
ックアップ・ルーチンを呼出す。ステップ３２０３でエ
ントリが見出されないならば、語彙サブルーチンは、次
いで辞書がＦＳＭの型であるかどうかを決定する。そう
であれば、語彙サブルーチンは、ステップ３２０５で空
のrecord＿listをリターンする。辞書がＦＳＭの型でな
いならば、語彙サブルーチンは、ステップ３２０６で別
の語彙見出しを生成すべくilemma（アイレマ）に形態素
規則を適用する。新しい語彙見出しがステップ３７０６
で生成されるならば、制御は、ルーチンの始めにループ
・バックする；さもなければ、語彙サブルーチンは、ス
テップ３２０５でrecord＿listをリターンする。

【００７１】語彙サブルーチンがステップ３２０３でレ
コードを見出すならば、語彙サブルーチンは、ステップ
３２０８でrecord＿listにそのレコードを加える。次い
で、辞書が型ＦＳＭまたはＦＳＨであれば、ステップ３
２０９及び３２１０で決定されたように、語彙サブルー
チンは、ステップ３２１１でrecord＿listをリターンす
る。さもなければ、制御は、ステップ３２０６にパス
し、語彙サブルーチンは新しい語彙見出しを生成するこ
とを試みる。図３３は、ルックアップ・サブルーチンの
フロー図を示す。このサブルーチンは、アーギュメント
“ilemma”として入力された語に一致するキーを有する
レコードを検索する。ステップ３３０１では、ルックア
ップ・サブルーチンは、辞書がケース及び発音区別符号
に関して正規化されたキーを有するかどうかを決定す
る。辞書が正規化されたキーを有さないならば、ルック
アップ・ルーチンは、ステップ３３０２でilemma（アイ
レマ）に一致するキーを有するエントリを見出すべく辞
書のエントリを検索する。辞書が正規化されたキーを有
するならば、図３０に示したサブルーチン正規化は、ス
テップ３３０３でilemma（アイレマ）に対応している正
規化された語を生成すべく呼び出され、かつルックアッ
プ・ルーチンは、ステップ３３０４でilemma（アイレ
マ）に対応している正規化された語に一致するキーを有
するエントリを見出すべく辞書のエントリを検索する。
ステップ３３０２またはステップ３３０４でエントリが
見出されなかったならば、ルックアップ・サブルーチン
は、失敗しかつステップ３３０６でＮＵＬＬをリターン
する。

【００７２】エントリが見出されたならば、ルックアッ
プ・サブルーチンは、エントリの主レコード内に含まれ
た各品詞サブ−レコード(part-of-speech sub-record)
にわたり繰り返すステップ３３０７−３３１５からなる
ループを次いで実行する。図２９に示されたレコードが
辞書から検索されたならば、例えば、このループの最初
の繰り返しは、“Noun（名詞）”属性に対応しているサ
ブ−レコード２９０１を選択し、ループの２番目の繰り
返しは、“Verb（動詞）”属性２９０４に対応している
サブ−レコード２９０３を選択するであろう。ルックア
ップ・サブルーチンは、ステップ３３０８で、選択した
サブ−レコードが“Lexemes （語彙）”属性、例として
図２６の属性２６０６を含むかどうかを決定する。それ
が含まないならば、ルックアップ・サブルーチンは、選
択したサブ−レコードの“lemma（語彙見出し）”属性
がilemma（アイレマ）に正確に一致であるならば、ステ
ップ３３１０で正確な一致として選択したサブ−レコー
ドをマークし、かつステップ３３０７−３３１５によっ
て表されたループは、次の繰り返しを続ける。

【００７３】“Lexemes （語彙）”属性が選択したサブ
−レコードに存在するならば、ステップ３３１１−３３
１４によって表された内側ループは、各ループ繰り返し
に対して“Lexemes （語彙）”属性の値から各語彙を選
択する。図２６では、属性／値ペア２６０８−２６１０
は、第１の語彙を導入し、かつ属性／値ペア２６０９−
２６１１は、第２の語彙を導入する。選択した語彙の
“lemma （語彙見出し）”属性の値がilemma（アイレ
マ）に正確に一致するならば、ルックアップ・サブルー
チンは、ステップ３３１３で正確な一致としてその語彙
サブ−レコードをマークする。ルックアップ・サブルー
チンへの呼出しの結果は、従って、エントリが見出され
ないときには、ＮＵＬＬ値であるか、または正確な一致
としてマークされた入力語に正確に一致する“lemma
（語彙見出し）”属性を有しているサブ−レコードを伴
う辞書エントリのいずれかである。

【００７４】本発明は、好ましい実施例により説明され
たが、本発明がこの実施例に限定されるということを意
図しない。本発明の精神内の変更は、当業者に自明であ
ろう。本発明の範疇は、特許請求の範囲によって画定さ
れる。

【００７５】

【発明の効果】本発明の方法は、電子辞書の情報を捜し
出すコンピュータ・システムにおける方法であって、全
て小文字を有しかつ発音区別符号を有さない正規化され
た形式を複数の語のそれぞれの基準化形式から生成し、
かつ語の各固有な正規化された形式に対して、それぞれ
が語の正規化された形式に設定されるキー及びレコード
を有しているエントリを電子辞書に記憶し、その正規化
された形式が固有な正規化された形式に等しい語の各基
準化形式に対して、語の基準化形式に関する情報を含ん
でいるサブ−レコードをレコード内に記憶することによ
って電子辞書を生成し；入力語を受け取り；入力語の正
規化された形式を生成し；かつエントリが語の基準化形
式に関する情報を有するサブ−レコードを含むような入
力語の正規化された形式に一致するキーを有するエント
リに対して生成された電子辞書を検索する段階を具備す
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。

【００７６】本発明の方法は、それぞれが基準化形式を
有している語の電子辞書を生成すコンピュータ・システ
ムにおける方法であって、複数の語のそれぞれの基準化
形式から正規化された形式を生成し；かつ語の各固有な
正規化された形式に対して、それぞれが語の正規化され
た形式に設定されるキー及びレコードを有しているエン
トリを電子辞書に記憶し、その正規化された形式が固有
な正規化された形式に等しい語の各基準化形式に対し
て、語の基準化形式に関する情報をレコード内に記憶す
る段階を具備するので、発音区別符号がストリップされ
た入力語に対応するかまたは大文字入力語に対応する電
子辞書における全てのエントリを効率的に見出すことが
できる。本発明の方法は、電子辞書を生成すコンピュー
タ・システムにおける方法であって、多数の語の複数の
正規化された形式のそれぞれに対するエントリを生成
し；かつ単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶するので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。

【００７７】本発明のコンピュータ読取り可能媒体は、
複数の語のそれぞれの基準化形式から正規化された形式
を生成し、かつ語の各固有な正規化された形式に対し
て、それぞれが語の正規化された形式に設定されるキー
及びレコードを有しているエントリを電子辞書に記憶
し、その正規化された形式が固有な正規化された形式に
等しい語の各基準化形式に対して、語の基準化形式に関
する情報をレコード内に記憶することによって、それぞ
れが基準化形式を有している語の電子辞書をコンピュー
タ・システムに生成させるコンピュータ命令を含んでい
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。本発明
のコンピュータ・システムは、電子辞書を生成するコン
ピュータ・システムであって、多数の語の複数の正規化
された形式のそれぞれに対するエントリを生成する手
段；及び単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶する手段を備
えているので、発音区別符号がストリップされた入力語
に対応するかまたは大文字入力語に対応する電子辞書に
おける全てのエントリを効率的に見出すことができる。

【００７８】本発明の方法は、同じ正規化された形式を
有する語の基準化形式に関する情報を含んでいるエント
リを有している電子辞書から情報を検索するコンピュー
タ・システムにおける方法であって、入力語を受け取
り；入力語の正規化された形式を生成し；かつエントリ
が入力語に関する情報を含むように入力語の正規化され
た形式に対応しているエントリに対して電子辞書を検索
するので、発音区別符号がストリップされた入力語に対
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出すことができる。本発
明のコンピュータ読取り可能媒体は、自然言語の語につ
いての形態素及び構文情報を有している電子辞書を含ん
でいるコンピュータ読取り可能媒体であって、電子辞書
は、それぞれがキー及びレコードを含んでいる一組のエ
ントリを備え、レコードは、キーによって表された少な
くとも一つの語についての情報を含み、辞書の各キー
は、正規化され；かつ少なくとも二つの異なる語が同じ
標準化された形式を有するときに、標準化された形式に
一致しているキーを有する電子辞書エントリは、同じ標
準化された形式を有している各異なる語に対応している
少なくとも一つのサブ−レコードを含むので、発音区別
符号がストリップされた入力語に対応するかまたは大文
字入力語に対応する電子辞書における全てのエントリを
効率的に見出すことができる。

【００７９】本発明のコンピュータ・システムは、電子
辞書に記憶された語についての情報を見出すコンピュー
タ・システムであり、電子辞書は、自然言語の語につい
ての形態素及び構文情報を含み、電子辞書は、一組のエ
ントリを備え、各エントリは、キー及びレコードを備
え、レコードは、キーによって表された少なくとも一つ
の語についての情報を含み、辞書の各キーは、語の標準
化された形式であり、コンピュータ・システムは、：入
力語の標準化された形式を生成する手段；及び入力語の
標準化された形式に一致するキーを有している電子辞書
においてエントリを検索する手段を備えているので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。

【００８０】本発明のコンピュータ読取り可能媒体は、
入力語を受け取り；入力語の正規化された形式を生成
し；かつエントリが入力語に関する情報を含むように入
力語の正規化された形式に対応しているエントリに対し
て生成された電子辞書を検索することによって、同じ正
規化された形式を有する語の基準化形式に関する情報を
含んでいるエントリを有している電子辞書から情報をコ
ンピュータ・システムに検索させる命令を含んでいるの
で、発音区別符号がストリップされた入力語に対応する
かまたは大文字入力語に対応する電子辞書における全て
のエントリを効率的に見出すことができる。

【図面の簡単な説明】

【図１】自然言語処理システムのサブシステム間の情報
のフローを示しているブロック図である。

【図２】例示入力文：“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する図である。

【図３】例示入力文：“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。

【図４】例示入力文：“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。

【図５】例示入力文：“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。

【図６】入力文をパーズする第１段階として構文サブシ
ステムによって生成されたリーフ・ノードを表示する図
である。

【図７】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する図であ
る。

【図８】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。

【図９】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。

【図１０】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１１】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１２】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１３】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１４】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１５】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１６】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１７】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１８】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図１９】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図２０】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図２１】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図２２】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。

【図２３】入力文の意味を表すべく意味サブシステムに
よって生成された論理形式グラフを示す図である。

【図２４】自然言語処理に対する好ましいコンピュータ
・システムを示すブロック図である。

【図２５】キー“interpret ”に対する電子辞書エント
リを示す図である。

【図２６】キー“polish”に対する電子辞書エントリを
示す図である。

【図２７】キー“eleve ”及び“ou”に対する電子辞書
エントリを示す図である。

【図２８】不特定辞書におけるキー“building”に対す
る電子辞書エントリを示す図である。

【図２９】同綴異義語形式に関して完全に特定された辞
書におけるキー“building”に対する電子辞書エントリ
を示す図である。

【図３０】サブルーチンNormalize に対するフロー図で
ある。

【図３１】簡単な辞書構築ルーチンに対するフロー図で
ある。

【図３２】サブルーチンLexical に対するフロー図であ
る。

【図３３】サブルーチンLookupに対するフロー図であ
る。

【符号の説明】

２４０１コンピュータ・システム２４０２入力２４０３出力２４０４メモリ２４０５自然言語処理システム２４０６形態素サブシステム２４０７自然言語処理システム２４０８ディスク２４０９電子辞書

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成９年７月２日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】発明の名称

【補正方法】変更

【補正内容】

【発明の名称】大文字及び非強調テキストの語彙処理
の方法及びシステム

フロントページの続き (72)発明者スティーヴリチャードソンアメリカ合衆国ワシントン州 98052 レッドモンドノースイーストワンハンドレッドアンドサーティセカンド 18028

Claims

【特許請求の範囲】

【請求項１】電子辞書の情報を捜し出すコンピュータ
・システムにおける方法であって、全て小文字を有しかつ発音区別符号を有さない正規化さ
れた形式を複数の語のそれぞれの基準化形式から生成
し、かつ語の各固有な正規化された形式に対して、それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報を含んでいるサブ−レコードをレコード内に記憶す
ることによって電子辞書を生成し；入力語を受け取り；
前記入力語の正規化された形式を生成し；かつ前記エン
トリが前記語の基準化形式に関する情報を有するサブ−
レコードを含むような前記入力語の前記正規化された形
式に一致するキーを有するエントリに対して前記生成さ
れた電子辞書を検索する段階を具備することを特徴とす
る方法。
【請求項２】前記複数の語は、生成された電子辞書が
形態素形式として完全に特定されるように語の全ての可
能な形態素形式に対する語を含むことを特徴とする請求
項１に記載の方法。
【請求項３】入力語の正規化された形式に一致するキ
ーが見出されないときに、生成された電子辞書が入力語
を含まないということを示すことを特徴とする請求項２
に記載の方法。
【請求項４】前記入力語の前記正規化された形式に一
致するキーが見出されたとき、前記見出されたエントリ
が前記情報を含むことを示すことを特徴とする請求項２
に記載の方法。
【請求項５】前記複数の語は、前記生成された電子辞
書が同綴異義語に対して完全に特定されるように全ての
可能な同綴異義語に対する語を含むことを特徴とする請
求項１に記載の方法。
【請求項６】前記入力語の前記正規化された形式に一
致するキーが見出されないときに、前記入力語に形態素
規則を適用することによって前記入力語の全ての語彙見
出しを生成し、前記生成した語彙見出しを正規化し、か
つ前記正規化された語彙見出しに一致するキーを有する
エントリに対して前記生成した電子辞書を検索すること
を特徴とする請求項５に記載の方法。
【請求項７】前記入力語の前記正規化された形式に一
致するキーが見出されたとき、前記見出されたエントリ
が前記情報を含むことを示すことを特徴とする請求項５
に記載の方法。
【請求項８】前記入力語の前記正規化された形式に一
致するキーが見出されたときに、前記入力語に形態素規
則を適用することによって前記入力語の全ての語彙見出
しを生成し、前記生成した語彙見出しを正規化し、かつ
前記正規化された語彙見出しに一致するキーを有するエ
ントリに対して前記生成した電子辞書を検索することを
特徴とする請求項１に記載の方法。
【請求項９】それぞれが基準化形式を有している語の
電子辞書を生成すコンピュータ・システムにおける方法
であって、複数の語のそれぞれの前記基準化形式から正規化された
形式を生成し；かつ語の各固有な正規化された形式に対
して、それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報をレコード内に記憶する段階を具備することを特徴
とする方法。
【請求項１０】正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項９に記載の方法。
【請求項１１】正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
９に記載の方法。
【請求項１２】電子辞書を生成すコンピュータ・シス
テムにおける方法であって、多数の語の複数の正規化された形式のそれぞれに対する
エントリを生成し；かつ単一のエントリを検索すること
によって前記同じ正規化された形式を有する各語に対す
る情報を検索することができるように前記同じ正規化さ
れた形式を有する前記語のそれぞれに関する情報を各エ
ントリ内に記憶することを特徴とする方法。
【請求項１３】各エントリは、前記正規化された形式
及びその正規化された形式を有する各語の基準化形式を
当該基準化形式に関する情報と一緒に含むことを特徴と
する請求項１２に記載の方法。
【請求項１４】正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項１２に記載の方法。
【請求項１５】正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
１２に記載の方法。
【請求項１６】複数の語のそれぞれの基準化形式から
正規化された形式を生成し、かつ語の各固有な正規化さ
れた形式に対して、それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報をレコード内に記憶することによって、それぞれが
基準化形式を有している語の電子辞書をコンピュータ・
システムに生成させるコンピュータ命令を含んでいるコ
ンピュータ読取り可能媒体。
【請求項１７】正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項１６に記載のコンピュータ読取り可能媒体。
【請求項１８】正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
１６に記載のコンピュータ読取り可能媒体。
【請求項１９】電子辞書を生成するコンピュータ・シ
ステムであって、多数の語の複数の正規化された形式のそれぞれに対する
エントリを生成する手段；及び単一のエントリを検索す
ることによって前記同じ正規化された形式を有する各語
に対する情報を検索することができるように前記同じ正
規化された形式を有する前記語のそれぞれに関する情報
を各エントリ内に記憶する手段を備えていること特徴と
するコンピュータ・システム。
【請求項２０】各エントリは、前記正規化された形式
及びその正規化された形式を有する各語の基準化形式を
当該基準化形式に関する情報と一緒に含むことを特徴と
する請求項１９に記載のコンピュータ・システム。
【請求項２１】正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項２０に記載のコンピュータ・システム。
【請求項２２】正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
２０に記載のコンピュータ・システム。
【請求項２３】同じ正規化された形式を有する語の基
準化形式に関する情報を含んでいるエントリを有してい
る電子辞書から情報を検索するコンピュータ・システム
における方法であって、入力語を受け取り；前記入力語の正規化された形式を生
成し；かつ前記エントリが前記入力語に関する情報を含
むように前記入力語の前記正規化された形式に対応して
いるエントリに対して前記電子辞書を検索することを特
徴とする方法。
【請求項２４】前記電子辞書は、前記生成された電子
辞書が形態素形式に対して完全に特定されるように前記
語の全ての可能な形態素形式に対するエントリを含むこ
とを特徴とする請求項２３に記載の方法。
【請求項２５】前記入力語の前記正規化された形式に
対応しているエントリが見出されないとき、前記電子辞
書が前記入力語を含まないことを示すことを特徴とする
請求項２４に記載の方法。
【請求項２６】前記入力語の前記正規化された形式に
対応しているエントリが見出されたときに、前記見出さ
れたエントリが前記情報を含むこと示すことを特徴とす
る請求項２４に記載の方法。
【請求項２７】前記電子辞書は、前記生成された電子
辞書が同綴異義語に対して完全に特定されるように全て
の可能な同綴異義語に対するエントリを含むことを特徴
とする請求項２３に記載の方法。
【請求項２８】前記入力語の前記正規化された形式に
対応しているエントリが見出されないときに、前記入力
語に形態素規則を適用することによって前記入力語の全
ての語彙見出しを生成し、前記生成した語彙見出しを正
規化し、かつ前記正規化された語彙見出しに対応してい
るエントリに対して前記生成した電子辞書を検索するこ
とを特徴とする請求項２７に記載の方法。
【請求項２９】前記入力語の前記正規化された形式に
対応しているエントリが見出されたときに、前記見出さ
れたエントリが前記情報を含むこと示すことを特徴とす
る請求項２７に記載の方法。
【請求項３０】前記入力語の前記正規化された形式に
対応しているエントリが見出されないときに、前記入力
語に形態素規則を適用することによって前記入力語の全
ての語彙見出しを生成し、前記生成した語彙見出しを正
規化し、かつ前記正規化された語彙見出しに対応してい
るエントリに対して前記生成した電子辞書を検索するこ
とを特徴とする請求項２３に記載の方法。
【請求項３１】自然言語の語についての形態素及び構
文情報を有している電子辞書を含んでいるコンピュータ
読取り可能媒体であって、前記電子辞書は、それぞれが
キー及びレコードを含んでいる一組のエントリを備え、
前記レコードは、前記キーによって表された少なくとも
一つの語についての情報を含み、前記辞書の各キーは、正規化され；かつ少なくとも二つ
の異なる語が同じ標準化された形式を有するときに、前
記標準化された形式に一致しているキーを有する前記電
子辞書エントリは、同じ標準化された形式を有している
各異なる語に対応している少なくとも一つのサブ−レコ
ードを含むことを特徴とするコンピュータ読取り可能媒
体。
【請求項３２】前記電子辞書の各キーは、ケースに関
して正規化されることを特徴とする請求項３１に記載の
コンピュータ読取り可能媒体。
【請求項３３】前記電子辞書の各キーは、発音区別符
号に関して正規化されることを特徴とする請求項３１に
記載のコンピュータ読取り可能媒体。
【請求項３４】電子辞書に記憶された語についての情
報を見出すコンピュータ・システムであり、前記電子辞
書は、自然言語の語についての形態素及び構文情報を含
み、前記電子辞書は、一組のエントリを備え、各エント
リは、キー及びレコードを備え、前記レコードは、前記
キーによって表された少なくとも一つの語についての情
報を含み、前記辞書の各キーは、語の標準化された形式
であり、前記コンピュータ・システムは、：入力語の標
準化された形式を生成する手段；及び前記入力語の前記
標準化された形式に一致するキーを有している前記電子
辞書においてエントリを検索する手段を備えていること
を特徴とするコンピュータ・システム。
【請求項３５】エントリが見出されずかつ前記電子辞
書が形態素形式に関して完全に特定されるときに、前記
電子辞書が前記入力語についての情報を含んでいないと
いう表示をリターンする手段を備えていることを特徴と
する請求項３４に記載のコンピュータ・システム。
【請求項３６】各レコードは、前記語の各基準化形式
に対するサブ−レコードを含みかつエントリが見出され
たかつ前記電子辞書が形態素形式に関して完全に特定さ
れるときに、前記サブ−レコードが前記入力語に一致す
る基準化形式を有する表示を伴う前記見出されたエント
リをリターンする手段を備えていることを特徴とする請
求項３４に記載のコンピュータ・システム。
【請求項３７】検索している場合にエントリが見出さ
れずかつ前記電子辞書が形態素形式に関して完全に特定
されないときに、前記入力語の異なる語彙を生成し；前記入力語の前記異
なる語彙の標準化された形式を生成し；かつ前記入力語
の前記異なる語彙の標準化された形式に一致するキーを
有している前記電子辞書においてエントリを検索する手
段を含んでいることを特徴とする請求項３４に記載のコ
ンピュータ・システム。
【請求項３８】エントリが見出されかつ前記電子辞書
が同綴異義語形式に関して完全に特定されないときに、前記入力語の異なる語彙を生成し；前記入力語の前記異
なる語彙の標準化された形式を生成し；かつ前記入力語
の前記異なる語彙の標準化された形式に一致するキーを
有している前記電子辞書においてエントリを検索する手
段を含んでいることを特徴とする請求項３４に記載のコ
ンピュータ・システム。
【請求項３９】エントリが見出されかつ前記電子辞書
が同綴異義語形式に関して完全に特定されるときに、前
記見出されたエントリ及び当該エントリのサブ−レコー
ドが一致している語彙値を有する表示をリターンする手
段を含んでいることを特徴とする請求項３４に記載のコ
ンピュータ・システム。
【請求項４０】前記入力語の正規化された形式の生成
は、ケースに関して前記入力語を正規化することを特徴
とする請求項３４に記載の方法。
【請求項４１】前記入力語の正規化された形式の生成
は、発音区別符号に関して前記入力語を正規化すること
を特徴とする請求項３４に記載の方法。
【請求項４２】入力語を受け取り；前記入力語の正規
化された形式を生成し；かつ前記エントリが前記入力語
に関する情報を含むように前記入力語の前記正規化され
た形式に対応しているエントリに対して前記生成された
電子辞書を検索することによって、同じ正規化された形
式を有する語の基準化形式に関する情報を含んでいるエ
ントリを有している電子辞書から情報をコンピュータ・
システムに検索させる命令を含んでいるコンピュータ読
取り可能媒体。
【請求項４３】前記正規化された形式は、全て小文字
を含むことを特徴とする請求項４２に記載のコンピュー
タ読取り可能媒体。
【請求項４４】前記正規化された形式は、発音区別符
号を含まないことを特徴とする請求項４２に記載のコン
ピュータ読取り可能媒体。