JPH1074203A - 大文字及び非強調テキストの語彙処理の方法及びシステム - Google Patents
大文字及び非強調テキストの語彙処理の方法及びシステムInfo
- Publication number
- JPH1074203A JPH1074203A JP9149827A JP14982797A JPH1074203A JP H1074203 A JPH1074203 A JP H1074203A JP 9149827 A JP9149827 A JP 9149827A JP 14982797 A JP14982797 A JP 14982797A JP H1074203 A JPH1074203 A JP H1074203A
- Authority
- JP
- Japan
- Prior art keywords
- word
- entry
- normalized
- electronic dictionary
- normalized form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 発音区別符号がストリップされた入力語に対
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出す方法を提供する。 【解決手段】 電子辞書から情報を検索する方法及びシ
ステムである。システムは、同じ正規化された形式を有
する語についての全ての情報を電子辞書内の単一エント
リに記憶する。語の正規化された形式は、全て小文字を
有しかつ発音区別符号を有さない。情報が語に対して辞
書から検索されるべきであるときに、語は、まず正規化
されそして辞書がその正規化された語に対応しているエ
ントリに対して検索される。見出されたエントリは、そ
の語に対する情報を含む。
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出す方法を提供する。 【解決手段】 電子辞書から情報を検索する方法及びシ
ステムである。システムは、同じ正規化された形式を有
する語についての全ての情報を電子辞書内の単一エント
リに記憶する。語の正規化された形式は、全て小文字を
有しかつ発音区別符号を有さない。情報が語に対して辞
書から検索されるべきであるときに、語は、まず正規化
されそして辞書がその正規化された語に対応しているエ
ントリに対して検索される。見出されたエントリは、そ
の語に対する情報を含む。
Description
【0001】
【産業上の利用分野】本発明は、自然言語処理(“NL
P”)の分野に関し、より特定的には、電子辞書から情
報を編成しかつ検索する方法及びシステムに関する。
P”)の分野に関し、より特定的には、電子辞書から情
報を編成しかつ検索する方法及びシステムに関する。
【0002】
【従来の技術】自然言語処理 自動自然言語処理用コンピュータ・システムは、入力テ
キストを分析しかつ自然言語のマシン・アンダスタンデ
ィング(機械理解)のレベルを達成すべく形態素(morph
ological) 、構文(syntactic) 、及び意味解析(semanti
c analysis) の言語分野にほぼ対応している、種々のサ
ブシステムを用いる。あるレベルへの入力テキストを理
解して、コンピュータ・システムは、例えば、入力テキ
ステへの文法的及び文体(形式)的変更を提案し、入力
テキストにおいて提起された質問に答えるか、または入
力テキストによって表される情報を効果的に記憶するこ
とができる。
キストを分析しかつ自然言語のマシン・アンダスタンデ
ィング(機械理解)のレベルを達成すべく形態素(morph
ological) 、構文(syntactic) 、及び意味解析(semanti
c analysis) の言語分野にほぼ対応している、種々のサ
ブシステムを用いる。あるレベルへの入力テキストを理
解して、コンピュータ・システムは、例えば、入力テキ
ステへの文法的及び文体(形式)的変更を提案し、入力
テキストにおいて提起された質問に答えるか、または入
力テキストによって表される情報を効果的に記憶するこ
とができる。
【0003】形態素解析は、入力語(input words) を識
別しかつ自然言語の話者(human speaker) が辞書を用い
て決定することができる各語に対する情報を供給する。
そのような情報は、語がプレイすることができる構文ロ
ール(syntactic roles) (例えば、名詞または動詞)及
び異なる、関連語を生成すべく接頭部(prefixes)または
接尾部(suffixes)を加えることによって語を変更するこ
とができる方法を含みうる。例えば、語“fish”に加え
て、辞書は、また、“fishes”、“fished”、“fishin
g ”、“fisher”、“fisherman ”、“fishable”、
“fishability ”、“fishbowl”、“fisherwoman ”、
“fishery ”、“fishhook”、“fishnet”、及び“fis
hy ”を含んでいる、語“fish”に関連し、かつそれか
ら導き出される種々の語をリストしうる。
別しかつ自然言語の話者(human speaker) が辞書を用い
て決定することができる各語に対する情報を供給する。
そのような情報は、語がプレイすることができる構文ロ
ール(syntactic roles) (例えば、名詞または動詞)及
び異なる、関連語を生成すべく接頭部(prefixes)または
接尾部(suffixes)を加えることによって語を変更するこ
とができる方法を含みうる。例えば、語“fish”に加え
て、辞書は、また、“fishes”、“fished”、“fishin
g ”、“fisher”、“fisherman ”、“fishable”、
“fishability ”、“fishbowl”、“fisherwoman ”、
“fishery ”、“fishhook”、“fishnet”、及び“fis
hy ”を含んでいる、語“fish”に関連し、かつそれか
ら導き出される種々の語をリストしうる。
【0004】構文解析は、開始点として、入力語の形態
素解析によって供給された情報を、開始点として、用
い、かつ入力文が書き込まれた言語の文法を定義するシ
ンタックス規則(syntax rules)の組を用いて各入力文を
解析する。次のものは、サンプル・シンタックス規則で
ある: sentence = noun phrase + verbphrase (文) (名詞句) (動詞句) noun phrase = adjective + noun (名詞句) (形容詞) (名詞) verb phrase = adverb + verb (動詞句) (副詞) (動詞) 構文解析は、入力文の語に適用されたときに、語のグル
ープを語句に結合し、そして語句を完全な文に結合す
る、シンタックス規則の順序付けられたサブセットを見
出すことを試みる。例えば、入力文:“Big dogs fierc
ely bite”を考える。上に掲げた3つの簡単な規則を用
いて、構文解析は、それぞれ形容詞及び名詞として語
“Big ”及び“dogs”を識別し、かつ名詞句“Big dog
s”を生成すべく第2の規則を適用するであろう。構文
解析は、それぞれ副詞及び動詞として語“fiercely”及
び“bite”を識別し、かつ動詞句“fiercely bite ”を
生成すべく第3の規則を適用するであろう。そして、構
文解析は、先に生成された名詞句及び動詞句から完全な
文を形成すべく第1の規則を適用するであろう。最終的
な完全な文を含んでいる、規則の順序付けられた組及び
それらを適用した結果として生じた語句は、構文解析系
(パーズ(parse) )と呼ばれる。
素解析によって供給された情報を、開始点として、用
い、かつ入力文が書き込まれた言語の文法を定義するシ
ンタックス規則(syntax rules)の組を用いて各入力文を
解析する。次のものは、サンプル・シンタックス規則で
ある: sentence = noun phrase + verbphrase (文) (名詞句) (動詞句) noun phrase = adjective + noun (名詞句) (形容詞) (名詞) verb phrase = adverb + verb (動詞句) (副詞) (動詞) 構文解析は、入力文の語に適用されたときに、語のグル
ープを語句に結合し、そして語句を完全な文に結合す
る、シンタックス規則の順序付けられたサブセットを見
出すことを試みる。例えば、入力文:“Big dogs fierc
ely bite”を考える。上に掲げた3つの簡単な規則を用
いて、構文解析は、それぞれ形容詞及び名詞として語
“Big ”及び“dogs”を識別し、かつ名詞句“Big dog
s”を生成すべく第2の規則を適用するであろう。構文
解析は、それぞれ副詞及び動詞として語“fiercely”及
び“bite”を識別し、かつ動詞句“fiercely bite ”を
生成すべく第3の規則を適用するであろう。そして、構
文解析は、先に生成された名詞句及び動詞句から完全な
文を形成すべく第1の規則を適用するであろう。最終的
な完全な文を含んでいる、規則の順序付けられた組及び
それらを適用した結果として生じた語句は、構文解析系
(パーズ(parse) )と呼ばれる。
【0005】しかしながら、ある文は、複数の異なるパ
ーズを有することができる。そのような多重パーズに対
する古典的例文は:“Time flies like an arrow. ”で
ある。この文の3つの可能な意味に対応している少なく
とも3つの可能なパーズが存在する。第1のパーズで
は、“time”は、文の主語であり、“flies ”は、動詞
であり、かつ“like an arrow ”は、動詞“flies ”を
修飾している前置詞句である。しかしながら、少なくと
も二つの予期していないパーズも同様に存在する。第2
のパーズでは、“time”は、“flies ”を修飾している
形容詞であり、“like”は、動詞であり、かつ“an arr
ow”は、動詞の目的語である。このパーズは、ある一定
の型のフライ、“time flies”が矢を好きかまたはそれ
に魅せられるという意味に対応する。第3のパーズで
は、“time”が命令形動詞であり、“flies ”は、目的
語であり、かつ“like an arrow ”は、“time”を修飾
している前置詞句である。このパーズは、たぶんストッ
プウォッチで、あるものが矢を計時するような、time f
liesへの命令に対応する。
ーズを有することができる。そのような多重パーズに対
する古典的例文は:“Time flies like an arrow. ”で
ある。この文の3つの可能な意味に対応している少なく
とも3つの可能なパーズが存在する。第1のパーズで
は、“time”は、文の主語であり、“flies ”は、動詞
であり、かつ“like an arrow ”は、動詞“flies ”を
修飾している前置詞句である。しかしながら、少なくと
も二つの予期していないパーズも同様に存在する。第2
のパーズでは、“time”は、“flies ”を修飾している
形容詞であり、“like”は、動詞であり、かつ“an arr
ow”は、動詞の目的語である。このパーズは、ある一定
の型のフライ、“time flies”が矢を好きかまたはそれ
に魅せられるという意味に対応する。第3のパーズで
は、“time”が命令形動詞であり、“flies ”は、目的
語であり、かつ“like an arrow ”は、“time”を修飾
している前置詞句である。このパーズは、たぶんストッ
プウォッチで、あるものが矢を計時するような、time f
liesへの命令に対応する。
【0006】構文解析は、シンタックス・パーズ・ツリ
ーと呼ばれる一つ以上の階層ツリーを構築することによ
ってしばしば達成される。シンタックス・パーズ・ツリ
ーの各リーフ・ノードは、入力文の一語を表す。シンタ
ックス規則のアプリケーションは、下から一つ、二つ、
または時々それ以上の既存のノードにリンクする中間準
位ノードを生成する。既存のノードは、初めはリーフ・
ノードだけを備えるが、構文解析がシンタックス規則を
適用すると、既存のノードは、リーフ・ノード及び中間
準位ノードの両方を備える。完全なシンタックス・パー
ズ・ツリーの単一ルート・ノードは、文全体を表す。意
味解析(semantic analysis) は、シンタックス・パーズ
・ツリーだけによって記述することができるよりも深み
のある方法で入力テキストの意味を記述する論理形式グ
ラフを生成する。意味解析は、二つ以上のシンタックス
・パーズ・ツリーが構文解析によって生成されたなら
ば、シンタックス・パーズ・ツリーによっ表された、正
しいパーズを選択することをまず試みる。正しいパーズ
に対応している 論理形式グラフは、言語の話者によっ
て達成されたものに相当する準位で入力テキストを理解
するための最初の試みである。
ーと呼ばれる一つ以上の階層ツリーを構築することによ
ってしばしば達成される。シンタックス・パーズ・ツリ
ーの各リーフ・ノードは、入力文の一語を表す。シンタ
ックス規則のアプリケーションは、下から一つ、二つ、
または時々それ以上の既存のノードにリンクする中間準
位ノードを生成する。既存のノードは、初めはリーフ・
ノードだけを備えるが、構文解析がシンタックス規則を
適用すると、既存のノードは、リーフ・ノード及び中間
準位ノードの両方を備える。完全なシンタックス・パー
ズ・ツリーの単一ルート・ノードは、文全体を表す。意
味解析(semantic analysis) は、シンタックス・パーズ
・ツリーだけによって記述することができるよりも深み
のある方法で入力テキストの意味を記述する論理形式グ
ラフを生成する。意味解析は、二つ以上のシンタックス
・パーズ・ツリーが構文解析によって生成されたなら
ば、シンタックス・パーズ・ツリーによっ表された、正
しいパーズを選択することをまず試みる。正しいパーズ
に対応している 論理形式グラフは、言語の話者によっ
て達成されたものに相当する準位で入力テキストを理解
するための最初の試みである。
【0007】論理形式グラフは、ノード及びリンクを有
するが、上述したシンタックス・パーズ・ツリーとは異
なり、階層的に順序付けられていない。論理形式グラフ
のリンクは、一対のノード間の関係を示すためにラベル
表示される。例えば、意味解析は、動詞のディープ・サ
ブジェクト(deep subject)またはディープ・オブジェク
ト(deep object) として文のある一定の名詞を識別しう
る。動詞のディープ・サブジェクトは、アクションのド
ゥアー(doer)であり、動詞のディープ・オブジェクト
は、動詞によって特定されたアクションの目的語であ
る。能動態動詞のディープ・サブジェクトは、文の構文
主語でありうるし、能動態動詞のディープ・オブジェク
トは、動詞の構文目的語でありうる。しかしながら、受
動態動詞のディープ・サブジェクトは、具格節(instrum
ental clause) で表現されうるし、かつ受動態動詞のデ
ィープ・オブジェクトは、文の構文主語でありうる。例
えば、二つの文:(1)“Dogs bite people”及び
(2)“People are bitten by dogs ”を考える。第1
の文は、能動態動詞を有し、第2の文は、受動態動詞を
有する。第1の文の構文主語は、“Dogs”でありかつ動
詞“bite”の構文目的語は、“people”である。対象的
に、第2の文の構文主語は、“People”でありかつ動詞
句“are bitten”は、具格節“by dogs ”によって修飾
される。両方の文に対して、“dogs”は、ディープ・サ
ブジェクトであり、“people”は、動詞のディープ・オ
ブジェクトまたは文の動詞句である。文1及び2に対す
る構文解析によって生成されたシンタックス・パーズ・
ツリーは、異なるけれども、二つの文の基礎をなす意味
が同じなので、意味解析によって生成された論理形式グ
ラフは、同じである。
するが、上述したシンタックス・パーズ・ツリーとは異
なり、階層的に順序付けられていない。論理形式グラフ
のリンクは、一対のノード間の関係を示すためにラベル
表示される。例えば、意味解析は、動詞のディープ・サ
ブジェクト(deep subject)またはディープ・オブジェク
ト(deep object) として文のある一定の名詞を識別しう
る。動詞のディープ・サブジェクトは、アクションのド
ゥアー(doer)であり、動詞のディープ・オブジェクト
は、動詞によって特定されたアクションの目的語であ
る。能動態動詞のディープ・サブジェクトは、文の構文
主語でありうるし、能動態動詞のディープ・オブジェク
トは、動詞の構文目的語でありうる。しかしながら、受
動態動詞のディープ・サブジェクトは、具格節(instrum
ental clause) で表現されうるし、かつ受動態動詞のデ
ィープ・オブジェクトは、文の構文主語でありうる。例
えば、二つの文:(1)“Dogs bite people”及び
(2)“People are bitten by dogs ”を考える。第1
の文は、能動態動詞を有し、第2の文は、受動態動詞を
有する。第1の文の構文主語は、“Dogs”でありかつ動
詞“bite”の構文目的語は、“people”である。対象的
に、第2の文の構文主語は、“People”でありかつ動詞
句“are bitten”は、具格節“by dogs ”によって修飾
される。両方の文に対して、“dogs”は、ディープ・サ
ブジェクトであり、“people”は、動詞のディープ・オ
ブジェクトまたは文の動詞句である。文1及び2に対す
る構文解析によって生成されたシンタックス・パーズ・
ツリーは、異なるけれども、二つの文の基礎をなす意味
が同じなので、意味解析によって生成された論理形式グ
ラフは、同じである。
【0008】更に、論理形式グラフの生成後の意味処理
は、理解のさらに深い準位を達成するために解析したテ
キストを実際の内容と関連させるべくナレッジ・データ
ベースを利用する。ナレッジ・ベースの例は、特定の語
に対してより綿密な定義及びコンテキスト的情報を得る
ことができるオン−ライン百科辞典である。次に、3つ
の自然言語処理サブシステム−−形態素、構文、及び意
味−−がサンプル入力テキスト:“The person whome I
met was my friend”を処理するコンテキストにおいて
説明される。図1は、自然言語処理のサブシステム間の
情報の流れを示しているブロック図である。形態素サブ
システム101は、入力テキストを受け取りかつ各語を
用いることができる音声の種々の部分のそれぞれに対す
る語及びセンスの識別を出力する。構文サブシステム1
02は、この情報を受け取りかつシンタックス規則を適
用することによってシンタックス・パーズ・ツリーを生
成する。意味サブシステム103は、シンタックス・パ
ーズ・ツリーを受け取りかつ論理形式グラフを生成す
る。
は、理解のさらに深い準位を達成するために解析したテ
キストを実際の内容と関連させるべくナレッジ・データ
ベースを利用する。ナレッジ・ベースの例は、特定の語
に対してより綿密な定義及びコンテキスト的情報を得る
ことができるオン−ライン百科辞典である。次に、3つ
の自然言語処理サブシステム−−形態素、構文、及び意
味−−がサンプル入力テキスト:“The person whome I
met was my friend”を処理するコンテキストにおいて
説明される。図1は、自然言語処理のサブシステム間の
情報の流れを示しているブロック図である。形態素サブ
システム101は、入力テキストを受け取りかつ各語を
用いることができる音声の種々の部分のそれぞれに対す
る語及びセンスの識別を出力する。構文サブシステム1
02は、この情報を受け取りかつシンタックス規則を適
用することによってシンタックス・パーズ・ツリーを生
成する。意味サブシステム103は、シンタックス・パ
ーズ・ツリーを受け取りかつ論理形式グラフを生成す
る。
【0009】図2〜5は、形態素解析中にサンプル入力
テキストの入力語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する。図2は、入力語“the ”
201及び“person”202に対する辞書エントリを示
す。エントリ201は、キー“the ”203及び属性/
値ペアのリストを備えている。第1の属性“Adj ”20
4は、その値として、中括弧205及び206内に含ま
れた記号を有する。これらの記号は、二つの更なる属性
/値ペア:(1)“Lemma ”/“the ”及び(2)“Bi
ts”/“Sing Plur Wa6 Det Art B0 Def”を備えてい
る。Lemma は、語の基本的な非屈折形式(uninflected f
orm)である。従って、属性“Lemma ”は、“the ”が辞
書においてこのエントリによって表された語の基本的な
非屈折形式であるということを示す。属性“Bits”は、
語についてのある一定の形態素及び構文情報を表してい
る一組の略語を備えている。この情報は、“the ”は:
(1)単数形;(2)複数形;(3)屈折可能でない;
(4)決定詞;(5)冠詞;(6)通常の形容詞;及び
(7)限定的な、であるということを示す。属性204
は、語“the ”が形容詞としてサーブできるということ
を示す。属性212は、語“the ”が副詞としてサーブ
できるということを示す。属性“Senses”207は、個
別の定義及び例として語の種々の意味を表し、その一部
分が中括弧208〜209の間及び中括弧210〜21
1の間の属性/値ペアのリストに含まれる。“the ”に
対するエントリに実際に含まれる更なる意味は、図2に
おいて省略され、括弧で囲まれた表現“(more sense re
cords)”213によって示されている。
テキストの入力語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する。図2は、入力語“the ”
201及び“person”202に対する辞書エントリを示
す。エントリ201は、キー“the ”203及び属性/
値ペアのリストを備えている。第1の属性“Adj ”20
4は、その値として、中括弧205及び206内に含ま
れた記号を有する。これらの記号は、二つの更なる属性
/値ペア:(1)“Lemma ”/“the ”及び(2)“Bi
ts”/“Sing Plur Wa6 Det Art B0 Def”を備えてい
る。Lemma は、語の基本的な非屈折形式(uninflected f
orm)である。従って、属性“Lemma ”は、“the ”が辞
書においてこのエントリによって表された語の基本的な
非屈折形式であるということを示す。属性“Bits”は、
語についてのある一定の形態素及び構文情報を表してい
る一組の略語を備えている。この情報は、“the ”は:
(1)単数形;(2)複数形;(3)屈折可能でない;
(4)決定詞;(5)冠詞;(6)通常の形容詞;及び
(7)限定的な、であるということを示す。属性204
は、語“the ”が形容詞としてサーブできるということ
を示す。属性212は、語“the ”が副詞としてサーブ
できるということを示す。属性“Senses”207は、個
別の定義及び例として語の種々の意味を表し、その一部
分が中括弧208〜209の間及び中括弧210〜21
1の間の属性/値ペアのリストに含まれる。“the ”に
対するエントリに実際に含まれる更なる意味は、図2に
おいて省略され、括弧で囲まれた表現“(more sense re
cords)”213によって示されている。
【0010】自然言語処理の第1のステップでは、形態
素サブシステムは、個別のトークンとして入力テキスト
の各語及び句読記号を認識しかつ辞書情報を用いて各ト
ークンに対する属性/値記録を構築する。属性は、トー
クン型(例えば、語、句読)及び、語が自然言語文で表
すことができる音声の異なる部分を含む。構文サブシス
テムは、サンプル入力テキストに対する属性/値記録の
初期の組を入力し、それぞれからシンタックス・パーズ
・ツリー・ノードを生成し、かつサンプル入力テキスト
を表す可能なシンタックス・パーズ・ツリーのより高準
位なノードを構築するためにこれらの初期ノードにシン
タックス規則を適用する。完全なシンタックス・パーズ
・ツリーは、ルート・ノード、中間準位ノード、及びリ
ーフ・ノードを含む。ルート・ノードは、サンプル入力
テキストに対する構文構築(例えば、平述文)を表す。
中間準位ノードは、中間構文構築(例えば、動詞、名
詞、または前置詞句)を表す。リーフ・ノードは、属性
/値記録の初期の組を表す。
素サブシステムは、個別のトークンとして入力テキスト
の各語及び句読記号を認識しかつ辞書情報を用いて各ト
ークンに対する属性/値記録を構築する。属性は、トー
クン型(例えば、語、句読)及び、語が自然言語文で表
すことができる音声の異なる部分を含む。構文サブシス
テムは、サンプル入力テキストに対する属性/値記録の
初期の組を入力し、それぞれからシンタックス・パーズ
・ツリー・ノードを生成し、かつサンプル入力テキスト
を表す可能なシンタックス・パーズ・ツリーのより高準
位なノードを構築するためにこれらの初期ノードにシン
タックス規則を適用する。完全なシンタックス・パーズ
・ツリーは、ルート・ノード、中間準位ノード、及びリ
ーフ・ノードを含む。ルート・ノードは、サンプル入力
テキストに対する構文構築(例えば、平述文)を表す。
中間準位ノードは、中間構文構築(例えば、動詞、名
詞、または前置詞句)を表す。リーフ・ノードは、属性
/値記録の初期の組を表す。
【0011】ある一定のNLPシステムでは、シンタッ
クス規則は、トップ−ダウン方法で適用される。ここで
説明したNLPシステムの構文サブシステムは、ボトム
−アップ(上昇)方法でシンタックス規則をリーフ・ノ
ードに適用する。即ち、構文サブシステムは、単一リー
フ・ノードに対して一度に一つ、シンタックス規則をリ
ーフ・ノードのペアに、かつ時々、リーフ・ノードのよ
り大きなグループに適用することを試みる。シンタック
ス規則が、その上で動作すべく二つのリーフ・ノード、
及び両方が規則において特定された要求事項に一致する
属性を含む一対のリーフ・ノードを必要とするならば、
規則は、より高準位なノード構文構築を生成すべくそれ
に適用される。例えば、語“my friend ”は、それぞれ
形容詞及び名詞を表すことができ、名詞句のより高水準
な構文構築に結合することができる。文法規則、“noun
phrase = adjective + noun”に対応しているシンタッ
クス規則は、中間水準名詞句ノードを生成し、かつ“m
y”及び“friend”を表している二つのリーフ・ノード
を新しく生成した中間水準ノードにリンクする。各新し
い中間水準ノードが生成されると、それは既に存在して
いるリーフ・ノード及び中間水準ノードにリンクされ、
かつシンタックス規則が適用されるノードの合計の組の
一部になる。ノードの成長している組にシンタックス規
則を適用する処理は、完全シンタックス・パーズ・ツリ
ーが生成されるかまたはもはやシンタックス規則が適用
できないかのいずれかになるまで継続する。完全シンタ
ックス・パーズ・ツリーは、リーフ・ノードとして入力
文の語の全てを含みかつ文の一つの可能なパーズを表
す。
クス規則は、トップ−ダウン方法で適用される。ここで
説明したNLPシステムの構文サブシステムは、ボトム
−アップ(上昇)方法でシンタックス規則をリーフ・ノ
ードに適用する。即ち、構文サブシステムは、単一リー
フ・ノードに対して一度に一つ、シンタックス規則をリ
ーフ・ノードのペアに、かつ時々、リーフ・ノードのよ
り大きなグループに適用することを試みる。シンタック
ス規則が、その上で動作すべく二つのリーフ・ノード、
及び両方が規則において特定された要求事項に一致する
属性を含む一対のリーフ・ノードを必要とするならば、
規則は、より高準位なノード構文構築を生成すべくそれ
に適用される。例えば、語“my friend ”は、それぞれ
形容詞及び名詞を表すことができ、名詞句のより高水準
な構文構築に結合することができる。文法規則、“noun
phrase = adjective + noun”に対応しているシンタッ
クス規則は、中間水準名詞句ノードを生成し、かつ“m
y”及び“friend”を表している二つのリーフ・ノード
を新しく生成した中間水準ノードにリンクする。各新し
い中間水準ノードが生成されると、それは既に存在して
いるリーフ・ノード及び中間水準ノードにリンクされ、
かつシンタックス規則が適用されるノードの合計の組の
一部になる。ノードの成長している組にシンタックス規
則を適用する処理は、完全シンタックス・パーズ・ツリ
ーが生成されるかまたはもはやシンタックス規則が適用
できないかのいずれかになるまで継続する。完全シンタ
ックス・パーズ・ツリーは、リーフ・ノードとして入力
文の語の全てを含みかつ文の一つの可能なパーズを表
す。
【0012】シンタックス・パージングのこのボトム−
アップ方法は、最終的な、完全シンタックス・パーズ・
ツリーに決して含まれないであろう、多くの中間水準ノ
ード及びサブ・ツリーを生成する。更に、パーシングの
この方法は、二つ以上の完全シンタックス・パーズ・ツ
リーを同時に生成することができる。シンタックス・サ
ブシステムは、もはや更なる規則を適用できなくなるま
で規則を連続的に適用することによって全ての可能な完
全シンタックス・パーズ・ツリーに対するしらみ潰しの
探索(exhaustive search) を実行することができる。構
文サブシステムは、また、最も可能なノード(most prob
able nodes) を最初に生成すべく種々のヒューリスティ
ック・アプローチを試みることができる。一つまたは2
〜3の完全シンタックス・パーズ・ツリーが生成された
後、入力文を最もよく表しているとして選択されるであ
ろうシンタックス・パーズ・ツリーがたぶん最初に生成
されたシンタックス・パーズ・ツリーの一つだから、構
文サブシステムは、探索を一般に終了することができ
る。適当な探索の後に完全なシンタックス・パーズ・ツ
リーが生成されなかったならば、適合パーズ(fitted pa
rse)は、特別な集約規則(aggregation rule)のアプリケ
ーションによって生成されるルート・ノードを用いて最
も見込みのあるサブ−ツリーを一緒に単一のツリーに結
合することによって達成することができる。
アップ方法は、最終的な、完全シンタックス・パーズ・
ツリーに決して含まれないであろう、多くの中間水準ノ
ード及びサブ・ツリーを生成する。更に、パーシングの
この方法は、二つ以上の完全シンタックス・パーズ・ツ
リーを同時に生成することができる。シンタックス・サ
ブシステムは、もはや更なる規則を適用できなくなるま
で規則を連続的に適用することによって全ての可能な完
全シンタックス・パーズ・ツリーに対するしらみ潰しの
探索(exhaustive search) を実行することができる。構
文サブシステムは、また、最も可能なノード(most prob
able nodes) を最初に生成すべく種々のヒューリスティ
ック・アプローチを試みることができる。一つまたは2
〜3の完全シンタックス・パーズ・ツリーが生成された
後、入力文を最もよく表しているとして選択されるであ
ろうシンタックス・パーズ・ツリーがたぶん最初に生成
されたシンタックス・パーズ・ツリーの一つだから、構
文サブシステムは、探索を一般に終了することができ
る。適当な探索の後に完全なシンタックス・パーズ・ツ
リーが生成されなかったならば、適合パーズ(fitted pa
rse)は、特別な集約規則(aggregation rule)のアプリケ
ーションによって生成されるルート・ノードを用いて最
も見込みのあるサブ−ツリーを一緒に単一のツリーに結
合することによって達成することができる。
【0013】図6は、図2〜5に最初に示された辞書エ
ントリに対する構文サブシステムによって生成された初
期リーフ・ノードを示す。リーフ・ノードは、文の始ま
り及び文を終了する期間をそれぞれ表す、二つの特別な
ノード、601及び614を含む。ノード602〜61
3のそれぞれは、入力語が文で表すことができる音声の
単一部分を表す。音声のこれらの部分は、辞書エントリ
において属性/値ペアとして見出される。例えば、リー
フ・ノード602及び603は、図2の属性204及び
212として見出される、語“The ”に対する音声の二
つの可能な部分を表す。図7〜22は、構文サブシステ
ムによる最終シンタックス・パーズ・ツリーの規則毎(r
ule-by-rule)構築を示す。図のそれぞれは、構文構成を
表す中間水準ノードを生成するための単一シンタックス
規則のアプリケーションを示す。最終シンタックス・ツ
リーを備えている中間水準ノードを生成する規則だけが
示されている。構文サブシステムは、最終シンタックス
・パーズ・ツリーに最後には含まれるようにならない多
くの中間水準ノードを生成する。
ントリに対する構文サブシステムによって生成された初
期リーフ・ノードを示す。リーフ・ノードは、文の始ま
り及び文を終了する期間をそれぞれ表す、二つの特別な
ノード、601及び614を含む。ノード602〜61
3のそれぞれは、入力語が文で表すことができる音声の
単一部分を表す。音声のこれらの部分は、辞書エントリ
において属性/値ペアとして見出される。例えば、リー
フ・ノード602及び603は、図2の属性204及び
212として見出される、語“The ”に対する音声の二
つの可能な部分を表す。図7〜22は、構文サブシステ
ムによる最終シンタックス・パーズ・ツリーの規則毎(r
ule-by-rule)構築を示す。図のそれぞれは、構文構成を
表す中間水準ノードを生成するための単一シンタックス
規則のアプリケーションを示す。最終シンタックス・ツ
リーを備えている中間水準ノードを生成する規則だけが
示されている。構文サブシステムは、最終シンタックス
・パーズ・ツリーに最後には含まれるようにならない多
くの中間水準ノードを生成する。
【0014】図7〜14では、構文サブシステムは、簡
単な動詞、名詞、及び形容詞句を表す中間水準ノードを
生成する単項(unary) シンタックス規則を適用する。図
15から始めると、構文サブシステムは、簡単な動詞、
名詞、及び形容詞句を多重−語(multiple-word) 構文構
築に結合する2進(binary)シンタックス規則を適用し始
める。構文サブシステムは、成功するアプリケーション
(successful application)のそれらの可能性によって規
則を順序付け、そしてそれが既存のノードに成功裏に適
用することができる規則を見出すまで一つずつそれらを
適用することを試みる。例えば、図15に示すように、
構文サブシステムは、形容詞句及び名詞句から名詞句を
表しているノードを生成する規則を成功裏に適用する。
規則は、形容詞及び名詞句の要求された特性を特定す
る。この例では、形容詞句は、確定的数量句(determina
te quantifier)でなければならない。ノード1501か
らノード1503へ戻るようにポインタをファローし、
そしてノード1503に含まれた形態素情報をアクセス
することによって、構文サブシステムは、ノード150
1が確定的数量句を表すということを決定する。規則に
よって要求された特性に一致する二つのノード1501
及び1502を捜し出すことにより、構文サブシステム
は、次いで、名詞句“my friend ”を表す中間水準ノー
ドを二つの簡単な句1501及び1502から生成する
ために規則を適用する。図22では、構文サブシステム
は、特別のBegin 1 リーフ・ノード2201、動詞句
“The person whom I met was my friend ”2202、
及び平述文を表しているノード2204を形成すべく最
終終了期間を表すリーフ・ノード2203を結合する、
3重規則(trinary rule)を適用するこによって入力文を
表している最終的な、完全シンタックス・パーズ・ツリ
ーを生成する。
単な動詞、名詞、及び形容詞句を表す中間水準ノードを
生成する単項(unary) シンタックス規則を適用する。図
15から始めると、構文サブシステムは、簡単な動詞、
名詞、及び形容詞句を多重−語(multiple-word) 構文構
築に結合する2進(binary)シンタックス規則を適用し始
める。構文サブシステムは、成功するアプリケーション
(successful application)のそれらの可能性によって規
則を順序付け、そしてそれが既存のノードに成功裏に適
用することができる規則を見出すまで一つずつそれらを
適用することを試みる。例えば、図15に示すように、
構文サブシステムは、形容詞句及び名詞句から名詞句を
表しているノードを生成する規則を成功裏に適用する。
規則は、形容詞及び名詞句の要求された特性を特定す
る。この例では、形容詞句は、確定的数量句(determina
te quantifier)でなければならない。ノード1501か
らノード1503へ戻るようにポインタをファローし、
そしてノード1503に含まれた形態素情報をアクセス
することによって、構文サブシステムは、ノード150
1が確定的数量句を表すということを決定する。規則に
よって要求された特性に一致する二つのノード1501
及び1502を捜し出すことにより、構文サブシステム
は、次いで、名詞句“my friend ”を表す中間水準ノー
ドを二つの簡単な句1501及び1502から生成する
ために規則を適用する。図22では、構文サブシステム
は、特別のBegin 1 リーフ・ノード2201、動詞句
“The person whom I met was my friend ”2202、
及び平述文を表しているノード2204を形成すべく最
終終了期間を表すリーフ・ノード2203を結合する、
3重規則(trinary rule)を適用するこによって入力文を
表している最終的な、完全シンタックス・パーズ・ツリ
ーを生成する。
【0015】意味サブシステムは、完全シンタックス・
パーズ・ツリーから論理形式グラフを生成する。一般的
に、論理形式グラフは、シンタックス・パーズ・ツリー
のノードから構築され、それらに属性及び新しい双方向
リンクを加える。論理形式グラフは、ラベル付き、有向
グラフである。それは、入力文の意味表現である。形態
素サブシステムによって各語に対して得られた情報は、
論理形式グラフのノード内からシンタックス・パーズ・
ツリーのリーフ・ノードへの参照を通してまだ利用可能
である。論理形式グラフのリンクのディレクション(方
向)及びラベルの両方は、論理形式グラフのノードに対
する機能的役割を含んでいる、意味情報を表す。その解
析中に、意味サブシステムは、(1)省略されている
が、暗黙の、語;(2)動詞句に対する失われているか
または不明瞭な論拠(アーギュメント(arguments) )及
び付加詞(修飾語句);及び(3)前置詞句が参照する
目的語、を表すためにリンク及びノードを加える。
パーズ・ツリーから論理形式グラフを生成する。一般的
に、論理形式グラフは、シンタックス・パーズ・ツリー
のノードから構築され、それらに属性及び新しい双方向
リンクを加える。論理形式グラフは、ラベル付き、有向
グラフである。それは、入力文の意味表現である。形態
素サブシステムによって各語に対して得られた情報は、
論理形式グラフのノード内からシンタックス・パーズ・
ツリーのリーフ・ノードへの参照を通してまだ利用可能
である。論理形式グラフのリンクのディレクション(方
向)及びラベルの両方は、論理形式グラフのノードに対
する機能的役割を含んでいる、意味情報を表す。その解
析中に、意味サブシステムは、(1)省略されている
が、暗黙の、語;(2)動詞句に対する失われているか
または不明瞭な論拠(アーギュメント(arguments) )及
び付加詞(修飾語句);及び(3)前置詞句が参照する
目的語、を表すためにリンク及びノードを加える。
【0016】図23は、例示入力文に対して意味サブシ
ステムによって生成された完全な論理形式グラフを示
す。有意味なラベルが意味規則の成功裏のアプリケーシ
ョンの産物(product) として意味サブシステムによって
リンク2301〜2306に割り当てられる。6つのノ
ード2307〜2312は、それらの間のリンクと共
に、文のセマンティック・ミーニング(semantic meanin
g)の本質的なコンポーネントを表す。一般に、論理形式
ノードは、入力された語におおよそ対応するが、“The
”及び“whom”のような、セマンティッ・ミーニング
を運ぶために不要なある一定の語は、論理形式グラフに
表されず、かつ入力された動詞“met ”及び“was ”
は、それらの不定詞形“meet”及び“be”として表され
る。ノードは、記録(レコード)としてコンピュータ・
システムにおいて表され、かつ図23に示されていない
更なる情報を含む。動詞が単数過去形で入力されたとい
う事実は、動詞、2307及び2310の意味に対応し
ている論理形式ノード内の更なる情報によって表され
る。
ステムによって生成された完全な論理形式グラフを示
す。有意味なラベルが意味規則の成功裏のアプリケーシ
ョンの産物(product) として意味サブシステムによって
リンク2301〜2306に割り当てられる。6つのノ
ード2307〜2312は、それらの間のリンクと共
に、文のセマンティック・ミーニング(semantic meanin
g)の本質的なコンポーネントを表す。一般に、論理形式
ノードは、入力された語におおよそ対応するが、“The
”及び“whom”のような、セマンティッ・ミーニング
を運ぶために不要なある一定の語は、論理形式グラフに
表されず、かつ入力された動詞“met ”及び“was ”
は、それらの不定詞形“meet”及び“be”として表され
る。ノードは、記録(レコード)としてコンピュータ・
システムにおいて表され、かつ図23に示されていない
更なる情報を含む。動詞が単数過去形で入力されたとい
う事実は、動詞、2307及び2310の意味に対応し
ている論理形式ノード内の更なる情報によって表され
る。
【0017】シンタックス・パーズ・ツリーと論理形式
グラフの間の相違は、図22に対する図23の比較から
容易に明らかである。図22に示されたシンタックス・
パーズ・ツリーは、10のリーフ・ノード及び厳密階層
構造(strict hierarchy)において一緒にリンクされた1
6の中間水準ノードを含むのに対して、図23に示され
た論理形式グラフは、6つのノードだけを含む。シンタ
ックス・パーズ・ツリーとは異なり、論理形式グラフ
は、ノード2307と2308の間で反対方向を有して
いる二つのリンクから明らかなように、階層的に順序付
けられていない。更に、上記したように、ノードは、入
力語の正確な形式をもはや表さないが、その代わりそれ
らの意味を表す。さらなる自然言語処理段階は、意味解
析の後に生じる。それらは、論理形式グラフを知識ベー
スから得られたさらなる情報に結合し、文のグループを
解析し、かつ人間が自然言語を処理するように近づける
豊富な文脈環境(rich contextualenvironment) を各論
理形式グラフの周りにアセンブリすべく一般に試みるこ
とを含む。
グラフの間の相違は、図22に対する図23の比較から
容易に明らかである。図22に示されたシンタックス・
パーズ・ツリーは、10のリーフ・ノード及び厳密階層
構造(strict hierarchy)において一緒にリンクされた1
6の中間水準ノードを含むのに対して、図23に示され
た論理形式グラフは、6つのノードだけを含む。シンタ
ックス・パーズ・ツリーとは異なり、論理形式グラフ
は、ノード2307と2308の間で反対方向を有して
いる二つのリンクから明らかなように、階層的に順序付
けられていない。更に、上記したように、ノードは、入
力語の正確な形式をもはや表さないが、その代わりそれ
らの意味を表す。さらなる自然言語処理段階は、意味解
析の後に生じる。それらは、論理形式グラフを知識ベー
スから得られたさらなる情報に結合し、文のグループを
解析し、かつ人間が自然言語を処理するように近づける
豊富な文脈環境(rich contextualenvironment) を各論
理形式グラフの周りにアセンブリすべく一般に試みるこ
とを含む。
【0018】大文字及び非強調テキストの語彙処理 形態素サブシステムの上記一般的説明では、形態素サブ
システムは、各入力語に対する辞書情報を供給するもの
として記述された。形態素サブシステムは、その情報を
見出すために電子辞書を採用する。各入力語に対して、
形態素サブシステムは、情報をそれから得るべく辞書に
おける対応エントリ(corresponding entry or entries)
を見出さなければならない。電子辞書における入力語を
ルック・アップするこの処理は、その答えがNLP全体
の精度及び効率に非常に影響する、複数の関連問題を与
える。一般的に用いられる辞書のキーは、発音区別符
号、及び固有名詞の場合には、大文字の両方を含む。例
えば、英語辞書では、強調符号なしで、動詞“resume”
に対し、かつ強調符号ありで、
システムは、各入力語に対する辞書情報を供給するもの
として記述された。形態素サブシステムは、その情報を
見出すために電子辞書を採用する。各入力語に対して、
形態素サブシステムは、情報をそれから得るべく辞書に
おける対応エントリ(corresponding entry or entries)
を見出さなければならない。電子辞書における入力語を
ルック・アップするこの処理は、その答えがNLP全体
の精度及び効率に非常に影響する、複数の関連問題を与
える。一般的に用いられる辞書のキーは、発音区別符
号、及び固有名詞の場合には、大文字の両方を含む。例
えば、英語辞書では、強調符号なしで、動詞“resume”
に対し、かつ強調符号ありで、
【0019】
【外1】
【0020】に対して、個別エントリが存在する。別の
例として、英語辞書は、名詞“polish”及び動詞“poli
sh”を表している、キー“polish”を有している二つの
エントリと共に、固有名詞“Polish”及び固有形容詞
“Polish”を表している、キー“Polish”を有する二つ
のエントリを一般的に含む。残念ながら、入力テキスト
における文字のケース(cases) 及び発音区別符号は、そ
れらにに対応する辞書キーのケース(cases) 及び発音区
別符号に一致せず、形態素解析の間中に辞書エントリを
見出すことのタスクを非常に複雑化する。例えば、全て
大文字を有する入力テキスト、並びに電子メール・メッ
セージからの入力テキストでは、発音区別符号は、一般
に取り除かれる。発音区別符号が欠如している大文字の
語は、多数の小文字通常形式のいずれかをあるいは表し
うる。例えば、“student ”を意味する、フランス語の
例として、英語辞書は、名詞“polish”及び動詞“poli
sh”を表している、キー“polish”を有している二つの
エントリと共に、固有名詞“Polish”及び固有形容詞
“Polish”を表している、キー“Polish”を有する二つ
のエントリを一般的に含む。残念ながら、入力テキスト
における文字のケース(cases) 及び発音区別符号は、そ
れらにに対応する辞書キーのケース(cases) 及び発音区
別符号に一致せず、形態素解析の間中に辞書エントリを
見出すことのタスクを非常に複雑化する。例えば、全て
大文字を有する入力テキスト、並びに電子メール・メッ
セージからの入力テキストでは、発音区別符号は、一般
に取り除かれる。発音区別符号が欠如している大文字の
語は、多数の小文字通常形式のいずれかをあるいは表し
うる。例えば、“student ”を意味する、フランス語の
【0021】
【外2】
【0022】、及び“raised”を意味する、
【0023】
【外3】
【0024】は、両方とも大文字形式“ELEVE ”を有す
る。大文字のテキストが処理されて、フランス語辞書が
小文字エントリを有するならば、それは、どの小文字エ
ントリが入力語“ELEVE ”を記述すべく選ばれるべきか
不明瞭である。通常の辞書におけるエントリが一般的に
小文字形式であり、かつ入力語の文字のケースが、語の
形態素機能からではなく、文の最初の語としての語の発
生または題名における語の発生によってしばしば決定さ
れるので、形態素サブシステムは、語を辞書のキーに一
致させる前に入力語の文字を全て小文字にまず変更しう
る。全ての文字を小文字に変更する処理は、ケース正規
化(case normalization)の特定の型である。入力語の文
字から全ての発音区別符号を除去することは、別の型の
正規化の例である。正規化の処理は、語間の不要な区別
(unwanted distinctions) を除去するために入力語にお
ける他のものの代わりにある一定の文字を用いる。全小
文字に正規化することによって、入力語“Polish”及び
“polish”は、両方ともに正規化された語“polish”に
なる。
る。大文字のテキストが処理されて、フランス語辞書が
小文字エントリを有するならば、それは、どの小文字エ
ントリが入力語“ELEVE ”を記述すべく選ばれるべきか
不明瞭である。通常の辞書におけるエントリが一般的に
小文字形式であり、かつ入力語の文字のケースが、語の
形態素機能からではなく、文の最初の語としての語の発
生または題名における語の発生によってしばしば決定さ
れるので、形態素サブシステムは、語を辞書のキーに一
致させる前に入力語の文字を全て小文字にまず変更しう
る。全ての文字を小文字に変更する処理は、ケース正規
化(case normalization)の特定の型である。入力語の文
字から全ての発音区別符号を除去することは、別の型の
正規化の例である。正規化の処理は、語間の不要な区別
(unwanted distinctions) を除去するために入力語にお
ける他のものの代わりにある一定の文字を用いる。全小
文字に正規化することによって、入力語“Polish”及び
“polish”は、両方ともに正規化された語“polish”に
なる。
【0025】ケース正規化は、形態素サブシステムが、
その最初の文字が大文字にされた、、文の最初の語とし
てのその発生で、語を一致させる辞書キーを見出しやす
くするけれども、ケース正規化は、大文字使用に基づく
形態素区別の損失をもたらしうる。例えば、本の文
は、:“I told him to polish his shoes. ”と読め
る。
その最初の文字が大文字にされた、、文の最初の語とし
てのその発生で、語を一致させる辞書キーを見出しやす
くするけれども、ケース正規化は、大文字使用に基づく
形態素区別の損失をもたらしうる。例えば、本の文
は、:“I told him to polish his shoes. ”と読め
る。
【0026】
【外4】
【0027】本の題名は、“POLISH YOUR SHOES!”であ
る。3つの文における“polish”、“Polish”、及び
“POLISH”に対する正規化された語は、“polish”であ
る。しかしながら、文:“The Polish government anno
unced new elections today.”を考える。語“Polish”
が後続の解析の前に“polish”に正規化されたならば、
“Polish”と“polish”の間の形態素区別は、失われ
る。この最後の場合には、語“Polish”の大文字使用
は、語“polish”からのその形態素的相違を示し、文ま
たは題名におけるその位置を示さない。
る。3つの文における“polish”、“Polish”、及び
“POLISH”に対する正規化された語は、“polish”であ
る。しかしながら、文:“The Polish government anno
unced new elections today.”を考える。語“Polish”
が後続の解析の前に“polish”に正規化されたならば、
“Polish”と“polish”の間の形態素区別は、失われ
る。この最後の場合には、語“Polish”の大文字使用
は、語“polish”からのその形態素的相違を示し、文ま
たは題名におけるその位置を示さない。
【0028】
【発明が解決しようとする課題】発音区別符号の損失及
びケース区別の損失の両方に対する基本的な問題は、各
入力語に対する多重エントリについて電子辞書を検索す
る必要性によってもたらされた辞書ルックアップにおけ
る効率の欠如である。上記したフランス語の例に対し
て、語の第1、第3、及び第5の位置における印が付け
られていない及び印が付けられた文字“e ”のあらゆる
可能な組合せを含んでいる、入力語“ELEVE”に対応し
ているかなり多数の可能な辞書エントリが存在する。大
文字“E ”に対応する4つの小文字が存在する。これら
は、
びケース区別の損失の両方に対する基本的な問題は、各
入力語に対する多重エントリについて電子辞書を検索す
る必要性によってもたらされた辞書ルックアップにおけ
る効率の欠如である。上記したフランス語の例に対し
て、語の第1、第3、及び第5の位置における印が付け
られていない及び印が付けられた文字“e ”のあらゆる
可能な組合せを含んでいる、入力語“ELEVE”に対応し
ているかなり多数の可能な辞書エントリが存在する。大
文字“E ”に対応する4つの小文字が存在する。これら
は、
【0029】
【外5】
【0030】である。従って、入力語“ELEVE ”内のこ
れら4つの小文字の43 または64の異なる可能な組合
せが存在する。フランス語において生じることができな
いある一定の組合せを取り除くために種々の正字法的(o
rthographic)及び音韻的(phonologic)規則を用いても、
36の有効な組合せが残る。辞書ルックアップは、高価
である。各ルックアップは、一つ以上のディスク・アク
セスを含みうる。上記した英語例では、入力語“Polis
h”は、キー“polish”を有している二つの個別のエン
トリに対して2つのルックアップ、及びキー“Polish”
を有している二つの個別エントリに対して2つのルック
アップの、4つのルックアップを常に必要とする。もち
ろん、形態素サブシステムが、ケースにおける変更によ
ってまたはあるいは省略された発音区別符号の追加によ
って入力語に関する全てのエントリについて徹底的に検
索するを失敗したならば、それは、構文及び意味サブシ
ステムに誤った結果を供給し、間違ったパーズ及び論理
形式グラフへ導く。
れら4つの小文字の43 または64の異なる可能な組合
せが存在する。フランス語において生じることができな
いある一定の組合せを取り除くために種々の正字法的(o
rthographic)及び音韻的(phonologic)規則を用いても、
36の有効な組合せが残る。辞書ルックアップは、高価
である。各ルックアップは、一つ以上のディスク・アク
セスを含みうる。上記した英語例では、入力語“Polis
h”は、キー“polish”を有している二つの個別のエン
トリに対して2つのルックアップ、及びキー“Polish”
を有している二つの個別エントリに対して2つのルック
アップの、4つのルックアップを常に必要とする。もち
ろん、形態素サブシステムが、ケースにおける変更によ
ってまたはあるいは省略された発音区別符号の追加によ
って入力語に関する全てのエントリについて徹底的に検
索するを失敗したならば、それは、構文及び意味サブシ
ステムに誤った結果を供給し、間違ったパーズ及び論理
形式グラフへ導く。
【0031】従来技術の電子辞書及び形態素解析サブシ
ステムは、大文字で始まる入力語の正規化の問題を処理
することを失敗した。電子メールを介する転送により発
音区別符号がそれからストリップされた入力語に対応す
るか、または大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出す方法に対する必要性が
自然言語処理の分野において認識されている。本発明の
目的は、上記従来の技術における問題点に鑑み、発音区
別符号がストリップされた入力語に対応するかまたは大
文字入力語に対応する電子辞書における全てのエントリ
を効率的に見出す方法を提供することである。
ステムは、大文字で始まる入力語の正規化の問題を処理
することを失敗した。電子メールを介する転送により発
音区別符号がそれからストリップされた入力語に対応す
るか、または大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出す方法に対する必要性が
自然言語処理の分野において認識されている。本発明の
目的は、上記従来の技術における問題点に鑑み、発音区
別符号がストリップされた入力語に対応するかまたは大
文字入力語に対応する電子辞書における全てのエントリ
を効率的に見出す方法を提供することである。
【0032】
【課題を解決するための手段】本発明の上記目的は、電
子辞書の情報を捜し出すコンピュータ・システムにおけ
る方法であって、全て小文字を有しかつ発音区別符号を
有さない正規化された形式を複数の語のそれぞれの基準
化形式から生成し、かつ語の各固有な正規化された形式
に対して、それぞれが語の正規化された形式に設定され
るキー及びレコードを有しているエントリを電子辞書に
記憶し、その正規化された形式が固有な正規化された形
式に等しい語の各基準化形式に対して、語の基準化形式
に関する情報を含んでいるサブ−レコードをレコード内
に記憶することによって電子辞書を生成し;入力語を受
け取り;入力語の正規化された形式を生成し;かつエン
トリが語の基準化形式に関する情報を有するサブ−レコ
ードを含むような入力語の正規化された形式に一致する
キーを有するエントリに対して生成された電子辞書を検
索する段階を具備する方法によって達成される。
子辞書の情報を捜し出すコンピュータ・システムにおけ
る方法であって、全て小文字を有しかつ発音区別符号を
有さない正規化された形式を複数の語のそれぞれの基準
化形式から生成し、かつ語の各固有な正規化された形式
に対して、それぞれが語の正規化された形式に設定され
るキー及びレコードを有しているエントリを電子辞書に
記憶し、その正規化された形式が固有な正規化された形
式に等しい語の各基準化形式に対して、語の基準化形式
に関する情報を含んでいるサブ−レコードをレコード内
に記憶することによって電子辞書を生成し;入力語を受
け取り;入力語の正規化された形式を生成し;かつエン
トリが語の基準化形式に関する情報を有するサブ−レコ
ードを含むような入力語の正規化された形式に一致する
キーを有するエントリに対して生成された電子辞書を検
索する段階を具備する方法によって達成される。
【0033】本発明の方法では、複数の語は、生成され
た電子辞書が形態素形式として完全に特定されるように
語の全ての可能な形態素形式に対する語を含むように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に一致するキーが見出されないときに、生成され
た電子辞書が入力語を含まないということを示すように
構成してもよい。本発明の方法では、入力語の正規化さ
れた形式に一致するキーが見出されたとき、見出された
エントリが情報を含むことを示すように構成してもよ
い。本発明の方法では、複数の語は、生成された電子辞
書が同綴異義語に対して完全に特定されるように全ての
可能な同綴異義語に対する語を含むように構成してもよ
い。
た電子辞書が形態素形式として完全に特定されるように
語の全ての可能な形態素形式に対する語を含むように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に一致するキーが見出されないときに、生成され
た電子辞書が入力語を含まないということを示すように
構成してもよい。本発明の方法では、入力語の正規化さ
れた形式に一致するキーが見出されたとき、見出された
エントリが情報を含むことを示すように構成してもよ
い。本発明の方法では、複数の語は、生成された電子辞
書が同綴異義語に対して完全に特定されるように全ての
可能な同綴異義語に対する語を含むように構成してもよ
い。
【0034】本発明の方法では、入力語の正規化された
形式に一致するキーが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに一致するキーを有するエントリ
に対して生成した電子辞書を検索するように構成しても
よい。本発明の方法では、入力語の正規化された形式に
一致するキーが見出されたとき、見出されたエントリが
情報を含むことを示すように構成してもよい。本発明の
方法では、入力語の正規化された形式に一致するキーが
見出されたときに、入力語に形態素規則を適用すること
によって入力語の全ての語彙見出しを生成し、生成した
語彙見出しを正規化し、かつ正規化された語彙見出しに
一致するキーを有するエントリに対して生成した電子辞
書を検索するように構成してもよい。
形式に一致するキーが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに一致するキーを有するエントリ
に対して生成した電子辞書を検索するように構成しても
よい。本発明の方法では、入力語の正規化された形式に
一致するキーが見出されたとき、見出されたエントリが
情報を含むことを示すように構成してもよい。本発明の
方法では、入力語の正規化された形式に一致するキーが
見出されたときに、入力語に形態素規則を適用すること
によって入力語の全ての語彙見出しを生成し、生成した
語彙見出しを正規化し、かつ正規化された語彙見出しに
一致するキーを有するエントリに対して生成した電子辞
書を検索するように構成してもよい。
【0035】また、本発明の上記目的は、それぞれが基
準化形式を有している語の電子辞書を生成すコンピュー
タ・システムにおける方法であって、複数の語のそれぞ
れの基準化形式から正規化された形式を生成し;かつ語
の各固有な正規化された形式に対して、それぞれが語の
正規化された形式に設定されるキー及びレコードを有し
ているエントリを電子辞書に記憶し、その正規化された
形式が固有な正規化された形式に等しい語の各基準化形
式に対して、語の基準化形式に関する情報をレコード内
に記憶する段階を具備する方法によって達成される。本
発明の方法では、正規化された形式の生成は、語の各文
字を小文字に設定することを含むように構成してもよ
い。本発明の方法では、正規化された形式の生成は、発
音区別符号を除去することを含むように構成してもよ
い。
準化形式を有している語の電子辞書を生成すコンピュー
タ・システムにおける方法であって、複数の語のそれぞ
れの基準化形式から正規化された形式を生成し;かつ語
の各固有な正規化された形式に対して、それぞれが語の
正規化された形式に設定されるキー及びレコードを有し
ているエントリを電子辞書に記憶し、その正規化された
形式が固有な正規化された形式に等しい語の各基準化形
式に対して、語の基準化形式に関する情報をレコード内
に記憶する段階を具備する方法によって達成される。本
発明の方法では、正規化された形式の生成は、語の各文
字を小文字に設定することを含むように構成してもよ
い。本発明の方法では、正規化された形式の生成は、発
音区別符号を除去することを含むように構成してもよ
い。
【0036】更に、本発明の上記目的は、電子辞書を生
成すコンピュータ・システムにおける方法であって、多
数の語の複数の正規化された形式のそれぞれに対するエ
ントリを生成し;かつ単一のエントリを検索することに
よって同じ正規化された形式を有する各語に対する情報
を検索することができるように同じ正規化された形式を
有する語のそれぞれに関する情報を各エントリ内に記憶
する方法によって達成される。本発明の方法では、各エ
ントリは、正規化された形式及びその正規化された形式
を有する各語の基準化形式を当該基準化形式に関する情
報と一緒に含むように構成してもよい。本発明の方法で
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。
成すコンピュータ・システムにおける方法であって、多
数の語の複数の正規化された形式のそれぞれに対するエ
ントリを生成し;かつ単一のエントリを検索することに
よって同じ正規化された形式を有する各語に対する情報
を検索することができるように同じ正規化された形式を
有する語のそれぞれに関する情報を各エントリ内に記憶
する方法によって達成される。本発明の方法では、各エ
ントリは、正規化された形式及びその正規化された形式
を有する各語の基準化形式を当該基準化形式に関する情
報と一緒に含むように構成してもよい。本発明の方法で
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。
【0037】本発明の方法では、正規化された形式の生
成は、発音区別符号を除去することを含むように構成し
てもよい。また、本発明の上記目的は、複数の語のそれ
ぞれの基準化形式から正規化された形式を生成し、かつ
語の各固有な正規化された形式に対して、それぞれが語
の正規化された形式に設定されるキー及びレコードを有
しているエントリを電子辞書に記憶し、その正規化され
た形式が固有な正規化された形式に等しい語の各基準化
形式に対して、語の基準化形式に関する情報をレコード
内に記憶することによって、それぞれが基準化形式を有
している語の電子辞書をコンピュータ・システムに生成
させるコンピュータ命令を含んでいるコンピュータ読取
り可能媒体によって達成される。
成は、発音区別符号を除去することを含むように構成し
てもよい。また、本発明の上記目的は、複数の語のそれ
ぞれの基準化形式から正規化された形式を生成し、かつ
語の各固有な正規化された形式に対して、それぞれが語
の正規化された形式に設定されるキー及びレコードを有
しているエントリを電子辞書に記憶し、その正規化され
た形式が固有な正規化された形式に等しい語の各基準化
形式に対して、語の基準化形式に関する情報をレコード
内に記憶することによって、それぞれが基準化形式を有
している語の電子辞書をコンピュータ・システムに生成
させるコンピュータ命令を含んでいるコンピュータ読取
り可能媒体によって達成される。
【0038】本発明のコンピュータ読取り可能媒体で
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。本発明のコ
ンピュータ読取り可能媒体では、正規化された形式の生
成は、発音区別符号を除去することを含むように構成し
てもよい。更に、本発明の上記目的は、電子辞書を生成
するコンピュータ・システムであって、多数の語の複数
の正規化された形式のそれぞれに対するエントリを生成
する手段;及び単一のエントリを検索することによって
同じ正規化された形式を有する各語に対する情報を検索
することができるように同じ正規化された形式を有する
語のそれぞれに関する情報を各エントリ内に記憶する手
段を備えているコンピュータ・システムによって達成さ
れる。
は、正規化された形式の生成は、語の各文字を小文字に
設定することを含むように構成してもよい。本発明のコ
ンピュータ読取り可能媒体では、正規化された形式の生
成は、発音区別符号を除去することを含むように構成し
てもよい。更に、本発明の上記目的は、電子辞書を生成
するコンピュータ・システムであって、多数の語の複数
の正規化された形式のそれぞれに対するエントリを生成
する手段;及び単一のエントリを検索することによって
同じ正規化された形式を有する各語に対する情報を検索
することができるように同じ正規化された形式を有する
語のそれぞれに関する情報を各エントリ内に記憶する手
段を備えているコンピュータ・システムによって達成さ
れる。
【0039】本発明のコンピュータ・システムでは、各
エントリは、正規化された形式及びその正規化された形
式を有する各語の基準化形式を当該基準化形式に関する
情報と一緒に含むように構成してもよい。本発明のコン
ピュータ・システムでは、正規化された形式の生成は、
語の各文字を小文字に設定することを含むように構成し
てもよい。本発明のコンピュータ・システムでは、正規
化された形式の生成は、発音区別符号を除去することを
含むように構成してもよい。更に、本発明の上記目的
は、同じ正規化された形式を有する語の基準化形式に関
する情報を含んでいるエントリを有している電子辞書か
ら情報を検索するコンピュータ・システムにおける方法
であって、入力語を受け取り;入力語の正規化された形
式を生成し;かつエントリが入力語に関する情報を含む
ように入力語の正規化された形式に対応しているエント
リに対して電子辞書を検索する方法によって達成され
る。
エントリは、正規化された形式及びその正規化された形
式を有する各語の基準化形式を当該基準化形式に関する
情報と一緒に含むように構成してもよい。本発明のコン
ピュータ・システムでは、正規化された形式の生成は、
語の各文字を小文字に設定することを含むように構成し
てもよい。本発明のコンピュータ・システムでは、正規
化された形式の生成は、発音区別符号を除去することを
含むように構成してもよい。更に、本発明の上記目的
は、同じ正規化された形式を有する語の基準化形式に関
する情報を含んでいるエントリを有している電子辞書か
ら情報を検索するコンピュータ・システムにおける方法
であって、入力語を受け取り;入力語の正規化された形
式を生成し;かつエントリが入力語に関する情報を含む
ように入力語の正規化された形式に対応しているエント
リに対して電子辞書を検索する方法によって達成され
る。
【0040】本発明の方法では、電子辞書は、生成され
た電子辞書が形態素形式に対して完全に特定されるよう
に語の全ての可能な形態素形式に対するエントリを含む
ように構成してもよい。本発明の方法では、入力語の正
規化された形式に対応しているエントリが見出されない
とき、電子辞書が入力語を含まないことを示すように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に対応しているエントリが見出されたときに、見
出されたエントリが情報を含むこと示すように構成して
もよい。本発明の方法では、電子辞書は、生成された電
子辞書が同綴異義語に対して完全に特定されるように全
ての可能な同綴異義語に対するエントリを含むように構
成してもよい。
た電子辞書が形態素形式に対して完全に特定されるよう
に語の全ての可能な形態素形式に対するエントリを含む
ように構成してもよい。本発明の方法では、入力語の正
規化された形式に対応しているエントリが見出されない
とき、電子辞書が入力語を含まないことを示すように構
成してもよい。本発明の方法では、入力語の正規化され
た形式に対応しているエントリが見出されたときに、見
出されたエントリが情報を含むこと示すように構成して
もよい。本発明の方法では、電子辞書は、生成された電
子辞書が同綴異義語に対して完全に特定されるように全
ての可能な同綴異義語に対するエントリを含むように構
成してもよい。
【0041】本発明の方法では、入力語の正規化された
形式に対応しているエントリが見出されないときに、入
力語に形態素規則を適用することによって入力語の全て
の語彙見出しを生成し、生成した語彙見出しを正規化
し、かつ正規化された語彙見出しに対応しているエント
リに対して生成した電子辞書を検索するように構成して
もよい。本発明の方法では、入力語の正規化された形式
に対応しているエントリが見出されたときに、見出され
たエントリが情報を含むこと示すように構成してもよ
い。本発明の方法では、入力語の正規化された形式に対
応しているエントリが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに対応しているエントリに対して
生成した電子辞書を検索するように構成してもよい。
形式に対応しているエントリが見出されないときに、入
力語に形態素規則を適用することによって入力語の全て
の語彙見出しを生成し、生成した語彙見出しを正規化
し、かつ正規化された語彙見出しに対応しているエント
リに対して生成した電子辞書を検索するように構成して
もよい。本発明の方法では、入力語の正規化された形式
に対応しているエントリが見出されたときに、見出され
たエントリが情報を含むこと示すように構成してもよ
い。本発明の方法では、入力語の正規化された形式に対
応しているエントリが見出されないときに、入力語に形
態素規則を適用することによって入力語の全ての語彙見
出しを生成し、生成した語彙見出しを正規化し、かつ正
規化された語彙見出しに対応しているエントリに対して
生成した電子辞書を検索するように構成してもよい。
【0042】また、本発明の上記目的は、自然言語の語
についての形態素及び構文情報を有している電子辞書を
含んでいるコンピュータ読取り可能媒体であって、電子
辞書は、それぞれがキー及びレコードを含んでいる一組
のエントリを備え、レコードは、キーによって表された
少なくとも一つの語についての情報を含み、辞書の各キ
ーは、正規化され;かつ少なくとも二つの異なる語が同
じ標準化された形式を有するときに、標準化された形式
に一致しているキーを有する電子辞書エントリは、同じ
標準化された形式を有している各異なる語に対応してい
る少なくとも一つのサブ−レコードを含むコンピュータ
読取り可能媒体によって達成される。本発明のコンピュ
ータ読取り可能媒体では、電子辞書の各キーは、ケース
に関して正規化されるように構成してもよい。
についての形態素及び構文情報を有している電子辞書を
含んでいるコンピュータ読取り可能媒体であって、電子
辞書は、それぞれがキー及びレコードを含んでいる一組
のエントリを備え、レコードは、キーによって表された
少なくとも一つの語についての情報を含み、辞書の各キ
ーは、正規化され;かつ少なくとも二つの異なる語が同
じ標準化された形式を有するときに、標準化された形式
に一致しているキーを有する電子辞書エントリは、同じ
標準化された形式を有している各異なる語に対応してい
る少なくとも一つのサブ−レコードを含むコンピュータ
読取り可能媒体によって達成される。本発明のコンピュ
ータ読取り可能媒体では、電子辞書の各キーは、ケース
に関して正規化されるように構成してもよい。
【0043】本発明のコンピュータ読取り可能媒体で
は、電子辞書の各キーは、発音区別符号に関して正規化
されるように構成してもよい。更に、本発明の上記目的
は、電子辞書に記憶された語についての情報を見出すコ
ンピュータ・システムであり、電子辞書は、自然言語の
語についての形態素及び構文情報を含み、電子辞書は、
一組のエントリを備え、各エントリは、キー及びレコー
ドを備え、レコードは、キーによって表された少なくと
も一つの語についての情報を含み、辞書の各キーは、語
の標準化された形式であり、コンピュータ・システム
は、:入力語の標準化された形式を生成する手段;及び
入力語の標準化された形式に一致するキーを有している
電子辞書においてエントリを検索する手段を備えている
コンピュータ・システムによって達成される。
は、電子辞書の各キーは、発音区別符号に関して正規化
されるように構成してもよい。更に、本発明の上記目的
は、電子辞書に記憶された語についての情報を見出すコ
ンピュータ・システムであり、電子辞書は、自然言語の
語についての形態素及び構文情報を含み、電子辞書は、
一組のエントリを備え、各エントリは、キー及びレコー
ドを備え、レコードは、キーによって表された少なくと
も一つの語についての情報を含み、辞書の各キーは、語
の標準化された形式であり、コンピュータ・システム
は、:入力語の標準化された形式を生成する手段;及び
入力語の標準化された形式に一致するキーを有している
電子辞書においてエントリを検索する手段を備えている
コンピュータ・システムによって達成される。
【0044】本発明のコンピュータ・システムでは、エ
ントリが見出されずかつ電子辞書が形態素形式に関して
完全に特定されるときに、電子辞書が入力語についての
情報を含んでいないという表示をリターンする手段を備
えているように構成してもよい。本発明のコンピュータ
・システムでは、各レコードは、語の各基準化形式に対
するサブ−レコードを含みかつエントリが見出されたか
つ電子辞書が形態素形式に関して完全に特定されるとき
に、サブ−レコードが入力語に一致する基準化形式を有
する表示を伴う見出されたエントリをリターンする手段
を備えているように構成してもよい。本発明のコンピュ
ータ・システムでは、検索している場合にエントリが見
出されずかつ電子辞書が形態素形式に関して完全に特定
されないときに、入力語の異なる語彙を生成し;入力語
の異なる語彙の標準化された形式を生成し;かつ入力語
の異なる語彙の標準化された形式に一致するキーを有し
ている電子辞書においてエントリを検索する手段を含ん
でいるように構成してもよい。
ントリが見出されずかつ電子辞書が形態素形式に関して
完全に特定されるときに、電子辞書が入力語についての
情報を含んでいないという表示をリターンする手段を備
えているように構成してもよい。本発明のコンピュータ
・システムでは、各レコードは、語の各基準化形式に対
するサブ−レコードを含みかつエントリが見出されたか
つ電子辞書が形態素形式に関して完全に特定されるとき
に、サブ−レコードが入力語に一致する基準化形式を有
する表示を伴う見出されたエントリをリターンする手段
を備えているように構成してもよい。本発明のコンピュ
ータ・システムでは、検索している場合にエントリが見
出されずかつ電子辞書が形態素形式に関して完全に特定
されないときに、入力語の異なる語彙を生成し;入力語
の異なる語彙の標準化された形式を生成し;かつ入力語
の異なる語彙の標準化された形式に一致するキーを有し
ている電子辞書においてエントリを検索する手段を含ん
でいるように構成してもよい。
【0045】本発明のコンピュータ・システムでは、エ
ントリが見出されかつ電子辞書が同綴異義語形式に関し
て完全に特定されないときに、入力語の異なる語彙を生
成し;入力語の異なる語彙の標準化された形式を生成
し;かつ入力語の異なる語彙の標準化された形式に一致
するキーを有している電子辞書においてエントリを検索
する手段を含んでいるように構成してもよい。本発明の
コンピュータ・システムでは、エントリが見出されかつ
電子辞書が同綴異義語形式に関して完全に特定されると
きに、見出されたエントリ及び当該エントリのサブ−レ
コードが一致している語彙値を有する表示をリターンす
る手段を含んでいるように構成してもよい。本発明のコ
ンピュータ・システムでは、入力語の正規化された形式
の生成は、ケースに関して入力語を正規化するように構
成してもよい。
ントリが見出されかつ電子辞書が同綴異義語形式に関し
て完全に特定されないときに、入力語の異なる語彙を生
成し;入力語の異なる語彙の標準化された形式を生成
し;かつ入力語の異なる語彙の標準化された形式に一致
するキーを有している電子辞書においてエントリを検索
する手段を含んでいるように構成してもよい。本発明の
コンピュータ・システムでは、エントリが見出されかつ
電子辞書が同綴異義語形式に関して完全に特定されると
きに、見出されたエントリ及び当該エントリのサブ−レ
コードが一致している語彙値を有する表示をリターンす
る手段を含んでいるように構成してもよい。本発明のコ
ンピュータ・システムでは、入力語の正規化された形式
の生成は、ケースに関して入力語を正規化するように構
成してもよい。
【0046】本発明のコンピュータ・システムでは、入
力語の正規化された形式の生成は、発音区別符号に関し
て入力語を正規化するように構成してもよい。また、本
発明の上記目的は、入力語を受け取り;入力語の正規化
された形式を生成し;かつエントリが入力語に関する情
報を含むように入力語の正規化された形式に対応してい
るエントリに対して生成された電子辞書を検索すること
によって、同じ正規化された形式を有する語の基準化形
式に関する情報を含んでいるエントリを有している電子
辞書から情報をコンピュータ・システムに検索させる命
令を含んでいるコンピュータ読取り可能媒体によって達
成される。本発明のコンピュータ読取り可能媒体では、
正規化された形式は、全て小文字を含むように構成して
もよい。
力語の正規化された形式の生成は、発音区別符号に関し
て入力語を正規化するように構成してもよい。また、本
発明の上記目的は、入力語を受け取り;入力語の正規化
された形式を生成し;かつエントリが入力語に関する情
報を含むように入力語の正規化された形式に対応してい
るエントリに対して生成された電子辞書を検索すること
によって、同じ正規化された形式を有する語の基準化形
式に関する情報を含んでいるエントリを有している電子
辞書から情報をコンピュータ・システムに検索させる命
令を含んでいるコンピュータ読取り可能媒体によって達
成される。本発明のコンピュータ読取り可能媒体では、
正規化された形式は、全て小文字を含むように構成して
もよい。
【0047】本発明のコンピュータ読取り可能媒体で
は、正規化された形式は、発音区別符号を含まないよう
に構成してもよい。
は、正規化された形式は、発音区別符号を含まないよう
に構成してもよい。
【0048】
【作用】本発明は、電子辞書における情報を捜し出すた
めの方法及びシステムに指向される。システムは、辞書
に記憶されるべき語の基準形式から正規化された形式を
まず生成することによって電子辞書を生成する。語の基
準または通常の形式は、適切な大文字と小文字及び適切
な発音区別符号を用いる。語の基準形式は、語が通常の
印刷された辞書におけるエントリに対するキーとして表
されるような形式である。語の正規化された形式は、全
て小文字を有し発音区別符号を有さない。例えば、“Po
lish”は、Poland(ポーランド)に関する語の基準形式
であり、“polish”は、“wax ”に関する語の基準形式
である。しかしながら、両方の語の正規化された形式
は、“polish”である。システムは、次いで、語(例え
ば、“polish”)の各固有の正規化された形式に対して
電子辞書にエントリを記憶する。各エントリは、キー及
び記録(レコード)を有する。キーは、語の正規化され
た形式に設定される。その正規化された形式が固有の正
規化された形式に等しい語の各基準形式に対して、シス
テムは、レコード内にサブレコードを記憶する。サブレ
コードは、その語の定義及びその語に対する品詞(part
of speech)のような語の基準形式に関する情報を含む。
同じ例で継続すると、一つのエントリに対するキーは、
“polish”でありかつそのエントリは、“polish”及び
“Polish”に対するサブ−レコードを含みうる。情報を
捜し出すために、システムは、入力語(例えば、“POLI
SH”)を受け取りかつ入力語の標準化された形式を生成
する。システムは、次いで、入力語の標準化された形式
に一致するキーでエントリに対して電子辞書を検索す
る。見出されたエントリは、語の基準化形式に関する情
報を有するサブ−レコードを含む。標準化された形式に
より電子辞書を編成することによって、入力語に関する
情報は、大文字使用及び発音区別符号の存在または不在
に係わりなく、一つのエントリだけを検索することによ
って見出すことができる。
めの方法及びシステムに指向される。システムは、辞書
に記憶されるべき語の基準形式から正規化された形式を
まず生成することによって電子辞書を生成する。語の基
準または通常の形式は、適切な大文字と小文字及び適切
な発音区別符号を用いる。語の基準形式は、語が通常の
印刷された辞書におけるエントリに対するキーとして表
されるような形式である。語の正規化された形式は、全
て小文字を有し発音区別符号を有さない。例えば、“Po
lish”は、Poland(ポーランド)に関する語の基準形式
であり、“polish”は、“wax ”に関する語の基準形式
である。しかしながら、両方の語の正規化された形式
は、“polish”である。システムは、次いで、語(例え
ば、“polish”)の各固有の正規化された形式に対して
電子辞書にエントリを記憶する。各エントリは、キー及
び記録(レコード)を有する。キーは、語の正規化され
た形式に設定される。その正規化された形式が固有の正
規化された形式に等しい語の各基準形式に対して、シス
テムは、レコード内にサブレコードを記憶する。サブレ
コードは、その語の定義及びその語に対する品詞(part
of speech)のような語の基準形式に関する情報を含む。
同じ例で継続すると、一つのエントリに対するキーは、
“polish”でありかつそのエントリは、“polish”及び
“Polish”に対するサブ−レコードを含みうる。情報を
捜し出すために、システムは、入力語(例えば、“POLI
SH”)を受け取りかつ入力語の標準化された形式を生成
する。システムは、次いで、入力語の標準化された形式
に一致するキーでエントリに対して電子辞書を検索す
る。見出されたエントリは、語の基準化形式に関する情
報を有するサブ−レコードを含む。標準化された形式に
より電子辞書を編成することによって、入力語に関する
情報は、大文字使用及び発音区別符号の存在または不在
に係わりなく、一つのエントリだけを検索することによ
って見出すことができる。
【0049】
【実施例】本発明は、電子辞書に情報を記憶しかつ捜し
出す方法及びシステムに指向される。好ましい実施例で
は、システムは、辞書に記憶されるべき語のそれぞれの
基準化形式から標準化された形式をまず生成することに
よって電子辞書を生成する。語の標準化された形式は、
全て小文字を有しかつ発音区別符号を有さない。システ
ムは、次いで、語の各固有の標準化された形式に対し
て、電子辞書にエントリを記憶する。各エントリは、キ
ー及びレコード(記録)を有する。キーは、語の標準化
された形式に設定される。その標準化形式が固有の標準
化形式に等しい語の各基準化形式に対して、システム
は、レコード内にサブ−レコードを記憶する。サブ−レ
コードは、語の基準化形式に関する情報を含む。電子辞
書を用いて情報を捜し出すために、システムは、入力語
を受け取りかつ入力語の標準化された形式を生成する。
システムは、次いで、入力語の標準化された形式に一致
するキーでエントリに対して電子辞書を検索する。見出
されたエントリは、語の基準化形式に関する情報を有す
るサブ−レコードを含む。
出す方法及びシステムに指向される。好ましい実施例で
は、システムは、辞書に記憶されるべき語のそれぞれの
基準化形式から標準化された形式をまず生成することに
よって電子辞書を生成する。語の標準化された形式は、
全て小文字を有しかつ発音区別符号を有さない。システ
ムは、次いで、語の各固有の標準化された形式に対し
て、電子辞書にエントリを記憶する。各エントリは、キ
ー及びレコード(記録)を有する。キーは、語の標準化
された形式に設定される。その標準化形式が固有の標準
化形式に等しい語の各基準化形式に対して、システム
は、レコード内にサブ−レコードを記憶する。サブ−レ
コードは、語の基準化形式に関する情報を含む。電子辞
書を用いて情報を捜し出すために、システムは、入力語
を受け取りかつ入力語の標準化された形式を生成する。
システムは、次いで、入力語の標準化された形式に一致
するキーでエントリに対して電子辞書を検索する。見出
されたエントリは、語の基準化形式に関する情報を有す
るサブ−レコードを含む。
【0050】図24は、自然言語処理システムに対する
好ましいコンピュータ・システムを示しているブロック
図である。コンピュータ・システム2401は、中央処
理装置、メモリ、及び記憶装置を含む。形態素サブシス
テム2406及び自然言語処理システム2407の他の
サブシステムは、ディスクのようなコンピュータ読取り
可能メモリ装置からメモリ2404に一般にロードされ
る。自然言語処理システム2405によって供給された
サービスを用いるアプリケーション・プログラムもまた
一般にメモリにロードされる。電子辞書2409は、デ
ィスク2408のような、記憶装置に記憶され、かつエ
ントリは、形態素サブシステムによって使用のためにメ
モリに読み出される。一実施例では、ユーザ(使用者)
は、入力装置2404に一つ以上の自然言語文を入力す
ることによって出力装置2403上に表示されたプロン
プトに一般に応答する。自然言語文は、アプリケーショ
ンによって受け取られ、処理され、そして形態素サブシ
ステムにより自然言語処理システムにパスされる。形態
素サブシステムは、電子辞書から情報を抽出し、それに
パスされた入力テキストを処理すべくその情報を用い、
そして処理された入力テキスト及び辞書情報を自然言語
処理システムの他のサブシステムにパスする。次いでア
プリケーション・プログラムは、自然言語処理システム
によって達成された入力テキストを理解するマシンを使
用するために自然言語処理サブシステムに情報を送りか
つ受け取ることができ、そして出力装置2403でユー
ザへ最終的に応答を出力する。
好ましいコンピュータ・システムを示しているブロック
図である。コンピュータ・システム2401は、中央処
理装置、メモリ、及び記憶装置を含む。形態素サブシス
テム2406及び自然言語処理システム2407の他の
サブシステムは、ディスクのようなコンピュータ読取り
可能メモリ装置からメモリ2404に一般にロードされ
る。自然言語処理システム2405によって供給された
サービスを用いるアプリケーション・プログラムもまた
一般にメモリにロードされる。電子辞書2409は、デ
ィスク2408のような、記憶装置に記憶され、かつエ
ントリは、形態素サブシステムによって使用のためにメ
モリに読み出される。一実施例では、ユーザ(使用者)
は、入力装置2404に一つ以上の自然言語文を入力す
ることによって出力装置2403上に表示されたプロン
プトに一般に応答する。自然言語文は、アプリケーショ
ンによって受け取られ、処理され、そして形態素サブシ
ステムにより自然言語処理システムにパスされる。形態
素サブシステムは、電子辞書から情報を抽出し、それに
パスされた入力テキストを処理すべくその情報を用い、
そして処理された入力テキスト及び辞書情報を自然言語
処理システムの他のサブシステムにパスする。次いでア
プリケーション・プログラムは、自然言語処理システム
によって達成された入力テキストを理解するマシンを使
用するために自然言語処理サブシステムに情報を送りか
つ受け取ることができ、そして出力装置2403でユー
ザへ最終的に応答を出力する。
【0051】本発明の好ましい実施例は、電子辞書の内
容を編成しかつ電子辞書を検索する新しい辞書方法及び
システムを供給する。新しい辞書システムは、辞書生成
コンポーネント(“DCC”)及び辞書ルックアップ・
コンポーネント(“DLC”)を供給する。
容を編成しかつ電子辞書を検索する新しい辞書方法及び
システムを供給する。新しい辞書システムは、辞書生成
コンポーネント(“DCC”)及び辞書ルックアップ・
コンポーネント(“DLC”)を供給する。
【0052】辞書生成 DCCは、通常の、印刷された辞書に見出されるエント
リに相当する言語の語に対するエントリを生成する。図
25は、語“interpret ”に対する電子辞書エントリの
形式を示す。エントリは、属性/値ペアを含んでいるレ
コードを後続する、キー2501を有する。第1の属性
2502は、この語が言語で表すことができる品詞であ
る。属性2502の値は、サブ−レコード2503であ
り、一連の属性/値ペアを含む。サブ−レコード250
3の第1の属性は、“Lemma ”2504である。“Lemm
a ”の値は、この場合にはキー2501と同じであり、
属性/値ペア2504−2505によって表された語の
不屈折された形式(uninflected form)である。属性“Bi
ts”2506は、動詞“interpret ”が他動詞(transit
ive)であり人間主語(human subject) を取るということ
を意味する値“T1 Hsubj”2507を有する。属性“In
fl”2508は、動詞は、語尾-ed, -s,及び-ingを“Le
mma ”属性2505の値として特定された動詞の形式に
加えることによってデフォルト・ファッションで屈折形
式(inflected forms) を想定するということを示す値
“Verb-default”を有する。このエントリの主レコード
の第2の属性、“Senses”2510は、語“interpret
”の定義及び例を含むサブ−レコード値2511を有
する。サブ−レコード属性“Defin ”2512は、語の
意味を説明する値2513を有し、サブ−レコード属性
“Exs ”2514は、語の使用の簡潔な例を供給する値
2515を有する。
リに相当する言語の語に対するエントリを生成する。図
25は、語“interpret ”に対する電子辞書エントリの
形式を示す。エントリは、属性/値ペアを含んでいるレ
コードを後続する、キー2501を有する。第1の属性
2502は、この語が言語で表すことができる品詞であ
る。属性2502の値は、サブ−レコード2503であ
り、一連の属性/値ペアを含む。サブ−レコード250
3の第1の属性は、“Lemma ”2504である。“Lemm
a ”の値は、この場合にはキー2501と同じであり、
属性/値ペア2504−2505によって表された語の
不屈折された形式(uninflected form)である。属性“Bi
ts”2506は、動詞“interpret ”が他動詞(transit
ive)であり人間主語(human subject) を取るということ
を意味する値“T1 Hsubj”2507を有する。属性“In
fl”2508は、動詞は、語尾-ed, -s,及び-ingを“Le
mma ”属性2505の値として特定された動詞の形式に
加えることによってデフォルト・ファッションで屈折形
式(inflected forms) を想定するということを示す値
“Verb-default”を有する。このエントリの主レコード
の第2の属性、“Senses”2510は、語“interpret
”の定義及び例を含むサブ−レコード値2511を有
する。サブ−レコード属性“Defin ”2512は、語の
意味を説明する値2513を有し、サブ−レコード属性
“Exs ”2514は、語の使用の簡潔な例を供給する値
2515を有する。
【0053】DCCは、言語の各ケース−正規化されか
つ発音区別−正規化された語に対して、またはケース−
正規化されかつ発音区別−正規化された語のサブセット
に対して電子辞書においてエントリを生成する。ケース
−正規化された語は、小文字だけを有し、かつ発音区別
−正規化された語は、発音区別符号を含まない。ケース
及び発音区別符号に関する正規化は、ある一定の場合に
おいて、異なる語を単一のキーにマッピングする効果を
有する。以下の説明において、“正規化された語”は、
ケース及び発音区別−正規化された語を称する。図26
は、ケース−正規化されたキー“polish”2601に対
する電子辞書エントリを示す。ケース−正規化されたキ
ー“polish”を有する語が表すことができる音声の3つ
の品詞、“Noun(名詞)”、“Verb(動詞)”、及び
“Adverb(副詞)”、及びケース−正規化された形式
“polish”を有する語の種々の意味を表す属性“Sense
s”に対応する、主レコードのエントリ内の4つの主属
性2602−2605が存在する。属性“Noun”の値を
表しているサブ−レコードでは、二つの“Lemma ”属性
2608及び2609を含むサブ−レコード2607を
その値として有する属性“Lexemes ”2606である。
これら二つの“Lemma ”属性、“polish”2610及び
“Polish”2611の値は、語の基準化形式としても知
られる、二つの異なる語の不正規化された形式(un-norm
alized forms) である。“Lemma ”2610によって表
された語は、その一つの意味が“a waxy substance tha
t one smears on a car to protect its surface(自動
車の表面を保護するために自動車に塗る蝋質物)”であ
る、名詞“polish”である。“Lemma”2611によっ
て表された語は、名詞であり、その一つの意味が“Slav
ic language of the Poles(ポーランド人のスラヴ
語)”である。属性“Lexemes ”は、それゆえに、正規
化された形式の“polish”を有している一つ以上の語が
特定の品詞として生じることができるということを示
す。エントリの残り全体を通して、語“polish”に関連
している情報は、例えば、定義2612として、属性/
値ペア“Lemma ”/“polish”によって導入されるのに
対して、語“Polish”に関連している情報は、例えば、
定義2613として、属性/値ペア“Lemma ”/“Poli
sh”によって導入される。
つ発音区別−正規化された語に対して、またはケース−
正規化されかつ発音区別−正規化された語のサブセット
に対して電子辞書においてエントリを生成する。ケース
−正規化された語は、小文字だけを有し、かつ発音区別
−正規化された語は、発音区別符号を含まない。ケース
及び発音区別符号に関する正規化は、ある一定の場合に
おいて、異なる語を単一のキーにマッピングする効果を
有する。以下の説明において、“正規化された語”は、
ケース及び発音区別−正規化された語を称する。図26
は、ケース−正規化されたキー“polish”2601に対
する電子辞書エントリを示す。ケース−正規化されたキ
ー“polish”を有する語が表すことができる音声の3つ
の品詞、“Noun(名詞)”、“Verb(動詞)”、及び
“Adverb(副詞)”、及びケース−正規化された形式
“polish”を有する語の種々の意味を表す属性“Sense
s”に対応する、主レコードのエントリ内の4つの主属
性2602−2605が存在する。属性“Noun”の値を
表しているサブ−レコードでは、二つの“Lemma ”属性
2608及び2609を含むサブ−レコード2607を
その値として有する属性“Lexemes ”2606である。
これら二つの“Lemma ”属性、“polish”2610及び
“Polish”2611の値は、語の基準化形式としても知
られる、二つの異なる語の不正規化された形式(un-norm
alized forms) である。“Lemma ”2610によって表
された語は、その一つの意味が“a waxy substance tha
t one smears on a car to protect its surface(自動
車の表面を保護するために自動車に塗る蝋質物)”であ
る、名詞“polish”である。“Lemma”2611によっ
て表された語は、名詞であり、その一つの意味が“Slav
ic language of the Poles(ポーランド人のスラヴ
語)”である。属性“Lexemes ”は、それゆえに、正規
化された形式の“polish”を有している一つ以上の語が
特定の品詞として生じることができるということを示
す。エントリの残り全体を通して、語“polish”に関連
している情報は、例えば、定義2612として、属性/
値ペア“Lemma ”/“polish”によって導入されるのに
対して、語“Polish”に関連している情報は、例えば、
定義2613として、属性/値ペア“Lemma ”/“Poli
sh”によって導入される。
【0054】図27は、発音区別符号を含んでいる語の
正規化を説明すべくフランス語辞書から二つのエントリ
2701及び2702を示す。正規化されたキー“elev
e ”2702は、二つの異なる基準化形式
正規化を説明すべくフランス語辞書から二つのエントリ
2701及び2702を示す。正規化されたキー“elev
e ”2702は、二つの異なる基準化形式
【0055】
【外6】
【0056】及び
【0057】
【外7】
【0058】を表す。正規化されたキー“ou”2705
は、二つの異なる基準化形式“ou”及び
は、二つの異なる基準化形式“ou”及び
【0059】
【外8】
【0060】を表す。電子辞書は、形態素的に導出され
た語形式に関して部分的にまたは完全に特定することが
できる。形態素語形式に関して完全に特定された辞書(f
ully-specified dictionary)(“FSM辞書”)は、
“hike”、“hiked ”、“hiking”、及び“hikes ”に
対して個別のエントリを含むのに対して、形態素語形式
に関して特定されない辞書(unspecified dictionary)
(“USM辞書”)は、形式“hike”と共に、語“hik
e”から導出することができる形式“hiked ”、“hikin
g”、及び“hikes ”を表す単一エントリ“hike”を含
む。FSM辞書は、より多くのエントリを明らかに含
む。それらは、語“hike”及びその関連形式の例におけ
るように、密接に関連した語に対して個別のエントリを
含むので、FSM辞書は、非常に多数の冗長定義及び他
の情報を含みうる。“hike”、“hikes ”、及び“hike
d ”に対するエントリは、全て、楽しみまたは運動のた
めに行われる歩く動作の基本的定義を含みうる。代替的
に、エントリの一つだけが、例えば、“hike”に対する
エントリのような、定義を含むことができ、かつ他のエ
ントリは、それらの定義へのポインタを含むことができ
る。
た語形式に関して部分的にまたは完全に特定することが
できる。形態素語形式に関して完全に特定された辞書(f
ully-specified dictionary)(“FSM辞書”)は、
“hike”、“hiked ”、“hiking”、及び“hikes ”に
対して個別のエントリを含むのに対して、形態素語形式
に関して特定されない辞書(unspecified dictionary)
(“USM辞書”)は、形式“hike”と共に、語“hik
e”から導出することができる形式“hiked ”、“hikin
g”、及び“hikes ”を表す単一エントリ“hike”を含
む。FSM辞書は、より多くのエントリを明らかに含
む。それらは、語“hike”及びその関連形式の例におけ
るように、密接に関連した語に対して個別のエントリを
含むので、FSM辞書は、非常に多数の冗長定義及び他
の情報を含みうる。“hike”、“hikes ”、及び“hike
d ”に対するエントリは、全て、楽しみまたは運動のた
めに行われる歩く動作の基本的定義を含みうる。代替的
に、エントリの一つだけが、例えば、“hike”に対する
エントリのような、定義を含むことができ、かつ他のエ
ントリは、それらの定義へのポインタを含むことができ
る。
【0061】一般に、USM辞書が好ましく、その理由
は、それらがより小さく、それらを固定された大きさの
記憶媒体により容易に配置させかつそれらをメモリにお
いてより有効的にキャッシュされるからである。更に、
例えば、語“hike”から“hikes ”及び“hiked ”を生
成するように、語の関連形式を生成するために形態素規
則を適用するためのオーバーヘッド(overhead)は、非常
に小さい。不規則形式は、例えば、現在形式“keep”か
ら過去形式“kept”を導出する規則のような、多数の非
常に特定な規則を含むために形態素規則のセットを拡張
することを避けるべく個別エントリとして辞書に含まれ
る。DCCは、形態素的に導出された形式に関して部分
的に特定されたエントリを通常生成する。入力語が辞書
のキーに初め一致したならば、入力語に対応しうる他の
可能な形式を見出すために入力語に形態素規則が適用さ
れる必要がないということが保証されるように、辞書
は、構築されうる。例えば、入力文“I am building a
bridge”から入力語“building”をルックアップするこ
とを考える。この場合には、“building”は、非屈折形
式“build ”の屈折形式である。キー“building”に対
応しているエントリにおいて、非屈折形式“building”
を表しているレコードだけが見出されるか、または、換
言すると、名詞“building”を表しているレコードだけ
が見出されるという場合でありうる。現在形単数動詞
“building”に対応しているレコードを見出すために、
DLCは、この場合、動詞“to build”を生成すべく形
態素規則を“building”に適用し、そして“build ”を
ルックアップするであろう。この型の辞書は、同綴異義
語形式に関するそれ以下に特定された辞書(under-speci
fied dictionary)(“USH辞書”)として知られてい
る。名詞“building”に対するUSH辞書エントリは、
図28に示される。キー“building”2802を有する
エントリにおける、唯一の属性/値ペアは、名詞“buil
ding”に対応する。同綴異義語形式に関して完全に特定
された辞書(“FSH辞書”)は、キー“building”を
有するエントリが動詞“build ”に対応している属性/
値ペアを含むということを保証する。キー“building”
に対するFSH辞書エントリを図29に示す。正規化さ
れた入力語がFSH辞書のキーに一致するならば、全て
の関連するレコードを見出すために入力語に形態素規則
を適用される必要はない。
は、それらがより小さく、それらを固定された大きさの
記憶媒体により容易に配置させかつそれらをメモリにお
いてより有効的にキャッシュされるからである。更に、
例えば、語“hike”から“hikes ”及び“hiked ”を生
成するように、語の関連形式を生成するために形態素規
則を適用するためのオーバーヘッド(overhead)は、非常
に小さい。不規則形式は、例えば、現在形式“keep”か
ら過去形式“kept”を導出する規則のような、多数の非
常に特定な規則を含むために形態素規則のセットを拡張
することを避けるべく個別エントリとして辞書に含まれ
る。DCCは、形態素的に導出された形式に関して部分
的に特定されたエントリを通常生成する。入力語が辞書
のキーに初め一致したならば、入力語に対応しうる他の
可能な形式を見出すために入力語に形態素規則が適用さ
れる必要がないということが保証されるように、辞書
は、構築されうる。例えば、入力文“I am building a
bridge”から入力語“building”をルックアップするこ
とを考える。この場合には、“building”は、非屈折形
式“build ”の屈折形式である。キー“building”に対
応しているエントリにおいて、非屈折形式“building”
を表しているレコードだけが見出されるか、または、換
言すると、名詞“building”を表しているレコードだけ
が見出されるという場合でありうる。現在形単数動詞
“building”に対応しているレコードを見出すために、
DLCは、この場合、動詞“to build”を生成すべく形
態素規則を“building”に適用し、そして“build ”を
ルックアップするであろう。この型の辞書は、同綴異義
語形式に関するそれ以下に特定された辞書(under-speci
fied dictionary)(“USH辞書”)として知られてい
る。名詞“building”に対するUSH辞書エントリは、
図28に示される。キー“building”2802を有する
エントリにおける、唯一の属性/値ペアは、名詞“buil
ding”に対応する。同綴異義語形式に関して完全に特定
された辞書(“FSH辞書”)は、キー“building”を
有するエントリが動詞“build ”に対応している属性/
値ペアを含むということを保証する。キー“building”
に対するFSH辞書エントリを図29に示す。正規化さ
れた入力語がFSH辞書のキーに一致するならば、全て
の関連するレコードを見出すために入力語に形態素規則
を適用される必要はない。
【0062】FSH辞書は、FSM辞書と同じではな
い。FSM辞書では、形態素規則が適用される必要がな
い。FSH辞書では、入力語に対する一致(マッチン
グ)キーが見出されないときに形態素規則が適用され
る。例えば、FSM辞書において入力語“buildings ”
に一致しているキーが存在する。FSH辞書は、対照的
に、キー“buildings ”を含まない。“buildings ”が
複数の“building”であると特定した形態素規則は、F
SH辞書において適切なエントリをルックアップするた
めに形式“building”を生成すべく適用される必要があ
る。FSH辞書は、形態素形式に関して部分的に特定さ
れる。DCCが電子辞書を構築するとき、それは、先に
コンパイルされた自然言語辞書また語の他のコンパラブ
ル・ソース(comparable source) から得られた自然言語
の各語に言語特定ルックアップ表を用いて正規化機能
(正規化関数)を適用する。言語特定ルックアップ表
は、言語の各ASCII文字とその正規化された形式の
間の簡単なマッピングである。一つのマッピングの一部
分の例は、:
い。FSM辞書では、形態素規則が適用される必要がな
い。FSH辞書では、入力語に対する一致(マッチン
グ)キーが見出されないときに形態素規則が適用され
る。例えば、FSM辞書において入力語“buildings ”
に一致しているキーが存在する。FSH辞書は、対照的
に、キー“buildings ”を含まない。“buildings ”が
複数の“building”であると特定した形態素規則は、F
SH辞書において適切なエントリをルックアップするた
めに形式“building”を生成すべく適用される必要があ
る。FSH辞書は、形態素形式に関して部分的に特定さ
れる。DCCが電子辞書を構築するとき、それは、先に
コンパイルされた自然言語辞書また語の他のコンパラブ
ル・ソース(comparable source) から得られた自然言語
の各語に言語特定ルックアップ表を用いて正規化機能
(正規化関数)を適用する。言語特定ルックアップ表
は、言語の各ASCII文字とその正規化された形式の
間の簡単なマッピングである。一つのマッピングの一部
分の例は、:
【0063】
【表1】
【0064】である。好ましい実施例では、ルックアッ
プ表は、単に置換文字のアレーである。入力文字に対す
るASCIIコードに対応している小さな整数値は、入
力文字に対する置換文字を見出すべくアレーへのインデ
ックスとして用いられる。図30は、正規化機能(正規
化関数)に対するフロー図を示す。ステップ3001か
ら3004は、DCCが各繰り返しにおいて次の文字を
選択するところの、入力語を含んでいる全ての文字を通
るループを表す。DCCは、ステップ3002で言語特
定ルックアップ表において選択した文字をルックアップ
し、かつステップ3003で選択した文字に対応するル
ックアップ表の文字で入力語内の選択した文字を置換す
る。選択した文字が大文字形式、または発音区別符号に
よって変更されたならば、ルックアップ表エントリは、
選択した文字に対応している小文字または符号が付され
ていない文字を含む。ルーチンの結果は、ケース及び発
音区別符号に関して完全に正規化された語である。
プ表は、単に置換文字のアレーである。入力文字に対す
るASCIIコードに対応している小さな整数値は、入
力文字に対する置換文字を見出すべくアレーへのインデ
ックスとして用いられる。図30は、正規化機能(正規
化関数)に対するフロー図を示す。ステップ3001か
ら3004は、DCCが各繰り返しにおいて次の文字を
選択するところの、入力語を含んでいる全ての文字を通
るループを表す。DCCは、ステップ3002で言語特
定ルックアップ表において選択した文字をルックアップ
し、かつステップ3003で選択した文字に対応するル
ックアップ表の文字で入力語内の選択した文字を置換す
る。選択した文字が大文字形式、または発音区別符号に
よって変更されたならば、ルックアップ表エントリは、
選択した文字に対応している小文字または符号が付され
ていない文字を含む。ルーチンの結果は、ケース及び発
音区別符号に関して完全に正規化された語である。
【0065】図31は、簡単な電子辞書構築ルーチンに
対するフロー図を示す。このルーチンは、正規化された
キーなしで既存のソース辞書からの正規化されたキーを
有する電子辞書を生成する。ステップ3101−311
3は、その各繰り返しの間中にDCCがソース辞書から
エントリを選択しかつ選択したエントリからの情報を電
子辞書に配置する、ループを表す。ステップ3101で
は、DCCは、第1のエントリで始まる、次のソース・
エントリを選択する。ステップ3102では、DCC
は、上記した正規化ルーチンを用いて選択したエントリ
のキーを正規化する。ステップ3103では、DCC
は、選択したソース・エントリの正規化されたキーに対
応しているキーが電子辞書に既に存在しているかどうか
を決定する。そのようなキーが電子辞書に存在しないな
らば、DCCは、ステップ3104においてそのキーと
して正規化されたキーを有している電子辞書に新しいエ
ントリを生成する。そのようなキーが既に存在するなら
ば、ステップ3105から3111によって表されたル
ープは、選択したソース・エントリの各品詞にわたり繰
り返す。選択したエントリは、例えば、動詞に対する定
義及び名詞に対する定義を含みうる。DCCは、ステッ
プ3105において、第1の品詞で始まる、次の品詞を
選択する。ステップ3106では、DCCは、例えば、
図26の名詞属性2602のような、その品詞に対する
属性が電子辞書エントリに既に存在するかどうかを決定
する。そうでないならば、DCCは、ステップ3107
においてその品詞に対する新しい属性を加える。そのよ
うな属性が既に存在するならば、DCCは、例えば、図
26のLexemes 属性2606のような、既存の属性の値
にLexeme属性が存在するかどうかを決定する。そうでな
いならば、DCCは、既存の品詞属性にLexeme属性を加
え、かつ例えば、図26の属性2608及び2609の
ような、ステップ3110における新しいLexeme属性内
の値として品詞に対する既存の属性及び選択した品詞に
対する新しい属性を配置する。Lexeme属性が既に存在す
るならば、DCCは、ステップ3109においてLexeme
属性に選択した品詞を単に加える。一度選択したエント
リの全品詞が選択されたならば、DCCは、ステップ3
112において新しいまたは既存の電子辞書に選択した
エントリの定義を加える。
対するフロー図を示す。このルーチンは、正規化された
キーなしで既存のソース辞書からの正規化されたキーを
有する電子辞書を生成する。ステップ3101−311
3は、その各繰り返しの間中にDCCがソース辞書から
エントリを選択しかつ選択したエントリからの情報を電
子辞書に配置する、ループを表す。ステップ3101で
は、DCCは、第1のエントリで始まる、次のソース・
エントリを選択する。ステップ3102では、DCC
は、上記した正規化ルーチンを用いて選択したエントリ
のキーを正規化する。ステップ3103では、DCC
は、選択したソース・エントリの正規化されたキーに対
応しているキーが電子辞書に既に存在しているかどうか
を決定する。そのようなキーが電子辞書に存在しないな
らば、DCCは、ステップ3104においてそのキーと
して正規化されたキーを有している電子辞書に新しいエ
ントリを生成する。そのようなキーが既に存在するなら
ば、ステップ3105から3111によって表されたル
ープは、選択したソース・エントリの各品詞にわたり繰
り返す。選択したエントリは、例えば、動詞に対する定
義及び名詞に対する定義を含みうる。DCCは、ステッ
プ3105において、第1の品詞で始まる、次の品詞を
選択する。ステップ3106では、DCCは、例えば、
図26の名詞属性2602のような、その品詞に対する
属性が電子辞書エントリに既に存在するかどうかを決定
する。そうでないならば、DCCは、ステップ3107
においてその品詞に対する新しい属性を加える。そのよ
うな属性が既に存在するならば、DCCは、例えば、図
26のLexemes 属性2606のような、既存の属性の値
にLexeme属性が存在するかどうかを決定する。そうでな
いならば、DCCは、既存の品詞属性にLexeme属性を加
え、かつ例えば、図26の属性2608及び2609の
ような、ステップ3110における新しいLexeme属性内
の値として品詞に対する既存の属性及び選択した品詞に
対する新しい属性を配置する。Lexeme属性が既に存在す
るならば、DCCは、ステップ3109においてLexeme
属性に選択した品詞を単に加える。一度選択したエント
リの全品詞が選択されたならば、DCCは、ステップ3
112において新しいまたは既存の電子辞書に選択した
エントリの定義を加える。
【0066】DCCは、FSM、FSH、またはUHS
辞書を生成することができる。パーシング中に用いた広
域変数(グローバル・バリアブル)は、辞書がFSM、
FSH、またはUSHの型であることを示す。異なる広
域変数は、電子辞書が正規化されたキーを有するかどう
かを示す。 辞書ルックアップ 上述したように、電子辞書は、多数の異なる編成を有し
うる。それは、FSM辞書でありうるし、そのような場
合には、辞書においてその対応キーを見出すために入力
語に形態素規則を適用する必要がない。それは、FSH
辞書でありうるし、そのような場合には、マッチング・
キーが見出されないときにだけ形態素規則を適用する必
要がある。
辞書を生成することができる。パーシング中に用いた広
域変数(グローバル・バリアブル)は、辞書がFSM、
FSH、またはUSHの型であることを示す。異なる広
域変数は、電子辞書が正規化されたキーを有するかどう
かを示す。 辞書ルックアップ 上述したように、電子辞書は、多数の異なる編成を有し
うる。それは、FSM辞書でありうるし、そのような場
合には、辞書においてその対応キーを見出すために入力
語に形態素規則を適用する必要がない。それは、FSH
辞書でありうるし、そのような場合には、マッチング・
キーが見出されないときにだけ形態素規則を適用する必
要がある。
【0067】全ての3つの型の辞書で、DLCは、入力
語に、図29に記述された、正規化機能(正規化関数)
をまず適用する。辞書がFSM型であれば、DLCは、
次いで、正規化された入力語に一致しているキーについ
て辞書を検索する。キーが見出せたならば、DLCは、
それらが表す基準化形式が正規化されていない入力語に
正確に一致するかどうかの表示を有するそのキーを有し
ているエントリ内に含まれたサブ−レコードをリターン
する。マッチング・キーが見出せないならば、語は、辞
書に存在しない。辞書がFSHの型であれば、DLC
は、正規化された入力語に一致しているキーに対する辞
書を検索する。キーが見出されたならば、それが含むサ
ブ−レコードは、それらが表す基準化語が入力語と正確
に一致するかどうかという表示と共にリターンされる。
一致するキーが見出されないならば、DLCは、語に対
して一つ以上の語彙見出し(lemmas)を生成する入力語に
適用可能な形態素規則を適用し、そして生成された語彙
見出しに一致するキーに対して辞書を検索する。DLC
がマッチング・キーを見出したならば、それは、マッチ
ング・キーに対応しているエントリ内に含まれたサブ−
レコードを検索し、かつ正規化されていない入力語がサ
ブ−レコードによって表された基準化形式に正確に一致
するかどうかの表示を有する各サブ−レコードをリター
ンする。マッチング・キーが見出されなかったならば、
語は、辞書に存在しない。
語に、図29に記述された、正規化機能(正規化関数)
をまず適用する。辞書がFSM型であれば、DLCは、
次いで、正規化された入力語に一致しているキーについ
て辞書を検索する。キーが見出せたならば、DLCは、
それらが表す基準化形式が正規化されていない入力語に
正確に一致するかどうかの表示を有するそのキーを有し
ているエントリ内に含まれたサブ−レコードをリターン
する。マッチング・キーが見出せないならば、語は、辞
書に存在しない。辞書がFSHの型であれば、DLC
は、正規化された入力語に一致しているキーに対する辞
書を検索する。キーが見出されたならば、それが含むサ
ブ−レコードは、それらが表す基準化語が入力語と正確
に一致するかどうかという表示と共にリターンされる。
一致するキーが見出されないならば、DLCは、語に対
して一つ以上の語彙見出し(lemmas)を生成する入力語に
適用可能な形態素規則を適用し、そして生成された語彙
見出しに一致するキーに対して辞書を検索する。DLC
がマッチング・キーを見出したならば、それは、マッチ
ング・キーに対応しているエントリ内に含まれたサブ−
レコードを検索し、かつ正規化されていない入力語がサ
ブ−レコードによって表された基準化形式に正確に一致
するかどうかの表示を有する各サブ−レコードをリター
ンする。マッチング・キーが見出されなかったならば、
語は、辞書に存在しない。
【0068】辞書が同綴異義語形式に関して完全に特定
されていないならば、DLCは、語に対して一つ以上の
語彙見出しを生成する入力語に適用可能な形態素規則を
適用し、そして、入力語または生成された語彙見出しに
一致するキーに対して辞書を検索する。DLCがマッチ
ング・キーを見出したならば、それは、マッチング・キ
ーに対応しているエントリ内に含まれたサブ−レコード
を検索し、かつ正規化されていない入力語がサブ−レコ
ードによって表された基準化形式に正確に一致するかど
うかという表示を有する各サブ−レコードをリターンす
る。マッチング・キーが見出されなかったならば、語
は、辞書に存在しない。DLCは、単にその基準化形式
が正規化していない入力語に正確に一致するサブ−レコ
ードでなく、エントリにおけるサブ−レコードの全てを
リターンする。一致は、一般に、含まれた定義の正当性
(正確さ)の表示を与えることができるが、それは、確
定的(限定的)ではない。二つの例文:(1)“I told
him topolish his shoes. ”及び(2)“`Polish you
r shoes,' I told him.”を再び考える。第1の文につ
いて、DLCは、語“polish”を“polish”に正規化
し、かつそれが入力語に正確に一致する表示を有する、
“to shine”に対する同義語、基準化形式“polish”、
を表しているサブ−レコード、及びそれが入力語に正確
に一致しない表示を有する基準化形式“Polish”を表し
ているサブ−レコードをリターンする。この場合には、
正確に一致している基準化形式を有するレコードが所望
のレコードである。同じルックアップ結果が第2の文に
対して得られるが、この場合には、それは、所望のサブ
−レコードである正確に一致している基準化形式を有さ
ないサブ−レコードである。
されていないならば、DLCは、語に対して一つ以上の
語彙見出しを生成する入力語に適用可能な形態素規則を
適用し、そして、入力語または生成された語彙見出しに
一致するキーに対して辞書を検索する。DLCがマッチ
ング・キーを見出したならば、それは、マッチング・キ
ーに対応しているエントリ内に含まれたサブ−レコード
を検索し、かつ正規化されていない入力語がサブ−レコ
ードによって表された基準化形式に正確に一致するかど
うかという表示を有する各サブ−レコードをリターンす
る。マッチング・キーが見出されなかったならば、語
は、辞書に存在しない。DLCは、単にその基準化形式
が正規化していない入力語に正確に一致するサブ−レコ
ードでなく、エントリにおけるサブ−レコードの全てを
リターンする。一致は、一般に、含まれた定義の正当性
(正確さ)の表示を与えることができるが、それは、確
定的(限定的)ではない。二つの例文:(1)“I told
him topolish his shoes. ”及び(2)“`Polish you
r shoes,' I told him.”を再び考える。第1の文につ
いて、DLCは、語“polish”を“polish”に正規化
し、かつそれが入力語に正確に一致する表示を有する、
“to shine”に対する同義語、基準化形式“polish”、
を表しているサブ−レコード、及びそれが入力語に正確
に一致しない表示を有する基準化形式“Polish”を表し
ているサブ−レコードをリターンする。この場合には、
正確に一致している基準化形式を有するレコードが所望
のレコードである。同じルックアップ結果が第2の文に
対して得られるが、この場合には、それは、所望のサブ
−レコードである正確に一致している基準化形式を有さ
ないサブ−レコードである。
【0069】キーのケース及び発音区別正規化及び多重
サブ−レコードの含有が単一エントリ内の基準化形式を
表しているので、さらなるサブ−レコードは、全ての3
つの辞書型における各辞書ルックアップの結果として得
られる。一つのルックアップで、DLCは、全てのケー
ス及び発音区別符号組合せ(結合)を直接得る。FSM
辞書の場合には、一つのルックアップだけが必要であ
る。FSH辞書の場合には、エントリが見出されないな
らば、語彙見出しをそれに形態素規則を適用することに
よって入力語から生成することができる場合に更なるル
ックアップが要求されるけれども、一つのルックアップ
だけがしばしば要求される。USH辞書の場合には、要
求されるルックアップの数は、一つプラス(+)入力語
に形態素規則を適用することによって生成することがで
きる語彙見出しの数に等しい。
サブ−レコードの含有が単一エントリ内の基準化形式を
表しているので、さらなるサブ−レコードは、全ての3
つの辞書型における各辞書ルックアップの結果として得
られる。一つのルックアップで、DLCは、全てのケー
ス及び発音区別符号組合せ(結合)を直接得る。FSM
辞書の場合には、一つのルックアップだけが必要であ
る。FSH辞書の場合には、エントリが見出されないな
らば、語彙見出しをそれに形態素規則を適用することに
よって入力語から生成することができる場合に更なるル
ックアップが要求されるけれども、一つのルックアップ
だけがしばしば要求される。USH辞書の場合には、要
求されるルックアップの数は、一つプラス(+)入力語
に形態素規則を適用することによって生成することがで
きる語彙見出しの数に等しい。
【0070】各ルックアップでさらなるレコードをリタ
ーンすることによって、語を徹底的(網羅的)に検索す
るために必要なルックアップの数は、減少される。ルッ
クアップにおけるこの減少は、ディスク・フェッチの数
を相応じて減少し、かつ辞書検索の処理をスピード・ア
ップする。図32は、アーギュメント“ilemma(アイレ
マ)”としてサブルーチンにパスされた入力語の可能な
品詞及び定義を表すレコードを含む電子辞書における全
てのエントリを見出す語彙サブルーチンに対するフロー
図を示す。ステップ3201では、語彙サブルーチン
は、空であるべく変数“record_list”を初期化し、か
つilemma(アイレマ)の変数を変数“next_lemma ”に
割り当てる。ステップ3202では、語彙サブルーチン
は、ilemma(アイレマ)に対応しているキーを有する電
子辞書からのエントリを見出すべく図33に示されたル
ックアップ・ルーチンを呼出す。ステップ3203でエ
ントリが見出されないならば、語彙サブルーチンは、次
いで辞書がFSMの型であるかどうかを決定する。そう
であれば、語彙サブルーチンは、ステップ3205で空
のrecord_listをリターンする。辞書がFSMの型でな
いならば、語彙サブルーチンは、ステップ3206で別
の語彙見出しを生成すべくilemma(アイレマ)に形態素
規則を適用する。新しい語彙見出しがステップ3706
で生成されるならば、制御は、ルーチンの始めにループ
・バックする;さもなければ、語彙サブルーチンは、ス
テップ3205でrecord_listをリターンする。
ーンすることによって、語を徹底的(網羅的)に検索す
るために必要なルックアップの数は、減少される。ルッ
クアップにおけるこの減少は、ディスク・フェッチの数
を相応じて減少し、かつ辞書検索の処理をスピード・ア
ップする。図32は、アーギュメント“ilemma(アイレ
マ)”としてサブルーチンにパスされた入力語の可能な
品詞及び定義を表すレコードを含む電子辞書における全
てのエントリを見出す語彙サブルーチンに対するフロー
図を示す。ステップ3201では、語彙サブルーチン
は、空であるべく変数“record_list”を初期化し、か
つilemma(アイレマ)の変数を変数“next_lemma ”に
割り当てる。ステップ3202では、語彙サブルーチン
は、ilemma(アイレマ)に対応しているキーを有する電
子辞書からのエントリを見出すべく図33に示されたル
ックアップ・ルーチンを呼出す。ステップ3203でエ
ントリが見出されないならば、語彙サブルーチンは、次
いで辞書がFSMの型であるかどうかを決定する。そう
であれば、語彙サブルーチンは、ステップ3205で空
のrecord_listをリターンする。辞書がFSMの型でな
いならば、語彙サブルーチンは、ステップ3206で別
の語彙見出しを生成すべくilemma(アイレマ)に形態素
規則を適用する。新しい語彙見出しがステップ3706
で生成されるならば、制御は、ルーチンの始めにループ
・バックする;さもなければ、語彙サブルーチンは、ス
テップ3205でrecord_listをリターンする。
【0071】語彙サブルーチンがステップ3203でレ
コードを見出すならば、語彙サブルーチンは、ステップ
3208でrecord_listにそのレコードを加える。次い
で、辞書が型FSMまたはFSHであれば、ステップ3
209及び3210で決定されたように、語彙サブルー
チンは、ステップ3211でrecord_listをリターンす
る。さもなければ、制御は、ステップ3206にパス
し、語彙サブルーチンは新しい語彙見出しを生成するこ
とを試みる。図33は、ルックアップ・サブルーチンの
フロー図を示す。このサブルーチンは、アーギュメント
“ilemma”として入力された語に一致するキーを有する
レコードを検索する。ステップ3301では、ルックア
ップ・サブルーチンは、辞書がケース及び発音区別符号
に関して正規化されたキーを有するかどうかを決定す
る。辞書が正規化されたキーを有さないならば、ルック
アップ・ルーチンは、ステップ3302でilemma(アイ
レマ)に一致するキーを有するエントリを見出すべく辞
書のエントリを検索する。辞書が正規化されたキーを有
するならば、図30に示したサブルーチン正規化は、ス
テップ3303でilemma(アイレマ)に対応している正
規化された語を生成すべく呼び出され、かつルックアッ
プ・ルーチンは、ステップ3304でilemma(アイレ
マ)に対応している正規化された語に一致するキーを有
するエントリを見出すべく辞書のエントリを検索する。
ステップ3302またはステップ3304でエントリが
見出されなかったならば、ルックアップ・サブルーチン
は、失敗しかつステップ3306でNULLをリターン
する。
コードを見出すならば、語彙サブルーチンは、ステップ
3208でrecord_listにそのレコードを加える。次い
で、辞書が型FSMまたはFSHであれば、ステップ3
209及び3210で決定されたように、語彙サブルー
チンは、ステップ3211でrecord_listをリターンす
る。さもなければ、制御は、ステップ3206にパス
し、語彙サブルーチンは新しい語彙見出しを生成するこ
とを試みる。図33は、ルックアップ・サブルーチンの
フロー図を示す。このサブルーチンは、アーギュメント
“ilemma”として入力された語に一致するキーを有する
レコードを検索する。ステップ3301では、ルックア
ップ・サブルーチンは、辞書がケース及び発音区別符号
に関して正規化されたキーを有するかどうかを決定す
る。辞書が正規化されたキーを有さないならば、ルック
アップ・ルーチンは、ステップ3302でilemma(アイ
レマ)に一致するキーを有するエントリを見出すべく辞
書のエントリを検索する。辞書が正規化されたキーを有
するならば、図30に示したサブルーチン正規化は、ス
テップ3303でilemma(アイレマ)に対応している正
規化された語を生成すべく呼び出され、かつルックアッ
プ・ルーチンは、ステップ3304でilemma(アイレ
マ)に対応している正規化された語に一致するキーを有
するエントリを見出すべく辞書のエントリを検索する。
ステップ3302またはステップ3304でエントリが
見出されなかったならば、ルックアップ・サブルーチン
は、失敗しかつステップ3306でNULLをリターン
する。
【0072】エントリが見出されたならば、ルックアッ
プ・サブルーチンは、エントリの主レコード内に含まれ
た各品詞サブ−レコード(part-of-speech sub-record)
にわたり繰り返すステップ3307−3315からなる
ループを次いで実行する。図29に示されたレコードが
辞書から検索されたならば、例えば、このループの最初
の繰り返しは、“Noun(名詞)”属性に対応しているサ
ブ−レコード2901を選択し、ループの2番目の繰り
返しは、“Verb(動詞)”属性2904に対応している
サブ−レコード2903を選択するであろう。ルックア
ップ・サブルーチンは、ステップ3308で、選択した
サブ−レコードが“Lexemes (語彙)”属性、例として
図26の属性2606を含むかどうかを決定する。それ
が含まないならば、ルックアップ・サブルーチンは、選
択したサブ−レコードの“lemma(語彙見出し)”属性
がilemma(アイレマ)に正確に一致であるならば、ステ
ップ3310で正確な一致として選択したサブ−レコー
ドをマークし、かつステップ3307−3315によっ
て表されたループは、次の繰り返しを続ける。
プ・サブルーチンは、エントリの主レコード内に含まれ
た各品詞サブ−レコード(part-of-speech sub-record)
にわたり繰り返すステップ3307−3315からなる
ループを次いで実行する。図29に示されたレコードが
辞書から検索されたならば、例えば、このループの最初
の繰り返しは、“Noun(名詞)”属性に対応しているサ
ブ−レコード2901を選択し、ループの2番目の繰り
返しは、“Verb(動詞)”属性2904に対応している
サブ−レコード2903を選択するであろう。ルックア
ップ・サブルーチンは、ステップ3308で、選択した
サブ−レコードが“Lexemes (語彙)”属性、例として
図26の属性2606を含むかどうかを決定する。それ
が含まないならば、ルックアップ・サブルーチンは、選
択したサブ−レコードの“lemma(語彙見出し)”属性
がilemma(アイレマ)に正確に一致であるならば、ステ
ップ3310で正確な一致として選択したサブ−レコー
ドをマークし、かつステップ3307−3315によっ
て表されたループは、次の繰り返しを続ける。
【0073】“Lexemes (語彙)”属性が選択したサブ
−レコードに存在するならば、ステップ3311−33
14によって表された内側ループは、各ループ繰り返し
に対して“Lexemes (語彙)”属性の値から各語彙を選
択する。図26では、属性/値ペア2608−2610
は、第1の語彙を導入し、かつ属性/値ペア2609−
2611は、第2の語彙を導入する。選択した語彙の
“lemma (語彙見出し)”属性の値がilemma(アイレ
マ)に正確に一致するならば、ルックアップ・サブルー
チンは、ステップ3313で正確な一致としてその語彙
サブ−レコードをマークする。ルックアップ・サブルー
チンへの呼出しの結果は、従って、エントリが見出され
ないときには、NULL値であるか、または正確な一致
としてマークされた入力語に正確に一致する“lemma
(語彙見出し)”属性を有しているサブ−レコードを伴
う辞書エントリのいずれかである。
−レコードに存在するならば、ステップ3311−33
14によって表された内側ループは、各ループ繰り返し
に対して“Lexemes (語彙)”属性の値から各語彙を選
択する。図26では、属性/値ペア2608−2610
は、第1の語彙を導入し、かつ属性/値ペア2609−
2611は、第2の語彙を導入する。選択した語彙の
“lemma (語彙見出し)”属性の値がilemma(アイレ
マ)に正確に一致するならば、ルックアップ・サブルー
チンは、ステップ3313で正確な一致としてその語彙
サブ−レコードをマークする。ルックアップ・サブルー
チンへの呼出しの結果は、従って、エントリが見出され
ないときには、NULL値であるか、または正確な一致
としてマークされた入力語に正確に一致する“lemma
(語彙見出し)”属性を有しているサブ−レコードを伴
う辞書エントリのいずれかである。
【0074】本発明は、好ましい実施例により説明され
たが、本発明がこの実施例に限定されるということを意
図しない。本発明の精神内の変更は、当業者に自明であ
ろう。本発明の範疇は、特許請求の範囲によって画定さ
れる。
たが、本発明がこの実施例に限定されるということを意
図しない。本発明の精神内の変更は、当業者に自明であ
ろう。本発明の範疇は、特許請求の範囲によって画定さ
れる。
【0075】
【発明の効果】本発明の方法は、電子辞書の情報を捜し
出すコンピュータ・システムにおける方法であって、全
て小文字を有しかつ発音区別符号を有さない正規化され
た形式を複数の語のそれぞれの基準化形式から生成し、
かつ語の各固有な正規化された形式に対して、それぞれ
が語の正規化された形式に設定されるキー及びレコード
を有しているエントリを電子辞書に記憶し、その正規化
された形式が固有な正規化された形式に等しい語の各基
準化形式に対して、語の基準化形式に関する情報を含ん
でいるサブ−レコードをレコード内に記憶することによ
って電子辞書を生成し;入力語を受け取り;入力語の正
規化された形式を生成し;かつエントリが語の基準化形
式に関する情報を有するサブ−レコードを含むような入
力語の正規化された形式に一致するキーを有するエント
リに対して生成された電子辞書を検索する段階を具備す
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。
出すコンピュータ・システムにおける方法であって、全
て小文字を有しかつ発音区別符号を有さない正規化され
た形式を複数の語のそれぞれの基準化形式から生成し、
かつ語の各固有な正規化された形式に対して、それぞれ
が語の正規化された形式に設定されるキー及びレコード
を有しているエントリを電子辞書に記憶し、その正規化
された形式が固有な正規化された形式に等しい語の各基
準化形式に対して、語の基準化形式に関する情報を含ん
でいるサブ−レコードをレコード内に記憶することによ
って電子辞書を生成し;入力語を受け取り;入力語の正
規化された形式を生成し;かつエントリが語の基準化形
式に関する情報を有するサブ−レコードを含むような入
力語の正規化された形式に一致するキーを有するエント
リに対して生成された電子辞書を検索する段階を具備す
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。
【0076】本発明の方法は、それぞれが基準化形式を
有している語の電子辞書を生成すコンピュータ・システ
ムにおける方法であって、複数の語のそれぞれの基準化
形式から正規化された形式を生成し;かつ語の各固有な
正規化された形式に対して、それぞれが語の正規化され
た形式に設定されるキー及びレコードを有しているエン
トリを電子辞書に記憶し、その正規化された形式が固有
な正規化された形式に等しい語の各基準化形式に対し
て、語の基準化形式に関する情報をレコード内に記憶す
る段階を具備するので、発音区別符号がストリップされ
た入力語に対応するかまたは大文字入力語に対応する電
子辞書における全てのエントリを効率的に見出すことが
できる。本発明の方法は、電子辞書を生成すコンピュー
タ・システムにおける方法であって、多数の語の複数の
正規化された形式のそれぞれに対するエントリを生成
し;かつ単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶するので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。
有している語の電子辞書を生成すコンピュータ・システ
ムにおける方法であって、複数の語のそれぞれの基準化
形式から正規化された形式を生成し;かつ語の各固有な
正規化された形式に対して、それぞれが語の正規化され
た形式に設定されるキー及びレコードを有しているエン
トリを電子辞書に記憶し、その正規化された形式が固有
な正規化された形式に等しい語の各基準化形式に対し
て、語の基準化形式に関する情報をレコード内に記憶す
る段階を具備するので、発音区別符号がストリップされ
た入力語に対応するかまたは大文字入力語に対応する電
子辞書における全てのエントリを効率的に見出すことが
できる。本発明の方法は、電子辞書を生成すコンピュー
タ・システムにおける方法であって、多数の語の複数の
正規化された形式のそれぞれに対するエントリを生成
し;かつ単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶するので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。
【0077】本発明のコンピュータ読取り可能媒体は、
複数の語のそれぞれの基準化形式から正規化された形式
を生成し、かつ語の各固有な正規化された形式に対し
て、それぞれが語の正規化された形式に設定されるキー
及びレコードを有しているエントリを電子辞書に記憶
し、その正規化された形式が固有な正規化された形式に
等しい語の各基準化形式に対して、語の基準化形式に関
する情報をレコード内に記憶することによって、それぞ
れが基準化形式を有している語の電子辞書をコンピュー
タ・システムに生成させるコンピュータ命令を含んでい
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。本発明
のコンピュータ・システムは、電子辞書を生成するコン
ピュータ・システムであって、多数の語の複数の正規化
された形式のそれぞれに対するエントリを生成する手
段;及び単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶する手段を備
えているので、発音区別符号がストリップされた入力語
に対応するかまたは大文字入力語に対応する電子辞書に
おける全てのエントリを効率的に見出すことができる。
複数の語のそれぞれの基準化形式から正規化された形式
を生成し、かつ語の各固有な正規化された形式に対し
て、それぞれが語の正規化された形式に設定されるキー
及びレコードを有しているエントリを電子辞書に記憶
し、その正規化された形式が固有な正規化された形式に
等しい語の各基準化形式に対して、語の基準化形式に関
する情報をレコード内に記憶することによって、それぞ
れが基準化形式を有している語の電子辞書をコンピュー
タ・システムに生成させるコンピュータ命令を含んでい
るので、発音区別符号がストリップされた入力語に対応
するかまたは大文字入力語に対応する電子辞書における
全てのエントリを効率的に見出すことができる。本発明
のコンピュータ・システムは、電子辞書を生成するコン
ピュータ・システムであって、多数の語の複数の正規化
された形式のそれぞれに対するエントリを生成する手
段;及び単一のエントリを検索することによって同じ正
規化された形式を有する各語に対する情報を検索するこ
とができるように同じ正規化された形式を有する語のそ
れぞれに関する情報を各エントリ内に記憶する手段を備
えているので、発音区別符号がストリップされた入力語
に対応するかまたは大文字入力語に対応する電子辞書に
おける全てのエントリを効率的に見出すことができる。
【0078】本発明の方法は、同じ正規化された形式を
有する語の基準化形式に関する情報を含んでいるエント
リを有している電子辞書から情報を検索するコンピュー
タ・システムにおける方法であって、入力語を受け取
り;入力語の正規化された形式を生成し;かつエントリ
が入力語に関する情報を含むように入力語の正規化され
た形式に対応しているエントリに対して電子辞書を検索
するので、発音区別符号がストリップされた入力語に対
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出すことができる。本発
明のコンピュータ読取り可能媒体は、自然言語の語につ
いての形態素及び構文情報を有している電子辞書を含ん
でいるコンピュータ読取り可能媒体であって、電子辞書
は、それぞれがキー及びレコードを含んでいる一組のエ
ントリを備え、レコードは、キーによって表された少な
くとも一つの語についての情報を含み、辞書の各キー
は、正規化され;かつ少なくとも二つの異なる語が同じ
標準化された形式を有するときに、標準化された形式に
一致しているキーを有する電子辞書エントリは、同じ標
準化された形式を有している各異なる語に対応している
少なくとも一つのサブ−レコードを含むので、発音区別
符号がストリップされた入力語に対応するかまたは大文
字入力語に対応する電子辞書における全てのエントリを
効率的に見出すことができる。
有する語の基準化形式に関する情報を含んでいるエント
リを有している電子辞書から情報を検索するコンピュー
タ・システムにおける方法であって、入力語を受け取
り;入力語の正規化された形式を生成し;かつエントリ
が入力語に関する情報を含むように入力語の正規化され
た形式に対応しているエントリに対して電子辞書を検索
するので、発音区別符号がストリップされた入力語に対
応するかまたは大文字入力語に対応する電子辞書におけ
る全てのエントリを効率的に見出すことができる。本発
明のコンピュータ読取り可能媒体は、自然言語の語につ
いての形態素及び構文情報を有している電子辞書を含ん
でいるコンピュータ読取り可能媒体であって、電子辞書
は、それぞれがキー及びレコードを含んでいる一組のエ
ントリを備え、レコードは、キーによって表された少な
くとも一つの語についての情報を含み、辞書の各キー
は、正規化され;かつ少なくとも二つの異なる語が同じ
標準化された形式を有するときに、標準化された形式に
一致しているキーを有する電子辞書エントリは、同じ標
準化された形式を有している各異なる語に対応している
少なくとも一つのサブ−レコードを含むので、発音区別
符号がストリップされた入力語に対応するかまたは大文
字入力語に対応する電子辞書における全てのエントリを
効率的に見出すことができる。
【0079】本発明のコンピュータ・システムは、電子
辞書に記憶された語についての情報を見出すコンピュー
タ・システムであり、電子辞書は、自然言語の語につい
ての形態素及び構文情報を含み、電子辞書は、一組のエ
ントリを備え、各エントリは、キー及びレコードを備
え、レコードは、キーによって表された少なくとも一つ
の語についての情報を含み、辞書の各キーは、語の標準
化された形式であり、コンピュータ・システムは、:入
力語の標準化された形式を生成する手段;及び入力語の
標準化された形式に一致するキーを有している電子辞書
においてエントリを検索する手段を備えているので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。
辞書に記憶された語についての情報を見出すコンピュー
タ・システムであり、電子辞書は、自然言語の語につい
ての形態素及び構文情報を含み、電子辞書は、一組のエ
ントリを備え、各エントリは、キー及びレコードを備
え、レコードは、キーによって表された少なくとも一つ
の語についての情報を含み、辞書の各キーは、語の標準
化された形式であり、コンピュータ・システムは、:入
力語の標準化された形式を生成する手段;及び入力語の
標準化された形式に一致するキーを有している電子辞書
においてエントリを検索する手段を備えているので、発
音区別符号がストリップされた入力語に対応するかまた
は大文字入力語に対応する電子辞書における全てのエン
トリを効率的に見出すことができる。
【0080】本発明のコンピュータ読取り可能媒体は、
入力語を受け取り;入力語の正規化された形式を生成
し;かつエントリが入力語に関する情報を含むように入
力語の正規化された形式に対応しているエントリに対し
て生成された電子辞書を検索することによって、同じ正
規化された形式を有する語の基準化形式に関する情報を
含んでいるエントリを有している電子辞書から情報をコ
ンピュータ・システムに検索させる命令を含んでいるの
で、発音区別符号がストリップされた入力語に対応する
かまたは大文字入力語に対応する電子辞書における全て
のエントリを効率的に見出すことができる。
入力語を受け取り;入力語の正規化された形式を生成
し;かつエントリが入力語に関する情報を含むように入
力語の正規化された形式に対応しているエントリに対し
て生成された電子辞書を検索することによって、同じ正
規化された形式を有する語の基準化形式に関する情報を
含んでいるエントリを有している電子辞書から情報をコ
ンピュータ・システムに検索させる命令を含んでいるの
で、発音区別符号がストリップされた入力語に対応する
かまたは大文字入力語に対応する電子辞書における全て
のエントリを効率的に見出すことができる。
【図1】自然言語処理システムのサブシステム間の情報
のフローを示しているブロック図である。
のフローを示しているブロック図である。
【図2】例示入力文:“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する図である。
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する図である。
【図3】例示入力文:“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
【図4】例示入力文:“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
【図5】例示入力文:“The person whom I met was my
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
friend.”の各語に対して検索される電子記憶媒体に記
憶された辞書情報を表示する他の図である。
【図6】入力文をパーズする第1段階として構文サブシ
ステムによって生成されたリーフ・ノードを表示する図
である。
ステムによって生成されたリーフ・ノードを表示する図
である。
【図7】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する図であ
る。
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する図であ
る。
【図8】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。
【図9】入力文をパーズしかつシンタックス・パーズ・
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。
ツリーを生成するための構文サブシステムによるシンタ
ックス規則の連続的アプリケーションを表示する他の図
である。
【図10】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図11】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図12】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図13】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図14】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図15】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図16】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図17】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図18】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図19】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図20】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図21】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図22】入力文をパーズしかつシンタックス・パーズ
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
・ツリーを生成するための構文サブシステムによるシン
タックス規則の連続的アプリケーションを表示する他の
図である。
【図23】入力文の意味を表すべく意味サブシステムに
よって生成された論理形式グラフを示す図である。
よって生成された論理形式グラフを示す図である。
【図24】自然言語処理に対する好ましいコンピュータ
・システムを示すブロック図である。
・システムを示すブロック図である。
【図25】キー“interpret ”に対する電子辞書エント
リを示す図である。
リを示す図である。
【図26】キー“polish”に対する電子辞書エントリを
示す図である。
示す図である。
【図27】キー“eleve ”及び“ou”に対する電子辞書
エントリを示す図である。
エントリを示す図である。
【図28】不特定辞書におけるキー“building”に対す
る電子辞書エントリを示す図である。
る電子辞書エントリを示す図である。
【図29】同綴異義語形式に関して完全に特定された辞
書におけるキー“building”に対する電子辞書エントリ
を示す図である。
書におけるキー“building”に対する電子辞書エントリ
を示す図である。
【図30】サブルーチンNormalize に対するフロー図で
ある。
ある。
【図31】簡単な辞書構築ルーチンに対するフロー図で
ある。
ある。
【図32】サブルーチンLexical に対するフロー図であ
る。
る。
【図33】サブルーチンLookupに対するフロー図であ
る。
る。
2401 コンピュータ・システム 2402 入力 2403 出力 2404 メモリ 2405 自然言語処理システム 2406 形態素サブシステム 2407 自然言語処理システム 2408 ディスク 2409 電子辞書
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成9年7月2日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】発明の名称
【補正方法】変更
【補正内容】
【発明の名称】 大文字及び非強調テキストの語彙処理
の方法及びシステム
の方法及びシステム
フロントページの続き (72)発明者 スティーヴ リチャードソン アメリカ合衆国 ワシントン州 98052 レッドモンド ノースイースト ワンハン ドレッドアンドサーティセカンド 18028
Claims (44)
- 【請求項1】 電子辞書の情報を捜し出すコンピュータ
・システムにおける方法であって、 全て小文字を有しかつ発音区別符号を有さない正規化さ
れた形式を複数の語のそれぞれの基準化形式から生成
し、かつ語の各固有な正規化された形式に対して、 それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、 その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報を含んでいるサブ−レコードをレコード内に記憶す
ることによって電子辞書を生成し;入力語を受け取り;
前記入力語の正規化された形式を生成し;かつ前記エン
トリが前記語の基準化形式に関する情報を有するサブ−
レコードを含むような前記入力語の前記正規化された形
式に一致するキーを有するエントリに対して前記生成さ
れた電子辞書を検索する段階を具備することを特徴とす
る方法。 - 【請求項2】 前記複数の語は、生成された電子辞書が
形態素形式として完全に特定されるように語の全ての可
能な形態素形式に対する語を含むことを特徴とする請求
項1に記載の方法。 - 【請求項3】 入力語の正規化された形式に一致するキ
ーが見出されないときに、生成された電子辞書が入力語
を含まないということを示すことを特徴とする請求項2
に記載の方法。 - 【請求項4】 前記入力語の前記正規化された形式に一
致するキーが見出されたとき、前記見出されたエントリ
が前記情報を含むことを示すことを特徴とする請求項2
に記載の方法。 - 【請求項5】 前記複数の語は、前記生成された電子辞
書が同綴異義語に対して完全に特定されるように全ての
可能な同綴異義語に対する語を含むことを特徴とする請
求項1に記載の方法。 - 【請求項6】 前記入力語の前記正規化された形式に一
致するキーが見出されないときに、前記入力語に形態素
規則を適用することによって前記入力語の全ての語彙見
出しを生成し、前記生成した語彙見出しを正規化し、か
つ前記正規化された語彙見出しに一致するキーを有する
エントリに対して前記生成した電子辞書を検索すること
を特徴とする請求項5に記載の方法。 - 【請求項7】 前記入力語の前記正規化された形式に一
致するキーが見出されたとき、前記見出されたエントリ
が前記情報を含むことを示すことを特徴とする請求項5
に記載の方法。 - 【請求項8】 前記入力語の前記正規化された形式に一
致するキーが見出されたときに、前記入力語に形態素規
則を適用することによって前記入力語の全ての語彙見出
しを生成し、前記生成した語彙見出しを正規化し、かつ
前記正規化された語彙見出しに一致するキーを有するエ
ントリに対して前記生成した電子辞書を検索することを
特徴とする請求項1に記載の方法。 - 【請求項9】 それぞれが基準化形式を有している語の
電子辞書を生成すコンピュータ・システムにおける方法
であって、 複数の語のそれぞれの前記基準化形式から正規化された
形式を生成し;かつ語の各固有な正規化された形式に対
して、 それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、 その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報をレコード内に記憶する段階を具備することを特徴
とする方法。 - 【請求項10】 正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項9に記載の方法。 - 【請求項11】 正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
9に記載の方法。 - 【請求項12】 電子辞書を生成すコンピュータ・シス
テムにおける方法であって、 多数の語の複数の正規化された形式のそれぞれに対する
エントリを生成し;かつ単一のエントリを検索すること
によって前記同じ正規化された形式を有する各語に対す
る情報を検索することができるように前記同じ正規化さ
れた形式を有する前記語のそれぞれに関する情報を各エ
ントリ内に記憶することを特徴とする方法。 - 【請求項13】 各エントリは、前記正規化された形式
及びその正規化された形式を有する各語の基準化形式を
当該基準化形式に関する情報と一緒に含むことを特徴と
する請求項12に記載の方法。 - 【請求項14】 正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項12に記載の方法。 - 【請求項15】 正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
12に記載の方法。 - 【請求項16】 複数の語のそれぞれの基準化形式から
正規化された形式を生成し、かつ語の各固有な正規化さ
れた形式に対して、 それぞれが語の正規化された形式に設定されるキー及び
レコードを有しているエントリを電子辞書に記憶し、 その正規化された形式が固有な正規化された形式に等し
い語の各基準化形式に対して、語の基準化形式に関する
情報をレコード内に記憶することによって、それぞれが
基準化形式を有している語の電子辞書をコンピュータ・
システムに生成させるコンピュータ命令を含んでいるコ
ンピュータ読取り可能媒体。 - 【請求項17】 正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項16に記載のコンピュータ読取り可能媒体。 - 【請求項18】 正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
16に記載のコンピュータ読取り可能媒体。 - 【請求項19】 電子辞書を生成するコンピュータ・シ
ステムであって、 多数の語の複数の正規化された形式のそれぞれに対する
エントリを生成する手段;及び単一のエントリを検索す
ることによって前記同じ正規化された形式を有する各語
に対する情報を検索することができるように前記同じ正
規化された形式を有する前記語のそれぞれに関する情報
を各エントリ内に記憶する手段を備えていること特徴と
するコンピュータ・システム。 - 【請求項20】 各エントリは、前記正規化された形式
及びその正規化された形式を有する各語の基準化形式を
当該基準化形式に関する情報と一緒に含むことを特徴と
する請求項19に記載のコンピュータ・システム。 - 【請求項21】 正規化された形式の前記生成は、前記
語の各文字を小文字に設定することを含むことを特徴と
する請求項20に記載のコンピュータ・システム。 - 【請求項22】 正規化された形式の前記生成は、発音
区別符号を除去することを含むことを特徴とする請求項
20に記載のコンピュータ・システム。 - 【請求項23】 同じ正規化された形式を有する語の基
準化形式に関する情報を含んでいるエントリを有してい
る電子辞書から情報を検索するコンピュータ・システム
における方法であって、 入力語を受け取り;前記入力語の正規化された形式を生
成し;かつ前記エントリが前記入力語に関する情報を含
むように前記入力語の前記正規化された形式に対応して
いるエントリに対して前記電子辞書を検索することを特
徴とする方法。 - 【請求項24】 前記電子辞書は、前記生成された電子
辞書が形態素形式に対して完全に特定されるように前記
語の全ての可能な形態素形式に対するエントリを含むこ
とを特徴とする請求項23に記載の方法。 - 【請求項25】 前記入力語の前記正規化された形式に
対応しているエントリが見出されないとき、前記電子辞
書が前記入力語を含まないことを示すことを特徴とする
請求項24に記載の方法。 - 【請求項26】 前記入力語の前記正規化された形式に
対応しているエントリが見出されたときに、前記見出さ
れたエントリが前記情報を含むこと示すことを特徴とす
る請求項24に記載の方法。 - 【請求項27】 前記電子辞書は、前記生成された電子
辞書が同綴異義語に対して完全に特定されるように全て
の可能な同綴異義語に対するエントリを含むことを特徴
とする請求項23に記載の方法。 - 【請求項28】 前記入力語の前記正規化された形式に
対応しているエントリが見出されないときに、前記入力
語に形態素規則を適用することによって前記入力語の全
ての語彙見出しを生成し、前記生成した語彙見出しを正
規化し、かつ前記正規化された語彙見出しに対応してい
るエントリに対して前記生成した電子辞書を検索するこ
とを特徴とする請求項27に記載の方法。 - 【請求項29】 前記入力語の前記正規化された形式に
対応しているエントリが見出されたときに、前記見出さ
れたエントリが前記情報を含むこと示すことを特徴とす
る請求項27に記載の方法。 - 【請求項30】 前記入力語の前記正規化された形式に
対応しているエントリが見出されないときに、前記入力
語に形態素規則を適用することによって前記入力語の全
ての語彙見出しを生成し、前記生成した語彙見出しを正
規化し、かつ前記正規化された語彙見出しに対応してい
るエントリに対して前記生成した電子辞書を検索するこ
とを特徴とする請求項23に記載の方法。 - 【請求項31】 自然言語の語についての形態素及び構
文情報を有している電子辞書を含んでいるコンピュータ
読取り可能媒体であって、前記電子辞書は、それぞれが
キー及びレコードを含んでいる一組のエントリを備え、
前記レコードは、前記キーによって表された少なくとも
一つの語についての情報を含み、 前記辞書の各キーは、正規化され;かつ少なくとも二つ
の異なる語が同じ標準化された形式を有するときに、前
記標準化された形式に一致しているキーを有する前記電
子辞書エントリは、同じ標準化された形式を有している
各異なる語に対応している少なくとも一つのサブ−レコ
ードを含むことを特徴とするコンピュータ読取り可能媒
体。 - 【請求項32】 前記電子辞書の各キーは、ケースに関
して正規化されることを特徴とする請求項31に記載の
コンピュータ読取り可能媒体。 - 【請求項33】 前記電子辞書の各キーは、発音区別符
号に関して正規化されることを特徴とする請求項31に
記載のコンピュータ読取り可能媒体。 - 【請求項34】 電子辞書に記憶された語についての情
報を見出すコンピュータ・システムであり、前記電子辞
書は、自然言語の語についての形態素及び構文情報を含
み、前記電子辞書は、一組のエントリを備え、各エント
リは、キー及びレコードを備え、前記レコードは、前記
キーによって表された少なくとも一つの語についての情
報を含み、前記辞書の各キーは、語の標準化された形式
であり、前記コンピュータ・システムは、:入力語の標
準化された形式を生成する手段;及び前記入力語の前記
標準化された形式に一致するキーを有している前記電子
辞書においてエントリを検索する手段を備えていること
を特徴とするコンピュータ・システム。 - 【請求項35】 エントリが見出されずかつ前記電子辞
書が形態素形式に関して完全に特定されるときに、前記
電子辞書が前記入力語についての情報を含んでいないと
いう表示をリターンする手段を備えていることを特徴と
する請求項34に記載のコンピュータ・システム。 - 【請求項36】 各レコードは、前記語の各基準化形式
に対するサブ−レコードを含みかつエントリが見出され
たかつ前記電子辞書が形態素形式に関して完全に特定さ
れるときに、前記サブ−レコードが前記入力語に一致す
る基準化形式を有する表示を伴う前記見出されたエント
リをリターンする手段を備えていることを特徴とする請
求項34に記載のコンピュータ・システム。 - 【請求項37】 検索している場合にエントリが見出さ
れずかつ前記電子辞書が形態素形式に関して完全に特定
されないときに、 前記入力語の異なる語彙を生成し;前記入力語の前記異
なる語彙の標準化された形式を生成し;かつ前記入力語
の前記異なる語彙の標準化された形式に一致するキーを
有している前記電子辞書においてエントリを検索する手
段を含んでいることを特徴とする請求項34に記載のコ
ンピュータ・システム。 - 【請求項38】 エントリが見出されかつ前記電子辞書
が同綴異義語形式に関して完全に特定されないときに、 前記入力語の異なる語彙を生成し;前記入力語の前記異
なる語彙の標準化された形式を生成し;かつ前記入力語
の前記異なる語彙の標準化された形式に一致するキーを
有している前記電子辞書においてエントリを検索する手
段を含んでいることを特徴とする請求項34に記載のコ
ンピュータ・システム。 - 【請求項39】 エントリが見出されかつ前記電子辞書
が同綴異義語形式に関して完全に特定されるときに、前
記見出されたエントリ及び当該エントリのサブ−レコー
ドが一致している語彙値を有する表示をリターンする手
段を含んでいることを特徴とする請求項34に記載のコ
ンピュータ・システム。 - 【請求項40】 前記入力語の正規化された形式の生成
は、ケースに関して前記入力語を正規化することを特徴
とする請求項34に記載の方法。 - 【請求項41】 前記入力語の正規化された形式の生成
は、発音区別符号に関して前記入力語を正規化すること
を特徴とする請求項34に記載の方法。 - 【請求項42】 入力語を受け取り;前記入力語の正規
化された形式を生成し;かつ前記エントリが前記入力語
に関する情報を含むように前記入力語の前記正規化され
た形式に対応しているエントリに対して前記生成された
電子辞書を検索することによって、同じ正規化された形
式を有する語の基準化形式に関する情報を含んでいるエ
ントリを有している電子辞書から情報をコンピュータ・
システムに検索させる命令を含んでいるコンピュータ読
取り可能媒体。 - 【請求項43】 前記正規化された形式は、全て小文字
を含むことを特徴とする請求項42に記載のコンピュー
タ読取り可能媒体。 - 【請求項44】 前記正規化された形式は、発音区別符
号を含まないことを特徴とする請求項42に記載のコン
ピュータ読取り可能媒体。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/641,804 US5995922A (en) | 1996-05-02 | 1996-05-02 | Identifying information related to an input word in an electronic dictionary |
| US08/641804 | 1996-05-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1074203A true JPH1074203A (ja) | 1998-03-17 |
Family
ID=24573919
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9149827A Withdrawn JPH1074203A (ja) | 1996-05-02 | 1997-05-02 | 大文字及び非強調テキストの語彙処理の方法及びシステム |
Country Status (3)
| Country | Link |
|---|---|
| US (2) | US5995922A (ja) |
| EP (1) | EP0805404A1 (ja) |
| JP (1) | JPH1074203A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266949A (ja) * | 2009-05-12 | 2010-11-25 | Ntt Data Corp | 文字列入力装置、文字列入力方法、およびプログラム |
Families Citing this family (157)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3952216B2 (ja) * | 1995-11-27 | 2007-08-01 | 富士通株式会社 | 翻訳装置及び辞書検索装置 |
| US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
| JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
| GB9713019D0 (en) * | 1997-06-20 | 1997-08-27 | Xerox Corp | Linguistic search system |
| US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
| US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
| JP3579240B2 (ja) * | 1998-02-13 | 2004-10-20 | 富士通株式会社 | 電子メール装置及び電子メールプログラムを記録したコンピュータ読取可能な記録媒体 |
| US6192333B1 (en) * | 1998-05-12 | 2001-02-20 | Microsoft Corporation | System for creating a dictionary |
| US6243670B1 (en) * | 1998-09-02 | 2001-06-05 | Nippon Telegraph And Telephone Corporation | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames |
| US6901402B1 (en) * | 1999-06-18 | 2005-05-31 | Microsoft Corporation | System for improving the performance of information retrieval-type tasks by identifying the relations of constituents |
| US7379862B1 (en) * | 1999-11-19 | 2008-05-27 | Microsoft Corporation | Method and apparatus for analyzing and debugging natural language parses |
| GB0004578D0 (en) * | 2000-02-25 | 2000-04-19 | Xrefer Com Limited | Automated data cross-referencing method |
| US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
| US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
| US6711561B1 (en) | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
| US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
| US8478732B1 (en) * | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
| JP4942901B2 (ja) * | 2000-05-17 | 2012-05-30 | マイクロソフト コーポレーション | テキスト入力を語彙知識ベースに照合しその照合の結果を利用するシステムおよび方法 |
| US6965857B1 (en) * | 2000-06-02 | 2005-11-15 | Cogilex Recherches & Developpement Inc. | Method and apparatus for deriving information from written text |
| US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
| US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
| US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
| US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
| US7254531B2 (en) | 2000-09-05 | 2007-08-07 | Nir Einat H | In-context analysis and automatic translation |
| SE524595C2 (sv) * | 2000-09-26 | 2004-08-31 | Hapax Information Systems Ab | Förfarande och datorprogram för normalisering av stilkast |
| GB2367917A (en) * | 2000-10-12 | 2002-04-17 | Qas Systems Ltd | Retrieving data representing a postal address from a database of postal addresses using a trie structure |
| US7660740B2 (en) | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
| AU2002213279A1 (en) * | 2000-10-16 | 2002-04-29 | Text Analysis International, Inc. | Method for analyzing text and method for builing text analyzers |
| US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
| US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
| US20020165975A1 (en) * | 2001-05-07 | 2002-11-07 | Michael Abbott | Dynamic mapping of communication protocols |
| US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
| US7734459B2 (en) | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
| WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
| US20070265834A1 (en) * | 2001-09-06 | 2007-11-15 | Einat Melnick | In-context analysis |
| US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
| US7113905B2 (en) * | 2001-12-20 | 2006-09-26 | Microsoft Corporation | Method and apparatus for determining unbounded dependencies during syntactic parsing |
| US7080352B2 (en) * | 2002-01-30 | 2006-07-18 | Dloo, Incorporated | Method and system for creating programs using code having coupled syntactic and semantic relationships |
| US7343372B2 (en) | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
| US7526424B2 (en) * | 2002-03-20 | 2009-04-28 | Microsoft Corporation | Sentence realization model for a natural language generation system |
| AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
| US20030187843A1 (en) * | 2002-04-02 | 2003-10-02 | Seward Robert Y. | Method and system for searching for a list of values matching a user defined search expression |
| US8719041B2 (en) | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
| US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
| GB0228942D0 (en) * | 2002-12-12 | 2003-01-15 | Ibm | Linguistic dictionary and method for production thereof |
| US7664628B2 (en) * | 2002-12-27 | 2010-02-16 | Casio Computer Co., Ltd. | Electronic dictionary with illustrative sentences |
| CN1512406A (zh) * | 2002-12-30 | 2004-07-14 | 国际商业机器公司 | 面向用户的电子词典、电子词典系统及其生成方法 |
| US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
| US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
| JP3768205B2 (ja) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
| US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
| US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
| US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
| US7447627B2 (en) | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
| US7398210B2 (en) * | 2003-10-23 | 2008-07-08 | Microsoft Corporation | System and method for performing analysis on word variants |
| US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
| GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
| US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
| US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
| US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
| DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
| US8175889B1 (en) | 2005-04-06 | 2012-05-08 | Experian Information Solutions, Inc. | Systems and methods for tracking changes of address based on service disconnect/connect data |
| US7908242B1 (en) | 2005-04-11 | 2011-03-15 | Experian Information Solutions, Inc. | Systems and methods for optimizing database queries |
| US8055608B1 (en) | 2005-06-10 | 2011-11-08 | NetBase Solutions, Inc. | Method and apparatus for concept-based classification of natural language discourse |
| JP3865141B2 (ja) * | 2005-06-15 | 2007-01-10 | 任天堂株式会社 | 情報処理プログラム及び情報処理装置 |
| US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
| US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
| US20070011160A1 (en) * | 2005-07-07 | 2007-01-11 | Denis Ferland | Literacy automation software |
| US20070100600A1 (en) * | 2005-10-28 | 2007-05-03 | Inventec Corporation | Explication system and method |
| US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
| WO2007105202A2 (en) * | 2006-03-10 | 2007-09-20 | Avraham Shpigel | Automatic reusable definitions identification (rdi) method |
| US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
| US8886518B1 (en) * | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
| EP2074572A4 (en) | 2006-08-17 | 2011-02-23 | Experian Inf Solutions Inc | SYSTEM AND METHOD FOR PROVIDING AN EVALUATION FOR A SECOND-HAND VEHICLE |
| US8145650B2 (en) * | 2006-08-18 | 2012-03-27 | Stanley Hyduke | Network of single-word processors for searching predefined data in transmission packets and databases |
| US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
| US7752193B2 (en) * | 2006-09-08 | 2010-07-06 | Guidance Software, Inc. | System and method for building and retrieving a full text index |
| FR2906049A1 (fr) * | 2006-09-19 | 2008-03-21 | Alcatel Sa | Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel |
| WO2008039860A1 (en) | 2006-09-26 | 2008-04-03 | Experian Information Solutions, Inc. | System and method for linking mutliple entities in a business database |
| US8036979B1 (en) | 2006-10-05 | 2011-10-11 | Experian Information Solutions, Inc. | System and method for generating a finance attribute from tradeline data |
| US8892423B1 (en) * | 2006-10-10 | 2014-11-18 | Abbyy Infopoisk Llc | Method and system to automatically create content for dictionaries |
| US8397157B2 (en) * | 2006-10-20 | 2013-03-12 | Adobe Systems Incorporated | Context-free grammar |
| US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
| US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
| US8065307B2 (en) | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
| US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
| US8606666B1 (en) | 2007-01-31 | 2013-12-10 | Experian Information Solutions, Inc. | System and method for providing an aggregation tool |
| US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
| US8285656B1 (en) | 2007-03-30 | 2012-10-09 | Consumerinfo.Com, Inc. | Systems and methods for data verification |
| US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
| WO2008127288A1 (en) | 2007-04-12 | 2008-10-23 | Experian Information Solutions, Inc. | Systems and methods for determining thin-file records and determining thin-file risk levels |
| US20080294540A1 (en) | 2007-05-25 | 2008-11-27 | Celka Christopher J | System and method for automated detection of never-pay data sets |
| JP4349440B2 (ja) * | 2007-06-07 | 2009-10-21 | カシオ計算機株式会社 | 情報表示装置及び情報表示プログラム |
| US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
| US8504349B2 (en) * | 2007-06-18 | 2013-08-06 | Microsoft Corporation | Text prediction with partial selection in a variety of domains |
| US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
| US8301574B2 (en) | 2007-09-17 | 2012-10-30 | Experian Marketing Solutions, Inc. | Multimedia engagement study |
| US9690820B1 (en) | 2007-09-27 | 2017-06-27 | Experian Information Solutions, Inc. | Database system for triggering event notifications based on updates to database records |
| US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
| US8312033B1 (en) | 2008-06-26 | 2012-11-13 | Experian Marketing Solutions, Inc. | Systems and methods for providing an integrated identifier |
| US9047285B1 (en) | 2008-07-21 | 2015-06-02 | NetBase Solutions, Inc. | Method and apparatus for frame-based search |
| US7991689B1 (en) | 2008-07-23 | 2011-08-02 | Experian Information Solutions, Inc. | Systems and methods for detecting bust out fraud using credit data |
| US8135581B2 (en) * | 2008-08-12 | 2012-03-13 | Abbyy Software Ltd | Method and system for downloading additional search results into electronic dictionaries |
| US9081765B2 (en) | 2008-08-12 | 2015-07-14 | Abbyy Infopoisk Llc | Displaying examples from texts in dictionaries |
| US8812304B2 (en) | 2008-08-12 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for downloading additional search results into electronic dictionaries |
| KR101045762B1 (ko) * | 2008-11-03 | 2011-07-01 | 한국과학기술원 | 실시간 시맨틱 어노테이션 장치 및 이를 활용하여 사용자가입력한 자연어 스트링을 실시간으로 의미 가독형 지식 구조 문서로 생성하는 방법 |
| US20100332292A1 (en) | 2009-06-30 | 2010-12-30 | Experian Information Solutions, Inc. | System and method for evaluating vehicle purchase loyalty |
| US8364518B1 (en) | 2009-07-08 | 2013-01-29 | Experian Ltd. | Systems and methods for forecasting household economics |
| US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
| US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
| US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
| US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
| US8694304B2 (en) * | 2010-03-26 | 2014-04-08 | Virtuoz Sa | Semantic clustering and user interfaces |
| US8676565B2 (en) * | 2010-03-26 | 2014-03-18 | Virtuoz Sa | Semantic clustering and conversational agents |
| US9378202B2 (en) | 2010-03-26 | 2016-06-28 | Virtuoz Sa | Semantic clustering |
| US9026529B1 (en) | 2010-04-22 | 2015-05-05 | NetBase Solutions, Inc. | Method and apparatus for determining search result demographics |
| US8725613B1 (en) | 2010-04-27 | 2014-05-13 | Experian Information Solutions, Inc. | Systems and methods for early account score and notification |
| US9152727B1 (en) | 2010-08-23 | 2015-10-06 | Experian Marketing Solutions, Inc. | Systems and methods for processing consumer information for targeted marketing applications |
| US8639616B1 (en) | 2010-10-01 | 2014-01-28 | Experian Information Solutions, Inc. | Business to contact linkage system |
| US9524291B2 (en) * | 2010-10-06 | 2016-12-20 | Virtuoz Sa | Visual display of semantic information |
| US9147042B1 (en) | 2010-11-22 | 2015-09-29 | Experian Information Solutions, Inc. | Systems and methods for data verification |
| US20120262461A1 (en) * | 2011-02-17 | 2012-10-18 | Conversive, Inc. | System and Method for the Normalization of Text |
| US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
| US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
| US9483606B1 (en) | 2011-07-08 | 2016-11-01 | Consumerinfo.Com, Inc. | Lifescore |
| WO2013009920A1 (en) | 2011-07-12 | 2013-01-17 | Experian Information Solutions, Inc. | Systems and methods for a large-scale credit data processing architecture |
| US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
| US9075799B1 (en) | 2011-10-24 | 2015-07-07 | NetBase Solutions, Inc. | Methods and apparatus for query formulation |
| US10872082B1 (en) | 2011-10-24 | 2020-12-22 | NetBase Solutions, Inc. | Methods and apparatuses for clustered storage of information |
| US20140242557A1 (en) * | 2012-01-13 | 2014-08-28 | Aderonke Akinsanya | Audible dictionary device and method |
| US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
| US8713464B2 (en) * | 2012-04-30 | 2014-04-29 | Dov Nir Aides | System and method for text input with a multi-touch screen |
| US9853959B1 (en) | 2012-05-07 | 2017-12-26 | Consumerinfo.Com, Inc. | Storage and maintenance of personal data |
| US8949263B1 (en) | 2012-05-14 | 2015-02-03 | NetBase Solutions, Inc. | Methods and apparatus for sentiment analysis |
| US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
| US20130318075A1 (en) | 2012-05-25 | 2013-11-28 | International Business Machines Corporation | Dictionary refinement for information extraction |
| US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
| US9697263B1 (en) | 2013-03-04 | 2017-07-04 | Experian Information Solutions, Inc. | Consumer data request fulfillment system |
| US9135243B1 (en) | 2013-03-15 | 2015-09-15 | NetBase Solutions, Inc. | Methods and apparatus for identification and analysis of temporally differing corpora |
| US9727619B1 (en) | 2013-05-02 | 2017-08-08 | Intelligent Language, LLC | Automated search |
| US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
| US10102536B1 (en) | 2013-11-15 | 2018-10-16 | Experian Information Solutions, Inc. | Micro-geographic aggregation system |
| US9529851B1 (en) | 2013-12-02 | 2016-12-27 | Experian Information Solutions, Inc. | Server architecture for electronic data quality processing |
| US10262362B1 (en) | 2014-02-14 | 2019-04-16 | Experian Information Solutions, Inc. | Automatic generation of code for attributes |
| RU2595531C2 (ru) | 2014-04-21 | 2016-08-27 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система генерирования определения слова на основе множественных источников |
| US9576030B1 (en) | 2014-05-07 | 2017-02-21 | Consumerinfo.Com, Inc. | Keeping up with the joneses |
| US10380203B1 (en) | 2014-05-10 | 2019-08-13 | NetBase Solutions, Inc. | Methods and apparatus for author identification of search results |
| US20150347570A1 (en) * | 2014-05-28 | 2015-12-03 | General Electric Company | Consolidating vocabulary for automated text processing |
| US10445152B1 (en) | 2014-12-19 | 2019-10-15 | Experian Information Solutions, Inc. | Systems and methods for dynamic report generation based on automatic modeling of complex data structures |
| US10678894B2 (en) | 2016-08-24 | 2020-06-09 | Experian Information Solutions, Inc. | Disambiguation and authentication of device users |
| CA3050139A1 (en) | 2017-01-31 | 2018-08-09 | Experian Information Solutions, Inc. | Massive scale heterogeneous data ingestion and user resolution |
| US10229195B2 (en) * | 2017-06-22 | 2019-03-12 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
| KR102509822B1 (ko) * | 2017-09-25 | 2023-03-14 | 삼성전자주식회사 | 문장 생성 방법 및 장치 |
| US10963434B1 (en) | 2018-09-07 | 2021-03-30 | Experian Information Solutions, Inc. | Data architecture for supporting multiple search models |
| US11941065B1 (en) | 2019-09-13 | 2024-03-26 | Experian Information Solutions, Inc. | Single identifier platform for storing entity data |
| US12197861B2 (en) * | 2021-02-19 | 2025-01-14 | International Business Machines Corporation | Learning rules and dictionaries with neuro-symbolic artificial intelligence |
| US11880377B1 (en) | 2021-03-26 | 2024-01-23 | Experian Information Solutions, Inc. | Systems and methods for entity resolution |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4706212A (en) * | 1971-08-31 | 1987-11-10 | Toma Peter P | Method using a programmed digital computer system for translation between natural languages |
| JPS5827547B2 (ja) * | 1979-01-26 | 1983-06-10 | シャープ株式会社 | 電子辞書 |
| US4420817A (en) * | 1979-05-25 | 1983-12-13 | Sharp Kabushiki Kaisha | Word endings inflection means for use with electronic translation device |
| US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
| JPS6282466A (ja) * | 1985-10-07 | 1987-04-15 | Toshiba Corp | 辞書検索装置 |
| US5225981A (en) * | 1986-10-03 | 1993-07-06 | Ricoh Company, Ltd. | Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes |
| US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
| US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
| US5146406A (en) | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
| US5329446A (en) * | 1990-01-19 | 1994-07-12 | Sharp Kabushiki Kaisha | Translation machine |
| JP2764343B2 (ja) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | 節/句境界抽出方式 |
| JP2640793B2 (ja) | 1992-01-17 | 1997-08-13 | 松下電器産業株式会社 | 共起辞書構築装置及びこの共起辞書を用いた文解析装置 |
| JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
| FR2690637A1 (fr) | 1992-04-29 | 1993-11-05 | Dujardin Montbard Somenor | Installation de manutention pour le transport de flans d'une machine de découpage à un dispositif d'empilage. |
| US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
| US5675815A (en) * | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
| US5734749A (en) * | 1993-12-27 | 1998-03-31 | Nec Corporation | Character string input system for completing an input character string with an incomplete input indicative sign |
| US5623406A (en) * | 1995-03-06 | 1997-04-22 | Jean D. Ichbiah | Method and system for entering text in computer equipment |
-
1996
- 1996-05-02 US US08/641,804 patent/US5995922A/en not_active Expired - Lifetime
-
1997
- 1997-04-29 EP EP97107120A patent/EP0805404A1/en not_active Ceased
- 1997-05-02 JP JP9149827A patent/JPH1074203A/ja not_active Withdrawn
-
1999
- 1999-05-03 US US09/303,992 patent/US6651220B1/en not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266949A (ja) * | 2009-05-12 | 2010-11-25 | Ntt Data Corp | 文字列入力装置、文字列入力方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US6651220B1 (en) | 2003-11-18 |
| EP0805404A1 (en) | 1997-11-05 |
| US5995922A (en) | 1999-11-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH1074203A (ja) | 大文字及び非強調テキストの語彙処理の方法及びシステム | |
| EP0907923B1 (en) | Method and system for computing semantic logical forms from syntax trees | |
| Kaplan et al. | Speed and accuracy in shallow and deep stochastic parsing | |
| Bikel | Intricacies of Collins’ parsing model | |
| US6061675A (en) | Methods and apparatus for classifying terminology utilizing a knowledge catalog | |
| Pradhan et al. | Semantic role chunking combining complementary syntactic views | |
| JP3476237B2 (ja) | 構文解析装置 | |
| JP2002215617A (ja) | 品詞タグ付けをする方法 | |
| JP2001101185A (ja) | 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体 | |
| Neumann et al. | A shallow text processing core engine | |
| Franz | Automatic ambiguity resolution in natural language processing: an empirical approach | |
| Gaizauskas et al. | Concepticons vs. lexicons: An architecture for multilingual information extraction | |
| Gibbon | Computational lexicography | |
| Jacobs | Generation in a Natural Language Interface. | |
| Sukhahuta et al. | Information extraction strategies for Thai documents | |
| Talmon et al. | Morphological Tagging of the Qur'an | |
| Dione | Finite-state tokenization for a deep wolof lfg grammar | |
| JP3580760B2 (ja) | 自動編集装置及び方法並びにこれに利用される記憶媒体 | |
| Batarfi et al. | Building an Arabic semantic lexicon for Hajj | |
| Ytrestøl | Transition-Based Parsing for Large-Scale Head-Driven Phrase Structure Grammars. | |
| Pembe et al. | A Tree Learning Approach to Web Document Sectional Hierarchy Extraction. | |
| Papakitsos et al. | Lazy tagging with functional decomposition and matrix lexica: an implementation in Modern Greek | |
| Ying | Diploma Thesis Analysis and Comparison of Existent Information Extraction Methods | |
| Reda | FACULTY OF INFORMATICS DEPARTMENT OF COMPUTER SCIENCE | |
| Trujillo | Disambiguation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20040706 |