JPH0855122A - 文脈タガー - Google Patents
文脈タガーInfo
- Publication number
- JPH0855122A JPH0855122A JP7157872A JP15787295A JPH0855122A JP H0855122 A JPH0855122 A JP H0855122A JP 7157872 A JP7157872 A JP 7157872A JP 15787295 A JP15787295 A JP 15787295A JP H0855122 A JPH0855122 A JP H0855122A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- tagger
- tagging
- transducer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 英語テキストに品詞タグ付けをするシステム
において、決定的有限状態トランスデューサを用いるこ
とで、大量の文書に対しても高速で正確にタグ付けでき
る文脈タガーを提供する。 【構成】 文脈ルールのシーケンス13を非決定的トラ
ンスデューサのシーケンス16に変換し、コンポーザ1
7、ディターミニスタ19を用いて、決定的有限状態ト
ランスデューサ11へと変換する。入力文にタグ付けを
するには、まずその文中の周囲の単語とは無関係に、最
も可能性の高い品詞タグを単語に割り当てる。その結果
の品詞タグのシーケンスを、決定的有限状態トランスデ
ューサ11によって、周囲の単語との関連によって最終
的な品詞タグが付けられる。また品詞タグ付けに必要な
時間は、入力文中の単語の数に比例し、適用するルール
の数とは無関係である。
において、決定的有限状態トランスデューサを用いるこ
とで、大量の文書に対しても高速で正確にタグ付けでき
る文脈タガーを提供する。 【構成】 文脈ルールのシーケンス13を非決定的トラ
ンスデューサのシーケンス16に変換し、コンポーザ1
7、ディターミニスタ19を用いて、決定的有限状態ト
ランスデューサ11へと変換する。入力文にタグ付けを
するには、まずその文中の周囲の単語とは無関係に、最
も可能性の高い品詞タグを単語に割り当てる。その結果
の品詞タグのシーケンスを、決定的有限状態トランスデ
ューサ11によって、周囲の単語との関連によって最終
的な品詞タグが付けられる。また品詞タグ付けに必要な
時間は、入力文中の単語の数に比例し、適用するルール
の数とは無関係である。
Description
【0001】
【産業上の利用分野】この発明は、英語のテキストに品
詞タグ付けをするシステム、特に、トレーニングコーパ
スから自動的に得られるルールによる、決定的有限状態
トランスデューサを用いた品詞タグ付けに関するもので
ある。
詞タグ付けをするシステム、特に、トレーニングコーパ
スから自動的に得られるルールによる、決定的有限状態
トランスデューサを用いた品詞タグ付けに関するもので
ある。
【0002】
【従来の技術】英語という言葉は、品詞という点で不明
瞭である。つまり、ある単語が名詞であったり、動詞の
過去形であったり、動詞の過去分詞であったりする。例
えば、”left”という単語は、”I took a
left turn.”(私は左の回転をした。)と
いう文では、「左の」という形容詞である。”He i
s on my left.”(彼は私の左にいる。)
という文では、「左」という名詞である。”He le
ft yesterday.”(彼は昨日発った。)と
いう文では、”leave”(発つ)という動詞の過去
形である。更に、”He has left.”(彼は
発ってしまった。)という文では、”leave”とい
う動詞の過去分詞形である。しかしながら、文脈の中で
は、英語の単語は不明瞭ではない。英語のテキストを扱
うのに必要なことは、文脈の中でのそれぞれの単語の品
詞を正しく割り当てることである。これは、品詞タグ付
けと呼ばれる問題である。
瞭である。つまり、ある単語が名詞であったり、動詞の
過去形であったり、動詞の過去分詞であったりする。例
えば、”left”という単語は、”I took a
left turn.”(私は左の回転をした。)と
いう文では、「左の」という形容詞である。”He i
s on my left.”(彼は私の左にいる。)
という文では、「左」という名詞である。”He le
ft yesterday.”(彼は昨日発った。)と
いう文では、”leave”(発つ)という動詞の過去
形である。更に、”He has left.”(彼は
発ってしまった。)という文では、”leave”とい
う動詞の過去分詞形である。しかしながら、文脈の中で
は、英語の単語は不明瞭ではない。英語のテキストを扱
うのに必要なことは、文脈の中でのそれぞれの単語の品
詞を正しく割り当てることである。これは、品詞タグ付
けと呼ばれる問題である。
【0003】文法チェッカ、スペルチェッカ、テキスト
検索、音声認識、ハンドライティング認識装置、文字認
識装置、テキスト要約装置等で英語のテキストを扱うに
は、文の中でこの品詞のシーケンスを見分けることが最
も重要である。品詞から品詞のシーケンスが得られる。
例えば、”I heard this band pl
ay.”(私はこのバンドが演奏するのを聞いた。)と
いう文が入力されれば、「代名詞、動詞、限定詞、名
詞、動詞」という品詞のシーケンスとなる。
検索、音声認識、ハンドライティング認識装置、文字認
識装置、テキスト要約装置等で英語のテキストを扱うに
は、文の中でこの品詞のシーケンスを見分けることが最
も重要である。品詞から品詞のシーケンスが得られる。
例えば、”I heard this band pl
ay.”(私はこのバンドが演奏するのを聞いた。)と
いう文が入力されれば、「代名詞、動詞、限定詞、名
詞、動詞」という品詞のシーケンスとなる。
【0004】従来の英語のテキストに品詞タグ付けをす
る方法は、統計ベースの方法かルールベースの方法かの
どちらかである。統計ベースの方法としては、「確率論
的品詞プログラムと開放テキストのための名詞句解
剖」”A Stochastic Parts Pro
gram and Noun Phrase Pars
er for Unrestricted Text”
(第二回応用自然言語処理会議議事録 the Pro
ceedings of the Second Co
nference on Applied Natur
al Language Processing、オー
スティン テキサス、1988年)に記載されたケニス
・チャーチの確率論的品詞プログラム(Kenneth
Church’s Stochastic Part
s Program)、「品詞タグ付けのための方程
式」”Equations for part−of−
speech tagging”(AAAI93 第九
回全国人工知能会議議事録 the Proceedi
ngs ofthe AAAI 93,Ninth N
ational Conferece on Arti
ficial Intelligence 1993
年)に記載されたチャーニアック、ユージーン、カーテ
ィス・ヘンドリクソン、ニール・ジャコブソン、マイク
・ペルコヴィツによる方法、「隠れマルコフモデルを用
いた確定的品詞タグ付け」”Robust part−
of−speech tagging using a
hidden markov model”(コンピ
ューター音声と言語ジャーナル第六巻 the jou
rnal ofComputer Speech an
d Language volume6 1992年)
に記載されたジュリアン・クーピックの方法、「確率モ
デルによる曖昧さと未知の単語への対処」”Copin
g with ambiguity and unkn
own words through probabi
listic models”(コンピューター言語ジ
ャーナル第十八巻第二番the journal of
Computation Linguistics
volume 18,number 2 1993年)
に記載されたラルフ・ウィスケデル、マリィ・ミター、
リチャード・シュワルツ、ランス・ラムショウ、ジェフ
・パルマッチによる方法がある。ルールベースの方法と
しては「ルールベースの品詞タガー」”A simpl
e rule−based part of spee
ch tagger”(第三回応用自然言語処理会議議
事録the proceedings of the
Third Conference on Appli
ed Natural Language Proce
ssing 1992年)に記載されたエリック・ブリ
ルの方法がある。
る方法は、統計ベースの方法かルールベースの方法かの
どちらかである。統計ベースの方法としては、「確率論
的品詞プログラムと開放テキストのための名詞句解
剖」”A Stochastic Parts Pro
gram and Noun Phrase Pars
er for Unrestricted Text”
(第二回応用自然言語処理会議議事録 the Pro
ceedings of the Second Co
nference on Applied Natur
al Language Processing、オー
スティン テキサス、1988年)に記載されたケニス
・チャーチの確率論的品詞プログラム(Kenneth
Church’s Stochastic Part
s Program)、「品詞タグ付けのための方程
式」”Equations for part−of−
speech tagging”(AAAI93 第九
回全国人工知能会議議事録 the Proceedi
ngs ofthe AAAI 93,Ninth N
ational Conferece on Arti
ficial Intelligence 1993
年)に記載されたチャーニアック、ユージーン、カーテ
ィス・ヘンドリクソン、ニール・ジャコブソン、マイク
・ペルコヴィツによる方法、「隠れマルコフモデルを用
いた確定的品詞タグ付け」”Robust part−
of−speech tagging using a
hidden markov model”(コンピ
ューター音声と言語ジャーナル第六巻 the jou
rnal ofComputer Speech an
d Language volume6 1992年)
に記載されたジュリアン・クーピックの方法、「確率モ
デルによる曖昧さと未知の単語への対処」”Copin
g with ambiguity and unkn
own words through probabi
listic models”(コンピューター言語ジ
ャーナル第十八巻第二番the journal of
Computation Linguistics
volume 18,number 2 1993年)
に記載されたラルフ・ウィスケデル、マリィ・ミター、
リチャード・シュワルツ、ランス・ラムショウ、ジェフ
・パルマッチによる方法がある。ルールベースの方法と
しては「ルールベースの品詞タガー」”A simpl
e rule−based part of spee
ch tagger”(第三回応用自然言語処理会議議
事録the proceedings of the
Third Conference on Appli
ed Natural Language Proce
ssing 1992年)に記載されたエリック・ブリ
ルの方法がある。
【0005】
【発明が解決しようとする課題】従来技術による品詞タ
グ付けの方法は、入力文の単語の数、更に、適用するル
ールの数によって、品詞タグ付けの時間が決まるので、
大変時間がかかるものであった。つまり、例えば、図書
館の蔵書のような大量の英語のテキストに品詞タグ付け
をするには、従来技術によるシステムは適用できなかっ
た。
グ付けの方法は、入力文の単語の数、更に、適用するル
ールの数によって、品詞タグ付けの時間が決まるので、
大変時間がかかるものであった。つまり、例えば、図書
館の蔵書のような大量の英語のテキストに品詞タグ付け
をするには、従来技術によるシステムは適用できなかっ
た。
【0006】前述したように、近年、ブリルによってル
ールベースのタガーが提案された。これは、確率モデル
によるタガーと同様の効果が得られ、ルールベースの言
語処理へのアプローチの共通の限界を克服するものであ
る。タグ付けは確実なものであり、ルールは自動的に得
られる。更に、このタガーは、確率論的なタガーより
も、はるかに少ないスペースですむ。しかしながら、現
在実施されているブリルのタガーは、確率モデルによる
タガーよりも、かなり遅いものである。これは、C語の
文脈から得られるR個のルールを用いて、n語の入力に
タグ付けをするためには、RCn個のエレメンタリース
テップを要するためである。
ールベースのタガーが提案された。これは、確率モデル
によるタガーと同様の効果が得られ、ルールベースの言
語処理へのアプローチの共通の限界を克服するものであ
る。タグ付けは確実なものであり、ルールは自動的に得
られる。更に、このタガーは、確率論的なタガーより
も、はるかに少ないスペースですむ。しかしながら、現
在実施されているブリルのタガーは、確率モデルによる
タガーよりも、かなり遅いものである。これは、C語の
文脈から得られるR個のルールを用いて、n語の入力に
タグ付けをするためには、RCn個のエレメンタリース
テップを要するためである。
【0007】例えば、ブリルの方法によれば、200個
の文脈タグ付けルールを用いれば、品詞タグを決めるの
にそれぞれの単語にこれを適用していく。これは、一つ
一つのルールをそれぞれの単語に当てはめていくもの
で、また一つのルールによる結果を、後から適用した他
のルールによる結果が変えることもある。ブリルの方法
が大変時間がかかることの原因の一つは、一つのルール
による結果を他のルールによる結果が変えることもある
という、この非決定的なアプローチにある。一方、タグ
付けのスピードを上げるためには、一つの単語を読み込
むと、ただ一つの品詞が決められ、一つ以上のパスを要
しない、決定的タグ付けシステムが望まれる。
の文脈タグ付けルールを用いれば、品詞タグを決めるの
にそれぞれの単語にこれを適用していく。これは、一つ
一つのルールをそれぞれの単語に当てはめていくもの
で、また一つのルールによる結果を、後から適用した他
のルールによる結果が変えることもある。ブリルの方法
が大変時間がかかることの原因の一つは、一つのルール
による結果を他のルールによる結果が変えることもある
という、この非決定的なアプローチにある。一方、タグ
付けのスピードを上げるためには、一つの単語を読み込
むと、ただ一つの品詞が決められ、一つ以上のパスを要
しない、決定的タグ付けシステムが望まれる。
【0008】ブリルのタガーは、トレーニングコーパス
から推論される三つの部分からなる。辞書的タガー、未
知の単語タガー、それに文脈タガーである。未知の単語
タガーは後述することとして、ここでは主として、辞書
的タガーと文脈タガーを説明する。
から推論される三つの部分からなる。辞書的タガー、未
知の単語タガー、それに文脈タガーである。未知の単語
タガーは後述することとして、ここでは主として、辞書
的タガーと文脈タガーを説明する。
【0009】品詞タグ付けに用いる記号は、次のように
する。”pps”は三人称単数主格代名詞、”vbd”
は動詞過去形、”np”は固有名詞、”vbn”は動詞
過去分詞形、”by”は”by”という単語、”at”
は限定詞、”nn”は単数名詞、”bedz”は”wa
s”という単語を、それぞれ表している。
する。”pps”は三人称単数主格代名詞、”vbd”
は動詞過去形、”np”は固有名詞、”vbn”は動詞
過去分詞形、”by”は”by”という単語、”at”
は限定詞、”nn”は単数名詞、”bedz”は”wa
s”という単語を、それぞれ表している。
【0010】ブリルによる辞書的タガーは、文脈に関わ
りなく、多くのタグ付けされたトレーニングコーパスを
調べることで、推測される最も可能性の高い品詞タグ
を、最初にそれぞれの単語に割り当てる。例えば、単
語”killed”に対して”vbn”が最も可能性の
高いタグであり、”shot”には”vbd”が最も可
能性の高いタグであるとすれば、辞書的タガーにより、
次のような品詞タグが付けられる。 (1)Chapman/np killed/vbn
John/np Lenon/np (2)John/np Lenon/np was/b
edz shot/vbd by/by Chapma
n/np (3)He/pps witnessed/vbd L
enon/np killed/vbn by/by
Chapman/np
りなく、多くのタグ付けされたトレーニングコーパスを
調べることで、推測される最も可能性の高い品詞タグ
を、最初にそれぞれの単語に割り当てる。例えば、単
語”killed”に対して”vbn”が最も可能性の
高いタグであり、”shot”には”vbd”が最も可
能性の高いタグであるとすれば、辞書的タガーにより、
次のような品詞タグが付けられる。 (1)Chapman/np killed/vbn
John/np Lenon/np (2)John/np Lenon/np was/b
edz shot/vbd by/by Chapma
n/np (3)He/pps witnessed/vbd L
enon/np killed/vbn by/by
Chapman/np
【0011】ブリルによる辞書的タガーは、文脈につい
ての情報を何も用いないために、多くの単語が間違って
タグ付けされる。上記の例では、(1)の”kille
d”は動詞の過去分詞形と誤ってタグ付けされ、(2)
の”shot”は動詞の過去形と誤ってタグ付けされて
いる。このシステムでは、辞書的タガーによって得られ
た最初のタグ付けに対して、その後、ルールのシーケン
スを適用していき、最初のタグ付けのエラーを正すもの
である。例えば、次のようなルールが文脈タガーに用い
られる。 ルール1:vbn vbd PREVTAG np ルール2:vbd vbn NEXTTAG by
ての情報を何も用いないために、多くの単語が間違って
タグ付けされる。上記の例では、(1)の”kille
d”は動詞の過去分詞形と誤ってタグ付けされ、(2)
の”shot”は動詞の過去形と誤ってタグ付けされて
いる。このシステムでは、辞書的タガーによって得られ
た最初のタグ付けに対して、その後、ルールのシーケン
スを適用していき、最初のタグ付けのエラーを正すもの
である。例えば、次のようなルールが文脈タガーに用い
られる。 ルール1:vbn vbd PREVTAG np ルール2:vbd vbn NEXTTAG by
【0012】ルール1は、タグ”vbn”の前のタグ
が”np”であれば、”vbn”ではなく”vbd”に
変えるよう規定している。ルール2では、タグ”vb
d”の次のタグが”by”であれば、”vbd”ではな
く”vbn”に変えるよう規定している。ルール1の適
用により、(1)と(3)中の”killed”に対す
るタグは”vbn”ではなく、”vbd”となり、タグ
付けされた文は次のようになる。 (4)Chapman/np killed/vbd
John/np Lenon/np (5)John/np Lenon/np was/b
edz shot/vbd by/by Chapma
n/np (6)He/pps witnessed/vbd L
enon/np killed/vbd by/by
Chapman/np
が”np”であれば、”vbn”ではなく”vbd”に
変えるよう規定している。ルール2では、タグ”vb
d”の次のタグが”by”であれば、”vbd”ではな
く”vbn”に変えるよう規定している。ルール1の適
用により、(1)と(3)中の”killed”に対す
るタグは”vbn”ではなく、”vbd”となり、タグ
付けされた文は次のようになる。 (4)Chapman/np killed/vbd
John/np Lenon/np (5)John/np Lenon/np was/b
edz shot/vbd by/by Chapma
n/np (6)He/pps witnessed/vbd L
enon/np killed/vbd by/by
Chapman/np
【0013】更に、ルール2の適用により、(5)の”
shot”に対するタグは”vbd”ではなく”vb
n”となり、タグ付けされた文は(8)のようになる。
また、(6)の”killed”に対するタグは”vb
d”から”vbn”に戻され、タグ付けされた文は
(9)のようになる。 (7)Chapman/np killed/vbd
John/np Lenon/np (8)John/np Lenon/np was/b
edz shot/vbn by/by Chapma
n/np (9)He/pps witnessed/vbd L
enon/np killed/vbn by/by
Chapman/np
shot”に対するタグは”vbd”ではなく”vb
n”となり、タグ付けされた文は(8)のようになる。
また、(6)の”killed”に対するタグは”vb
d”から”vbn”に戻され、タグ付けされた文は
(9)のようになる。 (7)Chapman/np killed/vbd
John/np Lenon/np (8)John/np Lenon/np was/b
edz shot/vbn by/by Chapma
n/np (9)He/pps witnessed/vbd L
enon/np killed/vbn by/by
Chapman/np
【0014】ブリルによれば、文脈ルールは、自動的に
トレーニングコーパスから推測される。まず、辞書的タ
ガーによるタグ付けを実行する。タグ付けエラーリスト
がエラーの数とともに、辞書的タガーによるタグ付け結
果と正しい品詞付けとを比べることにより生成される。
次に、エラーリストのそれぞれのエラーに対して、一組
の文脈ルールテンプレートのどの場合がエラーを最も効
率よく減らすか決められる。そして、そのルールを適用
することによる新しいエラーが計算される。この過程
は、エラーの減少がある閾値より低くなるまで繰り返さ
れる。図15に一組の文脈ルールテンプレートを示す。
トレーニングコーパスから推測される。まず、辞書的タ
ガーによるタグ付けを実行する。タグ付けエラーリスト
がエラーの数とともに、辞書的タガーによるタグ付け結
果と正しい品詞付けとを比べることにより生成される。
次に、エラーリストのそれぞれのエラーに対して、一組
の文脈ルールテンプレートのどの場合がエラーを最も効
率よく減らすか決められる。そして、そのルールを適用
することによる新しいエラーが計算される。この過程
は、エラーの減少がある閾値より低くなるまで繰り返さ
れる。図15に一組の文脈ルールテンプレートを示す。
【0015】図15に示す文脈ルールテンプレートをト
レーニングすることで、280個の文脈ルールが得られ
る。この結果、確率モデルベースのタガーと同様の効果
が得られ、ルールベースの言語処理へのアプローチに共
通の限界を克服できる。つまり、ブリルのタガーは確実
であり、ルールは自動的に得られる。更に、ブリルのタ
ガーは、確率論的タガーよりもはるかに少ないスペース
ですむ。しかしながら、ブリルのタガーは、本質的に遅
い点が問題である。
レーニングすることで、280個の文脈ルールが得られ
る。この結果、確率モデルベースのタガーと同様の効果
が得られ、ルールベースの言語処理へのアプローチに共
通の限界を克服できる。つまり、ブリルのタガーは確実
であり、ルールは自動的に得られる。更に、ブリルのタ
ガーは、確率論的タガーよりもはるかに少ないスペース
ですむ。しかしながら、ブリルのタガーは、本質的に遅
い点が問題である。
【0016】辞書的タグ付けがなされると、ブリルのア
ルゴリズムによって、トレーニングによって得られた文
脈ルールを、それぞれの文に適用しタグ付けがされる。
それぞれのルールについて、アルゴリズムが、そのルー
ルをトリガしようとする間に、入力文を左から右へスキ
ャンする。この単一アルゴリズムは、下記の二つの点で
計算上非能率的である。
ルゴリズムによって、トレーニングによって得られた文
脈ルールを、それぞれの文に適用しタグ付けがされる。
それぞれのルールについて、アルゴリズムが、そのルー
ルをトリガしようとする間に、入力文を左から右へスキ
ャンする。この単一アルゴリズムは、下記の二つの点で
計算上非能率的である。
【0017】一つには、入力文のそれぞれのトークンに
一つのルールを適用する時、そのトークンが、前の位置
で、同じルールを適用されているかもしれないというこ
とを、無視して行われる点で非能率的である。ブリルの
アルゴリズムは、それぞれのルールが、入力文のタグに
対してスライドするテンプレートであるかのように作用
する。例えば、A B PREVBIGRAM C C
(前二つのタグがCである時、タグAをタグBに変え
よ。)というルールについて検討してみる。入力C D
C C Aに適用すると、図16(a),(b),
(c)に示すように、三つの列が考えられる。それぞれ
の段階で、前段階の部分的一致、又は不一致は記録され
ていない。図16の例では、(b)の列は、(a)の情
報が得られれば、スキップすることができるはずであ
る。
一つのルールを適用する時、そのトークンが、前の位置
で、同じルールを適用されているかもしれないというこ
とを、無視して行われる点で非能率的である。ブリルの
アルゴリズムは、それぞれのルールが、入力文のタグに
対してスライドするテンプレートであるかのように作用
する。例えば、A B PREVBIGRAM C C
(前二つのタグがCである時、タグAをタグBに変え
よ。)というルールについて検討してみる。入力C D
C C Aに適用すると、図16(a),(b),
(c)に示すように、三つの列が考えられる。それぞれ
の段階で、前段階の部分的一致、又は不一致は記録され
ていない。図16の例では、(b)の列は、(a)の情
報が得られれば、スキップすることができるはずであ
る。
【0018】このアルゴリズムが非能率的である二つ目
の理由は、ルール間の相互作用の可能性である。例え
ば、ルール1とルール2を、 ”He/pps witnessed/vbd Len
on/np killed/vbn by/by Ch
apman/np” という文に適用すると、ルール1によって、 ”He/pps witnessed/vbd Len
on/np killed/vbd by/by Ch
apman/np” と変化し、更に、ルール2によって、 ”He/pps witnessed/vbd Len
on/np killed/vbn by/by Ch
apman/np” となる。
の理由は、ルール間の相互作用の可能性である。例え
ば、ルール1とルール2を、 ”He/pps witnessed/vbd Len
on/np killed/vbn by/by Ch
apman/np” という文に適用すると、ルール1によって、 ”He/pps witnessed/vbd Len
on/np killed/vbd by/by Ch
apman/np” と変化し、更に、ルール2によって、 ”He/pps witnessed/vbd Len
on/np killed/vbn by/by Ch
apman/np” となる。
【0019】つまり、このアルゴリズムは不必要な計算
をする可能性があり、非能率的である。ブリルの文脈タ
ガー実施のためのアルゴリズムは、Cトークンの文脈か
ら得られるR個の文脈ルールを用いて、n語の入力にタ
グ付けをするためには、RCn個のエレメンタリーステ
ップを要する。
をする可能性があり、非能率的である。ブリルの文脈タ
ガー実施のためのアルゴリズムは、Cトークンの文脈か
ら得られるR個の文脈ルールを用いて、n語の入力にタ
グ付けをするためには、RCn個のエレメンタリーステ
ップを要する。
【0020】この発明は、以上のような問題点を解決す
るためになされたものであり、英語のテキストに品詞タ
グを非常に高速に割り当てる文脈タガーを得ることを目
的とする。
るためになされたものであり、英語のテキストに品詞タ
グを非常に高速に割り当てる文脈タガーを得ることを目
的とする。
【0021】また、この発明は、統計やルールに基づい
た従来のアプローチに基づかずに、品詞のタグ付けを正
確に行うことが可能なルールの集合を獲得することを目
的とする。
た従来のアプローチに基づかずに、品詞のタグ付けを正
確に行うことが可能なルールの集合を獲得することを目
的とする。
【0022】また、この発明は、獲得したルールの集合
を用いて最終的に決定的有限状態トランスデューサに変
換することを目的とする。
を用いて最終的に決定的有限状態トランスデューサに変
換することを目的とする。
【0023】また、この発明は、入力文に対して文脈と
は無関係に、各単語に対して最も可能性の高い品詞をタ
グ付けし、その後、文脈を用いて最終的な品詞タグを得
る文脈タガーを得ることを目的とする。
は無関係に、各単語に対して最も可能性の高い品詞をタ
グ付けし、その後、文脈を用いて最終的な品詞タグを得
る文脈タガーを得ることを目的とする。
【0024】また、この発明は、文脈ルールの数に依存
しない時間により、品詞のタグ付けを行う文脈タガーを
得ることを目的とする。
しない時間により、品詞のタグ付けを行う文脈タガーを
得ることを目的とする。
【0025】
【課題を解決するための手段】この発明に係る文脈タガ
ーは、入力文の単語に品詞タグ付けをする文脈タガーに
おいて、入力文の単語に対し、シングルパスで、文脈に
応じてタグ付けする決定的有限状態トランスデューサを
備えたことを特徴とする。
ーは、入力文の単語に品詞タグ付けをする文脈タガーに
おいて、入力文の単語に対し、シングルパスで、文脈に
応じてタグ付けする決定的有限状態トランスデューサを
備えたことを特徴とする。
【0026】上記決定的有限状態トランスデューサは、
各入力単語に対し、ただ一つのタグ付けを選択する手段
を有することを特徴とする。
各入力単語に対し、ただ一つのタグ付けを選択する手段
を有することを特徴とする。
【0027】上記ただ一つのタグ付けを選択する手段
は、可能なタグ付けの選択のうち、ただ一つの選択を確
定できるに充分な文脈を読み込むまで、タグ付けの選択
を延期する手段を有することを特徴とする。
は、可能なタグ付けの選択のうち、ただ一つの選択を確
定できるに充分な文脈を読み込むまで、タグ付けの選択
を延期する手段を有することを特徴とする。
【0028】上記単語は、上記入力文において、それぞ
れが特定可能なシーケンシャルな位置を持つとともに、
上記決定的有限状態トランスデューサは、その単語の品
詞を決定するための解析のために、一つの位置で単語を
選択する手段と、上記文中の先行する単語の品詞に基づ
いて、上記選択した単語の品詞を選択する手段と、上記
文中の先行する単語の品詞が、上記選択した単語の品詞
の決定に関し、ただ一つの結論へ導かないときは、上記
選択した単語の品詞の選択を禁じる手段を有することを
特徴とする。
れが特定可能なシーケンシャルな位置を持つとともに、
上記決定的有限状態トランスデューサは、その単語の品
詞を決定するための解析のために、一つの位置で単語を
選択する手段と、上記文中の先行する単語の品詞に基づ
いて、上記選択した単語の品詞を選択する手段と、上記
文中の先行する単語の品詞が、上記選択した単語の品詞
の決定に関し、ただ一つの結論へ導かないときは、上記
選択した単語の品詞の選択を禁じる手段を有することを
特徴とする。
【0029】上記決定的有限状態トランスデューサは、
上記選択した単語の品詞を選択する手段とともに、上記
入力文の上記選択した単語の品詞の選択が明確になるま
で、上記入力文の他の単語の品詞を解析する手段の動作
を禁止する手段を有することを特徴とする。
上記選択した単語の品詞を選択する手段とともに、上記
入力文の上記選択した単語の品詞の選択が明確になるま
で、上記入力文の他の単語の品詞を解析する手段の動作
を禁止する手段を有することを特徴とする。
【0030】上記他の単語の品詞を解析する手段は、上
記選択した単語に後続する位置にある他の単語のみを選
択することを特徴とする。
記選択した単語に後続する位置にある他の単語のみを選
択することを特徴とする。
【0031】上記入力文の単語に、周囲の単語とは関わ
りなく、最も可能性の高い品詞を割り当てることで初期
的タグ付けする手段と、周囲の単語を文脈として用い
て、最終的な品詞タグ付けをするために、上記決定的有
限状態トランスデューサを利用する手段を有することを
特徴とする。
りなく、最も可能性の高い品詞を割り当てることで初期
的タグ付けする手段と、周囲の単語を文脈として用い
て、最終的な品詞タグ付けをするために、上記決定的有
限状態トランスデューサを利用する手段を有することを
特徴とする。
【0032】上記決定的有限状態トランスデューサは、
タグ付けしたテキストのトレーニングコーパスから生成
されたタグ付けルールのセットと、上記タグ付けルール
を入力とする非決定的トランスデューサと、一つ以上の
上記非決定的トランスデューサの出力をあわせて、一つ
の総合的な非決定的トランスデューサに変換するコンポ
ーザと、正しいタグ付けの選択をするため充分な量の文
脈情報が得られるまで、タグ付けの選択に関して決定を
延期するディターミニスタとから生成されることを特徴
とする。
タグ付けしたテキストのトレーニングコーパスから生成
されたタグ付けルールのセットと、上記タグ付けルール
を入力とする非決定的トランスデューサと、一つ以上の
上記非決定的トランスデューサの出力をあわせて、一つ
の総合的な非決定的トランスデューサに変換するコンポ
ーザと、正しいタグ付けの選択をするため充分な量の文
脈情報が得られるまで、タグ付けの選択に関して決定を
延期するディターミニスタとから生成されることを特徴
とする。
【0033】上記決定的有限状態トランスデューサは、
上記入力文中の単語の文脈の違いに従って、以前に決定
した品詞のシーケンスの有限個の数のみを利用すること
を特徴とする。
上記入力文中の単語の文脈の違いに従って、以前に決定
した品詞のシーケンスの有限個の数のみを利用すること
を特徴とする。
【0034】
【作用】この発明における文脈タガーは、決定的有限状
態トランスデューサを備えており、入力文を左から右へ
読み込むとき、有限個の単語のみを用いてタグ付けを行
う。また、入力した単語に対して、たった一つのタグ付
けがなされるようにする。このように、決定的有限状態
トランスデューサを用いることにより、文脈タガーの処
理を一つの経路をたどって決定的なタグ付けを行う。
態トランスデューサを備えており、入力文を左から右へ
読み込むとき、有限個の単語のみを用いてタグ付けを行
う。また、入力した単語に対して、たった一つのタグ付
けがなされるようにする。このように、決定的有限状態
トランスデューサを用いることにより、文脈タガーの処
理を一つの経路をたどって決定的なタグ付けを行う。
【0035】また、この発明においては、一つの単語の
に対してただ一つのタグ付けを選択するので、一つの経
路をたどることによりタグ付けを行う。
に対してただ一つのタグ付けを選択するので、一つの経
路をたどることによりタグ付けを行う。
【0036】また、この発明においては、ただ一つのタ
グ付けを選択できるようになるまで充分な文脈を読み込
むので、タグ付けを延期する。
グ付けを選択できるようになるまで充分な文脈を読み込
むので、タグ付けを延期する。
【0037】また、この発明においては、入力文の左か
ら右に向かったただ一つの経路を用いてタグ付けを行う
ので、ある注目した単語の品詞を決定する場合に、先行
する単語の品詞に基づいて注目した単語の品詞を選択す
る。もし、注目した単語の品詞が、先行する単語の品詞
に基づいて選択できない場合には、注目した単語の品詞
の選択を行わない。
ら右に向かったただ一つの経路を用いてタグ付けを行う
ので、ある注目した単語の品詞を決定する場合に、先行
する単語の品詞に基づいて注目した単語の品詞を選択す
る。もし、注目した単語の品詞が、先行する単語の品詞
に基づいて選択できない場合には、注目した単語の品詞
の選択を行わない。
【0038】また、この発明においては、注目した単語
の品詞が決定されるまで、後に存在する他の単語の品詞
の解析を行わない。
の品詞が決定されるまで、後に存在する他の単語の品詞
の解析を行わない。
【0039】また、この発明においては、単語の品詞を
解析する手段は、注目した単語より後にある単語のみを
選択する。従って、タグ付けが注目した単語よりも、先
行する単語の品詞の解析結果に基づいてなされることは
ない。
解析する手段は、注目した単語より後にある単語のみを
選択する。従って、タグ付けが注目した単語よりも、先
行する単語の品詞の解析結果に基づいてなされることは
ない。
【0040】また、この発明においては、上記決定的有
限状態トランスデューサを利用する前に、初期的タグ付
けを行い、初期的タグ付けによるエラーを上記決定的有
限状態トランスデューサにより訂正する。
限状態トランスデューサを利用する前に、初期的タグ付
けを行い、初期的タグ付けによるエラーを上記決定的有
限状態トランスデューサにより訂正する。
【0041】また、この発明においては、上記決定的有
限トランスデューサは、トレーニングコーパスから生成
された文脈ルールを入力として、非決定的トランスデュ
ーサを生成し、生成された非決定的トランスデューサに
対して、コンポーザとディターミニスタを作用させるこ
とにより生成される。
限トランスデューサは、トレーニングコーパスから生成
された文脈ルールを入力として、非決定的トランスデュ
ーサを生成し、生成された非決定的トランスデューサに
対して、コンポーザとディターミニスタを作用させるこ
とにより生成される。
【0042】また、この発明においては、上記決定的有
限トランスデューサが、有限個の品詞のシーケンスを利
用してタグ付けを行い、処理時間を短縮する。
限トランスデューサが、有限個の品詞のシーケンスを利
用してタグ付けを行い、処理時間を短縮する。
【0043】
【実施例】本実施例では、英語のテキストに品詞タグ付
けをするシステムを構築するために、まず、タグ付けし
たテキストのトレーニングコーパスを調べることで、タ
グ付けルールのセットを得る。このトレーニング段階
で、辞書中のそれぞれの単語は、トレーニングコーパス
の中で最も可能性の高い品詞を伴う。例えば、”lef
t”という単語は、”VERB−PAST−TENS
E”(動詞過去形)という品詞が付いている。この”l
eft”という単語は、”ADJECTIVE”(形容
詞)の場合もあるが、頻度がより少ないのでここでは記
録されていない。この辞書によるタグ付けでは、”Tu
rn left at the light.”のよう
な文では多くのエラーを生んでしまう。この最初のタグ
付けで生じたエラーは、トレーニングコーパスから自動
的に得られる文脈ルールのシーケンスを、適用すること
で訂正される。文脈ルールの一例を挙げれば、”CHA
NGE VERB−PAST−TENSE TO AD
JECTIVE IF THE PREVIOUS T
AG IS VERB.”(前の単語の品詞タグが動詞
であったら、動詞過去形は形容詞に変えよ。)というも
のである。最初のタグ付けの出力を正しい品詞付けと比
較して、タグ付けのエラーをそのエラーの数とともにリ
ストにしておく。上記の文脈ルールは、こうしたリスト
をコンパイルすることで自動的に得られる。次に、それ
ぞれのエラーに対しては、一組のルールテンプレートの
どのテンプレートがエラーを最も効率よく減らすか決め
られる。そして、そのルールを適用することによる新し
いエラーが計算され、この過程は、エラーの減少がある
閾値より低くなるまで繰り返される。一組の文脈ルール
テンプレートを用いて、正しい品詞が添えられた30,
000文のトレーニングコーパスについて、トレーニン
グすると、280個の文脈ルールが得られる。これらの
ルールは、決定的有限状態トランスデューサと呼ばれる
コンパクトな装置に変換され、文脈タガーとして機能す
る。有限状態トランスデューサは、有限状態のオートマ
トンであり、その遷移は、ペアのシンボルによってラベ
ル付けされる。ペアのシンボルのうち一つは入力であ
り、もう一つは出力である。有限状態トランスデューサ
を入力に適用することは、入力シンボルに従って文をた
どっていく一方、出力シンボルを記憶することであり、
その結果は、出力シンボルのシーケンスとなる。
けをするシステムを構築するために、まず、タグ付けし
たテキストのトレーニングコーパスを調べることで、タ
グ付けルールのセットを得る。このトレーニング段階
で、辞書中のそれぞれの単語は、トレーニングコーパス
の中で最も可能性の高い品詞を伴う。例えば、”lef
t”という単語は、”VERB−PAST−TENS
E”(動詞過去形)という品詞が付いている。この”l
eft”という単語は、”ADJECTIVE”(形容
詞)の場合もあるが、頻度がより少ないのでここでは記
録されていない。この辞書によるタグ付けでは、”Tu
rn left at the light.”のよう
な文では多くのエラーを生んでしまう。この最初のタグ
付けで生じたエラーは、トレーニングコーパスから自動
的に得られる文脈ルールのシーケンスを、適用すること
で訂正される。文脈ルールの一例を挙げれば、”CHA
NGE VERB−PAST−TENSE TO AD
JECTIVE IF THE PREVIOUS T
AG IS VERB.”(前の単語の品詞タグが動詞
であったら、動詞過去形は形容詞に変えよ。)というも
のである。最初のタグ付けの出力を正しい品詞付けと比
較して、タグ付けのエラーをそのエラーの数とともにリ
ストにしておく。上記の文脈ルールは、こうしたリスト
をコンパイルすることで自動的に得られる。次に、それ
ぞれのエラーに対しては、一組のルールテンプレートの
どのテンプレートがエラーを最も効率よく減らすか決め
られる。そして、そのルールを適用することによる新し
いエラーが計算され、この過程は、エラーの減少がある
閾値より低くなるまで繰り返される。一組の文脈ルール
テンプレートを用いて、正しい品詞が添えられた30,
000文のトレーニングコーパスについて、トレーニン
グすると、280個の文脈ルールが得られる。これらの
ルールは、決定的有限状態トランスデューサと呼ばれる
コンパクトな装置に変換され、文脈タガーとして機能す
る。有限状態トランスデューサは、有限状態のオートマ
トンであり、その遷移は、ペアのシンボルによってラベ
ル付けされる。ペアのシンボルのうち一つは入力であ
り、もう一つは出力である。有限状態トランスデューサ
を入力に適用することは、入力シンボルに従って文をた
どっていく一方、出力シンボルを記憶することであり、
その結果は、出力シンボルのシーケンスとなる。
【0044】一セットのルールを適用するのに、本発明
の文脈タガーには、四つのステップがある。最初のステ
ップで、それぞれの文脈ルールをルール−トランスデュ
ーサ変換機と呼ぶ有限状態トランスデューサに変える。
文脈ルールは、それぞれローカルに規定され、そこに書
かれた変換のルールは、入力文のそれぞれの位置で適用
される。例えば、”A B PREV1OR2TAG
C”(一つか二つ前の品詞タグがCであれば、品詞タグ
AをBに変えよ。)というルールは、C AAにおいて
は二回適用され、出力はC B Bになる。二番目のス
テップで、前のステップで作られたトランスデューサ
を、一つのパスの入力に対してグローバルに動作するト
ランスデューサに変える。これは、ローカル拡張変換機
によって行われる。三番目のステップで、コンポーザを
用いて、全部のトランスデューサを単一トランスデュー
サとする。この単一トランスデューサは、各トランスデ
ューサに規定された合成動作に相当する。このステップ
で得られたトランスデューサは、非決定要素を持ってい
るためまだ最適化されたものではない。四番目の最終ス
テップでは、三番目のステップで得られた有限状態トラ
ンスデューサを、ディターミニスタを用いて同等の決定
的トランスデューサへと変換する。こうして得られた有
限状態トランスデューサは、最初にタグ付けされた文
(辞書的タグ付けと未知の単語のタグ付けがされている
文)に対して、ルールの数や文脈の長さとは無関係に、
線形時間で動作する文脈タガーである。こうして、従来
のどのシステムよりも高速で動作する文脈タガーが得ら
れる。
の文脈タガーには、四つのステップがある。最初のステ
ップで、それぞれの文脈ルールをルール−トランスデュ
ーサ変換機と呼ぶ有限状態トランスデューサに変える。
文脈ルールは、それぞれローカルに規定され、そこに書
かれた変換のルールは、入力文のそれぞれの位置で適用
される。例えば、”A B PREV1OR2TAG
C”(一つか二つ前の品詞タグがCであれば、品詞タグ
AをBに変えよ。)というルールは、C AAにおいて
は二回適用され、出力はC B Bになる。二番目のス
テップで、前のステップで作られたトランスデューサ
を、一つのパスの入力に対してグローバルに動作するト
ランスデューサに変える。これは、ローカル拡張変換機
によって行われる。三番目のステップで、コンポーザを
用いて、全部のトランスデューサを単一トランスデュー
サとする。この単一トランスデューサは、各トランスデ
ューサに規定された合成動作に相当する。このステップ
で得られたトランスデューサは、非決定要素を持ってい
るためまだ最適化されたものではない。四番目の最終ス
テップでは、三番目のステップで得られた有限状態トラ
ンスデューサを、ディターミニスタを用いて同等の決定
的トランスデューサへと変換する。こうして得られた有
限状態トランスデューサは、最初にタグ付けされた文
(辞書的タグ付けと未知の単語のタグ付けがされている
文)に対して、ルールの数や文脈の長さとは無関係に、
線形時間で動作する文脈タガーである。こうして、従来
のどのシステムよりも高速で動作する文脈タガーが得ら
れる。
【0045】(a)文脈タガーの構成 図1に、最初にタグ付けした文のタグ付けを改良するた
めの本発明の文脈タガーの構成方法を示す。文脈ルール
のシーケンス13を、ルール−トランスデューサ変換機
12に入力することによって、最終的に決定的トランス
デューサ11を出力する。この決定的トランスデューサ
11は、有限状態トランスデューサであるとともに、文
脈タガーである。ルール−トランスデューサ変換機12
は、ルールをトランスデューサに変換するものであり、
出力は、トランスデューサのシーケンス14である。こ
のトランスデューサのシーケンス14は、文脈タガーで
ある。しかし、この文脈タガーは、トランスデュースの
際、非決定的な選択をすること、また、トランスデュー
サを入力文のそれぞれの位置で適用しなければならない
ことから、大変処理スピードが遅い。
めの本発明の文脈タガーの構成方法を示す。文脈ルール
のシーケンス13を、ルール−トランスデューサ変換機
12に入力することによって、最終的に決定的トランス
デューサ11を出力する。この決定的トランスデューサ
11は、有限状態トランスデューサであるとともに、文
脈タガーである。ルール−トランスデューサ変換機12
は、ルールをトランスデューサに変換するものであり、
出力は、トランスデューサのシーケンス14である。こ
のトランスデューサのシーケンス14は、文脈タガーで
ある。しかし、この文脈タガーは、トランスデュースの
際、非決定的な選択をすること、また、トランスデュー
サを入力文のそれぞれの位置で適用しなければならない
ことから、大変処理スピードが遅い。
【0046】この文脈タガーのスピードを上げるため、
ルール−トランスデューサ変換機12の出力であるトラ
ンスデューサのシーケンス14を、ローカル拡張変換機
15に入力する。ローカル拡張変換機15で、以下に述
べる特別なアルゴリズムを用いることにより、入力文の
それぞれの接尾辞に、トランスデューサを繰り返し適用
するのではなく、一回の入力に対し、ただ一度トランス
デューサを適用すればよいことになる。
ルール−トランスデューサ変換機12の出力であるトラ
ンスデューサのシーケンス14を、ローカル拡張変換機
15に入力する。ローカル拡張変換機15で、以下に述
べる特別なアルゴリズムを用いることにより、入力文の
それぞれの接尾辞に、トランスデューサを繰り返し適用
するのではなく、一回の入力に対し、ただ一度トランス
デューサを適用すればよいことになる。
【0047】ローカル拡張変換機15の出力は、複数の
非決定的トランスデューサから構成された非決定的トラ
ンスデューサのシーケンス16となる。ここで、「非決
定的」というのは、入力文のそれぞれの位置で、複数の
選択がされるということである。ローカル拡張変換機1
5の特別なアルゴリズムによるこの文脈タガーは、ルー
ル−トランスデューサ変換機12の出力である文脈タガ
ーよりは、なにがしか処理スピードが速いが、入力文に
多くのトランスデューサを適用すること、また、そのト
ランスデューサは非決定的であるため、まだかなり処理
が遅いものである。
非決定的トランスデューサから構成された非決定的トラ
ンスデューサのシーケンス16となる。ここで、「非決
定的」というのは、入力文のそれぞれの位置で、複数の
選択がされるということである。ローカル拡張変換機1
5の特別なアルゴリズムによるこの文脈タガーは、ルー
ル−トランスデューサ変換機12の出力である文脈タガ
ーよりは、なにがしか処理スピードが速いが、入力文に
多くのトランスデューサを適用すること、また、そのト
ランスデューサは非決定的であるため、まだかなり処理
が遅いものである。
【0048】文脈タガーの処理スピードをあげるため
に、コンポーザ17を用いる。コンポーザ17は、ロー
カル拡張変換機15から出力された非決定的トランスデ
ューサのシーケンス16を入力する。コンポーザ17
は、入力された複数の非決定的トランスデューサを併合
し、単一の総合的非決定的トランスデューサ18を出力
する。この結果、入力文に対し、単一の総合的非決定的
トランスデューサ18だけ適用すればよい文脈タガーが
得られる。
に、コンポーザ17を用いる。コンポーザ17は、ロー
カル拡張変換機15から出力された非決定的トランスデ
ューサのシーケンス16を入力する。コンポーザ17
は、入力された複数の非決定的トランスデューサを併合
し、単一の総合的非決定的トランスデューサ18を出力
する。この結果、入力文に対し、単一の総合的非決定的
トランスデューサ18だけ適用すればよい文脈タガーが
得られる。
【0049】総合的非決定的トランスデューサ18は、
入力文にタグ付けするスピードという点では、かなり改
善されているものの、この総合的非決定的トランスデュ
ーサ18は、なお非決定的なものでしかない。そのた
め、品詞を分析するために、タガーの処理は、正しいタ
グ付けを決定する経路を選択できるまで、複数の経路を
進まなければならない。結果の分からない経路をたどっ
ていくのは時間の無駄である。複数の経路の計算をする
ことなく、一つの単語の品詞を決定できる処理システム
が求められる。
入力文にタグ付けするスピードという点では、かなり改
善されているものの、この総合的非決定的トランスデュ
ーサ18は、なお非決定的なものでしかない。そのた
め、品詞を分析するために、タガーの処理は、正しいタ
グ付けを決定する経路を選択できるまで、複数の経路を
進まなければならない。結果の分からない経路をたどっ
ていくのは時間の無駄である。複数の経路の計算をする
ことなく、一つの単語の品詞を決定できる処理システム
が求められる。
【0050】非決定的トランスデューサに関わる問題を
なくすために、総合的非決定的トランスデューサ18
は、ディターミニスタ19に入力される。ディターミニ
スタ19は、正しい品詞の選択をするのに充分なだけの
情報が得られるまで、計算の経路を決定するのを延期す
るものである。計算の経路が二つあったら、続く単語を
見て、正しい結果につながる経路がわかるまで、どちら
の経路を進むか決定しない。こうして、ディターミニス
タは、文の次の単語を一つ以上見て、正しい経路を確認
し、この時点で、計算経路を決定する。ディターミニス
タ19の出力は、こうして決定的トランスデューサ11
である文脈タガーとなる。ブリルによる文脈タガーとは
異なり、本発明の文脈タガーは、決定的有限トランスデ
ューサを用いている。
なくすために、総合的非決定的トランスデューサ18
は、ディターミニスタ19に入力される。ディターミニ
スタ19は、正しい品詞の選択をするのに充分なだけの
情報が得られるまで、計算の経路を決定するのを延期す
るものである。計算の経路が二つあったら、続く単語を
見て、正しい結果につながる経路がわかるまで、どちら
の経路を進むか決定しない。こうして、ディターミニス
タは、文の次の単語を一つ以上見て、正しい経路を確認
し、この時点で、計算経路を決定する。ディターミニス
タ19の出力は、こうして決定的トランスデューサ11
である文脈タガーとなる。ブリルによる文脈タガーとは
異なり、本発明の文脈タガーは、決定的有限トランスデ
ューサを用いている。
【0051】それぞれの文脈ルールによって表された機
能は、非決定的な有限状態の変換を意味している。ま
た、それぞれの文脈ルールのシーケンシャルな適用も、
また、それぞれの変換の合成である非決定的な有限状態
の変換を意味している。文脈ルールの機能を非決定的な
有限状態の変換ととらえることにより、非決定的トラン
スデューサを決定的トランスデューサに変えることを可
能とする。この結果による文脈タガーは、ルールの数や
文脈の長さとは無関係に線形時間で動作する。新しい文
脈タガーは、最適な時間で動作する。つまり、一つの文
にタグ付けする時間は、有限状態マシンのただ一つの決
定的な経路を進むための時間で決まる。
能は、非決定的な有限状態の変換を意味している。ま
た、それぞれの文脈ルールのシーケンシャルな適用も、
また、それぞれの変換の合成である非決定的な有限状態
の変換を意味している。文脈ルールの機能を非決定的な
有限状態の変換ととらえることにより、非決定的トラン
スデューサを決定的トランスデューサに変えることを可
能とする。この結果による文脈タガーは、ルールの数や
文脈の長さとは無関係に線形時間で動作する。新しい文
脈タガーは、最適な時間で動作する。つまり、一つの文
にタグ付けする時間は、有限状態マシンのただ一つの決
定的な経路を進むための時間で決まる。
【0052】本発明のシステムには、二つの中心的概念
がある。有限状態トランスデューサの概念とシーケンシ
ャル・トランスデューサの概念である。有限状態トラン
スデューサは、有限状態のオートマトンであり、その遷
移は、シンボルのペアによってラベル付けされる。シン
ボルのペアのうち一つは入力であり、もう一つは出力で
ある。有限状態トランスデューサを入力に適用すること
は、入力シンボルに従ったパスをたどっていくととも
に、出力シンボルを記憶することを意味しており、その
結果としては、出力シンボルのシーケンスが記憶される
こととなる。
がある。有限状態トランスデューサの概念とシーケンシ
ャル・トランスデューサの概念である。有限状態トラン
スデューサは、有限状態のオートマトンであり、その遷
移は、シンボルのペアによってラベル付けされる。シン
ボルのペアのうち一つは入力であり、もう一つは出力で
ある。有限状態トランスデューサを入力に適用すること
は、入力シンボルに従ったパスをたどっていくととも
に、出力シンボルを記憶することを意味しており、その
結果としては、出力シンボルのシーケンスが記憶される
こととなる。
【0053】以下、有限状態トランスデューサを図示す
る場合、有限状態は二重丸で表す。シンボルEは、空の
ストリングを表す。状態iから状態jへの状態遷移の場
合、a/bは入力シンボルaと出力シンボルbによる状
態遷移を表す。状態iから出力された弧線の状態遷移に
用いられた疑問符?(例えば、?/b)は、状態iから
出力された他の弧線に用いられた入力シンボル以外のシ
ンボルであることを表す。
る場合、有限状態は二重丸で表す。シンボルEは、空の
ストリングを表す。状態iから状態jへの状態遷移の場
合、a/bは入力シンボルaと出力シンボルbによる状
態遷移を表す。状態iから出力された弧線の状態遷移に
用いられた疑問符?(例えば、?/b)は、状態iから
出力された他の弧線に用いられた入力シンボル以外のシ
ンボルであることを表す。
【0054】一例として、図2を用いて文脈ルール2の
シーケンスを、文脈ルールのシーケンス13とする場合
について説明する。文脈ルールのシーケンス13を、ル
ール−トランスデューサ変換機12にし、有限状態トラ
ンスデューサのシーケンス14に変える。例えば、”v
bn vbd PREVTAG np”というルールの
機能は、図2に示すトランスデューサになる。
シーケンスを、文脈ルールのシーケンス13とする場合
について説明する。文脈ルールのシーケンス13を、ル
ール−トランスデューサ変換機12にし、有限状態トラ
ンスデューサのシーケンス14に変える。例えば、”v
bn vbd PREVTAG np”というルールの
機能は、図2に示すトランスデューサになる。
【0055】それぞれの文脈ルールは、ローカルに規定
されている。つまり、文脈ルールに規定された遷移は、
入力文のそれぞれの位置で適用されなければならない。
例えば、”A B PREV1OR2TAG C”(一
つか二つ前のタグがCであればAをBに変えよ。)とい
うルールは、C A Aでは二回適用されなければなら
ない(その結果、出力C B Bとなる)。こうした非
効率を改善したい。
されている。つまり、文脈ルールに規定された遷移は、
入力文のそれぞれの位置で適用されなければならない。
例えば、”A B PREV1OR2TAG C”(一
つか二つ前のタグがCであればAをBに変えよ。)とい
うルールは、C A Aでは二回適用されなければなら
ない(その結果、出力C B Bとなる)。こうした非
効率を改善したい。
【0056】トランスデューサのシーケンス14を、ロ
ーカル拡張変換機15によって、新たな非決定的トラン
スデューサのシーケンス16にする。この新たな非決定
的トランスデューサのシーケンス16は、シングルパス
で入力文に対してグローバルに動作するものであり、処
理スピードが向上する。ここで、機能のローカル拡張の
例を示す。f1は変換を表し、例えば、aをbに変換す
ることをf1(a)=bと表す。この機能f1を機能f
2(例えば、f2はf2(w)=w0とする)に拡張し
ようとする。ここで、w0は、aの各オカレンスをそれ
ぞれbに置き換えてある単語wから作った単語である。
機能f2は、機能f1のローカル拡張であると言い、f
2=LocExt(f1)と書く。
ーカル拡張変換機15によって、新たな非決定的トラン
スデューサのシーケンス16にする。この新たな非決定
的トランスデューサのシーケンス16は、シングルパス
で入力文に対してグローバルに動作するものであり、処
理スピードが向上する。ここで、機能のローカル拡張の
例を示す。f1は変換を表し、例えば、aをbに変換す
ることをf1(a)=bと表す。この機能f1を機能f
2(例えば、f2はf2(w)=w0とする)に拡張し
ようとする。ここで、w0は、aの各オカレンスをそれ
ぞれbに置き換えてある単語wから作った単語である。
機能f2は、機能f1のローカル拡張であると言い、f
2=LocExt(f1)と書く。
【0057】”vbn vbd PREVTAG n
p”というルールの、トランスデューサをローカル拡張
したものを図3に示す。同様に、文脈ルール”vbd
vbnNEXTTAG by”のトランスデューサを図
4に示し、そのローカル拡張を図5に示す。これらの拡
張方法は、後述する「(b)ローカル拡張変換機」にお
いて説明する。
p”というルールの、トランスデューサをローカル拡張
したものを図3に示す。同様に、文脈ルール”vbd
vbnNEXTTAG by”のトランスデューサを図
4に示し、そのローカル拡張を図5に示す。これらの拡
張方法は、後述する「(b)ローカル拡張変換機」にお
いて説明する。
【0058】以上により得られた非決定的トランスデュ
ーサのシーケンス16では、なお、一つずつ適用してい
く必要がある。これらのトランスデューサを、コンポー
ザ17により、単一の総合的非決定的トランスデューサ
18にする。この操作は、トランスデューサ内に規定さ
れた合成動作による。図6に示す一例は、図3のローカ
ル拡張を、図5のローカル拡張と合成した総合的非決定
的トランスデューサ18である。
ーサのシーケンス16では、なお、一つずつ適用してい
く必要がある。これらのトランスデューサを、コンポー
ザ17により、単一の総合的非決定的トランスデューサ
18にする。この操作は、トランスデューサ内に規定さ
れた合成動作による。図6に示す一例は、図3のローカ
ル拡張を、図5のローカル拡張と合成した総合的非決定
的トランスデューサ18である。
【0059】この有限状態トランスデューサを、ディタ
ーミニスタ19に入力し、ディターミニスタにより同等
の決定的トランスデューサ11に変形して、最終トラン
スデューサを得る。
ーミニスタ19に入力し、ディターミニスタにより同等
の決定的トランスデューサ11に変形して、最終トラン
スデューサを得る。
【0060】図6に示す総合的非決定的トランスデュー
サ18は、いくつかの非決定的経路があるため非決定的
である。例えば、状態0からは、入力シンボルvbdに
より二つの状態遷移が可能である。即ち、出力シンボル
がvbnとなる状態0から状態2への遷移と、vbdと
なる状態0から状態3への遷移が可能である。この非決
定性は、”vbd vbd NEXTTAG by”と
いうルールのためである。このルールによると、どちら
のシンボルを出力すべきか知る前に、二番目のシンボル
を読み込まねばならないため、非決定性が生ずる。図7
に、決定的トランスデューサ11を示す。図7におい
て、非決定が生じたら、決定的トランスデューサが空の
ストリングを表すシンボルEを発し、出力シンボルの発
行は延期される。例えば、最初の状態0に対して入力シ
ンボルvbdが入力されると、空のストリングが出力さ
れ、現在状態は状態2となる。次の単語が”by”であ
れば、状態2から状態0へ遷移し、二つのトークン・ス
トリング”vbn by”が出力される。次の単語が”
by”でなければ、その単語に応じて状態2から状態
2、又は、状態2から状態0に遷移し、”vbd”が出
力される。ディターミニスタについては、後述する
「(c)ディターミニスタ」において、更に説明する。
サ18は、いくつかの非決定的経路があるため非決定的
である。例えば、状態0からは、入力シンボルvbdに
より二つの状態遷移が可能である。即ち、出力シンボル
がvbnとなる状態0から状態2への遷移と、vbdと
なる状態0から状態3への遷移が可能である。この非決
定性は、”vbd vbd NEXTTAG by”と
いうルールのためである。このルールによると、どちら
のシンボルを出力すべきか知る前に、二番目のシンボル
を読み込まねばならないため、非決定性が生ずる。図7
に、決定的トランスデューサ11を示す。図7におい
て、非決定が生じたら、決定的トランスデューサが空の
ストリングを表すシンボルEを発し、出力シンボルの発
行は延期される。例えば、最初の状態0に対して入力シ
ンボルvbdが入力されると、空のストリングが出力さ
れ、現在状態は状態2となる。次の単語が”by”であ
れば、状態2から状態0へ遷移し、二つのトークン・ス
トリング”vbn by”が出力される。次の単語が”
by”でなければ、その単語に応じて状態2から状態
2、又は、状態2から状態0に遷移し、”vbd”が出
力される。ディターミニスタについては、後述する
「(c)ディターミニスタ」において、更に説明する。
【0061】以上の結果、トランスデューサ11は、線
形時間で動作する品詞タガーとなり、この時間はルール
の数や文脈の長さとは無関係である。こうして本発明の
システムは最適な時間で動作する。
形時間で動作する品詞タガーとなり、この時間はルール
の数や文脈の長さとは無関係である。こうして本発明の
システムは最適な時間で動作する。
【0062】本発明による文脈タガーのタグ付け処理過
程を図8に示す。入力文26を辞書的タガー16に入力
する。辞書的タガー28は、辞書を用いて文中のそれぞ
れの単語を参照し、最も可能性の高いタグ付けをして、
部分的タグ付け文30を出力する。この辞書的タガー2
8による出力は、辞書中に見られない単語もあるために
部分的タグ付けをした文となる。部分的タグ付け文30
は、次に未知の単語タガー32によってタグ付けされ
る。未知の単語タガー32は、未知の単語に対して、例
えば、最後の三文字を元に品詞タグを推測するものであ
る。この未知の単語タガーの出力は、初期タグ付け文3
4となる。図1に示す過程で構築された文脈タガーは、
決定的トランスデューサ11であり、図8では文脈タガ
ー38として示している。この文脈タガー38を初期タ
グ付け文34に適用して、最終タグ付け文36を得る。
程を図8に示す。入力文26を辞書的タガー16に入力
する。辞書的タガー28は、辞書を用いて文中のそれぞ
れの単語を参照し、最も可能性の高いタグ付けをして、
部分的タグ付け文30を出力する。この辞書的タガー2
8による出力は、辞書中に見られない単語もあるために
部分的タグ付けをした文となる。部分的タグ付け文30
は、次に未知の単語タガー32によってタグ付けされ
る。未知の単語タガー32は、未知の単語に対して、例
えば、最後の三文字を元に品詞タグを推測するものであ
る。この未知の単語タガーの出力は、初期タグ付け文3
4となる。図1に示す過程で構築された文脈タガーは、
決定的トランスデューサ11であり、図8では文脈タガ
ー38として示している。この文脈タガー38を初期タ
グ付け文34に適用して、最終タグ付け文36を得る。
【0063】前述した各種タガー28,32,38の中
で、記憶容量の点から辞書的タガー28の用いる辞書
は、最大のものであり、コンパクトな形態にすることは
非常に重要である。また、辞書を参照するスピードは大
変速くなければならない。辞書を参照するスピードが遅
ければ、文脈操作のスピードを改善しても、実務上の利
益は望めない。この過程での処理スピードを上げるた
め、辞書をアクセスが速く記憶容量が小さい決定的有限
状態オートマトンとする。このアルゴリズムは、ドミニ
ク・レヴ(Revuz,Dominique)による
「辞書と語彙、方法とアルゴリズム」(”Dictio
nnaires et Lexiques,Metho
des et Algorithmes”,Ph.D.
thesis,Universite Paris
7)に1991年記載された。これによれば、まず文字
によりラベル付けされた枝、一つ以上の品詞タグの(n
n,vbのような)リストによりラベル付けされた葉を
もつ木を作り、それを最小にして方向付けされた非循環
グラフDAG(directed acyclic g
raph)とする。
で、記憶容量の点から辞書的タガー28の用いる辞書
は、最大のものであり、コンパクトな形態にすることは
非常に重要である。また、辞書を参照するスピードは大
変速くなければならない。辞書を参照するスピードが遅
ければ、文脈操作のスピードを改善しても、実務上の利
益は望めない。この過程での処理スピードを上げるた
め、辞書をアクセスが速く記憶容量が小さい決定的有限
状態オートマトンとする。このアルゴリズムは、ドミニ
ク・レヴ(Revuz,Dominique)による
「辞書と語彙、方法とアルゴリズム」(”Dictio
nnaires et Lexiques,Metho
des et Algorithmes”,Ph.D.
thesis,Universite Paris
7)に1991年記載された。これによれば、まず文字
によりラベル付けされた枝、一つ以上の品詞タグの(n
n,vbのような)リストによりラベル付けされた葉を
もつ木を作り、それを最小にして方向付けされた非循環
グラフDAG(directed acyclic g
raph)とする。
【0064】例えば、図9に示すDAGには、次のよう
な単語と品詞タグが符号付けされている。単語”ad
s”は、複数名詞”nns”である;単語”bag”
は、名詞”nn”であり、また、動詞”vb”である可
能性もある;単語”bagged”は、動詞過去分詞”
vbn”か、動詞過去形”vbd”である;単語”ba
yed”は、動詞過去分詞”vbn”か、動詞過去形”
vbd”である;単語”bids”は、複数名詞”nn
s”である。
な単語と品詞タグが符号付けされている。単語”ad
s”は、複数名詞”nns”である;単語”bag”
は、名詞”nn”であり、また、動詞”vb”である可
能性もある;単語”bagged”は、動詞過去分詞”
vbn”か、動詞過去形”vbd”である;単語”ba
yed”は、動詞過去分詞”vbn”か、動詞過去形”
vbd”である;単語”bids”は、複数名詞”nn
s”である。
【0065】このように、辞書をDAGに置き換えるこ
とにより、辞書で単語を探すという動作は、単にDAG
の一つの経路をたどっていけばよいことになる。探し出
す煩雑さは単に単語の長さによって決まり、辞書のサイ
ズとは無関係である。
とにより、辞書で単語を探すという動作は、単にDAG
の一つの経路をたどっていけばよいことになる。探し出
す煩雑さは単に単語の長さによって決まり、辞書のサイ
ズとは無関係である。
【0066】本発明のシステムは、辞書的タガー28に
より全部の既知の単語(即ち、辞書中にある単語)への
タグ付けを終えた後、そして、文脈タガー38により文
脈ルールのセットが適用される前に、未知の単語タガー
32を動作させる。未知の単語タガー32は、単語の接
尾辞によって品詞タグを推測し(例:接尾辞”ing”
を有する単語は動詞であることが多い)、単語の接頭辞
によって品詞タグを推測し(例:大文字で始まる単語は
固有名詞であることが多い)、その他単語の特性によっ
て品詞タグを推測する。この推測のテクニックは、辞書
を構築する場合に用いられるテクニックと基本的に同じ
ものである。
より全部の既知の単語(即ち、辞書中にある単語)への
タグ付けを終えた後、そして、文脈タガー38により文
脈ルールのセットが適用される前に、未知の単語タガー
32を動作させる。未知の単語タガー32は、単語の接
尾辞によって品詞タグを推測し(例:接尾辞”ing”
を有する単語は動詞であることが多い)、単語の接頭辞
によって品詞タグを推測し(例:大文字で始まる単語は
固有名詞であることが多い)、その他単語の特性によっ
て品詞タグを推測する。この推測のテクニックは、辞書
を構築する場合に用いられるテクニックと基本的に同じ
ものである。
【0067】本発明のシステムによるタガーの精度は、
統計ベースによるタグ付けの精度に匹敵する。けれど
も、統計ベースによるシステムよりもかなり高速であ
る。本発明のシステムによるタガーは、他の最も速いシ
ステムよりも十倍近く高速処理する。更に、有限状態タ
ガーは、ルール・ベースによるシステムの継承であり、
統計ベースのタガーよりもコンパクトである。実際、統
計ベースのタガーでは、単語、そしてバイグラム、トリ
グラムそれぞれの確率を記憶している必要があるが、ル
ール・ベースのタガー、そして有限状態タガーは、ほん
の少量のルール(せいぜい200から300)を記憶す
るだけである。
統計ベースによるタグ付けの精度に匹敵する。けれど
も、統計ベースによるシステムよりもかなり高速であ
る。本発明のシステムによるタガーは、他の最も速いシ
ステムよりも十倍近く高速処理する。更に、有限状態タ
ガーは、ルール・ベースによるシステムの継承であり、
統計ベースのタガーよりもコンパクトである。実際、統
計ベースのタガーでは、単語、そしてバイグラム、トリ
グラムそれぞれの確率を記憶している必要があるが、ル
ール・ベースのタガー、そして有限状態タガーは、ほん
の少量のルール(せいぜい200から300)を記憶す
るだけである。
【0068】本発明のシステムによるタガーを、エリッ
ク・ブリルの「確率論的品詞プログラムと開放テキスト
のための名詞句解剖」”A Stochastic P
arts Program and Noun Phr
ase Parser for Unrestrict
ed Text”(第二回応用自然言語処理会議 th
e Second Conference on Ap
plied Natural Language Pr
ocessing 1988年)に記載されたタガー
や、チャーチによるトリグラムタガーと、実験的に比較
した。これら三つのプログラムで、大容量のファイルを
操作した。
ク・ブリルの「確率論的品詞プログラムと開放テキスト
のための名詞句解剖」”A Stochastic P
arts Program and Noun Phr
ase Parser for Unrestrict
ed Text”(第二回応用自然言語処理会議 th
e Second Conference on Ap
plied Natural Language Pr
ocessing 1988年)に記載されたタガー
や、チャーチによるトリグラムタガーと、実験的に比較
した。これら三つのプログラムで、大容量のファイルを
操作した。
【0069】図10に、実験の結果を要約して示す。統
計ベース・タガー、ルールベース・タガー、本発明のタ
ガーの全部のタガーをブラウンコーパスの一部分でトレ
ーニングした。実験は、32メガバイトのメモリーを持
つHP720で行われた。有限状態タガーは、ルールベ
ースによるタガーと同じ出力形態をとるように設計し
た。これら三つのタガーによるタグ付けの精度は、どれ
も殆ど同じであった(95%のタグ付けが正確であっ
た)。
計ベース・タガー、ルールベース・タガー、本発明のタ
ガーの全部のタガーをブラウンコーパスの一部分でトレ
ーニングした。実験は、32メガバイトのメモリーを持
つHP720で行われた。有限状態タガーは、ルールベ
ースによるタガーと同じ出力形態をとるように設計し
た。これら三つのタガーによるタグ付けの精度は、どれ
も殆ど同じであった(95%のタグ付けが正確であっ
た)。
【0070】本発明によるシステムは、図10に示す速
度を比較すると分かるように、従来のどのシステムより
も、かなり高速で動作する。このことは、電子ライブラ
リーに含まれるような大量のテキストにタグ付けする際
には、最も重要な点である。
度を比較すると分かるように、従来のどのシステムより
も、かなり高速で動作する。このことは、電子ライブラ
リーに含まれるような大量のテキストにタグ付けする際
には、最も重要な点である。
【0071】(b)ローカル拡張変換機 ローカル拡張変換機の概念と構築について、更に、詳細
に述べる。ローカル拡張変換機の概念は、ローカルに規
定された機能を、グローバルな規定に変えるという考え
である。図11に示す機能全体をトランスデューサT1
とし、単語”ab”を入力するものとすると、トランス
デューサT1は、最初の入力文字”a”に対して、状態
0から状態1への遷移40を適用して、結果として、”
b”が出力され、二番目の入力文字”b”に、状態1か
ら状態2への遷移46を適用することで、”c”が出力
される。その結果、入力された単語”ab”は、”b
c”に変わる。同様に、トランスデューサT1によっ
て、単語”b”は遷移50を通じて単語”d”へと変わ
る。トランスデューサT1は、ローカルにはトランスデ
ューサT2の規定もしている。トランスデューサT2
は、入力としてどんな単語でもよく、入力と同じ単語を
をのまま出力する機能であるとともに、トランスデュー
サT1の入力となる”ab”と”b”のオカレンスは、
全てそれぞれ”bc”と”d”に変換する機能である。
例えば、トランスデューサT2は、単語”bbbbcc
ccccabcccabccc”を入力すると、”dd
ddccccccbccccbcccc”へ変換する。
に述べる。ローカル拡張変換機の概念は、ローカルに規
定された機能を、グローバルな規定に変えるという考え
である。図11に示す機能全体をトランスデューサT1
とし、単語”ab”を入力するものとすると、トランス
デューサT1は、最初の入力文字”a”に対して、状態
0から状態1への遷移40を適用して、結果として、”
b”が出力され、二番目の入力文字”b”に、状態1か
ら状態2への遷移46を適用することで、”c”が出力
される。その結果、入力された単語”ab”は、”b
c”に変わる。同様に、トランスデューサT1によっ
て、単語”b”は遷移50を通じて単語”d”へと変わ
る。トランスデューサT1は、ローカルにはトランスデ
ューサT2の規定もしている。トランスデューサT2
は、入力としてどんな単語でもよく、入力と同じ単語を
をのまま出力する機能であるとともに、トランスデュー
サT1の入力となる”ab”と”b”のオカレンスは、
全てそれぞれ”bc”と”d”に変換する機能である。
例えば、トランスデューサT2は、単語”bbbbcc
ccccabcccabccc”を入力すると、”dd
ddccccccbccccbcccc”へ変換する。
【0072】この変換を最も高速に実行するための最良
の方法は、図11のトランスデューサT1の表記を、あ
らかじめ図12のトランスデューサT2にコンパイルし
ておくことである。その方法を次に示す。トランスデュ
ーサT2の状態0,1,3,6は、トランスデューサT
1の状態0,1,2のセットによって、指標付けされ
る。また、変換(transduction)か同一
(identity)かのタイプによって、指標付けさ
れる。こうしてトランスデューサT2の状態0,1,
3,6は、変換タイプか同一タイプのどちらかになる。
の方法は、図11のトランスデューサT1の表記を、あ
らかじめ図12のトランスデューサT2にコンパイルし
ておくことである。その方法を次に示す。トランスデュ
ーサT2の状態0,1,3,6は、トランスデューサT
1の状態0,1,2のセットによって、指標付けされ
る。また、変換(transduction)か同一
(identity)かのタイプによって、指標付けさ
れる。こうしてトランスデューサT2の状態0,1,
3,6は、変換タイプか同一タイプのどちらかになる。
【0073】例えば、図11の52で表される状態0
は、状態のセット{0}によって指標付けされ、同一タ
イプと表される。同一タイプというのは、入力したもの
を変えないということであり、”c”が入力した文字で
あれば、”c”はそのまま形であり、けっして変換され
ない。このことは、58と59で図示された遷移により
明らかである。変換タイプは、トランスデューサT1に
よる修正を受けるということであり、図12の54で表
される状態3に見られる。ここでは、”a”は、状態0
から遷移56を通じて、”b”に変換される。この遷移
は、図11に示したトランスデューサT1の、状態0か
ら状態1への遷移40に対応している。図12の初期状
態0で、入力文字”a”が変換されない場合があること
を考慮すべきである(単語”aa”の場合)。このと
き、”a/a”とラベル付けされた遷移60を作る。こ
の遷移は、状態1へ向けられており、ここのタイプは同
一タイプであり、この点までは入力を変化させないとい
うことを意味する。この状態1は、図11のトランスデ
ューサT1の44で表された状態1、また、図11のト
ランスデューサT1の42で表された初期状態0に対応
している。こうして、図12の61で表された状態1
は、状態のセット{0,1}とラベル付けされ、同一タ
イプと示される。図12に示す他の遷移や状態も、同様
に構築される。例外は、図11のトランスデューサT1
で48と記された状態2、そして、図12の状態6であ
るが、これは最終状態である。最終状態は、二重丸で書
かれている。最終状態では、遷移は完了し、初期状態0
に戻ることが可能である。これは、図12中で、”ε/
ε”とラベル付けされた遷移62に示されている。これ
によって、状態64から、空のストリングεを読み、空
のストリングεを出すことにより、初期状態0へ進むこ
とができる。
は、状態のセット{0}によって指標付けされ、同一タ
イプと表される。同一タイプというのは、入力したもの
を変えないということであり、”c”が入力した文字で
あれば、”c”はそのまま形であり、けっして変換され
ない。このことは、58と59で図示された遷移により
明らかである。変換タイプは、トランスデューサT1に
よる修正を受けるということであり、図12の54で表
される状態3に見られる。ここでは、”a”は、状態0
から遷移56を通じて、”b”に変換される。この遷移
は、図11に示したトランスデューサT1の、状態0か
ら状態1への遷移40に対応している。図12の初期状
態0で、入力文字”a”が変換されない場合があること
を考慮すべきである(単語”aa”の場合)。このと
き、”a/a”とラベル付けされた遷移60を作る。こ
の遷移は、状態1へ向けられており、ここのタイプは同
一タイプであり、この点までは入力を変化させないとい
うことを意味する。この状態1は、図11のトランスデ
ューサT1の44で表された状態1、また、図11のト
ランスデューサT1の42で表された初期状態0に対応
している。こうして、図12の61で表された状態1
は、状態のセット{0,1}とラベル付けされ、同一タ
イプと示される。図12に示す他の遷移や状態も、同様
に構築される。例外は、図11のトランスデューサT1
で48と記された状態2、そして、図12の状態6であ
るが、これは最終状態である。最終状態は、二重丸で書
かれている。最終状態では、遷移は完了し、初期状態0
に戻ることが可能である。これは、図12中で、”ε/
ε”とラベル付けされた遷移62に示されている。これ
によって、状態64から、空のストリングεを読み、空
のストリングεを出すことにより、初期状態0へ進むこ
とができる。
【0074】(c)ディターミニスタ 有限状態トランスデューサを得る場合、非決定的なもの
よりも、決定的に適用できる同等の有限状態トランスデ
ューサを得る方が望ましい。図13に示されるような有
限状態トランスデューサを得るが、このトランスデュー
サは決定的ではない。単語”ad”を入力した時、最初
の文字は”a”である。状態0からスタートすると、二
つの可能性がある。一つ目の選択は、”a”を読み”
b”を出力して状態1へいく。二つ目の選択は、やは
り”a”を読むが、”c”を出力して状態2へ進む。入
力文字の二番目を読むと、”d”であり、一つ目の選択
が実際の入力に関わるものであるとわかり、最終出力
は”bd”となる。こう言った選択をしなければならな
いことは、大変な時間を要してしまう。そこで、複数の
可能性の選択をしなくてよい有限状態トランスデューサ
が必要である。このような有限状態トランスデューサ
は、決定的と呼ばれる。
よりも、決定的に適用できる同等の有限状態トランスデ
ューサを得る方が望ましい。図13に示されるような有
限状態トランスデューサを得るが、このトランスデュー
サは決定的ではない。単語”ad”を入力した時、最初
の文字は”a”である。状態0からスタートすると、二
つの可能性がある。一つ目の選択は、”a”を読み”
b”を出力して状態1へいく。二つ目の選択は、やは
り”a”を読むが、”c”を出力して状態2へ進む。入
力文字の二番目を読むと、”d”であり、一つ目の選択
が実際の入力に関わるものであるとわかり、最終出力
は”bd”となる。こう言った選択をしなければならな
いことは、大変な時間を要してしまう。そこで、複数の
可能性の選択をしなくてよい有限状態トランスデューサ
が必要である。このような有限状態トランスデューサ
は、決定的と呼ばれる。
【0075】決定的トランスデューサ構築方法を次に記
す。図13に示すトランスデューサT3を用いるとき、
図14に示す決定的トランスデューサT4は、以下の方
法で構築される。シンボルのペアが(0,ε)であり、
この0はトランスデューサT3の状態0を表し、εはこ
の位置では何も発しない(空の単語εを発する)ことを
表している。まず、図14の72に示す初期状態0を作
る。トランスデューサT3の状態0で読めるのは、入力
シンボル”a”のみである。初期状態0では、ただ一つ
の遷移のみが可能である。この遷移には、入力シンボ
ル”a”とラベル付けされる。出力シンボルを決めるの
に、トランスデューサT3の全部の出力シンボルを見
て”b”と”c”を得る。出力シンボルが複数あるの
で、ここでは何を出力するか決定できない。従って、何
も出力せずεを出力し、次の74で示す状態1に延期し
た出力が記憶される。
す。図13に示すトランスデューサT3を用いるとき、
図14に示す決定的トランスデューサT4は、以下の方
法で構築される。シンボルのペアが(0,ε)であり、
この0はトランスデューサT3の状態0を表し、εはこ
の位置では何も発しない(空の単語εを発する)ことを
表している。まず、図14の72に示す初期状態0を作
る。トランスデューサT3の状態0で読めるのは、入力
シンボル”a”のみである。初期状態0では、ただ一つ
の遷移のみが可能である。この遷移には、入力シンボ
ル”a”とラベル付けされる。出力シンボルを決めるの
に、トランスデューサT3の全部の出力シンボルを見
て”b”と”c”を得る。出力シンボルが複数あるの
で、ここでは何を出力するか決定できない。従って、何
も出力せずεを出力し、次の74で示す状態1に延期し
た出力が記憶される。
【0076】74で示す状態1では、(1,b)は、延
期した出力”b”を持ってトランスデューサT3の状態
1(図13の68)にいることが可能であることを表し
ている。(2,c)は、延期した出力”c”を持ってト
ランスデューサT3の状態2(図13の70)にいるこ
とが可能であることを表している。図14の状態1は、
図13の状態1又は状態2に対応しているので、この状
態1には二つの入力シンボルが可能である。即ち、状態
1に対応している”d”、状態2に対応している”e”
が入力可能である。
期した出力”b”を持ってトランスデューサT3の状態
1(図13の68)にいることが可能であることを表し
ている。(2,c)は、延期した出力”c”を持ってト
ランスデューサT3の状態2(図13の70)にいるこ
とが可能であることを表している。図14の状態1は、
図13の状態1又は状態2に対応しているので、この状
態1には二つの入力シンボルが可能である。即ち、状態
1に対応している”d”、状態2に対応している”e”
が入力可能である。
【0077】シンボル”d”が入力された場合は、トラ
ンスデューサT3の状態1(図13の68)に対応す
る。図14の状態1に記憶されたペア(1,b)によ
り、延期されたシンボルは、”b”であることになる。
図13を見ると、入力シンボル”d”に対する状態1か
ら状態3への出力シンボルは、”d”である。こうし
て、新たな出力シンボルと延期されたシンボルをあわせ
ると、遷移78からの出力は、”bd”となる。更に、
ここではもはや出力を延期する必要はなくなる。こうし
て、図14の遷移78により状態2へと進み、状態2
は、トランスデューサT3の状態2と延期したシンボル
として、空のストリングとでラベル付けされる。
ンスデューサT3の状態1(図13の68)に対応す
る。図14の状態1に記憶されたペア(1,b)によ
り、延期されたシンボルは、”b”であることになる。
図13を見ると、入力シンボル”d”に対する状態1か
ら状態3への出力シンボルは、”d”である。こうし
て、新たな出力シンボルと延期されたシンボルをあわせ
ると、遷移78からの出力は、”bd”となる。更に、
ここではもはや出力を延期する必要はなくなる。こうし
て、図14の遷移78により状態2へと進み、状態2
は、トランスデューサT3の状態2と延期したシンボル
として、空のストリングとでラベル付けされる。
【0078】同様にして、74で示す状態1にシンボ
ル”e”が入力された場合の出力は、”ce”となる。
ここでも、シンボル出力の延期は必要ない。こうして、
次の状態2は、やはり(2,ε)とラベル付けされ、遷
移82によって状態2へと進む。以上の過程で、決定的
有限状態トランスデューサT4が構築される。このトラ
ンスデューサT4は、入力に対して同じ変換をすると言
う意味で、トランスデューサT3と同等である(例え
ば、トランスデューサT3によってもトランスデューサ
T4によっても”ad”は、”bd”と変換され
る。)。しかしながら、トランスデューサT4は決定的
であるので、トランスデューサT4はトランスデューサ
T3よりもはるかに高速な処理ができる。
ル”e”が入力された場合の出力は、”ce”となる。
ここでも、シンボル出力の延期は必要ない。こうして、
次の状態2は、やはり(2,ε)とラベル付けされ、遷
移82によって状態2へと進む。以上の過程で、決定的
有限状態トランスデューサT4が構築される。このトラ
ンスデューサT4は、入力に対して同じ変換をすると言
う意味で、トランスデューサT3と同等である(例え
ば、トランスデューサT3によってもトランスデューサ
T4によっても”ad”は、”bd”と変換され
る。)。しかしながら、トランスデューサT4は決定的
であるので、トランスデューサT4はトランスデューサ
T3よりもはるかに高速な処理ができる。
【0079】(d)まとめ ブリルの方法に比べて、本発明のシステムでは、長さn
の文にタグ付けをするのにnステップあればよく、ルー
ルの数や必要な文脈の長さとは無関係である。
の文にタグ付けをするのにnステップあればよく、ルー
ルの数や必要な文脈の長さとは無関係である。
【0080】ブリルのタガーにおける各ルールは、一つ
の非決定的有限状態トランスデューサとなり、ブリルの
タガーの全てのルールは、これら非決定的有限状態トラ
ンスデューサを結びつけることにより、全体として一つ
の非決定的有限トランスデューサとして構築することが
できる。
の非決定的有限状態トランスデューサとなり、ブリルの
タガーの全てのルールは、これら非決定的有限状態トラ
ンスデューサを結びつけることにより、全体として一つ
の非決定的有限トランスデューサとして構築することが
できる。
【0081】一方、本発明の文脈タガーは、このような
非決定的有限状態トランスデューサではなく、一つの文
にシングルパスで文脈に基づいたタグ付けができる決定
的有限状態トランスデューサである。決定的有限状態ト
ランスデューサは、関連した文脈を記憶し、それを有限
状態に変換する。「有限状態」の意味は、入力文を左か
ら右へ読み込む時、入力文の有限個の文脈のみを記憶す
ることである。こうして、有限状態トランスデューサ
は、それぞれの位置で、既に読み込まれた入力文の一部
分の有限個の単語のみを用いて、入力文から、タグ付け
した文を出力するものである。
非決定的有限状態トランスデューサではなく、一つの文
にシングルパスで文脈に基づいたタグ付けができる決定
的有限状態トランスデューサである。決定的有限状態ト
ランスデューサは、関連した文脈を記憶し、それを有限
状態に変換する。「有限状態」の意味は、入力文を左か
ら右へ読み込む時、入力文の有限個の文脈のみを記憶す
ることである。こうして、有限状態トランスデューサ
は、それぞれの位置で、既に読み込まれた入力文の一部
分の有限個の単語のみを用いて、入力文から、タグ付け
した文を出力するものである。
【0082】更に、「決定的」ということは、それぞれ
の入力した単語に対し、たった一つのタグ付けがされる
ようにすることである。
の入力した単語に対し、たった一つのタグ付けがされる
ようにすることである。
【0083】本発明の決定的有限状態トランスデューサ
は、タグ付けを決定するに必要充分な文脈を読み込まな
いうちは、タグを選択しない。つまり、可能な選択のう
ち、ただ一つのタグが文脈にふさわしいものと確認でき
てから、タグ付けをする。
は、タグ付けを決定するに必要充分な文脈を読み込まな
いうちは、タグを選択しない。つまり、可能な選択のう
ち、ただ一つのタグが文脈にふさわしいものと確認でき
てから、タグ付けをする。
【0084】この結果、決定的トランスデューサは、理
想的な時間で動作する品詞タガーとなる。つまり、この
有限状態マシンで、一つの経路をたどって決定的にタグ
付けをするのに要する時間によって、一つの文にタグ付
けをする時間が決まる。本発明のシステムに用いられる
辞書も、有限状態マシンを用いて、最適化され、符号化
される。
想的な時間で動作する品詞タガーとなる。つまり、この
有限状態マシンで、一つの経路をたどって決定的にタグ
付けをするのに要する時間によって、一つの文にタグ付
けをする時間が決まる。本発明のシステムに用いられる
辞書も、有限状態マシンを用いて、最適化され、符号化
される。
【0085】
【発明の効果】以上のように、この発明によれば、決定
的有限状態トランスデューサを備えることにより、入力
文に対して品詞タグを非常に高速に割り当てることがで
きる。従って、大きな文書においても、各文に対して品
詞を高速にタグ付けすることができ、結果として、高速
な文法チェック、高速なスペルチェック、高速な情報抽
出、或いは、高速な光学的文字認識を可能にすることが
できる。
的有限状態トランスデューサを備えることにより、入力
文に対して品詞タグを非常に高速に割り当てることがで
きる。従って、大きな文書においても、各文に対して品
詞を高速にタグ付けすることができ、結果として、高速
な文法チェック、高速なスペルチェック、高速な情報抽
出、或いは、高速な光学的文字認識を可能にすることが
できる。
【0086】また、この発明によれば、各単語に対して
ただ一つのタグ付けを行うので、入力文を左から右にタ
グ付けを行うことにより、タグ付けが終了する。従っ
て、品詞のタグ付けに必要な時間は、入力文の単語の数
に比例し、適用するルールの数とは無関係になる。
ただ一つのタグ付けを行うので、入力文を左から右にタ
グ付けを行うことにより、タグ付けが終了する。従っ
て、品詞のタグ付けに必要な時間は、入力文の単語の数
に比例し、適用するルールの数とは無関係になる。
【0087】また、この発明によれば、タグ付けを延期
する手段を有しているので、入力文を後戻りすることな
く、品詞のタグ付けを確定することができる。
する手段を有しているので、入力文を後戻りすることな
く、品詞のタグ付けを確定することができる。
【0088】また、この発明によれば、入力文の注目す
る単語の位置を左から右にずらしていくことにより、注
目する単語の選択とその単語の品詞の選択を順に行うこ
とができる。また、注目する単語の品詞が確定しない場
合には、単語の品詞の選択を禁ずる手段により、品詞の
選択を保留することができる。
る単語の位置を左から右にずらしていくことにより、注
目する単語の選択とその単語の品詞の選択を順に行うこ
とができる。また、注目する単語の品詞が確定しない場
合には、単語の品詞の選択を禁ずる手段により、品詞の
選択を保留することができる。
【0089】また、この発明によれば、後続の単語の品
詞を解析する手段の動作を禁止するとともに、先行する
単語の品詞を先に確定するので、入力文をワンパスでタ
グ付けすることができる。
詞を解析する手段の動作を禁止するとともに、先行する
単語の品詞を先に確定するので、入力文をワンパスでタ
グ付けすることができる。
【0090】また、この発明においては、他の単語の品
詞を解析する手段は、後続する単語のみを選択するの
で、先行する単語の品詞を溯って解析するという状態が
生じない。
詞を解析する手段は、後続する単語のみを選択するの
で、先行する単語の品詞を溯って解析するという状態が
生じない。
【0091】また、この発明によれば、入力文に対して
文脈とは無関係に最も可能性の高い品詞タグを単語に割
り当て、その後、決定的有限状態トランスデューサを用
いて品詞タグ付けを行うため、初期的タグ付けにより生
じたエラーを文脈に基づいて訂正することができる。
文脈とは無関係に最も可能性の高い品詞タグを単語に割
り当て、その後、決定的有限状態トランスデューサを用
いて品詞タグ付けを行うため、初期的タグ付けにより生
じたエラーを文脈に基づいて訂正することができる。
【0092】また、この発明によれば、タグ付けされた
テキストのトレーニングコーパスを調べることによりル
ールの集合を獲得するので、統計やルールに基づいた従
来のアプローチよりも、性能が優れている文脈ルールを
獲得することができる。また、コンポーザ及びディター
ミニスタを備えていることにより、トレーニングコーパ
スから得られたルールの集合から最終的に決定的有限状
態トランスデューサを生成することができる。
テキストのトレーニングコーパスを調べることによりル
ールの集合を獲得するので、統計やルールに基づいた従
来のアプローチよりも、性能が優れている文脈ルールを
獲得することができる。また、コンポーザ及びディター
ミニスタを備えていることにより、トレーニングコーパ
スから得られたルールの集合から最終的に決定的有限状
態トランスデューサを生成することができる。
【0093】また、この発明によれば、決定的有限トラ
ンスデューサは、以前に決定した有限個の品詞のシーケ
ンスに基づいてタグ付けを行うため、更に、効率の良い
タグ付けを行うことができる。
ンスデューサは、以前に決定した有限個の品詞のシーケ
ンスに基づいてタグ付けを行うため、更に、効率の良い
タグ付けを行うことができる。
【図1】 この発明による文脈タガーの構成を示すブロ
ック図。
ック図。
【図2】 この発明による有限状態トランスデューサの
一例を示す図。
一例を示す図。
【図3】 図2の有限状態トランスデューサをローカル
拡張した有限状態トランスデューサを示す図。
拡張した有限状態トランスデューサを示す図。
【図4】 この発明による有限状態トランスデューサの
別の例を示す図。
別の例を示す図。
【図5】 図4の有限状態トランスデューサをローカル
拡張した有限状態トランスデューサを示す図。
拡張した有限状態トランスデューサを示す図。
【図6】 図3と図5の有限状態トランスデューサを合
成した有限状態トランスデューサを示す図。
成した有限状態トランスデューサを示す図。
【図7】 図6の有限状態トランスデューサをディター
ミニスタにより変換した決定的有限状態トランスデュー
サを示す図。
ミニスタにより変換した決定的有限状態トランスデュー
サを示す図。
【図8】 この発明の文脈タガーによるタグ付け処理を
表すブロック図。
表すブロック図。
【図9】 有限状態オートマトンによる辞書の符号化を
示す図。
示す図。
【図10】 この発明による文脈タガーと二つの従来の
タガーによる実験の結果を示す図。
タガーによる実験の結果を示す図。
【図11】 ローカルな規定による有限状態トランスデ
ューサの一例を示す図。
ューサの一例を示す図。
【図12】 図11と同等のグローバルな規定による有
限状態トランスデューサを示す図。
限状態トランスデューサを示す図。
【図13】 非決定的有限状態トランスデューサの一例
を示す図。
を示す図。
【図14】 図13と同等の決定的有限状態トランスデ
ューサを示す図。
ューサを示す図。
【図15】 従来例による文脈ルールテンプレートのセ
ットの一例を示す図。
ットの一例を示す図。
【図16】 従来例による文脈ルールを適用したタグ付
けの過程を示す図。
けの過程を示す図。
11 文脈タガー(決定的トランスデューサ)、12
ルール−トランスデューサ変換機、13 文脈ルールの
シーケンス、14 トランスデューサのシーケンス、1
5 ローカル拡張変換機、16 非決定的トランスデュ
ーサのシーケンス、17 コンポーザ、18 非決定的
トランスデューサ、19 ディターミニスタ、26 入
力文、28 辞書的タガー、30 部分的タグ付け文、
32 未知の単語タガー、34 初期タグ付け文、36
最終タグ付け文、38 文脈タガー。
ルール−トランスデューサ変換機、13 文脈ルールの
シーケンス、14 トランスデューサのシーケンス、1
5 ローカル拡張変換機、16 非決定的トランスデュ
ーサのシーケンス、17 コンポーザ、18 非決定的
トランスデューサ、19 ディターミニスタ、26 入
力文、28 辞書的タガー、30 部分的タグ付け文、
32 未知の単語タガー、34 初期タグ付け文、36
最終タグ付け文、38 文脈タガー。
Claims (9)
- 【請求項1】 入力文の単語に品詞タグ付けをする文脈
タガーにおいて、入力文の単語に対し、シングルパス
で、文脈に応じてタグ付けする決定的有限状態トランス
デューサを備えたことを特徴とする文脈タガー。 - 【請求項2】 上記決定的有限状態トランスデューサ
は、各入力単語に対し、ただ一つのタグ付けを選択する
手段を有することを特徴とする請求項1記載の文脈タガ
ー。 - 【請求項3】 上記ただ一つのタグ付けを選択する手段
は、可能なタグ付けの選択のうち、ただ一つの選択を確
定できるに充分な文脈を読み込むまで、タグ付けの選択
を延期する手段を有することを特徴とする請求項2記載
の文脈タガー。 - 【請求項4】 上記単語は、上記入力文において、それ
ぞれが特定可能なシーケンシャルな位置を持つととも
に、 上記決定的有限状態トランスデューサは、 その単語の品詞を決定するための解析のために、一つの
位置で単語を選択する手段と、 上記文中の先行する単語の品詞に基づいて、上記選択し
た単語の品詞を選択する手段と、 上記文中の先行する単語の品詞が、上記選択した単語の
品詞の決定に関し、ただ一つの結論へ導かないときは、
上記選択した単語の品詞の選択を禁じる手段を有するこ
とを特徴とする請求項1記載の文脈タガー。 - 【請求項5】 上記決定的有限状態トランスデューサ
は、上記選択した単語の品詞を選択する手段とともに、
上記入力文の上記選択した単語の品詞の選択が明確にな
るまで、上記入力文の他の単語の品詞を解析する手段の
動作を禁止する手段を有することを特徴とする請求項4
記載の文脈タガー。 - 【請求項6】 上記他の単語の品詞を解析する手段は、
上記選択した単語に後続する位置にある他の単語のみを
選択することを特徴とする請求項5記載の文脈タガー。 - 【請求項7】 上記入力文の単語に、周囲の単語とは関
わりなく、最も可能性の高い品詞を割り当てることで初
期的タグ付けする手段と、周囲の単語を文脈として用い
て、最終的な品詞タグ付けをするために、上記決定的有
限状態トランスデューサを利用する手段を有することを
特徴とする請求項1記載の文脈タガー。 - 【請求項8】 上記決定的有限状態トランスデューサ
は、 タグ付けしたテキストのトレーニングコーパスから生成
されたタグ付けルールのセットと、 上記タグ付けルールを入力とする非決定的トランスデュ
ーサと、 一つ以上の上記非決定的トランスデューサの出力をあわ
せて、一つの総合的な非決定的トランスデューサに変換
するコンポーザと、 正しいタグ付けの選択をするため充分な量の文脈情報が
得られるまで、タグ付けの選択に関して決定を延期する
ディターミニスタとから生成されることを特徴とする請
求項1記載の文脈タガー。 - 【請求項9】 上記決定的有限状態トランスデューサ
は、上記入力文中の単語の文脈の違いに従って、以前に
決定した品詞のシーケンスの有限個の数のみを利用する
ことを特徴とする請求項1記載の文脈タガー。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/264981 | 1994-06-24 | ||
| US08/264,981 US5610812A (en) | 1994-06-24 | 1994-06-24 | Contextual tagger utilizing deterministic finite state transducer |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0855122A true JPH0855122A (ja) | 1996-02-27 |
Family
ID=23008464
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7157872A Pending JPH0855122A (ja) | 1994-06-24 | 1995-06-23 | 文脈タガー |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5610812A (ja) |
| JP (1) | JPH0855122A (ja) |
Families Citing this family (173)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
| US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
| US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
| DE69802402T2 (de) * | 1997-07-04 | 2002-06-06 | Xerox Corp., Rochester | Hidden-Markov-Modelle (HMM) approximierende endliche Transducer und ihre Verwendung zum Text-Tagging |
| US6816830B1 (en) | 1997-07-04 | 2004-11-09 | Xerox Corporation | Finite state data structures with paths representing paired strings of tags and tag combinations |
| US6018735A (en) * | 1997-08-22 | 2000-01-25 | Canon Kabushiki Kaisha | Non-literal textual search using fuzzy finite-state linear non-deterministic automata |
| US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
| JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
| US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
| US6356869B1 (en) * | 1999-04-30 | 2002-03-12 | Nortel Networks Limited | Method and apparatus for discourse management |
| US6626960B1 (en) | 1999-09-01 | 2003-09-30 | International Business Machines Corporation | Method, system, and program for generating a table to determine boundaries between characters |
| US6742164B1 (en) | 1999-09-01 | 2004-05-25 | International Business Machines Corporation | Method, system, and program for generating a deterministic table to determine boundaries between characters |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US6959273B2 (en) * | 2000-04-03 | 2005-10-25 | Xerox Corporation | Method and apparatus for factoring finite state transducers with unknown symbols |
| US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
| US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
| US6714905B1 (en) * | 2000-05-02 | 2004-03-30 | Iphrase.Com, Inc. | Parsing ambiguous grammar |
| US6711561B1 (en) | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
| US6625335B1 (en) | 2000-05-11 | 2003-09-23 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for assigning keywords to documents |
| US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
| US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
| US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
| US7389234B2 (en) * | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
| US6910004B2 (en) * | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
| US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
| US7117144B2 (en) * | 2001-03-31 | 2006-10-03 | Microsoft Corporation | Spell checking for text input via reduced keypad keys |
| US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
| JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
| US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
| US20040030540A1 (en) * | 2002-08-07 | 2004-02-12 | Joel Ovil | Method and apparatus for language processing |
| US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
| US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
| US7082044B2 (en) * | 2003-03-12 | 2006-07-25 | Sensory Networks, Inc. | Apparatus and method for memory efficient, programmable, pattern matching finite state machine hardware |
| US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
| US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
| US7269544B2 (en) * | 2003-05-20 | 2007-09-11 | Hewlett-Packard Development Company, L.P. | System and method for identifying special word usage in a document |
| US7219319B2 (en) * | 2004-03-12 | 2007-05-15 | Sensory Networks, Inc. | Apparatus and method for generating state transition rules for memory efficient programmable pattern matching finite state machine hardware |
| US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US20080022401A1 (en) * | 2006-07-21 | 2008-01-24 | Sensory Networks Inc. | Apparatus and Method for Multicore Network Security Processing |
| US20080178403A1 (en) * | 2006-08-21 | 2008-07-31 | Bryant Corwin J | Systems and methods for swab transport in pipeline rehabilitation |
| US8862591B2 (en) * | 2006-08-22 | 2014-10-14 | Twitter, Inc. | System and method for evaluating sentiment |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US20080249762A1 (en) * | 2007-04-05 | 2008-10-09 | Microsoft Corporation | Categorization of documents using part-of-speech smoothing |
| US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8738360B2 (en) | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
| US8311806B2 (en) * | 2008-06-06 | 2012-11-13 | Apple Inc. | Data detection in a sequence of tokens using decision tree reductions |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US8510097B2 (en) * | 2008-12-18 | 2013-08-13 | Palo Alto Research Center Incorporated | Region-matching transducers for text-characterization |
| US8447588B2 (en) * | 2008-12-18 | 2013-05-21 | Palo Alto Research Center Incorporated | Region-matching transducers for natural language processing |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
| US20110161067A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of using pos tagging for symbol assignment |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US9002700B2 (en) | 2010-05-13 | 2015-04-07 | Grammarly, Inc. | Systems and methods for advanced grammar checking |
| US8719006B2 (en) * | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US9934218B2 (en) * | 2011-12-05 | 2018-04-03 | Infosys Limited | Systems and methods for extracting attributes from text content |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| KR102698417B1 (ko) | 2013-02-07 | 2024-08-26 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US9195940B2 (en) | 2013-03-15 | 2015-11-24 | Yahoo! Inc. | Jabba-type override for correcting or improving output of a model |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9262555B2 (en) | 2013-03-15 | 2016-02-16 | Yahoo! Inc. | Machine for recognizing or generating Jabba-type sequences |
| US9530094B2 (en) * | 2013-03-15 | 2016-12-27 | Yahoo! Inc. | Jabba-type contextual tagger |
| US9311058B2 (en) | 2013-03-15 | 2016-04-12 | Yahoo! Inc. | Jabba language |
| AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
| US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972314B2 (en) * | 2016-06-01 | 2018-05-15 | Microsoft Technology Licensing, Llc | No loss-optimization for weighted transducer |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10217377B2 (en) | 2016-11-11 | 2019-02-26 | International Business Machines Corporation | Evaluating user responses based on bootstrapped knowledge acquisition from a limited knowledge domain |
| US10726338B2 (en) | 2016-11-11 | 2020-07-28 | International Business Machines Corporation | Modifying a set of instructions based on bootstrapped knowledge acquisition from a limited knowledge domain |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| GB2568233A (en) * | 2017-10-27 | 2019-05-15 | Babylon Partners Ltd | A computer implemented determination method and system |
| US10599767B1 (en) * | 2018-05-31 | 2020-03-24 | The Ultimate Software Group, Inc. | System for providing intelligent part of speech processing of complex natural language |
| WO2020180895A1 (en) * | 2019-03-04 | 2020-09-10 | Clrv Technologies, Llc | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons |
| US10936825B1 (en) | 2019-07-19 | 2021-03-02 | Clrv Technologies, Llc | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space |
| CN120855208B (zh) * | 2025-09-22 | 2026-01-16 | 国网上海市电力公司 | 一种基于智能体的电网保护定值匹配与校核方法 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4579533A (en) * | 1982-04-26 | 1986-04-01 | Anderson Weston A | Method of teaching a subject including use of a dictionary and translator |
| US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
| US4661942A (en) * | 1983-08-26 | 1987-04-28 | Mitsubishi Denki Kabushiki Kaisha | Control apparatus for information storage and retrieval system |
| JPS63120362A (ja) * | 1986-11-10 | 1988-05-24 | Brother Ind Ltd | スペルチエツク機能付文書処理装置 |
| US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
| US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
| US4864502A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Sentence analyzer |
| US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
| US5333313A (en) * | 1990-10-22 | 1994-07-26 | Franklin Electronic Publishers, Incorporated | Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part |
| US5297040A (en) * | 1991-10-23 | 1994-03-22 | Franklin T. Hu | Molecular natural language processing system |
-
1994
- 1994-06-24 US US08/264,981 patent/US5610812A/en not_active Expired - Lifetime
-
1995
- 1995-06-23 JP JP7157872A patent/JPH0855122A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| US5610812A (en) | 1997-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0855122A (ja) | 文脈タガー | |
| US6233544B1 (en) | Method and apparatus for language translation | |
| Eisner | Bilexical grammars and their cubic-time parsing algorithms | |
| US6442524B1 (en) | Analyzing inflectional morphology in a spoken language translation system | |
| US6278968B1 (en) | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
| US6374224B1 (en) | Method and apparatus for style control in natural language generation | |
| US6223150B1 (en) | Method and apparatus for parsing in a spoken language translation system | |
| US6266642B1 (en) | Method and portable apparatus for performing spoken language translation | |
| JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
| US20030009335A1 (en) | Speech recognition with dynamic grammars | |
| US20020198713A1 (en) | Method and apparatus for perfoming spoken language translation | |
| US20040167771A1 (en) | Method and system for reducing lexical ambiguity | |
| JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
| JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
| KR100726875B1 (ko) | 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스 | |
| Oflazer et al. | Turkish and its challenges for language and speech processing | |
| Kuo et al. | Syntactic features for Arabic speech recognition | |
| US12333245B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
| KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
| JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
| JP3873305B2 (ja) | 仮名漢字変換装置および仮名漢字変換方法 | |
| Lin et al. | A hierarchical tag-graph search scheme with layered grammar rules for spontaneous speech understanding | |
| JP2765618B2 (ja) | 言語解析装置 | |
| Balcha et al. | Design and Development of Sentence Parser | |
| JP2024021023A (ja) | Synapperモデルユニットを用いた自然語処理システム及び方法 |