JPH02299067A - リライト・メカニズムにおける変換規則実行方法、定義方法、及び適用方法 - Google Patents

リライト・メカニズムにおける変換規則実行方法、定義方法、及び適用方法

Info

Publication number
JPH02299067A
JPH02299067A JP2103259A JP10325990A JPH02299067A JP H02299067 A JPH02299067 A JP H02299067A JP 2103259 A JP2103259 A JP 2103259A JP 10325990 A JP10325990 A JP 10325990A JP H02299067 A JPH02299067 A JP H02299067A
Authority
JP
Japan
Prior art keywords
rule
rules
string
input
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2103259A
Other languages
English (en)
Inventor
Antonio Zamora
アントニオ・ザモラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH02299067A publication Critical patent/JPH02299067A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/311Functional or applicative languages; Rewrite languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 ここに開示される本発明は、概してコンピュータ方法に
関し、より詳しくは、規則を解釈して入力ストリングを
出力ストリングに変換するためのコンピュータ方法に関
する。
B、従来の技術 「リライト機構(メカニズム)」は、変換またはりライ
ト規則を入力ストリングに適用して、入力ストリングを
新しいストリングに変換する処理である。この概念は表
面上は極めて簡単に見えるが、曖昧性の解釈を定義し、
終了を保証することを必要とする複雑さがある。これら
の問題は幾つかの例から認識することができる。次のリ
ライト規則を仮定する。
1)a+x 2)b+y これらの規則は、変換される入力ストリングに左側の文
字が現れるたびに、その文字は矢印の右側の文字により
置き換えられる。これらの規則はストリング’abba
″を簡単な置換によりXyyX“に変換することができ
る。しかし、ab”をZ′で置き換えるもう1つの規則
3)ab  +  Z を有する場合は、次のような曖昧性がある。規則3の前
に規則1が適用される場合は、”abba″は’xYY
X″に変換される。しかし、規則3が規則1よりも高い
優先順位を有する場合は、abba″は”zyx”にな
る。
リライト規則システムで遭遇するもう1つの問題は、実
行されたとき一組の変換規則が終了するか否かを判定す
ることである。つまり、これらの規則は処理が終了する
ように定義されているか、ということである。次の例は
その問題を示す。
”yy”を2″に変換する規則 3)YY+z を定義した場合は、ストリング″abba″はまず規則
1及び2の適用によりストリング″xyy×″に変換さ
れ、次にこのストリングは、その中間の2文字がyy′
であるので、XZX″に変換される。このような規則の
反復適用を再帰と呼ぶことができる。
3)xy   −+   ab のような規則を定義することにより、−組の非終了規則
を作ることができる。ストリング’abba″は、まず
規則1及び2によりxyyx″に変換されるが、規則3
はそれをabYx″に変換する。規則1及び2が再び適
用されて、?1abox″は再び変換されてxyyx”
にもどる。
処理は終了することなく無限に反復する。
本発明の目的は、規則の曖昧性、優先順位及び終了(タ
ーミネーシロン)の問題を解決するりライト機構を定義
することである。本発明のもう1つの目的は、広範なア
プリケーシヨンに対して能率的な実行をもたらす規則を
構成する方法を定義することである。
M、E、  レスク(Lesk )他によるrLEX−
辞書的解析ルーチン生成プログラム(LEX−aLex
ical Analyzer Generator) 
J N Comput、 Sci。
Tech、 Rep、、39、Be1l Labora
tories、 HurrayHill、 Hew J
erseyll 975年10月。この論文は、あるパ
ターン突合せプログラムを記載し、このプログラムでは
、パターンは、パターンが一致したときアクシロンを実
施するプログラム・ステートメントと関連付けられる。
LEXは完全な言語ではない。LEXはホスト・コンパ
イラと共同して動作する。
J、A、マナス(Manas)による「スペイン語にお
ける語の区分(Word Division in 5
panish) J、Coa+munications
 of the ACM、Vol、30、No、7、p
p、612−616.1987年7月。
この論文は、スペイン語テキストにハイフンを付けるた
めに、LEXをリライト機構として適用することについ
て記載している。
B、ブロッダ(Brodda )他による「フィンラン
ド語の自動語形的解析の試み(An Experime
ntwith Automatic Morpholo
gical Analysis ofF inn 1s
h) J 、ヘルシンキ大学言語学部、出版番号7.1
981年。この論文はrBETAシステム」 −ス) 
Uング置換機能を有する有限状態オートマトンについて
記載している。このシステムは、特定の入力ストリング
に適用することができる複数の規則を解決するための待
合せ機構を有する。
これらの規則の形式は表に基づくものであり、無限ルー
プの防止策は設けられていない。
J、P、ヘイズ(Hayes)による「コンピュータの
アーキテクチュアと組織(Computer静chit
ecture and Organization) 
J N McGrav−11i11Book Co、、
New York)1978年1pp、4−6゜コンピ
ュータ科学を始める学生のための本書は、アラン・チュ
ーリング(八lan TurinH)により1936年
に定義された「チューリング機械」の原理を記載してい
る。この機械は基本的には、リライト規則の適用を含む
、想像可能などのような計算にも使用できるテープに取
り付けられる状態オートマトンである。
R,E、グリーズウオールド(Grisvold)他に
よるrsNOBOL4プログラム言語(TheSNOB
OL 4 Programming Language
) J )Prentice−11all、 Inc、
、 EnBlevood C11ffs、 New J
erseys 1970年。5NOBOL4は、リライ
ト機構に関する多くのス) IJソング合せ機能を提供
するプログラム言語である。5NOBOLの普遍性が能
率的突合せを排除するので、ストリングを突き合わせる
ための策略が重要である。5NOBOLは非常に強力な
コンピュータ言語であるが、実行が遅いために評判が良
くない。
C6発明が解決しようとする課題 したがって、本発明の目的はりライト規則のための単純
化された機構を提供することである。
本発明のもう1つの目的は、リライト規則を能率的に構
成できるようにする、リライト規則のための単純化され
た機構を提供することである。
本発明のさらにもう1つの目的は、リライト規則を能率
的に解釈できるようにする、リライト規則のための単純
化された機構を提供することである。
01課題を解決するための手段 これらの目的、特徴及び利点は、本明細書に開示する発
明により果たされる。本発明は、X (Y)Z= (R
)形式のりライト規則を定義するための手段からなる。
ただし、Xは左の文脈、Yは規則の本体、Zは右の文脈
、Rは、規則がうまく適用された場合のYの置換値であ
る。この方法は、能率的に索引できるように規則を構成
できるようにする規則を定義する方法に制限を設ける。
特に、規則の本体は一般的な用語で定義することはでき
ないが、この制限は規則の左右の文脈には適用されない
。規則は走査されて、本体及びその文脈に一致する最初
の規則が、適用される規則になる。規則を階層に配列す
ると、どの特定の規則に対しても例外を有することが可
能になる。
本発明のための方法の部分は、1つのモデルを包含し、
このモデルでは、規則が任意の入力ストリングに適用さ
れて出力ストリングを作成し、一方、適合する任意の規
則の本体が入力ストリングでスキップされる。入力スト
リングのどの文字にも規則が適用されないときは、スト
リングを複写するための省略時(デフォルト)規則が適
用される。このことは、処理が常に終了し、かつループ
・フリーであることを保証する。
明のアプリケーション アルゴリズム・ハイフネーション:語のノ\イフネーシ
ョンのための規則は、リライト規則として表現すること
ができる。
音声合成;テキスト−音声規則を使用して、音声合成装
置を駆動することができる。
翻訳:リライト規則を介して、ある言語の文字を別の言
語に翻訳することができる。
主要な新項目:規則は能率的な突合せのため本体により
構成される。一度規則が適用されると、再処理を防ぎ、
かつ終了を保証するために、本体に一致する部分はスキ
ップされる。規則は入力ストリングに適用されて出力ス
トリングを作成する。
規則は階層に構成することができる。適合する規則がな
い文字を複写するための省略時規則で、終了が保証され
る。
効率を向上させる新規な他の項目:本体は端末ストリン
グのみからなる。一般的記号は規則の外部でのみ使用さ
れる。さらに融通性を持たせるための状態を使用するこ
とができる。複数の通過が可能であるが、規則によって
制御され、終了(ターミネーシヨン)を保証する。他の
仔限状態システムと比較して表記は明瞭である。
E、実施例 リライト規則機構は、−組の規則の適用によりあるスト
リングを別のストリングに変換する問題を扱う。この手
法から利益を得る2つのタスクは、語のハイフネーショ
ンとテキスト・トークンの音声ストリングへの変換であ
る。
これまでは、これらの問題は辞書を探索するか、専用の
コンピュータ・プログラムを書(ことにより処理されて
きた。辞書の探索は一定数の事例に対処するだけである
ので、不適当である。一方、コンピュータ・プログラム
は無限の数の事例を適用することができるが、規則を更
新するためコンピュータ・プログラミングの専門知識を
必要とする。
リライト規則機構によって、コンピュータ・プログラミ
ングの知識なしに変更することができる一組の規則を作
ることができる。しかし、大部分のリライト規則システ
ムは、チューリング機械(理論的にはどのような計算可
能な問題でも解くことができる)の力を達成するために
は非常に複雑である。たとえば、W、A、ウッズ(Wo
ods)による「自然言語解析用の遷移ネットワーク文
法(Transition Network Gram
mars for NaturalLanguage 
 Analysis)J  、Cows、  of  
the  ACM  13、No、、10、pp、59
1−806 (1970)が参照される。これらの強力
なシステムは、コンピュータ・プログラムと同じ欠点に
悩まされている。システムを永久にループさせる恐れの
ある規則を書く可能性がある。
本発明は、あるストリングを別のストリングに変換する
問題を扱うが、処理の終了を保証するという制約を招く
。さらに、規則を記述するため使用される約束は、変換
が適用されるシーケンスを指定し、コンピュータ・シス
テムで規則を能率的に実行することを可能にする。
本発明は、形式X (Y)Z= (R)のりライト規則
を定義するための方法からなる。ただし、Xは左の文脈
、Yは規則の本体、Zは右の文脈、Rは、規則がうまく
適合した場合のYに対する置換値である。この方法は、
能率的に索引できるように規則を構成することを可能に
するため、規則をどのように定義するか、について制約
を設ける。
特に、規則の本体は一般的な用語で定義することができ
ないが、この制約は規則の左右の文脈には適用されない
。規則は、本体及びその文脈に適合する規則が、適用さ
れる規則になるように走査される。規則を階層に配列す
ることによって、どのような特定の規則に対しても例外
を有することが可能になる。
本発明のための方法の部分は1つのモデルを包含し、こ
のモデルでは、出力ストリングを作成するため規則が任
意の入力ストリングに適用される一方、適合するどのよ
うな規則の本体も入力ストリングでスキップされる。入
力ストリングのどの文字にも規則が適用されないときは
、ストリングを複写するための省略時規制が適用される
。これによって、処理が常に終了し、ループ・フリーで
あることが保証される。
ハイフネーション規則を定義するためのりライト機構の
使用: アルゴリズム・ハイフネーションのための要件は、文字
シーケンス、文字の文脈、及び規則の構成要素が語に対
して突き合わされるとき実施される活動を定義する規則
として表現することができる。この文書はアルゴリズム
・ハイフネーション規則、及びコンピュータによるそれ
らの規則の解釈について説明している。規則表はCOM
MENTS(コメント、注釈) 、DECLARATI
ON(宣言)及びRULES (、規則)を含む。ハイ
フネーション規則を含むファイルは、可変長レコードか
ら構成されなければならない。
コメントの書式: コメントは、列1においてアステリスク(*)で始まる
行である。コメントはまた、少なくとも1つのブランク
及びアステリスクをコメントの前に置くことにより、任
意の行に書くことができる。
たとえば、 *以下の規則は重複したmを取り除く (m)m=()   *重複したmを取り除くための規
則 宣言の書式: 宣言は、文字またはストリングの集合を定義するため使
用される。これらの集合の識別子は、ハイフネーション
要件を記述するための規則の数を減らすため使用するこ
とができる。すべての宣言は規則に先行しなければなら
ない。宣言の一般的書式は次の通りである。
”DCL  S= (c 1、c2、c3.、、)ここ
で最初の5文字は”*DCL″であり、n S nは集
合識別子、”cl″、n c2 *、′Tc3″などは
、括弧に囲まれた集合に属する文字または文字順列であ
る。
集合識別子″S″は、大文字の英字または1桁の数字で
よい。前にアポストロフィを付けた2桁の数により、追
加の集合を定義することができる(たとえば、’13=
(a  b  c))。
集合を構成する文字またはストリングは、1つのブラン
クで互いに区切られた任意の非予約文字である。単一の
大文字の英字または数字は、それらが集合識別子として
使用されていない場合に使用することができる。ストリ
ングは5の長さを超えることができず、1つの集合には
60を超える構成要素はない。アクセント付きの文字を
表すため特別な約束が使用される。
第1パス・カード: 第1パス・カードは、入力ストリングを介する最初のバ
スのために使用される初期状態を定義する。カードは任
意選択(オプシ日ナル)であり、省略された場合は、最
初のバスに対する初期状態は0である。書式は次の通り
である。
傘PASSI  Is ただし、”Is″は、初期状態を指定する任意選択の2
桁の数である。
第2のバス・カード: 第1パス・カードによって作られたストリングに対する
規則の第2の適用は、次の書式を有する第2のバス・カ
ードを含むことにより指定される。
”PASS2  IS ただし、Is″は、第2のバスのための初期状態を指定
する任期選択の2桁の数である。このカードは、単一の
バスが入力ストリングを介して行なわれる場合のみ省略
される。
規則の書式: 規則は、ハイフンで結合される語に対して突き合わされ
るべきパターンを表す。規則の左側はPATTERN 
(パターン)であり、右側はREPLACEMENT 
(置換)ストリングを表す。規則は次の書式を有する。
X (Y)Z= (R) ただし、X及びZは、ストリングYに対する左及び右の
C0NTEXT (文脈)をそれぞれ表す。
ストリングYは規則の本体と呼ばれ、括弧で囲って文脈
から区切る。X及びZは、Oまたはそ以上の非予約文字
または集合識別子からなるストリングである。ストリン
グYは、適用すべき規則について1語の中で見つからな
ければならない非予約文字のみからなる。集合は規則の
本体内では使用することができない。置換ストリングR
は括弧で囲まれ、任意の文字を含むか、または空文字″
()t′でよい。
規則は、それらが有効である状態を指定し、現在状態の
値をリセットすることができる。状態の指定は任意選択
である。状態付きの規則は次の書式を有する。
FS  X (Y)Z= (R)  NSただし、ES
″は、1桁のブランクが後に続く2桁の数であり、規則
が実行される状態を指定する。これはEXECUTIO
N  5TATE(実行状態)と呼ばれる。置換ストリ
ングに続く1つのブランクが先行する2桁の数″NS”
は、規則の実行後に現在状態になるNEW  5TAT
E(新しい状態)である。実行状態を指定しない規則は
、ES=OOを割り当てられる。新しい状態を指定しな
い規則は、現在状態の値を変更しない。規則の実行は常
にOOの初期状態によって開始する。”PASS2カー
ドを介して任意選択の第2のパスに対して異なった初期
状態を指定することができる。
状態は2通りに解釈される。現在状態が00〜99の範
囲にある場合は、現在状態にかかわらず、ES=00を
有する規則が実行される。しかし、現在状態が50〜9
9の範囲にある場合は、規則がない文字を複写すること
からなる省略時規則を除いて、ES=00を有する規則
は実行されない。
規則の文脈の部分として使用される下線文字”−”はD
ELIMITER(区切り記号)を表す。Xの最初の文
字またはZの最後の文字とじて使用されるとき、下線文
字は語の始めまたは終りにそれぞれ適合する。下線文字
は文脈の最初または最後の文字である必要はなく、語の
内部句読文字にも適合する(can’t、 ” ”mo
ther−in−1aw ”におけるように)。下線文
字はフィールド終りに加えて、以下の文字に適合する。
ブランク−“−、=/()” 規則の文脈の部分として使用されるピリオド”、′は句
読点を含む任意の文字に適合するが、フィールド終りに
は適合しない。ピリオドはGENERIC(一般)文字
またはプレース・ホルダーとして動作する。たとえば、
  (ab)= (ab)は、語の始めに現れるときに
(ab)に一致するが1.(ab)= (ab)は、”
ab″の前に1文字が置かれた場合、すなわち、′a″
が語の最初の文字でない場合のみ成り立つ。
規則はYストリングの最初の文字により索引されるので
、規則はYストリングの最初の文字によってグループ化
されなければならない。XYZパターンで表現される条
件にうまく合う最初の規則が、使用される規則である。
そうでない場合は、グループ内の次の規則が調べられる
が、これは、規則がYストリングの最初の文字によるだ
けでなく、優先順位の減少順でも配列されねばならない
からである。語に適用可能なすべての規則が調べられる
と、または、語が規則のない文字を有するときは、その
文字は、あたかも(Y)= (Y)という規則(ここで
Yは問題の文字)があったかのように複写される。
入力ストリングは左から右に走査され、一方、適合する
規則について探索が行なわれる。規則のパターンがうま
く一致したときは、Yに対応する入力ストリングの部分
はスキップされ、出力ストリングRが任意の先行出力ス
トリングに連結される。出力ストリングは、一致したY
ストリングとは異なってもよい。たとえば、(ck)=
(k−k)。
規則は、入力ストリングを調べ、新しい出力ストリツプ
を発生するものと見なすことができる。
”X (abc)Z= (j k l)”などの規則は
、”abc″が入力ストリングと突き合わされ、左の文
脈がX°“であり、右の文脈がZ″であるときは、スト
リング″jkl″を出力ストリングに加え、入力ストリ
ングの°“abc″をスキップすることを意味する。つ
まり、”abc″をjkl”で置換する。規則の本体が
置換したものと同じ、た°とえば、”(abc)= (
abc)″である場合は、これは、ストリング″abc
″を出力ストリングに加え、入力ストリングでのそれを
スキップすることを意味する。つまり、”abc″を複
写するだけである。
規則のBODY (本体)(等号の左側における括弧内
の部分)が入力ストリングと突き合わされたときは、本
体に対応する入力文字はスキップされる。次に、規則の
置換側、すなわち右側における括弧内の文字が出力スト
リングに加えられる。
突合せは入力ストリングについてのみ実施されるので、
置換は突合せに全く影響を及ぼさない。
規則の相互作用のため、”(abc)=(abc)°″
のような規則は、”abc−de″を得るためのハイフ
ネーションを許容しない、ということはできない。もう
1つの規則″(d)= (−d)”があれば、このこと
は起こり得る。しかし、この規則の前に” abc (
d)= (d)″というもう1行を置くことにより、こ
のことを防ぐことができる。
予約文字: 規則を記述するために、以下の句読文字が予約されてい
る。特殊文字を入力するため他の句読文字を予約するこ
とができる。
−・ ()=*” アクセント付きの文字は、付録Aに示す約束に従って符
合化することができる。
能率、シーケンス及び相互依存: 集合を定義するときは、その構成要素を出現頻度の減少
順に列挙するのが一層能率的である。この方法で、構成
要素が他のどのようなシーケンスで列挙されている場合
よりも早く一致が発見される。
一般文字を代表する点”、″は集合よりも一層能率的に
一致する。
集合内の単一文字ストリングはそれより長いストリング
の前に走査される。条件が満たされるとすぐに、パター
ン突合せは停止するので、集合の単一文字構成要素と同
じ文字で始まる任意の文字ストリングを集合に含むこと
は意味がない。たとえば、” (ad)x  (+)”
という規則(ただし、x=(c  ch))が与えられ
たとすると、入力ストリング″radc”はr+c ”
を発生し、一方、ストリング°”radch”は、規則
が溝たされないので変化しない。すなわち、入力ストリ
ング中のc″は集合Xの構成要素と一致するが、続く入
力文字”h”は、規則により指定された区切り記号”−
“と一致しない。
″(algebra)=(al−geb−ra)”のよ
うなハイフネーション規則は、他のどんな規則が含まれ
るかによってN ”a (1gebra)= (1−g
eb−ra)″として、またはa1(gebra)= 
(−gab−ra)″として、またはa Ige (b
 r)a== (b−r)”としてさえ書かれた場合に
一層能率的になる。能率が改善された理由は、文字ff
1n、?1g″または”b”は文字″a″よりも発生す
る頻度が低いことである。文字n a″が既に多(の規
則を有する場合は、別の文字のもとて索引される規則を
作ることが一層能率的である。何故ならば、より少ない
規則が走査され、かつそれらの規則がよりまれにしか走
査されない(索引された文字の頻度に応じて)からであ
る。
1つの構成要素で集合を定義することは有用ではない。
宣言”*DCL  T= (t)”及び規則″(ulo
so)T== (ulos−o)”は″(ulos−o
)t= (ulos−o)”として簡単に書くことがで
きる。ときには、小さな集合を含む規則は、使用される
集合の数を減少させるため完全に列挙することができる
。集合が小さい場合は、それを拡張して非常に少ない余
分な規則にする。集合に対する参照は、規則内での文字
突合せより多くの時間を必要とする。
ハイフンは最初の文字として、または語の最初の文字の
後では決して望ましくないので、” (akvaar)
V= (−ak−vaa−r)”などのハイフネーシロ
ン規則は、多分”、、(akvaar)V= (−ak
−vaar−r)”として符号化されるべきである。
プログラムは、適用される最初の規則に従ってハイフン
を付ける。これは、”例外”が常に一般規則に先立って
列挙されねばならないからである。
したがって、”br″は語″a1gebra″における
場合を除いてN ” b−r ”としてハイフンを付け
られることはない。
一般文字を含む規則(たとえば、”(aio)。
=(at−o)″)が、特殊文字を有する規則(たとえ
ば、″(a i o) 、 = (a 1−o) ”)
が、特殊文字を有する規則(たとえば、”(aioi)
= (a i−o i)″)の前にくる場合は、特殊文
字を有する規則は決して一致されない。これらの例では
、最初の規則の点”、′は文字″t Wまたは他の任意
の文字と突き合わされ、したがって、第2の規則は決し
て一致しない。規則が集合を参照するとき、これと同じ
問題が発生する可能性がある。
語を走査するシーケンスに関連して幾つかの「副作用」
がある。語の走査は左から右に行なわれるので、規則の
本体にある文字が−たび一致すると、この文字は入力で
スキップされ、他の規則の置換部分により影響されるこ
とはあり得ない。
たとえば、 t oma t o“という語と″(t oma t)
=(to−mat)”及び” (ma t)= (ma
 −t)゛という2つのハイフネーシロン規則が与えら
れると、最初の規則のみが一致する。その理由は、一度
最初の規則におけるストリング″tomat″が突き合
わされ、”tO−mat”により置き換えられると、走
査は入力語のREMAINING  UNMATCHE
D(残りの未突合せ)部分、すなわち0″から続行する
。他の規則が適用されない場合は、” to−mato
″を与える残りの文字を複写するため省略時規則(0)
=(0)が使用されることになる。これらの規則が”(
to)mat= (to −)”及び”(mat)=(
ma−t)″と書かれる場合は、両方の規則が適合する
ので、語はto−ma−to″とハイフンを付けられる
。シーケンス”mat”が最初の規則のBODY (本
体)ではなく C0NTEXT(文脈)にあるときは、
第2の規則の適用を妨げない。
規則の本体内に集合を有することはできない。
その理由は2つある。すなわち、a)右側における対応
する置換は明確でなければならず、またb)規則は実行
時の効率のため、括弧内の最初の文字に基づいて索引さ
れるからである。
別の集合の補集合(否定)である−組を有する機能はな
い。ここで生じる1つの問題は、たとえば、母音の集合
の補集合は残りのアルファベットのみではなく、コード
・ページにおける256文字の残りでもあるということ
である。このことは、mother−in−1aw″1
0 ” Ko rn″などの特殊な句読点を有する語の
場合に問題を生じる恐れがある。
質問(Q)及び答(A): Q:規則の優先順位についての正確な定義は何か。主な
基準は語を左から右に走査することのように見える。(
k)が最初に処理されるので、(kalle)は(a 
l l e)に優先するのか。
Aニ一度規則の本体(等号の左側の括弧内の部分が一致
すると、本体を後で適用される規則の文脈で参照するこ
とはできても、それ以上の置換に使用することはできな
い。
入力された語は左から右に文字単位で走査される。語″
5kallen″と規則(kalle)= (xyz)
及び(al 1e)= (f)が与えられると、以下の
結果が得られる。
一″S″については規則がないので、”8″が出力され
る。
一″に″が走査されたときは、ストリング″kal l
e″が一致し、”xyz”が出力される。
走査は次の文字(n″)から続行し、この文字について
は規則がないので、出力される。
−結果は” s x y z n ”である。
” a l l e ”に関する規則は、最初の規則が
” (k)a l 1 e= (xyz)に変更された
場合のみ適用できる。この場合は、結果は”xyzfn
”になる。
Q:規則内の状態はいつ使用するのか。
A:2つの規則のアクシロンを連係する必要があるとき
、状態は有用になり得る。接頭辞”sub″を有する語
について終りのing″を′ings″に変える必要が
あるものとする(たとえばN substring+s
ubstrfngS)。このことを実現するための規則
は次のようになる。   (sub)= (sub)0
303 (ing)  = (ings)最初の規則は
接頭辞″sub”を認識し、現在の状態を03にセット
する。第2の規則は、現在の状態が03であるときのみ
実行するので、′ring’などの語については実行し
ない。
Q:2重ハイフンはどのように抑止するか。2つのハイ
フネーションff1則(e s i) = (e 5i
−)及び(k)v=(−k)は!’esi−−kOt″
を発生する。
A:置換ストリングの左にハイフンを有するハイフネー
ション規則、すなわち、規則=(−XX)のみを有する
ことにより、OR(または)、置換ストリングの右にハ
イフンを有する規則、すなわち、規則=(XX−)のみ
を有することにより2重ハイフンを避けることができる
。ハイフンを両側に有する規則を結合すると、2つの規
則が次々に適用されたとき2重ハイフンが生じる。
2重ハイフンを避けるもう1つの方法は、それらを除去
する第2のパスを要求することによる。
これは以下のステートメントで行なうことができる。
*PASS2 50 50   (−) −= () 木PASS2カードは第2のバスに対する初期状f!J
50を指定する。隣接するハイフンを除去するための規
則は、現在の状態が50であるときのみ適用される。実
行状態が指定されない(すなわち、ES=OO)規則の
実行を防ぐため、49よりも上位の状態を使用する必要
がある。
Q:規則、たとえばハイフネーション規則はどのように
配列されるべきか。
A:ハイフネーション処理は、RULES (規則)及
びEXCEPTIONS (例外)の概念を使って考え
るべきである。母音を従えたS″の前にハイフンを付け
る基本規則”、、(S)V=(−s)’“がある場合は
、この規則の前に、ハイフネーションを抑止する例外規
則が先行する。これらの例外規則の前に、例外に対する
例外があり、以下同様である。規則に対する例外は、無
効にしようとしている規則よりもMUST  BE  
MORE  5PECIFIC(明確でなければならず
) 、D I FFERENT (異なる)置換ストリ
ングを指定しなければならない。これは、例外規則の本
体及び文脈がすべての(または同等の)要素、PLUS
 (さらに)幾つかの追加の制限AND(及び)反対の
アクシロンを含むことを意味する。これを以下の例で示
す。
規則         説明 、V(s)VCV、=(−s)    A2a、規則A
2に対する例外がハイフンを付ける 、V(s)VCV、−=(−s)    A2b、規則
Δ2に対する例外がハイフンを付ける 、V(s)VCV、=(s)     A2.規則へに
対する例外がハイフネーションを 抑止する 、VNV(s)V、=(−s)    Δla、規則酎
に対耐る例外がハイフンを付ける 、VNV(s)V、=(−s)    Δib、規則A
1に対する例外がハイフンを付ける 、VMV(s)V、=(s)     Δ1.規則Aに
対する例外がハイフネーションを 抑止する 、、 (s)V=(−S)      A、基本規則が
ハイフンを付ける 同じ機能を膏する規則(たとえば、上記Ala及びAl
b)のシーケンスは問題ではないが、(括弧内の)本体
により、さらに右及び左の文脈によりそれらをアルファ
ベット類に並べることが好ましい。
Q:語の最初の文字の前のハイフンはどのように抑止す
ることができるか。たとえば、“−pro−jek−t
i″ Aニ一般的な”、n文字を左の文脈の一部として指定す
るハイフネーシ日ン規則を符号化することにより、先頭
のハイフンを避けることができる。
たとえば、規則” (proj)V= (−pro−j
)°“は°“、、(1)roj)V=(−pro−j)
”として指定することができる。2つの一般的文字が、
ストリング″proj″の前に少なくとも2つの文字が
あることを保証する。このことはハイフンが先頭につく
問題、ならびにハイフンが後に続く単一文字を回避する
ことになる。
デバッグ: 語になぜ特定の方法でハイフンを付けるかを説明するこ
とが望ましいこともある。規則の数が大きいときは、こ
れを手動で決定するのは困難である。このため、ハイフ
ネーシヨン・プログラムは動的デバッグ機能を有するこ
とがある。デバッグ・モードでは、プログラムは、適合
した規則を示すことになる。このデバッグ・モードは、
プログラムが入力語を要求したときにストリング”da
t=1″をタイプすれば使用可能になる。
デバッグ・モードは、”dat=o″とタイプすること
により使用禁止にされる。
例 入力語     ==〉  デバッグ・モードを使
用可能にするddt=1 入力語 extremadamente )tATell !、、(t)LV! 航冗it !F(r)! HA″Te1l !、、(m)V! MATCII !、、(d)V4 HA’旧11.、(m)V! )IATcH!、、(t)V! ex−tre−ma−da−men−te入力語 ・・
・ ddt−0==>デバッグ・モードを使用可能にする入
力語 ・・・ 本発明のアプリケーションの例。
一意J仁しヱヱ」二外甜」むΣp」す1男ノj1里付録
Bの英語音声規則を使用し、かつ入力語″nat io
n″が与えられると、各入力文字が調べられる。In”
についての規則はないので、最初のIn nは出力スト
リングに複写される。
a″についての規則は(at)または(aU)を必要と
するが、これらの条件は満たされないので、a″は出力
ストリングに付加される。′t″を調べると、入力スト
リング″tion”は規則”s (t)ion= (t
)”の右の文脈に一致するが、入力ストリングの左側に
はn s″がないので、この規則は適合しない。次に調
べられる規則は″(t)ion= (sh)″であり、
この規則は適合するので、”sh”が出力ストリングに
付加される。入力ストリングの残りの文字″i″、”o
”及び”n″は、適用される規則を持たず、出力ストリ
ングに複写される。大力スリトングが尽きると規則の解
釈は入力ストリング″natiOn″から出力ストリン
グ”nashion”を発生させたことになる。
同様な処理により、規則”(ph)= (f)”及び“
″(c)= (k)”を適用すると、語”phonet
ic″が”fonetik″に変換される。あるいは、
規則の集合が″(n)e=(−n)及び″(i)c=(
−i)からなる場合は、語″I)honetic″はI
)ho−net−ic″に変換され、したがって、音声
変換機能ではなくハイラネー21フ機能が実行される。
リライト規f11  釈プログラムの好ましい  例及
び擬似コード 規則解釈プログラムは、第1図の概要流れ図に示すよう
に、規則表を入力ストリングに適用して、0変換された
出力ストリングを発生させる。この11]ス) IJソ
ング、1つのパスの出力を次のパスのための入力として
使用することにより、後続のパスで同じ規則表により処
理できる。
能率向上のために、集合及び規則についてインデックス
を組み立てる。こうして、規則表は、集合インデックス
、規則インデックス、ストリングの集合、リライト規則
、及び各パスについて使用されることになる初期状態を
含む総括的な変数からなる。リライト規則の書式は FS  X (Y)Z= (R)NS である。ただしES″は実行状態、nX″は左の文脈、
Y″は規則の本体、Z″は右の文脈、IT R“は置換
ストリング、”NS″は新しい状態である。
1nput wordが与えられると、複数のパスが次
のように実行される。
wordin = 1nput wordcall  
rule−int(wordin、passl  1n
itial−value、  vordout)if 
pass21nitial value != −1(
wordin =wordout call rule int(wordin、pass
21nitial value、vordout)if
 pass31nitiajvalue != −1(
wordin =wordout calf rule int(wordin、pass
3−initial value、vordout)i
f pass4−initial value != 
−1(wordin = wordout call rule−int(wordin、pass
21nitial value、wordout)ou
tput word = vordout第2図の流れ
図に示すように、規則解釈プログラム自体次のように働
く。
rule int: 状態を、渡されたパラメータ値にセ−/ )する。
出力ストリングを空に初期設定する。
char  5can: 入力ストリングの各文字について、 規則インデックスでその文字を探索する。
入力ストリングが尽きたときは、出力ストリングを返す
文字がインデックスされなかった場合は、それを出力ス
トリングに複写し、入力ストリングにおけるその文字を
スキップしてchar 5canを続行する。
その文字についてすべての規則を順次調べる。
規則インデックスを使って適当な規則を探し出し、この
時点で、ES、NS、X1Yの2及びRは現在の規則を
指す。
apply rule: 状態り50の場合、 ES > O及びES !=状態の場合、5kip−t
his rule。
状態〉=50の場合、 ES !=状態の場合、5kip this rule
この規則が適用できることを確かめるためレングス・ス
クリーンを適用する。
入力ストリングが、規則により必要とされるよりも小さ
い場合、 5kip this rule。
Yが入力ストリングに一致する仕事を行なう場合、5k
ip this rule。
right context: Zの各文字について、 その文字が集合標識である場合( 集合番号を取る。
入力ストリングが尽きた場合( 空ストリングが集合である場合、 right contextの走査を続行する。
さもなければ、5kip this−rule。
複数文字及び単一文字集合構成要素を長さの減少順に検
査する。
集合構成要素が一致した場合、入力ストリングの対応部
分をスキップして、r+ghtcontextの走査を
続行する。
空ストリング集合構成要素が存在する場合、right
 contextの走査を続行し、さもなげればN 5
kip this rule。
さもなければ、文字が終止符”?”である場合( 入力ストリングが尽きた場合、1eft−contex
tを走査する。
さもなければ、5kip this rule。
さもなければ、文字が区切り文字”−”である場合( 入力ストリングが尽きた場合、1eft−contex
tを走査する〇 現在の入力文字が句読点でない場合、この規則をスキッ
プする。
入力文字をスキップしてright contextの
走査を続行する。
さもなければ、文字が一般的文字”、°“である場合( 入力ストリングが尽きた場合、5kip this−r
ule。
入力文字をスキップしてright contextの
走査を続行する。
さもなければ、( 入力ストリングが尽きた場合、5kip this=r
ule。
入力文字が規則文字に一致しない場合、5kip th
is rule。
入力文字をスキップしてright contextの
走査を続行する。
left context: 1eft context走査手順はright co
ntext手順と同じであるが、走査の方向が左から右
ではなく、右から左である。また、1eft−cont
extは)right contextが言及されるす
べての場所でその代りとされるべきであり、処理が1e
ft contextの走査を続行する場所でmatc
h conditionが認識される。
match  condition: 置換ストリングを出力ストリングに連係する。
Yに対応する入力ストリングの部分(一致した規則の本
体)をスキップする。
状態をNSにセットする。
char 5can を続行する。
5kip this rule= 現在の規則をスキップする。
次の規則を取る。
別の規則が利用可能である場合( ES、NS、X、Y、Z及びRをセットする。
apply ruleを続行する。
それ以上の規則が利用可能でない場合、現在の文字を出
力ストリングに複写し、 入力ストリングにおけるその文字をスキップしてcha
r 5canを続行する。
付録Aはスペイン語ハイフネーシ日ン規則を、付録Bは
英語テキスト−音声変換規則を、本発明に従って示す。
結果として得られる発明は、規則を能率的に構成し、解
釈することを可能にする、リライト規則のための単純化
された機構を提供する。
付録A スペイン語ハイフネーション規則 中 ホセーA−マナス(JoseΔ、 Manas )
、CommACM、1987年7月、Vo l−30、
No。
* 7により示される規則に基づく *  母音 ネDCL V=(a e i o u /a /e /
i 10 /u :u)中  広母音及びアクセントの
ある母音:DCL A=(a e o /a /e /
i 10 /u)中  閉母音 :DCL I=(i u :u) ネ  前古子音 :DCL F=(b c d f g k p t)中
  流音 *DcL  L=(!  r) :  2重 =pcL D=(ah  II  rr)*母音規則 、A(a)、−(−a) 、A(e)、=(−e) ・A (o) 、=: (−o) 、A (/a) 、 =(−/a) 、A(/e) 、=(−/e) 、A(/i) 、=Iニー/i) 、A (10) 、 =(−10) 、A(八)、=(−/u) *子音規則 、 、 (b)LV= (−b) 、 、 (b)V= (−b) 、 、 (ah)V= (−ch) 、 、 (c)LV=(−c) 、、(c)V=(−c) 、、 (d)rV−(−d)  *この規則は″r″規
則と共に働く。
、 、 (d) V= (−d) 、 、 (f)LV= (−f) 、 、 (f)V= (−f) 、 、 (g)LV=(−g) 、 、 (g)V=(−g) 、I(hH=(h) 、A(h)I=(h) 、I(h)Δ=(h) 、c(h)=(h) 、 、 (h)V= (−h) 、、 (j)V=(−j) 、、 (k)LV=(−k) 、、(k)V=(−k) 、、(11)V=(−11) 1(1)=(1) 、d (1) V= (−,1) F(1)=(1) 、、 (1)V=(−1) =−(m)V=(−m) 、、(n)V=4−n) 、 、 (’n)V=(−0n) 、 、 (p)LV=(−p) 、 、 (p)V=(−p) 、 、 (q)V=(−q) 、 、 (rr) V=(−rr) r (r) =(r) F(r)=(r):この規則は(d)rV規則と関連、
、(r)V=(−r)   する。
、、 (s)V(−s) 、 、 (t) LV= (−t) 、 、 (t) V= (−t) 、 、 (v)V= (−V) 、 、 (w)V=(−w) 、 、 (x)V;(−x) 、、 (y)V=(−y) 、 、 (z) V=(−z) 付録B 英語テキスト−音声規則 キこれらの規則は、文字の文脈を考慮することに*より
、音声ストリングの近似を発生させる。
:DCL E=(e i) :DCL D=(b c d f g h j k I
 m n p q ’r s t v wx  y  
z) *DcL 5=(c s x z) :DCL T=(d t) :DCL V=(a e i o u)(ai)=(a
) (au) =(o) (b)b=0 (ch)=(ch) (c)k:0 x(c)E:0 (c) 1al=(sh) (c)E=(s) (c)y=(s) (cc)E=(ks) (c)c=0 (c)=(k) (d)d=0 (ea)=(e) (ee)”(ee) (eu)=(u) (ew)=(u) :黙音の°′e“の判定 g(e) −:0 (e)y−=O VC(e)−=O VCC(e) −=0   : ”1apsellVT
(e)d−=(e)   * ”credited”V
C(e)d−=□ VCT(e)d =(e)  : ”conducte
d、” ”amended”VCC(e)d−=O VC(e)Iy−=O VCC(e)ly−=0  : ”1nversely
”VS(e)s−=(e)   ”前に歯擦音がする一
esVg(e)s−=(e)   :前にg°°が置か
れた一essI′p a c k a g e s ”
VC(e)s−:0 (f)f=0 (g)g二〇 (ght) −=(t) (ght)、  ”(t) −(gh)=(n) (gh)−=(n) (h)h=0 (ie)=(i) (j)j=0 (kn)=(n) (k)k=0 (IN=O C(le)−二(el):音の反転、たとえば、”ci
rcle″、”1dle” C(le)d−=(el)  *反転、たとえば、”5
tap led”C(le)s−=(el) (n+)m−0 −(+5n)=(n) (n)n:0 (oo)=(u) (ou)=(ou) (ov)=(ou) (p)p:0 (ph)=(f) (pn)=(n) −(ps)=(S) (pt) =(t) (g)Jk) (r)r:0 t(re)−:(er)  ’:音の反転、たとえば、
”theatre″t (re)s−=(er) (sh)=(sh) (s)s=0 (s)ion=(sh)  : ”decision、
” ”professional”s (t) ion
” (t)  *たとえば、quest 1on(t)
ion=(sh)  *        nation
、  premonition(t)t=0 (v)■=0 (wh)=(wh) (wr)=(r) (v)=(u) (x)x=0 (×)=(ks) (y)y=0 (y)=(i) (Z)z:0 (Z)=(s) ここに開示したコンピュータ方法の発明は、通常のどの
データ・プロセッサ上でも実行することができる。米国
特許第4731735号に、好適な処理システムが開示
されている。この特許の図及び明細書を、本発明を適用
できるデータ処理システムの一例として引用し、本明細
書に組み込んだ。
F1発明の効果 本発明によれば、リライト規則のための単純化されたメ
カニズムが提供される。
【図面の簡単な説明】
第1図は本発明の概要を示す流れ図である。 第2図は本発明の規則解釈機能を示す流れ図である。

Claims (3)

    【特許請求の範囲】
  1. (1)入力及び出力を有するコンピュータ・システム内
    で変換規則を実行するための方法であって、各入力文字
    について順次、 現在の入力文字をインデックスで捜し、この文字に適用
    可能な規則を識別する段階と、 1つまたは複数の文字のストリングを有する、規則の「
    本体」として識別される規則の一部分を、現在の入力文
    字から始めて入力ストリングと突合せ試行する段階と、 一連のストリング、またはストリングの集合を表す識別
    子を有する、規則の「右の文脈」として識別される規則
    の一部分を上記突合せ「本体」の右側の入力ストリング
    と突合せ試行する段階と、一連のストリング、またはス
    トリングの集合を表す識別子を有する、規則の「左の文
    脈」として識別される規則の一部分を上記突合せ「本体
    」の左側の入力ストリングと突合せ試行する段階と、規
    則のすべての部分が入力ストリングと突き合わされたと
    き、突合せ規則と関連した置換ストリングを出力し、本
    体に対応する入力ストリングの部分をスキップして変換
    処理を続行する段階と、現在の入力文字が適用可能な規
    則を持たない場合に入力文字を出力して、変換処理を続
    行する段階 を含む方法。
  2. (2)各規則の本体をコンピュータに入力して、ターミ
    ナル・ストリングのみから構成すること、コンピュータ
    内で各規則の「本体」の照合シーケンスに基づいて規則
    を組織すること、及び規則の「本体」に基づいてインデ
    ックスをコンピュータに入力し、規則のコレクションに
    アクセスすること から成る、リライト規則のコレクションを定義するため
    の方法。
  3. (3)入力ストリングを文字単位で走査する段階、規則
    の「本体」の文字に基づいてインデックスを用いて、適
    用可能となり得るリライト規則を探し出す段階、 規則の文脈と「本体」とが一致した場合は、規則の「本
    体」と一致する入力ストリングの部分を、対応する置換
    ストリングと置き換えることにより入力ストリングを作
    成し、入力の置換部分をスキップし、状態変数を規則と
    関連した値に任意選択的にセットする段階 を含むリライト規則を適用するための方法。
JP2103259A 1989-04-26 1990-04-20 リライト・メカニズムにおける変換規則実行方法、定義方法、及び適用方法 Pending JPH02299067A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US344344 1982-02-01
US07/344,344 US5113342A (en) 1989-04-26 1989-04-26 Computer method for executing transformation rules

Publications (1)

Publication Number Publication Date
JPH02299067A true JPH02299067A (ja) 1990-12-11

Family

ID=23350152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2103259A Pending JPH02299067A (ja) 1989-04-26 1990-04-20 リライト・メカニズムにおける変換規則実行方法、定義方法、及び適用方法

Country Status (3)

Country Link
US (1) US5113342A (ja)
EP (1) EP0394628A3 (ja)
JP (1) JPH02299067A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317509A (en) * 1992-01-21 1994-05-31 Hewlett-Packard Company Regular expression factoring for scanning multibyte character sets with a single byte automata machine
US5410475A (en) * 1993-04-19 1995-04-25 Mead Data Central, Inc. Short case name generating method and apparatus
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US6032164A (en) * 1997-07-23 2000-02-29 Inventec Corporation Method of phonetic spelling check with rules of English pronunciation
US5991539A (en) * 1997-09-08 1999-11-23 Lucent Technologies, Inc. Use of re-entrant subparsing to facilitate processing of complicated input data
US7120638B1 (en) * 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
US6965888B1 (en) * 1999-09-21 2005-11-15 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table using a look-up table
US6920558B2 (en) * 2001-03-20 2005-07-19 Networks Associates Technology, Inc. Method and apparatus for securely and dynamically modifying security policy configurations in a distributed system
US20030046060A1 (en) * 2001-09-04 2003-03-06 Juergen Roeck Rule-based document composing
US7308363B2 (en) * 2002-01-23 2007-12-11 Sri International Modeling and evaluation metabolic reaction pathways and culturing cells
US7065745B2 (en) * 2002-12-16 2006-06-20 Sun Microsystems, Inc. System and method for evaluating and executing hierarchies of rules
US7617091B2 (en) * 2003-11-14 2009-11-10 Xerox Corporation Method and apparatus for processing natural language using tape-intersection
US8996994B2 (en) * 2008-01-16 2015-03-31 Microsoft Technology Licensing, Llc Multi-lingual word hyphenation using inductive machine learning on training data
WO2011087391A1 (en) * 2010-01-18 2011-07-21 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
US10204083B2 (en) 2016-10-20 2019-02-12 Microsoft Technology Licensing, Llc Computer systems and methods using multiple neutral type characters as delimiters between segments in structured, multi-segment data values

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4028677A (en) * 1975-07-16 1977-06-07 International Business Machines Corporation Digital reference hyphenation matrix apparatus for automatically forming hyphenated words
US4092729A (en) * 1976-12-28 1978-05-30 International Business Machines Corporation Apparatus for automatically forming hyphenated words
US4456969A (en) * 1981-10-09 1984-06-26 International Business Machines Corporation System for automatically hyphenating and verifying the spelling of words in a multi-lingual document
US4574363A (en) * 1982-07-13 1986-03-04 International Business Machines Corporation Mixed mode enhanced resolution hyphenation function for a text processing system
JPH0821030B2 (ja) * 1986-12-29 1996-03-04 ブラザー工業株式会社 文書処理装置

Also Published As

Publication number Publication date
EP0394628A2 (en) 1990-10-31
US5113342A (en) 1992-05-12
EP0394628A3 (en) 1991-05-08

Similar Documents

Publication Publication Date Title
Graehl et al. Training tree transducers
JPH02299067A (ja) リライト・メカニズムにおける変換規則実行方法、定義方法、及び適用方法
Beesley et al. Finite-state morphology: Xerox tools and techniques
EP0204942A2 (en) Compiler for a source program, a method of making the same and its use
Chandlee Computational locality in morphological maps
Ingerman A syntax-oriented translator
Pan et al. Automatic repair of regular expressions
US7010476B2 (en) Method and apparatus for constructing finite-state networks modeling non-concatenative processes
WO2001029699A1 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
Lushanthan et al. Morphological analyzer and generator for Tamil language
Friedman A computer system for transformational grammar
Campesato Google Gemini for Python: Coding with Bard
Winiwarter Learning transfer rules for machine translation from parallel corpora
Brewin Using Cadabra for tensor computations in general relativity
Ishraq et al. Towards developing uniform lexicon based sorting algorithm for three prominent indo-aryan languages
Jahjah et al. Word normalization using phonetic signatures
Horpácsi Extending erlang by utilising refactorerl
Prasad A fast prakriyā generator
JPH02183338A (ja) プログラム言語トランスレータ生成装置および方法
Nelson A two-level engine for tagalog morphology and a structured xml output for pc-kimmo
Mesfar Standard Arabic formalization and linguistic platform for its analysis
JP2000259631A (ja) 機械翻訳校正装置
van Bakel A linguistic approach to automatic information extraction
KR20260034346A (ko) 사전 학습 언어모델 구축 장치 및 방법
Room Chomsky Hierarchy