JPH03244071A - Document proofreading back-up system - Google Patents

Document proofreading back-up system

Info

Publication number
JPH03244071A
JPH03244071A JP2039703A JP3970390A JPH03244071A JP H03244071 A JPH03244071 A JP H03244071A JP 2039703 A JP2039703 A JP 2039703A JP 3970390 A JP3970390 A JP 3970390A JP H03244071 A JPH03244071 A JP H03244071A
Authority
JP
Japan
Prior art keywords
notation
description
correspondence
original
duplicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2039703A
Other languages
Japanese (ja)
Inventor
Akira Kumano
明 熊野
Hiroyasu Nogami
野上 宏康
Etsuo Ito
悦雄 伊藤
Katsumi Tanaka
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2039703A priority Critical patent/JPH03244071A/en
Publication of JPH03244071A publication Critical patent/JPH03244071A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To reduce the scale of a document proofreading back-up system by deciding automatically a fact that the original or duplicate description is used again by mistake after making clear the correspondence between the original and duplicate descriptions during the production of a document and then using the duplicate or original descrip tion. CONSTITUTION:A document proofreading processing part 1 includes a morpheme analyzing part 4 which analyzes the input sentences in terms of a surface layer, a description correspondence detecting part 5 which detects the correspondence between the original and duplicate descriptions out of the input sentences, and a description use recognizing part 6 which recognizes the using state of each description based on the detected description correspondence data. Furthermore, a warning information generating part 7 produces the warning information to the improper use of description if detected based on the recognized using state of description. Thus the improper descriptions can be detected without using an original-duplicate description dictionary of a large scale if the possibility is confirmed for the irregular mixture of both original and duplicate descriptions when the sentences including many technical terms are produced. Thus, it is possible to obtain a document proofreading back-up system of a small scale that has high practicability.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、正しい自然言語文章を作成する際に不適切な
表現を指摘する文書校正支援システムに関する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial Application Field) The present invention relates to a document proofreading support system that points out inappropriate expressions when creating correct natural language sentences.

(従来の技術) 近年、計算機による自然言語処理技術が高まり、各種の
文書処理システムが開発されている。
(Prior Art) In recent years, natural language processing technology using computers has improved, and various document processing systems have been developed.

特にユーザが作成した文書中の不適切な表現に対して警
告を与えたり、半自動的に修正する文書校正支援システ
ムなどが実用化されている。
In particular, document proofing support systems have been put into practical use that issue warnings and semi-automatically correct inappropriate expressions in documents created by users.

しかし、これらの多くは、数万語ないし数十万語の語量
を蓄える大規模な自然言語処理用辞書を必要とし、シス
テムの小型化が困難であった。
However, most of these require large-scale natural language processing dictionaries that can store tens of thousands to hundreds of thousands of words, making it difficult to miniaturize the system.

(発明が解決しようとする課題) 専門分野の論文や解説文などは、術語を多く含むのが特
徴である。それらの術語の多くは複数の単語から成り立
つ複合語である。複合語の構成単語数が多い場合や、個
々の単語の長さが長い場合には、正表記に代えて略語や
短縮形が頻繁に使用される。
(Problem to be solved by the invention) Papers and explanatory texts in specialized fields are characterized by the fact that they contain many technical terms. Many of these terms are compound words made up of multiple words. When a compound word has a large number of constituent words, or when the length of each word is long, abbreviations and contractions are often used instead of the regular notation.

ところが、人手で文章を作成する際に文章の大きさが大
きくなってくると、正表記の使用と略語や短縮形などの
副表記の使用が不規則に混在してしまうことがある。
However, when creating sentences manually, as the size of the sentences increases, the use of regular notation and the use of sub-notation such as abbreviations and contractions may become irregularly mixed.

正表記と副表記が不規則に混在すると、文章の意味の上
では正しいが、表現形式の上で不適切である。
Irregular mixtures of regular notation and subnotation may be correct in terms of the meaning of the sentence, but inappropriate in terms of the form of expression.

ところで、正表記と副表記の対応は、両者か並列して表
現されている場合には、表層」この文字情報のみから比
較的容易に検出できることが多い。
By the way, the correspondence between the regular notation and the sub-notation can often be detected relatively easily from only the superficial character information when both are expressed in parallel.

また、文書処理の対象を上記のような表層的なレベルに
限定すると、文書校正支援システムの必要とする辞書デ
ータはかなり縮小できる。
Furthermore, by limiting the object of document processing to the superficial level as described above, the dictionary data required by the document proofreading support system can be considerably reduced.

この発明は上述の背景に鑑みなされたものであり、その
目的とするところは文章作成中に正表記と副表記の対応
を明確にした後、副表記(又は正表記)の使用を行なっ
たのち、誤って再度正表記(又は副表記)を使用したこ
とを自動的に判定するようにした文章校正支援システム
を提供することにある。
This invention was made in view of the above-mentioned background, and its purpose is to clarify the correspondence between regular notation and sub-notation during writing, and then use the sub-notation (or regular notation). An object of the present invention is to provide a grammar proofing support system that automatically determines whether the correct notation (or subnotation) has been used again by mistake.

[発明の構成] (課題を解決するための手段) 本発明の文章校正支援システムは、自然言語で作成され
た文章を入力する手段と、前記入力文章中より正表記と
副表記との対応を意図する一対の記述及びその記述箇所
を該当文章中の文字情報を表層的に利用した所定のアル
ゴリスムに基いて検出する手段と、前記検出された一対
の記述のそれぞれを前記検出箇所以降の文章中より順次
検索する手段と、前記検索により副表記に相当する記述
と正表記に相当する記述との混在が検出されることに基
いて表記の誤使用を判定する手段とを具備することを特
徴とする。
[Structure of the Invention] (Means for Solving the Problem) The grammar proofing support system of the present invention includes a means for inputting a sentence created in a natural language, and a means for determining the correspondence between the normal notation and the sub-notation in the input sentence. means for detecting an intended pair of descriptions and their description locations based on a predetermined algorithm that superficially uses character information in the corresponding sentences; and means for detecting each of the detected pair of descriptions in the sentences after the detection location and a means for determining misuse of the notation based on the fact that the search detects a mixture of a description corresponding to a subnotation and a description corresponding to a regular notation. do.

(作用) 本発明よれば、人力文中に正表記と副表記とが混在して
いることを自動的に判定できるため、これを利用すれは
例えば誤って表記を再使用した箇所を文章作成者に警告
することもてき、そのため人手では見落としがちな誤用
を修正する手助けとなり、正しい文章を作成する作業の
効率を高めることができる。
(Function) According to the present invention, it is possible to automatically determine that regular notation and sub-notation are mixed in a human-powered sentence. It can also warn you, which helps you correct mistakes that are often overlooked manually, increasing the efficiency of creating correct sentences.

また、正表記と副表記との対応を意図する一対の記述及
びその記述箇所を人力文章中より検出するについては、
当該文章中の文字情報を表層的に利用した所定のアルゴ
リスムに基いているため、正表記と副表記との関係をあ
らかじめ登録した辞書も必要とせず、そのため小規模の
文章作成装置にも容易に採用することができる。
In addition, for detecting a pair of descriptions that intend to correspond to a regular notation and a subnotation, and the place where they are written, from a human text,
Since it is based on a predetermined algorithm that superficially uses the character information in the text, there is no need for a dictionary in which the relationship between regular notation and sub-notation is registered in advance, and therefore it can be easily applied to small-scale text creation devices. Can be adopted.

(実施例) 以下、図面を参照して本発明の一実施例に係る文書校正
支援システムについて説明する。
(Example) Hereinafter, a document proofreading support system according to an example of the present invention will be described with reference to the drawings.

第1図は実施例システムの概略的な構成を示すブロック
図である。
FIG. 1 is a block diagram showing a schematic configuration of an embodiment system.

このシステムの主体部を成す文書校正処理部1は、人力
制御装置2を介して与えられる入力文を表層的に解析し
、正表記と副表記の対応関係を処理し、その結集からユ
ーザに必要とされる警告情報を出力制御装置3を介して
出力するものであり、−数的には文書校正ソフI・ウェ
アを備えた計算機システムとして実現される。
The document proofreading processing unit 1, which forms the main part of this system, superficially analyzes the input sentence given via the human control device 2, processes the correspondence between the normal notation and the sub-notation, and based on the result, the user This system outputs warning information that is assumed to be the same through the output control device 3, and is numerically realized as a computer system equipped with document proofreading software I/ware.

入力制御装置2は、例えば磁気記憶媒体やキボードなど
から処理対象とする文書情報を文字ブタ列として入力す
るためのものである。
The input control device 2 is for inputting document information to be processed as a string of characters from, for example, a magnetic storage medium or a keyboard.

出力制御装置3は、前記文書校正処理部1から出力され
た警告情報を入力文章と共に、例えばCRTデイスプレ
ィ装置なとを用いて提示したり、或いはプリンタを用い
て印刷出力するためのものである。
The output control device 3 is for presenting the warning information outputted from the document proofing processing section 1 together with the input text using, for example, a CRT display device, or for printing out using a printer.

さて、文書校正処理部1は基本的には、入力文を表層的
に解析する形態素解析部4と、入力文中から正表記・副
表記の対応を検出する表記対応検出部5と、表記対応検
出部5で検出された表記対応データに基づいて各々の表
記の使用状況を認識する表記使用認識部6と、表記使用
認識部6て認識された使用状況に基づいて不適切な使用
があればそれに対して警告情報を発生する警告情報発生
部7を備えている。
Now, the document proofreading processing unit 1 basically consists of a morphological analysis unit 4 that superficially analyzes an input sentence, an orthographic correspondence detection unit 5 that detects the correspondence between normal notation and subnotation from the input sentence, and an orthographic correspondence detection unit 5 that detects the correspondence between normal notation and subnotation from the input sentence. A notation usage recognition unit 6 recognizes the usage status of each notation based on the notation correspondence data detected by the notation usage recognition unit 5, and a notation usage recognition unit 6 that recognizes inappropriate usage based on the usage status recognized by the notation usage recognition unit 6. A warning information generating section 7 is provided to generate warning information in response to the warning information.

」二記形態素解析部4は、簡単な辞書データを基に入力
文の単語分割など、形態素解析処理を行う。
The morphological analysis unit 4 performs morphological analysis processing such as word segmentation of an input sentence based on simple dictionary data.

なお、形態素解析の具体的な方式は、本発明に依存する
ものではなく、従来の技術を利用するものでもよい。し
たがって、詳細な説明は省略する。
Note that the specific method of morphological analysis is not dependent on the present invention, and may utilize conventional techniques. Therefore, detailed explanation will be omitted.

表記対応検出部5は、入力文中から正表記・副表記の並
列表現をもとに対応関係の明確な一対の語を後述のアル
ゴリズムによって検出し、その結果を表記対応テーブル
8の「正表記」、「副表記ヨ「初出様式」に登録する。
The orthographic correspondence detection unit 5 detects a pair of words with a clear correspondence relationship from the input sentence based on the parallel expressions of the regular notation and the sub-notation, using an algorithm described below, and uses the result as the "regular notation" in the orthographic correspondence table 8. , "Subnotation yo" Register in the "first appearance style".

表記対応テーブル8は、第2図に示すように、「正表記
」、「副表記」「初出様式」、「継続使用様式」などの
情報からなる。
As shown in FIG. 2, the notation correspondence table 8 includes information such as "regular notation", "subnotation", "first appearance format", and "continuous use format".

表記使用認識部6は、表記対応テーブル8に登録された
表記がその後の文章中に出現すると、その使用表記を表
記対応テーブル8の「継続使用様式」に順次設定する。
When a notation registered in the notation correspondence table 8 appears in a subsequent sentence, the notation usage recognition unit 6 sequentially sets the used notation in the "continued usage style" of the notation correspondence table 8.

警告情報発生部7は、表記使用認識部6が設定する表記
対応テーブル8の内容を監視し、「初出様式」、「継続
使用様式」の間に不適切な状況が発見されたとき、それ
に関与する表記対応テーブルの内容と共に、出力制御装
置3に警告情報を出力する。
The warning information generation unit 7 monitors the contents of the notation correspondence table 8 set by the notation usage recognition unit 6, and when an inappropriate situation is discovered between the “first appearance format” and “continued usage format”, it Warning information is output to the output control device 3 along with the contents of the notation correspondence table.

第2図は、本実施例の文書校正処理部が使用する表記対
応テーブルのデータ構造を示す図である。
FIG. 2 is a diagram showing the data structure of a notation correspondence table used by the document proofreading processing section of this embodiment.

各要素は、次に示す意味をもち、文書の処理が進むにつ
れて設定、参照される。
Each element has the following meaning and is set and referenced as the document is processed.

正表記・副表記は、表記対応検出部が入力文中から正表
記・副表記の並列表現をもとに対応関係明確な一対の語
を検出した際に設定される。
The regular notation and the sub-notation are set when the orthographic correspondence detection unit detects a pair of words with a clear correspondence relationship from the input sentence based on the parallel expressions of the regular notation and the sub-notation.

正表記とは、一般に語を省略・短縮しないで表現したも
のであり、副表記とは省略や短縮を行って正表記と異な
る形式で表現したものである。
Regular notation generally refers to a word expressed without abbreviating or abbreviating it, and sub-notation refers to a word expressed in a form different from the regular notation by abbreviation or abbreviation.

正表記・副表記の対応関係の検出のもとになる並列表現
は、例えば、”Lexical Functional
 Grammar(LPG)”の如く正表記の直後に括
弧などの記号で囲んで副表記を記述する場合や、逆に、
”+、pG(Lexfcal FunctjonaI 
Grammar) ”の如く副表記の直後に括弧なとの
記号で囲んで正表記を記述する場合などがある。
The parallel expression that is the basis for detecting the correspondence between regular notation and subnotation is, for example, “Lexical Functional
Grammar (LPG)", where a subnotation is written immediately after the regular notation by surrounding it with symbols such as parentheses, or conversely,
”+, pG (Lexfcal Function
There are cases where the regular notation is written immediately after the sub-notation, such as "Grammar)", by surrounding it with symbols such as parentheses.

初出様式は、やはり正表記・副表記の対応関係が検出さ
れた際に、これらの表層」二の記法と検出位置が同時に
設定される。その記法の内容は例えば、”Lexica
l Functional Grammar(LPG)
”の場合には「正(副)」、”LPG(Lexical
 FunctionalGrammar)の場合には「
副(正)」の如く、また、検出位置の内容は例えば、「
10頁23行7桁」の如く記述される。
In the first appearance format, when the correspondence between the regular notation and the sub-notation is detected, the notation of the surface layer 2 and the detection position are set at the same time. For example, the content of the notation is “Lexica
Functional Grammar (LPG)
”, “Main (sub)”, “LPG (Lexical)”
FunctionalGrammar)
For example, the content of the detection position may be
It is written as "page 10, line 23, column 7".

継続使用様式は、既に表記対応テーブルに登録されてい
る語の正表記または副表記が文章中に現れるたびに表層
上の記法と検出位置が同時に設定される。その記法の内
容は、正表記ならば「正」、副表記ならば「副」と設定
される。検出位置の記述形式は、初出様式と同様である
In the continuous usage format, the notation on the surface and the detection position are simultaneously set every time the regular notation or sub-notation of a word already registered in the notation correspondence table appears in a sentence. The content of the notation is set as "correct" if it is a regular notation, and "sub" if it is a subnotation. The description format of the detected position is the same as the first appearance format.

正表記・副表記の対応関係の検出アルゴリズムは、例え
ば英語の場合衣のようなものである。
For example, the algorithm for detecting the correspondence between regular notation and sub-notation is similar to that for English.

処理対象の文章は、単語列として入力され、入力された
単語列は、十分な大きさのキューに蓄えられる。
The text to be processed is input as a word string, and the input word string is stored in a queue of sufficient size.

人力単語に「)」が認めらると、キュー中に蓄えられて
いる単語列を逆向きに、「(」を検索する。「(」が認
められると、上記「)」との間の単語列をAとして蓄え
る。
If ")" is found in the human word, the word string stored in the queue is searched for "(" backwards. If "(" is found, the word between the above ")" is searched backwards. Store the column as A.

単語列Aがすべて大文字からなる1語でその文字数がn
の場合、キュー中の単語列を更にn語検索し、その単語
列をBとする。単語列Aと単語列Bとは並列表現の候補
である。
Word string A is one word consisting of all capital letters and the number of characters is n.
In this case, the word string in the queue is searched for n more words, and that word string is designated as B. Word string A and word string B are candidates for parallel expression.

単語列Bの各構成単語の先頭文字を連続したもの、もし
くはその文字列が小文字の場合、大文字化したものが、
単語列Aと一致すると、単語列AとBとは正表記・副表
記の対応関係にあり、単語列Bが正表記、単語列Aが副
表記であると判断される。場合によっては、単語列Bの
全構成単語の先頭文字ではなく、あらかじめ大文字にな
っている部分を連続したものと一致する場合もある。
The first letters of each constituent word in word string B are consecutive, or if the string is in lower case, the upper case is,
If it matches the word string A, it is determined that the word strings A and B have a correspondence relationship of regular notation and subnotation, and that word string B is the regular notation and word string A is the subnotation. In some cases, the match may not be the first letter of all the constituent words of word string B, but a sequence of capital letters.

また、逆に、単語列Aが複数の単語で成り立っており、
「(」直前の1語Cがすべて大文字の語の場合、単語列
への各構成単語の先頭文字を連続したもの、またはその
文字列が小文字の場合、大文字化したもの、もしくは単
語列Aの中であらかじめ大文字になっている部分を連続
したものが、単語列Cと一致すると、単語列AとCとは
正表記・副表記の対応関係にあり、単語列Aが正表記、
単語列Cが副表記であると判断される。
Conversely, if word string A is made up of multiple words,
If the word C immediately before "(" is a word with all capital letters, then the first letter of each constituent word in the word string is contiguous, or if the string is a lower case letter, it is capitalized, or the word string A is capitalized.) If a sequence of uppercase letters matches word string C, word strings A and C have a correspondence relationship of regular notation and subnotation, and word string A is in regular notation,
It is determined that the word string C is a sub-notation.

第3図は、上述した如く構成された文書校正処理部にお
ける文書校正手続きを示す流れ図である。
FIG. 3 is a flowchart showing a document proofreading procedure in the document proofreading processing section configured as described above.

この処理手続きは、前記入力制御装置2から1語を入力
することから行われる(ステップ301)ステップ30
2では、上述したアルゴリスムにしたがって、前記表記
対応検出部で正表記・副表記の対応検出を調べる。
This processing procedure is performed by inputting one word from the input control device 2 (step 301).
In step 2, the notation correspondence detection unit checks whether the correspondence between the regular notation and the subnotation is detected according to the above-mentioned algorithm.

正表記・副表記の新規対応関係が検出されると、ステッ
プ303に処理が進み、上述した方法で表記対応テーブ
ル8への登録が行われる。ステップ302で正表記・副
表記対応関係が検出されない場合は、ステップ304へ
処理が進む。
When a new correspondence relationship between the regular notation and the sub-notation is detected, the process proceeds to step 303, where it is registered in the notation correspondence table 8 using the method described above. If no regular notation/subnotation correspondence is detected in step 302, the process proceeds to step 304.

ステップ304では、前記表記使用認識部6て、入力単
語がこれまで表記対応テーブル8に登録された語(正表
記または副表記)と一致するか検査される。表記対応テ
ーブル8中の語と一致が検出されると、対応する語の継
続使用様式にデータが追加される(ステップ305)。
In step 304, the spelling usage recognition unit 6 checks whether the input word matches a word (regular spelling or sub spelling) registered in the spelling correspondence table 8 so far. When a match with a word in the spelling correspondence table 8 is detected, data is added to the continuous usage pattern of the corresponding word (step 305).

引き続き、ステップ306で今回の継続使用様式データ
か2回目以降であるか調べる。2回目以降であれば、ス
テップ307に進み、前記警告情報発生部7でこれまで
の継続使用様式との比較を行い、警告情報発生基準を満
たすか否かを検査する。
Subsequently, in step 306, it is checked whether the current continuous use form data is the second or subsequent use form data. If it is the second or subsequent time, the process proceeds to step 307, where the warning information generation unit 7 compares the usage pattern with the previous continuous usage pattern and checks whether or not the warning information generation criteria are met.

ここでいう警告情報発生基準とは、例えば、これまでの
継続使用様式がすべて[副jであるにもかかわらず、今
回の継続使用様式が「圧」ならば、不適切な使用である
とか、逆に、これまでの継続使用様式かすべて「正」で
あるにもかかわらず、今回の継続使用様式が「副」なら
ば、不適切な使用であるとか、判断されるものである。
The criteria for generating warning information here means, for example, that if the current continuous use form is "pressure" even though all the previous continuous use forms are "subj", it is inappropriate use. On the other hand, if the current continuous use form is ``secondary'' even though all previous continuous use forms are ``correct'', it will be judged as inappropriate use.

このように、不適切な使用が検出されると、ステップ3
08で警告情報発生部7において対応する表記対応テー
ブルデータと共に警告情報が出力される。
Thus, once inappropriate use is detected, step 3
At step 08, the warning information generating section 7 outputs the warning information together with the corresponding notation correspondence table data.

そしてステップ301〜308の処理が、入力単語がつ
きるまで繰り返される(ステップ309)以上が、本実
施例における基本的な処理手続きと、データの変化であ
る。
The processes of steps 301 to 308 are repeated until an input word is entered (step 309). The above are the basic processing procedures and changes in data in this embodiment.

次に、第4図および第5図を参照して、不実施1 2 例システムにおける具体的な処理例について説明する。Next, with reference to FIGS. 4 and 5, non-implementation 1 2 A specific example of processing in the example system will be explained.

ここでは、入力された自然言語文は英語の文章であると
する。
Here, it is assumed that the input natural language sentence is an English sentence.

第4図は、処理対象とする英語の文章の一例である。こ
の中には、同一の用語の正表記と副表記である’Lex
ical Functjonal GraIntnar
” 、  ”LPG ”といった表現が混在している。
FIG. 4 is an example of an English sentence to be processed. This includes 'Lex' which is the regular notation and sub-notation of the same term.
ical Functjonal GraIntnar
"," and "LPG" are mixed together.

第5図は、第4図の文書を処理する際の表記対応テーブ
ルのデータの変化を示す図である。
FIG. 5 is a diagram showing changes in data in the notation correspondence table when processing the document shown in FIG. 4.

文書校正処理手続きにおいて表記対応検出部5が4行目
〜5行目の”Lexical FuncNonal G
rammar(LPG)″の並列表現から’Lexic
al FunctionalGrammar’“ と’
LPG”が正表記・副表記の対応であると検出すると、
表記対応テーブルへの新規登録が行われ、第5図(a)
の如く「正表記」 「副表記」 「初出様式」が設定さ
れる。
In the document proofreading process, the notation correspondence detection unit 5 detects “Lexical FuncNonal G” in the 4th and 5th lines.
'Lexic' from the parallel expression of 'rammar(LPG)'
al Functional Grammar'“ and'
When detecting that “LPG” corresponds to the normal notation and sub-notation,
A new entry is made to the notation correspondence table, as shown in Figure 5(a).
The ``regular notation'', ``secondary notation'', and ``first appearance style'' are set as follows.

続いて、表記使用認識部6が10行目の’LFG”を検
出すると、既に表記対応テーブルに登録されている語の
副表記と一致するから、第5図(b)の如く表記対応テ
ーブル中の「継続使用様式」 [1]に「副」データが
追加される。
Next, when the notation usage recognition unit 6 detects 'LFG' in the 10th line, it matches the sub-notation of the word already registered in the notation correspondence table, so it is added to the notation correspondence table as shown in FIG. 5(b). “Sub” data is added to “Continued use form” [1].

続いて、表記使用認識部6が13行目の“LPG”を検
出すると、10行目の”LPG”と同様に、第5図(C
)の如く表記対応テーブル中の「継続使用様式」 [2
]に「副」データが追加される。
Subsequently, when the notation usage recognition unit 6 detects "LPG" on the 13th line, it detects "LPG" on the 10th line as shown in FIG.
) in the notation correspondence table [2
] "Sub" data is added.

ここまでは、警告情報発生部7が表記対応テーブルを監
視しているか、警告情報発生基準を満たさないため警告
情報を発生するに至らない。
Up to this point, the warning information generation unit 7 has not generated any warning information, either because it is monitoring the notation correspondence table or because the warning information generation criteria are not met.

次に、表記使用認識部6が19行目の“LexicaI
 Functional Grammar”を検出する
と、第5図(d)の如く表記対応テーブル中の「継続使
用様式」[3コに「正」データが追加される。
Next, the notation usage recognition unit 6 reads “LexicaI” on the 19th line.
When "Functional Grammar" is detected, "correct" data is added to the "continuous use format" [3 columns] in the notation correspondence table as shown in FIG. 5(d).

ここで警告情報発生部7が表記対応テーブルの検査を行
う。「継続使用様式」 [1コと[2]が「副」である
にもかかわらず、同[3コが「正」なので、上述した警
告情報発生基準を満たし、出力制御装置3に警告情報を
出力する。
Here, the warning information generating section 7 inspects the notation correspondence table. "Continuous use format" Although [1] and [2] are "secondary", the same [3] are "normal", so the above-mentioned warning information generation criteria are met and the warning information is sent to the output control device 3. Output.

このようにして、本実施例システムにより、前後関係か
ら“LPG”と記述したほうが自然である19行目の不
適切な表現が自動的に検出され、正当な英文を作成する
ことが容易に可能となる。
In this way, the system of this embodiment automatically detects the inappropriate expression in line 19, which would be more natural to write as "LPG" from the context, and makes it easy to create a valid English sentence. becomes.

なお、本発明は」二記実施例に限定されるものてはない
。処理対象の言語は英語に限らす、日本語や他の言語で
も同様の方法で実現できる。
It should be noted that the present invention is not limited to the second embodiment. The language to be processed is limited to English, but it can be implemented using the same method for Japanese and other languages.

日本語を対象とする場合、英語の術語が混在することも
多いので、日本語と英語の並列表現、例えば「諸量機能
文法(Lexical Functional Gra
mmar) Jや[諸策機能文法(LPG)Jのように
日本語の術語の後に英語の術語が括弧内に記述されてい
る場合は、日本語の表記を正表記、英語の術語を副表記
として扱うこともてきる。
When targeting Japanese, English terminology is often mixed, so we use parallel expressions in Japanese and English, such as ``Lexical Functional Grammar''.
When an English term is written in parentheses after a Japanese term, such as in [mmar) J or [Policy Functional Grammar (LPG) J], the Japanese term is written in the regular notation, and the English term is written in the secondary notation. It can also be treated as

また、処理方法としては、文書全体を人力してからオン
ラインで文書校正処理を行い、警告結果を印刷してもよ
いし、ワートブロセッザで順次人力中にリアルタイムで
処理を行い、不適切な表現を入力した時点で警報音を鳴
らすこともてきる。
In addition, as a processing method, you can manually edit the entire document, proofread the document online, and print out the warning results, or manually process the entire document in real time and input inappropriate expressions. An alarm can also sound at that point.

また、不適切な表現について警告するのみならず、自動
的に適切な表現に修正する機能を具備してもかまわない
Furthermore, it is possible to have a function that not only warns about inappropriate expressions but also automatically corrects them to appropriate expressions.

また、正表記・副表記の対応関係の検出アルゴリスムは
、」−記のものに限るのではなく、「0」以外を並列表
現の印と認めてもよい。
Furthermore, the algorithm for detecting the correspondence between the regular notation and the sub-notation is not limited to the "-" symbol, but may recognize anything other than "0" as a mark of parallel expression.

更に、上記実施例では初出様式は設定するのみで参照し
なかったので、表記対応テーブルから削除してもよい。
Furthermore, in the above embodiment, since the first appearance style is only set and not referred to, it may be deleted from the notation correspondence table.

逆に、最初に設定した初出様式を用いて、初出様式で括
弧の外に記述しである表記にそれ以降の表記を統一する
ようにしてもよい。
Conversely, it is also possible to use the first appearance format set at the beginning, and to standardize subsequent notations to the notation written outside the parentheses in the first appearance format.

この場合、第4図の例では、]O行目と13行目に現れ
る’LPG”を”Lexical Functjona
l Grammar  に修正することになる。
In this case, in the example of FIG.
This will be modified to l Grammar.

また、正表記・副表記の対応関係検出を全文書に対して
行った後でそれらの使用状況の認識調査を再び文章の先
頭から行うようにすることもできる。
Furthermore, after detecting the correspondence between the regular notation and the sub-notation for all documents, the recognition investigation of their usage status may be performed again from the beginning of the sentence.

こうすれば、対応関係検出以前に正表記または副表記が
使用されている場合に対しても対処できる。
In this way, it is possible to deal with the case where the regular notation or subnotation is used before the correspondence relationship is detected.

その他、本発明はその趣旨を逸脱しない範囲で種々変形
して実施することかできる。
In addition, the present invention can be implemented with various modifications without departing from the spirit thereof.

[発明の効果]  5 ] 6 以上述べたように本発明によれば、術語を多く含んだ文
章を作成する際に、その正表記と副表記とが不規則に混
在する可能性のある場合、大規模な正表記・副表記対応
辞書などを用いることなく不適切な表現を検出すること
ができ、小型ながら実用性の高い文書校正支援システム
を実現することができる。
[Effects of the Invention] 5 ] 6 As described above, according to the present invention, when creating a sentence containing many terminology, when there is a possibility that the regular notation and sub-notation are mixed irregularly, Inappropriate expressions can be detected without using a large-scale regular or sub-notation compatible dictionary, and a small but highly practical document proofreading support system can be realized.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は実施例システムの概略的な構成を示すブロック
、第2図は実施例システムが使用する表記対応テーブル
のデータ例を示す図、第3図は実施例システムにおける
文書校正手続きの流れを示す図、第4図は実施例システ
ムが処理する対象となる英語文章の例、第5図は第4図
の文章を処理する際の表記対応テーブルのデータ変化を
示す図である。 ]・・文書校正処理部、2・・・入力制御装置、3・・
・出力制御装置、4・・・形態素解析部、5・・・表記
対応検出部、6・・表記使用認識部、7・・・警告情報
発生部、8・・表記対応テーブル。
Fig. 1 is a block diagram showing a schematic configuration of the embodiment system, Fig. 2 is a diagram showing an example of data of a notation correspondence table used by the embodiment system, and Fig. 3 is a diagram showing the flow of document proofreading procedures in the embodiment system. 4 is an example of an English sentence to be processed by the embodiment system, and FIG. 5 is a diagram showing data changes in the notation correspondence table when processing the sentence in FIG. 4. ]...Document proofreading processing unit, 2...Input control device, 3...
- Output control device, 4... Morphological analysis unit, 5... Notation correspondence detection unit, 6... Notation usage recognition unit, 7... Warning information generation unit, 8... Notation correspondence table.

Claims (1)

【特許請求の範囲】[Claims] (1)自然言語で作成された文章を入力する手段と、前
記入力文章中より正表記と副表記との置換を意図する一
対の記述及びその記述箇所を該当文章中の文字情報を表
層的に利用した所定のアルゴリズムに基いて検出する手
段と、前記検出された一対の記述のそれぞれを前記検出
箇所以降の文章中より順次検索する手段と、前記検索に
より副表記に相当する記述と正表記に相当する記述との
混在が検出されることに基いて表記の誤使用を判定する
手段とを具備することを特徴とする文章校正支援システ
ム。
(1) A means for inputting a sentence created in a natural language, a pair of descriptions intended to replace the regular notation and the subnotation from the input sentence, and the written part by superficially converting the character information in the corresponding sentence. means for detecting based on a predetermined algorithm used; means for sequentially searching for each of the pair of detected descriptions in the text after the detection location; 1. A grammar proofing support system comprising means for determining misuse of a notation based on detection of a mixture with a corresponding description.
JP2039703A 1990-02-22 1990-02-22 Document proofreading back-up system Pending JPH03244071A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2039703A JPH03244071A (en) 1990-02-22 1990-02-22 Document proofreading back-up system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2039703A JPH03244071A (en) 1990-02-22 1990-02-22 Document proofreading back-up system

Publications (1)

Publication Number Publication Date
JPH03244071A true JPH03244071A (en) 1991-10-30

Family

ID=12560371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2039703A Pending JPH03244071A (en) 1990-02-22 1990-02-22 Document proofreading back-up system

Country Status (1)

Country Link
JP (1) JPH03244071A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020166397A1 (en) * 2019-02-14 2020-08-20 日本電信電話株式会社 Reviewing method, information processing device, and reviewing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020166397A1 (en) * 2019-02-14 2020-08-20 日本電信電話株式会社 Reviewing method, information processing device, and reviewing program
JP2020135126A (en) * 2019-02-14 2020-08-31 日本電信電話株式会社 Review method, information processing device and review program

Similar Documents

Publication Publication Date Title
KR100259407B1 (en) Keyboard for a system and method for processing chinese language text
Trujillo Translation engines: techniques for machine translation
JP2003514304A (en) A linguistic input architecture that converts from one text format to another and is resistant to spelling, typing, and conversion errors
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
Aduriz et al. A spelling corrector for Basque based on morphology
Abu Bakar et al. NUWT: Jawi-specific buckwalter corpus for Malay word tokenization
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
JPH08166966A (en) Dictionary search device, database device, character recognition device, voice recognition device, and sentence correction device
JPH11238051A (en) Chinese input conversion processing device, Chinese input conversion processing method, recording medium recording Chinese input conversion processing program
JPH03244071A (en) Document proofreading back-up system
Asahiah et al. Diacritic-aware Yorùbá spell checker
JP2004206659A (en) Reading information determination method and apparatus and program
Alouane-Ksouri et al. Hybrid segmentation prototype for arabic Text-based documents: Towards plagiarism detection
Shi et al. Chinese online-problems and solutions
JPH0677252B2 (en) Japanese data input processor
KR100268297B1 (en) System and method for processing chinese language text
Sager Natural language analysis and processing
JPH03129568A (en) Document processor
Bansal et al. Isolated-word Error Correction for Partially Phonemic Languages using Phonetic Cues
CN120950663A (en) A method, system, and related equipment for text error correction of insurance input clauses.
Segert et al. A Computer Program for Analysis of Words According to Their Meaning (Conceptual analysis of Latin equivalents for the comparative dictionary of Semitic languages)
LIPSHUTZ et al. Integrating Natural Language Understanding with Document Structure Analysis
JPH0376492B2 (en)
Hashimoto et al. A corpora-based detection of stylistic inconsistencies of text in the targeted subgenre
JPH0574867B2 (en)