JPH079653B2 - 文字処理装置 - Google Patents
文字処理装置Info
- Publication number
- JPH079653B2 JPH079653B2 JP1015408A JP1540889A JPH079653B2 JP H079653 B2 JPH079653 B2 JP H079653B2 JP 1015408 A JP1015408 A JP 1015408A JP 1540889 A JP1540889 A JP 1540889A JP H079653 B2 JPH079653 B2 JP H079653B2
- Authority
- JP
- Japan
- Prior art keywords
- katakana
- string
- storage unit
- shake
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 18
- 230000001131 transforming effect Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 description 30
- 238000000034 method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 産業上の利用分野 本発明は、文書処理を目的とした文字処理装置に関する
ものである。
ものである。
従来の技術 日本語文章の中では外来語を表わすためにカタカナが用
いられている。しかしながら、外来語のカタカナ表記方
法は一定でなく、一つの文章中に複数の表記が混在して
いることが多い。このような現象は、文章の統一性を損
ない、読み易さを阻害すると言われている。これに対
し、カタカナ表記のゆれを自動的に検出するカタカナ表
記のゆれ検出装置が近年考案されている。(特開昭62−
290965) 第2図は、従来のカタカナ表記のゆれ検出装置の構成図
である。
いられている。しかしながら、外来語のカタカナ表記方
法は一定でなく、一つの文章中に複数の表記が混在して
いることが多い。このような現象は、文章の統一性を損
ない、読み易さを阻害すると言われている。これに対
し、カタカナ表記のゆれを自動的に検出するカタカナ表
記のゆれ検出装置が近年考案されている。(特開昭62−
290965) 第2図は、従来のカタカナ表記のゆれ検出装置の構成図
である。
図中、21は、文章記憶部であり、入力された文章を記憶
する。文章記憶部21としては、ICメモリ、磁気ディスク
装置などが用いられている。22は、カタカナ列抽出部で
あり、文章記憶部21が記憶している文章の中からカタカ
ナ列を抽出する。23は、カタカナ列記憶部であり、カタ
カナ列抽出部22によって抽出されたカタカナ列ととも
に、文章記憶部21に記憶された文章における位置の情報
も記憶する。カタカナ記憶部23としては、文章記憶部21
と同様に、ICメモリ、磁気ディスク装置などが用いられ
ている。24は、カタカナ列変形部であり、カタカナ列記
憶部23に記憶されたカタカナ列に対してカタカナあるい
は部分カタカナ列を削除または置換することによって変
形を加える。25は、変形結果記憶部であり、カタカナ列
変形部24によって変形された結果を、カタカナ列記憶部
23に記憶されたカタカナ列と対応づけて記憶する。26
は、変形結果比較部であり、変形結果記憶部25に記憶さ
れた変形結果の一致するカタカナ列の一群を検出する。
27は、カタカナ列比較部であり、変形結果の一致する変
形前のカタカナ列の一群についてカタカナ列記憶部23に
記憶されたカタカナ列を比較することによって、変形結
果は一致するが変形前のカタカナ列は異なるカタカナ列
の一群を検出する。28は、ゆれ部分表示部であり、カタ
カナ列比較部27によって検出されたカタカナ列の一群を
表示する。ゆれ部分表示部28としては、たとえば、CRT
ディスプレイ、液晶ディスプレイなどを用いる。表示の
方法は、検出されたカタカナ列の部分を反転表示した
り、カラー表示したりする方法がある。これら以外にも
構成要素が存在するが、本発明との対比のためには必要
がないので省略する。
する。文章記憶部21としては、ICメモリ、磁気ディスク
装置などが用いられている。22は、カタカナ列抽出部で
あり、文章記憶部21が記憶している文章の中からカタカ
ナ列を抽出する。23は、カタカナ列記憶部であり、カタ
カナ列抽出部22によって抽出されたカタカナ列ととも
に、文章記憶部21に記憶された文章における位置の情報
も記憶する。カタカナ記憶部23としては、文章記憶部21
と同様に、ICメモリ、磁気ディスク装置などが用いられ
ている。24は、カタカナ列変形部であり、カタカナ列記
憶部23に記憶されたカタカナ列に対してカタカナあるい
は部分カタカナ列を削除または置換することによって変
形を加える。25は、変形結果記憶部であり、カタカナ列
変形部24によって変形された結果を、カタカナ列記憶部
23に記憶されたカタカナ列と対応づけて記憶する。26
は、変形結果比較部であり、変形結果記憶部25に記憶さ
れた変形結果の一致するカタカナ列の一群を検出する。
27は、カタカナ列比較部であり、変形結果の一致する変
形前のカタカナ列の一群についてカタカナ列記憶部23に
記憶されたカタカナ列を比較することによって、変形結
果は一致するが変形前のカタカナ列は異なるカタカナ列
の一群を検出する。28は、ゆれ部分表示部であり、カタ
カナ列比較部27によって検出されたカタカナ列の一群を
表示する。ゆれ部分表示部28としては、たとえば、CRT
ディスプレイ、液晶ディスプレイなどを用いる。表示の
方法は、検出されたカタカナ列の部分を反転表示した
り、カラー表示したりする方法がある。これら以外にも
構成要素が存在するが、本発明との対比のためには必要
がないので省略する。
上記のように構成された従来のカタカナ表記のゆれ検出
装置において、表記のゆれの変形規則を『「フェ」を
「ヘ」に変形する』、『「ー」を「削除」する』のよう
にしてあらかじめ設定しておき、その変形規則に従って
変形した結果を比較してゆれを検出している。
装置において、表記のゆれの変形規則を『「フェ」を
「ヘ」に変形する』、『「ー」を「削除」する』のよう
にしてあらかじめ設定しておき、その変形規則に従って
変形した結果を比較してゆれを検出している。
発明が解決しようとする課題 従来のカタカナ表記のゆれ検出装置を用いてカタカナ表
記のゆれを検出する場合、ゆれを検出するためのカタカ
ナ文字列の変形方法は、カタカナ文字を他のカタカナ文
字に置換または削除するものであった。このため、
『「エイ」を「エー」に変形する』、『「ー」を「削
除」する』のように変形規則を1つの文字に対して重複
して記述すると、たとえば、文章中に「ウエート」と
「ウエイト」の2とおりの表記が存在したときに「ウエ
ート」は「ウエト」、「ウエイト」は「ウエート」と変
換されて変形結果の「ウエト」と「ウエート」が一致し
ないために表記のゆれを検出できない場合があった。も
しくは、変形規則を繰り返し適用するなど特別な制御を
必要とした。
記のゆれを検出する場合、ゆれを検出するためのカタカ
ナ文字列の変形方法は、カタカナ文字を他のカタカナ文
字に置換または削除するものであった。このため、
『「エイ」を「エー」に変形する』、『「ー」を「削
除」する』のように変形規則を1つの文字に対して重複
して記述すると、たとえば、文章中に「ウエート」と
「ウエイト」の2とおりの表記が存在したときに「ウエ
ート」は「ウエト」、「ウエイト」は「ウエート」と変
換されて変形結果の「ウエト」と「ウエート」が一致し
ないために表記のゆれを検出できない場合があった。も
しくは、変形規則を繰り返し適用するなど特別な制御を
必要とした。
また従来のカタカナ表記のゆれ検出装置を用いてカタカ
ナ表記のゆれを検出する場合、カタカナ文字列を抽出す
る際に、カタカナ文字しか抽出していなかった。このた
め、1つの文章中で「オペレーティング・システム」と
「オペレーティングシステム」のように表記がゆれてい
る場合に、「オペレーティング・システム」は、「オペ
レーティング」と「システム」の2つのカタカナ文字列
に分割されてしまい、表記のゆれとして検出することが
できなかった。
ナ表記のゆれを検出する場合、カタカナ文字列を抽出す
る際に、カタカナ文字しか抽出していなかった。このた
め、1つの文章中で「オペレーティング・システム」と
「オペレーティングシステム」のように表記がゆれてい
る場合に、「オペレーティング・システム」は、「オペ
レーティング」と「システム」の2つのカタカナ文字列
に分割されてしまい、表記のゆれとして検出することが
できなかった。
本発明は、従来のカタカナ表記のゆれ検出装置が有して
いた前記の問題点に鑑み、カタカナ文字列の部分カタカ
ナ列を記号に置換して中間形式を作成する方法にするこ
とにより、カタカナ表記のゆれの検出率を高めることが
できる文字処理装置を提供することを目的とする。
いた前記の問題点に鑑み、カタカナ文字列の部分カタカ
ナ列を記号に置換して中間形式を作成する方法にするこ
とにより、カタカナ表記のゆれの検出率を高めることが
できる文字処理装置を提供することを目的とする。
また本発明は、従来のカタカナ表記のゆれ検出装置が有
していた前記の問題点に鑑み、文章の中からカタカナ文
字列を抽出する際に、特定の文字また記号をカタカナ文
字と一緒にカタカナ文字列として抽出することにより、
カタカナ以外の文字を含むカタカナ表記のゆれが検出で
きる文字処理装置を提供することを目的とする。
していた前記の問題点に鑑み、文章の中からカタカナ文
字列を抽出する際に、特定の文字また記号をカタカナ文
字と一緒にカタカナ文字列として抽出することにより、
カタカナ以外の文字を含むカタカナ表記のゆれが検出で
きる文字処理装置を提供することを目的とする。
課題を解決するための手段 本発明は、文章を一時記憶する文章記憶部と、文章記憶
部に一時記憶されている文章の中からカタカナ文字列を
抽出するカタカナ列抽出部と、カタカナ文字列のグルー
プとひとつの記号の対応の組を少なくとも1つ記憶する
ゆれ対応記憶部と、前記カタカナ列抽出部で抽出された
カタカナ文字列を前記ゆれ対応記憶部で記憶している対
応に従ってカタカナ文字列中の部分カタカナ列を記号に
置換して中間形式に変形するカタカナ列変形部と、前記
カタカナ列変形部で変形した中間形式を元のカタカナ文
字列と対応づけて一時記憶する変形結果記憶部と、前記
変形結果記憶部に一時記憶している中間形式同志を比較
して、一致するものを検出するゆれ候補検出部と、前記
ゆれ候補検出部で検出されたゆれ候補の中で元のカタカ
ナ表記が異なるものがあるか否かを判定する表記のゆれ
判定部とを備えた文字処理装置である。
部に一時記憶されている文章の中からカタカナ文字列を
抽出するカタカナ列抽出部と、カタカナ文字列のグルー
プとひとつの記号の対応の組を少なくとも1つ記憶する
ゆれ対応記憶部と、前記カタカナ列抽出部で抽出された
カタカナ文字列を前記ゆれ対応記憶部で記憶している対
応に従ってカタカナ文字列中の部分カタカナ列を記号に
置換して中間形式に変形するカタカナ列変形部と、前記
カタカナ列変形部で変形した中間形式を元のカタカナ文
字列と対応づけて一時記憶する変形結果記憶部と、前記
変形結果記憶部に一時記憶している中間形式同志を比較
して、一致するものを検出するゆれ候補検出部と、前記
ゆれ候補検出部で検出されたゆれ候補の中で元のカタカ
ナ表記が異なるものがあるか否かを判定する表記のゆれ
判定部とを備えた文字処理装置である。
また本発明は、文章を一時記憶する文章記憶部と、カタ
カナ以外で特に定めた文字または記号を記憶する特定文
字記憶部と、文章記憶部に一時記憶されている文章の中
からカタカナと前記特定文字記憶部に記憶している文字
または記号からなる文字列(以降、カタカナ文字列と呼
ぶ)を抽出する拡張カタカナ列抽出部と、前記拡張カタ
カナ列抽出部で抽出されたカタカナ文字列に対してカタ
カナ文字列中の部分カタカナ列を書き換えることによっ
て変形を加えるカタカナ列変形部と、前記カタカナ列変
形部で変形した変形結果を元のカタカナ文字列と対応づ
けて一時記憶する変形結果記憶部と、前記変形結果記憶
部に一時記憶している変形結果同志を比較して、一致す
るものを検出するゆれ候補検出部と、前記ゆれ候補検出
部で検出されたゆれ候補の中で元のカタカナ表記が異な
るものがあるか否かを判定する表記のゆれ判定部とを備
えた文字処理装置である。
カナ以外で特に定めた文字または記号を記憶する特定文
字記憶部と、文章記憶部に一時記憶されている文章の中
からカタカナと前記特定文字記憶部に記憶している文字
または記号からなる文字列(以降、カタカナ文字列と呼
ぶ)を抽出する拡張カタカナ列抽出部と、前記拡張カタ
カナ列抽出部で抽出されたカタカナ文字列に対してカタ
カナ文字列中の部分カタカナ列を書き換えることによっ
て変形を加えるカタカナ列変形部と、前記カタカナ列変
形部で変形した変形結果を元のカタカナ文字列と対応づ
けて一時記憶する変形結果記憶部と、前記変形結果記憶
部に一時記憶している変形結果同志を比較して、一致す
るものを検出するゆれ候補検出部と、前記ゆれ候補検出
部で検出されたゆれ候補の中で元のカタカナ表記が異な
るものがあるか否かを判定する表記のゆれ判定部とを備
えた文字処理装置である。
作用 本発明は前記した構成より、カタカナ列抽出部は文章中
からカタカナ文字列を抽出し、カタカナ列変形部は、ゆ
れ対応記憶部に記憶しているカタカナ文字列と記号の対
応情報に従ってカタカナ文字列の部分文字列を記号に置
換して中間形式を作成する。さらに、ゆれ候補検出部と
表記のゆれ判定部は、中間形式と元の表記をそれぞれ比
較して表記がゆれているものを検出する。
からカタカナ文字列を抽出し、カタカナ列変形部は、ゆ
れ対応記憶部に記憶しているカタカナ文字列と記号の対
応情報に従ってカタカナ文字列の部分文字列を記号に置
換して中間形式を作成する。さらに、ゆれ候補検出部と
表記のゆれ判定部は、中間形式と元の表記をそれぞれ比
較して表記がゆれているものを検出する。
また本発明は、前記した構成より、拡張カタカナ列抽出
部は、特定文字記憶部で一時記憶している文字または記
号であると判定した文字もカタカナ文字列に含めて文章
中からカタカナ文字列を抽出する。次に、カタカナ列変
形部は、カタカナ文字列の部分文字列を置換または削除
して変形を加える。さらに、ゆれ候補検出部と表記のゆ
れ判定部は、変形結果と元の表記をそれぞれ比較して表
記がゆれているものを検出する。
部は、特定文字記憶部で一時記憶している文字または記
号であると判定した文字もカタカナ文字列に含めて文章
中からカタカナ文字列を抽出する。次に、カタカナ列変
形部は、カタカナ文字列の部分文字列を置換または削除
して変形を加える。さらに、ゆれ候補検出部と表記のゆ
れ判定部は、変形結果と元の表記をそれぞれ比較して表
記がゆれているものを検出する。
実施例 以下、本発明の実施例を図面を用いて説明する。
第1図は、本発明における一実施例の文字処理装置の構
成図である。
成図である。
第1図において、11は、文章記憶部であり、入力された
文章を一時記憶する。文章記憶部11としては、たとえ
ば、磁気ディスク装置が用いられる。12は、特定文字記
憶部であり、カタカナ文字以外で特に定めた文字または
記号を記憶する。13は、拡張カタカナ列抽出部であり、
文章記憶部11が一時記憶している文章の中からカタカナ
もしくは特定文字記憶部12で一時記憶している文字また
は記号からなる文字列(以降カタカナ文字列と呼ぶ)を
1つずつ順に抽出する。全てのカタカナ文字列を抽出し
終えると、後述ゆれ候補検出部17を起動する。14は、ゆ
れ対応記憶部であり、ゆれが生じやすいカタカナ文字列
のグループと記号の対応情報を記憶する。ゆれ対応記憶
部14としては、文章記憶部11と同様に、磁気ディスク装
置などが用いられる。15は、カタカナ列変形部であり、
前記カタカナ文字列抽出部13で抽出したカタカナ文字列
を前記ゆれ対応記憶部14で記憶している対応情報に従っ
てカタカナ文字列の部分列を記号に置換して中間形式を
作成する。16は、変形結果記憶部であり、前記カタカナ
列変形部15で変形した中間形式を元のカタカナ文字列と
対応づけて、拡張カタカナ列抽出部13で抽出された順に
全て一時記憶する。変形結果記憶部16としては、文章記
憶部11と同様に、磁気ディスク装置が用いられる。17
は、ゆれ候補検出部であり、拡張カタカナ列抽出部13か
ら指示が与えられると、前記変形結果記憶部16に一時記
憶している中間形式同志を比較して、一致するものを検
出する。18は、表記のゆれ判定部であり、前記ゆれ候補
検出部17で検出されたゆれ候補の中で元の表記が異なる
ものがあるか否かを判定する。19は、ゆれ部分表示部で
あり、前記表記のゆれ判定部18で表記の異なるものがあ
ると判定されたカタカナ文字列を表示する。ゆれ部分表
示部19としては、CRTディスプレイ、液晶ディスプレイ
などがある。表記方法としては、ゆれの部分を反転表
示、下線表示して他の部分と異なる表示をする方法があ
る。
文章を一時記憶する。文章記憶部11としては、たとえ
ば、磁気ディスク装置が用いられる。12は、特定文字記
憶部であり、カタカナ文字以外で特に定めた文字または
記号を記憶する。13は、拡張カタカナ列抽出部であり、
文章記憶部11が一時記憶している文章の中からカタカナ
もしくは特定文字記憶部12で一時記憶している文字また
は記号からなる文字列(以降カタカナ文字列と呼ぶ)を
1つずつ順に抽出する。全てのカタカナ文字列を抽出し
終えると、後述ゆれ候補検出部17を起動する。14は、ゆ
れ対応記憶部であり、ゆれが生じやすいカタカナ文字列
のグループと記号の対応情報を記憶する。ゆれ対応記憶
部14としては、文章記憶部11と同様に、磁気ディスク装
置などが用いられる。15は、カタカナ列変形部であり、
前記カタカナ文字列抽出部13で抽出したカタカナ文字列
を前記ゆれ対応記憶部14で記憶している対応情報に従っ
てカタカナ文字列の部分列を記号に置換して中間形式を
作成する。16は、変形結果記憶部であり、前記カタカナ
列変形部15で変形した中間形式を元のカタカナ文字列と
対応づけて、拡張カタカナ列抽出部13で抽出された順に
全て一時記憶する。変形結果記憶部16としては、文章記
憶部11と同様に、磁気ディスク装置が用いられる。17
は、ゆれ候補検出部であり、拡張カタカナ列抽出部13か
ら指示が与えられると、前記変形結果記憶部16に一時記
憶している中間形式同志を比較して、一致するものを検
出する。18は、表記のゆれ判定部であり、前記ゆれ候補
検出部17で検出されたゆれ候補の中で元の表記が異なる
ものがあるか否かを判定する。19は、ゆれ部分表示部で
あり、前記表記のゆれ判定部18で表記の異なるものがあ
ると判定されたカタカナ文字列を表示する。ゆれ部分表
示部19としては、CRTディスプレイ、液晶ディスプレイ
などがある。表記方法としては、ゆれの部分を反転表
示、下線表示して他の部分と異なる表示をする方法があ
る。
以上のように構成された本実施例の文字処理装置につい
て以下その動作を説明する。
て以下その動作を説明する。
今、ゆれ対応記憶部14に記憶されている変形規則の例と
して次のようなものを考える。
して次のようなものを考える。
カタカナ列変形部15では、変形規則の中のカタカナ文字
列を拡張カタカナ列抽出部13で抽出されたカタカナ文字
列の中から検索して対応する記号に変形する。このと
き、''は、記号なしを意味する。また、当てはまる変形
規則の全てを適用して中間形式を作成する。
列を拡張カタカナ列抽出部13で抽出されたカタカナ文字
列の中から検索して対応する記号に変形する。このと
き、''は、記号なしを意味する。また、当てはまる変形
規則の全てを適用して中間形式を作成する。
特定文字記憶部12では、「−(マイナス)」、「=」、
「・(中点)」を特定文字として一時記憶するものとす
る。
「・(中点)」を特定文字として一時記憶するものとす
る。
ここで、次のような文章が文章記憶部11に一時記憶され
ているとする。この文章中では、「ウエート」と「ウエ
イト」、「オペレーティング・システム」と「オペレー
ティングシステム」の表記がゆれている。
ているとする。この文章中では、「ウエート」と「ウエ
イト」、「オペレーティング・システム」と「オペレー
ティングシステム」の表記がゆれている。
文章例 オペレーティング・システムにおいて、この問題は大き
なウエートを占める。ところが、現在のオペレーティン
グシステムではあまり重視されていない。別のテーマが
占めるウエイトの方が大きいようだ。
なウエートを占める。ところが、現在のオペレーティン
グシステムではあまり重視されていない。別のテーマが
占めるウエイトの方が大きいようだ。
まず、拡張カタカナ列抽出部13は、文章記憶部11に一時
記憶している文章の中から、カタカナ文字列を順に抽出
する。このときに、オペレーティングとシステムの間の
「・」が特定文字記憶部12において特定文字と記憶され
ているので、最初に「オペレーティング・システム」が
抽出される。そこで、カタカナ列変形部15は、ゆれ対応
記憶部14に記憶している変形規則のうち に従って、「オペレーティング・システム」を中間形式
「オペレbングシスbム」に変形する。次に、変形結果
記憶部16は、中間形式「オペレbングシスbム」と文章
中の先頭位置を示す「0」とカタカナ文字列の長さを示
す「13」を記憶する。「オペレーティング・システム」
に対しての変形処理が終了すると、拡張カタカナ列抽出
部13は、文章記憶部11に一時記憶している文章の中から
次のカタカナ文字列を抽出し、ゆれ対応記憶部14に記憶
している変形方法に従って同様の変形を加える。2番目
に抽出される「ウエート」については、ゆれ対応記憶部
14に記憶している変形規則の に従って、「ウエート」を「dcト」と「dエト」に変形
する。以下、文章記憶部11に一時記憶している文章のす
べての文字列に対して同様の処理を行うと、変形結果記
憶部16に記憶される結果は次のようになる。[ ]内の
数字はカタカナ文字列の連番であり、( )内の数字
は、そのカタカナ文字列の位置情報であり、文章の先頭
から数えた文字数とカタカナ文字列の長さである。
記憶している文章の中から、カタカナ文字列を順に抽出
する。このときに、オペレーティングとシステムの間の
「・」が特定文字記憶部12において特定文字と記憶され
ているので、最初に「オペレーティング・システム」が
抽出される。そこで、カタカナ列変形部15は、ゆれ対応
記憶部14に記憶している変形規則のうち に従って、「オペレーティング・システム」を中間形式
「オペレbングシスbム」に変形する。次に、変形結果
記憶部16は、中間形式「オペレbングシスbム」と文章
中の先頭位置を示す「0」とカタカナ文字列の長さを示
す「13」を記憶する。「オペレーティング・システム」
に対しての変形処理が終了すると、拡張カタカナ列抽出
部13は、文章記憶部11に一時記憶している文章の中から
次のカタカナ文字列を抽出し、ゆれ対応記憶部14に記憶
している変形方法に従って同様の変形を加える。2番目
に抽出される「ウエート」については、ゆれ対応記憶部
14に記憶している変形規則の に従って、「ウエート」を「dcト」と「dエト」に変形
する。以下、文章記憶部11に一時記憶している文章のす
べての文字列に対して同様の処理を行うと、変形結果記
憶部16に記憶される結果は次のようになる。[ ]内の
数字はカタカナ文字列の連番であり、( )内の数字
は、そのカタカナ文字列の位置情報であり、文章の先頭
から数えた文字数とカタカナ文字列の長さである。
[1]オペレbングシスbム ( 0,13) [2]dcト ( 48, 4) [3]dエト ( 88, 4) [4]オペレbングシスbム ( 10,12) [5]cマ (150, 3) [6]dcト (164, 4) これらの変形結果に対してゆれ候補検出部17は、中間形
式が一致するものを検出する。この場合は、[1]と
[4]、「2」と「6」が検出される。さらに、表記の
ゆれ判定部18は、位置情報からそれぞれ元の表記を比較
する。[1]と[4]、「2」と「6」のそれぞれの元
の表記が異なるのでこれらは表記がゆれていると判定す
る。ゆれ部分表示部19で[1]と[4]、「2」と
「6」に相当するカタカナ文字列を表記がゆれていると
して表示する。
式が一致するものを検出する。この場合は、[1]と
[4]、「2」と「6」が検出される。さらに、表記の
ゆれ判定部18は、位置情報からそれぞれ元の表記を比較
する。[1]と[4]、「2」と「6」のそれぞれの元
の表記が異なるのでこれらは表記がゆれていると判定す
る。ゆれ部分表示部19で[1]と[4]、「2」と
「6」に相当するカタカナ文字列を表記がゆれていると
して表示する。
以上のように、本実施例によれば、ゆれ対応記憶部とカ
タカナ列変形部を設け、ゆれが生じやすい部分の変形規
則をゆれが生じやすいカタカナ文字列と記号を対応させ
て変形規則として記憶し、その変形規則に従ってカタカ
ナ列を中間形式に変形することにより、カタカナ文字の
置換または削除のみの変形では検出することができなか
った「ウエイト」と「ウエート」のような表記のゆれを
検出することができる。さらに、特定文字記憶部と拡張
カタカナ列抽出部を設けることにより、「オペレーティ
ング・システム」と「オペレーティングシステム」のよ
うなカタカナ以外の文字のゆれも検出することができ
る。
タカナ列変形部を設け、ゆれが生じやすい部分の変形規
則をゆれが生じやすいカタカナ文字列と記号を対応させ
て変形規則として記憶し、その変形規則に従ってカタカ
ナ列を中間形式に変形することにより、カタカナ文字の
置換または削除のみの変形では検出することができなか
った「ウエイト」と「ウエート」のような表記のゆれを
検出することができる。さらに、特定文字記憶部と拡張
カタカナ列抽出部を設けることにより、「オペレーティ
ング・システム」と「オペレーティングシステム」のよ
うなカタカナ以外の文字のゆれも検出することができ
る。
発明の効果 本発明の文字処理装置においては、カタカナ文字列の変
形方法をカタカナ文字列のグループを、対応するひとつ
の記号に変形する方法にすることにより、カタカナ表記
のゆれの検出率を高めることができ、また、簡単な処理
でカタカナ文字列を変形することができる。さらに、相
互に表記がゆれ易いいくつかのカタカナ列のグループを
ひとつの記号に対応させるので、変形規則の保守性が高
い。
形方法をカタカナ文字列のグループを、対応するひとつ
の記号に変形する方法にすることにより、カタカナ表記
のゆれの検出率を高めることができ、また、簡単な処理
でカタカナ文字列を変形することができる。さらに、相
互に表記がゆれ易いいくつかのカタカナ列のグループを
ひとつの記号に対応させるので、変形規則の保守性が高
い。
また本発明の文字処理装置においては、文章の中からカ
タカナ文字列を抽出する際に、特定の文字または記号を
カタカナ文字と一緒に抽出することにより、カタカナ以
外の文字を含むカタカナ表記のゆれが検出でき、その実
用的効果は大きい。
タカナ文字列を抽出する際に、特定の文字または記号を
カタカナ文字と一緒に抽出することにより、カタカナ以
外の文字を含むカタカナ表記のゆれが検出でき、その実
用的効果は大きい。
第1図は本発明の一実施例の文字処理装置の構成図、第
2図は従来の文字処理装置の構成図である。 11……文章記憶部、12……特定文字記憶部、13……拡張
カタカナ列抽出部、14……ゆれ対応記憶部、15……カタ
カナ列変形部、16……変形結果記憶部、17……ゆれ候補
検出部、18……表記のゆれ判定部、19……ゆれ部分表示
部。
2図は従来の文字処理装置の構成図である。 11……文章記憶部、12……特定文字記憶部、13……拡張
カタカナ列抽出部、14……ゆれ対応記憶部、15……カタ
カナ列変形部、16……変形結果記憶部、17……ゆれ候補
検出部、18……表記のゆれ判定部、19……ゆれ部分表示
部。
Claims (2)
- 【請求項1】文章を一時記憶する文章記憶部と、文章記
憶部に一時記憶されている文章の中からカタカナ文字列
を抽出するカタカナ列抽出部と、カタカナ文字列のグル
ープとひとつの記号の対応の組を少なくとも1つ記憶す
るゆれ対応記憶部と、前記カタカナ列抽出部で抽出され
たカタカナ文字列を前記ゆれ対応記憶部で記憶している
対応に従ってカタカナ文字列中の部分カタカナ列を記号
に置換して中間形式に変形するカタカナ列変形部と、前
記カタカナ列変形部で変形した中間形式を元のカタカナ
文字列と対応づけて一時記憶する変形結果記憶部と、前
記変形結果記憶部に一時記憶している中間形式同志を比
較して、一致するものを検出するゆれ候補検出部と、前
記ゆれ候補検出部で検出されたゆれ候補の中で元のカタ
カナ表記が異なるものがあるか否かを判定する表記のゆ
れ判定部とを具備し、カタカナ文字列のグループとそれ
らを代表する記号を対応づけたゆれ対応記憶部の情報に
従って変形した中間形式同志を比較することによってカ
タカナ表記のゆれを抽出することを特徴とした文字処理
装置。 - 【請求項2】文章を一時記憶する文章記憶部と、カタカ
ナ以外で特に定めた文字または記号を記憶する特定文字
記憶部と、文章記憶部に一時記憶されている文章の中か
らカタカナと前記特定文字記憶部に記憶している文字ま
たは記号からなる文字列(以降、カタカナ文字列と呼
ぶ)を抽出する拡張カタカナ列抽出部と、前記拡張カタ
カナ列抽出部で抽出されたカタカナ文字列に対してカタ
カナ文字列中の部分カタカナ列を書き換えることによっ
て変形を加えるカタカナ列変形部と、前記カタカナ列変
形部で変形した変形結果を元のカタカナ文字列と対応づ
けて一時記憶する変形結果記憶部と、前記変形結果記憶
部に一時記憶している変形結果同志を比較して、一致す
るものを検出するゆれ候補検出部と、前記ゆれ候補検出
部で検出されたゆれ候補の中で元のカタカナ表記が異な
るものがあるか否かを判定する表記のゆれ判定部とを具
備することを特徴とした文字処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1015408A JPH079653B2 (ja) | 1989-01-25 | 1989-01-25 | 文字処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1015408A JPH079653B2 (ja) | 1989-01-25 | 1989-01-25 | 文字処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH02255937A JPH02255937A (ja) | 1990-10-16 |
| JPH079653B2 true JPH079653B2 (ja) | 1995-02-01 |
Family
ID=11887912
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1015408A Expired - Fee Related JPH079653B2 (ja) | 1989-01-25 | 1989-01-25 | 文字処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH079653B2 (ja) |
-
1989
- 1989-01-25 JP JP1015408A patent/JPH079653B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH02255937A (ja) | 1990-10-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7712028B2 (en) | Using annotations for summarizing a document image and itemizing the summary based on similar annotations | |
| JPS62267876A (ja) | 画像登録方式 | |
| EP1304625A2 (en) | Method and apparatus for forward annotating documents and for generating a summary from a document image | |
| JPH079653B2 (ja) | 文字処理装置 | |
| JPH069048B2 (ja) | 表記のゆれ統一方式 | |
| Lawrie et al. | Building OCR/NER test collections | |
| JPH0764979A (ja) | 文書情報処理装置 | |
| JP2932667B2 (ja) | 情報の検索方法および情報蓄積装置 | |
| JP3455643B2 (ja) | 文字認識装置における学習辞書の更新方法及び文字認識装置 | |
| JPH08115330A (ja) | 類似文書検索方法および装置 | |
| JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
| JPS63182777A (ja) | 図面フアイルシステムの登録・検索方法 | |
| JP2022181367A (ja) | 情報処理装置及びプログラム | |
| JPH02230375A (ja) | 電子ファイルシステム | |
| JPH10154157A (ja) | 電子ファイリングシステム | |
| JPH117492A (ja) | キー入力編集方法及び編集装置 | |
| JPH10320409A (ja) | 文書情報抽出方法及び装置並びに文書抽出処理プログラムを記憶した記憶媒体 | |
| JP2973520B2 (ja) | 電子文書編集装置における表示方式 | |
| JPH10283375A (ja) | 全文検索装置および方法 | |
| JPH04274579A (ja) | 光学文字読取り装置における文字認識方法 | |
| JPS62290965A (ja) | 表記のゆれ検出方式 | |
| JPH03241460A (ja) | 文書出力書式制御方法 | |
| JPH04233658A (ja) | 文書作成支援装置 | |
| JPH01111271A (ja) | 業務処理方式 | |
| JPH02136970A (ja) | 英単語検索装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |