JPH0721182A

JPH0721182A - 文字処理装置およびその方法

Info

Publication number: JPH0721182A
Application number: JP5164349A
Authority: JP
Inventors: Yukie Shoda; 幸恵庄田; Junichi Kubota; 淳市久保田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-07-02
Filing date: 1993-07-02
Publication date: 1995-01-24

Abstract

(57)【要約】【目的】文字列長の長いカタカナ文字列を比較する場
合でも短い時間で比較できる文字処理装置およびその方
法を提供することである。【構成】文章データ中から抽出された各カタカナ文字
列は、予備分類されていくつかのグループに予備分類さ
れる。各グループ内において、２つずつカタカナ文字列
が選択されていく。選択された２つのカタカナ文字列が
両方とも所定数以上の文字を含む場合（ステップＳ１０
１）、２つのカタカナ文字列から共通部分が削除されて
（ステップＳ１０４）、非共通部分についてのみ変形処
理が行われる（ステップＳ１０４）。その後、変形結果
が相互に比較され、一致する変形記号列が有るか否かが
判断される（ステップＳ１０５）。一致する変形記号列
が有る場合、元のカタカナ文字列が相互に比較され（ス
テップＳ１０７）、異なる場合に表記のゆれが生じてい
ると判断される（ステップＳ１０８）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字処理装置およびそ
の方法に関し、より特定的には、文章中に含まれるカタ
カナ文字列について表記のゆれが生じているか否かを検
出する文字処理装置およびその方法に関する。

【０００２】

【従来の技術】日本語文章の中では外来語を表すために
カタカナが用いられている。しかしながら、原音が日本
語の「かな」と１対１に対応していないため外来語のカ
タカナ表記は一定でなく、「バイオリン」と「ヴァイオ
リン」など１つの文章中に複数の表記が混在しているこ
とが多い。このような現象は、文章の統一性を損ない、
読みやすさを阻害するといわれている。これに対し、文
章中に含まれているカタカナ表記がゆれているか否かを
検出する文字処理装置が近年提案されている（特開昭６
２−２９０９６５号公報、特開平２−２５５９３７号公
報）。

【０００３】図１０は、従来の文字処理装置の構成を示
す図である。図１０において、従来の文字処理装置は、
文章記憶部４１と、カタカナ文字列抽出部４２と、カタ
カナ文字列一時記憶部４３と、カタカナ文字列変形部４
４と、変形結果一時記憶部４５と、変形結果比較部４６
と、ゆれ判定部４９とを備えている。文章記憶部４１
は、入力された文章データを記憶する。文章記憶部４１
としては、ＩＣメモリ、磁気ディスク装置などが用いら
れている。カタカナ文字列抽出部４２は、文章記憶部４
１が記憶している文章データの中からカタカナ文字列を
抽出する。なお、１つのカタカナ文字列は１つの外来語
に対応している。カタカナ文字列一時記憶部４３は、カ
タカナ文字列抽出部４２が抽出した各カタカナ文字列を
文章中の位置情報とともに一時記憶する。カタカナ文字
列変形部４４は、カタカナ文字列一時記憶部で一時記憶
している各カタカナ文字列に変形を加える。このとき、
特開平２−２５５９３７号公報に開示された文字処理装
置では、１つのカタカナ文字列を複数の部分に分解し、
各部分を予め定められた規則に従って削除しまたはカタ
カナでない記号に置き換える。変形結果一時記憶部４５
は、カタカナ文字列変形部４４によって変形された結果
をカタカナ文字列抽出部４２で抽出されたカタカナ文字
列と対応づけて一時記憶する。変形結果比較部４６は、
変形結果一時記憶部４５に記憶された変形結果が一致す
るカタカナ文字列の一群を検出する。ゆれ判定部４９
は、変形結果が一致するカタカナ文字列の一群について
変形前の元のカタカナ文字列を相互に比較し、変形結果
は一致するが変形前のカタカナ文字列は異なるカタカナ
文字列の一群を発見したとき、表記のゆれが生じている
と判定する。

【０００４】

【発明が解決しようとする課題】上記のように構成され
た従来の文字処理装置では、カタカナ文字列を変形する
際、１つのカタカナ文字列をどのように分解するかに応
じて１つのカタカナ文字列から複数の変形結果が得られ
る。特に、文字長の長いカタカナ文字列の場合は、分解
の組み合わせ方が多くなるため、変形結果の数が増え
る。その結果、変形結果を比較する回数が増えて比較時
間が大量に必要となるという問題点を有していた。

【０００５】それゆえに本発明の目的は、文字長の長い
カタカナ文字列を比較する場合でも短時間で比較が完了
する文字処理装置およびその方法を提供することであ
る。

【０００６】

【課題を解決するための手段】請求項１に係る発明は、
文章中に含まれるカタカナ文字列について表記のゆれが
生じているか否かを検出する文字処理装置であって、文
章中から抽出された各カタカナ文字列を一時記憶するカ
タカナ文字列一時記憶手段、カタカナ文字列一時記憶手
段で一時記憶している各カタカナ文字列の中から複数の
カタカナ文字列を選択する選択手段、選択手段で選択さ
れた各カタカナ文字列について、互いの共通部分を検出
する共通部分検出手段、選択手段で選択された各カタカ
ナ文字列について、共通部分検出手段で検出された共通
部分以外の非共通部分を所定の規則に従って変形するカ
タカナ文字列変形手段、カタカナ文字列変形手段で変形
した結果を相互に比較し、変形部分が一致するカタカナ
文字列を検出する変形結果比較手段、および変形結果比
較部で検出した変形結果が一致するカタカナ文字列の中
で変形前のカタカナ表記が異なるものを表記がゆれてい
ると判定する表記のゆれ判定手段を備えている。

【０００７】請求項２に係る発明は、請求項１の発明に
おいて、カタカナ文字列一時記憶部で一時記憶している
各カタカナ文字列を、類似しているもの同士いくつかの
グループに分類する予備分類手段をさらに備え、選択手
段は、予備分類手段で分類された各グループ毎に複数の
カタカナ文字列を選択することを特徴とする。

【０００８】請求項３に係る発明は、請求項１の発明に
おいて、選択手段で選択された各カタカナ文字列がいず
れも所定数以上の文字を含むか否かを検出する文字列長
検出手段をさらに備え、共通部分検出手段は、選択手段
で選択された各カタカナ文字列がいずれも所定数以上の
文字を含むことを文字列長検出手段が検出した場合にの
み各カタカナ文字列の共通部分を検出することを特徴と
する。

【０００９】請求項４に係る発明は、文章中に含まれる
複数のカタカナ文字列について表記のゆれが生じている
か否かを検出する文字処理方法であって、文章中から抽
出された各カタカナ文字列を一時記憶する第１のステッ
プ、第１のステップで一時記憶している各カタカナ文字
列の中から複数のカタカナ文字列を選択する第２のステ
ップ、第２のステップで選択された各カタカナ文字列に
ついて、互いの共通部分を検出する第３のステップ、第
２のステップで選択された各カタカナ文字列について、
第３のステップで検出された共通部分以外の非共通部分
を所定の規則に従って変形する第４のステップ、第４の
ステップで変形した結果を相互に比較し、変形部分が一
致するカタカナ文字列を検出する第５のステップ、およ
び第５のステップで検出した変形結果が一致するカタカ
ナ文字列の中で変形前のカタカナ表記が異なるものを表
記がゆれていると判定する第６のステップを備えてい
る。

【００１０】

【作用】請求項１または請求項４に係る発明において
は、選択手段で選択された各カタカナ文字列を変形する
前に、各カタカナ文字列の互いの共通部分を検出し、検
出された共通部分を除いた各カタカナ文字列の非共通部
分のみを所定の規則に従って変形することにより、変形
結果比較時におけるデータ量を削減するようにしてい
る。これによって、変形結果比較手段における比較回数
が低減され、短時間で比較が完了する。

【００１１】請求項２に係る発明においては、カタカナ
文字列一時記憶部で一時記憶している各カタカナ文字列
を類似しているもの同士いくつかの複数のグループに予
備分類しておき、分類されたグループ毎に複数のカタカ
ナ文字列を選択して変形・比較するようにしている。こ
れによって、抽出された全てのカタカナ文字列を総当た
りで比較する必要がなくなり、より一層比較時間が短縮
化される。

【００１２】請求項３に係る発明においては、選択手段
で選択された各カタカナ文字列がいずれも所定数以上の
文字を含む場合にのみ各カタカナ文字列の互いの共通部
分を検出し、非共通部分同士を変形・比較するようにし
ている。これは、文字長の短いカタカナ文字列について
は、それほど多くの変形結果が生じないため、共通部分
を削除するよりは、元のカタカナ文字列をそのまま変形
して比較するほうが全体としての処理効率が上がるから
である。

【００１３】

【実施例】以下本発明の一実施例の文字処理装置につい
て、図面を参照しながら説明する。

【００１４】図１は、本発明の一実施例の文字処理装置
の構成を示すブロック図である。図１において、中央処
理装置としてのＣＰＵ（セントラル・プロセッシング・
ユニット）１には、ＲＡＭ（ランダムアクセスメモリ）
２，プログラムメモリ３，ディスプレイ装置４，キーボ
ード５およびディスクドライバ６が接続されている。Ｃ
ＰＵ１は、プログラムメモリ３に固定的に記憶されたプ
ログラムに従って動作する。プログラムメモリ３として
は、ＲＯＭ（リードオンリメモリ）やハードディスク装
置等が用いられる。ＲＡＭ３は、ＣＰＵ１の作業用メモ
リとして用いられる。ディスプレイ装置４は、ＣＰＵ１
から表示データを受けて対応する画像を表示する。ディ
スプレイ装置４としては、ＣＲＴディスプレイや液晶デ
ィスプレイ等が用いられる。入力手段としてのキーボー
ドは、オペレータの操作に従って種々のデータをＣＰＵ
１に入力する。ディスクドライバ６は、フレキシブルデ
ィスク等の記録媒体（図示せず）に対するデータの書き
込みおよび読み出しを実行する。この記録媒体には、例
えばＣＰＵ１によって作成された文章データが書き込ま
れる。

【００１５】図２および図３は、図１に示す文字処理装
置の動作の内、本発明にとって特徴となる動作を抜き出
して示したフローチャートである。以下、これら図２お
よび図３を参照して、上記実施例の動作を説明する。
今、キーボード５またはディスクドライバ６から入力さ
れた文章データがＲＡＭ２に格納されているものとす
る。まず、ＣＰＵ１は、ＲＡＭ２に格納された文章デー
タ中からカタカナ文字列を抽出する（ステップＳ１）。
なお、抽出された各カタカナ文字列は、それぞれが１つ
の外来語に対応しているものとする。次に、ＣＰＵ１
は、ステップＳ１で抽出された各カタカナ文字列の文字
の並び方や長さ等から得られる特徴量をもとにして、各
カタカナ文字列を予備分類する（ステップＳ２）。これ
によって、各カタカナ文字列は、類似しているもの同士
がまとめられ、いくつかのグループに分類される。

【００１６】なお、上記予備分類の手法としては、種々
の方法が考えられる。第１の方法は、カタカナ文字列の
長さの差が予め定められた数値以下のものを１つのグル
ープにまとめる方法である。この第１の方法によって予
備分類された例を図４に示す。なお、図４におい
て、（）内の数字は、文字数を示す。第２の方法は、各
カタカナ文字列が予め定められた特定の文字を含むか否
かを判定し、同じ特定の文字を含むものを１つのグルー
プにまとめる方法である。この第２の方法によって予備
分類された例を図５に示す。第３の方法は、各カタカナ
文字列の文字の並び方の類似度を求め、類似度が近いも
のを１つのグループにまとめる方法である。すなわち、
同じカタカナ文字が同じ順序で出現する割合の高いもの
を１つのグループにまとめる。この第３の方法によって
予備分類された例を図６に示す。

【００１７】次に、ＣＰＵ１は、レジスタｋに予備分類
によって生じたグループ数を設定し（ステップＳ３）、
カウンタｉに“１”をセットする（ステップＳ４）。な
お、レジスタｋ，カウンタｉは、例えばＲＡＭ２の内部
またはＣＰＵ１の内部に設けられている。次に、ＣＰＵ
１は、ｉ番目のグループを選択し（ステップＳ５）、選
択されたグループに２以上のカタカナ文字列が含まれて
いるか否かを判断する（ステップＳ６）。選択されたグ
ループに含まれているカタカナ文字列の数が２未満の場
合、すなわち１の場合、そのグループについては表記の
ゆれを生じようがないので、直接ステップＳ７の動作に
進み、ＣＰＵ１はカウンタｉを１だけインクリメントす
る。これによって表記のゆれの判定処理対象が次のグル
ープに移される。その後、ＣＰＵ１は、カウンタｉのカ
ウント値がレジスタｋの設定値以下か否かを判断し（ス
テップＳ８）、ｉ≦ｋの場合はステップＳ５の動作に戻
る。一方、選択されたグループに２以上のカタカナ文字
列が含まれている場合、ＣＰＵ１は、選択されたグルー
プの中からカタカナ文字列の最初の組み合わせを選択す
る（ステップＳ９）。なお、本実施例では、２つのカタ
カナ文字列を１つの組として選択している。

【００１８】次に、ＣＰＵ１は、上記ステップＳ９で選
択された１組のカタカナ文字列（本実施例では２つのカ
タカナ文字列を含む）について、表記のゆれ判定処理を
実行する（ステップＳ１０）。このステップＳ１０のサ
ブルーチンの詳細は、図３に示されている。図３におい
て、ＣＰＵ１は、まず選択された２つのカタカナ文字列
がいずれも所定数以上の文字（例えば、１０文字）を含
むか否かを判断する（ステップＳ１０１）。選択された
２つのカタカナ文字列がいずれも所定数以上の文字を含
む場合、ＣＰＵ１は、各カタカナ文字列から「ー」や
「・」等のように意味に影響を与えない記号を削除する
（ステップＳ１０２）。次に、ＣＰＵ１は、２つのカタ
カナ文字列から共通部分を削除し、非共通部分カタカナ
文字列を作成する（ステップＳ１０３）。次に、ＣＰＵ
１は、予め定められた変形規則に従って、各非共通部分
カタカナ文字列を先頭の文字から順番に他の記号に置き
換える。この置換（変形）処理は、予め準備された変形
規則テーブル（図７参照）を参照して行われる。

【００１９】次に、ＣＰＵ１は、２つの非共通部分カタ
カナ文字列から作成された変形後の記号列を互いに比較
し、その中に一致する記号列があるか否かを判断する
（ステップＳ１０５）。一致する記号列が無い場合、Ｃ
ＰＵ１は、選択された組の２つのカタカナ文字列の間で
表記のゆれが生じていないと判定する（ステップＳ１０
６）。一方、一致する記号列が有る場合、ＣＰＵ１は、
元のカタカナ文字列同士を比較し、両者が異なるか否か
を判断する（ステップＳ１０７）。元のカタカナ文字列
同士が互いに一致する場合、ＣＰＵ１は、表記のゆれが
生じていないと判定する（ステップＳ１０６）。一方、
元のカタカナ文字列同士が異なる場合、ＣＰＵ１は、選
択された組の２つのカタカナ文字列の間で表記のゆれが
生じていると判定する（ステップＳ１０８）。上記ステ
ップＳ１０６，Ｓ１０８の判定処理の後、ＣＰＵ１は、
その判定結果をディスプレイ装置４に表示する。その
後、ＣＰＵ１は、図２のステップＳ１１の動作にリター
ンする。

【００２０】なお、前述のステップＳ１０１において、
２つのカタカナ文字列のいずれかまたは両方が所定数以
上の文字を含んでいないと判断された場合、ＣＰＵ１
は、ステップＳ１０２，Ｓ１０３の動作をスキップして
ステップＳ１０４の動作に進む。すなわち、この場合、
共通部分の検出および削除は行われない。これは、文字
長の短いカタカナ文字列については、それほど多くの変
形結果が生じないため、共通部分を検出して削除するよ
りは、元のカタカナ文字列をそのまま変換して比較する
ほうが、全体として処理の効率化が図れるからである。

【００２１】再び図２を参照して、ステップＳ１１でＣ
ＰＵ１は、前述のステップＳ５で選択されたグループ中
に次のカタカナ文字列の組み合わせが存在するか否かを
判断する。上記グループ中に次のカタカナ文字列の組み
合わせが存在する場合、ＣＰＵ１は、次のカタカナ文字
列の組み合わせを選択する（ステップＳ１２）。その
後、ステップＳ１０の動作に進み、選択された次のカタ
カナ文字列の組み合わせについて前述同様の表記のゆれ
判定処理を実行する。以後、同一グループ中の全てのカ
タカナ文字列の組み合わせについて（すなわち、総当た
りで）表記のゆれ判定処理が実行される。

【００２２】一方、ステップＳ１１で次のカタカナ文字
列の組み合わせが存在しない場合は、ステップＳ７に進
み、表記のゆれの判定処理対象が次のグループに移され
る。以後、各グループのカタカナ文字列について、上記
と同様の処理が繰り返される。

【００２３】以上説明したように、本実施例の文字処理
装置では、処理の対象となる２つのカタカナ文字列から
共通部分を検出して削除し、残された非共通部分カタカ
ナ文字列について変形を加え、変形後の結果を互いに比
較するようにしているので、元のカタカナ文字列をその
まま変形する場合に比べて変形結果の数が大幅に削減さ
れ、比較回数を低減できる。その結果、処理の効率化を
図ることができる。

【００２４】以上説明した本実施例の文字処理装置の動
作および効果をより一層明らかにするために、具体的な
事例を想定して本実施例の動作および効果を以下に具体
的に説明する。

【００２５】今、ＲＡＭ２には、以下に示すカタカナ文
字列を含む文章が記憶されているとする。

【００２６】システム・インテグレーションシステムインテグレーターシステムインテグレートまず、ＣＰＵ１は、上記のカタカナ文字列を抽出する
（ステップＳ１）。ＲＡＭ２は、抽出されたカタカナ文
字列をそれらの位置情報（開始位置）とともに以下のよ
うに一時記憶する。なお、［］内の数字は、各カタカナ
文字列に付された連番である。

【００２７】［１］システム・インテグレーション ○○文字目［２］システムインテグレーター △△文字目［３］システムインテグレート ××文字目次に、ＣＰＵ１は、上記カタカナ文字列の中から最初の
組み合わせ、例えば［１］と［２］のカタカナ文字列の
組み合わせを選択する（ステップＳ９）。次に、ＣＰＵ
１は、選択された各カタカナ文字列の長さを調べ（ステ
ップＳ１０１）、いずれも１０文字より長い場合、２つ
のカタカナ文字列から省略可能な文字「ー」、「・」を
除く（ステップＳ１０２）。［１］と［２］のカタカナ
文字列は、いずれも文字列長が１０文字より長いので、
「ー」、「・」を除く。すると、［１］は「システムイ
ンテグレション」になり、［２］は「システムインテグ
レタ」になる。

【００２８】次に、ＣＰＵ１は、「ー」、「・」が除か
れた２つのカタカナ文字列の共通部分を検出し、共通部
分を削除した非共通部分カタカナ文字列を作成する（ス
テップＳ１０３）。［１］と［２］の２つのカタカナ文
字列を比較すると、「システムインテグレ」が共通に出
現する。したがって、ＣＰＵ１は、［１］のカタカナ文
字列から「ション」を作成し、［２］のカタカナ文字列
から「タ」を作成する。ＲＡＭ２は、作成された非共通
部分カタカナ文字列を以下のように、一時記憶する。な
お、「」内は元のカタカナ文字列を示している。

【００２９】［１］ション「システム・インテグレーション」［２］タ「システムインテグレーター」次に、ＣＰＵ１は、ＲＡＭ２に一時記憶された各非共通
部分カタカナ文字列を、図７に示す変形規則テーブル
（例えば、ＲＡＭ２またはプログラムメモリ３に格納さ
れている）に従って他の記号に変形する（ステップＳ１
０４）。ＲＡＭ２は、その変形結果を変形前のカタカナ
文字列と対にして図９のように一時記憶する。なお、図
９において「」内は、変形前のカタカナ文字列を示して
いる。

【００３０】次に、ＣＰＵ１は、ＲＡＭ２に一時記憶さ
れた変形結果を比較して一致するものを検出する（ステ
ップＳ１０５）。この場合、［１］のカタカナ文字列に
ついて２個、［２］のカタカナ文字列について１個の変
形結果が得られ、比較回数は最大２回になる。すなわ
ち、２回の比較を行なうと一致するものが得られないこ
とがわかる。次に、ＣＰＵ１は、［１］と［２］のカタ
カナ文字列の変形結果には一致するものがないので、表
記のゆれが生じていないと判定する（ステップＳ１０
６）。

【００３１】一方、図１０に示す従来の文字処理装置で
は、図８に示すように、［１］のカタカナ文字列につい
て１６個、［２］のカタカナ文字列について８個、
［３］のカタカナ文字列について８個の変形結果が得ら
れるので、［１］と［２］のカタカナ文字列の比較に１
２８回、［１］と［３］のカタカナ文字列の比較に１２
８回、［２］と［３］のカタカナ文字列の比較に６４回
の繰り返し処理が必要となり比較に時間がかかる。

【００３２】以上のように、本実施例によれば、変形結
果を比較するのに従来は１２８回の比較が必要だったと
ころを、共通部分を検出し削除することによって２回の
比較で済むことになり、比較時間を大幅に短縮化でき
る。

【００３３】なお、上記実施例では、共通部分の抽出を
行なう条件として、カタカナ文字列の長さがあらかじめ
定められた値より大きい場合としたが、カタカナ文字列
に対する変形結果の数があらかじめ定められた値より大
きい場合を条件としてもよい。

【００３４】また、上記実施例では、予備分類された各
グループ別に表記のゆれ判定の処理対象となるカタカナ
文字列の組み合わせを選択するようにしたが、抽出され
た各カタカナ文字列の全てを総当たりで選択して表記の
ゆれを判定するようにしてもよい。さらに、オペレータ
によって指定されたカタカナ文字列について表記のゆれ
を判定するようにしてもよい。

【００３５】

【発明の効果】請求項１または請求項４に係る発明によ
れば、選択された各カタカナ文字列の互いの共通部分を
検出し、検出された共通部分を除いた非共通部分のみを
所定の規則に従って変形して比較するようにしているの
で、従来のように各カタカナ文字列をそのまま変形して
比較する場合に比べて変形結果の数が減少し、比較回数
を低減できる。その結果、短時間で比較処理を完了する
ことができる。

【００３６】請求項２に係る発明によれば、抽出された
各カタカナ文字列を類似しているもの同士いくつかの複
数のグループに予備分類しておき、分類されたグループ
毎に複数のカタカナ文字列を選択して変形・比較するよ
うにしているので、抽出された全てのカタカナ文字列を
総当たりで比較する必要がなくなり、より一層比較時間
を短縮化できる。

【００３７】請求項３に係る発明によれば、選択された
各カタカナ文字列がいずれも所定数以上の文字を含む場
合にのみ各カタカナ文字列の互いの共通部分を検出し、
非共通部分同士を変形・比較するようにしているので、
全体としての処理効率をより一層向上できる。なぜなら
ば、文字長の短いカタカナ文字列については、それほど
多くの変形結果が生じないため、共通部分を削除するよ
りは、元のカタカナ文字列をそのまま変形して比較する
ほうが全体としての処理効率が上がるからである。

【図面の簡単な説明】

【図１】本発明の一実施例の文字処理装置の構成を示す
ブロック図

【図２】図１の実施例の動作を示すフローチャート

【図３】図２のフローチャートにおけるサブルーチンス
テップＳ１０の詳細な動作を示すフローチャート

【図４】図１の実施例で実行される予備分類の第１の方
法による分類結果の例を示す図

【図５】図１の実施例で実行される予備分類の第２の方
法による分類結果の一例を示す図

【図６】図１の実施例で実行される予備分類の第３の方
法による分類結果の一例を示す図

【図７】図１の実施例でカタカナ文字列を変形する際に
用いられる変形規則テーブルの一例を示す図

【図８】従来の文字処理装置におけるカタカナ文字列の
変形結果の一例を示す図

【図９】図１の実施例におけるカタカナ文字列の変形結
果の一例を示す図

【図１０】従来の文字処理装置の構成を示すブロック図

【符号の説明】

１ＣＰＵ２ＲＡＭ３プログラムメモリ４ディスプレイ装置５キーボード６ディスクドライバ

Claims

【特許請求の範囲】

【請求項１】文章中に含まれるカタカナ文字列について
表記のゆれが生じているか否かを検出する文字処理装置
であって、前記文章中から抽出された各カタカナ文字列を一時記憶
するカタカナ文字列一時記憶手段、前記カタカナ文字列一時記憶手段で一時記憶している各
カタカナ文字列の中から複数のカタカナ文字列を選択す
る選択手段、前記選択手段で選択された各カタカナ文字列について、
互いの共通部分を検出する共通部分検出手段、前記選択手段で選択された各カタカナ文字列について、
前記共通部分検出手段で検出された共通部分以外の非共
通部分を所定の規則に従って変形するカタカナ文字列変
形手段、前記カタカナ文字列変形手段で変形した結果を相互に比
較し、変形部分が一致するカタカナ文字列を検出する変
形結果比較手段、および前記変形結果比較部で検出した
変形結果が一致するカタカナ文字列の中で変形前のカタ
カナ表記が異なるものを表記がゆれていると判定する表
記のゆれ判定手段を備えた、文字処理装置。
【請求項２】前記カタカナ文字列一時記憶部で一時記憶
している各カタカナ文字列を、類似しているもの同士い
くつかのグループに分類する予備分類手段をさらに備
え、前記選択手段は、前記予備分類手段で分類された各グル
ープ毎に前記複数のカタカナ文字列を選択する、請求項
１に記載の文字処理装置。
【請求項３】前記選択手段で選択された各カタカナ文字
列がいずれも所定数以上の文字を含むか否かを検出する
文字列長検出手段をさらに備え、前記共通部分検出手段は、前記選択手段で選択された各
カタカナ文字列がいずれも所定数以上の文字を含むこと
を前記文字列長検出手段が検出した場合にのみ各カタカ
ナ文字列の共通部分を検出する、請求項１に記載の文字
処理装置。
【請求項４】文章中に含まれる複数のカタカナ文字列に
ついて表記のゆれが生じているか否かを検出する文字処
理方法であって、前記文章中から抽出された各カタカナ文字列を一時記憶
する第１のステップ、前記第１のステップで一時記憶している各カタカナ文字
列の中から複数のカタカナ文字列を選択する第２のステ
ップ、前記第２のステップで選択された各カタカナ文字列につ
いて、互いの共通部分を検出する第３のステップ、前記第２のステップで選択された各カタカナ文字列につ
いて、前記第３のステップで検出された共通部分以外の
非共通部分を所定の規則に従って変形する第４のステッ
プ、前記第４のステップで変形した結果を相互に比較し、変
形部分が一致するカタカナ文字列を検出する第５のステ
ップ、および前記第５のステップで検出した変形結果が
一致するカタカナ文字列の中で変形前のカタカナ表記が
異なるものを表記がゆれていると判定する第６のステッ
プを備えた、文字処理方法。