JPH03116366A

JPH03116366A - 文字処理装置

Info

Publication number: JPH03116366A
Application number: JP1255491A
Authority: JP
Inventors: Eiichiro Toshima; 英一朗戸島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-09-29
Filing date: 1989-09-29
Publication date: 1991-05-17
Also published as: JPH0576065B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は仮名漢字変換により漢字仮名混り文を入力する
文字処理装置に関する。

［従来の技術］現在、日本ワードプロセッサなどの文字処理装置は漢字
仮名混り文の入力を仮名漢字変換を使って行なうことが
一般的である。

従来、仮名漢字変換用辞書は外部メモリ（フロッピーデ
ィスク、ハードディスク）に格納することが多かった。

ところが、−括変換等の変換方式面での改良が進むこと
により辞書アクセスの回数が増大し、また、そうでなく
ても、変換のスピードアップ要求が高まってきたことか
ら、辞書を高速アクセス可能な内部メモリに格納する方
式が主流となっている。

内部メモリには、読込／書込ともに可能で揮発性（電源
を切ると記憶内容が消えてしまう）のＲＡＭと、書込が
不可能であるが不揮発性（電源を切っても記憶内容が消
えない）のＲＯＭの２種類が一般に広く使用されている
。

辞書をＲＡＭに持つ場合、仮名漢字変換する前の準備と
して辞書を外部メモリからＲＡＭにロードすることにな
るが、ロード時間がかかるという欠点があり、更に、Ｒ
ＡＭの方がＲＯＭよりも高価であるためコストが高くな
るという欠点もある。このため、辞書はＲＯＭに記憶す
るのが一般的である。

また、最近は、仮名漢字変換の変換率に対する要求も高
度化しているため、辞書が大容量化する傾向がある。

このように辞書が大容量化されているため、個人個人に
とってみれば、絶対に使用しないと思われる単語が相当
多く辞書に記憶されていることになる。このような無駄
な単語は、単に無駄でメモリが勿体ないのは仕方がない
ことであるが、誤変換の原因ともなり、オペレータによ
っては存在しない方が有難い単語もある。

例えば、単語数が増えた結果、「神戸（こうべ）」とい
う姓が辞書に格納され、また、「功（こう）」という名
前も辞書に格納されたとする。そのような辞書でオペレ
ータが「神戸港」を変換しようとして「こうべこう」と
打鍵したとすると、仮名漢字変換には通常「姓十名前」
のパターンを優先して変換する処理が組み込まれている
ので、オペレータの意図に反し「神戸功」と変換する可
能性が高い。

このような場合、「功」を「港」に変更すれば、学習が
働き、次回から「神戸港」は正しく変換される。ところ
が、「神戸」という姓が辞書上に存在する限り、「神戸
布」のつもりが「神戸氏」になり、「神戸産」のつもり
が「神戸さん」になるなど、あちこちで誤変換が生じ、
操作性を阻害する。

そもそも、「神戸」という姓は普通の人にとっては馴染
の薄い姓であり、辞書から削除するという解決策が手間
がなく最も効果が高い。ところが、通常、辞書はＲＯＭ
上に存在するので、直接的に単語の削除を行なうことは
できない。

ＲＯＭ上の単語を削除する方法として、辞書ＲＯＭ上の
単語の存在アドレスを記憶し、変換時にその位置の単語
を無視し使用しないようにする方式、削除すべき単語の
読み、表記、品詞などの単語情報を記憶し、変換時にそ
れと一致する単語がＲＯＭ上の辞書に存在すれば、その
単語を無視し使用しないようにする方式、などが考えら
れる。

［発明が解決しようとしている問題点］しかし、上記の
単語情報を記憶する方式による単語の削除は、１単語削
除する度にかなりのメモリーを必要とするため、コスト
が高くなり、また、変換時に単語情報とマツチングを取
るのでは処理も複雑になり、変換時間も長くなるという
欠点がある。

また、アドレスを記憶する方式による単語の削除では、
削除単語辞書は、辞書の内容が更新された時に使用でき
なくなってしまう。そのため、複数の種類の機械を使用
するオペレータはその機械語とに削除単語辞書を作成し
なければならず、データ互換性の点で問題がある。

以上のようにどちらの方式を採用しても何らかの欠点が
ある。

［問題点を解決するための手段（及び作用）］本発明は
、ＲＯＭ上の辞書に存在する単語を削除するのに、削除
すべき単語の単語情報そのもの（読み、表記、品詞）と
辞書上に存在するアドレスの両方を記憶することにし、
変換時には単なるアドレスとのマツチングで単語の削除
を実現する。また、辞書の内容が更新された時は単語情
報そのものを記憶しているので、アドレス情報を再作成
することによりデータ互換性を実現する。上記により、
オペレータごとに変換率の高い仮名漢字変換を提供し、
ひいてはオペレータの候補選択の手間を軽減し、また、
互換性の高い削除単語辞書を実現するものである。

［実施例］以下図面を参照しながら本発明の詳細な説明する。

第１図は本発明の全体構成の一例である。

図示の構成において、ＣＰＵは、マイクロプロセッサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスＡＢ、コントロールバスＣＢ、データバスＤ
Ｂを介して、それらのバスに接続された各構成要素を制
御する。

アドレスバスＡＢはマイクロプロセッサＣＰＵの制御の
対象とする構成要素を指示するアドレス信号を転送する
。コントロールバスＣＢはマイクロプロセッサＣＰＵの
制御の対象とする各構成要素のコントロール信号を転送
して印加する。データバスＤＢは各構成機器相互間のデ
ータの転送を行なう。

つぎにＲＯＭは、読出し専用の固定メモリであり、第１
０図〜第１４図につき後述するマイクロプロセッサＣＰ
Ｕによる制御の手順、及び、仮名漢字変換用辞書ＤＩＣ
を記憶させておく。

また、ＲＡＭは、１ワード１６ビツトの構成の書込み可
能のランダムアクセスメモリであって、各構成要素から
の各種データの一時記憶に用いる。ＤＥＬＤは削除単語
辞書であり、辞書ＤＩＣから削除した単語を記憶する。

５ＷＴＢＬはサーチ単語テーブルであり、仮名漢字変換
中に必要な単語の存在位置を一時的に記憶するためのテ
ーブルである。

ＫＢはキーボードであって、アルファベットキひらがな
キー、カタカナキー等の文字記号入カキ−５及び、変換
キー、単語削除キー、実行キー等の本文字処理装置に対
する各種機能を指示するための各種のファンクションキ
ーな備えている。

ＤＩＳＫは文書データ、削除単語辞書ＤＥＬＤを記憶す
るための外部メモリである。文書、削除単語辞書ＤＥＬ
Ｄは必要に応じて保管され、また、保管されたデータは
キーボードの指示により必要な時呼び出される。

ＣＲはカーソルレジスタである。ＣＰＵにより、カーソ
ルレジスタの内容を読み書きできる。

後述するＣＲＴコントローラＣＲＴＣは、ここに蓄えら
れたアドレスに対応する表示装置ＣＲＴ上の位置にカー
ソルを表示する。

ＤＢＵＦは表示用バッファメモリで、表示すべきデータ
のパターンを蓄える。

ＣＲＴＣはカーソルレジスタＣＲ及びバッファＤＢＵＦ
に蓄えられた内容を表示器ＣＲＴに表示する役割を担う
。

またＣＲＴは陰極線管等を用いた表示装置であり、その
表示装置ＣＲＴにおけるドツト構成の表示パターンおよ
びカーソルの表示をＣＲＴコントローラで制御する。

さらに、ＣＧはキャラクタジェネレータであって、表示
装置ＣＲＴに表示する文字、記号のパターンを記憶する
ものである。

かかる各構成要素からなる本発明文字処理装置において
は、キーボードＫＢからの各種の入力に応じて作動する
ものであって、キーボードＫＢからの入力が供給される
と、まず、インクラブド信号がマイクロプロセッサＣＰ
Ｕに送られ、そのマイクロプロセッサＣＰＵがＲＯＭ内
に記憶しである各種の制御信号を読出し、それらの制御
信号に従って各種の制御が行なわれる。

第２図は本発明装置による変換操作の例を示した図であ
る。２−１はまず、読み列「こうべこう」を入力した時
の画面を示している。カーソルは入力読み列の次に表示
されている。ここで変換キーを打鍵すると２−２の画面
になる。２−２では読み列「こうべこう」が「神戸功」
と変換されている。これは望む変換ではないので、「神
戸」　（姓）を辞書から単語削除するという操作を行な
って、その後もう一度「こうべこう」と入力すると２−
３の画面になる。ここで変換キーを再度打鍵すると２−
４の画面になり、今度は正しく「神戸港」と変換されて
いる。

第３図は単語削除の操作を説明した図である。

３−１は初期画面を示しており、この状態で単語削除キ
ーを打鍵すると３−２の画面になる。３−２で単語削除
が起動され、削除単語の入力ウィンドウが表示されてい
る。ここで削除すべき単語の読み「こうべ」をオペレー
タが入力すると、ウィンドウ中に削除単語の読みが表示
され、３−３の画面になる。更に変換キーを打鍵すると
、「こうべ」が「神戸」に変換されてウィンドウ中に表
示され、３−４の画面となる。ここで実行キーを打鍵す
ると「神戸」の表記と読みが取り込まれ、品詞の入力ウ
ィンドウが開き、３−５の画面になる。ここで品詞「姓
」をオペレータが入力すると３−６の画面になる。ここ
で実行キーを打鍵すると、読み「こうべ」表記「神戸」
品詞「姓」の単語が辞書より削除され、終了メツセージ
が３−７に示すように表示される。

第４図は辞書ＤＩＣの構成を示した図である。

辞書はＲＯＭ上に存在する。従って、内容を変更するこ
とはできない。

辞書は先頭に「辞書バージョン」が格納される。これは
辞書の内容に変更があった時に更新されるようなデータ
であり、全（同じ内容を持つ辞書は同じ辞書バージョン
を持つ。後述するように削除単語のアドレス部を更新す
る必要があるかどうかはこの辞書バージョンで管理され
る。

辞書バージョンに引き続いて、単語データが格納される
。各単語データは「読み」　「表記」　「品詞」からな
る。

「読み」には単語の読み情報、例えば、「神戸」であれ
ば「こうべ」が記憶される。コードはＪＩＳ　Ｘ　０２
０８コードの下位バイトなどを使用し、１文字１バイト
で格納される。

「表記」には単語の表記情報、例えば、「神戸」であれ
ば、「神戸」という字面が１文字２バイトでＪＩＳ　Ｘ
　０２０８コード等を使用して格納される。

「品詞」は単語の品詞、例えば、「神戸」であれば、「
姓」　「地名」などが格納される。

第５図は辞書ＤＩＣに格納されるデータの例を示した図
である。図に示すように辞書の単語データが読みの昇順
（辞書式配列）で格納される。

第６図は削除単語辞書ＤＥＬＤの構成を示した図である
。

削除単語辞書は外部記憶に保存されている。電源立ち上
げ時に必要部分が外部メモリから読み込まれ、ＲＡＭに
ロードされる。

削除単語辞書は３つの部分に分かれる。

６−１は「辞書バージョン」を記憶する部分である。辞
書バージョンは削除単語辞書のアドレス部が作成された
時の辞書ＤＩＣの辞書バージョンがそのまま記憶される
。

６−２は実体部であり、第７図に詳述するように削除単
語の読み、表記、品詞が記憶される。

６−３はアドレス部であり、第８図に詳述するように削
除単語が辞書ＤＩＣ上のどこに存在するかを示すポイン
タを記憶する。

なお、ＲＡＭ上に常に存在するのは６−１の辞書バージ
ョンと６−３のアドレス部のみである。

６−２の実体部は普段は外部メモリにのみ存在する。ア
ドレス部を再作成する必要が生じた時に６−２の実体部
が外部メモリより一時的にＲＡＭにロードされる。それ
以外の状況では、実体部に相当するメモリは開放されて
おり、別の目的のために有効利用されている。

第７図は削除単語辞書実体部の詳細構成を示した図であ
る。

「読み」　「表記」　「品詞」の３つのフィールドから
なり、削除単語の読み、表記、品詞が記憶される。

削除単語は、通常、辞書ＤＩＣに存在するはずであり、
存在する時は辞書ＤＩＣ上の読み、表記、品詞がそのま
ま記憶されることになる。

図中では削除単語１は「神戸」　（姓）、削除単語２は
「内閣」　（名詞）となっている。

なお、削除単語として辞書ＤＩＣに存在しない単語が記
述されていても一向に差し支えない。存在しない削除単
語は単に無視されるだけである。

第８図は削除単語辞書アドレス部の詳細構成を示した図
である。

削除単語辞書アドレス部には削除単語実体部に格納され
ている削除単語−つ一つに対して、その単語が辞書ＤＩ
Ｃのどこに存在するかを記憶している。

削除単語辞書アドレス部は仮名漢字変換処理の高速化の
ために存在するデータであり、このデータがな（でも、
実体部と、辞書ＤＩＣとからいつでも再作成できる。

例えば、削除単語１は第７図によると「神戸」（姓）で
あるので、辞書ＤＩＣ上の「神戸」　（姓）の存在する
アドレスを第１エントリーとして格納する。同様に削除
単語２については「内閣」　（名詞）の存在するアドレ
スを第２エントリーとして格納する。

削除単語辞書アドレス部は、辞書ＤＩＣのバージョンに
依存するデータであり、作成された時の辞書ＤＩＣの辞
書バージョンが削除単語辞書の先頭に格納される。また
、辞書１０Ｇのバージョンが変更した時は、削除単語辞
書実体部のデータを参照して再作成される。

第９図はサーチ単語テーブル５ＷＴＢＬの構成を示した
図である。

サーチ単語テーブルは仮名漢字変換処理を行なう過程に
おいて、入力読み列の解析を行なうのに必要な単語が辞
書ＤＩＣのどこに存在するかを一時的に記憶したテーブ
ルである。

例えば、入力読み列が「こうべこう」であったときは、
その解析のために「こ」　「こう」　「こうべ」　「う
」　「うべ」　「べこ」　「こう」などの単語が必要で
あり、それらの単語の辞書ＤＩＣ上の存在位置がフィー
ルド「ポインタ」に記憶される。

上述の実施例の動作をフローに従って説明する。

第１０図はキー人力を取り込み、処理を行なう部分のフ
ローチャートである。

ステップ１０−１はアドレス作成処理であり、第１１図
に示すように削除単語辞書の初期設定を行なう。この処
理は通常、電源ＯＮ直後に１回だけ実行される。

ステップ１０−２はキーボードからのデータを取り込む
処理である。ステップ１０−３で取り込まれたキーの種
別を判定し、各キーの処理ルーチンに分岐する。

変換キーが入力されたときはステップ１ｏ−４に分岐し
、ステップ１０−４において第１２図に詳述するように
仮名漢字変換の変換処理が行なわれる。その後ステップ
１０−２に分岐する。

単語削除キーが入力されたときはステップ１０−５に分
岐し、ステップ１０−５において第１４図に詳述する単
語削除キー理が行なわれる。その後ステップ１０−２に
分岐する。

その他のキーのときはステップ１０−６に分岐し、挿入
、削除等の通常の文字処理装置において行なわれるその
他の処理が行なわれる。その後ステップ１０−２に分岐
する。

第１１図はステップ１０−１の「アドレス作成処理」を
詳細化したフローチャートである。

ステップ１１−１において削除単語辞書の「辞書バージ
ョン」　「アドレス部」を外部メモリからＲＡＭにロー
ドする。

ステップ１１−２において削除単語辞書の辞書バージョ
ンと辞書ＤＩＣの辞書バージョンを比較する。一致した
時はそのままリターンするが、致しない時は削除単語辞
書アドレス部を再作成する必要があるので、ステップ１
１−３に進む。

ステップ１１−３において、再作成のためにまずアドレ
ス部を初期化し、辞書ＤＩＣの辞書バージぢンを辞書バ
ージロンとして削除単語辞書に設定する。また、削除単
語辞書実体部を外部メモリからＲＡＭに読み込む。

ステップ１１−４において、削除単語を実体部から１単
語取り出す。

ステップ１１−５において全ての削除単語について処理
が終了したかどうか判定し、処理が終了している時はリ
ターンする。処理が終了していない時はステップ１１−
６の削除単語アドレス決定に進む。

ステップ１１−６において、取り出された削除単語と同
じものが辞書ＤＩＣ上のどこに存在するかサーチし、そ
のアドレスを求める。

ステップ１１−７において、上記求めたアドレスを削除
単語辞書アドレス部に設定する。

ついで、次の削除単語の処理を行なわないといけないの
でステップ１１−４に分岐する。

第１２図はステップ１０−４の「変換処理」を詳細化し
たフローチャートである。

ステップ１２−１において入力読み列の解析に必要な単
語をサーチ単語テーブル５ＷＴＢＬに登録するために第
１３に詳述する単語サーチ処理を行なう。

ステップ１２−２において、形態素解析、構文解析等を
行なって入力読み列を解析し、文節候補を作成する。

ステップ１２−３において、各文節候補の尤度を計算し
、どの文節を変換するのが最も尤もらしいかを判断し、
第１候補として決定する。

ステップ１２−４において、決定された第１候補に基づ
いて変換結果を作成し、出力する。

第１３図はステップ１２−１の「単語サーチ処理」を詳
細化したフローチャートである。

ステップ１３−１において、辞書ＤＩＣより入力読み列
の解析に必要な単語の読み（サーチすべき読み）を１つ
決定する。

ステップ１３−２においてサーチすべき読みがな（なっ
たかどうか判定し、なくなった時はリターンする。

ステップ１３−３においてサーチすべき読みについて実
際に辞書ＤＩＣをサーチし、アドレスを求める。

ステップ１３−４において見つかったアドレスが削除単
語辞書アドレス部に記載されているかどうかを判定する
ため削除単語辞書アドレス部をサーチする。

ステップ１３−５において一致するアドレスがあったか
どうか判定し、もし、存在すれば、その単語は削除され
たと見なされるから、そのまま、ステップ１３−１に分
岐し、次のサーチ読みの処理に移る。存在しない時はそ
の単語は削除されていないからステップ１３−６に進み
、サーチ単語テーブルにそのアドレスを登録する。

第１４図はステップ１０−５の「単語削除処理」を詳細
化したフローチャートである。

ステップ１４−１において、画面上に単語削除のための
表記入力のウィンドウを表示する。

ステップ１４−２において、削除単語の表記をオペレー
タから受付ける処理を行なう。オペレータが人力した読
み、選択した表記は内部メモリに一時的に取り込まれる
。オペレータが表記を入力し、実行キーを打鍵した時に
ステップ１４−３に移ることになる。

ステップ１４−３において、品詞入力のウィンドウが表
示される。ここでオペレータの入力する品詞が内部メモ
リに取り込まれることになる。オペレータが品詞を入力
し、実行キーを打鍵すると次のステップ１４−４に移る
。

ステップ１４−４において、これまでの処理の結果得ら
れた読み、表記、品詞を削除単語データ実体部に登録す
る。実体部は通常ＲＡＭ上に存在しないから外部メモリ
から読み込まれ登録されることになる。

ステップ１４−５において、今削除された単語の辞書Ｄ
ＩＣ上でのアドレスを求める。

ステップ１４−６において、求められたアドレスを削除
単語データアドレスにも登録する。

ステップ１４−７において単語削除の終了処理を行なう
。すなわち、削除単語辞書全体を外部メモリに保存し、
ＲＡＭ上にある実体部の領域を開放し、終了メツセージ
をウィンドウ上に表示する。適当なタイミングでウィン
ドウを消去してからリターンする。

【他の実施例］以上の説明において、辞書の格納されるメモリとしてＲ
ＯＭの場合を説明したが、書込不可なメモリであれば事
情は全て同じであり、本発明を適用可能である。例えば
、光ディスク、ＣＤＲＯＭなどであっても、書込ができ
ないため直接単語を削除することはできないが、本発明
の原理で削除することはできる。

また、削除単語辞書の持ち方としてアドレスを持つよう
にしたが、アドレス以外であっても辞書のバージョンに
依存するような持ち方であれば、やはり事情が同じであ
るので、本発明を適用できる。例えば、辞書の先頭から
の単語の連番で記憶するようにしても同様の構成で処理
することができる。

また、削除単語辞書の持ち方として単語の読み、表記、
品詞を持つようにしたが、他にも記憶すべき単語情報が
あれば、記憶する必要があり、また、マツチングに関係
のない情報であれば、記憶を省略することができる。例
えば、辞書中に、頻度が異なり、読み、表記、品詞が一
致する単語が存在するなら、頻度も削除単語辞書に記憶
する必要がある。ところが、読み、表記、品詞が一致し
、頻度のみ異なる単語が存在しないのであれば、無理を
して頻度を削除単語辞書に記憶する必要はない。

［発明の効果］以上の説明から明らかなように本発明によれば、仮名漢
字変換用辞書が書込不可なメモリ、例えば、ＲＯＭに存
在しても、削除すべき単語の辞書存在アドレスとその読
み、表記及び品詞などの単語情報の両方を記憶すること
により、辞書のバージョンに依存しないデータ互換性の
高い削除単語辞書を実現し、なおかつ変換時間にも負担
を欠けることがないので、単語削除したいオペレータに
とって使い易い文字処理装置を実現することができる。

【図面の簡単な説明】

第１図は本発明の全体構成のブロック図、第２図は本発
明における仮名漢字変換の操作例を示した図、第３図は本発明における単語削除の操作の例を示した図
、５ＷＴＢＬ　　・・・サーチ単語テーブル第４図は本発
明における辞書ＤＩＣの構成を示した図、第５図は本発明における辞書ＤＩＣに格納される単語の
例を示した図、第６図は本発明における削除単語辞書の全体構成を示し
た図、第７図は本発明における削除単語辞書実体部の構成を示
した図、第８図は本発明における削除単語辞書アドレス部の構成
を示した図、第９図は本発明におけるサーチ単語テーブルの構成を示
した図、第１０図〜第１４図は本発明文字処理装置の動作を示す
フローチャート。ＤＩＳＫ　　　・・・外部メモリＣＰＵ　　　　・・・マイクロプロセッサＲＯＭ　　　
　・・・読出し専用メモリＲＡＭ　　　　・・・ランダ
ムアクセスメモリＤＩＣ・・・仮名漢字変換用辞書ＤＥＬＤ　　　・・・削除単語辞書束２図 ↓ 変換キー ↓ 「神戸」（姓）を削除してから入力 ↓ 変換キー ↓ 単語削除キー ↓ 「こうべ」 ↓ 変換キー ↓ 実行キー ↓ 「姓」 ↓ 実行キー読み表記品詞ＩＣ殆１０図

Claims

【特許請求の範囲】１、単語の読みを入力する入力手段と、単語を読みと表記と品詞を対応させ記憶した辞書と、前記辞書を参照することにより、前記入力手段により入
力された読み列を表記に変換する変換手段と、前記辞書上に記憶されている単語のうち無効であるもの
のポインタと単語の読み、表記及び品詞などの単語情報
を記憶した削除単語辞書と、前記削除単語辞書に削除したい単語を登録する単語削除
手段とを具備し、前記変換手段は削除単語辞書に登録さ
れた単語を表記に変換しないことを特徴とする文字処理
装置。