JPS59197929A

JPS59197929A - カナ漢字変換処理装置

Info

Publication number: JPS59197929A
Application number: JP58072533A
Authority: JP
Inventors: Katsuhiko Fujita; 克彦藤田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1983-04-25
Filing date: 1983-04-25
Publication date: 1984-11-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は邦文ワードプロセッサ等に用いられるカナ漢字
変換処理装置に関し、特に入力文書固有の情報を有効に
利用して、変換効率を向上可能としたカナ漢字変換処理
装置に関する。

従来技術従来一般に知られているカナ漢字変換処理装置において
は、辞書検索によって得られた単語に対して接続性の検
定を行い、接続か確認された単語をスタック中に貯えて
おき、該スタック中の各々　　　−の単語について読み
の長さおよび使用頻度等に基づく最尤評価を行って最尤
単語を決定している。

しかしながら、上述の如きカナ漢字変換処理装置は、入
力文書の有する特別な性質、例えば、現在処理中の文書
において、現在処理対象としている個所以前で抽出され
た単語についての情報を積極的に利用しているとは言い
がたく、このため同一の入力文字列に対しては、略同−
の解析を繰り返すことになるという問題があった。これ
について、以下、例を挙げて詳細に説明する。

同−文書内で特定の語が繰り返し利用されることがある
ことは周知の事実である。そのような例として、次の文
を考えてみる。

例）「新技術が望まれる。新技術開発のため・・・（以
下略）」上記例文をカナ漢字変換によって得ようとする場合、従
来のいわゆる最長一致法では、「シンギジュツが・・−
・・・」について辞書検索を行い、通常最長の単語とし
て「真偽」という語を得る。もちろん、「新技術」とい
う単語を辞書中に用意しておくことも可能であるが、接
辞と自立語（語基）とのすべての可能な組合わせを登録
しておくことは辞書容量の点で現実的ではない。

そこで、ここでは「真偽」という語が得られたものとし
て後続する「ジュラがノゾ・・・」という文字列につい
て検索を行い、「術」という接辞を見つけるが、「真偽
」と「術」とは接続できないので失敗する。

このため、バックトラック機構に、より、「シンギジュ
ツか−・」について再度辞書検索を行い、接頭辞「新」
を得る。後続文字列についての辞書検索から「技術」を
見出し、「新」と「技術」とが接続可能であることから
、ようやく目的とする変換結果が一得られる。

また、読み長と使用頻度を用いて最尤評価を行う方式で
は、次のようになる。まず、先頭から辞書検索を行い候
補スタックに「真偽」、「新」等を貯える。これについ
て読み長と使用頻度に基づく評価を行う。この場合、「
真偽」の方が高い評価を得たと仮定すると、結果として
は上述の最長一致法を用いた場合と同様の処理を行うこ
とになる。

前記例文においては、次の文中にも「新技術」という語
が現われるが、このとき、上述のどちらの方法を用いる
場合にも、最初の「シンギジュツ」の解析と略同様の解
析過程をたどることは明らかであろう。最尤評価では「
新」の使用頻度が１だけ増しているゆれども、必らず「
新」が選択されるという保証はない。

同じ語の出現ごとに上述の如く略同様の解析過程を繰り
返すことは、処理時間を増大させることになり、時間コ
ストの明らかな無駄であると言える。また、オペレータ
にとっても疲労を増すことになるという点で、解消が切
望される問題となっていた。

目　　　的本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来のカナ漢字変換処理装置における上
述の如き問題を解消し、入力文書固有の情報を有効に利
用して、変換効率の向上を可能としたカナ漢字変換処理
装置を提供することにある。

構成本発明の構成を以下一実施例について説明する。

第１図は本発明の一実施例であるカナ漢字変換処理装置
のブロック図である。図において、１は入力部、２は単
語辞書、養は辞書検索部、５は接続判定部、０は候補ス
タック、７は評価部を示している。また、８は評価部ス
タック、９は最適単語決定部、１０は決定語キュー、１
１は登録判定部そして３は主記憶上に設けられた文書内
偵用単語メモリである。

入力部１は例えば、日本語文をカナ文字、ローマ字等で
入力するためのキーボードであり、辞書検索部会は入力
部ｌからの信号に基づき単語辞書２、文書内偵用単語メ
モリ３をサーチして、入力文字列に対応する表記を出力
する機能を有するものである。接続判定部５は上記辞書
検索部会により検索された上記表記を有する単語と該単
語に対応する既に検索済みの単語との文法的接続の可否
を判定する機能を有するものであり、評価部７は、上記
接続判定部５により接続が確認された単語について予め
定めた評価基準に基づいて評価を行う機能を有するもの
である。また、最適単語決定部９は評価部７での上記評
価値をもとに、最大の評価値を与えられた語すなわち最
適単語の決定を行う機能を有するものであり、登録判定
部１１は上記最適単語として決定された単語について、
接辞の合成処理等を行った上で前記文書内使用メモリ３
に登録する機能を有するものである。なお、候補スタッ
ク６は接続判定部５において接続可と判定された単語を
順次収納するスタック、評価部スタック８は評価部７に
よる評価を受けた単語をその評価値とともに収納するス
タック、決定語キュー１０は最適単語決定部９によって
最適単語として決定された単語を収納するキューメモリ
である。

上述の如く構成された本実施例の動作を以下説明する。

入力部１から入力されたカナ文字列は、単語辞書２およ
び前記文書的使用単語メモリ３を用いて、辞書検索部養
により検索される。検索によって見出された単語は接続
判定部５において直前の単語または複合単語（以下、単
に「単語」という）との文法的接続判定を施され、接続
可のものだけが候補スタック６に貯えられる。ただし、
この際、前記文書内使用メモリ３の中から見出された単
語については特別なフラグを立てておくものとする。

辞書検索が終了した後、上記候補スタック６中の単語は
１語ずつ評価部７において評価を受け、評価値を与えら
れ、その評価値とともに評価部スタック８へ送られる。

この場合の評価値ｆｗの一例を次に示す。

ｆＷ＝Ｌｗ＋Ｃｗここで、ＬＷは単語の読み長（自然数）、ＣＷＩｔ工単
語が文書内使用単語メモＩＪ　３から見出されたものの
場合２、そうでない場合０という値をとる２値変数であ
る。すなわち、文書内偵用単語メモリδ中の単語は、そ
れ自身より読みで２字長い単語と同じ評価を受けること
になる。

評価づゆがｉ了した段階で、各単語の評価値をもとにし
て、そのうちで最大の評価値を与えられた単語、すなわ
ちぎ適単語の決定が最適単語決定部で行われる。決定さ
れた単語は決定語キュー１０に貯えられる。ここでは、
上記決定語キュー１０中に、自立語が３語以上貯えられ
たとき、または句読点が現われたときに、その中で一番
早く決定された自立語までの単語あるいは上記句読点の
前までの単語について、登録判定部１１１ｃおいテ次の
如き判定および処理を行う。

決定語キュー１０から読み出されたものが接頭辞であれ
ば、一旦それを接頭辞スタックに貯わえ、後続の自立語
との合成処理を行った後、文書的使用単語メモリ３に、
その読み２表記２品詞の情報を組にして送る。決定語キ
ュー１ｏから読み出されたものが自立語である場合には
、その前に接頭辞が存在しているかどうか、接頭辞スタ
ックを調べ、接頭辞がなければ、そのまま文書的使用単
語メモリ３へ送る。接頭辞があればその接頭辞と合成処
理を施したものを文書的使用単語メモリ３に送ると同時
に、接頭辞のつかない形のままの単語も文書的使用単語
メモリ３に送る。なお、付属語および接尾辞は文書的使
用単語メモリ３には収納しない。

文書的使用単語メモリ３は一定数の語を収納可能になっ
ており、容量が一杯になった場合には、例えば最初に登
録した単語を排除する如く構成されている。なお、上記
一定数は、例えば５０とすると良い。

先に挙げた例文「新技術が望まれる。新技術開発のため
・−・−・・（以下略）」を扱う場合は次のようになる
。

最初の「シンギジュツが・・・」の検索については、最
長一致法と同様の解析が行われる。文書的使用単語メモ
リ３には、まだ単語が登録されていないため、最長語で
ある「真偽」が決定語キュー１０に入る。続いて、「術
」という接尾辞が見出されるが、接続判定部５で接続不
可と判定されるので解析は失敗する。ここで、バックト
ラック機構がはたらき、「真偽」を決定語から外して解
析を再開することにより、「新」が決定語キュー１０に
入ることになる。その直後の辞書検索および評価によっ
て最長の「技術」が決定語キュー１０に入る。

上述の如く解析を繰り返すことにより、最初の文「新技
術が望まれる。」の処理が終了した段階では、決定語キ
ュー１０の内容は第２図に示すようになっている。この
時点で、それ以前に決定語キュー１０中にあるすべての
単語について登録判定が行われる。

前述の判定手順に従い、接頭辞「新」は一旦接頭辞スタ
ックに収められ、後続する自立語「技術」と合成されて
「新技術］として文書的使用単語メモリ３に送られる。

「技術」はそのままの形でも文書的使用単語メモリ３に
送られる。「望まし」はそのまま送られる。

これにより次の文の処理に入る時点においては、文書内
偵用単語メモリ３内に、「新技術」、「技術」、「望ま
し」の３語が登録されていることになる。そこで、次の
「シンギジュッヵイハッ・・・」という入力に対して、
文書的使用単語メモリ３から「新技術」が検索によって
見出され、単語辞書２から見出された「真偽」、「新」
等とともに候補スタック６に入る。

次に評価が行われるが、それぞれの語の評価値は新技術・−・・・・・・−８（読み長６＋２）真偽・・
・・・−・−・・・・３（読み長３）新・・・・・・・
−・・・・・・・２（読み長２・）のようになり、「新
技術」が最も高い評価値を得て、最適単語に決定される
ことになり、正しい変換結果を得ることができる。

上記実施例においては、辞書検索部生は単語辞書２と文
書的使用単語メモリ３とを参照していたが、これは文書
的使用単語メモリ３を優先して検索し、マツチするもの
があれば、単語辞書２の検索を行わずに、上記文書内使
用メモリ３から見出した語を即、決定語キュー１０に入
れるようにすることも可能であり、この場合には処理速
度を更に向上させることができるとい５効来がある。

また、前記評価式には単語の使用頻度を加えても良いこ
とは言うまでもない。この場合には、最尤評価法と文書
内使用語優先法の効果を併せ持つことになる。

更に、漢字単語を２個直接接続した複合語（例えば、「
技術開発」）ｌｌＣついても、最初の漢字単語を接頭辞
と同様に扱うことにより、上記文書的使用単語メモリ３
に登録できるようになり、処理速度を向上させることが
可能である。

効果以上述べた如く、本発明によれば、入力文書固有の情報
を有効に利用することができるので、変換効率を向上さ
せたカナ漢字変換処理装置を実現できるという効果が得
られる。

【図面の簡単な説明】

８１図は本発明の一実施例を示すブロック図、第２図は
決定語キューの内容の一例を示す図である。ｌ：入力部、２：単語辞書、３：文書的使用単語メモリ
、４：辞書検索部、５：接続判定部、６：候補スタック
、７２評価部、８：評価法スタック、９：最適単語決定
部、１０：決定語キュー、１１：登録判定部。 −１（第１図第　　　２　　　図品

Claims

【特許請求の範囲】

少なくとも読みとそれに対応する表記の情報を有する単
語辞書記憶手段と、入力された文字列の先頭から任意の
長さの文字列と整合する読みを有する単語を前記単語辞
書記憶手段から検索する検索手段と、該検索手段により
検索された単語と該単語に対応する入力文字列の直前に
ある入力文字列に対応する既に検索済みの単語との文法
的接続の可否を判定する接続判定手段と、該接続判定手
段により接続が確認された単語を保持するスタックと、
該スタック中の各単語について予め定めた評価基準に基
づいて評価を行う単語評価手段と、入力文字列から前記
単語評価手段によって得られた最適単語を一定数保持す
る文書内偵用単語メモリとを有することを特徴とするカ
ナ漢字変換処理装置。