JPS5882368A

JPS5882368A - カナ漢字変換処理方式

Info

Publication number: JPS5882368A
Application number: JP56180581A
Authority: JP
Inventors: Hirokawa Hayashi; 林　大川; Yoshitoshi Yamauchi; 佐敏山内
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1981-11-11
Filing date: 1981-11-11
Publication date: 1983-05-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は邦文ワードプロセッサ等におけるカナ漢字変換
処理方式に関し、特に文節区切り情報を与えるカナ漢字
変換処理方式における変換の正答率に向上させ、文書作
成作業の処理速度全向上させ得るカナ漢字変換処理方式
に関する。

カナ漢字変換（以下、単に「変換」ともいう。）処理方
式Ｖて関しては従来から種々の方式が提案されて来た。

例えば１−Ｎ　ＨＫ技術研究」第２５巻第５号（１９７
３）ＦＣは、分かち書き単位で入力される入力文の文法
的なチェックを行うことにより同音異字語（以下、［同
音語−１という。）？減する処理を行った後、防用頻度
の一番高いものを出力する方式が開示されている。この
方式においては、入力文？構成する全ての文節（分かち
書き単位）中の自立語間に意味距離全定義し、同音語が
複数個存在する場合には、人力文節の各語間の前記意味
距離か最小となる語を変換の最有力４１もぐ１１とする
ことか揖案されている。

しかしなから、上記方式による場合ｔｒｃは、入力文全
体で同音語’１４１１別を行うことにならざる７得ない
ので、処理時間か長くなるばかりでなく、最初の変換結
果が得られるまでに比較的長時間荷たされるという問題
があった。

本発明は上Ａ１・、事情に稀みてなされたもので、その
目的とするとこ乙は、従来のカナ漢字変換処理方式にお
けるト述の如き問題を解消し、処理時間を短縮し、オペ
レータに負相をかけず一意に決定可能なカナ漢字変換処
理方式全提供することにある。

本発明の上記目的Ｌｌ、入力文を、自立語を中心とする
分かち書き単位に分解して仮名文字で人力し、これに対
応する漢字カナ混じり文を逐次得るカナ漢字変換処理方
式において、前記分かち書き単位ごとに決定された語の
青味情報を澄録し、引き続き入力された分かち書き単位
に対応する複数の同音語が発生した場合に、Ｗｉｔ記廟
味情報によって決定される使先順位に従って前記複数の
同音語の中から対応する漢字全出力し変換することを特
徴とするカナ漢字変換処理方式によって達成される。

以下、本発明の実施例全図面に基づいてＷｅ細に説明す
る。

第１図は本発明の一実施例であるカナ漢字変換処理のブ
ロック図である。

第１図において、■は入力前処理部、２は単語抽出部、
３は同音語判別部、４は出力制向Ｉ　Ｍ、そしてδは変
換制御部である。

日本語文か仮名文で入力されると、以下の如き処理を経
て漢字カナ混、しり文として出力される。

入力前処理部１は、入力仮名文中の英数字２文節区切り
情報等を認識して変換対象となる仮名文字列全抽出し、
変＊　ｋ＋御部すの制御の下に単語抽出部２に、変換単
位どなる仮名文字列を沖す。単語抽出部２は前言ビ仮冬
文字列から、カナ全見出しとする単語辞書および該単語
辞書に付加さねている語の品詞情報９品胴′別の接続情
報を納めた辞書等を参照し、前記仮名文字列と辞書見出
しとの一致を試み、文法的に許容される単語列の酔補全
抽出する。同音語判別部３は、上記単語列の候補が複数
個存在する場合に、これらの候補から後述の判別方法に
従って最不力単語列全決定し、出力制御部４．　Ｋより
漢字カナ混じり文として出力する。

以下、同音語判別部法について詳細にｄ分明する。

第２図は同音語判別のステップを示すものであり、（１
）は逐次決定型単線意味順位付はステップ、（２）は頻
咽順位付はステップ、（３）は選択最有力候補の特定ス
テップである。

（１）逐次決定型音吐順位付はステップは、各文節の抽
出同音候補それぞれの１文節意味Ｗ離１を計算しくこの
詳細については後述する。）、意味順位付けを行う。計
算した１文節意味距離」の最小値を有する候補が最有力
候補として特定される。世し、複数個の候補が最小値と
なった場合は特定されない。

ｅ）頻度順位付はステップは、各文節の抽出同音候補そ
れぞれの自立語の冶する「頻度値」の高い順ｒ（並べ換
えを行い、「頻度値」の最高のものを最有力候補として
特定する。「頻度値ｉが最高値を示すものが初数個ある
ときは、これらの並びの初めのもの全選択する。

（Ｓ）ｉ択最有力候補の特定ステップは、０１ｊ記逐次
決定型意味順位付はステップａ）で最有力候補が特定さ
れた場合はその候補を、該ステップ（１）で特定されな
かった場合は、前記頻度順位付はステップ（２）で特定
された候Ｍｋ、Ｎ択された最有力候補として決定する。

ここで、１文節意味距離」について説明する。

文節意味罪離全計算する基になる「青味コード」は、頻
度順位付けを行うための［頻度（偵−１とともに文節中
の自立語情報に含まねている。

「意味コード」は、単語（自立語）を意味によって分創
し、例えは次の５個の大項目カテゴリーに割り当て、こ
れに１〜５の［意味コード−１全対応させる。

■抽象的関係（人ｌＶｔ１や自然のあり方の砕細み）（
例）　これ、恋仲、ＬＰｌ現、人相、・・・■人間活動
の主体（例）　私、友人、技師、」察、・・・■人間活動−精
神および行為（例）　失神、言語、流行、脱税、・・・■生産物およ
び用具（例）　代用品、部、米、銃、・・・ ■自然物および自然現象（例）　光、石油、風土、身体、・・・第３図は入力文
例としてコンゲラ、ダイ５カイ　ナオオモリナ　チクランドウ力
イガ　カイサイサレマス。

という仮名文を想定した場合の、各文節を構成する語Ｖ
Ｃついての読み、対応漢字１品詞名、育味コード、頻度
値等を示ず分析結果ｌ・示す図である。

第３図中の１意味コード」欄には子連の如くして決めら
れた意味コードが、「頻度値」欄には規格化された使用
頻度がそれぞれ示されている。

第４図は意味コード間の距離の法定方法の一例？示す図
であり、ト述の６語の意＋１４にコードから、文節意味
距離か脅出される。

文節意味距離は次の、Ｌうに定義されるものである。−
文の連続した各文節を１，２．δ、・・・とじ、各文節
の財に決定した意味コードをＸ、　、Ｘ３．Ｘ８゜・・
・とすれば、第ｎ文節の文節意味距離ＴＪ　（ｎ）は、
Ｌ　（ｎ）−Σ　７　（Ｘ□、孔）　　　　・・・（１
）１＝１で表わされる。ここでＸ　は第ｎ文ＭＪの決定されてい
ない複数個の候補の中の任意の１つの候補の意味コード
、ｌ（Ｘ□、ｘｎ）は意味コードｘ１とＸ。

間の距離であり、ｎ＞１とする。なお、［−記ｘｉは各
文節で特定された候補の漬昧コードか与えられるものと
する。

次に、文節意味距離音用いる逐次決定型意味処理の具体
例を示す。ここでは、例として、チ給４ガ　ウゴイテイ
ルトイウコトハ　イマデハダレデモ　ウタガウ　ヒトハ
　ナイ。

という仮名文を考える。この文の変換後の状況は次の通
りである。

上記変換後の文中に含まれる語の意味コードは次の通り
である。

地球−■、動く−■、居間−■、今一■、だれるー■、
誰−■、疑−う−■、−−■９人−■。

費途＝■、ない−■ 第３文節の決定は、それぞれ−意なので既に決定された
第１．第２文節を基に、＠記（１）式を用いて、　（居
間）　ｒ、、３、＝ｔ　　（５，４）　＋ｌ　（１，４
）＝２＋３＝、５（今）　Ｌ、、　＝　ｔ　（５，１）　十／　（１，１
）−２＋１＝３より、Ｌ８□＞　ｌ１８２であるからＬ８２（今では）
全最有力候補と決定する。

第４文節は上記第３文節の結果を使って、（たわる）Ｉ
ＩＪ４□−ｔ　（５，３）＋ｔ　（１，、３）　＋ｔ　
（］、、　３）−δ＋３−１−Ｑ（誰）ｒ、４２＝ｔ　（，５，２）十ｌ（］−１２）＋
ｔ　（１，２）−３＋２＋２＝７よりり、、：＞　Ｌ、２’ｔ−あルカらＬ４２（Ｗｉｔ
ｋｃモ）＝ｒａ［する。

また、頻度値については、ＦｌｆＪ述の如く自立語辞書
に２桁に昶１格化された形で登録されているか、これを
用いる処理の例を次に示す。

例文としては先の例と同じを用いる。６語の頻度値は次の通りである。

地球−９９、−助く−９９、居間−〇９、今一５６、だ
れるーＯＯ１誰−９９、鼾う−９９、−一１４、人−８
４、費徐−〇〇、ない−９９第３文節の頻度値は（居間）〈（今）で「今では」を採
用し、第牛文簡の頻度値は（だれる）〈（誰）で「誰で
も」を採用する。これらの結果は酌記逐次決定型意味処
理の結果と一致している。

意１４ｅコード間の距離の決定方法は第４図に示したも
のによ１）なくても良いことに注意する必要がある。

以Ｆ述べた如く、本発明によれば、入力文を、自立語を
中心とする分かち書き単位に分解して仮名文字で入力し
、これに対応する漢字カナ混じり文を逐次ａ−得るカナ
漢字変換処理方式において、前記分かち書き単位ごとＯ
ζ決定された語の意味情報全登録し、引き続き入力され
た分かち高き単位に対応する複数の同音語が発生し４た
場合に、前記意味情報によって決定される優生順位に従
って前記複数の同音語の中から対応する漢字全出力し変
換するようにしたので、処理速度か速く、オペレ−夕に
負相全かけずに一意に決定可能なカナ漢字変換処理方式
全実現できるという顕著な効果を奏するものである。

また、本発明の変換方式に頻度情報による順位付けを糾
合わせること心でより、変換の正答率をより一層向上さ
せることが可能である。

【図面の簡単な説明】

第１図は本発明の一実施例であるカナ漢字変換処理のブ
ロック図、第２図は同音語判別のステップを示す図、第
３図は入力文の分析結果の一例全示す図、第４図は意味
コード間の距離の決定方法の一例全示す図である。１：入力前処理部、２：単語抽出部、３：同音語判別部
、４＝出力制御部、５：変換制御部、（１）〜（３）ニ
ステップ。 −て（１１）第２図 −」］］］］Ｄ５６２− コ１）鰺）ジ３）

Claims

【特許請求の範囲】

入力文全、自立ｆｇ　ｆ中心とする分がち書き単位に分
解して仮名文字で入力し、これに対応する漢字カナ混じ
り文全達次得るカナ漢字変換処理方式において、前記分
かち書き単位ごとに決定された語の意味情報を登録し、
引き続き入力された分かち鳴き単位に対応する複数の同
音語が発生した場合に、既に入力された分かち書き単位
の前記意味情報によって決定される優先順位に従って、
前記複数の同音語の中から対応する漢字全出力し変換す
ることを特徴とするカナ漢字変換処理方式。