JPS59197929A - カナ漢字変換処理装置 - Google Patents

カナ漢字変換処理装置

Info

Publication number
JPS59197929A
JPS59197929A JP58072533A JP7253383A JPS59197929A JP S59197929 A JPS59197929 A JP S59197929A JP 58072533 A JP58072533 A JP 58072533A JP 7253383 A JP7253383 A JP 7253383A JP S59197929 A JPS59197929 A JP S59197929A
Authority
JP
Japan
Prior art keywords
word
words
character string
evaluation
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58072533A
Other languages
English (en)
Inventor
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58072533A priority Critical patent/JPS59197929A/ja
Publication of JPS59197929A publication Critical patent/JPS59197929A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は邦文ワードプロセッサ等に用いられるカナ漢字
変換処理装置に関し、特に入力文書固有の情報を有効に
利用して、変換効率を向上可能としたカナ漢字変換処理
装置に関する。
従来技術 従来一般に知られているカナ漢字変換処理装置において
は、辞書検索によって得られた単語に対して接続性の検
定を行い、接続か確認された単語をスタック中に貯えて
おき、該スタック中の各々   −の単語について読み
の長さおよび使用頻度等に基づく最尤評価を行って最尤
単語を決定している。
しかしながら、上述の如きカナ漢字変換処理装置は、入
力文書の有する特別な性質、例えば、現在処理中の文書
において、現在処理対象としている個所以前で抽出され
た単語についての情報を積極的に利用しているとは言い
がたく、このため同一の入力文字列に対しては、略同−
の解析を繰り返すことになるという問題があった。これ
について、以下、例を挙げて詳細に説明する。
同−文書内で特定の語が繰り返し利用されることがある
ことは周知の事実である。そのような例として、次の文
を考えてみる。
例)「新技術が望まれる。新技術開発のため・・・(以
下略)」 上記例文をカナ漢字変換によって得ようとする場合、従
来のいわゆる最長一致法では、「シンギジュツが・・−
・・・」について辞書検索を行い、通常最長の単語とし
て「真偽」という語を得る。もちろん、「新技術」とい
う単語を辞書中に用意しておくことも可能であるが、接
辞と自立語(語基)とのすべての可能な組合わせを登録
しておくことは辞書容量の点で現実的ではない。
そこで、ここでは「真偽」という語が得られたものとし
て後続する「ジュラがノゾ・・・」という文字列につい
て検索を行い、「術」という接辞を見つけるが、「真偽
」と「術」とは接続できないので失敗する。
このため、バックトラック機構に、より、「シンギジュ
ツか−・」について再度辞書検索を行い、接頭辞「新」
を得る。後続文字列についての辞書検索から「技術」を
見出し、「新」と「技術」とが接続可能であることから
、ようやく目的とする変換結果が一得られる。
また、読み長と使用頻度を用いて最尤評価を行う方式で
は、次のようになる。まず、先頭から辞書検索を行い候
補スタックに「真偽」、「新」等を貯える。これについ
て読み長と使用頻度に基づく評価を行う。この場合、「
真偽」の方が高い評価を得たと仮定すると、結果として
は上述の最長一致法を用いた場合と同様の処理を行うこ
とになる。
前記例文においては、次の文中にも「新技術」という語
が現われるが、このとき、上述のどちらの方法を用いる
場合にも、最初の「シンギジュツ」の解析と略同様の解
析過程をたどることは明らかであろう。最尤評価では「
新」の使用頻度が1だけ増しているゆれども、必らず「
新」が選択されるという保証はない。
同じ語の出現ごとに上述の如く略同様の解析過程を繰り
返すことは、処理時間を増大させることになり、時間コ
ストの明らかな無駄であると言える。また、オペレータ
にとっても疲労を増すことになるという点で、解消が切
望される問題となっていた。
目   的 本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来のカナ漢字変換処理装置における上
述の如き問題を解消し、入力文書固有の情報を有効に利
用して、変換効率の向上を可能としたカナ漢字変換処理
装置を提供することにある。
構成 本発明の構成を以下一実施例について説明する。
第1図は本発明の一実施例であるカナ漢字変換処理装置
のブロック図である。図において、1は入力部、2は単
語辞書、養は辞書検索部、5は接続判定部、0は候補ス
タック、7は評価部を示している。また、8は評価部ス
タック、9は最適単語決定部、10は決定語キュー、1
1は登録判定部そして3は主記憶上に設けられた文書内
偵用単語メモリである。
入力部1は例えば、日本語文をカナ文字、ローマ字等で
入力するためのキーボードであり、辞書検索部会は入力
部lからの信号に基づき単語辞書2、文書内偵用単語メ
モリ3をサーチして、入力文字列に対応する表記を出力
する機能を有するものである。接続判定部5は上記辞書
検索部会により検索された上記表記を有する単語と該単
語に対応する既に検索済みの単語との文法的接続の可否
を判定する機能を有するものであり、評価部7は、上記
接続判定部5により接続が確認された単語について予め
定めた評価基準に基づいて評価を行う機能を有するもの
である。また、最適単語決定部9は評価部7での上記評
価値をもとに、最大の評価値を与えられた語すなわち最
適単語の決定を行う機能を有するものであり、登録判定
部11は上記最適単語として決定された単語について、
接辞の合成処理等を行った上で前記文書内使用メモリ3
に登録する機能を有するものである。なお、候補スタッ
ク6は接続判定部5において接続可と判定された単語を
順次収納するスタック、評価部スタック8は評価部7に
よる評価を受けた単語をその評価値とともに収納するス
タック、決定語キュー10は最適単語決定部9によって
最適単語として決定された単語を収納するキューメモリ
である。
上述の如く構成された本実施例の動作を以下説明する。
入力部1から入力されたカナ文字列は、単語辞書2およ
び前記文書的使用単語メモリ3を用いて、辞書検索部養
により検索される。検索によって見出された単語は接続
判定部5において直前の単語または複合単語(以下、単
に「単語」という)との文法的接続判定を施され、接続
可のものだけが候補スタック6に貯えられる。ただし、
この際、前記文書内使用メモリ3の中から見出された単
語については特別なフラグを立てておくものとする。
辞書検索が終了した後、上記候補スタック6中の単語は
1語ずつ評価部7において評価を受け、評価値を与えら
れ、その評価値とともに評価部スタック8へ送られる。
この場合の評価値fwの一例を次に示す。
fW=Lw+Cw ここで、LWは単語の読み長(自然数)、CWIt工単
語が文書内使用単語メモIJ 3から見出されたものの
場合2、そうでない場合0という値をとる2値変数であ
る。すなわち、文書内偵用単語メモリδ中の単語は、そ
れ自身より読みで2字長い単語と同じ評価を受けること
になる。
評価づゆがi了した段階で、各単語の評価値をもとにし
て、そのうちで最大の評価値を与えられた単語、すなわ
ちぎ適単語の決定が最適単語決定部で行われる。決定さ
れた単語は決定語キュー10に貯えられる。ここでは、
上記決定語キュー10中に、自立語が3語以上貯えられ
たとき、または句読点が現われたときに、その中で一番
早く決定された自立語までの単語あるいは上記句読点の
前までの単語について、登録判定部111cおいテ次の
如き判定および処理を行う。
決定語キュー10から読み出されたものが接頭辞であれ
ば、一旦それを接頭辞スタックに貯わえ、後続の自立語
との合成処理を行った後、文書的使用単語メモリ3に、
その読み2表記2品詞の情報を組にして送る。決定語キ
ュー1oから読み出されたものが自立語である場合には
、その前に接頭辞が存在しているかどうか、接頭辞スタ
ックを調べ、接頭辞がなければ、そのまま文書的使用単
語メモリ3へ送る。接頭辞があればその接頭辞と合成処
理を施したものを文書的使用単語メモリ3に送ると同時
に、接頭辞のつかない形のままの単語も文書的使用単語
メモリ3に送る。なお、付属語および接尾辞は文書的使
用単語メモリ3には収納しない。
文書的使用単語メモリ3は一定数の語を収納可能になっ
ており、容量が一杯になった場合には、例えば最初に登
録した単語を排除する如く構成されている。なお、上記
一定数は、例えば50とすると良い。
先に挙げた例文「新技術が望まれる。新技術開発のため
・−・−・・(以下略)」を扱う場合は次のようになる
最初の「シンギジュツが・・・」の検索については、最
長一致法と同様の解析が行われる。文書的使用単語メモ
リ3には、まだ単語が登録されていないため、最長語で
ある「真偽」が決定語キュー10に入る。続いて、「術
」という接尾辞が見出されるが、接続判定部5で接続不
可と判定されるので解析は失敗する。ここで、バックト
ラック機構がはたらき、「真偽」を決定語から外して解
析を再開することにより、「新」が決定語キュー10に
入ることになる。その直後の辞書検索および評価によっ
て最長の「技術」が決定語キュー10に入る。
上述の如く解析を繰り返すことにより、最初の文「新技
術が望まれる。」の処理が終了した段階では、決定語キ
ュー10の内容は第2図に示すようになっている。この
時点で、それ以前に決定語キュー10中にあるすべての
単語について登録判定が行われる。
前述の判定手順に従い、接頭辞「新」は一旦接頭辞スタ
ックに収められ、後続する自立語「技術」と合成されて
「新技術]として文書的使用単語メモリ3に送られる。
「技術」はそのままの形でも文書的使用単語メモリ3に
送られる。「望まし」はそのまま送られる。
これにより次の文の処理に入る時点においては、文書内
偵用単語メモリ3内に、「新技術」、「技術」、「望ま
し」の3語が登録されていることになる。そこで、次の
「シンギジュッヵイハッ・・・」という入力に対して、
文書的使用単語メモリ3から「新技術」が検索によって
見出され、単語辞書2から見出された「真偽」、「新」
等とともに候補スタック6に入る。
次に評価が行われるが、それぞれの語の評価値は 新技術・−・・・・・・−8(読み長6+2)真偽・・
・・・−・−・・・・3(読み長3)新・・・・・・・
−・・・・・・・2(読み長2・)のようになり、「新
技術」が最も高い評価値を得て、最適単語に決定される
ことになり、正しい変換結果を得ることができる。
上記実施例においては、辞書検索部生は単語辞書2と文
書的使用単語メモリ3とを参照していたが、これは文書
的使用単語メモリ3を優先して検索し、マツチするもの
があれば、単語辞書2の検索を行わずに、上記文書内使
用メモリ3から見出した語を即、決定語キュー10に入
れるようにすることも可能であり、この場合には処理速
度を更に向上させることができるとい5効来がある。
また、前記評価式には単語の使用頻度を加えても良いこ
とは言うまでもない。この場合には、最尤評価法と文書
内使用語優先法の効果を併せ持つことになる。
更に、漢字単語を2個直接接続した複合語(例えば、「
技術開発」)llCついても、最初の漢字単語を接頭辞
と同様に扱うことにより、上記文書的使用単語メモリ3
に登録できるようになり、処理速度を向上させることが
可能である。
効果 以上述べた如く、本発明によれば、入力文書固有の情報
を有効に利用することができるので、変換効率を向上さ
せたカナ漢字変換処理装置を実現できるという効果が得
られる。
【図面の簡単な説明】
81図は本発明の一実施例を示すブロック図、第2図は
決定語キューの内容の一例を示す図である。 l:入力部、2:単語辞書、3:文書的使用単語メモリ
、4:辞書検索部、5:接続判定部、6:候補スタック
、72評価部、8:評価法スタック、9:最適単語決定
部、10:決定語キュー、11:登録判定部。 −1( 第1図 第   2   図 品

Claims (1)

    【特許請求の範囲】
  1. 少なくとも読みとそれに対応する表記の情報を有する単
    語辞書記憶手段と、入力された文字列の先頭から任意の
    長さの文字列と整合する読みを有する単語を前記単語辞
    書記憶手段から検索する検索手段と、該検索手段により
    検索された単語と該単語に対応する入力文字列の直前に
    ある入力文字列に対応する既に検索済みの単語との文法
    的接続の可否を判定する接続判定手段と、該接続判定手
    段により接続が確認された単語を保持するスタックと、
    該スタック中の各単語について予め定めた評価基準に基
    づいて評価を行う単語評価手段と、入力文字列から前記
    単語評価手段によって得られた最適単語を一定数保持す
    る文書内偵用単語メモリとを有することを特徴とするカ
    ナ漢字変換処理装置。
JP58072533A 1983-04-25 1983-04-25 カナ漢字変換処理装置 Pending JPS59197929A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58072533A JPS59197929A (ja) 1983-04-25 1983-04-25 カナ漢字変換処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58072533A JPS59197929A (ja) 1983-04-25 1983-04-25 カナ漢字変換処理装置

Publications (1)

Publication Number Publication Date
JPS59197929A true JPS59197929A (ja) 1984-11-09

Family

ID=13492075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58072533A Pending JPS59197929A (ja) 1983-04-25 1983-04-25 カナ漢字変換処理装置

Country Status (1)

Country Link
JP (1) JPS59197929A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61148944A (ja) * 1984-12-24 1986-07-07 Hitachi Ltd 電話器
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61148944A (ja) * 1984-12-24 1986-07-07 Hitachi Ltd 電話器
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式

Similar Documents

Publication Publication Date Title
KR890010792A (ko) 음성인식장치
JPS59197929A (ja) カナ漢字変換処理装置
JP2792147B2 (ja) 文字処理方法およびその装置
JPH0130173B2 (ja)
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JP2570784B2 (ja) 文書リーダ後処理装置
JPS6126172A (ja) カナ漢字変換方式
JPS60225273A (ja) 単語検索方式
JPH01114976A (ja) 文書処理装置の辞書構造
JPH0215372A (ja) 電子辞書装置及び電子辞書検索方法
JP2894736B2 (ja) 文章検査方法
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH07319891A (ja) 文書登録検索システム
JP2798747B2 (ja) 自然言語処理方式
JP2839515B2 (ja) 文字読取システム
JPH06289890A (ja) 自然言語処理装置
JPS6366672A (ja) 漢字かな混じりの形態素解析における未知語処理方式
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JPS62203276A (ja) 形態素解析装置
JPH0757059A (ja) 文字認識装置
JPS62271172A (ja) 仮名漢字変換処理方式
JPH08278973A (ja) 並列句解析装置および学習データ作成装置
JPH0228761A (ja) 漢字読み付与方法
JPS62263569A (ja) 仮名漢字変換処理方式
JPS6395570A (ja) 言語解析方式