JPH0630100B2 - 仮名漢字変換方式 - Google Patents

仮名漢字変換方式

Info

Publication number
JPH0630100B2
JPH0630100B2 JP59195698A JP19569884A JPH0630100B2 JP H0630100 B2 JPH0630100 B2 JP H0630100B2 JP 59195698 A JP59195698 A JP 59195698A JP 19569884 A JP19569884 A JP 19569884A JP H0630100 B2 JPH0630100 B2 JP H0630100B2
Authority
JP
Japan
Prior art keywords
storage device
word
dictionary storage
word dictionary
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59195698A
Other languages
English (en)
Other versions
JPS6175467A (ja
Inventor
佐敏 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59195698A priority Critical patent/JPH0630100B2/ja
Publication of JPS6175467A publication Critical patent/JPS6175467A/ja
Publication of JPH0630100B2 publication Critical patent/JPH0630100B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は仮名漢字変換方式、詳細には、日本語ワードプ
ロセッサ等のような自然言語処理技術を用いた仮名漢字
変換方式に関する。
従来技術 従来、日本語ワードプロセッサ等のような日本語処理装
置においては、オペレータが操作する入力装置に入力し
た仮名列に対して、仮名と漢字の混在した仮名漢字の変
換を行っている。このような仮名漢字変換方式の中で、
特に漢字単語と漢字単語とを接続して形成する複合語の
処理の問題が大きくなってきている。
特に、特公昭58−4378号公報に開示されているよ
うに、組合せにより単語辞書を検索し、単語同士の合成
が可能かどうかの判定手段を有し、それの判定結果によ
り単語同士の合成の確定、非確定を行なう方式や、特開
昭56−38665号公報に開示されているように、単
語間同士の結び付きの強さを検定して複合語となりうる
かどうかの判定を行なう方式がある。
しかしながら、それらの方式では単語同士の結びつきの
自由度が、特に同音異義語の中では大きいので、余程厳
しい判定基準を設けていないことには誤った判定をし、
誤解析のもととなってしまう。実際上は、その判定基準
を厳しくするのにも限度があり、誤解析の率が高く実用
的には向いていない欠点があった。
目的 本発明はこのような従来技術の欠点を解消し、同音異義
語の判別を容易にいかも確実に行なうことのできる仮名
漢字変換方式を提供することを目的とする。
構成 本発明は上記の目的を達成させるため入力装置により入
力された仮名文字列を単語辞書記憶装置内で検索するこ
とにより単語単位の変換候補語を抽出して漢字と仮名の
混った仮名漢字に変換する仮名漢字変換方式において、
隣接単語の組合せを複合語として抽出して、その読みを
検定することによって同音異義語の判別を行なうことを
特徴としたものである。
以下、本発明の実施例に基づいて具体的に説明する。
第1図は本発明を日本語ワードプロセッサに適用したと
きの機能別全体ブロック図である。第1図において、本
実施例はキーボード1、入力文字バッファ2、仮名漢字
変換制御部3、単語辞書記憶装置4、複合語辞書記憶装
置5、品詞活用表部6、接続重み表部7、評価器8、出
力文字バッファ9、陰極線管(CRT)10、文書ファイル
部11、プリンタ12から構成されている。
キーボード1は、入力装置の一例で、ひらがな、かたか
な、アルファベット等の文字、数字、記号等の表音文字
を入力する表音文字キー、仮名漢字変換を指示する変換
キー等のファンクションキーを有する。入力文字列バッ
ファ2はキーボード1から次々に入力される入力仮名文
字列を一時的に蓄積し、仮名漢字変換処理を終了した入
力仮名文字列を部分的に次々と消去する。
仮名漢字変換制御部3は仮名漢字の処理手順のプログラ
ムを記憶するメモリと、入力文字列バッファ2からデー
タを取込んだり、そのデータをもとにして後述の単語や
複合語辞書記憶装置3,4を検索したりしてデータを取込
む際のバッファと、品詞活用表部6から列(うけ)と行
(かかり)の位置のデータを取込んだり、接続重み表部
7から該当する接続重みのデータを取込む際のバッファ
と、評価器8から演算した評価値とか第1位候補語(候
補語の中で評価最大の候補語)や第2位候補語を記憶し
ておくメモリと、ワークエリアとを含み、後述するよう
に他の機能の制御する。
単語辞書記憶装置4は表音文字である入力カナ文字を表
記するのに必要な表記文字である単語(たとえば、自立
語、付属語、接辞語や助数詞等。また、動詞、形容詞の
活用形すべてを各一単語として扱う。)の読み、その表
記、その品詞、その頻度ランク、その出力順位学習、複
合語辞書記憶装置5のアドレスもしくはシーケンスナン
バーとなるポインタの項目を格納している。
複合語辞書記憶装置5は単語辞書記憶装置4中に格納さ
れている単語が複数つらなって1つの概念を表わす複合
語で、隣りどうしの単語の関係を記述している辞書。例
えば、「超音速飛行機」の2つの単語同士の組合わせで
ある「超−高速」、「高速−飛行」、「飛行−機」の組
合せで複合語を構成することを表現する。
この辞書記憶装置の表現方法はいろいろとあるが、第1
として単語辞書記憶装置4中の各単語のアドレスもしく
はシーケンシャルナンバーを複合語の構成となるように
対で記憶しておく、第2に単語辞書記憶装置4中のポイ
ンタ欄に複合語辞書記憶装置5の対応語の先頭格納アド
レスを記録しておき、複合語辞書記憶装置5の中には複
合語を形成している後続単語の単語辞書記憶装置4中の
アドレスもしくはシーケンシャルナンバーを記録してお
く。なお、「超高速飛行機」等のように後続の単語が複
数ある場合は連続して記録しておく。その場合、他の前
出単語に対応する後続単語との境界の識別は先頭の1ビ
ットを0と1とを交互に変化させて使用することにより
行なわれる。なお、アドレス,シーケンシャルナンバー
は、これらを総称してアドレス情報と呼ぶことができ
る。
品詞活用表部6は単語辞書記憶装置4を検索した抽出し
た単語の品詞とその単語の前後に接続する単語の品詞で
もって後述の接続重み表部7の接続重み表の行(かか
り)と列(うけ)の場所を決定するための索引表を格納
している。なお、体言系は「かかり」と「うけ」の行番
号、列番号のみが記録してあるが、用言系は語尾をも記
録してある。
接続重み表部7は品詞の行と列とが配置され、それらの
交差部分にマトリックス状に単語間の接続の程度を示す
数値が配置されている。品詞活用表部6で指定した行番
号は列番号との交差部の数値がそれらの品詞を有する単
語の接続の強さを示す。その中の数値としては、0;接
続不可。1;接続することはあるが非常にまれである。
2;一般的に接続する。3;特に接続が強い。というよ
うに4ランクに設定してある。
評価器8は単語辞書記憶装置4から抽出した単語のよみ
長、頻度ランク、また、接続重み表部7から抽出した単
語間の接続重み等のパラメータにより、扱っている単語
がその位置にありうる尤らしさを評価する。なお、評価
演算する式の一例としては、 単語のよみ長×3+頻度ランク+(接続重み)=評価
値 を用いる 出力文字列バッファ9は評価器8で評価された単語を評
価値順に一時的に蓄積したり、確定した単語を順次確定
順にメモリする。
CRT10は表示装置の1例で、出力文字列バッファ9に
一時的に蓄積された未確定の単語列で一番評価値の高い
単語例を表示して、オペレータからの確定かどうかの確
認をうるための表示装置。
文書ファイル部11はCRT10で確認、修正された単語
列を文書的にファイル化して蓄積する記憶装置である。
プリンタ12は文書ファイル部11の内容をプリントア
ウトする装置。
第2図は単語辞書記憶装置4の内容の一部を模式的に示
した図、第3図は複合辞書記憶装置5の内容の2種類の
実施例で、第3図(a)は前述の第1の方式で、左側に
は、該当単語のポインタに相当する複合語辞書記憶装置
5のアドレスが記録されており、真中には、該当単語の
単語辞書記憶装置4の中のアドレスが記録されており、
右側にはその該当単語の後続単語の単語辞書記憶装置4
の中のアドレスが記録されている。第3図(b)は前述の
第2の方式で、境界識別フラグ1ビットで左側に記録さ
れており、右側には、後続単語の単語辞書記憶装置4の
中におけるアドレスが記録されている。
第4図は品詞活用表部6の内容の一部を模式的に示した
図で、「うけ」の欄及び「かかり」の欄に列番号、行番
号が記録されている。
第5図は接続重み表部7の接続重み表を概念的に示した
模式図で、行には品詞活用表のかかり番号(行番号)を
示し、列には品詞活用表のうけ番号(列番号)を示し、
それらの番号の行列部には4ランクの接続重みの数値が
格納されている。
第6図は本実施例の一例を示すフローチャートである。
次に、「最近は多くの兼業農家がいます。」の仮名漢字
変換文を作成する例で説明する。「最近は多くの」迄の
解析が進んでいて、その文の末尾の「の」は格助詞の
「の」として切り出されているとする。この時点では品
詞活用表部6の表の格助詞「の」の欄の「かかり」から
接続重み表部7の行(かかり)番号を指定している状態
である。
次に、キーボード1から「けんぎょうのうか…」と次々
と入力され、一旦入力文字バッファ2に蓄積される。こ
の入力時にはキーボード1から1文字入力がある毎に(S
20)、記号か文字かの判断がなされ(S21)、文字の場合、
n文字たまったかどうかの判断がなされる(S22)。記号
の場合は次のプロセスに進行するが、文字の場合、所定
のn文字が入力文字バッファ2にバッファされる迄は次
のプロセスに進行しない。なお、それらの判断は、仮名
漢字変換制御部3で行なう。「けんぎょうのうか…」と
いう具合いにn文字(たとえばn=6)が入力文字バッ
ファに蓄積されると、「け」、「けん」、「けんぎょ
う」、「けんぎょうの」の種類の文字列の組である単語
辞書検索用の仮名文字列が仮名漢字変換制御部3で作成
される(S23)。仮名漢字変換制御部3はそれらの検索用
仮名文字列のよみに従って単語辞書記憶装置4を検索し
(S24)、「毛」、「気」、「券」、「県」…「兼業」、
「検校」等の表記文字の単語を候補語としてあげる。そ
の時、第2図に示されているそれらの各単語の品詞、頻
度ランク、出力順位、ポインタ等のデータを取出す。
次に、複合語辞書記憶装置5のアドレスに対応するポイ
ンタがあるかどうかの判定を仮名漢字変換制御部3は行
なう(S25)。たとえば、表記「検校」の単語のポインタ
は65535番で、これは16進表示でFFFFに相当し、
この場合、複合語辞書記憶装置5のアドレスはないので
複合語辞書記憶装置5を検索する必要はなく評価処理に
進む。
表記「兼業」の単語のポインタは7533番で、これは
65535番とは異なるので、複合語があり、仮名漢字
変換制御部3は複合語辞書記憶装置5のそのアドレスで
検索する(S26)。複合語辞書記憶装置5のアドレス75
33番の記憶位置には第3図(a)に示してあるようにア
ドレス組合せによる複合語が格納されている。
1つは11379−17634で、このアドレスで単語
辞書記憶装置4を検索すると「兼業−者」となり、その
読みは、「けんぎょうしゃ」となる。その読みと入力文
字バッファ2内の仮名文字列の「けんぎょうのう」とを
仮名漢字変換制御部3で照合すると明らかに不一致とな
る。
したがって、次のアドレス組合せ11379−2311
5をもとにして単語辞書記憶装置4を検索すると「兼業
−農家」となり、その読みは「けんぎょうのうか」とな
る。その読みと入力文字バッファ内の仮名文字列の「け
んぎょうのうか」とを仮名漢字変換制御部3で照合する
と明らかに一致する。
これは一致するので、その単語の「農家」の品詞である
64(一般名詞)と頻度ランクである4と出力順位1と
ポインタ65535とが仮名漢字変換制御部3により単
語辞書記憶装置より取出されてバッファされる(S28)。
この複合語候補として取出された単語の「農家」は、次
のようにして新たに1つの単語、「兼業農家」として評
価器8で評価される。読み長は「兼業」である前単語と
「農家」である後続単語の両者の和で、8であり、頻度
ランクは両単語の内で低い方で「兼業」の頻度ランク3
である。「兼業農家」の複合語の前の単語「の」との接
続重みを検定する場合。仮名漢字変換制御器3は「の」
に接続する単語である「兼業」の品詞がサ変名詞である
ことがわかっているから、品詞活用表部6内の表にした
がって接続重み表の列(うけ)番号を取出して接続重み
表部7に転送し、同様に格助詞「の」の行(かかり)番
号をすでに接続重み表部7に転送してあるから、それら
の列及び行番号から接続重み表の接続重み(本実施例の
場合、2とする。)を仮名漢字変換制御器3は取出す。
評価器8は評価式に従がって上記数値を用いて「兼業農
家」の評価値を演算した結果、31となった。他の単
語、たとえば表記「兼業」、「検校」についても上記と
同様に評価演算したところ、22、20となった(S2
9)。したがって、出力文字バッファ9には「兼業農
家」、「兼業」、「検校」の順位で蓄積される。
ここで、評価値の一番高い単語である「兼業農家」を表
示する語として仮に確定し、行(かかり)番号を指定す
る品詞は後続語の「農家」の一般名詞を用い、品詞活用
表部6の表から行(かかり)番号を設定する。ここで、
仮名漢字変換制御器3は最優先の単語の評価値、即ち、
候補語の中の最大の評価値を積算し、その積算値がある
閾値を越えたらトリガー信号を発し(S40)。このトリガ
ー信号を出力文字バッファ9が入力するとその積算した
評価値の単語迄の未確定単語列を確定して(S41)、それ
を文書ファイル部11は所定の記憶位置に記憶する。
もし、トリガー信号が発生しなかった場合には、未だ未
確定のまま、次の仮名文字列の解析に移る。
入力文字バッファ2内の仮名文字列は「けんぎょうのう
か」を削除し「がいます。」となり、この場合、句読点
の記号があるのでn文字なくても被検索文字列作成に移
る(S23)。上記と同様に、「が」、「がい」、「がい
ま」、「がいます」の単語辞書検索用の文字列が仮名漢
字変換制御器3内で作成され、第6図のフローチャート
にしたがって、上記と同様に仮名漢字変換制御器3が単
語辞書記憶装置4を検索し、「が」の格助詞、「概」、
「害」、「該」等の単語を候補語としてあげる。
上記と同様の手順によって格助詞の「が」が取出され、
次に補助動詞の「い」が取出され、次に丁寧助動詞の
「ます」が取出されて解析され、句読点によりトリガー
信号が発せられ、それらの変換語が確定され、「最近は
多くの兼業農家がいます。」の仮名漢字変換された文が
文書ファイル11に蓄積される。それをプリントアウト
させる場合にはプリンタ12に転送すればよい。
効果 本発明によれば同音異義語があっても、その後続単語が
複合語を形成するかどうかを検索することにより容易に
しても確実に同音異義語の判別ができ、その判別率が向
上した。
【図面の簡単な説明】
第1図は本発明を日本語ワードプロセッサに適用した一
実施例の機能別ブロック全体図、 第2図は第1図の単語辞書記憶装置の内容の一部を模式
的に示した図、 第3図は第1図の複合語辞書記憶装置の内容の一部を模
式的に示した各方式の図、 第4図は第1図の品詞活用表部の内容の一部を模式的に
示した概略図、 第5図は第1図の接続重み表部の内容の一部を模式的に
示した概略図、 第6図は第1図の処理工程を示すフローチャートであ
る。 主要部分の符号の説明 3…仮名漢字変換制御部 4…単語辞書記憶装置 5…複合語辞書記憶装置 7…接続重み表部 8…評価器 9…出力文字バッファ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】仮名文字列を入力する入力装置と、表記用
    の単語に関する情報が格納されている単語辞書記憶装置
    と、前記単語辞書記憶装置内に格納されている単語の組
    合わせが記憶されている複合語辞書記憶装置と、入力装
    置により入力された仮名文字列を基に前記単語辞書記憶
    装置および前記複合語辞書記憶装置を検索して前記仮名
    文字列を漢字仮名混在文字列に変換する仮名漢字変換制
    御部とを備え、 前記単語辞書記憶装置には、これに格納されている各単
    語について、前記複合語辞書記憶装置を検索する必要の
    有無を判別するための判別情報と、前記複合語辞書記憶
    装置を検索する必要が有る場合に複合語辞書記憶装置を
    検索するための検索情報とが、各単語と対応付けされて
    保持され、 また、前記複合語辞書記憶装置には、前記単語の組合わ
    せのうち、少なくとも後に位置する単語の情報を格納し
    ている前記単語辞書記憶装置のアドレス情報が保持され
    ており、 前記仮名漢字変換制御部は、前記入力装置により入力さ
    れた仮名文字列に基づき単語辞書記憶装置を検索して同
    音異義語である単語を抽出し、抽出した単語に対して前
    記複合語辞書記憶装置を検索する必要があるか否かを前
    記判別情報により判断し、前記複合語辞書記憶装置を検
    索する必要があるときには、該単語に対応した検索情報
    に従って前記複合語辞書記憶装置を検索し、複合語辞書
    記憶装置に格納されている単語の組合わせのうち、少な
    くとも後に位置する単語の情報を、前記複合語辞書記憶
    装置に保持されているアドレス情報に従って単語辞書記
    憶装置から求めて複合語を抽出し、抽出した複合語のよ
    みと入力された仮名文字列のよみとの一致を検定して前
    記同音異義語の判別を行なうことを特徴とする仮名漢字
    変換方式。
JP59195698A 1984-09-20 1984-09-20 仮名漢字変換方式 Expired - Lifetime JPH0630100B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195698A JPH0630100B2 (ja) 1984-09-20 1984-09-20 仮名漢字変換方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195698A JPH0630100B2 (ja) 1984-09-20 1984-09-20 仮名漢字変換方式

Publications (2)

Publication Number Publication Date
JPS6175467A JPS6175467A (ja) 1986-04-17
JPH0630100B2 true JPH0630100B2 (ja) 1994-04-20

Family

ID=16345504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195698A Expired - Lifetime JPH0630100B2 (ja) 1984-09-20 1984-09-20 仮名漢字変換方式

Country Status (1)

Country Link
JP (1) JPH0630100B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH041847A (ja) * 1990-04-19 1992-01-07 Nec Corp かな漢字変換装置
EP2471732B1 (en) 2009-08-26 2014-10-08 Horizon International Inc. Paper folding device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS592125A (ja) * 1982-06-29 1984-01-07 Comput Basic Mach Technol Res Assoc 仮名漢字変換方法

Also Published As

Publication number Publication date
JPS6175467A (ja) 1986-04-17

Similar Documents

Publication Publication Date Title
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
EP0423683B1 (en) Apparatus for automatically generating index
JPH0724055B2 (ja) 単語分割処理方法
CN110413972B (zh) 一种基于nlp技术的表名字段名智能补全方法
Szanser Automatic error-correction in natural languages
JPH0630100B2 (ja) 仮名漢字変換方式
JPH08314950A (ja) テキストの検索方法及び装置
EP0314503A2 (en) Dictionary structure for document processing apparatus
JPH0630101B2 (ja) 仮名漢字変換方式
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPS61184674A (ja) 仮名漢字変換方式
JP2698192B2 (ja) 電子辞書における第2言語検索方法
JPH0113145B2 (ja)
JPH0380363A (ja) 文書処理装置
JP2537991B2 (ja) 文字入力装置および方法
JPH11282842A (ja) 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH05135096A (ja) 形態素解析方式
JPH0547859B2 (ja)
JPS62271172A (ja) 仮名漢字変換処理方式
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
JPH01205377A (ja) 日本文文書解析装置
JPH0546612A (ja) 文章誤り検出装置
JPH0855117A (ja) 文字処理装置
JPH0567076A (ja) かな漢字変換装置
JPS6148063A (ja) カナ漢字変換方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term