JPH0697454B2 - 文字処理装置 - Google Patents
文字処理装置Info
- Publication number
- JPH0697454B2 JPH0697454B2 JP1255502A JP25550289A JPH0697454B2 JP H0697454 B2 JPH0697454 B2 JP H0697454B2 JP 1255502 A JP1255502 A JP 1255502A JP 25550289 A JP25550289 A JP 25550289A JP H0697454 B2 JPH0697454 B2 JP H0697454B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- word
- candidate
- phrase
- adjunct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は入力された文字列を仮名漢字変換により漢字仮
名混り文に変換して入力する文字処理装置に関する。
名混り文に変換して入力する文字処理装置に関する。
[従来の技術] 現在、日本ワードプロセッサなどの文字処理装置は漢字
仮名混り文の入力を仮名漢字変換を使って行なうことが
一般的である。
仮名混り文の入力を仮名漢字変換を使って行なうことが
一般的である。
仮名漢字変換は辞書を参照することにより、入力された
読み列を漢字に変換するものである。辞書においては各
単語に対して名詞、サ変名詞、副詞、形容詞、形容動詞
等の品詞情報が記述されており、仮名漢字変換は読み列
を解析して可能な文節候補を作成し、それらを組み合わ
せて変換候補を決定し、尤もらしい順に提示する。提示
された変換候補の中からオペレータが望む候補を選択す
る。
読み列を漢字に変換するものである。辞書においては各
単語に対して名詞、サ変名詞、副詞、形容詞、形容動詞
等の品詞情報が記述されており、仮名漢字変換は読み列
を解析して可能な文節候補を作成し、それらを組み合わ
せて変換候補を決定し、尤もらしい順に提示する。提示
された変換候補の中からオペレータが望む候補を選択す
る。
例えば、読み列「しゅようがはっせいした」に対しては
「主」「主よ」「主要」「腫瘍」「主要が」「要」「要
が」「腫瘍が」「発生」「発生し」「発生した」「制し
た」などの文節候補が作成され、これらを組み合わせた
「主要が発生した」「腫瘍が発生した」がこの順で変換
候補として出力表示される。
「主」「主よ」「主要」「腫瘍」「主要が」「要」「要
が」「腫瘍が」「発生」「発生し」「発生した」「制し
た」などの文節候補が作成され、これらを組み合わせた
「主要が発生した」「腫瘍が発生した」がこの順で変換
候補として出力表示される。
「主要が」という表記は不当な表記に見えるが、辞書中
では「主要」は単なる名詞であり、形態素として間違っ
ていわけではない。また「主要が発生した」も構文とし
ては間違っているわけではない。一般に「主要」の方が
「腫瘍」よりも頻度が高いので「主要が発生した」が第
1候補として変換される可能性が高い。
では「主要」は単なる名詞であり、形態素として間違っ
ていわけではない。また「主要が発生した」も構文とし
ては間違っているわけではない。一般に「主要」の方が
「腫瘍」よりも頻度が高いので「主要が発生した」が第
1候補として変換される可能性が高い。
このままでは望む候補が第1候補として変換されないの
で、変換率を高めるために用例変換という手法が提案さ
れている。用例変換は、共起する単語のペア(用例)を
予め用例辞書中に登録しておき、変換時に用例辞書を参
照し、第1候補を用例辞書中の用例に従って変更する手
法である。例えば、「腫瘍が/発生」というパターンを
用例辞書に記憶しておき、「しゅようがはっせいした」
という入力に対しては「腫瘍が発生した」が第1候補と
して変換される様にする。
で、変換率を高めるために用例変換という手法が提案さ
れている。用例変換は、共起する単語のペア(用例)を
予め用例辞書中に登録しておき、変換時に用例辞書を参
照し、第1候補を用例辞書中の用例に従って変更する手
法である。例えば、「腫瘍が/発生」というパターンを
用例辞書に記憶しておき、「しゅようがはっせいした」
という入力に対しては「腫瘍が発生した」が第1候補と
して変換される様にする。
[発明が解決しようとする問題点] ところが、用例変換の手法では「腫瘍が〜」「腫瘍を
〜」を正しく変換するためは「腫瘍」と共起する単語を
網羅しなければ完璧な変換とはならない。例えば、「腫
瘍が原因」「腫瘍が悪化」「腫瘍が縮小」「腫瘍を除
去」「腫瘍を削除」「腫瘍を摘出」などと用例辞書に登
録しなければならない。このため用例辞書の記憶に膨大
なメモリが必要であった。また、そのような用例を網羅
することは人間の労力から考えて事実上不可能であっ
た。
〜」を正しく変換するためは「腫瘍」と共起する単語を
網羅しなければ完璧な変換とはならない。例えば、「腫
瘍が原因」「腫瘍が悪化」「腫瘍が縮小」「腫瘍を除
去」「腫瘍を削除」「腫瘍を摘出」などと用例辞書に登
録しなければならない。このため用例辞書の記憶に膨大
なメモリが必要であった。また、そのような用例を網羅
することは人間の労力から考えて事実上不可能であっ
た。
また、「しゅようが」と単文節で入力されたときは回り
の状況を見ることができないため、用例変換を適用する
ことができず、妥当な変換を行なうことができなかっ
た。
の状況を見ることができないため、用例変換を適用する
ことができず、妥当な変換を行なうことができなかっ
た。
[問題点を解決するための手段(及び作用)] 本発明の文字処理装置は、仮名文字列を入力する入力手
段と、自立語の読みと、表記と、単語尤度と、該自立語
が接続する単語に応じた当該単語尤度の補正値とを対応
させて記憶した自立語辞書手段と、各付属語の尤度と、
付属語間の接続尤度とを記憶した付属語辞書手段と、前
記自立語辞書手段及び付属語辞書手段を参照して、前記
入力手段より入力された仮名文字列を読みとする文節候
補を作成する候補作成手段と、該候補作成手段により作
成される文節候補中の自立語の単語尤度を該自立語が接
続する単語に応じた当該単語尤度の補正値により補正す
ることで、自立語部分の尤度を求め、前記文節候補中の
各付属語の尤度と、該各付属語間の接続尤度とに基づい
て付属語部分の尤度を求め、前記自立語部分の尤度と前
記付属語部分との尤度に基づいて、文節候補の文節尤度
を決定する文節尤度決定手段と、該文節尤度決定手段に
より決定された文節尤度に基づいて、前記候補作成手段
により作成された文節候補を出力する文節候補出力手段
とを有することにより、作成される文節候補中の自立語
の単語尤度を該自立語が接続する単語に応じた当該単語
尤度の補正値により補正することで、自立語部分の尤度
を求め、前記文節候補中の各付属語の尤度と、該各付属
語間の接続尤度とに基づいて付属語部分の尤度を求め、
前記自立語部分の尤度と前記付属語部分との尤度に基づ
いて、文節候補の文節尤度を決定し、決定された文節尤
度に基づいて、作成された文節候補を出力するようにし
たものである。
段と、自立語の読みと、表記と、単語尤度と、該自立語
が接続する単語に応じた当該単語尤度の補正値とを対応
させて記憶した自立語辞書手段と、各付属語の尤度と、
付属語間の接続尤度とを記憶した付属語辞書手段と、前
記自立語辞書手段及び付属語辞書手段を参照して、前記
入力手段より入力された仮名文字列を読みとする文節候
補を作成する候補作成手段と、該候補作成手段により作
成される文節候補中の自立語の単語尤度を該自立語が接
続する単語に応じた当該単語尤度の補正値により補正す
ることで、自立語部分の尤度を求め、前記文節候補中の
各付属語の尤度と、該各付属語間の接続尤度とに基づい
て付属語部分の尤度を求め、前記自立語部分の尤度と前
記付属語部分との尤度に基づいて、文節候補の文節尤度
を決定する文節尤度決定手段と、該文節尤度決定手段に
より決定された文節尤度に基づいて、前記候補作成手段
により作成された文節候補を出力する文節候補出力手段
とを有することにより、作成される文節候補中の自立語
の単語尤度を該自立語が接続する単語に応じた当該単語
尤度の補正値により補正することで、自立語部分の尤度
を求め、前記文節候補中の各付属語の尤度と、該各付属
語間の接続尤度とに基づいて付属語部分の尤度を求め、
前記自立語部分の尤度と前記付属語部分との尤度に基づ
いて、文節候補の文節尤度を決定し、決定された文節尤
度に基づいて、作成された文節候補を出力するようにし
たものである。
[実施例] 以下図面を参照しながら本発明を詳細に説明する。
第1図は本発明の全体構成の一例である。
図示の構成において、CPUは、マイクロプロセッサであ
り、文字処理のための演算、論理判断等を行ない、アド
レスバスAB、コントロールバスCB、データバスDBを介し
て、それらのバスに接続された各構成要素を制御する。
り、文字処理のための演算、論理判断等を行ない、アド
レスバスAB、コントロールバスCB、データバスDBを介し
て、それらのバスに接続された各構成要素を制御する。
アドレスバスABはマイクロプロセッサCPUの制御の対象
とする構成要素を指示するアドレス信号を転送する。コ
ントロールバスCBはマイクロプロセッサCPUの制御の対
象とする各構成要素のコントロール信号を転送して印加
する。データバスDBは各構成機器相互間のデータの転送
を行なう。
とする構成要素を指示するアドレス信号を転送する。コ
ントロールバスCBはマイクロプロセッサCPUの制御の対
象とする各構成要素のコントロール信号を転送して印加
する。データバスDBは各構成機器相互間のデータの転送
を行なう。
つぎにROMは、読出し専用の固定メモリであり、第12図
〜第15図につき後述するマイクロプロセッサCPUによる
制御の手順を記憶させておく。
〜第15図につき後述するマイクロプロセッサCPUによる
制御の手順を記憶させておく。
また、RAMは、1ワード16ビットの構成の書込み可能の
ランダムアクセスメモリであって、各構成要素からの各
種データの一時記憶に用いる。IBUFはキー入力されたキ
ーデータを記憶する入力バッファであり、OBUFは仮名漢
字変換された結果を一時的に記憶する出力バッファであ
る。BCTBLは変換途中の文節候補を記憶する文節候補テ
ーブルである。DICは仮名漢字変換を行なうための辞書
である。FTBLは付属語を付属語尤度、連番と対応付けて
記憶した付属語テーブルである。CTBLは付属語間の接続
関係を記述した付属語接続テーブルである。
ランダムアクセスメモリであって、各構成要素からの各
種データの一時記憶に用いる。IBUFはキー入力されたキ
ーデータを記憶する入力バッファであり、OBUFは仮名漢
字変換された結果を一時的に記憶する出力バッファであ
る。BCTBLは変換途中の文節候補を記憶する文節候補テ
ーブルである。DICは仮名漢字変換を行なうための辞書
である。FTBLは付属語を付属語尤度、連番と対応付けて
記憶した付属語テーブルである。CTBLは付属語間の接続
関係を記述した付属語接続テーブルである。
KBはキーボードであって、アルファベットキー、ひらか
なキー、カタカナキー等の文字記号入力キー、及び、変
換キー、次候補キー、候補表示キー、確定キー等の本文
字処理装置に対する各種機能を指示するための各種のフ
ァンクションキーを備えている。
なキー、カタカナキー等の文字記号入力キー、及び、変
換キー、次候補キー、候補表示キー、確定キー等の本文
字処理装置に対する各種機能を指示するための各種のフ
ァンクションキーを備えている。
DISKは文書データを記憶するための外部メモリであり、
テキストバッファTBUF上に作成された文書の保管を行な
い、保管された文書はキーボードの指示により、必要な
時呼び出される。CRはカーソルレジスタである。CPUに
より、カーソルレジスタの内容を読み書きできる。後述
するCRTコントローラCRTCは、ここに蓄えられたアドレ
スに対応する表示装置CRT上の位置にカーソルを表示す
る。
テキストバッファTBUF上に作成された文書の保管を行な
い、保管された文書はキーボードの指示により、必要な
時呼び出される。CRはカーソルレジスタである。CPUに
より、カーソルレジスタの内容を読み書きできる。後述
するCRTコントローラCRTCは、ここに蓄えられたアドレ
スに対応する表示装置CRT上の位置にカーソルを表示す
る。
DBUFは表示用バッファメモリで、表示すべきデータを蓄
える。
える。
CRTCはカーソルレジスタCR及びバッファDBUFに蓄えられ
た内容を表示器CRTに表示する役割を担う。
た内容を表示器CRTに表示する役割を担う。
またCRTは陰極線管等を用いた表示装置であり、その表
示装置CRTにおけるドット構成の表示パターンおよびカ
ーソルの表示をCRTコントローラで制御する。さらに、C
Gはキャラクタジェネレータであって、表示装置CRTに表
示する文字、記号のパターンを記憶するものである。
示装置CRTにおけるドット構成の表示パターンおよびカ
ーソルの表示をCRTコントローラで制御する。さらに、C
Gはキャラクタジェネレータであって、表示装置CRTに表
示する文字、記号のパターンを記憶するものである。
かかる各構成要素からなる本発明文字処理装置において
は、キーボードKBからの各種の入力に応じて作動するも
のであって、キーボードKBからの入力が供給されると、
まず、インタラプト信号がマイクロプロセッサCPUに送
られ、そのマイクロプロセッサCPUがROM内に記憶してあ
る各種の制御信号を読出し、それらの制御信号に従って
各種の制御が行なわれる。
は、キーボードKBからの各種の入力に応じて作動するも
のであって、キーボードKBからの入力が供給されると、
まず、インタラプト信号がマイクロプロセッサCPUに送
られ、そのマイクロプロセッサCPUがROM内に記憶してあ
る各種の制御信号を読出し、それらの制御信号に従って
各種の制御が行なわれる。
第2図は本発明装置による変換例を示した図である。図
中「」はそこで変換キーを打鍵するという意味であ
る。
中「」はそこで変換キーを打鍵するという意味であ
る。
「さいきん」と入力した場合は、第1候補として「最
近」、第2候補として「細菌」が変換されるが、「さい
きんを」と入力した場合は「細菌を」が第1候補とな
る。「最近を」は変換されないので第2候補以下が存在
しない。
近」、第2候補として「細菌」が変換されるが、「さい
きんを」と入力した場合は「細菌を」が第1候補とな
る。「最近を」は変換されないので第2候補以下が存在
しない。
「きのう」と入力した場合は、第1候補として「昨
日」、第2候補として「機能」が変換されるが、「きの
うを」と入力した場合は、「機能を」が第1候補とな
る。
日」、第2候補として「機能」が変換されるが、「きの
うを」と入力した場合は、「機能を」が第1候補とな
る。
「しゅよう」と入力した場合は、第1候補として「主
要」、第2候補として「腫瘍」が変換されるが、「しゅ
ようを」と入力した場合は、「腫瘍を」が第1候補とな
る。「主要を」は変換されないので、第2候補以下は存
在しない。
要」、第2候補として「腫瘍」が変換されるが、「しゅ
ようを」と入力した場合は、「腫瘍を」が第1候補とな
る。「主要を」は変換されないので、第2候補以下は存
在しない。
「きかん」と入力した場合は、第1候補として「期
間」、第2候補として「機関」が変換されるが、「きか
んさんぎょう」と入力した場合は「きかん」は「産業」
に対して接頭的に使用されていると解釈され、第1候補
が「基幹」となる。
間」、第2候補として「機関」が変換されるが、「きか
んさんぎょう」と入力した場合は「きかん」は「産業」
に対して接頭的に使用されていると解釈され、第1候補
が「基幹」となる。
「しちょうを」と入力した場合は、第1候補として「市
長を」、第2候補として「市庁を」が変換されるが、
「しちょうで」と入力した場合は、「市庁で」が第1候
補となる。「市長で」は第2候補となる。
長を」、第2候補として「市庁を」が変換されるが、
「しちょうで」と入力した場合は、「市庁で」が第1候
補となる。「市長で」は第2候補となる。
第3図は入力バッファIBUF、出力バッファOBUFの構成を
示した図である。
示した図である。
IBUF、OBUFともに同じ構成である。最初の2バイトは各
バッファのサイズ情報であり、バッファに格納されてい
る文字数から1を減じたものを2倍した数値が入る。入
力バッファの末尾にある「」はそこで変換キーが打鍵
されたことを意味する。各文字は1文字2バイトで構成
され、JIS X 0208コード等で格納される。
バッファのサイズ情報であり、バッファに格納されてい
る文字数から1を減じたものを2倍した数値が入る。入
力バッファの末尾にある「」はそこで変換キーが打鍵
されたことを意味する。各文字は1文字2バイトで構成
され、JIS X 0208コード等で格納される。
第4図は辞書DICの構成を示した図である。「読み」
「表記」「品詞」「単語尤度」「助詞接続尤度」から構
成される。
「表記」「品詞」「単語尤度」「助詞接続尤度」から構
成される。
「読み」には単語の読み、「表記」には単語の表記、
「品詞」には単語の品詞が格納される。
「品詞」には単語の品詞が格納される。
「単語尤度」は頻度情報等のその単語自体の尤もらしさ
を示す情報が0〜5の値で格納される。尤度値0は最も
尤もらしいという意味であり、値が大きくなるにつれ疑
わしいと解釈される。尤度値6は全く考えられないとい
うことを意味するので単語尤度の値としては存在しな
い。助詞接続尤度については第5図に詳述する様に格納
されるが、単語の格助詞が後続した場合、単語尤度をど
の様に補正すべきかを示す情報が格納される。
を示す情報が0〜5の値で格納される。尤度値0は最も
尤もらしいという意味であり、値が大きくなるにつれ疑
わしいと解釈される。尤度値6は全く考えられないとい
うことを意味するので単語尤度の値としては存在しな
い。助詞接続尤度については第5図に詳述する様に格納
されるが、単語の格助詞が後続した場合、単語尤度をど
の様に補正すべきかを示す情報が格納される。
図中、「基幹」については接頭的に使用されたときは単
語尤度を−5すべきであるという意味であり、接頭的に
使用されたとき「基幹」の補正された単語尤度は0とな
る。すなわち、より尤もらしいということである。
語尤度を−5すべきであるという意味であり、接頭的に
使用されたとき「基幹」の補正された単語尤度は0とな
る。すなわち、より尤もらしいということである。
「昨日」については助詞「を」が接続したときは単語尤
度を+4すべきであるという意味であり、「昨日を」の
補正された単語尤度は5となる。すなわち、より疑わし
いということである。
度を+4すべきであるという意味であり、「昨日を」の
補正された単語尤度は5となる。すなわち、より疑わし
いということである。
「最近」については助詞「が」が接続したときは単語尤
度を+5すべきであるという意味であり、「最近が」の
補正された単語尤度は6となり、その様な表記はもはや
有り得ないということになる。
度を+5すべきであるという意味であり、「最近が」の
補正された単語尤度は6となり、その様な表記はもはや
有り得ないということになる。
「市庁」については助詞「で」が接続したときは単語尤
度を−3すべきであるという意味であり、「市庁で」の
補正された単語尤度は0となる。すなわち、より尤もら
しいということである。
度を−3すべきであるという意味であり、「市庁で」の
補正された単語尤度は0となる。すなわち、より尤もら
しいということである。
第5図は第4図の助詞接続尤度の構成をより詳細に説明
した図である。
した図である。
助詞接続尤度は先頭より4ビット単位で分割され、それ
ぞれの4ビットは特定の助詞に対応した単語尤度の補正
値が記憶される。例えば、「が」に対応する接続尤度と
いうのは、その単語に助詞「が」が後続した場合に単語
尤度に補正すべき値が格納される。
ぞれの4ビットは特定の助詞に対応した単語尤度の補正
値が記憶される。例えば、「が」に対応する接続尤度と
いうのは、その単語に助詞「が」が後続した場合に単語
尤度に補正すべき値が格納される。
補正値は−5〜5の範囲で記憶される。それ以外の値
(−8、−7、7)は不正値である。特に単語尤度を補
正すべきでないときは値0を格納する。
(−8、−7、7)は不正値である。特に単語尤度を補
正すべきでないときは値0を格納する。
複合語の接頭成分としての尤度、複合語の接尾成分とし
ての尤度は、それぞれ、その単語が接頭的、接尾的に使
用されたときに単語尤度に補正すべき値を格納する。例
えば、「基幹産業」というときの「基幹」は接頭的に使
用されており、「販売期間」というときの「期間」は接
尾的に使用されている。この様な場合に単語尤度を補正
する必要があれば記述するのである。
ての尤度は、それぞれ、その単語が接頭的、接尾的に使
用されたときに単語尤度に補正すべき値を格納する。例
えば、「基幹産業」というときの「基幹」は接頭的に使
用されており、「販売期間」というときの「期間」は接
尾的に使用されている。この様な場合に単語尤度を補正
する必要があれば記述するのである。
第6図は文節候補テーブルBCTBLの概念を示した図であ
る。文節候補テーブルは入力読みの解析の結果、考えら
れる文節候補をバイナリートリーで表現したものであ
る。図中、横線は子ポインタを意味し、縦線は弟ポイン
タを意味する。弟ポインタはある読み位置から始まる他
の文節候補(通常はより短い候補)をリンクし、子ポイ
ンタはその文節に引き続く文節候補をリンクする。ま
た、括弧で括られた単語は同音語関係を意味する。
る。文節候補テーブルは入力読みの解析の結果、考えら
れる文節候補をバイナリートリーで表現したものであ
る。図中、横線は子ポインタを意味し、縦線は弟ポイン
タを意味する。弟ポインタはある読み位置から始まる他
の文節候補(通常はより短い候補)をリンクし、子ポイ
ンタはその文節に引き続く文節候補をリンクする。ま
た、括弧で括られた単語は同音語関係を意味する。
例えば、文節「(最近、細菌)では」は同音語関係を意
味し、「最近では」「細菌では」の2通りの解釈が可能
であることを意味する。
味し、「最近では」「細菌では」の2通りの解釈が可能
であることを意味する。
入力読み例「さいきんではさいきんが…」の先頭部分は
「(最近、細菌)では」「(最近、細菌)で」「(最
近、細菌)」などの解釈が存在し、これらは順に弟ポイ
ンタ(縦線)でリンクされている。
「(最近、細菌)では」「(最近、細菌)で」「(最
近、細菌)」などの解釈が存在し、これらは順に弟ポイ
ンタ(縦線)でリンクされている。
「(最近、細菌)では」に引き続く文節は「細菌が」が
考えられ、子ポインタでリンクされている。「細菌が」
に引き続く文節として「見つからない」が考えられ、や
はり子ポインタでリンクされている。
考えられ、子ポインタでリンクされている。「細菌が」
に引き続く文節として「見つからない」が考えられ、や
はり子ポインタでリンクされている。
この様な文節候補テーブルができ上がると、「最近では
/細菌が/見つからない」「最近では/細菌/画/蜜か
ら/無い」などと文節候補列を作成することは容易であ
る。
/細菌が/見つからない」「最近では/細菌/画/蜜か
ら/無い」などと文節候補列を作成することは容易であ
る。
第7図は文節候補テーブルBCTBLの具体的構成を示した
図である。
図である。
「自立語」は各2バイトで構成され、文節候補の自立語
(辞書上に存在する)をリンクする。
(辞書上に存在する)をリンクする。
「付属語列」は2バイトで構成され、文節候補の自立語
に引き続く付属語列を特定する領域である。先頭1バイ
トが入力バッファ上の付属語列先頭文字をインデックス
し、次の1バイトが入力バッファ上の付属語列の末尾文
字をインデックスする。例えば、第3図に示す入力バッ
ファのとき、「では」を表現するには第1バイトに8、
第2バイトに10を設定する。
に引き続く付属語列を特定する領域である。先頭1バイ
トが入力バッファ上の付属語列先頭文字をインデックス
し、次の1バイトが入力バッファ上の付属語列の末尾文
字をインデックスする。例えば、第3図に示す入力バッ
ファのとき、「では」を表現するには第1バイトに8、
第2バイトに10を設定する。
「文節尤度」は第10図に示す様に算出されたその文節候
補の尤度を示す値を格納する。
補の尤度を示す値を格納する。
「同音語リンク」はその文節候補の自立語が他の同音語
に変わっただけの文節候補をリンクする。
に変わっただけの文節候補をリンクする。
弟リンクはその文節候補と同じ読み位置から始まる別の
文節候補をリンクする。
文節候補をリンクする。
子リンクはその文節候補に引き続く文節候補をリンクす
る。
る。
例えば、文節候補0の同音語リンクは1であり、文節候
補1(細菌では)をリンクしている。また、文節候補1
の同音語リンクは0であり、それ以上同音語リンクはた
どれないことが分かる。
補1(細菌では)をリンクしている。また、文節候補1
の同音語リンクは0であり、それ以上同音語リンクはた
どれないことが分かる。
文節候補0の弟リンクは50であり、文節候補50(最近
で)をリンクする。子リンクは100であり、文節候補100
(最近が)をリンクする。更に、文節候補100の子リン
クは200であり、文節候補200(見つからない)をリンク
する。その子リンクは0であり、そこで入力読みが終端
していることが分かる。
で)をリンクする。子リンクは100であり、文節候補100
(最近が)をリンクする。更に、文節候補100の子リン
クは200であり、文節候補200(見つからない)をリンク
する。その子リンクは0であり、そこで入力読みが終端
していることが分かる。
第8図は付属語テーブルFTBLの構成を示した図である。
「読み」には各付属語の読みが格納される。「付属語尤
度」には各付属語の尤もらしさを示す付属語尤度が格納
される。付属語尤度には0〜3の値が格納され、0が最
も尤もらしく、値が大きくなるほど疑わしい付属語であ
ることを意味する。各付属語は連番(先頭から何番目の
付属語であるか)で管理される。
度」には各付属語の尤もらしさを示す付属語尤度が格納
される。付属語尤度には0〜3の値が格納され、0が最
も尤もらしく、値が大きくなるほど疑わしい付属語であ
ることを意味する。各付属語は連番(先頭から何番目の
付属語であるか)で管理される。
例えば、連番10の付属語は「が」であり、その付属語尤
度は0である。連番50の付属語は「じゃ」であり、その
付属語尤度は3である。
度は0である。連番50の付属語は「じゃ」であり、その
付属語尤度は3である。
第9図は付属語接続テーブルCTBLの構成を示した図であ
る。
る。
付属語接続テーブルは付属語間の接続関係を記述したテ
ーブルである。テーブルの左部に先行する付属語を示
し、上部には後続する付属語を示す。その付属語接続が
認められるかどうかを左部に示した付属語と上部に示し
た付属語の交点に示している。
ーブルである。テーブルの左部に先行する付属語を示
し、上部には後続する付属語を示す。その付属語接続が
認められるかどうかを左部に示した付属語と上部に示し
た付属語の交点に示している。
交点の値は−1、0、1、2、3のいずれかで、−1は
接続し得ないことを意味する。0〜3は接続できること
を意味し、値が付属語間尤度(接続の尤もらしさ)を示
す。0は尤もらしい接続で、値が大きくなるほど疑わし
い接続となる。
接続し得ないことを意味する。0〜3は接続できること
を意味し、値が付属語間尤度(接続の尤もらしさ)を示
す。0は尤もらしい接続で、値が大きくなるほど疑わし
い接続となる。
例えば、「じゃ/ない」という付属語接続が認めらるか
どうかは、左部50と、上部130の交点を読み取ればよ
い。0という値が得られるので、付属語間尤度0で接続
可能であることが分かる。
どうかは、左部50と、上部130の交点を読み取ればよ
い。0という値が得られるので、付属語間尤度0で接続
可能であることが分かる。
また、左部50と上部180の交点を読み取ると−1である
ので、「じゃ/は」という接続が認められないことが分
かる。
ので、「じゃ/は」という接続が認められないことが分
かる。
また、左部150と上部180の交点を読み取ると3であるの
で、「の/は」という接続が付属語間尤度3で認められ
ることが分かる。
で、「の/は」という接続が付属語間尤度3で認められ
ることが分かる。
第10図は文節尤度の計算例を示した図である。文節尤度
は各文節候補の尤もらしさを表現するものであり、値が
小さいほど尤もらしいことを意味する。文節尤度は自立
語尤度のα倍に付属部尤度のβ倍を加算することにより
計算される。ここで、自立語尤度は単語尤度にその文節
の付属語列の解析(どんな助詞が後続しているか)に従
って助詞接続尤度を加算したものである。付属部尤度は
その文節の自立語に引き続く付属語列の構成付属語の個
々の付属語尤度の和と各付属語間尤度の和を計算したも
のである。文節尤度は小さな値ほど、より尤もらしいこ
とを意味する。α、βの値はこの例ではα=2、β=5
である。
は各文節候補の尤もらしさを表現するものであり、値が
小さいほど尤もらしいことを意味する。文節尤度は自立
語尤度のα倍に付属部尤度のβ倍を加算することにより
計算される。ここで、自立語尤度は単語尤度にその文節
の付属語列の解析(どんな助詞が後続しているか)に従
って助詞接続尤度を加算したものである。付属部尤度は
その文節の自立語に引き続く付属語列の構成付属語の個
々の付属語尤度の和と各付属語間尤度の和を計算したも
のである。文節尤度は小さな値ほど、より尤もらしいこ
とを意味する。α、βの値はこの例ではα=2、β=5
である。
第10図によると、「機能を」の文節尤度は4であり、
「昨日を」の文節尤度は(「機能/を」の接続尤度が+
4であるので)10であるので、「機能を」が第1位に変
換されることが分かる。また、「昨日のは」の文節尤度
は「の/は」の付属語間尤度が3であるので、17とな
り、通常の文節より変換しにくくなることが分かる。
「昨日を」の文節尤度は(「機能/を」の接続尤度が+
4であるので)10であるので、「機能を」が第1位に変
換されることが分かる。また、「昨日のは」の文節尤度
は「の/は」の付属語間尤度が3であるので、17とな
り、通常の文節より変換しにくくなることが分かる。
第11図は文尤度の計算例を示した図である。文尤度は文
節候補列である文の尤もらしさを表現するものであり、
値が小さいほど尤もらしいことを意味する。文尤度は文
節尤度の和に(文節数−1)×文節間尤度を加えること
により計算される。文節間尤度はここでは20とする。
節候補列である文の尤もらしさを表現するものであり、
値が小さいほど尤もらしいことを意味する。文尤度は文
節尤度の和に(文節数−1)×文節間尤度を加えること
により計算される。文節間尤度はここでは20とする。
第11図によると、「最近では/細菌が/見つからない」
の文尤度は50であり、「最近では/細菌が/蜜から/無
い」の文尤度は80であるので、「最近では/細菌が/見
つからない」が第1位に変換されることが分かる。
の文尤度は50であり、「最近では/細菌が/蜜から/無
い」の文尤度は80であるので、「最近では/細菌が/見
つからない」が第1位に変換されることが分かる。
また、「昨日を/高める」の文尤度は32であり、「機能
を/高める」の文尤度は26であるので、「機能を/高め
る」が第1位に変換されることが分かる。
を/高める」の文尤度は26であるので、「機能を/高め
る」が第1位に変換されることが分かる。
上述の実施例の動作をフローに従って説明する。
第12図はキー入力を取り込み、処理を行なう部分のフロ
ーチャートである。
ーチャートである。
ステップ12−1はキーボードからのデータを取り込む処
理である。ステップ12−2で取り込まれたキーの種別を
判定し、各キーの処理ルーチンに分岐する。
理である。ステップ12−2で取り込まれたキーの種別を
判定し、各キーの処理ルーチンに分岐する。
変換キーであったときはステップ12−3に分岐し、ステ
ップ12−3において第13図に詳述するように仮名漢字変
換の変換処理が行なわれる。その他のキーのときはステ
ップ12−4に分岐し、挿入、削除等の通常の文字処理装
置において行なわれるその他の処理が行なわれる。
ップ12−3において第13図に詳述するように仮名漢字変
換の変換処理が行なわれる。その他のキーのときはステ
ップ12−4に分岐し、挿入、削除等の通常の文字処理装
置において行なわれるその他の処理が行なわれる。
ステップ12−5においては変換結果、あるいは処理結果
の表示処理を行なう。その後ステップ12−1に分岐す
る。
の表示処理を行なう。その後ステップ12−1に分岐す
る。
第13図はステップ12−3の「変換処理」を詳細化したフ
ローチャートである。
ローチャートである。
ステップ13−1において、辞書サーチ、形態素解析、構
文解析等を行なって入力読み列を解析し、文節候補を作
成する。ステップ13−2において、各文節候補の尤度を
計算し、どの文節を変換するのが最も尤もらしいかを判
断し、第1候補として決定する。ステップ13−3におい
て、決定された第1候補に基づいて変換結果を作成し、
出力する。
文解析等を行なって入力読み列を解析し、文節候補を作
成する。ステップ13−2において、各文節候補の尤度を
計算し、どの文節を変換するのが最も尤もらしいかを判
断し、第1候補として決定する。ステップ13−3におい
て、決定された第1候補に基づいて変換結果を作成し、
出力する。
第14図はステップ13−1の「変換候補作成」を詳細化し
たフローチャートである。
たフローチャートである。
ステップ14−1において、入力バッファインデックス
i、文節候補テーブルインデックスjを0に初期設定す
る。
i、文節候補テーブルインデックスjを0に初期設定す
る。
ステップ14−2においてiの示す入力バッファ中の読み
に基づき、辞書をサーチし、単語候補を求める。
に基づき、辞書をサーチし、単語候補を求める。
ステップ14−3において、見つかった単語候補に対して
接続する付属語列を解析する。この結果、文節候補が得
られる。
接続する付属語列を解析する。この結果、文節候補が得
られる。
ステップ14−4において得られた文節候補を文節候補テ
ーブルに格納する。格納する時はj+1番目のエントリ
ーに格納する。また、必要な情報を設定する。例えば、
この文節候補の文節尤度を第10図に示すように算出し、
格納する。あるいは、この文節候補を子、あるいは弟と
する文節候補については、子リンク、弟リンクを設定す
る。格納後jの値をカウントアップする。
ーブルに格納する。格納する時はj+1番目のエントリ
ーに格納する。また、必要な情報を設定する。例えば、
この文節候補の文節尤度を第10図に示すように算出し、
格納する。あるいは、この文節候補を子、あるいは弟と
する文節候補については、子リンク、弟リンクを設定す
る。格納後jの値をカウントアップする。
ステップ14−5において文節候補テーブルからターミネ
ートしていない文節候補、すなわち、子リンクがまだ決
まっていない文節候補を見つけその次の読み位置をiに
代入する。
ートしていない文節候補、すなわち、子リンクがまだ決
まっていない文節候補を見つけその次の読み位置をiに
代入する。
ステップ14−6において、全ての文節候補の子リンクが
決定しているかどうか判定し、決定していないものがあ
ればステップ14−2に分岐する。そうでなければリター
ンする。
決定しているかどうか判定し、決定していないものがあ
ればステップ14−2に分岐する。そうでなければリター
ンする。
第15図はステップ13−2の「第1候補決定」を詳細化し
たフローチャートである。
たフローチャートである。
ステップ15−1において、最尤文尤度を処理上許される
最大値に初期設定する。
最大値に初期設定する。
ステップ15−2において文節候補テーブルより文節候補
列を1つ取り出す。
列を1つ取り出す。
ステップ15−2において、取り出された文節候補列の文
尤度を第11図に示す様に算出する。
尤度を第11図に示す様に算出する。
ステップ15−4において、算出された文尤度が最尤文尤
度より尤もらしいか、具体的には小さいかを判定し、小
さいときはステップ15−5において最尤文尤度を算出さ
れた文尤度に更新する。
度より尤もらしいか、具体的には小さいかを判定し、小
さいときはステップ15−5において最尤文尤度を算出さ
れた文尤度に更新する。
ステップ15−6において文節候補テーブルから別の文節
候補列が取り出せるかどうかを判定し、取り出せるとき
はステップ15−2に分岐する。そうでないときはリター
ンする。
候補列が取り出せるかどうかを判定し、取り出せるとき
はステップ15−2に分岐する。そうでないときはリター
ンする。
これにより、最尤文尤度を算出するもとになった文節候
補列が第1候補として決定される。
補列が第1候補として決定される。
[他の実施例] 以上の説明において、助詞接続情報の格納形式として格
助詞ごとにあらかじめフィールドを定めて尤度情報を持
つ様にしたが、この方法では大抵の場合、0が格納され
ることになるので、必要な助詞とともに接続尤度を格納
する形式にしても良い。
助詞ごとにあらかじめフィールドを定めて尤度情報を持
つ様にしたが、この方法では大抵の場合、0が格納され
ることになるので、必要な助詞とともに接続尤度を格納
する形式にしても良い。
また、尤度の計算は単に例を示しただけであるので、別
の計算方法であっても特に本発明の趣旨を損なうもので
はない。
の計算方法であっても特に本発明の趣旨を損なうもので
はない。
[発明の効果] 以上説明したように、本発明の文字処理装置によれば、
自立語の尤度として、その自立語の単語尤度を、その自
立語が接続する単語に応じて補正し、付属部の尤度を各
付属語の尤度と付属語間の接続尤度により求め、この自
立語の尤度と付属部の尤度に基づいて、文節の候補を出
力するための文節の尤度を決定するようにしたので、自
立語が、例えば、特定の助詞と接続したり、他の自立語
に対して、接頭語的に接続したりする場合に、自立語の
単語尤度を補正し、また付属部の尤度を考慮することに
より、文節全体としてより妥当性の高い文節候補が、高
い尤部の候補として出力されるようになるという効果が
ある。
自立語の尤度として、その自立語の単語尤度を、その自
立語が接続する単語に応じて補正し、付属部の尤度を各
付属語の尤度と付属語間の接続尤度により求め、この自
立語の尤度と付属部の尤度に基づいて、文節の候補を出
力するための文節の尤度を決定するようにしたので、自
立語が、例えば、特定の助詞と接続したり、他の自立語
に対して、接頭語的に接続したりする場合に、自立語の
単語尤度を補正し、また付属部の尤度を考慮することに
より、文節全体としてより妥当性の高い文節候補が、高
い尤部の候補として出力されるようになるという効果が
ある。
第1図は本発明の全体構成のブロック図、 第2図は本発明において仮名漢字変換の出力の例を示し
た図、 第3図は本発明における入力バッファ、出力バッファの
構成を示した図、 第4図は本発明における仮名漢字変換用辞書の構成を示
した図、 第5図は助詞接続尤度の詳細構成を示した図、 第6図は本発明における文節候補テーブルの記憶内容を
概念的に示した図、 第7図は本発明における文節候補テーブルの構成を示し
た図、 第8図は本発明における付属語テーブルの構成を示した
図、 第9図は本発明における付属語接続テーブルの構成を示
した図、 第10図は本発明における文節尤度の計算例を示した図、 第11図は本発明における文尤度の計算例を示した図、 第12図〜第15図は本発明文字処理装置の動作を示すフロ
ーチャート。 DISK……外部メモリ CPU……マイクロプロセッサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ IBUF……入力バッファ OBUF……出力バッファ BCTBL……文節候補テーブル DIC……仮名漢字変換用辞書 FTBL……付属語テーブル CTBL……付属語接続テーブル
た図、 第3図は本発明における入力バッファ、出力バッファの
構成を示した図、 第4図は本発明における仮名漢字変換用辞書の構成を示
した図、 第5図は助詞接続尤度の詳細構成を示した図、 第6図は本発明における文節候補テーブルの記憶内容を
概念的に示した図、 第7図は本発明における文節候補テーブルの構成を示し
た図、 第8図は本発明における付属語テーブルの構成を示した
図、 第9図は本発明における付属語接続テーブルの構成を示
した図、 第10図は本発明における文節尤度の計算例を示した図、 第11図は本発明における文尤度の計算例を示した図、 第12図〜第15図は本発明文字処理装置の動作を示すフロ
ーチャート。 DISK……外部メモリ CPU……マイクロプロセッサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ IBUF……入力バッファ OBUF……出力バッファ BCTBL……文節候補テーブル DIC……仮名漢字変換用辞書 FTBL……付属語テーブル CTBL……付属語接続テーブル
Claims (1)
- 【請求項1】仮名文字列を入力する入力手段と、 自立語の読みと、表記と、単語尤度と、該自立語が接続
する単語に応じた当該単語尤度の補正値とを対応させて
記憶した自立語辞書手段と、 各付属語の尤度と、付属語間の接続尤度とを記憶した付
属語辞書手段と、 前記自立語辞書手段及び付属語辞書手段を参照して、前
記入力手段より入力された仮名文字列を読みとする文節
候補を作成する候補作成手段と、 該候補作成手段により作成される文節候補中の自立語の
単語尤度を該自立語が接続する単語に応じた当該単語尤
度の補正値により補正することで、自立語部分の尤度を
求め、前記文節候補中の各付属語の尤度と、該各付属語
間の接続尤度とに基づいて付属語部分の尤度を求め、前
記自立語部分の尤度と前記付属語部分との尤度に基づい
て、文節候補の文節尤度を決定する文節尤度決定手段
と、 該文節尤度決定手段により決定された文節尤度に基づい
て、前記候補作成手段により作成された文節候補を出力
する文節候補出力手段とを有することを特徴とする文字
処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1255502A JPH0697454B2 (ja) | 1989-09-29 | 1989-09-29 | 文字処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1255502A JPH0697454B2 (ja) | 1989-09-29 | 1989-09-29 | 文字処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03116361A JPH03116361A (ja) | 1991-05-17 |
| JPH0697454B2 true JPH0697454B2 (ja) | 1994-11-30 |
Family
ID=17279643
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1255502A Expired - Fee Related JPH0697454B2 (ja) | 1989-09-29 | 1989-09-29 | 文字処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0697454B2 (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62165267A (ja) * | 1986-01-17 | 1987-07-21 | Ricoh Co Ltd | 音声ワ−ドプロセツサ装置 |
-
1989
- 1989-09-29 JP JP1255502A patent/JPH0697454B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03116361A (ja) | 1991-05-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0370774B1 (en) | Machine translation system | |
| US5418718A (en) | Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters | |
| EP0230340A2 (en) | Machine translation system | |
| JPH0697454B2 (ja) | 文字処理装置 | |
| JPH0638260B2 (ja) | 文字処理装置及びその方法 | |
| JPH0638261B2 (ja) | 文字処理装置及びその方法 | |
| JPH0640328B2 (ja) | 文字処理装置 | |
| JP2675912B2 (ja) | 文字処理装置 | |
| JP3236190B2 (ja) | 文字処理装置及びその方法 | |
| JP2698458B2 (ja) | 文字処理装置 | |
| JP2688651B2 (ja) | 文字列変換装置 | |
| JP3278148B2 (ja) | 文字処理装置及びその方法 | |
| JP2714238B2 (ja) | 文字処理装置 | |
| JP2714239B2 (ja) | 文字処理装置 | |
| JP2899087B2 (ja) | 文字処理装置 | |
| JPS5998236A (ja) | 日本文入力装置 | |
| JP2603269B2 (ja) | 文字処理装置 | |
| JPH0628057B2 (ja) | 文字処理装置 | |
| JPH01204174A (ja) | 文字処理装置 | |
| JPH0576064B2 (ja) | ||
| JPH10187706A (ja) | 文書処理方法及びその装置 | |
| JPH03296855A (ja) | かな漢字変換装置 | |
| JPH08292954A (ja) | かな漢字変換装置 | |
| JPH10187705A (ja) | 文書処理方法及びその装置 | |
| JPH09231226A (ja) | 機械翻訳用辞書メンテナンス装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |