JPH0221021B2 - - Google Patents
Info
- Publication number
- JPH0221021B2 JPH0221021B2 JP58236836A JP23683683A JPH0221021B2 JP H0221021 B2 JPH0221021 B2 JP H0221021B2 JP 58236836 A JP58236836 A JP 58236836A JP 23683683 A JP23683683 A JP 23683683A JP H0221021 B2 JPH0221021 B2 JP H0221021B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- series
- kana
- phrase
- bunsetsu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は例えば文単位として入力されるような
長さの長い連続仮名文字系列を適宜文節単位に区
切りながら仮名漢字変換を行つて漢字仮名混じり
の日本語文章を効果的に作成することのできる仮
名漢字変換装置に関する。
長さの長い連続仮名文字系列を適宜文節単位に区
切りながら仮名漢字変換を行つて漢字仮名混じり
の日本語文章を効果的に作成することのできる仮
名漢字変換装置に関する。
従来の日本語ワードプロセツサ等における仮名
漢字入力の単位は、一般に単一文節に限られてお
り、また名詞の複合語の入力においても高々数単
位程度に限定されているものが殆んどである。従
つて、この種の装置を用いて日本語文章を入力作
成する場合、単語あるいは文節の単位を常に意識
しなければならず、オペレータにとつて大きな負
担となつた。そこで最近では文章入力の単位を制
限することなく、文単位の読み仮名列、所謂ベタ
文を入力し、このベタ文に対して仮名漢字変換処
理を行う研究が種々試みられている。それらは具
体的には、例えば文節解析処理を再帰的に行うこ
とでその目的を達成している。然し乍ら、この為
には相当長い処理時間を必要とし、またバツフア
メモリを大量に消費せざるを得ないという問題が
あつた。また処理時間およびメモリ量を制限して
文節解析処理のアルゴリズムを簡素化することが
考えられているが、その変換処理精度が劣化する
ことが否めなかつた。しかも、このようにして得
られた変換結果をどのように表示出力すれば、そ
の同音語選択の指示を扱い易くできるかが大きな
課題となつていた。
漢字入力の単位は、一般に単一文節に限られてお
り、また名詞の複合語の入力においても高々数単
位程度に限定されているものが殆んどである。従
つて、この種の装置を用いて日本語文章を入力作
成する場合、単語あるいは文節の単位を常に意識
しなければならず、オペレータにとつて大きな負
担となつた。そこで最近では文章入力の単位を制
限することなく、文単位の読み仮名列、所謂ベタ
文を入力し、このベタ文に対して仮名漢字変換処
理を行う研究が種々試みられている。それらは具
体的には、例えば文節解析処理を再帰的に行うこ
とでその目的を達成している。然し乍ら、この為
には相当長い処理時間を必要とし、またバツフア
メモリを大量に消費せざるを得ないという問題が
あつた。また処理時間およびメモリ量を制限して
文節解析処理のアルゴリズムを簡素化することが
考えられているが、その変換処理精度が劣化する
ことが否めなかつた。しかも、このようにして得
られた変換結果をどのように表示出力すれば、そ
の同音語選択の指示を扱い易くできるかが大きな
課題となつていた。
例えば、「ざんだかをもとめる」なる文字列を
仮名入力した場合、「ざんだかを/もとめる」と
機械的に文節分割ができることが予想されるが、
あるいは「ざんだかをも/とめる」という分割形
式も文法的にありうる。この場合、一般に経験的
にみて所謂最長一致するものが確からしいと考え
られるが、このような経験則だけに基いて、常に
入力文字列の前方から文節解析処理を行い、例え
ば「残高をも/止める」だけを抽出したのではそ
の変換精度が著しく悪くなる。従つて、結局「残
高をも/止める」、及び「残高を/求める」等の
複数の変換候補を抽出し、その選択をオペレータ
の判断に委ねることが必要となる。
仮名入力した場合、「ざんだかを/もとめる」と
機械的に文節分割ができることが予想されるが、
あるいは「ざんだかをも/とめる」という分割形
式も文法的にありうる。この場合、一般に経験的
にみて所謂最長一致するものが確からしいと考え
られるが、このような経験則だけに基いて、常に
入力文字列の前方から文節解析処理を行い、例え
ば「残高をも/止める」だけを抽出したのではそ
の変換精度が著しく悪くなる。従つて、結局「残
高をも/止める」、及び「残高を/求める」等の
複数の変換候補を抽出し、その選択をオペレータ
の判断に委ねることが必要となる。
また、「けいさんしき」という入力に対しても、
もし装置内の辞書に「計算式」という単語が登録
されていないとすると、結果は同様にして「計
算/式」、「計算し/木」と云うように複数の変換
結果が生じる。更には「毛/遺産/式」のような
変換結果も生じる。更には仮に「るけい=“流
刑”」という単語が辞書登録されているとすれば、
「残高を/求め/流刑/算式」という候補も出現
する。
もし装置内の辞書に「計算式」という単語が登録
されていないとすると、結果は同様にして「計
算/式」、「計算し/木」と云うように複数の変換
結果が生じる。更には「毛/遺産/式」のような
変換結果も生じる。更には仮に「るけい=“流
刑”」という単語が辞書登録されているとすれば、
「残高を/求め/流刑/算式」という候補も出現
する。
ところで、このような入力に対する多様な変換
結果の中で、最も確からしいものを第1順位に出
力するための評価処理として、例えば、全体を構
成する文節数あるいは単語数の少ない順に優先度
を決定する方法が考えられている。具体的には、
例えば「こうがくしよとく」の入力に対して、
「高額/所得」を「項が/句/所得」や「項が/
区処と/句」より確からしいと判定するものであ
る。尚、この場合、同音語については使用頻度の
大なる単語から優先して出力するのが自然であ
り、好ましい。しかし、全体を構成する文節数が
同じであつてもその区切り方が異なる場合もあ
り、また変換漏れを少なくするために構成数の多
い解析結果をも含めて出力する場合には、その取
扱うデータ構造が複雑になる。しかもオペレータ
がより選択操作を行い易くする為に、それらの複
数の変換結果をどのように表示出力するかが問題
となる。例えば各々の文節内の同音語部分のみを
輝度変更等の属性を付加して示すだけでは、異な
る文節の区切りを持つ他の文節系列が存在するの
か否かが判らない。更には、同音異議語の選択の
他に、同音異文節構造を選択する必要があること
も有り、問題が多かつた。
結果の中で、最も確からしいものを第1順位に出
力するための評価処理として、例えば、全体を構
成する文節数あるいは単語数の少ない順に優先度
を決定する方法が考えられている。具体的には、
例えば「こうがくしよとく」の入力に対して、
「高額/所得」を「項が/句/所得」や「項が/
区処と/句」より確からしいと判定するものであ
る。尚、この場合、同音語については使用頻度の
大なる単語から優先して出力するのが自然であ
り、好ましい。しかし、全体を構成する文節数が
同じであつてもその区切り方が異なる場合もあ
り、また変換漏れを少なくするために構成数の多
い解析結果をも含めて出力する場合には、その取
扱うデータ構造が複雑になる。しかもオペレータ
がより選択操作を行い易くする為に、それらの複
数の変換結果をどのように表示出力するかが問題
となる。例えば各々の文節内の同音語部分のみを
輝度変更等の属性を付加して示すだけでは、異な
る文節の区切りを持つ他の文節系列が存在するの
か否かが判らない。更には、同音異議語の選択の
他に、同音異文節構造を選択する必要があること
も有り、問題が多かつた。
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、所謂ベタ文のよ
うに長さの長い入力文字列に対する複数の変換候
補単位に対する結果を、判り易く表示出力して文
書作成の効率を図り得る仮名漢字変換装置を提供
することにある。
ので、その目的とするところは、所謂ベタ文のよ
うに長さの長い入力文字列に対する複数の変換候
補単位に対する結果を、判り易く表示出力して文
書作成の効率を図り得る仮名漢字変換装置を提供
することにある。
本発明は、複数の単語を辞書登録した辞書検索
部を用いて一連の入力文字列からその文節単位の
系列を抽出し、これらの各文節をその文節の読み
に対応する仮名漢字混じり表記にそれぞれ変換し
て出力するに際し、前記入力文字列に対する複数
の文節系列の相互に異なる区切り位置の中で最も
前方にある文節区切り位置を基準点として定め、
この基準点を含む文節の該基準点以降に存在する
文字部分である該文節の付属語部分と、この文節
に続く次の文節とを結合し、これを1つの変換候
補の単位として仮名漢字変換出力を行うようにし
たことを特徴とするものである。
部を用いて一連の入力文字列からその文節単位の
系列を抽出し、これらの各文節をその文節の読み
に対応する仮名漢字混じり表記にそれぞれ変換し
て出力するに際し、前記入力文字列に対する複数
の文節系列の相互に異なる区切り位置の中で最も
前方にある文節区切り位置を基準点として定め、
この基準点を含む文節の該基準点以降に存在する
文字部分である該文節の付属語部分と、この文節
に続く次の文節とを結合し、これを1つの変換候
補の単位として仮名漢字変換出力を行うようにし
たことを特徴とするものである。
かくして本発明によれば、例えば上述した例の
「ざんだかをもとめるけいさんしき」という入力
に対して、「残高をも/止める」や「残高を/求
める」のように文節系列の候補を作成し、その変
換候補結果を「[残高]を[も止]める」、「[残
高]を[求]める」等のように求め、これを順に
表示出力するので、同音次候補の選択処理を非常
に簡単化することができる。即ち、例えば、前記
[も止]の部分については、実際上「も止」とい
う単語は存在しないが、その読み仮名である「も
と」の部分に他の同音単語情報や別表記語が存在
している、つまり同じ読みに対応する他の候補が
存在することが示され、文節内の同音語の選択と
同様に同音語次候補の切り換え指示により、異構
造文節列の選択操作を簡易に、且つ効率良く行う
ことができる。従つて、異構造文節列の中の別の
候補を選択する為の特殊な指示キーを設けること
なく、従来の同音語次候補キーを用いてその選択
処理を効率良く行うことが可能となる等の絶大な
る効果が奏せられる。
「ざんだかをもとめるけいさんしき」という入力
に対して、「残高をも/止める」や「残高を/求
める」のように文節系列の候補を作成し、その変
換候補結果を「[残高]を[も止]める」、「[残
高]を[求]める」等のように求め、これを順に
表示出力するので、同音次候補の選択処理を非常
に簡単化することができる。即ち、例えば、前記
[も止]の部分については、実際上「も止」とい
う単語は存在しないが、その読み仮名である「も
と」の部分に他の同音単語情報や別表記語が存在
している、つまり同じ読みに対応する他の候補が
存在することが示され、文節内の同音語の選択と
同様に同音語次候補の切り換え指示により、異構
造文節列の選択操作を簡易に、且つ効率良く行う
ことができる。従つて、異構造文節列の中の別の
候補を選択する為の特殊な指示キーを設けること
なく、従来の同音語次候補キーを用いてその選択
処理を効率良く行うことが可能となる等の絶大な
る効果が奏せられる。
以下、図面を参照して本発明の一実施例装置に
つき説明する。
つき説明する。
第1図は実施例装置の概略構成図である。入力
装置1は鍵盤装置や音声認識装置、仮名文字読取
り装置等からなる。この入力装置1を介して入力
される読みを表わす文字列(第1の文字列)は、
例えば仮名文字コードに変換された後、仮名漢字
変換部2に与えられる。尚、上記読みを表わす第
1の文字列は、例えば平仮名、片仮名、ローマ字
等として示されるものである。
装置1は鍵盤装置や音声認識装置、仮名文字読取
り装置等からなる。この入力装置1を介して入力
される読みを表わす文字列(第1の文字列)は、
例えば仮名文字コードに変換された後、仮名漢字
変換部2に与えられる。尚、上記読みを表わす第
1の文字列は、例えば平仮名、片仮名、ローマ字
等として示されるものである。
仮名漢字変換部2は、例えばブロツク抽出部2
a、総文節系列抽出部2b、文節抽出部2c、お
よび変換辞書3により構成される。この仮名漢字
変換部2は、前記入力装置1より転送された第1
の文字列に対して、それに該当する漢字混じりの
表示文字列からなる第2の文字列を求め、これを
出力制御部4に与えている。ブロツク抽出部2a
は、上記第1の文字列に対して、特に長さの長い
入力文字列を能率よく解析する為に設けられたも
のでり、予め設定されている数値N、例えばN=
4として、N文節以内の文節系列として対応づけ
る文節解析結果を求めるもので、対応した文節解
析結果がない時には、上記第1の入力文字列を幾
つかのブロツク区間に分割している。そしてこの
ようにして分割した各ブロツクの読み仮名列を総
文節系列抽出部2bに送り、またこの総文節系列
抽出部2bで求められた前記各ブロツクについて
の仮名漢字変換結果、即ち第2の文字列を順次出
力制御部4に送つている。
a、総文節系列抽出部2b、文節抽出部2c、お
よび変換辞書3により構成される。この仮名漢字
変換部2は、前記入力装置1より転送された第1
の文字列に対して、それに該当する漢字混じりの
表示文字列からなる第2の文字列を求め、これを
出力制御部4に与えている。ブロツク抽出部2a
は、上記第1の文字列に対して、特に長さの長い
入力文字列を能率よく解析する為に設けられたも
のでり、予め設定されている数値N、例えばN=
4として、N文節以内の文節系列として対応づけ
る文節解析結果を求めるもので、対応した文節解
析結果がない時には、上記第1の入力文字列を幾
つかのブロツク区間に分割している。そしてこの
ようにして分割した各ブロツクの読み仮名列を総
文節系列抽出部2bに送り、またこの総文節系列
抽出部2bで求められた前記各ブロツクについて
の仮名漢字変換結果、即ち第2の文字列を順次出
力制御部4に送つている。
上記総文節系列抽出部2bは、文節抽出部2c
を用いて前記第1の文字列を分割可能な文節系列
に分割し、これらの文節系列についてそれぞれ求
められた仮名漢字混り表記の変換結果を上記ブロ
ツク抽出部2aに出力するものである。文節系列
は前記入力文字列の文節分割可能な全ての組合せ
について求められ、例えば優先度の評価によつ
て、その確からしい候補の順に順位付されたの
ち、その第1順位のものから順に出力される。
尚、優先度の評価としては、一般に文節個数が少
ないもののほうが入力目的とする漢字混り文に対
応している傾向が高いことから、例えば文節個数
の少ない文節系列を優先して出力する等して行わ
れる。
を用いて前記第1の文字列を分割可能な文節系列
に分割し、これらの文節系列についてそれぞれ求
められた仮名漢字混り表記の変換結果を上記ブロ
ツク抽出部2aに出力するものである。文節系列
は前記入力文字列の文節分割可能な全ての組合せ
について求められ、例えば優先度の評価によつ
て、その確からしい候補の順に順位付されたの
ち、その第1順位のものから順に出力される。
尚、優先度の評価としては、一般に文節個数が少
ないもののほうが入力目的とする漢字混り文に対
応している傾向が高いことから、例えば文節個数
の少ない文節系列を優先して出力する等して行わ
れる。
文節抽出部2cは、入力された文字コード列と
変換辞書3に予め登録された文字列(単語)との
間で照合検索を行い、上記第1の文字列に該当す
る漢字混りの表記文字からなる第2の文字列を求
めている。変換辞書3は、例えば第2図にそのメ
モリ構成例を示すように、入力見出し表領域3
a、出力見出し表領域3bおよび品詞領域3cと
を備え、上記入力見出し表領域3aに読みを表わ
す第1の文字列を格納し、またこの第1の文字列
に対応する漢字混じりの表記文字からなる第2の
文字列を上記出力見出し表領域3bに格納したも
のとなつている。そして品詞領域3cには、上記
第1および第2の文字列に対する品詞の情報を格
納している。
変換辞書3に予め登録された文字列(単語)との
間で照合検索を行い、上記第1の文字列に該当す
る漢字混りの表記文字からなる第2の文字列を求
めている。変換辞書3は、例えば第2図にそのメ
モリ構成例を示すように、入力見出し表領域3
a、出力見出し表領域3bおよび品詞領域3cと
を備え、上記入力見出し表領域3aに読みを表わ
す第1の文字列を格納し、またこの第1の文字列
に対応する漢字混じりの表記文字からなる第2の
文字列を上記出力見出し表領域3bに格納したも
のとなつている。そして品詞領域3cには、上記
第1および第2の文字列に対する品詞の情報を格
納している。
しかして文節抽出部2cは、与えられた入力文
字列に対して、例えば公知の前方最長一致法によ
り、変換辞書3の入力見出し表領域3aに予め登
録されている文字列(単語)を検索し、その活用
語尾や付属語の解析等を行つて、前記入力文字列
の頭字より最も長く一致した入力文字列部分を文
節抽出結果として求めている。この時、上記の活
用語尾の解析は品詞領域3cに格納された品詞項
目に基いて行われる。そして、この解析によつて
見出された文節抽出結果に対応する漢字混りの表
記文字からなる第2の文字列を前記出力見出し表
領域3bから読出し、これを出力している。更に
このとき、前記総文節系列抽出部2bは、前記文
節抽出部2cへの入力単位(文節抽出結果)を、
前記入力文字列に対して定められたブロツク区間
における文節分割可能な組合せについて様々に変
化させ、その中の最も確からしい文節系列を求め
ている。
字列に対して、例えば公知の前方最長一致法によ
り、変換辞書3の入力見出し表領域3aに予め登
録されている文字列(単語)を検索し、その活用
語尾や付属語の解析等を行つて、前記入力文字列
の頭字より最も長く一致した入力文字列部分を文
節抽出結果として求めている。この時、上記の活
用語尾の解析は品詞領域3cに格納された品詞項
目に基いて行われる。そして、この解析によつて
見出された文節抽出結果に対応する漢字混りの表
記文字からなる第2の文字列を前記出力見出し表
領域3bから読出し、これを出力している。更に
このとき、前記総文節系列抽出部2bは、前記文
節抽出部2cへの入力単位(文節抽出結果)を、
前記入力文字列に対して定められたブロツク区間
における文節分割可能な組合せについて様々に変
化させ、その中の最も確からしい文節系列を求め
ている。
仮名漢字変換部2は、このような文節系列に対
して求められた仮名漢字混じり表記からなる第2
の文字列を出力制御部4の出力データメモリ5に
転送している。出力制御部4はこれらのデータを
所定の表示出力形式に変換し、文書表示用メモリ
6を介して表示装置7に出力している。
して求められた仮名漢字混じり表記からなる第2
の文字列を出力制御部4の出力データメモリ5に
転送している。出力制御部4はこれらのデータを
所定の表示出力形式に変換し、文書表示用メモリ
6を介して表示装置7に出力している。
ここで前記出力データメモリ5は第3図aに示
すように組合せテーブル5a、マツピングテーブ
ル5b、見出し語テーブル5cからなり、上記辞
書検索部2によつて変換された見出し語を、各組
合せの構造と併わせて記憶するものである。この
例は第4図aに示す日本語文の例をデータ格納構
造を表現したもので、組合せテーブル5aは、前
記入力文字列の文節構造に対応して番号付けされ
た各文節の並びを記述している。このテーブル5
aの行は文節構造の解釈上の種類を、列は個々の
文節構造における文節の繋がりを順に記述したも
のとなつている。即ち、最初のブロツクでは候補
が1種類、2番目のブロツクは2種類、3番目は
3種類の系列候補が有ることが示される。またこ
れらの各数値はマツピングテーブル5bの要素番
号を示している。また各文節単位毎に存在する同
音異議語の見出し語をテーブル5cでグループ化
して記憶し、マツピングテーブル5bの各要素を
ポインタとして、見出し語テーブル5cの各グル
ープをそれぞれ記述している。このようにして入
力の読み仮名位置との対応関係も同時に記述して
いる。
すように組合せテーブル5a、マツピングテーブ
ル5b、見出し語テーブル5cからなり、上記辞
書検索部2によつて変換された見出し語を、各組
合せの構造と併わせて記憶するものである。この
例は第4図aに示す日本語文の例をデータ格納構
造を表現したもので、組合せテーブル5aは、前
記入力文字列の文節構造に対応して番号付けされ
た各文節の並びを記述している。このテーブル5
aの行は文節構造の解釈上の種類を、列は個々の
文節構造における文節の繋がりを順に記述したも
のとなつている。即ち、最初のブロツクでは候補
が1種類、2番目のブロツクは2種類、3番目は
3種類の系列候補が有ることが示される。またこ
れらの各数値はマツピングテーブル5bの要素番
号を示している。また各文節単位毎に存在する同
音異議語の見出し語をテーブル5cでグループ化
して記憶し、マツピングテーブル5bの各要素を
ポインタとして、見出し語テーブル5cの各グル
ープをそれぞれ記述している。このようにして入
力の読み仮名位置との対応関係も同時に記述して
いる。
第3図bは前記出力データメモリ6の内容を表
示装置7に出力する為の文字表示情報を記憶する
前記文書表示用メモリ6のテーブル構造である。
このメモリ6は前記出力データメモリ5の内容に
基いて、同じ読み仮名位置にある同音意義語や異
構造文節列について比較照合し、先ず入力文字列
に対する全ての文節系列候補中の共通の文節区切
り箇所で前記入力文字列を分割し、さらに共通の
付属語文字部分および唯一通り求められる変換結
果部分とをそれぞれ他の部分から切離して記述し
ている。また、ある文節の頭部の見出し語文字に
対して、同じ読み仮名を付属語部分に持つ変換候
補結果については、先の文節頭部に合せて区切
り、区切られた後ろ側の付属語部分の文字列を次
に続く文節に結合させて記述している。即ち、或
る文節系列の文節における付属語の文字であつて
も、対応する同じ読みの部分が他の文節系列中に
おいて自立語の始りの一部になつていれば、その
付属語の文字は次に続く文節の変換候補に結合さ
せて記述している。これらの同音語は後述するよ
うに、その表示属性を通常の表示属性とは異なら
せて表示出力される。第5図a〜dはその表示例
であり、斜線部が表示属性の異なりを示してい
る。この表示属性の変更は、例えば表示文字の反
転、ブリンク、輝度変更、下線付等によつて行わ
れる。
示装置7に出力する為の文字表示情報を記憶する
前記文書表示用メモリ6のテーブル構造である。
このメモリ6は前記出力データメモリ5の内容に
基いて、同じ読み仮名位置にある同音意義語や異
構造文節列について比較照合し、先ず入力文字列
に対する全ての文節系列候補中の共通の文節区切
り箇所で前記入力文字列を分割し、さらに共通の
付属語文字部分および唯一通り求められる変換結
果部分とをそれぞれ他の部分から切離して記述し
ている。また、ある文節の頭部の見出し語文字に
対して、同じ読み仮名を付属語部分に持つ変換候
補結果については、先の文節頭部に合せて区切
り、区切られた後ろ側の付属語部分の文字列を次
に続く文節に結合させて記述している。即ち、或
る文節系列の文節における付属語の文字であつて
も、対応する同じ読みの部分が他の文節系列中に
おいて自立語の始りの一部になつていれば、その
付属語の文字は次に続く文節の変換候補に結合さ
せて記述している。これらの同音語は後述するよ
うに、その表示属性を通常の表示属性とは異なら
せて表示出力される。第5図a〜dはその表示例
であり、斜線部が表示属性の異なりを示してい
る。この表示属性の変更は、例えば表示文字の反
転、ブリンク、輝度変更、下線付等によつて行わ
れる。
次に第3図に示す仮名文字入力例を用いて、上
記仮名漢字変換部2における仮名漢字変換処理に
つき説明する。
記仮名漢字変換部2における仮名漢字変換処理に
つき説明する。
ブロツク抽出部2aは入力された文字系列の先
頭から最大N文節の系列を可能な限り求めてい
る。ここでNを例えば4とすると第4図aに示す
例では、先づ入力系列全体を文節抽出部2cに入
力し、最長一致法により「そして」を第1の文節
結果として得る。次にこの文節切れ目以降を始点
(次の文節開始文字位置)として同様に最長一致
結果を求め、「こんごのと」なる文節を得る。こ
のような処理を順に繰返して第1の文節系列候補
「そして/こんごのと/うしは/かいていし」を
第4図b中の項目「ア」の如く得る。次にこの項
目「ア」で得られた文節系列と別の文節系列を得
るために、第3番目の文節結果「うしは」の最後
の1文字、つまりその文節において付属語として
解析される「は」を削除してこれを文節抽出部2
cに送り、同様にして最長一致結果「うし」なる
文節を得、続く「は」で始まる文節として「は」
を求める。以下、同様にして上記第3、第2およ
び第1の文節により短い文節が得られる都度、更
にこれらに続く別の文節列を順次求める。このよ
うにして入力文字列に対して文節分割可能な全て
の4文節系列を第4図bに示す如く求める。尚こ
の時、対応する漢字混じりの見出し語候補(第2
の文字列)も同時に求めておく。
頭から最大N文節の系列を可能な限り求めてい
る。ここでNを例えば4とすると第4図aに示す
例では、先づ入力系列全体を文節抽出部2cに入
力し、最長一致法により「そして」を第1の文節
結果として得る。次にこの文節切れ目以降を始点
(次の文節開始文字位置)として同様に最長一致
結果を求め、「こんごのと」なる文節を得る。こ
のような処理を順に繰返して第1の文節系列候補
「そして/こんごのと/うしは/かいていし」を
第4図b中の項目「ア」の如く得る。次にこの項
目「ア」で得られた文節系列と別の文節系列を得
るために、第3番目の文節結果「うしは」の最後
の1文字、つまりその文節において付属語として
解析される「は」を削除してこれを文節抽出部2
cに送り、同様にして最長一致結果「うし」なる
文節を得、続く「は」で始まる文節として「は」
を求める。以下、同様にして上記第3、第2およ
び第1の文節により短い文節が得られる都度、更
にこれらに続く別の文節列を順次求める。このよ
うにして入力文字列に対して文節分割可能な全て
の4文節系列を第4図bに示す如く求める。尚こ
の時、対応する漢字混じりの見出し語候補(第2
の文字列)も同時に求めておく。
次にこれらの系列のうちで、その全体の長さが
最長となる候補(文節系列)だけに着目する。こ
のことは先に示したように入力による文節数が最
小となる系列が、入力目的とする変換結果に合つ
ている傾向が高いと云うことに立脚している。こ
のことは、一つのブロツクの文節構成数が最小で
あればよく、また文節の構成数が同じであれば、
そのブロツクはより長い長さをもつことを意味し
ている。
最長となる候補(文節系列)だけに着目する。こ
のことは先に示したように入力による文節数が最
小となる系列が、入力目的とする変換結果に合つ
ている傾向が高いと云うことに立脚している。こ
のことは、一つのブロツクの文節構成数が最小で
あればよく、また文節の構成数が同じであれば、
そのブロツクはより長い長さをもつことを意味し
ている。
しかして前記第4図bに示される結果の中で、
最長の文節系列となるものは、項目「ア」と項目
「ウ」に示されるものである。そこで次にこれら
文節系列が共通に文節の切れ目をもつている個所
を見つける。この例では「そして/〜」と「〜
は/〜」とが共通の文節区切り箇所として求めら
れる。ブロツク抽出部2aはこのような2つの位
置をブロツクの区切りと判定するもので、第1ブ
ロツク区間を「そして」、第2ブロツク区間を
「こんごのとうしは」とする。そして順次これら
の区間の文字列を総文節列解析部2bに解析さ
せ、それらの変換結果を出力制御部4へ送つてい
る。この結果、上記第1のブロツク区間は「そし
て」のみの候補となり、この情報が先ず出力制御
部4へ送られる。尚、この場合、他に同音語が無
いので、そのまま文書中の文字データ(変換結
果)として通常形態で表示される。しかる後、第
2ブロツク区間の解析が行われる。
最長の文節系列となるものは、項目「ア」と項目
「ウ」に示されるものである。そこで次にこれら
文節系列が共通に文節の切れ目をもつている個所
を見つける。この例では「そして/〜」と「〜
は/〜」とが共通の文節区切り箇所として求めら
れる。ブロツク抽出部2aはこのような2つの位
置をブロツクの区切りと判定するもので、第1ブ
ロツク区間を「そして」、第2ブロツク区間を
「こんごのとうしは」とする。そして順次これら
の区間の文字列を総文節列解析部2bに解析さ
せ、それらの変換結果を出力制御部4へ送つてい
る。この結果、上記第1のブロツク区間は「そし
て」のみの候補となり、この情報が先ず出力制御
部4へ送られる。尚、この場合、他に同音語が無
いので、そのまま文書中の文字データ(変換結
果)として通常形態で表示される。しかる後、第
2ブロツク区間の解析が行われる。
ここで、前記総文節列解析部2bは、与えられ
たブロツク区間の読みに対応した文字系列を総当
りで求めるものであるが、実際には第4図bに示
すように既に文節系列が求められているので、そ
の指定区間の範囲に対応するものだけ選べば十分
である。そして優先度の評価として、例えば文節
数最小の構成の候補だけを選ぶと、その解析結果
は第4図dの項目「」のようになる。勿論、そ
の他の文節候補列も出力データメモリ5に与えて
おくようにしてもよい。例えば「今後の/問う/
誌は」をも、出力結果に加えることも可能であ
る。
たブロツク区間の読みに対応した文字系列を総当
りで求めるものであるが、実際には第4図bに示
すように既に文節系列が求められているので、そ
の指定区間の範囲に対応するものだけ選べば十分
である。そして優先度の評価として、例えば文節
数最小の構成の候補だけを選ぶと、その解析結果
は第4図dの項目「」のようになる。勿論、そ
の他の文節候補列も出力データメモリ5に与えて
おくようにしてもよい。例えば「今後の/問う/
誌は」をも、出力結果に加えることも可能であ
る。
さて、ブロツク抽出部2aは、次に前記入力文
字系列のうちで未だにブロツクが決定していない
残りの部分、つまり「かいていしげ……」なる文
字列について、同様の方法でブロツクの単位を求
め、第4図dの項目「」に示す如き変換結果を
求める。続いて変換結果「限つて」を第3図dの
項目「」のように求め、その入力系列全体に対
する変換処理を終了することになる。
字系列のうちで未だにブロツクが決定していない
残りの部分、つまり「かいていしげ……」なる文
字列について、同様の方法でブロツクの単位を求
め、第4図dの項目「」に示す如き変換結果を
求める。続いて変換結果「限つて」を第3図dの
項目「」のように求め、その入力系列全体に対
する変換処理を終了することになる。
以上の変換結果は各ブロツク毎に出力制御部4
へ送られる。出力制御部4は出力データメモリ5
に格納された各ブロツク毎のデータをそれぞれ変
換し、文書表示用メモリ6に順次スタツクし、表
示装置7に出力する。即ち、出力制御部4では文
書表示用データを前記第3図bの如く作成し、こ
れを先ず第4図aに示すように表示装置7に出力
している。上記の例では、「今後のと」の文節候
補に対しては、自立語部が、“今後”として、付
属語部が“のと”として分離される。文節候補
「牛は」も同様に“牛”と“は”に分離される。
また第2文節系列候補では自立語部が“今後”、
付属語部が“の”として分離され、「投資は」は
“投資”と“は”とに分離される。従つてこの場
合、“の”と“は”は共に共通の付属語文字であ
り、また“今後”には他に同音語がないので、こ
れらの文字部分については通常の表示形態で表示
される。また他の文字については複数の変換候補
(同音異字)が存在することから、これを強調し
て示すために例えば高輝度で表示される。つま
り、文節「今後のと」における“と”は付属語で
はあるが、次の文節単語「牛」と共に扱われる。
へ送られる。出力制御部4は出力データメモリ5
に格納された各ブロツク毎のデータをそれぞれ変
換し、文書表示用メモリ6に順次スタツクし、表
示装置7に出力する。即ち、出力制御部4では文
書表示用データを前記第3図bの如く作成し、こ
れを先ず第4図aに示すように表示装置7に出力
している。上記の例では、「今後のと」の文節候
補に対しては、自立語部が、“今後”として、付
属語部が“のと”として分離される。文節候補
「牛は」も同様に“牛”と“は”に分離される。
また第2文節系列候補では自立語部が“今後”、
付属語部が“の”として分離され、「投資は」は
“投資”と“は”とに分離される。従つてこの場
合、“の”と“は”は共に共通の付属語文字であ
り、また“今後”には他に同音語がないので、こ
れらの文字部分については通常の表示形態で表示
される。また他の文字については複数の変換候補
(同音異字)が存在することから、これを強調し
て示すために例えば高輝度で表示される。つま
り、文節「今後のと」における“と”は付属語で
はあるが、次の文節単語「牛」と共に扱われる。
従つて、表示装置7には、「そして今後の[と
牛]は[改定し限界発に]限つて」と表示される
ことになる。尚、[ ]内は高輝度表示される文
字を示している。
牛]は[改定し限界発に]限つて」と表示される
ことになる。尚、[ ]内は高輝度表示される文
字を示している。
ここで目的とする見出し語の選択の為に、入力
装置1には例えば第1図中1aに示すように選択
キーが設けられている。この選択キー1aは、例
えば第5図に示すように[と牛]の部分にカーソ
ル1bを合わせ、この状態で前記選択キー1aが
操作されたとき、その表示を次の候補に変更する
役割を担うものである。従つてこの場合には、第
4図aに示されるテーブル5aの第1行目の構造
に代えて、第2行目に示す文節列構造、即ち「今
後の[投資]は」が第5図bに示す如く出力表示
される。そして、更に前記選択キー1aを操作し
ていくと[投資]が[闘志]、[透視]の如く、順
次他の同音語に変更され、再び元の[と牛]の表
示に戻ることになる。尚、これらの動作は前記第
3図bに示した文書表示用メモリ6に格納された
データに基づいて行われる。
装置1には例えば第1図中1aに示すように選択
キーが設けられている。この選択キー1aは、例
えば第5図に示すように[と牛]の部分にカーソ
ル1bを合わせ、この状態で前記選択キー1aが
操作されたとき、その表示を次の候補に変更する
役割を担うものである。従つてこの場合には、第
4図aに示されるテーブル5aの第1行目の構造
に代えて、第2行目に示す文節列構造、即ち「今
後の[投資]は」が第5図bに示す如く出力表示
される。そして、更に前記選択キー1aを操作し
ていくと[投資]が[闘志]、[透視]の如く、順
次他の同音語に変更され、再び元の[と牛]の表
示に戻ることになる。尚、これらの動作は前記第
3図bに示した文書表示用メモリ6に格納された
データに基づいて行われる。
ところで前記第3図bに示される文書対応テー
ブル6aは、表示装置7の表示画面上の座標値i
1〜i7と出力データ(変換結果)との対応を表
したものである。表示語テーブル6bは出力デー
タの内容を示している。しかして変換候補の表示
は、先ず文書対応テーブル6aのデータi3によ
つて表示語テーブル6bの「と牛」が指示さ
れ、これが表示される。しかる後、前記選択キー
1aが操作されると、データi3によつてそのブ
ロツクにおける次の候補「投資」にポインタが
進められ、表示が切換えられる。このようにして
ポインタが進められて「凍死」まで表示が切替
えられると、その次には再び「と牛」に戻るよ
うに制御されている。この表示語テーブル6bに
示されるように、前述したように文節単位に基い
て解析された複数の変換候補結果は、同音異字の
関係に従つて整理され、部分的にその区切りの単
位が変更されている。同様にして「かいていしげ
…」なる文字列についても、自立語部が“改定”、
付属語部が“し”として扱われ、“し”の部分に
ついては他に“資源”という文節単語が存在して
いるので、この“し”は次の文節“限界”と結合
して出力される。続く「発に」までは全候補が共
通に持つ単語の区切りがないので、これらはまと
めて出力される。なお機械処理上、自立語は1単
語毎に文節として扱われる。
ブル6aは、表示装置7の表示画面上の座標値i
1〜i7と出力データ(変換結果)との対応を表
したものである。表示語テーブル6bは出力デー
タの内容を示している。しかして変換候補の表示
は、先ず文書対応テーブル6aのデータi3によ
つて表示語テーブル6bの「と牛」が指示さ
れ、これが表示される。しかる後、前記選択キー
1aが操作されると、データi3によつてそのブ
ロツクにおける次の候補「投資」にポインタが
進められ、表示が切換えられる。このようにして
ポインタが進められて「凍死」まで表示が切替
えられると、その次には再び「と牛」に戻るよ
うに制御されている。この表示語テーブル6bに
示されるように、前述したように文節単位に基い
て解析された複数の変換候補結果は、同音異字の
関係に従つて整理され、部分的にその区切りの単
位が変更されている。同様にして「かいていしげ
…」なる文字列についても、自立語部が“改定”、
付属語部が“し”として扱われ、“し”の部分に
ついては他に“資源”という文節単語が存在して
いるので、この“し”は次の文節“限界”と結合
して出力される。続く「発に」までは全候補が共
通に持つ単語の区切りがないので、これらはまと
めて出力される。なお機械処理上、自立語は1単
語毎に文節として扱われる。
第6図乃至第9図は本装置の上述した処理の流
れを示すものである。第6図に示す制御フローに
おいて、入力装置1からから得られる入力キーコ
ードは常時調べられており、その入力コードが日
本語文の読みに対応する仮名文字コードであれ
ば、順次スタツクに蓄えられる。また上記入力コ
ードが変換要求を示すものであれば第7図に示さ
れる仮名漢字変換処理が行われる。この変換要求
は、入力装置が変換要求キーを有している場合、
オペレータが適当な長さの文字列を入力後、この
変換要求キーを打鍵することにより発生される。
また入力装置が変換要求キーを有するか否かに拘
らず、入力文字が例えば句読点を示すコードであ
つたことを検出した場合には、上記変換要求を自
動的に発生することが望ましい。
れを示すものである。第6図に示す制御フローに
おいて、入力装置1からから得られる入力キーコ
ードは常時調べられており、その入力コードが日
本語文の読みに対応する仮名文字コードであれ
ば、順次スタツクに蓄えられる。また上記入力コ
ードが変換要求を示すものであれば第7図に示さ
れる仮名漢字変換処理が行われる。この変換要求
は、入力装置が変換要求キーを有している場合、
オペレータが適当な長さの文字列を入力後、この
変換要求キーを打鍵することにより発生される。
また入力装置が変換要求キーを有するか否かに拘
らず、入力文字が例えば句読点を示すコードであ
つたことを検出した場合には、上記変換要求を自
動的に発生することが望ましい。
また入力コードが前記選択キー1aに対応した
ものであれば、第8図に示す同音語選択処理を行
ない、その他のコード、例えば訂正、挿入、削除
等のコードの場合には既に表示された文章につい
て編集処理が行なわれる。また第9図は本発明に
おける第7図中の変換候補の編集出力処理を示す
ものである。
ものであれば、第8図に示す同音語選択処理を行
ない、その他のコード、例えば訂正、挿入、削除
等のコードの場合には既に表示された文章につい
て編集処理が行なわれる。また第9図は本発明に
おける第7図中の変換候補の編集出力処理を示す
ものである。
尚、一般にワードプロセツサでは、同音語の選
択を各変換結果毎に逐次実行するものと、例えば
1頁分の文字列の入力後に一括して選択するもの
が知られているが、本発明装置にあつては、その
いずれの方式であつてもよい。
択を各変換結果毎に逐次実行するものと、例えば
1頁分の文字列の入力後に一括して選択するもの
が知られているが、本発明装置にあつては、その
いずれの方式であつてもよい。
以上説明したように本装置によれば、比較的長
い入力仮名文字列を解析し、仮名漢字混りの文字
列列に変換して日本語文章を作成していく際、そ
の結果として生ずる多数の文節列候補を、単純明
快に表示することができ、オペレータの同音語選
択の操作の能率を上げることができる。つまり、
一つの文節候補における同音語の選択ばかりでは
なく、文節区切りの異なる異文節系列の候補につ
いても前述したように一括して同音字の選択を行
い得る。従つて、同音異議語および同音異文節の
変換候補文字から目的とする仮名漢字変換文字を
簡易に選択して日本語文章を極めて効率良く作成
することができる。またオペレータの負担を大幅
に軽減することができ、その実用的利点は絶大で
ある。
い入力仮名文字列を解析し、仮名漢字混りの文字
列列に変換して日本語文章を作成していく際、そ
の結果として生ずる多数の文節列候補を、単純明
快に表示することができ、オペレータの同音語選
択の操作の能率を上げることができる。つまり、
一つの文節候補における同音語の選択ばかりでは
なく、文節区切りの異なる異文節系列の候補につ
いても前述したように一括して同音字の選択を行
い得る。従つて、同音異議語および同音異文節の
変換候補文字から目的とする仮名漢字変換文字を
簡易に選択して日本語文章を極めて効率良く作成
することができる。またオペレータの負担を大幅
に軽減することができ、その実用的利点は絶大で
ある。
尚、本発明は上記実施例に限定されるものでは
ない。例えば、表示出力用の同音語を順次文書中
表示することに代えて、同音語グループの語句を
文書の下方に表示し、これをオペレータが選択す
るようにしても良い。また同音語グループの中か
ら目的とする文字が選ばれないときには、その後
の変換結果を表示しないようにして、その選択を
促すようにしても良い。要するに本発明はその要
旨を逸脱しない範囲で種々変形して実施すること
ができる。
ない。例えば、表示出力用の同音語を順次文書中
表示することに代えて、同音語グループの語句を
文書の下方に表示し、これをオペレータが選択す
るようにしても良い。また同音語グループの中か
ら目的とする文字が選ばれないときには、その後
の変換結果を表示しないようにして、その選択を
促すようにしても良い。要するに本発明はその要
旨を逸脱しない範囲で種々変形して実施すること
ができる。
第1図は本発明の一実施例を示す装置概略構成
図、第2図は変換辞書のメモリの構成を示す図、
第3図は出力データメモリと文書表示用メモリの
構成を示す図、第4図は入力文字列とその変換処
理を示す図、第5図は変換候補の表示例を示す
図、第6図乃至第9図は変換処理の制御フローの
一例を示す図である。 1…入力装置、2…仮名漢字変換部、3…変換
辞書、4…出力制御部、5…出力データメモリ、
6…制御テーブル、7…表示装置、1a…第1の
選択キー、2a…ブロツク抽出部、2b…総文節
系列抽出部、2c…文節抽出部、3a…入力見出
し表領域、3b…出力見出し表領域、6a…文書
対応テーブル、6b…表示語テーブル。
図、第2図は変換辞書のメモリの構成を示す図、
第3図は出力データメモリと文書表示用メモリの
構成を示す図、第4図は入力文字列とその変換処
理を示す図、第5図は変換候補の表示例を示す
図、第6図乃至第9図は変換処理の制御フローの
一例を示す図である。 1…入力装置、2…仮名漢字変換部、3…変換
辞書、4…出力制御部、5…出力データメモリ、
6…制御テーブル、7…表示装置、1a…第1の
選択キー、2a…ブロツク抽出部、2b…総文節
系列抽出部、2c…文節抽出部、3a…入力見出
し表領域、3b…出力見出し表領域、6a…文書
対応テーブル、6b…表示語テーブル。
Claims (1)
- 【特許請求の範囲】 1 一連の入力文字列を得るための入力装置と、
複数の単語を辞書登録した辞書検索部と、この辞
書検索部を用いて前記入力文字列より文節単位の
系列を抽出する文節系列抽出部と、この文節系列
抽出部によつて求められた各々の文節を該文節の
読みに対応する仮名漢字混じり表記にそれぞれ変
換して出力する結果出力部とを具備し、 前記結果出力部は、前記文節系列抽出部が入力
文字列に対して複数の文節系列を得たとき、これ
らの文節系列の相互に異なる区切り位置の中で最
も前方にある文節区切り位置を基準点として定
め、この基準点を文節区切り位置としない文節系
列に対しては該基準点の直後に存在する付属語と
この付属語に続いて存在する少くとも自立語から
なる文節とを結合して1つの変換候補の単位と
し、前記基準点を文節区切り位置とする文節系列
に対しては該基準点の直後に存在する少くとも自
立語からなる文節を1つの変換候補の単位として
仮名漢字変換出力を行なうことを特徴とする仮名
漢字変換装置。 2 結果出力部は、基準点直後の変換候補の単位
を反転、ブリンク、輝度変更、あるいは下線付け
により表示属性の変更を行つて表示出力するもの
である特許請求の範囲第1項記載の仮名漢字変換
装置。 3 基準点直後の変換候補単位の表示結果は、同
音異語次候補への切換え要求に対して、共通の基
準点を有する複数の変換候補単位の仮名漢字変換
結果を順に出力するものである特許請求の範囲第
1項記載の仮名漢字変換装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58236836A JPS60128559A (ja) | 1983-12-15 | 1983-12-15 | 仮名漢字変換装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58236836A JPS60128559A (ja) | 1983-12-15 | 1983-12-15 | 仮名漢字変換装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60128559A JPS60128559A (ja) | 1985-07-09 |
| JPH0221021B2 true JPH0221021B2 (ja) | 1990-05-11 |
Family
ID=17006501
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58236836A Granted JPS60128559A (ja) | 1983-12-15 | 1983-12-15 | 仮名漢字変換装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60128559A (ja) |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57139870A (en) * | 1981-02-20 | 1982-08-30 | Matsushita Electric Ind Co Ltd | "kana" (japanese syllabary)-chinese character converter |
| JPS57174764A (en) * | 1981-04-20 | 1982-10-27 | Nippon Telegr & Teleph Corp <Ntt> | Word cutting device |
| JPS58114224A (ja) * | 1981-12-28 | 1983-07-07 | Mitsubishi Electric Corp | かな漢字変換方式 |
| JPS58114225A (ja) * | 1981-12-28 | 1983-07-07 | Matsushita Electric Ind Co Ltd | 仮名漢字変換入力方式 |
-
1983
- 1983-12-15 JP JP58236836A patent/JPS60128559A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60128559A (ja) | 1985-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5214583A (en) | Machine language translation system which produces consistent translated words | |
| KR870005314A (ko) | 속기 번역 시스템 | |
| JPH0563831B2 (ja) | ||
| KR900008402B1 (ko) | 기계번역장치 | |
| JPH0221021B2 (ja) | ||
| JP3762300B2 (ja) | テキスト入力処理装置及び方法並びにプログラム | |
| JPH0612537B2 (ja) | かな漢字変換装置 | |
| JPS60108959A (ja) | 文章変換装置 | |
| JPS62197864A (ja) | 言語情報提供装置 | |
| JP3056810B2 (ja) | 文書検索方法および装置 | |
| JPH10247192A (ja) | かな漢字変換装置 | |
| JPS58123124A (ja) | 文章作成装置 | |
| JPH0547859B2 (ja) | ||
| JPH06149790A (ja) | 文章作成装置 | |
| JPS59221731A (ja) | カナ漢字変換処理装置 | |
| JPH0380363A (ja) | 文書処理装置 | |
| JPH08272780A (ja) | 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法 | |
| JP2024021555A (ja) | 日本語入力システムのkearm優先変換 | |
| JP2702443B2 (ja) | 日本語入力装置 | |
| JP2802369B2 (ja) | かな漢字変換装置 | |
| JPH0778795B2 (ja) | 文字処理装置 | |
| JP2002117025A (ja) | かな漢字変換装置およびかな漢字変換方法 | |
| JPH0567074A (ja) | かな漢字変換装置 | |
| JPS5827268A (ja) | 日本語処理装置 | |
| JPH0128977B2 (ja) |