JPH096762A - 中国語用漢字変換装置及び中国語用漢字変換方法 - Google Patents

中国語用漢字変換装置及び中国語用漢字変換方法

Info

Publication number
JPH096762A
JPH096762A JP7181100A JP18110095A JPH096762A JP H096762 A JPH096762 A JP H096762A JP 7181100 A JP7181100 A JP 7181100A JP 18110095 A JP18110095 A JP 18110095A JP H096762 A JPH096762 A JP H096762A
Authority
JP
Japan
Prior art keywords
kanji
string
phonetic symbol
phrase
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7181100A
Other languages
English (en)
Inventor
Takeshi O
斌 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP7181100A priority Critical patent/JPH096762A/ja
Priority to CN 96107169 priority patent/CN1100301C/zh
Publication of JPH096762A publication Critical patent/JPH096762A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 中国語の発音記号入力による漢字変換入力に
際し、適切な文節区切りを行うことにより変換効率及び
入力速度の向上を図ることである。 【構成】 キー入力部1から複数の文節からなる入力す
べき漢字列の読みとなる発音記号列が入力される。CP
U2は、入力された発音記号列に基づき変換辞書8を参
照して、発音記号列を各文節に区切るとともに各文節毎
に候補となる漢字列を表示部4に出力する。また、CP
U2は、発音記号列を各文節に区切る際に、連続する二
つの文節にそれぞれ当てはまる漢字列の文字数の和が最
大となるように変換辞書8を検索する。この場合に、二
文節目に長い漢字列が当てはめられれば、一文節目が一
文字で区切られる可能性がある。従って、一文節目が一
文字で一文節とされる可能性がある中国語の文法に沿っ
た文節区切りが行われる可能性が高い。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、中国語の入力処理にお
いて、発音記号を入力可能なキーボードから入力された
発音記号列を漢字に変換する中国語用漢字変換装置及び
中国語用漢字変換方法に関する。
【0002】
【従来の技術】一般に、中国語の文字の入力処理におい
ては、アルファベットで構成される発音記号(ピンイ
ン)列を入力し、入力された発音記号列に対応する漢字
を辞書から検索して出力するようになっている。すなわ
ち、日本語の文字の入力処理とほぼ同様に、中国語の文
字の入力処理においては、入力された発音記号列を漢字
に変換する漢字変換装置(いわゆるFEP(front end
processor))が必要となる。
【0003】従来、中国語用の漢字変換装置において、
複数の漢字熟語からなる漢字列に対応する発音記号列を
入力した後に、一括して変換処理を行った場合には、辞
書を検索して、発音記号列の先頭から対応する漢字熟語
に順次変換するようになっている。
【0004】この際には、まず、発音記号列の任意の長
さの先頭部分に対応する漢字熟語を辞書から検索する。
そして、複数の漢字熟語が検索され、かつ、検索された
漢字熟語の文字数が異なる場合には、文字数が最も多い
長い漢字熟語が優先的に選択される。そして、上記発音
記号列の選択された漢字熟語に対応する先頭部分が一つ
の文節とされる。
【0005】次いで、上記発音記号列から検索された漢
字熟語に対応する先頭部分を除いた発音記号列におい
て、上述のような処理を行うとともに、発音記号列の全
ての部分を漢字に変換するまで上述の処理が繰り返し行
われる。すなわち、複数の漢字熟語からなる漢字列に対
応する発音記号列を一括変換した場合には、発音記号列
が先頭から順番に複数の文節に分割されることになる
が、この際には、文節を構成する漢字列の文字数が最大
となるように一文節文字数最大処理が行われるようにな
っている。
【0006】上記一文節文字数最大処理は以下のように
行われる。例えば、漢字入力装置に、”中国人民”の発
音記号列として”zhong guo ren min
g”を入力するものとする。そして、辞書に以下の表1
に示す漢字熟語が登録されているものとする。
【0007】 この場合に、”zhong guo ren min
g”の任意の長さの先頭部分に対応する漢字列を辞書か
ら検索すると、”中”、”中国”、”中国人”、”中国
人民”が検索範囲に含まれることになる。
【0008】ここで、入力された発音記号列の任意の長
さの先頭部分に対応する漢字列のうち最も文字数の多い
漢字列に基づいて文節が区切られるので、”中国人民”
に対応する発音記号列である”zhong guo r
en ming”が一つの文節とされる。
【0009】そして、一つの文節とされた”zhong
guo ren ming”に対応する漢字列として
辞書に中国人民だけが登録されていれば、上記発音記号
列に対して中国人民が出力される。
【0010】なお、同音の漢字が多数あるので、発音記
号列を漢字一文字分ずつに分割して漢字に変換した場合
に、各分割部分に多くの候補となる漢字が出力されるこ
とになり、同音漢字の中から目的とする漢字を選択する
のにとても手間かかり変換処理に長い時間が必要とな
る。
【0011】そこで、上述のように発音記号列をできる
だけ長い文節に分割することにより、各分割部分に対応
する漢字列の数を大幅に絞り込むことができ、同音の漢
字列から目的とする漢字列を選択する処理を省力化し、
変換処理にかかる時間を減少させることができる。
【0012】なお、上記漢字変換装置において、発音記
号列が文節に分割されることになるが、意図した文節の
区切り位置と異なる位置で文節に分割され、入力すべき
漢字列が変換候補に含まれない場合には、オペレータが
文節の区切り位置を変更し、変換処理を再び行う必要が
ある。
【0013】また、中国語の発音においては、同じアル
ファベットの発音記号で表される言葉でも、発音する際
の音程の上げ下げにより意味が異なる言葉となり、この
言葉に対応する漢字も異なるものとなっている。従っ
て、中国語の発音記号には、上述のアルファベットで示
される発音記号に、発音する際の音程の上げ下げを示す
声調記号が付されている。
【0014】そして、漢字変換装置において、上記声調
記号がついた発音記号を入力するものとすれば、同音異
義語を減らして変換効率の向上を図ることができるが、
キーボードから声調記号のついた発音記号を入力するも
のとした場合には、中国語の発音記号用のキーボードが
必要となるとともに、入力速度が低下することになる。
【0015】上述の漢字変換方法は、声調記号のない発
音記号を用いた場合の例である。
【0016】また、上記漢字熟語とは、辞書に登録され
た一つの発音記号列に対する一つの漢字列であり、必ず
しも日本の熟語と同一ものではなく、例えば、辞書にお
いて、一つの発音記号列に対して一文字の漢字が登録さ
れていた場合には、この漢字一文字も漢字熟語となる。
【0017】
【発明が解決しようとする課題】ところで、中国語にお
いては、一文字の漢字熟語が主語(例えば、我、他
…)、前置詞(例えば、在、从、又…)、否定語(例え
ば、不…)、修飾語(例えば、很…)として、一つのセ
ンテンスの先頭文節に出てくる可能性が高いため、入力
された文字列の先頭の文節が一文字となることが多い。
【0018】しかし、上述の一文節文字数最大処理にお
いては、入力された発音記号列の先頭の文節の文字数を
上記発音記号列の先頭部分に対応する漢字熟語のうちの
最も長い漢字熟語に基づいて決定しているので、先頭文
節が二文字以上になる可能性が高い。
【0019】従って、中国語の文法上では、先頭文節が
一文字となる場合が頻繁にあるのに、従来の中国語用漢
字変換装置では、先頭文節が二文字以上となる可能性が
高いので、文節区切り位置が不適切になる可能性があ
る。
【0020】すなわち、上記中国語用漢字変換装置にお
いて、複数の文節からなる発音記号列を入力した場合に
は、上述のように不適切な文節区切りが行われて最初の
変換時に入力すべき漢字列とは異なる漢字列が出力され
る可能性が高く、変換効率の低下を招いていた。
【0021】また、上述のように文節の区切り位置が不
適切なため、入力すべき漢字列とは異なる漢字列が候補
として出力された場合には、辞書から各文節毎に同音の
漢字列を検索しても、同音の漢字列に目的とする漢字列
が含まれていない可能性が高い。この場合、文節の区切
り位置を変更した後に再変換を行なわないと、入力すべ
き漢字列を検索できないので、入力速度の低下を招くこ
とになる。
【0022】例えば、従来の漢字変換装置に”在不知不
覚中”の発音記号列として”zaibu zhi bu
jue zhong”を入力したものとする。な
お、”在不知不覚中”の正しい文節は、文節区切り位置
を:で示した場合に以下のようになる。
【0023】:在:不 知 不 覚:中: また、辞書に以下の表2に示す漢字熟語が登録されてい
るものとする。
【0024】 この場合の漢字変換装置の変換においては、上記一文節
文字数最大処理により、発音記号列”zai bu z
hi bu jue zhong”の先頭部分に対応す
る辞書に登録された任意の文字数の漢字列のうちの最も
長い文字数の漢字列に基づいて最初の文節が区切られる
ことになる。
【0025】ここでは、”zai bu zhi bu
jue zhong”の先頭部分に対応する漢字列と
して、在と再不とが登録されているが、再不の方が文字
数が多いので、再不に対応して”zai bu”が最初
の文節とされ、最初の文節の第一候補となる漢字列が再
不となる。
【0026】また、最初の文節を除く残りの発音記号列
についても、上記一文節文字数最大処理に基づいて文節
の分割及び各文節の第一候補となる漢字列を出力した場
合には、例えば、”再不支部絶種”となる。
【0027】なお、”再不支部絶種”の文節区切り位置
は以下に示すものである。 :再 不:支 部:絶 種: (:zai bu:zhi bu:zhong:) 以上のように、最初の文節区切り位置が不適切な場合に
は、それ以降の文節区切り位置も不適切なものとなり、
各文節の漢字列も正しく変換されなくなる。また、上述
のように発音記号列の各文節毎に他の同音の候補となる
漢字列から入力すべき漢字列に対応する漢字列を検索し
ても、目的とする漢字列が検索できない可能性が高い。
【0028】従って、オペレータが文節区切り位置を正
しい位置に変更して、再変換を行う必要がる。本発明の
課題は、中国語用漢字変換装置において、中国語の文法
にできるだけ即した文節区切りを行うことによって、漢
字変換入力の変換効率及び入力速度の向上を図ることで
ある。
【0029】
【課題を解決するための手段】本発明の請求項1記載の
中国語用漢字変換装置は、発音記号列に対応して漢字列
が登録された辞書と、漢字列の発音を示す発音記号列を
入力する入力手段と、入力された発音記号列を上記辞書
に基づいて文節毎に漢字列に変換して出力する変換手段
とを具備してなり、上記変換手段は、変換される漢字列
が複数の文節からなる場合に、入力された発音記号列の
先頭から順番に連続する二つの文節からそれぞれ変換さ
れる漢字列の文字数の和が最大となるように、上記辞書
から漢字列を検索することを特徴とする。
【0030】本発明の請求項2記載の中国語用漢字変換
方法は、入力される発音記号列を、発音記号列と漢字列
とが対応させられて登録された辞書に基づいて漢字列に
変換する中国語用漢字変換装置における中国語用漢字変
換方法であって、入力された発音記号列の任意の長さの
先頭部分に対応する第一の漢字列を上記辞書から検索す
るとともに、入力された発音記号列から検索された第一
の漢字列に対応する部分を除いた残りの発音記号列の任
意の長さの先頭部分に対応する第二の漢字列を辞書から
検索し、かつ、第一の漢字列と第二の漢字列とが複数組
検索された場合に、これら複数組の第一及び第二の漢字
列の中から第一の漢字列と第二の漢字列との文字数の和
が最大となる第一及び第二の漢字列を選択し、選択され
た第一及び第二の漢字列を入力すべき漢字列の候補とし
て出力することを特徴とする。
【0031】
【作用】上記請求項1記載の構成によれば、従来のよう
に入力された発音記号列の先頭から順番に各文節の漢字
列の文字数が最大となるように漢字列を辞書から検索す
るのではなく、入力された発音記号列の先頭から順番に
連続する二つの漢字列の文字数の和が最大となるように
二つの漢字列を辞書から検索している。
【0032】従って、入力された発音記号列の任意の長
さの先頭部分に当てはまる二文字以上の漢字熟語が辞書
に登録されている場合でも、その次の文節の長さによっ
ては、発音記号列の先頭部分の候補として一文字の漢字
熟語が出力される可能性があり、従来の漢字変換装置よ
りも、一文字の漢字熟語が文頭にくるように変換される
可能性が高くなる。
【0033】また、連続する二つの文節の文字数の和が
最大となるようにしているので、一文節目が一文字の単
漢字熟語とされても、二文節目は長い漢字熟語となり、
文章全体としては長い漢字熟語が占める割合が多くなる
ので、文章を短い文節に区切ってしまった場合のように
短い文節に対応して辞書に多数登録された同音漢字熟語
から漢字熟語を選択することによる入力速度の低下を招
くことがない。
【0034】上記請求項2記載の構成によれば、第一及
び第二の漢字列が複数組検索された場合に、第一の漢字
列と第二の漢字列との文字数の和が最大となる第一及び
第二の漢字列を選択し、選択された第一及び第二の漢字
列を入力すべき漢字列の候補として出力することによ
り、上記請求項1記載の構成と同様に、連続する二つの
文節の文字数の和が最大となるような漢字列が検索され
ることになり、変換効率及び入力速度の向上を図ること
ができる。
【0035】
【実施例】以下に、本発明の中国語用漢字変換装置及び
中国語用漢字変換方法の一実施例を図面を参照して説明
する。図1は、この実施例の中国語用漢字変換装置を示
すものである。なお、この実施例の中国語用漢字変換装
置は、コンピュータ・システム(例えば、汎用のコンピ
ュータシステムやワードプロセッサ専用機やコンピュー
タ・タイプセッティング・システムや、その他のシステ
ム)に組み込まれ、例えばアスキーコードを入力可能な
キーボードを用いてコンピュータ・システムへの中国語
の入力を可能とするものである。
【0036】図1に示すように、この実施例の中国語用
漢字変換装置は、アルファベットからなる中国語の発音
記号を入力可能なキー入力部1と、入力された発音記号
を中国語の漢字に変換して出力するCPU(central pr
ocessing unit)2と、CPU2から出力される発音記
号や漢字等の文字の形状を画像データ(フォントデー
タ)として記憶する表示メモリ3と、表示メモリ3に記
憶された発音記号や漢字等の画像データを表示する表示
部4と、CPU2から出力される発音記号や漢字等を印
字するための印字部5と、上記漢字や発音記号のフォン
トデータなどのCPU2の処理に必要なデータや、CP
U2から出力されるデータ等を記憶する外部記憶部6
と、同じくCPU2の処理に必要なデータやCPU2か
ら出力されるデータを一時的に記憶するワークメモリ7
と、発音記号列と該発音記号列に対応する漢字熟語とが
登録された変換辞書8とを有する。
【0037】上記キー入力部1は、いわゆるアルファベ
ット用のキーボードであり、声調記号の無い中国語の発
音記号を入力できるものである。また、キー入力部1
は、変換、文節区切り位置の変更、確定等の指示を入力
できるようになっている。上記ワークメモリ7は、発音
記号を漢字に変換する際に必要なデータを一時的に格納
するものであり、図2に示すような領域が確保されてい
る。
【0038】すなわち、ワークメモリ7には、キー入力
部1から入力された発音記号列が格納される入力バッフ
ァ領域IBと、入力された発音記号列のうちの変換辞書
8を検索するのに必要な部分が格納される検索発音記号
領域PYと、該検索発音記号領域PYに格納された発音
記号列に基づいて検索された第一候補の漢字列が格納さ
れる検索漢字文字列領域SCと、検索された第一文節の
漢字列の文字数が格納される第一文節サイズ領域S1
と、検索された第二文節の漢字列の文字数が格納される
第二文節サイズ領域S2と、一組以上の第一及び第二文
節の漢字列が検索される場合に、各組の上記第一文節サ
イズ領域S1及び第二文節サイズ領域S2にそれぞれ格
納された文節サイズが一組ずつ格納される文節サイズ組
スタック領域SKと、確定された漢字列が格納される確
定漢字文字列領域FCとが確保されている。
【0039】なお、上記第一文節及び第二文節とは、入
力された発音記号列の先頭から順番に連続する二つの文
節において、先の文節を第一文節とし、後の文節を第二
文節としたものである。また、上記変換辞書8は、一般
的な漢字変換用の辞書であり、中国語において、有る程
度の頻度で用いられる漢字列が漢字熟語として登録され
ているとともに、登録された漢字熟語に対応して該漢字
熟語の読みとなる発音記号列が登録されている。
【0040】また、上記変換辞書8には、同音漢字熟語
の優先順位等のデータも登録されていれる。そして、上
記変換辞書8により発音記号列から漢字熟語が検索でき
るようになっている。なお、上記漢字列及び漢字熟語に
は、一文字の漢字も含まれるものとする。すなわち、上
記変換辞書においては、一つの漢字列(漢字熟語)とし
て、一文字の漢字も登録されている。
【0041】そして、上記CPU2は、後述するよう
に、キー入力部1から入力された発音記号列に基づいて
変換辞書8を検索して発音記号列を文節毎に分割すると
ともに各文節部分を漢字列に変換する機能を有する。
【0042】次に、上述のような中国語用漢字変換装置
による中国語用漢字変換方法について説明する。図3の
フローチャートは、この実施例の中国語用漢字変換方法
を示すものであり、この実施例において中国語用漢字変
換方法は、後述する二文節文字数最大処理により文節を
区切って発音記号を漢字に変換して入力するものであ
る。
【0043】まず、中国語用漢字変換方法においては、
キー入力部1から入力すべき任意の文字数の漢字列の読
みを示す発音記号列がオペレータにより入力される(ス
テップS1)。ここでは、図6(A)に示すように漢字
列”在不知不覚中”の読みとしての発音記号列”zai
buzhibujuezhong”が入力されたものと
する。
【0044】キー入力部1から入力された発音記号列
は、図4(A)に示すように入力バッファ領域IBに格
納される。また、入力バッファ領域IBに格納された発
音記号列は、その形状の情報が表示メモリ3に格納され
て図6(A)に示すように表示部4に表示される。な
お、図6において矩形枠内は、表示部4の表示画面上の
表示を示すものである。
【0045】次に、図6(B)に示すようにオペレータ
が(変換)キーを入力することにより、漢字変換処理が
開始される。まず、入力された発音記号列を変換辞書8
に基づいて分析し(ステップS2)、入力された発音記
号列が辞書に基づいて漢字列に変換可能か否かを判定す
る(ステップS3)。
【0046】もし、漢字に変換することが不可能な発音
記号列が入力されたのであれば、ステップS19に進
み、入力ミスをオペレータに告知して処理を終了する。
また、入力された発音記号列が漢字列に変換可能な場合
には、次の二文節文字数最大処理に進む。
【0047】そして、入力された発音記号列の任意の文
字数の先頭部分に対応する漢字列を変換辞書8から検索
する(ステップS4)。そして、検索された漢字列の中
から最も長い文字数の漢字列(最長熟語)の文字数を第
一文節の文字数とし、この文字数を第一文節サイズ領域
S1に格納する(ステップS5)。
【0048】ここでは、”zaibuzhibujue
zhong”の先頭部分である”zaibu”から検索
される”再不”が最長熟語であったものとする。そし
て、入力された発音記号列の最長熟語に対応する先頭部
分”zaibu”を図4(A)に示すように、検索発音
記号領域PYに格納し、格納された発音記号列”zai
bu”に基づいて検索される同音漢字熟語のうちの第一
候補となる漢字列(ここでは”再不”)を検索して、検
索漢字文字列領域SCに格納する。
【0049】また、上記第一文節の文字数2を第一文節
サイズ領域S1に格納する。次に、入力された発音記号
列から第一文節の発音記号列を除いた場合に、残りの発
音記号列が有るか否かを判定する(ステップS6)。
【0050】なお、残りの発音記号列が無い場合、すな
わち、入力された発音記号列の全てが辞書に登録された
一つの漢字列に変換された場合には、オペレータによっ
て一文節分だけの発音記号列が入力された可能性が高
く、文節区切り位置が不適切である可能性が低いので、
以下に続く二文節文字数最大処理を行う必要がないと判
断できる。
【0051】従って、もし、残りの発音記号列が無い場
合、すなわち、入力された発音記号列の全てが辞書に登
録された一つの漢字列に変換された場合には、この漢字
列を候補漢字列として確定するとともに文節サイズを確
定し(ステップS7)、ステップS18に進む。
【0052】なお、ここでの確定とは、最終的に入力さ
れる漢字列を確定するものではなく、オペレータに第一
候補として提示する候補漢字列を決めることである。従
って、残りの文節がない場合に、第一文節の候補漢字列
を確定した後には、候補漢字列を表示部4に表示して、
入力すべき漢字列と一致するか否かについてオペレータ
の判断を仰ぐことになる。
【0053】また、残りの発音記号列が有る場合には、
次に、一文節目の文字数(第一文節サイズ)が一文字か
否かを判定する(ステップS8)。もし、第一文節サイ
ズが一文字の場合には、上述の残りの発音記号列が無い
場合と同様にステップS7に進む。
【0054】そして、第一文節のサイズを一文字に確定
するとともに、一文字の第一候補となる漢字列を候補漢
字列に確定する。なお、この二文節文字数最大処理は、
入力すべき漢字列の正しい第一文節のサイズが一文字の
場合に、一文節文字数最大処理のように第一文節サイズ
が二文字以上になるのを防止するためのものであり、上
記処理により、第一文節サイズが一文字とされた場合に
は、引き続き二文節文字数最大処理を行う必要がないの
でステップS18に進む。
【0055】また、上記発音記号列”zaibuzhi
bujuezhong”においては、第一文節の漢字列
が”再不”とされ、残りの発音記号があるとともに、第
一文節の文字数が2なのでステップS9に進む。そし
て、第一文節サイズが一文字でない場合には、上記第一
文節を除いた残りの発音記号列の任意の長さの先頭部分
に基づいて変換辞書8を検索する(ステップS9)。
【0056】そして、検索された漢字列の中から最も長
い文字数の漢字列(最長熟語)の文字数を第二文節の文
字数とし、この文字数を第二文節サイズ領域S2に格納
する。(ステップS10)。ここでは、発音記号列”z
aibu”を除いた”zhibujuezhong”の
先頭部分である”zhibu”から検索される漢字列”
支部”が最長熟語であったものとする。
【0057】そして、入力された発音記号列の最長熟語
に対応する先頭部分”zhibu”を図4(B)に示す
ように、検索発音記号領域PYに格納し、格納された発
音記号列”zhibu”に基づいて検索される同音漢字
熟語のうちの第一候補となる漢字列(ここでは支部)を
検索して、検索漢字文字列領域SCに上記”再不”とと
もに”再不支部”として格納する。
【0058】また、上記第二文節の文字数2を第二文節
サイズ領域S2に格納する。そして、第一及び第二文節
の文節サイズ(S1、S2)を文節サイズ組スタック領
域SKに格納する(ステップS11)。
【0059】ここでは、図4(C)に示すように2、2
が文節サイズ組スタック領域SKに格納される。次に、
第一文節の文節サイズ(S1)から1を減算し、これを
第一文節のサイズとする(ステップS12)。
【0060】そして、新たな第一文節のサイズが0とな
るか否かを判定する(ステップS13)。なお、ここで
は、既に第一文節サイズが一文字の場合を除いているの
で、第一文節のサイズが0になることはないが、上記ス
テップS12の処理が繰り返し行われることになるの
で、最終的に第一文節のサイズが0となる。
【0061】また、ここでは、第一文節が”再不”とさ
れ、第一文節サイズが2となっていたので、第一文節サ
イズが1となる。そして、第一文節が0でない場合に
は、第一文節サイズの文字数で、なおかつ、入力された
発音記号列の任意の長さの先頭部分に対応する漢字列を
変換辞書8から検索する(ステップS14)。
【0062】次に、上記条件の漢字列が変換辞書8から
検索できたか否かを判定する(ステップS15)。も
し、漢字列を検索できなかった場合には、ステップS1
2に戻り、さらに、第一文節サイズから1を減算するス
テップS12以降の処理を繰り返し行う。
【0063】ここでは、上記発音記号列”zaibuz
hibujuezhong”の先頭部分に対応する一文
字の漢字熟語として在”zai”が検索されたものとす
る。そして、入力された発音記号列の上記第一文節サイ
ズ(1)に対応する先頭部分”zai”を図4(C)に
示すように、検索発音記号領域PYに格納し、格納され
た発音記号列”zai”に基づいて検索される同音漢字
熟語のうちの第一候補となる漢字列(ここでは”在”)
を検索して、検索漢字文字列領域SCに格納する。
【0064】また、上記第一文節の文字数1を第一文節
サイズ領域S1に格納する。そして、上記条件の漢字列
が上述のように変換辞書8から検索できた場合には、第
二文節を検索するためにステップS9に戻り、ステップ
S9以下の処理を繰り返し行う。
【0065】すなわち、ステップS9において、第一文
節”zai”を除いた残りの発音記号列”buzhib
ujuezhong”の任意の長さの先頭部分に対応す
る漢字列を変換辞書8から検索する。次に、ステップS
10において検索された漢字列の中から最も長い文字数
の漢字列(最長熟語)の文字数を第二文節の文字数と
し、この文字数を第二文節サイズ領域S2に格納する。
【0066】ここでは、”buzhibujuezho
ng”の先頭部分である”buzhibujue”から
検索される”不知不覚”が最長熟語であったものとす
る。そして、入力された発音記号列の最長熟語に対応す
る先頭部分”buzhibujue”を図5(D)に示
すように、検索発音記号領域PYに格納し、格納された
発音記号列”buzhibujue”に基づいて検索さ
れる同音漢字熟語のうちの第一候補となる漢字列(ここ
では”不知不覚”)を検索して、検索漢字文字列領域S
Cに上記”在”とともに”在不知不覚”として格納す
る。
【0067】また、上記第二文節の文字数4を第二文節
サイズ領域S2に格納する。そして、ステップS11に
おいて、上記文節サイズ組スタック領域SKに新たな第
一及び第二文節サイズ(S1、S2)を追加格納する。
【0068】ここでは、図5(D)に示すように最初の
2、2に加えて1、4が文節サイズ組スタック領域SK
に格納される。次に、ステップS12において、第一文
節サイズから1を減算する。ここでは、第一文節が”
在”であり、文節サイズが1となっているので、1を減
算すると第一文節サイズが0となるので、ステップS1
6に進む。
【0069】なお、第一文節サイズが0とならない場合
には、再び上述の処理を繰り返し行う。そして、文節サ
イズ組スタック領域SKに登録された第一及び第二文節
サイズのなかから、第一文節サイズと第二文節サイズと
の和が最も大きい第一及び第二文節サイズ求め、求めら
れた第一及び第二文節サイズに基づいて、第一文節の候
補漢字列の文字数と第二文節の候補漢字列の文字数を確
定する(ステップS16)。
【0070】ここでは、”再不:支部”の場合の第一文
節サイズと第二文節サイズとの和が2+2=4とさ
れ、”在:不知不覚”の場合の第一文節サイズと第二文
節サイズとの和が1+4=5とされている。従って、第
一文節サイズと第二文節サイズの和が”5”の場合が最
も文節サイズの和が大きいので、第一文節サイズが”
1”とされ、第二文節サイズが”2”とされる。
【0071】次いで、上記第一文節及び第二文節におい
て、確定された文節サイズの文字数でかつ、上記発音記
号列に対応する漢字列の中から変換辞書における優先順
位が最も高い漢字列が選択され、候補漢字列として確定
される(ステップS17)。
【0072】ここでは、上記”在:不知不覚”が上記文
節サイズにおける第一文節と第二文節との第一候補なの
で、”在:不知不覚”が第一及び第二文節の候補漢字列
として確定され、図5(D)に示すように確定漢字文字
列領域FCに格納される。
【0073】次いで、第一文節及び第二文節に残りの発
音記号が無いか否かが判定される(ステップS18)。
そして、残りの発音記号が有る場合には、ステップ4に
戻り、入力された発音記号列に対して行われた上述の処
理と同様の処理を行う。
【0074】また、残りの発音記号列が無い場合には、
入力された発音記号列の全ての文節の文節サイズと各文
節の候補漢字列が確定されたものとしてステップS18
に進む。なお、上述の残りの発音記号列が無い場合に
は、ステップS6において入力された発音記号列の全て
が一つの漢字列に変換されて残りの発音記号が無いと判
定され、ステップS7において第一文節の文節サイズ及
び候補漢字列が確定されてステップS18に進んだ場合
も含まれる。
【0075】ここでは、入力された発音記号列”zai
buzhibujuezhong”の第一及び第二文節
の文節サイズ及び候補漢字列が確定されている。すなわ
ち、上記発音記号列のうちの”zaibuzhibuj
ue”までが確定され、発音記号列”zhong”が残
った状態となっている。従って、ステップS4に戻るこ
とになる。そして、ステップS4において、発音記号
列”zhong”の任意の長さの先頭部分に対応する漢
字列を変換辞書8から検索することになる。
【0076】ここでは、発音記号列”zhong”に対
して漢字列”中”が検索され、この一文字の漢字列より
長い漢字列が検索されなかったものとする。この場合に
は、ステップS6において、残りの発音記号列が無いと
判定され、ステップS7において、残りの発音記号列の
第一文節(入力された発音記号列の第三文節)の文節サ
イズ及び候補漢字列が確定され、ステップS18に進
む。
【0077】すなわち、図5(E)に示すように、”
中”が確定され、この”中”が確定漢字文字列領域FC
に上記”在不知不覚”とともに”在不知不覚中”として
格納される。そして、ステップS18においても残りの
発音記号列が無いものとして、ステップS19に進むこ
とになる。
【0078】そして、入力された発音記号列の全ての文
節の文節サイズと各文節の候補漢字列が確定された場合
には、図6(B)に示すように、候補漢字列が表示部4
に表示される(ステップS19)。そして、オペレータ
は、表示された候補漢字列が入力すべき漢字列と一致す
る場合には、表示された候補漢字列を確定することによ
り、漢字列の入力を終了する。
【0079】なお、候補漢字列が入力すべき漢字列と一
致しない場合には、文節毎に、他の候補となる漢字列の
中から目的とする漢字列を検索したり、文節位置を変更
して再変換を行ったりする必要がある。以上のように、
この実施例の中国語用漢字変換装置及び中国語漢字変換
方法によれば、入力された発音記号列に対して変換され
た漢字列の文節を決める際に、先頭の文節の文節サイズ
と二つ目の文節の文節サイズとの和が最大になるように
して、文節を決めているので、必ずしも一つ目の文節が
辞書に登録された漢字列に基づいた最長のものとされる
とは限らず、一つ目の文節が一文字の漢字列からなる単
漢字熟語となる可能性も高くなる。
【0080】中国語の文法においては、文の一文節目
に、主語となる名詞としての単漢字熟語や、前置詞とし
ての単漢字熟語や、否定語となる単漢字熟語や、修飾語
となる単漢字熟語が配置されいることが多い。そして、
従来の一文節文字数最大処理においては、入力された発
音記号列の先頭部分に対応する漢字列を辞書から検索し
た場合に、文の一文節目に二文字以上の漢字列が検索さ
れてしまう可能性が高い。
【0081】それに対して、この実施例の場合には、第
一文節とともに第二文節の長さも上述のように解析して
いるので、第一文節に一文字の漢字列と二文字以上の漢
字列とが検索可能な場合でも、第一文節を一文字とした
場合に、第二文節に長い漢字列を変換可能ならば、第一
文節が一文字の漢字列となる可能性がある。
【0082】特に、入力された発音記号列において、第
一文節を一文字の文節とすることが文法的に妥当な場合
には、第一文節を一文字とすることにより、第二文節目
の開始位置が正しい位置となっているので、第二文節に
辞書に登録された慣用的な長い漢字列が割り当てられる
可能性が高くなるが、第一文節を二文字以上にしてしま
うと、第二文節の開始位置が誤った位置となっているの
で、対応する長い漢字列が辞書に登録されている可能性
が低くなり、第二文節の候補漢字列として短い漢字列が
検索される可能性が高くなる。
【0083】そこで、入力された発音記号列において、
第一文節を一文字の文節とすることが文法的に妥当な際
には、第一文節を一文字とした場合と、第一文節を二文
字以上とした場合とで、第一文節の文節サイズと第二文
節の文節サイズとの和の大きさを比較すると、第一文節
を一文字とした場合の方が文節サイズの和が大きくなる
可能性が高くなってくる。従って、中国語の文法的に第
一文節を一文字とした方が正しい場合に、上記二文節文
字数最大処理を用いると、第一文節が一文字とされる可
能性が高いことになる。
【0084】以上のことから、この実施例の漢字変換装
置は、上記従来の漢字変換装置に比較して、第一文節を
一文字とした方が正しい発音記号列を入力した場合に、
第一文節を二文字以上として、変換効率を低下するよう
なことが少ないので、変換効率を向上することができ
る。
【0085】さらに、この実施例の漢字変換装置によれ
ば、従来の漢字変換装置のように、第一文節を一文字と
するのが正しいのに、第一文節を二文字以上として、上
述のように誤った候補漢字列を出力してしまい、この候
補漢字列を入力すべき漢字列と一致させるのに、文節区
切り位置の変更が必要となって漢字の入力処理を遅らせ
るようなことがなく、入力速度を結果的に迅速化するこ
とができる。なお、上記実施例においては、発音記号を
声調符号無しのものとしたが、声調記号有りのものを用
いても良い。
【0086】
【発明の効果】上記請求項1記載の中国語用漢字変換装
置によれば、入力された発音記号列の先頭から連続する
二つの文節ずつ文節の区切り位置を設定するものとする
とともに、二つの文節にそれぞれ当てはまる辞書に登録
された漢字列の文字数の和が最大となるように文節の区
切り位置を設定しているので、従来の一文節に当てはま
る辞書に登録された漢字列の文字数を最大とする処理に
比較して、一文節目に一文字の漢字列を当てはめる確率
が高くなっている。
【0087】従って、文の一文節目に一文字の漢字熟語
がくる可能性が高い中国語の文法に沿って文節を区切る
ことが可能となり、入力された発音記号列の正しい一文
節目のサイズが一文字なのに、変換時に一文節目が二文
字以上とされる可能性が低くなり、変換効率を向上する
とともに、変換時にオペレータが文節区切り位置を変更
しなければならなくなる可能性を低減して入力速度を向
上することができる。
【0088】上記請求項2記載の中国語用漢字変換装置
によれば、上記請求項1記載の中国語用漢字変換装置と
同様に、入力すべき発音記号列の先頭から連続する二文
節の文字数の和が最大となるように文節が設定されるの
で、変換効率及び入力速度の向上を図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例の中国語用漢字変換装置の基
本構成を示すブロック図である。
【図2】上記実施例の中国語用漢字変換装置のワークメ
モリを説明するための図面である。
【図3】上記中国語用漢字変換装置における中国語用漢
字変換方法を説明するためのフローチャートである。
【図4】上記中国語用漢字変換装置のワークメモリにお
けるデータの格納状態を説明するための図面である。
【図5】上記中国語用漢字変換装置のワークメモリにお
けるデータの格納状態を説明するための図面である。
【図6】上記中国語用漢字変換装置における漢字変換操
作を説明するための図面である。
【符号の説明】
1 キー入力部(入力手段) 2 CPU(変換手段) 8 変換辞書(辞書)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 発音記号列に対応して漢字列が登録され
    た辞書と、 漢字列の発音を示す発音記号列を入力する入力手段と、 入力された発音記号列を上記辞書に基づいて文節毎に漢
    字列に変換して出力する変換手段とを具備してなり、 上記変換手段は、変換される漢字列が複数の文節からな
    る場合に、入力された発音記号列の先頭から順番に連続
    する二つの文節からそれぞれ変換される漢字列の文字数
    の和が最大となるように、上記辞書から漢字列を検索す
    ることを特徴とする中国語用漢字変換装置。
  2. 【請求項2】 入力される発音記号列を、発音記号列と
    漢字列とが対応させられて登録された辞書に基づいて漢
    字列に変換する中国語用漢字変換装置における中国語用
    漢字変換方法であって、 入力された発音記号列の任意の長さの先頭部分に対応す
    る第一の漢字列を上記辞書から検索するとともに、入力
    された発音記号列から検索された第一の漢字列に対応す
    る部分を除いた残りの発音記号列の任意の長さの先頭部
    分に対応する第二の漢字列を辞書から検索し、 かつ、第一の漢字列と第二の漢字列とが複数組検索され
    た場合に、これら複数組の第一及び第二の漢字列の中か
    ら第一の漢字列と第二の漢字列との文字数の和が最大と
    なる第一及び第二の漢字列を選択し、選択された第一及
    び第二の漢字列を入力すべき漢字列の候補として出力す
    ることを特徴とする中国語用漢字変換方法。
JP7181100A 1995-06-23 1995-06-23 中国語用漢字変換装置及び中国語用漢字変換方法 Pending JPH096762A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7181100A JPH096762A (ja) 1995-06-23 1995-06-23 中国語用漢字変換装置及び中国語用漢字変換方法
CN 96107169 CN1100301C (zh) 1995-06-23 1996-06-24 中文汉字字符转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7181100A JPH096762A (ja) 1995-06-23 1995-06-23 中国語用漢字変換装置及び中国語用漢字変換方法

Publications (1)

Publication Number Publication Date
JPH096762A true JPH096762A (ja) 1997-01-10

Family

ID=16094844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7181100A Pending JPH096762A (ja) 1995-06-23 1995-06-23 中国語用漢字変換装置及び中国語用漢字変換方法

Country Status (1)

Country Link
JP (1) JPH096762A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质

Similar Documents

Publication Publication Date Title
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
JP5462001B2 (ja) 文脈上の入力方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH07114558A (ja) 漢字変換訂正処理方式
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH096762A (ja) 中国語用漢字変換装置及び中国語用漢字変換方法
JPH0630052B2 (ja) 音声認識表示装置
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JPS62117060A (ja) 文字・音声入力変換方式
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPS5818730A (ja) 文字処理装置
CN1048341C (zh) 模糊汉字变换装置
JP2634596B2 (ja) かな漢字変換装置
JPH096761A (ja) 中国語用漢字変換装置及び中国語用漢字変換方法
JPH1063651A (ja) 中国語入力装置
JP2744241B2 (ja) 文字処理装置
JPH08335217A (ja) 読み変換方法及び文書作成装置
JPH0350669A (ja) 情報処理装置
JPH032960A (ja) かな漢字変換装置
JPH0727526B2 (ja) かな漢字変換装置
JPH0546612A (ja) 文章誤り検出装置
JPS63316160A (ja) 文書作成装置
JPH04218863A (ja) 仮名漢字変換方式
JPH10154141A (ja) かな漢字変換装置