JPH0760433B2

JPH0760433B2 - 漢字変換装置

Info

Publication number: JPH0760433B2
Application number: JP61287031A
Authority: JP
Inventors: 峻慧周; 俊桔郭; 文雄前原
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-12-02
Filing date: 1986-12-02
Publication date: 1995-06-28
Anticipated expiration: 2010-06-28
Also published as: JPS63140366A

Description

【発明の詳細な説明】産業上の利用分野本発明は中国語等の表音文字列を漢字列に変換する漢字
変換装置に関する。

従来の技術中国語は原則として、一つの漢字が一つの音節に対応し
ている。音節は次に示すように聲母，韻母，聲調の順で
構成されている。

聲母＋韻母＋聲調第１表は中国語の音韻要素をそれぞれ中国大陸（へい音
１）、台湾（へい音２、注音）で使われている表音方式
で表わしたものである（以下へい音１の表音方式で説明
することとする）。表中欄（１）〜（21）を聲母、欄
（22）〜（59）を韻母と呼ぶ。その内、特に欄（22）〜
（24）の韻母を介音、欄（25）〜（37）の韻母を主韻
母、欄（38）〜（59）の韻母を結合韻母と呼ぶことにす
る。結合韻母は介音と主韻母の組合わせによって構成さ
れる。つまり、結合韻母の表記記号として、必ずしも介
音の表記記号i,u,yuと主韻母の表記記号a,o,e,ai,……,
engとの組み合わせから成るとは限らないが、それらの
構成する音韻要素を分析すると、実は介音の音韻要素と
主韻母の音韻要素を含んでいる。例えば、「ui」は「ｕ」と「ei」の音韻要素
を含んでいる。第２表には各結合韻母に含まれる介音と
主韻母の音韻要素を示す。したがって、中国語の音節は聲母＋介音＋主韻母＋聲調の順で構成されるとも言える。例えば。「時」「依」
「愛」「取」「打」「忘」「中」などの漢字の読みに含
まれる音韻要素は次の通りである。

この例からも分かるように、各音節に聲母，介音，主韻
母が全て含まれるとは限らない。例えば、「時」の読み
「shi′」には聲母の音韻要素しか含まれていない。
又、聲調は各音節の構成に不可欠の要素である。それに
よって、音節の調子の高さが分かるわけである。

第１表に点線で区切られている音韻要素はそれらの発音
が最も類似し合ったもので、よく間違えられる。例え
ば、「ch」と「ｃ」はいずれも破擦音で、発音する時の
舌の位置だけによって区別されるので、中国語を習う人
にとって非常に難しいことである。特に、表音文字を入
力手段とする漢字変換装置では、使用者が入力したい漢
字列に対応する音節を指定された表音文字列で表わして
入力することによって漢字列に変換されるので、上述類
似した音韻要素を正しく区別して入力しないと、誤変換
又は変換不能に陥り、漢字変換装置としては、致命的な
欠点となる。

従来のへい音漢字変換装置としては、例えば特開昭59−
121425号公報に示されている。第２図はこの従来のへい
音漢字変換装置のブロック図を示すものである。21は入
力されたデータをローマ字データと聲調データに分離す
る分離手段である。23は下に示す要領で各単語について
ローマ字列，漢字列，聲調及び使用頻度の各項目を記憶
している辞書である。

22は上記分離手段21より与えられるローマ字列データに
該当する全ての同音異義語を上記辞書23より取り出す参
照手段である。24は参照手段22より得られた漢字列と分
離手段21の聲調データを比較し所定の漢字列を出力する
と共に上記聲調データのない場合は該当する漢字列の使
用頻度を利用して頻度の高い順に出力し所望の漢字列を
選択可能とする比較手段である。

以上のように構成された従来のへい音漢字変換装置にお
いては、例えば、「中国」を入力したい場合、先ずキー
ボードからその読みである「zhong1 guo2」を入力す
る。すると、分離手段21で（zhongguo）のローマ字列デ
ータと（1,2）の聲調データに分離される。参照手段24
で（zhongguo）を検索のキーとして、辞書23から単語を
逐次に検索する。辞書23に（zhongguo）で登録される単
語は「中国」ととがあるが、聲調データが（1,2）となるのが「中国」
であるので、比較手段24で「中国」を出力と判断する。

発明が解決しようとする問題点しかし、上記のような構成には次の問題点がある。

（１）使用者が第１表に示すような類似した音韻要素を
区別することができない場合、例えば、「学生」を入力
したい場合、その正しい読みがと見当が付かない場合、間違った読みを入力すると、
「学生」と正しく変換することができない。このような
場合、試行錯誤をするように、全ての可能な組な合わせ
を一つ一つ試すより仕方がない。

（２）中国語の漢字の読みの種類は約1260があり、それ
を符号化すれば、せいぜい2bytes（byteを単位とする場
合）で済むが、辞書に各単語の読みを対応するローマ字
のままで登録すると、一つの漢字当たり２〜6bytesを要
し、無駄なメモリ空間を占めると共に、ローマ字列を辞
書検索時の比較対象とするので、必要の倍以上の時間が
かかり、また各単語に対応するローマ字列が固定長でな
いため、辞書構造に規則性がなく、検索が容易でない。
又、上記類似した音韻要素を同一視しようとすれば、ま
ず各ローマ字列を対応する音韻要素単位で分離し、対応
表の参照によって類似したものであるかどうかを判断す
るような複雑な処理を行なわなければならないので、非
効率的で実用的ではない。

本発明はかかる点に鑑み、コンパクトな辞書を可能とす
ると共に、あいまいな入力に対しても高い確率で正しく
漢字列に変換できる漢字変換装置を提供することを目的
とする。

問題点を解決するための手段本発明は聲母，韻母の音韻要素に対し、それぞれ類似し
たものをグループに分け、各グループの音韻要素間に距
離が１であるようなビットパターンを割り当て、上記聲
母，韻母のビットパターン及び聲調を表わすビットパタ
ーンとの組み合わせにより一つの漢字の音節を示す音節
符号を用いて表わされた中国語の単語の読みと該当する
漢字コードとの組を格納した辞書と、あいまいな発音表
記に対して該当する音節符号の不明確なビット位置をマ
スクして上記辞書の検索を行う辞書検索手段とを備えた
漢字変換装置である。

作用本発明は前記した構成により、辞書がコンパク化され、
且つ規則的な構造をもつことにより、あいまいな入力に
対しても、辞書の読みの部分の特定の情報をマスクし、
類似した音韻要素を同一視することにより、所要の漢字
列に変換することができる。

実施例第１図は本発明の実施例における漢字変換装置のブロッ
ク図を示すものである。第３表は本発明の実施例におけ
る漢字変換装置の内部処理に使われる音節符号におい
て、それぞれ聲母，介音，主韻母，結合韻母，聲調に割
り当てられるビットパターンであり、これらのビットパ
ターンは下記の構成で２バイトて定義されており、同時
に上記類似した音韻要素同士のビットパターン間の距離
は１（相違ビットは最下位のビット）となっている。

第1,2byteのbitoは０で、結合韻母のビットパターンは
介音と主韻母とのビットパターンの組合せで表わされ
る。本実施例の漢字変換装置の内部処理に使われる音節
符号はASCII CODEのgraphic characterに対応し、つま
り、本実施例の音節符号によると、任意の中国語の音節
は二つのASCII CODEのgraphic characterで表わすこと
ができる。又、第1byteのbit5,bit7,第2byteのbit7をマ
スクするとそれぞれ類似した聲母，介音，主韻母を同一
視することができる。

第１図において、10は少なくとも表音文字、及び辞書検
索モードを指定する辞書検索モードキーを有する入力手
段、11は上記入力手段から送られてきた表音文字列を上
記音節符号に変換する音節変換手段、14は上記音節符号
を用いて表わされた中国語の単語の読みと上記単語に対
応する漢字コードとの組を格納した辞書、13は上記入力
手段から送られてきた辞書検索モードの指定によって、
上記辞書を検索する時、辞書に登録される単語の読みの
各音節の第1byteのbit5,bit7、第2byteのbit7をマスク
し、それぞれ対応する入力された表音文字列と類似した
聲母，介音，主韻母を同一視したり、第2byteのbit1〜b
it3をマスクし、聲調を無視したり、或いは各音韻要素
の対応するビットパターンをマスクし、その音韻要素を
無視したりして、該当する全ての単語候補を辞書から取
り出す辞書検索手段である。12は上記音節符号変換手段
11から送られてきた音節符号を変換単位毎に辞書検索手
段13に送ると共に、辞書検索手段13から送られてきた単
語候補を使用者の選択によって、対応する単語候補を出
力手段15に送る漢字変換手段である。

以上のように構成された本実施例の漢字変換装置につい
て、以下その動作を説明する。

入力手段10から入力された表音文字が先ず、音節符号変
換手段11で第３表に従って、音節毎に音節符号に変換さ
れる。例えば、が入力されると、のような音節符号が得られる。ASCII CODEのgraphic ch
aracterで表わすと、「ｖ″ｈ＋」となる。音節符号変
換手段11では、入力された表音文字列の各音節に対して、それに含まれる音韻要素と聲
調によって、第３表に示す対応するビットパターンを割
り当てるだけで良いので、変換は非常に簡単である。入
力された表音文字列が音節符号に変換された後、次に辞
書検索手段13で、入力手段10から指定された辞書検索モ
ードによって、該当する全ての単語候補を辞書14から取
り出す。上記の例では、辞書検索のキーは「ｖ″ｈ＋」
の４文字だけで、従来の漢字漢字変換装置でのの10文字に比べて、検索に必要な比較文字数が半分以下
となり、検索速度が従来より速い。それに、辞書14に上
記音節符号を用いるので、各単語の読みを表わすのに必
要なメモリ量はその単語を構成する文字数と正比例し、
次に示すように、単語を構成する文字数によって、分類
すると、従来の辞書に比べて、小メモリ量で、規則正し
い構造を持つことができる。

以上の例で、例えば、使用者が「学生」を入力したいと
き、その読みが見当がつかない場合、のような間違った読みを入力すると、「学生」と正しく
変換できない。ところが、本実施例の音節符号による
と、の音節は次に示すように表わされる。

したがって、類似した音韻要素を同一視するために入力
手段10に設けられるキーを押すだけで、辞書検索時、各
音節の第1byteのbit5、bit7、第2byteのbit7がマスクさ
れ、「学生」が検出される。更に、聲調を無視するため
に設けられるキーを押すと、が検出される。この時、漢字変換手段12で、使用者の選
択によって、所要の単語に変換する。勿論、あるルーチ
ンによって、辞書14に登録した音節符号を指定された表
音方式に変換して、使用者に読みを知らせるのも簡単に
できる。音節符号に聲母，介音，主韻母，結合韻母，聲
調に対応するビットの位置は固定しているので、対応表
の参照だけで容易に変換できるからである。

なお、本発明は上記実施例にのみ限らず、要旨を変更し
ない範囲で適宜変形して、実施できる。例えば、入力手
段10はキーボードによる表音文字列の入力だけでなく、
音声信号の入力を音声認識によって対応する表音文字列
を生成する入力手段に変えても良い。音節符号変換手段
11で使う音韻要素−ビットパターン対応表における音韻
要素の表音方式としては、第３表に示すように単に上記
へい音１の表音方式だけでなく、同時に、音韻要素の各
種の表音方式に対応する表音文字列を用意することによ
って、入力の表音方式の切り換えだけで、上記実施例は
辞書の拡張などの変更をする必要がなく、同時に多種の
表音方式による入力文字列に対応することができる。い
ずれも、上記音節符号を内部処理に使うので、簡単な音
節符号変換手段と、辞書の単語の読みを音節符号で表わ
すことによって、容易に多種の表音方式による入力文字
列に対応できる。

なお、辞書検索手段13の辞書検索モードは、上記特定の
ビットをマスクして、類似した音韻要素を同一視するこ
とによって、該当する全ての単語を単語辞書から取り出
すような検索モードだけでなく、特別の指定によって、
辞書検索時、入力された読みのある音節の特定の部分を
マスクして検索することもできる。例えば、「＊」を入
力列にある音節の不明な部分を表わす記号とする。する
と、が入力された時、一番目の音節に対応する音節符号の介
音と主韻母に対応するビットがマスクされ、その条件を
満たした全ての単語候補が検索される。音節符号の各音
韻要素に対応するビットが固定であるので、このような
検索は簡単である。

なお、漢字変換手段12は単語単位の変換だけでなく、自
由文を変換単位とする漢字変換装置においても、本発明
に示す音節符号を用いた辞書の読みの部分の特定の位置
をマスクすることによって、あいまいな発音表記に対し
て、該当する音節符号の不明確なビット位置に対しての
照合を行なわない様マスクすることによって、変換すべ
き単語候補を選び出すことも応用できる。

なお、音節符号の適用範囲は漢字変換装置だけでなく、
中国語の読みに対する任意の処理、メモリでの蓄積、コ
ンピュータ間の転送にも利用できる。

発明の効果以上説明したように、本発明によれば、音節符号を利用
することによって、辞書のメモリ量が従来の80％以下に
減り、同時に多種の表音方式による入力に対応できると
共に、特定の位置のビットをマスクすることによって、
あいまいな入力に対しても所要の単語候補を選び出し
て、変換することができる。それに、各単語の読みとそ
の読みに対応する漢字コードを登録するに必要なメモリ
量がその単語を構成する文字数に正比例するので、辞書
のROM化も簡単にでき、経済性の面も、辞書検索速度と
漢字変換速度の向上も図られ、その実用的効果は大き
い。

【図面の簡単な説明】

第１図は本発明における一実施例の漢字変換装置のブロ
ック図、第２図は従来の漢字変換装置のブロック図であ
る。 10……入力手段、11……音節符号変換手段、12……漢字
変換手段、13……辞書検索手段、14……辞書、15……出
力手段。

Claims

【特許請求の範囲】

【請求項１】中国語の音韻要素である聲母，韻母に対し
それぞれ類似するもの同士に分類して作られた複数グル
ープに対し、各グループ内の構成要素間に距離が１であ
るようなビットパターンを割り当て、上記聲母，韻母の
ビットパターン及び聲調を表わすビットパターンの組み
合わせにより一つの漢字の音節を示すように作成された
音節符号を用いて表わされた中国語の単語の読みと上記
単語に対応する漢字コードとの組を格納する辞書と、あ
いまいな発音表記に対して該当する音節符号の不明確な
ビット位置をマスクして上記辞書の検索を行う辞書検索
手段とを備えたことを特徴とする漢字変換装置。