JP3552842B2

JP3552842B2 - 単漢字検索装置

Info

Publication number: JP3552842B2
Application number: JP07147996A
Authority: JP
Inventors: 寛子山形
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-02-29
Filing date: 1996-02-29
Publication date: 2004-08-11
Anticipated expiration: 2016-02-29
Also published as: JPH09237272A

Description

【０００１】
【発明の属する技術分野】
本発明は、単漢字検索装置に係り、例えば、ワープロ，フロントエンド，文書作成支援装置，漢字辞書検索等に適用して好適なものである。
【０００２】
【従来の技術】
ＷＳ（ワークステーション）上などにおける日本語文書作成において不便に感じている事柄の一つに、所望の漢字が得られないということがある。
仮名漢字変換用辞書には単漢字も登録されているが、数は限られている。仮名漢字変換で所望の漢字が得られない場合、ＪＩＳ（区点）コードなどで検索し漢字を得ることになるが、ＪＩＳ漢字は第一，第二を合わせると６０００文字以上になるため、コードをひく手間がこれまた大変である。
通常、読みや画数などをキーにコード本（書籍）をひきコードを得て仮名漢字変換のＪＩＳ（区点）コード入力モードで変換するか、部首検索モードがある場合はそれを利用しているようである。
【０００３】
漢字検索に関する従来技術には下記のようなものがある。
・部首検索モード及びその類
部首コードは２１４もあるため（ＪＩＳＸ０２０８）、部首一覧表を提示されてもユーザにとってこの中から探す作業は負担である。また部首によっては該当漢字を２００〜３００字くらい有するものもあり効率がよいとはいえない。また、漢字によっては複数の部首に属するものもあるし、どの部首に属するかを直観的に当てること自体も難しかったりする。
下記の出願公開公報に記載された発明は、部首を直接入力しないで、ある漢字Ｘを入力すると同じ部首を持つものが出力されるため、表をひく手間が省けるというメリットがあるが、結果として、該当するものが沢山でてしまうという問題がある。
【０００４】
特開平２−２５５９３４号公報（部首別漢字入力装置）：
部首一覧に限らず、システム側から提示された内容から所望の情報を選択するというやり方は多かれ少なかれユーザにとって負担になってしまうという問題がある。
・画数検索
画数は本出願人の手持ちデータ（ＪＩＳ漢字１，２）では、画数４〜２１まで、ずっと該当漢字が３桁で存在する。絞り込み能力が弱いためあまり有効な検索手段とはいえない。また、画数を得るために、一旦エディテイング作業を中断する必要がある。
【０００５】
画数検索で、入力画数の近傍画数を自動検索するという内容で公開公報に記載された発明が、下記になされているが、本出願人の手持のデータでは、画数１１を指定してその近傍＋−１即ち、画数１０〜１２とすると１５００字以上も該当してしまい絞り込み能力にかけると思われる。
【０００６】
特開昭６１−１８０３６２号公報（漢字処理装置）：
・画数及び部首検索
本出願人の手持ちデータ（ＪＩＳ漢字１，２）では、画数と部首を組あわせれば、かなりの絞り込みが期待できるが、部首表を検索する、画数を調べるという作業が、一旦エディテイング作業を中断させ負担になってしまうという問題は残る。
【０００７】
・その他
その他の検索方法としては、漢字の構成部分（部首ではなく）を取り上げて、それをキーとして検索するものである。
例えば、特願平３−１４０８８７号に記載の発明は、ユーザの知識を使用して所定の方式（検索式）で既知の漢字で所望漢字の構成を指定することで所望漢字を得るというものであり、読み，画数は一切使用せず、また部首表の提示，キーリストの提示，パターンテーブルの提示などもせず、ユーザの知識を所定の検索式の形態で表現してもらうだけで、所望の漢字を検索する漢字検索装置を提示するという点で、本発明に最も類似している。
【０００８】
【発明が解決しようとする課題】
特願平３−１４０８８７号（漢字入力装置）の漢字入力装置の実現手段は、下記の問題点を含んでいる。
Ａ．情報量が膨大である漢字構成辞書を有する。
特願平３−１４０８８７号の漢字構成辞書は、差分辞書で記された構成部分ごとに漢字集合を作ったものである。例えば、“諮”について考える。
差分辞書において下記のように記されるとすると、
〈差分辞書における“諮”の記述〉
諮，言，次，口
そして更に、漢字構成辞書において下記のように記されることになる。
〈漢字構成辞書の記述〉
言記，語，諮…
次姿，諮…
口吹，咽，告，諮…
諮諮…
即ち、“諮”は差分辞書において、構成情報として３エントリ有し、さらに、漢字構成辞書において、４回出現する。
すべての漢字について同様のことをすると本来の漢字数の何倍もの情報量になってしまう。また、それに伴って、計算量もふえ効率をさげてしまう。
【０００９】
Ｂ．相対的位置情報を用いていないためヒット精度が落ちる。
特願平３−１４０８８７号では、相対的位置情報を用いていないため木へんのものを探す場合でも検索式に“…木＋…”と記述することになる。同検索手段では、“木”がどこの位置にあるかということは考慮されないので、漢字構成部分に“木”を含むもの全部を探してくる。例えば、構成部分に“木”を含む漢字集合例：案，杏，椅，楽，禁，襟，困，梱，床，湘，槻，嘛，噤，婪，嫻，孀，恷…となり、これは数百を下らない件数になり部首入力などで、木へんのものを得た方が効率がいいことになってしまう。
【００１０】
Ｃ．遡って検索するという手段がないため、特願平３−１４０８８７号の差分生成辞書においては、情報量が膨大，繁雑になってしまう。
特願平３−１４０８８７号の記述方式では、例えば、吾、梧、聒を例にとれば、
吾：五，口
梧：木，五，口，吾
聒：耳，千，口，舌
となり、想定されるものを全部記述しなくてはならない。そのため、記述量も多く、位置情報や漢字構成部ごとのまとまりに関する情報もないため繁雑になってしまうおそれがある。
【００１１】
Ｄ．また、ある漢字Ｘの一部分を指定することができないため実際には検索できないものがでてしまう。所望漢字が、仮にＸＺという構成をしていて、ユーザがＸＷという漢字を知っていた場合に、平３−１４０８８７号のアルゴリズムではＸＷ−Ｗ＋Ｚという指定の仕方をとる。しかし、漢字の構成要素がすべて登録されていることはまずない。ＪＩＳ漢字には偏や旁に相当する字が含まれているがそれもほんの一部である。従って、差を示すべく入力するＷやＺに相当するものが入力できない場合があるという問題点がある。
例えば、ＪＩＳ漢字には部首である“辷／邇／逶”の下部共通部分（しんにゅうの一種）や“病／癌／痕”の上部共通部分（やまいだれ）すらも対応するコードがないため、ＪＩＳ内漢字環境で対応しようと思うとそもそも検索式を作ることができないということになる。
【００１２】
本発明は、以上のような問題点に鑑みてなされたもので、ユーザの知識を使用して所定の方式で既知の漢字並びに構成を指定することで所望の漢字を得るというものであり、読み，画数は一切使用せず、また部首表の提示，キーリストの提示，パターンテーブルの提示などもせず、ユーザの知識を所定の検索式の形態で表現してもらうだけで、所望の漢字を検索する漢字検索装置で、且つ特願平３−１４０８８７号よりも辞書容量，計算量共に小さく効率的で、且つ柔軟で頑強な漢字検索装置の提供を目的とする。
【００１３】
【課題を解決するための手段】
請求項１の発明は、単漢字の構成部分を用いて表現した検索式を入力する入力部と、単漢字に対して、該単漢字の漢字表記、表記コード、該単漢字の構成部分を表す漢字構成情報とを関連付けて格納する辞書部と、前記検索式を前記辞書部の漢字構成情報と照合して、一致した単漢字に対する漢字表記または表記コードを検索結果とする検索部と、前記検索結果を出力する出力部を有する単漢字検索装置において、前記辞書部および前記検索式における漢字構成情報は、単漢字の各構成部分について、該構成部分と該構成部分の相対的位置情報の組み合わせ、或いは、該構成部分をさらに分解した分解構成部分の漢字構成情報で置き換えて、該構成部分の漢字構成情報を入れ子状に表現し、前記検索部は、検索式と前記辞書部の漢字構成情報とを照合し、一致した場合には、一致した単漢字に対する漢字表記または表記コードを検索結果とし、一致しなかった場合には、検索式中に入れ子状になっている各構成部分の漢字構成情報について前記辞書部を検索し、得られた結果を該入れ子の構成部分の漢字構成情報と置き換えた置換済み検索式を生成して再検索を行ない、前記置換済み検索式と前記辞書部の漢字構成情報とが一致するまで検索を繰り返すようにしたものである。
【００１５】
請求項２の発明は、請求項１において、ある漢字Ｙと共通する構成部分が存在する漢字Ｘがある場合、該共通する構成部分を漢字の構成部分として指定できるようにしたものである。
【００１６】
請求項３の発明は、請求項２において、前記共通する構成部分の指定は、該共通部分が存在する前記漢字Ｘの上下または左右または中外のいずれの位置にあるかという相対的位置情報と該漢字Ｘとの組み合わせで指定するようにしたものである。
【００１７】
請求項４の発明は、請求項１ないし３のいずれかにおいて、前記辞書部に読み情報を有し、前記検索部は、検索結果として得たい漢字の読みも出力するようにしたものである
【００１８】
【発明の実施の形態】
図１は、本発明の全体の構成図であり、図中、１は入力部で、入力には音声認識入力，キーボード入力などが考えられる。２は検索部、３は辞書部で、辞書には単漢字とその構成情報が最低限搭載される。また、４は出力部で、出力装置には、ディスプレイを想定しているが、音声合成なども可能である。
【００１９】
本発明では、“ある漢字を入力したいのだが、読みがわからない、また、知っている読みでは仮名漢字変換できない。”という場合を想定している。
これは、例えば、名刺などに記載されている人名・地名をインプットしたい時などにおこることが想定される。例えば、“林惇猷（あつみち）”という名前をインプットしたい時など読みではまず変換されない。
【００２０】
今、記号“＋”を使用し、“Ａ＋Ｂ”と表現したら、ＡとＢから構成されるという意味を表し、また、記号“，”を使用し、“Ａ，Ｂ”と表現したら構成部分として、ＡまたはＢが存在する、という意味を表すとする。また、“上，下，左，右，中，外”といった相対的位置情報をアルファベット“Ｔ，Ｄ，Ｌ，Ｒ，Ｉ，Ｏ”でそれぞれ表し、これらの記号を使用して辞書の構成情報にもこの位置情報を付与することで実現できる。
【００２１】
例えば、辞書に“櫁”に対して、“Ｌ木＋Ｒ蜜”という構成情報を付与していたとすると、ユーザが入れた検索式が「Ｌ木＋Ｒ蜜」であれば、検索式に含まれる構成情報と辞書に搭載されている構成情報を照合した結果“櫁”という所望の漢字を得ることができる。なお、木へんを有するもののみを得たければユーザは「Ｌ木」をいれればよい。また、“木，蜜”という式を与えたら“木”または“蜜”を構成要素として含むものを検索する。
検索では、検索式に含まれる構成情報が辞書の構成情報に含まれるものを検索させる。従って、複数の候補がでることもある。
検索を、検索式と辞書の構成情報が同内容の場合のみ成功させることにしてもかまわない。その場合は、ワイルドカードを設定するなどの必要がある。例えば、“＊”を０個以上の要素を表すワイルドカードと想定すると、木へんを有するもののみを得たければユーザは「Ｌ木＋＊」を指示することになる。
【００２２】
他にも、「Ｏ門＋Ｉ馬」で「闖」を得ることができる。
《辞書例》
漢字：ＪＩＳ：構成情報
．．．．
椨：５ｃ２ｄ：Ｌ木＋Ｒ府
椌：５ｂ７ｄ：Ｌ木＋Ｒ空
檸：５ｄ２６：Ｌ木＋Ｒ寧
檳：５ｄ２７：Ｌ木＋Ｒ賓
樒：５ｃ６９：Ｌ木＋Ｒ密
棕：５ｃ２３：Ｌ木＋Ｒ宗
榕：５ｃ５７：Ｌ木＋Ｒ容
樒：５ｃ６ａ：Ｌ木＋Ｒ密 ←検索式：「Ｌ木＋Ｒ密」がマッチ。
榁：５ｃ４３：Ｌ木＋Ｒ室
．．．．
【００２３】
《検索方法》
検索方法は簡単である。検索式の“＋”は“ａｎｄ”で解釈し、“，”は“ｏｒ”で解釈して検索式中の条件と辞書中の構成情報とを照合すればよい。
また、検索式中の構成情報にアルファベットが含まれていない場合は、どの位置にきてもいいものと解釈して検索する。
【００２４】
例えば、“梍”を入力するのに「左部分は“木”で右部分は上が“白”で下が“七”」と表現したとすると丸括弧（，）を使用して下記のように表現することができる。
ｅｘ．「左部分は“木”で右部分は上が“白”で下が“七”」 −→「Ｌ木＋Ｒ（Ｔ白＋Ｄ七）」
また、例えば、“梧”を検索する場合は、下記のどちらの検索式でも検索可能である。
検索式１：「Ｌ木＋Ｒ吾」
検索式２：「Ｌ木＋Ｒ（Ｔ五＋Ｄ口）」
【００２５】
辞書構成について説明する。
“梍”のように、右構成部分が、一文字として独立しない場合は、辞書の構成情報も、検索式と同様「Ｒ（Ｔ白＋Ｄ七）」のように記す。
“梧”のように、右構成部分が、一文字として独立可能な場合は、辞書の構成情報は、独立した文字の方で表現する（下記辞書例参照）。無論、“Ｒ吾”と共に“Ｔ五＋Ｄ口”の情報を“梧”に与えていてもよいが、メモリをとられたり、辞書情報や検索が繁雑になる恐れがあるのでここでは、“Ｒ吾”のみを記述する方式で以下説明する。
【００２６】

【００２７】
《検索方法》
検索式１の場合は、問題ない。
検索式２は、まず最初は、「Ｌ木＋Ｒ（Ｔ五＋Ｄ口）」という内容で辞書をスキャンする。しかし、該当するものが得られないので、丸括弧の内容「Ｔ五＋Ｄ口」で検索する。これで、“吾”を得ることができるので、検索式の丸括弧部分を“吾”に置き換え、今度は、「Ｌ木＋Ｒ吾」で再び辞書をスキャンし“梧”を得る。
他にも、「Ｌ波１＋Ｒ（Ｏ門＋Ｉ王）」で「潤」を得ることができる。
【００２８】
例えば、“猷”を求めるのに、上記の方式で表現すると「Ｌ酋＋Ｒ犬」または「Ｌ（Ｔソ＋Ｄ酉）＋Ｒ犬」という検索式になるが、もっと簡単に「“楢”の字の右側に、犬」という表現がしたいことがある。
この場合、例えば、位置情報の“上，下，左，右，中，外”を“ｔ，ｄ，ｌ，ｒ，ｉ，ｏ”で表現し、当該漢字の右側に記すことにしたとする。そうすると、「Ｌ楢ｒ＋Ｒ犬」のように表現することができる。
これは、得たい漢字の左構成部分には、“楢”の字の右部分がきて、得たい漢字の右構成部分には、“犬”がくるということを指示している。
検索式「Ｌ楢ｒ＋Ｒ犬」→“猷”
【００２９】
辞書構成について説明する。検索式で使用している右側の添字による指示方法は、辞書記述においては極力使用しないようにする。
《辞書例》
漢字：ＪＩＳ：構成情報
．．．．
楢：４６６ａ：Ｌ木＋Ｒ酋
．．．．
猷：４ｄ３２：Ｌ酋＋Ｒ犬
．．．．
【００３０】
《検索方法》
まず、右側の添字の解釈を行なう。
“楢”の辞書記述は“楢：４６６ａ：Ｌ木＋Ｒ酋”となっているので、この右構成要素“酋”を得る。そして、今度は「Ｌ酋＋Ｒ犬」で検索を行ない、結果として“猷”を得る。
他にも、「Ｏ区ｏ＋Ｉ王」で「匡」を、「Ｌ惰ｌ＋Ｒ閲ｉ」で「悦」を得ることができる。
【００３１】
上記で使用している漢字辞書に読み情報を付与し、検索結果として読み情報も得られるようにすればよい。
【００３２】
【発明の効果】
本発明によれば、ユーザが通常人に口頭で伝えている表現を数個の記号で表現するだけで、所望の漢字が得られるので、部首表の類をひいたり、画数をカウントしたりしなくてよく、また柔軟な表現が可能であるため、ユーザの負担が非常に少なくて済むので、エディティング作業の効率をアップすることができる。
【００３３】
また、得たい漢字の形が明確にわかっているときには、絞り込みの精度が高いので効率よく検索ができる。また、あいまいな場合でも検索でき、且つ、得たい漢字の形が明確にわかっているときには、絞り込みの精度が高い検索ができる。また、より柔軟な検索が可能であるので、人が通常行なっている直観的な表現に近い検索が行なえる。また、漢字だけでなく、その読みも得ることができる。
【００３４】
更に、本発明と前記特願平３−１４０８８７号の発明に対比してみると、
Ａ：本発明では、特願平３−１４０８８７号の差分生成辞書に相当するもののみで済む。
Ｂ：本発明では、相対的位置情報を使用するので、木へんのものだということが予めわかっていれば、“Ｌ木”（←左側に“木”がくるという意味）という指定ができ、“案，杏，楽，禁，襟，困…”などは最初から候補にあがらないため、検索効率，ヒット精度がよく、候補が絞られるため、後に続く計算量も少なくてすむ。
Ｃ：本発明の記述特願平３−１４０８８７号の記述方式
吾：Ｔ五＋Ｄ口吾：五，口
梧：Ｌ木＋Ｒ吾梧：木，五，口，吾
聒：Ｌ耳＋Ｒ舌聒：耳，千，口，舌
となり、本発明では、検索式１：「Ｌ木＋Ｒ吾」，検索式２：「Ｌ木＋Ｒ（Ｔ五＋Ｄ口）」のどちらでも検索可能であるが、辞書では“梧”に「Ｌ木＋Ｒ吾」の方の構成情報のみを登録しておくだけで済む。
本発明では、入力された検索式でみつからなかった場合、丸括弧の内容「Ｔ五＋Ｄ口」で検索し、“吾”を得てから再度検索することができるので、検索式２を入力されても結局、検索式１を得ることができるからである。
Ｄ：本発明では、ある漢字Ｘの一部分を指定することができるため、例えば、“辷ｄ”で、“辷／邇／逶”の下部共通部分を、“病ｔ”で“病／癌／痕”の上部共通部分を指定することができる。
【図面の簡単な説明】
【図１】本発明の実施例を説明するための全体構成図である。
【符号の説明】
１…入力部、２…検索部、３…辞書部、４…出力部。

Claims

単漢字の構成部分を用いて表現した検索式を入力する入力部と、単漢字に対して、該単漢字の漢字表記、表記コード、該単漢字の構成部分を表す漢字構成情報とを関連付けて格納する辞書部と、前記検索式を前記辞書部の漢字構成情報と照合して、一致した単漢字に対する漢字表記または表記コードを検索結果とする検索部と、前記検索結果を出力する出力部を有する単漢字検索装置において、前記辞書部および前記検索式における漢字構成情報は、単漢字の各構成部分について、該構成部分と該構成部分の相対的位置情報の組み合わせ、或いは、該構成部分をさらに分解した分解構成部分の漢字構成情報で置き換えて、該構成部分の漢字構成情報を入れ子状に表現し、前記検索部は、検索式と前記辞書部の漢字構成情報とを照合し、一致した場合には、一致した単漢字に対する漢字表記または表記コードを検索結果とし、一致しなかった場合には、検索式中に入れ子状になっている各構成部分の漢字構成情報について前記辞書部を検索し、得られた結果を該入れ子の構成部分の漢字構成情報と置き換えた置換済み検索式で再検索を行ない、前記置換済み検索式と前記辞書部の漢字構成情報とが一致するまで検索を繰り返すことを特徴とする単漢字検索装置。
請求項１において、ある漢字Ｙと共通する構成部分が存在する漢字Ｘがある場合、該共通する構成部分を漢字の構成部分として指定できるようにしたことを特徴とする単漢字検索装置。
請求項２において、前記共通する構成部分の指定は、該共通部分が存在する前記漢字Ｘの上下または左右または中外のいずれの位置にあるかという相対的位置情報と該漢字Ｘとの組み合わせで指定することを特徴とする単漢字検索装置。
請求項１ないし３のいずれかにおいて、前記辞書部に読み情報を有し、前記検索部は、検索結果として得たい漢字の読みも出力することを特徴とする単漢字検索装置。