JPH07319909A - 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法 - Google Patents

文書検索装置、文書検索方法、文字認識装置及び辞書作成方法

Info

Publication number
JPH07319909A
JPH07319909A JP6115059A JP11505994A JPH07319909A JP H07319909 A JPH07319909 A JP H07319909A JP 6115059 A JP6115059 A JP 6115059A JP 11505994 A JP11505994 A JP 11505994A JP H07319909 A JPH07319909 A JP H07319909A
Authority
JP
Japan
Prior art keywords
character
pattern
character recognition
input
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6115059A
Other languages
English (en)
Inventor
Eisuke Miyoshi
英輔 三由
Yasuo Tanosaki
康雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6115059A priority Critical patent/JPH07319909A/ja
Publication of JPH07319909A publication Critical patent/JPH07319909A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 表記の分からない検索語が入力された場合に
も目的の文書を迅速に検索すること。 【構成】 制御部4は入力部1から入力される表音文字
列に対応する同音異字語を同音異字語情報記憶部3から
読み出す。次に制御部4は前記読みだした同音異字語の
各々について、該当の同音異字語を含む文書を文書記憶
部2から検索した後、検索情報を所定のフォーマットに
従って出力部5から出力する。これにより、検索語の表
記が分からない場合でも、前記検索語の表音文字列を入
力すれば、目的の文書を検索することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースに格納さ
れた文書等を検索する文書検索装置に係わり、特にキー
ワードを用いずに文書を検索する文書検索方法並びに、
前記文書等を作成する文書作成装置に搭載される文字認
識装置における手書き入力された文字を認識するパター
ンを登録して辞書を作成する辞書作成方法に関する。
【0002】
【従来の技術】従来この種の文書検索装置では、データ
ベース作成時に予め文書に対してキーワードを付加して
おき、検索時このキーワードに基づいて該当の文書を検
索する方法が用いられていた。この方法では、検索速度
は比較的高速であるが、データベースに格納する文書に
キーワードを付加する作業に負荷がかかってしまうとい
う不具合があった。しかも、複数の文書に適当なキーワ
ードを付加する作業は必ずしも容易ではなく、適切なキ
ーワードが付加されていない場合には検索時に検索者の
目的とする文書が得られない場合もあった。
【0003】これに対して近年、コンピュータの処理速
度の高速化・大容量化に伴い、所望の文書を検索する際
に全文検索による検索方法が実用化されつつある。この
方法では、前記文書中の全ての文字列が検索可能となる
ため、前記文書をデータベースに格納する時にキーワー
ドを付加する必要がなく、前記文書の検索時に検索者の
指定した語句を含む前記データベース内にある全ての文
書を得ることができる。更に、同義語辞書や類義語辞書
を利用することにより、前記検索者が指定した1つの検
索語に対して複数の語の検索を行う方法も利用されるよ
うになってきている。
【0004】しかし、このような全文検索による文書の
検索方法では、表記(字)の分かっている語の検索しか
できないめ、発音(読み)が分かっていても表記(字)
の分からない語の検索を行なうことができなかった。特
に、日本語における固有名詞等のように、読み方だけが
分かっていて当てる漢字が分からなかった場合、必ずし
も目的の文書を検索することができるとは限らないとい
う欠点があった。
【0005】ところで、上記した文書検索装置を搭載す
る文書作成装置には、表示装置と座標入力装置が積層一
体化された入力表示装置を有し、この入力表示装置には
紙に文字や図形を書き込む感覚で情報が入力できるた
め、最近、各方面で使用されるようになってきた。これ
に伴い、従来キーボードを入力装置として文字等を入力
し、文章を作成していた装置も、キーボードを用いずに
液晶タブレットの上にスタイラスペンを用いて座標点列
の情報という形で入力し、その情報を文字として認識し
て、装置内に入力するようになってきた。これに伴っ
て、この種の文書作成装置には、前記入力表示装置を含
んで構成される文字認識装置が搭載されている。
【0006】ここで、前記文字認識装置における文字を
認識する方法は入力者が入力した座標情報と予め登録さ
れている認識辞書内の複数のパターンとをマッチングし
て、一番入力した座標情報に近い登録文字を認識候補と
している方式を始めとして、多数の認識方式が提案され
ている。しかしどの認識方式においても未だ十分な文字
認識率が得られておらず、文字認識率を向上させるため
に、予め与えられた文字認識辞書に加えて個人ごとの文
字認識辞書を用意して、その個人用の文字認識辞書に認
識しずらい文字を登録することで認識率の向上を実現し
ようとしてる。しかし、入力者が新たな文字パターンを
登録する場合に、基本となる認識辞書や、過去に登録し
た個人用の文字認識辞書の中に類似したパターンが存在
すると、かえって類似文字の識別が困難になってしまう
こともあった。
【0007】
【発明が解決しようとする課題】上記のように従来の文
書検索装置では、全文検索に、更に同義語辞書や類義語
辞書を利用した検索方法を加えることにより、検索者が
指定した、1つの検索語の入力に対して、前記検索語の
同義語や類義語を含む文書についても前記データベース
から検索ができるようになったが、表記(字)の分から
ない検索語に関しては、必ずしも目的の文書を迅速に検
索ができるとは限らないという欠点があった。
【0008】又、従来の入力表示装置を有する文字認識
装置では、予め与えられた文字認識辞書に加えて個人ご
との文字認識辞書を用意し、この辞書に認識しずらい文
字を登録することで認識率の向上を実現することが考え
られているが、利用者が新たな文字パターンを登録する
場合に、基本となる認識辞書や過去に登録した個人用の
文字認識辞書の中に類似したパターンが存在すると、か
えって類似文字の識別が困難になってしまうという欠点
があった。
【0009】そこで本発明は上記の事情を鑑みてなされ
たもので、表記の分からない検索語が入力された場合に
も目的の文書を迅速に検索することができる文書検索装
置と文書検索方法並びに、入力者が新たに個人用の文字
認識辞書に文字パターンを登録することによって、手書
き文字の認識率を向上させることができる文字認識装置
及び辞書作成方法を提供することを目的としている。
【0010】
【課題を解決するための手段】請求項1の発明はデータ
ベースに格納されている文書を検索語に基づいて検索す
る文書検索装置であって、表音文字列とこれに対応する
同音異字語を格納した記憶手段と、入力された表音文字
列に対応する同音異字語を前記記憶手段から求める同音
異字語取得手段と、この同音異字語取得手段によって取
得された各同音異字語を前記検索語として前記データベ
ースから文書を検索する検索手段とを具備した構成を有
する。
【0011】請求項4の発明は座標入力手段から入力さ
れた座標点列のパターンを文字認識辞書内のパターンと
照合することにより、手書き文字を文字認識して入力す
る文字認識装置において、前記座標入力手段から入力さ
れた座標点列のパターンとこのパターンに対応する文字
コードとを前記文字認識辞書に登録する登録手段と、こ
の登録手段により登録されたパターンと類似する既存の
パターンを前記文字認識辞書から検索する検索手段と、
この検索手段によって検索されたパターンの前記文字認
識辞書内の候補優先順位情報を変更する修正手段とを具
備した構成を有する。
【0012】
【作用】請求項1の発明の文書検索装置において、記憶
手段は表音文字列とこれに対応する同音異字語を格納す
る。同音異字語取得手段は入力された表音文字列に対応
する同音異字語を前記記憶手段から求める。検索手段は
前記同音異字語取得手段によって取得された各同音異字
語を前記検索語として前記データベースから文書を検索
する。これにより、
【0013】請求項4の発明の文字認識装置において、
登録手段は前記座標入力手段から入力された座標点列の
パターンとこのパターンに対応する文字コードとを前記
文字認識辞書に登録する。修正手段は前記登録手段によ
り登録されたパターンと類似する既存のパターンを前記
文字認識辞書から検索する検索手段と、この検索手段に
よって検索されたパターンの前記文字認識辞書内の候補
優先順位情報を変更する。
【0014】
【実施例】以下、本発明の一実施例を図面を参照して説
明する。図1は本発明の文書検索装置の一実施例を示し
たブロック図である。101は検索すべき文字列を入力
する入力部、102は検索される文書を記憶した文書記
憶部、103は表音文字列をこの文字列に対応する同音
異字語を組にして記憶した同音異字語情報記憶部、10
4は入力部101から入力された文字列を同音異字語情
報記憶部103の情報を用いて入力文字列の同音異字語
群を得た後、文書記憶部102中の文書から前記同音異
字語群を含む文書を検索し、105は検索結果を出力す
るLCD又はCRT等の出力部である。
【0015】次に本実施例の動作について説明する。入
力部101から入力された検索文字列(表音文字列)は
制御部104に送られ、制御部104は同音異字語情報
記憶部103の情報を利用して入力検索文字列の同音異
字語群を得る。ここで、同音異字語情報記憶部103は
図2に示すような構造を有しており、表音文字列とそれ
に対応する同音異字語群を記憶している。例えば検索文
字列が「さかい」に対して同音異字語群として、「坂
井」「阪井」「酒井」「堺」が格納されており、最後に
検索文字列自身の「さかい」が格納されている。更に、
制御部104は得られた同音異字語群のそれぞれについ
て、文書記憶部3に記憶されている文書の中から、同じ
文字列が含まれているものを検索する。
【0016】図3は上記した制御部104の検索処理の
流れを示したフローチャートである。まず、制御部10
4はステップ301にて入力部101より検索表音文字
列を得た後、ステップ302にて、この検索表音文字列
と図2に示した同音異字語情報記憶部103内の同音異
字語情報テーブル内の表音項目中の先頭の文字列とを比
較する。制御部104はステップ303にてその表音項
目中の文字列と検索表音文字列とが一致するかどうかを
調べ、一致したならばステップ304にて前記同音異字
語情報テーブル内から対応する同音異字語群を得、一致
しなければステップ305にて前記同音異字語情報テー
ブルの全ての表音項目を参照したかを確認する。前記同
音異字語情報テーブルの全ての表音項目について検索表
音文字列と一致するものがなければ、制御部104はス
テップ305にて同音異字語なしという情報を出力部1
05に出力して処理を終了する。
【0017】制御部104はステップ305にて未だ参
照していない表音文字列があることが分かると、ステッ
プ307にて次の表音項目と検索表音文字列とを比較
し、ステップ303に戻り、その表音項目と検索表音文
字列が一致するかを調べ、上記処理を同音異字語群が得
られるまで繰り返す。上記したステップ304にて同音
異字語群が得られたならば、制御部104はステップ3
08で同音異字語群の第1候補と文書記憶部102内に
格納されている複数の文書の先頭の文書内の文字列とを
比較し、ステップ309にて文書内の文字列中に前記候
補と同じ文字列があるか否かを判定し、ある場合はステ
ップ310にて該当の文書について図4に示すような構
造の異字語と、それを含む文書名を組にした検索結果情
報を作成しなければステップ311の処理へ飛ぶ。
【0018】次にステップ311にて前記文書記憶部1
02内の全ての文書を検索したか否かを調べ、未だ検索
していない文書があればステップ312にて前記候補と
文書記憶部102内の次の文書の文字列とを比較し、ス
テップ309に戻って同じ文字列があるかどうかを調べ
る。上記処理は文書記憶部102内の全ての文書につい
て繰り返す。制御部104はステップ311で全ての文
書が検索されたことを確認できれば、ステップ313に
進み、ここで検索していない同音異字語候補が存在する
かどうかを調べる。その結果、存在すれば制御部104
はステップ314にて次の同音異字語候補と文書記憶部
102内の複数の文書の先頭の文書内の文字列とを比較
し、再びステップ309に戻って、同じ文字列があるか
どうかを調べ、上記処理を全ての候補について繰り返
す。制御部104はステップ313にて全ての候補につ
いて検索したことを確認したならば、ステップ315に
進んで、図4のような検索結果から図5のような同音異
字語と同音語の種類とそれぞれに対応する文書名を、利
用者に明示できる形の出力情報に作成し、これをステッ
プ316にて、出力部105に送り出して処理を終了す
る。
【0019】上記した出力部105は制御部104から
送られてくる出力情報を表示するが、以下、具体例を用
いてその動作を説明する。入力部101から例えば「さ
かい」という文字列が入力された場合、その文字列が制
御部104に送られる。制御部104は、同音異字語情
報記憶部103に図2に示すような同音異字語テーブル
が記憶されている場合、表音項目から「さかい」とかく
文字列を探し、対応する同音異字語群として「坂井」
「阪井」「酒井」「堺」を得る。この同音異字語群のそ
れぞれの語について、その語を含む文書を文書記憶部1
02から検索する。この検索により図4に示すように、
制御部104は「坂井」を含む文書として「文書1」
「文書2」「文書3」「文書4」を、「阪井」を含む文
書として「文書5」を、「酒井」を含む文書として「文
書3」「文書6」「文書7」を、「堺」を含む文書とし
て「文書7」「文書8」を得る。又、入力文字列そのも
のである「さかい」からは「文書5」「文書9」という
情報を得る。次に制御部104は図4に示すような同音
異字語とそれを含む文書名を組みにした情報を、利用者
にどのような異字語が存在して、異字語毎にそれを含む
文書名が何であるかを明示できるように、図5に示すよ
うな形態に直して、これを出力部105に表示する。
【0020】又、英語の同音異字語検索においても、上
記した日本語の同音異字語検索と同様の処理により、同
音異字語の検索を行うことができる。図6に示すような
情報が同音異字語情報記憶部103に記憶されている場
合で、raitという表音文字列が入力部101から入
力されると、制御部104は表音項目から[rait]
という文字列を探し、対応する同音異字語群として「r
ite」「right」「write」「wrigh
t」を得る。制御部104は前記同音異字語群の語それ
ぞれについて、該当語を含む文書を文書記憶部102か
ら検索する。制御部104はこうして得られた同音異字
語とそれを含む文書名を組にした情報を出力部105よ
り出力する。
【0021】本実施例によれば、入力部101から入力
された入力文字列については勿論、この文字列の同音異
字語を含む文字列を検索語として、文書記憶部102を
検索することにより、文書中に前記検索語を含む文書を
全て検索することができる。このため、表記(字)の分
からない検索語に関しても同音異字語を含む文字列にて
検索できる可能性があるため、検索時に、検索者が指定
した文字列にて、検索者が目的とする文書を迅速に検索
できる。特に、表記が分からなくても、その読みさえ分
かっておれば、この読みを示す表音文字列を検索語とし
て用いることによって、目的の文書を検索することがで
きる。従って、文書を文書記憶部102に記憶する際に
キーワードを用いる必要がなく、簡単に文書を文書記憶
部102に記憶することができる。
【0022】尚、本発明は上述した実施例に限定される
ものではない。実施例では日本語及び英語を使用してい
るが、同音異字語を持つ他の原語にも応用できる。又、
検索時に入力文字列も同時に検索しているが、入力文字
列と、この入力文字列の同音異字語を別々に検索しても
同様の効果がある。この場合、図2、図5の同音語群か
ら入力文字列が省かれることになる。更に、検索語の入
力は音声入力により行うこともできる。ここで、文書中
の文字列から検索語を捜し出す方法については、文字列
の称号を用いる方法や、文書入力時に予め検索表を作っ
ておく方法等、様々な方法があるが、ここではその方法
を特に問わない。
【0023】図7は本発明の文字認識装置の一実施例を
示したブロック図である。本例の文字認識装置は透明タ
ブレット1と、この透明タブレット1上の座標を指示す
るスタイラスペン2とからなる座標入力装置と、この座
標入力装置から得られた2次元の座標点列の情報に基づ
き辞書登録を行なうマイクロプロセッサを主体とした制
御装置3と、前記スタイラスペン2から入力した登録パ
ターンの筆跡データを表示するための例えば液晶ディス
プレイ等の表示装置4と、制御装置3が辞書登録を行な
う際にアクセスする外部記憶装置5で構成されている。
【0024】但し、表示装置4としては、液晶ディスプ
レイの他にプラズマディスプレイ等も用いることができ
る。前記表示装置4としての液晶ディスプレイは透明タ
ブレット1と積層一体化されている。つまり、この液晶
ディスプレイと積層一体化された透明タブレット1とは
同一寸法の同一座標面を形成するものであり、液晶ディ
スプレイに表示された情報は透明タブレット1を介して
視認できるようになっている。このように積層一体化さ
れた透明タブレット1と表示装置4とにより、透明タブ
レット1上での座標指示位置が表示装置4上での同一位
置での情報として表示され、例えば紙上に文字・図形を
描く感覚で情報入力を行なうことができるようになって
いる。
【0025】図8は図7に示した文書作成装置の内部構
成例を示した図である。制御装置3は初期設定部31、
入力部32、個人辞書作成部33、文字認識部34、認
識辞書操作部35、表示制御部36、記憶部37からな
つている。記憶部37は前記透明タブレット1から入力
された座標点列の情報を一時格納しておく入力データバ
ッファ371、辞書登録する文字パターンの文字コード
を一時格納しておく文字コードバッファ372、個人用
文字認識辞書を作成するための一時的なテンポラリ領域
である辞書作成用バッファ373、前記表示装置(液晶
ディスプレイ)4に表示するデータを一旦格納しておく
表示データバッファ374、システムの初期化の際に表
示する初期画面のイメージを格納している画面イメージ
データ375、前記表示装置4を介して表示される入力
画面の入力枠及び各種ボタンの座標位置の情報を格納す
る画面領域テーブル376で構成されている。
【0026】次に本実施例の動作について説明する。初
期設定部31は表示装置4への初期画面の表示、各種バ
ッファのクリア等の初期化処理を行なう。又、入力部3
2は前記座標入力装置1から入力された座標情報に関す
る処理を行なう。更に個人辞書作成部33は前記入力部
32にて入力された座標情報から個人用文字認識辞書5
2を作成する処理を行なう。文字認識部34は前記入力
データバッファ371に格納されている辞書登録パター
ンの座標情報を外部記憶装置5の個人用文字認識辞書5
1及びに個人用文字認識辞書52内のデータを参照指定
文字として認識する処理を行なうものである。認識辞書
操作部35は前記文字認識部34で出力された文字候補
の評価値から個人用文字認識辞書52内の辞書登録パタ
ーンと類似した辞書パターンが標準文字認識辞書51内
にあるか否かを調べ、類似した辞書パターンが存在すれ
ば、その辞書パターンがその後の認識処理で認識候補と
して選択されるので、その候補順位を下げるという情報
を付加する処理を行なう。更に、表示制御部36は記憶
部37に格納されたデータを表示装置4に出力したり、
消去したりする処理に関する制御を行なうものである。
【0027】制御装置3の表示制御部36は表示装置4
に図9に示すような入力画面40を表示する。利用者は
この入力画面40の中の入力枠41に辞書登録したい文
字パターンを前記スタイラスペン2で入力し、更にその
登録する文字の文字コードを文字コード入力エリア42
に入力する。その後、スタイラスペン2で登録アイコン
44をタッチすると、辞書登録作業と認識辞書修正作業
が開始される。入力枠41に登録文字を入力した後、そ
のデータを再度入力したいときには、取り消しアイコン
43をタッチすれば、入力枠41内のデータと、文字コ
ード入力エリア42内のデータが初期化される。
【0028】外部記憶装置5は上記した如く、標準的な
文字パターンが登録されている標準文字認識辞書51
と、入力者個人の文字パターンを登録できる個人用文字
認識辞書52から構成されている。標準文字認識辞書5
1と個人用文字認識辞書52は文字認識部34で文字認
識する際に参照する文字情報が格納されている。文字情
報は図10に示す通り、辞書番号、文字認識処理で認識
後方の順位をいくつ下げるかの情報を格納する変動順位
データ、文字、文字コード、画数、1つの画の始点と終
点とを第1画の始点を基準とする相対座標で表した情報
等が格納されている。
【0029】図11は図7又図8に示した装置で入力者
個人の文字パターンを個人用文字認識辞書52に登録す
る処理の流れを示したフローチャートである。制御装置
3の初期設定部31はステップ501にて、処理の始め
に記憶部37内の各種バッファなどをクリアし、画面イ
メージデータ375のイメージデータを基にして図9に
示すような初期画面40を表示制御部36により表示装
置4に表示する。次にステップ502にて入力者がスタ
イラスペン2を用いて図9に示した入力画面40の入力
枠41に登録パターンを、もしくは文字コード入力エリ
ア42に登録する文字コードを入力する。するとステッ
プ503にて入力部32は画面領域テーブル376の値
を参照して入力しているか否かの判断を行う。ここで、
画面領域テーブル376は例えば図12に示すように入
力枠・各種アイコンの領域を表す領域番号と、その領域
の左上と右下の座標を格納している。入力枠41に登録
文字パターンを入力しているのであれば、ステップ50
4にて入力部32は表示制御部36を介して筆跡を表示
装置4に表示して、ステップ505にて入力データバッ
ファ371に座標情報を格納した後、ステップ502に
戻る。ここで、入力データバッファ371には図13に
示すようにデータのx座標、y座標が格納されている。
更に、入力データバッファ371には、後ほどの文字認
識処理で利用するために、1画分の区切りを示すセパレ
ータも併せて格納する。
【0030】ここで、1画分の区切りの判断はスタイラ
スペン2が透明タブレット1から離れた時点とする。
又、ステップ503で入力者が登録パターンの文字を入
力枠41の中に入力していないと判断された場合に、ス
テップ506にて入力部32は画面領域テーブル376
を基に文字コードが入力されているか否を調べることに
より、文字コード入力エリア42の中に登録文字の文字
コードを入力しているか否かを判断する。入力部32が
文字登録の文字コードを入力していると判断すれば、ス
テップ507にてタッチしている対応の文字コードを表
示制御部36を介して液晶タブレット4に表示して、ス
テップ508にて文字コードを文字コードバッファ37
2に格納して、ステップ502へ戻る。
【0031】更にステップ506で入力者が文字コード
入力エリア42の中に入力していないと判断された場合
に、入力部32は画面領域テーブル376を基に取消ボ
タン43の中に入力しているか否かで、ステップ509
にて取消処理を行っているか否かを判断する。取消ボタ
ン43をタッチしていれば、ステップ510にて入力部
32は表示制御部36を介して文字コード入力エリア4
2内の文字コードの表示と入力枠41内の筆跡の表示の
初期化処理を行う。そして、ステップ511にて入力デ
ータバッファ371と文字コードバッファ372の内容
をクリアして、ステップ502へ戻る。しかし、ステッ
プ509で入力者が取消ボタン43をペン2がタッチし
ていないと判定された時、入力部32は画面領域テーブ
ル376のデータをチェックすることにより登録ボタン
44の中をタッチすることにより、ステップ513にて
辞書登録開始処理を行っているかを判断する。辞書登録
開始処理を行っていない時は無効な位置にペン2が置か
れたと判断して、何もせずにステップ502に戻る。
【0032】登録ボタン44がペン2でタッチされてい
れば、個人辞書作成部33に処理が移り、登録処理に入
る。まず、個人辞書作成部33は文字コードバッファ3
72の値を調べ、登録する文字コードが正しいものか否
かを調べる。文字コードが正しいものではなかった時に
は個人辞書作成部33は警告文をステップ515にて表
示制御部36及び表示データバッファ374を介して表
示し、ステップ502に戻る。ステップ514にて文字
コードが正しい判定された場合、ステップ516にて続
いて入力データバッファ371の中を調べて登録するデ
ータが入っているか否かを調べる。データが入っていな
ければ、個人辞書作成部33は警告文をステップ517
にて表示制御部36及び表示データバッファ374を介
して表示し、ステップ502に戻る。登録データが存在
している時には、個人辞書作成部33は次にのように個
人辞書への登録を行う。即ち、個人辞書作成部33は個
人用文字認識辞書52の内容を一度辞書作成用バッファ
373に転送し、辞書作成用バッファ373上で作業を
行う。個人辞書には図10に示すようなデータ構造の形
で登録パターンの追加を行い、ステップ518にて作業
が終了した段階で、追加した個人用文字認識辞書52を
外部記憶装置5に転送する。
【0033】個人用文字認識辞書52への登録作業が終
了したら、認識辞書操作部35に処理が移る。認識辞書
操作部35は以下のようにステップ518にて登録され
た文字パターンと類似した辞書パターンについて登録情
報の変更を行う。まず、認識辞書操作部35はステップ
519にて文字認識部34を介して入力データバッファ
371に格納されている登録文字データを文字認識す
る。この文字認識処理は外部記憶装置5に格納されてい
る入力データと同一の画数をもつ標準文字認識辞書51
の登録パターンを用いて次のように行われる。まず、入
力データバッファ371に格納されている2次元座標デ
ータを標準文字認識辞書51に格納されている第1画の
始点を基準とする相対座標の形に変換する。次に相対座
標情報と1画分の始点・終点の各座標点において、その
距離を計算する。そして各座標点の距離の合計値を求
め、ステップ519にてその合計値を画数で割った値を
評価値として算出する。算出した評価値を基に評価値が
予め設定されてたしきい値と比較してしきい値より評価
値が小さいか否かをステップ520にて調べる。認識辞
書操作部35は評価値がしきい値より小さい場合、文字
認識した認識候補の辞書パターンがステップ518で登
録した登録パターンと類似していると判断する。その場
合、認識辞書操作部35はステップ521にて標準文字
認識辞書51内の類似している辞書パターンの変動順位
データの値を1増加させ、このステップ521が終了し
たら処理が終了する。又、ステップ520で評価値がし
きい値より大きかった場合にはそのまま本例の処理を終
了する。
【0034】その後、文字認識部34の文字認識処理の
では文字候補が算出されから、この変動順位データを用
いて候補順位の変更を行う。具体的に文字候補が「い」
「り」「”」で、それらの変動順位データがそれぞれ
「2」「1」「0」の時、第1候補は2つ順位が下が
り、第2候補は1つ順位が下がるので、候補順位
は「”」「り」「い」と変更される。
【0035】本実施例によれば、個人用の文字認識辞書
52に新たな文字パターンを登録する際に、その登録文
字パターンと類似している既に標準文字認識辞書51に
登録済みのパターンを、その後の認識処理で候補に挙が
った時にその候補順位を下げて、入力者が新たに登録文
字を辞書51に追加しても、その追加によって誤認識を
引き起こすことを回避することができる。これにより入
力者は自分の認識し易い文字パターンを次々と登録する
ことができ、それに伴い文字認識率の向上も実現するこ
とができる。
【0036】尚、本発明は上述した実施例に限定される
ものではない。例えば、本実施例では標準文字認識辞書
のみで辞書パターンに変動順位データの変更を行った
が、個人用文字認識辞書を含めた複数の認識辞書を対象
に辞書パターンの候補順位の変更の情報付加を行っても
よい。又、本実施例では登録パターンと類似している認
識パターンの変動順位データを直接変更していたが、認
識辞書がROM上にあることを想定して変動順位データ
と辞書番号の対応を辞書本体とは別にテーブルとしてR
OM上に保持し、その情報を変更することで、辞書の修
正を行うというような認識辞書のデータ構造にしてもよ
い。
【0037】又、本実施例では文字認識の方法を辞書の
登録している文字と入力した座標との距離計算によるマ
ッチングで認識していたが、文字をある基本的な形に抽
象化して、その形とのマッチングを行うなど、評価値が
算出できるならば他の文字認識手法を使用してもよい。
それに付随して認識辞書のデータ構造も変更してもよ
い。本実施例では変動順位データを基に該当する辞書パ
ターンの候補順位を変動順位データの値の数だけ下げる
という順位変更処理を行ったが、各候補の評価値を調べ
て評価値に応じて後方の順位を下げる等の本実施例以外
の候補順位の入れ替え処理を行うようにしても同様の効
果がある。
【0038】
【発明の効果】以上記述した如く本発明の文書検索装
置,文書検索方法,文字認識装置及び辞書作成方法によ
れば、検索者が指定した1つの検索表音文字列入力に対
し、複数の同音異字語を有する文字列を含む文書の検索
も可能にして、表記の分からない検索語が入力された場
合にも目的の文書を迅速に検索することができる文書検
索装置と文書検索方法並びに、入力者が新たに個人用の
文字認識辞書に文字パターンを登録することによって、
手書き文字の認識率を向上させることができる同音異字
語変換情報を記憶しておくことにより、1つの表音文字
列を入力するだけで、1以上の同音異字語の検索をする
ことができる
【図面の簡単な説明】
【図1】本発明の文書検索装置の一実施例を示したブロ
ック図。
【図2】図1に示した同音異字語情報記憶部内の構造例
を示した図。
【図3】図1に示した制御部の検索処理を示したフロー
チャート。
【図4】図1に示した制御部が各同音語を含む文書を検
索した結果例を示した図。
【図5】図4に示した結果例を図1に示した出力部に表
示するフォーマット例を示した図。
【図6】図1に示した入力部により入力される文字列が
英語の場合の同音異字語を示した図。
【図7】本発明の文字認識装置の一実施例を示した概略
構成図。
【図8】図7に示した制御装置の詳細例を示したブロッ
ク図。
【図9】図8に示した表示装置に表示される個人用文字
パターン入力画面例を示した図。
【図10】図8に示した標準文字認識辞書のデータ構造
例を示した図。
【図11】図8に示した制御装置の文字パターン登録処
理を示したフローチャート。
【図12】図8に示した画面領域テーブルのデータ構造
例を示した図。
【図13】図8に示した入力データバッファのデータ構
造例を示した図。
【符号の説明】
1…透明タブレット 2…スタイラスペ
ン 3…制御装置 4…表示装置 5…外部記憶装置 31…初期設定部 32…入力部 33…個人辞書作
成部 34…文字認識部 35…認識辞書操
作部 36…表示制御部 37…記憶部 371…入力データバッファ 372…文字コー
ドバッファ 373…辞書作成用バッファ 374…表示デー
タバッファ 375…画面イメージデータ 376…画面領域
テーブル 51…標準文字認識辞書 52…個人用文字
認識辞書 101…入力部 102…文書記憶
部 103…同音異字語情報記憶部 104…制御部 105…出力部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 データベースに格納されている文書を検
    索語に基づいて検索する文書検索装置であって、表音文
    字列とこれに対応する同音異字語を格納した記憶手段
    と、入力された表音文字列に対応する同音異字語を前記
    記憶手段から求める同音異字語取得手段と、この同音異
    字語取得手段によって取得された各同音異字語を前記検
    索語として前記データベースから文書を検索する検索手
    段とを具備したことを特徴とする文書検索装置。
  2. 【請求項2】 前記検索手段は入力された表音文字列を
    含む文書も前記データベースから検索することを特徴と
    する請求項1記載の文書検索装置。
  3. 【請求項3】 データベースに格納されている文書を検
    索語に基づいて検索する文書検索方法であって、入力さ
    れた表音文字列に対応する同音異字語を求めた後、求め
    た各同音異字語を前記検索語として前記データベースか
    ら文書を検索することを特徴とする文書検索方法。
  4. 【請求項4】 座標入力手段から入力された座標点列の
    パターンを文字認識辞書内のパターンと照合することに
    より、手書き文字を文字認識して入力する文字認識装置
    であって、前記座標入力手段から入力された座標点列の
    パターンとこのパターンに対応する文字コードとを前記
    文字認識辞書に登録する登録手段と、この登録手段によ
    り登録されたパターンと類似する既存のパターンを前記
    文字認識辞書から検索する検索手段と、この検索手段に
    よって検索されたパターンの前記文字認識辞書内の候補
    優先順位情報を変更する修正手段とを具備したことを特
    徴とした文字認識装置。
  5. 【請求項5】 登録手段により新たなパターンとこれに
    対応する文字コードとが登録される辞書を別に設けたこ
    とを特徴とした請求項1記載の文字認識装置。
  6. 【請求項6】 前記登録手段により登録されたパターン
    と前記文字認識辞書内の既存のパターンの類似性は前記
    登録されたパターンを文字認識する際に得られる評価値
    に基づいて判定することを特徴とした請求項4又は5記
    載の文字認識装置。
  7. 【請求項7】 前記修正手段は前記検索手段によって検
    索されたパターンが文字認識処理で文字認識候補に挙げ
    られた時に、このパターンに関わる前記文字認識辞書内
    の候補優先順位情報を変更することを特徴とした請求項
    4乃至6記載の文字認識装置。
  8. 【請求項8】 座標入力手段から入力された座標点列の
    パターンを文字認識辞書内のパターンと照合することに
    より、手書き文字を文字認識して入力する文字認識装置
    にあって、前記座標点列のパターンを前記文字認識辞書
    へ登録して辞書を作成する辞書作成方法において、前記
    座標入力手段から入力された座標点列のパターンとこの
    パターンに対応する文字コードとを前記文字認識辞書に
    登録するする際に、登録するパターンと類似する既存の
    パターンを前記文字認識辞書から検索し、検索されたパ
    ターンの前記文字認識辞書内の候補優先順位情報を変更
    することを特徴とした辞書作成方法。
JP6115059A 1994-05-27 1994-05-27 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法 Withdrawn JPH07319909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6115059A JPH07319909A (ja) 1994-05-27 1994-05-27 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6115059A JPH07319909A (ja) 1994-05-27 1994-05-27 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法

Publications (1)

Publication Number Publication Date
JPH07319909A true JPH07319909A (ja) 1995-12-08

Family

ID=14653161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6115059A Withdrawn JPH07319909A (ja) 1994-05-27 1994-05-27 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法

Country Status (1)

Country Link
JP (1) JPH07319909A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223894A (ja) * 2008-03-14 2009-10-01 Nhn Corp 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223894A (ja) * 2008-03-14 2009-10-01 Nhn Corp 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム

Similar Documents

Publication Publication Date Title
US9798393B2 (en) Text correction processing
US10156981B2 (en) User-centric soft keyboard predictive technologies
US5724457A (en) Character string input system
US20080150910A1 (en) Handwritten charater input device
JP5500818B2 (ja) 表示制御装置および表示制御方法
JPH07182462A (ja) 文字認識装置及び方法
CN1862472B (zh) 借由提交不全字和/或任意给定字的不全笔画的表意语言短语的缩写手写输入的系统和方法
JPH07319909A (ja) 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法
JP6537477B2 (ja) 検索システム、検索方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体
JP2745484B2 (ja) 手書文字認識方法および装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0677252B2 (ja) 和文データ入力処理装置
JPH1063775A (ja) 文書作成装置及び認識候補表示方法
JP3888701B2 (ja) 文字変換装置
CN1641635B (zh) 计算机可执行的字/词匹配与查询的系统及其方法
JPH06290299A (ja) 文字入力装置
JPH0916587A (ja) 文字列予測方法及び文書作成装置
JPH07152754A (ja) 文章作成補助機能を持つ文章作成装置
TW586064B (en) System and method for inputting Roman phonetic type Korean Chinese character
JPH05282293A (ja) 文書作成装置
JPH0574867B2 (ja)
JPH09128486A (ja) 手書き文字入力装置
JPH10198759A (ja) 文字認識装置及びその方法並びに記憶媒体
JPH06309490A (ja) 文字入力装置及び方式
JPH07182463A (ja) 文字認識装置及び方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010731