JPH0258664B2

JPH0258664B2 -

Info

Publication number: JPH0258664B2
Application number: JP56180363A
Authority: JP
Inventors: Shuzo Oowaku; Akio Nagano; Katsuhide Tanoshima; Masayoshi Yurugi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1981-11-12
Filing date: 1981-11-12
Publication date: 1990-12-10
Also published as: JPS5882373A

Description

【発明の詳細な説明】本発明は、情報処理機器の入力装置として用い
られるオンライン手書文字認識装置に関わる認識
方法に関するものである。

従来の手書文字入力ワードプロセツサは手書文
字を認識するためにオンライン手書文字認識技術
を用いていたが、例えば数字、アルフアベツト、
ひらがな、漢字を認識する場合、数字10ケ、アル
フアベツト26ケ、ひらがな46文字及び濁点、半濁
点をはじめとする記号類を含むと約200字あり、
又、漢字をJIS C6226第１水準漢字集合に限つて
も2965字存在する。漢字を常用漢字にしぼつても
1945字あり計2000文字を越えることとなる。

さて、漢字を当用漢字とし合計2000字強の文字
を認識する手書文字入力日本語ワードプロセツサ
も発表されているがその認識処理は、例えばＫ―
Ｌ展開法を用いて、漢字を直接認識せんとする
等、ハードウエア量が大となりすぎるという欠点
があつた。又、前記の例に限らず手書漢字を数
字、アルフアベツト、ひらがな等と同じアルゴリ
ズムで直接認識せんとするため、認識のための計
算量が膨大となり処理時間がかかることとなり、
この処理時間を短縮するためハードウエア量の増
加を招くという、実用化という観点からみた場合
重大な欠点があつた。

本発明は前記の欠点を除去することを目的と
し、漢字を細分化して細分化された文字の部分集
合を認識し前記認識された部分集合の集まりとし
て漢字を識別するものであつて、等価的に認識す
る漢字の字数を減づると共に辞書に要する記憶容
量を減づるもので認識対象の文字辞書は前記文字
の部分集合の系列の形で登録できるため認識文字
系数の増加にともなう記憶容量の増加を低くおさ
えることができるという特徴を有する。

以下図面により実施例を説明する。

第１図は本発明の一実施例を示すブロツク図で
あつて１はタブレツト、２は認識部、３は漢字を
細分化した文字の部分集合（以下擬似部首とい
う）の特徴と擬似部首コードを格納した擬似部首
辞書、４は認識部２で認識された擬似部首コード
を格納する入力レジスタ、５は入力レジスタ４内
に格納されている１ケ又は複数の擬似部首コード
より文字を選択する選択回路、６は擬似部首コー
ドと文字コードを格納した文字辞書の如く構成さ
れて居る。タブレツト１より入力されたストロー
ク情報は、認識部２へ送られる。認識部２はオン
ライン手書に好適な周知のストロークアナリシス
法やＫ―Ｌ展開法等により各擬似部首を認識する
ように働く。認識部２で認識する際は、擬似部首
の特徴と擬似部首コードを格納した擬似部首辞書
３を用いる。認識部２の出力は、擬似部首コード
の形で入力レジスタ４に認識される都度出力され
格納される。入力レジスタ４より格納されている
擬似部首コードが順次出力され、選択回路５に入
力される。選択回路５では、文字辞書６の内容と
入力レジスタ４の出力の擬似部首コードとにより
文字を選択し結果の文字コードを出力する。

第２図は擬似部首辞書３の一例を示す。000よ
り続く16進の数字は擬似部首コードを示し、擬似
部首コードの右側には各擬似部首が記載されてい
る。実際の辞書では、各擬似部首の位置には認識
部２の認識アルゴリズムに基く特徴データが記載
されるがここでは説明の便のため各擬似部首その
ものを示す。なお擬似部首辞書３には、漢字以外
のひらがな、数字、アルフアベツト等は細分化さ
れず直接格納されている。

第３図は、入力レジスタ４の詳細を示す。９は
認識部２よりの出力、１０〜１７は入力レジスタ
４内のI₀レジスタ〜I₇レジスタ、１８は切換回
路、１９は入力レジスタ４の出力を示す。

第４図は文字辞書６の一部分を示す。第４図第
３行目は、擬似部首コード176で示される「立」
という擬似部首と擬似部首コード0FBで示される
「日」という擬似部首により「音」という文字で
あることを示し、「音」という文字の文字コード
は、JIS C6226コードで323Bというコードである
ことを示す。尚、第４図の（）内文字は説明の
便のため記載したもので実際の辞書は擬似部首コ
ードと文字コードで構成される。

第５図は、「彰」という文字を入した時の本発
明による処理を示すため入力レジスタ４のI₀レジ
スタ１０〜I₇レジスタ１７へ入力される擬似部首
コードを示したものである。

以下、第５図を中心として本発明によるオンラ
イン手書文字認識の方法について「彰」という文
字を例にとり詳細に説明する。なお、各ストロー
クの開始・終了は例えばタブレツトを入力ペンな
どで押圧・押圧解除する場合に得られる電圧など
の発生・消滅に対応するものとする。

先づ第１ストロークでタブレツト１より操作者
が「〓」を入力すると「〓」は認識部２へ出力さ
れ、認識部２に於いて擬似部首辞書（以下辞書と
いう。）３を用いて擬似部首として登録されてい
るか否かを検定するが「〓」は辞書３に登録され
ていないため、未定義コード＊をI₀レジスタ１０
に登録する。ついで第２ストロークで「〓」がタ
ブレツト１より入力されると、タイミングT₁で
未定義の「〓」と合せて「〓」という擬似部首が
辞書３にあるかどうかを認識部２において検定す
ると、第２図で示される様に擬似部首コード050
として「〓」という擬似部首が登録されているた
め、I₀レジスタ１０に050というコードが格納さ
れる。

第３ストロークで入力される「〓」は擬似部首
が辞書３に登録されていないため、I₀レジスタ１
０はそのままにしてI₁レジスタ１１に未定義コー
ド＊を登録する。

第４ストロークで入力された「〓」は、辞書３
に登録されていないが第３ストロークで未定義の
「〓」と合せて「〓」という擬似部首が辞書３に
014という擬似部首コードで登録されているため、
I₁レジスタ１１の未定義コードを消去して新たに
014というコードがセツトされる。なお、擬似部
首コード050と014で新たな擬似部首となるかどう
かについて「〓」という文字で辞書３を用いて検
定するが「〓」という文字は独立の擬似部首とし
て辞書３に存在しないため、I₀レジスタ１０、I₁
レジスタ１１の内容は変らないで保持される。

第５ストロークで「〓」が入力されると「〓」
という文字は辞書３より擬似部首コード004であ
ることが判明するためI₂レジスタ１２に004がセ
ツトされ、その後「〓」及び「立」について擬似
部首コードが辞書３に登録されているか否かを検
定する。即ち、その文字内の全ストロークについ
て最小個数の擬似部首コードで表現するために検
定を行なうこととなる。この場合「〓」は擬似部
首コードとして登録されてなく「立」は、擬似部
首コード176として辞書に登録されている。従つ
てI₀レジスタ１０、I₀レジスタ１１、I₂レジスタ
１２をリセツトし、I₀レジスタ１０に176を登録
する。かくして「立」という文字は、第２図で示
す擬似部首コード176で示される１ケの擬似部首
であることを示すこととなる。

同様にして第５図に示すように「彰」という文
字に関して、結果的に擬似部首コード176，0FB，
045，065で表わされる文字であることが認識され
る。なお、第５ストロークで３ケの擬似部首コー
ドよりなる入力文字を再検定して１ケの擬似部首
コード176を識別したのと同様に、第９ストロー
クでは擬似部首コード021よりなる文字と未定義
の「〓」及び「〓」より擬似部首コード0FBなる
文字「日」を識別し、さらに又第11，13，14スト
ロークにおいてもそれぞれ２ケの擬似部首コード
と識別された入力文字から１ケの擬似部首コード
を識別している。この様にして一種の最長一致法
により擬似部首コードの検定を行なつている。一
般的に最長一致法の場合、その入力すべてが入力
され終つてから一致を見ることが一般的であ。即
ち、入力された全ストロークに対して判定し、擬
似部首と認められない最後の１ストロークを除い
て判定するという手法をとるが擬似部首コードと
して辞書３に登録されている擬似部首の数が数
字、アルフアベツト、ひらがな、記号等を加えて
も600ケ強であり多きな数にならないこと、更に
は、人が文字を入力する速度が遅いことを勘案し
て、入力順に検定を行なつているものである。ま
た１つの文字の入力の終了は最終ストロークを検
知することによつて行なわれるが具体的には各ス
トロークの間の時間を監視して所定の時間を越え
ると次の文字の入力操作に移行したこととし前ス
トロークが最終ストロークであつたということで
検知する方法や１つの文字入力の領域を予め定め
ておく方法やキー操作で指示する方法などがあ
る。

以上説明したように、タブレツト１より「彰」
を入力することにより入力レジスタ４内のI₀レジ
スタ１０〜I₃レジスタ１３内に擬似部首コード
176，0FB，045，065が格納される。これら入力
レジスタ４内のI₀レジスタ１０〜I₇レジスタ１７
の内容は切換回路１８により出力１９に順次導出
され、選択回路５に入力される。選択回路５で
は、入力された擬似部首コードにより、第４図に
示す文字辞書６を用いてJIS C6226による文字コ
ードを選択する。すなわち、入力レジスタ４内の
I₀レジスタ１０〜I₇レジスタ１７に格納されてい
る擬似部首コードが176，0FB，045，065である
ことにより選択回路５により、文字辞書６を調べ
ると第４図に示す如く擬似部首コードが176、
0FB，045，065である文字は3E34となる文字コ
ードで示される漢字「彰」であることが判明す
る。

以上の様にして3E34なるJIS C6226文字コード
が選択回路５より出力されることによりタブレツ
ト１より入力された手書文字が漢字「彰」である
ことが認識される。

以上詳細に説明したように前記実施例に於いて
は、漢字を細分化して、細分化された文字の擬似
部首となづけた部分集合を認識し前記認識された
擬似部首の集まりとして漢字を識別する方法を示
す。ここで擬似部首を認識するためには、簡単な
アルゴリズムの認識部２と、漢字の数に比して極
めて少数の擬似部首からなる擬似部首辞書３でよ
いこととなる。例えば数字、アルフアベツト、ひ
らがな、記号類及びJIS C6626第１水準漢字集合
2965字のための擬似部首の数は600強であり、こ
の内400強が漢字2965字のための擬似部首である。
このように漢字2965字の字数を本発明によれば認
識時のみ等価的に減少させる効果を有することと
なる。又、第２図に示す擬似部首辞書３の内容を
認識するための認識部２の機能は、周知のストロ
ークアナリシス法等の簡単なアルゴリズムでよい
ことはその道の専門家であれば容易に理解できる
ものと考える。更にこれら認識された擬似部首の
集まりとして漢字を含む文字を識別するための文
字辞書６は、第４図に示す様に単に擬似部首コー
ドとJIS C6226による漢字コードだけで構成でき
るため漢字を含めた文字の字数が多くなつた場合
でも極めて少量のメモリしか増加しないことも本
発明の利点であり、擬似部首辞書３及び文字辞書
６を合せても、直接漢字を含む文字の特徴を記録
した従来の辞書の容量が大であつたのと相違して
極めて少量となるため、オンライン手書文字認識
を、その対象を漢字2965字より構成されるJIS
C6226第１水準漢字集合にまで広げたとしても、
手軽に提供することができ、もつて、情報処理装
置全般にとつて好適な入力装置を安価に提供する
ことができる。

前記実施例では基本的な要素について説明した
が、以下に示す様に各種の改良を実施することに
よりよりよいオンライン手書文字認識方法を提供
することができるので以下に説明する。

第１に、前記実施例では標準的な擬似部首辞書
３を１ケだけ設けたが、標準的な辞書の他に使用
者各個人用の擬似部首個人辞書を１ケ又は複数個
設け、認識しづらい擬似部首を含んだ文字の擬似
部首について後から追加登録ができる構成とすれ
ば、より一層認識率の向上が図れるとともに認識
アルゴリズム自体も簡易なものでなくなるという
効果がある。

第２に、前記実施例では文字辞書６の内容とし
て擬似部首コードと文字コードだけの組合せとし
たが第４図の例でも明らな様に同じ「立」という
文字でも「立」単独で１つの文字を構成するも
の、「妾」、「音」、「章」、「意」、「童」の様に文
字
の上部に「〓」が位置するもの、「彰」、「韻」の
様に文字の左上部に「〓」が位置するもの等があ
る。これらの「立」は前記実施例では全く同一に
扱つて居り、字数が実施例程度の場合問題はない
が、字数を更に増加させたい場合においてはこれ
らの「立」という文字の位置情報を文字辞書６に
含ませれば更に認識率を向上させることができ
る。位置情報としてはJIS C6226字形索引第４項
の字形構成を用いれば充分である。

第３に前記実施例では、第５図を用いて説明し
た如く新しいストロークがタブレツト１より入力
される毎に第１ストロークまでさかのぼつて今書
かれた前記新しいストローク迄が１つの擬似部首
を構成しているかどうかについて、入力されたス
トロークについて検定すべく説明した。例えば擬
似部首「〓」と「〓」と「〓」は擬似部首コード
では050，014，004であるが、この３ケの擬似部
首が集つた「立」も擬似部首でありそのコードは
176であることを「立」のストロークにより擬似
部首辞書３を参照して求めた。

しかしながら、認識部２より参照する辞書とし
て擬似部首辞書３の他に、（擬似部首050）＋（擬似
部首014）＋（擬似部首004）＝（擬似部首176）の如
き擬似部首間の相関々係を示す擬似部首相関辞書
を設ければ、認識処理時間が極めて早くなるとい
う効果がある。

以上詳細に説明した様に、本発明は認識が困難
な漢字を細分化しこの細分化した擬似部首を認識
し擬似部首の集まりとして漢字を識別するため、
先づ認識辞書に要する記憶容量が極小でよく更に
認識文字数の増加にともなう記憶容量の増加を極
めて低くおさえられ更に、前記説明の通り認識す
るのは擬似部首というカナレベルのものであるた
め認識率そのものも高く保てるという好適なオン
ライン手書文字認識方法を安価に提供することが
できる。

【図面の簡単な説明】

第１図は本発明の一実施例のブロツク図、第２
図は擬似部首辞書の１例を示す図、第３図は入力
レジスタの詳細図、第４図は文字辞書の部分図、
第５図は本発明による認識方法を示す図である。１…タブレツト、２…認識部、３…擬似部首辞
書、４…入力レジスタ、５…選択回路、６…文字
辞書、９…認識部２よりの出力、１０〜１７…入
力レジスタ４内のI₀レジスタ〜I₇レジスタ、１８
…切換回路、１９…入力レジスタ４の出力。

Claims

【特許請求の範囲】１手書文字を認識するオンライン文字認識方法
において、手書文字のストローク情報を抽出するタブレツ
トと、漢字を細分化した部分集合パターンを含む擬似
部首の特徴情報を格納する第１辞書と、漢字の部分集合の集まりを示す擬似部首コード
に対して文字コードを格納する第２辞書と、タブレツトからのストローク情報と第１辞書の
内容とを比較して擬似部首の認識処理を行う認識
部と、認識部の認識結果を示すコードを格納する入力
レジスタと、入力レジスタの内容を第２辞書と比較して文字
を識別する選択回路とより構成され、前記認識部は、ストローク情報が入力される毎
に、該情報の特徴情報が第１辞書に登録されてい
るか否かを検定し、該検定結果を示す擬似部首コ
ード及び／又は未定義コードを入力レジスタに格
納すると共に、格納の都度前記入力レジスタの内
容を最長一致法に基づいて当該内容が第１辞書に
登録されているか否かを検定し直し、該検定結果
に基づいて入力レジスタの内容を書き換える認識
処理を行うことを特徴とするオンライン文字認識
方法。