JPH04239989A - 電子辞書 - Google Patents

電子辞書

Info

Publication number
JPH04239989A
JPH04239989A JP3006966A JP696691A JPH04239989A JP H04239989 A JPH04239989 A JP H04239989A JP 3006966 A JP3006966 A JP 3006966A JP 696691 A JP696691 A JP 696691A JP H04239989 A JPH04239989 A JP H04239989A
Authority
JP
Japan
Prior art keywords
word
area
width
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3006966A
Other languages
English (en)
Inventor
Hideo Tanimoto
谷本 英雄
Yoshimi Yamada
義美 山田
Kazuo Ito
伊藤 和郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3006966A priority Critical patent/JPH04239989A/ja
Publication of JPH04239989A publication Critical patent/JPH04239989A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学式読取り装置で読
取った文字で構成される単語に基づき、この単語に対応
する他の情報(例えば訳語)を検索して出力する電子辞
書に関し、特に検索対象となる単語の切出し機能に関す
るものである。
【0002】
【従来の技術】図2は従来の電子辞書を示すブロック図
である。
【0003】従来の電子辞書では、まず、原稿P上の文
字を光学式読取部21で読取る。
【0004】上記読取りは、操作者が上記読取部21を
原稿に密着させて検索対象単語上を走査させることによ
り行なわれるが、通常は上記読取部21に駆動部(図示
せず)を備えて、一定速度で走査できるように設定され
ている。また、読取部21に駆動部を備えた電子辞書で
は、検索対象単語以外の単語をも読取るので、従来は不
要の単語を隠して読取部を走査させていたが、近年では
上記電子辞書に後述の単語切出し部を備え検索対象単語
を読取ることが一般的になっている。
【0005】上記読取部21から出力されたアナログ信
号は、アナログ/デジタル変換部22でデジタル信号に
変換され、前処理部23に出力される。前処理部23で
は、上記デジタル信号についてノイズ除去、2値化など
の前処理が行われ、文字認識部24に送られる。文字認
識部24では、2値化された画像データを受けて、該2
値画像データから文字を切出して文字パターンが得られ
、予め認識辞書25に記憶されている標準文字パターン
と照合されて文字として認識される。上記文字パターン
には、単語相互間に設けられる空白領域(以下、スペー
スと略記することがある)も一つの文字として含まれて
おり、上記従来の電子辞書では、所定の幅を有する非印
字領域がスペースとして認識される。
【0006】上記認識操作の繰返しによって認識された
文字列は、単語切出部26に送られる。単語切出部26
では、上記文字列中から所定の幅を有する非印字領域を
スペースとして検出し上記文字列をスペースごとに区切
ることにより、文頭からスペース、スペース相互間、或
いはスペースから文尾までが一単語とされ、被検索用の
原単語として切出される。
【0007】そして、上記原単語が単語検索部27に送
られる。単語検索部27は、単語辞書28を検索するこ
とにより送られてきた原単語に対応する翻訳情報を得、
上記原単語及び翻訳情報を表示部29に出力する。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
電子辞書における単語切出し手段では、読取変換手段に
て得られた文字列の中から所定の幅を有する非印字領域
を検出した際に該非印字領域をスペースと判定している
ので、文字ピッチが一定のプリンタ又はタイプライタ等
により印字された原稿の場合には正確にスペースを判定
できるが、活字印刷など行端を揃えるために行毎に文字
ピッチが変えられている原稿の場合にはスペースの判定
を正確に行ないにくいとの問題がある。
【0009】そこで、本発明は上記したような従来技術
の課題を解決するためになされたものであり、その目的
は、単語切出し性能に優れた電子辞書を提供することに
ある。
【0010】
【課題を解決するための手段】本発明に係る電子辞書は
、原稿上に配列された文字列を光学的に読取り上記文字
の列を表わす2値画像データに変換する読取変換手段と
、上記2値画像データを受けて上記文字列から印字領域
と非印字領域とを検出する検出手段と、上記検出手段で
検出された複数の非印字領域から所定の基準を満たす非
印字領域を検出し該非印字領域を上記文字列の中の単語
相互間に設けられた空白領域と判定することにより単語
を切出す単語切出手段と、上記単語切出手段で得られた
単語から該単語を構成する文字を切出し認識する文字認
識手段と、上記文字認識手段により認識された単語を受
けて対応する情報を検索し出力する単語検索手段と、上
記単語検索手段から受けた情報を表示する表示手段とを
有することを特徴としている。
【0011】
【作用】本発明の電子辞書は、光学的に読取られた文字
列から、まず単語を切出し、次いで切出された単語を構
成する個々の文字を認識する構成となっている。
【0012】上記電子辞書における単語切出し手段は、
光学的に読取られた文字列の2値画像データから検出さ
れた非印字領域を上記文字列の先頭から順に他の印字領
域幅及び非印字領域幅と比較することにより行なわれる
。上記方法によれば、ある非印字領域が文字ピッチとし
て許容される幅であるか、単語相互間に設けられたスペ
ースであるかを、単に該非印字領域幅の絶対的大きさか
ら判定するのではなく、他の印字領域幅及び非印字領域
幅を基準として相対的に判定するので、上記文字列のス
ペースの位置が正確に判定される。
【0013】従って、行端を揃えるなど印刷上の体裁か
ら行毎に文字ピッチが変えられている原稿であっても単
語切出しが有利に行なわれる。
【0014】
【実施例】以下に本発明を図示の実施例に基づいて説明
する。
【0015】図1は、本発明に係る電子辞書の一実施例
を示すブロック図である。
【0016】本発明の電子辞書では、まず、光学式読取
部1を原稿Pに密着させて走査させることにより、原稿
P上の文字列を読取る。このとき、読取部1は図示しな
い駆動部により一定速度で走査される。読取部1を一定
速度で走査させることにより、手動読取走査時に起きる
文字ピッチの変動、画像データの変形などを避けること
ができる。
【0017】上記読取部1から出力されたアナログ信号
は、アナログ/デジタル変換部2でデジタル信号に変換
され、前処理部3に出力される。前処理部3では、上記
デジタル信号についてノイズ除去、2値化などの前処理
が行われ、2値画像データが単語切出部4に送られる。
【0018】本実施例において、単語切出部4は、単語
切出制御部5、2値画像メモリ6、及び、縦方向投影部
7からなっている。上記前処理部3から入力された2値
画像データは、一旦2値画像メモリ6に格納される。次
いで縦方向投影部7は、上記2値画像データに基づき、
投影法により印字領域と非印字領域とを検出する。
【0019】図3は、投影法による印字領域と非印字領
域との検出方法を示す図である。図3に示す方法によれ
ば、2値画像メモリ6に格納された2値画像データは、
縦方向(文字列における文字の配列方向に対して直交す
る方向)の所定の幅の列毎に黒画素が計数される。この
ことを本明細書では、「縦方向に投影する」という。図
3の下方のグラフは、上記縦方向の投影結果を示してお
り、横軸が黒画素の位置を表し、縦軸が黒画素の数を表
している。
【0020】縦方向投影部7は、上記投影法により、黒
画素の数が所定値(零に近い値。ノイズを考慮して零よ
り少し大きな値とする。)より多い領域を印字領域、そ
れ以外の領域を非印字領域として検出する。印字領域は
、それぞれ左から順にM1、M2、M3、...Miと
付番され、非印字領域は、左から順にS1、S2、S3
、...Siと付番される。
【0021】本発明の電子辞書は、非印字領域の幅を一
定の判定基準にしたがって文字列の先頭から逐次比較し
ていくことにより、単語相互間に設けられているスペー
スの位置を判定する単語切出手段を有することを特徴と
している。
【0022】本実施例では、各非印字領域幅Si(i 
= 1,2,3,...)について、下記の条件1およ
び条件2の何れかを満たすかどうかの判定を行ない、何
れかを満たしていればスペースであると判定する。但し
、下記の条件式で、Siはi番目の非印字領域の幅、S
maxはS1〜Si−1の最大値、MminはM1〜M
i−1の最小値、T1〜T4はしきい値であり、それぞ
れ例えば次の様な値に定められる。
【0023】T1:0.5〜1.5、本実施例では、1
.0。
【0024】T2:1〜5、本実施例では、2.5。
【0025】T3:0.5〜1.5、本実施例では、1
.0。
【0026】T4:1〜5、本実施例では、2.5。
【0027】条件1 Si/Mmin  >  T1 かつ Si/Smax  >  T2 のとき、Siをスペースと認める。即ちM1〜Miを単
語と認める。
【0028】条件2 S1/Mmin  >  T3 かつ S1/Si  >  T4 のとき、S1をスペースと認める。即ちM1のみが単語
(1文字からなる単語)を構成することを認める。
【0029】上記のうち条件1は、2文字以上の単語の
切出しの条件を表わし、条件2は、1文字からなる単語
の切出し条件を表わす。
【0030】図4は、上記本実施例の単語切出しの手順
を示すフローチャートである。次に、図4を参照しなが
ら、本実施例の単語切出しについて説明する。
【0031】まず、最初の非印字領域幅S1、印字領域
幅M1をそれぞれSmax、Mminとする(ステップ
101)。次に、カウント値(パラメータ)iを2とす
る。次にMiがMminにより小さいかどうかを判定し
、小さければMiを新たなMminとする(ステップ1
03、104)。
【0032】次に上記の条件1が満たされているかどう
かの判定をする(ステップ105、106)。満たされ
ていなければ、次に上記の条件2が満たされているかど
うかの判定をする(ステップ108、109)。満たさ
れていなければ、次にSiがSmaxより大きいかどう
かの判定をし、大きければ、Siを新たなSmaxとす
る(ステップ111、112)。次にカウント値iを1
だけ増加させて(ステップ113)ステップ103に戻
る。
【0033】ステップ105、106で、条件1が満た
されている場合には、Siをスペースと認め、M1〜M
iを単語と認定する(ステップ107)。
【0034】ステップ108、109で、条件2が満た
されている場合には、S1をスペースと認め、M1のみ
により単語(1文字からなる単語)が構成されていると
認定する(ステップ110)。
【0035】上記した手順により切出された原単語は、
次いで、図1に示す単語切出制御部5から文字認識部8
に出力される。この段階では上記原単語は2値画像デー
タであり、該原単語を構成する個々の文字の印字領域は
認識されているが、文字パターンは未だ認識されていな
い。
【0036】文字認識部8では、単語切出部から送られ
た2値画像データを受けて、該2値画像データから上記
原単語を構成する個々の文字を切出して文字パターンを
得、予め認識辞書9に記憶されている標準文字パターン
と照合し、文字として認識される。
【0037】上記認識操作の繰返しによって認識された
文字列が、被検索用の原単語となる。
【0038】そして、上記被検索用原単語が単語検索部
10に送られる。単語検索部10は、単語辞書11を検
索することにより送られてきた被検索用原単語に対応す
る翻訳情報を得、上記被検索用原単語及び翻訳情報を表
示部12に出力する。
【0039】以上のように本実施例では、非印字領域幅
の最小値および印字領域幅の最大値に所定の係数を掛け
た値との比較により、文字ピッチが変化する場合にも単
語の切出しを確実に行うことができる。
【0040】なを、上記の実施例では、非印字領域幅の
最大値および印字領域幅の最小値に基ずいて、単語の切
出し条件を定めたが、平均値に基ずく判定を採用しても
よく、また非印字領域幅や印字領域幅のばらつきに応じ
て、しきい値を変えてもよい。
【0041】
【発明の効果】本発明の電子辞書によれば、非印字領域
の幅を文字列の先頭から順に他の印字領域及び非印字領
域の幅と逐次比較して、相対的な大きさを判定し単語相
互間に設けられているスペースの位置を検出することに
より、単語切出を行なうことができる。
【0042】従って、行毎に文字ピッチが変えられてい
て、単語相互間が極端に詰っていたり、逆に文字相互間
の非印字領域がかなり広くなっている原稿であっても、
正確に単語を切出すことができる。
【図面の簡単な説明】
【図1】本発明に係る電子辞書の一実施例を示すブロッ
ク図である。
【図2】従来の電子辞書の構成例を示すブロック図であ
る。
【図3】投影法による印字領域と非印字領域との検出方
法を示す図である。
【図4】本発明に係わる電子辞書における単語切出手順
の一例を示すフローチャートである。
【符号の説明】 4  単語切出部 5  単語切出制御部 6  2値画像メモリ 7  縦方向投影部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  原稿上に配列された文字列を光学的に
    読取り、上記文字の列を表わす2値画像データに変換す
    る読取変換手段と、上記2値画像データを受けて上記文
    字列から印字領域と非印字領域とを検出する検出手段と
    、上記検出手段で検出された複数の非印字領域から所定
    の基準を満たす非印字領域を検出し該非印字領域を上記
    文字列の中の単語相互間に設けられた空白領域と判定す
    ることにより単語を切出す単語切出手段と、上記単語切
    出手段で得られた単語から該単語を構成する文字を切出
    し認識する文字認識手段と、上記文字認識手段により認
    識された単語を受けて対応する情報を検索し出力する単
    語検索手段と、上記単語検索手段から受けた情報を表示
    する表示手段とを有することを特徴とする電子辞書。
JP3006966A 1991-01-24 1991-01-24 電子辞書 Withdrawn JPH04239989A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3006966A JPH04239989A (ja) 1991-01-24 1991-01-24 電子辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3006966A JPH04239989A (ja) 1991-01-24 1991-01-24 電子辞書

Publications (1)

Publication Number Publication Date
JPH04239989A true JPH04239989A (ja) 1992-08-27

Family

ID=11652949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3006966A Withdrawn JPH04239989A (ja) 1991-01-24 1991-01-24 電子辞書

Country Status (1)

Country Link
JP (1) JPH04239989A (ja)

Similar Documents

Publication Publication Date Title
US4933979A (en) Data reading apparatus for reading data from form sheet
JPS63158678A (ja) 単語間スペ−ス検出方法
US6983077B2 (en) Image processor
WO2001013324A1 (fr) Procede de traitement de documents, support d'enregistrement d'un programme de traitement de documents et dispositif de traitement de documents
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH04239989A (ja) 電子辞書
JPH0291789A (ja) 文字認識方法
JPH08237404A (ja) 光学文字認識モードの選択方法
JP2003050971A (ja) フォント選択プログラム、画像処理装置及び画像形成装置
JP2570571B2 (ja) 光学文字読取装置
JPS58109973A (ja) 印字文字エコ−チエツク機能付印字装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2747136B2 (ja) 文字認識装置
JP3162575B2 (ja) 文字認識装置
JPH04223584A (ja) 光学式文字読取装置
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JPH06187450A (ja) パターン認識方法と認識装置
JP3310063B2 (ja) 文書処理装置
JPH10233930A (ja) 画像処理装置
JP3334369B2 (ja) 選択項目認識装置
JPH0498586A (ja) 画像生成装置
JPH08123872A (ja) 光学式文字読取装置
JPH03230288A (ja) 情報処理装置
JPH1097588A (ja) 罫線認識方法、表処理方法および記録媒体
JPH06243285A (ja) 文字認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980514