JPH04336684A - 音声出力制御装置及び方法 - Google Patents

音声出力制御装置及び方法

Info

Publication number
JPH04336684A
JPH04336684A JP3109226A JP10922691A JPH04336684A JP H04336684 A JPH04336684 A JP H04336684A JP 3109226 A JP3109226 A JP 3109226A JP 10922691 A JP10922691 A JP 10922691A JP H04336684 A JPH04336684 A JP H04336684A
Authority
JP
Japan
Prior art keywords
character
character information
document processing
character recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3109226A
Other languages
English (en)
Inventor
Yoji Furuya
陽二 古谷
Sadahiro Tanaka
貞浩 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP3109226A priority Critical patent/JPH04336684A/ja
Publication of JPH04336684A publication Critical patent/JPH04336684A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、原稿上の文字情報を光
学的文字読み取り装置(OCR)により読み取って認識
し、認識結果として得たテキストを音声として出力する
文書処理方法及び装置に関するものである。
【0002】
【従来の技術】従来、文字認識装置は、原稿である用紙
上のイメージの読み取り、行のサーチ、1文字ずつ切り
出し、文字認識、認識結果の評価と修正、表示いといっ
た処理を一通りすべて一台のワークステーションか、パ
ソコン或いは特殊な文字認識装置で行なうものはあった
【0003】従来、テキストを入力し、音声合成して出
力する音声合成装置はあった。
【0004】
【発明が解決しようとしている課題】しかしながら、上
記従来例では、1台のマシン上で文字認識作業のすべて
を行なっているために次のような欠点があった。 (1)マシン自体に大きな負荷がかかるので、高性能の
つまりは高価なマシンが必要。 (2)高性能のマシンを用いても、認識速度が低い。1
0〜20文字/秒程度の製品が一般的。 (3)マシン自体がほぼ文字認識の専用機の形態になっ
てしまうため、文字認識処理にからむ、各工程の自由度
が少ない。つまり、用紙上の活字の文字イメージの読み
込みルーチンや、1文字イメージの切り出しルーチン等
の改良も、ユーザ側で行なうことは事実上できない。 (4)(3)と同じく、マシン自体がほぼ文字認識の専
用機の形態になってしまうため、例えば、ユーザ側で文
字認識結果の音声出力装置を追加する、等を行なおうと
しても、事実上できない。
【0005】しかしながら、上記従来例では、ホストコ
ンピュータを文字認識処理のみに用いるようプログラム
が定まっている為、認識結果をそのままディスプレイな
どに表示するしかできず、データの変換などが不可能で
あった。
【0006】
【課題を解決するための手段(及び作用)】本発明によ
れば、一連の文字認識作業の中で、最も負荷のかかる、
1文字イメージだけの文字認識処理の部分を、別制御、
別筺体として、独立させ、他の各処理は、従来通りメイ
ンのマシン上で行なうよう、分離することで、(1)メ
インのマシンは、低価格のパソコン、あるいはワークス
テーションで実行でき、(2)認識速度も、従来の2〜
3倍の60〜70字/秒が確保でき、(3)また、メイ
ンのマシン側の処理である、用紙上の活字イメージの読
み込みのプログラム、1文字イメージの切り出しプログ
ラム、認識結果の評価と修正のプログラム、テキスト表
示のプログラム等もユーザ側で、市販ソフトを組み合わ
せる、あるいは、一部自作する等自由度がかなり広がり
、(4)認識結果のテキストに対し、市販の音声出力の
装置、ソフトウェアを付加して、スピーカ発生させ、文
字認識結果を音声で確認できるようにしたものである。
【0007】
【実施例】 (実施例1)以下、図に従って第1の実施例について説
明する。
【0008】図1は、本実施例のシステム構成図である
。点線の左側の部分は、パーソナルコンピュータ(以下
、パソコンと称す)本体を示し、右側は、パソコンに接
続した各種装置を示している。1は中央処理装置(以下
、CPUと称す)は、外部記憶装置9に格納されている
各種プログラムに従って、本システム全体の制御及び判
断を行なう。2は、データやテキストを表示するCRT
ディスプレイ、3は文字列等を入力する為の各種キーを
有するキーボード、4はポインティングデバイスとして
のマウス、5はメモリである。メモリ5は、リード・オ
ンリー・メモリ(以下、ROMと称す)、ランダム・ア
クセス・メモリ(以下、RAMと称す)7、ビデオRA
M(以下、VRAMと称す)8で構成されている。RO
M6には基本的入出力制御を行なうソフトウェアである
、オペレーティングシステム(以下OSと称す)の一部
や、表示用の文字フォント等が内蔵されている。RAM
7は、外部記憶装置9に内蔵されている各種プログラム
をロードして実行する場になる。例えば、画像読み込み
プログラム10−2が使用する画像バッファ、文字切り
出しプログラム10−3、文認識指令プログラム10−
4及び後処理プログラム10−5が使用する文字認識バ
ッファ、音声合成プログラム10−6が使用する音声合
成バッファが、RAM7中に設けられる。VRAM8は
、CRTディスプレイ2に表示するための表示用データ
を格納する場所である。
【0009】外部記憶装置9の中には、後に説明する図
6〜図22に示すフローチャートのような処理の各種プ
ログラム10、データの保存ファイル11及び12、辞
書ファイル13〜14等が内蔵されている。詳しく述べ
ると10は、本実施で用いる文字認識・音声出力ソフト
で、後に図6のフローチャートを用いて説明するメイン
プログラム10−1の制御の下で、ユーザの指示に従っ
て各種プログラムが起動される。10−2は、用紙上の
画像イメージでスキャナ20を用いてRAM7の画像バ
ッファ7−1内に取り込むプログラムであり、図8のフ
ローチャートを用いて後述する。文字切り出しプログラ
ム10−3は、画像バッファ7−1内の画像イメージか
ら、文字1文字分のイメージを切り出すプログラムであ
り、図10のフローチャートを用いて後述する。10−
4は、文字認識指令プログラムであって、切り出した1
文字分の画像情報を文字認識装置21に送り、1文字の
文字認識処理を実行させるプログラムであり、図9のフ
ローチャートを用いて後述する。10−5は後処理プロ
グラムであって、文字認識後のテキストの評価を行ない
、文字候補が複数ある場合は、より正しいと推定される
文字候補を第1候補とする、等のはたらきをするプログ
ラムであり、図11のフローチャートを用いて後述する
。10−6は音声合成プログラムであって、文字認識で
完成したテキストを、漢字仮名変換して読みに変え、さ
れにアクセント、イントネーション情報を付けて、音声
合成装置22に送り、スピーカ23より発生させる処理
を行なうプログラムであり、図12のフローチャートを
用いて後述する。このとき、音声合成プログラム10−
6は、漢字仮名変換辞書ファイル13、アクセント辞書
ファイル14、イントネーション規制ファイル15を用
いて、漢字の読みへの変換、アクセント情報付加、イン
トネーション情報付加を行なう。10−7は保存プログ
ラムであって、画像バッファ7−1内の画像イメージデ
ータを画像ファイル11に保存、あるいは、文字認識バ
ッファ7−2内にある文字認識結果のテキストデータを
、テキストファイル12に保存する役目を持つものであ
り、図13のフローチヤートを用いて後述する。また、
反対に、画像ファイル11、あるいはテキストファイル
12内のデータを画像バッファ7−1、あるいは文字認
識バッファ7−2に読み込みセットする役目もある。さ
らには、画像バッファ7−1内の画像イメージデータや
、文字認識バッファ7−2内のテキストデータをプリン
タ24を用いて用紙上に印刷する役目も持つ。
【0010】図2は、文字認識装置21のシステム構成
図である。接続部34を介して、パソコン本体と結合さ
れているが、装置全体は、CPU30によって制御され
る。31はメモリであって、ROM32及びRAM33
で構成され、ROM32には、文字認識プログラム32
−1と、文字認識処理ルーチンで用いる「全文字の線分
集合データ」32−2が内蔵されている。RAM33に
は、文字認識作業中、1文字分のイメージの画像データ
33−1、認識結果データが格納される。手順としては
、パソコン本体側から認識開始指令の信号が入ると、文
字認識プログラム32−1は、まず1文字分の画像イメ
ージを取り込んで、RAM33上に画像データ33−1
としてセットする。そして、各種処理を行なった後「全
文字の線分集合データ」32−2と比較して、最も確か
らしい複数の文字候補を、得点付きで並べ、認識結果デ
ータ33−2としてセットする。そして、パソコン本体
側に認識結果データ33−2を返送する、と言う流れに
なる。処理の詳細は、後述の図7に示すフローチャート
で説明する。
【0011】図3における(a)は、画像データ33−
1のフォーマット例示図で、16×16のドットイメー
ジ中に「力」の文字らしい文字フォントがセットされて
いることを示している。
【0012】図3における(b)は、画像データ33−
1を文字認識処理したあとの、認識結果データの例を示
している。左端の項目は、候補の順位欄で、1位から8
位まで並び、2番目の欄でJISの区点コードによる、
文字1文字分のコードが並び、最後の欄で、各候補の得
点が記載されている。本実施例においては、最高10点
満点で、最低1点とする。この点数は「全文字の線分集
合データ」との比較でもって決められる。得点の高い順
に上位8位までの計8個の文字が、認識結果データ33
−2としてセットされる。ちなみに、図3に置ける(b
)の場合、第1位はカタカナの「カ」、第2位は漢字の
「力(ちから)」、第3位は、小さなカタカナの「ヵ」
、第8位は、漢字の「刀(かたな)」である。
【0013】図4は、文字認識・音声出力ソフト10の
、CRTディスプレイ2への画面表示例である。40は
画面枠、41は表題、42は終了マークで、ユーザがマ
ウスカーソル55をマウス4を動かすことによって終了
マーク42に合わせ、マウス4のボタンをクリックする
と、音声認識・音声出力ソフト10は終了し、OSのプ
ロンプト表示に戻る。43はメニュー欄であって、「読
み込み」、「認識」、「音声」、「保存」の各メニュー
が並んでいる。メニューの選択方法は、終了マーク42
の場合と同じく、マウスカーソル55を相当するメニュ
ーに合わせて、マウス4のボタンをクリックすれば良い
。ボタンをクリックすることによってその時マウスカー
ソルの示しているコマンドがCPUへと送信される。「
読み込み」メニューは、画像読み込みプログラム10−
2を起動して、スキャナ20を介し、用紙上の画像イメ
ージをパソコン上に取り込む為のものである。このとき
同時に、読み込み画像表示44上に、読み込んだ画像イ
メージが表示される。「認識」メニューは、文字切り出
しプログラム10−3、文字認識指令プログラム10−
4、後処理プログラム10−5、を起動して、文字認識
作業を開始させるためのものである。手順としては、ユ
ーザはまず、CRT2上の読み込み画像44上で、文字
認識の大正領域を決めておかなければならないが、それ
には、マウスカーソル55を対象領域の左上隅にあて、
マウスボタンを押し、押したままマウスカーソル55を
移動させ、対象領域の右下隅まで来たところで、マウス
ボタンを離す。これによって、認識対象領域の枠46が
表示される。そして、ユーザが「認識」メニューを選択
すると、認識結果が結果表示45に表示される。これに
よって、文字認識作業が終ったことになる。
【0014】「音声」メニューは、認識結果のテキスト
45を、音声合成装置22、スピーカ23を用いて、発
声させるものである。手順としては、ユーザは、まずマ
ウスカーソル55を用いて、音声出力の対象領域47を
決める。これは、文字認識の対象領域46を決めた際の
作業と同じである。そして次にユーザが「音声」メニュ
ーを選択すると、音声合成プログラムが起動され、出力
対象領域47内のテキストがスピーカ23から自動的に
発声されることになる。
【0015】「保存」メニューを選択すると、保存プロ
グラム10−7が起動され、さらに細かな選択用のメニ
ューが現われ、読み込み画像44のファイル保存、結果
テキスト45のファイル保存、あるいは、画像ファイル
11からの画像イメージのリードで読み込み画像44の
表示セット、テキストファイル12からのテキストデー
タのリードと結果テキストへの表示、セット、あるいは
また、画像イメージの印刷、結果テキストの印刷、が選
択実行できる。
【0016】49、48は、画像イメージのデータが多
くて、複数ページに渡る際の次ページ表示切換ボタン、
前ページ表示切換ボタンである。50は、ページ数の表
示である。52、51は49及び48と同様に、結果テ
キストデータが多く、複数ページにまたがる場合の、次
ページ表示切換ボタン、前ページ表示切換ボタンであっ
て、53はページ数表示である。
【0017】なお、56は文字カーソルである。ユーザ
はキーボード3を用いて、結果テキストの編集作業もで
きる。つまり、文字カーソル56位置の文字の削除、文
字列挿入、移動、等々ができる。文字認識に誤りが発生
した場合は、この方法でテキスト修正が可能である。
【0018】図5は、文字認識バッファ7−2上にある
文字認識の結果テキストのフォーマット例である。文字
コードが先頭から順に書かれているが、“カ”の字につ
いては、文字認識の得点の同じ候補があったので、カタ
カナの“カ”と漢字の“力”(ちから)が並置されてい
る。候補が2つ並んでいることをテキストの中で区別す
るために、開始マークコードと終了マークコードで囲み
、区切りマークコードで区切って、間にカタカナの“カ
”の文字コードと、漢字の“力”(ちから)のコードを
埋め込んである。なお、結果テキスト45として、ディ
スプレイ上に表示されるものは、この場合最初に出現し
て第1候補となっているカタカナの“カ”である。
【0019】次に、本実施例について、フローチャート
を用いて処理の流れを説明する。
【0020】図6はメインプログラム10−1の動作を
説明するフローチャートである。基本的には、ユーザの
メニュー選択によって、各処理プログラムが起動される
ことを示している。動作の概要は図4を用いてすでに説
明済みなので詳細な説明はここでは省略する。ステップ
S2の「読み込み」メニュー選択、ステップS6の「認
識」メニュー選択、ステップS8の「音声」メニュー選
択、ステップS12の「保存」メニュー選択では、各処
理プログラムの起動を行なうだけだが、ステップS4の
領域指定作業、ステップS10の編集作業、ステップS
14のページ変更作業は、メインプログラム10−1自
身が処理を行なう。
【0021】図7は、文字認識装置21内のROM32
にある文字認識プログラム32−1の動作を説明するフ
ローチヤートである。このプログラムは、音声認識装置
21の電源ONと同時に立ち上がり、電源OFFまで動
作を続ける。
【0022】まず、ステップS20では、電源OFFか
チェックし、OFFならばそのまま終了する。NOなら
ば(電源がONならば)、ステップS21で、パソコン
本体側から文字認識処理の開始指令が来ているかチェッ
クし、NOなら、ステップS20の直前に戻りループを
形成する。ステップS21でYESなら、ステップS2
2に進んで、パソコン本体側から1文字分の画像イメー
ジを取り込み、RAM33上に画像データ33−1とし
てセットする。そして、ステップS23で、画像データ
33−1より、活字の字体に相当する黒い領域の輪郭、
つまりアウトラインを得、ステップS24で、アウトラ
インに沿って線分、つまりベクトルを作成し、ステップ
S25で、その線分の集合データを得る。そして、ステ
ップS26では、上記の線分集合データと、ROM32
上にある全文字の線分集合データ32−2をベクトルの
一致の面で比較し、ステップS27で、一致の得点の高
い順に、第1位から第8位の候補までで、認識結果デー
タ33−2を作成する。そして、ステップS28で、パ
ソコン本体側に、認識結果データ33−2を転送し、一
連の処理が終る。その後、ステップS20に戻り、以後
、ループを形成して、再度パソコン本体側から、文字の
認識開始指令が来るのを待つ。
【0023】なお、この文字認識の処理方法は、『疑似
ベイズ識別関数法』として、情報処理関連の各種文献上
で、公知の技術となっているものであるので、これ以上
の詳細な部分については、説明を省略する。
【0024】図8は、画像読み込みプログラム10−2
の動作を説明するフローチャートである。メインプログ
ラム10−1から起動されると、まず、ステップS30
で、スキャナ20から用紙上の画像イメージを読み込み
、ステップS31で、その画像データをRAM7上の画
像バッファ7−1にセットし、ステップS32で、CR
Tディスプレイ2上に画像イメージを図4の44に示す
ように表示して、このプログラムからリターンし、メイ
ンプログラム10−1側に制御が戻る。
【0025】図9は、文字認識指令プログラム10−4
の動作を説明するフローチャートである。メインプログ
ラム10−1から起動されると、まず、文字認識の対象
領域が確定済かチェックする。NOなら、このままリタ
ーンする。YESならステップS41に移り、文字切り
出しプログラム10−3を起動し、文字切り出しプログ
ラム10−3の処理が終れば、次にステップS42で、
後処理プログラム10−5を起動し、その処理が終るの
を待ってリターンし、メインプログラム10−1に制御
を戻す。
【0026】図10は、文字切り出しプログラム10−
3の動作を説明するフローチャートである。文字認識指
令プログラム10−4によって起動されると、まず、ス
テップS50で、認識対象領域の最初の1文字イメージ
を切り出し、ステップS51で、文字認識装置21に、
1文字イメージを送り、認識処理開始を指令する。そし
て、ステップS52で、文字認識装置21から認識結果
を受け取り、ステップS53で、認識結果データの上で
、候補第1位の文字コードを、文字認識バッファ7−2
に加える。そして、ステップS54で、同点の候補があ
ったのなら、候補第2位の文字コードも文字認識バッフ
ァ7−2に加える。このときの第1候補と第2候補の文
字コードは、図5で説明したように、開始マーク、区切
りマーク、終了マークの間に埋め込まれた形のフォーマ
ットでセットされる。そして、ステップS55で、認識
対象領域の中で、次の1文字イメージを切り出し、ステ
ップS56で、次の1文字イメージが有るのかチェック
し、YESなら、ステップS51の直前に戻り、前述の
処理をくり返す。NOならリターンし、文字認識指令プ
ログラム10−4に制御が戻る。
【0027】図11は、後処理プログラム10−5の動
作を説明するフローチャートである。文字認識指令プロ
グラム10−4によって起動されると、まず、ステップ
S60で、文字認識バッファをサーチし、第1候補、第
2候補が並置されている部分があるか調べ、その結果を
、ステップS61で有るかどうか判断し、NOならば、
このプログラムからリターンする。YESならば、ステ
ップS62に移り、その部分が、前後をカタカナで囲ま
れた一字であり、しかも、候補にカタカナの一字が存在
するならば、それを第1候補とする。次に、ステップS
63に移り、その部分が前後をひらがなで囲まれた一字
であり、しかも、候補にひらがなの一字が存在するなら
、それを第1候補とする。次にステップS64に移り、
その部分が、前後を漢字とひらがなで囲まれた一字であ
り、しかも候補に漢字があるなら、それを第1候補とす
る。そして、ステップS65で文字認識バッファを再度
サーチし、次の第1候補、第2候補が並置している部分
があるか調査し、その結果をステップS66でチェック
し、YESならステップS62の直前に戻り、以後、ス
テップS62、S63、S64、S65の処理をくり返
す。ステップS66で、NOの場合は、ステップS67
に進み、候補変更済みのテキストを画面表示して、後処
理プログラムからリターンする。
【0028】図12は、音声合成プログラム10−6の
動作を説明するフローチャートである。このプログラム
は、メインプログラム10−1から起動されるが、まず
、ステップS70で、音声出力領域が確定済かチェック
する。これは、図4で説明した枠47である。NOなら
、このプログラムからリターンするが、YESならステ
ップS71で、音声合成バッファ7−3に確定された領
域から最初の文をひとつ取り出す。そして、ステップS
72で漢字仮名変換を行ない、もとの漢字混じり文を文
節に区切ったかな読みだけの文に変える。このとき、漢
字単語と、かな読みの対応情報の入った、漢字仮名変換
辞書ファイル13を用いる。また、文節の区切りは、文
節ごとの読みの長さがなるべく長くなるように、読みの
二文節最長一致法を用いて処理する。次にステップS7
3で、文を構成する単語のひとつひとつに、アクセント
情報を付加する。このとき、単語とアクセントの対応情
報の入ったアクセント辞書ファイル14を用いる。次に
ステップS74で、この文のイントネーションを整える
。ここで、たとえば、疑問文なら文末の音程を上げる等
の情報を加える。このとき、文の構成とイントネーショ
ンの規則情報の入った、イントネーション規則ファイル
15を用いる。そして、ステップS75では音声合成装
置22が発声中かどうかチェックし、発声中ならそれが
終了するまで待つ。そして、ステップS76に移り、ス
テップS71、S72、S73で得た、読み、アクセン
ト、イントネーション情報を音成合成装置22に送り、
発声を指令する。そして、ステップS77で、次のひと
つの文を取り出して、音成合成バッファ7−3にセット
するが、ステップS78では、“次のひとつの文”があ
ったのかなかったのかチェックし、YESなら、ステッ
プS72の直前に戻り、ステップS72からステップS
77までの処理をくり返す。NOなら、音声合成プログ
ラム10−6をリターンする。
【0029】図13は、保存プログラム10−7の動作
を説明する為のフローチャートである。メインプログラ
ム10−1から、保存プログラム10−7が起動される
と、まずユーザが選択するための保存用各種メニューの
並んだ小さなウインドウが開かれる。図13は、そのメ
ニューの中からユーザが選択動作したときの各処理を説
明している。ステップS80で、ユーザが「終了」を選
択した場合は、保存用の各種メニューの並んだ小さなウ
インドウは閉じられ、保存プログラムは終了する。ステ
ップS81で、ユーザが「テキスト保存」を選択した場
合は、ステップS82で、文字認識バッファ7−2上に
ある認識結果データ45を、テキストファイル12に保
存する。ユーザがステップS83で、「画像保存」を選
択した場合は、ステップS84で、画像バッファ7−1
上にある読み込み画像データ44を、画像ファイル11
に保存する。ユーザがステップS85で、「テキスト読
み込み」を選択した場合は、ステップS86で、テキス
トファイル12中の結果データを読み込み、文字認識バ
ッファ7−2にセットする。ユーザがステップS87で
、「画像読み込み」を選択した場合は、ステップS88
で、画像ファイル11内のデータを読み込み、画像バッ
ファ7−1にセットする。ユーザがステップS89で「
テキスト印刷」を選択した場合は、ステップS90で、
文字認識バッファ7−2内の結果データ45を、プリン
タ24に印刷する。ある部分の文字が、第1候補と第2
候補が並んでいる場合は、第1候補の文字だけを印刷す
る。ユーザがステップS91で「画像印刷」を選んだ場
合は、画像バッファ7−1内のデータをプリンタ24に
印刷する。なお、ステップS82、S84、S86、S
88、S90、S92の各処理が終了したあとは、ステ
ップS80の直前に戻ってループを形成し、ユーザによ
るメニュー選択を待つ形になる。
【0030】本実施例を用いることにより、図4に示し
たように、文字認識前の画像イメージと文字認識後の結
果テキストを並べて一画面上に表示するので、認識結果
のチェック等もユーザがやりやすいようになっている。
【0031】また、文字認識結果を、音声出力できるよ
うになっているので、この点でも、認識結果のチェック
がしやすい。しかも、認識結果で誤った部分があれば、
キーボードを用いて直接修正することができる。
【0032】また、複数ページ処理も入れてあるので、
データ量が多くても対応が可能となる。
【0033】(実施例2)次に、文字認識を行う際に、
候補文字を得点付きで複数個導出し、得点が低い場合は
文字の切り出し領域を変更する実施例について説明する
【0034】図14は、文字の切り出し処理の説明図で
ある。図14における(a)は、ひらながの「ほ」の字
を用いて説明する。実施例1では、文字切り出しプログ
ラム10−3が、画像イメージからの文字1文字分のイ
メージ切り出しを担当していたが、例えば「ほ」の字の
左半分を誤まって切り出してしまったとすると、実施例
1では、次の1文字イメージとして「ほ」の右半分を切
り出して、文字認識処理を連続して行う以外になかった
。その結果、認識結果としては、「1」と「ま」と出力
してしまう。そこで、実施例2では、「ほ」の左半分の
文字認識が出力された段階で、得点をチェックする。 この場合の得点とは、実施例1の図3における(b)で
示した得点である。この得点が例えば8点未満であるな
ら、文字イメージの切り出しが誤っていたものと考え、
次は「ほ」の左半分に右半分のイメージを加えて、1文
字イメージとして、再度文字認識処理を行うものである
。そして、認識結果として、正しい「ほ」の1文字が得
られる。
【0035】図14における(b)も、図14における
(a)の「ほ」の字と同じように、「刈」の字に対応し
た例である。「刈」の左半分のイメージを文字認識させ
たら得点が低かったので、「刈」の右半分のイメージを
合体させて、再度「刈」を1文字イメージとして、文字
認識処理を行って、「刈」の1字を得たものである。
【0036】図15及び図16は、その場合の文字切り
出しプログラムの動作を説明するフローチャートである
。文字認識指令プログラム10−4によって、文字切り
出しプログラム10−3が起動される点は、実施例1と
同様である。本実施例では起動されると、まずステップ
S100で、文字認識の対象領域の最初の「一文字」分
の文字イメージを切り出す。次にステップS101で文
字認識装置21に、1文字分のイメージを送り、文字認
識処理の開始を指令し、ステップS102で、認識結果
を受け取る。そして、ステップS103で、認識結果の
得点をチェックし、規定より高ければステップS110
に飛ぶ。この場合の“規定”とは、例えば、「10点満
点で8点以上なら、YESとする」等である。ステップ
S110では、候補第1位の文字コードを文字認識バッ
ファ7−2に加え、同点の候補があるなら、候補第2位
の文字コードも文字認識バッファ7−2に加える。そし
て、ステップS112で、認識対象領域から、次の1文
字イメージを切り出し、ステップS113で、「次の1
文字イメージ」の有無をチェックし、「なし」ならば文
字切り出しプログラムをリターンする。「有り」ならば
、ステップS101の直前に戻り、ループを形成し、ス
テップS101から、S112までの処理をくり返す。 ステップS100、S101、S102、S110、S
111、S112、S113は、実施例1の場合とまっ
たく同一であるが、この実施例で特有の部分は、ステッ
プS103から、S109までである。
【0037】ステップS103で、得点が低くてNOの
場合は、ステップS104に移り、直前に分析した1文
字イメージに、次の1文字イメージを加え、新しい1文
字イメージとし、ステップS105で、この新しい1文
字イメージを文字認識処理装置21に送り、文字認識処
理の開始を指令し、ステップS106で、認識結果を受
け取る。そして、ステップS107で、前回の認識結果
の得点と比較し、「高い」のであればそのままステップ
S110以降の処理に移る。「高くない」のであれば、
ステップS108で、1文字イメージとして追加した分
を取り消し、未分析のイメージと定義し直し、ステップ
S109で、前回受け取った認識結果を正式の認識結果
とする。それ以降はステップS110からの処理に移る
【0038】ステップS108、S109の処理は、合
体した1文字イメージが必ずしも正しい1文字とは限ら
ない場合にそなえたものである。
【0039】実施例1でも、実施例2でも文字認識バッ
ファ中のデータフォーマットは図5で示した形態である
。つまり、文字候補は必ず1文字だけだった。それに対
して、図17は、文字切り出し方法の違いを考慮して、
ある文字の左半分のイメージ、右半分のイメージを別々
に文字認識した場合と、左半分と右半分を合体して文字
認識した場合のふたつの結果を、含んだ形にするための
フォーマット例である。この場合、「メ」と「リ」と分
析した候補と、「刈」と分析した候補が並置されている
。また、「女」と「子」の候補と、「女子」の候補も並
置されている。つまり、文字候補は、必ずしも1文字だ
けとは限らず、2文字である場合もある。この点が実施
例1、実施例2とは異なる。
【0040】(実施例3)実施例1では、漢字仮名変換
は、音声出力する際に、文字認識結果テキストの漢字か
な混じり文を、読みだけの文にするために用いる例につ
いて述べたが、ここでは文字候補を含んだ認識結果テキ
ストの文字候補入れかえに用いる例について述べる。
【0041】図18は、この方法を用いた文字候補入れ
かえ処理プログラムを説明するためのフローチャートで
ある。なお、このプログラムは、実施例1の図9で説明
した文字認識指令プログラム中で、ステップS42「後
処理プログラム起動」の直後に挿入された形で働く。
【0042】起動されると、まずステップS120で、
漢字仮名変換を行い、読みだけの文章を得、ステップS
121で読みの二文節最長一致法で文節に区切る。ステ
ップS122で漢字1文字文節が連続した部分をサーチ
し、その結果、ステップS123で、「なし」であれば
、このプログラムからリターンする。「有り」ならば、
ステップS124で、その部分に、文字認識結果の文字
候補があるかチェックし、NOであればステップS12
9に飛び、次の漢字1文字文節が連続した部分をサーチ
して、ステップS123の直前に戻り、ループを形成す
る。ステップS124でYESの場合は、ステップS1
25で、認識文字の第2候補を第1候補に変え、ステッ
プS126で、その前後の数文節分を読みの二文節最長
一致法で再度文節に区切る。その結果をステップS12
7で漢字の1文字文節の連続がなくなったかチェックし
、YESなら、ステップS129に飛ぶ。NOなら、ス
テップS128で、文字認識候補の第2候補を第1候補
に戻し、以後、ステップS129の処理に移るが、これ
以降は前述の説明の通り。
【0043】概説すれば、「漢字1文字文節が連続した
部分は、文字認識に失敗している」のではないか、と推
定して、文字候補の入れかえを行い、そして、再度分析
して、漢字1文字候補の連続がなくなった場合には、正
式に候補決定とするわけである。
【0044】(実施例4)この実施例では、実施例3と
同様な文字認識の結果テキストに対する、後処理のもう
ひとつの例について述べる。
【0045】この実施例では、テキスト中の、主語、述
語の関係、目的語、述語の関係をとらえ、誤った結びつ
きであると判断された場合は、ディスプレイ表示上のそ
の部分をアンダーライン表示する、と言うものである。 一種の単純な日本語文章の意味処理と言えるものである
が、市販の各社のワープロでも、仮名漢字変換の同音語
決定に用いる一般的技術である。通常、「AI変換」、
「用例変換」と呼ばれ宣伝されている。
【0046】図19は、この意味処理プログラムを説明
するためのフローチャートである。このプログラムは、
実施例1の図9で説明した文字認識指令プログラム10
−4のリターンの直前に挿入された形で働く。まず、ス
テップS130では、文節間で、主語、述語の結びつき
をサーチし、ステップS131で、主語、述語の結合規
則で不正な部分があれば、その部分を画像表示上44、
結果表示上45でアンダーライン表示する。そして、ス
テップS132で、文節間で目的語、述語の結びつきを
サーチし、ステップS133で目的語、述語の結合規則
で不正な部分があれば、その部分を、画像表示上44、
結果表示上45で、アンダーライン表示し、このプログ
ラムからリターンする。
【0047】図20は、図19の意味処理プログラムで
不正であると判断された文の例である。
【0048】(実施例5)この実施例では、音声出力を
聞いているユーザが「これは誤った文」と考えた場合に
、キーボードのESCキーをプッシュすると、ディスプ
レイ上に表示されている相当する文がアンダーライン表
示される、という例について述べる。図21及び図22
は、この実施例のために修正された音声合成プログラム
10−6を示している。他の部分については、実施例1
と同一で良い。まず、ステップS140では、音声出力
領域が確定済みかチェックし、NOなら、このプログラ
ムからリターンする、YESならステップS141で音
声出力領域の最初の文を、音声合成バッファ7−3に取
り出し、ステップS142で漢字仮名変換で、かな読み
を得て、単語に区切り、ステップS143でアクセント
辞書によって単語ごとのアクセント情報を付加し、ステ
ップS144でイントネーション規則により、文全体の
イントネーションを整える。そして、ステップS145
で、音声合成装置22が発声中かチェックし、発声が終
了しているのであれば、ステップS146に移り、読み
、アクセント、イントネーション情報を、音声合成装置
22に送り、発声を指令する。その時、ステップS14
7で、ユーザがキーボードからESCキーをプッシュし
たかチェックし、YESなら、ステップS151で、発
声中の文を、画像表示44、結果表示45上で、アンダ
ーライン表示する。その後、ステップS152で、次の
文を、音声合成バッファ7−3に取り出し、ステップS
153で、“次の文”があったのかチェックし、NOな
らそのまま、このプログラムからリターンする。YES
なら、ステップS142の直前に戻り、ステップS14
2以下の処理をくり返す。ステップS147でNOなら
ば、ステップS148で、音声合成装置22が発声中か
チェックし、YESならステップS147の直前に戻り
、ESCキーのチェックをくり返す。ステップS148
でNOならば、ステップS149で2秒待ち、ステップ
S150で、ユーザからのESCキー入力をチェックす
る。ここでYESなら、ステップS151でのアンダー
ライン表示の処理を行い、あては前述の説明の通り、処
理が進む。ステップS150でNOの場合は、ステップ
S152に移り、“次の文”のセットを行って、あとは
前述の説明の通り処理が進む。
【0049】ステップS149で、2秒待つ意味は、ひ
とつの文の発声と次の文の発声の間を、少なくとも2秒
あけるのと、その間に、ユーザが「不正」と判断して、
ESCキーを押した場合、直前に発声した文に「不正」
を示すアンダーラインを表示させるためのものである。 もちろん、文の発声中でも、「不正」と判断できたなら
、ユーザは即ESCキーをプッシュして良い。ステップ
S147では、その判断をしている。
【0050】
【発明の効果】以上説明したように、一連の文字認識作
業の中で、最も負荷のかかる、1文字イメージだけの文
字認識処理の部分を、別制御、別筐体として独立させ、
他の各処理は従来通りメインのマシン上で行うように分
離することにより、 (1)メインのマシンは、低価格のパソコン、あるいは
ワークステーションで実行できる。 (2)認識速度も、従来の2〜3倍の60〜70字/秒
が確保できる。 (3)また、メインのマシン側の処理である、用紙上の
活字イメージの読み込みのプログラム、1文字イメージ
の切り出しプログラム、認識結果の評価と修正のプログ
ラム、テキスト表示のプログラム、等もユーザ側で、市
販ソフトを組み合み合わせるとか、あるいは、一部自作
する等、自由度がかなり広がる。 (4)認識結果のテキストに対し、市販の音声出力装置
、ソフトウェアを付加して、スピーカ発声させれば、文
字認識結果を音声で確認できる。 と言う効果がある。
【図面の簡単な説明】
【図1】実施例1のシステム構成図。
【図2】文字認識装置のシステム構成図。
【図3】画像データ及び認識結果データのフォーマット
例示図。
【図4】画面表示の例示図。
【図5】結果テキストのフォーマット例示図。
【図6】メインプログラムのフローチャート。
【図7】文字認識プログラムのフローチャート。
【図8】画像読み取りプログラムのフローチャート。
【図9】文字認識指令プログラムのフローチャート。
【図10】文字切り出しプログラムのフローチャート。
【図11】後処理プログラムのフローチャート。
【図12】音声合成プログラムのフローチャート。
【図13】保存プログラムのフローチャート。
【図14】実施例2の文字きりだし処理の説明図。
【図15】実施例2の文字切り出しプログラムのフロー
チャートの第1図。
【図16】実施例2の文字切り出しプログラムのフロー
チャートの第2図。
【図17】結果テキストフォーマットの第2の例示図。
【図18】実施例3の文字候補入れ替え処理プログラム
のフローチャート。
【図19】実施例4の意味処理プログラムのフローチャ
ート。
【図20】意味処理で、不正と判断される文の例示図。
【図21】実施例5の音声合成プログラムのフローチャ
ートの第1図。
【図22】実施例5の音声合成プログラムのフローチャ
ートの第1図。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】  画像情報を入力する入力手段、該画像
    情報から文字の領域を切り出す切り出し手段、該切り出
    される領域の画像情報の認識を行ない、文字情報として
    導出する認識手段、該認識結果である文字情報を表示す
    る表示手段、前記文字情報を音声として出力する音声出
    力手段とを有することを特徴とする文書処理装置。
  2. 【請求項2】  前記表示される文字情報を編集する編
    集手段を有することを特徴とする請求項1に記載の文書
    処理装置。
  3. 【請求項3】  前記切り出し手段は、前記切り出され
    る画像情報から文字情報を確からしさを表わす度数とと
    もに複数個導出することを特徴とする請求項1に記載の
    文書処理装置。
  4. 【請求項4】  前記導出される複数個の文字情報の確
    からしさを表わす度数が低い場合は、前記切り出される
    領域を変更するよう制御する制御手段を有することを特
    徴とする請求項1に記載の文書処理装置。
  5. 【請求項5】  前記文書処理装置は、前記導出される
    複数の文字情報を格納する手段と、前記格納手段に格納
    される文字情報を漢字仮名変換する手段と、前記仮名変
    換を行なうとより長い文節が得られる文字情報を選択す
    る選択手段を有することを特徴とする請求項1に記載の
    文書処理装置。
  6. 【請求項6】  前記文書処理装置は、前記認識結果の
    変更を指示する指示手段を有し、該指示手段によって指
    示されたときに前記音声出力手段が出力している情報に
    対応する文字情報に識別情報を付加して前記表示手段に
    表示するよう制御する表示制御手段を有することを特徴
    とする請求項1に記載の文書処理装置。
  7. 【請求項7】  画像情報を入力し、該画像情報から文
    字の領域を切り出し、該切り出される領域の画像情報の
    認識を行ない、文字情報として導出し、該認識結果であ
    る文字情報を表示し、前記文字情報を音声として出力す
    ることを特徴とする文書処理方法。
  8. 【請求項8】  前記表示される文字情報を編集するこ
    とを特徴とする請求項7に記載の文書処理方法。
  9. 【請求項9】  前記切り出される画像情報から文字情
    報を確からしさを表わす度数とともに複数個導出するこ
    とを特徴とする請求項7に記載の文書処理方法。
  10. 【請求項10】  前記導出される複数個の文字情報の
    確からしさを表わす度数が低い場合は、前記切り出され
    る領域を変更するよう制御することを特徴とする請求項
    7に記載の文書処理方法。
JP3109226A 1991-05-14 1991-05-14 音声出力制御装置及び方法 Pending JPH04336684A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3109226A JPH04336684A (ja) 1991-05-14 1991-05-14 音声出力制御装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3109226A JPH04336684A (ja) 1991-05-14 1991-05-14 音声出力制御装置及び方法

Publications (1)

Publication Number Publication Date
JPH04336684A true JPH04336684A (ja) 1992-11-24

Family

ID=14504805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3109226A Pending JPH04336684A (ja) 1991-05-14 1991-05-14 音声出力制御装置及び方法

Country Status (1)

Country Link
JP (1) JPH04336684A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187352A (ja) * 2008-02-07 2009-08-20 Forex Co Ltd 文書データ検証方法及び文書データ検証支援システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187352A (ja) * 2008-02-07 2009-08-20 Forex Co Ltd 文書データ検証方法及び文書データ検証支援システム

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
US4831529A (en) Machine translation system
US7395203B2 (en) System and method for disambiguating phonetic input
EP0370774B1 (en) Machine translation system
KR19990078364A (ko) 문서처리장치 및 그의 방법
JPH0411906B2 (ja)
KR20110036846A (ko) 정보 처리 장치 및 정보 처리 방법
US7212967B2 (en) Chinese phonetic transcription input system and method with comparison function for imperfect and fuzzy phonetic transcriptions
JPH04336684A (ja) 音声出力制御装置及び方法
JPH056396A (ja) 機械翻訳装置
JPH0630052B2 (ja) 音声認識表示装置
JP2838984B2 (ja) 汎用参照装置
JP4248549B2 (ja) 機械翻訳編集装置、機械翻訳編集プログラム及び機械翻訳編集方法
JP3814000B2 (ja) 文字列変換装置および文字列変換方法
JPH08190561A (ja) 文書修正装置
JP2874815B2 (ja) 日本語文字読取装置
JPS62224859A (ja) 日本語処理方式
JPS61223977A (ja) 翻訳処理装置
JPH06149790A (ja) 文章作成装置
JPS62203265A (ja) 機械翻訳システム
JP2924955B2 (ja) 翻訳方法および翻訳装置
JPH09269945A (ja) メディア変換方法およびメディア変換装置
JPH09231217A (ja) 言語解析システムおよび方法
JPS5827268A (ja) 日本語処理装置
JPH07146858A (ja) 情報処理システム