JPH04336684A

JPH04336684A - 音声出力制御装置及び方法

Info

Publication number: JPH04336684A
Application number: JP3109226A
Authority: JP
Inventors: Yoji Furuya; 陽二古谷; Sadahiro Tanaka; 貞浩田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-05-14
Filing date: 1991-05-14
Publication date: 1992-11-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、原稿上の文字情報を光
学的文字読み取り装置（ＯＣＲ）により読み取って認識
し、認識結果として得たテキストを音声として出力する
文書処理方法及び装置に関するものである。

【０００２】

【従来の技術】従来、文字認識装置は、原稿である用紙
上のイメージの読み取り、行のサーチ、１文字ずつ切り
出し、文字認識、認識結果の評価と修正、表示いといっ
た処理を一通りすべて一台のワークステーションか、パ
ソコン或いは特殊な文字認識装置で行なうものはあった
。

【０００３】従来、テキストを入力し、音声合成して出
力する音声合成装置はあった。

【０００４】

【発明が解決しようとしている課題】しかしながら、上
記従来例では、１台のマシン上で文字認識作業のすべて
を行なっているために次のような欠点があった。（１）マシン自体に大きな負荷がかかるので、高性能の
つまりは高価なマシンが必要。（２）高性能のマシンを用いても、認識速度が低い。１
０〜２０文字／秒程度の製品が一般的。（３）マシン自体がほぼ文字認識の専用機の形態になっ
てしまうため、文字認識処理にからむ、各工程の自由度
が少ない。つまり、用紙上の活字の文字イメージの読み
込みルーチンや、１文字イメージの切り出しルーチン等
の改良も、ユーザ側で行なうことは事実上できない。（４）（３）と同じく、マシン自体がほぼ文字認識の専
用機の形態になってしまうため、例えば、ユーザ側で文
字認識結果の音声出力装置を追加する、等を行なおうと
しても、事実上できない。

【０００５】しかしながら、上記従来例では、ホストコ
ンピュータを文字認識処理のみに用いるようプログラム
が定まっている為、認識結果をそのままディスプレイな
どに表示するしかできず、データの変換などが不可能で
あった。

【０００６】

【課題を解決するための手段（及び作用）】本発明によ
れば、一連の文字認識作業の中で、最も負荷のかかる、
１文字イメージだけの文字認識処理の部分を、別制御、
別筺体として、独立させ、他の各処理は、従来通りメイ
ンのマシン上で行なうよう、分離することで、（１）メ
インのマシンは、低価格のパソコン、あるいはワークス
テーションで実行でき、（２）認識速度も、従来の２〜
３倍の６０〜７０字／秒が確保でき、（３）また、メイ
ンのマシン側の処理である、用紙上の活字イメージの読
み込みのプログラム、１文字イメージの切り出しプログ
ラム、認識結果の評価と修正のプログラム、テキスト表
示のプログラム等もユーザ側で、市販ソフトを組み合わ
せる、あるいは、一部自作する等自由度がかなり広がり
、（４）認識結果のテキストに対し、市販の音声出力の
装置、ソフトウェアを付加して、スピーカ発生させ、文
字認識結果を音声で確認できるようにしたものである。

【０００７】

【実施例】（実施例１）以下、図に従って第１の実施例について説
明する。

【０００８】図１は、本実施例のシステム構成図である
。点線の左側の部分は、パーソナルコンピュータ（以下
、パソコンと称す）本体を示し、右側は、パソコンに接
続した各種装置を示している。１は中央処理装置（以下
、ＣＰＵと称す）は、外部記憶装置９に格納されている
各種プログラムに従って、本システム全体の制御及び判
断を行なう。２は、データやテキストを表示するＣＲＴ
ディスプレイ、３は文字列等を入力する為の各種キーを
有するキーボード、４はポインティングデバイスとして
のマウス、５はメモリである。メモリ５は、リード・オ
ンリー・メモリ（以下、ＲＯＭと称す）、ランダム・ア
クセス・メモリ（以下、ＲＡＭと称す）７、ビデオＲＡ
Ｍ（以下、ＶＲＡＭと称す）８で構成されている。ＲＯ
Ｍ６には基本的入出力制御を行なうソフトウェアである
、オペレーティングシステム（以下ＯＳと称す）の一部
や、表示用の文字フォント等が内蔵されている。ＲＡＭ
７は、外部記憶装置９に内蔵されている各種プログラム
をロードして実行する場になる。例えば、画像読み込み
プログラム１０−２が使用する画像バッファ、文字切り
出しプログラム１０−３、文認識指令プログラム１０−
４及び後処理プログラム１０−５が使用する文字認識バ
ッファ、音声合成プログラム１０−６が使用する音声合
成バッファが、ＲＡＭ７中に設けられる。ＶＲＡＭ８は
、ＣＲＴディスプレイ２に表示するための表示用データ
を格納する場所である。

【０００９】外部記憶装置９の中には、後に説明する図
６〜図２２に示すフローチャートのような処理の各種プ
ログラム１０、データの保存ファイル１１及び１２、辞
書ファイル１３〜１４等が内蔵されている。詳しく述べ
ると１０は、本実施で用いる文字認識・音声出力ソフト
で、後に図６のフローチャートを用いて説明するメイン
プログラム１０−１の制御の下で、ユーザの指示に従っ
て各種プログラムが起動される。１０−２は、用紙上の
画像イメージでスキャナ２０を用いてＲＡＭ７の画像バ
ッファ７−１内に取り込むプログラムであり、図８のフ
ローチャートを用いて後述する。文字切り出しプログラ
ム１０−３は、画像バッファ７−１内の画像イメージか
ら、文字１文字分のイメージを切り出すプログラムであ
り、図１０のフローチャートを用いて後述する。１０−
４は、文字認識指令プログラムであって、切り出した１
文字分の画像情報を文字認識装置２１に送り、１文字の
文字認識処理を実行させるプログラムであり、図９のフ
ローチャートを用いて後述する。１０−５は後処理プロ
グラムであって、文字認識後のテキストの評価を行ない
、文字候補が複数ある場合は、より正しいと推定される
文字候補を第１候補とする、等のはたらきをするプログ
ラムであり、図１１のフローチャートを用いて後述する
。１０−６は音声合成プログラムであって、文字認識で
完成したテキストを、漢字仮名変換して読みに変え、さ
れにアクセント、イントネーション情報を付けて、音声
合成装置２２に送り、スピーカ２３より発生させる処理
を行なうプログラムであり、図１２のフローチャートを
用いて後述する。このとき、音声合成プログラム１０−
６は、漢字仮名変換辞書ファイル１３、アクセント辞書
ファイル１４、イントネーション規制ファイル１５を用
いて、漢字の読みへの変換、アクセント情報付加、イン
トネーション情報付加を行なう。１０−７は保存プログ
ラムであって、画像バッファ７−１内の画像イメージデ
ータを画像ファイル１１に保存、あるいは、文字認識バ
ッファ７−２内にある文字認識結果のテキストデータを
、テキストファイル１２に保存する役目を持つものであ
り、図１３のフローチヤートを用いて後述する。また、
反対に、画像ファイル１１、あるいはテキストファイル
１２内のデータを画像バッファ７−１、あるいは文字認
識バッファ７−２に読み込みセットする役目もある。さ
らには、画像バッファ７−１内の画像イメージデータや
、文字認識バッファ７−２内のテキストデータをプリン
タ２４を用いて用紙上に印刷する役目も持つ。

【００１０】図２は、文字認識装置２１のシステム構成
図である。接続部３４を介して、パソコン本体と結合さ
れているが、装置全体は、ＣＰＵ３０によって制御され
る。３１はメモリであって、ＲＯＭ３２及びＲＡＭ３３
で構成され、ＲＯＭ３２には、文字認識プログラム３２
−１と、文字認識処理ルーチンで用いる「全文字の線分
集合データ」３２−２が内蔵されている。ＲＡＭ３３に
は、文字認識作業中、１文字分のイメージの画像データ
３３−１、認識結果データが格納される。手順としては
、パソコン本体側から認識開始指令の信号が入ると、文
字認識プログラム３２−１は、まず１文字分の画像イメ
ージを取り込んで、ＲＡＭ３３上に画像データ３３−１
としてセットする。そして、各種処理を行なった後「全
文字の線分集合データ」３２−２と比較して、最も確か
らしい複数の文字候補を、得点付きで並べ、認識結果デ
ータ３３−２としてセットする。そして、パソコン本体
側に認識結果データ３３−２を返送する、と言う流れに
なる。処理の詳細は、後述の図７に示すフローチャート
で説明する。

【００１１】図３における（ａ）は、画像データ３３−
１のフォーマット例示図で、１６×１６のドットイメー
ジ中に「力」の文字らしい文字フォントがセットされて
いることを示している。

【００１２】図３における（ｂ）は、画像データ３３−
１を文字認識処理したあとの、認識結果データの例を示
している。左端の項目は、候補の順位欄で、１位から８
位まで並び、２番目の欄でＪＩＳの区点コードによる、
文字１文字分のコードが並び、最後の欄で、各候補の得
点が記載されている。本実施例においては、最高１０点
満点で、最低１点とする。この点数は「全文字の線分集
合データ」との比較でもって決められる。得点の高い順
に上位８位までの計８個の文字が、認識結果データ３３
−２としてセットされる。ちなみに、図３に置ける（ｂ
）の場合、第１位はカタカナの「カ」、第２位は漢字の
「力（ちから）」、第３位は、小さなカタカナの「ヵ」
、第８位は、漢字の「刀（かたな）」である。

【００１３】図４は、文字認識・音声出力ソフト１０の
、ＣＲＴディスプレイ２への画面表示例である。４０は
画面枠、４１は表題、４２は終了マークで、ユーザがマ
ウスカーソル５５をマウス４を動かすことによって終了
マーク４２に合わせ、マウス４のボタンをクリックする
と、音声認識・音声出力ソフト１０は終了し、ＯＳのプ
ロンプト表示に戻る。４３はメニュー欄であって、「読
み込み」、「認識」、「音声」、「保存」の各メニュー
が並んでいる。メニューの選択方法は、終了マーク４２
の場合と同じく、マウスカーソル５５を相当するメニュ
ーに合わせて、マウス４のボタンをクリックすれば良い
。ボタンをクリックすることによってその時マウスカー
ソルの示しているコマンドがＣＰＵへと送信される。「
読み込み」メニューは、画像読み込みプログラム１０−
２を起動して、スキャナ２０を介し、用紙上の画像イメ
ージをパソコン上に取り込む為のものである。このとき
同時に、読み込み画像表示４４上に、読み込んだ画像イ
メージが表示される。「認識」メニューは、文字切り出
しプログラム１０−３、文字認識指令プログラム１０−
４、後処理プログラム１０−５、を起動して、文字認識
作業を開始させるためのものである。手順としては、ユ
ーザはまず、ＣＲＴ２上の読み込み画像４４上で、文字
認識の大正領域を決めておかなければならないが、それ
には、マウスカーソル５５を対象領域の左上隅にあて、
マウスボタンを押し、押したままマウスカーソル５５を
移動させ、対象領域の右下隅まで来たところで、マウス
ボタンを離す。これによって、認識対象領域の枠４６が
表示される。そして、ユーザが「認識」メニューを選択
すると、認識結果が結果表示４５に表示される。これに
よって、文字認識作業が終ったことになる。

【００１４】「音声」メニューは、認識結果のテキスト
４５を、音声合成装置２２、スピーカ２３を用いて、発
声させるものである。手順としては、ユーザは、まずマ
ウスカーソル５５を用いて、音声出力の対象領域４７を
決める。これは、文字認識の対象領域４６を決めた際の
作業と同じである。そして次にユーザが「音声」メニュ
ーを選択すると、音声合成プログラムが起動され、出力
対象領域４７内のテキストがスピーカ２３から自動的に
発声されることになる。

【００１５】「保存」メニューを選択すると、保存プロ
グラム１０−７が起動され、さらに細かな選択用のメニ
ューが現われ、読み込み画像４４のファイル保存、結果
テキスト４５のファイル保存、あるいは、画像ファイル
１１からの画像イメージのリードで読み込み画像４４の
表示セット、テキストファイル１２からのテキストデー
タのリードと結果テキストへの表示、セット、あるいは
また、画像イメージの印刷、結果テキストの印刷、が選
択実行できる。

【００１６】４９、４８は、画像イメージのデータが多
くて、複数ページに渡る際の次ページ表示切換ボタン、
前ページ表示切換ボタンである。５０は、ページ数の表
示である。５２、５１は４９及び４８と同様に、結果テ
キストデータが多く、複数ページにまたがる場合の、次
ページ表示切換ボタン、前ページ表示切換ボタンであっ
て、５３はページ数表示である。

【００１７】なお、５６は文字カーソルである。ユーザ
はキーボード３を用いて、結果テキストの編集作業もで
きる。つまり、文字カーソル５６位置の文字の削除、文
字列挿入、移動、等々ができる。文字認識に誤りが発生
した場合は、この方法でテキスト修正が可能である。

【００１８】図５は、文字認識バッファ７−２上にある
文字認識の結果テキストのフォーマット例である。文字
コードが先頭から順に書かれているが、“カ”の字につ
いては、文字認識の得点の同じ候補があったので、カタ
カナの“カ”と漢字の“力”（ちから）が並置されてい
る。候補が２つ並んでいることをテキストの中で区別す
るために、開始マークコードと終了マークコードで囲み
、区切りマークコードで区切って、間にカタカナの“カ
”の文字コードと、漢字の“力”（ちから）のコードを
埋め込んである。なお、結果テキスト４５として、ディ
スプレイ上に表示されるものは、この場合最初に出現し
て第１候補となっているカタカナの“カ”である。

【００１９】次に、本実施例について、フローチャート
を用いて処理の流れを説明する。

【００２０】図６はメインプログラム１０−１の動作を
説明するフローチャートである。基本的には、ユーザの
メニュー選択によって、各処理プログラムが起動される
ことを示している。動作の概要は図４を用いてすでに説
明済みなので詳細な説明はここでは省略する。ステップ
Ｓ２の「読み込み」メニュー選択、ステップＳ６の「認
識」メニュー選択、ステップＳ８の「音声」メニュー選
択、ステップＳ１２の「保存」メニュー選択では、各処
理プログラムの起動を行なうだけだが、ステップＳ４の
領域指定作業、ステップＳ１０の編集作業、ステップＳ
１４のページ変更作業は、メインプログラム１０−１自
身が処理を行なう。

【００２１】図７は、文字認識装置２１内のＲＯＭ３２
にある文字認識プログラム３２−１の動作を説明するフ
ローチヤートである。このプログラムは、音声認識装置
２１の電源ＯＮと同時に立ち上がり、電源ＯＦＦまで動
作を続ける。

【００２２】まず、ステップＳ２０では、電源ＯＦＦか
チェックし、ＯＦＦならばそのまま終了する。ＮＯなら
ば（電源がＯＮならば）、ステップＳ２１で、パソコン
本体側から文字認識処理の開始指令が来ているかチェッ
クし、ＮＯなら、ステップＳ２０の直前に戻りループを
形成する。ステップＳ２１でＹＥＳなら、ステップＳ２
２に進んで、パソコン本体側から１文字分の画像イメー
ジを取り込み、ＲＡＭ３３上に画像データ３３−１とし
てセットする。そして、ステップＳ２３で、画像データ
３３−１より、活字の字体に相当する黒い領域の輪郭、
つまりアウトラインを得、ステップＳ２４で、アウトラ
インに沿って線分、つまりベクトルを作成し、ステップ
Ｓ２５で、その線分の集合データを得る。そして、ステ
ップＳ２６では、上記の線分集合データと、ＲＯＭ３２
上にある全文字の線分集合データ３２−２をベクトルの
一致の面で比較し、ステップＳ２７で、一致の得点の高
い順に、第１位から第８位の候補までで、認識結果デー
タ３３−２を作成する。そして、ステップＳ２８で、パ
ソコン本体側に、認識結果データ３３−２を転送し、一
連の処理が終る。その後、ステップＳ２０に戻り、以後
、ループを形成して、再度パソコン本体側から、文字の
認識開始指令が来るのを待つ。

【００２３】なお、この文字認識の処理方法は、『疑似
ベイズ識別関数法』として、情報処理関連の各種文献上
で、公知の技術となっているものであるので、これ以上
の詳細な部分については、説明を省略する。

【００２４】図８は、画像読み込みプログラム１０−２
の動作を説明するフローチャートである。メインプログ
ラム１０−１から起動されると、まず、ステップＳ３０
で、スキャナ２０から用紙上の画像イメージを読み込み
、ステップＳ３１で、その画像データをＲＡＭ７上の画
像バッファ７−１にセットし、ステップＳ３２で、ＣＲ
Ｔディスプレイ２上に画像イメージを図４の４４に示す
ように表示して、このプログラムからリターンし、メイ
ンプログラム１０−１側に制御が戻る。

【００２５】図９は、文字認識指令プログラム１０−４
の動作を説明するフローチャートである。メインプログ
ラム１０−１から起動されると、まず、文字認識の対象
領域が確定済かチェックする。ＮＯなら、このままリタ
ーンする。ＹＥＳならステップＳ４１に移り、文字切り
出しプログラム１０−３を起動し、文字切り出しプログ
ラム１０−３の処理が終れば、次にステップＳ４２で、
後処理プログラム１０−５を起動し、その処理が終るの
を待ってリターンし、メインプログラム１０−１に制御
を戻す。

【００２６】図１０は、文字切り出しプログラム１０−
３の動作を説明するフローチャートである。文字認識指
令プログラム１０−４によって起動されると、まず、ス
テップＳ５０で、認識対象領域の最初の１文字イメージ
を切り出し、ステップＳ５１で、文字認識装置２１に、
１文字イメージを送り、認識処理開始を指令する。そし
て、ステップＳ５２で、文字認識装置２１から認識結果
を受け取り、ステップＳ５３で、認識結果データの上で
、候補第１位の文字コードを、文字認識バッファ７−２
に加える。そして、ステップＳ５４で、同点の候補があ
ったのなら、候補第２位の文字コードも文字認識バッフ
ァ７−２に加える。このときの第１候補と第２候補の文
字コードは、図５で説明したように、開始マーク、区切
りマーク、終了マークの間に埋め込まれた形のフォーマ
ットでセットされる。そして、ステップＳ５５で、認識
対象領域の中で、次の１文字イメージを切り出し、ステ
ップＳ５６で、次の１文字イメージが有るのかチェック
し、ＹＥＳなら、ステップＳ５１の直前に戻り、前述の
処理をくり返す。ＮＯならリターンし、文字認識指令プ
ログラム１０−４に制御が戻る。

【００２７】図１１は、後処理プログラム１０−５の動
作を説明するフローチャートである。文字認識指令プロ
グラム１０−４によって起動されると、まず、ステップ
Ｓ６０で、文字認識バッファをサーチし、第１候補、第
２候補が並置されている部分があるか調べ、その結果を
、ステップＳ６１で有るかどうか判断し、ＮＯならば、
このプログラムからリターンする。ＹＥＳならば、ステ
ップＳ６２に移り、その部分が、前後をカタカナで囲ま
れた一字であり、しかも、候補にカタカナの一字が存在
するならば、それを第１候補とする。次に、ステップＳ
６３に移り、その部分が前後をひらがなで囲まれた一字
であり、しかも、候補にひらがなの一字が存在するなら
、それを第１候補とする。次にステップＳ６４に移り、
その部分が、前後を漢字とひらがなで囲まれた一字であ
り、しかも候補に漢字があるなら、それを第１候補とす
る。そして、ステップＳ６５で文字認識バッファを再度
サーチし、次の第１候補、第２候補が並置している部分
があるか調査し、その結果をステップＳ６６でチェック
し、ＹＥＳならステップＳ６２の直前に戻り、以後、ス
テップＳ６２、Ｓ６３、Ｓ６４、Ｓ６５の処理をくり返
す。ステップＳ６６で、ＮＯの場合は、ステップＳ６７
に進み、候補変更済みのテキストを画面表示して、後処
理プログラムからリターンする。

【００２８】図１２は、音声合成プログラム１０−６の
動作を説明するフローチャートである。このプログラム
は、メインプログラム１０−１から起動されるが、まず
、ステップＳ７０で、音声出力領域が確定済かチェック
する。これは、図４で説明した枠４７である。ＮＯなら
、このプログラムからリターンするが、ＹＥＳならステ
ップＳ７１で、音声合成バッファ７−３に確定された領
域から最初の文をひとつ取り出す。そして、ステップＳ
７２で漢字仮名変換を行ない、もとの漢字混じり文を文
節に区切ったかな読みだけの文に変える。このとき、漢
字単語と、かな読みの対応情報の入った、漢字仮名変換
辞書ファイル１３を用いる。また、文節の区切りは、文
節ごとの読みの長さがなるべく長くなるように、読みの
二文節最長一致法を用いて処理する。次にステップＳ７
３で、文を構成する単語のひとつひとつに、アクセント
情報を付加する。このとき、単語とアクセントの対応情
報の入ったアクセント辞書ファイル１４を用いる。次に
ステップＳ７４で、この文のイントネーションを整える
。ここで、たとえば、疑問文なら文末の音程を上げる等
の情報を加える。このとき、文の構成とイントネーショ
ンの規則情報の入った、イントネーション規則ファイル
１５を用いる。そして、ステップＳ７５では音声合成装
置２２が発声中かどうかチェックし、発声中ならそれが
終了するまで待つ。そして、ステップＳ７６に移り、ス
テップＳ７１、Ｓ７２、Ｓ７３で得た、読み、アクセン
ト、イントネーション情報を音成合成装置２２に送り、
発声を指令する。そして、ステップＳ７７で、次のひと
つの文を取り出して、音成合成バッファ７−３にセット
するが、ステップＳ７８では、“次のひとつの文”があ
ったのかなかったのかチェックし、ＹＥＳなら、ステッ
プＳ７２の直前に戻り、ステップＳ７２からステップＳ
７７までの処理をくり返す。ＮＯなら、音声合成プログ
ラム１０−６をリターンする。

【００２９】図１３は、保存プログラム１０−７の動作
を説明する為のフローチャートである。メインプログラ
ム１０−１から、保存プログラム１０−７が起動される
と、まずユーザが選択するための保存用各種メニューの
並んだ小さなウインドウが開かれる。図１３は、そのメ
ニューの中からユーザが選択動作したときの各処理を説
明している。ステップＳ８０で、ユーザが「終了」を選
択した場合は、保存用の各種メニューの並んだ小さなウ
インドウは閉じられ、保存プログラムは終了する。ステ
ップＳ８１で、ユーザが「テキスト保存」を選択した場
合は、ステップＳ８２で、文字認識バッファ７−２上に
ある認識結果データ４５を、テキストファイル１２に保
存する。ユーザがステップＳ８３で、「画像保存」を選
択した場合は、ステップＳ８４で、画像バッファ７−１
上にある読み込み画像データ４４を、画像ファイル１１
に保存する。ユーザがステップＳ８５で、「テキスト読
み込み」を選択した場合は、ステップＳ８６で、テキス
トファイル１２中の結果データを読み込み、文字認識バ
ッファ７−２にセットする。ユーザがステップＳ８７で
、「画像読み込み」を選択した場合は、ステップＳ８８
で、画像ファイル１１内のデータを読み込み、画像バッ
ファ７−１にセットする。ユーザがステップＳ８９で「
テキスト印刷」を選択した場合は、ステップＳ９０で、
文字認識バッファ７−２内の結果データ４５を、プリン
タ２４に印刷する。ある部分の文字が、第１候補と第２
候補が並んでいる場合は、第１候補の文字だけを印刷す
る。ユーザがステップＳ９１で「画像印刷」を選んだ場
合は、画像バッファ７−１内のデータをプリンタ２４に
印刷する。なお、ステップＳ８２、Ｓ８４、Ｓ８６、Ｓ
８８、Ｓ９０、Ｓ９２の各処理が終了したあとは、ステ
ップＳ８０の直前に戻ってループを形成し、ユーザによ
るメニュー選択を待つ形になる。

【００３０】本実施例を用いることにより、図４に示し
たように、文字認識前の画像イメージと文字認識後の結
果テキストを並べて一画面上に表示するので、認識結果
のチェック等もユーザがやりやすいようになっている。

【００３１】また、文字認識結果を、音声出力できるよ
うになっているので、この点でも、認識結果のチェック
がしやすい。しかも、認識結果で誤った部分があれば、
キーボードを用いて直接修正することができる。

【００３２】また、複数ページ処理も入れてあるので、
データ量が多くても対応が可能となる。

【００３３】（実施例２）次に、文字認識を行う際に、
候補文字を得点付きで複数個導出し、得点が低い場合は
文字の切り出し領域を変更する実施例について説明する
。

【００３４】図１４は、文字の切り出し処理の説明図で
ある。図１４における（ａ）は、ひらながの「ほ」の字
を用いて説明する。実施例１では、文字切り出しプログ
ラム１０−３が、画像イメージからの文字１文字分のイ
メージ切り出しを担当していたが、例えば「ほ」の字の
左半分を誤まって切り出してしまったとすると、実施例
１では、次の１文字イメージとして「ほ」の右半分を切
り出して、文字認識処理を連続して行う以外になかった
。その結果、認識結果としては、「１」と「ま」と出力
してしまう。そこで、実施例２では、「ほ」の左半分の
文字認識が出力された段階で、得点をチェックする。この場合の得点とは、実施例１の図３における（ｂ）で
示した得点である。この得点が例えば８点未満であるな
ら、文字イメージの切り出しが誤っていたものと考え、
次は「ほ」の左半分に右半分のイメージを加えて、１文
字イメージとして、再度文字認識処理を行うものである
。そして、認識結果として、正しい「ほ」の１文字が得
られる。

【００３５】図１４における（ｂ）も、図１４における
（ａ）の「ほ」の字と同じように、「刈」の字に対応し
た例である。「刈」の左半分のイメージを文字認識させ
たら得点が低かったので、「刈」の右半分のイメージを
合体させて、再度「刈」を１文字イメージとして、文字
認識処理を行って、「刈」の１字を得たものである。

【００３６】図１５及び図１６は、その場合の文字切り
出しプログラムの動作を説明するフローチャートである
。文字認識指令プログラム１０−４によって、文字切り
出しプログラム１０−３が起動される点は、実施例１と
同様である。本実施例では起動されると、まずステップ
Ｓ１００で、文字認識の対象領域の最初の「一文字」分
の文字イメージを切り出す。次にステップＳ１０１で文
字認識装置２１に、１文字分のイメージを送り、文字認
識処理の開始を指令し、ステップＳ１０２で、認識結果
を受け取る。そして、ステップＳ１０３で、認識結果の
得点をチェックし、規定より高ければステップＳ１１０
に飛ぶ。この場合の“規定”とは、例えば、「１０点満
点で８点以上なら、ＹＥＳとする」等である。ステップ
Ｓ１１０では、候補第１位の文字コードを文字認識バッ
ファ７−２に加え、同点の候補があるなら、候補第２位
の文字コードも文字認識バッファ７−２に加える。そし
て、ステップＳ１１２で、認識対象領域から、次の１文
字イメージを切り出し、ステップＳ１１３で、「次の１
文字イメージ」の有無をチェックし、「なし」ならば文
字切り出しプログラムをリターンする。「有り」ならば
、ステップＳ１０１の直前に戻り、ループを形成し、ス
テップＳ１０１から、Ｓ１１２までの処理をくり返す。ステップＳ１００、Ｓ１０１、Ｓ１０２、Ｓ１１０、Ｓ
１１１、Ｓ１１２、Ｓ１１３は、実施例１の場合とまっ
たく同一であるが、この実施例で特有の部分は、ステッ
プＳ１０３から、Ｓ１０９までである。

【００３７】ステップＳ１０３で、得点が低くてＮＯの
場合は、ステップＳ１０４に移り、直前に分析した１文
字イメージに、次の１文字イメージを加え、新しい１文
字イメージとし、ステップＳ１０５で、この新しい１文
字イメージを文字認識処理装置２１に送り、文字認識処
理の開始を指令し、ステップＳ１０６で、認識結果を受
け取る。そして、ステップＳ１０７で、前回の認識結果
の得点と比較し、「高い」のであればそのままステップ
Ｓ１１０以降の処理に移る。「高くない」のであれば、
ステップＳ１０８で、１文字イメージとして追加した分
を取り消し、未分析のイメージと定義し直し、ステップ
Ｓ１０９で、前回受け取った認識結果を正式の認識結果
とする。それ以降はステップＳ１１０からの処理に移る
。

【００３８】ステップＳ１０８、Ｓ１０９の処理は、合
体した１文字イメージが必ずしも正しい１文字とは限ら
ない場合にそなえたものである。

【００３９】実施例１でも、実施例２でも文字認識バッ
ファ中のデータフォーマットは図５で示した形態である
。つまり、文字候補は必ず１文字だけだった。それに対
して、図１７は、文字切り出し方法の違いを考慮して、
ある文字の左半分のイメージ、右半分のイメージを別々
に文字認識した場合と、左半分と右半分を合体して文字
認識した場合のふたつの結果を、含んだ形にするための
フォーマット例である。この場合、「メ」と「リ」と分
析した候補と、「刈」と分析した候補が並置されている
。また、「女」と「子」の候補と、「女子」の候補も並
置されている。つまり、文字候補は、必ずしも１文字だ
けとは限らず、２文字である場合もある。この点が実施
例１、実施例２とは異なる。

【００４０】（実施例３）実施例１では、漢字仮名変換
は、音声出力する際に、文字認識結果テキストの漢字か
な混じり文を、読みだけの文にするために用いる例につ
いて述べたが、ここでは文字候補を含んだ認識結果テキ
ストの文字候補入れかえに用いる例について述べる。

【００４１】図１８は、この方法を用いた文字候補入れ
かえ処理プログラムを説明するためのフローチャートで
ある。なお、このプログラムは、実施例１の図９で説明
した文字認識指令プログラム中で、ステップＳ４２「後
処理プログラム起動」の直後に挿入された形で働く。

【００４２】起動されると、まずステップＳ１２０で、
漢字仮名変換を行い、読みだけの文章を得、ステップＳ
１２１で読みの二文節最長一致法で文節に区切る。ステ
ップＳ１２２で漢字１文字文節が連続した部分をサーチ
し、その結果、ステップＳ１２３で、「なし」であれば
、このプログラムからリターンする。「有り」ならば、
ステップＳ１２４で、その部分に、文字認識結果の文字
候補があるかチェックし、ＮＯであればステップＳ１２
９に飛び、次の漢字１文字文節が連続した部分をサーチ
して、ステップＳ１２３の直前に戻り、ループを形成す
る。ステップＳ１２４でＹＥＳの場合は、ステップＳ１
２５で、認識文字の第２候補を第１候補に変え、ステッ
プＳ１２６で、その前後の数文節分を読みの二文節最長
一致法で再度文節に区切る。その結果をステップＳ１２
７で漢字の１文字文節の連続がなくなったかチェックし
、ＹＥＳなら、ステップＳ１２９に飛ぶ。ＮＯなら、ス
テップＳ１２８で、文字認識候補の第２候補を第１候補
に戻し、以後、ステップＳ１２９の処理に移るが、これ
以降は前述の説明の通り。

【００４３】概説すれば、「漢字１文字文節が連続した
部分は、文字認識に失敗している」のではないか、と推
定して、文字候補の入れかえを行い、そして、再度分析
して、漢字１文字候補の連続がなくなった場合には、正
式に候補決定とするわけである。

【００４４】（実施例４）この実施例では、実施例３と
同様な文字認識の結果テキストに対する、後処理のもう
ひとつの例について述べる。

【００４５】この実施例では、テキスト中の、主語、述
語の関係、目的語、述語の関係をとらえ、誤った結びつ
きであると判断された場合は、ディスプレイ表示上のそ
の部分をアンダーライン表示する、と言うものである。一種の単純な日本語文章の意味処理と言えるものである
が、市販の各社のワープロでも、仮名漢字変換の同音語
決定に用いる一般的技術である。通常、「ＡＩ変換」、
「用例変換」と呼ばれ宣伝されている。

【００４６】図１９は、この意味処理プログラムを説明
するためのフローチャートである。このプログラムは、
実施例１の図９で説明した文字認識指令プログラム１０
−４のリターンの直前に挿入された形で働く。まず、ス
テップＳ１３０では、文節間で、主語、述語の結びつき
をサーチし、ステップＳ１３１で、主語、述語の結合規
則で不正な部分があれば、その部分を画像表示上４４、
結果表示上４５でアンダーライン表示する。そして、ス
テップＳ１３２で、文節間で目的語、述語の結びつきを
サーチし、ステップＳ１３３で目的語、述語の結合規則
で不正な部分があれば、その部分を、画像表示上４４、
結果表示上４５で、アンダーライン表示し、このプログ
ラムからリターンする。

【００４７】図２０は、図１９の意味処理プログラムで
不正であると判断された文の例である。

【００４８】（実施例５）この実施例では、音声出力を
聞いているユーザが「これは誤った文」と考えた場合に
、キーボードのＥＳＣキーをプッシュすると、ディスプ
レイ上に表示されている相当する文がアンダーライン表
示される、という例について述べる。図２１及び図２２
は、この実施例のために修正された音声合成プログラム
１０−６を示している。他の部分については、実施例１
と同一で良い。まず、ステップＳ１４０では、音声出力
領域が確定済みかチェックし、ＮＯなら、このプログラ
ムからリターンする、ＹＥＳならステップＳ１４１で音
声出力領域の最初の文を、音声合成バッファ７−３に取
り出し、ステップＳ１４２で漢字仮名変換で、かな読み
を得て、単語に区切り、ステップＳ１４３でアクセント
辞書によって単語ごとのアクセント情報を付加し、ステ
ップＳ１４４でイントネーション規則により、文全体の
イントネーションを整える。そして、ステップＳ１４５
で、音声合成装置２２が発声中かチェックし、発声が終
了しているのであれば、ステップＳ１４６に移り、読み
、アクセント、イントネーション情報を、音声合成装置
２２に送り、発声を指令する。その時、ステップＳ１４
７で、ユーザがキーボードからＥＳＣキーをプッシュし
たかチェックし、ＹＥＳなら、ステップＳ１５１で、発
声中の文を、画像表示４４、結果表示４５上で、アンダ
ーライン表示する。その後、ステップＳ１５２で、次の
文を、音声合成バッファ７−３に取り出し、ステップＳ
１５３で、“次の文”があったのかチェックし、ＮＯな
らそのまま、このプログラムからリターンする。ＹＥＳ
なら、ステップＳ１４２の直前に戻り、ステップＳ１４
２以下の処理をくり返す。ステップＳ１４７でＮＯなら
ば、ステップＳ１４８で、音声合成装置２２が発声中か
チェックし、ＹＥＳならステップＳ１４７の直前に戻り
、ＥＳＣキーのチェックをくり返す。ステップＳ１４８
でＮＯならば、ステップＳ１４９で２秒待ち、ステップ
Ｓ１５０で、ユーザからのＥＳＣキー入力をチェックす
る。ここでＹＥＳなら、ステップＳ１５１でのアンダー
ライン表示の処理を行い、あては前述の説明の通り、処
理が進む。ステップＳ１５０でＮＯの場合は、ステップ
Ｓ１５２に移り、“次の文”のセットを行って、あとは
前述の説明の通り処理が進む。

【００４９】ステップＳ１４９で、２秒待つ意味は、ひ
とつの文の発声と次の文の発声の間を、少なくとも２秒
あけるのと、その間に、ユーザが「不正」と判断して、
ＥＳＣキーを押した場合、直前に発声した文に「不正」
を示すアンダーラインを表示させるためのものである。もちろん、文の発声中でも、「不正」と判断できたなら
、ユーザは即ＥＳＣキーをプッシュして良い。ステップ
Ｓ１４７では、その判断をしている。

【００５０】

【発明の効果】以上説明したように、一連の文字認識作
業の中で、最も負荷のかかる、１文字イメージだけの文
字認識処理の部分を、別制御、別筐体として独立させ、
他の各処理は従来通りメインのマシン上で行うように分
離することにより、（１）メインのマシンは、低価格のパソコン、あるいは
ワークステーションで実行できる。（２）認識速度も、従来の２〜３倍の６０〜７０字／秒
が確保できる。（３）また、メインのマシン側の処理である、用紙上の
活字イメージの読み込みのプログラム、１文字イメージ
の切り出しプログラム、認識結果の評価と修正のプログ
ラム、テキスト表示のプログラム、等もユーザ側で、市
販ソフトを組み合み合わせるとか、あるいは、一部自作
する等、自由度がかなり広がる。（４）認識結果のテキストに対し、市販の音声出力装置
、ソフトウェアを付加して、スピーカ発声させれば、文
字認識結果を音声で確認できる。と言う効果がある。

【図面の簡単な説明】

【図１】実施例１のシステム構成図。

【図２】文字認識装置のシステム構成図。

【図３】画像データ及び認識結果データのフォーマット
例示図。

【図４】画面表示の例示図。

【図５】結果テキストのフォーマット例示図。

【図６】メインプログラムのフローチャート。

【図７】文字認識プログラムのフローチャート。

【図８】画像読み取りプログラムのフローチャート。

【図９】文字認識指令プログラムのフローチャート。

【図１０】文字切り出しプログラムのフローチャート。

【図１１】後処理プログラムのフローチャート。

【図１２】音声合成プログラムのフローチャート。

【図１３】保存プログラムのフローチャート。

【図１４】実施例２の文字きりだし処理の説明図。

【図１５】実施例２の文字切り出しプログラムのフロー
チャートの第１図。

【図１６】実施例２の文字切り出しプログラムのフロー
チャートの第２図。

【図１７】結果テキストフォーマットの第２の例示図。

【図１８】実施例３の文字候補入れ替え処理プログラム
のフローチャート。

【図１９】実施例４の意味処理プログラムのフローチャ
ート。

【図２０】意味処理で、不正と判断される文の例示図。

【図２１】実施例５の音声合成プログラムのフローチャ
ートの第１図。

【図２２】実施例５の音声合成プログラムのフローチャ
ートの第１図。

Claims

【特許請求の範囲】

【請求項１】　　画像情報を入力する入力手段、該画像
情報から文字の領域を切り出す切り出し手段、該切り出
される領域の画像情報の認識を行ない、文字情報として
導出する認識手段、該認識結果である文字情報を表示す
る表示手段、前記文字情報を音声として出力する音声出
力手段とを有することを特徴とする文書処理装置。
【請求項２】　　前記表示される文字情報を編集する編
集手段を有することを特徴とする請求項１に記載の文書
処理装置。
【請求項３】　　前記切り出し手段は、前記切り出され
る画像情報から文字情報を確からしさを表わす度数とと
もに複数個導出することを特徴とする請求項１に記載の
文書処理装置。
【請求項４】　　前記導出される複数個の文字情報の確
からしさを表わす度数が低い場合は、前記切り出される
領域を変更するよう制御する制御手段を有することを特
徴とする請求項１に記載の文書処理装置。
【請求項５】　　前記文書処理装置は、前記導出される
複数の文字情報を格納する手段と、前記格納手段に格納
される文字情報を漢字仮名変換する手段と、前記仮名変
換を行なうとより長い文節が得られる文字情報を選択す
る選択手段を有することを特徴とする請求項１に記載の
文書処理装置。
【請求項６】　　前記文書処理装置は、前記認識結果の
変更を指示する指示手段を有し、該指示手段によって指
示されたときに前記音声出力手段が出力している情報に
対応する文字情報に識別情報を付加して前記表示手段に
表示するよう制御する表示制御手段を有することを特徴
とする請求項１に記載の文書処理装置。
【請求項７】　　画像情報を入力し、該画像情報から文
字の領域を切り出し、該切り出される領域の画像情報の
認識を行ない、文字情報として導出し、該認識結果であ
る文字情報を表示し、前記文字情報を音声として出力す
ることを特徴とする文書処理方法。
【請求項８】　　前記表示される文字情報を編集するこ
とを特徴とする請求項７に記載の文書処理方法。
【請求項９】　　前記切り出される画像情報から文字情
報を確からしさを表わす度数とともに複数個導出するこ
とを特徴とする請求項７に記載の文書処理方法。
【請求項１０】　　前記導出される複数個の文字情報の
確からしさを表わす度数が低い場合は、前記切り出され
る領域を変更するよう制御することを特徴とする請求項
７に記載の文書処理方法。