JPH0877301A - 疑似2次元隠れマルコフモデルとn最良仮説を用いた劣化グレイスケール文書認識 - Google Patents
疑似2次元隠れマルコフモデルとn最良仮説を用いた劣化グレイスケール文書認識Info
- Publication number
- JPH0877301A JPH0877301A JP7185551A JP18555195A JPH0877301A JP H0877301 A JPH0877301 A JP H0877301A JP 7185551 A JP7185551 A JP 7185551A JP 18555195 A JP18555195 A JP 18555195A JP H0877301 A JPH0877301 A JP H0877301A
- Authority
- JP
- Japan
- Prior art keywords
- superstate
- path
- state
- pixel
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】 (修正有)
【目的】 グレイスケール画像上の劣化した連結テキス
トの認識方法。 【構成】 グレイスケール疑似2次元隠れマルコフモデ
ルHMMを用いて、文字やワードなどのテキスト要素を
含む画像を表す。画像に対する観測ベクトルは、グレイ
スケール光学式走査によって生成される。画素の特徴を
表すために、畳込み量子化グレイレベル、画素相対位
置、画素主ストローク方向の3つのコンポーネントが用
いられる。これらは、観測ベクトルとして構成され、こ
のベクトルは、本質的に連続し、各種フォントサイズが
一定であるうえに、各種量子化プロセスでの利用に対し
て融通性がある。このように、バイナリ化による情報落
ちや歪みが除去され、さらに、文書がバイナリの場合に
は(例えばファクス文書)、情報を失うことなく多重レ
ベルにサブサンプリングすることによって画像を圧縮す
ることができる。
トの認識方法。 【構成】 グレイスケール疑似2次元隠れマルコフモデ
ルHMMを用いて、文字やワードなどのテキスト要素を
含む画像を表す。画像に対する観測ベクトルは、グレイ
スケール光学式走査によって生成される。画素の特徴を
表すために、畳込み量子化グレイレベル、画素相対位
置、画素主ストローク方向の3つのコンポーネントが用
いられる。これらは、観測ベクトルとして構成され、こ
のベクトルは、本質的に連続し、各種フォントサイズが
一定であるうえに、各種量子化プロセスでの利用に対し
て融通性がある。このように、バイナリ化による情報落
ちや歪みが除去され、さらに、文書がバイナリの場合に
は(例えばファクス文書)、情報を失うことなく多重レ
ベルにサブサンプリングすることによって画像を圧縮す
ることができる。
Description
【0001】
【産業上の利用分野】本発明は、光学式テキスト認識に
関し、これをさらに詳細に述べると、文書の複製状態が
悪いなどの障害にも関わらず、文字またはワードを認識
するロバスト性に富んだ方法に関する。
関し、これをさらに詳細に述べると、文書の複製状態が
悪いなどの障害にも関わらず、文字またはワードを認識
するロバスト性に富んだ方法に関する。
【0002】
【従来の技術】動的プログラミング技法を用いた隠れマ
ルコフモデル(HMM)などの確率的モデルは、音声認
識の分野で広く利用されてきた。例えば、J.Wilp
on、L.Rabiner、C.LeeおよびE.Go
ldmanによる「Automatic Recogn
ition of Keywords in Unco
nstrained Speech Using Hi
dden MarkovModels(隠れマルコフモ
デルを用いた非拘束音声におけるキーボードの自動認
識」(IEEE Trans.Acoust.Spee
ch Signal Processing、1990
年11月号第38巻1870〜1878頁)と題する記
事を参照するとよい。また、音声認識に関する多くの問
題とよく似た問題が、光学的文字認識(OCR)にも見
られることも、これまでに認められてきた。したがっ
て、確率モデリングと動的プログラミングもこの目的に
使用されてきた。例えば、C.BoseならびにS.K
uoによる「Recognition of Degr
aded and Connected Text U
sing Hiden Markov Models
(隠れマルコフモデルによる劣化した連結テキストの認
識)」(Proc. of the 11th In
t. Conf on Pattern Recogn
ition、1992年)と題する記事(1991年1
2月23日に出願された米国特許07/813,225
および1992年11月24日に出願された米国特許0
7/981028)を参照。
ルコフモデル(HMM)などの確率的モデルは、音声認
識の分野で広く利用されてきた。例えば、J.Wilp
on、L.Rabiner、C.LeeおよびE.Go
ldmanによる「Automatic Recogn
ition of Keywords in Unco
nstrained Speech Using Hi
dden MarkovModels(隠れマルコフモ
デルを用いた非拘束音声におけるキーボードの自動認
識」(IEEE Trans.Acoust.Spee
ch Signal Processing、1990
年11月号第38巻1870〜1878頁)と題する記
事を参照するとよい。また、音声認識に関する多くの問
題とよく似た問題が、光学的文字認識(OCR)にも見
られることも、これまでに認められてきた。したがっ
て、確率モデリングと動的プログラミングもこの目的に
使用されてきた。例えば、C.BoseならびにS.K
uoによる「Recognition of Degr
aded and Connected Text U
sing Hiden Markov Models
(隠れマルコフモデルによる劣化した連結テキストの認
識)」(Proc. of the 11th In
t. Conf on Pattern Recogn
ition、1992年)と題する記事(1991年1
2月23日に出願された米国特許07/813,225
および1992年11月24日に出願された米国特許0
7/981028)を参照。
【0003】
【発明が解決しようとする課題】最先端技術を用いたO
CRのアルゴリズムは、通常、2層式画像(白い背景に
黒の文字)に基づいている。しかし、文書画像が2層式
であるという想定は、大抵の場合、正しくない。という
のは、第1に、現在の光学式スキャナは、グレイスケー
ル出力を行うからであり、第2に、文書の多くは本質的
にグレイレベルであるためである。例えば、印字テキス
トは、グレイレベルまたはカラー画像、あるいは、質感
のある背景に印字されている。さらに、通常、グレイレ
ベルの情報やノイズが収集プロセスの途中で加えられ
る。例えば、このグレイレベルの情報は、スキャナのポ
イントスプレッド機能によって生じるボケ効果によっ
て、あるいは、走査プロセスが劣悪な照度環境で行われ
た場合に、光学式出力に組み込まれる。このように、従
来技術の2値化プロセスがグレイレベル情報を含む文書
で行われた場合に、重大な劣化および/または情報落ち
が発生する可能性がある。テキストの光学的認識は、サ
イズがバラバラな文字や不鮮明な文書、あるいはゆがん
だ文字等の欠陥品の使用が障害になることが多い。した
がって、このような障害にもかかわらず、ロバスト性に
富んだ認識方法の改良が望まれている。
CRのアルゴリズムは、通常、2層式画像(白い背景に
黒の文字)に基づいている。しかし、文書画像が2層式
であるという想定は、大抵の場合、正しくない。という
のは、第1に、現在の光学式スキャナは、グレイスケー
ル出力を行うからであり、第2に、文書の多くは本質的
にグレイレベルであるためである。例えば、印字テキス
トは、グレイレベルまたはカラー画像、あるいは、質感
のある背景に印字されている。さらに、通常、グレイレ
ベルの情報やノイズが収集プロセスの途中で加えられ
る。例えば、このグレイレベルの情報は、スキャナのポ
イントスプレッド機能によって生じるボケ効果によっ
て、あるいは、走査プロセスが劣悪な照度環境で行われ
た場合に、光学式出力に組み込まれる。このように、従
来技術の2値化プロセスがグレイレベル情報を含む文書
で行われた場合に、重大な劣化および/または情報落ち
が発生する可能性がある。テキストの光学的認識は、サ
イズがバラバラな文字や不鮮明な文書、あるいはゆがん
だ文字等の欠陥品の使用が障害になることが多い。した
がって、このような障害にもかかわらず、ロバスト性に
富んだ認識方法の改良が望まれている。
【0004】
【課題を解決するための手段】ここでは、グレイスケー
ル画像による劣化した連結テキストの認識方法を開示し
ている。また、疑似2次元隠れマルコフモデル(PHM
M)により文字を表している。グレイスケール画像のた
めの観測ベクトルは、グレイスケール光学式走査によっ
て得られる画素マップから作成される。画素の特性を表
すために、畳込み量子化グレイレベルコンポーネント、
画素相対位置コンポーネント、および画素主ストローク
方向コンポーネントの3コンポーネントが使用されてい
る。以上のコンポーネントは、本質的に連続し、各種フ
ォントサイズが一定であり、さらに、各種量子化プロセ
スでの使用に柔軟に対応できる観測ベクトルとして構成
されている。このようにして、2値化プロセスによる情
報落ちや歪みがなくなるうえ、文書が本質的にバイナリ
であるような場合(例えば、ファクス文書)、2層画像
は、情報の損失を伴わずに多重(グレイ)レベルへのサ
ブサンプリングによって圧縮されるので、はるかに短い
時間で圧縮画像を認識することができるようになる。さ
らに、グレイレベルの文書は、性能を犠牲にしなくて
も、バイナリの場合に比べてはるかに低い解像度で走査
ならびに処理される。このため、処理速度が大幅に向上
する。
ル画像による劣化した連結テキストの認識方法を開示し
ている。また、疑似2次元隠れマルコフモデル(PHM
M)により文字を表している。グレイスケール画像のた
めの観測ベクトルは、グレイスケール光学式走査によっ
て得られる画素マップから作成される。画素の特性を表
すために、畳込み量子化グレイレベルコンポーネント、
画素相対位置コンポーネント、および画素主ストローク
方向コンポーネントの3コンポーネントが使用されてい
る。以上のコンポーネントは、本質的に連続し、各種フ
ォントサイズが一定であり、さらに、各種量子化プロセ
スでの使用に柔軟に対応できる観測ベクトルとして構成
されている。このようにして、2値化プロセスによる情
報落ちや歪みがなくなるうえ、文書が本質的にバイナリ
であるような場合(例えば、ファクス文書)、2層画像
は、情報の損失を伴わずに多重(グレイ)レベルへのサ
ブサンプリングによって圧縮されるので、はるかに短い
時間で圧縮画像を認識することができるようになる。さ
らに、グレイレベルの文書は、性能を犠牲にしなくて
も、バイナリの場合に比べてはるかに低い解像度で走査
ならびに処理される。このため、処理速度が大幅に向上
する。
【0005】文字は、数多くの超状態を有する(各超状
態は少なくとも1状態を有する)疑似2次元HMMによ
って表される。好ましい具体例では、このような超状態
は、ワード画像による垂直方向のスライスを表してい
る。レベル構築構造に組み込まれたビタビアルゴリズム
を用いて特定のPHMMがワード画像の所定部分を表す
確率を計算することによって、ワード画像とPHMMと
の比較が行われる。予想されるモデルの各表現は、仮説
として概念化される。N最良仮説探索は、継続時間の制
約と組み合わせて実行される。モデル用のパラメータ
は、複数のルーチンを処理して作成される。N最良仮説
探索と呼ばれる技法は、上記のすでに開発された方法と
共に有利に利用できる。また、この仮説探索は、N最良
認識仮説を一つだけでなく複数提供する。さらに、この
ような仮説に後処理機能を課すことによって、認識率は
大幅に改善される。探索プロセスにおいて継続時間の制
約を用いることにより、前述の方法の効果が向上する。
この発明の前記およびそれ以外の諸相は、添付図面と実
施例から明白になるであろう。尚、文章中以下の記述が
採用されていることに注意されたい。
態は少なくとも1状態を有する)疑似2次元HMMによ
って表される。好ましい具体例では、このような超状態
は、ワード画像による垂直方向のスライスを表してい
る。レベル構築構造に組み込まれたビタビアルゴリズム
を用いて特定のPHMMがワード画像の所定部分を表す
確率を計算することによって、ワード画像とPHMMと
の比較が行われる。予想されるモデルの各表現は、仮説
として概念化される。N最良仮説探索は、継続時間の制
約と組み合わせて実行される。モデル用のパラメータ
は、複数のルーチンを処理して作成される。N最良仮説
探索と呼ばれる技法は、上記のすでに開発された方法と
共に有利に利用できる。また、この仮説探索は、N最良
認識仮説を一つだけでなく複数提供する。さらに、この
ような仮説に後処理機能を課すことによって、認識率は
大幅に改善される。探索プロセスにおいて継続時間の制
約を用いることにより、前述の方法の効果が向上する。
この発明の前記およびそれ以外の諸相は、添付図面と実
施例から明白になるであろう。尚、文章中以下の記述が
採用されていることに注意されたい。
【表1】
【0006】
【実施例】本発明によって認識されるワード画像は、通
常、ページ上に本文および図から成る大きい面積を占め
る主要部分の一部である。本発明を説明するに当たり、
ページは光学的に走査され、かつ認識対象となるワード
画像が従来のグレイレベルラスタ走査によって生成され
る一連の画素として把握されたものとする。このような
動作を実行する技術には、当業者によく知られているも
のがかなりある。例えば、「Proceedings
of the IAPR Workshopon Sy
ntactic and Structural Pa
tternRecognition(構文および構造パ
ターン認識に関するIAPRセミナーの議事録)」(1
988年9月、フランス)のH.Bairdによる「G
lobal−to−local analysis(全
体的分析から局所的分析)」の記事と、「Procee
dings of the 8th Internat
ional Conference on Patte
rn Recognition(第8回パターン認識国
際会議議事録)」(1986年10月、パリ)のS.S
rihariおよびG.Zackによる「Docume
nt Image Analysis(文書画像分
析)」の記事を参照するとよい。このような既知の文字
に対する画素シーケンスを用いて、文字を表すHMMを
「トレーニング」する。したがって、以下に詳細に説明
するように、未知の文字列に対する画素シーケンスとモ
デルの比較が行われ、モデルがこのような未知の文字列
を表している確率を判断する。
常、ページ上に本文および図から成る大きい面積を占め
る主要部分の一部である。本発明を説明するに当たり、
ページは光学的に走査され、かつ認識対象となるワード
画像が従来のグレイレベルラスタ走査によって生成され
る一連の画素として把握されたものとする。このような
動作を実行する技術には、当業者によく知られているも
のがかなりある。例えば、「Proceedings
of the IAPR Workshopon Sy
ntactic and Structural Pa
tternRecognition(構文および構造パ
ターン認識に関するIAPRセミナーの議事録)」(1
988年9月、フランス)のH.Bairdによる「G
lobal−to−local analysis(全
体的分析から局所的分析)」の記事と、「Procee
dings of the 8th Internat
ional Conference on Patte
rn Recognition(第8回パターン認識国
際会議議事録)」(1986年10月、パリ)のS.S
rihariおよびG.Zackによる「Docume
nt Image Analysis(文書画像分
析)」の記事を参照するとよい。このような既知の文字
に対する画素シーケンスを用いて、文字を表すHMMを
「トレーニング」する。したがって、以下に詳細に説明
するように、未知の文字列に対する画素シーケンスとモ
デルの比較が行われ、モデルがこのような未知の文字列
を表している確率を判断する。
【0007】図1は、本発明による文字hに関する疑似
2次元HMMの状態図200を付記した文字hの画素マ
ップ100である。モデルは、画素マップの垂直グレイ
スケールラスタ走査の結果生じる一連の状態を示してい
ることから、「トップダウン、レフトライト」モデルと
いう名称を持っている。また、エルゴート的でない、す
なわち、完全に接続された2次元ネットワークではない
ことから、「疑似」2次元モデルと呼ばれる。
2次元HMMの状態図200を付記した文字hの画素マ
ップ100である。モデルは、画素マップの垂直グレイ
スケールラスタ走査の結果生じる一連の状態を示してい
ることから、「トップダウン、レフトライト」モデルと
いう名称を持っている。また、エルゴート的でない、す
なわち、完全に接続された2次元ネットワークではない
ことから、「疑似」2次元モデルと呼ばれる。
【0008】状態図200には、5つの「超状態」21
0〜214が示されている。このような超状態は、それ
ぞれ、画素マップ100における5つの垂直領域110
〜114に対応している。ただし、領域110〜114
のうちの所定の1領域における画素のすべてのカラム
は、いずれも同じ数の画素を有している。各超状態21
0〜214に、画素マップ内の対応する領域のカラムに
可能な各種垂直方向の「状態」が示されている。例え
ば、超状態211は、それぞれ領域111のローにおけ
る白、黒、白の画素を表す3つの状態220〜222を
有している。ただし、「白い画素」と「黒い画素」は例
示を行う目的により記載されていることはいうまでもな
い。このような画素は、任意に選択されたグレイレベル
を表すことも可能である。230および231などの矢
印により、超状態間での遷移が可能であることが示され
ている。232のような矢印は、ある一定の超状態から
その状態自身への遷移が可能であることを示している。
同様に、240および241の矢印によって状態間の遷
移が示されており、242の矢印によって同じ状態への
遷移が示されている。状態図200によって示されるモ
デル構造の別の案は、水平スライスを表した超状態を用
いたモデルである。
0〜214が示されている。このような超状態は、それ
ぞれ、画素マップ100における5つの垂直領域110
〜114に対応している。ただし、領域110〜114
のうちの所定の1領域における画素のすべてのカラム
は、いずれも同じ数の画素を有している。各超状態21
0〜214に、画素マップ内の対応する領域のカラムに
可能な各種垂直方向の「状態」が示されている。例え
ば、超状態211は、それぞれ領域111のローにおけ
る白、黒、白の画素を表す3つの状態220〜222を
有している。ただし、「白い画素」と「黒い画素」は例
示を行う目的により記載されていることはいうまでもな
い。このような画素は、任意に選択されたグレイレベル
を表すことも可能である。230および231などの矢
印により、超状態間での遷移が可能であることが示され
ている。232のような矢印は、ある一定の超状態から
その状態自身への遷移が可能であることを示している。
同様に、240および241の矢印によって状態間の遷
移が示されており、242の矢印によって同じ状態への
遷移が示されている。状態図200によって示されるモ
デル構造の別の案は、水平スライスを表した超状態を用
いたモデルである。
【0009】ある状態から別の状態あるいは同じ状態へ
の遷移が行われる全確率の合計は、1に等しくなくては
ならない。例えば、遷移の確率は、矢印230、23
1、および232で示される状態210からの各遷移と
対応づけられている。ある状態から別の状態へ遷移する
確率の合計は、画素数で測定された状態の継続時間の逆
数である。したがって、画素マップのラスタ走査におけ
るグレイレベルのセグメントの長さは、対応する遷移確
率によって示されている。つまり、長いセグメントは、
次の状態への遷移確率が低い状態に対応し、短いセグメ
ントは、遷移確率の高い状態に対応している。これと同
じ原理が超状態にも当てはまる。また、ノイズがある
と、特定のグレイレベルを有する画素を観測する確率に
影響する。テキスト要素の観測結果は、この画素に基づ
いている。この種の観測結果は、画素のグレイレベルの
特性に基づいており、他の種類の観測結果は、遷移また
は位置情報などの追加情報を含むことができる。このよ
うな追加情報が含まれている場合、各観測結果は、異な
る複数のコンポーネントを表すベクトル量になることが
ある。このような観測ベクトルの例について以下に説明
する。
の遷移が行われる全確率の合計は、1に等しくなくては
ならない。例えば、遷移の確率は、矢印230、23
1、および232で示される状態210からの各遷移と
対応づけられている。ある状態から別の状態へ遷移する
確率の合計は、画素数で測定された状態の継続時間の逆
数である。したがって、画素マップのラスタ走査におけ
るグレイレベルのセグメントの長さは、対応する遷移確
率によって示されている。つまり、長いセグメントは、
次の状態への遷移確率が低い状態に対応し、短いセグメ
ントは、遷移確率の高い状態に対応している。これと同
じ原理が超状態にも当てはまる。また、ノイズがある
と、特定のグレイレベルを有する画素を観測する確率に
影響する。テキスト要素の観測結果は、この画素に基づ
いている。この種の観測結果は、画素のグレイレベルの
特性に基づいており、他の種類の観測結果は、遷移また
は位置情報などの追加情報を含むことができる。このよ
うな追加情報が含まれている場合、各観測結果は、異な
る複数のコンポーネントを表すベクトル量になることが
ある。このような観測ベクトルの例について以下に説明
する。
【0010】ここに記載する好ましい具体例に使用して
いる疑似2次元隠れマルコフモデルは、文字の継続時間
確率と呼ばれるコンセプトを採用している。文字D
(x)の継続時間確率は、D(x)=P(m=x)によ
って得られる。ただし、mはカラム単位で指定される。
同様に、超状態Ds:{Di:O≦iN sub V;}
の継続時間確率は、Di(x)=P(m=x)として定
義されている。ただし、mは、超状態iの継続時間であ
り、カラム単位で指定される。状態Dj/s={Dj/
1|O≦i≦Nj}の継続時間は、Dj/i=P(m=
x)として定義される。ただし、mは、超状態j内の状
態iの継続時間であり、mは、画素単位である。
いる疑似2次元隠れマルコフモデルは、文字の継続時間
確率と呼ばれるコンセプトを採用している。文字D
(x)の継続時間確率は、D(x)=P(m=x)によ
って得られる。ただし、mはカラム単位で指定される。
同様に、超状態Ds:{Di:O≦iN sub V;}
の継続時間確率は、Di(x)=P(m=x)として定
義されている。ただし、mは、超状態iの継続時間であ
り、カラム単位で指定される。状態Dj/s={Dj/
1|O≦i≦Nj}の継続時間は、Dj/i=P(m=
x)として定義される。ただし、mは、超状態j内の状
態iの継続時間であり、mは、画素単位である。
【0011】基本的な疑似2次元隠れマルコフモデルを
表すうえで用いられるデータ構造は、以下の要素により
構成されている。 超状態数(Nv) 超状態の初期確率(IIv) 超状態遷移確率(Av) 文字の継続時間確率D(x) 各超状態に対しては、 超状態内の状態数(Nh) 状態の初期確率(IIh) 超状態内の状態遷移確率(Ah) 超状態の継続時間確率Di(x) 超状態内の各状態の観測確率(Bh) ならびに各状態に対しては、 状態の継続時間確率Dj/i
表すうえで用いられるデータ構造は、以下の要素により
構成されている。 超状態数(Nv) 超状態の初期確率(IIv) 超状態遷移確率(Av) 文字の継続時間確率D(x) 各超状態に対しては、 超状態内の状態数(Nh) 状態の初期確率(IIh) 超状態内の状態遷移確率(Ah) 超状態の継続時間確率Di(x) 超状態内の各状態の観測確率(Bh) ならびに各状態に対しては、 状態の継続時間確率Dj/i
【0012】観測ベクトルOxyは、座標(x,y)にお
いて各画素ごとに定義される。観測ベクトルOxyには、
3つのコンポーネントがあり、観測ベクトルの第1コン
ポーネントOsubbxy1は、次のように計算される。
いて各画素ごとに定義される。観測ベクトルOxyには、
3つのコンポーネントがあり、観測ベクトルの第1コン
ポーネントOsubbxy1は、次のように計算される。
【数1】 ただし、mi,jは、(i,j)における画素のグレイレ
ベルであり、cxyは、図5に示されている3画素核によ
る3つの画素から得られたものとする。この核は、図4
に示すように、画素に重み係数を適用する。すなわち、
図4の核は、画素の配列から構成される全体画像につい
て効果的な畳込みを行っている。畳込みの目的は、ノイ
ズによって発生するグレイレベルの値に対する不規則性
の影響を削減することにある。周囲の画素も、中心部の
画素の特徴評価の一助となっている。その結果得られる
画素のグレイレベルの値(0〜255)は、100レベ
ルに量子化される。
ベルであり、cxyは、図5に示されている3画素核によ
る3つの画素から得られたものとする。この核は、図4
に示すように、画素に重み係数を適用する。すなわち、
図4の核は、画素の配列から構成される全体画像につい
て効果的な畳込みを行っている。畳込みの目的は、ノイ
ズによって発生するグレイレベルの値に対する不規則性
の影響を削減することにある。周囲の画素も、中心部の
画素の特徴評価の一助となっている。その結果得られる
画素のグレイレベルの値(0〜255)は、100レベ
ルに量子化される。
【0013】Oxyの第2コンポーネントは、カラム内の
各画素の相対位置である。文書のレイアウト分析を行っ
た後、ベースラインの位置とトップラインおよびベース
ライン間の違いが既知であるものとする(トップライン
500およびベースライン502の定義については、図
5を参照)。第2コンポーネントの実効値は、次の式に
より求められる。第2コンポーネント=特徴画素からベ
ースライン502までの距離(画素単位)//トップラ
イン500からベースライン502までの距離
各画素の相対位置である。文書のレイアウト分析を行っ
た後、ベースラインの位置とトップラインおよびベース
ライン間の違いが既知であるものとする(トップライン
500およびベースライン502の定義については、図
5を参照)。第2コンポーネントの実効値は、次の式に
より求められる。第2コンポーネント=特徴画素からベ
ースライン502までの距離(画素単位)//トップラ
イン500からベースライン502までの距離
【0014】さらに、50レベルに量子化される。この
値は、g、p、q等のベースラインより下にある部分に
対しては、当然、マイナスとなる。この特徴は、印字文
字のポイントサイズに関わらず、カラム内の各画素の位
置を示している。このように、前記特徴は、異なるアプ
リケーションにおいて一層ロバスト性が強化される。O
xyの第3コンポーネントの値は、画素が存在する主スト
ロークの方向である。全体の画像は、「特許認可」19
86年第19巻p.41〜47のJ.Kittlerお
よびJ.Illingworthによる「minimu
m error thresholding(最小誤り
スレッショルド)」にはるかに詳細に述べられているス
レッショルドのプロセスを必要とする。各画素ごとに、
(連続した黒い画素による)ストロークの長さが、0
°、45°、90°、135°の4方向に計算され、主
ストローク方向として、その画素を通過する最長ストロ
ークが選択される。第5番目の「方向」は、背景画素を
対象としており、方向またはストロークを対象にした定
義は一切ない。このため、Oxyには、5つの別個のコン
ポーネント値がある。
値は、g、p、q等のベースラインより下にある部分に
対しては、当然、マイナスとなる。この特徴は、印字文
字のポイントサイズに関わらず、カラム内の各画素の位
置を示している。このように、前記特徴は、異なるアプ
リケーションにおいて一層ロバスト性が強化される。O
xyの第3コンポーネントの値は、画素が存在する主スト
ロークの方向である。全体の画像は、「特許認可」19
86年第19巻p.41〜47のJ.Kittlerお
よびJ.Illingworthによる「minimu
m error thresholding(最小誤り
スレッショルド)」にはるかに詳細に述べられているス
レッショルドのプロセスを必要とする。各画素ごとに、
(連続した黒い画素による)ストロークの長さが、0
°、45°、90°、135°の4方向に計算され、主
ストローク方向として、その画素を通過する最長ストロ
ークが選択される。第5番目の「方向」は、背景画素を
対象としており、方向またはストロークを対象にした定
義は一切ない。このため、Oxyには、5つの別個のコン
ポーネント値がある。
【0015】疑似2次元HMMは、2次元のゆがみを考
慮に入れているため、モデルのロバスト性が大幅に向上
していることから、弾性のテンプレートとして考えるこ
とができる。例えば、ファクシミリによる送信中によく
起きるような垂直のゆがみは、本発明による方法によっ
て調整可能である。疑似2次元2HMMの状態図におい
て、状態間のトップからボトムへの遷移のみが許可され
(例えば、矢印241で示されるように、1状態をスキ
ップすることもあり得る)、超状態間の左から右への遷
移のみが許可される(例えば、矢印231で示されるよ
うに、1超状態をスキップすることもあり得る)。上記
の通り、文字が不鮮明の場合、あるいは、異なる文字フ
ォントが使用されている場合は、スキップされた状態が
発生することがある。本発明では、スキップを行う状態
および/または超状態が全く起こり得ないものと想定し
ている。
慮に入れているため、モデルのロバスト性が大幅に向上
していることから、弾性のテンプレートとして考えるこ
とができる。例えば、ファクシミリによる送信中によく
起きるような垂直のゆがみは、本発明による方法によっ
て調整可能である。疑似2次元2HMMの状態図におい
て、状態間のトップからボトムへの遷移のみが許可され
(例えば、矢印241で示されるように、1状態をスキ
ップすることもあり得る)、超状態間の左から右への遷
移のみが許可される(例えば、矢印231で示されるよ
うに、1超状態をスキップすることもあり得る)。上記
の通り、文字が不鮮明の場合、あるいは、異なる文字フ
ォントが使用されている場合は、スキップされた状態が
発生することがある。本発明では、スキップを行う状態
および/または超状態が全く起こり得ないものと想定し
ている。
【0016】ビタビアルゴリズムは、ある特定のHMM
が一連の観測に対して一致する確率を計算する際に利用
可能な周知の動的プログラミング法である。このアルゴ
リズムは、例えば、「Proceedings of
the IEEE(IEEE議事録)」1989年2月
号第77巻pp.257〜286に記載されているL.
Rabinerによる「A Tutorial on
Hidden Markov Models and
Selected Applicationsin S
peech Recognition(音声認識におけ
る隠れマルコフモデルと選択アプリケーションに関する
論文)」と題する記事に説明されている通り、音声認識
に広く使用されている。また、上記の本願の譲受人に譲
渡された米国特許第07/813,225に記載されて
いるように、ビタビアルゴリズムは、テキスト認識にも
使用されてきた。
が一連の観測に対して一致する確率を計算する際に利用
可能な周知の動的プログラミング法である。このアルゴ
リズムは、例えば、「Proceedings of
the IEEE(IEEE議事録)」1989年2月
号第77巻pp.257〜286に記載されているL.
Rabinerによる「A Tutorial on
Hidden Markov Models and
Selected Applicationsin S
peech Recognition(音声認識におけ
る隠れマルコフモデルと選択アプリケーションに関する
論文)」と題する記事に説明されている通り、音声認識
に広く使用されている。また、上記の本願の譲受人に譲
渡された米国特許第07/813,225に記載されて
いるように、ビタビアルゴリズムは、テキスト認識にも
使用されてきた。
【0017】 ビタビアルゴリズムによれば、各観測ご
とに、HMMの各状態における確率δが計算され、その
結果、通常、確率の「トレリス」と呼ばれるNxT配列
となる。ただし、Nは状態数であり、Tはシーケンスに
おける観測数とする。シーケンスの最後の観測後のこの
ような最高確率P*は、この一連の観測に関しては、H
MMの「点数」として用いられる。また、モデルにより
最良のパスを判断するための状態シーケンスのトラッキ
ングプロセスは、セグメンテーションとして知られてい
る。複数のアプリケーションに対して、実際の状態シー
ケンスが復元できるようにバックポインタの配列も維持
される。説明を簡単にするため、本書を通じて用いられ
る用語「状態」は、状態および/または超状態を指すも
のとする。すべてのT観測が明らかになった後、HMM
の最終確率が選択され、次に示す最後の観測後に計算さ
れる最大確率となる。
とに、HMMの各状態における確率δが計算され、その
結果、通常、確率の「トレリス」と呼ばれるNxT配列
となる。ただし、Nは状態数であり、Tはシーケンスに
おける観測数とする。シーケンスの最後の観測後のこの
ような最高確率P*は、この一連の観測に関しては、H
MMの「点数」として用いられる。また、モデルにより
最良のパスを判断するための状態シーケンスのトラッキ
ングプロセスは、セグメンテーションとして知られてい
る。複数のアプリケーションに対して、実際の状態シー
ケンスが復元できるようにバックポインタの配列も維持
される。説明を簡単にするため、本書を通じて用いられ
る用語「状態」は、状態および/または超状態を指すも
のとする。すべてのT観測が明らかになった後、HMM
の最終確率が選択され、次に示す最後の観測後に計算さ
れる最大確率となる。
【数2】 ただし、P*に関連した最終状態は、以下の通りであ
る。
る。
【数3】 通常、このような状態は、状態Nである。しかし、最終
観測後の最大観測が状態N以外の状態と関連している場
合もある。音声処理や文字認識のようなHMMのアプリ
ケーションの中には、最大確率ではなく、HMMの確率
として最終観測後に状態Nについて計算された確率を用
いる場合に選択されるものもある。疑似2次元HMMに
は、超状態および各超状態内の状態に対し、ビタビアル
ゴリズムが繰り返し用いられる。したがって、このよう
なPHMMは、真の2次元ではなく、入れ子型1次元モ
デルとして扱われる。
観測後の最大観測が状態N以外の状態と関連している場
合もある。音声処理や文字認識のようなHMMのアプリ
ケーションの中には、最大確率ではなく、HMMの確率
として最終観測後に状態Nについて計算された確率を用
いる場合に選択されるものもある。疑似2次元HMMに
は、超状態および各超状態内の状態に対し、ビタビアル
ゴリズムが繰り返し用いられる。したがって、このよう
なPHMMは、真の2次元ではなく、入れ子型1次元モ
デルとして扱われる。
【0018】図2は、ワード画像の画素マップを本発明
による一連の疑似2次元HMMと比較するためのプログ
ラムされたコンピュータの動作を示すフローチャートで
あり、図中、超状態は垂直スライスを表している。ステ
ップ300〜307は、メインルーチンを示しており、
このルーチンでは、ビタビアルゴリズムを用いて、ある
特定のカラムの画素が特定の超状態に所属している確率
P*から画像のセグメントの最大確率を計算する。メイ
ンルーチンのステップ301および304は、各々ステ
ップ310〜318に示すサブルーチンを用い、このサ
ブルーチンでは、各コラムごとに、このような確率P*
を計算するための各超状態のビタビアルゴリズムを用い
る。画素マップを形成する観測とHMMの各種パラメー
タが、計算を行うコンピュータの適正なメモリ領域に記
憶されているものとする。
による一連の疑似2次元HMMと比較するためのプログ
ラムされたコンピュータの動作を示すフローチャートで
あり、図中、超状態は垂直スライスを表している。ステ
ップ300〜307は、メインルーチンを示しており、
このルーチンでは、ビタビアルゴリズムを用いて、ある
特定のカラムの画素が特定の超状態に所属している確率
P*から画像のセグメントの最大確率を計算する。メイ
ンルーチンのステップ301および304は、各々ステ
ップ310〜318に示すサブルーチンを用い、このサ
ブルーチンでは、各コラムごとに、このような確率P*
を計算するための各超状態のビタビアルゴリズムを用い
る。画素マップを形成する観測とHMMの各種パラメー
タが、計算を行うコンピュータの適正なメモリ領域に記
憶されているものとする。
【0019】メインルーチンの開始時点で、第1カラム
の観測がアドレス指定される(ステップ300)。その
後、このような観測を用いてサブルーチン(ステップ3
10〜318)が実行される。このようなサブルーチン
の開始と同時に、第1超状態に対するHMM状態パラメ
ータNv、πv、Av、Bvがアドレス指定され(ステップ
310)、さらに現行カラムの第1観測が検索され(ス
テップ311)、次式により適正なパラメータπvおよ
びBvを用いて、超状態の初期状態確率が計算される。
の観測がアドレス指定される(ステップ300)。その
後、このような観測を用いてサブルーチン(ステップ3
10〜318)が実行される。このようなサブルーチン
の開始と同時に、第1超状態に対するHMM状態パラメ
ータNv、πv、Av、Bvがアドレス指定され(ステップ
310)、さらに現行カラムの第1観測が検索され(ス
テップ311)、次式により適正なパラメータπvおよ
びBvを用いて、超状態の初期状態確率が計算される。
【数4】 ただし、Nは状態数に等しく、πiは初期状態が状態i
である確率に等しく、biは状態iにおける所定の観測
確率に等しく、O1は実際の初期観測に等しい。現行ロ
ーにおける次の観測が検索され(ステップ313)、適
正なパラメータN h、Ah、およびBhと次式を用いて次
の状態確率セットが計算される(ステップ314)。
である確率に等しく、biは状態iにおける所定の観測
確率に等しく、O1は実際の初期観測に等しい。現行ロ
ーにおける次の観測が検索され(ステップ313)、適
正なパラメータN h、Ah、およびBhと次式を用いて次
の状態確率セットが計算される(ステップ314)。
【数5】 ただし、Tは観測数に等しく、aijは状態iから状態j
への遷移確率に等しい。この等式により、各状態を通過
する最良のパスが創出される。ローにおける最後の観測
(ステップ315)後、このようなカラムと現行超状態
の確率P*は、カラムの最終状態に対して計算された最
後の確率であり、最終観測(ステップ316)後に計算
された最大確率ではない。しかし、P*およびqt*に
ついての等式と共に上に説明した通り、最終観測後に最
終状態について計算された確率は、通常、最大確率とな
る。任意の後処理ステップ(ステップ317)が示され
ているが、このステップは、以下に述べるように、本発
明の方法に対する各種の改善に利用可能である。
への遷移確率に等しい。この等式により、各状態を通過
する最良のパスが創出される。ローにおける最後の観測
(ステップ315)後、このようなカラムと現行超状態
の確率P*は、カラムの最終状態に対して計算された最
後の確率であり、最終観測(ステップ316)後に計算
された最大確率ではない。しかし、P*およびqt*に
ついての等式と共に上に説明した通り、最終観測後に最
終状態について計算された確率は、通常、最大確率とな
る。任意の後処理ステップ(ステップ317)が示され
ているが、このステップは、以下に述べるように、本発
明の方法に対する各種の改善に利用可能である。
【0020】さらに多くの超状態がある場合(ステップ
318)、次の超状態の状態パラメータのアドレス指定
が行われ(ステップ319)、現行カラムと次の超状態
に対してステップ311〜318が繰り返される。この
ため、サブルーチンは、現行カラムと各超状態に対して
確率P*を返す。ステップ301で開始したサブルーチ
ンから出ると、観測Oxyのこのような返された確率P*
を用いて、HMM超状態パラメータπv、Bv、および等
式(1)から初期の確率が計算される(ステップ30
2)。さらに、次のカラムがアドレス指定され(ステッ
プ303)、サブルーチンが繰り返され(ステップ30
4)、等式(3)、適正なHMMパラメータNv、Av、
Bv、および観測Oxyに対してサブルーチンによって返
された確率P*を用いて、次の超状態確率セットを計算
することにより、超状態の最良パスを延長する(ステッ
プ305)。さらに多くのローがある場合(ステップ3
06)、次のローに対し、ステップ303、304、お
よび305が繰り返される。最後に、最終ローの後で、
HMMが比較されているテキスト要素を表す最終尤度点
数が、最終超状態に対して評価された最終確率となる
(ステップ307)。さらに、これから説明される改良
を目的とした任意の後処理ステップ(ステップ308)
が示されている。上記の方法が、超状態が水平スライス
を表しているHMMにも利用可能なことは、明らかであ
る。そのような場合、「カラム」への参照は、「ロー」
への参照で置き換えることができる。
318)、次の超状態の状態パラメータのアドレス指定
が行われ(ステップ319)、現行カラムと次の超状態
に対してステップ311〜318が繰り返される。この
ため、サブルーチンは、現行カラムと各超状態に対して
確率P*を返す。ステップ301で開始したサブルーチ
ンから出ると、観測Oxyのこのような返された確率P*
を用いて、HMM超状態パラメータπv、Bv、および等
式(1)から初期の確率が計算される(ステップ30
2)。さらに、次のカラムがアドレス指定され(ステッ
プ303)、サブルーチンが繰り返され(ステップ30
4)、等式(3)、適正なHMMパラメータNv、Av、
Bv、および観測Oxyに対してサブルーチンによって返
された確率P*を用いて、次の超状態確率セットを計算
することにより、超状態の最良パスを延長する(ステッ
プ305)。さらに多くのローがある場合(ステップ3
06)、次のローに対し、ステップ303、304、お
よび305が繰り返される。最後に、最終ローの後で、
HMMが比較されているテキスト要素を表す最終尤度点
数が、最終超状態に対して評価された最終確率となる
(ステップ307)。さらに、これから説明される改良
を目的とした任意の後処理ステップ(ステップ308)
が示されている。上記の方法が、超状態が水平スライス
を表しているHMMにも利用可能なことは、明らかであ
る。そのような場合、「カラム」への参照は、「ロー」
への参照で置き換えることができる。
【0021】HMMに用いられる計算の多くは、複合的
な確率の積の計算を含んでいる。大抵の場合、そのよう
な計算は対数形式に変換した方が便利であり好ましい。
このような計算に対数を用いた場合、数値精度に関する
問題を回避するだけでなく、積を和に簡素化し、他方で
未知数を各種モデルと比較して最適モデルを見つけ出す
場合に必要となる相対値の関係を維持する働きをする。
な確率の積の計算を含んでいる。大抵の場合、そのよう
な計算は対数形式に変換した方が便利であり好ましい。
このような計算に対数を用いた場合、数値精度に関する
問題を回避するだけでなく、積を和に簡素化し、他方で
未知数を各種モデルと比較して最適モデルを見つけ出す
場合に必要となる相対値の関係を維持する働きをする。
【0022】パラメータπ、A、およびBの見積りは、
「AT&T Tech J.(AT&T技術ジャーナ
ル)」1986年5月号第65巻pp.21〜36に記
載されているL.Rabiner、J.Wilpon、
およびB.Juangによる「A Segmental
K−Means Training Procedu
re for Connected Word Rec
ognition Based on Whole W
ord Reference Patterns(ワー
ド全体参照パターンに基づく連結ワード認識のためのセ
グメント型k平均トレーニング法)」と題する記事に説
明されているセグメント型k平均アルゴリズムを用い
て、疑似2次元HMMに対して行われる。図3は、疑似
2次元HMMを生成する手順を示すフローチャートであ
る。まず初めに、モデルの構造、すなわち、超状態およ
び各超状態中の状態の数が決定される(ステップ35
0)。これは、画素マップを生成するHMMによって表
されるテキスト要素の明確に定義されたサンプルのグレ
イレベル走査を行い、画素マップの各ローにおける遷移
をカウントし、さらに、同数の遷移および似ているが必
ずしも同一でないグレイレベルの画素を有する隣接ロー
をグループ化することによって実行できる。したがっ
て、各グループは超状態に対応し、グループ内のローに
おける遷移数は超状態内の状態数より小さい数に相当す
る。例えば、図1の画素マップ100について再度説明
すると、領域112の2つの隣接カラムには、それぞ
れ、2つの遷移と同数の黒および白の画素があり、3つ
の状態を有する超状態に対応している。領域113のカ
ラムにも2つの遷移が含まれているが、領域111のカ
ラムと比べて非常に異なった数の黒および白の画素を有
しており、領域113のカラムは領域独自の超状態を形
成している。
「AT&T Tech J.(AT&T技術ジャーナ
ル)」1986年5月号第65巻pp.21〜36に記
載されているL.Rabiner、J.Wilpon、
およびB.Juangによる「A Segmental
K−Means Training Procedu
re for Connected Word Rec
ognition Based on Whole W
ord Reference Patterns(ワー
ド全体参照パターンに基づく連結ワード認識のためのセ
グメント型k平均トレーニング法)」と題する記事に説
明されているセグメント型k平均アルゴリズムを用い
て、疑似2次元HMMに対して行われる。図3は、疑似
2次元HMMを生成する手順を示すフローチャートであ
る。まず初めに、モデルの構造、すなわち、超状態およ
び各超状態中の状態の数が決定される(ステップ35
0)。これは、画素マップを生成するHMMによって表
されるテキスト要素の明確に定義されたサンプルのグレ
イレベル走査を行い、画素マップの各ローにおける遷移
をカウントし、さらに、同数の遷移および似ているが必
ずしも同一でないグレイレベルの画素を有する隣接ロー
をグループ化することによって実行できる。したがっ
て、各グループは超状態に対応し、グループ内のローに
おける遷移数は超状態内の状態数より小さい数に相当す
る。例えば、図1の画素マップ100について再度説明
すると、領域112の2つの隣接カラムには、それぞ
れ、2つの遷移と同数の黒および白の画素があり、3つ
の状態を有する超状態に対応している。領域113のカ
ラムにも2つの遷移が含まれているが、領域111のカ
ラムと比べて非常に異なった数の黒および白の画素を有
しており、領域113のカラムは領域独自の超状態を形
成している。
【0023】各文字モデルの超状態および状態数は、画
像トポロジによって決定される。まず初めに、画像の初
期ブロックとして原始カラムが使用され、次に、最高相
互相関係数を有する2つの隣接ブロックがグループ化さ
れて、1つの大きいブロックになる。所定数のブロック
だけが残るまで、あるいは、ある一定の相関係数の点数
しきい値に達するまで、上記した同一のグループ化プロ
セスが繰り返される。例えば、最終ブロック数は、文字
トポロジを調べることによって判断可能であり、グルー
プ化プロセスが開始する前に取得できる。このようなカ
ラムの垂直ブロックが形成された後、カラムに対して行
われたのと同じプロセスにより、各垂直ブロックを検査
してブロック内のローをグループ化する。
像トポロジによって決定される。まず初めに、画像の初
期ブロックとして原始カラムが使用され、次に、最高相
互相関係数を有する2つの隣接ブロックがグループ化さ
れて、1つの大きいブロックになる。所定数のブロック
だけが残るまで、あるいは、ある一定の相関係数の点数
しきい値に達するまで、上記した同一のグループ化プロ
セスが繰り返される。例えば、最終ブロック数は、文字
トポロジを調べることによって判断可能であり、グルー
プ化プロセスが開始する前に取得できる。このようなカ
ラムの垂直ブロックが形成された後、カラムに対して行
われたのと同じプロセスにより、各垂直ブロックを検査
してブロック内のローをグループ化する。
【0024】図6は、画像「b」に対する最終的なグル
ープ化(切断)を示している。この図からわかるよう
に、文字「b」は、4つの超状態と各超状態内の状態
3、3、5、3をそれぞれ有するPHMMにより表すこ
とができる。切断が行われる正確な位置は、この繰り返
しによる相関比較によって自動的に決まる。このこと
は、ノイズやボケを伴うグレイレベル画像に対しては特
に重要であり、これは、手操作により異なる文字やサン
プルに対して意味のある効率的な一貫したセグメンテー
ション(グループ化)を行うことが難しいためである。
各文字ごとに、若干の標本画像に対して上記手順が繰り
返される。セグメンテーションに基づき、対象の文字に
対してPHMMの初期推定が行われる。ただし、この手
順は、トレーニングプロセスの開始に利用できるPHM
Mの初期推定値が全くない場合にのみ必要とされる。
ープ化(切断)を示している。この図からわかるよう
に、文字「b」は、4つの超状態と各超状態内の状態
3、3、5、3をそれぞれ有するPHMMにより表すこ
とができる。切断が行われる正確な位置は、この繰り返
しによる相関比較によって自動的に決まる。このこと
は、ノイズやボケを伴うグレイレベル画像に対しては特
に重要であり、これは、手操作により異なる文字やサン
プルに対して意味のある効率的な一貫したセグメンテー
ション(グループ化)を行うことが難しいためである。
各文字ごとに、若干の標本画像に対して上記手順が繰り
返される。セグメンテーションに基づき、対象の文字に
対してPHMMの初期推定が行われる。ただし、この手
順は、トレーニングプロセスの開始に利用できるPHM
Mの初期推定値が全くない場合にのみ必要とされる。
【0025】次に、モデルに対するパラメータが初期化
される(ステップ351)。これは、前記構造を生成す
る際に用いられるサンプルから派生した上記のパラメー
タを用いて実行できる。モデルの構造が生成され、かつ
パラメータが初期化された後、モデルを「トレーニン
グ」することによって、パラメータの値を推定しなおす
ことができる。トレーニングは、認識されるテキストに
画像が取り入れられることが予想される形式のワード画
像の代表的なサンプル(トークン)を用いて行われる
(ステップ352)。各トークンごとに観測シーケンス
(画素マップ)が生成され、さらに、ビタビアルゴリズ
ムを用いて、モデルに関する観測シーケンスのセグメン
テーションを行う(ステップ353)。パラメータは、
セグメンテーションの結果によるヒストグラムにしたが
って更新される(ステップ354)。例えば、パラメー
タπi、aij、およびbiの更新された推定値は、以下の
通りである。 πi=状態Siから開始するトークンの数//トークン
の総数 aij=状態Si状態Sjからの遷移数//状態Siから
開始する遷移総数 bi(p)=状態Siにおけるpの観測数//観測の総数
される(ステップ351)。これは、前記構造を生成す
る際に用いられるサンプルから派生した上記のパラメー
タを用いて実行できる。モデルの構造が生成され、かつ
パラメータが初期化された後、モデルを「トレーニン
グ」することによって、パラメータの値を推定しなおす
ことができる。トレーニングは、認識されるテキストに
画像が取り入れられることが予想される形式のワード画
像の代表的なサンプル(トークン)を用いて行われる
(ステップ352)。各トークンごとに観測シーケンス
(画素マップ)が生成され、さらに、ビタビアルゴリズ
ムを用いて、モデルに関する観測シーケンスのセグメン
テーションを行う(ステップ353)。パラメータは、
セグメンテーションの結果によるヒストグラムにしたが
って更新される(ステップ354)。例えば、パラメー
タπi、aij、およびbiの更新された推定値は、以下の
通りである。 πi=状態Siから開始するトークンの数//トークン
の総数 aij=状態Si状態Sjからの遷移数//状態Siから
開始する遷移総数 bi(p)=状態Siにおけるpの観測数//観測の総数
【0026】推定のやり直しを行っている間、ビタビア
ルゴリズムを用いて、モデルに関しては、各トークンご
とに尤度を計算し、トークンに関しては、全トークンに
対するこのような尤度を組み合せて(確率は乗算、対数
確率は加算)、モデルの有効性に関する全体の尤度を提
供する(ステップ355)。全トークンが処理された後
(ステップ356)、パラメータが収束した場合、すな
わち、このような全体的測度が最大値にほぼ達した場
合、トレーニング手順は完了する(ステップ357)。
そうでない場合は、トレーニング手順が繰り返される。
収束を判断する代表的な方法では、継続的な繰り返しを
行うために、ステップ355から全体尤度を比較する。
差が小さく、最後の繰り返しの途中でパラメータが大幅
に変化したことを示している場合は、収束が行われたと
みなすことができる。2次元HMMに対しては、超状態
のパラメータIIh、Ah、およびBhと超状態における
状態のパラメータIIv、Av、およびBvが、すべてこ
の方法によって判断可能である。技術上周知の他の方法
を用いて、HMMのパラメータを推定することもでき
る。例えば、Baum−Welch再推定式および一般
化確率的降下方法などがある。
ルゴリズムを用いて、モデルに関しては、各トークンご
とに尤度を計算し、トークンに関しては、全トークンに
対するこのような尤度を組み合せて(確率は乗算、対数
確率は加算)、モデルの有効性に関する全体の尤度を提
供する(ステップ355)。全トークンが処理された後
(ステップ356)、パラメータが収束した場合、すな
わち、このような全体的測度が最大値にほぼ達した場
合、トレーニング手順は完了する(ステップ357)。
そうでない場合は、トレーニング手順が繰り返される。
収束を判断する代表的な方法では、継続的な繰り返しを
行うために、ステップ355から全体尤度を比較する。
差が小さく、最後の繰り返しの途中でパラメータが大幅
に変化したことを示している場合は、収束が行われたと
みなすことができる。2次元HMMに対しては、超状態
のパラメータIIh、Ah、およびBhと超状態における
状態のパラメータIIv、Av、およびBvが、すべてこ
の方法によって判断可能である。技術上周知の他の方法
を用いて、HMMのパラメータを推定することもでき
る。例えば、Baum−Welch再推定式および一般
化確率的降下方法などがある。
【0027】従来のHMMでは、継続時間diの間ある
状態を維持する確率(確率密度)が以下の式により表さ
れる指数関数である。
状態を維持する確率(確率密度)が以下の式により表さ
れる指数関数である。
【数6】 ただし、aiiは自己遷移確率であり、aijは次の状態へ
の遷移確率である。しかし、実際の施行においては状態
継続時間の分配により、結果として指数確率密度が得ら
れる可能性が少なくなるため、HMMにより精巧な状態
継続時間を導入することによって、性能を大幅に改善で
きる。
の遷移確率である。しかし、実際の施行においては状態
継続時間の分配により、結果として指数確率密度が得ら
れる可能性が少なくなるため、HMMにより精巧な状態
継続時間を導入することによって、性能を大幅に改善で
きる。
【0028】次に説明するのは、継続時間を含む1方法
である。上記のパラメータII、A、およびBを用い
て、まず初めに状態へのセグメンテーションが行われ、
次に、最良パスにおける各状態ごとにより適正な確率密
度のパラメータを検索する配列Ψからのバックポインタ
を用いて、セグメンテーションの最中に計算された点数
が後処理ステップで調整される。このような調整例とし
て、各状態に対する自己遷移確率をガウス状態継続時間
確率密度に置き換えることなどが挙げられる。
である。上記のパラメータII、A、およびBを用い
て、まず初めに状態へのセグメンテーションが行われ、
次に、最良パスにおける各状態ごとにより適正な確率密
度のパラメータを検索する配列Ψからのバックポインタ
を用いて、セグメンテーションの最中に計算された点数
が後処理ステップで調整される。このような調整例とし
て、各状態に対する自己遷移確率をガウス状態継続時間
確率密度に置き換えることなどが挙げられる。
【0029】各状態または超状態qiに対し、このよう
な調整が、次式により実行可能である。
な調整が、次式により実行可能である。
【数7】 ただし、括弧で囲まれた最初の項は、指数確率密度を抽
出し、括弧内の第2項はガウス確率密度を挿入し、aii
は自己遷移確率であり、d(i)は画素数による実際状
態継続時間であり、d0(i)はその平均であり、σiは
状態継続時間の標準偏差である。所定の状態に対するd
の値は、状態または超状態での自己遷移数をカウントす
ることにより、配列Ψから判断される。d0(i)およ
びσiの値は、次式により、トレーニング中の各状態ま
たは超状態に対して出すことができる。
出し、括弧内の第2項はガウス確率密度を挿入し、aii
は自己遷移確率であり、d(i)は画素数による実際状
態継続時間であり、d0(i)はその平均であり、σiは
状態継続時間の標準偏差である。所定の状態に対するd
の値は、状態または超状態での自己遷移数をカウントす
ることにより、配列Ψから判断される。d0(i)およ
びσiの値は、次式により、トレーニング中の各状態ま
たは超状態に対して出すことができる。
【数8】
【数9】 ただし、Nは、状態qiになる回数であり、di(k)は
kの継続時間である。最終確率P*が通過するすべての
状態に対する確率の積であることから、今度は、通過す
る各状態の平均および標準偏差を用いて、P*に関して
このような調整を繰り返し行うことができる。P*が対
数として表される場合、これらの調整を対数形式に変換
し、通過する各状態に対するこのような対数型調整を合
計し、さらに、調整の総計を対数P*に加算することに
よって、調整を行うことができる。
kの継続時間である。最終確率P*が通過するすべての
状態に対する確率の積であることから、今度は、通過す
る各状態の平均および標準偏差を用いて、P*に関して
このような調整を繰り返し行うことができる。P*が対
数として表される場合、これらの調整を対数形式に変換
し、通過する各状態に対するこのような対数型調整を合
計し、さらに、調整の総計を対数P*に加算することに
よって、調整を行うことができる。
【0030】入れ子型ビタビ探索構造では、ここに記載
されている好ましい具体例により、パス探索プロセスの
一部として、継続時間のペナルティが組み込まれてい
る。継続時間ペナルティを最終確率P*に組み込むに
は、次式により、尤度を各ノードにおいてパス方向に更
新しなければならない。 like(i,k)=最大[尤度(i,t−1)+a
(i,i),尤度(i−1,t−1)+a(i−1,
i)+状態(または超状態,文字)継続時間ペナルテ
ィ]+bi(Ok) ただし、bi(Ok)はノードi(観測Okを生成するた
めに超状態または状態になることがある)の尤度であ
り、尤度(i,k)は最高ノードiおよびフレーム(ま
たは画素)kまで累積されたパス尤度点数であり、継続
時間ペナルティは、継続時間確率のマイナスの対数尺度
である。継続時間確率は、状態、超状態、および文字の
継続時間の長さに関するヒストグラムを計算することに
より、トレーニングを通じて検出される。状態のヒスト
グラムは、画素単位であり、超状態および文字のヒスト
グラムは、カラム単位である。上記の式からお気づきの
通り、継続時間ペナルティは、異なる状態、超状態、ま
たは文字の間で遷移が発生する場合にのみ加えられる。
文字継続時間ペナルティは、任意の文字モデルの最終超
状態から遷移が行われた時点の超状態継続時間ペナルテ
ィの上に加えられる。このように、継続時間ペナルティ
は、後処理としてではなく、順方向探索に組み込まれ
る。この継続時間ペナルティの組み込みにより、文字認
識性能が向上する。また、(後に述べる)N最良方法と
共に使用された場合、上記組み込みによって、より良い
ワード候補を提供することも可能であり、特に、最良候
補が正しくない場合にこのような用い方が考えられる。
さらに、正しく高水準な後処理(例えば、辞書チェッ
ク)に対し、探索サイズを大幅に縮小できる。
されている好ましい具体例により、パス探索プロセスの
一部として、継続時間のペナルティが組み込まれてい
る。継続時間ペナルティを最終確率P*に組み込むに
は、次式により、尤度を各ノードにおいてパス方向に更
新しなければならない。 like(i,k)=最大[尤度(i,t−1)+a
(i,i),尤度(i−1,t−1)+a(i−1,
i)+状態(または超状態,文字)継続時間ペナルテ
ィ]+bi(Ok) ただし、bi(Ok)はノードi(観測Okを生成するた
めに超状態または状態になることがある)の尤度であ
り、尤度(i,k)は最高ノードiおよびフレーム(ま
たは画素)kまで累積されたパス尤度点数であり、継続
時間ペナルティは、継続時間確率のマイナスの対数尺度
である。継続時間確率は、状態、超状態、および文字の
継続時間の長さに関するヒストグラムを計算することに
より、トレーニングを通じて検出される。状態のヒスト
グラムは、画素単位であり、超状態および文字のヒスト
グラムは、カラム単位である。上記の式からお気づきの
通り、継続時間ペナルティは、異なる状態、超状態、ま
たは文字の間で遷移が発生する場合にのみ加えられる。
文字継続時間ペナルティは、任意の文字モデルの最終超
状態から遷移が行われた時点の超状態継続時間ペナルテ
ィの上に加えられる。このように、継続時間ペナルティ
は、後処理としてではなく、順方向探索に組み込まれ
る。この継続時間ペナルティの組み込みにより、文字認
識性能が向上する。また、(後に述べる)N最良方法と
共に使用された場合、上記組み込みによって、より良い
ワード候補を提供することも可能であり、特に、最良候
補が正しくない場合にこのような用い方が考えられる。
さらに、正しく高水準な後処理(例えば、辞書チェッ
ク)に対し、探索サイズを大幅に縮小できる。
【0031】後に説明するレベル構築アルゴリズムの終
わりに、最適パスをさかのぼることによって、文字モデ
ルの最良の組み合わせを識別できる。対応するワード
は、アルゴリズムによって認識されるワードである。認
識確度は、後述するN最良探索を組み込むことにより、
大幅に改良できる。これに適したグローバルN最良仮説
アルゴリズムが、「Proc.DARPAspeech
and Natural Launguage Wo
rkshop(DARPA音声および自然言語セミナー
の議事録)」1990年6月号pp.12〜19に記載
されているF.K.SoongおよびE−F.Huan
gによる「A tree−trellies base
d fast searchfor finding
the n best sentence hypot
heses in continuous speec
h recognition(連続音声認識におけるn
最良センテンス仮説を検出するための木構造トレリスベ
ースの高速探索)」に説明されており、上記アルゴリズ
ムは、順方向ビタビベースのトレリス探索と逆方向木構
造探索を組み合わせている。ここに開示されている好ま
しい具体例によれば、SoongおよびHuangによ
って開示されたアルゴリズムは、次に述べるように強化
され、改良された仮説探索アルゴリズムを提供してい
る。この強化には、順方向探索への継続時間ペナルティ
の組み込みも含まれており、パスマップと順方向パスか
らの継続時間情報を用いて、逆方向探索によるペナルテ
ィ修正を行っている。その結果、後に極めて詳細に述べ
るように、認識性能は大幅に強化されている。
わりに、最適パスをさかのぼることによって、文字モデ
ルの最良の組み合わせを識別できる。対応するワード
は、アルゴリズムによって認識されるワードである。認
識確度は、後述するN最良探索を組み込むことにより、
大幅に改良できる。これに適したグローバルN最良仮説
アルゴリズムが、「Proc.DARPAspeech
and Natural Launguage Wo
rkshop(DARPA音声および自然言語セミナー
の議事録)」1990年6月号pp.12〜19に記載
されているF.K.SoongおよびE−F.Huan
gによる「A tree−trellies base
d fast searchfor finding
the n best sentence hypot
heses in continuous speec
h recognition(連続音声認識におけるn
最良センテンス仮説を検出するための木構造トレリスベ
ースの高速探索)」に説明されており、上記アルゴリズ
ムは、順方向ビタビベースのトレリス探索と逆方向木構
造探索を組み合わせている。ここに開示されている好ま
しい具体例によれば、SoongおよびHuangによ
って開示されたアルゴリズムは、次に述べるように強化
され、改良された仮説探索アルゴリズムを提供してい
る。この強化には、順方向探索への継続時間ペナルティ
の組み込みも含まれており、パスマップと順方向パスか
らの継続時間情報を用いて、逆方向探索によるペナルテ
ィ修正を行っている。その結果、後に極めて詳細に述べ
るように、認識性能は大幅に強化されている。
【0032】以上のように強化されたN最良仮説アルゴ
リズムにしたがって、まず初めに入れ子型ビタビ順方向
探索を実行し、次に逆方向探索を行うことにより、N最
良仮説が得られる。逆方向探索がメインパススタックを
中心に行われ、ここでは、スタックの各項目がトリーの
分岐(パス)であり、パス尤度点数にしたがって、スタ
ックの上から下へランク付けが行われている。バックト
レーシングを行うパスは、当然、終端ノードから開始し
なければならない。全レベルにおける各文字モデルの各
終端ノードごとに、ビタビ探索後に得られた最終累積パ
ス点数にしたがって、1終端ノードのみを含むヌルパス
が構成される。前記パスは、パス点数にしたがって、ラ
ンク順に1本ずつ挿入される。この時点では、パス点数
がビタビ探索での累積尤度点数と依然等しいことを忘れ
てはならない。また、修正は、まだ全く行われていな
い。上記パスは、初期ノードに向かって逆方向に伸展す
る(例えば、右から左へ、フレーム0の方向へ)。パス
が伸びる方向を識別し、かつ逆方向の伸展がまだ完了し
ていないことを示すために、このようなパスには「逆方
向部分パス」という名称が付けられている。この逆方向
部分パスの先端にあるノード、すなわち、左端のノード
を、ここでは「フロントノード」と呼ぶ。フロントノー
ドが初期ノードと等しい場合、パスの逆方向の伸展は
「完了」する。Mがスタックサイズであれば、最上位の
Mのヌルパスがスタックに入れられた後(他のすべての
パス点数のうち最高のパス点数を有するもの)、初期ス
タックの設定は終了する。
リズムにしたがって、まず初めに入れ子型ビタビ順方向
探索を実行し、次に逆方向探索を行うことにより、N最
良仮説が得られる。逆方向探索がメインパススタックを
中心に行われ、ここでは、スタックの各項目がトリーの
分岐(パス)であり、パス尤度点数にしたがって、スタ
ックの上から下へランク付けが行われている。バックト
レーシングを行うパスは、当然、終端ノードから開始し
なければならない。全レベルにおける各文字モデルの各
終端ノードごとに、ビタビ探索後に得られた最終累積パ
ス点数にしたがって、1終端ノードのみを含むヌルパス
が構成される。前記パスは、パス点数にしたがって、ラ
ンク順に1本ずつ挿入される。この時点では、パス点数
がビタビ探索での累積尤度点数と依然等しいことを忘れ
てはならない。また、修正は、まだ全く行われていな
い。上記パスは、初期ノードに向かって逆方向に伸展す
る(例えば、右から左へ、フレーム0の方向へ)。パス
が伸びる方向を識別し、かつ逆方向の伸展がまだ完了し
ていないことを示すために、このようなパスには「逆方
向部分パス」という名称が付けられている。この逆方向
部分パスの先端にあるノード、すなわち、左端のノード
を、ここでは「フロントノード」と呼ぶ。フロントノー
ドが初期ノードと等しい場合、パスの逆方向の伸展は
「完了」する。Mがスタックサイズであれば、最上位の
Mのヌルパスがスタックに入れられた後(他のすべての
パス点数のうち最高のパス点数を有するもの)、初期ス
タックの設定は終了する。
【0033】図7について説明すると、メインパススタ
ック1000内の全Mパスが処理されるまで次に説明す
るプロセスが繰り返される。このプロセスは、パススタ
ック1000から最上位パス1010を取り除くことか
ら開始する。この最上位パス1010は、当面、すべて
のパスの中で最高のパス点数を有しているパスである。
最上位パス1010が本パラグラフで説明するプロセス
をすでに経ている場合、最上位パス1010をパススタ
ック1000に戻し、パススタック1000の次のパス
1020を取り出す。最初の非完了パスに対しては、こ
こに説明するプロセス(ブロック1050)により、パ
スを2本の別々のパスに分ける。そのうちの第1パス1
080は、最良の1アーク(逆方向)延長線を有し、第
2パス1090は、予想可能な残りのすべての延長線を
有している。次に、スタック全体がなお分類順を維持す
るように、更新されたパス点数にしたがって、前記2本
の「新規」パスをパススタックに挿入し直す(ブロック
1060および1070)。この非完了パスが到来パス
をわずか1本しか利用できない場合、パス分割を一切行
わないこともあり得る。アーク延長が一回行われ、延長
されたパスは、パススタックに挿入し直される。
ック1000内の全Mパスが処理されるまで次に説明す
るプロセスが繰り返される。このプロセスは、パススタ
ック1000から最上位パス1010を取り除くことか
ら開始する。この最上位パス1010は、当面、すべて
のパスの中で最高のパス点数を有しているパスである。
最上位パス1010が本パラグラフで説明するプロセス
をすでに経ている場合、最上位パス1010をパススタ
ック1000に戻し、パススタック1000の次のパス
1020を取り出す。最初の非完了パスに対しては、こ
こに説明するプロセス(ブロック1050)により、パ
スを2本の別々のパスに分ける。そのうちの第1パス1
080は、最良の1アーク(逆方向)延長線を有し、第
2パス1090は、予想可能な残りのすべての延長線を
有している。次に、スタック全体がなお分類順を維持す
るように、更新されたパス点数にしたがって、前記2本
の「新規」パスをパススタックに挿入し直す(ブロック
1060および1070)。この非完了パスが到来パス
をわずか1本しか利用できない場合、パス分割を一切行
わないこともあり得る。アーク延長が一回行われ、延長
されたパスは、パススタックに挿入し直される。
【0034】図8は、順方向ビタビ探索から得られたパ
スマップのごく一部であり、逆方向木構造探索にも用い
られる。大文字は、超状態ノードを表している。文字列
として配置された場合、完了パスの一部を表すために使
用することもできる。例えば、ABCFGは、図8のパ
ス2の一部を表し、fx(y)は、yユニットを超状態
xに長くとどまらせるための継続時間ペナルティを示し
ている。このペナルティは、継続時間確率の対数の負数
である。図8に示すように、逆方向パスの伸びは、初期
ノードIの方向を向いている終端ノードTから順次逆方
向のアーク延長を行うことによって実現する。部分的パ
スを逆方向に1回アーク延長を行った場合、継続時間ペ
ナルティが評価し直されて、正確な継続時間に合った状
態が反映される。逆方向木構造探索における1回のアー
ク延長を対象とした基本的メカニズムは、次の通りであ
る。
スマップのごく一部であり、逆方向木構造探索にも用い
られる。大文字は、超状態ノードを表している。文字列
として配置された場合、完了パスの一部を表すために使
用することもできる。例えば、ABCFGは、図8のパ
ス2の一部を表し、fx(y)は、yユニットを超状態
xに長くとどまらせるための継続時間ペナルティを示し
ている。このペナルティは、継続時間確率の対数の負数
である。図8に示すように、逆方向パスの伸びは、初期
ノードIの方向を向いている終端ノードTから順次逆方
向のアーク延長を行うことによって実現する。部分的パ
スを逆方向に1回アーク延長を行った場合、継続時間ペ
ナルティが評価し直されて、正確な継続時間に合った状
態が反映される。逆方向木構造探索における1回のアー
ク延長を対象とした基本的メカニズムは、次の通りであ
る。
【0035】1アーク延長における逆方向部分パス点数
の更新 PPS(E)=PPS(F)−現行の継続時間ペナルテ
ィ+修正済み継続時間ペナルティ+FからEまでの延長
を行うための他の更新 完了パス点数の更新 CPS(E)&=&PPS(E)+FPS(E) ただし、PPS(E)はフロントノードEを伴う逆方向
部分パス尤度点数であり、CPS(E)は、Eまで更新
された完了パス点数である。CPS(E)の完了パス
は、逆方向部分パスの連結であり、終端ノードTから
(点数PPS(E)の)ノードEまでの逆方向連結1ア
ーク延長線と初期ノードIから(点数FPS(E)の)
Eまでの順方向最適パスによって形成されている。順方
向最適パスは、順方向トレリス探索中に記録される。上
記の2本のパスは、ノードEで結合されている。すなわ
ち、終端ノードから開始した場合、全CPS点数は、順
方向ビタビ探索によって得られた最終尤度点数と同じで
ある。パスが逆方向に伸びていくことから、最終的に初
期ノードIに達するまで、CPSは、ノードごとに更新
を続ける。ただし、CPS(I)=PPS(I)であ
る。
の更新 PPS(E)=PPS(F)−現行の継続時間ペナルテ
ィ+修正済み継続時間ペナルティ+FからEまでの延長
を行うための他の更新 完了パス点数の更新 CPS(E)&=&PPS(E)+FPS(E) ただし、PPS(E)はフロントノードEを伴う逆方向
部分パス尤度点数であり、CPS(E)は、Eまで更新
された完了パス点数である。CPS(E)の完了パス
は、逆方向部分パスの連結であり、終端ノードTから
(点数PPS(E)の)ノードEまでの逆方向連結1ア
ーク延長線と初期ノードIから(点数FPS(E)の)
Eまでの順方向最適パスによって形成されている。順方
向最適パスは、順方向トレリス探索中に記録される。上
記の2本のパスは、ノードEで結合されている。すなわ
ち、終端ノードから開始した場合、全CPS点数は、順
方向ビタビ探索によって得られた最終尤度点数と同じで
ある。パスが逆方向に伸びていくことから、最終的に初
期ノードIに達するまで、CPSは、ノードごとに更新
を続ける。ただし、CPS(I)=PPS(I)であ
る。
【0036】次に、上に挙げた式の各項について詳細に
説明する。 1.現行継続時間ペナルティ(DP) パスは、現行状態に対して支払われているペナルティの
記録を保持する。ペナルティの計算は、パスがこの状態
にどのくらい長くとどまっていたか、さらに、別の状態
に変化する前にどのくらい長くとどまっているのかとい
う点に基づいて行われる。後者の情報は、順方向探索に
おける各ノードへの最良到来パスの一部として記録され
る。最良到来パスが各ノードごとに異なっていることか
ら、逆方向1アーク延長が行われる度に、このペナルテ
ィは、他のパス情報と共に更新される。図8のパスを、
その一例として考えるとよい。ここでは、順方向段階に
おいてはパスADEFGよりもパスABCFGが選択さ
れることが想定されている。逆方向パスがノードFに達
したとき、「現行状態」は状態2であり、順方向パスマ
ップにしたがって、Fの後にこの状態からの状態遷移が
予想される。したがって、状態2でGおよびF上にとど
まっているためには、DPはf2(2)でなければなら
ない。しかし、パスがノードCに達したとき、「現行状
態」は状態1となり、今度はDPがf1(3)として更
新されなければならない。これは、パスマップにより、
C、B、およびAを通過する横の移動が予想されるため
である。
説明する。 1.現行継続時間ペナルティ(DP) パスは、現行状態に対して支払われているペナルティの
記録を保持する。ペナルティの計算は、パスがこの状態
にどのくらい長くとどまっていたか、さらに、別の状態
に変化する前にどのくらい長くとどまっているのかとい
う点に基づいて行われる。後者の情報は、順方向探索に
おける各ノードへの最良到来パスの一部として記録され
る。最良到来パスが各ノードごとに異なっていることか
ら、逆方向1アーク延長が行われる度に、このペナルテ
ィは、他のパス情報と共に更新される。図8のパスを、
その一例として考えるとよい。ここでは、順方向段階に
おいてはパスADEFGよりもパスABCFGが選択さ
れることが想定されている。逆方向パスがノードFに達
したとき、「現行状態」は状態2であり、順方向パスマ
ップにしたがって、Fの後にこの状態からの状態遷移が
予想される。したがって、状態2でGおよびF上にとど
まっているためには、DPはf2(2)でなければなら
ない。しかし、パスがノードCに達したとき、「現行状
態」は状態1となり、今度はDPがf1(3)として更
新されなければならない。これは、パスマップにより、
C、B、およびAを通過する横の移動が予想されるため
である。
【0037】2.修正継続時間ペナルティ(CDP) この用語では、順方向の情報と逆方向の情報が組み合わ
されて、各延長線での正しい継続時間ペナルティが決定
させる。このプロセスは、次のように実行される。上記
の通り、順方向段階では、パスADEFGよりもパスA
BCFGの方が好ましいとされている。このことは、順
方向段階の間、Cで累積された尤度点数の方がEで累積
された点数よりも良い(小さい)(したがって、その時
点でFがCを選択)ことを意味している。さらに詳しく
見ていくと、選択時に、パスABCFGはパスADEF
Gと比較されないが、代わりに、ABCFとADEFと
の比較が行われたことが明らかである。元のビタビ構造
によれば、FからGへの最良パスがFへの最良パスの延
長線でなければならない。しかし、各状態の遷移が行わ
れた時点で継続時間ペナルティが加えられた場合、必ず
しもこの限りではない。順方向パスを行う場合、別の状
態への変化が起きるまで、現行の状態に対して継続時間
がどのくらい長く維持されるかはわからない。このた
め、状態変化の遷移が起きるまで、所定の状態に対する
ペナルティを課すことはない。しかし、順方向状態の遷
移が完了した後は、図8から明らかなように、ABCF
GとADEFGに対しては、F−Gを通過するコストが
異なる。このような理由から、ポイントFへの選択され
た到来パスは、F−G後のウィナーを保証していない。
このような事態に対しては、文字認識の改善が全く行わ
れなかった場合、元のワンパスオンリー復号化構造とな
るが、逆方向探索を利用することによってこの事態は改
善される。
されて、各延長線での正しい継続時間ペナルティが決定
させる。このプロセスは、次のように実行される。上記
の通り、順方向段階では、パスADEFGよりもパスA
BCFGの方が好ましいとされている。このことは、順
方向段階の間、Cで累積された尤度点数の方がEで累積
された点数よりも良い(小さい)(したがって、その時
点でFがCを選択)ことを意味している。さらに詳しく
見ていくと、選択時に、パスABCFGはパスADEF
Gと比較されないが、代わりに、ABCFとADEFと
の比較が行われたことが明らかである。元のビタビ構造
によれば、FからGへの最良パスがFへの最良パスの延
長線でなければならない。しかし、各状態の遷移が行わ
れた時点で継続時間ペナルティが加えられた場合、必ず
しもこの限りではない。順方向パスを行う場合、別の状
態への変化が起きるまで、現行の状態に対して継続時間
がどのくらい長く維持されるかはわからない。このた
め、状態変化の遷移が起きるまで、所定の状態に対する
ペナルティを課すことはない。しかし、順方向状態の遷
移が完了した後は、図8から明らかなように、ABCF
GとADEFGに対しては、F−Gを通過するコストが
異なる。このような理由から、ポイントFへの選択され
た到来パスは、F−G後のウィナーを保証していない。
このような事態に対しては、文字認識の改善が全く行わ
れなかった場合、元のワンパスオンリー復号化構造とな
るが、逆方向探索を利用することによってこの事態は改
善される。
【0038】例えば、逆方向パスがGからFに延長する
際に、完了パス点数に加えられる継続時間ペナルティ
は、最良順方向パス継続時間情報、すなわち、状態1の
A−B−C(Fへの最適順方向パスの点数の一部として
黙示的に)と状態2のF−G(逆方向パスデータのDP
として明示的に記録される)から一部取り入れている。
また、Fにおいて1アーク延長を逆方向に行おうとする
場合、F−C延長線(パス2)とF−E延長線(パス
1)との比較が必要である。
際に、完了パス点数に加えられる継続時間ペナルティ
は、最良順方向パス継続時間情報、すなわち、状態1の
A−B−C(Fへの最適順方向パスの点数の一部として
黙示的に)と状態2のF−G(逆方向パスデータのDP
として明示的に記録される)から一部取り入れている。
また、Fにおいて1アーク延長を逆方向に行おうとする
場合、F−C延長線(パス2)とF−E延長線(パス
1)との比較が必要である。
【0039】図8を検討してみると、修正式を次のよう
に展開できることが明らかである。 (a)F−E延長線の場合: 状態遷移が一切発生しな
い。 ●状態2の予測継続時間 −本パスが状態2にどのくらい長くとどまっていたか:
2(G、F) −Eを通過する場合、状態2にさらにどのくらい長くと
どまるのか: 順方向パスから最良パスADEFによ
り、2(E、D) −状態2における逆方向予測継続時間の合計: 2+2
=4 −CDP(現行知識の最善のもの): f2(4) ●状態2に対してFでパスがすでに支払いを行っている
ペナルティ−: 初めに優先権を与えられているパス2
によれば、f2(2)(F、Gにとどまる場合) ●継続時間ペナルティの修正は、以下のように行われな
ければならない。 [PPS(E)=PPS(F)−f2(2)+f2(4)
+...;] ●更新済DP: f2(4) (b)F−C延長線の場合: 状態遷移が発生。 ●終了したばかりの状態に対する修正。 −順方向パス情報により、パスにおいて現在支払われて
いるペナルティは上記のケース1と同じである(現在ま
でFでわずか1本のパスしか考慮に入れていないことに
注意): f2(2) −パス2が2単位分実際に状態2にとどまった場合のC
DP: f2(2) ●パスがCに達した場合、Cにおける最良の到来パスに
より状態1に支払われるペナルティ: f1(3)
(C、B、A) ●Cに入るための最終継続時間の修正は、以下の通りで
ある。 [PPS(C)=PPS(F)−f2(2)+f2(2)
+f1(3)...;] ●更新済DP: f1(3) CDP情報は、逆方向探索パスによって到着する度に計
算が行われ、ノード内に記憶される。ただし、異なる逆
方向探索パスによって到着した場合、同じノードのCD
Pが異なる場合もあり得る。
に展開できることが明らかである。 (a)F−E延長線の場合: 状態遷移が一切発生しな
い。 ●状態2の予測継続時間 −本パスが状態2にどのくらい長くとどまっていたか:
2(G、F) −Eを通過する場合、状態2にさらにどのくらい長くと
どまるのか: 順方向パスから最良パスADEFによ
り、2(E、D) −状態2における逆方向予測継続時間の合計: 2+2
=4 −CDP(現行知識の最善のもの): f2(4) ●状態2に対してFでパスがすでに支払いを行っている
ペナルティ−: 初めに優先権を与えられているパス2
によれば、f2(2)(F、Gにとどまる場合) ●継続時間ペナルティの修正は、以下のように行われな
ければならない。 [PPS(E)=PPS(F)−f2(2)+f2(4)
+...;] ●更新済DP: f2(4) (b)F−C延長線の場合: 状態遷移が発生。 ●終了したばかりの状態に対する修正。 −順方向パス情報により、パスにおいて現在支払われて
いるペナルティは上記のケース1と同じである(現在ま
でFでわずか1本のパスしか考慮に入れていないことに
注意): f2(2) −パス2が2単位分実際に状態2にとどまった場合のC
DP: f2(2) ●パスがCに達した場合、Cにおける最良の到来パスに
より状態1に支払われるペナルティ: f1(3)
(C、B、A) ●Cに入るための最終継続時間の修正は、以下の通りで
ある。 [PPS(C)=PPS(F)−f2(2)+f2(2)
+f1(3)...;] ●更新済DP: f1(3) CDP情報は、逆方向探索パスによって到着する度に計
算が行われ、ノード内に記憶される。ただし、異なる逆
方向探索パスによって到着した場合、同じノードのCD
Pが異なる場合もあり得る。
【0040】3.他の更新: 全確率とも、マイナスの
対数法による。 (a)F−E延長線の場合: [PPS(E)=PPS(F)+...+a22+O
(E)] ただし、a22=状態2から状態2までの状態遷移確率 O(E)=観測尤度 (b)F−C延長線の場合: [PPS(C)=PPS(F)+...+a12+O
(C)] ただし、a12=状態1から状態2までの状態遷移確率 最終PPS更新のための式は、以下の通りである。 (a)F−E延長線の場合: [PPS(E)=PPS(F)−f2(2)+f2(4)
+a22+O(E)] (b)F−C延長線の場合: [PPS(C)=PPS(F)−f2(2)+f2(2)
+f1(3)+a 12+O(C)] 上記の通り、完了パス点数CPSは、部分逆方向パス点
数(PPS)と逆方向ビタビパスで記録された最良逆方
向部分パス点数であるフロントノードへの最良到来パス
の点数(FPS)から構成されている。
対数法による。 (a)F−E延長線の場合: [PPS(E)=PPS(F)+...+a22+O
(E)] ただし、a22=状態2から状態2までの状態遷移確率 O(E)=観測尤度 (b)F−C延長線の場合: [PPS(C)=PPS(F)+...+a12+O
(C)] ただし、a12=状態1から状態2までの状態遷移確率 最終PPS更新のための式は、以下の通りである。 (a)F−E延長線の場合: [PPS(E)=PPS(F)−f2(2)+f2(4)
+a22+O(E)] (b)F−C延長線の場合: [PPS(C)=PPS(F)−f2(2)+f2(2)
+f1(3)+a 12+O(C)] 上記の通り、完了パス点数CPSは、部分逆方向パス点
数(PPS)と逆方向ビタビパスで記録された最良逆方
向部分パス点数であるフロントノードへの最良到来パス
の点数(FPS)から構成されている。
【0041】したがって、最終CPSの式は、以下の通
りである。 (a)F−E延長線の場合: [CPS(E)=PPS(E)+FPS(E)] (b)F−C延長線の場合: [CPS(C)=PPS(C)+FPS(C)] 上記プロセスにより、予想可能なあらゆる延長線につい
ての予測CPSが判断されたことになる(Fでは、延長
線がF−EとF−Cになる)。さらに、実際の│ーク延
長を行うための最良延長線が選択された。ここでは、補
正後にCPS(│)<CPS(C)になると仮定し、延
長線Eを選択する。この「実際の」延長は、フロントノ
ードが1アーク逆方向に(この場合、FからEへ)移動
し、予測通りにパス点数を変更した(CPS(E))こ
とを意味している。残りの予想可能なあらゆる延長線
(ここではF−Cのみ)はそのまま元のパスと共に残さ
れ、したがってフロントノードはFのままであり、新規
パス点数は残りのうち最良の点数である(この場合、C
PS(C))。図9から明らかなように、初めにフロン
トノードがFの逆方向部分パスは、2本のパスに分割さ
れる。そのうちの一方は、フロントノードをEに移動さ
せるための最良の1アーク延長線であり、他方は、同じ
元のフロントノードFと残りの予想し得るかぎりの延長
線である(次に、両方のパスは、パススタックに挿入し
直される)。
りである。 (a)F−E延長線の場合: [CPS(E)=PPS(E)+FPS(E)] (b)F−C延長線の場合: [CPS(C)=PPS(C)+FPS(C)] 上記プロセスにより、予想可能なあらゆる延長線につい
ての予測CPSが判断されたことになる(Fでは、延長
線がF−EとF−Cになる)。さらに、実際の│ーク延
長を行うための最良延長線が選択された。ここでは、補
正後にCPS(│)<CPS(C)になると仮定し、延
長線Eを選択する。この「実際の」延長は、フロントノ
ードが1アーク逆方向に(この場合、FからEへ)移動
し、予測通りにパス点数を変更した(CPS(E))こ
とを意味している。残りの予想可能なあらゆる延長線
(ここではF−Cのみ)はそのまま元のパスと共に残さ
れ、したがってフロントノードはFのままであり、新規
パス点数は残りのうち最良の点数である(この場合、C
PS(C))。図9から明らかなように、初めにフロン
トノードがFの逆方向部分パスは、2本のパスに分割さ
れる。そのうちの一方は、フロントノードをEに移動さ
せるための最良の1アーク延長線であり、他方は、同じ
元のフロントノードFと残りの予想し得るかぎりの延長
線である(次に、両方のパスは、パススタックに挿入し
直される)。
【0042】文字認識システムの目的のひとつは、高水
準文法または辞書チェックのための最上位N「ワード」
仮説の検出にあることから、スタック空間が限られてい
る場合は特に、スタック内の2本のパスが同じ「ワー
ド」仮説に至ることはない。CPSを計算する場合と同
様に、「ワード」仮説は、すでに創出された逆方向パス
をビタビ探索から取得した最適順方向到来パスと連結す
ることにより、追跡することも可能である。全体のスタ
ックは、パスの挿入が行われるときには必ず、重複がな
いかどうか審査される。重複「ワード」を有するすべて
のパスの中で、最良のパスだけが残り、他のすべてのパ
スが取り除かれる。スタックの初めから開始すると、大
抵は、ひとつだけ重複が存在し、比較された後、取り除
かれる。
準文法または辞書チェックのための最上位N「ワード」
仮説の検出にあることから、スタック空間が限られてい
る場合は特に、スタック内の2本のパスが同じ「ワー
ド」仮説に至ることはない。CPSを計算する場合と同
様に、「ワード」仮説は、すでに創出された逆方向パス
をビタビ探索から取得した最適順方向到来パスと連結す
ることにより、追跡することも可能である。全体のスタ
ックは、パスの挿入が行われるときには必ず、重複がな
いかどうか審査される。重複「ワード」を有するすべて
のパスの中で、最良のパスだけが残り、他のすべてのパ
スが取り除かれる。スタックの初めから開始すると、大
抵は、ひとつだけ重複が存在し、比較された後、取り除
かれる。
【0043】図9のフローチャートに関し、直前のパラ
グラフに述べた手順は、M=N+5をパススタックサイ
ズとした場合、次のように要約できる。 INITIALIZE(ブロック1101);最高M点
数を有する終端ノードを用いて、パススタックを構成す
る(ブロック1103)。すべてのパスが今度はヌルパ
スとなり、1ノードのみが終端ノードとなる。LOOP
を入力し、最良の第1パスを創出する(1105)。パ
ススタックの最上部から開始して、第1非完了部分パス
を検出する(ブロック1107)。本パスに1を上回る
延長線が予想できる場合、部分パスを2本に分割する。
そのうちの第1パスは、最良の1アーク延長線を有して
おり、第2パスは、残りの1アーク延長線を有してい
る。それ以外の場合は、1アーク延長を行う(ブロック
1109)。パススタックが依然ランク順になるよう
に、完了パス点数にしたがってパススタックにパスを挿
入し直す(ブロック1111)。スタック内のワード重
複パスを一掃する(ブロック1113)。全Mパスが
「完了」するまでブロック1105にループバックする
(ブロック1115)。出力は、最上位のN完了パスで
ある(ブロック1117)。ブロック1119では、任
意の後処理が実行される。
グラフに述べた手順は、M=N+5をパススタックサイ
ズとした場合、次のように要約できる。 INITIALIZE(ブロック1101);最高M点
数を有する終端ノードを用いて、パススタックを構成す
る(ブロック1103)。すべてのパスが今度はヌルパ
スとなり、1ノードのみが終端ノードとなる。LOOP
を入力し、最良の第1パスを創出する(1105)。パ
ススタックの最上部から開始して、第1非完了部分パス
を検出する(ブロック1107)。本パスに1を上回る
延長線が予想できる場合、部分パスを2本に分割する。
そのうちの第1パスは、最良の1アーク延長線を有して
おり、第2パスは、残りの1アーク延長線を有してい
る。それ以外の場合は、1アーク延長を行う(ブロック
1109)。パススタックが依然ランク順になるよう
に、完了パス点数にしたがってパススタックにパスを挿
入し直す(ブロック1111)。スタック内のワード重
複パスを一掃する(ブロック1113)。全Mパスが
「完了」するまでブロック1105にループバックする
(ブロック1115)。出力は、最上位のN完了パスで
ある(ブロック1117)。ブロック1119では、任
意の後処理が実行される。
【0044】以上の技法は、実験的に立証された。実験
では、データベース内のすべての画像が、コンピュータ
によってシミュレートされたワード画像であった。この
ような画像は、パラメータとして標準偏差σnを有する
ガウス雑音が加えられる鮮明なワード画像をベースとし
た。次に、標準偏差σnによって指定された2次元ガウ
ス関数により画像の畳込みを行った箇所にボケ処理が行
われた。したがって、パラメータセット(σn,σn)
は、画像の質が悪化した度合いを指定する。背景および
前景の画素に対するグレイレベルの手段の浮標が制限で
きるように、画像データベースを作成する際にある程度
の正規化処理が行われる。にもかかわらず、グレイレベ
ルの分布には、上記の実験においてかなりの多様性がみ
とめられた。トレーニング処理の初期モデルは、それぞ
れ、パラメータ(50,0.8)および(20,0.
2)により、1文字につき2つの画像から構成された。
相関係数法では、前記の通り、一致の各々に対して初期
セグメンテーションを行う。このセグメンテーションに
より、トレーニングと似たような推定手順により各文字
に対する初期モデルが取得可能になる。k平均トレーニ
ング法は、最終収束モデルを得るための大型トレーニン
グセットで動作可能である。
では、データベース内のすべての画像が、コンピュータ
によってシミュレートされたワード画像であった。この
ような画像は、パラメータとして標準偏差σnを有する
ガウス雑音が加えられる鮮明なワード画像をベースとし
た。次に、標準偏差σnによって指定された2次元ガウ
ス関数により画像の畳込みを行った箇所にボケ処理が行
われた。したがって、パラメータセット(σn,σn)
は、画像の質が悪化した度合いを指定する。背景および
前景の画素に対するグレイレベルの手段の浮標が制限で
きるように、画像データベースを作成する際にある程度
の正規化処理が行われる。にもかかわらず、グレイレベ
ルの分布には、上記の実験においてかなりの多様性がみ
とめられた。トレーニング処理の初期モデルは、それぞ
れ、パラメータ(50,0.8)および(20,0.
2)により、1文字につき2つの画像から構成された。
相関係数法では、前記の通り、一致の各々に対して初期
セグメンテーションを行う。このセグメンテーションに
より、トレーニングと似たような推定手順により各文字
に対する初期モデルが取得可能になる。k平均トレーニ
ング法は、最終収束モデルを得るための大型トレーニン
グセットで動作可能である。
【0045】トレーニングセットは、初期モデル用のト
レーニングセットと似た様な方法で作成される。ノイズ
およびボケ範囲は、(50−59,0.8−0.7)と
なり、1文字につき約10サンプル用意される。これ
は、明らかに、ダイナミックレンジが非常に狭いトレー
ニングセットである。にもかかわらず、実験結果から明
らかになるように、非常にロバスト性に富んだモデルセ
ットが結果として得られる。本書に記載されている技法
の性能を評価するに当たり、3つのテストセットが使用
された。各セットのサイズは、約200ワードであり、
1000以上の文字を有し、長さは2〜12文字と多様
である。第1セットは、トレーニングセットと同じパラ
メータ範囲で作成される。第2および第3セットは第1
セットと異なるが、それは、ボケやノイズの点および各
セットのワード修正だけでなく、1ワードにおける文字
間のギャップについても言えることであり、トレーニン
グセットやテストセット1では文字間のギャップが元の
1画素幅であるのに対し、0に設定される。その結果、
連結された隣接文字を含む画像が生成される。セット2
のパラメータ範囲は(70−79,0.9−1.0)で
あり、セット3は(80−89,1.0−1.1)であ
る。比較を行ったアルゴリズムは、バイナリ、グレイレ
ベル、N最良探索によるグレイレベルであり、いずれも
継続時間に制約がある。
レーニングセットと似た様な方法で作成される。ノイズ
およびボケ範囲は、(50−59,0.8−0.7)と
なり、1文字につき約10サンプル用意される。これ
は、明らかに、ダイナミックレンジが非常に狭いトレー
ニングセットである。にもかかわらず、実験結果から明
らかになるように、非常にロバスト性に富んだモデルセ
ットが結果として得られる。本書に記載されている技法
の性能を評価するに当たり、3つのテストセットが使用
された。各セットのサイズは、約200ワードであり、
1000以上の文字を有し、長さは2〜12文字と多様
である。第1セットは、トレーニングセットと同じパラ
メータ範囲で作成される。第2および第3セットは第1
セットと異なるが、それは、ボケやノイズの点および各
セットのワード修正だけでなく、1ワードにおける文字
間のギャップについても言えることであり、トレーニン
グセットやテストセット1では文字間のギャップが元の
1画素幅であるのに対し、0に設定される。その結果、
連結された隣接文字を含む画像が生成される。セット2
のパラメータ範囲は(70−79,0.9−1.0)で
あり、セット3は(80−89,1.0−1.1)であ
る。比較を行ったアルゴリズムは、バイナリ、グレイレ
ベル、N最良探索によるグレイレベルであり、いずれも
継続時間に制約がある。
【0046】認識結果にアクセスするに当たり、あまり
重要でない相違がいくつかある。N=1の場合、実験に
より、逆方向探索による継続時間補正の効果が明らかに
みとめられた。したがって、認識されたワードは、継続
時間の補正を伴う逆方向探索が完了した直後に、スタッ
クの最上位から直接出てきたワードである。後処理は一
切行っていない。N=10の場合、辞書チェックが実行
され、スタックの最上位から開始して、上から下の順に
10候補すべての探索が行われる。ここでは、辞書内で
検出できたワードについての第1仮説が出力される。最
上位の10候補のいずれも辞書で見つからない場合は、
最上位の1候補が出力として採用される。バイナリ技法
では、グレイレベル技法に代わり、第1コンポーネント
としてしきい値画素値(0または1)の特徴ベクトルを
用いる。採用されるしきい値アルゴリズムは、上記した
通り、特徴ベクトルの第3コンポーネントを抽出する際
に用いられるのと同じアルゴリズムである。残りのベク
トルコンポーネントは、グレイレベル技法と全く同じで
ある。このため、2つの技法は好対照となる。
重要でない相違がいくつかある。N=1の場合、実験に
より、逆方向探索による継続時間補正の効果が明らかに
みとめられた。したがって、認識されたワードは、継続
時間の補正を伴う逆方向探索が完了した直後に、スタッ
クの最上位から直接出てきたワードである。後処理は一
切行っていない。N=10の場合、辞書チェックが実行
され、スタックの最上位から開始して、上から下の順に
10候補すべての探索が行われる。ここでは、辞書内で
検出できたワードについての第1仮説が出力される。最
上位の10候補のいずれも辞書で見つからない場合は、
最上位の1候補が出力として採用される。バイナリ技法
では、グレイレベル技法に代わり、第1コンポーネント
としてしきい値画素値(0または1)の特徴ベクトルを
用いる。採用されるしきい値アルゴリズムは、上記した
通り、特徴ベクトルの第3コンポーネントを抽出する際
に用いられるのと同じアルゴリズムである。残りのベク
トルコンポーネントは、グレイレベル技法と全く同じで
ある。このため、2つの技法は好対照となる。
【0047】実験の結果は、図10に示されている。図
10を検討した結果、以下の点が明らかになった。 ●グレイレベル技法は、トレーニングセットとして同様
に劣化したデータセットに対し、OCRの性能を2%以
上向上させる働きをする。ワードにノイズが増え不明瞭
になるにつれて、グレイレベル技法がより優れた技法で
あることが明らかになる。 ●N最良仮説技法は、確度を大幅に改善するだけでな
く、システムのロバスト性も向上するという点で、グレ
イレベルシステムの性能を大幅に押し上げる。 ●N=1は、N最良探索の特殊なケースである。N=1
であることから、後処理のための任意仮説はなく、逆方
向探索後に最適出力が1度だけ行われる。この実験の値
から、後処理の要求を受けずに継続時間修正された最良
候補を取得すると、性能が大幅に向上することがわか
る。したがって、上記の強化による性能改善に、逆方向
継続時間修正が非常に重要な役割を果たすことが明らか
である。 ●N最良仮説技法は、認識の性能を改善させるうえで非
常に能率的であることが立証された。さらに、N=10
にするだけで、認識率とロバスト性に著しい向上がみと
められた。Nの値を大きくすれば、一層の改善が期待で
きる。注目したいのは、実験結果により、改善の半分近
くがN=2または3でみとめられたことである。このた
め、能率的には一層の優越性が得られることが確実であ
る。 ●グレイレベル技法により、ほとんどコンピュータの計
算を増やさずに、また、メモリ空間をあまり増加させず
に、大幅な性能の改善が可能になる。メモリ空間は、観
測コンポーネントのひとつに対してのみ増加し、パス探
索に要するメモリ空間に比べ、非常に小さい部分を占め
るにすぎない。コンピュータ計算に関して、ここでは別
のケースを対象に、テーブルルッキング法により観測確
率を検出したところ、レベルが2でも200でも、レベ
ル数は重大な影響を及ぼさないことが判明した。
10を検討した結果、以下の点が明らかになった。 ●グレイレベル技法は、トレーニングセットとして同様
に劣化したデータセットに対し、OCRの性能を2%以
上向上させる働きをする。ワードにノイズが増え不明瞭
になるにつれて、グレイレベル技法がより優れた技法で
あることが明らかになる。 ●N最良仮説技法は、確度を大幅に改善するだけでな
く、システムのロバスト性も向上するという点で、グレ
イレベルシステムの性能を大幅に押し上げる。 ●N=1は、N最良探索の特殊なケースである。N=1
であることから、後処理のための任意仮説はなく、逆方
向探索後に最適出力が1度だけ行われる。この実験の値
から、後処理の要求を受けずに継続時間修正された最良
候補を取得すると、性能が大幅に向上することがわか
る。したがって、上記の強化による性能改善に、逆方向
継続時間修正が非常に重要な役割を果たすことが明らか
である。 ●N最良仮説技法は、認識の性能を改善させるうえで非
常に能率的であることが立証された。さらに、N=10
にするだけで、認識率とロバスト性に著しい向上がみと
められた。Nの値を大きくすれば、一層の改善が期待で
きる。注目したいのは、実験結果により、改善の半分近
くがN=2または3でみとめられたことである。このた
め、能率的には一層の優越性が得られることが確実であ
る。 ●グレイレベル技法により、ほとんどコンピュータの計
算を増やさずに、また、メモリ空間をあまり増加させず
に、大幅な性能の改善が可能になる。メモリ空間は、観
測コンポーネントのひとつに対してのみ増加し、パス探
索に要するメモリ空間に比べ、非常に小さい部分を占め
るにすぎない。コンピュータ計算に関して、ここでは別
のケースを対象に、テーブルルッキング法により観測確
率を検出したところ、レベルが2でも200でも、レベ
ル数は重大な影響を及ぼさないことが判明した。
【0048】観測ベクトルでは、わずか1コンポーネン
トが実際にはグレイレベル固有のものである。他のすべ
てのコンポーネントは、バイナリシステムとグレイレベ
ルシステムの両方と同じである。このようなグレイレベ
ルの特徴をさらに加えれば、一層の改善が期待できる。
取得した画像に継続時間ペナルティを加える別の実施態
様は、順方向と逆方向のいずれの探索においても継続時
間を考慮せずに、元の広域N最良仮説探索を利用すると
いうものである。すべての仮説が検出された後、各仮説
に対する継続時間確率が後処理に組み込まれる。この技
法を用いて行われた実験では、従来のビタビ認識方式で
認識できなかったケースのほとんどは、Nが、例えば、
N=50などの非常に大きい値になるまで、大抵の場
合、正しい仮説によってN最良探索が行われることはな
い。したがって、仮説探索技法に対するコンピュータ計
算は大幅に増加し、能率も著しく悪化する。仮説探索技
法は、仮説に後処理を行って認識率を高め、かつ正しい
仮説を検出することを目的にしており、これが、前記技
法の利点である。しかし、継続時間ペナルティをまず初
めに順方向ビタビ探索に組み込んでから、次に、逆方向
探索に組み込むことにより、継続時間修正を行って、不
合理なマッチングを伴う仮説を削除することができた。
このようにして、より信憑性の高いワード、すなわち、
よく似た文字数および/またはよく似たトポロジを有す
るワードだけが検出される。このことは、印刷の質が悪
い文書画像を扱う場合は特に重要である。
トが実際にはグレイレベル固有のものである。他のすべ
てのコンポーネントは、バイナリシステムとグレイレベ
ルシステムの両方と同じである。このようなグレイレベ
ルの特徴をさらに加えれば、一層の改善が期待できる。
取得した画像に継続時間ペナルティを加える別の実施態
様は、順方向と逆方向のいずれの探索においても継続時
間を考慮せずに、元の広域N最良仮説探索を利用すると
いうものである。すべての仮説が検出された後、各仮説
に対する継続時間確率が後処理に組み込まれる。この技
法を用いて行われた実験では、従来のビタビ認識方式で
認識できなかったケースのほとんどは、Nが、例えば、
N=50などの非常に大きい値になるまで、大抵の場
合、正しい仮説によってN最良探索が行われることはな
い。したがって、仮説探索技法に対するコンピュータ計
算は大幅に増加し、能率も著しく悪化する。仮説探索技
法は、仮説に後処理を行って認識率を高め、かつ正しい
仮説を検出することを目的にしており、これが、前記技
法の利点である。しかし、継続時間ペナルティをまず初
めに順方向ビタビ探索に組み込んでから、次に、逆方向
探索に組み込むことにより、継続時間修正を行って、不
合理なマッチングを伴う仮説を削除することができた。
このようにして、より信憑性の高いワード、すなわち、
よく似た文字数および/またはよく似たトポロジを有す
るワードだけが検出される。このことは、印刷の質が悪
い文書画像を扱う場合は特に重要である。
【0049】継続時間制約のある疑似2次元HMM (1次元)HMMについての詳細は、参照[3]を参照
する。本書では、図11のみを用いて、画素ストリング
のモデル作成に1次元HMMを使用した場合の対応を示
している。図1では、図11の画素ストリングを2次元
画像に拡張している。その下の状態図は、1次元HMM
を「疑似2次元」HMMに拡張した場合の対応を示して
いる。「疑似」は、完全に接続された2次元ネットワー
クではないという意味で疑似であるが、2次元ワード画
像を表す程度の融通性は有している。大きい楕円形を、
「超状態」と呼ぶ。各超状態は、1次元HMMである。
「超状態」という名称は、2次元モデルにおいて1次元
モデルの状態のように振る舞うが、1次元モデルの状態
よりもはるかに多くの情報を含んでいるという意味から
きている。文字画像の下の番号順は、観測値として対応
カラムを生成するための可能超状態遷移の順番を表して
いる。すなわち、超状態は、観測ユニットとしてカラム
を生成する。各超状態内では、図11に示すように、1
次元HMMの状態が各カラム内の画素に対応している。
すなわち、これらの画素は、状態の観測ユニットであ
る。
する。本書では、図11のみを用いて、画素ストリング
のモデル作成に1次元HMMを使用した場合の対応を示
している。図1では、図11の画素ストリングを2次元
画像に拡張している。その下の状態図は、1次元HMM
を「疑似2次元」HMMに拡張した場合の対応を示して
いる。「疑似」は、完全に接続された2次元ネットワー
クではないという意味で疑似であるが、2次元ワード画
像を表す程度の融通性は有している。大きい楕円形を、
「超状態」と呼ぶ。各超状態は、1次元HMMである。
「超状態」という名称は、2次元モデルにおいて1次元
モデルの状態のように振る舞うが、1次元モデルの状態
よりもはるかに多くの情報を含んでいるという意味から
きている。文字画像の下の番号順は、観測値として対応
カラムを生成するための可能超状態遷移の順番を表して
いる。すなわち、超状態は、観測ユニットとしてカラム
を生成する。各超状態内では、図11に示すように、1
次元HMMの状態が各カラム内の画素に対応している。
すなわち、これらの画素は、状態の観測ユニットであ
る。
【0050】PHMMは、次に説明するパラメータセッ
トにより完全に指定できる。式を明確にするために、こ
こでは、異なるPHMMが異なる値を有する同一のパラ
メータセットを持つことを条件に、モデル指標を省略す
る。
トにより完全に指定できる。式を明確にするために、こ
こでは、異なるPHMMが異なる値を有する同一のパラ
メータセットを持つことを条件に、モデル指標を省略す
る。
【0051】1.Nは、モデルの超状態数である。本ア
プリケーションでは、Nは、画像のトポロジによって決
まる。例えば、図1では、似たようなカラムをグループ
にまとめることによって、3つの超状態を有するPHM
Mは、文字の特性を充分に示している。
プリケーションでは、Nは、画像のトポロジによって決
まる。例えば、図1では、似たようなカラムをグループ
にまとめることによって、3つの超状態を有するPHM
Mは、文字の特性を充分に示している。
【0052】2.Dは、文字に対する継続時間確率であ
る。mが文字の継続時間であるとした場合、以下の式が
成り立つ。 D(x)=P(m=x) ただし、mは、カラム単位である。
る。mが文字の継続時間であるとした場合、以下の式が
成り立つ。 D(x)=P(m=x) ただし、mは、カラム単位である。
【0053】3.Ds:Di0≦i≦N−1は、超状態の
継続時間確率である。mが超状態iの継続時間であれ
ば、 Di(x)=P(m=x) ただし、mは、カラム単位である。
継続時間確率である。mが超状態iの継続時間であれ
ば、 Di(x)=P(m=x) ただし、mは、カラム単位である。
【0054】4.A=aij:0≦i≦N−1;i≦j≦
i+1は、超状態遷移確率分布である。図1に示すよう
に、超状態遷移は、カラムからカラムへ(この場合、左
から右へ)移動するときに発生する。Skがカラムkの
超状態であるとした場合、aijは、以下のように定義で
きる。
i+1は、超状態遷移確率分布である。図1に示すよう
に、超状態遷移は、カラムからカラムへ(この場合、左
から右へ)移動するときに発生する。Skがカラムkの
超状態であるとした場合、aijは、以下のように定義で
きる。
【数10】 本アプリケーションでは、超状態のスキップは、1つで
も認められていない。すなわち、次の超状態または同じ
超状態への遷移だけが可能である。
も認められていない。すなわち、次の超状態または同じ
超状態への遷移だけが可能である。
【0055】5.Λ={λj:0≦i≦N−1}は、各
超状態(楕円形)内の垂直1次元モデルを指定するパラ
メータセットである。j番目の超状態では、λjが以下
の要素から成り立っている。 ●Njは、超状態j内の1次元HMMの状態数である。
Nと同様に、Njは、文字のトポロジによっても決定さ
れる。 ●Dj/i={Dj/i0≦i≦Nj−1}は、各状態
に対する継続時間確率である。mが超状態jの状態iに
対する継続時間であれば、Dj/i=P(m=x)であ
る。ただし、mは、画素単位である。 ●Aj={aj/ki:0<=k<=Nj−1;k<=
i<=k+1”} 超状態jの状態kがsj/kであり、かつ座標(x,
y)の画素の状態がqxyであると定義した場合、以下の
式が成り立つ。
超状態(楕円形)内の垂直1次元モデルを指定するパラ
メータセットである。j番目の超状態では、λjが以下
の要素から成り立っている。 ●Njは、超状態j内の1次元HMMの状態数である。
Nと同様に、Njは、文字のトポロジによっても決定さ
れる。 ●Dj/i={Dj/i0≦i≦Nj−1}は、各状態
に対する継続時間確率である。mが超状態jの状態iに
対する継続時間であれば、Dj/i=P(m=x)であ
る。ただし、mは、画素単位である。 ●Aj={aj/ki:0<=k<=Nj−1;k<=
i<=k+1”} 超状態jの状態kがsj/kであり、かつ座標(x,
y)の画素の状態がqxyであると定義した場合、以下の
式が成り立つ。
【数11】 ●Bj={bj/1(Oxy):0<=i<+Nj−1}
は、超状態jの状態iにおいて、観測ベクトルとしてO
xyを有している観測確率である。すなわち、bj/1
(Oxy)=P(Oxy qxy=sj/1)である。ただ
し、Oxyは、位置(x,y)の画素に対する観測ベクト
ルである。超状態レベルの各モデルにはBパラメータが
全くないことに注意されたい。その理由は、次の説明に
より明らかになるであろう。
は、超状態jの状態iにおいて、観測ベクトルとしてO
xyを有している観測確率である。すなわち、bj/1
(Oxy)=P(Oxy qxy=sj/1)である。ただ
し、Oxyは、位置(x,y)の画素に対する観測ベクト
ルである。超状態レベルの各モデルにはBパラメータが
全くないことに注意されたい。その理由は、次の説明に
より明らかになるであろう。
【0056】特徴の抽出 (x,y)に配置された各画素の観測ベクトルOxyには
3つのコンポーネントがある。観測ベクトルの第1コン
ポーネントO1/xyは、次のように計算される。
3つのコンポーネントがある。観測ベクトルの第1コン
ポーネントO1/xyは、次のように計算される。
【数12】 ただし、mi,jは、(i,j)に配置された画素のグレ
イレベルであり、cxyは、3画素x3画素の核から成
る。この核の重み付けが、図4に示されている。すなわ
ち、この核は、全体画像の畳込みに用いられる。その目
的は、ノイズにより生じたグレイレベル値の不揃いの影
響を減らすことである。つまり、周囲の画素も、中心画
素に対する特徴評価の一助となっている。また、結果と
して得られる(0から255までの)画素のグレイレベ
ル値は、100レベルに量子化される。
イレベルであり、cxyは、3画素x3画素の核から成
る。この核の重み付けが、図4に示されている。すなわ
ち、この核は、全体画像の畳込みに用いられる。その目
的は、ノイズにより生じたグレイレベル値の不揃いの影
響を減らすことである。つまり、周囲の画素も、中心画
素に対する特徴評価の一助となっている。また、結果と
して得られる(0から255までの)画素のグレイレベ
ル値は、100レベルに量子化される。
【0057】第2コンポーネントは、カラム内の各画素
の相対位置である。文書のレイアウト分析の後、ベース
ラインの位置とトップラインおよびベースライン間の差
が明らかになるものと想定している(トップラインとベ
ースラインの定義については、図3を参照)。第2コン
ポーネントの実際の値は、次式により求められる。 第2コンポーネント=特徴画素からベースラインまでの
距離(画素単位)//トップラインからベースラインま
での距離 この式により、50レベルに量子化される。明らかに、
この値は、印字文字のポイントサイズにかかわらず、
g、p、qの一部であるカラム内の各画素の位置に対し
て、マイナスになるはずである。このように、前記特徴
は、異なるアプリケーションにおいて、一層ロバスト性
が強化される。
の相対位置である。文書のレイアウト分析の後、ベース
ラインの位置とトップラインおよびベースライン間の差
が明らかになるものと想定している(トップラインとベ
ースラインの定義については、図3を参照)。第2コン
ポーネントの実際の値は、次式により求められる。 第2コンポーネント=特徴画素からベースラインまでの
距離(画素単位)//トップラインからベースラインま
での距離 この式により、50レベルに量子化される。明らかに、
この値は、印字文字のポイントサイズにかかわらず、
g、p、qの一部であるカラム内の各画素の位置に対し
て、マイナスになるはずである。このように、前記特徴
は、異なるアプリケーションにおいて、一層ロバスト性
が強化される。
【0058】第3コンポーネントの値は、画素が存在す
る主ストロークの方向である。本発明では、全体画像に
しきい値を採用している(しきい値アルゴリズムについ
ては、実験条件の箇所で説明している)。各画素ごと
に、0度、45度、90度、135度の4方向に伸びる
(連続した黒い画素による)ストロークの長さを計算
し、さらに、主ストローク方向としてその画素を通る最
長のストロークを選択する。第5番目の「方向」は、背
景の画素に対するものであり、方向やストロークについ
ては一切の定義がされていない。したがって、このコン
ポーネントは、5つのそれぞれ異なる値を有している。
る主ストロークの方向である。本発明では、全体画像に
しきい値を採用している(しきい値アルゴリズムについ
ては、実験条件の箇所で説明している)。各画素ごと
に、0度、45度、90度、135度の4方向に伸びる
(連続した黒い画素による)ストロークの長さを計算
し、さらに、主ストローク方向としてその画素を通る最
長のストロークを選択する。第5番目の「方向」は、背
景の画素に対するものであり、方向やストロークについ
ては一切の定義がされていない。したがって、このコン
ポーネントは、5つのそれぞれ異なる値を有している。
【0059】PHMM用入れ子型ビタビアルゴリズム ビタビ復号法アルゴリズムの基本構造は、参照[3]お
よび参照[4]などの多くの文献に見ることができる。
図12は、PHMMによるビタビ探索完了後に得られた
他のパスの中の3つのパスを示している。このビタビ探
索は、(Nフレーム/カラムを有する)完全ワード画像
と4つの超状態を有するPHMMの間で実行される。各
パスは、モデルと画像の間の可能性としてあり得る一致
を表している。bj(Oi)が、超状態jによってカラム
iの観測が行われる尤度であり、aklが、超状態kか
ら超状態lまでの超状態遷移確率であれば、パスAの尤
度は、−log()法により、以下の式で表される。 b0(O0)+a02+b2(O1)+a22+b2(O2)+a
23+b3(O3)+a33+b3(O4)+a33+b3(O5)
+・・・+a33+b3(ON−1)
よび参照[4]などの多くの文献に見ることができる。
図12は、PHMMによるビタビ探索完了後に得られた
他のパスの中の3つのパスを示している。このビタビ探
索は、(Nフレーム/カラムを有する)完全ワード画像
と4つの超状態を有するPHMMの間で実行される。各
パスは、モデルと画像の間の可能性としてあり得る一致
を表している。bj(Oi)が、超状態jによってカラム
iの観測が行われる尤度であり、aklが、超状態kか
ら超状態lまでの超状態遷移確率であれば、パスAの尤
度は、−log()法により、以下の式で表される。 b0(O0)+a02+b2(O1)+a22+b2(O2)+a
23+b3(O3)+a33+b3(O4)+a33+b3(O5)
+・・・+a33+b3(ON−1)
【0060】超状態jによりカラムiを生成する尤度で
あるbj(Oi)を検出するには、まず初めに、超状態j
内の1次元HMMとカラムiの画素との最良の一致を検
出しなければならない。その箇所は、図5の下方部分に
見られるように、状態レベルのビタビ探索が適合する位
置である。このビタビ探索は、第2超状態の1次元HM
Mと第1カラム内の画素との間の別のビタビ探索であ
る。これにより、前記超状態によって(または、前記1
次元HMMによって)作成された上記カラムの尤度が得
られる。状態レベルビタビ探索の最適パス尤度点数は、
上の式に必要な尤度点数b2(O1)と全く同じである。
したがって、次の式が成り立つ。
あるbj(Oi)を検出するには、まず初めに、超状態j
内の1次元HMMとカラムiの画素との最良の一致を検
出しなければならない。その箇所は、図5の下方部分に
見られるように、状態レベルのビタビ探索が適合する位
置である。このビタビ探索は、第2超状態の1次元HM
Mと第1カラム内の画素との間の別のビタビ探索であ
る。これにより、前記超状態によって(または、前記1
次元HMMによって)作成された上記カラムの尤度が得
られる。状態レベルビタビ探索の最適パス尤度点数は、
上の式に必要な尤度点数b2(O1)と全く同じである。
したがって、次の式が成り立つ。
【数13】 ただし、Mは、1カラム内の画素の総数である。すなわ
ち、超状態レベルのビタビ探索では、bi(Oj)を必要
とする度に、入れ子型状態レベルビタビ探索を開始し
て、前記尤度点数を検出する。この理由により、前記技
法を入れ子型ビタビ探索と呼んでいる。
ち、超状態レベルのビタビ探索では、bi(Oj)を必要
とする度に、入れ子型状態レベルビタビ探索を開始し
て、前記尤度点数を検出する。この理由により、前記技
法を入れ子型ビタビ探索と呼んでいる。
【0061】注意しなければならないのは、上の式の左
辺のbi(Oj)と右辺のBj={bj i(Oxy)}との差
である。前者は、超状態の1次元HMMによって作成さ
れたカラムの尤度である。前記尤度は、カラムごとに異
なっており、可能な値の数については無限である。後者
は、1状態によって作成された画素の尤度であり、非連
続的観測を行った場合に有限となり、トレーニングによ
り連続的な観測を行えばパラメータ形式になる。このた
め、後者は、モデルパラメータの一部であり、前者は
(少なくとも実際的な意味では)その限りではない。こ
の入れ子型ビタビアルゴリズムは、トレーニングおよび
認識プロセスの極めて重大な部分である。簡潔に言え
ば、PHMM用入れ子型ビタビアルゴリズムは、主要な
1次元ビタビ探索であり、左から右へカラムごとに、ワ
ード画像と複数のモデルの間に見られる最良の一致を検
出する。また、画像の各カラムと各モデルの各超状態と
の間には、別の1次元ビタビ探索が用いられ、上から下
へ画素ごとに、各カラム内の画素と状態との最良の一致
を検出する。この入れ子型構造は、図12に明確に示さ
れており、図の上部に画像とPHMMの間の主要ビタビ
探索が示されており、図の下部に1次元探索が適合する
箇所が示されている。ビタビ探索は、最後のフレームが
終わるまで、左から右へ行われる。これにより、PHM
Mによって生成されている画像の全体的な尤度が得られ
る。
辺のbi(Oj)と右辺のBj={bj i(Oxy)}との差
である。前者は、超状態の1次元HMMによって作成さ
れたカラムの尤度である。前記尤度は、カラムごとに異
なっており、可能な値の数については無限である。後者
は、1状態によって作成された画素の尤度であり、非連
続的観測を行った場合に有限となり、トレーニングによ
り連続的な観測を行えばパラメータ形式になる。このた
め、後者は、モデルパラメータの一部であり、前者は
(少なくとも実際的な意味では)その限りではない。こ
の入れ子型ビタビアルゴリズムは、トレーニングおよび
認識プロセスの極めて重大な部分である。簡潔に言え
ば、PHMM用入れ子型ビタビアルゴリズムは、主要な
1次元ビタビ探索であり、左から右へカラムごとに、ワ
ード画像と複数のモデルの間に見られる最良の一致を検
出する。また、画像の各カラムと各モデルの各超状態と
の間には、別の1次元ビタビ探索が用いられ、上から下
へ画素ごとに、各カラム内の画素と状態との最良の一致
を検出する。この入れ子型構造は、図12に明確に示さ
れており、図の上部に画像とPHMMの間の主要ビタビ
探索が示されており、図の下部に1次元探索が適合する
箇所が示されている。ビタビ探索は、最後のフレームが
終わるまで、左から右へ行われる。これにより、PHM
Mによって生成されている画像の全体的な尤度が得られ
る。
【0062】PHMM用レベル構築アルゴリズム 連結文字認識の場合、ワード画像は、すべての文字から
予想可能なPHMMのあらゆる組み合わせとマッチング
しなければならない。図13に示すように、ビタビ探索
パスが1レベルを通過した場合、フレームの1セクショ
ンとHMMの間に一致が検出されたことを意味してい
る。図12に示すように、出口点は、1レベル内のこの
ような一致の可能終了点である。図13は、図12を拡
張した図であり、すべての可能文字モデルに対応するた
めさらに1次元加え、最適なモデルの組み合わせを探索
するレベルを構成している。フレーム4におけるモデル
「a」の出口点は、フレーム5から上に向かって、レベ
ル2のモデル「a」の別の一致に連結されている。この
パスは、フレーム0からフレーム4までの文字「a」、
さらに、フレーム5から上の別の「a」についての可能
な認識を表している。この間ほとんど常に、各開始点
(例えば、図13のSのような、各レベルで見込まれて
いる新規パスの第1ノード)に対し、選択を行う開始点
の直前のフレームおよび直前のレベルで利用可能な出口
点を有するモデルが1以上(1を含まず)存在する。ビ
タビアルゴリズムにより各ノードの到来パスを選択する
規則と同様に、パスを継続する出口を選択する規則につ
いては、以下に述べる通りである。
予想可能なPHMMのあらゆる組み合わせとマッチング
しなければならない。図13に示すように、ビタビ探索
パスが1レベルを通過した場合、フレームの1セクショ
ンとHMMの間に一致が検出されたことを意味してい
る。図12に示すように、出口点は、1レベル内のこの
ような一致の可能終了点である。図13は、図12を拡
張した図であり、すべての可能文字モデルに対応するた
めさらに1次元加え、最適なモデルの組み合わせを探索
するレベルを構成している。フレーム4におけるモデル
「a」の出口点は、フレーム5から上に向かって、レベ
ル2のモデル「a」の別の一致に連結されている。この
パスは、フレーム0からフレーム4までの文字「a」、
さらに、フレーム5から上の別の「a」についての可能
な認識を表している。この間ほとんど常に、各開始点
(例えば、図13のSのような、各レベルで見込まれて
いる新規パスの第1ノード)に対し、選択を行う開始点
の直前のフレームおよび直前のレベルで利用可能な出口
点を有するモデルが1以上(1を含まず)存在する。ビ
タビアルゴリズムにより各ノードの到来パスを選択する
規則と同様に、パスを継続する出口を選択する規則につ
いては、以下に述べる通りである。
【0063】レベルj+1およびフレームk+1のモデ
ルiの超状態0から開始するパスの場合、最良の出口点
は、レベルjおよびフレームkの全モデルの最終超状態
の中で最小累積尤度点数を有していなければならない。
すなわち、まず初めに、どの文字モデルから最適パスが
入ってきたのか検出できる。これが文字モデルmとすれ
ば、mは、次の条件を満たさなければならない。
ルiの超状態0から開始するパスの場合、最良の出口点
は、レベルjおよびフレームkの全モデルの最終超状態
の中で最小累積尤度点数を有していなければならない。
すなわち、まず初めに、どの文字モデルから最適パスが
入ってきたのか検出できる。これが文字モデルmとすれ
ば、mは、次の条件を満たさなければならない。
【数14】 ただし、like(s,i,j,k)は、モデルiおよ
びレベルjの超状態におけるフレーム0からフレームk
までの累積パス尤度である。この場合、smはモデルm
の最終超状態であり、Mはモデル総数である。また、v
isit==1は、このノードに少なくとも1以上のパ
スが到達し、出口ノードとして認められている。新たな
レベルへの拡張を開始するパスは、直前のフレームおよ
び直前のレベルにおいて利用可能なすべての出口を全モ
デルにわたって探している。また、前記パスは、上記出
口を、同じモデルと同じレベルから入ってきたパス、す
なわち、直前のフレームから開始した上記レベルに存在
していたパスと比較しなければならない。そのうちの最
良到来パスは、新規パスの起点として選択される。図1
3を例にとると、レベル1で利用可能な出口が2つあ
る。ひとつはモデル「a」にあり、もうひとつはモデル
「c」にあり、いずれもフレーム4にある。前記出口と
レベル2(パスが存在する場合)のモデル「a」のフレ
ーム4から入ってきたパスを比較した後、レベル1のモ
デル「a」の超状態3の出口が選択されたものとみな
し、レベル2において拡張を開始する。このパスは、フ
レーム0からフレーム4までの「a」と、さらに、フレ
ーム5以上の別の「a」の認識を可能にする。「c」の
出口が選択された場合、結果は、フレーム0からフレー
ム4までの「c」とフレーム5以上の「a」となる。
びレベルjの超状態におけるフレーム0からフレームk
までの累積パス尤度である。この場合、smはモデルm
の最終超状態であり、Mはモデル総数である。また、v
isit==1は、このノードに少なくとも1以上のパ
スが到達し、出口ノードとして認められている。新たな
レベルへの拡張を開始するパスは、直前のフレームおよ
び直前のレベルにおいて利用可能なすべての出口を全モ
デルにわたって探している。また、前記パスは、上記出
口を、同じモデルと同じレベルから入ってきたパス、す
なわち、直前のフレームから開始した上記レベルに存在
していたパスと比較しなければならない。そのうちの最
良到来パスは、新規パスの起点として選択される。図1
3を例にとると、レベル1で利用可能な出口が2つあ
る。ひとつはモデル「a」にあり、もうひとつはモデル
「c」にあり、いずれもフレーム4にある。前記出口と
レベル2(パスが存在する場合)のモデル「a」のフレ
ーム4から入ってきたパスを比較した後、レベル1のモ
デル「a」の超状態3の出口が選択されたものとみな
し、レベル2において拡張を開始する。このパスは、フ
レーム0からフレーム4までの「a」と、さらに、フレ
ーム5以上の別の「a」の認識を可能にする。「c」の
出口が選択された場合、結果は、フレーム0からフレー
ム4までの「c」とフレーム5以上の「a」となる。
【0064】PHMMを用いた入れ子型ビタビ探索によ
るアルゴリズムを構成する上記レベルについて要約する
と、以下のようになる。 /*超状態レベルのビタビ探索を開始*/(ブロック1
401) 左から右への全カラムにわたるループ(ブロック140
3) 0から最大レベルへの全レベルにわたるループ(ブロッ
ク1405) 0から最大モデルへの全モデルにわたるループ(ブロッ
ク1407) 0からNまでの全超状態にわたるループ(ブロック14
09) 現超状態に向かう最良到来パスを検出(ブロック141
1) 現超状態(1次元モデル)およびカラム間の尤度点数を
検出(ブロック1413) /*状態レベルのビタビ探索を開始*/(ブロック14
15) トップからボトムまでのカラムの全画素にわたるループ
(ブロック1417) 1次元モデルの全状態にわたるループ(ブロック141
9) 現超状態に向かう最良到来パスを検出(ブロック142
1) 現超状態および画素観測間の尤度点数を検出(ブロック
1423) 適用可能であれば、状態レベルのパス延長線を作成(ブ
ロック1425) ループ制御(ブロック1427) ループ制御(ブロック1429) 適用可能であれば、超状態レベルのパス延長線を作成
(ブロック1431) ループ制御(ブロック1433) ループ制御(ブロック1435) ループ制御(ブロック1437) ループ制御(ブロック1439)
るアルゴリズムを構成する上記レベルについて要約する
と、以下のようになる。 /*超状態レベルのビタビ探索を開始*/(ブロック1
401) 左から右への全カラムにわたるループ(ブロック140
3) 0から最大レベルへの全レベルにわたるループ(ブロッ
ク1405) 0から最大モデルへの全モデルにわたるループ(ブロッ
ク1407) 0からNまでの全超状態にわたるループ(ブロック14
09) 現超状態に向かう最良到来パスを検出(ブロック141
1) 現超状態(1次元モデル)およびカラム間の尤度点数を
検出(ブロック1413) /*状態レベルのビタビ探索を開始*/(ブロック14
15) トップからボトムまでのカラムの全画素にわたるループ
(ブロック1417) 1次元モデルの全状態にわたるループ(ブロック141
9) 現超状態に向かう最良到来パスを検出(ブロック142
1) 現超状態および画素観測間の尤度点数を検出(ブロック
1423) 適用可能であれば、状態レベルのパス延長線を作成(ブ
ロック1425) ループ制御(ブロック1427) ループ制御(ブロック1429) 適用可能であれば、超状態レベルのパス延長線を作成
(ブロック1431) ループ制御(ブロック1433) ループ制御(ブロック1435) ループ制御(ブロック1437) ループ制御(ブロック1439)
【0065】PHMMへの継続時間ペナルティの組み込
み 入れ子型ビタビ探索構造において、パス探索プロセスの
一部として継続時間ペナルティの組み込みを行いたい場
合、次のように、尤度は、各ノードにおいてパスに沿っ
て更新されなければならない。 like(i,k)=最大[like(i,t−1)+
a(i,i),like(i−1,t−1)+a(i−
1,i)+状態(または超状態,文字)継続時間ペナル
ティ]+bi(Ok); ただし、bi(bOk)は、ノードi(前記の通り、超状
態でも状態でもよい)の尤度であり、like(i,
k)は、ノードiおよびフレーム(または画素)kまで
累積されたパス尤度点数であり、また、継続時間ペナル
ティは、継続時間確率のマイナスの対数尺度である。本
発明のアプリケーションでは、状態、超状態、および文
字の継続時間の長さのヒストグラムを計算することによ
り、トレーニングを通じて継続時間確率を検出する。状
態のヒストグラムは画素単位で、超状態および文字のヒ
ストグラムはカラム単位で計算される。この式からわか
るように、異なる状態、超状態、または文字の間で遷移
が起きる場合に限り、継続時間ペナルティが加えられ
る。文字継続時間ペナルティは、文字モデルの最終超状
態からの遷移が発生するときに、超状態継続時間ペナル
ティの上に加えられる。このようにして、継続時間ペナ
ルティは、後処理としてではなく、順方向探索に組み込
むことができる。実験から、上記の組み込みによって、
認識の性能が大幅に改善されることが明らかである。N
最良技法では、組み込みによってより最適なワード候補
を提供することもでき、最良候補が正しくない場合は、
特に有効である。さらに、適正な高水準後処理の探索サ
イズを大幅に減少させることも可能である(例えば、辞
書チェック)。
み 入れ子型ビタビ探索構造において、パス探索プロセスの
一部として継続時間ペナルティの組み込みを行いたい場
合、次のように、尤度は、各ノードにおいてパスに沿っ
て更新されなければならない。 like(i,k)=最大[like(i,t−1)+
a(i,i),like(i−1,t−1)+a(i−
1,i)+状態(または超状態,文字)継続時間ペナル
ティ]+bi(Ok); ただし、bi(bOk)は、ノードi(前記の通り、超状
態でも状態でもよい)の尤度であり、like(i,
k)は、ノードiおよびフレーム(または画素)kまで
累積されたパス尤度点数であり、また、継続時間ペナル
ティは、継続時間確率のマイナスの対数尺度である。本
発明のアプリケーションでは、状態、超状態、および文
字の継続時間の長さのヒストグラムを計算することによ
り、トレーニングを通じて継続時間確率を検出する。状
態のヒストグラムは画素単位で、超状態および文字のヒ
ストグラムはカラム単位で計算される。この式からわか
るように、異なる状態、超状態、または文字の間で遷移
が起きる場合に限り、継続時間ペナルティが加えられ
る。文字継続時間ペナルティは、文字モデルの最終超状
態からの遷移が発生するときに、超状態継続時間ペナル
ティの上に加えられる。このようにして、継続時間ペナ
ルティは、後処理としてではなく、順方向探索に組み込
むことができる。実験から、上記の組み込みによって、
認識の性能が大幅に改善されることが明らかである。N
最良技法では、組み込みによってより最適なワード候補
を提供することもでき、最良候補が正しくない場合は、
特に有効である。さらに、適正な高水準後処理の探索サ
イズを大幅に減少させることも可能である(例えば、辞
書チェック)。
【0066】バックトレーシング 本発明による順方向(左から右へ)ビタビ探索プロセス
では、超状態レベルのいずれのノードにおいても、将来
使用するうえで必要になるすべての情報を記録する。必
要な情報は、トレーニングおよび認識の目的により異な
る場合がある。認識(N最良探索を伴わない)を目的と
する場合、終端ノードから開始ノードまで逆方向にどの
ように最適パスを追跡するか知っていればよい。パスの
終端ノードは、モデルの最終超状態、すなわち、観測の
最終フレームに位置する。この定義によれば、終端ノー
ドに複数のパスが到来していれば、本構造の全レベルの
全モデルに対して終端ノードは1つである。さらに、全
ノードの累積パス点数を比較し、そのうちの最良のもの
が最適パスの終端ノードになる。開始ノードは、ちょう
どこれと反対側にある。つまり、パスの観測の最初のフ
レームの最初のノード(超状態)である。当然、終端ノ
ードからパスを逆方向に追跡すれば、開始ノードで終了
する。最適パスの終端ノードを検出したと仮定して、こ
の最適パスに沿って逆方向に追跡する場合、現行ノード
の直前のノードがどのようなノードか知っている必要が
ある。つまり、この直前のノードが、どのようなレベル
やモデル、あるいは、超状態に属しているかである。バ
ックトレーシングがトレーニングを目的としている場
合、各モデル、超状態、および状態がどこで開始して終
了するかという点について、正確な画素およびカラム指
標に加え、各状態によって作成される全観測ベクトルに
よって正確に知っていなければならない。これだけで、
本発明によるモデルを更新する際に必要な情報はすべて
得られる。バックトレーシングの主な目的は、超状態レ
ベルにおける最適パスのフレーム単位の回復に加え、超
状態レベルにおける最適パスの各ノード内の状態レベル
における最適パスの画素単位の回復を行うことである。
簡単に言えば、超状態および状態レベルの両方で開始さ
れたビタビ探索の場合、必要な情報を得るために最適パ
スを逆方向に追跡しなければならない。このプロセスに
より必要となる基本的な情報は、現行ノード(超状態ま
たは状態)から最適パスに沿ってひとつ手前のノードま
でのリンク情報である。トレーニングおよび認識を目的
とした上記プロセスで得られた情報の正確な利用法につ
いて、以下に詳しく説明する。レベル構築構造における
前記バックトレーシングをまとめると、次のようになる
(図15)。 /*最終フレームから、検出された最適パスのバックト
レーシングを開始*/(ブロック1501) ループにより、最良パスから直前カラムのレベル、モデ
ル、超状態を検出(ブロック1503) 直前カラム内の最適パスのバックトレーシングを開始
(ブロック1505) ボトムからトップへの全画素にわたるループ(ブロック
1507) 最良パスによる直前画素の状態を検出(ブロック150
9) ループ制御(ブロック1511) ループ制御(ブロック1513)
では、超状態レベルのいずれのノードにおいても、将来
使用するうえで必要になるすべての情報を記録する。必
要な情報は、トレーニングおよび認識の目的により異な
る場合がある。認識(N最良探索を伴わない)を目的と
する場合、終端ノードから開始ノードまで逆方向にどの
ように最適パスを追跡するか知っていればよい。パスの
終端ノードは、モデルの最終超状態、すなわち、観測の
最終フレームに位置する。この定義によれば、終端ノー
ドに複数のパスが到来していれば、本構造の全レベルの
全モデルに対して終端ノードは1つである。さらに、全
ノードの累積パス点数を比較し、そのうちの最良のもの
が最適パスの終端ノードになる。開始ノードは、ちょう
どこれと反対側にある。つまり、パスの観測の最初のフ
レームの最初のノード(超状態)である。当然、終端ノ
ードからパスを逆方向に追跡すれば、開始ノードで終了
する。最適パスの終端ノードを検出したと仮定して、こ
の最適パスに沿って逆方向に追跡する場合、現行ノード
の直前のノードがどのようなノードか知っている必要が
ある。つまり、この直前のノードが、どのようなレベル
やモデル、あるいは、超状態に属しているかである。バ
ックトレーシングがトレーニングを目的としている場
合、各モデル、超状態、および状態がどこで開始して終
了するかという点について、正確な画素およびカラム指
標に加え、各状態によって作成される全観測ベクトルに
よって正確に知っていなければならない。これだけで、
本発明によるモデルを更新する際に必要な情報はすべて
得られる。バックトレーシングの主な目的は、超状態レ
ベルにおける最適パスのフレーム単位の回復に加え、超
状態レベルにおける最適パスの各ノード内の状態レベル
における最適パスの画素単位の回復を行うことである。
簡単に言えば、超状態および状態レベルの両方で開始さ
れたビタビ探索の場合、必要な情報を得るために最適パ
スを逆方向に追跡しなければならない。このプロセスに
より必要となる基本的な情報は、現行ノード(超状態ま
たは状態)から最適パスに沿ってひとつ手前のノードま
でのリンク情報である。トレーニングおよび認識を目的
とした上記プロセスで得られた情報の正確な利用法につ
いて、以下に詳しく説明する。レベル構築構造における
前記バックトレーシングをまとめると、次のようになる
(図15)。 /*最終フレームから、検出された最適パスのバックト
レーシングを開始*/(ブロック1501) ループにより、最良パスから直前カラムのレベル、モデ
ル、超状態を検出(ブロック1503) 直前カラム内の最適パスのバックトレーシングを開始
(ブロック1505) ボトムからトップへの全画素にわたるループ(ブロック
1507) 最良パスによる直前画素の状態を検出(ブロック150
9) ループ制御(ブロック1511) ループ制御(ブロック1513)
【0067】トレーニング モデルのトレーニングを行うために、参照[10]に述
べるようなセグメント型k平均トレーニング法を採用す
る。ブロック図は、図16に示す通りである。このトレ
ーニング法の長所は、教師なしの手法である点にある。
全体のプロセスを通じて、その目的は、現行モデルを使
用してパスの検出や(超)状態シーケンスセグメンテー
ションを実行し、さらに、セグメンテーション情報を使
用して、モデルのパラメータ推定を行うことである。し
たがって、新たに取得したモデルを用いて、これから再
度セグメンテーションを行う。最終的に一定の基準内に
パラメータセットが収束するまで全体のプロセスが繰り
返され、各文字ごとにHMMが構築される。
べるようなセグメント型k平均トレーニング法を採用す
る。ブロック図は、図16に示す通りである。このトレ
ーニング法の長所は、教師なしの手法である点にある。
全体のプロセスを通じて、その目的は、現行モデルを使
用してパスの検出や(超)状態シーケンスセグメンテー
ションを実行し、さらに、セグメンテーション情報を使
用して、モデルのパラメータ推定を行うことである。し
たがって、新たに取得したモデルを用いて、これから再
度セグメンテーションを行う。最終的に一定の基準内に
パラメータセットが収束するまで全体のプロセスが繰り
返され、各文字ごとにHMMが構築される。
【0068】トレーニングプロセスが開始する前に、初
期PHMMを設定させて繰り返しを開始しなければなら
ない。初期PHMMは、既存モデルから取得するか、あ
るいは、セグメンテーション方法によって取得する。こ
の概念について、以下に説明する。初期モデルまたは上
記繰り返しが行われているk平均プロセス中に更新され
たモデルを取得すると、モデルは、最適パスのバックト
レーシングによる(超)状態シーケンスセグメンテーシ
ョンに使用される。なお入れ子型ビタビ探索により最適
パスの検出を行うが、レベル構築は、この場合、必要で
はない。その理由は、各トレーニング画像に対する「ワ
ード」はどのようなものか正確にわかっているからであ
り、このことは、各レベルの開始時点で出口点の中から
選択を行う必要がないことを意味している。ここでしな
ければならないのは、ワードモデルを形成するために、
ワード内の順序にしたがって、文字モデルを段階的に処
理することだけである。次に、入れ子型ビタビ探索によ
り、このワードモデルとワード画像との間の最良の一致
を検出する。アルゴリズム構造により、入れ子型ビタビ
探索後には、最適パスから、a)超状態レベルにおい
て、どこに各超状態および文字の境界(カラム指標によ
る)があるのか、b)状態レベルにおいて、どこに各状
態の境界(画素指標による)があるのか、明らかになる
であろう。この情報は、超状態と状態レベルの両方にお
いて最適パスをバックトレーシングすることによって検
索される。このセグメンテーション情報が取得されれ
ば、各画素が、どのモデルや超状態、あるいは状態に属
しているかを正確に知ることができる。
期PHMMを設定させて繰り返しを開始しなければなら
ない。初期PHMMは、既存モデルから取得するか、あ
るいは、セグメンテーション方法によって取得する。こ
の概念について、以下に説明する。初期モデルまたは上
記繰り返しが行われているk平均プロセス中に更新され
たモデルを取得すると、モデルは、最適パスのバックト
レーシングによる(超)状態シーケンスセグメンテーシ
ョンに使用される。なお入れ子型ビタビ探索により最適
パスの検出を行うが、レベル構築は、この場合、必要で
はない。その理由は、各トレーニング画像に対する「ワ
ード」はどのようなものか正確にわかっているからであ
り、このことは、各レベルの開始時点で出口点の中から
選択を行う必要がないことを意味している。ここでしな
ければならないのは、ワードモデルを形成するために、
ワード内の順序にしたがって、文字モデルを段階的に処
理することだけである。次に、入れ子型ビタビ探索によ
り、このワードモデルとワード画像との間の最良の一致
を検出する。アルゴリズム構造により、入れ子型ビタビ
探索後には、最適パスから、a)超状態レベルにおい
て、どこに各超状態および文字の境界(カラム指標によ
る)があるのか、b)状態レベルにおいて、どこに各状
態の境界(画素指標による)があるのか、明らかになる
であろう。この情報は、超状態と状態レベルの両方にお
いて最適パスをバックトレーシングすることによって検
索される。このセグメンテーション情報が取得されれ
ば、各画素が、どのモデルや超状態、あるいは状態に属
しているかを正確に知ることができる。
【0069】次に、この情報により、画素観測ベクトル
をグループ化する。例えば、各文字PHMMに超状態が
5つあり、各超状態に状態が5つある3文字のワードの
場合、このワード画像の全画素観測ベクトルを3x5x
5=75のそれぞれ異なるグループに分け、1グループ
には、各文字モデルの各超状態における各状態を割り当
てるようにする。この観測ベクトルは、図16に示すよ
うに、「PHMM Kの情報」データベースにすべて含
まれている。この中に含まれている他の情報は、(超)
状態遷移カウント、文字および(超)状態継続時間レコ
ードである。この手順は、すべてのトレーニング画像
(トークン)がセグメント化されるまで繰り返される。
次に、モデルの新たな集合を得るために、再推定プロセ
スが開始される。パラメータセット(N、A、B、D、
ラムダ)を有するモデルの場合、次のような再推定が可
能である。文字継続時間確率については、以下の通りで
ある。 D(n)=nカラムの継続時間を有する文字のトレーニ
ングトークン数//文字のトレーニングトークン数 超状態レベルパラメータについては、以下の通りであ
る。 akj=超状態kから超状態jまでの遷移数//超状態k
からの全遷移数 Dj(n)=nカラムの継続時間を有する超状態jのト
ークン数//超状態jのトークン数 超状態jにおける1次元HMMの状態レベルパラメータ
については、以下の通りである。 aj/ki=状態sj/kからsj/lまでの遷移数/
/状態sj/kからの遷移数 bj/im(p)=m番目のベクトルコンポーネントに
観測pを有する状態sj/lのベクトル数//状態sj
/lのベクトル数 Dj/l(n)=n画素の継続時間を有する状態sj/
lのトークン数//状態sj/lのトークン数 トレーニングループの最終ステップは、繰り返しを止め
るための基準として行われる収束検査である。新規モデ
ルと直前モデルとの間の位置合わせに関する適合性の比
較は、最適パスの尤度を比較して行う。尤度点数の変動
が一定のしきい値を下回れば、最終的な収束が起きたこ
とになる。そうでない場合は、セグメンテーション−推
定ループ全体が繰り返される。この後に続くループのと
きに限り、新規作成されたモデルがセグメンテーション
手順に使用される。
をグループ化する。例えば、各文字PHMMに超状態が
5つあり、各超状態に状態が5つある3文字のワードの
場合、このワード画像の全画素観測ベクトルを3x5x
5=75のそれぞれ異なるグループに分け、1グループ
には、各文字モデルの各超状態における各状態を割り当
てるようにする。この観測ベクトルは、図16に示すよ
うに、「PHMM Kの情報」データベースにすべて含
まれている。この中に含まれている他の情報は、(超)
状態遷移カウント、文字および(超)状態継続時間レコ
ードである。この手順は、すべてのトレーニング画像
(トークン)がセグメント化されるまで繰り返される。
次に、モデルの新たな集合を得るために、再推定プロセ
スが開始される。パラメータセット(N、A、B、D、
ラムダ)を有するモデルの場合、次のような再推定が可
能である。文字継続時間確率については、以下の通りで
ある。 D(n)=nカラムの継続時間を有する文字のトレーニ
ングトークン数//文字のトレーニングトークン数 超状態レベルパラメータについては、以下の通りであ
る。 akj=超状態kから超状態jまでの遷移数//超状態k
からの全遷移数 Dj(n)=nカラムの継続時間を有する超状態jのト
ークン数//超状態jのトークン数 超状態jにおける1次元HMMの状態レベルパラメータ
については、以下の通りである。 aj/ki=状態sj/kからsj/lまでの遷移数/
/状態sj/kからの遷移数 bj/im(p)=m番目のベクトルコンポーネントに
観測pを有する状態sj/lのベクトル数//状態sj
/lのベクトル数 Dj/l(n)=n画素の継続時間を有する状態sj/
lのトークン数//状態sj/lのトークン数 トレーニングループの最終ステップは、繰り返しを止め
るための基準として行われる収束検査である。新規モデ
ルと直前モデルとの間の位置合わせに関する適合性の比
較は、最適パスの尤度を比較して行う。尤度点数の変動
が一定のしきい値を下回れば、最終的な収束が起きたこ
とになる。そうでない場合は、セグメンテーション−推
定ループ全体が繰り返される。この後に続くループのと
きに限り、新規作成されたモデルがセグメンテーション
手順に使用される。
【0070】PHMMの初期推定 すでに述べたように、各文字モデルの超状態数および状
態数は、トポロジによって決まる。ここで、図6を例に
とって説明する。実験では、文字のトポロジを検査によ
って決められグループ化プロセスが開始する前に与えら
れた最終ブロック数により、最初の戦略を用いている。
カラムから成るこの垂直ブロックが形成された後、次
に、各垂直ブロックに進み、カラムの場合と同様のプロ
セスによってブロック内のローをグループ化する。図6
は、画像「b」の最終的なグループ化(切断)を示した
ものである。この図から明らかなように、文字「b」
は、各超状態内にそれぞれ3、3、5、3の状態を持つ
4つの超状態を有するPHMMによって表すことができ
る。切断が行われる正確な位置については、このような
反復した相関関係の比較によって自動的に決められる。
これは、ノイズやボケを伴ったグレイレベル画像に対し
て特に重要である。というのは、異なる文字や標本に対
して意味のある効率的で一貫したセグメンテーション
(グループ化)を手動操作で行うのは難しいからであ
る。各文字ごとに、いくつかの標本画像に対して前記手
順が繰り返される。次に、セグメンテーションに基づ
き、対象となる文字に対してPHMMの初期推定が行え
る。ただし、この手順が必要とされるのは、トレーニン
グプロセスの開始に利用可能なPHMMの初期推定値が
全くない場合に限られる。
態数は、トポロジによって決まる。ここで、図6を例に
とって説明する。実験では、文字のトポロジを検査によ
って決められグループ化プロセスが開始する前に与えら
れた最終ブロック数により、最初の戦略を用いている。
カラムから成るこの垂直ブロックが形成された後、次
に、各垂直ブロックに進み、カラムの場合と同様のプロ
セスによってブロック内のローをグループ化する。図6
は、画像「b」の最終的なグループ化(切断)を示した
ものである。この図から明らかなように、文字「b」
は、各超状態内にそれぞれ3、3、5、3の状態を持つ
4つの超状態を有するPHMMによって表すことができ
る。切断が行われる正確な位置については、このような
反復した相関関係の比較によって自動的に決められる。
これは、ノイズやボケを伴ったグレイレベル画像に対し
て特に重要である。というのは、異なる文字や標本に対
して意味のある効率的で一貫したセグメンテーション
(グループ化)を手動操作で行うのは難しいからであ
る。各文字ごとに、いくつかの標本画像に対して前記手
順が繰り返される。次に、セグメンテーションに基づ
き、対象となる文字に対してPHMMの初期推定が行え
る。ただし、この手順が必要とされるのは、トレーニン
グプロセスの開始に利用可能なPHMMの初期推定値が
全くない場合に限られる。
【0071】また、識別的なトレーニングを組み込むこ
とにより、性能がさらに向上する。実験で間違って識別
されたワードをチェックしているときに、そのワードの
ほとんどが、いわゆる「コンフュージョンセット」にク
ラスタ化される。
とにより、性能がさらに向上する。実験で間違って識別
されたワードをチェックしているときに、そのワードの
ほとんどが、いわゆる「コンフュージョンセット」にク
ラスタ化される。
【0072】すなわち、文字は、似たようなトポロジに
よって他の文字と間違えられ、画像がノイズが多く不鮮
明であった場合には、一層紛らわしいものとなる。例え
ば、セット{e,c,o}、セット{l,i,t}、ま
たは、「cl」と間違えられた「d」などがあり、この
ため、N最良探索を利用して、正しいワードに非常によ
く似たワードを検出する。識別的トレーニングによって
このような競合的文字セットを有するモデルを訓練する
場合、N最良探索は、認識についての誤り率を大幅に減
少させる。このことは、N最良仮説技法の結果によって
確認できる。仮説リストで検出されたワードのほとん
ど、すなわち、正しいものと競合する最上位と認められ
たワードは、大抵、コンフュージョンセットからの文字
の組み合わせである。以上をまとめると、疑似2次元マ
ルコフモデルリングと組み合わせたグレイスケールイメ
ージングの利用により、バイナリシステムにおいて、特
に、劣化した連結ワード画像の場合に、大幅な改善がみ
られる。また、システムの一層の改善を図るため、継続
時間制約のあるN最良仮説探索が導入されている。この
継続時間制約は、まず初めに、加えられたペナルティと
して順方向ビタビ探索に課された後、次に、順方向パス
で得られたパスマップと組み合わされて、逆方向探索に
より継続時間ペナルティの補正が行われる。実験結果に
より、認識率が大幅に向上し、かつアプリケーションの
変化が著しい場合でもロバスト性に富むというシステム
の優越性が立証された。
よって他の文字と間違えられ、画像がノイズが多く不鮮
明であった場合には、一層紛らわしいものとなる。例え
ば、セット{e,c,o}、セット{l,i,t}、ま
たは、「cl」と間違えられた「d」などがあり、この
ため、N最良探索を利用して、正しいワードに非常によ
く似たワードを検出する。識別的トレーニングによって
このような競合的文字セットを有するモデルを訓練する
場合、N最良探索は、認識についての誤り率を大幅に減
少させる。このことは、N最良仮説技法の結果によって
確認できる。仮説リストで検出されたワードのほとん
ど、すなわち、正しいものと競合する最上位と認められ
たワードは、大抵、コンフュージョンセットからの文字
の組み合わせである。以上をまとめると、疑似2次元マ
ルコフモデルリングと組み合わせたグレイスケールイメ
ージングの利用により、バイナリシステムにおいて、特
に、劣化した連結ワード画像の場合に、大幅な改善がみ
られる。また、システムの一層の改善を図るため、継続
時間制約のあるN最良仮説探索が導入されている。この
継続時間制約は、まず初めに、加えられたペナルティと
して順方向ビタビ探索に課された後、次に、順方向パス
で得られたパスマップと組み合わされて、逆方向探索に
より継続時間ペナルティの補正が行われる。実験結果に
より、認識率が大幅に向上し、かつアプリケーションの
変化が著しい場合でもロバスト性に富むというシステム
の優越性が立証された。
【0073】本発明は、詳細な実施例により、例示およ
び説明がなされた。しかし、本発明の精神に反せず、ま
た本発明の範囲を逸脱しない限り、様々な変更が行える
ことは、当業者にとって明らかであろう。
び説明がなされた。しかし、本発明の精神に反せず、ま
た本発明の範囲を逸脱しない限り、様々な変更が行える
ことは、当業者にとって明らかであろう。
【図1】文字の画素マップと疑似2次元HMMの対応す
る超状態および状態図である。
る超状態および状態図である。
【図2】ワード画像の画素マップを本発明による疑似2
次元HMMと比較するためにプログラムされたコンピュ
ータの動作を示すフローチャートである。
次元HMMと比較するためにプログラムされたコンピュ
ータの動作を示すフローチャートである。
【図3】疑似2次元HMMの生成手順を示すフローチャ
ートである。
ートである。
【図4】観測ベクトルの作成に用いられる畳込み用の核
の図である。
の図である。
【図5】説明を行うためのテキスト画像のトップライン
とベースラインを示す図である。
とベースラインを示す図である。
【図6】グレイレベルのテキスト画像に関する状態およ
び超状態の分割を例示した図である。
び超状態の分割を例示した図である。
【図7】3つの異なるテスト用文字セットを対象にここ
で開示されている各種好適な具体例の文字認識率を示す
図である。
で開示されている各種好適な具体例の文字認識率を示す
図である。
【図8】パススタックのデータ構造の流れを示す図であ
る。
る。
【図9】逆方向の木構造探索に関するトポロジを示す図
である。
である。
【図10】図8のパススタックを処理するための好まし
い方法を示すフローチャートである。
い方法を示すフローチャートである。
【図11】1次元HMMと一連の画素との対応関係を示
す状態シーケンス図である。
す状態シーケンス図である。
【図12】入れ子型ビタビ探索のパスマップである。
【図13】入れ子型ビタビ探索を用いるレベル構築アル
ゴリズムによって作成されたデータ構造である。
ゴリズムによって作成されたデータ構造である。
【図14】超状態レベルのビタビ探索の手順を示すフロ
ーチャートである。
ーチャートである。
【図15】パスをバックトラッキングする手順を示すフ
ローチャートである。
ローチャートである。
【図16】各種トレーニング手順を示すフローチャート
である。
である。
【図17】各種トレーニング手順を示すフローチャート
である。
である。
【図18】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図19】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図20】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図21】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図22】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図23】初期モデルの推定に用いられる手順を示すフ
ローチャートである。
ローチャートである。
【図24】文字認識に用いられる手順を示すフローチャ
ートである。
ートである。
【図25】文字認識に用いられる手順を示すフローチャ
ートである。
ートである。
【図26】文字認識に用いられる手順を示すフローチャ
ートである。
ートである。
【図27】パススタック初期化手順を示すフローチャー
トである。
トである。
【図28】パススタックから第1の非完了パスを取得す
る手順を示すフローチャートである。
る手順を示すフローチャートである。
【図29】パス分割手順を示すフローチャートである。
【図30】可能な逆方向1アーク延長の推定手順を示す
フローチャートである。
フローチャートである。
100 画素マップ 110〜114 垂直領域 210〜214 超状態
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チンチン イエン アメリカ合衆国 07701 ニュージャーシ ィ,レッド バンク,ヴァージニア テラ ス 40
Claims (6)
- 【請求項1】 各モデルが既知の文字を表している複数
の疑似2次元隠れマルコフモデル(PHMM)を生成す
る段階と、 前記文書を走査して、各未知のワード画像ごとにグレイ
レベル画素マップを生成する段階と、 各未知のワード画像ごとに、 前記未知のワード画像に対する画素マップを既知の文字
のPHMMと比較して、N最良仮説探索により、既知の
文字の最適なシーケンスを判断する段階とから成ること
を特徴とするグレイスケール文書に含まれる未知のワー
ド画像を識別する機械的方法。 - 【請求項2】 各前記隠れマルコフモデルが少なくとも
1以上の超状態を有し、各前記超状態が少なくとも1以
上の状態を有していることを特徴とする請求項1に記載
の方法。 - 【請求項3】 隠れマルコフモデルを生成する段階が、
セグメント型k平均トレーニング法を適用し、各既知の
文字を表す複数のトレーニングトークンから前記既知の
文字に対する隠れマルコフモデルのパラメータを推定す
る段階から成ることを特徴とする請求項2に記載の方
法。 - 【請求項4】 前記超状態が、前記隠れマルコフモデル
によって表されたテキスト要素によりほぼ垂直なスライ
スを表しており、かつ、各比較段階が、 第1のルーチンにおいて、前記画素マップ内の1カラム
と超状態の各組み合わせに対し、ビタビアルゴリズムを
適用し、前記超状態内の状態により前記カラムに対する
最良パスと前記超状態内の最終状態に対する確率を判断
する段階と、第2のルーチンにおいて、ビタビアルゴリ
ズムと前記第1ルーチンで判断された確率を適用し、前
記超状態による最良パスと最終超状態に対する確率を判
断する段階とから成ることを特徴とする請求項2に記載
の方法。 - 【請求項5】 (a)まず初めに、隣接カラムの複数の
対の各々内で相互相関係数を比較して複数のカラムブロ
ックを生成し、(b)次に、複数の隣接カラムブロック
の複数の対の各々内で相互相関係数を比較してさらに大
きいブロックを生成し、かつNブロック(Nは正の非ゼ
ロの整数)が残るまでステップ(b)を循環的に繰り返
すことによって、初期セグメンテーションが行われるこ
とを特徴とするPHMMの初期推定を実行する方法。 - 【請求項6】 各ブロック内の隣接ローを比較してサブ
ブロックを生成し、超状態の割当てによってブロックの
各々を表し、状態の割当てによってサブブロックの各々
を表し、かつ画素ベクトルに基づくステップを割り当て
る段階を具備する請求項5に記載のPHMMの初期推定
を実行する方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US27873394A | 1994-07-22 | 1994-07-22 | |
| US08/278733 | 1994-07-22 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0877301A true JPH0877301A (ja) | 1996-03-22 |
Family
ID=23066128
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7185551A Withdrawn JPH0877301A (ja) | 1994-07-22 | 1995-07-21 | 疑似2次元隠れマルコフモデルとn最良仮説を用いた劣化グレイスケール文書認識 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5754695A (ja) |
| EP (1) | EP0694862A3 (ja) |
| JP (1) | JPH0877301A (ja) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1011434A (ja) * | 1996-06-21 | 1998-01-16 | Nec Corp | 情報認識装置 |
| US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
| US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
| US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
| US6141661A (en) * | 1997-10-17 | 2000-10-31 | At&T Corp | Method and apparatus for performing a grammar-pruning operation |
| US6122612A (en) * | 1997-11-20 | 2000-09-19 | At&T Corp | Check-sum based method and apparatus for performing speech recognition |
| US6205428B1 (en) | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
| US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
| US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
| EP0961218B1 (en) * | 1998-05-28 | 2004-03-24 | International Business Machines Corporation | Method of binarization in an optical character recognition system |
| WO1999065225A1 (en) * | 1998-06-12 | 1999-12-16 | At & T Corp. | Facsimile document enhancement system |
| US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
| US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
| US6757449B1 (en) * | 1999-11-17 | 2004-06-29 | Xerox Corporation | Methods and systems for processing anti-aliased images |
| JP2001266142A (ja) * | 2000-01-13 | 2001-09-28 | Nikon Corp | データ分類方法及びデータ分類装置、信号処理方法及び信号処理装置、位置検出方法及び位置検出装置、画像処理方法及び画像処理装置、露光方法及び露光装置、並びにデバイス製造方法 |
| US6947179B2 (en) * | 2000-12-28 | 2005-09-20 | Pitney Bowes Inc. | Method for determining the information capacity of a paper channel and for designing or selecting a set of bitmaps representative of symbols to be printed on said channel |
| US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
| US7209883B2 (en) * | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
| US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
| US7165029B2 (en) | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
| JP2004078631A (ja) * | 2002-08-20 | 2004-03-11 | Fujitsu Ltd | オブジェクト指向データベースにおける検索装置及び検索方法 |
| US7171043B2 (en) * | 2002-10-11 | 2007-01-30 | Intel Corporation | Image recognition using hidden markov models and coupled hidden markov models |
| US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
| US7203368B2 (en) * | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
| US7623725B2 (en) * | 2005-10-14 | 2009-11-24 | Hewlett-Packard Development Company, L.P. | Method and system for denoising pairs of mutually interfering signals |
| FR2892847B1 (fr) * | 2005-11-03 | 2007-12-21 | St Microelectronics Sa | Procede de memorisation de donnees dans un circuit de memoire pour automate de reconnaissance de caracteres de type aho-corasick et citcuit de memorisation correspondant. |
| US7587308B2 (en) * | 2005-11-21 | 2009-09-08 | Hewlett-Packard Development Company, L.P. | Word recognition using ontologies |
| US8554825B2 (en) | 2005-12-22 | 2013-10-08 | Telcordia Technologies, Inc. | Method for systematic modeling and evaluation of application flows |
| US8290273B2 (en) * | 2009-03-27 | 2012-10-16 | Raytheon Bbn Technologies Corp. | Multi-frame videotext recognition |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4177448A (en) * | 1978-06-26 | 1979-12-04 | International Business Machines Corporation | Character recognition system and method multi-bit curve vector processing |
| US5261009A (en) * | 1985-10-15 | 1993-11-09 | Palantir Corporation | Means for resolving ambiguities in text passed upon character context |
| JPS63225300A (ja) * | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
| US5075896A (en) * | 1989-10-25 | 1991-12-24 | Xerox Corporation | Character and phoneme recognition based on probability clustering |
| JPH0833739B2 (ja) * | 1990-09-13 | 1996-03-29 | 三菱電機株式会社 | パターン表現モデル学習装置 |
| US5321773A (en) * | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
| US5438630A (en) * | 1992-12-17 | 1995-08-01 | Xerox Corporation | Word spotting in bitmap images using word bounding boxes and hidden Markov models |
| KR950013127B1 (ko) * | 1993-03-15 | 1995-10-25 | 김진형 | 영어 문자 인식 방법 및 시스템 |
| US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
-
1995
- 1995-06-15 EP EP95401397A patent/EP0694862A3/en not_active Withdrawn
- 1995-07-21 JP JP7185551A patent/JPH0877301A/ja not_active Withdrawn
-
1996
- 1996-10-16 US US08/734,369 patent/US5754695A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| US5754695A (en) | 1998-05-19 |
| EP0694862A3 (en) | 1996-07-24 |
| EP0694862A2 (en) | 1996-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0877301A (ja) | 疑似2次元隠れマルコフモデルとn最良仮説を用いた劣化グレイスケール文書認識 | |
| CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、系统 | |
| Kim et al. | A lexicon driven approach to handwritten word recognition for real-time applications | |
| KR100328907B1 (ko) | 수기 중국 문자의 자동 분할 및 인식 방법 및 시스템 | |
| JP3121717B2 (ja) | テキスト中の未知テキスト要素を識別する方法およびテキスト中のキーワードの所在を突き止める方法 | |
| CN112257437A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
| Agazzi et al. | Connected and degraded text recognition using planar hidden Markov models | |
| CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
| US20030059115A1 (en) | Character recognition system | |
| KR100843504B1 (ko) | 문자 인식 시스템 | |
| Kuo et al. | Machine vision for keyword spotting using pseudo 2D hidden Markov models | |
| CN118982499B (zh) | 一种快速定位联合语义解释的半导体缺陷分析方法及系统 | |
| CN110942073A (zh) | 一种集装箱拖车编号识别方法、装置和计算机设备 | |
| JP3428494B2 (ja) | 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体 | |
| JP3099771B2 (ja) | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 | |
| Retsinas et al. | An alternative deep feature approach to line level keyword spotting | |
| CN111723852A (zh) | 针对目标检测网络的鲁棒训练方法 | |
| JP2005084436A (ja) | 音声認識装置及びコンピュータプログラム | |
| Yen et al. | Degraded gray-scale text recognition using pseudo-2D hidden Markov models and N-best hypotheses | |
| Yen et al. | Degraded documents recognition using pseudo 2-D hidden Markov models in gray-scale images | |
| CN111402281B (zh) | 一种书籍边缘检测方法及装置 | |
| CN115272660A (zh) | 一种基于双流神经网络的唇语识别方法及系统 | |
| Dehghan et al. | A hybrid handwritten word recognition using self-organizing feature map, discrete HMM, and evolutionary programming | |
| US7912715B2 (en) | Determining distortion measures in a pattern recognition process | |
| CN118447428B (zh) | 视频处理方法、装置、电子设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20021001 |