JP2013246732A - 手書き文書検索装置、方法及びプログラム - Google Patents

手書き文書検索装置、方法及びプログラム Download PDF

Info

Publication number
JP2013246732A
JP2013246732A JP2012121305A JP2012121305A JP2013246732A JP 2013246732 A JP2013246732 A JP 2013246732A JP 2012121305 A JP2012121305 A JP 2012121305A JP 2012121305 A JP2012121305 A JP 2012121305A JP 2013246732 A JP2013246732 A JP 2013246732A
Authority
JP
Japan
Prior art keywords
handwritten document
search
unit
handwritten
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012121305A
Other languages
English (en)
Inventor
Satoyuki Shibata
智行 柴田
Yojiro Touchi
洋次郎 登内
Kazunori Imoto
和範 井本
Yasuaki Yamauchi
康晋 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012121305A priority Critical patent/JP2013246732A/ja
Priority to CN2012103481555A priority patent/CN103455527A/zh
Priority to US13/837,333 priority patent/US9230181B2/en
Publication of JP2013246732A publication Critical patent/JP2013246732A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】検索対象となるストローク数が増加しても、処理時間とメモリ量の増加を防ぐこと。
【解決手段】実施形態によれば、取得部、分類部、特徴抽出部、検索部を備える。取得部は、筆跡データを含む手書き文書を取得する。分類部は、前記手書き文書を複数の領域に分類する。特徴抽出部は、前記分類結果に基づいて、前記領域の特徴を示す特徴量を抽出する。検索部は、前記特徴量に基づいて検索を実行する。
【選択図】図1

Description

本発明の実施形態は、手書き文書検索装置、方法及びプログラムに関する。
ユーザが入力あるいは指定した手書きのクエリーに類似またはマッチする手書き文書をデータベースから検索する文書検索装置が知られている。
Cheng Cheng, Bilan Zhu, Masaki Nakagawa: "A Discriminative Model for On-line Handwritten Japanese Text Retrieval", International Conference on Document Analysis and Recognition, 2011 Pasitthideth LUANGVILAY, Bilan ZHU, Masaki NAKAGAWA: "An On-line Handwritten Text Search Method based on Directional Feature Matching", International Conference on Document Analysis and Recognition, 2011
本実施形態は、検索対象となるストローク数が増加しても、処理時間とメモリ量の増加を防ぐことのできる手書き文字検索装置、方法及びプログラムを提供することを目的とする。
実施形態によれば、取得部、分類部、特徴抽出部、検索部を備える。取得部は、筆跡データを含む手書き文書を取得する。分類部は、前記手書き文書を複数の領域に分類する。特徴抽出部は、前記分類結果に基づいて、前記領域の特徴を示す特徴量を抽出する。検索部は、前記特徴量に基づいて検索を実行する。
本実施形態に係る手書き文書検索装置の構成例を示す図である。 本実施形態に係る手書き文書検索装置の処理例を示すフローチャートである。 インクデータのフォーマットの一例を示す図である。 ストロークデータの入力について説明するための図である。 ストロークデータの分類について説明するための図である。 ストロークデータの分類について説明するための図である。 ストロークデータの分類について説明するための図である。 分類部の一例を示す図である。 分類例について説明するための図である。 分類例について説明するための図である。 検索結果表示の一例を示す図である。 各種入力方法にいて説明するための図である。 ハードウェア構成例について説明するための図である。 ネットワークを伴う構成例について説明するための図である。
以下、図面を参照しながら本発明の実施形態に係る手書き文書検索装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
本実施形態では、予め筆記された(例えば大量の)手書き文書から、ユーザが手書きした(筆跡データを含む)手書き文書をクエリーとして、検索を行うものである。ユーザが文書を指定する方法には、どのような方法を使用しても良い。例えば、ユーザが実際に文書を手書きすることによって、クエリーを指定するようにしても良い。予め用意されたストローク列のテンプレートをレイアウト上に配置することによってユーザが文書を作成しても良い。既存の手書き文書の中からユーザがクエリーとして用いる文書を選択するようにしても良い。それらの組み合わせであっても良い。
また、本実施形態では、クエリーと手書き文書との類似度の判定に、手書き文書のレイアウトを使用する。なお、ストロークとは手書き入力された筆画であり、ペン等が入力面に接してから離れるまでの軌跡を表す。
また、本実施形態では、クエリーに類似またはマッチするレイアウトを有する手書き文書を、検索結果として提示するものとする。
図1に、本実施形態の手書き文書検索装置の構成例を示す。図1に示されるように、本実施形態の手書き文書検索装置は、取得部1、分類部2、特徴抽出部5、検索部7、結果表示部8、インクデータデータベース(インクデータDB)11、特徴量データベース(特徴量DB)12を備えている。
インクデータDB11は、ストロークを文書単位でまとめたインクデータを記憶する。
特徴量DB12は、当該文書を複数の領域に分類した結果に基づく特徴量を記憶する。ここで、領域とは、例えば、図形領域、表領域、文字領域、行ブロック、文字ブック等であるが、詳しくは後述する。
取得部1は、クエリーとして用いる手書き文字列を取得するためのものである。
ここでは、ユーザが筆記するストロークを取得する場合を中心に説明を行う。なお、この手書き入力の方法には、タッチパネル上でペンにより入力する方法、タッチパネル上で指により入力する方法、タッチパッド上で指により入力する方法、マウスを操作して入力する方法、電子ペンによる方法など、種々の方法を用いることができる。
ユーザが筆記したストローク群(インクデータ)は、例えば、ユーザが文書を書き終わる際或いは保存する際などに、インクデータDB11として蓄積される。インクデータは、文書単位等でストローク群を格納するためのデータ構造である。
分類部2は、手書き文書(インクデータ)を複数の領域に分類して、分類情報を抽出する、分類処理を実行する。分類情報は、詳しくは後述するが、手書き文書から得られた個々の領域を特定可能とする情報である。
特徴抽出部5は、分類部2により得られた分類情報から、当該文書の(複数の領域に関する)特徴を記述した特徴量を抽出する。
検索部7は、抽出した特徴量を用いて文書間の類似度を算出して類似する文書を検索する。
結果表示部8は、検索結果を提示する。
図2に、本実施形態の手書き文書検索装置の処理の一例を示す。
ステップS1において、取得部1が、クエリーとして用いるべき手書き文書(手書きストローク列)を取得する。
ステップS2において、分類部2が、該取得された手書き文書に対して分類情報を抽出(分類処理を実行)する。
ステップS3において、特徴抽出部5が、該分類処理の結果に基づいて、該取得された手書き文書に対して特徴抽出処理を実行する。
ステップS4において、検索部7が、特徴抽出部5により得られた特徴量をもとに、検索を実行する。
ステップS5において、結果表示部8が、検索部7により得られた検索結果を表示する。
次に、図3を参照しながら、インクデータのデータ構造及びストロークデータのデータ構造について説明する。
通常、ストロークは、所定のタイミングで(例えば一定周期で)軌跡上の点がサンプリングされる。従って、サンプリングされた点の系列により表現される。
図3(b)の例において、1ストローク分(すなわち、1画分)のストローク構造は、ペンが移動した平面上の座標値の集合(点構造)で表現され、具体的には、そのストロークを形成する点の個数を示す「点総数」、「開始時刻」、「外接図形」、点総数に相当する個数の「点構造」の配列を含む構造体である。ここで、開始時刻は、そのストロークにおいてペンが入力面に接して書き出された時刻を示す。外接図形は、文書平面上においてそのストロークの軌跡に対する外接図形(好ましくは、文書平面上においてそのストロークを内包する最小面積の矩形)を示す。
点の構造は、入力デバイスに依存し得る。図3(c)の例では、1点の構造は、その点がサンプリングされた座標値x,y、筆圧並びに初期点(例えば上記の「開始時刻」)からの時間差の4値を持つ構造体である。
なお、座標は文書平面の座標系であり、左上の隅の原点として右下の隅になるほど値が大きくなる正の値で表現しても良い。
また、入力デバイスが筆圧を取得できない場合或いは筆圧を取得できても以降の処理で筆圧を使用しない場合には、図3(c)の筆圧を省いても良いし或いは筆圧に無効を示すデータを記述しても良い。
なお、図3(b),(c)の例において、ストローク構造における個々の点構造の領域に、座標値x,y等の実データを記載しても良いし、あるいは、ストローク構造のデータと点構造のデータとを別々に管理するものとして、ストローク構造における個々の点構造の領域に、対応する点構造へのリンク情報を記載しても良い。
図4に、取得されるストロークの例を示す。ここでは、ストローク内のサンプル点のサンプリング周期が一定である場合を例にとって説明する。図4(a)は、サンプリングした点の座標を示しており、図4(b)は、時間的に連続する点構造を線形補間して示している。サンプリング点の座標間隔が異なるのは、筆速の違いによるものである。サンプリング点数は、個々のストロークにより異なり得る。
図3(a)の例において、インクデータのデータ構造は、その文書の全領域に含まれるストローク構造の個数を示す「ストローク総数」、ストローク総数に相当する個数の「ストローク構造」の配列を含む構造体である。
なお、図3(a),(b)の例において、インクデータ構造における個々のストローク構造の領域に、図3(b)のデータを記載しても良いし、あるいは、インクデータ構造のデータと、図3(b)のストロークのデータ構造とを別々に管理するものとして、インクデータ構造における個々のストロークのデータ構造の領域に、対応する図3(b)のデータへのリンク情報を記載しても良い。
入力デバイスを用いてユーザが筆記したストロークデータは、例えば図3に示すようなインクデータ構造によりメモリ上に展開される。インクデータは、例えば文書として保存される際などに、インクデータDB11として蓄積される。
なお、複数の文書を蓄積する場合に、それら文書を識別するための文書IDを、各インクデータに対応付けて保存しても良い。また、個々のストロークを識別するために、各ストローク構造にストロークIDを付与しても良い。
次に、分類部2について説明する。
分類部2は、蓄積された一つの手書き文書(インクデータ)に対して、文書平面上でのストロークの位置関係と属性から複数の領域に分類する分類処理を実行する。
ここで、図5〜図7を参照しながら、複数の領域への分類の例について説明する。
例えば、手書き文書は、まず、文字領域と、文字領域以外の領域に分類される。好ましくは、図5に示されるように、手書き文書は、大きく3つの領域、すなわち、「文字領域」、「図形領域」、「表領域」の単位に分類される。
各々の「文字領域」の内包領域を、更に複数の領域に分類しても良い。例えば、図5に示されるように、「文字領域」は、「段落ブロック」に分類し得、「段落ブロック」は、「行ブロック」に分類し得る。更に、図6に示すように、「行ブロック」は、「単語ブロック」に分類し得、「単語ブロック」は、「文字ブロック」に分類し得る。また更に、図7に示すように「文字ブロック」は、「部首ブロック」に分類し得る。これらすべてを使用した場合には、8種類の領域が存在するが、それらのうちから適宜選択した一部のみを使用することも可能である。
次に、図8を参照しながら、分類処理の例について説明する。図8は、分類部2の内部機能ブロック又は内部処理の構成例である。
まず、手書き文書を、文字領域と図形領域と表領域の単位に分類する(領域分類部又は領域分類処理21)。
例えば、各ストロークが文字と図形と表とのいずれに属するかを判定するように予め学習された識別器を用いて、ストロークに対して尤度を算出し、文書平面上での空間的な近さと連続性を加味するためマルコフ確率場(Markov random field;MRF)で表現し、最も分離のよい領域を推定することによって、文字領域と図形領域と表領域に領域分割しても良い(例えば、“X.-D. Zhou, J.-L. Yu, C.-L. Liu, T. Nagasaki, and K. Marukawa, "Online Handwritten Japanese Character String Recognition Incorporating Geometric Context, " Proc. Ninth Int’l Conf. Document Analysis and Recognition, Curitiba, Brazil, pp. 48-52, 2007.”を参照)。
なお、文字領域と図形領域と表領域の分類は、上記手法に制限されない。
手書き文書を、文字領域と図形領域と表領域に分類した後、文字領域に関して更に詳細な領域に分類する。
まず、本実施形態では、行ブロックの領域に分類する(行ブロック分類部又は行ブロック分類処理22)。
各ストロークデータには、筆記された時間情報が含まれるため、例えば、筆記順に並べ替えたストローク列に関して、連続するストロークの外接矩形間の距離が閾値未満ならば、同一の行ブロックに属すると判定し、閾値以上ならば、異なる行ブロックに属すると判定しても良い。
Figure 2013246732
上記の式は、i番目のストロークが直前のストロークと同一の行であるかを判定する関数である。SRは、ストロークの外接矩形を示し、Dist(r1,r2)は、外接矩形r1とr2の距離を返す関数とする。ここでの外接矩形間の距離は、外接矩形の重心点間のユークリッド距離とする。また、閾値thresholdlineは、予め定められたパラメータであり、筆記可能な文書平面の範囲に連動する。文字列等のストローク位置データのx軸方向が大幅に変化したことが分かればよく、例えば、対象インクデータのx軸の範囲の30%などとすればよい
ところで、行ブロックに相当するストローク列は軸と平行に筆記されているとは限らないので、表記の回転を吸収するため、右から左か、上から下か、左から右かの3種類の方向に正規化しても良い。文書平面上において、行ブロックの主成分分析により第一主成分を求め、その固有ベクトルと上記の3種類の方向とを比較して、上記の3種類の方向のうちで最も近い方向に、行ブロックを回転させる。なお、筆記されている言語が限定できる場合は、正規化する方向を限定することができる。例えば、アラビア語であるならば、左から右への方向のみに限定し、あるいは、日本語であるならば、右から左への方向と、上から下への方向の2方向に限定するなどが考えられる。
なお、行ブロックの分類は、上記手法に制限されない。
次に、段落ブロックの領域に分類する(段落ブロック分類部又は段落ブロック分類処理23)。
例えば、文書平面上において、行ブロックの領域の短辺の方向に関して全てのストロークを射影し、一定区間中のストローク頻度を算出したヒストグラムを求める。求めたヒストグラムは多峰性を有し、その各峰を1つの段落ブロックとして分類する。峰の総数が未知であるため、頻度の凝縮性と射影軸上での距離を用いてクラスタリングすることによって、分峰することができる(例えば、“今井, 藤村, 黒田, ヒストク゛ラム値による重み付き逐次ファシ゛ィクラスタリンク゛に基づく多峰性ヒストク゛ラムの分峰手法, 映像情報メテ゛ィア学会誌, 映像メテ゛ィア61(4), pp. 550-553, 2007.”を参照)。
なお、段落ブロックの分類は、上記手法に制限されない。
次に、文字ブロックの領域に分類する(文字ブロック分類部又は文字ブロック分類処理24)。
例えば、上記の手法で分類した行ブロックの領域の外接矩形における短辺の中央値を1文字のサイズとして、各行ブロックの領域に対して分類を行う。筆記順にストロークの外接矩形のAND処理を行い、結合した矩形を求める。このとき、結合後の矩形が行ブロックの領域の長辺方向に文字サイズより大きくなるならば、対象のストロークは直前のそれと異なる文字ブロックの領域に属すると判定し、そうでないならば、同一の文字ブロックの領域に属すると判定しても良い。
なお、文字ブロックの分類は、上記手法に制限されない。
次に、単語ブロックの領域に分類する(単語ブロック分類部又は単語ブロック分類処理24)。
なお、ここでの単語とは、例えば形態素解析を行い品詞ごとに分割された単語ではなく、行ブロックよりも詳細で文字ブロックよりも大まかな領域を表す。正確に単語として分類するには文字認識が必須であるため、テキスト情報として意味のある単語になるとは限らない。単語ブロックの領域は、例えば、行ブロックの領域に対して文字ブロックの領域の外接矩形の座標値に関してクラスタリングすることによって、k個のクラスタに分類し、その各クラスタを単語ブロックの領域とすることによって、算出しても良い。
なお、単語ブロックの分類は、上記手法に制限されない。
次に、漢字などの複数ストロークで1文字を構成する場合に、さらに詳細な領域に分類するため、部首ブロックに分類する(部首ブロック分類部又は部首ブロック分類処理26)。
上記の手法で分類した文字ブロックの領域に対して、閾値による文字ブロック分類と同様の処理を行う。
なお、部首ブロックの分類は、上記手法に制限されない。
なお、上記の処理例において、段落ブロックの分類と、文字ブロック・単語ブロック・部首ブロックの分類とは、独立して実行可能である(上記の説明とは異なる順序で又は並列的に実行し得る)。また、単語ブロックの分類と、部首ブロックの分類とは、独立して実行可能である(上記の説明とは異なる順序で又は並列的に実行し得る)。
分類情報のフォーマットとしては、種々のものが考えられる。
例えば、分類情報は、各領域ごとに、その領域の種類を示す領域ラベルと、その領域に含まれる1又は複数のストロークを示す情報(例えばストロークID)との組を含んでも良い。
領域ラベルは、例えば、前述の例で8種類の分類を利用する場合には、「図形領域」「表領域」「文字領域」「段落ブロック」「行ブロック」「単語ブロック」「文字ブロック」又は「部首ブロック」を示すラベルである。
例えば、ある行ブロックに係る分類情報は、ラベル「行ブロック」と、その行ブロックに含まれる全ストロークのストロークIDを含んでも良い。
なお、例えば、分類情報は、各領域ごとに、領域ラベルと、その領域の(文書平面の座標系における)範囲を示す情報との組を含んでも良い。
領域の範囲を示す情報は、例えば、その領域(に含まれる全ストローク)に対する外接矩形を特定するパラメータである。
例えば、ある行ブロックに係る分類情報は、ラベル「行ブロック」と、その行ブロックに対する外接矩形の対角2頂点の座標値を含んでも良い。
また、例えば、分類情報は、各領域ごとに、上記に例示した3つの情報、すなわち、その領域の種類を示す領域ラベルと、その領域に含まれる1又は複数のストロークを示す情報と、その領域の範囲を示す情報との組を含んでも良い。
次に、特徴抽出部5について説明する。
特徴抽出部5は、手書き文書の分類情報を用いて、複数の領域に基づく特徴量を抽出する。
文書の複数の領域に基づく特徴量は、例えば、各基準で分類した領域ごとに、領域の種類を示す「領域ラベル」と、その領域に対する「領域データ」との対を、領域数分保有したものである。前述の例で8つの分類を利用する場合で、8つの分類すべてが抽出されたときに、特徴量(特徴ベクトル)は、例えば、{(図形領域ラベル,領域データ),(表領域ラベル,領域データ),(段落ブロック・ラベル,領域データ),...,(段落ブロック・ラベル,領域データ),(行ブロック・ラベル,領域データ),...,(行ブロック・ラベル,領域データ),(単語ブロック・ラベル,領域データ),...,(単語行ブロック・ラベル,領域データ),(文字ブロック・ラベル,領域データ),...,(文字ブロック・ラベル,領域データ),(部首ロック・ラベル,領域データ),...,(部首ブロック・ラベル,領域データ)}のようになる。なお、個々の手書き文書ごとに、分類処理により得られる総領域数が異なり得るので、特徴量は、可変長のベクトルになる。
ここで、領域データは、例えば、(文書平面の座標系において占める)当該領域の範囲を、あらかじめ定められた方法で特定可能とするパラメータである。
例えば、当該領域に含まれる全ストローク(例えば行ブロックに含まれる全ストローク)に対する外接図形を特定するデータでも良い。例えば、外接矩形の頂点のうち、原点(文書平面の座標系における左上の隅)に最も近い頂点の座標及び原点から最も遠い頂点の座標の対でも良いし、他の対角2頂点の座標の対でも良い。
また、領域の範囲を示す外接図形として、外接矩形以外の図形を使用しても良い。例えば、当該領域に含まれる全ストロークを包含する所定の多角形であっても良い。
また、例えば、領域の種類に応じて、当該領域の範囲の特定方法を異ならせても良い。
特徴抽出部5は、手書き文書の分類情報を用いて(また、必要に応じて、インクデータDB11を参照して)、あらかじめ定められたフォーマットに従って、複数の領域に基づく特徴量を抽出する。
特徴抽出部5により抽出された特徴量は、特徴量DB12として蓄積される。
図9に、分類及び特徴量抽出の具体例を示す。(a)は、ユーザによりクエリーとして指定された手書き文書(ストローク列)を例示する。(b)は、これに対する処理結果を例示する。(b)において、111は文字領域であり、112は図形領域であり、113〜120はそれぞれ文字列ブロックである。この場合、特徴量は、抽出された各領域111〜120とその領域データを保有する。
なお、特徴量を特徴量DB12として蓄積するにあたって、例えば図10に示すように、各領域又はブロックの包含関係に応じて、ツリー構造として保持するようにしても良い(なお、図10では、一部のデータのみについて示している)。
次に、検索部7について説明する。
検索部7は、例えばこれまで説明したような手法により抽出された特徴量(特徴ベクトル)を用いて、ユーザが指定する手書き文書に類似する手書き文書を検索する。
特徴ベクトルのマッチングには、種々の方法を利用することができる。
例えば、検索部7は、抽出した特徴量を用いて手書き文書間の類似度を算出することによって、類似する文書を検索しても良い。この場合の類似度の算出は、例えば、以下の式で定義される。
Figure 2013246732
ここで、NとNはそれぞれの手書き文書の領域数を示す。ηi,jは、iとjが同一の領域ラベルである場合には1のスカラー値を、それ以外の場合には、0のスカラー値を示す。Sは、各領域を示す。Rectincは、インクデータの面積を示す。
同一の領域ラベルを持つ領域に関して論理積を求め(共通する領域)、その面積の総和を、手書き文書の面積で正規化することによって、類似度を算出する。
ユーザが指定した手書き文書と、蓄積されている全ての手書き文書との類似度を算出して、それらを降順にソートして、検索結果とする。
なお、上記の他にも、種々のマッチング方法が可能である。
検索部7が、結果表示部8へ検索結果を与える場合に、全ての結果を出力しても良いが、その代わりに、例えば、類似度で上位K個の結果を出力としても良いし、あるいは、類似度が閾値以上である結果を出力としても良いし、上限をK個として、類似度が閾値以上である結果を出力としても良いし、他の方法を用いても良い。
次に、結果表示部8について説明する。
結果表示部8は、検索部7から与えられた検索結果を、ユーザに提示する。
検索結果の表示方法には、種々の方法が可能である。
例えば、図11に例示するように、表示デバイスの画面をタイル状に分割し、各タイルに縮小した文書のサムネイルを表示させるようにしても良い。
その際に、表示順として、例えば、検索結果の類似度の高いストローク列を含む順に、文書のサムネイルを並べるようにしても良い。
また、サムネイルにおいて、各種の領域を示す枠を表示するようにしても良い。
ところで、ユーザがクエリー(手書き文書)を指定する方法として、ユーザが手書きで直接入力する方法以外にも、種々の方法が可能である。
例えば、図12(a)に例示するように、選択メニュー120に「直接入力」「文書選択」「テンプレート」の3つの選択肢が表示され、ユーザが所望の入力方法を例えばペン121で選択するようにしても良い。
「直接入力」を選択した場合には、ユーザは、例えばペン121により図12(b)の作成領域122上で、実際に文書を手書き入力する。取得部1は、ユーザにより筆記されたストローク列をもとに、インクデータを作成する。
「文書選択」を選択した場合には、ユーザは、例えば文書検索装置内に蓄積されている既存の手書き文書或いは文書検索装置が外部から取得可能な既存の手書き文書のうちから所望のものを選択する。この場合、取得部1は、既存の手書き文書のインクデータを取得すれば良い。
「テンプレート」を選択した場合には、例えば図12(b)に例示するように、予め容易されている各種テンプレート123が表示され(各テンプレートは、いずれかの領域に対応するストローク列の雛形である)、ユーザは、例えば各種テンプレート123のうちから所望のものを選択して(図中、124参照)、これを図12(b)の作成領域122上における所望の位置に配置する(図中、125参照)ことを適宜繰り返すことによって、クエリーを作成する。この場合、取得部1は、作成領域122上に配置されたテンプレート群から、インクデータを構成すれば良い。
以下、本実施形態のバリエーションについて説明する。
本実施形態の手書き文書検索装置の検索部7は、手書き文書検索装置の内部に蓄積されている手書き文書群を検索対象としても良いし、手書き文書検索装置がイントラネット及び/又はインターネット等のネットワークに接続可能である場合に、ネットワークを介してアクセス可能な手書き文書群を検索対象としても良いし、手書き文書検索装置に接続されたリムーバブル・メモリ内に蓄積された手書き文書群を検索対象としても良いし、それらの任意の組み合わせであっても良い。なお、それら手書き文書は、少なくとも本実施形態の検索において使用する特徴量と同じ特徴量が対応付けられて、蓄積されているのが望ましい。
本実施形態の手書き文書検索装置は、スタンドアローンの装置として構成することも、ネットワークを介して通信可能な複数のノードに分散した形で構成することも可能である。
また、本実施形態の手書き文書検索装置は、デスクトップ型又はラップトップ型の汎用計算機、携帯型の汎用計算機、その他の携帯型の情報機器、タッチパネルを有する情報機器、スマートフォン、その他の情報処理装置など、様々なデバイスによって実現可能である。
図13に、本実施形態の手書き文書検索装置を実現するハードウェアの構成例を示す。図中、201はCPU、202は所定の入力デバイス、203は所定の出力デバイス、204はRAM、205はROM、206は外部メモリ・インタフェース、207は通信インタフェースである。例えば、タッチパネルを使用する場合には、例えば液晶パネルとペンと液晶パネル上に設けられたストローク検出装置等が利用される(図中、208参照)。
また、例えば、図1の構成の一部分をクライアント上に設け、図1の構成の残りの部分をサーバ上に設けることも可能である。
例えば、図14は、イントラネット及び/又はインターネット等のネットワーク302上にサーバ301が存在し、各クライアント303,304がネットワーク302を介してそれぞれサーバ301と通信することによって、本実施形態の手書き文書検索装置が実現する様子を例示している。
なお、クライアント303は、無線通信を介してネットワーク302に接続され、クライアント304は、有線通信を介してネットワーク302に接続される場合を例示している。
クライアント303,304は、通常、ユーザ装置である。サーバ301は、例えば、企業内LAN等のLAN上に設けられたものであっても良いし、インターネット・サービス・プロバイダ等が運営するものであっても良い。また、サーバ301がユーザ装置であって、あるユーザが他のユーザに機能を提供するものであっても良い。
図1の構成を、クライアントとサーバに分散する方法として、種々の方法が考えられる。
例えば、図1中、102で示す範囲をクライアント側に搭載し、それ以外の範囲をサーバ側に搭載しても良いし、検索部7のみをサーバ側に搭載し、それ以外の範囲をクライアント側に搭載しても良い。
なお、図1の101の範囲を備えた装置、あるいは、図1の101から取得部1を場外した範囲を備えた装置を実現しても良い。この場合、当該装置は、スストローク列から、特徴量を抽出する機能を有するものである。また、例えば、図1中の102で示す範囲をクライアント側に搭載し、検索部7を第1のサーバに搭載し、101から取得部1を除いた範囲を第2のサーバに搭載しても良い。
また、これら以外の分散方法も可能である。
以上説明してきたように、本実施形態によれば、検索対象となるストローク数が増加しても、処理時間とメモリ量の増加を防ぐことが可能になる。より具体的には、例えば、検索に用いるクエリーを文字列ではなくページとして、ページの行ブロック或いは図形領域の位置などのレイアウト情報を特徴として検索を行う。これによって、目的のページを高速・省メモリで検索できる。
なお、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の手書き文書検索装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の手書き文書検索装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…取得部、2…分類部、5…特徴抽出部、7…検索部、8…結果表示部、11…インクデータDB、12…特徴量DB、201…CPU、202…入力デバイス、203…出力デバイス、204…RAM、205…ROM、206…外部メモリ・インタフェース、207…通信インタフェース、301…サーバ、302…ネットワーク、303,304…クライアント。

Claims (11)

  1. 筆跡データを含む手書き文書を取得する取得部と、
    前記手書き文書を複数の領域に分類する分類部と、
    前記分類結果に基づいて、前記領域の特徴を示す特徴量を抽出する特徴抽出部と、
    前記特徴量に基づいて検索を実行する検索部とを備えたことを特徴とする手書き文書検索装置。
  2. 前記分類部は、前記手書き文書を、文字領域と文字領域以外の領域とに分類する、請求項1に記載の手書き文書検索装置。
  3. 前記分類部は、前記手書き文書を、文字領域と図形領域と表領域とに分類する、請求項1に記載の手書き文書検索装置。
  4. 前記分類部は、前記文字領域について、更に、段落ブロック、行ブロック、単語ブロック、文字ブロック及び部首ブロックの階層うちの一部又は全部に分類する、請求項2または3に記載の手書き文書検索装置。
  5. 前記特徴量は、前記領域の種類を示す領域ラベルと該領域データとの対を含むものである、請求項2ないし4のいずれか1項に記載の手書き文書検索装置。
  6. 前記取得部は、手書き文字列をストローク単位で取得する、請求項1に記載の手書き文書検索装置。
  7. 前記取得部は、予め蓄積されている手書き文字列からユーザにより指定された文字列を含む文書を取得する、請求項1に記載の手書き文書検索装置。
  8. 前記検索部は、各々の前記領域に対応して予め用意されたテンプレート群に類似した手書き文書を検索する請求項1に記載の手書き文書検索装置。
  9. 前記検索部による検索結果を表示する表示部を更に含む請求項1ないし8のいずれか1項に記載の手書き文書検索装置。
  10. 手書き文書検索装置の手書き文書検索方法において、
    筆跡データを含む手書き文書を取得するステップと、
    前記手書き文書を複数の領域に分類するステップと、
    前記分類結果に基づいて、前記領域の特徴を示す特徴量を抽出するステップと、
    前記特徴量に基づいて検索を実行するステップとを備えたことを特徴とする手書き文書検索方法。
  11. コンピュータを手書き文書検索装置として機能させるためのプログラムであって、
    筆跡データを含む手書き文書を取得する取得部と、
    前記手書き文書を複数の領域に分類する分類部と、
    前記分類結果に基づいて、前記領域の特徴を示す特徴量を抽出する特徴抽出部と、
    前記特徴量に基づいて検索を実行する検索部とをコンピュータに実現させるためのプログラム。
JP2012121305A 2012-05-28 2012-05-28 手書き文書検索装置、方法及びプログラム Pending JP2013246732A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012121305A JP2013246732A (ja) 2012-05-28 2012-05-28 手書き文書検索装置、方法及びプログラム
CN2012103481555A CN103455527A (zh) 2012-05-28 2012-09-18 手写文件检索装置、方法以及记录介质
US13/837,333 US9230181B2 (en) 2012-05-28 2013-03-15 Handwritten document retrieval apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012121305A JP2013246732A (ja) 2012-05-28 2012-05-28 手書き文書検索装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2013246732A true JP2013246732A (ja) 2013-12-09

Family

ID=49621643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012121305A Pending JP2013246732A (ja) 2012-05-28 2012-05-28 手書き文書検索装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US9230181B2 (ja)
JP (1) JP2013246732A (ja)
CN (1) CN103455527A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049114B2 (en) 2015-03-18 2018-08-14 Kabushiki Kaisha Toshiba Electronic device, method and storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6125333B2 (ja) * 2013-05-31 2017-05-10 株式会社東芝 検索装置、方法及びプログラム
JP2016110389A (ja) * 2014-12-05 2016-06-20 株式会社東芝 検索装置、方法及びプログラム
US9710701B2 (en) * 2015-03-26 2017-07-18 Lenovo (Singapore) Pte. Ltd. Handwriting data search
WO2017022090A1 (ja) * 2015-08-04 2017-02-09 株式会社ワコム 手書きデータ描画方法及び手書きデータ描画装置
US9866400B2 (en) * 2016-03-15 2018-01-09 Microsoft Technology Licensing, Llc Action(s) based on automatic participant identification
US12548364B2 (en) * 2022-03-24 2026-02-10 International Business Machines Corporation Search based on abstracted document structure image

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055371A (ja) * 1996-02-26 1998-02-24 Matsushita Electric Ind Co Ltd 文書探索および検索システム
JP2004227564A (ja) * 2003-01-21 2004-08-12 Microsoft Corp インクディバイダおよび関連するアプリケーションプログラムインターフェース
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2005208740A (ja) * 2004-01-20 2005-08-04 Ricoh Co Ltd 部分画像検索装置及び部分画像検索プログラム
JP2007065763A (ja) * 2005-08-29 2007-03-15 Sharp Corp 画像データ検索装置、画像データ検索方法、プログラム及び記録媒体
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2009230427A (ja) * 2008-03-21 2009-10-08 Ricoh Co Ltd 電子文書属性検出推定方法、電子文書属性検出推定装置、電子文書属性検出推定プログラム及び記憶媒体
JP2010009426A (ja) * 2008-06-27 2010-01-14 Canon Inc 情報処理装置及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US6108444A (en) * 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
JP4546291B2 (ja) * 2005-03-01 2010-09-15 キヤノン株式会社 画像処理装置およびその制御方法
KR101486174B1 (ko) * 2010-08-24 2015-01-23 노키아 코포레이션 중첩된 수기의 획들을 하나 이상의 그룹으로 분할하는 방법 및 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055371A (ja) * 1996-02-26 1998-02-24 Matsushita Electric Ind Co Ltd 文書探索および検索システム
JP2004227564A (ja) * 2003-01-21 2004-08-12 Microsoft Corp インクディバイダおよび関連するアプリケーションプログラムインターフェース
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2005208740A (ja) * 2004-01-20 2005-08-04 Ricoh Co Ltd 部分画像検索装置及び部分画像検索プログラム
JP2007065763A (ja) * 2005-08-29 2007-03-15 Sharp Corp 画像データ検索装置、画像データ検索方法、プログラム及び記録媒体
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2009230427A (ja) * 2008-03-21 2009-10-08 Ricoh Co Ltd 電子文書属性検出推定方法、電子文書属性検出推定装置、電子文書属性検出推定プログラム及び記憶媒体
JP2010009426A (ja) * 2008-06-27 2010-01-14 Canon Inc 情報処理装置及び情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049114B2 (en) 2015-03-18 2018-08-14 Kabushiki Kaisha Toshiba Electronic device, method and storage medium

Also Published As

Publication number Publication date
US9230181B2 (en) 2016-01-05
CN103455527A (zh) 2013-12-18
US20130315483A1 (en) 2013-11-28

Similar Documents

Publication Publication Date Title
CN114641753B (zh) 使用机器学习从楼层平面图图纸进行合成数据生成和建筑信息模型(bim)要素提取
JP5717691B2 (ja) 手書き文字検索装置、方法及びプログラム
JP5774558B2 (ja) 手書き文書処理装置、方法及びプログラム
US8452108B2 (en) Systems and methods for image recognition using graph-based pattern matching
CN110050277A (zh) 用于将手写文本转换成数字墨水的方法和系统
US7860313B2 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
CN110503054A (zh) 文本图像的处理方法及装置
CN101493887A (zh) 基于半监督学习和哈希索引的眉毛图像分割方法
Halder et al. Content independent writer identification on Bangla script: a document level approach
CN101789073B (zh) 字符识别装置及其字符识别方法
CN104573683A (zh) 字符串识别方法和装置
JP2015099566A (ja) 特徴算出装置、方法及びプログラム
JP2011128924A (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
CN118135582A (zh) 文献图表提取及分类方法、系统、计算机设备及存储介质
JP2013246733A (ja) 文書検索装置、方法およびプログラム
US9250802B2 (en) Shaping device
Yalniz et al. Ottoman archives explorer: A retrieval system for digital Ottoman archives
Roy et al. Word retrieval in historical document using character-primitives
Diem et al. Semi-automated document image clustering and retrieval
Saabni et al. Keywords image retrieval in historical handwritten Arabic documents
JP6030172B2 (ja) 手書き文字検索装置、方法及びプログラム
Xu et al. Graph-based layout analysis for pdf documents
Tehsin et al. A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data
US20160034569A1 (en) Search device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160531