JP2002091982A - 文書管理装置および文書管理プログラムが格納された記憶媒体 - Google Patents
文書管理装置および文書管理プログラムが格納された記憶媒体Info
- Publication number
- JP2002091982A JP2002091982A JP2000282576A JP2000282576A JP2002091982A JP 2002091982 A JP2002091982 A JP 2002091982A JP 2000282576 A JP2000282576 A JP 2000282576A JP 2000282576 A JP2000282576 A JP 2000282576A JP 2002091982 A JP2002091982 A JP 2002091982A
- Authority
- JP
- Japan
- Prior art keywords
- data
- input
- document
- file
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
索を行うことができる文書管理装置および文書管理プロ
グラムが格納された記憶媒体を提供すること。 【解決手段】 制御部11は、フラットテキストデータ
の処理サイズNとセクションシリアル番号jを初期化
し、文書ID51、セクションインデックス52、セク
ションシリアル番号jを、処理サイズNからN+Sfの
分まで全文情報記憶部18の空きエントリに設定する
(S900〜906)。セクションシリアル番号jが1
でない場合(S908;N)、2重化テキスト長54を
Sdとして全文情報記憶部18に設定する(S91
0)。フラットテキストデータサイズが処理サイズN+
Sfよりも大きい場合(S914;N)、NにSf−S
dを、jに1を足して(S916〜918)、フラット
テキストデータ登録処理(S902〜912)を全ての
フラットテキストデータを登録するまで繰り返す。
Description
び文書管理プログラムが格納された記憶媒体に係り、例
えば、画像やアプリケーションファイルを文書として登
録し、閲覧、検索をすることができる文書管理装置およ
び文書管理プログラムが格納された記憶媒体に関する。
より、家庭、オフィスにおいて一人一台のパーソナルコ
ンピュータを使用するようになっている。これによりオ
フィスでは、これら各自のパーソナルコンピュータがネ
ットワークで接続され、各自が自分のパーソナルコンピ
ュータからネットワーク接続された複数のパーソナルコ
ンピュータのファイルを参照したり、様々な文書データ
をアクセスすることができるようになっている。このよ
うに各自のパーソナルコンピュータから様々な文書デー
タやファイルをアクセスすることができるように、ネッ
トワーク内の各パーソナルコンピュータのファイルやデ
ータを一つの箇所で場所で管理するようになっている。
をネットワーク内に設置し、ユーザは自分のパーソナル
コンピュータからそのサーバにアクセスして文書の検
索、閲覧などを行なうことができる。このようにパーソ
ナルコンピュータの普及により、パーソナルコンピュー
タ上で手軽に文書管理を行うことができるアプリケーシ
ョンなどが利用されている。このような文書管理装置で
は、文書を閲覧する際の補助として検索機能を保持して
いる。一般的に、ユーザが検索、閲覧したい文書を検索
する際、検索条件として文書名やキーワードなどの書誌
情報を対象にする場合と、書誌情報を必要とせずに文書
内の全文を対象にする場合の2つの場合がある。ところ
で、特開平5−101102号公報や特開平5−204
993号公報には、全文検索を行う検索装置において、
検索用に2次インデックス情報を保持し、そのインデッ
クス情報を検索して、目的の文書を探し出す検索装置が
記載されている。
ような全文検索可能な装置を機能としてパーソナルコン
ピュータなどに組み込むことは、以下のような理由から
難しいものであった。例えば、ユーザが書誌情報を検索
対象とする場合には、莫大なデータを必要とせず、内部
の処理がそれほど複雑でないためパーソナルコンピュー
タ上でも文書管理装置を稼動させることも可能である
が、多くの文書情報が格納された文書検索装置上での動
作を意識した従来技術の検索装置では、文書数が少ない
場合にも検索に時間を要することがある。また、全文デ
ータ(以下、フラットテキストデータという)のほかに
も全文検索用インデックス情報をさらに別に持つ必要が
あり、余分な情報も持たなければならがなかった。この
ようにフラットテキストデータを2重化して格納してい
るために、余分なデータを保持することになってしま
う。
合、文書に複数セクションのファイルが存在することに
なる。OCR(Optical Character
Reader)技術などを利用することにより各画像か
らフラットテキストデータを抽出すると、それぞれの画
像からデータを抽出して格納することになる。例えば、
1頁の最後が「に関する技術」となっており、2頁の最
初が「報告書が」とつながっていて複数の画像が一つの
報告書になっており、文章は次のページ(画像)に続い
ているというような場合がある。このような場合に文書
データが登録されると、登録ブロック内で「に関する技
術」と「報告書が」がつながっていないために、ユーザ
がキーワードとして「技術報告書」を指定した場合、目
的の文章が検索できないということがある。
トデータは自動的に抽出されるため、フラットテキスト
の文字列内の数字やアルファベットなどは、大文字/小
文字や半角/全角の文字が混在する可能性が高く、特
に、長音やハイフンはOCR技術でも認識率を向上させ
ることが難しいものである。また、数字やアルファベッ
ト、大文字/小文字や半角/全角の文字などはそれぞれ
文字コードが異なるため、従来の検索装置では一文字だ
け大文字が小文字になっていたりするだけで違う文字と
判断され、文書が検索できないことがある。そこで、フ
ラットテキストデータ内の大文字/小文字や半角/全
角、長音/ハイフンのあいまい性を考慮した全文検索の
ために、文字データの最適化をするフィルタをかけるよ
うにすると、フィルタを通す処理が全文検索用ファイル
内のフラットテキストデータ全てに対して行わなければ
ならず、検索時間を要することになり、結果として検索
時の性能が落ちてしまうことがある。また、全文検索時
に指定するキーワードとしては句読点などの文字を使用
しないため、そのような文字がある箇所でブロック間を
分割すれば、フラットテキストを2重化する必要性がな
くなる。
デックス情報を持たないで、処理能力が低いパーソナル
コンピュータ上でも全文検索を行うことができる文書管
理装置および文書管理プログラムが格納された記憶媒体
を提供することである。本発明の第2の目的は、セクシ
ョン(ファイル)間で文が分割されている場合にも全文
検索が可能な文書管理装置および文書管理プログラムが
格納された記憶媒体を提供することである。本発明の第
3の目的は、セクション内ではフラットテキストデータ
を2重化せずに、全文検索用管理ファイルに登録可能な
文書管理装置および文書管理プログラムが格納された記
憶媒体を提供することである。本発明の第4の目的は、
フラットテキストデータが大文字/小文字や半角/全
角、長音/ハイフンの文字を区別することなく全文検索
できる文書管理装置および文書管理プログラムが格納さ
れた記憶媒体を提供することである。本発明の第5の目
的は、フラットテキストデータが大文字/小文字や半角
/全角、長音/ハイフンの文字を区別することなく全文
検索の性能を向上することができる文書管理装置および
文書管理プログラムが格納された記憶媒体を提供するこ
とである。本発明の第6の目的は、文書管理プログラム
を記録した記録媒体としても利用することができる文書
管理装置および文書管理プログラムが記憶された記憶媒
体を提供することである。
は、画像、文書などのファイルや検索したいデータを入
力する入力手段と、前記入力手段によって入力されたフ
ァイル内のデータを所定のブロックに分割し、分割した
ブロックごとに文書名、入力日、画像、文書内容などの
各データを登録して記憶するデータ記憶手段と、前記デ
ータ記憶手段に記憶されている各データを前記入力手段
からの入力に基づいて検索するデータ検索手段と、前記
データ検索手段による検索結果を表示する表示手段と、
を備えたことにより、前記第1の目的を達成する。
発明において、前記データ記憶手段が前記ファイル内の
連続したデータを複数のブロックによって分割した場
合、分割された他のブロックに同じ文書名、入力日、画
像、文書内容などの各データを登録するデータ登録手段
をさらに備えたことにより、前記第2の目的を達成す
る。
請求項2記載の発明において、前記データ記憶手段が前
記入力手段によって入力されたファイル内のデータを分
割する際、句読点などの特定文字がファイル内に含まれ
る場合にはこの特殊文字の箇所でファイル内のデータを
分割することにより、前記第3の目的を達成する。
項2、請求項3のうちいずれか1に記載の発明におい
て、前記入力手段によって入力されたファイル内のデー
タの数字、全角、半角、ハイフン、長音などの文字コー
ドを認識する認識手段をさらに備えたことにより、前記
第4の目的を達成する。
発明において、前記データ記憶手段は、前記認識手段に
よって認識された各ファイル内のデータを所定のブロッ
クに分割することにより、前記第5の目的を達成する。
のファイルや検索したいデータを入力する入力機能と、
前記入力機能によって入力されたファイル内のデータを
所定のブロックに分割し、分割したブロックごとに文書
名、入力日、画像、文書内容などの各データを登録して
記憶する記憶機能と、前記記憶機能に記憶されている各
データを前記入力手段からの入力に基づいて検索する検
索機能と、前記検索機能による検索結果を表示する表示
機能と、を備えたことにより、前記第1および前記第6
の目的を達成する。
発明において、前記記憶機能によって前記ファイル内の
連続したデータが複数のブロックによって分割された場
合、分割された他のブロックに同じ文書名、入力日、画
像、文書内容などの各データを登録する登録機能をさら
に備えたことにより、前記第2および前記第6の目的を
達成する。
請求項7記載の発明において、前記記憶機能によって前
記入力機能で入力されたファイル内のデータが分割され
る場合、句読点などの特定文字がファイル内に含まれる
ときにはこの特殊文字の箇所でファイル内のデータを分
割することにより、前記第3および第6の目的を達成す
る。
項7、請求項8のうちいずれか1に記載の発明におい
て、前記記憶機能によって入力されたファイル内のデー
タの数字、全角、半角、ハイフン、長音などの文字コー
ドを認識する認識機能をさらに備えたことにより、前記
第4および前記第6の目的を達成する。
の発明において、前記記憶機能は、前記認識機能によっ
て認識された各ファイル内のデータを所定のブロックに
分割することにより、前記第5および前記第6の目的を
達成する。
について、図1ないし図16を参照して詳細に説明す
る。図1は、本実施の形態に係る文書管理装置の構成を
示したブロック図である。文書管理装置は、制御部1
1、表示部12、コマンド入力部13、システム情報記
憶部14、文書情報記憶部15、セクションデータ記憶
部16、セクション情報記憶部17、全文情報記憶部1
8を備えている。制御部11は、図示しないCPU(中
央処理装置)、ROM(リード・オンリ・メモリ)、R
AM(ランダム・アクセス・メモリ)などから構成され
るマイクロコンピュータを内蔵し、文書管理装置の全体
の制御を行う。表示部12は、検索結果文書一覧画面の
表示、文書表示画面の表示などを行うCRT(Cath
ode Ray Tube display)、TFT
(Thin Film Transistor)などの
ディスプレイ装置である。コマンド入力部13は、各種
作業のコマンド入力およびデータ入力を行うキーボード
またはマウスなどの入力装置である。
内で共通で使用するパラメータを保持している記憶装置
である。文書情報記憶部15は、文書の書誌情報(文書
名など)を記録する記憶装置である。セクションデータ
記憶部16は、文書のセクションデータである画像やア
プリケーションファイルなどのデータを記録する記憶装
置である。セクション情報記憶部17は、セクション
(ファイル)に関する詳細情報であるセクション名など
を記録する記憶装置である。全文情報記憶部18は、文
書の各セクションに対応するフラットテキストデータを
記録する記憶装置である。
データフォーマットの一例を示した図である。システム
情報記憶部14は、フラットテキストデータサイズ(S
f)21と2重化データサイズ(Sd)22を格納して
いる。これらの各データ値は、全文データの作成時に使
用する値であり、文書管理装置内において共通のものと
なっている。図3は、文書情報記憶部15におけるデー
タフォーマットの一例を示した図である。文書情報記憶
部15は、文書ID31、文書名32、登録日33、セ
クション数34を格納している。
るデータフォーマットの一例を示した図である。セクシ
ョン情報記憶部17は、文書ID41、セクションイン
デックス42、セクションデータへのポインタ43を格
納している。また、文書ID41とリンクして、その文
書ID41内のセクションと関連付けられている。さら
には、セクションデータへのポインタ43とリンクして
セクションデータ記憶部16の中のデータと関連付けら
れている。図5は、全文情報記憶部18におけるデータ
フォーマットの一例を示した図である。全文情報記憶部
18は、文書ID51、セクションインデックス52、
セクションシリアル番号53、2重化テキスト長54、
フラットテキストデータ55を格納している。また、文
書ID51とセクションインデックス52とリンクし
て、その文書ID51における文書内のセクション内の
フラットテキストデータ55と関連付けられている。セ
クションシリアル番号53は、セクション内のフラット
テキストデータ55を複数レコードに分割して格納する
際に、シーケンシャルに(順番に)振られた番号が格納
されている。フラットテキストデータ55内には実際の
テキストデータが格納されている。
について説明する。図6は、文書登録を行う際の処理手
順を示したフローチャートである。文書を登録する場
合、ユーザが画像やアプリケーションのファイル名をコ
マンド入力部13において入力すると(ステップ60
0)、制御部11は、文書情報記憶部15に入力された
ファイル名を記憶させる(ステップ602)。ここで、
ユーザは複数個のファイルを登録することができ、全て
のファイル登録が終わると(ステップ604;Y)、制
御部11は、指定されたファイルをセクションとして登
録するセクション登録処理が実行される(ステップ60
6)。次に、ユーザが文書名などの書誌情報を入力する
と(ステップ608)、制御部11は、文書情報記憶部
15に新規のエントリを追加し、ユーザが入力した文書
名32や現在の日時を登録日33としてそのエントリに
登録する(ステップ610)。また、ファイル数は文書
情報記憶部15のセクション数34としてエントリに登
録され(ステップ612)、制御部11によって全文検
索で使用するデータである全文データ作成処理が実行さ
れる(ステップ614)。
タ作成処理の詳細について、図7および図8のフローチ
ャートを参照して説明する。図7は、セクション登録処
理の処理手順を示したフローチャートである。まず、制
御部11は、iに1をセットして(ステップ700)、
i番目(1番目)の登録ファイル名を取得する(ステッ
プ702)。そして、取得したファイル名の中のデータ
を取得後、セクションデータ記憶部16へセクションデ
ータである画像やアプリケーションファイルなどのデー
タを登録する(ステップ704)。次に、セクション情
報記憶部17にエントリを追加し、その前に格納したデ
ータのセクションデータ記憶部16のセクションデータ
へのポインタ43とセクションインデックス42を登録
する(ステップ706)。制御部11は、iに1を足し
て(ステップ708)、この1が足されたiと登録され
ているファイル数を比較する(ステップ710)。登録
ファイル数よりもiが小さい場合(ステップ710;
N)、制御部11はこのi番目のファイル名を取得し、
セクション登録処理(ステップ702〜708)を登録
されたファイル数分、すなわち登録ファイル数がiより
も大きくなるまで(ステップ710;Y)繰り返す。登
録ファイル数よりもiが大きい場合(ステップ710;
Y)、登録された全ての登録ファイルについてのセクシ
ョン登録処理が終了したことになる。
示したフローチャートである。まず、制御部11は、シ
ステム情報記憶部14よりフラットテキストデータサイ
ズ(Sf)21と2重化データサイズ(Sd)22を取
得する(ステップ800)。次に、制御部11は、iに
1をセットして(ステップ802)、セクション情報記
憶部17のi番目(1番目)のセクションデータポイン
タ43に該当するセクションデータ記憶部16のセクシ
ョンデータを取得する(ステップ804)。この取得し
たセクションデータからフラットテキストデータを抽出
するOCR処理などの処理行う(ステップ806)。こ
のフラットテキストデータの抽出処理は、セクション情
報記憶部17の内部で行われ、例えば、セクションが画
像の場合にはOCRなどの処理が行われてテキストデー
タが抽出されたり、アプリケーションファイルの場合に
はアプリケーションに対してテキストだけ抽出したりす
る処理が行われる。そして、抽出されたフラットテキス
トデータの登録処理が実行される(ステップ808)。
テップ810)、この1が足されたiとセクション数を
比較する(ステップ812)。セクション数よりもiが
大きい場合(ステップ812;N)、制御部11は、こ
のi番目のセクションデータポインタに該当するセクシ
ョンデータを取得し、フラットテキストデータ登録処理
(ステップ804〜810)をセクション数分、すなわ
ちiがセクション数よりも大きくなるまで(ステップ8
12;Y)繰り返す。セクション数よりもiが小さい場
合(ステップ812;Y)、全てのセクション数につい
てのフラットテキストデータ登録処理が終了したことに
なる。
ついて図9のフローチャートを参照して説明する。図9
は、フラットテキストデータ登録処理の第1の実施形態
の処理手順を示したフローチャートである。まず、制御
部11は、フラットテキストデータの処理サイズNとセ
クションシリアル番号53であるj(以下、セクション
シリアル番号53をjとする)のそれぞれに1をセット
して初期化する(ステップ900)。次に、全文情報記
憶部18内の空きエントリを確保し(ステップ90
2)、文書ID51と、セクションインデックス52で
あるi(以下、セクションインデックス52をiとす
る)と、セクションシリアル番号jとを、処理サイズN
からN+Sfの分まで全文情報記憶部18の空きエント
リに設定する(ステップ904〜906)。
番号jが1であるかどうかを判断し(ステップ90
8)、セクションシリアル番号jが1の場合(ステップ
908;Y)、フラットテキストデータが2重化されて
いないことになるため(図5参照)、2重化テキスト長
54を0として全文情報記憶部18に設定する(ステッ
プ912)。セクションシリアル番号jが1でない場合
(ステップ908;N)、フラットテキストデータがS
d分だけ2重化されていることになるため、2重化テキ
スト長54をSd、すなわち100として全文情報記憶
部18に設定する(ステップ910)。そして、全ての
フラットテキストを登録したかどうかの判断、すなわち
フラットテキストデータサイズと処理サイズN+Sfを
比較する(ステップ914)。
ズN+Sfよりも大きい場合(ステップ914;N)、
全てのフラットテキストを登録していないことになり、
NにSf−Sdを加え(ステップ916)、jに1を足
して(ステップ918)、フラットテキストデータを登
録する処理(ステップ902〜912)を全てのフラッ
トテキストデータを登録するまで(ステップ914;
Y)、繰り返す。フラットテキストデータサイズが処理
サイズN+Sfよりも小さい場合(ステップ914;
Y)、全てのフラットテキストの登録が終了したことに
なり、処理を終了する。
示したフローチャートである。まず、ユーザがコマンド
入力部13からキーワードを入力すると(ステップ10
00)、制御部11は、入力されたキーワードに基づい
て全文検索メイン処理を行う(ステップ1001)。そ
して、検索後に検索結果が表示部12に表示され(ステ
ップ1002)、ユーザによって検索結果の一覧の中か
ら文書が指定されると(ステップ1003;Y)、制御
部11は、ユーザが閲覧することができるよう文書の内
容を表示部12に表示する(ステップ1004)。検索
結果や文書内容を閲覧したユーザが終了を指定すると
(ステップ1005;Y)、全文検索処理が終了とな
る。
施形態の処理手順を示したフローチャートである。この
全文検索メイン処理では、全文情報記憶部18内のフラ
ットテキストデータを先頭より順次検索を行う。まず、
全文情報記憶部18の先頭レコードにポインタを設定し
(ステップ1100)、現在のレコードが空きレコード
かどうかをチェックする(ステップ1102)。空きレ
コードかどうかを判断するには、例えば文書IDが特殊
な空きレコード番号になっているかどうかをチェックす
ればわかるようになっている。空きレコードであった場
合(ステップ1102;Y)、ユーザにその旨を表示し
て知らせる。
2;N)、そのレコード内のフラットテキストデータを
取得し、フラットテキストデータ内にユーザが指定した
キーワードが含まれているかどうかを検索する(ステッ
プ1104〜1106)。この検索では部分文字列一致
関数などを用いることにより検索処理を行っており、既
存の関数などで処理可能である。検索にヒットした場
合、すなわち該当する文書があった場合(ステップ11
08;Y)に、レコード内に記述されている文書IDが
ないときには、文書IDを検索結果に追加する(ステッ
プ1110)。文書IDが検索結果にあるときは特に追
加する必要はない。ユーザが終了を指定すると(ステッ
プ1112;Y)、全文検索メイン処理が終了となる。
ここで、ユーザが検索結果に満足せず、さらなる検索を
指定すると(ステップ1112;N)、次のレコードに
ポインタを移動して全文検索メイン処理(ステップ11
02〜1110)を全てのレコードについて実行するま
で繰り返す。
理の第3の実施形態の処理手順を示したフローチャート
である。まず、制御部11は、フラットテキストの処理
サイズNとセクションシリアル番号jのそれぞれに1を
セットして初期化する(ステップ1200)。次に、全
文情報記憶部18内の空きエントリを確保し(ステップ
1202)、文書IDとセクションインデックスiとセ
クションシリアル番号jとを、全文情報記憶部18の空
きエントリに設定する(ステップ1204)。次に、セ
クションシリアル番号jが1より小さく、かつセクショ
ンシリアル番号jが1の場合(ステップ1206;
N)、NからN+Sf−1までのフラットテキストデー
タを全文情報記憶部18のエントリに設定する(ステッ
プ1208)。また、登録したフラットテキストの最後
Sd個のデータをバッファBに格納する(ステップ12
10)。そして、セクションシリアル番号iが1である
場合(ステップ1212;Y)、フラットテキストは2
重化されていないため、全文情報記憶部18の2重化テ
キスト長には0を設定し(ステップ1214)、そし
て、全てのフラットテキストを登録したかどうかを判
断、すなわちフラットテキストデータサイズと処理サイ
ズN+Sfを比較する(ステップ1218)。また、セ
クションシリアル番号iが1でない場合(ステップ12
12;N)、フラットテキストは2重化されているの
で、全文情報記憶部18の2重化テキスト長をSdに設
定し、全てのフラットテキストを登録したかどうかの判
断に移行する(ステップ1218)。
ズN+Sfよりも大きい場合(ステップ1218;
N)、全てのフラットテキストを登録していないことに
なり、NにSf−Sdを加え(ステップ1220)、j
に1を足して(ステップ1222)、フラットテキスト
データを登録する処理(ステップ1202〜1216)
を全てのフラットテキストデータを登録するまで(ステ
ップ1218;Y)、繰り返す。フラットテキストデー
タサイズが処理サイズN+Sfよりも小さい場合(ステ
ップ1218;Y)、全てのフラットテキストの登録が
終了したことになり、処理を終了する。
く、かつセクションシリアル番号jが1の場合(ステッ
プ1206;Y)、最初にバッファBをエントリの先頭
のSd個に右詰で設定する(ステップ1230)。ここ
で、右詰にバッファBを設定するのは、その前のセクシ
ョンのフラットテキストデータがSd個に満たない場合
があるためである。そして、Sd+1以降のNからN+
Sf−Sd−1までのフラットテキストデータを全文情
報記憶部18に設定する(ステップ1232)。そし
て、登録したフラットテキストの最後Sd個のデータを
バッファBへ設定し(ステップ1234)、Sd分だけ
2重化されていることになるので、全文情報記憶部18
の2重化テキスト長をSdに設定し、先頭Sd個にはす
でにデータが入っているため、フラットテキストデータ
がN+Sf−Sd−1よりも小さいか否かを、すなわち
全てのフラットテキストを登録し終えたかどうかを判断
する(ステップ1236)。
−Sd−1よりも大きい場合(ステップ1234;
N)、全てのフラットテキストを登録していないことに
なり、NにSf−2Sdを加え(ステップ1238)、
jに1を足して(ステップ1240)、フラットテキス
トデータを登録する処理(ステップ1202〜123
8)を全てのフラットテキストデータを登録するまで
(ステップ1236;Y)、繰り返す。フラットテキス
トデータサイズがN+Sf−Sd−1よりも小さい場合
(ステップ1236;Y)、全てのフラットテキストの
登録が終了したことになり、処理を終了する。
理の第4の実施形態の処理手順を示したフローチャート
である。まず、フラットテキストの処理サイズNとセク
ションシリアル番号jのそれぞれに1をセットし、2重
化テキスト長Lを0にセットして初期化する(ステップ
1300)。次に、全文情報記憶部18より空きエント
リを確保し(ステップ1302)、文書IDとセクショ
ンインデックスiとセクション内シリアル番号jとを、
全文情報記憶部18の空きエントリに設定する(ステッ
プ1304)。次に、NからN+Sf−1までのフラッ
トテキストデータをエントリに設定し、2重化テキスト
長Lも設定する(ステップ1308)。そして、フラッ
トテキストテキストデータサイズがN+Sfよりも小さ
いか否かを、すなわち全てのフラットテキストを登録し
終えたかどうかを判断する(ステップ1310)。フラ
ットテキストテキストデータサイズがN+Sfよりも大
きい、すなわち全てのフラットテキストの登録を終えて
いない場合(ステップ1310;N)、N+Sf+Sd
からN+Sf−1までのデータの中に区切り文字(例え
ば、句読点、カンマ、ピリオドなど)があるかどうかを
チェックする(ステップ1312)。ここで、なるべく
後ろに区切り文字があるかどうかを考慮する方が、検索
検索性能を向上することができ、無駄な2重化を防ぐこ
とができる。
314;N)、2重化テキスト長LにSdを設定し(ス
テップ1316)、NにSf−Lを加え(ステップ13
20)、jに1を足して(ステップ1322)、フラッ
トテキストデータを登録する処理(ステップ1302〜
1312)を全てのフラットテキストデータを登録する
まで(ステップ1310;Y)、繰り返す。区切り文字
がM番目に存在する場合(ステップ1314;Y)、2
重化テキスト長LをSd−Mと設定し(ステップ131
8)、NにSf−Lを加え(ステップ1320)、jに
1を足して(ステップ1322)、フラットテキストデ
ータを登録する処理(ステップ1302〜1312)を
全てのフラットテキストデータを登録するまで(ステッ
プ1310;Y)、繰り返す。このM番目に区切り文字
が存在する場合には、Sf−LがSf−Sdよりも大き
くなるため、検索検索性能を向上することができ、2重
化による記憶領域の無駄を防ぐことができる。フラット
テキストテキストデータサイズがN+Sfよりも小さ
い、(ステップ1310;Y)、全てのフラットテキス
トの登録が終了したことになり、処理を終了する。
施形態の処理手順を示したフローチャートである。ま
ず、ユーザによって指定された検索のキーワードの文字
コードの最適化処理を行う(ステップ1400)。この
最適化処理とは、例えばアルファベットの小文字をaB
cD→ABCDというように大文字に変換したり、半角
の数字を全角の数字に変換したりするものである。そし
て、全文情報記憶部18の先頭レコードにポインタを設
定し(ステップ1402)、現在のレコードが空きレコ
ードかどうかをチェックする(ステップ1404)。空
きレコードかどうかを判断するには、例えば文書IDが
特殊な空きレコード番号になっているかどうかをチェッ
クすればわかるようになっている。空きレコードであっ
た場合(ステップ1404;Y)、ユーザにその旨を表
示して知らせる。
4;N)、そのレコードに格納されているフラットテキ
ストデータを取得し(ステップ1406)、同様の文字
コードの最適化処理を行う(ステップ1408)。次
に、フラットテキスト内にユーザが指定したキーワード
が含まれているかどうかを検索する(ステップ141
0)。この検索では部分文字列一致関数などを用いるこ
とにより検索処理を行っており、既存の関数などで処理
可能である。検索にヒットした場合(ステップ141
2;Y)、レコード内に記述されている文書IDが検索
結果にある場合は特に追加する必要はないが、文書ID
がない場合、文書IDを検索結果に追加する(ステップ
1414)。ユーザが終了を指定すると(ステップ14
16;Y)、全文検索メイン処理が終了となる。ここ
で、ユーザが検索結果に満足せず、さらなる検索を指定
すると(ステップ1416;N)、次のレコードにポイ
ンタを移動して全文検索メイン処理(ステップ1404
〜1414)を、すべてのレコードについて実行するま
で繰り返す。
施形態の処理手順を示したフローチャートである。ま
ず、制御部11は、システム情報記憶部14よりフラッ
トテキストデータサイズ(Sf)21と2重化データサ
イズ(Sd)22を取得する(ステップ1500)。次
に、iに1をセットして(ステップ1502)、セクシ
ョン情報記憶部17のi番目(1番目)のセクションデ
ータポインタに該当するセクションデータ記憶部16の
セクションデータを取得する(ステップ1504)。次
に、この取得したセクションデータからフラットテキス
トデータを抽出するOCR処理などの処理行う(ステッ
プ1506)。そして、抽出されたフラットテキストに
対して文字コードの最適化処理を行い(ステップ150
8)、抽出されたフラットテキストデータの登録処理が
実行される(ステップ1510)。
1512)、この1が足されたiとセクション数を比較
する(ステップ1514)。セクション数よりもiが小
さい場合(ステップ1514;N)、制御部11は、こ
のi番目のセクションデータポインタに該当するセクシ
ョンデータを取得し、フラットテキストデータ登録処理
(ステップ1504〜1512)をセクション数分、す
なわちiがセクション数よりも大きくなるまで(ステッ
プ1514;Y)繰り返す。セクション数よりもi+1
が大きい場合(ステップ1514;Y)、全てのセクシ
ョン数についてのフラットテキストデータ登録処理が終
了したことになる。
施形態の処理手順を示したフローチャートである。ま
ず、ユーザによって指定された検索のキーワードの文字
コードの最適化処理を行う(ステップ1600)。次
に、全文情報記憶部18の先頭レコードにポインタを設
定し(ステップ1602)、現在のレコードが空きレコ
ードかどうかをチェックする(ステップ1604)。空
きレコードかどうかを判断するには、例えば文書IDが
特殊な空きレコード番号になっているかどうかをチェッ
クすればわかるようになっている。空きレコードであっ
た場合(ステップ1604;Y)、ユーザにその旨を表
示して知らせる。
4;N)、そのレコードに格納されているフラットテキ
ストデータを取得し(ステップ1606)、フラットテ
キスト内にユーザが指定したキーワードが含まれている
かどうかを検索する(ステップ1608)。この検索で
は部分文字列一致関数などを用いることにより検索処理
を行っており、既存の関数などで処理可能である。検索
にヒットした場合(ステップ1610;Y)、レコード
内に記述されている文書IDが検索結果にある場合は特
に追加する必要はないが、文書IDがない場合、文書I
Dを検索結果に追加する(ステップ1612)。ユーザ
が終了を指定すると(ステップ1614;Y)、全文検
索メイン処理が終了となる。ここで、ユーザが検索結果
に満足せず、さらなる検索を指定すると(ステップ16
14;N)、次のレコードにポインタを移動して全文検
索メイン処理(ステップ1604〜1612)を、すべ
てのレコードについて実行するまで繰り返す。
タの追加/更新/削除による処理が最小限度で済み、高
価なサーバなどの環境でなくとも全文検索機能を文書管
理装置上で稼動することができる。また、インデックス
情報が不用であるため、ディスク資源の節約が可能とな
り、フラットテキストデータの格納先をブロック化する
ことで、データの追加/更新/削除によって生じるフラ
グメンテーションを最小限度にとどめることができる。
って入力されたファイル内のデータを所定のブロックに
分割し、分割したブロックごとに文書名、入力日、画
像、文書内容などの各データを登録して記憶するデータ
記憶手段を備えたので、インデックス情報がいらず、デ
ィスク資源の節約をすることができる。
がファイル内の連続したデータを複数のブロックによっ
て分割した場合、分割された他のブロックに同じ文書
名、入力日、画像、文書内容などの各データを登録する
データ登録手段をさらに備えたので、セクション間で文
が分割されている場合にも検索ができ、全文検索の検索
信頼性をさらに高めることができる。
が入力手段によって入力されたファイル内のデータを分
割する際、句読点などの特定文字がファイル内に含まれ
る場合にはこの特殊文字の箇所でファイル内のデータを
分割するので、フラットテキストを2重化して持つサイ
ズが減少し、記憶装置のリソース資源を有効に活用する
ことができる。
て入力されたファイル内のデータの数字、全角、半角、
ハイフン、長音などの文字コードを認識する認識手段を
さらに備えたので、フラットテキスト内の大文字/小文
字や半角/全角、長音/ハイフンのあいまい性を考慮し
た全文検索が可能となる。
は、認識手段によって認識された各ファイル内のデータ
を所定のブロックに分割するので、フラットテキスト内
の大文字/小文字や半角/全角、長音/ハイフンのあい
まい性を考慮した全文検索が可能となり、かつ検索性能
を向上させることができる。
て入力されたファイル内のデータを所定のブロックに分
割し、分割したブロックごとに文書名、入力日、画像、
文書内容などの各データを登録して記憶する記憶機能を
備えたので、インデックス情報がいらず、ディスク資源
の節約をすることができる。
てファイル内の連続したデータが複数のブロックによっ
て分割された場合、分割された他のブロックに同じ文書
名、入力日、画像、文書内容などの各データを登録する
登録機能をさらに備えたので、セクション間で文が分割
されている場合にも検索ができ、全文検索の検索信頼性
をさらに高めることができる。
て入力機能で入力されたファイル内のデータが分割され
る場合、句読点などの特定文字がファイル内に含まれる
ときにはこの特殊文字の箇所でファイル内のデータを分
割するので、フラットテキストを2重化して持つサイズ
が減少し、記憶装置のリソース資源を有効に活用するこ
とができる。
て入力されたファイル内のデータの数字、全角、半角、
ハイフン、長音などの文字コードを認識する認識機能を
さらに備えたので、フラットテキスト内の大文字/小文
字や半角/全角、長音/ハイフンのあいまい性を考慮し
た全文検索が可能となる。
認識機能によって認識された各ファイル内のデータを所
定のブロックに分割するので、フラットテキスト内の大
文字/小文字や半角/全角、長音/ハイフンのあいまい
性を考慮した全文検索が可能となり、かつ検索性能を向
上させることができる。
たブロック図である。
トの一例を示した図である。
一例を示した図である。
ットの一例を示した図である。
一例を示した図である。
チャートである。
チャートである。
チャートである。
形態の処理手順を示したフローチャートである。
チャートである。
施形態の処理手順を示したフローチャートである。
施形態の処理手順を示したフローチャートである。
施形態の処理手順を示したフローチャートである。
手順を示したフローチャートである。
手順を示したフローチャートである。
手順を示したフローチャートである。
Claims (10)
- 【請求項1】 画像、文書などのファイルや検索したい
データを入力する入力手段と、 前記入力手段によって入力されたファイル内のデータを
所定のブロックに分割し、分割したブロックごとに文書
名、入力日、画像、文書内容などの各データを登録して
記憶するデータ記憶手段と、 前記データ記憶手段に記憶されている各データを前記入
力手段からの入力に基づいて検索するデータ検索手段
と、 前記データ検索手段による検索結果を表示する表示手段
と、を備えたことを特徴とする文書管理装置。 - 【請求項2】 前記データ記憶手段が前記ファイル内の
連続したデータを複数のブロックによって分割した場
合、分割された他のブロックに同じ文書名、入力日、画
像、文書内容などの各データを登録するデータ登録手段
をさらに備えたことを特徴とする請求項1記載の文書管
理装置。 - 【請求項3】 前記データ記憶手段が前記入力手段によ
って入力されたファイル内のデータを分割する際、句読
点などの特定文字がファイル内に含まれる場合にはこの
特殊文字の箇所でファイル内のデータを分割することを
特徴とする請求項1または請求項2記載の文書管理装
置。 - 【請求項4】 前記入力手段によって入力されたファイ
ル内のデータの数字、全角、半角、ハイフン、長音など
の文字コードを認識する認識手段をさらに備えたことを
特徴とする請求項1、請求項2、請求項3のうちいずれ
か1に記載の文書管理装置。 - 【請求項5】 前記データ記憶手段は、前記認識手段に
よって認識された各ファイル内のデータを所定のブロッ
クに分割することを特徴とする請求項4記載の文書管理
装置。 - 【請求項6】 画像、文書などのファイルや検索したい
データを入力する入力機能と、 前記入力機能によって入力されたファイル内のデータを
所定のブロックに分割し、分割したブロックごとに文書
名、入力日、画像、文書内容などの各データを登録して
記憶する記憶機能と、 前記記憶機能に記憶されている各データを前記入力手段
からの入力に基づいて検索する検索機能と、 前記検索機能による検索結果を表示する表示機能と、を
コンピュータに実現させるためのコンピュータ読み取り
可能な文書管理プログラムが格納された記憶媒体。 - 【請求項7】 前記記憶機能によって前記ファイル内の
連続したデータが複数のブロックによって分割された場
合、分割された他のブロックに同じ文書名、入力日、画
像、文書内容などの各データを登録する登録機能をさら
に備えたことを特徴とする請求項6記載の文書管理プロ
グラムが格納された記憶媒体。 - 【請求項8】 前記記憶機能によって前記入力機能で入
力されたファイル内のデータが分割される場合、句読点
などの特定文字がファイル内に含まれるときにはこの特
殊文字の箇所でファイル内のデータを分割することを特
徴とする請求項6または請求項7記載の文書管理プログ
ラムが格納された記憶媒体。 - 【請求項9】 前記記憶機能によって入力されたファイ
ル内のデータの数字、全角、半角、ハイフン、長音など
の文字コードを認識する認識機能をさらに備えたことを
特徴とする請求項6、請求項7、請求項8のうちいずれ
か1に記載の文書管理プログラムが格納された記憶媒
体。 - 【請求項10】 前記記憶機能は、前記認識機能によっ
て認識された各ファイル内のデータを所定のブロックに
分割することを特徴とする請求項9記載の文書管理プロ
グラムが格納された記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000282576A JP2002091982A (ja) | 2000-09-18 | 2000-09-18 | 文書管理装置および文書管理プログラムが格納された記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000282576A JP2002091982A (ja) | 2000-09-18 | 2000-09-18 | 文書管理装置および文書管理プログラムが格納された記憶媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002091982A true JP2002091982A (ja) | 2002-03-29 |
| JP2002091982A5 JP2002091982A5 (ja) | 2005-08-25 |
Family
ID=18767067
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000282576A Pending JP2002091982A (ja) | 2000-09-18 | 2000-09-18 | 文書管理装置および文書管理プログラムが格納された記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002091982A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10599827B2 (en) | 2018-03-29 | 2020-03-24 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and information processing method |
-
2000
- 2000-09-18 JP JP2000282576A patent/JP2002091982A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10599827B2 (en) | 2018-03-29 | 2020-03-24 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and information processing method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8577882B2 (en) | Method and system for searching multilingual documents | |
| US7401078B2 (en) | Information processing apparatus, document search method, program, and storage medium | |
| JPH09505422A (ja) | テキストドキュメント及びイメージドキュメントを同期化、ディスプレイ、及び操作するための方法及び装置 | |
| CN101251844A (zh) | 用于检索内容的设备和方法 | |
| CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
| WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
| US20020093506A1 (en) | Apparatus and method for storing and retrieving images for transmission to an output device | |
| WO2008041367A1 (fr) | Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document | |
| JPH11224258A (ja) | 画像検索装置及びその方法、コンピュータ可読メモリ | |
| CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
| WO2008038416A1 (fr) | Dispositif de recherche de document et procédé de recherche de document | |
| JP2005107931A (ja) | 画像検索装置 | |
| JP2004213091A (ja) | 文書画像検索装置及びその方法、文書画像検索システム、プログラム | |
| JP2002091982A (ja) | 文書管理装置および文書管理プログラムが格納された記憶媒体 | |
| JP2021101375A (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
| JP2002259173A (ja) | ファイル管理プログラム、ファイル管理プログラムを記録したコンピュータ読取可能な記録媒体、ファイル管理装置およびファイル管理方法 | |
| JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
| JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
| JP7782759B2 (ja) | データ登録装置、データ検索装置、プログラム及びデータ登録検索システム | |
| JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
| JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
| JP4906044B2 (ja) | 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体 | |
| JP2001067375A (ja) | 名称検索装置、キーボード及び名称検索プログラムを記録した記録媒体 | |
| JPH09204444A (ja) | 情報処理システム及びこのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体 | |
| JPH07325830A (ja) | 辞書検索装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050221 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050221 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050221 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080519 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080526 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080725 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090310 |