JPH05324730A - 文書情報検索装置 - Google Patents
文書情報検索装置Info
- Publication number
- JPH05324730A JPH05324730A JP4135340A JP13534092A JPH05324730A JP H05324730 A JPH05324730 A JP H05324730A JP 4135340 A JP4135340 A JP 4135340A JP 13534092 A JP13534092 A JP 13534092A JP H05324730 A JPH05324730 A JP H05324730A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- compressed
- information
- document information
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 多量の文書情報の登録/検索を行う文書情報
検索装置において、登録する文書の容量を削減し、さら
に、検索処理の高速化を実現する装置を提供する。 【構成】 文書情報を検索する文書情報検索装置におけ
る文書情報登録/検索方法において、文書情報登録時
に、入力された文書情報を圧縮テキストデータに圧縮変
換して登録し、文書情報検索時に、入力されたキー情報
を圧縮キーデータに圧縮変換し、該圧縮キーデータと前
記圧縮テキストデータとを照合して適合する圧縮テキス
トデータを検索する。
検索装置において、登録する文書の容量を削減し、さら
に、検索処理の高速化を実現する装置を提供する。 【構成】 文書情報を検索する文書情報検索装置におけ
る文書情報登録/検索方法において、文書情報登録時
に、入力された文書情報を圧縮テキストデータに圧縮変
換して登録し、文書情報検索時に、入力されたキー情報
を圧縮キーデータに圧縮変換し、該圧縮キーデータと前
記圧縮テキストデータとを照合して適合する圧縮テキス
トデータを検索する。
Description
【0001】
【産業上の利用分野】本発明は、情報検索システム、特
に、テキストサーチ方式に基づく全文検索装置(フルテ
キストサーチシステム)に係り、システムに要求される
規模・性能に応じて自在に装置構成を設定しえるアーキ
テクチャを有する自由語全文検索に好適な文書情報の検
索装置に関する。データベースシステム、文書ファイリ
ングシステムおよびワードプロセッサなどに応用でき
る。
に、テキストサーチ方式に基づく全文検索装置(フルテ
キストサーチシステム)に係り、システムに要求される
規模・性能に応じて自在に装置構成を設定しえるアーキ
テクチャを有する自由語全文検索に好適な文書情報の検
索装置に関する。データベースシステム、文書ファイリ
ングシステムおよびワードプロセッサなどに応用でき
る。
【0002】
【従来の技術】近年、文献情報や特許情報などのデータ
ベースサービスが普及し、ますます大型化・汎用化する
傾向にある。これに伴い、これらデータベースの情報検
索手法に対しても、これまでのキーワードや分類コード
による検索方式に代わって、文献情報や特許情報などの
文書の本文を直接参照して検索できる全文検索(フルテ
キストサーチともよぶ)システムが注目されている。
ベースサービスが普及し、ますます大型化・汎用化する
傾向にある。これに伴い、これらデータベースの情報検
索手法に対しても、これまでのキーワードや分類コード
による検索方式に代わって、文献情報や特許情報などの
文書の本文を直接参照して検索できる全文検索(フルテ
キストサーチともよぶ)システムが注目されている。
【0003】全文検索システムは、その名の通り、文書
の本文そのものを検索情報として扱うものであり、キー
ワードや分類コード等インデックスを用いた検索で必ず
問題となるインデックス登録に伴う莫大な労力とインデ
ックス登録者と文献検索者の違いによる検索もれ等イン
デックスを用いた検索の弊害を根本的に解決しうる技術
である。
の本文そのものを検索情報として扱うものであり、キー
ワードや分類コード等インデックスを用いた検索で必ず
問題となるインデックス登録に伴う莫大な労力とインデ
ックス登録者と文献検索者の違いによる検索もれ等イン
デックスを用いた検索の弊害を根本的に解決しうる技術
である。
【0004】しかしながら全文検索システムは、インデ
ックスを用いた検索システムには生じない幾つかの問題
点が発生する。その中でも最も大きなものとして、検索
時間の問題が挙げられる。全文検索システムでは、文書
テキストそのものに対し検索を行うので、これまで扱っ
てきたデータベースサービス情報等の検索に適応するに
は実用に耐えないものとなる。例えば、一文献当たり2
0KBの容量を持つ文献2万件を対象にして全文検索を
行おうとすると、400MBのデータをサーチしなけれ
ばならない。これを平均1MB/sの実行速度で読みだ
し同速度で照合を行ったとしても、検索を終了するには
約7分を要してしまうこととなる。
ックスを用いた検索システムには生じない幾つかの問題
点が発生する。その中でも最も大きなものとして、検索
時間の問題が挙げられる。全文検索システムでは、文書
テキストそのものに対し検索を行うので、これまで扱っ
てきたデータベースサービス情報等の検索に適応するに
は実用に耐えないものとなる。例えば、一文献当たり2
0KBの容量を持つ文献2万件を対象にして全文検索を
行おうとすると、400MBのデータをサーチしなけれ
ばならない。これを平均1MB/sの実行速度で読みだ
し同速度で照合を行ったとしても、検索を終了するには
約7分を要してしまうこととなる。
【0005】上記問題点を解決する従来の装置として、
特開平03−174652号公報記載の装置が挙げられ
る。この従来技術は、文書テキストデータを複数台の磁
気ディスク上に分割/登録し、これら磁気ディスクから
並列にテキストデータを取りだすことによりテキストデ
ータの読みだし速度を加速する。それとともに、テキス
トに出現する文字のテーブルを作成し、また、助詞/接
続詞等付属語を排除し、さらに、繰返しあらわれる単語
を排除したデータファイル(凝縮本文という)を作成
し、フルテキストサーチを行う前に2段階のプリサーチ
を行うことによって実用に耐え得る検索速度を実現して
いる。
特開平03−174652号公報記載の装置が挙げられ
る。この従来技術は、文書テキストデータを複数台の磁
気ディスク上に分割/登録し、これら磁気ディスクから
並列にテキストデータを取りだすことによりテキストデ
ータの読みだし速度を加速する。それとともに、テキス
トに出現する文字のテーブルを作成し、また、助詞/接
続詞等付属語を排除し、さらに、繰返しあらわれる単語
を排除したデータファイル(凝縮本文という)を作成
し、フルテキストサーチを行う前に2段階のプリサーチ
を行うことによって実用に耐え得る検索速度を実現して
いる。
【0006】
【発明が解決しようとする課題】前述のように、上記従
来技術によれば、膨大なデータ量である文書テキストの
検索処理を実用に耐え得る時間にて終了することがで
き、上記従来技術は、全文検索システムを実現する上で
非常に有用な技術である。
来技術によれば、膨大なデータ量である文書テキストの
検索処理を実用に耐え得る時間にて終了することがで
き、上記従来技術は、全文検索システムを実現する上で
非常に有用な技術である。
【0007】しかしながら、上記従来技術では、テキス
トデータ検索速度の向上を図るため2段階のプリサーチ
手法を用いているが、検索時にプリサーチを行うために
は予め本文のテキストデータより凝縮本文と文字成分テ
ーブルとを作成し、本文テキストデータと共に文書デー
タ保存手段(例えば、磁気ディスク等)に保存しておく
必要がある。これはテキストデータ以外に凝縮本文と文
字成分テーブルとの容量分だけ文書データの増加をもた
らす問題点がある。さらに、プリサーチ手法は、根本的
に本文サーチではないため、最終的な検索結果を導出す
るためには本文サーチが不可欠であり、最悪の場合プリ
サーチにて文書が絞り込めなかった時には再び全ての本
文に対して検索処理を行うこととなる。このため、プリ
サーチに必要とされた検索処理時間と、全ての本文に対
する検索時間との和だけ処理に必要となり、検索時間の
短縮につながらないばかりか、検索時間の増加を招くと
いう問題点がある。
トデータ検索速度の向上を図るため2段階のプリサーチ
手法を用いているが、検索時にプリサーチを行うために
は予め本文のテキストデータより凝縮本文と文字成分テ
ーブルとを作成し、本文テキストデータと共に文書デー
タ保存手段(例えば、磁気ディスク等)に保存しておく
必要がある。これはテキストデータ以外に凝縮本文と文
字成分テーブルとの容量分だけ文書データの増加をもた
らす問題点がある。さらに、プリサーチ手法は、根本的
に本文サーチではないため、最終的な検索結果を導出す
るためには本文サーチが不可欠であり、最悪の場合プリ
サーチにて文書が絞り込めなかった時には再び全ての本
文に対して検索処理を行うこととなる。このため、プリ
サーチに必要とされた検索処理時間と、全ての本文に対
する検索時間との和だけ処理に必要となり、検索時間の
短縮につながらないばかりか、検索時間の増加を招くと
いう問題点がある。
【0008】本発明の目的は、上記従来技術の持つ問題
点を解決すべく、テキストデータの検索速度を向上させ
ると同時に、文書データの増加をもたらさず、かつ、本
文テキストの再サーチを必要としない優れた全文検索シ
ステムを実現する文書情報検索装置を提供することにあ
る。
点を解決すべく、テキストデータの検索速度を向上させ
ると同時に、文書データの増加をもたらさず、かつ、本
文テキストの再サーチを必要としない優れた全文検索シ
ステムを実現する文書情報検索装置を提供することにあ
る。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本発明による文書情報検索装置ではテキストデータ
の圧縮手法に着目する。
に、本発明による文書情報検索装置ではテキストデータ
の圧縮手法に着目する。
【0010】本発明では、文書情報を入力するための文
書情報入力手段と、前記文書情報を登録して格納するテ
キストデータ格納手段と、登録した文書情報を検索する
ためのキー情報と検索条件とを入力する入力手段と、前
記キー情報と登録した文書情報とを照合する文字列照合
手段と、前記検索条件から検索条件式を生成する検索式
変換手段と、前記検索条件式に適合する文書情報を判別
する検索条件判別手段と、前記検索条件判別手段で判別
した結果を出力する出力手段とを有する文書情報検索装
置において、入力された文書情報を圧縮テキストデータ
に圧縮変換するテキストデータ圧縮手段と、圧縮テキス
トデータを原文書情報に伸長するテキストデータ伸長手
段とを有し、前記テキストデータ格納手段は、圧縮テキ
ストデータを登録して格納し、前記検索式変換手段は、
入力されたキー情報を圧縮キーデータに圧縮変換して前
記検索条件から検索条件式を生成し、前記文字列照合手
段は、圧縮キーデータと登録した圧縮テキストデータと
を照合し、前記検索条件判別手段は、前記文字列照合手
段から出力される照合結果をもとに前記検索式変換手段
から与えられた前記検索条件式に適合する文書情報の圧
縮テキストデータを判別し、前記テキストデータ伸長手
段は、適合した文書情報の圧縮テキストデータを原文書
情報に伸長する。
書情報入力手段と、前記文書情報を登録して格納するテ
キストデータ格納手段と、登録した文書情報を検索する
ためのキー情報と検索条件とを入力する入力手段と、前
記キー情報と登録した文書情報とを照合する文字列照合
手段と、前記検索条件から検索条件式を生成する検索式
変換手段と、前記検索条件式に適合する文書情報を判別
する検索条件判別手段と、前記検索条件判別手段で判別
した結果を出力する出力手段とを有する文書情報検索装
置において、入力された文書情報を圧縮テキストデータ
に圧縮変換するテキストデータ圧縮手段と、圧縮テキス
トデータを原文書情報に伸長するテキストデータ伸長手
段とを有し、前記テキストデータ格納手段は、圧縮テキ
ストデータを登録して格納し、前記検索式変換手段は、
入力されたキー情報を圧縮キーデータに圧縮変換して前
記検索条件から検索条件式を生成し、前記文字列照合手
段は、圧縮キーデータと登録した圧縮テキストデータと
を照合し、前記検索条件判別手段は、前記文字列照合手
段から出力される照合結果をもとに前記検索式変換手段
から与えられた前記検索条件式に適合する文書情報の圧
縮テキストデータを判別し、前記テキストデータ伸長手
段は、適合した文書情報の圧縮テキストデータを原文書
情報に伸長する。
【0011】さらに、入力された文書情報を、1つの意
味単位とみなし得る単語ごとに展開するテキストデータ
解析部を有し、前記テキストデータ圧縮手段は、展開さ
れた単語ごとに圧縮コードを割り当てて圧縮テキストデ
ータに圧縮変換する。
味単位とみなし得る単語ごとに展開するテキストデータ
解析部を有し、前記テキストデータ圧縮手段は、展開さ
れた単語ごとに圧縮コードを割り当てて圧縮テキストデ
ータに圧縮変換する。
【0012】また、1つの意味単位とみなせる単語と圧
縮コードとを対にして格納するコード変換辞書をさらに
有し、前記テキストデータ圧縮手段は、前記コード変換
辞書を参照して圧縮変換することができる。前記入力手
段は、前記コード変換辞書に登録すべき単語を受け付け
て、前記コード変換辞書は、該登録すべき単語を登録す
る。
縮コードとを対にして格納するコード変換辞書をさらに
有し、前記テキストデータ圧縮手段は、前記コード変換
辞書を参照して圧縮変換することができる。前記入力手
段は、前記コード変換辞書に登録すべき単語を受け付け
て、前記コード変換辞書は、該登録すべき単語を登録す
る。
【0013】前記テキストデータ解析部は、入力された
文書情報の構文解析を行い、各単語に展開することがで
きる。
文書情報の構文解析を行い、各単語に展開することがで
きる。
【0014】また、表記の異なる同義語/類義語群と圧
縮コードとを対にし、表記の異なる同義語/類義語ごと
に識別情報を付加して格納する同義語/類義語テーブル
をさらに有し、前記テキストデータ圧縮手段は、同義語
/類義語テーブルを参照して原文書テキスト中の単語に
ついて表記の異なる同義語/類義語群に対し1つの圧縮
コードを割り当てて、同義語/類義語であることを示す
情報と前記識別情報とを付加して、圧縮変換するように
してもよい。
縮コードとを対にし、表記の異なる同義語/類義語ごと
に識別情報を付加して格納する同義語/類義語テーブル
をさらに有し、前記テキストデータ圧縮手段は、同義語
/類義語テーブルを参照して原文書テキスト中の単語に
ついて表記の異なる同義語/類義語群に対し1つの圧縮
コードを割り当てて、同義語/類義語であることを示す
情報と前記識別情報とを付加して、圧縮変換するように
してもよい。
【0015】前記検索式変換手段は、入力されたキー情
報を同義語/類義語テーブルを参照して圧縮キーデータ
に圧縮変換し、前記検索条件から検索条件式を生成し、
前記文字列照合手段は、同義語/類義語であることを示
す情報を検知して前記識別情報を読み飛ばし、圧縮キー
データと登録した圧縮テキストデータとを照合する。
報を同義語/類義語テーブルを参照して圧縮キーデータ
に圧縮変換し、前記検索条件から検索条件式を生成し、
前記文字列照合手段は、同義語/類義語であることを示
す情報を検知して前記識別情報を読み飛ばし、圧縮キー
データと登録した圧縮テキストデータとを照合する。
【0016】また、前記テキストデータ伸長手段は、キ
ー情報照合時に照合する圧縮テキストデータの伸長を行
い、前記文字列照合手段は、キー情報と伸長された文書
情報との照合を行うようにしてもよい。
ー情報照合時に照合する圧縮テキストデータの伸長を行
い、前記文字列照合手段は、キー情報と伸長された文書
情報との照合を行うようにしてもよい。
【0017】前記テキストデータ解析部は、単語のずれ
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、前記テキストデータ圧縮手段は、展開
された全ての単語に圧縮コードを割り当てて圧縮テキス
トデータに圧縮変換し、検索時に、前記文字列照合手段
は、挙げだした単語全てを圧縮キーデータと照合するこ
とができる。
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、前記テキストデータ圧縮手段は、展開
された全ての単語に圧縮コードを割り当てて圧縮テキス
トデータに圧縮変換し、検索時に、前記文字列照合手段
は、挙げだした単語全てを圧縮キーデータと照合するこ
とができる。
【0018】前記テキストデータ解析部は、単語のずれ
読みが生じる部分を認識し、前記テキストデータ圧縮手
段は、単語のずれ読みが生じる部分の圧縮変換を行わ
ず、前記テキストデータ格納手段は、単語のずれ読みが
生じる部分をテキストデータとして格納し、検索時に、
前記文字列照合手段は、キー情報と前記テキストデータ
との照合も行うようにしてもよい。
読みが生じる部分を認識し、前記テキストデータ圧縮手
段は、単語のずれ読みが生じる部分の圧縮変換を行わ
ず、前記テキストデータ格納手段は、単語のずれ読みが
生じる部分をテキストデータとして格納し、検索時に、
前記文字列照合手段は、キー情報と前記テキストデータ
との照合も行うようにしてもよい。
【0019】前記検索式変換手段は、入力されたキー情
報の単語のずれ読みが生じる部分を認識し、単語のずれ
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、展開された全ての単語に圧縮コードを
割り当てて圧縮キーデータに圧縮変換して前記検索条件
から検索条件式を生成し、検索時に、前記文字列照合手
段は、全ての圧縮キーデータについて圧縮テキストデー
タと照合する。
報の単語のずれ読みが生じる部分を認識し、単語のずれ
読みが生じる場合にずれ読みの可能性がある単語を挙げ
て展開しておき、展開された全ての単語に圧縮コードを
割り当てて圧縮キーデータに圧縮変換して前記検索条件
から検索条件式を生成し、検索時に、前記文字列照合手
段は、全ての圧縮キーデータについて圧縮テキストデー
タと照合する。
【0020】コード変換辞書を複数種類備え、前記入力
手段は、文書の種類に応じて用いる辞書の選択指示を受
け付けて、前記テキストデータ圧縮手段は、指示された
コード変換辞書を参照して圧縮変換し、変換後の圧縮テ
キストに対し用いたコード変換辞書識別情報を付加し、
テキストデータ伸長時に、前記テキストデータ伸長手段
は、該コード変換辞書識別情報を参照し、対応するコー
ド変換辞書を用いて伸長することができる。この場合、
前記検索式変換手段は、前記指示されたコード変換辞書
を参照して入力されたキー情報を圧縮キーデータに圧縮
変換する。
手段は、文書の種類に応じて用いる辞書の選択指示を受
け付けて、前記テキストデータ圧縮手段は、指示された
コード変換辞書を参照して圧縮変換し、変換後の圧縮テ
キストに対し用いたコード変換辞書識別情報を付加し、
テキストデータ伸長時に、前記テキストデータ伸長手段
は、該コード変換辞書識別情報を参照し、対応するコー
ド変換辞書を用いて伸長することができる。この場合、
前記検索式変換手段は、前記指示されたコード変換辞書
を参照して入力されたキー情報を圧縮キーデータに圧縮
変換する。
【0021】前記テキストデータ格納手段は、圧縮テキ
ストデータとともに該圧縮テキストデータの識別子情報
を登録して格納し、前記検索条件判別手段は、前記テキ
ストデータ伸長手段における、適合した文書の圧縮テキ
ストデータを原文書情報に伸長させて出力する代わり
に、前記文書の識別子情報を出力する。
ストデータとともに該圧縮テキストデータの識別子情報
を登録して格納し、前記検索条件判別手段は、前記テキ
ストデータ伸長手段における、適合した文書の圧縮テキ
ストデータを原文書情報に伸長させて出力する代わり
に、前記文書の識別子情報を出力する。
【0022】文書情報登録時に、該文書情報に関連した
イメージデータを登録するイメージデータ格納手段をさ
らに備え、前記検索条件判別手段は、前記テキストデー
タ伸長手段における、適合した文書の圧縮テキストデー
タを原文書情報に伸長させて出力する代わりに、該文書
情報に関連したイメージデータを出力するようにしても
よい。
イメージデータを登録するイメージデータ格納手段をさ
らに備え、前記検索条件判別手段は、前記テキストデー
タ伸長手段における、適合した文書の圧縮テキストデー
タを原文書情報に伸長させて出力する代わりに、該文書
情報に関連したイメージデータを出力するようにしても
よい。
【0023】また、文書情報を入力する入力装置と、文
書情報を記憶する記憶装置と、文書情報を検索するため
のキー情報を受け付けるキー入力手段と、文書情報を検
索する中央演算処理装置と、検索結果を出力する出力装
置とを有する情報処理システムにおいて、前記中央演算
処理装置は、前記入力装置で入力された文書情報を圧縮
テキストデータに圧縮変換して記憶装置に登録し、前記
キー入力手段で入力されたキー情報を圧縮キーデータに
圧縮変換し、該圧縮キーデータと前記圧縮テキストデー
タとを照合して適合する圧縮テキストデータを検索する
ことができる。1つの意味単位とみなせる単語と圧縮コ
ードとを対にして格納するコード変換辞書をさらに有
し、前記中央演算処理装置は、前記コード変換辞書を参
照して圧縮変換することができる。
書情報を記憶する記憶装置と、文書情報を検索するため
のキー情報を受け付けるキー入力手段と、文書情報を検
索する中央演算処理装置と、検索結果を出力する出力装
置とを有する情報処理システムにおいて、前記中央演算
処理装置は、前記入力装置で入力された文書情報を圧縮
テキストデータに圧縮変換して記憶装置に登録し、前記
キー入力手段で入力されたキー情報を圧縮キーデータに
圧縮変換し、該圧縮キーデータと前記圧縮テキストデー
タとを照合して適合する圧縮テキストデータを検索する
ことができる。1つの意味単位とみなせる単語と圧縮コ
ードとを対にして格納するコード変換辞書をさらに有
し、前記中央演算処理装置は、前記コード変換辞書を参
照して圧縮変換することができる。
【0024】
【作用】本発明では、全文検索システムを実現するにあ
たり、登録時にはそれほど高速化が要求されないが、検
索時の処理時間短縮が必須でありその一つの実現手段と
して文書テキストを圧縮する手法が存在する点、さらに
文書テキストの意味最小単位は文字ではなく単語(名
詞、動詞、接続詞等)でありこれを用いて文書テキスト
の圧縮が可能である点に着目し、これを利用する。
たり、登録時にはそれほど高速化が要求されないが、検
索時の処理時間短縮が必須でありその一つの実現手段と
して文書テキストを圧縮する手法が存在する点、さらに
文書テキストの意味最小単位は文字ではなく単語(名
詞、動詞、接続詞等)でありこれを用いて文書テキスト
の圧縮が可能である点に着目し、これを利用する。
【0025】文書圧縮手法を用いた具体的な文書情報登
録/検索手法について以下に述べる。
録/検索手法について以下に述べる。
【0026】まず、テキストデータを文書情報入力手段
により入力する。文書情報入力手段は、他の情報機器か
らインタフェースを介して読み込む手法、スキャナおよ
びOCRを用い紙面情報を読み込む手法、キーボードよ
り入力する手法がある。つぎに、テキストデータ圧縮手
段は、このテキストデータを圧縮処理する。テキストデ
ータ圧縮手段は、テキストデータ解析部にて、原文書情
報を1つの意味単位とみなし得る単語コード(文字コー
ドの並び)に展開された単語と、これに対応した圧縮コ
ードを蓄積したコード変換辞書を用い、原文書テキスト
とこの辞書とを照合し、圧縮コード変換することにより
圧縮処理を実現する。また、同義語/類義語テーブルを
用い、原文書テキストとこの同義語/類義語テーブルと
を照合し、圧縮コード変換することにより圧縮処理して
もよい。さらに、テキストデータ検索時には、検索式変
換手段は、入力したキーワードを同義語/類義語展開
後、このキーワードについても圧縮コード変換処理を行
う。文字列照合手段は、上記圧縮/蓄積された圧縮テキ
ストとこの圧縮キーワードとを文字列照合し、検索条件
判別手段は、前記文字列照合手段から出力される照合結
果をもとに前記検索式変換手段から与えられた前記検索
条件式に適合する文書情報の圧縮テキストデータを判別
し検索処理を行う。これにより、原文書コードに戻すこ
と無く高度な検索処理を実現する。テキストデータ伸長
手段は、適合した文書情報の圧縮テキストデータを再び
伸長し出力する。最後に、検索照合結果に従い、圧縮テ
キストデータを取りだし、原文書コードへ伸長処理を行
った後、CRTもしくはプリンタ等表示手段を用い出力
する。
により入力する。文書情報入力手段は、他の情報機器か
らインタフェースを介して読み込む手法、スキャナおよ
びOCRを用い紙面情報を読み込む手法、キーボードよ
り入力する手法がある。つぎに、テキストデータ圧縮手
段は、このテキストデータを圧縮処理する。テキストデ
ータ圧縮手段は、テキストデータ解析部にて、原文書情
報を1つの意味単位とみなし得る単語コード(文字コー
ドの並び)に展開された単語と、これに対応した圧縮コ
ードを蓄積したコード変換辞書を用い、原文書テキスト
とこの辞書とを照合し、圧縮コード変換することにより
圧縮処理を実現する。また、同義語/類義語テーブルを
用い、原文書テキストとこの同義語/類義語テーブルと
を照合し、圧縮コード変換することにより圧縮処理して
もよい。さらに、テキストデータ検索時には、検索式変
換手段は、入力したキーワードを同義語/類義語展開
後、このキーワードについても圧縮コード変換処理を行
う。文字列照合手段は、上記圧縮/蓄積された圧縮テキ
ストとこの圧縮キーワードとを文字列照合し、検索条件
判別手段は、前記文字列照合手段から出力される照合結
果をもとに前記検索式変換手段から与えられた前記検索
条件式に適合する文書情報の圧縮テキストデータを判別
し検索処理を行う。これにより、原文書コードに戻すこ
と無く高度な検索処理を実現する。テキストデータ伸長
手段は、適合した文書情報の圧縮テキストデータを再び
伸長し出力する。最後に、検索照合結果に従い、圧縮テ
キストデータを取りだし、原文書コードへ伸長処理を行
った後、CRTもしくはプリンタ等表示手段を用い出力
する。
【0027】かくして本発明に依れば、上記単語/圧縮
コード変換を利用したテキストデータ圧縮手段を用いる
ことにより、原文書の情報をなんら削減すること無く膨
大なテキストデータを削減することができ、さらに、文
書検索時にテキストを原文書に伸長処理すること無く高
度な検索処理を支援することが可能となり、特に、全文
検索システム応用に対し従来の方式より高速かつ確実な
文書情報検索装置を提供できる。
コード変換を利用したテキストデータ圧縮手段を用いる
ことにより、原文書の情報をなんら削減すること無く膨
大なテキストデータを削減することができ、さらに、文
書検索時にテキストを原文書に伸長処理すること無く高
度な検索処理を支援することが可能となり、特に、全文
検索システム応用に対し従来の方式より高速かつ確実な
文書情報検索装置を提供できる。
【0028】
【実施例】以下本発明の実施例について図面により説明
する。
する。
【0029】まず、図1に本発明が適用される装置の一
例としての文書情報検索装置の構成を示す。図1におい
て、101は、テキスト/イメージデータ入力部であ
り、ネットワークもしくは各種インターフェイスを介し
てテキストおよびイメーシデータを取り込む。102
は、テキストデータ解析部であり、入力されたテキスト
データを解析する。103は、テキストデータ圧縮部で
あり、テキストデータ解析結果に従いテキストコードの
圧縮を行う。104は、コード変換辞書であり、コード
圧縮/伸長時に圧縮コードと原文字コードとのコードデ
ータ対を保持する。105は、同義語/類義語辞書であ
り、単語の同義語/類義語を保持する。106は、テキ
ストデータファイルであり、圧縮テキストデータを保持
する。107は、イメージデータファイルであり、テキ
ストデータに付随するイメージデータを保持する。10
8は、キーボードなどの入力手段であり、文書情報登録
時には文書情報のテキストデータを入力し、また、テキ
スト検索時にはキーワード(キー情報)/検索条件を入
力する。109は、検索式解析部であり、入力した検索
式をキーワードと検索条件等に分離あるいは解析を行
う。110は、検索式変換部であり、入力されたキーワ
ードを検索条件に従い展開し、更に圧縮テキストデータ
検索に適合する検索語(圧縮キーデータ)に変換する。
111は、文字列照合部であり、テキスト登録時には入
力されたテキストデータとコード変換辞書104に蓄積
された単語とのマッチングを行い、また、テキスト検索
時には生成された検索語に対しテキストデータファイル
より読み込んだ圧縮テキストデータとのマッチングを行
う。112は、検索条件判別部であり、文字列照合部よ
り得られた照合結果に対し検索式解析部より得られた検
索条件式に適合する文書を判別する。113は、テキス
トデータ伸長部であり、検索条件判別部より得られた検
索結果に対しテキストデータファイルより圧縮テキスト
データを取り出しテキストデータの伸長を行う。114
は、CRTディスプレイなどの表示手段であり、テキス
トおよびイメージデータを表示する。115は、ディス
プレイ制御回路であり、ディスプレイ114を制御す
る。116は、プリンタなどの出力手段であり、テキス
トおよびイメージデータを実際に紙面にハードコピー等
を取ることができる。117は、プリンタ制御回路であ
り、プリンタ116を制御する。118は、テキスト/
イメージバスであり、相互にデータのやり取りを実行す
る。119は、スキャナなどの画像入力部であり、画像
情報をデータとして取り込む。120は、OCRなどの
文字認識部であり、取り込んだ画像データより文字情報
を抽出して判読する。
例としての文書情報検索装置の構成を示す。図1におい
て、101は、テキスト/イメージデータ入力部であ
り、ネットワークもしくは各種インターフェイスを介し
てテキストおよびイメーシデータを取り込む。102
は、テキストデータ解析部であり、入力されたテキスト
データを解析する。103は、テキストデータ圧縮部で
あり、テキストデータ解析結果に従いテキストコードの
圧縮を行う。104は、コード変換辞書であり、コード
圧縮/伸長時に圧縮コードと原文字コードとのコードデ
ータ対を保持する。105は、同義語/類義語辞書であ
り、単語の同義語/類義語を保持する。106は、テキ
ストデータファイルであり、圧縮テキストデータを保持
する。107は、イメージデータファイルであり、テキ
ストデータに付随するイメージデータを保持する。10
8は、キーボードなどの入力手段であり、文書情報登録
時には文書情報のテキストデータを入力し、また、テキ
スト検索時にはキーワード(キー情報)/検索条件を入
力する。109は、検索式解析部であり、入力した検索
式をキーワードと検索条件等に分離あるいは解析を行
う。110は、検索式変換部であり、入力されたキーワ
ードを検索条件に従い展開し、更に圧縮テキストデータ
検索に適合する検索語(圧縮キーデータ)に変換する。
111は、文字列照合部であり、テキスト登録時には入
力されたテキストデータとコード変換辞書104に蓄積
された単語とのマッチングを行い、また、テキスト検索
時には生成された検索語に対しテキストデータファイル
より読み込んだ圧縮テキストデータとのマッチングを行
う。112は、検索条件判別部であり、文字列照合部よ
り得られた照合結果に対し検索式解析部より得られた検
索条件式に適合する文書を判別する。113は、テキス
トデータ伸長部であり、検索条件判別部より得られた検
索結果に対しテキストデータファイルより圧縮テキスト
データを取り出しテキストデータの伸長を行う。114
は、CRTディスプレイなどの表示手段であり、テキス
トおよびイメージデータを表示する。115は、ディス
プレイ制御回路であり、ディスプレイ114を制御す
る。116は、プリンタなどの出力手段であり、テキス
トおよびイメージデータを実際に紙面にハードコピー等
を取ることができる。117は、プリンタ制御回路であ
り、プリンタ116を制御する。118は、テキスト/
イメージバスであり、相互にデータのやり取りを実行す
る。119は、スキャナなどの画像入力部であり、画像
情報をデータとして取り込む。120は、OCRなどの
文字認識部であり、取り込んだ画像データより文字情報
を抽出して判読する。
【0030】つぎに、図1の各部の動作をテキストデー
タ登録時とテキストデータ検索時とに分けて、フローチ
ャート(プロブレム・アナリシス・ダイヤグラム,Prob
rem-Anarysis・Diagram、以下PADとする)を用い詳説
する。
タ登録時とテキストデータ検索時とに分けて、フローチ
ャート(プロブレム・アナリシス・ダイヤグラム,Prob
rem-Anarysis・Diagram、以下PADとする)を用い詳説
する。
【0031】図2に、本発明によるテキストデータ登録
方式の一実施例であるフローチャート(PAD)を示
す。
方式の一実施例であるフローチャート(PAD)を示
す。
【0032】テキストデータの登録としては、まず、テ
キストデータを入力する(S202)。入力するテキス
トデータは、テキスト/イメージデータ入力部101を
用いて他の情報機器よりネットワークもしくは各種イン
タフェースを介して読み込むものでも良いし、スキャナ
等画像入力部119を用いて入力した画像データをOC
R等文字認識部120を用いて文字コードへと変換後入
力するものでも良いし、キーボード108を用いテキス
トデータを直接入力するものでも良い。つぎに、入力さ
れたテキストデータの圧縮を行なう前処理としてテキス
トデータの解析を行なう(S203)。これはテキスト
データ解析部102にて行うものとし、この部分は、次
ステップで必要となる辞書との照合に際し、単語の照合
ずれの発生を防ぐものである。処理手法として、日本語
構文解析処理を用い、単語/述語/接続詞等に分離/認
識する手法、単語の照合ずれが生じる部分のみ認識し、
辞書照合時に文字列照合部に認識結果を与え照合時のず
れを除去する手法等がある。単語/述語/接続詞等に分
離/認識する手法では、入力されたテキストデータにつ
いて日本語解析処理を用い、単語/述語/接続詞等に分
離して認識する。単語の照合ずれが生じる部分のみ認識
する方法については、後述する。さらに、上記テキスト
データの解析が終了した文書に対し、コード変換辞書1
04との照合を行い解析結果に対する圧縮コードを生成
する(S204)。コード変換辞書104は、原文書テ
キストの単語コードとそれに対応する圧縮コードとを1
対1に対応させ辞書として持つものとし、その容量の大
きさに対応して磁気ディスク上に格納するかあるいは高
速化を考慮し半導体メモリ上に配置するものとする。テ
キストデータ解析部102にて解析されたテキストデー
タは、文字列照合部111にてコード変換辞書104に
登録されているテキスト単語データとの照合が行われ、
照合結果として単語レベルでの圧縮コードが得られる。
上記文字列照合部111にて生成した照合結果は、テキ
ストデータ圧縮部103に転送される。テキストデータ
圧縮部103では、テキストデータ解析部102からの
解析結果と先の照合結果(すなわち、単語レベルでの圧
縮コード)を用い、テキストの圧縮処理を行う(S20
5)。最後に、上記圧縮変換されたテキストデータは、
テキストデータファイル106に登録される(S20
6)。テキストデータ登録には、大容量化に対応するた
めに光ディスクを用いるか、検索速度を考慮し磁気ディ
スクなどを用いることができる。上記登録処理をテキス
トデータ終了まで繰り返す(S201)。
キストデータを入力する(S202)。入力するテキス
トデータは、テキスト/イメージデータ入力部101を
用いて他の情報機器よりネットワークもしくは各種イン
タフェースを介して読み込むものでも良いし、スキャナ
等画像入力部119を用いて入力した画像データをOC
R等文字認識部120を用いて文字コードへと変換後入
力するものでも良いし、キーボード108を用いテキス
トデータを直接入力するものでも良い。つぎに、入力さ
れたテキストデータの圧縮を行なう前処理としてテキス
トデータの解析を行なう(S203)。これはテキスト
データ解析部102にて行うものとし、この部分は、次
ステップで必要となる辞書との照合に際し、単語の照合
ずれの発生を防ぐものである。処理手法として、日本語
構文解析処理を用い、単語/述語/接続詞等に分離/認
識する手法、単語の照合ずれが生じる部分のみ認識し、
辞書照合時に文字列照合部に認識結果を与え照合時のず
れを除去する手法等がある。単語/述語/接続詞等に分
離/認識する手法では、入力されたテキストデータにつ
いて日本語解析処理を用い、単語/述語/接続詞等に分
離して認識する。単語の照合ずれが生じる部分のみ認識
する方法については、後述する。さらに、上記テキスト
データの解析が終了した文書に対し、コード変換辞書1
04との照合を行い解析結果に対する圧縮コードを生成
する(S204)。コード変換辞書104は、原文書テ
キストの単語コードとそれに対応する圧縮コードとを1
対1に対応させ辞書として持つものとし、その容量の大
きさに対応して磁気ディスク上に格納するかあるいは高
速化を考慮し半導体メモリ上に配置するものとする。テ
キストデータ解析部102にて解析されたテキストデー
タは、文字列照合部111にてコード変換辞書104に
登録されているテキスト単語データとの照合が行われ、
照合結果として単語レベルでの圧縮コードが得られる。
上記文字列照合部111にて生成した照合結果は、テキ
ストデータ圧縮部103に転送される。テキストデータ
圧縮部103では、テキストデータ解析部102からの
解析結果と先の照合結果(すなわち、単語レベルでの圧
縮コード)を用い、テキストの圧縮処理を行う(S20
5)。最後に、上記圧縮変換されたテキストデータは、
テキストデータファイル106に登録される(S20
6)。テキストデータ登録には、大容量化に対応するた
めに光ディスクを用いるか、検索速度を考慮し磁気ディ
スクなどを用いることができる。上記登録処理をテキス
トデータ終了まで繰り返す(S201)。
【0033】上記実施例において、テキストデータに関
連したイメージデータを取り込み(S202)、テキス
トデータファイル106上にテキストデータと共にイメ
ージデータを登録したり、あるいは、別ファイル(イメ
ージデータファイル107)にテキストデータと共にイ
メージデータを登録することも可能である。各テキスト
データに関連するイメージデータの管理情報は、テキス
トデータに付して保存する。
連したイメージデータを取り込み(S202)、テキス
トデータファイル106上にテキストデータと共にイメ
ージデータを登録したり、あるいは、別ファイル(イメ
ージデータファイル107)にテキストデータと共にイ
メージデータを登録することも可能である。各テキスト
データに関連するイメージデータの管理情報は、テキス
トデータに付して保存する。
【0034】また、上記実施例において、テキストデー
タとコード変換辞書104との文字列照合時に、同義語
/類義語辞書105を用い、同義語あるいは類義語は、
単語レベルでは同じ意味内容とみなし、これら原テキス
トデータ中の同義語あるいは類義語に対し圧縮テキスト
データでは1つのコードを割り当てることも可能であ
る。
タとコード変換辞書104との文字列照合時に、同義語
/類義語辞書105を用い、同義語あるいは類義語は、
単語レベルでは同じ意味内容とみなし、これら原テキス
トデータ中の同義語あるいは類義語に対し圧縮テキスト
データでは1つのコードを割り当てることも可能であ
る。
【0035】つぎに、この同義語等のコード割当てと検
索について、図6、図7および図8を用いて説明する。
図6は同義語テーブルの一例を示し、図7は同義語圧縮
テキスト変換のコード割当ての一実施例を示し、図8は
同義語圧縮キーワード変換の一実施例を示している。原
テキストデータ中の同義語あるいは類義語に対し圧縮テ
キストデータでは1つのコードを割り当てるために、図
6に示すような同義語テーブルを、同義語/類義語辞書
105内に、もしくは、コード変換辞書104として設
けておく。同義語テーブルには、複数個の同義語に対し
1つの圧縮コードを割当て、圧縮コードの後に同義語の
ID番号を示しておく。例えば、図7に示すように、
『大型コンピュータ分野では』のような原テキストデー
タが入力された場合に、圧縮テキスト変換は、圧縮コー
ドの(30A2)を割り当てる。その後に、特殊コード
の(FFF0)により、つぎのコードが同義語IDであ
ることを示し、つぎに、同義語ID番号の(0001)
を示し、これらを圧縮テキストとして登録する。検索時
には、同義語は同じキーワードとして扱い、同義語ID
を読み飛ばして照合を行う。例えば、図8に示すよう
な、『大型計算機分野』というキーワードが与えられた
場合には、同義語/類義語辞書105を用いて展開され
て、それぞれに対応する圧縮コードが割り当てられて
る。圧縮キーワードと圧縮テキストデータとを照合する
場合には、特殊コードの(FFF0)により、つぎの同
義語IDを読み飛ばして照合を行う。もしくは、圧縮キ
ーワードへの変換時に、同義語が存在することを検知し
て、その同義語が存在する圧縮コードが照合されたとき
には、後の特殊コード(FFF0)と同義語ID番号と
を読み飛ばして照合を行うようにしてもよい。また、伸
長時には、同義語ID番号と同義語テーブルとを用い
て、原テキストデータに復元処理する。
索について、図6、図7および図8を用いて説明する。
図6は同義語テーブルの一例を示し、図7は同義語圧縮
テキスト変換のコード割当ての一実施例を示し、図8は
同義語圧縮キーワード変換の一実施例を示している。原
テキストデータ中の同義語あるいは類義語に対し圧縮テ
キストデータでは1つのコードを割り当てるために、図
6に示すような同義語テーブルを、同義語/類義語辞書
105内に、もしくは、コード変換辞書104として設
けておく。同義語テーブルには、複数個の同義語に対し
1つの圧縮コードを割当て、圧縮コードの後に同義語の
ID番号を示しておく。例えば、図7に示すように、
『大型コンピュータ分野では』のような原テキストデー
タが入力された場合に、圧縮テキスト変換は、圧縮コー
ドの(30A2)を割り当てる。その後に、特殊コード
の(FFF0)により、つぎのコードが同義語IDであ
ることを示し、つぎに、同義語ID番号の(0001)
を示し、これらを圧縮テキストとして登録する。検索時
には、同義語は同じキーワードとして扱い、同義語ID
を読み飛ばして照合を行う。例えば、図8に示すよう
な、『大型計算機分野』というキーワードが与えられた
場合には、同義語/類義語辞書105を用いて展開され
て、それぞれに対応する圧縮コードが割り当てられて
る。圧縮キーワードと圧縮テキストデータとを照合する
場合には、特殊コードの(FFF0)により、つぎの同
義語IDを読み飛ばして照合を行う。もしくは、圧縮キ
ーワードへの変換時に、同義語が存在することを検知し
て、その同義語が存在する圧縮コードが照合されたとき
には、後の特殊コード(FFF0)と同義語ID番号と
を読み飛ばして照合を行うようにしてもよい。また、伸
長時には、同義語ID番号と同義語テーブルとを用い
て、原テキストデータに復元処理する。
【0036】以上のようなフローにより、テキストデー
タを圧縮コードに割り当てて、該圧縮されたテキストデ
ータをテキストデータファイルもしくはイメージデータ
ファイルに登録することができる。
タを圧縮コードに割り当てて、該圧縮されたテキストデ
ータをテキストデータファイルもしくはイメージデータ
ファイルに登録することができる。
【0037】つぎに、テキストデータの検索を行う場合
の動作フローについて図3を用いて説明する。図3に、
本発明によるテキストデータ検索方式の一実施例のフロ
ーチャート(PAD)を示す。
の動作フローについて図3を用いて説明する。図3に、
本発明によるテキストデータ検索方式の一実施例のフロ
ーチャート(PAD)を示す。
【0038】まず、テキスト検索用のキーワードおよび
検索式を入力する(S301)。キーワードおよび検索
式の入力には、キーボード108を用いても良いし、各
種情報機器よりインタフェースを介してテキスト入力部
101より入力しても良い。また、印刷物等各種紙面情
報をスキャナ等画像入力部119を用い入力し、該画像
データをOCR等文字認識部120を用い変換した文字
コード情報をキーワードおよび検索式として用いても良
い。つぎに、入力された1または2以上のキーワードお
よび検索式は、検索式解析部109に転送され、キーワ
ードは、各々分離されそれぞれのキーワード間の検索条
件が解析/認識される(S302)。検索条件等に従
い、これら分離されたキーワード群に対し、前述のよう
な同義語/類義語辞書105を用い、同義語/類義語展
開が行われ(S303)、あるいは、誤り許容文字列展
開(入力されたキーワードに対し1文字もしくは指定文
字の入力文字誤りを許容する検索が可能となるキーワー
ド展開を行う処理)が行われる(S304)。上記キー
ワード展開が成された後、テキストデータ登録時と同様
に圧縮コード変換の前処理としてキーワードの解析処理
が行われる(S305)。処理内容は次ステップの辞書
照合時に単語の照合ずれが生じることを防止するもので
あり、登録時と同じくテキストデータ解析部102にて
行う。つぎに、上記キーワード解析結果とコード変換辞
書との照合を行い(S306)、照合された結果、キー
ワード解析処理結果と一致した圧縮コードを用いキーワ
ードの圧縮コードを生成する(S307)。コード変換
にはコード変換辞書104を用い、文字列照合部111
にてキーワードとコード変換辞書との照合を行い、その
結果を用いテキストデータ圧縮部103にてキーワード
の圧縮処理を行うことによって、キーワード圧縮コード
を生成する。
検索式を入力する(S301)。キーワードおよび検索
式の入力には、キーボード108を用いても良いし、各
種情報機器よりインタフェースを介してテキスト入力部
101より入力しても良い。また、印刷物等各種紙面情
報をスキャナ等画像入力部119を用い入力し、該画像
データをOCR等文字認識部120を用い変換した文字
コード情報をキーワードおよび検索式として用いても良
い。つぎに、入力された1または2以上のキーワードお
よび検索式は、検索式解析部109に転送され、キーワ
ードは、各々分離されそれぞれのキーワード間の検索条
件が解析/認識される(S302)。検索条件等に従
い、これら分離されたキーワード群に対し、前述のよう
な同義語/類義語辞書105を用い、同義語/類義語展
開が行われ(S303)、あるいは、誤り許容文字列展
開(入力されたキーワードに対し1文字もしくは指定文
字の入力文字誤りを許容する検索が可能となるキーワー
ド展開を行う処理)が行われる(S304)。上記キー
ワード展開が成された後、テキストデータ登録時と同様
に圧縮コード変換の前処理としてキーワードの解析処理
が行われる(S305)。処理内容は次ステップの辞書
照合時に単語の照合ずれが生じることを防止するもので
あり、登録時と同じくテキストデータ解析部102にて
行う。つぎに、上記キーワード解析結果とコード変換辞
書との照合を行い(S306)、照合された結果、キー
ワード解析処理結果と一致した圧縮コードを用いキーワ
ードの圧縮コードを生成する(S307)。コード変換
にはコード変換辞書104を用い、文字列照合部111
にてキーワードとコード変換辞書との照合を行い、その
結果を用いテキストデータ圧縮部103にてキーワード
の圧縮処理を行うことによって、キーワード圧縮コード
を生成する。
【0039】上記処理にてキーワードの圧縮変換が成さ
れるので、つぎに、圧縮コードレベルでのキーワードと
テキストデータとの文字列照合を行う(S308)。圧
縮したテキストデータは、テキストデータファイル10
6から取り出し、取り出したテキストデータは、文字列
照合部111にてキーワードと照合が行われる。本発明
では、キーワード、テキストデータを共に同じ手法を用
いて圧縮し、文字列検索/照合を圧縮したテキストデー
タに対し直接行うことを特徴とする。これにより、テキ
ストデータ照合時に原文書テキストへ伸長を行う処理を
必要とせず、テキスト照合の高速化/簡略化が図れる。
キーワードとテキストデータとの文字列照合結果は、検
索条件判別部112に転送され、検索式解析部109に
て得られた検索条件に従い照合結果の判定が行われる
(S309)。検索条件に適合した文書あるいは文書部
分は、文字列照合部111より転送されあるいは再びテ
キストデータファイル106より取り出され、テキスト
データ伸長部113に入力される(S310)。テキス
トデータ伸長部では、入力された圧縮テキストデータを
原文書テキストデータに伸長処理し、ディスプレイ制御
回路115よりCRTディスプレイ114にテキストを
表示し、あるいは、プリンタ制御回路117を介しテキ
ストをプリンタ116にて紙面へ印字出力する。
れるので、つぎに、圧縮コードレベルでのキーワードと
テキストデータとの文字列照合を行う(S308)。圧
縮したテキストデータは、テキストデータファイル10
6から取り出し、取り出したテキストデータは、文字列
照合部111にてキーワードと照合が行われる。本発明
では、キーワード、テキストデータを共に同じ手法を用
いて圧縮し、文字列検索/照合を圧縮したテキストデー
タに対し直接行うことを特徴とする。これにより、テキ
ストデータ照合時に原文書テキストへ伸長を行う処理を
必要とせず、テキスト照合の高速化/簡略化が図れる。
キーワードとテキストデータとの文字列照合結果は、検
索条件判別部112に転送され、検索式解析部109に
て得られた検索条件に従い照合結果の判定が行われる
(S309)。検索条件に適合した文書あるいは文書部
分は、文字列照合部111より転送されあるいは再びテ
キストデータファイル106より取り出され、テキスト
データ伸長部113に入力される(S310)。テキス
トデータ伸長部では、入力された圧縮テキストデータを
原文書テキストデータに伸長処理し、ディスプレイ制御
回路115よりCRTディスプレイ114にテキストを
表示し、あるいは、プリンタ制御回路117を介しテキ
ストをプリンタ116にて紙面へ印字出力する。
【0040】上記実施例において、テキストデータの登
録時あるいは検索語の入力時に解析処理にて、単語の照
合ずれを全て除くことができない場合がある。例えば、
図9(a)に示すように、『過去それはともあれ現在』
のように単語が重複する場合には、照合ずれが起きる可
能性がある。これをテキストデータ解析処理部にて解決
する手法として、テキストデータ検索時、検索語解析
処理(S305)に於いて、ずれ読みにて生じる可能性
のあるキーワードを全て展開/圧縮コード変換し、この
展開したキーワード圧縮コードについてテキストデータ
とのマッチングを行う手法、テキストデータ登録時、
ずれ読みの可能性のある単語については、幾通りか生じ
る候補に対しずれ読み候補である事が検索時に判断可能
となる何らかのマークを付して登録する手法、ずれ読
みの可能性のある単語については、圧縮コード変換を行
わず原文書テキストコードを登録し、テキスト検索時に
キーワードを圧縮コード/原文書テキストコードの両コ
ードに展開し検索を行う手法、等がある。
録時あるいは検索語の入力時に解析処理にて、単語の照
合ずれを全て除くことができない場合がある。例えば、
図9(a)に示すように、『過去それはともあれ現在』
のように単語が重複する場合には、照合ずれが起きる可
能性がある。これをテキストデータ解析処理部にて解決
する手法として、テキストデータ検索時、検索語解析
処理(S305)に於いて、ずれ読みにて生じる可能性
のあるキーワードを全て展開/圧縮コード変換し、この
展開したキーワード圧縮コードについてテキストデータ
とのマッチングを行う手法、テキストデータ登録時、
ずれ読みの可能性のある単語については、幾通りか生じ
る候補に対しずれ読み候補である事が検索時に判断可能
となる何らかのマークを付して登録する手法、ずれ読
みの可能性のある単語については、圧縮コード変換を行
わず原文書テキストコードを登録し、テキスト検索時に
キーワードを圧縮コード/原文書テキストコードの両コ
ードに展開し検索を行う手法、等がある。
【0041】上記手法については、検索時のキーワー
ドのずれ読みが生じる場合において、該キーワードにつ
いて読み取れる単語について全てを挙げだし、その全て
を圧縮コード変換する。図9(a)に示す例の『過去そ
れはともあれ現在』の場合には、『それはともあれ』の
部分にずれ読みが生じる可能性があるので、『それは・
ともあれ』と、『それ・はと・も・あれ』とについて圧
縮コード変換する。これらの展開した圧縮コードについ
てテキストデータのマッチングを行う。
ドのずれ読みが生じる場合において、該キーワードにつ
いて読み取れる単語について全てを挙げだし、その全て
を圧縮コード変換する。図9(a)に示す例の『過去そ
れはともあれ現在』の場合には、『それはともあれ』の
部分にずれ読みが生じる可能性があるので、『それは・
ともあれ』と、『それ・はと・も・あれ』とについて圧
縮コード変換する。これらの展開した圧縮コードについ
てテキストデータのマッチングを行う。
【0042】上記手法については、テキストデータ登
録時、ずれ読みの可能性のある単語の前後に所定のコー
ドを付加しておき、照合ずれの可能性があることを明確
にしておく。例えば、図9(b)に示すように、照合ず
れ開始コードとして(FFFC)を用い、第1の候補の
圧縮コードを記述する。つぎに、他候補開始指示として
(FFFF)を用い、第2の候補を記述する。さらに、
他の候補がある場合には、同様に、(FFFF)を用い
他の候補を記述する。最後に、照合ずれ終了コードとし
て(FFFE)を用いて、テキストデータの登録をす
る。つぎに、上記場合の検索方法について図10および
図11を用いて説明する。図10は照合ずれテキスト検
索用キーワード変換の状態遷移図を示している。図11
は、照合ずれテキスト検索アルゴリズムを示している。
照合ずれを含む圧縮テキストの検索は、前述のように特
別のコードの、(FFFC)、(FFFF)、(FFF
E)を用いているので、これらの特別コードがある場合
には検索時に特別な処理をする必要がある。図10にお
いて、キーワードとして照合ずれテキストでない通常の
圧縮テキストの照合の場合には、状態遷移⇒⇒の
ように遷移して文字列照合をする。照合途中に、照合ず
れテキストが表れた場合には、、およびの遷移に
て対応する。また、テキスト照合ずれの途中からキーワ
ードとの照合が開始される場合には、状態およびに
て対応できる。図10において、キーワードとして、
『ともあれ現在』が入力された場合には、キーワードを
圧縮コードに変換し、圧縮キーワードにして照合する。
図11に示すフローに従い、圧縮テキストを1コードづ
つ読みだして照合を行う。圧縮テキスト中に、所定のコ
ードの、(FFFC)が読みだされたときには、照合ず
れの可能性のある圧縮コードとして、複数ある候補を読
みだし、それぞれの圧縮キーワードとの照合を行う。
録時、ずれ読みの可能性のある単語の前後に所定のコー
ドを付加しておき、照合ずれの可能性があることを明確
にしておく。例えば、図9(b)に示すように、照合ず
れ開始コードとして(FFFC)を用い、第1の候補の
圧縮コードを記述する。つぎに、他候補開始指示として
(FFFF)を用い、第2の候補を記述する。さらに、
他の候補がある場合には、同様に、(FFFF)を用い
他の候補を記述する。最後に、照合ずれ終了コードとし
て(FFFE)を用いて、テキストデータの登録をす
る。つぎに、上記場合の検索方法について図10および
図11を用いて説明する。図10は照合ずれテキスト検
索用キーワード変換の状態遷移図を示している。図11
は、照合ずれテキスト検索アルゴリズムを示している。
照合ずれを含む圧縮テキストの検索は、前述のように特
別のコードの、(FFFC)、(FFFF)、(FFF
E)を用いているので、これらの特別コードがある場合
には検索時に特別な処理をする必要がある。図10にお
いて、キーワードとして照合ずれテキストでない通常の
圧縮テキストの照合の場合には、状態遷移⇒⇒の
ように遷移して文字列照合をする。照合途中に、照合ず
れテキストが表れた場合には、、およびの遷移に
て対応する。また、テキスト照合ずれの途中からキーワ
ードとの照合が開始される場合には、状態およびに
て対応できる。図10において、キーワードとして、
『ともあれ現在』が入力された場合には、キーワードを
圧縮コードに変換し、圧縮キーワードにして照合する。
図11に示すフローに従い、圧縮テキストを1コードづ
つ読みだして照合を行う。圧縮テキスト中に、所定のコ
ードの、(FFFC)が読みだされたときには、照合ず
れの可能性のある圧縮コードとして、複数ある候補を読
みだし、それぞれの圧縮キーワードとの照合を行う。
【0043】上記手法については、ずれ読みの可能性
のある単語については、圧縮コード変換を行わず原文書
テキストコードを登録しておく。テキスト検索時には、
キーワードを圧縮コードおよび原文書テキストコードの
両コードに展開し、両方の検索を行うことによりずれ読
みの可能性を防ぐ。
のある単語については、圧縮コード変換を行わず原文書
テキストコードを登録しておく。テキスト検索時には、
キーワードを圧縮コードおよび原文書テキストコードの
両コードに展開し、両方の検索を行うことによりずれ読
みの可能性を防ぐ。
【0044】上記手法を用いることにより、テキストデ
ータ解析部102およびテキストデータ登録時には、テ
キストデータ解析処理(S203)を、また、テキスト
データ検索時には検索語解析処理(S305)を省き、
コード変換辞書104とのマッチングのみにて圧縮コー
ドを生成することが可能となる。
ータ解析部102およびテキストデータ登録時には、テ
キストデータ解析処理(S203)を、また、テキスト
データ検索時には検索語解析処理(S305)を省き、
コード変換辞書104とのマッチングのみにて圧縮コー
ドを生成することが可能となる。
【0045】また、上記実施例において、対象とするテ
キストに応じてコード変換辞書の種類を変更することや
複数種類備えることも可能である。例えば、英文テキス
トに対応するコード変換辞書、技術用語対応辞書と一般
事務用語対応辞書等考慮できる。どの辞書を使用するか
は、文書の種類に応じて用いる辞書を選択できる。これ
は、入力手段108にて選択指示を受け付けることによ
り選択する。この時、文書テキスト圧縮時と文書検索/
伸長時には同じ辞書が用いられる。どのような辞書を用
いて圧縮を行ったかは、圧縮テキストデータに辞書管理
情報を付加し、テキストデータファイル106へ保存す
ることによりコード変換辞書の管理を行うものとする。
キストに応じてコード変換辞書の種類を変更することや
複数種類備えることも可能である。例えば、英文テキス
トに対応するコード変換辞書、技術用語対応辞書と一般
事務用語対応辞書等考慮できる。どの辞書を使用するか
は、文書の種類に応じて用いる辞書を選択できる。これ
は、入力手段108にて選択指示を受け付けることによ
り選択する。この時、文書テキスト圧縮時と文書検索/
伸長時には同じ辞書が用いられる。どのような辞書を用
いて圧縮を行ったかは、圧縮テキストデータに辞書管理
情報を付加し、テキストデータファイル106へ保存す
ることによりコード変換辞書の管理を行うものとする。
【0046】さらに、上記実施例において、テキストデ
ータ登録時にテキストに付随して登録したイメージデー
タに対し、テキスト検索結果に従い、テキストと共にイ
メージデータファイル107よりこれを取り出し、ディ
スプレイ114へ表示もしくはプリンタ116を用いて
印刷を行うことも可能である。また、テキストの検索結
果として、原文テキストデータをディスプレイ114あ
るいはプリンタ116へ表示する代わりに、原文テキス
トデータが含まれているファイル名/インデックス等テ
キストの管理情報を表示する手法、あるいは、原文テキ
ストデータに関連するイメージデータ等の情報を表示す
る手法等がある。管理情報を表示する手法としては、原
文テキストデータのファイル名/インデックス、ファイ
ル番号、ファイル容量等の少なくとも1つを、識別子情
報としてテキストデータファイル106に登録して格納
おき、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、上記文書の識別子
情報を出力するようにしてもよい。また、イメージデー
タ等の情報を表示する手法としては、文書情報に関連し
たイメージデータをイメージデータファイル107に格
納し、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、文書情報に関連し
たイメージデータを出力するようにしてもよい。
ータ登録時にテキストに付随して登録したイメージデー
タに対し、テキスト検索結果に従い、テキストと共にイ
メージデータファイル107よりこれを取り出し、ディ
スプレイ114へ表示もしくはプリンタ116を用いて
印刷を行うことも可能である。また、テキストの検索結
果として、原文テキストデータをディスプレイ114あ
るいはプリンタ116へ表示する代わりに、原文テキス
トデータが含まれているファイル名/インデックス等テ
キストの管理情報を表示する手法、あるいは、原文テキ
ストデータに関連するイメージデータ等の情報を表示す
る手法等がある。管理情報を表示する手法としては、原
文テキストデータのファイル名/インデックス、ファイ
ル番号、ファイル容量等の少なくとも1つを、識別子情
報としてテキストデータファイル106に登録して格納
おき、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、上記文書の識別子
情報を出力するようにしてもよい。また、イメージデー
タ等の情報を表示する手法としては、文書情報に関連し
たイメージデータをイメージデータファイル107に格
納し、検索条件判別部112が、適合した文書の圧縮テ
キストデータを伸長させる代わりに、文書情報に関連し
たイメージデータを出力するようにしてもよい。
【0047】上記手法を用いることにより、圧縮テキス
トデータを再び原文書テキストデータに伸長処理する必
要は無い。
トデータを再び原文書テキストデータに伸長処理する必
要は無い。
【0048】さらに、上記実施例において、テキストデ
ータとキーワードとの文字列照合時(S308)文字間
距離指定(2つあるいはそれ以上の単語が出現する間に
含まれる文字数を指定する検索)等圧縮テキストにて支
援困難な検索条件をサポートするため、検索語に圧縮コ
ード変換を適応する手法を用いず、テキストデータファ
イルより読みだした圧縮テキストをテキストデータ伸長
部113にて原文書テキストに伸長し、これとキーワー
ドとの文字列照合を行う構成でも良い。この時、検索語
解析処理(S305)検索語とコード変換辞書との照合
(S306)およびキーワード圧縮処理(S307)を
行う必要は無い。文字列照合時には、キーボード108
から伸長後の原文書テキストで照合するか、圧縮テキス
トで照合するかを選択指示できる。
ータとキーワードとの文字列照合時(S308)文字間
距離指定(2つあるいはそれ以上の単語が出現する間に
含まれる文字数を指定する検索)等圧縮テキストにて支
援困難な検索条件をサポートするため、検索語に圧縮コ
ード変換を適応する手法を用いず、テキストデータファ
イルより読みだした圧縮テキストをテキストデータ伸長
部113にて原文書テキストに伸長し、これとキーワー
ドとの文字列照合を行う構成でも良い。この時、検索語
解析処理(S305)検索語とコード変換辞書との照合
(S306)およびキーワード圧縮処理(S307)を
行う必要は無い。文字列照合時には、キーボード108
から伸長後の原文書テキストで照合するか、圧縮テキス
トで照合するかを選択指示できる。
【0049】さらに、上記実施例において、テキストデ
ータ伸長をディスプレイ制御回路およびプリンタ制御回
路が行う構成も可能である。この時、テキストデータ伸
長部113はディスプレイ制御回路115およびプリン
タ制御回路117に含まれる構成となる。
ータ伸長をディスプレイ制御回路およびプリンタ制御回
路が行う構成も可能である。この時、テキストデータ伸
長部113はディスプレイ制御回路115およびプリン
タ制御回路117に含まれる構成となる。
【0050】図4にテキスト圧縮についての一実施例を
示す。
示す。
【0051】図4(a)は原文書テキストの一部を示し
ている。ここでは、「すなわち文書情報検索装置のブロ
ック図は」なるテキストを例にする。従来は、原文書テ
キストの1つの文字に対して1つのコードが与えられて
いる。例えば、テキストコードとして一般に用いられる
シフトJISコードでは、1つの文字に対し16ビット
コードが1つずつ与えられており従来例では16ビット
コードが19個必要となる。しかし、各語の意味単位を
考慮すると、意味としての最小単位は各単語(熟語、接
続詞、その他)である。この例では、「すなわち」「文
書」「情報」「検索」「装置」「ブロック」等がこれに
あたる。そこで、テキストデータ解析部102におい
て、この意味最小単位である単語に展開し、テキストデ
ータ圧縮部103がコード変換辞書104に基づいてそ
れぞれコードを割り振ることにより、文書テキストの圧
縮を行う。本例では、図4(b)に示す如く、「すなわ
ち」→(01AB)、「文書」→(2153)、「ブロック」→(0A3
B)等、各単語に16ビットコードを割り当てるものとす
る。コード変換辞書104には、上記原文書の単語コー
ド(例えば「ブロック」の文字コード)と変換語の圧縮
文字コード(例えば「0A3B」)を対にして登録してお
く。登録する単語は、汎用の国語辞典を用いても良い
し、ユーザが入力手段108から登録しても良い。ただ
し、各文字のコード情報は圧縮テキスト変換後もサポー
トするものとする。上記実施例では、「の」「図」
「は」がこれにあたる。これら手法を用い、図4(b)
テキストデータは、テキストデータ圧縮部103により
圧縮テキストデータ図4(c)に示すように変換され、
テキストデータファイル106にファイリングされる。
ている。ここでは、「すなわち文書情報検索装置のブロ
ック図は」なるテキストを例にする。従来は、原文書テ
キストの1つの文字に対して1つのコードが与えられて
いる。例えば、テキストコードとして一般に用いられる
シフトJISコードでは、1つの文字に対し16ビット
コードが1つずつ与えられており従来例では16ビット
コードが19個必要となる。しかし、各語の意味単位を
考慮すると、意味としての最小単位は各単語(熟語、接
続詞、その他)である。この例では、「すなわち」「文
書」「情報」「検索」「装置」「ブロック」等がこれに
あたる。そこで、テキストデータ解析部102におい
て、この意味最小単位である単語に展開し、テキストデ
ータ圧縮部103がコード変換辞書104に基づいてそ
れぞれコードを割り振ることにより、文書テキストの圧
縮を行う。本例では、図4(b)に示す如く、「すなわ
ち」→(01AB)、「文書」→(2153)、「ブロック」→(0A3
B)等、各単語に16ビットコードを割り当てるものとす
る。コード変換辞書104には、上記原文書の単語コー
ド(例えば「ブロック」の文字コード)と変換語の圧縮
文字コード(例えば「0A3B」)を対にして登録してお
く。登録する単語は、汎用の国語辞典を用いても良い
し、ユーザが入力手段108から登録しても良い。ただ
し、各文字のコード情報は圧縮テキスト変換後もサポー
トするものとする。上記実施例では、「の」「図」
「は」がこれにあたる。これら手法を用い、図4(b)
テキストデータは、テキストデータ圧縮部103により
圧縮テキストデータ図4(c)に示すように変換され、
テキストデータファイル106にファイリングされる。
【0052】検索時には、検索用のキーワードが入力さ
れ、キーワードを上記テキストデータと同様に、各単語
ごとに圧縮キーワードに変換することにより、圧縮キー
ワードと圧縮テキストデータとを照合して検索をする。
れ、キーワードを上記テキストデータと同様に、各単語
ごとに圧縮キーワードに変換することにより、圧縮キー
ワードと圧縮テキストデータとを照合して検索をする。
【0053】上記実施例では、圧縮変換結果として16
ビットコード9個のテキストが得られ、圧縮率として5
0%以上の圧縮効果が得られている。上記圧縮手法を用
いることにより、上記実施例ではテキスト容量を約1/
2に削減し、ディスク等蓄積媒体からの読みだし時間を
半分にすると同時に、上記圧縮を行ったテキストデータ
に対し検索を行うことにより検索時テキストデータとキ
ーワードとのマッチングを行う回数を半減し、結果とし
て検索速度は2倍以上の高速化を実現できることとな
る。
ビットコード9個のテキストが得られ、圧縮率として5
0%以上の圧縮効果が得られている。上記圧縮手法を用
いることにより、上記実施例ではテキスト容量を約1/
2に削減し、ディスク等蓄積媒体からの読みだし時間を
半分にすると同時に、上記圧縮を行ったテキストデータ
に対し検索を行うことにより検索時テキストデータとキ
ーワードとのマッチングを行う回数を半減し、結果とし
て検索速度は2倍以上の高速化を実現できることとな
る。
【0054】図5に本発明が適応される情報処理システ
ムの構成図についての一例を示す。
ムの構成図についての一例を示す。
【0055】図中、501は、CPU(中央演算処理装
置)であり、テキスト/イメージデータ、キーワードお
よび検索条件式、文書識別子情報等に各種処理を行う。
502は、画像入力装置であり、イメージデータを紙面
等より取り込む。503は、文字認識装置であり、取り
込んだイメージデータより文字成分のみ抽出/認識し、
文書情報をテキストデータに変換を行う。504は、ネ
ットワーク/ホストコンピュータ接続装置であり、各種
外部機器よりネットワークを介してテキスト/イメージ
データを取り込む。505は、文字列照合プロセッサで
あり、オートマトンその他文字照合アルゴリズムを用い
文字列照合動作を高速に処理する。506は、コード変
換辞書であり、原文書の文字コードと圧縮変換後の圧縮
コードを対にして蓄積する。507は、同義語/類義語
辞書であり、検索時にキーワードに対し同義語/類義語
検索を行う。508は、記憶装置のテキストデータファ
イルであり、圧縮変換を行った圧縮テキストデータを蓄
積する。509は、イメージデータファイルであり、テ
キストデータに付随したイメージデータを蓄積する。5
10は、キーボードなどの入力手段であり、検索時にキ
ーワードを入力するためあるいはテキストデータを直接
入力する。511は、CRTなどの表示手段であり、検
索結果を表示する。512は、CRT制御回路であり、
CRT511を制御する。513は、プリンタなどの出
力手段であり、検索結果を紙面に打ち出す。514は、
プリンタ制御回路であり、プリンタ513を制御する。
CRT511およびプリンタ513は、出力装置であ
り、検索結果を出力することができる。
置)であり、テキスト/イメージデータ、キーワードお
よび検索条件式、文書識別子情報等に各種処理を行う。
502は、画像入力装置であり、イメージデータを紙面
等より取り込む。503は、文字認識装置であり、取り
込んだイメージデータより文字成分のみ抽出/認識し、
文書情報をテキストデータに変換を行う。504は、ネ
ットワーク/ホストコンピュータ接続装置であり、各種
外部機器よりネットワークを介してテキスト/イメージ
データを取り込む。505は、文字列照合プロセッサで
あり、オートマトンその他文字照合アルゴリズムを用い
文字列照合動作を高速に処理する。506は、コード変
換辞書であり、原文書の文字コードと圧縮変換後の圧縮
コードを対にして蓄積する。507は、同義語/類義語
辞書であり、検索時にキーワードに対し同義語/類義語
検索を行う。508は、記憶装置のテキストデータファ
イルであり、圧縮変換を行った圧縮テキストデータを蓄
積する。509は、イメージデータファイルであり、テ
キストデータに付随したイメージデータを蓄積する。5
10は、キーボードなどの入力手段であり、検索時にキ
ーワードを入力するためあるいはテキストデータを直接
入力する。511は、CRTなどの表示手段であり、検
索結果を表示する。512は、CRT制御回路であり、
CRT511を制御する。513は、プリンタなどの出
力手段であり、検索結果を紙面に打ち出す。514は、
プリンタ制御回路であり、プリンタ513を制御する。
CRT511およびプリンタ513は、出力装置であ
り、検索結果を出力することができる。
【0056】まず、テキストデータ登録時には、ネット
ワーク/ホストコンピュータ接続装置504を介しテキ
ストデータが、あるいは、画像入力装置502より入力
されたイメージデータについて文字認識装置503を用
い、認識/変換されたテキストデータがCPU501に
入力される。もしくは、キーボード510を用い直接テ
キストデータが、CPU501に入力される。入力され
たテキストデータは、CPU501にて解析された後、
文字列照合プロセッサ505にて、コード変換辞書50
6に登録されている単語との文字列照合が行われ、この
照合結果を用いCPU501にて圧縮処理が行われる。
圧縮されたテキストデータは、テキストデータファイル
508に蓄積され、テキストデータとともに入力された
イメージデータはイメージデータファイル509に蓄積
される。
ワーク/ホストコンピュータ接続装置504を介しテキ
ストデータが、あるいは、画像入力装置502より入力
されたイメージデータについて文字認識装置503を用
い、認識/変換されたテキストデータがCPU501に
入力される。もしくは、キーボード510を用い直接テ
キストデータが、CPU501に入力される。入力され
たテキストデータは、CPU501にて解析された後、
文字列照合プロセッサ505にて、コード変換辞書50
6に登録されている単語との文字列照合が行われ、この
照合結果を用いCPU501にて圧縮処理が行われる。
圧縮されたテキストデータは、テキストデータファイル
508に蓄積され、テキストデータとともに入力された
イメージデータはイメージデータファイル509に蓄積
される。
【0057】つぎに、テキストデータ検索時には、キー
ボード510より、あるいは、ネットワーク/ホストコ
ンピュータよりネットワーク/ホストコンピュータ接続
装置504を介して、あるいは、画像入力装置502と
文字認識装置503とを介して、キーワードと検索式と
がCPU501へ入力される。入力されたキーワードと
検索式とは、CPU501にて解析され、キーワードに
ついては同義語/類義語辞書507を用い、同義語/類
義語展開され、さらに、コード変換辞書506および文
字列照合プロセッサ505からの照合結果を用い、CP
U501にて圧縮コード変換される。つぎに、上記圧縮
コード変換されたキーワードに対し、テキストデータフ
ァイル508より取り出された圧縮テキストデータにつ
いて文字列照合プロセッサ505にて文字列照合が行わ
れる。この文字列照合結果は、CPU501にて照合結
果の判定が行われ、検索結果に適合した文書はCRT5
11あるいはプリンタ513を用い検索者に表示される
ことになる。
ボード510より、あるいは、ネットワーク/ホストコ
ンピュータよりネットワーク/ホストコンピュータ接続
装置504を介して、あるいは、画像入力装置502と
文字認識装置503とを介して、キーワードと検索式と
がCPU501へ入力される。入力されたキーワードと
検索式とは、CPU501にて解析され、キーワードに
ついては同義語/類義語辞書507を用い、同義語/類
義語展開され、さらに、コード変換辞書506および文
字列照合プロセッサ505からの照合結果を用い、CP
U501にて圧縮コード変換される。つぎに、上記圧縮
コード変換されたキーワードに対し、テキストデータフ
ァイル508より取り出された圧縮テキストデータにつ
いて文字列照合プロセッサ505にて文字列照合が行わ
れる。この文字列照合結果は、CPU501にて照合結
果の判定が行われ、検索結果に適合した文書はCRT5
11あるいはプリンタ513を用い検索者に表示される
ことになる。
【0058】上記システム構成図において、文字列照合
に速度あるいは高度な機能が必要とされない場合、文字
列照合はCPU501が行い、文字列照合プロセッサ5
05を削除することが可能である。また、文字認識に速
度あるいは高度な機能が必要とされない場合、文字認識
をCPU501が行い、文字認識装置503を削除する
ことも可能である。また、上記システム構成図におい
て、テキストデータファイル508とイメージデータフ
ァイル509とを分離しているが、これを1つとしテキ
ストデータとイメージデータを同じファイルに蓄積する
構成も可能である。
に速度あるいは高度な機能が必要とされない場合、文字
列照合はCPU501が行い、文字列照合プロセッサ5
05を削除することが可能である。また、文字認識に速
度あるいは高度な機能が必要とされない場合、文字認識
をCPU501が行い、文字認識装置503を削除する
ことも可能である。また、上記システム構成図におい
て、テキストデータファイル508とイメージデータフ
ァイル509とを分離しているが、これを1つとしテキ
ストデータとイメージデータを同じファイルに蓄積する
構成も可能である。
【0059】本発明によれば、文書テキスト情報登録時
において、テキストコードを圧縮処理し、テキストデー
タファイル中に保存するので、原文テキストの情報を落
すこと無く膨大なテキストデータを削減することができ
る。
において、テキストコードを圧縮処理し、テキストデー
タファイル中に保存するので、原文テキストの情報を落
すこと無く膨大なテキストデータを削減することができ
る。
【0060】また、文書テキスト情報検索時において、
圧縮処理されたテキストデータを読みだすので、従来の
原文書フルテキストサーチに比べテキスト蓄積手段より
ディスクリードを行う為に必要となる処理時間を短縮
し、結果として検索速度の向上につながる。
圧縮処理されたテキストデータを読みだすので、従来の
原文書フルテキストサーチに比べテキスト蓄積手段より
ディスクリードを行う為に必要となる処理時間を短縮
し、結果として検索速度の向上につながる。
【0061】さらに、文書圧縮手法に原文書の意味の保
存を考慮し、意味最小単位を単語とみなし、これに新た
な圧縮コードを与える手法を用い、さらに、検索語にも
同様の圧縮変換を施した後圧縮コードを用いたマッチン
グを行うことにより、圧縮テキスト検索時にテキストデ
ータの原文書への伸長を必要とせず、高速で簡便な文書
テキスト検索手法を提供するものである。特に、フルテ
キストサーチ応用等膨大な文書テキストを検索する必要
が生じる使用法において、本方式の効果は顕著である。
存を考慮し、意味最小単位を単語とみなし、これに新た
な圧縮コードを与える手法を用い、さらに、検索語にも
同様の圧縮変換を施した後圧縮コードを用いたマッチン
グを行うことにより、圧縮テキスト検索時にテキストデ
ータの原文書への伸長を必要とせず、高速で簡便な文書
テキスト検索手法を提供するものである。特に、フルテ
キストサーチ応用等膨大な文書テキストを検索する必要
が生じる使用法において、本方式の効果は顕著である。
【0062】
【発明の効果】本発明によれば、テキストデ−タの検索
速度を向上させると同時に、文書デ−タの増加をもたら
さず、かつ、本文テキストの再サ−チを必要としない優
れた全文検索システムを実現することができる。
速度を向上させると同時に、文書デ−タの増加をもたら
さず、かつ、本文テキストの再サ−チを必要としない優
れた全文検索システムを実現することができる。
【図1】本発明の一実施例を示す構成図。
【図2】テキストデータ登録時のフローチャート。
【図3】テキストデータ検索時のフローチャート。
【図4】テキスト圧縮の一実施例。
【図5】本発明の一実施例を示すシステム構成図。
【図6】同義語テーブルの一例。
【図7】同義語圧縮テキスト変換の一実施例。
【図8】同義語圧縮キーワード変換の一実施例。
【図9】テキスト圧縮時における照合ずれ処理の一実施
例。
例。
【図10】照合ずれテキスト検索用キーワード変換の一
実施例。
実施例。
【図11】照合ずれテキスト検索アルゴリズム。
101…テキスト/イメージデータ入力部、102…テ
キストデータ解析部、103…テキストデータ圧縮部、
104…コード変換辞書、105…同義語/類義語辞
書、106…テキストデータファイル、107…イメー
ジデータファイル、108…キーボード、109…検索
式解析部、110…検索式変換部、111…文字列照合
部、112…検索条件判別部、113…テキストデータ
伸長部、114…ディスプレイ、115…ディスプレイ
制御回路、116…プリンタ、117…プリンタ制御回
路、118…テキスト/イメージバス、119…画像入
力部、120…文字認識部。
キストデータ解析部、103…テキストデータ圧縮部、
104…コード変換辞書、105…同義語/類義語辞
書、106…テキストデータファイル、107…イメー
ジデータファイル、108…キーボード、109…検索
式解析部、110…検索式変換部、111…文字列照合
部、112…検索条件判別部、113…テキストデータ
伸長部、114…ディスプレイ、115…ディスプレイ
制御回路、116…プリンタ、117…プリンタ制御回
路、118…テキスト/イメージバス、119…画像入
力部、120…文字認識部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 横山 佳弘 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (72)発明者 増崎 秀文 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内
Claims (19)
- 【請求項1】文書情報を入力するための文書情報入力手
段と、前記文書情報を登録して格納するテキストデータ
格納手段と、登録した文書情報を検索するためのキー情
報と検索条件とを入力する入力手段と、前記キー情報と
登録した文書情報とを照合する文字列照合手段と、前記
検索条件から検索条件式を生成する検索式変換手段と、
前記検索条件式に適合する文書情報を判別する検索条件
判別手段と、前記検索条件判別手段で判別した結果を出
力する出力手段とを有する文書情報検索装置において、 入力された文書情報を圧縮テキストデータに圧縮変換す
るテキストデータ圧縮手段と、圧縮テキストデータを原
文書情報に伸長するテキストデータ伸長手段とを有し、 前記テキストデータ格納手段は、圧縮テキストデータを
登録して格納し、 前記検索式変換手段は、入力されたキー情報を圧縮キー
データに圧縮変換して前記検索条件から検索条件式を生
成し、 前記文字列照合手段は、圧縮キーデータと登録した圧縮
テキストデータとを照合し、 前記検索条件判別手段は、前記文字列照合手段から出力
される照合結果をもとに前記検索式変換手段から与えら
れた前記検索条件式に適合する文書情報の圧縮テキスト
データを判別し、 前記テキストデータ伸長手段は、適合した文書情報の圧
縮テキストデータを原文書情報に伸長することを特徴と
する文書情報検索装置。 - 【請求項2】請求項1において、入力された文書情報
を、1つの意味単位とみなし得る単語ごとに展開するテ
キストデータ解析部をさらに有し、 前記テキストデータ圧縮手段は、展開された単語ごとに
圧縮コードを割り当てて圧縮テキストデータに圧縮変換
することを特徴とする文書情報検索装置。 - 【請求項3】請求項2において、1つの意味単位とみな
せる単語と圧縮コードとを対にして格納するコード変換
辞書をさらに有し、 前記テキストデータ圧縮手段は、前記コード変換辞書を
参照して圧縮変換することを特徴とする文書情報検索装
置。 - 【請求項4】請求項3において、前記入力手段は、前記
コード変換辞書に登録すべき単語を受け付けて、前記コ
ード変換辞書は、該登録すべき単語を登録することを特
徴とする文書情報検索装置。 - 【請求項5】請求項2において、前記テキストデータ解
析部は、入力された文書情報の構文解析を行い、各単語
に展開することを特徴とする文書情報検索装置。 - 【請求項6】請求項2において、表記の異なる同義語/
類義語群と圧縮コードとを対にし、表記の異なる同義語
/類義語ごとに識別情報を付加して格納する同義語/類
義語テーブルをさらに有し、 前記テキストデータ圧縮手段は、同義語/類義語テーブ
ルを参照して原文書テキスト中の単語について表記の異
なる同義語/類義語群に対し1つの圧縮コードを割り当
てて、同義語/類義語であることを示す情報と前記識別
情報とを付加して、圧縮変換することを特徴とする文書
情報検索装置。 - 【請求項7】請求項6において、前記検索式変換手段
は、入力されたキー情報を同義語/類義語テーブルを参
照して圧縮キーデータに圧縮変換し、前記検索条件から
検索条件式を生成し、 前記文字列照合手段は、同義語/類義語であることを示
す情報を検知して前記識別情報を読み飛ばし、圧縮キー
データと登録した圧縮テキストデータとを照合すること
を特徴とする文書情報検索装置。 - 【請求項8】請求項1において、前記テキストデータ伸
長手段は、キー情報照合時に照合する圧縮テキストデー
タの伸長を行い、 前記文字列照合手段は、キー情報と伸長された文書情報
との照合を行うことを特徴とする文書情報検索装置。 - 【請求項9】請求項2において、テキストデータ解析部
は、単語のずれ読みが生じる部分を認識し、単語のずれ
読みが生じる部分に予め定めた情報を付加しておくこと
を特徴とする文書情報検索装置。 - 【請求項10】請求項9において、前記テキストデータ
解析部は、単語のずれ読みが生じる場合にずれ読みの可
能性がある単語を挙げて展開しておき、前記テキストデ
ータ圧縮手段は、展開された全ての単語に圧縮コードを
割り当てて圧縮テキストデータに圧縮変換し、 検索時に、前記文字列照合手段は、挙げだした単語全て
を圧縮キーデータと照合することを特徴とする文書情報
検索装置。 - 【請求項11】請求項2において、テキストデータ解析
部は、単語のずれ読みが生じる部分を認識し、前記テキ
ストデータ圧縮手段は、単語のずれ読みが生じる部分の
圧縮変換を行わず、前記テキストデータ格納手段は、単
語のずれ読みが生じる部分をテキストデータとして格納
し、 検索時に、前記文字列照合手段は、キー情報と前記テキ
ストデータとの照合も行うことを特徴とする文書情報検
索装置。 - 【請求項12】請求項2において、前記検索式変換手段
は、入力されたキー情報の単語のずれ読みが生じる部分
を認識し、単語のずれ読みが生じる場合にずれ読みの可
能性がある単語を挙げて展開しておき、展開された全て
の単語に圧縮コードを割り当てて圧縮キーデータに圧縮
変換して前記検索条件から検索条件式を生成し、 検索時に、前記文字列照合手段は、全ての圧縮キーデー
タについて圧縮テキストデータと照合することを特徴と
する文書情報検索装置。 - 【請求項13】請求項3において、コード変換辞書を複
数種類備え、前記入力手段は、文書の種類に応じて用い
る辞書の選択指示を受け付けて、 前記テキストデータ圧縮手段は、指示されたコード変換
辞書を参照して圧縮変換し、変換後の圧縮テキストに対
し用いたコード変換辞書識別情報を付加し、 テキストデータ伸長時に、前記テキストデータ伸長手段
は、該コード変換辞書識別情報を参照し、対応するコー
ド変換辞書を用いて伸長することを特徴とする文書情報
検索装置。 - 【請求項14】請求項13において、前記検索式変換手
段は、前記指示されたコード変換辞書を参照して入力さ
れたキー情報を圧縮キーデータに圧縮変換することを特
徴とする文書情報検索装置。 - 【請求項15】請求項1において、前記テキストデータ
格納手段は、圧縮テキストデータとともに該圧縮テキス
トデータの識別子情報を登録して格納し、 前記検索条件判別手段は、前記テキストデータ伸長手段
における、適合した文書の圧縮テキストデータを原文書
情報に伸長させて出力する代わりに、前記文書の識別子
情報を出力することを特徴とする文書情報検索装置。 - 【請求項16】請求項1において、文書情報登録時に、
該文書情報に関連したイメージデータを登録するイメー
ジデータ格納手段をさらに備え、 前記検索条件判別手段は、前記テキストデータ伸長手段
における、適合した文書の圧縮テキストデータを原文書
情報に伸長させて出力する代わりに、該文書情報に関連
したイメージデータを出力することを特徴とする文書情
報検索装置。 - 【請求項17】文書情報を検索する文書情報検索装置に
おける文書情報登録/検索方法において、 文書情報登録時に、入力された文書情報を圧縮テキスト
データに圧縮変換して登録し、 文書情報検索時に、入力されたキー情報を圧縮キーデー
タに圧縮変換し、該圧縮キーデータと前記圧縮テキスト
データとを照合して適合する圧縮テキストデータを検索
することを特徴とする文書情報登録/検索方法。 - 【請求項18】文書情報を入力する入力装置と、文書情
報を記憶する記憶装置と、文書情報を検索するためのキ
ー情報を受け付けるキー入力手段と、文書情報を検索す
る中央演算処理装置と、検索結果を出力する出力装置と
を有する情報処理システムにおいて、 前記中央演算処理装置は、前記入力装置で入力された文
書情報を圧縮テキストデータに圧縮変換して記憶装置に
登録し、前記キー入力手段で入力されたキー情報を圧縮
キーデータに圧縮変換し、該圧縮キーデータと前記圧縮
テキストデータとを照合して適合する圧縮テキストデー
タを検索することを特徴とする情報処理システム。 - 【請求項19】請求項18において、1つの意味単位と
みなせる単語と圧縮コードとを対にして格納するコード
変換辞書をさらに有し、 前記中央演算処理装置は、前記コード変換辞書を参照し
て圧縮変換することを特徴とする情報処理システム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4135340A JPH05324730A (ja) | 1992-05-27 | 1992-05-27 | 文書情報検索装置 |
| US08/068,658 US5590317A (en) | 1992-05-27 | 1993-05-27 | Document information compression and retrieval system and document information registration and retrieval method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4135340A JPH05324730A (ja) | 1992-05-27 | 1992-05-27 | 文書情報検索装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05324730A true JPH05324730A (ja) | 1993-12-07 |
Family
ID=15149487
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4135340A Pending JPH05324730A (ja) | 1992-05-27 | 1992-05-27 | 文書情報検索装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05324730A (ja) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0756955A (ja) * | 1993-06-30 | 1995-03-03 | Microsoft Corp | 圧縮データをサーチする方法及びシステム |
| JPH1185231A (ja) * | 1997-09-11 | 1999-03-30 | Fuji Electric Co Ltd | データ転送装置 |
| JP2000011001A (ja) * | 1998-06-25 | 2000-01-14 | Sharp Corp | 検索装置及びその制御プログラムを記憶した媒体 |
| JP2005242416A (ja) * | 2004-02-24 | 2005-09-08 | Shogakukan Inc | 自然言語文の検索方法および検索装置 |
| JP2005535240A (ja) * | 2002-08-07 | 2005-11-17 | インフィネオン テクノロジーズ アクチエンゲゼルシャフト | データパケットのルーティング方法およびルーティング装置 |
| WO2013065199A1 (ja) * | 2011-11-04 | 2013-05-10 | 富士通株式会社 | 照合制御プログラム、照合制御装置および照合制御方法 |
| WO2014147672A1 (ja) * | 2013-03-22 | 2014-09-25 | 富士通株式会社 | 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム |
| JP2016134100A (ja) * | 2015-01-21 | 2016-07-25 | 富士通株式会社 | 文書処理プログラム、情報処理装置および文書処理方法 |
| EP3070615A1 (en) | 2015-03-16 | 2016-09-21 | Fujitsu Limited | Information processing apparatus, and data management method |
| JP2018067264A (ja) * | 2016-10-21 | 2018-04-26 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
| JP2019159699A (ja) * | 2018-03-12 | 2019-09-19 | 富士通株式会社 | 生成プログラム、生成方法、情報処理装置および情報処理システム |
| US10684831B2 (en) | 2015-06-10 | 2020-06-16 | Fujitsu Limited | Information processing apparatus, information processing method, and recording medium |
| CN113505578A (zh) * | 2021-05-26 | 2021-10-15 | 中国再保险(集团)股份有限公司 | 用于台风巨灾模型的海量文件快速校验方法 |
-
1992
- 1992-05-27 JP JP4135340A patent/JPH05324730A/ja active Pending
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0756955A (ja) * | 1993-06-30 | 1995-03-03 | Microsoft Corp | 圧縮データをサーチする方法及びシステム |
| EP0633537A3 (en) * | 1993-06-30 | 1995-08-23 | Microsoft Corp | Method and system for searching compressed data. |
| JPH1185231A (ja) * | 1997-09-11 | 1999-03-30 | Fuji Electric Co Ltd | データ転送装置 |
| JP2000011001A (ja) * | 1998-06-25 | 2000-01-14 | Sharp Corp | 検索装置及びその制御プログラムを記憶した媒体 |
| JP2005535240A (ja) * | 2002-08-07 | 2005-11-17 | インフィネオン テクノロジーズ アクチエンゲゼルシャフト | データパケットのルーティング方法およびルーティング装置 |
| JP2005242416A (ja) * | 2004-02-24 | 2005-09-08 | Shogakukan Inc | 自然言語文の検索方法および検索装置 |
| US9355192B2 (en) | 2011-11-04 | 2016-05-31 | Fujitsu Limited | Collation control device, and collation control method |
| WO2013065199A1 (ja) * | 2011-11-04 | 2013-05-10 | 富士通株式会社 | 照合制御プログラム、照合制御装置および照合制御方法 |
| WO2014147672A1 (ja) * | 2013-03-22 | 2014-09-25 | 富士通株式会社 | 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム |
| JPWO2014147672A1 (ja) * | 2013-03-22 | 2017-02-16 | 富士通株式会社 | 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム |
| JP2016134100A (ja) * | 2015-01-21 | 2016-07-25 | 富士通株式会社 | 文書処理プログラム、情報処理装置および文書処理方法 |
| EP3070615A1 (en) | 2015-03-16 | 2016-09-21 | Fujitsu Limited | Information processing apparatus, and data management method |
| US10380240B2 (en) | 2015-03-16 | 2019-08-13 | Fujitsu Limited | Apparatus and method for data compression extension |
| US10684831B2 (en) | 2015-06-10 | 2020-06-16 | Fujitsu Limited | Information processing apparatus, information processing method, and recording medium |
| JP2018067264A (ja) * | 2016-10-21 | 2018-04-26 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
| JP2019159699A (ja) * | 2018-03-12 | 2019-09-19 | 富士通株式会社 | 生成プログラム、生成方法、情報処理装置および情報処理システム |
| CN113505578A (zh) * | 2021-05-26 | 2021-10-15 | 中国再保险(集团)股份有限公司 | 用于台风巨灾模型的海量文件快速校验方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5590317A (en) | Document information compression and retrieval system and document information registration and retrieval method | |
| JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
| US5450580A (en) | Data base retrieval system utilizing stored vicinity feature valves | |
| JP2742115B2 (ja) | 類似文書検索装置 | |
| US7191177B2 (en) | Keyword extracting device | |
| KR101157693B1 (ko) | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 | |
| US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
| US4873634A (en) | Spelling assistance method for compound words | |
| US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
| JPH05324730A (ja) | 文書情報検索装置 | |
| Kettunen et al. | Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods | |
| JP3220865B2 (ja) | フルテキストサーチ方法 | |
| US7246107B2 (en) | System and method for creating a data file for use in searching a database | |
| JP4057681B2 (ja) | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 | |
| CN120340055A (zh) | 一种基于多模态大模型的文档处理方法和系统 | |
| JPH05324427A (ja) | 文書情報圧縮装置 | |
| JP2001344282A (ja) | 文書検索方法および装置 | |
| JPH1173415A (ja) | 類似文書検索装置及び類似文書検索方法 | |
| JP3315221B2 (ja) | 会話文翻訳装置 | |
| JPH07287716A (ja) | 辞書検索装置 | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| JPH08115330A (ja) | 類似文書検索方法および装置 | |
| JP2002278963A (ja) | 事例翻訳装置 | |
| JPH09245051A (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
| JPH04330565A (ja) | 自然言語処理システム |