JPS5828616B2 - 文書抜粋記憶 - Google Patents

文書抜粋記憶

Info

Publication number
JPS5828616B2
JPS5828616B2 JP55175926A JP17592680A JPS5828616B2 JP S5828616 B2 JPS5828616 B2 JP S5828616B2 JP 55175926 A JP55175926 A JP 55175926A JP 17592680 A JP17592680 A JP 17592680A JP S5828616 B2 JPS5828616 B2 JP S5828616B2
Authority
JP
Japan
Prior art keywords
document
word
memory
words
excerpt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55175926A
Other languages
English (en)
Other versions
JPS5850071A (ja
Inventor
ウオルター・ステイーブン・ローゼンバウム
ジエームズ・テリー・リパス
ジヤネツト・グツドソン・ラツセル
デービツド・グリツクマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS5850071A publication Critical patent/JPS5850071A/ja
Publication of JPS5828616B2 publication Critical patent/JPS5828616B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 本発明は情報記憶及び探索に関連し、さらに具体的には
自動的に文書を抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
文書記憶兼検索システムを具体化する際にこの様なシス
テムの実用性及び利用度は夫々の文書をシステム中に目
録化する際の容易さ及びユーザの要求が関連文書目録表
示(記述)と連想される際の効率によって支配される。
現在の文書記憶及び検索技法は文書をシステムの目録も
しくは索引で代表させるため、人間によってキイワード
を選出し、次いで適切なキーワード用語をメモリから呼
出し、自動的もしくは人手によって予じめ記憶されたキ
イワードに対する適当なレベルでの一致で索引を探し出
す事に基づいていた。
キイワードに基づいて文書を抜粋し検索するための手順
が従来開発されてきた。
手順の1つは要求者に一定の様式で著者、住所、日付は
及びキイワードもしくは文の一端(フレーズ)の如き当
該文書についての成る詳細事項を供給する事を要求する
検索の場合には、要約で分類されたリストが上述の見出
しの各々の下に準備される。
要求者は探索情報の見出しの下の記入項目をしらべる事
によって適切な文書を弁別しなければならない。
探索の手掛りにはどのようなゆとりも許容されない。
探索は人間による吟味もしくはデータ処理の大域的発見
指令を使用して行なわれる。
第2の手順は完全な逆ファイルとして文書中のすべての
非自明語を記憶する(即ち冠詞及び代名詞等を無視する
)。
原稿の文書/行/語位置が目録中に保持される。
検索のためのデータベースの探索はユーザの記憶に基づ
いてユーザが供給するキイワードによって行なわれる。
目録は原テキスト中にキイワードが存在する時のキイワ
ード間に存在しなければならない関係(即ちキイワード
1がキイワード2の前に存在する等)を指定し得るとい
う追加の能力によって自動的に探索される。
このシステムの例はIBMデータ処理部門の製品である
通常5TAIR8と呼ばれる記憶兼情報探索システム(
Storage and InformationRe
tr 1eval System )である。
文書記憶及び検索のための第3の方法は文書を単に機械
読取り可能な形式で記憶し各ユーザ供給キイワードのた
めの大域的発見論理を使用してすべての文書を探索する
ものである。
小さなデータベースに対する理論及び実際においては、
大域的な発見は文書がCRT型装置上に表示される時に
ユーザが文書を逐語的にレビューする事によって置換え
られ得る。
しかしながら文書記憶及び探索のための上述のすべての
手順においては、抜粋及び探索時の連想一致のための主
たる知的負担はユーザ側に置かれる。
システムが抜粋もしくは一致の際に使用される時は、大
量の目録作成手順という代償を支払って、行なわれ、検
索のためにシステムと通信するためにはユーザにとって
大量のデータ処理の負担及び構造化されたフォーマット
が必要とされる。
すべての非自明の通信文は比較的に小さな数のメツセー
ジ特定化項目(用語、単語)によってトビツク的に指定
される事が知られている。
これ等はビジネスのボイラ板(日常の)通信文を著者が
伝えたいと欲しているメツセージに変換する語である。
これ等の用語は主に数字、固有名詞、アクロニム(頭文
字の組合せ語)、名詞及び単一目的の形容詞より成る。
質問の目的のための文書の任意の意味のある記述は文書
にその特定の意味を与えるこれ等の用語の少なく共成る
ものを含まなければならない。
本発明は文書中のメツセージ特定化用語を信頼性をもっ
て探知し、これ等の用語を使用して文書の抜粋(アブス
トラクト)を形成する技法を含む。
この技法は米国特許第3995254号中に開示された
データ記憶技法を使用し、本明細書においては綴りの検
証のための語の辞書を記憶するものとして組込まれてい
るが、他の辞書記憶技法が同様に使用され得る。
さらに辞書メモリ中の特定化用語は名詞もしくは単一の
目的の形容詞としてそれ等の状態を示すためにデータ・
ビットが付加されている。
数字、固有名詞及びアクロニム(頭文字の組合せ語)は
辞書メモリ中には記憶されない。
文書のテキストが辞書メモリの内容と比較され、辞書中
の名詞及び単一目的を有する形容詞と一致する語及び辞
書メモリ中において発見されない語(固有名詞、数字、
アクロニム)が累積され、文書の抜粋が形成される。
抜粋中の各語は次に語索引ファイル中に記憶される。
語索引ファイル中の記録は語、談話が生じた文書の同定
コード、夫々の文書中で談話が発生する回数、語が数字
であるか、固有名詞/アクロニム、名詞/単一の目的を
有する形容詞であるかどうかについての表示子及び語が
見出し、末尾、本文もしくは文書のコピー・リストのど
れに生ずるかについての表示子を含む。
(単一の目的を有する形容詞とはその主要目的が例えば
重い、丸い、古い、新らしい、色が赤い、青い等の如き
形容詞的成分のものである。
)文書の検索のための入力質問中の語は語索引ファイル
に対して比較される。
語索引ファイル中の成る語はいくつかの文書中に生じ得
るので、語索引ファイル中の語と共に記憶される情報に
基づいて各語に重み係数が与えられる。
検索の質問中の任意の語を含む各文書に対して成る得点
が累積され、最大の得点を有する文書が検査のためにユ
ーザに提示される。
第1図を参照するに、文書記憶兼検索装置のブロック図
が示されているが、これは命令を解読及び実行し得る汎
用型のプロセッサ即ちCPU10ヲ含ム。
プロセッサ10はバス13を介して、その動作を制御し
、本発明を定義する命令を含むメモリ14と2方向通信
している。
プロセッサ10は同様にすべての名詞及び単一目的の形
容詞がその様に記された品詞辞書を含むメモリ8とバス
7を介して2方向通信する。
メモリ8は数字、アクロニムもしくは固有名詞を含まな
い。
プロセッサ10は同様に文書及びキイ語索引ファイルを
記憶させるために使用される主メモリ12とバス11を
介して2方向通信する。
命令メモリ14及び辞書メモリ8は読取り専用型もしく
はランダム・アクセス型のメモリであるが、主メモリ1
2はランダム・アクセス記憶装置である。
文書から抜粋し記憶するために、入力レジスタ16はバ
ス17を介してソース(図示されず)からテキスト語を
受取る。
ソースはキイボード、磁気テープ読取器、磁気カード/
ディスク/ディスケット・ファイル等を含む種々の入力
装置の任意のものであり得る。
テスト語は命令メモリ14中に記憶された命令に従って
処理されるためにバス15を介してレジスタ16からプ
ロセッサ10に提示される。
レジスタ16のテキスト内容に遂行される処理(抜粋)
の結果はバス11を介して主メモリ12に転送される。
文書検索の場合には、入力レジスタ16はバス17を介
してソース(図示されず)質問テキストステートメント
を受取る。
ソースはキイボード、スクリプト族もしくは特別に構成
された押ボタン型式のパッドの如き種々の入力装置の任
意のものであり得る。
質問テキスト・ステートメントはバス15を介してレジ
スタ16からプロセッサ10に提示され、命令メモリ1
4中に記憶された命令に従って処理するためにバス15
を介してレジスタ16からプロセッサ10に提示される
命令メモリ14からの命令の制御の下にプロセッサ10
はバス7を介して辞書メモリ8の内容と通信し、バス1
1を介してメモリ12と通信し、文書検索親近性評価を
メモリ12の内容に対して遂行する。
選択された文書はメモリ12からバス11及びバス9を
介して出力レジスタ18に転出され、出力レジスタ18
からバス19を介して表示装置、プリンタもしくはボイ
スコーダ等を含む種々の形式を取り得る利用装置へ送ら
れる。
選択された文書は次いで検査のためにユーザに提示され
る。
本発明の好ましい実施例は第1図に示された文書記憶兼
探索システムに対する文書からの抜粋、記憶及び検索の
ための質問ステートメントの親近性比較を制(財)する
命令もしくはプログラムの組より成る。
第2図を参照するに文書を抜粋及び記録するためのプロ
グラムの流れ図が示されている。
オンライン・メモリを有するデータ処理システムにおい
ては記憶される各記録に一意的な識別子コードもしくは
番号を割当てる事が標準のなられしである。
このコードは通常長さが8字であるが、長さが制限され
ているので記録の内容を説明した情報を含まない。
識別子コードは、ユーザが識別子コードと特定の記録を
連想させる事が出来る場合に記録をアクセスするのに有
用である。
しかしながらこの記録探知技法はデータベースが大きく
なって、数人のユーザが同一記録をアクセスする様な場
合には非実用的になる。
通常記録はそれが存在する限り同一識別子コードを保持
し、記録の修正は同一識別子コードの下にメモリ内で記
録を置換えている。
文書を抜粋し記憶するためのプログラムは識別子コード
を抜粋文書の1部として含ませる様に利用している。
文書がシステム(第2図)に読込まれる場合には、文書
識別子コード即ち番号がブロック20で読取られ、すで
にシステム中に記憶されている語索引ファイルと比較さ
れて、その文書に対する抜粋が現在記憶されている事を
示して一致が発見されたかどうかが決定される。
後出の第1表は文書を抜粋するためのプログラム・ルー
チンを示す。
もし文書番号(識別子コード)が抜粋ファイル中に存在
する事が発見されると、プログラム・ルーチンは第2図
の流れ図のブロック22として示された第2表(後出)
の抜粋削除サブルーチンに分岐する。
第2表の抜粋削除サブルーチンは語索引ファイルから抜
粋中の語の発生を削除する事によってメモリから抜粋を
削除する。
語索引ファイルの構成については以下詳細に説明される
現存の抜粋をメモリから削除する事、即ちその文書番号
を有する語が語索引ファイル中に記憶されていない事に
より、文書が抜粋を形成するためにブロック23で処理
される。
第1表のプログラム・ルーチンを参照するに、文書中の
次の語がテストされてカーボン・コピー(CC)リスト
が続くかどうかが決定される。
もしCCが続かなければプログラムはこの語が文書の抜
粋中に含まれるべきかどうかを決定するために第3表(
後出)中の語の抜粋処理サブルーチンに分岐する。
上述の如く、成る語が抜粋中に含まれるかどうかを決定
するための規準はその語がメツセージ特定化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクロニムもしくは数字であるかどうかにある。
第3表のプログラム・ルーチンはこの語を辞書メモリの
内容と比較する。
もしこの語が辞書メモリ中に発見されて、これが名詞も
しくは単一目的形容詞でない的は、無視される。
辞書メモリ中の語が名詞であるか単一目的形容詞である
かどうかについての決定は辞書メモリ8の作成準備の時
になされ、名詞もしくは単一目的形容詞として決められ
た語にはビット・コードが付せられる。
もし語が名詞もしくは単一目的形容詞であると決定され
ると、゛通常″′の語である事を示すためにコード・ビ
ットもしくはフラグが談話に付加される。
もし語が辞書メモリ8中にないと、アクロニムもしくは
固有名詞であるとしてその状態を示すために語にコード
・ビットもしくはフラグが付される。
アクロニム及び固有名詞は名詞及び単一目的の形容詞よ
りもメツセージ特定化用語としてより影響力を有すると
考えられるので以下明らかな如く文書探索のためにより
有用である。
第3表の語処理ルーチンはプロセッサ10を制御して語
索引ファイル中に記憶させるため各抜粋の用語の1つの
コピーだけを保存する。
しかしながら語処理ルーチンは語に対し、その語が現わ
れる文書中の行の番号及び文書中にその語が現われる回
数を付加する。
文書探索に対して後述される如く、文書中の語の発生頻
度及び発生の場所は文書を検索する際の質問語としての
語の価値を決定する。
語処理サブルーチンの完了に伴い、制御は第1表の抜粋
ルーチンに戻り、文書中の各語に対して諸ルーチンが繰
返される。
抜粋ルーチンは文書中の頁数に対する計数を累積する。
文書の終りに近づく時、文書の本文の終りから5行目を
決定する計数がカウントされ、第4表(後出)の抜粋終
り処理サブルーチンが選択される。
抜粋終り処理サブルーチンはプロセッサ10を制御して
第3表の語処理サブルーチンによって保存されたすべて
の語、文書中の語の数の計数及び文書識別子番号を含む
抜粋記録を形成する。
抜粋終り処理サブルーチンは同様に談話、“通常語であ
るか゛アクロニム/固有名詞″であるかを示すコード、
文書番号、文書中の頁数、文書中の談話の発生頻度、語
が前文(最初の10行)、末文(最後の5行)、コピー
・リストもしくは本文のいずれに生じたかを示すコード
を含む語索引記録を形成する。
語索引ファイル中の語は談話に対する記録がすでに語索
引ファイル中に現われたかを見るために探索される。
もし現われておれば、語の複製(重複)が語索引ファイ
ル中に現われない様に、記録は文書番号、頻度計数及び
コードを付加する事によって更新される。
第4表の抜粋終り処理サブルーチンの完了に続き制御は
抜粋処理を終了させる第1表の抜粋ルーチンに戻される
システム中に記録された文書を検索するためには、質問
者は該文書のための質問をシステムに導入する。
この事は例えばキイボードを介して行なわれる。
本発明のシステムの好ましい実施例で使用される質問は
自然言語ステートメントもしくはその項目を記述した語
の連糸であり得る。
探索アーギュメントは質問語を語索引ファイルに対して
テストする事によって創生される。
多くの場合に探索アーギュメント中の語はいくつかの文
書中のキイワード記録(抜粋)中に生ずる。
競合する文書間により良い弁別を与えるために異なるキ
イワードには異なる重みが与えられる。
重み付けの規準は次の如き規則に従って適用される。
1、数字キイワードに対する一致はアルファベット・キ
イワードに対するよりもより大きな重みが与えられる。
2、固有名詞もしくはアクロニムであるキイワードに対
する一致は辞書メモリ中に見出される名詞もしくは単一
目的形容詞に対する一致よりも大きな重みが与えられる
3.1つのキイワードに与えられる重みは文書中で生ず
る談話の回数を文書中の頁数の対数で割ったものに比例
する。
4、文書の最初の10行中において生ずるキイワードの
一致はテキストの本文の中央におけるキイワードの一致
よりもより大きな重みが与えられる。
5、テキストの最後の5行中のキイワードで生ずる一致
は、テキストの中央部中のキイワードに対する一致より
も大きな重みが与えられるが、最初の10行中の一致よ
りも小さな重みが与えられる。
6、キイワードの重みはこの語が月もしくは年の名称で
ある時に増大する。
7、キイワード一致の重みは全ファイル中の文書の本文
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
これ等の一般的規則の背後にある原理は最も扶養の特定
の意味を有するキイワードを含む一致に対して最大の重
みを与える事にある。
特定の名称数字及び日付けは極めて特殊な意味を有し、
従ってこれ等は大きく重み付けられるものと仮定される
同様に最も特定な事柄(項目)は通信文の始めか終りに
述べられているものと仮定される。
従ってこれ等の領域に発生する語は同様により大きな重
みが与えられる。
上述の一般的規則を満足する式の一例は次の如きもので
ある。
ここで Fl、1−j番目の文書中に現われる第1番目のキイワ
ードの回数 A1−1番目のキイワードがアクロニムもしくは固有名
詞である場合の2値表示子 K1−6番目のキイワードが最初の10行に生じた場合
の2値表示子 Li=i番目のキイワードが数字である場合の2値表示
子 Ei−1番目のキイワードが最後の5行に生じた場合の
2値表示子 Hi=i番目のキイワードが辞書メモリ中に名詞もしく
は単一の目的の形容詞として生 ずる2値表示子 M i=i番目のキイワードが月である場合の2値表示
子 Yi=i番目のキイ・ワードが年である場合の2値表示
子 J=i番目のキイワードを含む文書の数 第3図を参照するに、文書のための質問を処理する流れ
図が示されている。
ブロック30において、ユーザの質問はプロセッサ10
(第1図)へバス15を介して入力レジスタ16から入
力される。
後出の第5,6及び第7表は上述の一般的規則に従うユ
ーザの質問を処理するためのプログラム・ルーチンを示
す。
第5表の質問ルーチンは第3図の流れ図のブロック31
中に示された如く質問語を語索引ファイルの内容とを比
較する。
語索引ファイルと一致する質問語は第6表の質問語処理
サブルーチンによって流れ図のブロック32で処理され
る。
各質問語はこれが月、年、数字、アクロニム、もしくは
通常の語(名詞もしくは単一目的形容詞)であるかどう
かについての決定のためにテストされる。
第6表のサブルーチンは同様にもし語が文書の最初の1
0行中、最後の5行中もしくは文書中に2回以上生じた
事を語索引ファイル中の表示子が示すと重み因子を加え
る。
もし語が文書のコピー・リスト中に生じ、1つの文書中
に2回以上生じると、談話の価値は減少される。
各語に対する値の合計が計算され、何等かの一致を示す
各文書番号に対する語索引ファイル中の語と一致するす
べての質問語の合計が累積される。
語に対する検索値及び文書に対する検索値を計算する段
階は第3図のブロック33及び34中に示されている。
質問中のすべての語の処理に続いて、第5表の質問ルー
チンは後出の第7表の月/年の評価サブルーチンに分岐
する。
第7表のサブルーチンは質問中の年及び/もしくは月と
一致する年及び/もしくは月を含む各文書に対する検索
値を増大する。
第7表のサブルーチンはその検索値が計算された最高の
検索値の25係内にある文書を主メモリ12から出力レ
ジスタ18に出力する様に動作する。
次に制御は第5表の質問ルーチンに戻され、質問処理が
終了される。
【図面の簡単な説明】
第1図は本発明のシステムの概略図である。 8・・・・・・辞書メモリ、10・・・・・・プロセッ
サ、12・・・・・・主メモリ、13・・・・・・命令
メモリ、16・・・・・・入力レジスタ、18・・・・
・・出力レジスタ。 第2図は文書を抜粋し記憶する際の動作の流れ図である
。 第3図はユーザの質問に応答して文書を検索する際のシ
ステムの動作の流れ図である。

Claims (1)

  1. 【特許請求の範囲】 1 機械読取り可能な形式をなす文書から抜粋を作成す
    るため、 文書作成に際し通常使用される言語の単語の辞書及び該
    単語のうちの1部を選択された品詞のものであるとして
    同定するコードと共に記憶する装置と、 機械読取り可能な形式で上記単語より戊り、識別コード
    を有する入力文書を受取る装置と、メモリと、 上記記憶する装置、上記受取る装置及び上記メモリに接
    続された制御装置であって、 (a)、上記入力文書の単語を上記辞書の単語と比較す
    る装置、 (b)、上記入力文書から比較の結果が一致しない単語
    を選択する装置、 (C)、上記入力文書から比較の結果が一致し、且つ言
    語の選択された品詞としてコード化されている単語を選
    択する装置、 (d)、上記入力文書中から選択された単語の発生頻度
    を計数するための装置、 (e)、上記入力文書中の頁数を計数する装置、(f)
    、上記入力文書中の選択された単語の発生個所を計算す
    る装置並びに、 (g)、上記メモリ中に文書識別コード、単語、選択さ
    れた品詞コード、発生頻度計数、文書中の頁数及び発生
    位置コードを含む各選択された単語の記録を記憶する装
    置 を含むものとより成る文書抜粋記憶装置。
JP55175926A 1979-12-28 1980-12-15 文書抜粋記憶 Expired JPS5828616B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/107,994 US4358824A (en) 1979-12-28 1979-12-28 Office correspondence storage and retrieval system

Publications (2)

Publication Number Publication Date
JPS5850071A JPS5850071A (ja) 1983-03-24
JPS5828616B2 true JPS5828616B2 (ja) 1983-06-17

Family

ID=22319639

Family Applications (2)

Application Number Title Priority Date Filing Date
JP55175926A Expired JPS5828616B2 (ja) 1979-12-28 1980-12-15 文書抜粋記憶
JP56011752A Granted JPS5844536A (ja) 1979-12-28 1981-01-30 文書検索装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP56011752A Granted JPS5844536A (ja) 1979-12-28 1981-01-30 文書検索装置

Country Status (5)

Country Link
US (1) US4358824A (ja)
EP (1) EP0032194A1 (ja)
JP (2) JPS5828616B2 (ja)
CA (1) CA1241122A (ja)
ES (1) ES498162A0 (ja)

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201140A (ja) * 1982-05-20 1983-11-22 Toshiba Corp 文書作成装置
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4633393A (en) * 1983-10-21 1986-12-30 Storage Technology Partners Ii Generic key for indexing and searching user data in a digital information storage and retrieval device
US4611280A (en) * 1984-03-12 1986-09-09 At&T Bell Laboratories Sorting method
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
JPS61243531A (ja) * 1985-04-22 1986-10-29 Nec Corp 情報検索方式
US6182062B1 (en) 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
US4870568A (en) * 1986-06-25 1989-09-26 Thinking Machines Corporation Method for searching a database system including parallel processors
US5021997A (en) * 1986-09-29 1991-06-04 At&T Bell Laboratories Test automation system
JPS63120362A (ja) * 1986-11-10 1988-05-24 Brother Ind Ltd スペルチエツク機能付文書処理装置
US4949302A (en) * 1986-11-17 1990-08-14 International Business Machines Corporation Message file formation for computer programs
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
EP0280866A3 (en) * 1987-03-03 1992-07-08 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JPS6446831A (en) * 1987-08-17 1989-02-21 Nippon Telegraph & Telephone Automatic key word extracting device
GB8719572D0 (en) * 1987-08-19 1987-09-23 Krebs M S Sigscan text retrieval system
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
US4908758A (en) * 1987-12-17 1990-03-13 Sanders Michael J Method of operating a computer for rank ordering and weighting category alternatives
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
CA1318403C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for extracting keywords from text
CA1318404C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for indexing files in a computer system
US5993048A (en) * 1988-12-08 1999-11-30 Hallmark Cards, Incorporated Personalized greeting card system
US5142678A (en) * 1988-12-21 1992-08-25 International Business Machines Corporation Method for a requesting user to use a marker to associate a document with an end user action
US5303361A (en) * 1989-01-18 1994-04-12 Lotus Development Corporation Search and retrieval system
US5829002A (en) * 1989-02-15 1998-10-27 Priest; W. Curtiss System for coordinating information transfer and retrieval
US5167011A (en) * 1989-02-15 1992-11-24 W. H. Morris Method for coodinating information storage and retrieval
US5109519A (en) * 1989-03-28 1992-04-28 Wang Laboratories, Inc. Local computer participating in mail delivery system abstracts from directory of all eligible mail recipients only served by local computer
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
US5444840A (en) * 1990-06-12 1995-08-22 Froessl; Horst Multiple image font processing
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
US5309359A (en) * 1990-08-16 1994-05-03 Boris Katz Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval
US5404295A (en) * 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5559714A (en) * 1990-10-22 1996-09-24 Hallmark Cards, Incorporated Method and apparatus for display sequencing personalized social occasion products
US5546316A (en) * 1990-10-22 1996-08-13 Hallmark Cards, Incorporated Computer controlled system for vending personalized products
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5557794A (en) * 1991-09-02 1996-09-17 Fuji Xerox Co., Ltd. Data management system for a personal data base
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5375235A (en) * 1991-11-05 1994-12-20 Northern Telecom Limited Method of indexing keywords for searching in a database recorded on an information recording medium
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5438657A (en) * 1992-04-24 1995-08-01 Casio Computer Co., Ltd. Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document
JPH0660064A (ja) * 1992-08-05 1994-03-04 Brother Ind Ltd 英文レター用自動編集装置
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
JPH06176069A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 文字列検索結果表示装置
JPH06176065A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 学術論文データ検索装置
JP3132738B2 (ja) * 1992-12-10 2001-02-05 ゼロックス コーポレーション テキスト検索方法
US5860075A (en) * 1993-06-30 1999-01-12 Matsushita Electric Industrial Co., Ltd. Document data filing apparatus for generating visual attribute values of document data to be filed
US6044365A (en) * 1993-09-01 2000-03-28 Onkor, Ltd. System for indexing and retrieving graphic and sound data
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5517407A (en) * 1994-06-30 1996-05-14 In-Dex Device for including enhancing information with printed information and method for electronic searching thereof
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US5726898A (en) * 1994-09-01 1998-03-10 American Greetings Corporation Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements
US5550746A (en) * 1994-12-05 1996-08-27 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments
US5768142A (en) * 1995-05-31 1998-06-16 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings
US5875110A (en) * 1995-06-07 1999-02-23 American Greetings Corporation Method and system for vending products
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
JP3656315B2 (ja) * 1996-04-03 2005-06-08 松下電器産業株式会社 英文要約装置
US5832499A (en) * 1996-07-10 1998-11-03 Survivors Of The Shoah Visual History Foundation Digital library system
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
DE19645128C2 (de) 1996-11-04 1999-02-11 Anja David Verfahren zum Verwalten von Dokumenten sowie Gerätetreiber zur Durchführung des Verfahrens
US6199073B1 (en) * 1997-04-21 2001-03-06 Ricoh Company, Ltd. Automatic archiving of documents during their transfer between a peripheral device and a processing device
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6353831B1 (en) 1998-11-02 2002-03-05 Survivors Of The Shoah Visual History Foundation Digital library system
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US6640222B1 (en) * 2000-09-29 2003-10-28 Motorola, Inc. Method for selecting an information unit among conflicting information units based on context fields by a user device
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US7117200B2 (en) * 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US7165067B1 (en) * 2003-07-10 2007-01-16 Sun Microsystems, Inc. Method, system, and program for character set matching
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060098900A1 (en) * 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
USRE50599E1 (en) 2004-04-01 2025-09-23 Kyocera Corporation Search engines and systems with handheld document data capture devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7389299B2 (en) * 2004-09-02 2008-06-17 International Business Machines Corporation Document content analysis technology for reducing cognitive load
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US20070067291A1 (en) * 2005-09-19 2007-03-22 Kolo Brian A System and method for negative entity extraction technique
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
KR101254362B1 (ko) 2007-05-18 2013-04-12 엔에이치엔(주) 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템
WO2008143407A1 (en) * 2007-05-18 2008-11-27 Nhn Corporation Method and system for providing keyword ranking using common affix
US20090228811A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for processing a plurality of documents
US20090228442A1 (en) * 2008-03-10 2009-09-10 Searchme, Inc. Systems and methods for building a document index
US20090228817A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for displaying a search result
US8745502B2 (en) * 2008-05-28 2014-06-03 Snibbe Interactive, Inc. System and method for interfacing interactive systems with social networks and media playback devices
WO2010096191A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Automatically capturing information, such as capturing information using a document-aware device
US8902451B2 (en) * 2009-02-25 2014-12-02 Xerox Corporation Method and system for automatically generating a copy of a print stream
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
EP2406767A4 (en) 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US9043336B2 (en) * 2009-08-07 2015-05-26 Applied Materials, Inc. Methods and systems for global knowledge sharing to provide corrective maintenance
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9916396B2 (en) * 2012-05-11 2018-03-13 Google Llc Methods and systems for content-based search
US20140215472A1 (en) * 2013-01-29 2014-07-31 Hewlett-Packard Development Company, L.P. Task management
US11610107B2 (en) 2018-07-06 2023-03-21 Global Elmeast Inc. Methodology to automatically incorporate feedback to enable self learning in neural learning artifactories

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3702010A (en) * 1970-10-12 1972-10-31 Bell Telephone Labor Inc Information retrieval strategy
US3947825A (en) * 1973-04-13 1976-03-30 International Business Machines Corporation Abstracting system for index search machine
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
US4099242A (en) * 1976-11-03 1978-07-04 Houston George B One-pass general associative search processor

Also Published As

Publication number Publication date
JPS6330648B2 (ja) 1988-06-20
EP0032194A1 (en) 1981-07-22
ES8206059A1 (es) 1982-08-01
JPS5850071A (ja) 1983-03-24
CA1241122A (en) 1988-08-23
US4358824A (en) 1982-11-09
JPS5844536A (ja) 1983-03-15
ES498162A0 (es) 1982-08-01

Similar Documents

Publication Publication Date Title
JPS5828616B2 (ja) 文書抜粋記憶
US6523030B1 (en) Sort system for merging database entries
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
EP0155284B1 (en) Indexing subject-locating method
US5794236A (en) Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US5819265A (en) Processing names in a text
US5940624A (en) Text management system
US6286000B1 (en) Light weight document matcher
Sievert et al. Indexing consistency in information science abstracts
US6505198B2 (en) Sort system for text retrieval
Salton Information dissemination and automatic information systems
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JPH0991297A (ja) 文字列検索方法及び装置
JP3804609B2 (ja) 検索チューニング方法および情報検索システム
Salton A blueprint for automatic indexing
EP0592402B1 (en) A text management system
JPH02253474A (ja) テキストベース検索方法
Tudhope Query based stemming
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Driscoll et al. The QA system
Neufeld et al. Machine-aided title word indexing for a weekly current awareness publication
Slack et al. Subject searching on British OPACs: problems and progress
Olle et al. A solution to the ASIS file management exercise using RCA's UL/1