JPH03116375A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH03116375A
JPH03116375A JP1254579A JP25457989A JPH03116375A JP H03116375 A JPH03116375 A JP H03116375A JP 1254579 A JP1254579 A JP 1254579A JP 25457989 A JP25457989 A JP 25457989A JP H03116375 A JPH03116375 A JP H03116375A
Authority
JP
Japan
Prior art keywords
keyword
word
information
compound word
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1254579A
Other languages
English (en)
Other versions
JP2828692B2 (ja
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1254579A priority Critical patent/JP2828692B2/ja
Publication of JPH03116375A publication Critical patent/JPH03116375A/ja
Application granted granted Critical
Publication of JP2828692B2 publication Critical patent/JP2828692B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書や画像、さらには音声などの情報をフリ
ー・キーワードと対応付けて蓄積させておき、フリー・
キーワードの入力により対応する情報を取り出すような
情報検索装置に関する。
従来の技術 大量の情報から希望する情報を検索する場合、予め個々
の情報に対してキーワードを付けて蓄積しておき、検索
時にキーワードを含む条件式を入力し、それにマツチン
グするキーワードを持つ情報を出力する、というのが−
膜内である。この方式はキーワードの与え方により2通
りに分けられる。一つは、統制キーワード方式と称され
、利用できるキーワードを限定しておく方式である。も
う一つは、フリー・キーワード方式と称され、利用でき
るキーワードを限定しない方式である。両者には長所・
短所が各々あるが、フリー・キーワード方式には入力し
たキーワードと情報に付けられているキーワードとのマ
ツチングの問題がある。
例えば、「公開特許情報」というキーワードが情報に付
けられていて、利用者が「公開特許」というキーワード
を入力した場合を考える。この場合、単純に2つのキー
ワードの表記が一致するかどうかを調べるだけではマツ
チングするとは判定できない。この問題を解決するため
に、従来、例えば[新聞記事データベースにおけるキー
ワード自動抽出」 (情報管理Vo1.321h4. 
July1989)に示される方法がある。
この方法では、まず、登録すべきキーワードを単純語(
単語)に分割し、隣合った複数の単純語を組合せて新し
い語を作成し、それを全て登録する。例えば、あるキー
ワードがA、B、C,Dの4つの単純語からなっている
場合、登録する語は、ABCD (即ち、そのキーワー
ド自身)。
ABC,BCD、AB、BC,CD、A、B。
C,D の10個となる。具体的に、「公開特許情報」をキーワ
ードとする場合は、「公開特許情報」 「公開特許」 
「特許情報」 「公開」 「特許」 「情報」の6語を
登録する。こうしておけば、利用者が「公開特許」と検
索条件を指定してもマツチングをとることができる。
発明が解決しようとする課題 ところが、この方式の場合、n個の単純語からなる複合
語をキーワードとして登録する場合、n(n+1)72
語を登録する必要があり、キーワードの保持に必要なメ
モリ領域が大きくなってしまう。
また、例えば「騒音防止条例」というキーワードが登録
されている時、「騒音条例」というキーワードで検索し
てもマツチングしないと判定され、希望の情報を検索入
手できないものである。これは、複合語を構成する隣合
った単純語の組合せだけしか登録されていないためであ
る(登録されるのは、「騒音防止条例」 「騒音防止」
 「防止条例」「騒音」 「防止」 「条例」の6語で
ある)。
このような2つの問題を解消するには、複合語を構成す
る単純語の全ての組合せを登録することが考えられる。
例えば、「騒音防止条例」の・場合、上記の6語に加え
、「騒音条例」という語も登録するというものである。
しかし、これではn語の単純語からなる複合語を登録す
る場合、(2°−1)語を登録する必要があり、上記従
来例のものよりはるかに大きなメモリ領域が、キーワー
ド保持に必要となってしまい、現実的でない。
課題を解決するための手段 検索対象となる情報を格納した情報格納手段と、単語の
表記をキーとしてその単語の文法的属性を出力する単語
辞書と、この単語辞書を参照してキーワードが複合語か
単純語かを判定する複合語判定手段と、複合語を個々の
単純語に分割する複合語分割手段と、前記情報格納手段
に格納された情報に対してキーワードを付与するキーワ
ード付与手段と、キーワードと対応する情報の組を格納
したキーワード保持手段と、キーワードと演算子との組
合せなどによる検索条件を入力するための検索条件入力
手段と、検索条件に適合するキーワードを持つ情報を検
索する情報検索手段とよりなり、キーワードが複合語判
定手段により複合語と判定された時には複合語分割手段
により分割されたその複合語の全ての単純語をキーワー
ド付与手段により各々キーワードとして付与し、キーワ
ード保持手段に格納させるようにした。
作用 複合語であるキーワードを付与する場合、そのキーワー
ドを構成する単純語に分割し、全ての単純語をキーワー
ドとして保持させることにより、複合語を構成する単純
語の数だけの登録で済むというメモリ容量の少ないもの
にして、後は検索条件に依存する、柔軟なキーワードの
マツチングが可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
まず、文書や画像、音声などの検索の対象となる情報を
格納しておく情報格納手段1が設けられている。この情
報格納手段1としては大量の情報を格納するため、一般
にはハードディスクや光ディスクが用いられる。
ついで、情報格納手段1に格納された情報に対し、その
情報の内容を表現するキーワードを付与するキーワード
付与手段2が設けられている。
般に、一つの情報に対して複数のキーワードが付与され
るが、そのキーワードはキーボードを通じて人間が付与
するのが普通である。しかし、情報格納手段1に格納さ
れている情報が文書の場合には、機械的(自動的)にキ
ーワードを付与することも可能である。この場合には、
例えば、文を単語単位に分割し、不用語と呼ばれるキー
ワードとなりにくい単語を除去し、残った単語をキーワ
ードとすることになる。
また、付与されたキーワードとそのキーワードが対応す
る情報との組を記憶するキーワード保持手段3が設けら
れている。ここに、一つのキーワードに複数の情報が対
応するのが一般的である。
また、キーワードはその文字コードに従って配列されて
おり、ある文字列が与えられた場合、その文字列がキー
ワードとして保持されているかどうかを、高速に判定で
きるように構成されている。
一方、検索したい情報の内容を、キーワードと演算子と
の組合せにより指定する検索条件入力手段4が設けられ
ている。演算子としては、次のようなものがある。
A and B   : Aというキーワードと8とい
うキーワードの両方が付いている 情報 AorB   :AというキーワードとBというキーワ
ードの少なくとも一方が 付いている情報 not A    : Aというキーワードの付いてい
ない情報 演算子は、((A and B) or C)というよ
うに、組合せて使用することもできる。
ついで、この検索条件入力手段4により入力された検索
条件を解釈し、前記キーワード保持手段3を調べて条件
に当てはまる情報を検索結果として取出す情報検索手段
5が設けられている。
また、キーワードとなり得る単語を集めた単語辞書6が
設けられている。この単語辞書6は単語の表記をキーと
してその単語の文法的属性、ここでは品詞を取出させる
もので、第2図に例示するように、各単語に対して表記
と品詞との対が格納されている。品詞には、名詞と接頭
辞と接尾辞との3種類がある。接頭辞は単独で用いられ
ることがなく、必ず名詞か接頭辞が後続する。接尾辞も
単独で用いられることがなく、必ず名詞か接尾辞に後続
する。単語は、表記の文字コードに従って配列されてお
り、ある単語が単語辞書に登録されているかどうかと、
登録されている場合にはその品詞を高速に判定できるも
のである。
さらに、前記キーワード付与手段2により付与されたあ
るキーワードが複合語であるが単語のみの単純語かを判
定する複合語判定手段7が設けられている。この判定は
、次の手順で行う。
■ そのキーワードが漢字以外の文字(カタカナ、アル
ファベットなど)からなる場合は複合語ではない。
■ そのキーワードが2文字以内なら複合語ではない。
■ そのキーワード全体が単語辞書6に含まれていれば
複合語ではない。
■ 上記のどれにも当てはまらない場合は複合語である
この複合語判定手段7により複合語であると判定された
場合に、その複合語を個々の単純語に分割する複合語分
割手段8が設けられている。単純語とは、単語辞書6に
収録されている単語レベルの語をいう。複合語の分割の
制限として、■ 複合語の先頭は名詞か接頭辞である。
■ 複合語の末尾は名詞か接尾辞である。
■ 接頭辞の直後には接尾辞は続かない。
という規則がある。分割パターンが複数ある場合は、構
成単語数が最少の分割パターンを採用する。
このようなシステム構成において、本実施例の特徴をな
すキーワードの付与の処理を第3図のフローチャートを
参照して説明する。なお、本実施例では、キーワードは
キーボードを通して人間によって入力される。まず、そ
のキーワードが漢字以外の文字(カタカナ、アルファベ
ットなど)からなる場合はそのまま登録する。また、そ
のキーワードが2文字以内の場合もそのまま登録し、キ
ーワード全体が単語辞書6に含まれている場合もそのま
ま登録する。上記の何れにも当てはまらない場合は、そ
のキーワードを複合語分割手段8により個々の単純語に
分割し、個々の単純語だけを登録する。例えば、「騒音
防止条例」というキーワードが入力され、単語辞書6が
第2図のように構成されている場合、「騒音」 「防止
」 「条例Jという3語だけがキーワードとしてキーワ
ード保持手段3に登録される。つまり、複合語であるキ
ーワードを付与する場合、登録する語はそのキーワード
を構成する単純語の数だけでよく、キーワード保持に必
要なメモリ領域が少なくて済む。また、個々に分割され
た単純語の形でキーワードとして保持されるので、後は
検索条件次第で、柔軟なマツチングが可能となる。
ついで、検索条件を入力する場合の処理を説明する。こ
の場合も、検索条件はキーボードを通して人間によって
入力される。検索条件に含まれる各々のキーワードにつ
いて第4図のフローチャートに示す処理が行われる。ま
ず、そのキーワードが漢字以外の文字(カタカナ、アル
ファベットなど)からなる場合は何もしない(そのまま
にしておく)。また、そのキーワードが2文字以内の場
合も何もせず、キーワード全体が単語辞書6に含まれて
いる場合も何もしない。上記の何れにも当てはまらない
場合は、そのキーワードを複合語分割手段8により個々
の単純語に分割し、個々の単純語を演算子andで連結
した形に置換える。つまり、検索条件に現れるキーワー
ド中に複合語が含まれている場合も、単純語を演算子a
ndで結んだ形に変換するだけで、複合語検索のための
特別の処理を行う必要がなく、高速かつ柔軟なマツチン
グが行える。
例えば、 (「騒音条例J  or  r二重窓」)という検索条
件が入力され、単語辞書6が第2図のように構成されて
いる場合、検索条件は((「騒音J  and  r条
例J)orr二重窓」)というように変形され、情報検
索手段5に渡される。
この結果、「騒音」 「条例」という2つのキーワード
がともに付いている情報と、「二重窓Jというキーワー
ドが付いている情報との両方が得られることになる。
このようにして、本実施例によれば、前述したように「
騒音防止条例」というキーワードを人間が付与した情報
であっても、「騒音条例」というキーワードで検索可能
となる。
発明の効果 本発明は、上述したように構成し、キーワードが複合語
判定手段により複合語と判定された時には複合語分割手
段により分割されたその複合語の全ての単純語をキーワ
ード付与手段により各々キーワードとして付与し、キー
ワード保持手段に格納させるようにしたので、利用者が
適宜検索条件を指定することにより柔軟なキーワードの
マツチングが可能となり、所望の情報検索が可能となり
、このためにも複合語を構成する単純語の数だけの登録
で済みメモリ容量の少ないものでよいものとなる。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図はブロック図、
第2図は単語辞書の構成図、第3図はキーワード付与処
理を示すフローチャート、第4図は検索条件入力処理を
示すフローチャートである。 l・・・情報格納手段、2・・・キーワード付与手段、
3・・・キーワード保持手段、4・・・検索条件入力手
段、5・・・情報検索手段、6・・・単語辞書、7・・
・複合語判定手段、8・・・複合語分割手段 出 願 人 株式会社 リ コ

Claims (1)

    【特許請求の範囲】
  1. 検索対象となる情報を格納した情報格納手段と、単語の
    表記をキーとしてその単語の文法的属性を出力する単語
    辞書と、この単語辞書を参照してキーワードが複合語か
    単純語かを判定する複合語判定手段と、複合語を個々の
    単純語に分割する複合語分割手段と、前記情報格納手段
    に格納された情報に対してキーワードを付与するキーワ
    ード付与手段と、キーワードと対応する情報の組を格納
    したキーワード保持手段と、キーワードと演算子との組
    合せなどによる検索条件を入力するための検索条件入力
    手段と、検索条件に適合するキーワードを持つ情報を検
    索する情報検索手段とよりなり、キーワードが複合語判
    定手段により複合語と判定された時には複合語分割手段
    により分割されたその複合語の全ての単純語をキーワー
    ド付与手段により各々キーワードとして付与し、キーワ
    ード保持手段に格納させるようにしたことを特徴とする
    情報検索装置。
JP1254579A 1989-09-29 1989-09-29 情報検索装置 Expired - Lifetime JP2828692B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1254579A JP2828692B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1254579A JP2828692B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Publications (2)

Publication Number Publication Date
JPH03116375A true JPH03116375A (ja) 1991-05-17
JP2828692B2 JP2828692B2 (ja) 1998-11-25

Family

ID=17266999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1254579A Expired - Lifetime JP2828692B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Country Status (1)

Country Link
JP (1) JP2828692B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH10334101A (ja) * 1997-06-05 1998-12-18 Omron Corp 検索論理式生成装置、検索システムおよび記録媒体
JPH11282880A (ja) * 1998-02-02 1999-10-15 Ricoh Co Ltd 電子化文書検索システムおよび記憶媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH10334101A (ja) * 1997-06-05 1998-12-18 Omron Corp 検索論理式生成装置、検索システムおよび記録媒体
JPH11282880A (ja) * 1998-02-02 1999-10-15 Ricoh Co Ltd 電子化文書検索システムおよび記憶媒体

Also Published As

Publication number Publication date
JP2828692B2 (ja) 1998-11-25

Similar Documents

Publication Publication Date Title
US5383121A (en) Method of providing computer generated dictionary and for retrieving natural language phrases therefrom
Domeij et al. Detection of spelling errors in Swedish not using a word list en clair
JP2872706B2 (ja) 情報検索装置
JPH03116375A (ja) 情報検索装置
JPH056398A (ja) 文書登録装置及び文書検索装置
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH07182333A (ja) 日本語処理装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH0578058B2 (ja)
JPH0140372B2 (ja)
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JPS6057421A (ja) 文書作成装置
JPS58172735A (ja) 日本語入力装置
JPS6389976A (ja) 言語解析装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH01114976A (ja) 文書処理装置の辞書構造
JPS62144269A (ja) 情報検索装置
JPS63192130A (ja) キ−ワ−ド自動抽出装置
JPH0260022B2 (ja)
JPH03127254A (ja) 単語検索装置
JPH10105578A (ja) 点数を利用した類似単語検索方法
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS59103136A (ja) カナ漢字変換処理装置
JP2634596B2 (ja) かな漢字変換装置
JPS59116835A (ja) 短縮入力機能付日本語入力装置