JPS63201824A - 検索キ−ワ−ド選択方式 - Google Patents
検索キ−ワ−ド選択方式Info
- Publication number
- JPS63201824A JPS63201824A JP62033232A JP3323287A JPS63201824A JP S63201824 A JPS63201824 A JP S63201824A JP 62033232 A JP62033232 A JP 62033232A JP 3323287 A JP3323287 A JP 3323287A JP S63201824 A JPS63201824 A JP S63201824A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- search
- keyword
- search keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
不発明は自然暗による要求仕様文を解析し、既存の仕様
書を検索し、修正・再利用して新規ソフトウェアを開発
する場合に好適な、辞書情報利用による検索キーワード
選択方式に関する。
書を検索し、修正・再利用して新規ソフトウェアを開発
する場合に好適な、辞書情報利用による検索キーワード
選択方式に関する。
従来、日本語文からのキーワード抽出については、電子
通信学会論文誌’82/10 vol、 J65−D
410 (1982年)第1195頁から第1202
頁において論じられている。
通信学会論文誌’82/10 vol、 J65−D
410 (1982年)第1195頁から第1202
頁において論じられている。
上記従来技術でのキーワード抽出方法は、詳細な構文解
析を行ない、構文における単語の役割によりキーワード
を取シ出すもので、取シ出したキーワードの選択につい
ては、接頭語、接尾語などの不要語を除くだけで、その
他の単語については考蕉されていなかったので、有効な
キーワードかどうかの判定ができず、人間が判断するか
、全てをキーワードとするか否かを決めておくか、のど
ちらかであり、新しいシステムに対する要求仕様文に現
れる多くの未登録語には対応できず、既存の仕様書を検
索する上で、検索キーワードの性能に問題があった。
析を行ない、構文における単語の役割によりキーワード
を取シ出すもので、取シ出したキーワードの選択につい
ては、接頭語、接尾語などの不要語を除くだけで、その
他の単語については考蕉されていなかったので、有効な
キーワードかどうかの判定ができず、人間が判断するか
、全てをキーワードとするか否かを決めておくか、のど
ちらかであり、新しいシステムに対する要求仕様文に現
れる多くの未登録語には対応できず、既存の仕様書を検
索する上で、検索キーワードの性能に問題があった。
本発明の目的は、用語辞書に一単語として登録されてい
ない複合語や、未登録語を含む複合語についても、複合
語を構成している個々の語についての情報と、その前後
の語との関係により、検索キーワードであるかどうかの
判定ができる方式を上記目的を達成するために、本発明
は、要求仕様文に記述されると思われる個々の語につい
て、その語が単独に使用されたときに検索キーワードと
なるか、複合語の中のどんな位置に現れた場合に検索キ
ーワードとなるかというキーワード情報を記述した用語
辞書を作成しておき、用語辞書に一単語として登録され
ていない複合語や、未登録語を含む複合語についても、
複合語を構成している個々の語のうち、どれか一つでも
線画するキーワード情報ケ持っている語が見つかれば、
そのキーワード情報と、前後の語との関係から検索キー
ワードかどうかt判定することに特徴がある。
ない複合語や、未登録語を含む複合語についても、複合
語を構成している個々の語についての情報と、その前後
の語との関係により、検索キーワードであるかどうかの
判定ができる方式を上記目的を達成するために、本発明
は、要求仕様文に記述されると思われる個々の語につい
て、その語が単独に使用されたときに検索キーワードと
なるか、複合語の中のどんな位置に現れた場合に検索キ
ーワードとなるかというキーワード情報を記述した用語
辞書を作成しておき、用語辞書に一単語として登録され
ていない複合語や、未登録語を含む複合語についても、
複合語を構成している個々の語のうち、どれか一つでも
線画するキーワード情報ケ持っている語が見つかれば、
そのキーワード情報と、前後の語との関係から検索キー
ワードかどうかt判定することに特徴がある。
各単語について、単独に使用されたとき検索キーワード
となるか、汲合語の中のどんな位置に現れた場合に検索
キーワードとなるかというキーワード情報を記述した用
語辞書は、一つの単語についてのキーワード情報だけで
なく、複合語を構成している個々の単語についても、そ
れぞれのキーワード情報を提供するように動作する。
となるか、汲合語の中のどんな位置に現れた場合に検索
キーワードとなるかというキーワード情報を記述した用
語辞書は、一つの単語についてのキーワード情報だけで
なく、複合語を構成している個々の単語についても、そ
れぞれのキーワード情報を提供するように動作する。
それによって、自然語の要求仕様文から抽出−した検索
キーワード候補の単語について、有効な検索キーワード
かどうかを判定する場合において、その単語が用語辞書
に未登録の複合語であっても、複合語を構成している個
々の語についてのキーワード情報と前後の飴との関連に
よシ、複合語全体についてのキーワード判定ができるの
で、誤動作することがない。
キーワード候補の単語について、有効な検索キーワード
かどうかを判定する場合において、その単語が用語辞書
に未登録の複合語であっても、複合語を構成している個
々の語についてのキーワード情報と前後の飴との関連に
よシ、複合語全体についてのキーワード判定ができるの
で、誤動作することがない。
以下、本発明の一実施例を第1図〜第4図によp説明す
る。
る。
第2図は、本実施例ヲ夾現するためのシステム構成であ
る。
る。
第2図において、2−1はディスプレイとヤーン5−ド
lな61デ”デー1−9す“・ 2−2は計算機処理装
置、2−3は日常飴辞誉、2−4は専門語辞書、2−5
は既存仕様書データベースである。以下、2−3.2−
4の二つの辞書を用語辞書という。2−6は仕様情報再
利用制御部で、2−7の要求仕様文解析部、2−8の検
索キーワード抽出部、2−9の仕様書検索部よシなる。
lな61デ”デー1−9す“・ 2−2は計算機処理装
置、2−3は日常飴辞誉、2−4は専門語辞書、2−5
は既存仕様書データベースである。以下、2−3.2−
4の二つの辞書を用語辞書という。2−6は仕様情報再
利用制御部で、2−7の要求仕様文解析部、2−8の検
索キーワード抽出部、2−9の仕様書検索部よシなる。
次に、第1図により、本実施例の処理手順を説明する。
第1図は、本実施例の動作の流れを示すフローチャート
である。
である。
lず、ステップ1−1では、要求仕様文解析部2−7に
より自然な日本語で記述された要求仕様文を解析し、検
索キーワードの候補となる語を取り出す。
より自然な日本語で記述された要求仕様文を解析し、検
索キーワードの候補となる語を取り出す。
そして、その各候補語について、ステップ1−2からス
テップ1−10において、検索キーワード抽出部2−8
により検索キーワードであるかどうかの判定を行なう。
テップ1−10において、検索キーワード抽出部2−8
により検索キーワードであるかどうかの判定を行なう。
最初にステップ1−2で、全体を一つの語として用語辞
書引きを行なう。用語辞書にその語が登録されていると
判定されれば、ステップ1−7で、用語辞書からキーワ
ード情報を取シ出し、そのキーワード情報が、単独でも
検索キーワードとなるものかどうかを判定し、そうであ
れはステップ1−9で検索キーワードとし、そうでなけ
ればステップ1−10で検索キーワードでないとする。
書引きを行なう。用語辞書にその語が登録されていると
判定されれば、ステップ1−7で、用語辞書からキーワ
ード情報を取シ出し、そのキーワード情報が、単独でも
検索キーワードとなるものかどうかを判定し、そうであ
れはステップ1−9で検索キーワードとし、そうでなけ
ればステップ1−10で検索キーワードでないとする。
また、ステップ1−2で、用語辞書にその語が登録され
ていないと判定されたときは、ステップ1−3で、複合
語であるかどうかを判定する。複合語でなければ、全く
未知の一単語であるため検索キーワードであるかどうか
の判定ができず、ステップ1−8で、判定不可能な語と
する。
ていないと判定されたときは、ステップ1−3で、複合
語であるかどうかを判定する。複合語でなければ、全く
未知の一単語であるため検索キーワードであるかどうか
の判定ができず、ステップ1−8で、判定不可能な語と
する。
複合語であれば、ステップ1−4で、複合語の分割を行
なう。そして、複合語を構成する6語について用語辞書
引@を行なう。用語辞書に登録されていると判定された
語については、ステップ1−5で、用語辞書からキーワ
ード情報を取り出し、そのキーワード情報が、複合語の
中でも検索キーワードとなる、というものかどうかを判
定し、そうであれば、前後の語との関係がキーワード情
報に決められた使用法になっているかを判定する。
なう。そして、複合語を構成する6語について用語辞書
引@を行なう。用語辞書に登録されていると判定された
語については、ステップ1−5で、用語辞書からキーワ
ード情報を取り出し、そのキーワード情報が、複合語の
中でも検索キーワードとなる、というものかどうかを判
定し、そうであれば、前後の語との関係がキーワード情
報に決められた使用法になっているかを判定する。
そして検索キーワードと判ればステップ1−9で検索キ
ーワードとする。
ーワードとする。
用語辞書のキーワード情報が違うものであった場合、検
索キーワードとなる語順でないと判定された場合は、ス
テップ1−6で、6語の中に未登録語を含んでいたかど
うかを判定し、未登録語を含んでいなければステップ1
−10で検索キーワードでないとし、未登録語を含んで
いればステップ1−8で判定不可能な語とする。
索キーワードとなる語順でないと判定された場合は、ス
テップ1−6で、6語の中に未登録語を含んでいたかど
うかを判定し、未登録語を含んでいなければステップ1
−10で検索キーワードでないとし、未登録語を含んで
いればステップ1−8で判定不可能な語とする。
全ての語について判定を終わると、ステップ1−11で
、仕様書検索部2−9によシ既存の仕様書を検索する。
、仕様書検索部2−9によシ既存の仕様書を検索する。
以上が本実施例の概略の処理手順である。
次に、実際に例を用いて検索キーワードの判定方法を説
明する。
明する。
第3図に、検索キーワードの候補の語を示す。
本の付いている語が、判定の結果、検索キーワードとな
ったものである。
ったものである。
第4図に、第3図の例を判定するために使用する用語辞
書のキーワード情報の例を示す。キーワード情報の記述
は、一つの語についていくつも記述しても良いし、記述
しなくても良いとする。未登録語は、く名詞〉のかわり
になるものとする。
書のキーワード情報の例を示す。キーワード情報の記述
は、一つの語についていくつも記述しても良いし、記述
しなくても良いとする。未登録語は、く名詞〉のかわり
になるものとする。
用語辞書には、この他にも品詞、活用など多くの情報を
持っているが、ここでは省略する。また、用語辞書には
複合名詞は登録されていないものとする。
持っているが、ここでは省略する。また、用語辞書には
複合名詞は登録されていないものとする。
まず、「商品情報システム」は、そのままでは未登録語
だが% 「商品/情報/システム」と分割することによ
り、辞書情報1の[く名詞ン十システム」の形となるの
で、検索キーワードとなる。
だが% 「商品/情報/システム」と分割することによ
り、辞書情報1の[く名詞ン十システム」の形となるの
で、検索キーワードとなる。
「販売管理」も同様に、「販売/管理」と分割すること
により、辞書情報3から検索キーワードとなる。
により、辞書情報3から検索キーワードとなる。
「管理方式」については、「管理/方式」と分割しても
、辞簀情報3の用法には当てはまらない。
、辞簀情報3の用法には当てはまらない。
そこで、「方式」が未登録語であれば判定不可能な語と
し、未登録語でなければ検索キーワードでないとする。
し、未登録語でなければ検索キーワードでないとする。
「データ」は複合語ではないので、そのまま辞書情報2
を参照し、単独では検索キーワードとはなれないので、
検索キーワードではないとする。
を参照し、単独では検索キーワードとはなれないので、
検索キーワードではないとする。
「取引データ」は「取引/ゲータ」とすることにより、
辞書情報2に当てはまシ、検索キーワードとする。
辞書情報2に当てはまシ、検索キーワードとする。
「仕入れ計画」は「仕入れ/計画」とすることにより、
「仕入れ」が単独でも検索キーワードとなるものなので
、「仕入れ計画」全体も検索キーワードとなる。
「仕入れ」が単独でも検索キーワードとなるものなので
、「仕入れ計画」全体も検索キーワードとなる。
1だ、第4図の辞書情報があれば、この他にも「経理サ
ブシステム」、「棚卸データJ、「店ta管理」、「仕
入れ」なども検索キーワードとなる。
ブシステム」、「棚卸データJ、「店ta管理」、「仕
入れ」なども検索キーワードとなる。
このように、複合語を構成する個々の語についてのキー
ワード情報を用語辞書に登録しておくことにより、全体
としては未登録の複合語や、未登録の語を含む複合名詞
についても、その構成語のうちの一つでもキーワード情
報が見っかシ、使用法がそのキーワード情報に当てはま
っていれば、検索キルワードであるという判定ができる
ので、判定が不可能となる場合がかなり減少する。
ワード情報を用語辞書に登録しておくことにより、全体
としては未登録の複合語や、未登録の語を含む複合名詞
についても、その構成語のうちの一つでもキーワード情
報が見っかシ、使用法がそのキーワード情報に当てはま
っていれば、検索キルワードであるという判定ができる
ので、判定が不可能となる場合がかなり減少する。
また、用語辞書にキーワード情報を登録する場合におい
ても、1なんとか管理」というような、普段、人間が検
索キーワードであるかどうかの判断基準としている概念
?登録すればよいので、考えやすくな9、固有の複合語
について登録する必要がないので登録数は大幅に少なく
なる。
ても、1なんとか管理」というような、普段、人間が検
索キーワードであるかどうかの判断基準としている概念
?登録すればよいので、考えやすくな9、固有の複合語
について登録する必要がないので登録数は大幅に少なく
なる。
第3図、第4図では、流通業務用飴全例としたが、第2
図に示したように、用語辞書は日常語辞書、専門語辞書
の二つがある。業務に特有のキーワード情報や固有の言
葉は、専門語辞書に登録し、業務間に共通のキーワード
情報や共通の言葉は、日常語辞書に登録しておけば、要
求仕様文の分野が変わったときにも、専門語辞書を新し
い分野向けのものに取替えるだけで、日常語辞書には手
を加えなくても対応できる。
図に示したように、用語辞書は日常語辞書、専門語辞書
の二つがある。業務に特有のキーワード情報や固有の言
葉は、専門語辞書に登録し、業務間に共通のキーワード
情報や共通の言葉は、日常語辞書に登録しておけば、要
求仕様文の分野が変わったときにも、専門語辞書を新し
い分野向けのものに取替えるだけで、日常語辞書には手
を加えなくても対応できる。
本発明によれば、用語辞書に未登録の複合語についても
検索キーワードかどうかの判定が行なえるので、有効な
検索キーワードの抽出率が向上し、既存の仕様書の検索
の性能が向上する。
検索キーワードかどうかの判定が行なえるので、有効な
検索キーワードの抽出率が向上し、既存の仕様書の検索
の性能が向上する。
また、用語辞書にキーワード情報を登録する場合には、
考えられる全ての複合語について登録する必要がないの
で、登録語数は減少する。キーワード情報の内容につい
ても、人間が検索キーワードを判定する基準に近い形で
登録できるので、用語辞書登録が容易になる。
考えられる全ての複合語について登録する必要がないの
で、登録語数は減少する。キーワード情報の内容につい
ても、人間が検索キーワードを判定する基準に近い形で
登録できるので、用語辞書登録が容易になる。
第1図は、本発明の実施例の動作の流れを示すフローチ
ャート、第2図は、本発明の実施例を実現するためのシ
ステム構成図、第3図は、検索キ一ワードの候補の語を
示す図、第4図は、第3図の例?判定するために使用す
る用語辞書のキーワード情報の例を示す図である。 2−1・・・ディスプレイとキーボードよりなるビデオ
データターミナル、2−2・・・計算機処理装置、2−
3・・・日常語辞書、2−4・・・専門語辞書、2−5
・・・既存仕様書データベース、2−6・・・仕様情報
再利用制御部、2−7・・・要求仕様文解析部、2−8
・・・検索キーワード抽出部、2−9・・・仕様書検索
部。
ャート、第2図は、本発明の実施例を実現するためのシ
ステム構成図、第3図は、検索キ一ワードの候補の語を
示す図、第4図は、第3図の例?判定するために使用す
る用語辞書のキーワード情報の例を示す図である。 2−1・・・ディスプレイとキーボードよりなるビデオ
データターミナル、2−2・・・計算機処理装置、2−
3・・・日常語辞書、2−4・・・専門語辞書、2−5
・・・既存仕様書データベース、2−6・・・仕様情報
再利用制御部、2−7・・・要求仕様文解析部、2−8
・・・検索キーワード抽出部、2−9・・・仕様書検索
部。
Claims (1)
- 1、自然な日本語で記述された要求仕様文を解析する要
求仕様文解析部と、既存の仕様書を検索するための検索
キーワードを抽出する検索キーワード抽出部と、抽出さ
れた検索キーワードでデータベースに蓄積してある既存
のソフトウェアの仕様書を検索する仕様書検索部とより
成る、ソフトウェア仕様情報再利用方式において、検索
キーワードの候補として選び出された単語のうち、意味
のない単語を取り除き、検索キーワードとして有効な単
語のみを選択するために、その語が単独で使用されたと
きに検索キーワードとなるか、複合語の中のどんな位置
に現れた場合に検索キーワードとなるかという、検索キ
ーワードを決定するための情報を付した用語辞書を作成
しておき、一単語として登録されていない複合語や、未
登録語を含む複合語についても、複合語を構成する個々
の語のキーワード情報と、その前後の語との関係により
、検索キーワードかどうかを判定することを特徴とする
検索キーワード選択方式。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62033232A JPS63201824A (ja) | 1987-02-18 | 1987-02-18 | 検索キ−ワ−ド選択方式 |
| US07/109,269 US5123103A (en) | 1986-10-17 | 1987-10-15 | Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62033232A JPS63201824A (ja) | 1987-02-18 | 1987-02-18 | 検索キ−ワ−ド選択方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS63201824A true JPS63201824A (ja) | 1988-08-19 |
Family
ID=12380711
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62033232A Pending JPS63201824A (ja) | 1986-10-17 | 1987-02-18 | 検索キ−ワ−ド選択方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS63201824A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0310374A (ja) * | 1989-06-07 | 1991-01-17 | Nec Corp | 漢字複合語キーワード検索装置 |
| US5193642A (en) * | 1991-06-05 | 1993-03-16 | Daihatsu Motor Co., Ltd. | Engine mounting apparatus for vehicle |
| JPH07239861A (ja) * | 1994-02-25 | 1995-09-12 | Ricoh Co Ltd | 文書検索装置 |
| JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
| JP2007264747A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | 商品取引システムおよび商品検索方法 |
-
1987
- 1987-02-18 JP JP62033232A patent/JPS63201824A/ja active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0310374A (ja) * | 1989-06-07 | 1991-01-17 | Nec Corp | 漢字複合語キーワード検索装置 |
| US5193642A (en) * | 1991-06-05 | 1993-03-16 | Daihatsu Motor Co., Ltd. | Engine mounting apparatus for vehicle |
| JPH07239861A (ja) * | 1994-02-25 | 1995-09-12 | Ricoh Co Ltd | 文書検索装置 |
| JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
| JP2007264747A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | 商品取引システムおよび商品検索方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5383120A (en) | Method for tagging collocations in text | |
| JP4986919B2 (ja) | タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法 | |
| US6539348B1 (en) | Systems and methods for parsing a natural language sentence | |
| Uma et al. | Formation of SQL from natural language query using NLP | |
| Padró et al. | FreeLing 3.0: Towards wider multilinguality. | |
| US7065483B2 (en) | Computer method and apparatus for extracting data from web pages | |
| US6947930B2 (en) | Systems and methods for interactive search query refinement | |
| US10163063B2 (en) | Automatically mining patterns for rule based data standardization systems | |
| US10002126B2 (en) | Business intelligence data models with concept identification using language-specific clues | |
| US20040236566A1 (en) | System and method for identifying special word usage in a document | |
| US7555428B1 (en) | System and method for identifying compounds through iterative analysis | |
| CN111459977A (zh) | 自然语言查询的转换 | |
| JP3022539B1 (ja) | 文書検索装置 | |
| CN108876527A (zh) | 服务方法和服务装置、应用开放平台和存储介质 | |
| JP7312841B2 (ja) | 法律分析装置、及び法律分析方法 | |
| US20130179147A1 (en) | Methods and systems for tokenizing multilingual textual documents | |
| JPH08147311A (ja) | 構造化文書検索方法及び装置 | |
| JPS63201824A (ja) | 検索キ−ワ−ド選択方式 | |
| US8055497B2 (en) | Method and system to parse addresses using a processing system | |
| JP3123836B2 (ja) | テキスト型データベース装置 | |
| Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
| JPH1185766A (ja) | キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体 | |
| KR102855116B1 (ko) | 문맥분석 방식을 이용한 정보수집 방법 및 시스템 | |
| Mohbey et al. | Preprocessing and morphological analysis in text mining | |
| JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 |