JP5373710B2 - インデックス更新装置及びその方法 - Google Patents
インデックス更新装置及びその方法 Download PDFInfo
- Publication number
- JP5373710B2 JP5373710B2 JP2010149867A JP2010149867A JP5373710B2 JP 5373710 B2 JP5373710 B2 JP 5373710B2 JP 2010149867 A JP2010149867 A JP 2010149867A JP 2010149867 A JP2010149867 A JP 2010149867A JP 5373710 B2 JP5373710 B2 JP 5373710B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- web page
- url
- text information
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一般的に、リンク先ページの説明は、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、(4)のインデックス更新装置は、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
図1は、本実施形態に係るインデックス更新装置1の機能概要を示す図である。インデックス更新装置1は、検索エンジンのインデックスを更新するサーバである。
図10は、更新対象Webページとリンク先URLに対応するWebページとを示す図である。図10(1)は、端末でニュースページを閲覧した場合に、端末のブラウザ50に対して、更新対象Webページとしてのニュースページに、拡大写真50Aが表示されている例を示す図である。図10(2)は、ブラウザ50に対して、更新対象Webページのリンク先URLに対応するWebページとして、拡大写真50Aに対応するニュース記事が表示されている例を示す図である。
図5は、本実施形態に係るインデックス更新装置1の制御部10における処理を示すフローチャートである。ここでは、更新対象Webページそれぞれについて、1つずつ順番に処理が行われるものとする。
図14は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図14では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
図15は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図15では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
図16は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図16では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
また、前述の実施の形態は以下のように把握してもよい。
(A)検索エンジンのインデックスを更新するインデックス更新装置であって、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックス
を生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
(B)前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える(A)に記載のインデックス更新装置。
(B)のインデックス更新装置は、実行制御手段により、コンテンツ情報記憶手段にコンテンツ情報が記憶されたことに応じて、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる。よって、(B)のインデックス更新装置は、コンテンツ情報記憶手段に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
10 制御部
11 URL抽出部
12 補充用テキスト情報抽出部
13 第1インデックス更新部
14 第2インデックス更新部
15 実行制御部
16 クロール部
20 記憶部
21 リンクDB
22 インデックスDB
23 コンテンツDB
Claims (5)
- 検索エンジンのインデックスを更新するインデックス更新装置であって、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、
前記リンク情報記憶手段に基づいて、前記インデックスの情報量が所定値よりも少ない更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URLを抽出するURL抽出手段と、
前記更新対象Webページに含まれるテキスト情報が少ないときは、当該抽出したリンク先のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、
前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。 - 前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
- 前記第2インデックス更新手段は、前記更新対象Webページのテキスト情報が少ないときに、前記補充用テキスト情報抽出手段が抽出した前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを前記インデックス情報記憶手段に追加することを特徴とする請求項1に記載のインデックス更新装置。
- 前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する請求項1から3のいずれかに記載のインデックス更新装置。
- 検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、
前記インデックス更新装置は、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、
前記リンク情報記憶手段に基づいて、前記インデックスの情報量が所定値よりも少ない更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URLを抽出するURL抽出ステップと、
前記更新対象Webページに含まれるテキスト情報量が少ないときは、当該抽出したリンク先のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、
前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010149867A JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010149867A JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012014396A JP2012014396A (ja) | 2012-01-19 |
| JP5373710B2 true JP5373710B2 (ja) | 2013-12-18 |
Family
ID=45600758
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010149867A Expired - Fee Related JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5373710B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5671891B2 (ja) * | 2010-09-01 | 2015-02-18 | 日本電気株式会社 | タグ付け装置、タグ付け方法およびプログラム |
| CN105263708B (zh) | 2013-03-14 | 2019-05-07 | 智能星球技术公司 | 可再制浆和可回收的复合包装制品及相关方法 |
| US20140274633A1 (en) | 2013-03-14 | 2014-09-18 | Smart Planet Technologies, Inc. | Composite structures for packaging articles and related methods |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004178070A (ja) * | 2002-11-25 | 2004-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び情報検索装置並びにプログラム |
| JP4633162B2 (ja) * | 2008-12-01 | 2011-02-16 | 株式会社エヌ・ティ・ティ・ドコモ | インデックス生成システム、情報検索システム、及びインデックス生成方法 |
-
2010
- 2010-06-30 JP JP2010149867A patent/JP5373710B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012014396A (ja) | 2012-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2546766B1 (en) | Dynamic search box for web browser | |
| US10282397B1 (en) | Content management system employing a hybrid web application framework | |
| US10078709B2 (en) | Managing a display of results of a keyword search on a web page by modifying attributes of a DOM tree structure | |
| US8453051B1 (en) | Dynamic display dependent markup language interface | |
| US20130132422A1 (en) | System and method for creating and controlling an application operating on a plurality of computer platform types | |
| US20140006913A1 (en) | Visual template extraction | |
| JP2014502385A (ja) | フォントスタイル要素の抽出及び管理 | |
| Zakas | High performance JavaScript: build faster web application interfaces | |
| KR20210010653A (ko) | 네이티브 어플리케이션의 어플리케이션 페이지 인덱싱 | |
| KR20120139716A (ko) | 공유가능한 사용자 인터페이스를 이용해 정보를 구성하는 방법 및 시스템 | |
| WO2014011711A2 (en) | Extensible content focus mode | |
| JP5373710B2 (ja) | インデックス更新装置及びその方法 | |
| US8413062B1 (en) | Method and system for accessing interface design elements via a wireframe mock-up | |
| JP4771915B2 (ja) | Htmlテキストを変換する装置、方法、およびプログラム | |
| US20120216132A1 (en) | Embedding User Selected Content In A Web Browser Display | |
| JP4935396B2 (ja) | Webコンテンツ提供装置、Webコンテンツ提供方法およびプログラム | |
| US20140282477A1 (en) | Automatic updating of data in application programs | |
| CN107077484B (zh) | 生成应用的网络浏览器视图 | |
| CN114491360B (zh) | 数据提取方法、装置、电子设备及存储介质 | |
| JP5228529B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
| EP1349083A1 (en) | Rule-based data extraction from web pages | |
| CN116127218A (zh) | 一种静态网页稿件发布方法、系统、计算机及存储介质 | |
| Zhao | Build a live news application with Next. js 13 | |
| JP4962973B2 (ja) | 検索サーバ、方法及びプログラム | |
| US20250335533A1 (en) | Systems and methods for generating and displaying webpages |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120807 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120913 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130402 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130619 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130626 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130919 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5373710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees | ||
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |