JP6254355B2 - リファレンスウェブクロールの支援によるウェブコーパスの構築 - Google Patents
リファレンスウェブクロールの支援によるウェブコーパスの構築 Download PDFInfo
- Publication number
- JP6254355B2 JP6254355B2 JP2013083171A JP2013083171A JP6254355B2 JP 6254355 B2 JP6254355 B2 JP 6254355B2 JP 2013083171 A JP2013083171 A JP 2013083171A JP 2013083171 A JP2013083171 A JP 2013083171A JP 6254355 B2 JP6254355 B2 JP 6254355B2
- Authority
- JP
- Japan
- Prior art keywords
- web
- resource
- computer
- crawler
- crawl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<a href=”resource1”>link</a>
のようにすることができる。
Claims (12)
- ウェブコーパス(WCD)を構築するための、コンピュータにより実行される方法であって、
それぞれのリソースの各々のシーズ識別子の第1のリストに基づいて、リファレンスウェブクローラ(RWC)によるリファレンスウェブクロール(RWCD)を作成するステップと、
それぞれのリソースの各々のシーズ識別子の第2のリストを提供するステップと、
前記シーズ識別子の第2のリストに基づいて、ウェブクローラ(WC)によるウェブクロール(WCD)を作成するステップと
を備え、
前記ウェブクロール(WCD)を作成するステップは、
コンピュータ上で稼動する前記ウェブクローラ(WC)が、リファレンスウェブクロールエージェント(RWCA)にクエリを送信するステップであって、前記クエリは少なくとも1つのリソースの識別子を含む、ステップと、
前記ウェブクローラ(WC)が、前記リファレンスウェブクロールエージェント(RWCA)からレスポンスを受信するステップと、
前記レスポンスが前記識別子により識別されたリソースを含まない場合、前記ウェブクローラ(WC)が、前記識別子に対応するウェブサイト(WS)から前記リソースをダウンロードし、前記リソースを前記ウェブコーパス(WCD)に追加するステップと、
前記レスポンスが前記識別子により識別されたリソースを含む場合、前記リソースを前記ウェブコーパス(WCD)に追加するステップと
を含み、
前記リファレンスウェブクロールエージェント(RWCA)は、前記リファレンスウェブクロール(RWCD)のコンテンツに準じてレスポンスを作成する
ことを特徴とするコンピュータにより実行される方法。 - 前記コンピュータ上で稼動する前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースが前記リファレンスウェブクロール(RWCD)に含まれないと判定する場合は、前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースのダウンロードならびに前記リファレンスウェブクロール(RWCD)への追加を開始することを特徴とする請求項1に記載のコンピュータにより実行される方法。
- 前記リファレンスウェブクロール(RWCD)からリファレンスインデックス(RID)を作成するステップと、
前記ウェブクローラ(WC)が、前記リファレンスインデックス(RID)にインデックスクエリを送信するステップと、
前記ウェブクローラ(WC)が、前記リファレンスインデックスからレスポンスを受信するステップと、
前記レスポンスの内容に応じて、前記リファレンスウェブクロールエージェント(RWCA)への前記クエリの送信を行うステップと
をさらに備えることを特徴とする請求項1または2に記載のコンピュータにより実行される方法。 - 前記インデックスクエリは、リソースの識別子を含み、前記レスポンスが前記リソースに関連するインデックス付けされた情報を含む場合は、前記インデックス付けされた情報に準じて前記リファレンスウェブクロールエージェント(RWCA)にクエリを送信するかを決定することを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記インデックスクエリはクエリ基準を含み、前記リファレンスインデックスの前記レスポンスは識別子のリストを含むことを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記リファレンスインデックスの前記レスポンスは、前記識別子に対応するインデックス付けされた情報をさらに含むことを特徴とする請求項5に記載のコンピュータにより実行される方法。
- 前記インデックスクエリは識別子を含み、前記リファレンスインデックスは、前記識別子により識別されたリソースに含まれる識別子の組を含むレスポンスを送信することを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記識別子はURLであることを特徴とする請求項1乃至7のいずれか一つに記載のコンピュータにより実行される方法。
- ウェブコーパス(WCD)を構築するように適合されたウェブクローラ(WC)であって、リファレンスウェブクロールエージェント(RWCA)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするウェブクローラ。
- ウェブクローラ(WC)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするリファレンスウェブクローラエージェント(RWCA)。
- 請求項9に記載のウェブクローラ、請求項10に記載のリファレンスウェブクロールエージェント、リファレンスウェブクロール、および/またはリファレンスレブクローラを備えたことを特徴とするシステム。
- 請求項9に記載のウェブクローラをコンピュータに実行させ、および/または請求項10に記載のリファレンスウェブクロールエージェントを前記コンピュータに実行させるコンピュータ実行可能命令を含むコンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP12305432.2 | 2012-04-12 | ||
| EP12305432.2A EP2650802B1 (en) | 2012-04-12 | 2012-04-12 | Building of a web corpus with the help of a reference web crawl |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013222463A JP2013222463A (ja) | 2013-10-28 |
| JP6254355B2 true JP6254355B2 (ja) | 2017-12-27 |
Family
ID=46022143
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013083171A Active JP6254355B2 (ja) | 2012-04-12 | 2013-04-11 | リファレンスウェブクロールの支援によるウェブコーパスの構築 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US9529911B2 (ja) |
| EP (1) | EP2650802B1 (ja) |
| JP (1) | JP6254355B2 (ja) |
| KR (1) | KR102054020B1 (ja) |
| CN (1) | CN103377291B (ja) |
| CA (1) | CA2812439C (ja) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8560604B2 (en) | 2009-10-08 | 2013-10-15 | Hola Networks Ltd. | System and method for providing faster and more efficient data communication |
| US9241044B2 (en) | 2013-08-28 | 2016-01-19 | Hola Networks, Ltd. | System and method for improving internet communication by using intermediate nodes |
| US11057446B2 (en) | 2015-05-14 | 2021-07-06 | Bright Data Ltd. | System and method for streaming content from multiple servers |
| CN106919696B (zh) * | 2017-03-07 | 2020-08-14 | 上海携程商务有限公司 | Seo站点构建方法及seo请求的响应方法 |
| LT3767494T (lt) | 2017-08-28 | 2023-03-10 | Bright Data Ltd. | Būdas pagerinti turinio parsisiuntimą, pasirenkant tunelinius įrenginius |
| EP3780557B1 (en) | 2019-02-25 | 2023-02-15 | Bright Data Ltd. | System and method for url fetching retry mechanism |
| EP4383686A1 (en) | 2019-04-02 | 2024-06-12 | Bright Data Ltd. | System and method for managing non-direct url fetching service |
| US11394799B2 (en) | 2020-05-07 | 2022-07-19 | Freeman Augustus Jackson | Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data |
| EP4377817A4 (en) | 2021-07-26 | 2025-05-28 | Bright Data Ltd. | Emulating web browser in a dedicated intermediary box |
| US20240112208A1 (en) * | 2022-09-30 | 2024-04-04 | Rodrick William Lekey | Systems and Methods for Assessing Extractability of Prospective Helium-Natural Gas Sources |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1185789A (ja) * | 1997-09-10 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 分散検索装置 |
| JP2002351873A (ja) * | 2001-05-23 | 2002-12-06 | Hitachi Ltd | メタデータ管理システムおよび検索方法 |
| WO2006058075A2 (en) * | 2004-11-22 | 2006-06-01 | Truveo, Inc. | Method and apparatus for an application crawler |
| US7653617B2 (en) * | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
| US20080071830A1 (en) * | 2006-09-14 | 2008-03-20 | Bray Pike | Method of indexing and streaming media files on a distributed network |
| US20090287684A1 (en) * | 2008-05-14 | 2009-11-19 | Bennett James D | Historical internet |
| US8346755B1 (en) * | 2010-05-04 | 2013-01-01 | Google Inc. | Iterative off-line rendering process |
| CN102402627B (zh) * | 2011-12-31 | 2013-08-14 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取系统和方法 |
-
2012
- 2012-04-12 EP EP12305432.2A patent/EP2650802B1/en active Active
-
2013
- 2013-04-11 KR KR1020130040143A patent/KR102054020B1/ko active Active
- 2013-04-11 US US13/860,923 patent/US9529911B2/en active Active
- 2013-04-11 JP JP2013083171A patent/JP6254355B2/ja active Active
- 2013-04-12 CN CN201310209210.7A patent/CN103377291B/zh active Active
- 2013-04-12 CA CA2812439A patent/CA2812439C/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| EP2650802A1 (en) | 2013-10-16 |
| JP2013222463A (ja) | 2013-10-28 |
| US9529911B2 (en) | 2016-12-27 |
| KR102054020B1 (ko) | 2019-12-09 |
| CA2812439C (en) | 2020-09-15 |
| EP2650802B1 (en) | 2018-10-24 |
| KR20130116032A (ko) | 2013-10-22 |
| CN103377291A (zh) | 2013-10-30 |
| CA2812439A1 (en) | 2013-10-12 |
| CN103377291B (zh) | 2019-09-17 |
| US20130275406A1 (en) | 2013-10-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6254355B2 (ja) | リファレンスウェブクロールの支援によるウェブコーパスの構築 | |
| Cyganiak et al. | Semantic sitemaps: Efficient and flexible access to datasets on the semantic web | |
| US8799262B2 (en) | Configurable web crawler | |
| AU2009277143B2 (en) | Federated community search | |
| US9836544B2 (en) | Methods and systems for prioritizing a crawl | |
| US20050149500A1 (en) | Systems and methods for unification of search results | |
| US8930437B2 (en) | Systems and methods for deterring traversal of domains containing network resources | |
| US20100125781A1 (en) | Page generation by keyword | |
| US20110238653A1 (en) | Parsing and indexing dynamic reports | |
| US9043320B2 (en) | Enhanced find-in-page functions in a web browser | |
| Khare et al. | Smart crawler for harvesting deep web with multi-classification | |
| CN101133415B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和系统 | |
| UTKALUNIVERSITY | Integration of web mining and web crawler: Relevance and state of art | |
| JP4653805B2 (ja) | 意味検索プログラム | |
| US20090024695A1 (en) | Methods, Systems, And Computer Program Products For Providing Search Results Based On Selections In Previously Performed Searches | |
| Ganibardi et al. | Web Usage Data Cleaning: A Rule-Based Approach for Weblog Data Cleaning | |
| Moffat | Marketing with metadata–how metadata can increase exposure and visibility of online content | |
| Alafif et al. | Domain and range identifier module for semantic web search engines | |
| Kanimozhi et al. | RETRACTED: A Novel Approavh to Discover Web Services Using WSDL and UDDI | |
| Chumbe et al. | Overcoming the obstacles of harvesting and searching digital repositories from federated searching toolkits, and embedding them in VLEs | |
| Angioni et al. | User Oriented Information Retrieval in a Collaborative and Context Aware Search Engine | |
| Builders' Guide | TAPIR-TDWG Access Protocol for Information Retrieval | |
| O'Riordan et al. | Engineering an Open Web Syndication Interchange with Discovery and Recommender Capabilities | |
| Wilde et al. | Web site metadata | |
| Graham et al. | IVOA Recommendation: IVOA Support Interfaces |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20141222 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150202 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160411 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170210 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170519 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170721 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171031 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171130 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6254355 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |