WO2011052526A1 - 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置 - Google Patents

特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置 Download PDF

Info

Publication number
WO2011052526A1
WO2011052526A1 PCT/JP2010/068820 JP2010068820W WO2011052526A1 WO 2011052526 A1 WO2011052526 A1 WO 2011052526A1 JP 2010068820 W JP2010068820 W JP 2010068820W WO 2011052526 A1 WO2011052526 A1 WO 2011052526A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
web page
specific
constituting
blog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2010/068820
Other languages
English (en)
French (fr)
Inventor
志学 岩淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2009250646A external-priority patent/JP5462591B2/ja
Priority claimed from JP2009250594A external-priority patent/JP5462590B2/ja
Priority to KR1020147026766A priority Critical patent/KR20140127360A/ko
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to BR112012010120A priority patent/BR112012010120A2/pt
Priority to EP10826658.6A priority patent/EP2482247A4/en
Priority to CN201080048923.4A priority patent/CN102598038B/zh
Priority to KR1020127014075A priority patent/KR101640051B1/ko
Priority to US13/504,831 priority patent/US20120216107A1/en
Publication of WO2011052526A1 publication Critical patent/WO2011052526A1/ja
Anticipated expiration legal-status Critical
Priority to US14/696,992 priority patent/US10614134B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/40Business processes related to social networking or social networking services
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Definitions

  • the present invention relates to a technical field for extracting contents constituting a Web page.
  • Non-Patent Document 1 discloses a technology that, when a URL of image data is specified by a user, acquires image data corresponding to the URL from the Web, and automatically creates a banner based on the acquired image data. Has been.
  • the contents according to the purpose of the Web site are posted on each Web page constituting the Web site.
  • the contents of the Web pages constituting the Web site are basically related to each other, but may have some characteristics.
  • the factor which determines the content of the web page is the content of the content (for example, text data, image data, etc.) which comprises the web page. Therefore, content that characterizes the Web page among content constituting the Web page, that is, content specific to the Web page may exist.
  • Non-Patent Document 1 extracts content unique to a Web page, but does not automatically extract content, and the user must manually specify the content. It is not possible to easily extract content peculiar to. Therefore, when the user cannot determine which content is unique to the Web page, or when the favorite content is biased depending on the user's preference, the content specific to the Web page is accurately extracted. I can't. In addition, when the number of target Web pages is large, there is a problem that the user's work becomes enormous.
  • the present invention has been made in view of the above points, and a unique content determination apparatus and a specific content determination method capable of easily extracting content specific to a Web page from content constituting the Web page.
  • An object is to provide a unique content determination program and the like.
  • the invention according to claim 1 is directed to a computer for extracting content that constitutes a designated web page, and each content constituting the designated web page. Calculating means for calculating the appearance frequency of the content, and determining means for determining content that is specific to the Web page among the contents constituting the specified Web page based on the calculated appearance frequency, It is made to function as.
  • the appearance frequency of each content constituting the designated Web page is calculated.
  • the content that appears less frequently than the designated Web page is the content that appears less frequently. Therefore, content specific to the designated Web page can be specified based on the appearance frequency. Therefore, content unique to the Web page can be easily extracted.
  • the determination unit selects a content having the lowest appearance frequency among the contents constituting the specified Web page.
  • the computer is caused to function so as to determine that the content is unique to a page.
  • the content specific to the designated Web page is specified.
  • the determination means selects a content whose appearance frequency is a predetermined value or less from among the contents constituting the specified Web page.
  • the computer is caused to function so as to determine that the content is unique to the Web page.
  • the calculation means causes the appearance frequency of each content on a plurality of Web pages included in a predetermined site.
  • the computer is made to function so as to calculate.
  • the appearance frequency of each content constituting the specified Web page is calculated on a plurality of Web pages included in a predetermined site, it is commonly used in the site.
  • the content can be determined not to be content specific to the Web page, and the accuracy of determining content specific to the Web page can be increased.
  • the extracting unit is configured to determine a predetermined type of each Web page included in the predetermined site. Content constituting the Web page is extracted, content information indicating the extracted content is stored in a storage unit in advance, and the calculation unit stores the designated Web page based on the stored content information.
  • the computer is caused to function so as to calculate the appearance frequency of each content constituting the content.
  • each content constituting the specified Web page is determined. Since the appearance frequency is calculated, the appearance frequency is accurately calculated, and the accuracy of determining content specific to the Web page can be increased.
  • the extracting means is a Web page in a unit of a content group composed of one or more contents.
  • the calculating means calculates the frequency of appearance of the content group constituting the designated web page, and the determining means comprises the designated web page.
  • the computer is caused to function so as to determine a content group that is unique to the Web page among content groups that are present.
  • content specific to the Web page is determined in units of content groups. For example, content that is displayed in a certain unit on the Web page or is related to each other is displayed. When a content group is used, it is possible to extract content that is unique to a Web page.
  • the extracting means is based on document data that is described in a predetermined markup language and indicates the content constituting the Web page.
  • the computer is made to function so as to extract a group.
  • the content group is extracted based on the document data indicating the content constituting the Web page, the content group can be accurately extracted.
  • the computer is configured such that the extracting unit determines a content group based on a tag that is predetermined in document data indicating the content. Is made to function.
  • the content group is extracted based on a predetermined tag. Therefore, when content specific to a Web page and content that is not specific are grouped by a predetermined tag, respectively. Therefore, it is possible to increase the accuracy of determining content unique to the Web page.
  • the generation means for generating new content based on the content determined to be the specific content is further functioned as follows.
  • new content is generated based on content specific to a Web page. For example, it is possible to generate content indicating the characteristics of details posted on the Web page.
  • the generation means matches the display size of the content determined to be the specific content with a preset display size.
  • the computer is caused to function so as to generate new content including content whose display size is adjusted.
  • an effect is applied to the content determined to be the specific content by the generating means to reproduce the content.
  • the computer is caused to function so as to generate new content to be generated.
  • related content related to a content determined to be specific content is specified as the specified Web.
  • the computer is further caused to function as insertion means for inserting into a page.
  • the content related to the content determined to be the specific content is inserted into the specified Web page, so that information related to the characteristics of the Web page can be added to the Web page. it can.
  • the determination means includes text data of a blog article as the content constituting the specified Web page.
  • the text data is determined to be content specific to the Web page, and the insertion unit determines from the text data of the blog article determined to be specific content by the specific content determination device.
  • the computer is caused to function so as to extract a feature word of the Web page and insert related content related to the feature word into the Web page.
  • the text data of each blog article contains contents specific to the article
  • the text data of each blog article can be extracted by the unique content determination device. Thereby, information related to the content of the blog posted on the Web page can be added to the Web page.
  • the invention according to claim 14 is an extraction means for extracting content constituting the designated Web page, a calculation means for calculating the appearance frequency of each content constituting the designated Web page, And determining means for determining content unique to the Web page among the contents constituting the specified Web page based on the calculated appearance frequency.
  • the determination unit determines a content having the lowest appearance frequency among the contents constituting the specified Web page. It is determined that the content is unique to the page.
  • the determination unit selects a content whose appearance frequency is a predetermined value or less from among the contents constituting the designated Web page. It is determined that the content is unique to the Web page.
  • the calculation unit is configured to display an appearance frequency of each content on a plurality of Web pages included in a predetermined site. It is characterized by calculating.
  • the extraction unit is configured to determine a predetermined type of each Web page included in the predetermined site. Content constituting the Web page is extracted, content information indicating the extracted content is stored in a storage unit in advance, and the calculation unit stores the designated Web page based on the stored content information. The appearance frequency of each content constituting the content is calculated.
  • the extraction unit is a unit of a content group composed of one or more contents, and a Web page.
  • the calculating means calculates the frequency of appearance of the content group constituting the designated web page, and the determining means comprises the designated web page. It is characterized in that a content group that is unique to the Web page is determined among the existing content groups.
  • the extraction unit is a content based on document data that is described in a predetermined markup language and indicates the content constituting the Web page. It is characterized by extracting groups.
  • the extracting unit determines a content group based on a predetermined tag in document data indicating the content. .
  • the invention according to claim 22 is an extraction process for extracting the content constituting the designated web page, a calculation process for calculating the appearance frequency of each content constituting the designated web page, And a determination step of determining content that is unique to the Web page among the content that constitutes the specified Web page based on the calculated appearance frequency.
  • the invention according to claim 23 is an extraction means for extracting the content constituting the designated Web page, and a calculation means for calculating the appearance frequency of each content constituting the designated Web page. And a unique content determination program that functions as a determination unit that determines content unique to the Web page among the contents constituting the specified Web page based on the calculated appearance frequency. It is recorded so as to be readable by a computer.
  • a new content is determined based on the specific content determination device according to any one of the fourteenth to twenty-first aspects and the content determined to be specific content by the specific content determination device.
  • generating means for generating content are provided.
  • the generation unit matches the display size of the content determined to be the specific content with a preset display size. Adjusting and generating new content including content whose display size is adjusted.
  • the generating means applies an effect to the content determined to be unique content and reproduces the content. It is characterized by generating new content.
  • the specific content determination device according to any one of the fourteenth to twenty-first aspects and related content related to the content determined to be specific content by the specific content determination device. And insertion means for inserting into the designated Web page.
  • the unique content determination device includes text data of a blog article as the content constituting the designated web page.
  • the text data is determined to be content specific to the Web page, and the insertion unit determines from the text data of the blog article determined to be specific content by the specific content determination device.
  • a feature word of the designated web page is extracted, and related content related to the feature word is inserted into the web page.
  • the content whose appearance frequency is smaller is the content that does not appear much other than the designated Web page. Therefore, content specific to the designated Web page can be specified based on the appearance frequency. Therefore, content unique to the Web page can be easily extracted.
  • FIG. 1 is a diagram illustrating an example of a schematic configuration of a shopping system S according to the present embodiment.
  • the shopping system S includes a content generation server 1, a shopping server 2, a management terminal 3, a plurality of store terminals 4, and a plurality of users as examples of the specific content determination device and the content generation device. And a terminal 5.
  • the content generation server 1, the shopping server 2, each store terminal 4, and each user terminal 5 exchange data with each other using, for example, TCP / IP as a communication protocol via the network NW.
  • the network NW is constructed by, for example, the Internet, a dedicated communication line (for example, a CATV (CommunityCommunAntenna Television) line), a mobile communication network (including a base station, etc.), a gateway, and the like.
  • the content generation server 1 and the management terminal 3 are connected via a network such as a LAN (Local Area Network). Note that the content generation server 1 and the shopping server 2 may be similarly connected via a network such as a LAN.
  • the shopping server 2 is a Web server that transmits a Web page constituting the shopping site in response to a request from the store terminal 4 or the user terminal 5. Moreover, the shopping server 2 registers the product sold by a shopping site based on the request from the store terminal 4, and produces
  • HTML document of the product detail page an example of document data
  • image data that is the material of the product detail page
  • the store terminal 4 is a terminal device used for employees of stores that sell products on a shopping site.
  • a personal computer or the like is used as the store terminal 4.
  • the user terminal 5 is a terminal device used by a user who purchases a product at a shopping site.
  • a personal computer, a PDA, a mobile phone or the like is used as the user terminal 5, for example, a personal computer, a PDA, a mobile phone or the like is used.
  • the content generation server 1 is a Flash content (standardized by Adobe Systems) showing the characteristics of the designated product detail page (and thus the characteristics of the product) based on a request from the management terminal 3 or the store terminal 4 Software).
  • the generated Flash content is, for example, a banner image of a product, a slide show content introducing the product, a moving image content, or the like.
  • the Flash content is, for example, posted on a website operated by a store, or used as a material of a web page constituting a shopping site.
  • the content generation server 1 includes a material extraction DB 101, and content (image data, described in an HTML document) as a Web material that constitutes a product detail page registered in the product detail page DB 201. Text data etc.) is extracted, and the extraction result is registered in the material extraction DB 101. Then, the content generation server 1 specifies content specific to the product detail page from the content extracted from the designated product detail page, and generates Flash content based on the specified content.
  • the management terminal 3 is a terminal device used by the system administrator of the shopping system S.
  • a personal computer or the like is used as the management terminal 3.
  • FIG. 2 is a block diagram illustrating an example of a schematic configuration of the content generation server 1 according to the present embodiment.
  • FIG. 3 is a diagram showing an outline of processing from when a Web page is designated until Flash content is generated.
  • FIG. 4 is a diagram illustrating a configuration example of a Web page.
  • FIG. 5 is a diagram illustrating an example of a DOM tree generated from an HTML document.
  • FIG. 6 is a diagram illustrating an example of the content of information registered in the material extraction DB 101.
  • the content generation server 1 includes an operation unit 11, a display unit 12, a communication unit 13, a drive unit 14, a storage unit 15 as an example of a storage unit, and an input / output interface unit 16. And a system control unit 20.
  • the system control unit 20 and the input / output interface unit 16 are connected via a system bus 21.
  • the operation unit 11 includes, for example, a keyboard and a mouse, and receives an operation instruction from a system administrator or the like, and outputs the instruction content to the system control unit 20 as an instruction signal.
  • the display unit 12 includes, for example, a CRT (Cathode Ray Tube) display, a liquid crystal display, and the like, and displays information such as characters and images.
  • the communication unit 13 is connected to a network NW or the like and controls a communication state with the shopping server 2, the management terminal 3, the store terminal 4, the user terminal 5, and the like.
  • the drive unit 14 reads data from a disk DK such as a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disc), and the like, and records data on the disc DK.
  • the storage unit 15 is configured by, for example, a hard disk drive or the like, and stores various programs, data, and the like.
  • the material extraction DB 101 is constructed in the storage unit 15.
  • the input / output interface unit 16 performs interface processing between the operation units 11 to 15 and the system control unit 20.
  • the system control unit 20 includes a CPU (Central Processing Unit) 17, a ROM (Read Only Memory) 18, a RAM (Random Access Memory) 19, and the like.
  • the system control unit 20 controls each unit of the content generation server 1 by the CPU 17 reading and executing various programs stored in the ROM 18 and the storage unit 15.
  • the system control unit 20 functions as an extraction unit, a calculation unit, a determination unit, and a generation unit by executing content generation software (an example of a specific content determination program).
  • the content generation software or the like may be acquired from another server device or the like via the network NW, for example, or recorded on a disk DK such as a CD-ROM and read via the drive unit 14. You may do it.
  • Content generation software is a program for generating Flash content based on content specific to the product detail page.
  • the content generation software includes a manager unit, a material extraction engine, a SWF (ShockWave Flash Object) generation engine, and the like.
  • the manager unit controls the execution of the material extraction engine and the SWF engine, and generates GUI content (Graphical User Interface) for users (store employees and system administrators) who use the content generation software. It is software for providing.
  • the material extraction engine is software for extracting content as a Web material from an HTML document of a product detail page and determining content specific to the product detail page. Content extraction is performed in units of content blocks (an example of a content group) described later.
  • the SWF engine is software for generating Flash content based on one or more given contents (Web material).
  • a rich Internet application other than Flash content is generated as new content, for example, a Microsoft Silverlight (trademark) generation engine may be applied instead of the SWF generation engine.
  • software that generates a script that realizes a dynamic page using a technology such as Ajax (Asynchronous JavaScript (registered trademark) + XML) may be applied.
  • the system control unit 20 acquires and analyzes an HTML document registered in the product detail page DB 201 from the shopping server 2, and extracts content that is a Web material in units of content blocks. Then, as the extraction result, content block correspondence information (an example of content information) is registered in the material extraction DB 101 for each extracted content block (1). This process is performed in advance before the generation of the Flash content, and basically all HTML documents registered in the product detail page DB 201, that is, all product detail pages constituting the shopping site are extracted.
  • the URL of the HTML document of the product detail page for which the Flash content is generated is specified by the system administrator or the store employee (2).
  • the system control unit 20 acquires an HTML document from the shopping server 2 based on the designated URL, and extracts a content block.
  • the control unit 20 refers to the material extraction DB 101 and calculates the appearance frequency of all the extracted content blocks on all product detail pages.
  • the appearance frequency calculated may be the number of appearances (frequency) or the ratio of the number of appearances to all content blocks of all product detail pages (relative frequency).
  • the system control part 20 determines the content block peculiar to the goods detailed page corresponding to designated URL based on appearance frequency. Specifically, the system control unit 20 determines that the content block with the lowest appearance frequency is a content block specific to the product detail page corresponding to the specified URL (3).
  • the system control unit 20 acquires content included in the content block determined to be a specific content block from the product detail page DB 201 via the shopping server 2.
  • the system control unit 20 generates Flash content based on the acquired content (4). Then, the system administrator or the store employee downloads the generated Flash content (5). Note that the Flash content may be appropriately modified by the system administrator or store employee before downloading the Flash content.
  • each content as a Web material is displayed for each certain group (group) on the product detail page.
  • Each group corresponds to a content block.
  • Each content is divided into content blocks by a DIV tag and a TABLE tag (an example of a predetermined tag) described in the HTML document. That is, each content is blocked (grouped) by the DIV tag and the TABLE tag.
  • the DIV tag and the TABLE tag are referred to as “blocked tags”.
  • the content block 301 is, for example, a content block in the header portion of the page, and is composed of a text A and an image a.
  • the content block 302 is, for example, a content block of a navigation part for moving to Web pages related to products of various categories, and is composed of, for example, text B, text C, and text D indicating links to other Web pages.
  • the content block 303 is, for example, a content block on which information related to a product is displayed, and includes a text E indicating a heading such as a product name, a content block 304, and a content block 305. In this way, the content blocks may be nested, that is, have a hierarchical structure.
  • the content included in the content block 303 is only the text E, and the content block 304 and the content block 305 are independent of the content block 303.
  • the content block 304 is, for example, a content block indicating details of a product, and includes a text F indicating a detailed description, an image b as an image of the product, and an image c.
  • the content block 305 is, for example, a content block indicating general precautions when purchasing a product, and includes a text G and a text H.
  • the content block 306 is, for example, a content block indicating copyright display, and is composed of text I.
  • content blocks 301, 302, 305 and 306 appear relatively frequently on product detail pages other than the product detail page shown in FIG.
  • the frequency of the content block 303 (text E) and the content block 304 Smaller than 306. Therefore, for example, the content block 303 or the content block 304 is determined to be a content block unique to the product detail page.
  • FIG. 5 shows the HTML document of the product detail page shown in FIG. 4 in a DOM (Document Object Model) tree, that is, a tree structure.
  • DOM Document Object Model
  • a DIV node indicating a DIV tag and a TABLE node indicating a TABLE tag are nodes that block each content into content blocks (hereinafter referred to as “blocked nodes”).
  • the system control unit 20 searches the DOM tree by depth-first search and determines the content block. Specifically, when the system control unit 20 finds a blocked node, the contents defined in each node of the partial tree having the node as a vertex are grouped into a content block.
  • a content block corresponding to a subtree having a higher-level blocked node as a vertex (hereinafter referred to as “higher-level subtree”) It is divided into a content block corresponding to a subtree having a lower blocked node as a vertex (hereinafter referred to as “lower subtree”) and a content block corresponding to a portion of the upper subtree excluding the lower subtree (for example, Content block 304 and content block 303).
  • the former content block is hierarchically lower than the latter content block.
  • the hierarchy of the content blocks 301, 302, 303, and 306 is 1, and the hierarchy of the content blocks 304 and 305 is 2. In other words, the lower the hierarchy value, the higher the hierarchy.
  • the system control unit 20 registers content block correspondence information indicating the extraction result in the material extraction DB 101.
  • the content block correspondence information (reference numeral 401) is registered for each content block.
  • the content block correspondence information includes a URL setting part (reference numeral 402) and block configuration information (reference numeral 403) of the extraction source HTML document.
  • Each extracted content is set in the block configuration information.
  • the URL of the image data is set as the src attribute of the IMG node indicating the IMG tag in the DOM tree.
  • FIG. 7 is a flowchart illustrating a processing example in the material extraction processing of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • the material extraction process is started, for example, periodically or when a request for executing the material extraction process is transmitted from the management terminal 3 based on the operation of the system administrator.
  • the system control unit 20 analyzes all HTML documents registered in the product detail page DB 201. Therefore, for example, the system control unit 20 acquires information on a list of HTML documents registered in the product detail page DB 201 from the shopping server 2 in advance, and acquires an HTML document based on the information on the list.
  • the HTML document of the product detail page may be sequentially acquired by following links one after another from the HTML document of the top page of the shopping site.
  • the system control unit 20 initializes the material extraction DB 101 (step S1). Specifically, when content block correspondence information is registered in the material extraction DB 101, the system control unit 20 deletes all content block correspondence information from the material extraction DB 101.
  • the system control unit 20 specifies the URL of the HTML document of the product detail page to be acquired first among all the product detail pages (step S2), and transmits a request in which the specified URL is set to the shopping server 2.
  • an HTML document is acquired from the shopping server 2 (step S3).
  • the system control unit 20 designates the acquired HTML document and executes a one-page extraction process described later (step S4). In this one-page extraction process, a content block is extracted from the acquired HTML document, and content block correspondence information is registered.
  • step S5 determines whether or not the content blocks of all product detail pages have been extracted. At this time, if there is a product detail page from which no content block is extracted (step S5: NO), the system control unit 20 specifies the URL of the HTML document of the next product detail page (step S6). The process proceeds to step S3. When the system control unit 20 repeats the processes of steps S3 to S6 to extract the content blocks of all the product detail pages (step S5: YES), the material extraction process is terminated.
  • system control unit 20 does not have to initialize the material extraction DB 101 and re-register the content block correspondence information.
  • the system control unit 20 does not initialize the material extraction DB 101, generates content block correspondence information for a newly generated product detail page after executing the material extraction process last time, and additionally registers the content block correspondence information in the material extraction DB 101,
  • content block correspondence information may be generated and updated and registered in the material extraction DB 101 for the product detail page updated after the previous material extraction processing is executed.
  • FIG. 8 is a flowchart showing a processing example in the one-page extraction process of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • the system control unit 20 first generates a DOM tree of the acquired HTML document on the RAM 19 (step S21).
  • the system control unit 20 sets 0 to the block number NUM and sets 0 to the hierarchy LV (step S22).
  • the block number NUM is the number of content blocks that have been discovered at the present time.
  • the hierarchy LV is a hierarchy of content blocks to which the currently searched node belongs in the DOM tree. NUM and LV are both global variables and can be accessed from the one-page extraction process and the tree search process described later.
  • the system control unit 20 designates the root node of the DOM tree (step S23) and executes tree search processing (step S24).
  • the tree search process can be recursively called. By this tree search process, all content blocks are extracted from the Web page, and content block correspondence information is generated.
  • the system control unit 20 registers each content block correspondence information generated by the tree search process in the material extraction DB 101 (step S25). When completing this process, the system control unit 20 ends the one-page correspondence extraction process.
  • FIG. 9 is a flowchart showing a processing example in the tree search process of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • the system control unit 20 first determines the type of the designated node (step S31). At this time, when the designated node type is a DIV node or a TABLE node (blocked node), that is, when a content block is found (step S31: DIV or TABLE), the process proceeds to step S32.
  • step S32 the system control unit 20 adds 1 to the block number NUM and adds 1 to the hierarchy LV.
  • the system control unit 20 sets NUM in the block number BN [LV] (step S33).
  • the block number BN [LV] is the block number of the content block indicated by the hierarchy LV to which the currently searched node belongs. This block number is assigned in the order of discovery of content blocks.
  • BN [LV] is a global variable.
  • the system control unit 20 initializes the content block correspondence information corresponding to the content block with the block number BN [LV] (step S34). Specifically, the system control unit 20 sets an area for storing the content block correspondence information on the RAM 19 and sets the URL of the acquired HTML document in the area.
  • step S35 determines whether there is a child node that has not been searched among the child nodes of the designated node. At this time, if there is a child node that has not been searched yet (step S35: YES), the system control unit 20 proceeds to step S36.
  • step S36 the system control unit 20 designates one of the unsearched child nodes and executes tree search processing (step S37). After completing the tree search process, the system control unit 20 proceeds to step S35.
  • step S35 when the system control unit 20 repeats the processes of steps S35 to S37 and finishes the tree search process for all child nodes (step S35: NO), the system control unit 20 proceeds to step S38. Note that the system control unit 20 also proceeds to step S38 when there is no child node of the designated node. In step S38, the system control unit 20 subtracts 1 from the hierarchy LV and ends the tree search process.
  • step S31 when the type of the designated node is a text node (step S31: text), the system control unit 20 displays the content (text data) of the designated node with the block number BN [LV]. It is additionally set in the block configuration information in the content block correspondence information corresponding to the content block (step S39). After completing this process, the system control unit 20 ends the tree search process.
  • step S31 if the type of the designated node is an IMG node (step S31: IMG), the system control unit 20 acquires the URL of the image data set as the src attribute of the designated node.
  • the acquired URL is additionally set in the block configuration information in the content block correspondence information corresponding to the content block of the block number BN [LV] (step S40). After completing this process, the system control unit 20 ends the tree search process.
  • step S31 when the type of the designated node is not any of the DIV node, the TABLE node, the text node, and the IMG node (step S31: Other), the system control unit 20 is a child of the designated node. It is determined whether there is a child node that has not been searched for among the nodes (step S41). At this time, if there is a child node that has not been searched yet (step S41: YES), the system control unit 20 designates one of the child nodes that have not been searched (step S42). Then, tree search processing is executed (step S43). After completing the tree search process, the system control unit 20 proceeds to step S41.
  • step S41: NO the system control unit 20 finishes the tree search process for all the child nodes of the designated node, or when there is no child node of the designated node (step S41: NO).
  • the tree search process is terminated.
  • FIG. 10 is a flowchart illustrating a processing example in the content generation processing of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • the content generation process is executed when a request for execution of the content generation process is transmitted from the management terminal 3 based on the operation of the system administrator, or the content generation process is executed from the store terminal 4 based on the operation of the store employee. Triggered when a request is sent.
  • the system control unit 20 uses the designated URL as the management terminal 3 or the store terminal 4. (Step S51). Next, the system control unit 20 acquires an HTML document from the shopping server 2 by transmitting a request in which the received URL is set to the shopping server 2 (step S52).
  • the system control unit 20 designates the acquired HTML document and executes a specific content block determination process described later (step S53).
  • a content block is extracted from the acquired HTML document, and a content block specific to the HTML document is determined.
  • the system control unit 20 acquires each content constituting the content block determined to be unique (step S54). At this time, when acquiring the text data, the system control unit 20 acquires the text data from the content block correspondence information corresponding to the content block determined to be unique. On the other hand, when acquiring the image data, the system control unit 20 acquires the URL of the image data from the content block correspondence information corresponding to the content block determined to be unique, and shopping the request in which the acquired URL is set. By transmitting to the server 2, the image data registered in the product detail page DB 201 is acquired from the shopping server 2.
  • the system control unit 20 designates all acquired contents and executes a later-described Flash content generation process (step S55).
  • the system control unit 20 transmits the Flash content generated in the Flash content generation process to the management terminal 3 or the store terminal 4 that is the generation request source (Step S56). After completing this process, the system control unit 20 ends the content generation process.
  • FIG. 11 is a flowchart illustrating a processing example in the specific content block determination process of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • the system control unit 20 first generates a DOM tree of the acquired HTML document (step S61), sets 0 for the number of blocks NUM and the hierarchy LV, as in the one-page extraction process. Perform (step S62), specify the root node of the DOM tree (step S63), and execute the tree search process (step S64).
  • the system control unit 20 sets 1 to the block number i (step S65).
  • the system control unit 20 calculates the appearance frequency of the content block with the block number i (step S66).
  • the system control unit 20 is registered in the block configuration information of the content block correspondence information i (content block correspondence information corresponding to the content block of the block number i) generated in the tree search process and the material extraction DB 101.
  • the block configuration information of each content block correspondence information is compared. At this time, if the contents of the block configuration information match, the system control unit 20 counts the number of appearances as one. At this time, the system control unit 20 may ignore the content order in the block configuration information.
  • the system control unit 20 includes a part of the content specified in the block configuration information of the content block correspondence information i for all of the contents specified in the block configuration information of the content block correspondence information registered in the material extraction DB 101. Even if it matches the content, it may be counted as one appearance.
  • the system control unit 20 when comparing the text data defined in the block configuration information of the content block correspondence information, the system control unit 20 does not determine whether or not the sentences etc. indicated by the text data match. Instead, the substantial contents expressed by the sentences may be compared. For example, the system control unit 20 may extract words from the text data by performing morphological analysis of each text data and compare the extracted words. Then, the system control unit 20 may determine that the text data match when all the words match, or determine that the text data match when the words match at a predetermined ratio or more. May be. In this way, the system control unit 20 compares the block configuration information of the content block correspondence information i with the block configuration information of all the content block correspondence information registered in the material extraction DB 101, and calculates the appearance frequency. .
  • step S67 the system control unit 20 adds 1 to the block number i (step S67), and determines whether the block number i is larger than the value of the block number NUM (step S68). At this time, if the block number i is equal to or less than the value of the block number NUM (step S68: NO), the system control unit 20 proceeds to step S66. And the system control part 20 will transfer to step S69, if the appearance frequency of all the content blocks extracted in the tree search process is calculated (step S68: YES).
  • step S69 the system control unit 20 compares the appearance frequencies of all the content blocks from the content block 1 to the block number indicated by the block number NUM, and determines the content block having the lowest appearance frequency as a specific content block. It is determined that there is (step S69). After completing this process, the system control unit 20 ends the specific content block determination process.
  • FIG. 12 is a flowchart showing a processing example in the Flash content generation processing of the system control unit 20 of the content generation server 1 according to the present embodiment.
  • Flash content that generates a slideshow of each content included in the content block determined to be a specific content block is generated. Will be described below.
  • the system control unit 20 first adjusts the display size of each designated content (step S71). For example, the system control unit 20 adjusts the number of vertical and horizontal pixels of the image data and adjusts the font size of the text data so as to match the actual display size at the time of Flash content playback. In addition, when the display size of the content is too large compared to the actual display size when the Flash content is played back, the system control unit 20 divides the content into a plurality of pieces. Further, the system control unit 20 combines a plurality of contents into one when the display size of the content is too small compared to the actual display size at the time of Flash content reproduction.
  • the system control unit 20 determines the display order of each content (step S72).
  • the display order of each content is basically the same order as the content setting order for the content block correspondence information in the tree search process. That is, the content specified near the top of the document in the HTML document has a faster display order.
  • the system control unit 20 determines a transition method for each content (step S73). That is, the system control unit 20 determines an effect (display effect) to be applied when switching the content to be displayed in the slide show display. Examples of effects include fade-in / fade-out, slide, random block, wipe, and no effect.
  • the system control unit 20 generates Flash content based on the conditions determined in steps S72 and S73 based on the contents adjusted in step S71 (step S74). After completing this process, the system control unit 20 ends the Flash content generation process.
  • the system control unit 20 of the content generation server 1 extracts the content constituting the product detail page corresponding to the specified URL and corresponds to the specified URL.
  • the frequency of appearance of each content constituting the product detail page to be calculated is calculated, and among the content constituting the product detail page corresponding to the specified URL, the content with the lowest appearance frequency is the content specific to the product detail page. It is judged that.
  • the content with the lowest appearance frequency is the content that does not appear much other than the specified product detail page. Therefore, the content specific to the specified product detail page is determined by determining the content with the lowest appearance frequency. Identified. Therefore, content specific to the product detail page can be easily extracted.
  • system control unit 20 of the content generation server 1 generates Flash content based on the content determined to be content specific to the product detail page.
  • system control unit 20 of the content generation server 1 calculates the appearance frequency of each content on a plurality of product detail pages included in the shopping site.
  • the appearance frequency of each content constituting the designated product detail page is calculated on a plurality of Web pages included in the shopping site, the content commonly used in the shopping site is unique. It can be determined that the content is not content, and the determination accuracy can be increased.
  • the system control unit 20 of the content generation server 1 extracts the content constituting the product detail page for all the product detail pages constituting the shopping site, and stores the content block correspondence information indicating the extracted content in advance as a material
  • the frequency of appearance of each content constituting the product detail page corresponding to the specified URL is calculated based on each content block correspondence information registered in the extraction DB 101 and registered in the material extraction DB 101.
  • the system control unit 20 of the content generation server 1 extracts the content constituting the product detail page in units of content blocks composed of one or more contents, and the product details corresponding to the specified URL.
  • the frequency of appearance of each content block constituting the page is calculated, and the content block having the lowest appearance frequency among the content blocks constituting the product detail page corresponding to the specified URL is a content block specific to the product detail page. It is judged that.
  • a header part for example, a navigation part, a part showing product details, a part showing general precautions when purchasing goods, a part showing copyright, etc.
  • a content block specific to the product detail page can be extracted.
  • system control unit 20 of the content generation server 1 extracts the content constituting the product detail page based on the HTML document of the product detail page, and the content block is extracted based on the DIV tag or the TABLE tag in the HTML document. Determine.
  • one or more contents explicitly blocked when creating an HTML document can be specified by the DIV tag, and one of the contents that is blocked and displayed in a table format by the TABLE tag. Since the above content can be specified, for example, when the content specific to the product detail page and the non-specific content are blocked by these tags, the content specific to the Web page is determined. The accuracy can be increased.
  • the content block correspondence information corresponding to each content block constituting the designated product detail page is compared with all the content block correspondence information registered in the material extraction DB 101.
  • Each occurrence frequency was calculated.
  • the frequency of appearance in the range targeting all the product detail pages included in the shopping site was calculated.
  • it is not necessary to target all product detail pages For example, it is possible to specify a target store and calculate the frequency of appearance in a range targeting all product detail pages corresponding to the specified store. Further, for example, product detail pages for a predetermined number of pages may be targeted.
  • content blocks may be extracted for each product detail page necessary for calculating the appearance frequency.
  • the Flash content is generated when the URL of the HTML document of the product detail page is specified by the system administrator or the store employee.
  • new product details When a page is created or when a product detail page is updated, Flash content for a newly created or updated product detail page may be generated.
  • the content block with the lowest appearance frequency is set as the content specific to the Web page.
  • the content block with the lowest appearance frequency is Nth (N is a natural number of 2 or more).
  • N content blocks up to small content may be used as content blocks specific to the Web page. This can be applied, for example, when the number of content blocks necessary for desired processing is two or more and predetermined.
  • the number of contents (not content blocks) necessary for the desired processing is predetermined at 2 or more, and only the content included in the content block with the lowest appearance frequency is insufficient
  • the content block with the second lowest appearance frequency is additionally certified as content specific to the Web page, and only the content included in the content block with the first lowest frequency and the content block with the second smallest frequency is insufficient
  • Flash content is generated using content specific to the Web page.
  • content other than Flash content for example, moving image data, still image data, electronic document, etc.
  • the use of content unique to a Web page is not limited to the generation of new content.
  • image data specific to a Web page may be determined, and the image data determined to be specific image data may be displayed in a search result or the like as image data representing the Web page.
  • FIG. 13 is a diagram showing an example of a schematic configuration of the blog system BS according to the present embodiment. In FIG. 13, elements similar to those in FIG.
  • the blog system BS includes a blog server 6 as an example of a specific content determination device and a related content insertion device, a management terminal 3, and a plurality of user terminals 5.
  • the blog server 6 and each user terminal 5 can transmit / receive data to / from each other using, for example, TCP / IP as a communication protocol via the network NW.
  • the blog server 6 and the management terminal 3 are connected via a network such as a LAN.
  • the blog server 6 is a Web server that transmits a Web page constituting the blog service site in response to a request from the user terminal 5.
  • the user can manage his / her blog on the blog service site.
  • the registered user (blogger) can access the blog service site and update his / her blog (add blog articles (records for each blog)). Therefore, the blog server 6 generates or updates a blog page on which one or a plurality of blog articles are posted as a blog Web page in accordance with the update of the blog.
  • the blog server 6 includes a blog page DB 601 and registers the blog page in the blog page DB 601.
  • the blog server 6 inserts advertising content (an example of related content) into the blogger's blog page designated by the system administrator.
  • the advertisement content includes, for example, text data of advertisement text, banner image data, moving image data, a rich internet application (RIA) generated by Adobe Flash (trademark), Silverlight (trademark), and the like.
  • the advertising content inserted into each blog page is content indicating an advertisement related to a product or service related to the blog article posted on the target blog page. Therefore, the blog server 6 includes an advertisement DB 602 in which a plurality of advertisement contents are registered. Then, the blog server 6 extracts a blog article from the blog page, further extracts a feature word from the blog article, and selects advertisement content related to the extracted feature word.
  • the user terminal 5 is a terminal device used by a user as a blogger or a user browsing a blog.
  • a user terminal 5 for example, a personal computer, a PDA, a mobile phone or the like is used.
  • the management terminal 3 is a terminal device used by the system administrator of the blog system BS.
  • a personal computer or the like is used as the management terminal 3.
  • FIG. 14 is a block diagram showing an example of a schematic configuration of the blog server 6 according to the present embodiment.
  • FIG. 15 is a diagram showing an overview of processing from when a blogger is designated until the insertion of advertisement content on a blog page.
  • FIG. 16 is a diagram illustrating a configuration example of a Web page.
  • FIG. 17 is a diagram illustrating an example of a DOM tree generated from an HTML document.
  • FIG. 18 is a diagram illustrating an example of the content of the content block correspondence information stored in the storage unit 65.
  • the blog server 6 includes an operation unit 61, a display unit 62, a communication unit 63, a drive unit 64, a storage unit 65 as an example of a storage unit, an input / output interface unit 66, A system control unit 70.
  • the system control unit 70 and the input / output interface unit 66 are connected via a system bus 71.
  • the operation unit 61 includes, for example, a keyboard, a mouse, and the like, and receives an operation instruction from a system administrator or the like, and outputs the instruction content to the system control unit 70 as an instruction signal.
  • the display unit 62 includes, for example, a CRT display, a liquid crystal display, and the like, and displays information such as characters and images.
  • the communication unit 63 is connected to the network NW or the like, and controls the communication state with the management terminal 3, the user terminal 5, and the like.
  • the drive unit 64 reads data from a disk DK such as a flexible disk, a CD, or a DVD, and records data on the disk DK.
  • the storage unit 65 is constituted by, for example, a hard disk drive or the like, and stores various programs and data.
  • a blog page DB 601 and an advertisement DB 602 are constructed.
  • each blog page constituting the blog service site (HTML document (an example of document data) of the blog page, image data that is the material of the blog page), for example, the URL of the page and the identification of the blogger It is registered in association with the user ID which is information.
  • the advertisement DB 602 a plurality of advertisement contents are registered in association with keywords related to products or services to be advertised by the advertisement contents.
  • the URL of the content is also registered in association with it.
  • the URL of the Web page is also registered in association with the Web page related to the advertisement target product or service.
  • the input / output interface unit 66 performs interface processing between the operation unit 61 to the storage unit 65 and the system control unit 70.
  • the system control unit 70 includes a CPU 67, a ROM 68, a RAM 69, and the like.
  • the system control unit 70 controls each unit of the blog server 6 by the CPU 67 reading and executing various programs stored in the ROM 68 and the storage unit 65.
  • the system control unit 70 functions as an extraction unit, a calculation unit, a determination unit, and an insertion unit by executing advertisement content insertion software (an example of a specific content determination program).
  • advertisement content insertion software may be acquired from another server device or the like via the network NW, or may be recorded on a disk DK such as a CD-ROM and read via the drive unit 64. You may make it.
  • Advertising content insertion software is a program for inserting advertising content into a blog page.
  • the advertisement content insertion software includes a manager section, a material extraction engine, a sentence analysis engine, an advertisement selection section, and the like.
  • the manager unit controls execution of the material extraction engine, the sentence analysis engine, and the advertisement selection unit.
  • the material extraction engine is software for extracting content as a Web material from an HTML document of a blog page and determining content specific to the blog page. Content extraction is performed in units of content blocks (an example of a content group).
  • a blog article including content specific to the article corresponds to a content block specific to the blog page.
  • the sentence analysis engine is software for extracting feature words of the blog page from the blog article extracted as content unique to the blog page.
  • the advertisement selection unit is software for selecting advertisement content related to the blog page using the extracted feature words as keywords.
  • the user ID of the target blogger is designated by the system administrator (1).
  • the system control unit 70 acquires and analyzes HTML documents of all blog pages corresponding to the designated user ID from the blog page DB 601, and extracts content as Web material in units of content blocks.
  • content block correspondence information (an example of content information) is generated for each extracted content block (2).
  • the system control unit 70 calculates the appearance frequency of each extracted content block on all blog pages corresponding to the specified user ID.
  • the appearance frequency calculated in the present embodiment is, for example, the number of appearances (frequency).
  • the system control part 70 determines the content block peculiar in each blog page based on appearance frequency. Specifically, the system control unit 70 determines in each blog page that a content block whose appearance frequency is equal to or less than a predetermined threshold is a content block unique to the blog page (3).
  • the system control unit 70 performs analysis such as morphological analysis on the content block determined to be a specific content block, that is, a blog article, and extracts a feature word for each block page (4).
  • analysis such as morphological analysis on the content block determined to be a specific content block, that is, a blog article.
  • a feature word for each block page (4).
  • a word having the highest appearance frequency is used as a feature word.
  • the system control unit 70 refers to the advertisement DB 602 and selects an advertisement content related to the extracted feature word (5). Then, the system control unit 70 inserts a rule (such as a description of a tag or data itself) for inserting and displaying the selected advertisement content into the blog page and displaying it in the HTML document of the blog page (6).
  • a rule such as a description of a tag or data itself
  • each content as a Web material is displayed for each certain group (group) on the blog page.
  • Each group corresponds to a content block.
  • Each content is divided into content blocks by a DIV tag and a TABLE tag (an example of a predetermined tag) described in the HTML document. That is, each content is blocked (grouped) by the DIV tag and the TABLE tag.
  • the content block 701 is, for example, a content block in the header portion of the page, and includes a text A and an image a.
  • the content block 702 is, for example, a content block of a navigation part for moving to another web page, and is composed of, for example, text B, text C, and text D indicating links to other web pages.
  • the content block 703 is, for example, a content block corresponding to a blog display area, and includes a text E indicating a headline such as a blog, a content block 704, and a content block 705.
  • the content blocks may be nested, that is, have a hierarchical structure.
  • the content included in the content block 703 is only the text E, and the content block 704 and the content block 705 are independent of the content block 703.
  • Each of the content blocks 704 and 705 is one blog article.
  • the content block 704 is composed of text F and G indicating the title and body of the blog article.
  • the content block 705 includes texts H, I, and J indicating the title and body of the blog article and images b and c registered by the blogger in relation to the blog article.
  • the content block 706 is, for example, a content block indicating copyright display, and is composed of text I.
  • content blocks 701, 702, 703, and 706 appear relatively frequently on blog pages other than the blog page shown in FIG.
  • the content block 704 and the content block 705 are basically used only for the blog page. Therefore, it is determined that the content block 704 or the content block 705 is a content block unique to the blog page.
  • a content block corresponding to a blog article including the content specific to the article it is necessary to determine a content block corresponding to a blog article including the content specific to the article as a specific content block.
  • a plurality of blog articles including such specific contents are included in one page. For this reason, all content blocks whose appearance frequency is equal to or lower than a predetermined threshold are set as unique content blocks.
  • the threshold value is set to once. Then, a blog article including specific content is determined as a specific content block, and a blog article including only content similar to other blog articles is not determined as a specific content block.
  • the appearance frequency of content blocks that are common to each blog page such as the header portion, the navigation portion, and the copyright display portion is two times or more, these are not determined to be specific content blocks.
  • the threshold value is stored in the storage unit 65 in advance.
  • FIG. 17 shows the HTML document of the blog page shown in FIG. 16 as a DOM tree, that is, a tree structure.
  • a DOM tree that is, a tree structure.
  • illustration of tag nodes that are not necessary for the description of the present embodiment is omitted.
  • the system control unit 70 When the content block is extracted as in the case of the first embodiment, the system control unit 70 temporarily stores the content block correspondence information indicating the extraction result in the storage unit 65. As shown in FIG. 18, the content block correspondence information (reference numeral 401) is stored for each content block.
  • the content block correspondence information (reference numeral 401) is stored for each content block.
  • feature words are extracted from a content block determined to be a blog page-specific content block, that is, a blog article, text data may be extracted, and image data is extracted. It is not necessary.
  • FIG. 19 is a flowchart showing a processing example in the advertisement content insertion process of the system control unit 70 of the blog server 6 according to the present embodiment.
  • the advertisement content insertion process is started, for example, when a request for execution of the advertisement content insertion process is transmitted from the management terminal 3 based on the operation of the system administrator.
  • the system control unit 70 receives the designated user ID from the management terminal 3 as shown in FIG. (Step S101).
  • the system control unit 70 sets 0 to the block number NUM (step S102).
  • the block number NUM is the number of content blocks that have been discovered at the present time. NUM is a global variable and can be accessed from a one-page extraction process and a tree search process described later.
  • the system control unit 70 acquires the HTML document of the first blog page corresponding to the received user ID from the blog page DB 601 (step S103).
  • the system control unit 70 designates the acquired HTML document and executes a one-page extraction process described later (step S104). In this one-page extraction process, a content block is extracted from the acquired HTML document, and the content block correspondence information is stored.
  • step S105 determines whether or not the content blocks of all the blog pages corresponding to the received user ID have been extracted. At this time, if there is a blog page from which no content block has been extracted (step S105: NO), the system control unit 70 acquires an HTML document of the next blog page from the blog page DB 601 (step S106). The process proceeds to step S104. When the system control unit 70 repeats the processes of steps S104 to S106 to extract the content blocks of all the blog pages (step S105: YES), the system control unit 70 proceeds to step S107.
  • step S107 the system control unit 70 specifies the HTML document of the first blog page corresponding to the received user ID.
  • the system control unit 70 designates the acquired HTML document and executes a specific content block determination process described later (step S108).
  • a content block is extracted from the specified HTML document, and a content block specific to the blog page is determined.
  • the system control unit 70 extracts feature words of the blog page from each text data constituting the content block determined to be unique (step S109).
  • the system control unit 70 inserts an advertisement page related to the blog page into the blog page based on the extracted feature words (step S110).
  • the system control unit 70 uses the extracted feature word as a keyword, refers to the advertisement DB 602, and selects advertisement content corresponding to the keyword.
  • the system control unit 70 inserts the rule for the selected advertisement content at a predetermined position on the specified HTML document. For example, when the advertising content includes text data, the system control unit 70 adds the content of the text data to the HTML document.
  • the system control unit 70 adds an IMG tag for displaying the image data to the HTML document. Further, for example, the system control unit 70 adds link information to the Web page related to the advertisement target product or service to the HTML document.
  • the system control unit 70 When the system control unit 70 inserts the advertisement content rule into the specified HTML document, the system control unit 70 updates the HTML document registered in the blog page DB 601 with the HTML document (step S111).
  • the system control unit 70 determines whether or not advertisement content has been inserted into all the blog pages corresponding to the received user ID (step S112). At this time, if there is a blog page in which no advertising content is inserted (step S112: NO), the system control unit 70 identifies the HTML document of the next blog page (step S113), and proceeds to step S108. Transition. Then, when the system control unit 70 repeats the processing of steps S108 to S113 and inserts the advertising content into all the blog pages (step S112: YES), it stores all the content block correspondence information stored in the storage unit 65. Then, it is deleted from the storage unit 65 (step S114). After completing this process, the system control unit 70 ends the advertisement content insertion process.
  • FIG. 20 is a flowchart showing a processing example in the one-page extraction process of the system control unit 70 of the blog server 6 according to this embodiment.
  • the system control unit 70 first generates a DOM tree of the acquired HTML document on the RAM 69 (step S121).
  • the system control unit 70 sets 0 in the hierarchy LV (step S122).
  • the hierarchy LV is a hierarchy of content blocks to which the currently searched node belongs in the DOM tree.
  • LV is a global variable and can be accessed from the one-page extraction process and tree search process.
  • the system control unit 70 designates the root node of the DOM tree (step S123) and executes tree search processing (step S124). Since the processing contents of the tree search processing are the same as those in the first embodiment, detailed description thereof is omitted.
  • the system control unit 70 stores each content block correspondence information generated by the tree search process in the storage unit 65 (step S125). When completing this process, the system control unit 70 ends the one-page correspondence extraction process.
  • FIG. 21 is a flowchart illustrating a processing example in the specific content block determination process of the system control unit 70 of the content generation server 1 according to the present embodiment.
  • the system control unit 70 first generates a DOM tree of the designated HTML document (step S161), sets 0 for the block number NUM and the hierarchy LV, as in the one-page extraction process. (Step S162), the root node of the DOM tree is designated (step S163), and the tree search process is executed (step S164).
  • the system control unit 70 sets 1 to the block number i (step S165).
  • the system control unit 70 calculates the appearance frequency of the content block with the block number i (step S166).
  • the system control unit 70 obtains the block configuration information of the content block correspondence information i generated in the tree search process in step S164 and the block configuration information of each content block correspondence information stored in the storage unit 65.
  • the appearance frequency is calculated by comparison.
  • the appearance frequency calculation method is the same as in the first embodiment.
  • the system control unit 70 determines whether or not the calculated appearance frequency is equal to or less than a threshold stored in the storage unit 65 (step S167). At this time, if the appearance frequency is equal to or lower than the threshold (step S167: YES), the system control unit 70 determines that the content block with the block number i is one of the unique content blocks (step S168). . That is, the system control unit 70 adds the content block with the block number i to the content block specific to the blog page corresponding to the designated HTML document.
  • step S167: NO When the appearance frequency is greater than the threshold (step S167: NO), or when the process of step S168 is completed, the system control unit 70 adds 1 to the block number i (step S169), and the block number It is determined whether i is larger than the value of the block number NUM (step S170). At this time, when the block number i is equal to or less than the value of the block number NUM (step S170: NO), the system control unit 70 proceeds to step S166. And the system control part 70 will complete
  • the system control unit 70 extracted the content block by the tree search process in step S164, but in the one-page correspondence extraction process (step S104 in FIG. 19) executed from the advertisement content insertion process, the received blogger user Content blocks are extracted for all blog pages corresponding to the ID, and as a result, the content block correspondence information is stored in the storage unit 65, so that it is not necessary to extract the content blocks again. In that case, based on the URL of the designated HTML document, the content block correspondence information of each content block constituting the blog page to which the HTML document corresponds can be acquired from the storage unit 65.
  • the advertising content is inserted into the blog page of the designated blogger.
  • the advertising content is inserted at the timing when the blog is updated. good.
  • FIG. 22 is a flowchart showing a processing example in the blog update process of the system control unit 70 of the blog server 6 according to a modification of the present embodiment.
  • the same steps as those in FIG. 19 are denoted by the same step numbers.
  • the blogger accesses the blog service site by operating the user terminal 5, and logs in to the blog service site by entering his user ID and password.
  • the blog server 6 issues a session ID to the user terminal 5, and manages the session ID and the user ID in association with each other. Since the request from the user terminal 5 to the blog server 6 includes a session ID, the blog server 6 can specify which blogger the request is from.
  • the user terminal 5 transmits blog article data (text data such as title and body text, image data, etc.) to the blog server 6, as shown in FIG.
  • the system control unit 70 of the blog server 6 receives the blog article data (step S171).
  • the system control unit 70 acquires the HTML document of the blog page to be updated from the blog page DB 601 from among the blog pages corresponding to the blogger user ID (step S172).
  • the system control unit 70 updates the acquired HTML document based on the received blog article data (step S173). For example, the system control unit 70 adds a TABLE tag or DIV tag for a blog article to the acquired HTML document, and adds the title of the received blog article, text data of the body text, etc. sandwiched between the tags. To do.
  • the system control unit 70 updates the HTML document registered in the blog page DB 601 with the HTML document to which the blog article data has been added (step S174).
  • the system control unit 70 extracts content blocks from all blog pages corresponding to the blogger user ID (steps S103 to S106).
  • the system control unit 70 designates the HTML document updated in step S173, executes the specific content block determination process (step S108), and determines the blog page from each text data constituting the content block determined to be specific. Feature words are extracted (step S109).
  • the system control unit 70 deletes the existing advertisement content rule from the specified HTML document (step S775), and inserts the related advertisement content rule using the extracted feature word as a keyword (step S110). . That is, the system control unit 70 changes the advertising content displayed on the blog page.
  • the system control unit 70 updates the HTML document registered in the blog page DB 601 with the HTML document in which the advertisement content specification is inserted (step S111), and deletes all content block correspondence information from the storage unit 65. (Step S114).
  • the processing when a new blog page has to be generated along with the blog update may be basically the same as the processing described above. However, since the advertisement content has not yet been inserted into the newly generated blog page, the advertisement content rule is not deleted in step S175.
  • a content block (blog article) having an appearance frequency of once is extracted as content specific to the blog page, and feature words are extracted from the text data of the extracted blog article.
  • the threshold is set to once
  • a content block (blog article) having an appearance frequency of once is extracted as content specific to the blog page, and feature words are extracted from the text data of the extracted blog article.
  • the number of words extracted from the text data decreases. If a sufficient number of words cannot be extracted, it may not be possible to determine at all which word is a feature word, or may not be able to accurately determine. Therefore, by increasing the threshold value and loosening the condition for determining content specific to the blog page, the number of blog articles that are the target of feature word extraction is increased. As a result, feature words can be extracted.
  • the system control unit 70 of the blog server 6 initially sets a threshold value to once, and determines a content block specific to the blog page, thereby extracting a blog article that appears once. To extract feature words. At this time, if it is determined that the feature word cannot be extracted, the system control unit 70 changes the threshold to two times, and extracts the blog article and the feature word. If the system control unit 70 still determines that the feature word cannot be extracted, the system control unit 70 changes the threshold to three times to extract the blog article and the feature word. The system control unit 70 continues such processing until a feature word can be extracted. That is, the threshold value is raised when the processing based on the extraction result of the specific content block cannot be normally performed.
  • the processing is interrupted when the threshold value is increased to some extent. For example, if the threshold value rises to the value of the number of pages of the blog page corresponding to the specified blogger, the content block used in common in each blog page is extracted, so the threshold value is the number of pages of the blog page. Processing may be interrupted when the value is reached.
  • the system administrator may predetermine that a content block that appears only once per a predetermined number of pages of a blog page is a content block specific to the blog page.
  • the number of appearances as the threshold value may be changed in proportion to the number of blog pages corresponding to the designated blogger.
  • a blog article registered by a blogger can register a comment from another user, and the comment can be viewed together with the blog article.
  • the text data of this comment is also one of the contents constituting the blog page.
  • the system control unit 70 of the blog server 6 adds a description of a blocking tag to the HTML document of the blog page and adds the text data to the comment. Is a content block independent of the text data of blog articles and other comments. Then, the system control unit 70 extracts the text data of the comment as a content block, and if the extracted text data of the comment has a specific content, the advertising content related to the comment is inserted into the blog page To do.
  • the contents of the plurality of comments are not so much as contents that frequently appear, for example, opinions of majority and minority. It may be divided into contents that do not appear frequently. At this time, the opinions of the majority can be considered as general opinions and not very characteristic content. On the other hand, the opinions of minorities are unique opinions and can be considered as content specific to blog pages. In such a case, I want to extract comments that show minority opinions as content specific to the blog page.
  • the number of majority opinions and the number of minority opinions are relative and vary with the total number of comments.
  • the frequency is used as the appearance frequency and the threshold is set to, for example, once, contents that do not appear frequently (minority opinions) may not be appropriately extracted. Therefore, the relative frequency is used as the appearance frequency, and the threshold is set to a predetermined ratio.
  • the threshold value at this time can be set arbitrarily. For example, when the content of the extracted content block is divided into N patterns (N is an integer of 2 or more), in order to distinguish minority opinions, a threshold value is set within a range of less than 1 / N. You may do it. As described above, the system control unit 70 may change the threshold according to the situation at that time.
  • Twitter trademark
  • electronic bulletin boards As a system capable of registering comments and the like for articles such as blogs, for example, other users can register a tweet that follows a tweet registered by a certain user. Twitter (trademark) and electronic bulletin boards.
  • the system control unit 70 of the blog server 6 extracts the contents constituting the blog pages that are sequentially designated by the designation of the HTML document, and is designated.
  • the appearance frequency of each content constituting the blog page is calculated, and among the contents constituting the specified blog page, the content whose appearance frequency is equal to or less than a predetermined threshold is determined to be content specific to the blog page. .
  • the content with a smaller appearance frequency is a content that does not appear much other than the designated blog page, all content satisfying the condition is determined by determining whether the appearance frequency is equal to or less than a threshold. Identified as content specific to the specified blog page. Therefore, content specific to the blog page can be easily extracted.
  • system control unit 70 of the blog server 6 inserts advertisement content related to content specific to the designated blog page into the blog page.
  • the system control unit 70 of the blog server 6 includes text data of a blog article as the content constituting the designated blog page
  • the text data is converted into the text data specific to the blog page. It is determined that the content is the content, the feature word of the blog page is extracted from the text data of the blog article, and the advertisement content associated in advance is inserted into the blog page using the feature word as a keyword.
  • an advertisement related to the content of the blog posted on the blog page can be added to the blog page.
  • system control unit 70 of the blog server 6 calculates the appearance frequency of each content on a plurality of blog pages included in the blog service site.
  • the appearance frequency of each content constituting the specified blog page is calculated on a plurality of Web pages (for example, a plurality of blog pages corresponding to the specified blogger user ID) included in the blog service site. Therefore, it is possible to determine that the content used in common in the blog service site is not unique content, and the determination accuracy can be improved.
  • system control unit 70 of the blog server 6 extracts the contents constituting the blog page in units of content blocks composed of one or more contents, and configures each designated blog page.
  • the content block appearance frequency is calculated, and among the content blocks constituting the designated blog page, a content block whose appearance frequency is equal to or less than a threshold is determined to be a content block specific to the blog page.
  • a content block specific to a blog page can be extracted.
  • system control unit 70 of the blog server 6 extracts the content constituting the blog page based on the HTML document of the blog page, and determines the content block based on the DIV tag or the TABLE tag in the HTML document.
  • one or more contents explicitly blocked when creating an HTML document can be specified by the DIV tag, and one of the contents that is blocked and displayed in a table format by the TABLE tag. Since the above content can be specified, for example, when the content specific to the blog page and the non-specific content are blocked by these tags, the accuracy of determining the content specific to the web page Can be raised.
  • the content block correspondence information corresponding to each content block constituting the designated blog page is used as the content block constituting all the blog pages corresponding to the designated blogger user ID.
  • Each appearance frequency was calculated by comparing with corresponding information.
  • the frequency of appearance in the range targeting all the blog pages corresponding to the specified blogger was calculated.
  • the target range is not limited to this. For example, blog pages corresponding to a predetermined number of pages may be targeted, or all blog pages constituting the blog service site may be targeted.
  • advertising content which shows the advertisement regarding goods or a service was inserted in the said web page as content relevant to the content peculiar to a web page
  • advertising content It is not limited to.
  • image data still image or moving image
  • content such as a blog article determined to be unique content
  • a database for image data is constructed, and image data and keywords are associated and registered in the database.
  • the keyword associated with the image data is a word indicating an image represented by the image data or a word related to the image.
  • feature words are extracted from the content determined to be unique content, and related image data is selected from the database using the extracted feature words as keywords.
  • the URL of the selected image data is inserted as a background attribute in the BODY tag of the target HTML document, or an IMG tag for displaying the selected image data is inserted at a predetermined position of the target HTML document.
  • content specific to a Web page is not limited to only inserting related content into a Web page.
  • new content may be generated based on content unique to the Web page.
  • text data and image data are extracted as content constituting a Web page, but the content to be extracted is not limited to these. For example, it may be content displayed on a Web page or content that is played back when a Web page is displayed (for example, moving image data, audio data, electronic document, etc.). Further, only a predetermined type of content may be extracted.
  • interposed into the TABLE tag were extracted by grouping as a content block,
  • a tag which groups content it is not limited to these.
  • content specific to a Web page is extracted in units of content blocks.
  • each content may be extracted as it is.
  • the specific content determination device of the present invention is applied to the server device.
  • the specific content determination device is specific to the terminal device.
  • a content determination device may be applied.
  • the document data of the present invention is applied to an HTML document.
  • data for example, XHTML (Extensible HyperText Markup) that is described in a markup language and indicates content constituting a Web page.
  • Document data may be applied to (Language) documents, etc.).
  • the content that constitutes the product detail page on the shopping site and the content that constitutes the blog page on the blog service site are extracted, but the target site and page types are limited to these. It is not something that can be done.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

 Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出する。コンピュータを、指定されたWebページを構成しているコンテンツを抽出する抽出手段、指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、計算された出現頻度に基づいて、指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段、として機能させる。

Description

特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置
 本発明は、Webページを構成するコンテンツを抽出する技術分野に関する。
 従来、Webサイト上に公開されているWebページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。例えば、非特許文献1には、ユーザにより画像データのURLが指定されると、当該URLに対応する画像データをWeb上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。
"バナー自動作成"、[online]、[平成21年10月21日検索]、インターネット<URL:http://hyperbannermaker.com/>
 Webサイトを構成する各Webページには、そのWebサイトの目的に沿った内容が掲載される。そのため、Webサイトを構成する各Webページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。そして、そのWebページの内容を決める要因が、Webページを構成しているコンテンツ(例えば、テキストデータ、画像データ等)の内容である。従って、Webページを構成しているコンテンツの中で、そのWebページを特徴付けるコンテンツ、すなわち、そのWebページ特有のコンテンツが存在することがある。
 非特許文献1に記載の技術は、Webページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Webページに特有のコンテンツを容易に抽出することはできない。そのため、どのコンテンツがWebページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Webページに特有のコンテンツを的確に抽出することができない。また、対象とするWebページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。
 また、例えば、HTML(HyperText Markup Language)文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。しかしながら、抽出されたコンテンツの中には、Webページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。
 本発明は以上の点に鑑みてなされたものであり、Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。
 上記課題を解決するために、請求項1に記載の発明は、コンピュータを、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段、として機能させることを特徴とする。
 この発明によれば、指定されたWebページを構成している各コンテンツの出現頻度が夫々計算される。この出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツである。そのため、出現頻度に基づいて、指定されたWebページに特有のコンテンツを特定することができる。よって、Webページに特有のコンテンツを容易に抽出することができる。
 請求項2に記載の発明は、請求項1に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、最も出現頻度が小さいコンテンツを判断することで、指定されたWebページに特有のコンテンツが特定される。
 請求項3に記載の発明は、請求項1に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Webページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、出現頻度が所定値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたWebページに特有のコンテンツであると特定される。
 請求項4に記載の発明は、請求項1乃至3の何れか1項に記載の特有コンテンツ判定プログラムにおいて、前記計算手段が、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、所定のサイトに含まれる或る複数のWebページ上において、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、サイト内で共通して用いられるコンテンツは、Webページに特有のコンテンツではないと判定することが可能となり、Webページに特有のコンテンツを判断する精度を上げることができる。
 請求項5に記載の発明は、請求項1乃至4の何れか1項に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段が、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、所定のサイトに含まれる予め定められた種類の各Webページについて予め抽出したておいた結果としてのコンテンツ情報に基づいて、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、出現頻度が正確に計算され、Webページに特有のコンテンツを判断する精度を上げることができる。
 請求項6に記載の発明は、請求項1乃至5の何れか1項に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段が、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段が、前記指定されたWebページを構成しているコンテンツグループのうち、当該Webページに特有であるコンテンツグループを判定するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、コンテンツグループの単位でWebページに特有のコンテンツが判断されるので、例えば、Webページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Webページに特有のコンテンツとなるものを抽出することができる。
 請求項7に記載の発明は、請求項6に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、Webページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、的確にコンテンツグループを抽出することができる。
 請求項8に記載の発明は、請求項7に記載の特有コンテンツ判定プログラムにおいて、前記抽出手段が、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めるように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Webページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
 請求項9に記載の発明は、請求項1乃至8の何れか1項に記載の特有コンテンツ判定プログラムにおいて、特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段として前記コンピュータを更に機能させることを特徴とする。
 この発明によれば、Webページに特有のコンテンツに基づいて新たなコンテンツが生成されるので、例えば、当該Webページに掲載されている内容の特徴を示すコンテンツを生成することができる。
 請求項10に記載の発明は、請求項9に記載の特有コンテンツ判定プログラムにおいて、前記生成手段が、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする。
 請求項11に記載の発明は、請求項9又は請求項10に記載の特有コンテンツ判定プログラムにおいて、前記生成手段が、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする。
 請求項12に記載の発明は、請求項1乃至8の何れか1項に記載の特有コンテンツ判定プログラムにおいて、特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段として前記コンピュータを更に機能させることを特徴とする。
 この発明によれば、特有のコンテンツであると判定されたコンテンツに関連するコンテンツが、指定されたWebページに挿入されるので、Webページの特徴と関連する情報を当該Webページに追加することができる。
 請求項13に記載の発明は、請求項12に記載の特有コンテンツ判定プログラムにおいて、前記判定手段が、前記指定されたWebページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、前記挿入手段が、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたWebページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Webページに挿入するように、前記コンピュータを機能させることを特徴とする。
 この発明によれば、各ブログの記事のテキストデータにその記事特有の内容が含まれているのであれば、特有コンテンツ判定装置により各ブログの記事のテキストデータを抽出することができる。これにより、Webページに掲載されているブログの内容に関連する情報を当該Webページに追加することができる。
 請求項14に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段と、を備えることを特徴とする。
 請求項15に記載の発明は、請求項14に記載の特有コンテンツ判定装置において、前記判定手段は、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定することを特徴とする。
 請求項16に記載の発明は、請求項14に記載の特有コンテンツ判定装置において、前記判定手段は、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Webページに特有のコンテンツであると判定することを特徴とする。
 請求項17に記載の発明は、請求項14乃至16の何れか1項に記載の特有コンテンツ判定装置において、前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする。
 請求項18に記載の発明は、請求項14乃至17の何れか1項に記載の特有コンテンツ判定装置において、前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする。
 請求項19に記載の発明は、請求項14乃至18の何れか1項に記載の特有コンテンツ判定装置において、前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、当該Webページに特有であるコンテンツグループを判定することを特徴とする。
 請求項20に記載の発明は、請求項19に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。
 請求項21に記載の発明は、請求項20に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。
 請求項22に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出行程と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定行程と、を有することを特徴とする。
 請求項23に記載の発明は、コンピュータを、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段、として機能させる特有コンテンツ判定プログラムがコンピュータ読み取り可能に記録されていることを特徴とする。
 請求項24に記載の発明は、請求項14乃至21の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、を備えることを特徴とする。
 請求項25に記載の発明は、請求項24に記載のコンテンツ生成装置において、前記生成手段は、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成することを特徴とする。
 請求項26に記載の発明は、請求項24又は請求項25に記載のコンテンツ生成装置において、前記生成手段は、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成することを特徴とする。
 請求項27に記載の発明は、請求項14乃至21の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、を備えることを特徴とする。
 請求項28に記載の発明は、請求項27に記載の関連コンテンツ挿入装置において、前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、前記挿入手段は、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたWebページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Webページに挿入することを特徴とする。
 本発明によれば、出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツである。そのため、出現頻度に基づいて、指定されたWebページに特有のコンテンツを特定することができる。よって、Webページに特有のコンテンツを容易に抽出することができる。
一実施形態に係るショッピングシステムSの概要構成の一例を示す図である。 一実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。 Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。 Webページの構成例を示す図である。 HTML文書から生成されたDOMツリーの一例を示す図である。 素材抽出DB101に登録される情報の内容の一例を示す図である。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。 一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。 一実施形態に係るブログシステムBSの概要構成の一例を示す図である。 一実施形態に係るブログサーバ6の概要構成の一例を示すブロック図である。 ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。 Webページの構成例を示す図である。 HTML文書から生成されたDOMツリーの一例を示す図である。 記憶部65に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。 一実施形態に係るブログサーバ6のシステム制御部70の広告コンテンツ挿入処理における処理例を示すフローチャートである。 一実施形態に係るブログサーバ6のシステム制御部70の1ページ対応抽出処理における処理例を示すフローチャートである。 一実施形態に係るブログサーバ6のシステム制御部70の特有コンテンツブロック判定処理における処理例を示すフローチャートである。 一実施形態の変形例に係るブログサーバ6のシステム制御部70のブログ更新時処理における処理例を示すフローチャートである。
 [1.第1実施形態]
 以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ネットワーク上の電子的なやりとりにより商品の売買が行われるショッピングシステムにおいて、ショッピングサイトのWebページから抽出されたWebページに特有のコンテンツに基づいて新たなコンテンツを生成するサーバ装置に対して本発明を適用した場合の実施形態である。
 [1-1.ショッピングシステムの構成及び機能概要]
 先ず、本実施形態に係るショッピングシステムSの構成及び概要機能について、図1を用いて説明する。
 図1は、本実施形態に係るショッピングシステムSの概要構成の一例を示す図である。
 図1に示すように、ショッピングシステムSは、特有コンテンツ判定装置及びコンテンツ生成装置の一例としてのコンテンツ生成サーバ1と、ショッピングサーバ2と、管理端末3と、複数の店舗端末4と、複数のユーザ端末5と、を含んで構成されている。そして、コンテンツ生成サーバ1と、ショッピングサーバ2と、各店舗端末4と、各ユーザ端末5とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワークNWは、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、及びゲートウェイ等により構築されている。また、コンテンツ生成サーバ1と管理端末3とは、LAN(Local Area Network)等のネットワークを介して接続されている。なお、コンテンツ生成サーバ1とショッピングサーバ2とが、同じくLAN等のネットワークを介して接続されても良い。
 このような構成のショッピングシステムSにおいて、ショッピングサーバ2は、店舗端末4やユーザ端末5からのリクエストに応じて、ショッピングサイトを構成するWebページを送信するWebサーバである。また、ショッピングサーバ2は、店舗端末4からのリクエストに基づいて、ショッピングサイトで販売される商品を登録し、その商品の詳細な説明等が掲載される商品詳細ページを生成する。そして、ショッピングサーバ2は、商品詳細ページDB201を備え、生成した商品詳細ページ(商品詳細ページのHTML文書(ドキュメントデータの一例)、商品詳細ページの素材である画像データ等)を商品詳細ページDB201に登録する。また、ショッピングサーバ2は、商品詳細ページを閲覧したユーザのユーザ端末5からのリクエストに基づいて、商品の購入の処理を行う。
 店舗端末4は、ショッピングサイトで商品を販売する店舗の従業員に使用される端末装置である。店舗端末4としては、例えば、パーソナルコンピュータ等が用いられる。
 ユーザ端末5は、ショッピングサイトで商品を購入するユーザに使用される端末装置である。ユーザ端末5としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。
 コンテンツ生成サーバ1は、管理端末3や店舗端末4からのリクエストに基づいて、指定された商品詳細ページの特徴を示す(ひいては、商品の特徴を示す)Flashコンテンツ(Adobe Systems社により規格化されたソフトウェア)を生成する。生成されるFlashコンテンツは、例えば、商品のバナー画像、商品を紹介するスライドショーコンテンツ、動画コンテンツ等である。そして、Flashコンテンツは、例えば、店舗が運営するWebサイトに掲載されたり、ショッピングサイトを構成するWebページの素材として用いられたりする。
 このようなFlashコンテンツを生成するため、コンテンツ生成サーバ1は、素材抽出DB101を備え、商品詳細ページDB201に登録されている商品詳細ページを構成するWeb素材としてのコンテンツ(画像データ、HTML文書に記述されているテキストデータ等)を抽出して、その抽出結果を素材抽出DB101に登録しておく。そして、コンテンツ生成サーバ1は、指定された商品詳細ページから抽出されたコンテンツの中からその商品詳細ページ特有のコンテンツを特定し、特定されたコンテンツに基づいてFlashコンテンツを生成する。
 管理端末3は、ショッピングシステムSのシステム管理者により使用される端末装置である。管理端末3としては、例えば、パーソナルコンピュータ等が用いられる。
 [1-2.コンテンツ生成サーバの構成及び機能]
 次に、コンテンツ生成サーバ1の構成及び機能について、図2を用いて説明する。
 図2は、本実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。また、図3は、Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。また、図4は、Webページの構成例を示す図である。また、図5は、HTML文書から生成されたDOMツリーの一例を示す図である。また、図6は、素材抽出DB101に登録される情報の内容の一例を示す図である。
 図2に示すように、コンテンツ生成サーバ1は、操作部11と、表示部12と、通信部13と、ドライブ部14と、記憶手段の一例としての記憶部15と、入出力インタフェース部16と、システム制御部20と、を備えている。そして、システム制御部20と入出力インタフェース部16とは、システムバス21を介して接続されている。
 操作部11は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部20に出力するようになっている。表示部12は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部13は、ネットワークNW等に接続して、ショッピングサーバ2、管理端末3、店舗端末4、ユーザ端末5等との通信状態を制御するようになっている。ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。記憶部15は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部15には、素材抽出DB101が構築されている。入出力インタフェース部16は、操作部11~記憶部15とシステム制御部20との間のインタフェース処理を行うようになっている。システム制御部20は、CPU(Central Processing Unit)17、ROM(Read Only Memory)18、RAM(Random Access Memory)19等により構成されている。
 システム制御部20は、CPU17が、ROM18や記憶部15に記憶された各種プログラムを読み出し実行することによりコンテンツ生成サーバ1の各部を制御する。また、システム制御部20は、コンテンツ生成ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び生成手段として機能する。なお、コンテンツ生成ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD-ROM等のディスクDKに記録されてドライブ部14を介して読み込まれるようにしても良い。
 コンテンツ生成ソフトウェアは、商品詳細ページ特有のコンテンツに基づいてFlashコンテンツを生成するためのプログラムである。図3に示すように、コンテンツ生成ソフトウェアは、マネージャ部、素材抽出エンジン、SWF(ShockWave Flash Object)生成エンジン等により構成されている。マネージャ部は、素材抽出エンジン及びSWFエンジンの実行を制御するとともに、コンテンツ生成ソフトウェアを利用するユーザ(店舗従業員やシステム管理者)に対して、Flashコンテンツを生成するためのGUI(Graphical User Interface)を提供するためのソフトウェアである。素材抽出エンジンは、商品詳細ページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、商品詳細ページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、後述のコンテンツブロック(コンテンツグループの一例)の単位で行われる。SWFエンジンは、与えられた1又は複数のコンテンツ(Web素材)に基づいてFlashコンテンツを生成するためのソフトウェアである。なお、新たなコンテンツとしてFlashコンテンツ以外のリッチインターネットアプリケーションを生成する場合、SWF生成エンジンに代えて、例えば、マイクロソフト社のSilverlight(商標)の生成エンジンを適用しても良い。また、Ajax(Asynchronous JavaScript(登録商標) + XML)等の技術を利用して動的ページを実現するスクリプトを生成するソフトウエアを適用しても良い。
 以下に、Flashコンテンツの生成の概要について説明する。図3に示すように、システム制御部20は、ショッピングサーバ2から商品詳細ページDB201に登録されているHTML文書を取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を素材抽出DB101に登録する(1)。この処理は、Flashコンテンツの生成前に予め行われ、基本的には、商品詳細ページDB201に登録されている全HTML文書、すなわち、ショッピングサイトを構成する全ての商品詳細ページについて抽出が行われる。
 その後、システム管理者又は店舗従業員により、Flashコンテンツの生成対象となる商品詳細ページのHTML文書のURLが指定される(2)。すると、システム制御部20は、指定されたURLに基づいてショッピングサーバ2からHTML文書を取得し、コンテンツブロックを抽出する。そして、制御部20は、素材抽出DB101を参照して、抽出した各コンテンツブロックの全商品詳細ページにおける出現頻度を計算する。計算される出現頻度としては、出現回数(度数)であっても良いし、全商品詳細ページの全コンテンツブロックに対する出現回数の割合(相対度数)であっても良い。そして、システム制御部20は、出現頻度に基づいて、指定されたURLに対応する商品詳細ページに特有であるコンテンツブロックを判定する。具体的に、システム制御部20は、出現頻度の最も小さいコンテンツブロックを、指定されたURLに対応する商品詳細ページ特有のコンテンツブロックであると判定する(3)。
 システム制御部20は、特有のコンテンツブロックであると判定したコンテンツブロックに含まれるコンテンツをショッピングサーバ2を介して商品詳細ページDB201から取得する。システム制御部20は、取得したコンテンツに基づいてFlashコンテンツを生成する(4)。そして、システム管理者又は店舗従業員は、生成されたFlashコンテンツをダウンロードする(5)。なお、Flashコンテンツのダウンロードの前に、システム管理者や店舗従業員によって適宜Flashコンテンツを修正することができるようにしても良い。
 次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。
 例えば、商品詳細ページの構成(レイアウト)が図4に示すようなものであるとする。Web素材としての各コンテンツは、商品詳細ページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、DIVタグ及びTABLEタグによりブロック化(グループ化)される。なお、DIVタグ及びTABLEタグを、「ブロック化タグ」という。
 図4には、コンテンツブロック301~306が表示されている。コンテンツブロック301は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。また、コンテンツブロック302は、例えば、各種カテゴリの商品に関するWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。また、コンテンツブロック303は、例えば、商品に関する情報が表示されるコンテンツブロックであり、商品名等の見出しを示すテキストE、コンテンツブロック304及びコンテンツブロック305により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック303に含まれるコンテンツはテキストEのみとされ、コンテンツブロック304及びコンテンツブロック305は、コンテンツブロック303から独立しているものとされる。コンテンツブロック304は、例えば、商品の詳細を示すコンテンツブロックであり、詳細な説明を示すテキストF、商品等の画像としての画像b及び画像cにより構成されている。コンテンツブロック305は、例えば、商品購入の際の一般的な注意事項等を示すコンテンツブロックであり、テキストG及びテキストHにより構成されている。コンテンツブロック306は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。
 これらのコンテンツブロックのうち、コンテンツブロック301、302、305及び306は、図4に示す商品詳細ページ以外の商品詳細ページ上でも比較的頻繁に現れる。一方、コンテンツブロック303(テキストE)及びコンテンツブロック304は、当該商品詳細ページにだけに用いられるか、又は、他の商品詳細ページで用いられるとしても、その頻度はコンテンツブロック301、302、305及び306に比べて小さい。よって、例えば、コンテンツブロック303又はコンテンツブロック304が、当該商品詳細ページ特有のコンテンツブロックであると判断されることとなる。
 図4に示す商品詳細ページのHTML文書をDOM(Document Object Model)ツリー、すなわち、木構造で表したものが図5である。なお、図5に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。
 DOMツリーにおいては、DIVタグを示すDIVノード及びTABLEタグを示すTABLEノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる(以下、「ブロック化ノード」という)。システム制御部20は、例えば、深さ優先探索によりDOMツリーを探索し、コンテンツブロックを確定していく。具体的に、システム制御部20は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード(以下、「上位のブロック化ノード」という)を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード(以下、「下位のブロック化ノード」という)を発見すると、コンテンツブロックが分割される。例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木(以下、「上位部分木」という)に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木(以下、「下位部分木」という)に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける(例えば、コンテンツブロック304とコンテンツブロック303)。この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。例えば、コンテンツブロック301、302、303及び306の階層は1であり、コンテンツブロック304及び305の階層は2である。つまり、階層の値が小さいほど階層的により上位となる。
 これを、HTML文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。
 このようにしてコンテンツブロックを抽出すると、システム制御部20は、抽出結果を示すコンテンツブロック対応情報を素材抽出DB101に登録する。図6に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に登録される。コンテンツブロック対応情報には、抽出元のHTML文書のURL設定部分(符号402)とブロック構成情報(符号403)とにより構成されている。ブロック構成情報には、抽出された各コンテンツが設定される。ここで、テキストデータについては、DOMツリーにおけるテキストノードの内容が設定される。一方、画像データについては、画像データそのものの代わりとして、DOMツリーにおいてIMGタグを示すIMGノードのsrc属性としての画像データのURLが設定される。
 [1-3.ショッピングシステムの動作]
 次に、ショッピングシステムSの動作について、図7乃至図12を用いて説明する。
 [1-3-1 全商品詳細ページからのコンテンツブロック抽出時]
 図7は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。
 素材抽出処理は、例えば、定期的に実行されたり、システム管理者の操作に基づいて管理端末3から素材抽出処理の実行のリクエストが送信されてきたときに開始される。素材抽出処理において、システム制御部20は、商品詳細ページDB201に登録されている全てのHTML文書を解析する。そのために、システム制御部20は、例えば、商品詳細ページDB201に登録されているHTML文書の一覧の情報を予めショッピングサーバ2から取得しておき、この一覧の情報に基づいてHTML文書を取得しても良いし、ショッピングサイトのトップページのHTML文書から次々とリンクを辿って、商品詳細ページのHTML文書を順次取得しても良い。
 図7に示すように、システム制御部20は、素材抽出DB101を初期化する(ステップS1)。具体的に、システム制御部20は、素材抽出DB101にコンテンツブロック対応情報が登録されている場合には、全てのコンテンツブロック対応情報を素材抽出DB101から削除する。
 次いで、システム制御部20は、全商品詳細ページのうち最初に取得すべき商品詳細ページのHTML文書のURLを特定し(ステップS2)、特定したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS3)。次いで、システム制御部20は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS4)。この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が登録される。
 次いで、システム制御部20は、全ての商品詳細ページのコンテンツブロックを抽出したか否かを判定する(ステップS5)。このとき、システム制御部20は、コンテンツブロックを抽出していない商品詳細ページが存在する場合には(ステップS5:NO)、次の商品詳細ページのHTML文書のURLを特定して(ステップS6)、ステップS3に移行する。そして、システム制御部20は、ステップS3~S6の処理を繰り返して全ての商品詳細ページのコンテンツブロックを抽出すると(ステップS5:YES)、素材抽出処理を終了させる。
 なお、システム制御部20は、素材抽出DB101を初期化してコンテンツブロック対応情報を登録し直さなくても良い。例えば、システム制御部20は、素材抽出DB101を初期化を行わず、前回素材抽出処理を実行した後に新規生成された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に追加登録し、また、前回素材抽出処理を実行した後に更新された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に更新登録しても良い。
 図8は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
 図8に示すように、システム制御部20は、先ず、取得したHTML文書のDOMツリーをRAM19上に生成する(ステップS21)。
 次いで、システム制御部20は、ブロック数NUMに0を設定するとともに、階層LVに0を設定する(ステップS22)。ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。また、階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。NUM及びLVは何れもグローバル変数であり、1ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。
 次いで、システム制御部20は、DOMツリーのルートノードを指定して(ステップS23)、ツリー探索処理を実行する(ステップS24)。ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Webページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。
 次いで、システム制御部20は、ツリー探索処理により生成された各コンテンツブロック対応情報を素材抽出DB101に登録する(ステップS25)。システム制御部20は、この処理を終えると、1ページ対応抽出処理を終了させる。
 図9は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
 図9に示すように、システム制御部20は、先ず、指定されたノードの種類を判定する(ステップS31)。このとき、システム制御部20は、指定されたノードの種類が、DIVノード又はTABLEノード(ブロック化ノード)である場合には、すなわち、コンテンツブロックが発見された場合には(ステップS31:DIV又はTABLE)、ステップS32に移行する。
 ステップS32において、システム制御部20は、ブロック数NUMに1を加算するとともに、階層LVに1を加算する。次いで、システム制御部20は、ブロック番号BN[LV]にNUMを設定する(ステップS33)。ブロック番号BN[LV]は、現在探索中のノードが属する階層LVで示されるコンテンツブロックのブロック番号である。このブロック番号は、コンテンツブロックの発見順に付与される。また、BN[LV]は、グローバル変数である。
 次いで、システム制御部20は、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する(ステップS34)。具体的に、システム制御部20は、コンテンツブロック対応情報を格納する領域をRAM19上に設定し、取得したHTML文書のURLを、当該領域に設定する。
 次いで、システム制御部20は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS35)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS35:YES)、ステップS36に移行する。
 ステップS36において、システム制御部20は、探索されていない子ノードのうちの1つの子ノードを指定して、ツリー探索処理を実行する(ステップS37)。システム制御部20は、ツリー探索処理を終えると、ステップS35に移行する。
 そして、システム制御部20は、ステップS35~S37の処理を繰り返して全ての子ノードのツリー探索処理を終えると(ステップS35:NO)、ステップS38に移行する。なお、システム制御部20は、指定されたノードの子ノードが1つも存在しない場合にも、ステップS38に移行する。ステップS38において、システム制御部20は、階層LVから1を減算して、ツリー探索処理を終了させる。
 ステップS31において、システム制御部20は、指定されたノードの種類がテキストノードである場合には(ステップS31:テキスト)、指定されたノードの内容(テキストデータ)を、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS39)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
 ステップS31において、システム制御部20は、指定されたノードの種類がIMGノードである場合には(ステップS31:IMG)、指定されたノードのsrc属性として設定されている画像データのURLを取得し、取得したURLを、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS40)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
 ステップS31において、システム制御部20は、指定されたノードの種類が、DIVノード、TABLEノード、テキストノード、及びIMGノードの何れでもない場合には(ステップS31:その他)、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS41)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS41:YES)、探索されていない子ノードのうちの1つの子ノードを指定して(ステップS42)、ツリー探索処理を実行する(ステップS43)。システム制御部20は、ツリー探索処理を終えると、ステップS41に移行する。
 一方、システム制御部20は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが1つも存在しない場合には(ステップS41:NO)、ツリー探索処理を終了させる。
 [1-3-2 Flashコンテンツ生成時]
 図10は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。
 コンテンツ生成処理は、システム管理者の操作に基づいて管理端末3からコンテンツ生成処理の実行のリクエストが送信されてきたとき、又は、店舗従業員の操作に基づいて店舗端末4からコンテンツ生成処理の実行のリクエストが送信されてきたときに開始される。
 そして、システム管理者又は店舗従業員がFlashコンテンツの生成対象とするHTML文書のURLを指定すると、図10に示すように、システム制御部20は、指定されたURLを管理端末3又は店舗端末4から受信する(ステップS51)。次いで、システム制御部20は、受信したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS52)。
 次いで、システム制御部20は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS53)。この特有コンテンツブロック判定処理では、取得したHTML文書からコンテンツブロックが抽出され、当該HTML文書特有のコンテンツブロックが判定される。
 次いで、システム制御部20は、特有と判定されたコンテンツブロックを構成する各コンテンツを取得する(ステップS54)。このとき、システム制御部20は、テキストデータを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報からテキストデータを取得する。一方、システム制御部20は、画像データを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報から画像データのURLを取得し、取得されたURLを設定したリクエストをショッピングサーバ2に送信することにより、商品詳細ページDB201に登録されている画像データをショッピングサーバ2から取得する。
 次いで、システム制御部20は、取得した全てのコンテンツを指定して、後述するFlashコンテンツ生成処理を実行する(ステップS55)。
 次いで、システム制御部20は、Flashコンテンツ生成処理において生成されたFlashコンテンツを、生成要求元の管理端末3又は店舗端末4に送信する(ステップS56)。システム制御部20は、この処理を終えると、コンテンツ生成処理を終了させる。
 図11は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
 図11に示すように、システム制御部20は、先ず、1ページ対応抽出処理と同様に、取得したHTML文書のDOMツリー生成(ステップS61)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS62)、DOMツリーのルートノードを指定して(ステップS63)、ツリー探索処理を実行する(ステップS64)。
 次いで、システム制御部20は、ブロック番号iに1を設定する(ステップS65)。次いで、システム制御部20は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS66)。
 具体的に、システム制御部20は、ツリー探索処理において生成されたコンテンツブロック対応情報i(ブロック番号iのコンテンツブロックに対応するコンテンツブロック対応情報)のブロック構成情報と、素材抽出DB101に登録されている各コンテンツブロック対応情報のブロック構成情報とを比較する。このとき、システム制御部20は、ブロック構成情報の内容が一致する場合には、出現回数1回としてカウントする。このとき、システム制御部20は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。また、システム制御部20は、素材抽出DB101に登録されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報iのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数1回としてカウントしても良い。更に、システム制御部20は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。例えば、システム制御部20は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。そして、システム制御部20は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。システム制御部20は、このようにしてコンテンツブロック対応情報iのブロック構成情報と、素材抽出DB101に登録されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。
 システム制御部20は、出現頻度を計算すると、ブロック番号iに1を加算して(ステップS67)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS68)。このとき、システム制御部20は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS68:NO)、ステップS66に移行する。そして、システム制御部20は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS68:YES)、ステップS69に移行する。
 ステップS69において、システム制御部20は、コンテンツブロック1からブロック数NUMが示すブロック番号までの全てのコンテンツブロックの出現頻度同士を比較して、出現頻度が最も少ないコンテンツブロックを、特有のコンテンツブロックであると判定する(ステップS69)。システム制御部20は、この処理を終えると、特有コンテンツブロック判定処理を終了させる。
 図12は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。なお、本実施形態においては、商品詳細ページに掲載されている商品を紹介するコンテンツとして、特有のコンテンツブロックであると判定されたコンテンツブロックに含まれる各コンテンツをスライドショー表示するFlashコンテンツを生成するものとして以下説明する。
 図12に示すように、システム制御部20は、先ず、指定された各コンテンツの表示サイズを調整する(ステップS71)。例えば、システム制御部20は、Flashコンテンツ再生時の実際の表示サイズに合うように、画像データの縦横の画素数を調整したり、テキストデータのフォントサイズ等を調整する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際の表示サイズに比べて大きすぎる場合には、当該コンテンツを複数に分割する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際の表示サイズに比べて小さすぎる場合には、複数のコンテンツを1つに結合する。
 次いで、システム制御部20は、各コンテンツの表示順序を決定する(ステップS72)。各コンテンツの表示順序は、基本的にはツリー探索処理におけるコンテンツブロック対応情報に対するコンテンツの設定順と同じ順序である。つまり、HTML文書において当該文書の先頭の近くに規定されているコンテンツほど、表示順序が早くなる。
 次いで、システム制御部20は、各コンテンツの遷移方法を決定する(ステップS73)。つまり、システム制御部20は、スライドショー表示において、表示するコンテンツを切り換える際に施されるエフェクト(表示効果)を決定する。エフェクトとしては、例えば、フェードイン/フェードアウト、スライド、ランダムブロック、ワイプ、エフェクトなし等がある。
 次いで、システム制御部20は、ステップS71において調整が行われた各コンテンツに基づき、ステップS72及びS73において決定された条件に基づいてFlashコンテンツを生成する(ステップS74)。システム制御部20は、この処理を終えると、Flashコンテンツ生成処理を終了させる。
 以上説明したように、本実施形態によれば、コンテンツ生成サーバ1のシステム制御部20が、指定されたURLに対応する商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツのうち、出現頻度が最も小さいコンテンツを当該商品詳細ページに特有のコンテンツであると判断する。
 従って、出現頻度が小さいコンテンツであるほど、指定された商品詳細ページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定された商品詳細ページに特有のコンテンツを特定される。よって、商品詳細ページに特有のコンテンツを容易に抽出することができる。
 また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページに特有のコンテンツであると判断されたコンテンツに基づいてFlashコンテンツを生成する。
 従って、当該商品詳細ページに掲載されている商品の内容等を端的に示し又は特徴を示すコンテンツを生成することができる。
 また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトに含まれる複数の商品詳細ページ上における各コンテンツの出現頻度を計算する。
 従って、ショッピングサイトに含まれる複数のWebページ上において、指定された商品詳細ページを構成している各コンテンツの出現頻度が計算されるので、ショッピングサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。
 また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトを構成する全ての商品詳細ページについて、商品詳細ページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツブロック対応情報を予め素材抽出DB101に登録しておき、素材抽出DB101に登録された各コンテンツブロック対応情報に基づいて、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算する。
 従って、全ての商品詳細ページに基づいて出現頻度計算されるので、特有のコンテンツを判断する精度を上げることができる。
 また、コンテンツ生成サーバ1のシステム制御部20が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツブロック出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツブロックのうち、出現頻度が最も小さいコンテンツブロックを当該商品詳細ページに特有のコンテンツブロックであると判断する。
 従って、商品詳細ページ上において、例えば、ヘッダ部分、ナビゲーション部分、商品の詳細を示す部分、商品購入の際の一般的な注意事項等を示す部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、商品詳細ページに特有のコンテンツブロックを抽出することができる。
 また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページを構成しているコンテンツを当該商品詳細ページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいてコンテンツブロックを定める。
 従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、商品詳細ページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
 なお、上記第1実施形態においては、指定された商品詳細ページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、素材抽出DB101に登録されている全てのコンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定された商品詳細ページを構成する各コンテンツブロックの出現頻度を計算する場合に、ショッピングサイトに含まれる全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようになっていたが、全ての商品詳細ページを対象としなくても良い。例えば、対象となる店舗の指定を可能とし、指定された店舗に対応する全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようにしても良い。また、例えば、予め定められたページ数分の商品詳細ページを対象としても良い。
 また、予め各商品詳細ページからコンテンツブロックの抽出しておかなくても良い。例えば、Flashコンテンツ生成時に、出現頻度を計算するのに必要な各商品詳細ページについてコンテンツブロックの抽出を行えば良い。
 また、上記第1実施形態においては、システム管理者又は店舗従業員から商品詳細ページのHTML文書のURLを指定されたときに、Flashコンテンツを生成するようにしていたが、例えば、新規の商品詳細ページが作成されたときや、商品詳細ページが更新されたときに、新規作成され又は更新された商品詳細ページについてのFlashコンテンツを生成しても良い。
 また、上記第1実施形態においては、出現頻度が最も小さいコンテンツブロックのみをWebページに特有のコンテンツとしていたが、例えば、出現頻度が1番目に小さいコンテンツブロックからN番目(Nは2以上の自然数)に小さいコンテンツまでのN個のコンテンツブロックをWebページに特有のコンテンツブロックとしても良い。これは、例えば、所望の処理に必要なコンテンツブロックの個数が2個以上で予め定められている場合に適用することができる。また、例えば、所望の処理に必要なコンテンツ(コンテンツブロックではない)の個数が2個以上で予め定められている場合に、出現頻度が1番目に小さいコンテンツブロックに含まれるコンテンツのみでは足りないときには、出現頻度が2番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定し、出現頻度が1番目に小さいコンテンツブロックと2番目に小さいコンテンツブロックに含まれるコンテンツのみで足りないときには、出現頻度が3番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定する、といった処理を行っても良い。
 また、上記第1実施形態においては、Webページに特有のコンテンツを用いてFlashコンテンツを生成していたが、Flashコンテンツ以外のコンテンツ(例えば、動画データ、静止画像データ、電子文書等)を生成しても良い。
 また、Webページに特有のコンテンツの用途としては新たなコンテンツの生成のみに限られるものではない。例えば、Webページに特有の画像データを判定し、特有の画像データと判定された画像データを、当該Webページを代表する画像データとして、検索結果等に表示しても良い。
 [2.第2実施形態]
 以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ブログサービスを提供するブログシステムにおいて、ブログページ送信するサーバ装置に対して本発明を適用した場合の実施形態である。
 [2-1.ブログシステムの構成及び機能概要]
 先ず、本実施形態に係るブログシステムBSの構成及び概要機能について、図13を用いて説明する。
 図13は、本実施形態に係るブログシステムBSの概要構成の一例を示す図である。図13において、図1と同様の要素については同様の符号を付してある。
 図13に示すように、ブログシステムBSは、特有コンテンツ判定装置及び関連コンテンツ挿入装置の一例としてのブログサーバ6と、管理端末3と、複数のユーザ端末5と、を含んで構成されている。そして、ブログサーバ6と、各ユーザ端末5とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。また、ブログサーバ6と管理端末3とは、LAN等のネットワークを介して接続されている。
 このような構成のブログシステムBSにおいて、ブログサーバ6は、ユーザ端末5からのリクエストに応じて、ブログサービスサイトを構成するWebページを送信するWebサーバである。ユーザ端末5を利用するユーザがブログサービスサイトのユーザ登録をすると、そのユーザは、当該ブログサービスサイトにおいてユーザ自身のブログを運営することができるようになっている。そして、ユーザ登録されたユーザ(ブロガー)は、ブログサービスサイトにアクセスして、自己のブログを更新(ブログ記事(ブログ1件毎の記録)を追加)することができるようになっている。そのため、ブログサーバ6は、ブログの更新に応じて、ブログのWebページとして、1又は複数のブログ記事が掲載されるブログページを生成又は更新する。そして、ブログサーバ6は、ブログページDB601を備え、ブログページを当該ブログページDB601に登録する。
 また、ブログサーバ6は、システム管理者により指定されたブロガーのブログページに対して、広告コンテンツ(関連コンテンツの一例)を挿入する。広告コンテンツとしては、例えば、広告文章のテキストデータ、バナーの画像データ、動画データ、Adobe Flash(商標)やSilverlight(商標)等により生成されたリッチインターネットアプリケーション(RIA)等がある。各ブログページに挿入される広告コンテンツは、対象のブログページに掲載されているブログ記事に関連する商品やサービスに関する広告を示すコンテンツである。そのため、ブログサーバ6は、複数の広告コンテンツが登録されている広告DB602を備える。そして、ブログサーバ6は、ブログページからブログ記事を抽出し、更にブログ記事から特徴語を抽出して、抽出した特徴語に関連する広告コンテンツを選択する。
 ユーザ端末5は、ブロガーとしてのユーザや、ブログを閲覧するユーザにより利用される端末装置である。ユーザ端末5としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。
 管理端末3は、ブログシステムBSのシステム管理者により使用される端末装置である。管理端末3としては、例えば、パーソナルコンピュータ等が用いられる。
 [2-2.ブログサーバの構成及び機能]
 次に、ブログサーバ6の構成及び機能について、図14を用いて説明する。
 図14は、本実施形態に係るブログサーバ6の概要構成の一例を示すブロック図である。また、図15は、ブロガーが指定されてからブログページに広告コンテンツが挿入されるまでの処理の概要を示す図である。また、図16は、Webページの構成例を示す図である。また、図17は、HTML文書から生成されたDOMツリーの一例を示す図である。また、図18は、記憶部65に記憶されたコンテンツブロック対応情報の内容の一例を示す図である。
 図14に示すように、ブログサーバ6は、操作部61と、表示部62と、通信部63と、ドライブ部64と、記憶手段の一例としての記憶部65と、入出力インタフェース部66と、システム制御部70と、を備えている。そして、システム制御部70と入出力インタフェース部66とは、システムバス71を介して接続されている。
 操作部61は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部70に出力するようになっている。表示部62は、例えば、CRTディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部63は、ネットワークNW等に接続して、管理端末3、ユーザ端末5等との通信状態を制御するようになっている。ドライブ部64は、例えば、フレキシブルディスク、CD、DVD等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。
 記憶部65は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部65には、ブログページDB601及び広告DB602が構築されている。ブログページDB601には、ブログサービスサイトを構成する各ブログページ(ブログページのHTML文書(ドキュメントデータの一例)、ブログページの素材である画像データ等)が、例えば、そのページのURL及びブロガーの識別情報であるユーザIDに対応付けて登録されている。広告DB602には、複数の広告コンテンツが、その広告コンテンツによる広告対象の商品やサービスに関連するキーワードに対応付けて登録されている。ここで、広告コンテンツにテキストデータ以外のコンテンツが含まれている場合には、当該コンテンツのURLも対応付けて登録されている。また、ブログページ上に表示された広告コンテンツをユーザが選択したときに広告対象の商品やサービスに関するWebページに移動するため、当該WebページのURLも対応付けて登録されている。
 入出力インタフェース部66は、操作部61~記憶部65とシステム制御部70との間のインタフェース処理を行うようになっている。システム制御部70は、CPU67、ROM68、RAM69等により構成されている。
 システム制御部70は、CPU67が、ROM68や記憶部65に記憶された各種プログラムを読み出し実行することによりブログサーバ6の各部を制御する。また、システム制御部70は、広告コンテンツ挿入ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び挿入手段として機能する。なお、広告コンテンツ挿入ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD-ROM等のディスクDKに記録されてドライブ部64を介して読み込まれるようにしても良い。
 広告コンテンツ挿入ソフトウェアは、ブログページに広告コンテンツを挿入するためのプログラムである。図15に示すように、広告コンテンツ挿入ソフトウェアは、マネージャ部、素材抽出エンジン、文章解析エンジン、広告選択部等により構成されている。マネージャ部は、素材抽出エンジン、文章解析エンジン及び広告選択部の実行を制御する。素材抽出エンジンは、ブログページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、ブログページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、コンテンツブロック(コンテンツグループの一例)の単位で行われる。本実施形態においては、例えば、その記事特有の内容を含むブログ記事が、ブログページに特有のコンテンツブロックに相当する。
 文章解析エンジンは、ブログページ特有のコンテンツとして抽出されたブログ記事から当該ブログページの特徴語を抽出するためのソフトウェアである。広告選択部は、抽出された特徴語をキーワードとして、ブログページに関連する広告コンテンツを選択するためのソフトウェアである。
 以下に、広告コンテンツの挿入の概要について説明する。図15に示すように、システム管理者により対象のブロガーのユーザIDが指定される(1)。すると、システム制御部70は、指定されたユーザIDに対応する全ブログページのHTML文書をブログページDB601から取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を生成する(2)。次いで、システム制御部70は、抽出した各コンテンツブロックの、指定されたユーザIDに対応する全ブログページにおける出現頻度を計算する。本実施形態において計算される出現頻度は、例えば、出現回数(度数)である。そして、システム制御部70は、出現頻度に基づいて、各ブログページにおいて特有であるコンテンツブロックを判定する。具体的に、システム制御部70は、各ブログページにおいて、出現頻度が所定の閾値以下であるコンテンツブロックを、そのブログページ特有のコンテンツブロックであると判定する(3)。
 システム制御部70は、特有のコンテンツブロックであると判定したコンテンツブロック、すなわち、ブログ記事に対して形態素解析等の分析を行って、ブロックページ毎の特徴語を抽出する(4)。特徴語の抽出方法としては、種々の方法があり、また公知であるので、詳細な説明は省略する。一例としては、出現頻度の最も高い単語を特徴語とする。
 次いで、システム制御部70は、広告DB602を参照し、抽出した特徴語に関連する広告コンテンツを選択する(5)。そして、システム制御部70は、選択した広告コンテンツをブログページに挿入して表示させるための規定(タグやデータそのものの記述等)を、ブログページのHTML文書に挿入する(6)。
 次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。
 例えば、ブログページの構成(レイアウト)が図16に示すようなものであるとする。Web素材としての各コンテンツは、ブログページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、DIVタグ及びTABLEタグによりブロック化(グループ化)される。
 図16には、コンテンツブロック701~706が表示されている。コンテンツブロック701は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。また、コンテンツブロック702は、例えば、他のWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。また、コンテンツブロック703は、例えば、ブログの表示領域に対応するコンテンツブロックであり、ブログ等の見出しを示すテキストE、コンテンツブロック704及びコンテンツブロック705により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック703に含まれるコンテンツはテキストEのみとされ、コンテンツブロック704及びコンテンツブロック705は、コンテンツブロック703から独立しているものとされる。コンテンツブロック704及び705は、夫々1件のブログ記事である。コンテンツブロック704には、ブログ記事の表題や本文を示すテキストF及びGにより構成されている。コンテンツブロック705には、ブログ記事の表題や本文を示すテキストH、I及びJと、ブログ記事に関連してブロガーにより登録された画像b及びcとにより構成されている。コンテンツブロック706は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。
 これらのコンテンツブロックのうち、コンテンツブロック701、702、703及び706は、図16に示すブログページ以外のブログページ上でも比較的頻繁に現れる。一方、コンテンツブロック704及びコンテンツブロック705は、基本的に当該ブログページにだけに用いられる。よって、コンテンツブロック704又はコンテンツブロック705が、当該ブログページ特有のコンテンツブロックであると判断されることとなる。
 本実施形態においては、その記事特有の内容を含むブログ記事に相当するコンテンツブロックを特有のコンテンツブロックと判定されるようにする必要がある。こうした特有の内容を含むブログ記事は、1ページ内に複数含まれている場合がある。そのため、出現頻度が所定の閾値以下であるコンテンツブロックは、全て特有のコンテンツブロックとされる。例えば、閾値の値を1回に設定する。そうすると、特有の内容を含むブログ記事は、特有のコンテンツブロックと判定され、他のブログ記事と同じような内容のみを含むブログ記事は、特有のコンテンツブロックとは判定されない。また、ヘッダ部分、ナビゲーション部分、コピーライト表示部分等の各ブログページに共通するようなコンテンツブロックの出現頻度は夫々2回以上となるので、これらも特有のコンテンツブロックとは判定されない。なお、閾値は記憶部65に予め記憶される。
 図16に示すブログページのHTML文書をDOMツリー、すなわち、木構造で表したものが図17である。なお、図17に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。
 第1実施形態の場合と同様にコンテンツブロックを抽出すると、システム制御部70は、抽出結果を示すコンテンツブロック対応情報を一時的に記憶部65に保存する。図18に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に保存される。なお、本実施形態においては、ブログページ特有のコンテンツブロックであると判定されたコンテンツブロック、すなわち、ブログ記事から特徴語を抽出するので、テキストデータが抽出されれば良く、画像データについては抽出しなくても良い。
 [2-3.ブログシステムの動作]
 次に、ブログシステムBSの動作について、図19乃至図21を用いて説明する。
 図19は、本実施形態に係るブログサーバ6のシステム制御部70の広告コンテンツ挿入処理における処理例を示すフローチャートである。
 広告コンテンツ挿入処理は、例えば、システム管理者の操作に基づいて管理端末3から広告コンテンツ挿入処理の実行のリクエストが送信されてきたときに開始される。
 そして、システム管理者が広告コンテンツの挿入対象とするブログを運営するブロガーのユーザIDを指定すると、図19に示すように、システム制御部70は、指定されたユーザIDを管理端末3から受信する(ステップS101)。
 次いで、システム制御部70は、ブロック数NUMに0を設定する(ステップS102)。ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。また、NUMはグローバル変数であり、後述する1ページ対応抽出処理及びツリー探索処理からアクセスが可能である。
 次いで、システム制御部70は、受信したユーザIDに対応する最初のブログページのHTML文書をブログページDB601から取得する(ステップS103)。次いで、システム制御部70は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS104)。この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が保存される。
 次いで、システム制御部70は、受信したユーザIDに対応する全てのブログページのコンテンツブロックを抽出したか否かを判定する(ステップS105)。このとき、システム制御部70は、コンテンツブロックを抽出していないブログページが存在する場合には(ステップS105:NO)、次のブログページのHTML文書をブログページDB601から取得して(ステップS106)、ステップS104に移行する。そして、システム制御部70は、ステップS104~S106の処理を繰り返して全てのブログページのコンテンツブロックを抽出すると(ステップS105:YES)、ステップS107に移行する。
 ステップS107において、システム制御部70は、受信したユーザIDに対応する最初のブログページのHTML文書を特定する。
 次いで、システム制御部70は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS108)。この特有コンテンツブロック判定処理では、特定したHTML文書からコンテンツブロックが抽出され、ブログページ特有のコンテンツブロックが判定される。
 次いで、システム制御部70は、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS109)。次いで、システム制御部70は、抽出した特徴語に基づいて、ブログページに関連する広告ページを当該ブログページに挿入する(ステップS110)。具体的に、システム制御部70は、抽出した特徴語をキーワードとし、広告DB602を参照して当該キーワードに対応する広告コンテンツを選択する。次いで、システム制御部70は、特定したHTML文書上の所定の位置に、選択した広告コンテンツの規定を挿入する。例えば、システム制御部70は、広告コンテンツにテキストデータが含まれている場合には、当該テキストデータの内容をHTML文書に追加する。また、例えば、システム制御部70は、広告コンテンツに画像データが含まれている場合には、当該画像データを表示するためのIMGタグをHTML文書に追加する。また、例えば、システム制御部70は、広告対象の商品やサービスに関するWebページへのリンク情報をHTML文書に追加する。
 システム制御部70は、特定したHTML文書に広告コンテンツの規定を挿入すると、当該HTML文書で、ブログページDB601に登録されているHTML文書を更新する(ステップS111)。
 次いで、システム制御部70は、受信したユーザIDに対応する全てのブログページに広告コンテンツを挿入したか否かを判定する(ステップS112)。このとき、システム制御部70は、広告コンテンツを挿入していないブログページが存在する場合には(ステップS112:NO)、次のブログページのHTML文書を特定して(ステップS113)、ステップS108に移行する。そして、システム制御部70は、ステップS108~S113の処理を繰り返して全てのブログページに広告コンテンツを挿入すると(ステップS112:YES)、記憶部65に保存させておいた全てのコンテンツブロック対応情報を、記憶部65から削除する(ステップS114)。システム制御部70は、この処理を終えると、広告コンテンツ挿入処理を終了させる。
 図20は、本実施形態に係るブログサーバ6のシステム制御部70の1ページ対応抽出処理における処理例を示すフローチャートである。
 図20に示すように、システム制御部70は、先ず、取得したHTML文書のDOMツリーをRAM69上に生成する(ステップS121)。
 次いで、システム制御部70は、階層LVに0を設定する(ステップS122)。階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。LVはグローバル変数であり、1ページ対応抽出処理及びツリー探索処理からアクセスが可能である。
 次いで、システム制御部70は、DOMツリーのルートノードを指定して(ステップS123)、ツリー探索処理を実行する(ステップS124)。ツリー探索処理の処理内容は、第1実施形態の場合と同様であるので、詳細な説明は省略する。
 次いで、システム制御部70は、ツリー探索処理により生成された各コンテンツブロック対応情報を記憶部65に保存する(ステップS125)。システム制御部70は、この処理を終えると、1ページ対応抽出処理を終了させる。
 図21は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部70の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
 図21に示すように、システム制御部70は、先ず、1ページ対応抽出処理と同様に、指定されたHTML文書のDOMツリー生成(ステップS161)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS162)、DOMツリーのルートノードを指定して(ステップS163)、ツリー探索処理を実行する(ステップS164)。
 次いで、システム制御部70は、ブロック番号iに1を設定する(ステップS165)。次いで、システム制御部70は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS166)。
 具体的に、システム制御部70は、ステップS164のツリー探索処理において生成されたコンテンツブロック対応情報iのブロック構成情報と、記憶部65に保存されている各コンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。出現頻度の計算方法は、第1実施形態の場合と同様である。
 システム制御部70は、出現頻度を計算すると、計算した出現頻度が、記憶部65に記憶されている閾値以下であるか否かを判定する(ステップS167)。このとき、システム制御部70は、出現頻度が閾値以下である場合には(ステップS167:YES)、ブロック番号iのコンテンツブロックを、特有のコンテンツブロックの1つであると判定する(ステップS168)。つまり、システム制御部70は、ブロック番号iのコンテンツブロックを、指定されたHTML文書が対応するブログページに特有のコンテンツブロックに加える。
 システム制御部70は、出現頻度が閾値よりも大きい場合(ステップS167:NO)、又は、ステップS168の処理を終えた場合には、ブロック番号iに1を加算して(ステップS169)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS170)。このとき、システム制御部70は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS170:NO)、ステップS166に移行する。そして、システム制御部70は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS170:YES)、特有コンテンツブロック判定処理を終了させる。
 なお、システム制御部70は、ステップS164のツリー探索処理によりコンテンツブロックを抽出していたが、広告コンテンツ挿入処理から実行された1ページ対応抽出処理(図19ステップS104)において、受信したブロガーのユーザIDに対応する全てのブログページについてコンテンツブロックが抽出され、その結果としてコンテンツブロック対応情報が記憶部65に記憶されているので、再度コンテンツブロックを抽出しなくても良い。その場合には、指定されたHTML文書のURLに基づいて、当該HTML文書が対応するブログページを構成する各コンテンツブロックのコンテンツブロック対応情報を記憶部65から取得することができる。
 [2-4.変形例1]
 次に、本実施形態の変形例について、図22を用いて説明する。
 これまでの説明においては、システム管理者によりブロガーが指定されたときに、指定されたブロガーのブログページに広告コンテンツを挿入していたが、ブログが更新されたタイミングで広告コンテンツを挿入しても良い。
 図22は、本実施形態の変形例に係るブログサーバ6のシステム制御部70のブログ更新時処理における処理例を示すフローチャートである。なお、図22において、図19と同様の処理については同様のステップ番号を付してある。
 先ず、ブログの更新に先立ち、ブロガーは、ユーザ端末5を操作してブログサービスサイトにアクセスし、自身のユーザIDとパスワードとを入力することによりブログサービスサイトにログインする。このログインにより、ブログサーバ6はユーザ端末5に対してセッションIDを発行し、セッションIDとユーザIDとを対応付けて管理する。ユーザ端末5からブログサーバ6へのリクエストにはセッションIDが含まれているので、ブログサーバ6は、どのブロガーからのリクエストであるかを特定することができる。
 そして、ブロガーが新しいブログ記事の登録操作を行うと、ユーザ端末5は、ブログ記事のデータ(表題や本文等のテキストデータ、画像データ等)をブログサーバ6に送信し、図22に示すように、ブログサーバ6のシステム制御部70は、ブログ記事のデータを受信する(ステップS171)。次いで、システム制御部70は、ブロガーのユーザIDに対応するブログページの中から、更新すべきブログページのHTML文書をブログページDB601から取得する(ステップS172)。次いで、システム制御部70は、受信したブログ記事のデータに基づいて、取得したHTML文書を更新する(ステップS173)。例えば、システム制御部70は、取得したHTML文書に、ブログ記事用のTABLEタグ又はDIVタグを追加し、当該タグに挟まれた形で、受信したブログ記事の表題や本文のテキストデータ等を追加する。次いで、システム制御部70は、ブログ記事のデータを追加したHTML文書で、ブログページDB601に登録されているHTML文書を更新する(ステップS174)。
 次いで、システム制御部70は、ブロガーのユーザIDに対応する全てのブログページからコンテンツブロックを抽出する(ステップS103~S106)。
 次いで、システム制御部70は、ステップS173において更新したHTML文書を指定して、特有コンテンツブロック判定処理を実行し(ステップS108)、特有と判定されたコンテンツブロックを構成する各テキストデータからブログページの特徴語を抽出する(ステップS109)。
 次いで、システム制御部70は、指定されたHTML文書から、既存の広告コンテンツの規定を削除し(ステップS775)、抽出した特徴語をキーワードとして、関連する広告コンテンツの規定を挿入する(ステップS110)。つまり、システム制御部70は、ブログページ上に表示される広告コンテンツを変更する。
 そして、システム制御部70は、広告コンテンツの規定が挿入されたHTML文書で、ブログページDB601に登録されているHTML文書を更新し(ステップS111)、記憶部65から全てのコンテンツブロック対応情報を削除する(ステップS114)。
 なお、ブログの更新に伴ってブログページを新規に生成しなければならない場合の処理も、基本的に上述した処理と同様で良い。ただし、新規に生成されたブログページには、広告コンテンツは未だ挿入されていないので、ステップS175における広告コンテンツの規定の削除は行われない。
 [2-5.変形例2]
 これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる閾値として1回を設定していたが、2回以上の値を閾値として設定しても良い。
 例えば、閾値を1回とした場合には、出現頻度が1回であるコンテンツブロック(ブログ記事)がブログページに特有のコンテンツとして抽出され、抽出されたブログ記事のテキストデータから特徴語が抽出される。このとき、抽出された各ブログ記事のテキストデータのデータ量が少ないと、そこから抽出される単語の数は少なくなる。そして、十分な数の単語を抽出することができないと、どの単語が特徴語であるかを全く判断することができない場合や、的確に判断することができない場合がある。そこで、閾値の値を上げて、ブログページに特有のコンテンツと判定される条件をゆるめることで、特徴語を抽出する対象となるブログ記事を増やしていく。これにより、特徴語を抽出することが可能となる。
 具体的には、ブログサーバ6のシステム制御部70が、最初は閾値を1回に設定して、ブログページに特有のコンテンツブロックを判定することにより、出現回数が1回のブログ記事を抽出して特徴語を抽出する。このとき、システム制御部70は、特徴語を抽出することができないと判定した場合には、閾値を2回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部70は、それでも特徴語を抽出することができないと判定した場合には、閾値を3回に変更して、ブログ記事の抽出及び特徴語の抽出を行う。システム制御部70は、こうした処理を、特徴語が抽出することができるまで継続する。つまり、特有のコンテンツブロックの抽出結果に基づく処理を正常に行うことができなかった場合に、閾値を上げるのである。
 ただし、閾値を無制限に上げていくと、ブログ記事ではないものも抽出されてしまうので、閾値がある程度まで上がると処理を中断するものとする。例えば、閾値が、指定されたブロガーに対応するブログページのページ数の値にまで上がると、各ブログページで共通して用いられるコンテンツブロックを抽出してしまうので、閾値がブログページのページ数の値になったら処理を中断しても良い。
 また例えば、ブログページの所定ページ数あたり1回のみ出現するコンテンツブロックをブログページ特有のコンテンツブロックであると、システム管理者側で予め定めても良い。この場合、指定されたブロガーに対応するブログページのページ数に比例して、閾値としての出現回数を変えても良い。
 [2-6.変形例3]
 これまでの説明においては、ブログページに特有のコンテンツの判定に用いられる出現頻度として、出現回数(度数)を用いていたが、指定されたブロガーに対応するブログページの全コンテンツブロックに対する出現回数の割合(相対度数)を用いても良い。
 例えば、ブロガーが登録したブログ記事に対して、他のユーザからコメントを登録することができ、ブログ記事とともにコメントが閲覧可能になっているとする。このコメントのテキストデータもブログページを構成するコンテンツの1つとなる。ブログサーバ6のシステム制御部70は、コメントのテキストデータをブログページに追加する場合、当該ブログページのHTML文書に、ブロック化タグの記述を追加した上で当該テキストデータを追加することにより、コメントのテキストデータを、ブログ記事や他のコメントのテキストデータとは独立したコンテンツブロックとする。そして、システム制御部70は、コンテンツブロックとしてコメントのテキストデータを抽出し、抽出したコメントのテキストデータが特有の内容を有している場合には、そのコメントに関連する広告コンテンツをブログページに挿入するようにする。
 ところで、或るブログ記事に対して複数のコメントが登録された場合において、複数のコメントの各内容が、例えば、多数派の意見と少数派の意見といったように、頻繁に出現する内容と、あまり頻繁には出現しない内容とに分かれる場合がある。このとき、多数派の意見は、一般的な意見であり、あまり特徴的な内容ではないと考えることができる。一方、少数派の意見は、特異な意見であり、ブログページに特有の内容と考えることができる。そうした場合に、少数派の意見を示すコメントをブログページ特有のコンテンツとして抽出したい。
 しかしながら、多数派の意見の数と少数派の意見の数は、相対的なものであり、コメントの総数によって変化する。こうした場合において、出現頻度として度数を用い、閾値を例えば1回とすると、頻繁に現れない内容(少数派の意見)を適切に抽出することができない場合がある。そこで、出現頻度として相対度数を用い、閾値を所定の割合に設定するのである。このときの閾値は任意に設定することができる。例えば、抽出されたコンテンツブロックの内容がN個のパターン(Nは2以上の整数)に分けられる場合、少数派の意見を区別するために、閾値には1÷N未満の範囲で閾値を設定しても良い。このように、システム制御部70が、その時々の状況に応じて閾値を変更しても良い。
 なお、ブログ等のような記事に対してコメント等を登録することができるシステムとして、例えば、或るユーザが登録したつぶやきに対して、これをフォローするつぶやきを他のユーザが登録することができるTwitter(商標)や、電子掲示板等がある。
 以上説明したように、本実施形態によれば、ブログサーバ6のシステム制御部70が、HTML文書が指定されることによって順次指定されたブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツの出現頻度を計算し、指定されたブログページを構成するコンテンツのうち、出現頻度が所定の閾値以下のコンテンツを当該ブログページに特有のコンテンツであると判断する。
 従って、出現頻度が小さいコンテンツであるほど、指定されたブログページ以外にはあまり出現しないコンテンツであるので、出現頻度が閾値以下であるかを判定することで、当該条件を満たす全てのコンテンツが、指定されたブログページに特有のコンテンツであると特定される。よって、ブログページに特有のコンテンツを容易に抽出することができる。
 また、ブログサーバ6のシステム制御部70が、指定されたブログページに特有のコンテンツに関連する広告コンテンツを当該ブログページに挿入する。
 従って、ブログページの特徴と関連する情報をWebページに追加することができる。
 また、ブログサーバ6のシステム制御部70が、指定されたブログページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを、当該ブログページに特有のコンテンツであると判定し、ブログの記事のテキストデータから当該ブログページの特徴語を抽出し、当該特徴語をキーワードとして、予め関連付けられている広告コンテンツを、当該ブログページに挿入する。
 従って、ブログページに掲載されているブログの内容に関連する広告を当該ブログページに追加することができる。
 また、ブログサーバ6のシステム制御部70が、ブログサービスサイトに含まれる複数のブログページ上における各コンテンツの出現頻度を計算する。
 従って、ブログサービスサイトに含まれる複数のWebページ(例えば、指定されたブロガーのユーザIDに対応する複数のブログページ)上において、指定されたブログページを構成している各コンテンツの出現頻度が計算されるので、ブログサービスサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。
 また、ブログサーバ6のシステム制御部70が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、ブログページを構成しているコンテンツを抽出し、指定されたブログページを構成している各コンテンツブロック出現頻度を計算し、指定されたブログページを構成するコンテンツブロックのうち、出現頻度が閾値以下のコンテンツブロックを当該ブログページに特有のコンテンツブロックであると判断する。
 従って、ブログページ上において、例えば、ヘッダ部分、ナビゲーション部分、ブログが表示される部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、ブログページに特有のコンテンツブロックを抽出することができる。
 また、ブログサーバ6のシステム制御部70が、ブログページを構成しているコンテンツを当該ブログページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいて、コンテンツブロックを定める。
 従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、ブログページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
 なお、上記第2実施形態においては、指定されたブログページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、指定されたブロガーのユーザIDに対応する全てのブログページを構成する各コンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定されたブログページを構成する各コンテンツブロックの出現頻度を計算する場合に、指定されたブロガーに対応する全てのブログページを対象とした範囲に出現する頻度を計算するようになっていたが、対象とする範囲はこれだけに限られるものではない。例えば、予め定められたページ数分のブログページを対象としても良いし、ブログサービスサイトを構成する全てのブログページを対象としても良い。
 また、上記第2実施形態として、Webページに特有のコンテンツに関連するコンテンツとして、商品やサービスに関する広告を示す広告コンテンツを、当該Webページに挿入していたが、関連するコンテンツであれば広告コンテンツに限られるものではない。例えば、特有のコンテンツと判定されたブログ記事等のコンテンツに関連する画像データ(静止画や動画像)を、背景画像や挿入画像(挿絵等)として挿入しても良い。具体的には、例えば、画像データ用のデータベースを構築し、当該データベースに、画像データとキーワードとを対応付けて登録しておく。画像データに対応付けられるキーワードは、その画像データによって表される画像を示す単語や当該画像に関連する単語である。そして、特有のコンテンツと判定されたコンテンツから特徴語を抽出し、抽出した特徴語をキーワードとして、関連する画像データをデータベースから選択する。そして、対象のHTML文書のBODYタグに、選択した画像データのURLをbackground属性として挿入したり、対象のHTML文書の所定位置に、選択した画像データを表示するIMGタグを挿入したりする。これにより、特有のコンテンツと判定されたブログ記事等のコンテンツの内容に適した画像をWebページに挿入することができる。
 また、Webページに特有のコンテンツの用途としては、関連するコンテンツをWebページに挿入することのみに限られるものではない。例えば、Webページに特有のコンテンツに基づいて、新たなコンテンツを生成しても良い。
 また、上記各実施形態においては、Webページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。例えば、Webページ上に表示されるコンテンツ、又は、Webページが表示されている際に再生されるコンテンツ(例えば、動画データ、音声データ、電子文書等)であれば良い。また、所定の種類のコンテンツのみを抽出しても良い。
 また、上記各実施形態においては、DIVタグに挟まれているコンテンツ、及び、TABLEタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。
 また、上記各実施形態においては、Webページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。
 また、上記各実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からHTML文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。
 また、上記各実施形態においては、HTML文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Webページを構成するコンテンツを示すデータ(例えば、XHTML(Extensible HyperText Markup Language)文書等)に対してドキュメントデータを適用しても良い。
 また、上記実施形態においては、ショッピングサイトにおける商品詳細ページを構成するコンテンツや、ブログサービスサイトにおけるブログページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。
1 コンテンツ生成サーバ
2 ショッピングサーバ
3 管理端末
4 店舗端末
5 ユーザ端末
11 操作部
12 表示部
13 通信部
14 ドライブ部
15 記憶部
16 入出力インタフェース部
17 CPU
18 ROM
19 RAM
20 システム制御部
21 システムバス
101 素材抽出DB
201 商品詳細ページDB
NW ネットワーク
S ショッピングシステム
6 ブログサーバ6
61 操作部
62 表示部
63 通信部
64 ドライブ部
65 記憶部
66 入出力インタフェース部
67 CPU
68 ROM
69 RAM
60 システム制御部
61 システムバス
601 ブログページDB
602 広告DB
BS ブログシステム

Claims (28)

  1.  コンピュータを、
     指定されたWebページを構成しているコンテンツを抽出する抽出手段、
     前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
     前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段、
     として機能させることを特徴とする特有コンテンツ判定プログラム。
  2.  請求項1に記載の特有コンテンツ判定プログラムにおいて、
     前記判定手段が、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  3.  請求項1に記載の特有コンテンツ判定プログラムにおいて、
     前記判定手段が、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Webページに特有のコンテンツであると判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  4.  請求項1乃至3の何れか1項に記載の特有コンテンツ判定プログラムにおいて、
     前記計算手段が、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  5.  請求項1乃至4の何れか1項に記載の特有コンテンツ判定プログラムにおいて、
     前記抽出手段が、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
     前記計算手段が、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  6.  請求項1乃至5の何れか1項に記載の特有コンテンツ判定プログラムにおいて、
     前記抽出手段が、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、
     前記計算手段が、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、
     前記判定手段が、前記指定されたWebページを構成しているコンテンツグループのうち、当該Webページに特有であるコンテンツグループを判定するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  7.  請求項6に記載の特有コンテンツ判定プログラムにおいて、
     前記抽出手段が、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  8.  請求項7に記載の特有コンテンツ判定プログラムにおいて、
     前記抽出手段が、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めるように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  9.  請求項1乃至8の何れか1項に記載の特有コンテンツ判定プログラムにおいて、
     特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段として前記コンピュータを更に機能させることを特徴とする特有コンテンツ判定プログラム。
  10.  請求項9に記載の特有コンテンツ判定プログラムにおいて、
     前記生成手段が、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  11.  請求項9又は請求項10に記載の特有コンテンツ判定プログラムにおいて、
     前記生成手段が、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  12.  請求項1乃至8の何れか1項に記載の特有コンテンツ判定プログラムにおいて、
     特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段として前記コンピュータを更に機能させることを特徴とする特有コンテンツ判定プログラム。
  13.  請求項12に記載の特有コンテンツ判定プログラムにおいて、
     前記判定手段が、前記指定されたWebページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、
     前記挿入手段が、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたWebページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Webページに挿入するように、前記コンピュータを機能させることを特徴とする特有コンテンツ判定プログラム。
  14.  指定されたWebページを構成しているコンテンツを抽出する抽出手段と、
     前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、
     前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段と、
     を備えることを特徴とする特有コンテンツ判定装置。
  15.  請求項14に記載の特有コンテンツ判定装置において、
     前記判定手段は、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定することを特徴とする特有コンテンツ判定装置。
  16.  請求項14に記載の特有コンテンツ判定装置において、
     前記判定手段は、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が所定値以下のコンテンツを当該Webページに特有のコンテンツであると判定することを特徴とする特有コンテンツ判定装置。
  17.  請求項14乃至16の何れか1項に記載の特有コンテンツ判定装置において、
     前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
  18.  請求項14乃至17の何れか1項に記載の特有コンテンツ判定装置において、
     前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
     前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
  19.  請求項14乃至18の何れか1項に記載の特有コンテンツ判定装置において、
     前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、
     前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、
     前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、当該Webページに特有であるコンテンツグループを判定することを特徴とする特有コンテンツ判定装置。
  20.  請求項19に記載の特有コンテンツ判定装置において、
     前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。
  21.  請求項20に記載の特有コンテンツ判定装置において、
     前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。
  22.  指定されたWebページを構成しているコンテンツを抽出する抽出行程と、
     前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、
     前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定行程と、
     を有することを特徴とする特有コンテンツ判定方法。
  23.  コンピュータを、
     指定されたWebページを構成しているコンテンツを抽出する抽出手段、
     前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
     前記計算された出現頻度に基づいて、前記指定されたWebページを構成しているコンテンツのうち、当該Webページに特有であるコンテンツを判定する判定手段、
     として機能させる特有コンテンツ判定プログラムがコンピュータ読み取り可能に記録されていることを特徴とする記録媒体。
  24.  請求項14乃至21の何れか1項に記載の特有コンテンツ判定装置と、
     前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、
     を備えることを特徴とするコンテンツ生成装置。
  25.  請求項24に記載のコンテンツ生成装置において、
     前記生成手段は、特有のコンテンツであると判定されたコンテンツの表示サイズを、予め設定された表示サイズに合うように調整し、表示サイズが調整されたコンテンツを含む新たなコンテンツを生成することを特徴とするコンテンツ生成装置。
  26.  請求項24又は請求項25に記載のコンテンツ生成装置において、
     前記生成手段は、特有のコンテンツであると判定されたコンテンツにエフェクトが施されて当該コンテンツが再生される新たなコンテンツを生成することを特徴とするコンテンツ生成装置。
  27.  請求項14乃至21の何れか1項に記載の特有コンテンツ判定装置と、
     前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに関連する関連コンテンツを、前記指定されたWebページに挿入する挿入手段と、
     を備えることを特徴とする関連コンテンツ挿入装置。
  28.  請求項27に記載の関連コンテンツ挿入装置において、
     前記特有コンテンツ判定装置は、前記指定されたWebページを構成しているコンテンツとして、ブログの記事のテキストデータが含まれている場合に、当該テキストデータを当該Webページに特有のコンテンツであると判定し、
     前記挿入手段は、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたブログの記事のテキストデータから前記指定されたWebページの特徴語を抽出し、当該特徴語に関連する関連コンテンツを、当該Webページに挿入することを特徴とする関連コンテンツ挿入装置。
PCT/JP2010/068820 2009-10-30 2010-10-25 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置 Ceased WO2011052526A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US13/504,831 US20120216107A1 (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
KR1020127014075A KR101640051B1 (ko) 2009-10-30 2010-10-25 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
KR1020147026766A KR20140127360A (ko) 2009-10-30 2010-10-25 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
BR112012010120A BR112012010120A2 (pt) 2009-10-30 2010-10-25 dispositivo e método de determinação de conteúdo característico
EP10826658.6A EP2482247A4 (en) 2009-10-30 2010-10-25 PROGRAM FOR DETERMINING CHARACTERISTIC CONTENT, DEVICE FOR DETERMINING CHARACTERISTIC CONTENT, METHOD FOR DETERMINING CHARACTERISTIC CONTENT, RECORDING MEDIUM, CONTENT MANAGEMENT DEVICE AND CORRESPONDING CONTENTINSTALLATION APPARATUS
CN201080048923.4A CN102598038B (zh) 2009-10-30 2010-10-25 特有内容数据判定装置、特有内容数据判定方法、内容数据生成装置以及关联内容数据插入装置
US14/696,992 US10614134B2 (en) 2009-10-30 2015-04-27 Characteristic content determination device, characteristic content determination method, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009-250646 2009-10-30
JP2009-250594 2009-10-30
JP2009250646A JP5462591B2 (ja) 2009-10-30 2009-10-30 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
JP2009250594A JP5462590B2 (ja) 2009-10-30 2009-10-30 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/504,831 A-371-Of-International US20120216107A1 (en) 2009-10-30 2010-10-25 Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
US14/696,992 Continuation-In-Part US10614134B2 (en) 2009-10-30 2015-04-27 Characteristic content determination device, characteristic content determination method, and recording medium

Publications (1)

Publication Number Publication Date
WO2011052526A1 true WO2011052526A1 (ja) 2011-05-05

Family

ID=43921948

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/068820 Ceased WO2011052526A1 (ja) 2009-10-30 2010-10-25 特有コンテンツ判定プログラム、特有コンテンツ判定装置、特有コンテンツ判定方法、記録媒体、コンテンツ生成装置及び関連コンテンツ挿入装置

Country Status (6)

Country Link
US (1) US20120216107A1 (ja)
EP (1) EP2482247A4 (ja)
KR (2) KR101640051B1 (ja)
CN (1) CN102598038B (ja)
BR (1) BR112012010120A2 (ja)
WO (1) WO2011052526A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008092079A2 (en) 2007-01-25 2008-07-31 Clipmarks Llc System, method and apparatus for selecting content from web sources and posting content to web logs
JP5938170B2 (ja) * 2011-06-08 2016-06-22 キヤノン株式会社 画像処理装置、その制御方法、及びプログラム
US9430583B1 (en) 2011-06-10 2016-08-30 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
KR101990450B1 (ko) * 2012-03-08 2019-06-18 삼성전자주식회사 웹 페이지 상에서 본문 추출을 위한 방법 및 장치
US9753926B2 (en) * 2012-04-30 2017-09-05 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page
US9548042B2 (en) * 2012-06-28 2017-01-17 Adobe Systems Incorporated Responsive document breakpoints systems and methods
US10354294B2 (en) * 2013-08-28 2019-07-16 Google Llc Methods and systems for providing third-party content on a web page
WO2015100518A1 (en) 2013-12-31 2015-07-09 Google Inc. Systems and methods for converting static image online content to dynamic online content
US20150254219A1 (en) * 2014-03-05 2015-09-10 Adincon Networks LTD Method and system for injecting content into existing computerized data
US10628875B2 (en) * 2016-06-28 2020-04-21 Facebook, Inc. Product page classification
US11373198B2 (en) * 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program
US10984166B2 (en) * 2017-09-29 2021-04-20 Oracle International Corporation System and method for extracting website characteristics
CN110059272B (zh) * 2018-11-02 2023-08-15 创新先进技术有限公司 一种页面特征识别方法和装置
JP6625259B1 (ja) * 2019-07-11 2019-12-25 株式会社ぐるなび 情報処理装置、情報処理方法及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308461A (ja) * 2002-04-12 2003-10-31 Toyo Kitchen & Living Co Ltd 組合せ体プラン電子説明システム、及びシステムキッチンプラン電子説明システム
JP2006146506A (ja) * 2004-11-18 2006-06-08 Image:Kk Webサイト更新システム、Webサイト更新方法およびWebサイト更新プログラム
JP2006259965A (ja) * 2005-03-16 2006-09-28 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007080061A (ja) * 2005-09-15 2007-03-29 Univ Of Tsukuba Webページの検索方法及びWebページのクラスタリング方法
JP2008130032A (ja) * 2006-11-24 2008-06-05 Sharp Corp コンテンツ抽出装置、方法、プログラム、及び記録媒体
WO2008108515A1 (en) * 2007-03-05 2008-09-12 Nr Systems, Inc. System for advertising using meta-blog web page and profit creating method with it
JP2009199513A (ja) * 2008-02-25 2009-09-03 Nec Corp 違法情報検出装置、違法情報検出方法、及び違法情報検出プログラム
JP2009205499A (ja) * 2008-02-28 2009-09-10 Nec Corp ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4095739B2 (ja) * 1999-04-16 2008-06-04 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブサイト閲覧方法、ウェブサイト閲覧システム、コンピュータ、および記憶媒体
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US20020010622A1 (en) * 2000-07-18 2002-01-24 Fumino Okamoto System and method capable of appropriately managing customer information and computer-readable recording medium having customer information management program recorded therein
FR2826761B1 (fr) * 2001-06-27 2003-10-17 Canon Kk Procede d'analyse d'un document represente dans un langage de balisage
US7203899B2 (en) * 2002-04-12 2007-04-10 Xerox Corporation Systems and methods for assessing user success rates of accessing information in a collection of contents
US20050091106A1 (en) * 2003-10-27 2005-04-28 Reller William M. Selecting ads for a web page based on keywords located on the web page
US20040193698A1 (en) * 2003-03-24 2004-09-30 Sadasivuni Lakshminarayana Method for finding convergence of ranking of web page
MXPA06004513A (es) * 2003-10-21 2006-09-04 Intellectual Property Bank Dispositivo de analisis de caracteristicas de documento para documento que ha de examinarse.
US20050149880A1 (en) * 2003-11-06 2005-07-07 Richard Postrel Method and system for user control of secondary content displayed on a computing device
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
CN1702651A (zh) * 2004-05-24 2005-11-30 富士通株式会社 特定类型信息文件的识别方法和装置
US20060015401A1 (en) * 2004-07-15 2006-01-19 Chu Barry H Efficiently spaced and used advertising in network-served multimedia documents
US20070011155A1 (en) * 2004-09-29 2007-01-11 Sarkar Pte. Ltd. System for communication and collaboration
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
US7725502B1 (en) * 2005-06-15 2010-05-25 Google Inc. Time-multiplexing documents based on preferences or relatedness
US20070027772A1 (en) * 2005-07-28 2007-02-01 Bridge Well Incorporated Method and system for web page advertising, and method of running a web page advertising agency
US8229914B2 (en) * 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US7962463B2 (en) * 2005-10-31 2011-06-14 Lycos, Inc. Automated generation, performance monitoring, and evolution of keywords in a paid listing campaign
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US7630964B2 (en) * 2005-11-14 2009-12-08 Microsoft Corporation Determining relevance of documents to a query based on identifier distance
US7603619B2 (en) * 2005-11-29 2009-10-13 Google Inc. Formatting a user network site based on user preferences and format performance data
US8239754B1 (en) * 2006-04-07 2012-08-07 Adobe Systems Incorporated System and method for annotating data through a document metaphor
US7624103B2 (en) * 2006-07-21 2009-11-24 Aol Llc Culturally relevant search results
JP4913154B2 (ja) * 2006-11-22 2012-04-11 春男 林 文書解析装置および方法
US7877384B2 (en) * 2007-03-01 2011-01-25 Microsoft Corporation Scoring relevance of a document based on image text
US8244750B2 (en) * 2007-03-23 2012-08-14 Microsoft Corporation Related search queries for a webpage and their applications
WO2008142800A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US8526405B2 (en) * 2007-06-13 2013-09-03 Apple Inc. Routing network requests based on requesting device characteristics
CN101855612A (zh) * 2007-06-21 2010-10-06 概要软件有限责任公司 用于对博客进行简编的系统和方法
US9323827B2 (en) * 2007-07-20 2016-04-26 Google Inc. Identifying key terms related to similar passages
US8463779B2 (en) * 2007-10-30 2013-06-11 Yahoo! Inc. Representative keyword selection
US7769749B2 (en) * 2007-11-13 2010-08-03 Yahoo! Inc. Web page categorization using graph-based term selection
US8145526B2 (en) * 2007-11-20 2012-03-27 Daniel Redlich Revenue sharing system that incentivizes content providers and registered users and includes payment processing
US7984145B2 (en) * 2008-01-24 2011-07-19 Pm Investigations, Inc. Notification of suspicious electronic activity
US8886660B2 (en) * 2008-02-07 2014-11-11 Siemens Enterprise Communications Gmbh & Co. Kg Method and apparatus for tracking a change in a collection of web documents
US7970760B2 (en) * 2008-03-11 2011-06-28 Yahoo! Inc. System and method for automatic detection of needy queries
US9690786B2 (en) * 2008-03-17 2017-06-27 Tivo Solutions Inc. Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
CN101246498B (zh) * 2008-03-27 2010-07-14 腾讯科技(深圳)有限公司 一种新闻网页的搜索方法
US20140006922A1 (en) * 2008-04-11 2014-01-02 Alex Smith Comparison output of electronic documents
US20090313127A1 (en) * 2008-06-11 2009-12-17 Yahoo! Inc. System and method for using contextual sections of web page content for serving advertisements in online advertising
US20090313579A1 (en) * 2008-06-13 2009-12-17 International Business Machines Corporation Systems and methods involving favicons
JP5226401B2 (ja) * 2008-06-25 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書データの検索を支援する装置及び方法
US20100058440A1 (en) * 2008-08-27 2010-03-04 Yahoo! Inc. Interaction with desktop and online corpus
JP4650552B2 (ja) * 2008-10-14 2011-03-16 ソニー株式会社 電子機器、コンテンツ推薦方法及びプログラム
CN101382962B (zh) * 2008-10-29 2011-03-02 西北工业大学 一种考虑概念抽象度的浅层分析自动文档综述方法
TWI390177B (zh) * 2008-11-24 2013-03-21 Inst Information Industry 景點推薦裝置和方法以及儲存媒體
CN101477563B (zh) * 2009-01-21 2010-11-10 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
US20100192055A1 (en) * 2009-01-27 2010-07-29 Kutano Corporation Apparatus, method and article to interact with source files in networked environment
US8719308B2 (en) * 2009-02-16 2014-05-06 Business Objects, S.A. Method and system to process unstructured data
US8676798B1 (en) * 2009-09-30 2014-03-18 BloomReach Inc. Query generation for searchable content
US20110099133A1 (en) * 2009-10-28 2011-04-28 Industrial Technology Research Institute Systems and methods for capturing and managing collective social intelligence information
US7716205B1 (en) * 2009-10-29 2010-05-11 Wowd, Inc. System for user driven ranking of web pages
US8577887B2 (en) * 2009-12-16 2013-11-05 Hewlett-Packard Development Company, L.P. Content grouping systems and methods
CA2817136C (en) * 2010-11-10 2018-06-26 Rakuten, Inc. Related-word registration and information processing device, method, recording medium and system
JP2013037624A (ja) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
US8990202B2 (en) * 2011-11-03 2015-03-24 Corefiling S.A.R.L. Identifying and suggesting classifications for financial data according to a taxonomy
US20130246436A1 (en) * 2012-03-19 2013-09-19 Russell E. Levine System and method for document indexing and drawing annotation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308461A (ja) * 2002-04-12 2003-10-31 Toyo Kitchen & Living Co Ltd 組合せ体プラン電子説明システム、及びシステムキッチンプラン電子説明システム
JP2006146506A (ja) * 2004-11-18 2006-06-08 Image:Kk Webサイト更新システム、Webサイト更新方法およびWebサイト更新プログラム
JP2006259965A (ja) * 2005-03-16 2006-09-28 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007080061A (ja) * 2005-09-15 2007-03-29 Univ Of Tsukuba Webページの検索方法及びWebページのクラスタリング方法
JP2008130032A (ja) * 2006-11-24 2008-06-05 Sharp Corp コンテンツ抽出装置、方法、プログラム、及び記録媒体
WO2008108515A1 (en) * 2007-03-05 2008-09-12 Nr Systems, Inc. System for advertising using meta-blog web page and profit creating method with it
JP2009199513A (ja) * 2008-02-25 2009-09-03 Nec Corp 違法情報検出装置、違法情報検出方法、及び違法情報検出プログラム
JP2009205499A (ja) * 2008-02-28 2009-09-10 Nec Corp ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AUTOMATIC BANNER CREATION, 21 October 2009 (2009-10-21), Retrieved from the Internet <URL:http//hyperbannermaker.com/>>
See also references of EP2482247A4

Also Published As

Publication number Publication date
CN102598038A (zh) 2012-07-18
EP2482247A1 (en) 2012-08-01
BR112012010120A2 (pt) 2016-06-07
KR101640051B1 (ko) 2016-07-15
KR20140127360A (ko) 2014-11-03
CN102598038B (zh) 2015-02-18
EP2482247A4 (en) 2014-11-19
US20120216107A1 (en) 2012-08-23
KR20120088792A (ko) 2012-08-08

Similar Documents

Publication Publication Date Title
CN102598038B (zh) 特有内容数据判定装置、特有内容数据判定方法、内容数据生成装置以及关联内容数据插入装置
US11675969B2 (en) Dynamic native content insertion
US11182823B2 (en) Automated creative extension selection for content performance optimization
CN102859518B (zh) 信息处理装置、信息处理方法
AU2014399168B2 (en) Automated click type selection for content performance optimization
US20090049062A1 (en) Method for Organizing Structurally Similar Web Pages from a Web Site
US20180157763A1 (en) System and method for generating an electronic page
US11625448B2 (en) System for superimposed communication by object oriented resource manipulation on a data network
CN104598556A (zh) 搜索方法及装置
CN104077388A (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN105874449A (zh) 用于提取和生成用于显示内容的图像的系统和方法
WO2013077029A1 (ja) 検索装置、検索方法、検索プログラム及び記録媒体
CN103336794A (zh) 用于在目标页面中提供对应呈现信息的方法与设备
CN103164423A (zh) 一种用于确定渲染网页的浏览器内核类型的方法与设备
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
KR101091991B1 (ko) 광고 제공 장치 및 방법
JP2022126427A (ja) 情報処理装置、情報処理方法、情報処理プログラム
US10614134B2 (en) Characteristic content determination device, characteristic content determination method, and recording medium
JP2020135392A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN114218515A (zh) 一种基于内容分割的Web数字对象提取方法及系统
JP5462590B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP6505200B2 (ja) コンテンツの性能の最適化のための自動化されたクリックタイプの選択
KR101372580B1 (ko) 브라우저 ui를 제공하기 위한 방법, 단말 장치, 서버 및 컴퓨터 판독 가능한 기록 매체
KR20120107891A (ko) 맞춤형 광고 제공 방법 및 장치
JP2010152441A (ja) 情報検索装置、情報検索方法、情報検索処理プログラム及び情報検索システム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080048923.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10826658

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010826658

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13504831

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 1201001931

Country of ref document: TH

ENP Entry into the national phase

Ref document number: 20127014075

Country of ref document: KR

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112012010120

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112012010120

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20120427