WO2017146454A1 - 컨텐트를 인식하는 방법 및 장치 - Google Patents
컨텐트를 인식하는 방법 및 장치 Download PDFInfo
- Publication number
- WO2017146454A1 WO2017146454A1 PCT/KR2017/001933 KR2017001933W WO2017146454A1 WO 2017146454 A1 WO2017146454 A1 WO 2017146454A1 KR 2017001933 W KR2017001933 W KR 2017001933W WO 2017146454 A1 WO2017146454 A1 WO 2017146454A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- text
- screen
- information
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/252—Processing of multiple end-users' preferences to derive collaborative data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programmes or purchase activity
- H04N21/44224—Monitoring of user activity on external systems, e.g. Internet browsing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for programme selection
- H04N21/4826—End-user interface for programme selection using recommendation lists, e.g. of programmes or channels sorted out according to their score
Definitions
- the disclosed embodiments are directed to a method for a device to identify content, a method for a server to identify content, a device for identifying content, and a server for identifying content.
- Advertisers need to know what content they are consuming in order to provide customized advertisements to meet the needs of various consumers.
- Conventional fingerprint-based content recognition technology extracts a fingerprint from an image or audio of a content currently being played by a display device such as a TV, transmits the fingerprint to a server, and matches it with reference data in a database of the server. Recognized whether it is content. Based on this result, the content consumption or viewing pattern of the display device can be analyzed, and the advertiser can effectively provide customized advertisements based on the analysis result.
- the disclosed embodiment provides a method of controlling a device that provides content capable of obtaining information of content watched by a user more efficiently by acquiring information of content watched by a user of the device through a screen of the captured device, and To provide a device and server.
- the screen of the device When a control signal for controlling at least one content provided by the device is received, the screen of the device is captured, and when the captured screen corresponds to the template screen, a character string including content information is included in a preset area of the captured screen. Extracts and compares the extracted character string with at least one text included in the preset semantic recognition model, detects text corresponding to the content information, and recognizes the content displayed on the screen of the device based on the detected text. Is initiated.
- FIG. 1 is a conceptual diagram illustrating a system for recognizing content according to an exemplary embodiment.
- FIG. 2 is a flowchart illustrating a method of controlling a device for providing content according to an exemplary embodiment.
- 3A to 3C are diagrams for describing a template screen provided for each content service for providing content.
- FIG. 4 is a flowchart for describing a method of extracting content information from a captured screen by a device providing content according to another exemplary embodiment.
- FIG. 5 is a diagram for describing a method of extracting content information from a screen captured by a device according to another exemplary embodiment.
- FIG. 6 is a flowchart illustrating a method of recognizing a content using a preset semantic recognition model according to an embodiment.
- FIG. 7 is a flowchart illustrating a method of recognizing content using a template screen corresponding to a content service, according to an exemplary embodiment.
- FIG. 8 is a flowchart illustrating a method of recognizing content by a device according to an exemplary embodiment.
- 9A to 9D are diagrams for describing a method of recognizing content by a device using a semantic recognition model, according to an exemplary embodiment.
- 10A and 10B are block diagrams of devices for recognizing content according to an embodiment.
- FIG. 11 is a flowchart illustrating a method of recognizing content provided to a device by a semantic recognition server according to an embodiment.
- FIG. 12 is a block diagram illustrating a semantic recognition server recognizing content provided to a device, according to an exemplary embodiment.
- FIG. 13 is a conceptual diagram illustrating a system for recognizing content displayed on a device, according to an exemplary embodiment.
- FIG. 14 is a block diagram illustrating in more detail an operation of a semantic recognizer included in a processor of a semantic recognition server, according to an exemplary embodiment.
- 15 is a block diagram illustrating in more detail an operation of a content data management module included in a semantic recognizer of a semantic recognition server, according to an exemplary embodiment.
- FIG. 16 is a diagram for describing a method of processing text based on a semantic recognition model based on text data in a semantic recognition server, according to an exemplary embodiment.
- a method of recognizing a content may include: capturing a screen of a device as a control signal for controlling at least one content provided by the device is received; If the captured screen corresponds to a template screen, extracting a string including content information from a preset area of the captured screen; Comparing the extracted character string with at least one text included in a preset semantic recognition model and detecting text corresponding to content information; And recognizing content displayed on the screen of the device based on the detected text.
- a method of recognizing a content may include: receiving, from a device, a string including content information extracted from a captured screen, as the screen captured by the device corresponds to a template screen; Comparing the received string with at least one text included in a preset semantic recognition model and detecting text corresponding to content information; And recognizing content displayed on the screen of the device based on the detected text.
- a method of recognizing content by a server may further include receiving voice data of a user viewing content of a device, and recognizing the content may include detected text and voice data of the received user. Recognize the content displayed on the screen of the device based on.
- the method of recognizing content by the server may further include obtaining content data at a predetermined period from an external server, and the semantic recognition model is updated based on the acquired content data at a predetermined period.
- a method for recognizing content by a server may include: information of a user viewing at least one content, information of a device, a viewing time of at least one content to be recognized, and a content service providing at least one content Acquire additional information including at least one of size information of each character in a string including the recognition information and the content information.
- the detecting of the text may include comparing the extracted content information with the at least one text to determine a probability value for each of the at least one text corresponding to the extracted content information. Calculating; And detecting any one of the at least one text based on the calculated probability value.
- a string including the content information extracted from another capture screen corresponding to the template screen from a device.
- recognizing content includes changing information that does not correspond to text detected in the extracted content information based on the detected text.
- the method according to an embodiment of the present disclosure further includes transmitting the content recognition result to the viewing pattern analysis server.
- the method according to an embodiment of the present disclosure further includes receiving, from the viewing pattern analysis server, viewing pattern history information of the user of the device generated by the viewing pattern analysis server based on the content recognition result.
- a device for recognizing content includes a communication unit configured to receive at least one content; A display unit displaying any one of at least one content; And capturing a screen of the device as a control signal for controlling at least one content is received, and extracting a character string including content information from a predetermined area of the captured screen when the captured screen corresponds to a template screen. And a processor configured to compare the extracted character string with at least one text included in the preset semantic recognition model, detect text corresponding to the content information, and recognize content displayed on the screen of the device based on the detected text. .
- a server recognizing a content may include: a communication unit configured to receive, from the device, a string including content information extracted from a captured screen as a screen captured by the device corresponds to a template screen; And a processor configured to compare the received content information with at least one text included in a preset semantic recognition model, detect text corresponding to the content information, and recognize content displayed on a screen of the device based on the detected text. Include.
- the communication unit receives the voice data of the user viewing the content of the device, the processor, based on the detected text and the received voice data of the user on the screen of the device Recognize the displayed content.
- the communication unit obtains the content data at a predetermined period from an external server, and the semantic recognition model recognizes the content to be updated based on the content data obtained at the predetermined period. .
- the communication unit may provide information of a user viewing at least one content, device information, viewing time of at least one content to be recognized, and at least one content. Additional information including at least one of size information of each character is obtained from a character string including recognition information of the content service and content information.
- the processor Comparing the extracted content information with the at least one text, Computing a probability value of each of the at least one text corresponding to the extracted content information; And at least one text based on the calculated probability value.
- the processor may further include receiving a string including the content information extracted from another capture screen corresponding to the template screen from the device. Include.
- the processor changes information that does not correspond to the detected text in the extracted content information based on the detected text.
- the communication unit transmits the content recognition result to the viewing pattern analysis server.
- the communication unit recognizes the content received from the viewing pattern analysis server viewing pattern history information of the user of the device generated by the viewing pattern analysis server based on the content recognition result .
- any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
- the terms “... unit”, “module”, etc. described in the specification mean a unit for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software. .
- FIG. 1 is a conceptual diagram illustrating a system for recognizing content according to an exemplary embodiment.
- the device 100 may be a TV, but this is only an example and may be implemented as an electronic device including a display.
- the device 100 may be a mobile phone, a tablet PC, a digital camera, a camcorder, a laptop computer, a tablet PC, a desktop, an e-book device, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia (PMP).
- PDA personal digital assistant
- PMP portable multimedia
- the electronic device may be implemented as various electronic devices such as a player, a navigation device, an MP3 player, a wearable device, and the like.
- embodiments may be easily implemented in a display device having a large display, such as a TV, but is not limited thereto.
- the device 100 may be fixed or mobile and may be a digital broadcast receiver capable of digital broadcast reception.
- the device 100 may receive a content service through the set top box 10.
- the content service may include not only real-time broadcast content services provided by terrestrial broadcast signals, cable broadcast set top boxes, and IPTV set top boxes, but also content services in the form of web applications such as Netflix and YouTube.
- the content service is only an example and the present invention is not limited thereto.
- the device 100 may receive at least one content from the service providing apparatus 10.
- the device 100 may display the content selected by the user of the device 100 among the at least one received content on the screen of the device 100.
- a user of the device 100 may transmit a control signal for controlling at least one content provided by the device 100 to the device 100.
- the control signal may include a remote control signal, a touch signal of a smart phone and a wearable device, a voice command, a gesture recognition signal, a complex sensor signal, and the like, but this is only an embodiment, and the control signal of the present invention is limited thereto. It is not.
- the device 100 may capture a screen of the device 100 on which content is displayed.
- the device 100 may capture a screen of the device 100 in which content is displayed on a predetermined time unit.
- the device 100 may determine whether the pre-stored template screen and the captured screen correspond to each other.
- the template screen may be preset with information about a text area in which information about content is displayed on the screen.
- the template screen may be different according to the type of content service for transmitting content to the device 100. E.g. The template screen for the content service A and the template screen for the content service B may be different from each other.
- the device 100 checks the type of content service and selects a template of the previously identified content service. An operation of capturing a screen on which content is displayed may be repeatedly performed until a screen corresponding to the selected template screen is captured. When the screen corresponding to the template screen is captured, the device 100 may stop capturing the screen of the device 100.
- the device 100 may extract a character string including content information from a preset area on the captured screen corresponding to the template screen.
- the preset area is an area including content information such as title name or channel name of the content.
- the content information may be displayed in text form.
- the device 100 may recognize a text displayed in a preset area and extract a string including content information.
- the device 100 may extract information on a type, title, and genre of content by reading text on a predetermined area of the captured screen by using an optical character reader (OCR).
- OCR optical character reader
- the device 100 may transmit the extracted character string to the meaning recognition server 200.
- the semantic recognition server 200 may recognize content viewed by a user of the device 100 based on a character string received from the device 100.
- the device 100 may detect a text corresponding to the content information by comparing a string including the content information with at least one text included in a preset semantic recognition model.
- the device 100 may recognize content displayed on the screen of the device 100 based on the detected text.
- the device 100 may increase the accuracy of content recognition by using a preset semantic recognition model.
- the semantic recognition server 200 may recognize a content by comparing a preset semantic recognition model with a received string. For example, the semantic recognition server 200 may select text corresponding to content information included in the received string from among at least one text included in the preset semantic recognition model. The meaning recognition server 200 may recognize content using the selected text.
- the selected text may be, for example, text indicating at least one of a title of the content and a type of channel through which the content is provided.
- the semantic recognition server 200 may transmit the content recognition result to the viewing pattern analysis server 300.
- the viewing pattern analysis server 300 may determine the viewing pattern of the user by obtaining a content recognition result from the semantic recognition server 200 for a predetermined period and analyzing the obtained content recognition result.
- FIG. 2 is a flowchart illustrating a method of controlling a device 100 (hereinafter, referred to as a device) that provides content according to an embodiment.
- the device 100 receives a control signal for controlling at least one content provided from the device 100.
- the device 100 may receive a control signal for controlling at least one content provided by the device 100 from an input device.
- the device 100 may receive a control signal for controlling at least one content provided from the device 100 from the remote controller.
- the control signal may be a channel change signal of the device 100, a power on signal of the device 100, a connection signal between another device and the device 100, a menu selection signal of the device 100, and at least one It may be one of request signals for content information.
- the device 100 captures the screen of the device 100 at a predetermined cycle.
- the device 100 may capture a screen of the device 100 on which content is displayed.
- the screen of the device 100 may display at least one of a title name, a channel name, a content list, content related additional information, and a user interface recognition for selecting content of at least one content provided from the device 100.
- this is only an example and the information displayed on the screen of the device 100 is not limited thereto.
- the device 100 may repeatedly capture a screen of the device 100 according to a preset period.
- the device 100 may capture the screen of the device 100 at two second intervals from the time when the control signal is received.
- the device 100 extracts a string including content information from a preset area of the captured screen.
- the template screen may be different according to the type of content service that provides at least one content to the device 100.
- information about an area in which content information provided by a specific content service is displayed may be preset on the template screen. For example, in the case of the template screen for the A content service, information indicating an area in which content information is displayed on the upper left of the screen may be preset.
- the device 100 may stop capturing the screen.
- the screen corresponding to the template screen may be a screen on which at least one of the image and the text is displayed at a position corresponding to at least one position of the image and the text displayed on the template screen.
- the device 100 may stop capturing the screen.
- the device 100 may extract a string including content information displayed in a predetermined area of a captured screen corresponding to a template screen.
- the device 100 recognizes content displayed on the screen of the device 100 based on content information included in the extracted character string.
- the device 100 may read text displayed on the extracted character string by using the OCR.
- the content information may include information about a title, type, and genre of the content.
- this is merely an example and content information is not limited thereto.
- 3A to 3C are diagrams for describing a template screen provided for each content service for providing content.
- the device 100 (hereinafter, referred to as a device) for providing content receives a control signal from an input device, the device 100 (hereinafter, referred to as a device) may have a predetermined cycle until a screen 310 corresponding to the template screen 320 is captured. You can take a screenshot.
- the device 100 may select a template screen 320 stored in advance for the A content service providing the content.
- the bounding box may be a template of the A content service. Therefore, as a result of periodically matching the captured screen to a template in the form of a bounding box, the device 100 extracts the text 312 from the preset content information display area 322 when the captured screen matches the template. You can extract a string containing information.
- the device 100 may capture the screen according to a preset period until the time when the screen 330 corresponding to the template screen 340 is captured. have.
- the device 100 may select a template screen 330 stored in advance for the B content service providing the content.
- a web application type content service such as Netflix in a smart TV or smart phone
- it may have a screen having the same UI layout.
- a template may be created from a UI layout of a screen immediately before content is played.
- the template may be periodically matched with the captured screen, and if matched, the text may be recognized from the preset content information display area 342 to extract a character string including the content information.
- the device 100 may extract the text 332 from the upper left area corresponding to the content information display area 342. .
- the device 100 may recognize the content displayed on the device 100 by reading the extracted text 432.
- the device 100 may capture the screen according to a predetermined cycle until the time when the screen 350 corresponding to the template screen 360 is captured.
- the device 100 may select a template screen 350 stored in advance for the C content service providing the content.
- the device 100 may create a template from a UI layout screen at a specific point in time before content is played back.
- the template screen 360 thus created may be stored in the device 100, which is a template screen.
- the image 360 may be periodically matched with the captured screen 350, and if it matches, the text may be extracted from the preset content information display area 362 to recognize the content.
- FIG. 4 is a flowchart illustrating a method of extracting content information from a captured screen by a device 100 (hereinafter, referred to as a device) that provides content according to another embodiment.
- the device 100 may receive a control signal for controlling at least one content provided by the device 100.
- the device 100 may detect an area around the point.
- the device 100 may determine whether the received control signal is a control signal pointing to the screen of the device 100. As the device 100 determines that the received control signal is a control signal pointing to the screen of the device 100, the device 100 may detect a peripheral area located within a preset range from the pointed point. In operation S430, the device 100 may extract a string including content information from the detected area.
- the device 100 may recognize content displayed on the screen of the device 100 based on the extracted string.
- the device 100 may read text displayed on the extracted character string by using a text reading technique such as OCR.
- a text reading technique such as OCR.
- this is only an example and the method of recognizing the content based on the string extracted by the device 100 is not limited to the above-described example.
- FIG. 5 is a diagram for describing a method of extracting content information from a captured screen by the device 100 according to another exemplary embodiment.
- the device 100 may receive a control signal 512 for controlling at least one content provided from the device 100.
- the device 100 may detect a peripheral area 522 of the pointed point.
- the device 100 may determine whether the received control signal 512 is a control signal pointing to the screen of the device 100. As the device 100 determines that the received control signal 512 is a control signal pointing to the screen of the device 100, the device 100 may detect the peripheral area 522 located within a preset range from the pointed point. .
- the device 100 may read content information extracted from the detected peripheral area 522 to recognize text representing information about a contact. For example, the device 100 may recognize the text indicating the information about the content and confirm that the title of the content is Kung Fu OO 2.
- FIG. 6 is a flowchart illustrating a method of recognizing content by using a preset semantic recognition model, according to an exemplary embodiment.
- the device 100 captures a screen of the device 100 as a control signal for controlling at least one content provided from the device 100 is received.
- the device 100 may receive a control signal for controlling at least one content. Also, the device 100 may determine a type of content service that provides at least one content to the device 100 based on the received control signal.
- the type of content service may be any one of a web-based video on demand (VOD) service, a live service, and an application-based service.
- VOD web-based video on demand
- the type of content service is not limited thereto. Accordingly, a template screen may be selected according to the type of content service, and matching between the template screen and the captured screen may be performed.
- the device 100 may capture the screen of the device 100 at a predetermined cycle.
- the device 100 may determine whether the captured screen corresponds to the template screen.
- the template screen may be different according to the type of content service.
- the device 100 extracts a string including content information from a preset area of the captured screen.
- the device 100 may extract a string including content information from an area of a captured screen corresponding to an area where content information is displayed on a template screen.
- the content information may include, for example, text such as the title of the content and the name or number of the channel on which the content is provided.
- the device 100 compares the extracted character string with at least one text included in a preset semantic recognition model and detects text corresponding to content information.
- the device 100 may preset a semantic recognition model.
- the semantic recognition model may include at least one text for recognizing content.
- the semantic recognition model may include at least one text indicating a title of content currently provided and a channel name or number on which content is provided.
- the semantic recognition model may be set differently according to the ID of the device and the ID of the user. For example, if the user is a woman in her 20s, the device 100 may select a semantic recognition model including at least one text indicating a title, a channel type, and the like of the content preferred by the woman in her 20s among the plurality of semantic recognition models. Can be.
- the device 100 may detect text included in a string using a format pattern preset for a template screen from the extracted string.
- the preset format pattern may be included in the semantic recognition model.
- the device 100 may detect text corresponding to the channel name and title name from the extracted character string.
- the device 100 may not correspond to at least one text included in the extracted text string with a format pattern preset for the template.
- the device 100 may detect text from the string by using a probability model that probabilistically calculates the relation of surrounding words in the string.
- the device 100 may extract the text that the actor's name is A and the broadcast name is B, based on the probability model, from the string B exclusive broadcast of A starring.
- the device 100 recognizes content displayed on the screen of the device 100 based on the detected text.
- the device 100 may determine the detected text as a title of content displayed on the screen of the device 100.
- the device 100 may verify the accuracy of the detected text by comparing the detected text among the at least one text included in the preset meaning recognition with the text having the highest similarity.
- the similarity may be determined according to the type of consonants and vowels between the texts and the coupling ratio.
- the device 100 may detect a kung fu having the highest similarity among at least one text included in the semantic recognition model. The device 100 compares the content information extracted from the captured screen with the semantic recognition model and detects text from the semantic recognition model, thereby correcting misunderstandings included in the received content information.
- the device 100 may verify the detected text based on the received additional information. For example, when the kung fu is detected as the title of the content, the device 100 determines whether the kung fu is broadcasted at the viewing time based on the information about the viewing time included in the additional information, and detects the detected text. Can be verified.
- the device 100 may verify the detected text based on the detected voice data. For example, while the kung fu is detected as the title of the content, it may be determined whether the voice data sensed by the device 100 indicates the kung fu to verify the detected text.
- the device 100 may repeatedly perform the above-described step S1120. Also, according to another example, the device 100 may request to recapture the screen of the device 100.
- FIG. 7 is a flowchart illustrating a method of recognizing content by using a template screen corresponding to a content service, according to an exemplary embodiment.
- the device 100 may receive a control signal for controlling at least one content provided by the device 100.
- the device 100 may determine a type of content service that provides at least one content to the device 100 based on the received control signal.
- the device 100 may determine the type of content service providing at least one content to the device 100 based on the received control signal.
- the type of content service may be any one of a web-based video on demand (VOD) service, a live service, and an application-based service.
- VOD web-based video on demand
- live service live service
- application-based service application-based service
- the device 100 may capture a screen of the device 100 on which content is displayed.
- the device 100 may capture a screen of the device 100 on which content is displayed as a control signal is received.
- the device 100 may select a template screen according to the determined type of content service.
- the template screen may be different according to the type of content service that provides at least one content to the device 100.
- the type of content service an area in which content information is displayed on a template screen and a size, color, shape, etc. of text constituting the content information may be different.
- steps S730 and S740 are described as parallel processes for convenience of description, but each step may be performed with a temporal relationship with each other.
- the device 100 may determine whether the captured screen corresponds to the template screen.
- the device 100 may perform the above-described steps S710 to S740 repeatedly.
- the device 100 may extract string data including content information from a preset area of the captured screen.
- the device 100 may extract string data including content information from a preset area of the captured screen.
- the device 100 may detect the text corresponding to the extracted content information by comparing the extracted string data information with at least one text included in a preset semantic recognition model.
- step S770 may correspond to step S630 described above with reference to FIG. 6.
- the device 100 may recognize content displayed on the screen of the device 100 based on the detected text.
- step S780 may correspond to step S640 described above with reference to FIG. 6.
- FIG. 8 is a flowchart illustrating a method of recognizing content by the device 100 according to an exemplary embodiment.
- the device 100 may receive a control signal for controlling at least one content provided by the device 100.
- step S810 may correspond to step S210 described above with reference to FIG. 2.
- the device 100 may capture a screen of the device 100 on which content is displayed at a predetermined cycle.
- the device 100 may determine whether the captured screen corresponds to the template screen.
- the device 100 may repeatedly capture the screen of the device 100 in step S810.
- the device 100 may extract a string including content information from a preset area of the captured screen.
- the device 100 may extract a string including content information from a predetermined area of the captured screen. For example, the device 100 may extract text from the captured screen in an area corresponding to the content information display area preset in the template screen.
- the device 100 may determine whether there is a text corresponding to content information among at least one text included in the semantic recognition model. Meanwhile, when the text corresponding to the content information is not detected, the device 100 according to an exemplary embodiment may repeatedly perform an operation of capturing the screen of the device 100 in operation S720.
- the device 100 may detect text corresponding to content information among at least one text included in the semantic recognition model.
- Step S860 may correspond to step S630 described above with reference to FIG. 6.
- the device 100 may recognize content displayed on the screen of the device 100 based on the detected text.
- Step S870 may correspond to step S640 described above with reference to FIG. 6.
- 9A to 9D are diagrams for describing a method in which the device 100 recognizes content using a semantic recognition model, according to an exemplary embodiment.
- the device 100 may receive a control signal for controlling content played by the device 100.
- the device 100 may determine a template screen used to identify content as the first template screen based on the received control signal.
- the device 100 may capture the screen 910a corresponding to the determined first template screen.
- the device 100 may detect an image 912a including content information from the captured screen 910a using the first template screen.
- the device 100 may read the detected image 912a to recognize the text 914a indicating information about the content.
- the device 100 may determine information necessary for identifying the content from the recognized text 914a using a preset semantic recognition model. For example, the device 100 may select text representing a title of content included on the recognized text 914a.
- the device 100 may compare the recognized text 914a with a preset semantic recognition model, and correct the 'Hong Fu' determined to be 'Kung Fu'.
- the device 100 may determine the type of the channel and the title of the content based on the text 916a in which an error is corrected.
- the device 100 may capture a screen 910b corresponding to the second template screen determined based on the control signal.
- the device 100 may detect an image 912b including content information from the captured screen 910b using the second template screen.
- the device 100 may read the detected image 912b to recognize the text 914b representing information about the content.
- the device 100 may determine information necessary for identifying the content from the recognized text 914b using a preset semantic recognition model. For example, the device 100 may select text representing a title of content included on the recognized text 914b.
- the device 100 may compare the recognized text 914b with a preset semantic recognition model, and correct the 'high' and 'ki' which are determined to be 'jiko' and 'ZI'. The device 100 may determine a title of the content based on the text 916b in which an error is corrected.
- the device 100 may capture a screen 910c corresponding to a third template screen determined based on a control signal.
- the device 100 may detect an image 912c including content information from the captured screen 910c using the third template screen.
- the device 100 may read the detected image 912c to recognize a text 914c representing information about content.
- the device 100 may determine information necessary for identifying the content from the recognized text 914c by using a preset semantic recognition model. For example, the device 100 may select 'descriptive items F' which is text indicating a title of content included on the recognized text 914c.
- the device 100 may compare the recognized text 914c with a preset semantic recognition model, and correct 'Joe F', which is determined to be, to 'za'.
- the device 100 may determine a title of the content based on the text 916c in which an error is corrected.
- the device 100 may capture a screen 910d corresponding to the fourth template screen determined based on the control signal.
- the device 100 may detect an image 912d including content information from the captured screen 910d using the fourth template screen.
- the device 100 may read the detected image 912d to recognize the text 914d indicating information about the content.
- the device 100 may determine information necessary for identifying the content from the recognized text 914d by using a preset semantic recognition model. For example, the device 100 may select '041', 'K E35joy' and 'Gag Concert' which are texts indicating title and channel information of content included in the recognized text 914d.
- the device 100 may compare the recognized text 914d with a preset semantic recognition model and correct 'K E35' that is determined to be “KBS”.
- the device 100 may determine the type of the channel and the title of the content based on the text 916d in which an error is corrected.
- the device 100 may recognize content more accurately by using a preset semantic recognition model as described above with reference to FIGS. 9A to 9D.
- 10A and 10B are block diagrams of a device 100 recognizing content according to an embodiment.
- a device 100 may include a communication unit 110, a controller 130, and a display unit 120.
- a communication unit 110 may include a communication unit 110, a controller 130, and a display unit 120.
- the device 100 may be implemented by more components than the illustrated components, and the device 100 may be implemented by fewer components.
- the device 100 may include, in addition to the communication unit 110, the display unit 120, and the control unit 130, an audio processing unit 115 and an audio output unit ( 125, the detector 140, the tuner 150, the power supply 160, the input / output unit 170, the video processor 180, and the storage 190 may be further included.
- an audio processing unit 115 and an audio output unit 125, the detector 140, the tuner 150, the power supply 160, the input / output unit 170, the video processor 180, and the storage 190 may be further included.
- the communication unit 110 may connect the device 100 to an external device (for example, an input device, a service providing device, a server, etc.) under the control of the controller 130.
- the controller 130 may transmit / receive content to a service providing device connected through the communication unit 110, download an application from the service providing device, or perform web browsing.
- the communication unit 110 may include one of a wireless LAN 111, a Bluetooth 112, and a wired Ethernet 113 in response to the performance and structure of the device 100.
- the communication unit 110 may include a combination of a wireless LAN 111, a Bluetooth 112, and a wired Ethernet 113.
- the communication unit 110 may receive a control signal of the input device under the control of the controller 130.
- the control signal may be implemented in a Bluetooth type, an RF signal type or a Wi-Fi type.
- the communication unit 110 may further include other short-range communication (eg, near field communication (not shown)) and Bluetooth low energy (BLE), in addition to Bluetooth.
- short-range communication eg, near field communication (not shown)
- BLE Bluetooth low energy
- the communication unit 110 receives a control signal for controlling at least one content provided from the device 100.
- the communication unit 110 may perform a function corresponding to the function of the sensing unit 140 to be described later.
- the communication unit 110 may transmit the extracted content information to the server.
- the communication unit 110 may receive content viewing pattern information of the user of the device 100 determined based on the content information extracted from the server 200.
- the display unit 120 generates a driving signal by converting an image signal, a data signal, an OSD signal, a control signal, and the like processed by the controller 140.
- the display unit 120 may be implemented as a PDP, an LCD, an OLED, a flexible display, or a 3D display.
- the display unit 120 may be configured as a touch screen and used as an input device in addition to the output device.
- the display 120 displays content.
- the display 120 may have a configuration corresponding to a screen in that content is displayed.
- the controller 130 typically controls the overall operation of the device 100.
- the controller 130 executes the programs stored in the storage 190 to execute the communication unit 110, the display unit 120, the audio processor 115, the audio output unit 125, and the detector 140.
- the tuner unit 150, the power supply unit 160, the input / output unit 170, the video processing unit 180, and the storage unit 190 may be controlled overall.
- the controller 130 captures a screen of the device 100 at predetermined intervals. In addition, when the captured screen corresponds to the template screen, the controller 130 extracts a string including content information from a preset area of the captured screen. The controller 130 recognizes the content displayed on the display 120 based on the content information included in the extracted character string.
- the controller 130 may determine a type of content service that provides at least one content to the device 100.
- the controller 130 may select a template screen according to the determined type of content service.
- the controller 130 may stop capturing the screen on which the content is displayed. In addition, the controller 130 may determine the type of content service and the type of control signal. The controller 130 may capture a screen of the device 100 on which content is displayed at a predetermined cycle based on the determined type of content service and the type of a control signal.
- the controller 130 may determine whether the received control signal is a signal pointing to the screen of the device 100 and detect a preset area from the point point on the screen. In addition, the controller 130 may extract a string including content information from the detected region. The controller 130 may recognize the content displayed on the display 120 based on the content information.
- the controller 130 detects text corresponding to the extracted content information by comparing the extracted content information with at least one text included in a preset semantic recognition model.
- the controller 130 may preset a semantic recognition model.
- the controller 130 may detect text having the highest similarity with the text included in the extracted content information among at least one text included in the semantic recognition model.
- the controller 130 recognizes the content displayed on the screen of the device 100 based on the detected text. For example, the controller 130 may determine the detected text as the title of the content displayed on the screen of the device 100. According to another example, the device 100 may verify the detected text based on the additional information. According to another example, the device 100 may verify the detected text based on the detected voice data.
- the audio processor 115 performs audio data processing.
- the audio processor 115 may perform various processing such as decoding, amplification, noise filtering, or the like on the audio data.
- the audio processor 115 may include a plurality of audio processing modules to process audio corresponding to a plurality of contents.
- the audio output unit 125 outputs audio included in the broadcast signal received through the tuner unit 140 under the control of the controller 180.
- the audio output unit 125 may output audio (eg, voice or sound) input through the communication unit 150 or the input / output unit 170.
- the audio output unit 125 may output audio stored in the storage 190 under the control of the controller 110.
- the audio output unit 125 may include at least one of a speaker 126, a headphone output terminal 127, or a S / PDIF (Sony / Philips Digital Interface: output terminal 128). It may include a combination of a speaker 126, a headphone output terminal 127, and an S / PDIF output terminal 128.
- the detector 140 may detect a user input and transmit the detected signal to the controller 130. In addition, the detector 140 may detect a user input for power on / off, channel selection, channel up / down, and screen setting. In addition, the detector 140 may detect a user input for moving a cursor displayed on the display 120 and a direction key input for moving focus between candidate items. In addition, the detector 140 detects a user's voice, a user's video, or a user's interaction.
- the microphone 141 receives the uttered voice of the user.
- the microphone 141 may convert the received voice into an electrical signal and output the converted signal to the controller 130.
- the microphone 141 may be embodied integrally or detachably with the device 100.
- the separated microphone 141 may be electrically connected to the image display device 100b through the communication unit 110 or the input / output unit 170. It will be readily understood by those skilled in the art that the microphone 141 may be excluded depending on the performance and structure of the device 100.
- the camera unit 142 may convert the received image into an electric signal and output the converted image to the controller 130 under the control of the controller 130.
- the light receiver 143 receives an optical signal (including a control signal) received from an external input device through a light window (not shown) of the bezel of the display 120.
- the optical receiver 143 may receive an optical signal corresponding to a user input (for example, touch, press, touch gesture, voice, or motion) from the input device.
- the control signal may be extracted by the control of the controller 130 from the received optical signal.
- the tuner 150 tunes only a frequency of a channel to be received by the display apparatus 100 among many propagation components through amplification, mixing, and resonance of a broadcast signal received by wire or wirelessly. can be selected by tuning.
- the broadcast signal includes audio, video, and additional information (eg, an EPG).
- the tuner unit 150 may determine a channel number according to a user input (for example, a control signal received from the control apparatus 200, for example, a channel number input, an up-down input of a channel, and a channel input on an EPG screen).
- a broadcast signal may be received in a frequency band corresponding to (for example, cable broadcast 506).
- the tuner unit 150 may receive a broadcast signal from various sources such as terrestrial broadcast, cable broadcast, satellite broadcast, and internet broadcast.
- the tuner unit 150 may receive a broadcast signal from a source such as analog broadcast or digital broadcast.
- the broadcast signal received through the tuner unit 150 is decoded (eg, audio decoded, video decoded or side information decoded) and separated into audio, video and / or side information.
- the separated audio, video and / or additional information may be stored in the storage 190 under the control of the controller 130.
- the power supply unit 160 supplies power input from an external power source to components inside the device 100 under the control of the controller 130.
- the power supply unit 160 may supply power output from one or more batteries (not shown) located in the device 100 to the internal components under the control of the controller 130.
- the input / output unit 170 may control the controller 130 to control video (for example, video), audio (for example, voice, music, etc.) and additional information (for example, from the outside of the device 100).
- EPG electronic program guide
- Input / output unit 170 is one of the HDMI port (High-Definition Multimedia Interface port, 171), component jack (component jack, 172), PC port (PC port, 173), and USB port (USB port, 174) It may include.
- the input / output unit 170 may include a combination of an HDMI port 171, a component jack 172, a PC port 173, and a USB port 174.
- the video processor 180 processes the video data received by the device 100.
- the video processor 180 may perform various image processing such as decoding, scaling, noise filtering, frame rate conversion, resolution conversion, and the like on the video data.
- the controller 130 stores a signal or data input from the outside of the device 100, or uses a RAM (RAM) 181 or an image display device 100b that is used as a storage area corresponding to various operations performed by the device 100.
- the control program for controlling may include a ROM 182 and a processor 183 stored therein.
- the processor 183 may include a graphic processor (not shown) for graphic processing corresponding to video.
- the processor 183 may be implemented as a system on chip (SoC) integrating a core (not shown) and a GPU (not shown).
- SoC system on chip
- the processor 183 may include a single core, dual cores, triple cores, quad cores, and multiple cores thereof.
- the processor 183 may include a plurality of processors.
- the processor 183 may be implemented as a main processor (not shown) and a sub processor (not shown) that operates in a sleep mode.
- the graphic processor 184 generates a screen including various objects such as an icon, an image, and a text by using a calculator (not shown) and a renderer (not shown).
- the calculator calculates attribute values such as coordinates, shapes, sizes, colors, and the like in which each object is to be displayed according to the layout of the screen using the user input sensed by the detector 130.
- the renderer generates screens of various layouts including objects based on the attribute values calculated by the calculator. The screen generated by the renderer is displayed in the display area of the display 120.
- the first to n interfaces 185-1 to 185-n are connected to the aforementioned various components.
- One of the interfaces may be a network interface connected to an external device via a network.
- the RAM 181, the ROM 182, the processor 183, the graphics processor 184, and the first through n interfaces 185-1 through 185-n may be interconnected through an internal bus 186. .
- control unit includes a processor 183, a ROM 182, and a RAM 181.
- the storage unit 190 may store various data, programs, or applications for driving and controlling the device 100 under the control of the controller 130.
- the storage 190 may provide a control program for controlling the device 100 and the controller 130, an application initially provided by a manufacturer or downloaded from the outside, a graphical user interface (GUI) related to the application, and a GUI.
- GUI graphical user interface
- objects eg, image text, icons, buttons, etc.
- user information eg., image text, icons, buttons, etc.
- documents e.g., documents, databases, or related data.
- the term “storage unit” refers to a memory card (eg, a micro SD card, a USB memory, or the like) mounted on the storage unit 190, the ROM 182 of the controller, the RAM 181, or the device 100. Not shown).
- the storage 190 may include a nonvolatile memory, a volatile memory, a hard disk drive (HDD), or a solid state drive (SSD).
- the storage 190 may include a broadcast receiving module (not shown), a channel control module, a volume control module, a communication control module, a voice recognition module, a motion recognition module, an optical reception module, a display control module, an audio control module, an external input control module, It may include a power control module, a power control module of an external device connected wirelessly (for example, Bluetooth), a voice database (DB), or a motion database (DB).
- Modules and databases (not shown) of the storage unit 190 include a broadcast reception control function, a channel control function, a volume control function, a communication control function, a voice recognition function, a motion recognition function, and an optical reception control function in the device 100.
- the display control function, the audio control function, the external input control function, the power control function, or a power control function of an external device connected to a wireless device may be implemented in software form.
- the controller 130 may perform each function by using the software stored in the storage 190.
- FIG. 11 is a flowchart illustrating a method of recognizing content provided to the device 100 by the semantic recognition server 200 according to an exemplary embodiment.
- the semantic recognition server 200 receives a string from the device 100 including content information extracted from the captured screen.
- the text string received by the semantic recognition server 200 may include text data displayed in a preset area corresponding to the template screen in the captured screen.
- the content information may include the title of the A content and information about the type of the channel on which the A content is provided.
- this is merely an example, and content information is not limited to the above-described example.
- the semantic recognition server 200 may receive additional information together with a string from the device 100.
- the additional information may include information about a time when content is displayed on the device 100, a user of the device 100, a type of content service, and a size, location, and color of text data displayed on the captured screen.
- the semantic recognition server 200 may receive voice data detected by the device 100 together with content information from the device 100.
- the voice data may include voice data of a user who watches the content displayed on the device 100.
- the meaning recognition server 200 may receive the string and the voice data together with the aforementioned additional information.
- the semantic recognition server 200 compares the received text string with at least one text included in a preset semantic recognition model and detects text corresponding to content information.
- the semantic recognition server 200 may preset a semantic recognition model.
- the semantic recognition model may include at least one text for recognizing content from content information received from the device 100.
- the semantic recognition model may include at least one text indicating a title of content currently provided and a type of channel on which content is provided.
- the semantic recognition model may include at least one of a probability model for calculating a probability according to a predetermined format pattern for each template screen and a relationship between words in the string in order to extract content information from a string.
- the semantic recognition model may be set differently according to the ID of the device and the ID of the user.
- the semantic recognition server 200 may include a semantic recognition model including at least one text indicating a title, a channel type, and the like, of a content preferred by a woman in their twenties among the plurality of semantic recognition models. Can be selected.
- the semantic recognition server 200 may detect text included in a string from a extracted string by using a format pattern preset for a template screen.
- the preset format pattern may be included in the semantic recognition model.
- the device 100 may detect text corresponding to the channel name and title name from the extracted character string.
- the device 100 may not correspond to at least one text included in the extracted text string with a format pattern preset for the template.
- the device 100 may detect text from the string by using a probability model that probabilistically calculates the relation of surrounding words in the string.
- the device 100 may extract the text that the actor's name is A and the broadcast name is B, based on the probability model, from the string B exclusive broadcast of A starring.
- the meaning recognition server 200 recognizes content displayed on the screen of the device 100 based on the detected text.
- the semantic recognition server 200 may determine the detected text as the title of the content displayed on the screen of the device 100.
- the meaning recognition server 200 may verify the detected text based on the additional information received from the device 100.
- text having the highest similarity with text included in the extracted content information may be detected.
- the similarity may be determined according to the matching ratio between the consonants and vowels of the text included in the content information, the type and the coupling relationship, and the like, and at least one text included in the semantic recognition model.
- the semantic recognition server 200 may detect a kung fu having the highest similarity among at least one text included in the semantic recognition model.
- the semantic recognition server 200 compares the content information received from the device 100 with the semantic recognition model and detects text from the semantic recognition model, thereby correcting an error included in the received content information.
- the semantic recognition server 200 may verify the detected text based on the voice data received from the device 100. For example, while kung fu is detected as the title of the content, it may be determined whether the voice data received by the semantic recognition server 200 indicates kung fu to verify the detected text.
- the semantic recognition server 200 may repeatedly perform step S1120 described above when it is determined that the detected text is not information suitable for recognizing the content. Also, according to another example, the meaning recognition server 200 may request the device 100 to recapture the screen of the device 100.
- the semantic recognition server 200 may transmit the content recognition result to the viewing pattern analysis server 300.
- the viewing pattern analysis server 300 may determine a viewing pattern including information on a channel and content type, content viewing time, and the like, which the user of the device 100 frequently watches.
- the information about the viewing pattern may be transmitted to the server of the content service provider or the advertisement provider.
- FIG. 12 is a block diagram illustrating a semantic recognition server 200 that recognizes content provided to the device 100, according to an exemplary embodiment.
- the semantic recognition server 200 may include a communication unit 210, a processor 220, and a storage unit 230. However, not all illustrated components are essential components.
- the semantic recognition server 200 may be implemented by more components than the illustrated components, and the semantic recognition server 200 may be implemented by fewer components.
- the communication unit 210 may connect the meaning recognition server 200 to an external device (eg, the device 100, the viewing pattern analysis server, etc.) under the control of the processor 220.
- the processor 220 may receive a string including content information from the device 100 connected through the communication unit 210.
- the communication unit 210 may receive content data at a predetermined cycle from an external web server (not shown).
- the content data can be used to generate a semantic recognition model.
- the processor 220 may transmit the identification information of the content displayed on the screen of the device 100 to the viewing pattern analysis server (not shown) through the communication unit 210.
- the communication unit 210 may receive voice data of the user sensed by the device 110.
- the voice data may include voice data sensed while the user watches the content displayed on the device 100.
- the processor 220 typically controls the overall operation of the semantic recognition server 200.
- the processor 220 may overall control the communicator 210, the storage 230, and the like by executing programs stored in the storage 230.
- the processor 220 compares the text string received through the communication unit 210 with at least one text included in a preset semantic recognition model. In addition, the processor 220 detects text corresponding to the content information from the at least one text based on the comparison result. For example, the processor 220 may detect text included in the character string from the extracted character string by using a format pattern preset for the template screen. According to another example, the device 100 may not correspond to at least one text included in the extracted text string with a format pattern preset for the template. In this case, the device 100 may detect text from the string by using a probability model that probabilistically calculates the relation of surrounding words in the string.
- the processor 220 recognizes content displayed on a screen of the device 100 based on the detected text. According to another embodiment, the processor 220 may verify the detected text based on the additional information received through the communication unit 210. Also, according to another example, when comparing the extracted content information with at least one text and selecting at least one candidate text having a similarity or more than a threshold, the processor 220 compares the at least one candidate text with additional information. By selecting either one, the accuracy of content recognition can be increased.
- the processor 220 may recognize content displayed on the screen of the device 100 based on the detected text and the voice data of the user received through the communication unit 210.
- the processor 220 may update the semantic recognition model based on at least one content data acquired at a predetermined period.
- the processor 220 may select the semantic recognition model according to the user's profile including at least one of the user's age, gender, and occupation.
- the storage unit 230 may store various data, programs, or applications for driving and controlling the meaning recognition server 200 under the control of the processor 220.
- the storage 230 may store at least one semantic recognition model.
- the storage unit 230 may store content data received from a web server (not shown).
- FIG. 13 is a conceptual diagram illustrating a system for recognizing content displayed on the device 100 (hereinafter, referred to as a content recognition system) according to an embodiment.
- the content recognition system may include a device 100 and a meaning recognition server 200.
- the device 100 may include a controller 130 and a detector 140.
- this is only to show some components necessary to describe the present embodiment, the components included in the device 100 is not limited to the above-described example.
- the controller 130 may capture a screen of the device 100 on which content is displayed as a control signal is received by the device 100. If the captured screen corresponds to a pre-stored template screen, the controller 130 may extract a string including content information from the captured screen.
- controller 130 may transmit the extracted character string to the meaning recognition server 200.
- the sensor 140 may detect voice data of a user who views at least one content received by the device 140. For example, voice data of a user who selects any one of at least one content received by the device 100 and voice data of a user who evaluates the content displayed on the device 100 may be sensed.
- the detector 140 may transmit the voice data to the meaning recognition server 200.
- the semantic recognition server 200 may include a communication unit 210, a processor 220, and a storage unit 230. However, this is only to show some components necessary to describe the present embodiment, the components included in the meaning recognition server 200 is not limited to the above-described example.
- the communication unit 210 may receive the string and voice data extracted from the device 100.
- the processor 220 may include a meaning recognizer 222 and a speech recognizer 224.
- the semantic recognizer 222 may detect text corresponding to content information from at least one text included in a preset semantic recognition model.
- the speech recognizer 224 may provide a result of analyzing the received speech data to the meaning recognizer 222. Accordingly, the meaning recognition unit 222 may verify the detected text by comparing the detected text with the speech data analysis result provided from the speech recognition unit 224. According to another example, when a plurality of texts corresponding to the received text is detected, the semantic recognizer 222 may select one by comparing the voice data analysis result with the detected plurality of texts.
- the text detected by the meaning recognition unit 222 may be transmitted to the viewing pattern analysis server 300 through the communication unit 210.
- the viewing pattern analysis server 300 may analyze the viewing pattern of the user of the device 100 by using the text received from the meaning recognition server 200 for a preset period of time.
- FIG. 14 is a block diagram illustrating in more detail an operation of the semantic recognition unit 1400 included in the processor 220 of the semantic recognition server 200, according to an exemplary embodiment.
- the semantic recognizer 1400 may include a content data management module 1410, an update module 1420, and a semantic recognition engine 1430.
- a content data management module 1410 may include a content data management module 1410, an update module 1420, and a semantic recognition engine 1430.
- the illustrated components may be performed in one module or may be performed in more modules than the illustrated components.
- the content data management module 1410 may receive content data from an external web server 50.
- the content data management module 1410 may provide the web server 50 with the type of the content providing service, the title of the content provided from the content providing service, the content of the content, the type of the channel where the content is provided, and the like. Can be received from 50.
- the content data management module 1410 may transmit the content data regarding the title of the content, the type of the channel, etc., from the received content data to the update module 1420.
- the update module 1420 may generate a semantic recognition model based on content data regarding a title, a channel type, and the like of the content received from the content data management module 1410.
- the update module 1420 may generate a semantic recognition model corresponding to the user of the device 100 using the additional information received from the device 100.
- the update module 1420 may generate a personalized semantic recognition model based on information about a gender, age, and age of the user received from the device 100.
- the semantic recognition engine 1430 may recognize content displayed on a screen of the device 100 using a string received from the device 100 based on a semantic recognition model provided from the update module 1420. have.
- the semantic recognition engine 1430 may extract a word predicted as a title of the content from the received character string, and transmit the word to the content data management module 1410.
- the content data management module 1410 may verify whether there is a mistake in the extracted word or whether the extracted word is suitable for recognizing the title of the content.
- the word verified from the content data management module 1410 may be transmitted to the viewing pattern analysis server 300.
- the content data management module 1410 is used.
- the extracted word may be transmitted to the viewing pattern analysis server 300 without going through the verification process.
- the viewing pattern analysis server 300 may analyze the viewing pattern of the user based on the content recognition result received from the meaning recognition engine 1430.
- the viewing pattern analysis server 300 may provide an analysis result to the update module 1420. Accordingly, the update module 1420 may update the semantic recognition model corresponding to the user of the device 100 based on the received viewing pattern analysis result.
- 15 is a block diagram illustrating in more detail an operation of the content data management module 1410 included in the semantic recognizer 220 of the semantic recognition server 200, according to an exemplary embodiment.
- the content data management module 1410 may include a web crawler 1412, a text processing module 1414, a content database management module 1416, and a content database 1418. have. However, not all illustrated components are essential components. For example, the illustrated components may be performed in one module or may be performed in more modules than the illustrated components.
- the web crawler 1412 may acquire content data among data provided from a web server. For example, the web crawler 1412 may visit a web page provided by a content service or a web page of a portal site, and may acquire content data recorded in the web page.
- the text processing module 1414 may process the content data acquired by the web crawler 1412 into a text form. For example, the text processing module 1414 may extract text from an image of a web page acquired by the web crawler 1412.
- the content database management module 1416 may classify the content data in the form of text obtained from the text processing module 1414 according to the type of the content service and the viewing time and store the content data in the content database 1418. .
- the content database management module 1416 may provide content data in text form to the update module 1420 and the semantic recognition engine 1430 described above with reference to FIG. 14.
- the content database 1418 is illustrated as being included in the content information management module 1410. However, this is only an example. According to another example, the content database 1418 may be described with reference to FIG. 12. It may be included in one storage 230.
- FIG. 16 is a diagram for describing a method of processing text based on a semantic recognition model based on text data in the semantic recognition server 200, according to an exemplary embodiment.
- the semantic recognition server 200 may detect at least one text capable of recognizing content from the content data 1610 in a text form.
- the semantic recognition server 200 may extract at least one text available for recognizing the content from the content data in the form of text using the preset template corpus 1620.
- the template corpus 1620 may be composed of words that can be used to recognize content. For example, a movie title, a drama title, a movie channel, and a broadcast time may be included in the template corpus according to an embodiment.
- the semantic recognition server 200 may classify the detected text according to a template corpus item.
- the template text 1630 may be stored together in an index form in the classified text 1630.
- the semantic recognition server 200 may generate a semantic recognition model based on the classified text 1630.
- FIG. 16 is only one example of methods for generating a semantic recognition model, and the method for generating a semantic recognition model in the present invention is not limited to using a corpus.
- Method according to an embodiment of the present invention is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium.
- the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
- Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
- Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
- Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
- a device may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a user interface such as a button, and the like.
- Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor.
- the computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc).
- the computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
- the medium is readable by the computer, stored in the memory, and can be executed by the processor.
- An embodiment may be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions.
- an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them.
- an embodiment may employ the same or different types of cores, different types of CPUs.
- Similar to the components in the present invention may be implemented in software programming or software elements, embodiments include C, C ++, including various algorithms implemented in combinations of data structures, processes, routines or other programming constructs. It may be implemented in a programming or scripting language such as Java, an assembler, or the like.
- the functional aspects may be implemented with an algorithm running on one or more processors.
- the embodiment may employ the prior art for electronic configuration, signal processing, and / or data processing.
- Terms such as “mechanism”, “element”, “means” and “configuration” can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
- connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.
- such as "essential”, “important” may not be a necessary component for the application of the present invention.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
디바이스에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 디바이스의 화면을 캡쳐하고, 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출하며, 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와과 대응되는 텍스트를 검출하고, 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 디바이스가 개시된다.
Description
개시된 실시예는 디바이스가 컨텐트를 식별하는 방법, 서버가 컨텐트를 식별하는 방법, 컨텐트를 식별하는 디바이스 및 컨텐트를 식별하는 서버에 관한 것이다.
다양한 소비자의 니즈(needs)에 충족하기 위해 개개인의 요구에 맞춘(customized) 광고를 제공하기 위해서는 사용자가 어떤 컨텐트를 소비하고 있는지를 광고 제공자가 알 필요가 있다.
종래의 핑거프린트(fingerprint) 기반의 컨텐트 인식 기술은 TV와 같은 디스플레이 장치가 현재 재생 중인 컨텐트의 영상 또는 오디오에서 핑거프린트를 추출하고, 이것을 서버로 전송하여, 서버의 데이터베이스의 참조 데이터와 매칭하여 어떤 컨텐트인지 인식하였다. 이러한 결과를 바탕으로 해당 디스플레이 장치의 컨텐트 소비 또는 시청 패턴을 분석할 수 있고, 광고업자는 이 분석 결과에 기반하여 효과적으로 맞춤형 광고를 제공할 수 있다.
그러나, 이러한 핑거프린트 기반의 컨텐트 인식 기술은 디스플레이 장치가 디스플레이 하는 컨텐트에서 핑거프린트를 추출하고, 이를 서버에 전송하는 과정에서 추가적인 연산이나 데이터 전송 부담이 생길 뿐만 아니라, 별도의 데이터베이스 서버와 매칭 서버를 운영해야 하는 등 추가적인 하드웨어에 의한 경제적인 부담이 큰 단점이 있다. 따라서, 디스플레이 장치가 재생중인 컨텐트에 대한 정보를 빠르고 용이하게 검출할 수 있도록 하는 기술에 대한 필요성이 대두되었다.
개시된 실시예는 디바이스의 사용자가 시청하는 컨텐트의 정보를 캡쳐된 디바이스의 화면을 통해 획득함으로써, 보다 효율적으로 사용자가 시청하는 컨텐트의 정보를 획득할 수 있는 컨텐트를 제공하는 디바이스를 제어하는 방법, 그 디바이스 및 서버를 제공하고자 한다.
디바이스에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 디바이스의 화면을 캡쳐하고, 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출하며, 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와과 대응되는 텍스트를 검출하고, 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 디바이스가 개시된다.
도 1은 일 실시예에 따라 컨텐트를 인식하는 시스템을 설명하기 위한 개념도이다.
도 2는 일 실시예에 따라 컨텐트를 제공하는 디바이스를 제어하는 방법을 설명하기 위한 흐름도이다.
도 3a 내지 도 3c는 컨텐트를 제공하는 컨텐트 서비스 별로 제공되는 템플릿 화면을 설명하기 위한 도면이다.
도 4는 다른 실시예에 따라, 컨텐트를 제공하는 디바이스가 캡쳐된 화면으로부터 컨텐트 정보를 추출하는 방법을 설명하기 위한 흐름도이다.
도 5는 다른 실시예에 따라, 디바이스가 캡쳐된 화면으로부터 컨텐트 정보를 추출하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 디바이스가 기 설정된 의미 인식 모델을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 디바이스가 컨텐트 서비스와 대응되는 템플릿 화면을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
도 8은 일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
도 9a 내지 도 9d는 일 실시예에 따라 디바이스가 의미 인식 모델을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 도면이다.
도 10a 및 도 10b는 일 실시예에 따라 컨텐트를 인식하는 디바이스의 블록도이다.
도 11은 일 실시예에 따른 의미 인식 서버가 디바이스에 제공되는 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
도 12는 일 실시예에 따라 디바이스에 제공되는 컨텐트를 인식하는 의미 인식 서버를 설명하기 위한 블록도이다.
도 13은 일 실시예에 따라 디바이스에 표시된 컨텐트를 인식하는 시스템을 설명하기 위한 개념도이다.
도 14는 일 실시예에 따라 의미 인식 서버의 프로세서에 포함된 의미 인식부의 동작을 보다 상세하게 설명하기 위한 블록도이다.
도 15는 일 실시예에 따라 의미 인식 서버의 의미 인식부에 포함된 컨텐트 데이터 관리 모듈의 동작을 보다 상세하게 설명하기 위한 블록도이다.
도 16은 일 실시예에 따라 의미 인식 서버에서 텍스트 형태의 컨텐트 데이터를 기초로 의미 인식 모델에 기초가 되는 텍스트를 가공하는 방법을 설명하기 위한 도면이다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 디바이스에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 디바이스의 화면을 캡쳐하는 단계; 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함하는 문자열을 추출하는 단계; 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출하는 단계; 및 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 단계를 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 디바이스에서 캡쳐된 화면이 템플릿 화면과 대응됨에 따라, 캡쳐된 화면에서 추출된 컨텐트 정보를 포함하는 문자열을 디바이스로부터 수신하는 단계; 수신된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출하는 단계; 및 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 단계를 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 디바이스의 컨텐트를 시청하는 사용자의 음성 데이터를 수신하는 단계를 더 포함하고, 컨텐트를 인식하는 단계는, 검출된 텍스트 및 수신된 사용자의 음성 데이터를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 외부의 서버로부터 기 설정된 주기로 컨텐트 데이터를 획득하는 단계를 더 포함하고, 의미 인식 모델은, 기 설정된 주기로 획득된 컨텐트 데이터에 기초하여 업데이트 된다.
인식일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 적어도 하나의 컨텐트를 시청하는 사용자의 정보, 디바이스의 정보, 적어도 하나의 인식하고자 하는 컨텐트의 시청 시간, 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 인식 정보 및 컨텐트 정보를 포함한 문자열에서 각각의 문자의 크기 정보 중 적어도 하나를 포함하는 부가 정보를 획득한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법에 있어서, 텍스트를 검출하는 단계는, 추출된 컨텐트 정보와 적어도 하나의 텍스트를 비교하여, 적어도 하나의 텍스트 각각이 추출된 컨텐트 정보에 대응될 확률값을 산출하는 단계; 및 산출된 확률값을 기초로 적어도 하나의 텍스트 중 어느 하나를 검출하는 단계를 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법에 있어서, 검출된 텍스트가 존재하지 않는 경우, 디바이스로부터 상기 템플릿 화면과 대응되는 다른 캡쳐 화면에서 추출된 상기 컨텐트 정보를 포함한 문자열을 수신하는 단계를 더 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법에 있어서, 컨텐트를 인식하는 단계는, 추출된 컨텐트 정보에서 검출된 텍스트와 대응되지 않는 정보를 검출된 텍스트를 기초로 변경하는 단계를 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 컨텐트 인식 결과를 시청 패턴 분석 서버에 전송하는 단계를 더 포함한다.
일 실시예에 따른 서버가 컨텐트를 인식하는 방법은, 컨텐트 인식 결과를 기초로 시청 패턴 분석 서버에서 생성된 디바이스의 사용자의 시청 패턴 히스토리 정보를 시청 패턴 분석 서버로부터 수신하는 단계를 더 포함한다.
일 실시예에 따른 컨텐트를 인식하는 디바이스는, 적어도 하나의 컨텐트를 수신하는 통신부; 적어도 하나의 컨텐트 중 어느 하나를 디스플레이 하는 디스플레이부; 및 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 디바이스의 화면을 캡쳐하고, 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함하는 문자열을 추출하며, 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출하고, 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 프로세서를 포함한다.
일 실시예에 따른 컨텐트를 인식하는 서버는, 디바이스에서 캡쳐된 화면이 템플릿 화면과 대응됨에 따라, 캡쳐된 화면에서 추출된 컨텐트 정보를 포함하는 문자열을 상기 디바이스로부터 수신하는 통신부; 및 수신된 컨텐트 정보와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출하고, 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 프로세서를 포함한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 통신부는, 디바이스의 컨텐트를 시청하는 사용자의 음성 데이터를 수신하고, 프로세서는, 검출된 텍스트 및 수신된 사용자의 음성 데이터를 기초로 디바이스의 화면에 표시된 컨텐트를 인식한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 통신부는, 외부의 서버로부터 기 설정된 주기로 컨텐트 데이터를 획득하고, 의미 인식 모델은, 기 설정된 주기로 획득된 컨텐트 데이터에 기초하여 업데이트 되는 컨텐트를 인식한다.
인식일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 통신부는, 적어도 하나의 컨텐트를 시청하는 사용자의 정보, 디바이스의 정보, 적어도 하나의 인식하고자 하는 컨텐트의 시청 시간,적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 인식 정보 및 컨텐트 정보를 포함한 문자열에서 각각의 문자의 크기 정보 중 적어도 하나를 포함하는 부가 정보를 획득한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 프로세서는, 추출된 컨텐트 정보와 적어도 하나의 텍스트를 비교하여, 적어도 하나의 텍스트 각각이 상기 추출된 컨텐트 정보에 대응될 확률값을 산출하는 단계; 및 산출된 확률값을 기초로 적어도 하나의 텍스트 중 어느 하나를 검출한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 프로세서는, 검출된 텍스트가 존재하지 않는 경우, 디바이스로부터 템플릿 화면과 대응되는 다른 캡쳐 화면에서 추출된 상기 컨텐트 정보를 포함한 문자열을 수신하는 단계를 더 포함한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 프로세서는, 추출된 컨텐트 정보에서 상기 검출된 텍스트와 대응되지 않는 정보를 검출된 텍스트를 기초로 변경한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 통신부는, 컨텐트 인식 결과를 시청 패턴 분석 서버에 전송한다.
일 실시예에 따른 컨텐트를 인식하는 서버에 있어서, 통신부는, 컨텐트 인식 결과를 기초로 상기 시청 패턴 분석 서버에서 생성된 디바이스의 사용자의 시청 패턴 히스토리 정보를 시청 패턴 분석 서버로부터 수신하는 컨텐트를 인식한다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시예에 따라 컨텐트를 인식하는 시스템을 설명하기 위한 개념도이다.
도 1에 도시된 바와 같이, 디바이스(100)는 TV일 수 있으나, 이는 일 실시예에 불과하며, 디스플레이를 포함하는 전자 장치로 구현될 수 있다. 예를 들어, 디바이스(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 특히, 실시예들은 TV와 같이 디스플레이가 대형인 디스플레이 장치에서 용이하게 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디바이스(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.
일 실시예에 따른 디바이스(100)는 셋탑 박스(10)를 통해 컨텐트 서비스를 제공받을 수 있다. 예를 들어, 컨텐트 서비스는 지상파 방송 신호, 케이블 방송 셋톱박스, IPTV 셋톱박스 등이 제공하는 실시간 방송 컨텐트 서비스 뿐만 아니라, 넷플릭스, 유투브와 같은 웹 어플리케이션 형태의 컨텐트 서비스 등을 포함할 수 있으나 이는 일 실시예일 뿐 컨텐트 서비스가 이에 한정되는 것은 아니다.
일 실시예에 따른 디바이스(100)는 서비스 제공 장치(10)로부터 적어도 하나의 컨텐트를 수신할 수 있다. 디바이스(100)는 수신한 적어도 하나의 컨텐트 중에서 디바이스(100)의 사용자가 선택한 컨텐트를 디바이스(100)의 화면에 표시할 수 있다. 예를 들어, 디바이스(100)의 사용자는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하는 제어 신호를 디바이스(100)에 전송할 수 있다. 여기에서, 제어 신호는 리모컨 신호, 스마트 폰 및 웨어러블 디바이스의 터치 신호, 음성 명령, 제스처 인식 신호, 복합 센서 신호 등을 포함할 수 있으나, 이는 일 실시예일 뿐, 본 발명의 제어 신호가 이에 한정되는 것은 아니다.
일 실시예에 따른 디바이스(100)는 제어 신호가 수신됨에 따라, 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다. 예를 들어, 디바이스(100)는 제어 신호가 수신됨에 따라 기 설정된 시간 단위로 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다.
또한, 디바이스(100)는 기 저장된 템플릿 화면과 캡쳐된 화면이 서로 대응되는지 여부를 판단할 수 있다. 여기에서, 템플릿 화면에는 화면 상에서 컨텐트에 관한 정보가 표시되는 텍스트 영역에 관한 정보가 미리 설정될 수 있다. 또한, 템플릿 화면은 디바이스(100)에 컨텐트를 전송하는 컨텐트 서비스의 종류에 따라 상이할 수 있다. 예를 들어. 컨텐트 서비스 A에 대한 템플릿 화면과 컨텐트 서비스 B에 대한 템플릿 화면이 서로 상이할 수 있다.
한편, 디바이스(100)는 컨텐트 서비스의 종류를 확인하고, 기 확인된 컨텐트 서비스의 템플릿을 선택한다. 선택된 템플릿 화면과 대응되는 화면이 캡쳐되는 시점까지 컨텐트가 표시되는 화면을 캡쳐하는 동작을 반복적으로 수행할 수 있다. 디바이스(100)는 템플릿 화면과 대응되는 화면이 캡쳐되는 경우, 디바이스(100)의 화면을 캡쳐하는 동작을 중단할 수 있다.
디바이스(100)는 템플릿 화면과 대응되는 캡쳐된 화면 상에서, 기 설정된영역으로부터 컨텐트 정보를 포함한 문자열을 추출할 수 있다. 기 설정된 영역은 컨텐트의 제목명 또는 채널명 등의 컨텐트 정보를 포함하고 있는 영역이다. 여기에서, 컨텐트 정보는 텍스트 형태로 표시될 수 있다. 디바이스(100)는 기 설정된 영역에 표시된 텍스트를 인식하여, 컨텐트 정보를 포함한 문자열을 추출할 수 있다. 예를 들어, 디바이스(100)는 OCR(Optical Character Reader)을 이용하여, 캡쳐된 화면의 기 설정된 영역 상에서 텍스트를 판독하여, 컨텐트의 종류, 제목 및 장르에 관한 정보를 추출할 수 있다.
또한, 디바이스(100)는 추출된 문자열을 의미 인식 서버(200)에 전송할 수 있다. 일 실시예에 따른 의미 인식 서버(200)는 디바이스(100)로부터 수신된 문자열을 기초로 디바이스(100)의 사용자가 시청하는 컨텐트를 인식할 수 있다.
한편, 다른 실시예에 따라 디바이스(100)는 컨텐트 정보를 포함한 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출할 수 있다. 또한, 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다. 디바이스(100)는 기 설정된 의미 인식 모델을 이용함으로써, 컨텐트 인식의 정확도를 보다 높일 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 기 설정된 의미 인식 모델과 수신된 문자열을 비교하여, 컨텐트를 인식할 수 있다. 예를 들어, 의미 인식 서버(200)는 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트 중에서, 수신된 문자열에 포함된 컨텐트 정보와 대응되는 텍스트를 선택할 수 있다. 의미 인식 서버(200)는 선택된 텍스트를 이용하여 컨텐트를 인식할 수 있다. 여기에서 선택된 텍스트는, 예를 들어, 컨텐트의 제목 및 컨텐트가 제공되는 채널의 종류 중 적어도 하나를 나타내는 텍스트일 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 컨텐트 인식 결과를 시청 패턴 분석 서버(300)에 전송할 수 있다. 시청 패턴 분석 서버(300)는 기 설정된 기간 동안 의미 인식 서버(200)로부터 컨텐트 인식 결과를 획득하여, 획득된 컨텐트 인식 결과를 분석함으로써, 사용자의 시청 패턴을 결정할 수 있다.
도 2는 일 실시예에 따라 컨텐트를 제공하는 디바이스(100, 이하 디바이스)를 제어하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 디바이스(100)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신한다.
일 실시예에 따른 디바이스(100)는 입력 장치로부터 디바이스(100)에서 제공하는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 예를 들어, 디바이스(100)는 리모컨으로부터 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 여기에서, 제어 신호는 디바이스(100)의 채널 변경 신호, 디바이스(100)의 전원 온(on) 신호, 다른 디바이스와 디바이스(100) 간의 연결 신호, 디바이스(100)의 메뉴 선택 신호 및 적어도 하나의 컨텐트 정보에 대한 요청 신호 중 하나일 수 있다.
단계 S220에서, 디바이스(100)는 제어 신호가 수신됨에 따라, 기 설정된 주기로 디바이스(100)의 화면을 캡쳐한다.
일 실시예에 따른 디바이스(100)는 제어 신호가 수신되는 경우, 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다. 여기에서, 디바이스(100)의 화면에는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트의 제목명 도는 채널명, 컨텐트 리스트, 컨텐트 관련 부가 정보 및 컨텐트를 선택하기 위한 유저 인터페이스인식 중 적어도 하나가 표시될 수 있으나, 이는 일 실시예일 뿐, 디바이스(100)의 화면에 표시되는 정보가 이에 한정되는 것은 아니다.
또한, 일 실시예에 다른 디바이스(100)는 기 설정된 주기에 따라 반복적으로 디바이스(100)의 화면을 캡쳐할 수 있다. 예를 들어, 디바이스(100)는 제어 신호가 수신된 시점으로부터 2초 간격으로 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S230에서, 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출한다. 여기에서, 템플릿 화면은 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류에 따라 상이할 수 있다. 또한, 템플릿 화면에는 특정 컨텐트 서비스에서 제공하는 컨텐트 정보가 표시되는 영역에 관한 정보가 미리 설정될 수 있다. 예를 들어, A 컨텐트 서비스에 대한 템플릿 화면의 경우, 화면의 좌측 상단에 컨텐트 정보가 표시되는 영역이라는 정보가 미리 설정될 수 있다.
일 실시예에 따른 디바이스(100)는 템플릿 화면과 대응되는 화면이 캡쳐되는 경우, 화면을 캡쳐하는 동작을 중단할 수 있다. 템플릿 화면과 대응되는 화면은 템플릿 화면에 표시되는 이미지 및 텍스트 중 적어도 하나의 위치와 대응되는 위치에 이미지 및 텍스트 중 적어도 하나가 표시되는 화면일 수 있다. 예를 들어, 디바이스(100)는 템플릿 화면에서 미리 설정된 영역과 대응되는 위치에 텍스트가 표시된 화면이 캡쳐되는 경우, 화면을 캡쳐하는 동작을 중단할 수 있다.
일 실시예에 따른 디바이스(100)는 템플릿 화면과 대응되는 캡쳐된 화면의 기 설정된 영역에 표시된 컨텐트 정보를 포함한 문자열을 추출할 수 있다.
단계 S240에서, 디바이스(100)는 추출된 문자열에 포함된 컨텐트 정보를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식한다.
예를 들어, 디바이스(100)는 OCR을 이용하여, 추출된 문자열에 표시된 텍스트를 판독할 수 있다. 여기에서, 컨텐트 정보는 컨텐트의 제목, 종류 및 장르에 관한 정보 등을 포함할 수 있다. 다만, 이는 일 실시예일 뿐 컨텐트 정보가 이에 한정되는 것은 아니다.
도 3a 내지 도 3c는 컨텐트를 제공하는 컨텐트 서비스 별로 제공되는 템플릿 화면을 설명하기 위한 도면이다.
도 3a를 참고하면, 컨텐트를 제공하는 디바이스(100, 이하 디바이스)는 입력 장치로부터 제어 신호가 수신됨에 따라, 템플릿 화면(320)에 대응되는 화면(310)이 캡쳐되는 시점까지 기 설정된 주기에 따라 화면을 캡쳐할 수 있다. 여기에서, 디바이스(100)는 컨텐트를 제공하는 A 컨텐트 서비스에 대해 미리 저장된 템플릿 화면(320)을 선택할 수 있다. 실시간 방송에서는, 채널 전환 시 방송 채널에 대한 정보가 화면 하단에 바운딩 박스(bounding box) 내에 요약되어 표시되는 경우가 많다. 이 경우에는 바운딩 박스가 A 컨텐트 서비스의 템플릿이 될 수 있다. 따라서, 디바이스(100)는 주기적으로 캡쳐된 화면을 바운딩 박스 형태의 템플릿에 매칭한 결과, 캡쳐된 화면과 템플릿이 일치하면 기 설정된 컨텐트 정보 표시 영역(322)으로부터 텍스트를(312)를 추출하여 컨텐트 정보를 포함한 문자열을 추출할 수 있다.
한편, 도 3b를 참고하면, 디바이스(100)는 입력 장치로부터 제어 신호가 수신됨에 따라, 템플릿 화면(340)에 대응되는 화면(330)이 캡쳐되는 시점까지 기 설정된 주기에 따라 화면을 캡쳐할 수 있다. 여기에서, 디바이스(100)는 컨텐트를 제공하는 B 컨텐트 서비스에 대해 미리 저장된 템플릿 화면(330)을 선택할 수 있다. 넷플릭스와 같이 스마트 TV 또는 스마트폰 내의 웹 어플리케이션 형태의 컨텐트 서비스의 경우, 재생되는 컨텐트의 종류에 상관 없이, 동일한 UI 레이아웃을 갖는 화면을 가질 수 있는데, 이 화면에서 특징적인 부분을 반영하여 템플릿으로 만들 수 있다. 일 실시예로 컨텐트가 재생되기 직전 화면의 UI 레이아웃으로부터 템플릿을 만들 수 있다. 이 템플릿을 주기적으로 캡쳐된 화면과 매칭하여, 일치하면 기 설정된 컨텐트 정보 표시 영역(342)으로부터 텍스트를 인식하여, 컨텐트 정보를 포함하는 문자열을 추출할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면(330)이 컨텐트 서비스 종류에 맞는 템플릿과 일치하게 되면 컨텐트 정보 표시 영역(342)과 대응되는 좌측 상단 영역으로부터 텍스트(332)를 추출할 수 있다. 또한, 디바이스(100)는 추출된 텍스트(432)를 판독하여 디바이스(100)에 표시되는 컨텐트를 인식할 수 있다.
한편, 도 3c를 참고하면, 디바이스(100)는 제어 신호가 수신됨에 따라, 템플릿 화면(360)에 대응되는 화면(350)이 캡쳐되는 시점까지 기 설정된 주기에 따라 화면을 캡쳐할 수 있다. 여기에서, 디바이스(100)는 컨텐트를 제공하는 C 컨텐트 서비스에 대해 미리 저장된 템플릿 화면(350)을 선택할 수 있다. 일 실시예에 따르면 디바이스(100는 컨텐트가 재생되기 이전의 특정 시점에서의 UI 레이아웃 화면으로부터 템플릿을 만들 수 있다. 이렇게 만들어진 템플릿 화면(360)은 디바이스(100)에 저장될 수 있으며, 이 템플릿 화면(360)을 제어 신호가 수신됨에 따라 주기적으로 캡쳐된 화면(350)과 매칭하고, 일치하면 기 설정된 컨텐트 정보 표시 영역(362)로부터, 텍스트를 추출하여 컨텐트를 인식할 수 있다.
도 4는 다른 실시예에 따라, 컨텐트를 제공하는 디바이스(100, 이하 디바이스)가 캡쳐된 화면으로부터 컨텐트 정보를 추출하는 방법을 설명하기 위한 흐름도이다.
단계 S410에서, 디바이스(100)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다.
단계 S420에서, 디바이스(100)는 수신된 제어 신호가 디바이스(100)의 화면을 포인팅하는 제어 신호인 경우, 포인팅된 지점의 주변 영역을 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 수신된 제어 신호가 디바이스(100)의 화면을 포인팅하는 제어 신호인지 여부를 판단할 수 있다. 디바이스(100)는 수신된 제어 신호가 디바이스(100)의 화면을 포인팅하는 제어 신호인 것으로 판단됨에 따라, 포인팅된 지점으로부터 기 설정된 범위 내에 위치하는 주변 영역을 검출할 수 있다. 단계 S430에서, 디바이스(100)는 검출된 영역에서 컨텐트 정보를 포함한문자열을 추출할수 있다.
단계 S440에서, 디바이스(100)는 추출된 문자열을 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
일 실시예에 따른 디바이스(100)는 OCR 등의 텍스트 판독 기술을 이용하여, 추출된 문자열에 표시된 텍스트를 판독할 수 있다. 다만, 이는 일 실시예일 뿐, 디바이스(100)에서 추출된 문자열을 기초로 컨텐트를 인식하는 방법이 전술한 예에 한정되는 것은 아니다.
도 5는 다른 실시예에 따라, 디바이스(100)가 캡쳐된 화면으로부터 컨텐트 정보를 추출하는 방법을 설명하기 위한 도면이다.
도 5를 참고하면, 일 실시예에 따른 디바이스(100)는 디바이스(100)에서시 제공되는 적어도 하나의 컨텐트를 제어하는 제어 신호(512)를 수신할 수 있다. 또한, 디바이스(100)는 수신된 제어 신호(512)가 디바이스(100)의 화면을 포인팅하는 제어 신호(512)인 경우, 포인팅된 지점의 주변 영역(522)을 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 수신된 제어 신호(512)가 디바이스(100)의 화면을 포인팅하는 제어 신호인지 여부를 판단할 수 있다. 디바이스(100)는 수신된 제어 신호(512)가 디바이스(100)의 화면을 포인팅하는 제어 신호인 것으로 판단됨에 따라, 포인팅된 지점으로부터 기 설정된 범위 내에 위치하는 주변 영역(522)을 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 주변 영역(522)에서 추출된 컨텐트 정보를 판독하여, 컨텍트에 관한 정보를 나타내는 텍스트를 인식할 수 있다. 예를 들어, 디바이스(100)는 컨텐트에 관한 정보를 나타내는 텍스트를 인식하여, 컨텐트의 제목이 쿵푸 OO 2라는 것을 확인할 수 있다.
도 6은 일 실시예에 따른 디바이스(100)가 기 설정된 의미 인식 모델을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S610에서, 디바이스(100)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 디바이스(100)의 화면을 캡쳐한다.
일 실시예에 따른 디바이스(100)는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 또한, 디바이스(100)는 수신한 제어 신호를 기초로, 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다. 여기에서 컨텐트 서비스의 종류는, 웹 기반 VOD(Video On Demand) 서비스, 라이브(Live) 서비스 및 애플리케이션 기반 서비스 중 어느 하나일 수 있으나, 이는 일 실시예일 뿐, 본 발명에서 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 이에 한정되는 것은 아니다. 따라서, 컨텐트 서비스의 종류의 따라 템플릿 화면이 선택되고, 템플릿 화면과 캡쳐된 화면의 매칭이 수행될 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 제어 신호가 수신됨에 따라, 디바이스(100)의 화면을 기 설정된 주기로 캡쳐할 수 있다. 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되는지 여부를 판단할 수 있다. 여기에서, 템플릿 화면은 컨텐트 서비스의 종류에 따라 상이할 수 있다.
단계 S620에서, 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출한다.
일 실시예에 따른 따른 디바이스(100)는 템플릿 화면에서 컨텐트 정보가 표시되는 것으로 설정된 영역과 대응되는 캡쳐된 화면의 영역으로부터 컨텐트 정보를 포함한 문자열을 추출할 수 있다. 여기에서, 컨텐트 정보는 예를 들어, 컨텐트의 제목 및 컨텐트가 제공되는 채널의 이름 또는 번호 등의 텍스트를 포함할 수 있다.
단계 S630에서, 디바이스(100)는 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출한다.
일 실시예에 따른 디바이스(100)는 의미 인식 모델을 기 설정할 수 있다. 의미 인식 모델은 컨텐트를 인식하기 위한 적어도 하나의 텍스트를 포함할 수 있다. 예를 들어, 의미 인식 모델에는 현재 제공되고 있는 컨텐트의 제목 및 컨텐트가 제공되고 있는 채널 이름 또는 번호 등을 나타내는 적어도 하나의 텍스트가 포함될 수 있다.
또한, 다른 예에 따라, 의미 인식 모델은 디바이스의 ID 및 사용자의 ID에 따라 상이하게 설정될 수 있다. 예를 들어, 사용자가 20대 여성인 경우, 디바이스(100)는 복수의 의미 인식 모델 중 20대 여성이 선호하는 컨텐트의 제목 및 채널의 종류 등을 나타내는 적어도 하나의 텍스트를 포함한 의미 인식 모델을 선택할 수 있다.
일 실시예에 따른 디바이스(100)는 추출된 문자열로부터 템플릿 화면에 대해 기 설정된 포맷 패턴을 이용하여, 문자열에 포함된 텍스트를 검출할 수 있다. 여기에서, 기 설정된 포맷 패턴은 의미 인식 모델에 포함될 수 있다. 예를 들어,포맷 패턴이 채널명 및 제목명 순서로 설정된 경우, 디바이스(100)는 추출된 문자열로부터 채널명 및 제목명에 대응되는 텍스트를 검출할 수 있다. 한편, 다른 예에 따라, 디바이스(100)는 추출된 문자열에 포함된 적어도 하나의 텍스트가 템플릿에 대해 기 설정된 포맷 패턴과 대응되지 않을 수 있다. 이러한 경우, 디바이스(100)는 문자열 내에서 주변 단어들의 관계를 확률적으로 산출한 확률 모델을 이용하여 문자열로부터 텍스트를 검출할 수 있다. 예를 들어, 디바이스(100)는 A 주연의 B 독점 방송이라는 문자열로부터 확률 모델을 기초로 배우의 이름이 A이고, 방송명이 B인 것으로 텍스트를 추출할 수 있다.
단계 S640에서, 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식한다.
일 실시예에 따른 디바이스(100)는 검출된 텍스트를 디바이스(100)의 화면에 표시된 컨텐트의 제목으로 결정할 수 있다.
또한, 일 실시예에 따른 디바이스(100)는 기 설정된 의미 인식에 포함된 적어도 하나의 텍스트 중 검출된 텍스트와 유사도가 가장 높은 텍스트를 비교하여, 검출된 텍스트의 정확도를 검증할 수 있다. 여기에서, 유사도는 텍스트 간의의 자음 및 모음의 종류 및 결합 관계 등과 일치 비율에 따라 결정될 수 있다. 예를 들어, 컨텐트 정보에 포함된 텍스트가 훙푸인 경우, 디바이스(100)는 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 유사도가 가장 높은 쿵푸를 검출할 수 있다. 디바이스(100)는 캡쳐된 화면으로부터 추출된 컨텐트 정보와 의미 인식 모델을 비교하여 의미 인식 모델로부터 텍스트를 검출함으로써, 수신한 컨텐트 정보에 포함된 오기 등을 정정할 수 있다.
또한, 다른 실시예에 따라, 디바이스(100)는 수신한 부가 정보를 기초로 검출된 텍스트를 검증할 수 있다. 예를 들어, 컨텐트의 제목으로 쿵푸가 검출된 경우, 디바이스(100)는 부가 정보에 포함된 시청 시간에 관한 정보를 기초로, 시청 시간에 쿵푸가 방영되는 시간인지 여부를 판단하여, 검출된 텍스트를 검증할 수 있다.
또 다른 실시예에 따라, 디바이스(100)는 감지된 음성 데이터를 기초로 검출된 텍스트를 검증할 수 있다. 예를 들어, 컨텐트의 제목으로 쿵푸가 검출된 반면에, 디바이스(100)에 감지된 음성 데이터가 쿵푸를 나타내고 있는지 여부를 판단하여 검출된 텍스트를 검증할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 텍스트를 검증한 결과, 검출된 텍스트가 컨텐트를 인식하기에 적절한 정보가 아니라고 판단되는 경우, 전술한 단계 S1120을 반복적으로 수행할 수 있다. 또한, 다른 예에 따라, 디바이스(100)는 디바이스(100)의 화면을 다시 캡쳐하는 것을 요청할 수 있다.
도 7은 일 실시예에 따른 디바이스(100)가 컨텐트 서비스와 대응되는 템플릿 화면을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S710에서, 디바이스(100)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다.
단계 S720에서, 디바이스(100)는 수신된 제어 신호를 기초로 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다.
일 실시예에 따른 디바이스(100)는 수신한 제어 신호를 기초로, 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다. 여기에서 컨텐트 서비스의 종류는, 웹 기반 VOD(Video On Demand) 서비스, 라이브(Live) 서비스 및 애플리케이션 기반 서비스 중 어느 하나일 수 있으나, 이는 일 실시예일 뿐, 본 발명에서 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 이에 한정되는 것은 아니다.
단계 S730에서, 디바이스(100)는 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다.
일 실시예에 따른 디바이스(100)는 제어 신호가 수신됨에 따라 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S740에서, 디바이스(100)는 결정된 컨텐트 서비스의 종류에 따라 템플릿 화면을 선택할 수 있다.
여기에서, 템플릿 화면은 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류에 따라 상이할 수 있다. 예를 들어, 컨텐트 서비스의 종류에 따라, 템플릿 화면 상에 컨텐트 정보가 표시되는 영역, 컨텐트 정보를 구성하는 텍스트의 크기, 색상, 모양 등이 상이할 수 있다.
한편, 단계 S730 및 단계 S740은 설명의 편의를 위해 병렬적인 프로세스로 기재하였으나, 각 단계는 서로 시간적인 선후관계를 가지며 수행될 수도 있다.
단계 S750에서, 디바이스(100)는 캡쳐된 화면이 템플릿 화면에 대응되는지 여부를 판단할 수 있다.
디바이스(100)는 캡쳐된 화면이 템플릿 화면에 대응되지 않는 경우, 전술한 단계 S710을 수행하여 전술한 S710 내지 S740의 단계를 반복적으로 수행할 수 있다.
단계 S760에서, 디바이스(100)는 캡쳐된 화면의 기 설정된 영역으로부터 컨텐트 정보를 포함하는 문자열 데이터를 추출할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면이 템플릿 화면에 대응되는 경우, 캡쳐된 화면의 기 설정된 영역으로부터 컨텐트 정보를 포함하는 문자열 데이터를 추출할 수 있다.
단계 S770에서, 디바이스(100)는 추출된 문자열 데이터 정보와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 추출된 컨텐트 정보와 대응되는 텍스트를 검출할 수 있다.
한편, 단계 S770은 도 6을 참조하여 전술한 단계 S630과 대응될 수 있다.
단계 S780에서, 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
한편, 단계 S780은 도 6을 참조하여 전술한 단계 S640과 대응될 수 있다.
도 8은 일 실시예에 따른 디바이스(100)가 컨텐트를 인식하는 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
단계 S810에서, 디바이스(100)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다.
한편, 단계 S810은 도 2를 참고하여 전술한 단계 S210과 대응될 수 있다.
단계 S820에서, 디바이스(100)는 제어 신호가 수신됨에 따라 기 설정된 주기로 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S830에서, 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되는 지 여부를 판단할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되지 않는 경우, 단계 S810의 디바이스(100)의 화면을 캡쳐하는 동작을 반복적으로 수행할 수 있다.
단계 S840에서, 디바이스(100)는 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출할 수 있다. 예를 들어, 디바이스(100)는 캡쳐된 화면에서, 템플릿 화면에 미리 설정된 컨텐트 정보 표시 영역과 대응되는 영역에서 텍스트를 추출할 수 있다.
단계 S850에서, 디바이스(100)는 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 컨텐트 정보와 대응되는 텍스트가 존재하는지 여부를 판단할 수 있다. 한편, 일 실시예에 따른 디바이스(100)는 컨텐트 정보와 대응되는 텍스트가 검출되지 않은 경우, 단계 S720의 디바이스(100)의 화면을 캡쳐하는 동작을 반복적으로 수행할 수 있다.
단계 S860에서, 디바이스(100)는 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 컨텐트 정보와 대응되는 텍스트를 검출할 수 있다.
단계 S860은 도 6을 참조하여 전술한 단계 S630과 대응될 수 있다.
단계 S870에서, 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
단계 S870은 도 6을 참조하여 전술한 단계 S640과 대응될 수 있다.
도 9a 내지 도 9d는 일 실시예에 따라 디바이스(100)가 의미 인식 모델을 이용하여 컨텐트를 인식하는 방법을 설명하기 위한 도면이다.
도 9a를 참고하면, 일 실시예에 따른 디바이스(100)는 디바이스(100)에서 재생되는 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 디바이스(100)는 수신된 제어 신호를 기초로, 컨텐트를 식별하는데 이용되는 템플릿 화면을 제 1 템플릿 화면으로 결정할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 결정된 제 1 템플릿 화면에 대응되는 화면(910a)을 캡쳐할 수 있다. 디바이스(100)는 제 1 템플릿 화면을 이용하여, 캡쳐된 화면(910a)으로부터, 컨텐트 정보를 포함한 이미지(912a)를 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 이미지(912a)를 판독하여, 컨텐트에 관한 정보를 나타내는 텍스트(914a)를 인식할 수 있다. 또한, 디바이스(100)는 기 설정된 의미인식 모델을 이용하여, 컨텐트를 식별하는데 필요한 정보를 인식된 텍스트(914a)로부터 결정할 수 있다. 예를 들어, 디바이스(100)는 인식된 텍스트(914a) 상에 포함된 컨텐트의 제목을 나타내는 텍스트를 선택할 수 있다. 또한, 디바이스(100)는 인식된 텍스트(914a)와 기 설정된 의미 인식 모델을 비교하여, 오기로 판단되는 '훙푸'를 '쿵푸'로 정정할 수 있다. 디바이스(100)는 오기가 정정된 텍스트(916a)를 기초로 채널의 종류 및 컨텐트의 제목을 결정할 수 있다.
도 9b를 참고하면, 일 실시예에 따른 디바이스(100)는 제어 신호를 기초로 결정된 제 2 템플릿 화면에 대응되는 화면(910b)을 캡쳐할 수 있다. 디바이스(100)는 제 2 템플릿 화면을 이용하여, 캡쳐된 화면(910b)으로부터, 컨텐트 정보를 포함한 이미지(912b)를 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 이미지(912b)를 판독하여, 컨텐트에 관한 정보를 나타내는 텍스트(914b)를 인식할 수 있다. 또한, 디바이스(100)는 기 설정된 의미인식 모델을 이용하여, 컨텐트를 식별하는데 필요한 정보를 인식된 텍스트(914b)로부터 결정할 수 있다. 예를 들어, 디바이스(100)는 인식된 텍스트(914b) 상에 포함된 컨텐트의 제목을 나타내는 텍스트를 선택할 수 있다. 또한, 디바이스(100)는 인식된 텍스트(914b)와 기 설정된 의미 인식 모델을 비교하여, 오기로 판단되는 '지고' 및 '기'를 '지코' 및 'ZI'로 정정할 수 있다. 디바이스(100)는 오기가 정정된 텍스트(916b)를 기초로 컨텐트의 제목을 결정할 수 있다.
도 9c를 참고하면, 일 실시예에 따른 디바이스(100)는 제어 신호를 기초로 결정된 제 3 템플릿 화면에 대응되는 화면(910c)을 캡쳐할 수 있다. 디바이스(100)는 제 3 템플릿 화면을 이용하여, 캡쳐된 화면(910c)으로부터, 컨텐트 정보를 포함한 이미지(912c)를 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 이미지(912c)를 판독하여, 컨텐트에 관한 정보를 나타내는 텍스트(914c)를 인식할 수 있다. 또한, 디바이스(100)는 기 설정된 의미인식 모델을 이용하여, 컨텐트를 식별하는데 필요한 정보를 인식된 텍스트(914c)로부터 결정할 수 있다. 예를 들어, 디바이스(100)는 인식된 텍스트(914c) 상에 포함된 컨텐트의 제목을 나타내는 텍스트인 '기술조F들'을 선택할 수 있다. 또한, 디바이스(100)는 인식된 텍스트(914c)와 기 설정된 의미 인식 모델을 비교하여, 오기로 판단되는 '조F'를 '자'로 정정할 수 있다.
디바이스(100)는 오기가 정정된 텍스트(916c)를 기초로 컨텐트의 제목을 결정할 수 있다.
도 9d를 참고하면, 일 실시예에 따른 디바이스(100)는 제어 신호를 기초로 결정된 제 4 템플릿 화면에 대응되는 화면(910d)을 캡쳐할 수 있다. 디바이스(100)는 제 4 템플릿 화면을 이용하여, 캡쳐된 화면(910d)으로부터, 컨텐트 정보를 포함한 이미지(912d)를 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 이미지(912d)를 판독하여, 컨텐트에 관한 정보를 나타내는 텍스트(914d)를 인식할 수 있다. 또한, 디바이스(100)는 기 설정된 의미인식 모델을 이용하여, 컨텐트를 식별하는데 필요한 정보를 인식된 텍스트(914d)로부터 결정할 수 있다. 예를 들어, 디바이스(100)는 인식된 텍스트(914d) 상에 포함된 컨텐트의 제목 및 채널 정보를 나타내는 텍스트인 '041', 'K E35joy' 및 '개그콘서트'를 선택할 수 있다. 또한, 디바이스(100)는 인식된 텍스트(914d)와 기 설정된 의미 인식 모델을 비교하여, 오기로 판단되는 'K E35'를 'KBS'로 정정할 수 있다.
디바이스(100)는 오기가 정정된 텍스트(916d)를 기초로 채널의 종류 및 컨텐트의 제목을 결정할 수 있다.
일 실시예에 따른 디바이스(100)는 도 9a 내지 도 9d를 참고하여 전술한 바와 같이 기 설정된 의미 인식 모델을 이용함으로써, 보다 정확하게 컨텐트를 인식할 수 있다.
도 10a 및 도 10b는 일 실시예에 따라 컨텐트를 인식하는 디바이스(100)의 블록도이다.
도 10a를 참조하면, 일 실시예에 따른 디바이스(100)는 통신부(110), 제어부(130) 및 디스플레이부(120)를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 디바이스(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 디바이스(100)는 구현될 수 있다.
예를 들어, 도 10b에 도시된 바와 같이, 일 실시예에 따른 디바이스(100)는, 통신부(110), 디스플레이부(120) 및 제어부(130) 이외에, 오디오 처리부(115), 오디오 출력부(125), 감지부(140), 튜너부(150), 전원부(160), 입/출력부(170), 비디오 처리부(180) 및 저장부(190)를 더 포함할 수도 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
통신부(110)는 제어부(130)의 제어에 의해 디바이스(100)를 외부 장치(예를 들어, 입력 장치, 서비스 제공 장치 및 서버 등)와 연결할 수 있다. 예를 들어, 제어부(130)는 통신부(110)를 통해 연결된 서비스 제공 장치로 컨텐트를 송/수신, 서비스 제공 장치에서부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 통신부(110)는 디바이스(100)의 성능 및 구조에 대응하여 무선 랜(111), 블루투스(112), 및 유선 이더넷(Ethernet, 113) 중 하나를 포함할 수 있다. 또한, 통신부(110)는 무선랜(111), 블루투스(112), 및 유선 이더넷(Ethernet, 113)의 조합을 포함할 수 있다. 통신부(110)는 제어부(130)의 제어에 의해 입력 장치의 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.
통신부(110)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 도시되지 아니함), BLE(bluetooth low energy, 도시되지 아니함)를 더 포함할 수 있다.
일 실시예에 따른 통신부(110)는 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신한다. 이러한 경우, 통신부(110)는 후술할 감지부(140)의 기능과 대응되는 기능을 수행할 수 있다.
통신부(110)는 추출된 컨텐트 정보를 서버에 전송할 수 있다. 또한, 통신부(110)는 서버(200)로부터 추출된 컨텐트 정보를 기초로 결정된 디바이스(100)의 사용자의 컨텐트 시청 패턴 정보를 수신할 수 있다.
디스플레이부(120)는, 제어부(140)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이부(120)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이부(120)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.
일 실시예에 따른 디스플레이부(120)는 컨텐트를 표시한다. 본 명세서에서 디스플레이부(120)는 컨텐트가 표시된다는 점에서 화면과 대응되는 구성일 수 있다.
제어부(130)는 통상적으로 디바이스(100)의 전반적인 동작을 제어한다. 예를 들어, 제어부(130)는, 저장부(190)에 저장된 프로그램들을 실행함으로써, 통신부(110), 디스플레이부(120), 오디오 처리부(115), 오디오 출력부(125), 감지부(140), 튜너부(150), 전원부(160), 입/출력부(170), 비디오 처리부(180) 및 저장부(190) 등을 전반적으로 제어할 수 있다.
일 실시예에 따른 제어부(130)는 제어 신호가 수신됨에 따라, 기 설정된 주기로 디바이스(100)의 화면을 캡쳐한다. 또한, 제어부(130)는 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함한 문자열을 추출한다. 제어부(130)는 추출된 문자열에 포함된 컨텐트 정보를 기초로 디스플레이부(120)에 표시된 컨텐트를 인식한다.
일 실시예에 따른 제어부(130)는 디바이스(100)에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다. 제어부(130)는 결정된 컨텐트 서비스의 종류에 따라 템플릿 화면을 선택할 수 있다.
일 실시예에 따른 제어부(130)는 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 컨텐트가 표시되는 화면의 캡쳐를 중단할 수 있다. 또한, 제어부(130)는 컨텐트 서비스의 종류 및 제어 신호의 타입을 결정할 수 있다. 제어부(130)는 결정된 컨텐트 서비스의 종류 및 제어 신호의 타입에 기초하여, 기 설정된 주기로 컨텐트가 표시되는 디바이스(100)의 화면을 캡쳐할 수 있다.
다른 실시예에 따른 제어부(130)는 수신한 제어 신호가 디바이스(100)의 화면을 포인팅하는 신호인지 여부를 판단하여, 화면에서 포인팅된 지점으로부터 기 설정된 영역을 검출할 수 있다. 또한, 제어부(130)는 검출된 영역에서 컨텐트 정보를 포함하는 문자열을 추출할 수 있다. 제어부(130)는 컨텐트 정보를 기초로 디스플레이부(120)에 표시된 컨텐트를 인식할 수 있다.
다른 실시예에 따라, 제어부(130)는 추출된 컨텐트 정보와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 추출된 컨텐트 정보와 대응되는 텍스트를 검출한다. 또한, 제어부(130)는 의미 인식 모델을 기 설정할 수 있다. 제어부(130)는 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 추출된 컨텐트 정보에 포함된 텍스트와 유사도가 가장 높은 텍스트를 검출할 수 있다.
제어부(130)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식한다. 예를 들어, 제어부(130)는 검출된 텍스트를 디바이스(100)의 화면에 표시된 컨텐트의 제목으로 결정할 수 있다. 다른 예에 따라, 디바이스(100)는 부가 정보를 기초로 검출된 텍스트를 검증할 수 있다. 또 다른 예에 따라, 디바이스(100)는 감지된 음성 데이터를 기초로 검출된 텍스트를 검증할 수 있다.
오디오 처리부(115)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(115)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(115)는 복수의 컨텐트에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.
오디오 출력부(125)는 제어부(180)의 제어에 의해 튜너부(140)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(125)는 통신부(150) 또는 입/출력부(170)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(125)는 제어부(110)의 제어에 의해 저장부(190)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(125)는 스피커(126), 헤드폰 출력 단자(127) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(128) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(125)는 스피커(126), 헤드폰 출력 단자(127) 및 S/PDIF 출력 단자(128)의 조합을 포함할 수 있다.
일 실시예에 따른 감지부(140)는, 사용자 입력을 감지하여, 감지된 신호를 제어부(130)로 전달할 수 있다. 또한, 감지부(140)는 전원 온/오프, 채널 선택, 채널-업/다운, 화면 설정을 위한 사용자 입력을 감지할 수 있다. 또한, 일 실시예에 따른 감지부(140)는 디스플레이부(120)에 표시되는 커서를 이동시키기 위한 사용자 입력, 후보 아이템들 간에 포커스를 이동시키기 위한 방향 키 입력을 감지할 수 있다. 또한, 감지부(140)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지한다.
마이크(141)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(141)는 수신된 음성을 전기 신호로 변환하여 제어부(130)로 출력할 수 있다.
마이크(141)는 디바이스(100)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 마이크(141)는 통신부(110) 또는 입/출력부(170)를 통해 영상 표시 장치(100b)와 전기적으로 연결될 수 있다. 디바이스(100)의 성능 및 구조에 따라 마이크(141)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
카메라부(142)는 제어부(130)의 제어에 따라 수신된 영상을 전기 신호로 변환하여 제어부(130)로 출력할 수 있다.
광 수신부(143)는 외부의 입력 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이부(120)의 베젤의 광창(도시되지 아니함) 등을 통해 수신한다. 광 수신부(143)는 입력 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부(130)의 제어에 의해 제어 신호가 추출될 수 있다.
튜너부(150)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.
튜너부(150)는 사용자 입력(예를 들어, 제어 장치(200)로부터 수신되는 제어 신호, 예컨대, 채널 번호 입력, 채널의 업다운(up-down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호(예를 들어, 케이블 방송 506번)에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.
튜너부(150)는 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(150)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다. 튜너부(150)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 제어부(130)의 제어에 의해 저장부(190)에 저장될 수 있다.
전원부(160)는 제어부(130)의 제어에 의해 디바이스(100) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(160)는 제어부(130)의 제어에 의해 디바이스(100) 내부에 위치하는 하나 또는 둘 이상의 배터리(도시되지 아니함)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.
입/출력부(170)는 제어부(130)의 제어에 의해 디바이스(100)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(170)는 HDMI 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 잭(component jack, 172), PC 포트(PC port, 173), 및 USB 포트(USB port, 174) 중 하나를 포함할 수 있다. 입/출력부(170)는 HDMI 포트(171), 컴포넌트 잭(172), PC 포트(173), 및 USB 포트(174)의 조합을 포함할 수 있다.
입/출력부(170)의 구성 및 동작은 본 발명의 실시예에 따라 다양하게 구현될 수 있다는 것은 당해 기술 분야의 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
비디오 처리부(180)는, 디바이스(100)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(180)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
제어부(130)는 디바이스(100)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디바이스(100)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램(RAM, 181), 영상 표시 장치(100b)의 제어를 위한 제어 프로그램이 저장된 롬(ROM, 182) 및 프로세서(Processor, 183)를 포함할 수 있다.
프로세서(183)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 도시되지 아니함)를 포함할 수 있다. 프로세서(183)는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(183)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
또한, 프로세서(183)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(183)는 메인 프로세서(main processor, 도시되지 아니함) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 도시되지 아니함)로 구현될 수 있다.
그래픽 처리부(184)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 감지부(130)를 통해 감지된 사용자 입력을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(120)의 디스플레이 영역 내에 표시된다.
제1 내지 n 인터페이스(185-1 내지 185-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
램(181), 롬(182), 프로세서(183), 그래픽 처리부(184), 제1 내지 n 인터페이스(185-1 내지 185-n)는 내부 버스(bus)(186)를 통해 상호 연결될 수 있다.
본 실시예에서 "제어부"라는 용어는 프로세서(183), 롬(182) 및 램(181)을 포함한다.
저장부(190)는 제어부(130)의 제어에 의해 디바이스(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 예를 들어, 저장부(190)는 디바이스(100) 및 제어부(130)의 제어를 위한 제어 프로그램, 제조사에서 최초 제공되거나 외부에서부터 다운로드 받은 어플리케이션, 어플리케이션과 관련된 GUI(graphical user interface), GUI를 제공하기 위한 오브젝트(예를 들어, 이미지 텍스트, 아이콘, 버튼 등), 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.
일 실시예에서 "저장부" 라는 용어는 저장부(190), 제어부의 롬(182), 램(181) 또는 디바이스(100)에 장착되는 메모리 카드(예를 들어, micro SD 카드, USB 메모리, 도시되지 아니함)를 포함한다. 또한, 저장부(190)는 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)를 포함할 수 있다.
저장부(190)는 도시되지 아니한 방송 수신 모듈, 채널 제어 모듈, 볼륨 제어 모듈, 통신 제어 모듈, 음성 인식 모듈, 모션 인식 모듈, 광 수신 모듈, 디스플레이 제어 모듈, 오디오 제어 모듈, 외부 입력 제어 모듈, 전원 제어 모듈, 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 모듈, 음성 데이터베이스(DB), 또는 모션 데이터베이스(DB)를 포함할 수 있다. 저장부(190)의 도시되지 아니한 모듈들 및 데이터 베이스는 디바이스(100)에서 방송 수신의 제어 기능, 채널 제어 기능, 볼륨 제어 기능, 통신 제어 기능, 음성 인식 기능, 모션 인식 기능, 광 수신 제어 기능, 디스플레이 제어 기능, 오디오 제어 기능, 외부 입력 제어 기능, 전원 제어 기능 또는 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 기능을 수행하기 위하여 소프트웨어 형태로 구현될 수 있다. 제어부(130)는 저장부(190)에 저장된 이들 소프트웨어를 이용하여 각각의 기능을 수행할 수 있다.
도 11은 일 실시예에 따른 의미 인식 서버(200)가 디바이스(100)에 제공되는 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S1110에서, 의미 인식 서버(200)는 디바이스(100)에서 캡쳐된 화면이 템플릿 화면과 대응됨에 따라 캡쳐된 화면에서 추출된 컨텐트 정보를 포함하는 문자열을 디바이스(100)로부터 수신한다.
일 실시예에 따라 의미 인식 서버(200)에 수신된 문자열에는 캡쳐된 화면에서 템플릿 화면과 대응되는 기 설정된 영역에 표시된 텍스트 데이터가 포함될 수 있다. 예를 들어, 캡쳐된 화면이 A 컨텐트의 시작 화면인 경우, 컨텐트 정보에는 A 컨텐트의 제목 및 A 컨텐트가 제공되는 채널의 종류에 관한 정보가 포함될 수 있다. 다만, 이는 일 실시예일 뿐, 컨텐트 정보가 전술한 예에 한정되는 것은 아니다.
다른 실시예에 따라 의미 인식 서버(200)는 디바이스(100)로부터 문자열과 함께 부가 정보를 수신할 수 있다. 여기에서, 부가 정보에는 디바이스(100)에서 컨텐트가 표시된 시간, 디바이스(100)의 사용자, 컨텐트 서비스의 종류 및 캡쳐된 화면에 표시된 텍스트 데이터의 크기, 위치 및 색상 등에 관한 정보가 포함될 수 있다.
또 다른 실시예에 따라 의미 인식 서버(200)는 디바이스(100)로부터 컨텐트 정보와 함께 디바이스(100)에서 감지된 음성 데이터를 수신할 수 있다. 여기에서, 음성 데이터는 디바이스(100)에 표시된 컨텐트를 시청하는 사용자의 음성 데이터를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 의미 인식 서버(200)는 문자열 및 음성 데이터를 전술한 부가 정보와 함께 수신할 수도 있다.
단계 S1120에서, 의미 인식 서버(200)는 수신된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출한다.
일 실시예에 따른 의미 인식 서버(200)는 의미 인식 모델을 기 설정할 수 있다. 의미 인식 모델은 디바이스(100)로부터 수신한 컨텐트 정보로부터 컨텐트를 인식하기 위한 적어도 하나의 텍스트를 포함할 수 있다. 예를 들어, 의미 인식 모델에는 현재 제공되고 있는 컨텐트의 제목 및 컨텐트가 제공되고 있는 채널의 종류 등을 나타내는 적어도 하나의 텍스트가 포함될 수 있다. 또한, 의미 인식 모델에는 문자열에서 컨텐트 정보를 추출하기 위해, 템플릿 화면 별로 기 설정된 포맷 패턴 및 문자열 내의 단어들의 관계에 따라 확률을 산출한 확률 모델ㅇ 중 적어도 하나를 포함할 수 있다.
또한, 다른 예에 따라, 의미 인식 모델은 디바이스의 ID 및 사용자의 ID에 따라 상이하게 설정될 수 있다. 예를 들어, 사용자가 20대 여성인 경우, 의미 인식 서버(200)는 복수의 의미 인식 모델 중 20대 여성이 선호하는 컨텐트의 제목 및 채널의 종류 등을 나타내는 적어도 하나의 텍스트를 포함한 의미 인식 모델을 선택할 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 추출된 문자열로부터 템플릿 화면에 대해 기 설정된 포맷 패턴을 이용하여, 문자열에 포함된 텍스트를 검출할 수 있다. 여기에서, 기 설정된 포맷 패턴은 의미 인식 모델에 포함될 수 있다. 예를 들어,포맷 패턴이 채널명 및 제목명 순서로 설정된 경우, 디바이스(100)는 추출된 문자열로부터 채널명 및 제목명에 대응되는 텍스트를 검출할 수 있다. 한편, 다른 예에 따라, 디바이스(100)는 추출된 문자열에 포함된 적어도 하나의 텍스트가 템플릿에 대해 기 설정된 포맷 패턴과 대응되지 않을 수 있다. 이러한 경우, 디바이스(100)는 문자열 내에서 주변 단어들의 관계를 확률적으로 산출한 확률 모델을 이용하여 문자열로부터 텍스트를 검출할 수 있다. 예를 들어, 디바이스(100)는 A 주연의 B 독점 방송이라는 문자열로부터 확률 모델을 기초로 배우의 이름이 A이고, 방송명이 B인 것으로 텍스트를 추출할 수 있다.
단계 S1130에서, 의미 인식 서버(200)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식한다.
일 실시예에 따른 의미 인식 서버(200)는 검출된 텍스트를 디바이스(100)의 화면에 표시된 컨텐트의 제목으로 결정할 수 있다.
또한, 다른 실시예에 따라, 의미 인식 서버(200)는 디바이스(100)로부터 수신한 부가 정보를 기초로 검출된 텍스트를 검증할 수 있다. 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 추출된 컨텐트 정보에 포함된 텍스트와 유사도가 가장 높은 텍스트를 검출할 수 있다. 여기에서, 유사도는 컨텐트 정보에 포함된 텍스트의 자음 및 모음의 종류 및 결합 관계 등과 의미 인식 모델에 포함된 적어도 하나의 텍스트 간의 일치 비율에 따라 결정될 수 있다. 예를 들어, 컨텐트 정보에 포함된 텍스트가 훙푸인 경우, 의미 인식 서버(200)는 의미 인식 모델에 포함된 적어도 하나의 텍스트 중 유사도가 가장 높은 쿵푸를 검출할 수 있다. 의미 인식 서버(200)는 디바이스(100)로부터 수신한 컨텐트 정보와 의미 인식 모델을 비교하여 의미 인식 모델로부터 텍스트를 검출함으로써, 수신한 컨텐트 정보에 포함된 오기 등을 정정할 수 있다.
또 다른 실시예에 따라, 의미 인식 서버(200)는 디바이스(100)로부터 수신한 음성 데이터를 기초로 검출된 텍스트를 검증할 수 있다. 예를 들어, 컨텐트의 제목으로 쿵푸가 검출된 반면에, 의미 인식 서버(200)에 수신된 음성 데이터가 쿵푸를 나타내고 있는지 여부를 판단하여 검출된 텍스트를 검증할 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 검출된 텍스트를 검증한 결과, 검출된 텍스트가 컨텐트를 인식하기에 적절한 정보가 아니라고 판단되는 경우, 전술한 단계 S1120을 반복적으로 수행할 수 있다. 또한, 다른 예에 따라, 의미 인식 서버(200)는 디바이스(100)에 디바이스(100)의 화면을 다시 캡쳐하는 것을 요청할 수 있다.
한편, 일 실시예에 따른 의미 인식 서버(200)는 컨텐트 인식 결과를 시청 패턴 분석 서버(300)에 전송할 수 있다. 여기에서, 시청 패턴 분석 서버(300)는 디바이스(100)의 사용자가 빈번하게 시청하는 채널 및 컨텐트의 종류와 컨텐트 시청 시간 등에 관한 정보를 포함하는 시청 패턴을 결정할 수 있다. 일 실시예에 따라, 시청 패턴에 관한 정보는 컨텐트 서비스 제공자 또는 광고 제공자의 서버에 전송될 수 있다.
도 12는 일 실시예에 따라 디바이스(100)에 제공되는 컨텐트를 인식하는 의미 인식 서버(200)를 설명하기 위한 블록도이다.
도 12를 참조하면, 일 실시예에 따른 의미 인식 서버(200)는 통신부(210), 프로세서(220) 및 저장부(230)를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 의미 인식 서버(200)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 의미 인식 서버(200)는 구현될 수 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
통신부(210)는 프로세서(220)의 제어에 의해 의미 인식 서버(200)를 외부 장치(예를 들어, 디바이스(100), 시청 패턴 분석 서버 등)와 연결할 수 있다. 예를 들어, 프로세서(220)는 통신부(210)를 통해 연결된 디바이스(100)로부터 컨텐트 정보를 포함한 문자열을 수신할 수 있다. 또한, 통신부(210)는 외부의 웹 서버(미도시)로부터 기 설정된 주기로 컨텐트 데이터를 수신할 수 있다. 여기에서, 컨텐트 데이터는 의미 인식 모델을 생성하는데 이용될 수 있다. 다른 예에 따라, 프로세서(220)는 통신부(210)를 통해 시청 패턴 분석 서버(미도시)에 디바이스(100)의 화면에 표시된 컨텐트의 인식 정보를 전송할 수 있다.
또한, 일 실시예에 따른 통신부(210)는 디바이스(110)에서 감지된 사용자의 음성 데이터를 수신할 수 있다. 여기에서, 음성 데이터는 사용자가 디바이스(100)에 표시되는 컨텐트를 시청하는 동안 감지된 음성 데이터를 포함할 수 있다.
프로세서(220)는 통상적으로 의미 인식 서버(200)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(220)는, 저장부(230)에 저장된 프로그램들을 실행함으로써, 통신부(210) 및 저장부(230) 등을 전반적으로 제어할 수 있다.
일 실시예에 따른 프로세서(220)는 통신부(210)를 통해 수신한 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교한다. 또한, 프로세서(220)는 비교 결과에 기초하여, 컨텐트 정보와 대응되는 텍스트를 적어도 하나의 텍스트 중에서 검출한다. 예를 들어, 프로세서(220)는 추출된 문자열로부터 템플릿 화면에 대해 기 설정된 포맷 패턴을 이용하여, 문자열에 포함된 텍스트를 검출할 수 있다. 한편, 다른 예에 따라, 디바이스(100)는 추출된 문자열에 포함된 적어도 하나의 텍스트가 템플릿에 대해 기 설정된 포맷 패턴과 대응되지 않을 수 있다. 이러한 경우, 디바이스(100)는 문자열 내에서 주변 단어들의 관계를 확률적으로 산출한 확률 모델을 이용하여 문자열로부터 텍스트를 검출할 수 있다.
일 실시예에 따른 프로세서(220)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식한다. 다른 실시예에 따라, 프로세서(220)는 통신부(210)를 통해 수신한 부가 정보를 기초로 검출된 텍스트를 검증할 수 있다. 또한, 다른 예에 따라, 프로세서(220)는 추출된 컨텐트 정보와 적어도 하나의 텍스트를 비교한 결과 유사도가 임계값 이상인 적어도 하나의 후보 텍스트를 선택한 경우, 적어도 하나의 후보 텍스트와 부가 정보를 비교하여 어느 하나를 선택함으로써 컨텐트 인식에 대한 정확도를 높일 수 있다.
일 실시예에 따른 프로세서(220)는 검출된 텍스트 및 통신부(210)를 통해 수신된 사용자의 음성 데이터를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
일 실시예에 따른 프로세서(220)는 기 설정된 주기로 획득되는 적어도 하나의 컨텐트 데이터를 기초로 의미 인식 모델을 업데이트 할 수 있다. 또한, 일 실시예에 따른 프로세서(220)는 사용자의 나이, 성별 및 직업 중 적어도 하나를 포함하는 사용자의 프로파일에 따라 의미 인식 모델을 선택할 수 있다.
저장부(230)는 프로세서(220)의 제어에 의해 의미 인식 서버(200)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 예를 들어, 저장부(230)는 적어도 하나의 의미 인식 모델을 저장할 수 있다. 또한, 저장부(230)는 웹 서버(미도시)로부터 수신한 컨텐트 데이터를 저장할 수도 있다.
도 13은 일 실시예에 따라 디바이스(100)에 표시된 컨텐트를 인식하는 시스템(이하, 컨텐트 인식 시스템)을 설명하기 위한 개념도이다.
일 실시예에 따른 컨텐트 인식 시스템은 디바이스(100) 및 의미 인식 서버(200)를 포함할 수 있다.
도 13을 참조하면, 일 실시예에 따른 디바이스(100)는 제어부(130) 및 감지부(140)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소 만을 도시한 것일 뿐, 디바이스(100)에 포함된 구성 요소가 전술한 예에 한정되는 것은 아니다.
일 실시예에 따른 제어부(130)는 컨텐트가 표시된 디바이스(100)의 화면을 디바이스(100)에 제어 신호가 수신됨에 따라 캡쳐할 수 있다. 제어부(130)는 캡쳐된 화면이 기 저장된 템플릿 화면에 대응되는 경우, 캡쳐된 화면으로부터 컨텐트 정보를 포함한 문자열을 추출할 수 있다.
또한, 제어부(130)는 추출된 문자열을 의미 인식 서버(200)에 전송할 수 있다.
일 실시예에 따른 감지부(140)는 디바이스(140)에 수신된 적어도 하나의 컨텐트를 시청하는 사용자의 음성 데이터를 감지할 수 있다. 예를 들어, 디바이스(100)에 수신되는 적어도 하나의 컨텐트 중 어느 하나를 선택하는 사용자의 음성 데이터 및 디바이스(100)에 표시된 컨텐트를 평가하는 사용자의 음성 데이터 등이 감지될 수 있다.
또한, 감지부(140)는 음성 데이터를 의미 인식 서버(200)에 전송할 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 통신부(210), 프로세서(220) 및저장부(230)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소 만을 도시한 것일 뿐, 의미 인식 서버(200)에 포함된 구성 요소가 전술한 예에 한정되는 것은 아니다.
일 실시예에 따른 통신부(210)는 디바이스(100)로부터 추출된 문자열 및 음성 데이터를 수신할 수 있다.
일 실시예에 따른 프로세서(220)는 의미 인식부(222) 및 음성 인식부(224)를 포함할 수 있다.
의미 인식부(222)는 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트 중에서, 컨텐트 정보에 대응되는 텍스트를 검출할 수 있다.
음성 인식부(224)는 수신된 음성 데이터를 분석한 결과를 의미 인식부(222)에 제공할 수 있다. 이에 따라, 의미 인식부(222)는 음성 인식부(224)로부터 제공된 음성 데이터 분석 결과와 검출된 텍스트를 비교하여, 검출된 텍스트를 검증할 수 있다. 또한, 다른 예에 따라, 의미 인식부(222)는 수신한 텍스트와 대응되는 복수의 텍스트가 검출된 경우, 음성 데이터 분석 결과와 검출된 복수의 텍스트를 비교하여 어느 하나를 선택할 수 있다.
일 실시예에 따라, 의미 인식부(222)에서 검출된 텍스트는 통신부(210)를 통해 시청 패턴 분석 서버(300)에 전송될 수 있다. 시청 패턴 분석 서버(300)는 기 설정된 기간 동안 의미 인식 서버(200)로부터 수신한 텍스트를 이용하여, 디바이스(100)의 사용자의 시청 패턴을 분석할 수 있다.
도 14는 일 실시예에 따라 의미 인식 서버(200)의 프로세서(220)에 포함된 의미 인식부(1400)의 동작을 보다 상세하게 설명하기 위한 블록도이다.
도 14를 참조하면, 일 실시예에 따른 의미 인식부(1400)는 컨텐트 데이터관리 모듈(1410), 업데이트 모듈(1420) 및 의미 인식 엔진(1430)을 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 예를 들어, 도시된 구성 요소들은 하나의 모듈에서 기능이 수행될 수도 있고, 도시된 구성 요소들보다 많은 모듈에서 기능이 수행될 수도 있다.
일 실시예에 따른 컨텐트 데이터 관리 모듈(1410)은 외부의 웹 서버(50)로부터 컨텐트 데이터를 수신할 수 있다. 예를 들어, 컨텐트 데이터 관리 모듈(1410)은 웹 서버(50)로부터 컨텐트 제공 서비스의 종류, 컨텐트 제공 서비스로부터 제공되고 있는 컨텐트의 제목, 컨텐트의 내용 및 컨텐트가 제공되는 채널의 종류 등을 웹 서버(50)로부터 수신할 수 있다. 또한 컨텐트 데이터 관리 모듈(1410)은 수신한 컨텐트 데이터 중에서 컨텐트의 제목, 채널의 종류 등에 관한 컨텐트 데이터를 업데이트 모듈(1420)에 전송할 수 있다.
일 실시예에 따른 업데이트 모듈(1420)은 컨텐트 데이터 관리 모듈(1410)로부터 수신한 컨텐트의 제목, 채널의 종류 등에 관한 컨텐트 데이터를 기초로 의미 인식 모델을 생성할 수 있다. 또한, 업데이트 모듈(1420)은 디바이스(100)로부터 수신한 부가 정보를 이용하여, 디바이스(100)의 사용자에 대응되는 의미 인식 모델을 생성할 수 있다. 예를 들어, 업데이트 모듈(1420)은 디바이스(100)로부터 수신한 사용자의 성별, 연령 및 나이 등에 관한 정보를 기초로 개인화된 의미 인식 모델을 생성할 수 있다.
일 실시예에 따른 의미 인식 엔진(1430)은 업데이트 모듈(1420)로부터 제공되는 의미 인식 모델을 기초로 디바이스(100)로부터 수신한 문자열을 이용하여 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다. 또한, 의미 인식 엔진(1430)은 수신한 문자열로부터 컨텐트의 제목으로 예측되는 단어를 추출한 후에, 컨텐트 데이터 관리 모듈(1410)에 전송할 수 있다. 여기에서, 컨텐트 데이터 관리 모듈(1410)은 추출된 단어에 오기가 존재하는지 또는 추출된 단어가 컨텐트의 제목을 인식하기에 적절한 지 여부를 검증할 수 있다. 컨텐트 데이터 관리 모듈(1410)로부터 검증된 단어는 시청 패턴 분석 서버(300)로 전송될 수 있다.
한편, 이는 일 실시예일 뿐, 의미 인식 엔진(1430)은 컨텐트를 인식한 결과 도출된 컨텐트의 제목 및 컨텐트가 제공된 채널의 종류에 관한 정보의 신뢰도 가 높다고 판단되는 경우, 컨텐트 데이터 관리 모듈(1410)에서의 검증 프로세스를 거치지 않고, 시청 패턴 분석 서버(300)에 검출된 추출된 단어를 전송할 수 있다. 한편, 시청 패턴 분석 서버(300)는 의미 인식 엔진(1430)으로부터 수신한 컨텐트 인식 결과에 기초하여, 사용자의 시청 패턴을 분석할 수 있다. 또한, 시청 패턴 분석 서버(300)는 분석 결과를 업데이트 모듈(1420)에 제공할 수 있다. 이에 따라, 업데이트 모듈(1420)은 수신한 시청 패턴 분석 결과를 기초로 디바이스(100)의 사용자에 대응되는 의미 인식 모델을 업데이트 할 수 있다.
도 15는 일 실시예에 따라 의미 인식 서버(200)의 의미 인식부(220)에 포함된 컨텐트 데이터 관리 모듈(1410)의 동작을 보다 상세하게 설명하기 위한 블록도이다.
도 15를 참조하면, 일 실시예에 따른 컨텐트 데이터 관리 모듈(1410)은 웹 크롤러(1412), 텍스트 가공 모듈(1414), 컨텐트 데이터 베이스 관리 모듈(1416) 및 컨텐트 데이터베이스(1418)를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 예를 들어, 도시된 구성 요소들은 하나의 모듈에서 기능이 수행될 수도 있고, 도시된 구성 요소들보다 많은 모듈에서 기능이 수행될 수도 있다.
일 실시예에 따른 웹 크롤러(1412)는 웹 서버에서 제공되는 데이터 중 컨텐트 데이터를 획득할 수 있다. 예를 들어, 웹 크롤러(1412)는 컨텐트 서비스에서 제공하는 웹 페이지 또는 포탈 사이트의 웹 페이지 등을 방문하여, 웹 페이지에 기록된 컨텐트 데이터를 획득할 수 있다.
일 실시예에 따른 텍스트 가공 모듈(1414)는 웹 크롤러(1412)가 획득한 컨텐트 데이터를 텍스트 형태로 가공할 수 있다. 예를 들어, 텍스트 가공 모듈(1414)은 웹 크롤러(1412)가 획득한 웹 페이지의 이미지로부터 텍스트를 추출할 수 있다.
일 실시예에 따른 컨텐트 데이터 베이스 관리 모듈(1416)은 텍스트 가공 모듈(1414)로부터 획득한 텍스트 형태의 컨텐트 데이터를 컨텐트 서비스의 종류 및 시청 시간에 따라 분류하여 컨텐트 데이터 베이스(1418)에 저장할 수 있다.
또한, 컨텐트 데이터 베이스 관리 모듈(1416)은 도 14를 참조하여 전술한 업데이트 모듈(1420) 및 의미 인식 엔진(1430)에 각각 텍스트 형태의 컨텐트 데이터를 제공할 수 있다.
한편, 도 15에서는 컨텐트 데이터 베이스(1418)가 컨텐트 정보 관리 모듈(1410)에 포함되는 것으로 도시되어 있으나, 이는 일 실시예일 뿐, 다른 예에 따라 컨텐트 데이터 베이스(1418)는 도 12를 참조하여 전술한 저장부(230)에 포함될 수도 있다.
도 16은 일 실시예에 따라 의미 인식 서버(200)에서 텍스트 형태의 컨텐트 데이터를 기초로 의미 인식 모델에 기초가 되는 텍스트를 가공하는 방법을 설명하기 위한 도면이다.
일 실시예에 따른 의미 인식 서버(200)는 텍스트 형태의 컨텐트 데이터(1610)로부터 컨텐트를 인식할 수 있는 적어도 하나의 텍스트를 검출할 수 있다. 의미 인식 서버(200)은 기 설정된 템플릿 코퍼스(1620)를 이용하여, 텍스트 형태의 컨텐트 데이터로부터 컨텐트를 인식하는데 이용 가능한 적어도 하나의 텍스트를 추출할 수 있다. 여기에서, 템플릿 코퍼스(1620)는 컨텐트를 인식하는데 이용될 수 있는 단어들로 구성될 수 있다. 예를 들어, 영화 제목, 드라마 제목, 영화 채널 및 방송 시간 등이 일 실시예에 따른 템플릿 코퍼스에 포함될 수 있다.
일 실시예에 따른 의미 인식 서버(200)는 검출된 텍스트를 템플릿 코퍼스 항목에 따라 분류할 수 있다. 분류된 텍스트(1630)에는 템플릿 코퍼스가 인덱스 형태로 함께 저장될 수 있다. 또한, 의미 인식 서버(200)는 분류된 텍스트(1630)를 기초로 의미 인식 모델을 생성할 수 있다.
한편, 도 16에서 전술한 예는 의미 인식 모델을 생성하기 위한 방법들 중 일 예일 뿐, 본 발명에서 의미 인식 모델을 생성하는 방법이 코퍼스를 이용하는데 한정되는 것은 아니다.
본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
실시 예에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
도면에 도시된 실시 예들에서 참조 부호를 기재하였으며, 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 실시 예는 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 또한, 실시예는 동종의 또는 서로 다른 종류의 코어들, 서로 다른 종류의 CPU들을 채용할 수도 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시 예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
실시 예에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 실시 예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
실시 예의 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 실시 예에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 실시 예에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 실시 예들이 한정되는 것은 아니다. 실시 예에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 실시 예를 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 실시 예의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
Claims (14)
- 디바이스에서 캡쳐된 화면이 템플릿 화면과 대응됨에 따라, 상기 캡쳐된 화면에서 추출된 컨텐트 정보를 상기 디바이스로부터 수신하는 단계;상기 수신된 컨텐트 정보와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 추출된 컨텐트 정보와 대응되는 텍스트를 검출하는 단계; 및상기 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 단계를 포함하는 서버가 컨텐트를 인식하는 방법.
- 제 1 항에 있어서,상기 디바이스의 컨텐트를 시청하는 사용자의 음성 데이터를 수신하는 단계를 더 포함하고,상기 컨텐트를 인식하는 단계는,상기 수신된 사용자의 음성 데이터를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 서버가 컨텐트를 인식하는 방법.
- 제 1 항에 있어서, 상기 텍스트를 검출하는 단계는,상기 추출된 컨텐트 정보와 상기 적어도 하나의 텍스트를 비교하여, 상기 적어도 하나의 텍스트 각각이 상기 추출된 컨텐트 정보에 대응될 확률값을 산출하는 단계; 및상기 산출된 확률값을 기초로 상기 적어도 하나의 텍스트 중 어느 하나를 검출하는 단계를 포함하는 서버가 컨텐트를 인식하는 방법.
- 제 1 항에 있어서, 상기 검출된 텍스트가 존재하지 않는 경우, 상기 디바이스로부터 상기 템플릿 화면과 대응되는 다른 캡쳐 화면에서 추출된 상기 컨텐트 정보를 포함한 문자열을 수신하는 단계를 더 포함하는 서버가 컨텐트를 인식하는 방법.
- 제 1 항에 있어서, 상기 컨텐트를 인식하는 단계는,상기 추출된 컨텐트 정보에서 상기 검출된 텍스트와 대응되지 않는 정보를 상기 검출된 텍스트를 기초로 변경하는 단계를 포함하는 서버가 컨텐트를 인식하는 방법.
- 제 1 항에 있어서,상기 컨텐트 인식 결과를 시청 패턴 분석 서버에 전송하는 단계; 및상기 컨텐트 인식 결과를 기초로 상기 시청 패턴 분석 서버에서 생성된 상기 디바이스의 사용자의 시청 패턴 히스토리 정보를 상기 시청 패턴 분석 서버로부터 수신하는 단계를 더 포함하는 서버가 컨텐트를 인식하는 방법.
- 적어도 하나의 컨텐트를 수신하는 통신부;상기 적어도 하나의 컨텐트 중 어느 하나를 디스플레이 하는 디스플레이부; 및상기 적어도 하나의 컨텐트를 제어하기 위한 제어 신호가 수신됨에 따라 상기 디바이스의 화면을 캡쳐하고, 상기 캡쳐된 화면이 템플릿 화면과 대응되는 경우, 상기 캡쳐된 화면의 기 설정된 영역에서 컨텐트 정보를 포함하는 문자열을 추출하며, 상기 추출된 문자열과 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 상기 컨텐트 정보와 대응되는 텍스트를 검출하고, 상기 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 프로세서를 포함하는 컨텐트를 인식하는 디바이스.
- 디바이스에서 캡쳐된 화면이 템플릿 화면과 대응됨에 따라, 상기 캡쳐된 화면에서 추출된 컨텐트 정보를 포함하는 문자열을 상기 디바이스로부터 수신하는 통신부; 및상기 수신된 컨텐트 정보와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 컨텐트 정보와 대응되는 텍스트를 검출하고, 상기 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 프로세서를 포함하는 컨텐트를 인식하는 서버.
- 제 8 항에 있어서, 상기 통신부는,상기 디바이스의 컨텐트를 시청하는 사용자의 음성 데이터를 수신하고,상기 프로세서는,상기 수신된 사용자의 음성 데이터를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 컨텐트를 인식하는 서버.
- 제 8 항에 있어서, 상기 프로세서는,상기 추출된 컨텐트 정보와 상기 적어도 하나의 텍스트를 비교하여, 상기 적어도 하나의 텍스트 각각이 상기 추출된 컨텐트 정보에 대응될 확률값을 산출하는 단계; 및상기 산출된 확률값을 기초로 상기 적어도 하나의 텍스트 중 어느 하나를 검출하는 컨텐트를 인식하는 서버.
- 제 8 항에 있어서, 상기 프로세서는,상기 검출된 텍스트가 존재하지 않는 경우, 상기 디바이스로부터 상기 템플릿 화면과 대응되는 다른 캡쳐 화면에서 추출된 상기 컨텐트 정보를 포함한 문자열을 수신하는 단계를 더 포함하는 컨텐트를 인식하는 서버.
- 제 8 항에 있어서, 상기 프로세서는,상기 추출된 컨텐트 정보에서 상기 검출된 텍스트와 대응되지 않는 정보를 상기 검출된 텍스트를 기초로 변경하는 컨텐트를 인식하는 서버.
- 제 8 항에 있어서, 상기 통신부는,상기 컨텐트 인식 결과를 시청 패턴 분석 서버에 전송하고, 상기 컨텐트 인식 결과를 기초로 상기 시청 패턴 분석 서버에서 생성된 상기 디바이스의 사용자의 시청 패턴 히스토리 정보를 수신하는 컨텐트를 인식하는 서버.
- 제 1 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/078,558 US20190050666A1 (en) | 2016-02-26 | 2017-02-22 | Method and device for recognizing content |
| EP17756792.2A EP3399765A1 (en) | 2016-02-26 | 2017-02-22 | Method and device for recognising content |
| CN201780013189.XA CN108702550A (zh) | 2016-02-26 | 2017-02-22 | 用于识别内容的方法及设备 |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20160023639 | 2016-02-26 | ||
| KR10-2016-0023639 | 2016-02-26 | ||
| KR1020160073214A KR102561711B1 (ko) | 2016-02-26 | 2016-06-13 | 컨텐트를 인식하는 방법 및 장치 |
| KR10-2016-0073214 | 2016-06-13 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2017146454A1 true WO2017146454A1 (ko) | 2017-08-31 |
Family
ID=59686400
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2017/001933 Ceased WO2017146454A1 (ko) | 2016-02-26 | 2017-02-22 | 컨텐트를 인식하는 방법 및 장치 |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2017146454A1 (ko) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107977652A (zh) * | 2017-12-21 | 2018-05-01 | 维沃移动通信有限公司 | 一种屏幕显示内容的提取方法及移动终端 |
| EP3748982A4 (en) * | 2018-05-21 | 2020-12-09 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ACQUISITION OF INFORMATION FOR THE RECOGNITION OF RELATED CONTENT |
| CN112866613A (zh) * | 2019-11-12 | 2021-05-28 | 三星电子株式会社 | 电子装置及其控制方法 |
| US11184670B2 (en) | 2018-12-18 | 2021-11-23 | Samsung Electronics Co., Ltd. | Display apparatus and control method thereof |
| US11190837B2 (en) | 2018-06-25 | 2021-11-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20030083906A (ko) * | 2002-04-23 | 2003-11-01 | 엘지전자 주식회사 | 텍스트 정보를 이용한 티브이 프로그램 추천 방법 |
| JP2007013320A (ja) * | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
| JP2008154200A (ja) * | 2006-12-14 | 2008-07-03 | Samsung Electronics Co Ltd | 動画像の字幕検出装置およびその方法 |
| US20140282668A1 (en) * | 2013-03-14 | 2014-09-18 | Samsung Electronics Co., Ltd. | Viewer behavior tracking using pattern matching and character recognition |
| KR20150060801A (ko) * | 2012-09-19 | 2015-06-03 | 구글 인코포레이티드 | 현재 재생되는 텔레비젼 프로그램들과 연관된 인터넷-액세스가능 컨텐츠의 식별 및 제시 |
-
2017
- 2017-02-22 WO PCT/KR2017/001933 patent/WO2017146454A1/ko not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20030083906A (ko) * | 2002-04-23 | 2003-11-01 | 엘지전자 주식회사 | 텍스트 정보를 이용한 티브이 프로그램 추천 방법 |
| JP2007013320A (ja) * | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
| JP2008154200A (ja) * | 2006-12-14 | 2008-07-03 | Samsung Electronics Co Ltd | 動画像の字幕検出装置およびその方法 |
| KR20150060801A (ko) * | 2012-09-19 | 2015-06-03 | 구글 인코포레이티드 | 현재 재생되는 텔레비젼 프로그램들과 연관된 인터넷-액세스가능 컨텐츠의 식별 및 제시 |
| US20140282668A1 (en) * | 2013-03-14 | 2014-09-18 | Samsung Electronics Co., Ltd. | Viewer behavior tracking using pattern matching and character recognition |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107977652A (zh) * | 2017-12-21 | 2018-05-01 | 维沃移动通信有限公司 | 一种屏幕显示内容的提取方法及移动终端 |
| EP3748982A4 (en) * | 2018-05-21 | 2020-12-09 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ACQUISITION OF INFORMATION FOR THE RECOGNITION OF RELATED CONTENT |
| US11575962B2 (en) | 2018-05-21 | 2023-02-07 | Samsung Electronics Co., Ltd. | Electronic device and content recognition information acquisition therefor |
| US11190837B2 (en) | 2018-06-25 | 2021-11-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
| US11184670B2 (en) | 2018-12-18 | 2021-11-23 | Samsung Electronics Co., Ltd. | Display apparatus and control method thereof |
| CN112866613A (zh) * | 2019-11-12 | 2021-05-28 | 三星电子株式会社 | 电子装置及其控制方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020251283A1 (en) | Selecting artificial intelligence model based on input data | |
| WO2020101453A1 (en) | Electronic device and method of recognizing audio scene | |
| WO2014003283A1 (en) | Display apparatus, method for controlling display apparatus, and interactive system | |
| WO2017111252A1 (en) | Electronic device and method of scanning channels in electronic device | |
| WO2019146844A1 (en) | Display apparatus and method for displaying screen of display apparatus | |
| WO2018043895A1 (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
| WO2020017930A1 (ko) | 추천 채널 리스트 제공 방법 및 그에 따른 디스플레이 장치 | |
| WO2017146454A1 (ko) | 컨텐트를 인식하는 방법 및 장치 | |
| WO2020111567A1 (en) | Electronic device and operation method thereof | |
| WO2015194693A1 (ko) | 영상 표시 기기 및 그의 동작 방법 | |
| WO2017099331A1 (ko) | 전자 장치 및 전자 장치의 사용자 인터페이스 제공 방법 | |
| WO2019013447A1 (en) | REMOTE CONTROL DEVICE AND METHOD FOR RECEIVING VOICE FROM AN ASSOCIATED USER | |
| WO2018155859A1 (en) | Image display device and operating method of the same | |
| WO2017119708A1 (en) | Image display apparatus and method of operating the same | |
| WO2019198951A1 (ko) | 전자 장치 및 그 동작 방법 | |
| WO2020145615A1 (en) | Method of providing recommendation list and display device using the same | |
| WO2015178716A1 (en) | Search method and device | |
| WO2019135433A1 (ko) | 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템 | |
| WO2022045613A1 (ko) | 비디오 품질 향상 방법 및 장치 | |
| WO2017160062A1 (ko) | 컨텐트를 인식하는 방법 및 장치 | |
| WO2018124842A1 (ko) | 컨텐트에 관한 정보를 제공하는 방법 및 디바이스 | |
| WO2019088627A1 (en) | Electronic apparatus and controlling method thereof | |
| WO2020071816A1 (ko) | 디스플레이 장치 및 상기 디스플레이 장치와 통신하는 서버 | |
| WO2022250328A1 (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
| WO2022119288A1 (ko) | 디스플레이 장치 및 그의 동작 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| WWE | Wipo information: entry into national phase |
Ref document number: 2017756792 Country of ref document: EP |
|
| ENP | Entry into the national phase |
Ref document number: 2017756792 Country of ref document: EP Effective date: 20180730 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |