BRPI0908956A2

BRPI0908956A2 - componente de serviço de conceito de um sistema de busca de conteúdo e método para buscar e identificar pontos em um item de conteúdo de mídia

Info

Publication number: BRPI0908956A2
Application number: BRPI0908956A
Authority: BR
Inventors: Bargeron David; Thompson Jonathan; Chemburkar Vijay
Original assignee: Delve Networks Inc
Priority date: 2008-03-19
Filing date: 2009-03-19
Publication date: 2019-08-27
Also published as: EP2269150A4; US8204891B2; CN102119385B; US20090083256A1; EP2269150A1; CN102119385A; WO2009117155A1

Abstract

"componente de serviço de conceito de um sistema de busca de conteúdo, método para buscar e identificar pontos em um item de conteúdo de mídia e meio de armazenamento legível por computador tendo um conjunto de instruções para realizar o referido método". a presente invenção refere-se a várias modalidades que incluem componentes de serviço de conceito dos sistemas de serviço de busca de conteúdo que empregam antologias e vocabulários preparados para catego- rias particulares de conteúdo em tempos particulares a fim de pontuar transcrições preparadas a partir de itens de conteúdo para permitir um componente de serviço de busca de um sistema de serviço de busca de conteúdo a atribuir estimativas de afinidade de partes de um item de conteúdo com o critério de busca, a fim de apresentar resultados de busca para os clientes do sistema de serviço de busca de conteúdo. o componente de serviço de conceito processa uma solicitação de busca para gerar listas de termos relacionados, e em seguida emprega as listas de termos relacionados para processar transcrições a fim de pontuar transcrições baseado na informação contida nas antologias.

Description

Relatório Descritiva da Patente de Invenção para ’’MÉTODO E SU8SISTEMA PARA BUSCAR CONTEÚDO DE MÍDIA DENTRO DE UM SISTEMA DE SERVIÇO DE BUSCA DE CONTEÚDO”.

REFERÊNCIA CRUZADA PARA PEDIDOS RELACIONADOS

Este pedido é uma continuação em parte do Pedido No 11/903,279, depositado em 21 de setembro de 2907,

Campo da Técnica

A presente invenção refere-se a buscar conteúdo de mídia, incluindo arquivos de video com faixas de áudio, faixas de áudio, e outros tipos de conteúdo de mídia que incluem dados que podem ser total ou parciaimente transcritos para produzir uma transcrição de texto, para Identificar partes do conteúdo de mídia relacionado aos termos e frases da consulta de busca, e, em particular, a um componente de serviço de concerto de um sistema de serviço de busca de conteúdo que emprega ontologia e transcrição de texto para pontuar a transcrição para uso por um componente de serviço de busca do serviço de busca de conteúdo para apresentar resultados de busca para um cliente do sistema de serviço de busca de conteúdo.

Fundamentos da Invenção

Nos prímórdlos da computação, a informação geralmente era codificada como sequências formatadas de caracteres alfanuméricos ou como sequências ordenadas não formatadas de unidades de armazenamento de informação, tipicamente bytes. Conforme o hardware, sistemas operacionais, e aplicações de computador tem evoluído conjuntamenie. muitos tipos diferentes de codificações de informação agora são rotineiramente codificados, armazenados, tronados e apresentados eletronicamente para acesso pelos usuários, incluindo arquives de texto, arquives específicos de aplicações com formatação especial, gravações do áudio, gravações de video, e apresentações multimídia. Enquanto, nos primórdios da computação, dados eram apresentados primariamente como sequências de caracteres exibidas em terminais monocromáticos de 24 linhas, os muitos tipos diferentes de informação correnternente codificada eletronicamente e distribuída através de sistemas de computador são apresentados para exibição para usuários humanos através de urna variedade de programas de aplicação diferentes, incàisedo editores de texto e imagem, tocadores de vídeo, tocadores de áudio, e navegadores de web.

Uma classe importante de informação compreende informação codificada como uma sequência ordenada de unidades de informação que são apresentadas sequencialmente para exibição ou apresentação para um ser humano. Um vídeo codificado em MPEG é um exemplo de codificação de informação ordenada sequencialmente. Codificação MPEG emprega uma 10 quantidade de camadas bastante complexa de diferentes tipos de codificação e métodos de codificação para codificar oompactamente um fluxo de video e/ou fluxo de áudio. Em geral, quadros de video são reconstruídos a partir de um arquivo de video codificado em MPEG quadro a quadro, em sequência. Apresentação de um arquivo de vídeo codificado em MPEG for15 nece um fluxo de quadros de vídeo e um fluxo de áudio. Aplicações e dispositivos de apresentação gerelmente permitem que um usuário inicie ou retome S3 apresentação do arquivo de video, pare a apresentação do arquivo de vídeo, e salfe para frente nu para trás para selecionar posições dentro de um fluxo de video.

Em muitos casos um usuário pode apenas estar interessado em certa parte de uma apresentação de vídeo. Por exemplo, um usuário particular pode estar interessada apenas em um boletim meteorológico incluído em um noticiário de televisão local que inclui recapitulação dos eventos correntes locais e nacionais, recapitulação dos eventos esportivos, e apresente25 çôes de histórias de interesse humano adiuionalmenf.e ao boletim meteorológico. Em muitos casos, as apresentações de vídeo podem não ser indexadas através de seções, a fim de facilitar o acesso direta a partes da apresentação da video de interesse para um usuário, ou podem ser indexadas em uma granularidade muito grossa de tópicos que requer que um usuário em30 pregue uma estratégia de tentativa e erro de começar, parar, avançar e reverter o fluxo de vídeo através de técnicas relatívamente cruas a fim de localizar partes de Interesse. Adrcionalmente a video codificado, existem muitos outros tipos de informação ordenada sequencialmente que são apresentados sequencialmente para percepção humana, que incluem gravações de áudio puras, vários tipos de apresentações multimídia, imagens de páginas dentro de livros e documentos de texto, e outras codificações de informação 5 semelhantes. Em muitos casos, buscar partes de informação codificada de interesse para usuários humanos é atualmente limitado as operações de parar/iniciar/avançar e reverter descritas acima familiares aos usuários de aplicações de apresentação de vídeo e muitos dispositivos de apresentação de sinal de video.

Projetistas e fabricantes de computadores e outros dispositivos eletrônicos que apresentam codificações de informação ordenada sequence almente para exibição para usuários humanos, projetistas, implementadores, vendedores e usuános de aplicações de apresentação de informação, que incluí tocadores de midsa, navegadores de web, e programas de controle, e -15 muitos outros envolvidos na gravação, disseminação e apresentação de informação têm reconhecido a necessidade de ferramentas de busca mais efetivas para permitir que os usuários identifiquem e tenham acesso eficientemente a partes de uma informação codificada de interesse daqueles para quem a informação é apresentada.. Em resposta a estas necessidades, tem sido desenvolvido um sistema de serviço de busca de conteúdo. Várias modalidades da presente invenção compreendem componentes e subsistamos deste sistema de serviço de busca de conteúdo. O sistema de serviço de busca de conteúdo recebe e/ou localiza e recupera vários itens de conteúdo disponíveis eletronicamente para clientes do sistema de serviço de busca de conteúdo e prepara representações internas dos itens de conteúdo, ou partes dos itens de conteúdo, para permitir que o serviço de busca de conteúdo apresente graficamente os resultados de busca gerados pelo sistema de serviço de busca de conteúdo em resposta as solicitações de busca feitas pelos clientes do sistema de serviço de busca de conteúdo. Projetistas, de30 senvolvedores e fabricantes de sistemas de serviço da busca de conteúdo, bem corno fornecedores de serviço de busca de conteúdo e usuários de sistemas de serviço de busca de conteúdo de serviços fornecidos através de serviços cre busca dei conteúdo, têm todos reconhecido a necessidade per componentes de serviço de busca de conteúdo eficientes e precisos para facilitar repostas rápidas e precisas às solicitações de busca direcionadas a itens de conteúdo recebidos dos clientes de serviços de busca de conteúdo que empregam sistemas de serviço de busca de conteúdo.

Sumário da Invenção

Várias modalidades da presente invenção incluem componentes de serviço de conceito dos sistemas de serviço de busca de conteúdo que empregam ontologias e vocabulários preparados para categorias particulares de conteúdo em tempos particulares a fim de pontuar transcrições preparadas a partir de itens de conteúdo para habilitar um componente de serviço de busca de um sistema de serviço de busca de conteúdo a atribuir estimativas de relacionamento de partes de um item de conteúdo corn o critério de busca a fim de apresentar resultados de busca para os clientes do sistema de serviço de busca de conteúdo. O componente de serviço de conceito processa uma solicitação de busca para gerar listas de termos relacionados, e em seguida emprega as listas de termos relacionados para processar transcrições a fim de pontuar transcrições baseado na informação contida nas ontologias.

Breve Descrição das Figuras

A Figura 1 ilustra c fornecimento de serviços de busca para um chente através de um sistema de serviço de busca de conteúdo.

A Figura 2 ilustra uma interface de aplicação de apresentação de conteúdo.

A Figura 3 ilustra uma exibição de mapa de calor de resultados de busca que é adicionado à interface de aplicação de apresentação de conteúdo mostrada na Figura 2. de acordo com as modalidades da presente Invenção,

A figura 4 fornece uma representação de diagrama de bloco de um sistema de serviço de busca de conteúdo que representa uma modalidade da presente invenção.

A Figura 5 Ilustra uma ontologia de acordo com uma modalidade da presente invenção.

A Figura 6 mostra uma parte de um vocabulário ilustrativo para a categoria animais de acorda com uma modalidade da presente invenção.

A Figura 7 ilustra uma representação m x m de urna ontologia, de acordo com urna modalidade da presente invenção.

A Figura 8 mostra uma representação de lista de uma antologia, de acordo com uma modalidade da presente invenção

A Figura 9 mostra uma parte de uma representação de ontologia UsSada em urna modalidade da presente invenção.

A Figura 10 ilustra uma implementação de uma transcrição, de acorda corn uma modalidade da presente invenção.

A Figura 11 ilustra uma representação alternativa de uma transcrição, de acordo com uma modalidade da presente invenção,

A Figura 12 ilustra operação do componente de serviço de con15 coito (408 na Figura 4) de um sistema de serviço de busca de conteúdo que representa uma modalidade da presente invenção.

A Figura 13 ilustra uma modalidade de cora transcrição pontuada, de acordo com uma modalidade da presente invenção.

A Figura 14 tornece um diagrama da fluxo de controle para α 20 componente de serviço de conceito de um sistema CSS, de acordo com uma modalidade da presente invenção.

A Figura 15 é um diagrama de fluxo de controle para a rotina processar frase de busc.a^>! chamada na etapa 1408 da figura 14, de acordo com uma modalidade da presente invenção.

A Figura 16 fornece um diagrama de fluxo de controle para a rotina processar transcrição chamada na etapa 1412 da Figura 14. de acordo com uma modalidade da presente invenção.

Modalidades da presente invenção são empregadas dentro de 30 sistemas de serviço de busca de conteúdo que são usados para fornecer serviço de busca de conteúdo para clientes. A. F igura 1 ilustra o fornecimento de serviços de busca para um cliente através de um sistema de serviço de busca de conteúdo. O cliente 102. é geralmente um computador pessoas ou estação de trabalho empregada por um usuário para visualizar conteúdo 1G4_; fornecido através de um sistema provedor de conteúdo 106, através de uma aplicação de apresentação de conteúdo, tal como um programa de a5 presentaçao de vídeo chamado por um navegador web. A fim de facilitar a visualização eficiente do conteúdo, o usuário entra com uma consulta de busca, que compreende um termo de busca ou uma frase de busca, em um recurso de entrada de texto 108 exibido no computador cliente e chama uma busca do conteúdo que é apresentado para partes relacionadas do conteú10 do. Em certas modalidades da presente invenção, consultas da busca podem alternatívamenfe ser predefinidas através ou pelos usuários para facilitar a busca do usuário. Os termos ou frases de busca são transmitidos 110 para um sistema de serviço de busca de conteúdo 112 e processados pelo sistema de serviço de busca de conteúdo a fim de retornar 114 uma apre15 sentação gráfica das partes particulares relacionadas do conteúdo 116 para o termo de busca ou frase de busca. O usuáno do computador cliente pode executar buscas adicionais para termos ou frases adicionais através de transações de buses adicionais 118 e 119.

Em geral, o conteúdo apresentado ao usuário é um tipo de con2G teúdo que, diferente de um arquivo de texto, não pude ser facilmente pesquisado com o uso de ferramentas de busca disponíveis usualmente, tais como mecanismos de busca fornecidos dentro de editores de texto, a fim de encontrar partes do conteúdo de interesse particular para o usuário. Na discussão a seguir, é assumido que o conteúdo é um arquivo de video com 25 uma faixa de áudio associada, tal como um .noticiário ou transmissão esportiva fornecidos através de um serviço de notícias ou sen/lço de esportes através da internet para cs usuários que fazem acesso. Entretanto. os sistemas de serviço de busca de conteúdo, nos quais podem ser implementadas e empregadas modalidades da invenção corrente, podem fornecer serviços 30 de busca para uma variedade de tipos de conteúdo diferentes, desde apresentações multimídia até vários tipos de seleções de imagens, gráficos, e musicais.

De mudo geral, o provedor de conteúdo 106 fornece itens de conteúdo para o sistema de serviço de busca de conteúdo 112 para préprocessamento, para facilitar respostas rápidas para as solicitações de busca da cliente subsequentes direcionadas para os itens de conteúdo. Entre5 tanto, em implementações alternativas, o sistema de serviço de basca de conteúdo pode receber concorrentemente o item de conteúdo e frase de busca ou item de busca a partir de um cliente, processar o item de conteúdo para preparar para a busca de conteúdo, executar a solicitação de busca e apresentar os resultados para o usuário em tempo real De modo gerai, os 10 sistemas clientes são distintos tanto des sistemas fornecedores de conteúdo corno dos sistemas de serviço de busca de conteúdo, embora seja possível que o provedor de conteúdo, cliente e serviço de busca de conteúdo possam todos ser executados concorrentemente ou simultaneamente dentro de um único sistema computador ou sistema da computador distribuído.

b A Figura 2 ilustra uma interface de aplicação de apresentação de conteúdo. Video ê exibido dentro da tela de vídeo .21D fornecido por uma interface de visualização de clipe de video baseada em página da web ou interface gráfica de usuário de dispositivo portátil (GUI'') 212. A interface do dispositivo ou página da web fornece uma janela de entrada de texto 214 2.0 que permite que um usuário entre texto para servir corno criteria de busca para encontrar os videos desejados para visuahzar, exibir os resultados de cada busca em uma janela de resultados 216 que pode ser' rolada através de botões de rolagem para cima e de rolagem para baixo e a partir da qual pode ser' selecionado video paro exibição. Adicionaimente, é exibida urn I25 rnagern de indicação de progresso .22.2, para um usuário, uma. indicação da posição atual dentro de um clipe de Video que está sendo exibido durante a apresentação do clipe de video, com a duração inteira do clipe de video representada por uma barra horizontal 224 e a posição corrente dentro do clipe de video indicada pela posição de um indicador de posição 2.26 com res3D peito à barra horizontal. Na Figura 2. o indicador de posição 2.26 indica que o quadro de video exibido atualmente ocorre a uma posição de 2.5% do curso do clipe de vídeo. A interface de usuário fornece um botão de iniciar/parar

228 para iniciar e parar a exibição de um clipe de video, bem come um betão de retrocesso 230 e botão de avanço 232 que permitem que o usuário procure posições diferentes dentro do clipe de vídeo sem assistir os quadros que passam.

A Figura 3 ilustra uma exibição da um mapa de calor de resultados de busca que é adicionado à interface de aplicação de apresentação de conteúdo mostrada na Figura 2 de acordo com modalidades da presente invenção. .A exibição de mapa de calor de resultados de busca pude ser fornecida através de uma aplicação do lado cliente da apresentação da resul10 iados de busca baixada a partir de um sistema de serviço de busca de cen· teúdo. A Figura 3 mostra cs botões de navegação e exibição de progresso de uma interface de visualização de olipe de video mostrada na Figura 2, juntamente com recursos adicionais de exibição de resultados de busca. Os botões de retrocesso 130, avanço 132 e iniciar/parar 128 têm funções ídüntl· 15 uas na interface visual ás funções descritas para estes recursos de interface da interface de visualização de clipe de vídeo na Figura 2. A exibição do progresso 124 e 126 também tem uma função idêntica àquela da interface de visualização de clipe de video mostrada na Figura 2, cem exceção de que, em lugar de mostrar uma barra horizontal de cor sólida simples para 20 representar a extensão do clipe de vídeo, corno na Figura 2, a representação semelhante a um mapa de calor de uma função relacionada é sobreposta dentro da barra horizontal 124 do progresso da exibição. Nesta representação semelhante a mapa de calor, tonalidade mais escura representa métrica ou pontuação relacionada de maior magnitude. A interface visual também 25 inclui dois recursos de especificação de parâmetro 30.2 e 304 que permitem que um usuário especifique, através de deslizar os botões indicadores 306 e 308, respectivarnente ao longo das colunas 310 e 312, o grau de limitação e suavização a empregar quando computa as métricas ou pontuações relacionadas para posições dentro de uma informação codificada com respeito a 30 um critério de busca 314 especificado pelo usuária dentre de uma janela de entrada de critério de busca 316. No exemplo mostrado na Figura 3, a barra horizontal 14 do componente de exibição de progresso representa a externsão de tun clipe de vídeo., e uma pessoa pode determinar facilmente, através de inspeção visual do mapa de calor sobreposto dentro da barra horizontal 124, que o conteúdo relacionado ao critério de busca especrficado correntemente pode ser achado nas posições 320, 322 e 324 com maiores probability dadas. Uma interface visual mais simples pode Incluir apenas uma representação semeihante a mapa de calor de uma função relacionada, e pode contar corn recursos de seleção de uma GUi existente para entrar com critérios de busca. Interfaces visuais mais complexas podem incluir recursos de seleção adicionais para permitir parâmetros adicionais que controlem a exibição 10 da interface visual e computação da função de relaeionabilidade a ser espe cificada por um usuário, incluindo domínio do argumento, por exemplo. Natu ralmente, como com todas as interfaces visuais, existem muitas formas diferentes, e tipos de seleção e recursos de entrada, que podem ser usados para fornecer entraoa de usuário de parâmetros, critérios de busca e outros 15 dados de entrada. Adicionaímente, uma interface visual pode suportar múltiplos métodos para dar entrada a quaisquer dados de entrada particulares. Por exemplo, na interface visual mostrada na Figura 3, um usuárso pode estar apto a selecionar uma posição na qual iniciar ou retomar a apresentação de informação codificada através do uso dos botões de retroceder e avan20 çar, através de mover o indicador de posição, ou através de dar entrada a um dique de mouse depois de mover um ponteiro para a posição como representada por uma localização dentro da barra horizontal do componente? de progresso de exibição,

A Figura 4 fornece uma representação da diagrama de bloco de .25 um sistema de serviço de busca de conteúdo quo representa uma modalidade da presente invenção. O sistema de serviço de busca fsisiema CSS’j 402 inclui um componente de serviço de busca 404 que recebe solicitações de busca a partir de clientes e responde com resultados que são apresentados através de aplicações de apresentação de resultados de busca gue ro30 dam em computadores clientes. Em uma modalidade da presente invenção, as solicitações de busca e respostas às solicitações de busca são recebidas 406 e transmitidas 407 pela Internet de acordo com o protocolo de serviços web nas mensagens de linguagem de marcação extensível XML. Uma solicitação de busca inclui um identificador de conteúdo ('Ί0 de Conteúdo) em urna consulta de busca, que compreende um termo de busca ou frase de busca. Ambos estes itens são passados, pelo componente de serviço de 5 busca 404, para um componente de serviço de conceito (“Componente CS”)

408 para processamento. O componente CS 408 retoma uma transcrição pontuada 404, ou partes pontuadas de uma transcrição, para o componente de serviço de busca 404. que usa a transcrição pontuada, e, opcíonalmenfe, urn vocabulário retornado pelo componente de serviço de conceito, para 10 produzir informação do resultado de busca que é apresentado a urn usuário no computador cliente.. Uma transcrição pontuada, ou transcrição pontuada parciairnente, é, nas modalidades descritas da presente invenção, uma lista de tuples ordenada por tempo, em que cada tupla contém uma indicação de urn termo ou urna frase, o tempo decorrido, durante a apresentação de um 15 item de conteúdo de mídia, no qual o termo ou frase ocorre, e uma pontuação que indica o grau de relacionabilidade do termo ou frase a consulta de busca recebida pelo componente CS. O componente CS faz acesso a um armazenamento de ontologia 414, um componente de dados de conteúdo extraído 416, e um serviço de dados de mídia 418 a fim de obter uma onto20 logia, uma transcrição, e outra informação necessária pelo componente CS para pontuar urna transcrição para retomar para o componente de serviço de busca 404, Uma ontologia é nas modalidades descritas da presente invenção, um gráfico totalmente interconectedo de termos e frases. Cada nó do gráfico representa urn termo ou uma frase, e cada borda do gráfico tepre25 senta o relacionamento de co-ucorrência de termos e frases representados pelos nós conectados pela borda dentro da informação coletada que é analisada para produzir a ontologia. A cada borda é atribuído urn peso que reflete a força do relacionamento de co-oeorrência representado pela borda, e os pesos são derivados da informação coletada que é analisada para produzir a 30 ontologia.. O armazenamento de ontologia 414 inclui uma quantidade de ontologias tal como a ontologia 422., que descreve relacionamentos de nocoonênoia e.nlre palavras para várias categorias do argumento. As ontologias também tèm a data registrada, ou data/hora registrada, urna vez que as ontologias mudam, ao longo do tempo, para algum argumento particular, e uma ontologia oom um registro de datefhora que indica uma data dentro de um deslocamento razoável em tempo, dos dados de um item de conteúdo a 5 ser pesquisado é mais útil para preparar as resultados de busca. O componente da dados de conteúdo extraído 416 armazena uma ou mais transcrições 426 para cada item de conteúdo que tenha sido pré-processado pelo sistema CSS. O serviço de dados de mídia 418 armazena informação relacionada a cada item de conteúdo pré-processado, que inclui a categoria do 10 argumento ao qual o itern de conteúdo pertence e a dato ou data e hora de criação ou recepção do conteúdo.

O serviço CSS adicionalmente inclui um componente de serviço de conteúdo 430 que recebe itens de conteúdo através de fornecedores de conteúdo remotos, e fornece os itens de conteúdo para um componente pro15 cessador de conteúdo 432 que prepara a armazena uma ou mais transcri ções 426 para cada item de conteúdo processado no componente de dados de conteúdo extraído 416. O processador de conteúdo 432 acessa um modelo de linguagem, tal como modelo de linguagem 434, armazenado em um armazenamento de modelo de linguagem 436_; a firn de processar um dado 20 itern de conteúdo. O componente processador de conteúdo 432 tarnbèm deposita informação adicionai sobre itens de conteúdo no componente de serviço de dados de rnidia 418, Nas modalidades descritos da presente inven ção, transcrições são transcrições baseadas em texto de faixas de áudio e arquivos de áudio, executadas através de sub-onmpunent.es de reconhecí25 mento de voz automáticos de componente processador de conteúdo. Em modalidades alternativas da presente invenção, transcrições de texto podem ser preparadas a partir de outras tipos de conteúdo de mídia, que inclui transcrições descritivas Imagens imóveis ou móveis preparadas através de sub-componentes de percepção visual do computador do componente pro30 cessador de conteúdo,

Um componente classificador e agregador de informação 440 busca onntinuamente, ou em intervalos, através de informação disponível na

Internet e outras fontes de informação por documentes, arquivos de texto, e outros itens de informação relacionados a várias categorias as quais os itens de conteúdo podem ser vinculados. O componente dassíficarfor e agregador de Informação 440 classifica aqueles feris de informação que se acredita 5 sejam úteis para o sistema CSS por categoria, e armazena os itens de informação, para caria categoria a para faixas particulares de datas e heras, dentro de um componente de armazenamento de informação categorizada 442. Estes itens de informação são processados pelo componente classfe cador e agregador de informação para remover informação desnecessária, 10 normalizar linguisticamente termos e frases, a computar vários parâmetros e valores associadas corn os Itens de informação que são usados tanto pelo componente classificador e agregador de informação para classificar os itens como peio componente construtor de modelo de linguagem 444 e componente construtor de ontologia 446 que usa itens de informação armazenadas 15 no componente de armazenamento de informação categorizada 442 para construir modelos de linguagem e ontologias respectívamente.

A Figura 5 ilustra urna ontologia de ?acnrdo com uma modalidade da presente invenção. A Figura 5 ê uma ontologia simplificada que contêm apenas uns poucos termos. Ontologias reais preparadas para categorias de 26 informação úteis podem conter muitas centenas, milhares, cu milhões de termos e frases. Na Figura 5, cada um dos seis termos é representado per nôs ovais, tal corno o nó oval 602 que representa o termo cobra*. Cada par de termos possíveis, tal como o par de termos cobra” 502 e pele 504, são interccnectadus através de dois arcos, tais cerno as arcos 506 e 508 que 25 interconectam os termos 502 e 504, Os dois arcos formam um par bídíredonal, um arco do par direcionado de um primeiro termo ou frase (termo fonte ou frase fonte para o arco) para um segundo termo ou frase (tenno alvo ou frase alvo para o arco), e o segunda arco dc par direcionado do segundo termo ou frase para o primeiro termo ou frase. Cada amo é rotulado corn um 30 valor numérico na faixa [0,0; 1,0], O valor numérico é urna métrica de coooorrência normalizada que indica uma frequência na qual o termo ou frase alvo do arco co-ocorre com o termo ou frase fonte do arco. Deste modo, na

Figura 5, o arco 506 indico que 0 temia ’‘cobra” co-oeorre a urna frequência relativarnente baixa com o termo ’pelei enquanto o termo ’’pele” 00 ocorre a uma frequência um pouco maior com o termo ’'cobra. O fato de que as métricas de oo-occrrância para os dois arcos em um par bídirecíonaí de arcos 5 que interconectam dois termos ou frase não são iguais reflete distribuições diferentes de termos ou frases e quantidades diferentes de ocorrências de termos ou frases nos muitos stens de informação a partir dos quais as ontologias são preparadas, bem como com diferentes normalizações para os dois termos ou frases. Com referência de novo a Frgura 4. as antologias, tal 10 como a antologia simples mostrada na Figura 5, são preparadas pelo componente construtor de ontologias 446 do sistema CSS através de análise de uma grande quantidade de itens de informação relacionados a uma categoria particular e coletados por um intervalo de tempo particular. Deste modo, cada ontologia, tal como a ontologia ilustrada na Figura 5, é associada com 15 uma categoria particular e é marcada corn uma data e ou data/hora que correspondem sê data ou data e hora, respectívamente, quando as entidades de informação usadas pelo componente construtor de ontologia para construir a ontologia foram coletados pelo componente cíassificador a agregader de informação 4450 do sistema CSS 402.

Cada ontologia é física ou conceitualmente associada com um vocabulário, O vocabulário também ê preparado a partir de itens de informação coletados pelo componente classificador e agregador de informação (440 na Figura 4} do sistema CSS. Em certas modalidades, o vocabulário para urna categoria de informação è preparado pelo componente construtor 25 de modelo de linguagem (444 na Figura 4) do sistema CSS e armazenado no armazenamento de modelo de linguagem (436 na Figura 4). Em outras modalidades da presente invenção, 0 vocabulário pode ser construído pelo componente construtor de ontologia (44S na Frgura 4) e armazenado no armazenamenío de ontologia (414 na Figura 4), e ainda em modalidades alter30 nativas, o vocabulário pode ser construído por também um componente adicional do CSS,

Um vocabulário compreende uma lista de substantivos, ou fra ses de substantivos, em uma modalidade da presente invenção., isto ocorre usualmente em itens de informação relacionadas a uma categona de informação particular. Por exemplo, uma categoria de esportes para itens de conteúdo pode se esperar que inclua substantivos tais come bastão, ’'base”, arremessador, lançador”. trave, futebol?’ dardo, patinação, e outros substantivos e frases de substantivos. Devido ao fato de ser Ineficiente manipular programatíoamente sequências de símbolos, tais como sequências de caracteres, quando se Implementa componentes do sistema CSS, cada termo ou frase em um vocabulário ê representada por um valor inteiro. A

Figura 6 mostra uma parte de um vocabulário ilustrativo para a categona animais, de acordo oom uma modalidade da presente invenção, Como pode ser visto na Figura 6, a representação da sequência de caracteres do nome de cada animal, tai como a sequência de caracteres aardvark 602. é associada com um pequeno vaiar inteiro, tal como valor 96 804 na tabela

606 que constitui um vocabulário pura a categoria de informação animais. Usando esta tabela, a sequência de caracteres jacaré 60S é facilmente traduzida para o inteiro 462 610 através de uma operação de pesquisa na tabela. Como qualquer dado processado computacionalmente e armazenado eletronicamente, o vocabulário pode ser adicionalmente associado com índl·20 ces ou outra informação adicional para permitir termos e frases para serem localizados rapidamente na tabela e acessados.

Ao mesmo tempo em que é conveniente representar' uma ontologia como um gráfico que incluí nós de termos e frases íntemoneotados por arcos, como mostrado na Figura 5, uma ontologia pode ser manipulada rnais 25 facilmente, computaoíonalmente, quando representada como uma matriz m x m, onde rn é a quantidade de termos e frases de um vocabulário particular; A Figura 7 ilustra uma representação m x m de uma ontologia, de acordo com uma modalidade da presente invenção. A matriz m x m 702 compreendo m²células, em que cada célula, tal coma a célula 764, contem uma ou mais mé30 tricas de co ocorrência que rotulam um arco, tal como o arco 508 na Figura 5, que emana da um primeiro nó de ontologia, tal como o nó 502. na Figura 5, e direcionado para um segundo nó de ontologia, tal como nó 504 ns Frgu rã 5. Ο índice da linha da célula Indica o valor inteiro que corresponde ao primeiro nó, a partir do qual a arco emana, e o índice da coluna da célula indica o segundo nó, para o qual o arco é direcionado. A célula 704 tem indices de matriz (5, m-1), que indicam que as métricas de co-ocorrência inclui5 das na célula, tal como métrica ”0,20 706 na Figura 7, rotulam um arcc de uma palavra ou frase de vocabuláno especificada pelo inteiro 5“ até o termo ou frase do vocabulário especificado pelo mteiro m-1.

A representação m x rn de uma ontologia, mostrada na Figura 7, é uma abstração útil, mas também é de forma gerai ineficiente computacio10 nalrnente. Uma razão pela qual esta representação é ineficiente é que. para ontologias práticas, as métricas de co-ocorrência abaixo de um valor limite sâo consideradas sem significado, e a todas é atribuído urn valor mínimo, tai coma o valor ’‘0,0. Portanto, a matriz m x m, mostrada na Figura 7, é geralmente bastante dispersa. Por este motivo, a para facilitar acesso rápido a 15 métricas de co-ocorrência particulares para palavras e frases particulares do vocabulário, a ontologia è usualmente representada como uma lista. A Figura 8 mostra uma representação de lista da uma ontologia, de acordo com uma modalidade da presente invenção, Na Figura 8, cada elemento da lista 802, tai como o elemento 804, é representado como uma linha que contêm 20 três células. A primeira célula 806 da tinha 804 é a representação numérica da alva de urn arco na representação gráfica de uma ontologia, a segunda célula 808 é a fonte de um arco, na representação gráfica de uma ontologia, e a terceira célula 810 contém a métrica de co-ocorrência peta qual o arco é rotulado. Somente entradas com métricas diferentes de zero são incluídas 25 na lista 802. o que resolve o problema de dispersão associado corn representações m x m de uma antologia. Cada entrada na lista representa um único arco de uma ontologia. As entradas são ordenadas, na Figura 8, em ordem ascendente com respeito ao valor armazenado na primeira célula da cada entrada, conforme visto prontarnente pelos valores nas primeiras célu30 Ias das entradas na Figure 8, Esta organização facilita o acesso a aquelas entradas associadas com um termo ou frase particular ao qual um arco é direcionado na representação gráfica da ontologia. Ern certas modalidades.

as entradas podem ser ordenadas adicionalrnente cam respeito ao valor armazenado na segunda célula de cada entrada, e ainda em modalidades adi cionais, a representação da lista de uma ontologia pode ser acompanhada por uma ou mais tabelas de referência, ou índices, para facilitar o acesso 5 rápido a entradas particulares da antologia.

Na prática, mesmo a representação da lista de uma ontologia, mostrada na Figura 8, pode ser de alguma forma uma abstração, Em uma modalidade da presente invenção, a ontologia inclui os dados da linha empregados para computar a métrica da co-ocorrêncía, para cada entrada, em 10 vez de a métrica de co-ucomèneia computada, A Figura 9 mostra uma parte de uma representação de ontologia usada em uma modalidade da presente Invenção. A ontologia é representada como uma lista 902, similar a representação da lista ilustrada na Figura 8. Entretanto, em vez de incluir uma métrica de co -ocorrência computada única, corno na Figura 8, cada entrada 15 na lista da Figura 9 instei, em uma modalidade da presente invenção, três valores numéricos 904 a 996 que codificam a quantidade de ocorrências da palavra ou frase representada pelo valor armazenada no primeiro elemento 908 da entrada, dentro do mesmo item de informação, ou dentro de uma subunidade ou subseção do item de informação, uma vez que a palavra ou 20 frase representada pelo valor armazenado na segunda célula 910 da entrada em uma grande quantidade de itens de informação coletados e processados que corresponde a categoria da informação para qual a ontologia é preparada.

Na presente discussão, itens de conteúdo são arquivos da vídeo 25 que incluem faixas de áudio. Em uma modalidade da presente invenção, a busca é executada pele sistema CSS exolusivamente na faixa de áudio de um arquivo de vídeo, usando termos e frases entrados por um usuário para encontrar aqueles termos ou frases, ou termos e frases relacionados, que ocorram em pontos no tempo na faixa de áudio. Deste modo, partes da faixa 30 de audio podem ser identificadas como sendo relacionadas aos termos de busca e de interesse particular para um usuário. Aquelas partes da faixa de áudio podem, por sua vez, ser relacionadas às imagens da video que são exibidas na intervalo de tempo no qual as partes da faixa de áudio são apresentadas, quando o arquivo de video é apresentado pare o usuário através da urna aplicação de apresentação de arquivo de vídeo. Nestas modalidades, uma transcrição (426 na Figura 4) é esseocialmente uma lista de ocor5 rências de termos ou frases associados com um tempo, ou intervalo de tempo, em que os termos ou frases dos termos ocorrem na faixa de áudio durante a apresentação da faixa de áudio para um usuária. A Figura 10 ilustra uma implementação de uma transcrição, de acordo com uma modalidade da presente invenção. Na Figura 10, cada célula em uma matriz unidimensíonai 10 1002, tal como uma célula 1004, ou é branca, que indica que nenhuma palavra ou frase foi reconhecida durante aquele intervalo de tempo, ou contém uma representação numérica de uma palavra ou frase selecionada a partir de um vocabulário associado com a categoria do item de conteúdo a partir do qual a transcrição é preparada. Nesta modalidade de uma transcrição, 15 cada célula representa um pequeno Intervalo de tempo fixo., de rnede que a matriz, unidimensíonal 1002 representa uma linha de tempo para apresentar a faixa de áudio de um arquivo de video. A Figura 11 ilustra uma representação alternativa de uma transcrição, de acordo com uma modalidade da presente invenção. Na Figura 11, a transcrição é representada como uma lista. 20 ou matriz bidimensional, cada entrada, ou linha, da qual contém um valor numérico que indica uma palavra ou frase a partir de um vocabulário, tal como um valor numérico 1102, e um tempo associado no qual a palavra ou frase ocorrem na faixa da áudio, tal corno tempo 1104, ambos dentro da entrada 1106, Muitas representações alternativas de fransonçoes são possi25 vais.

A Figura 12 ilustra a operação do componente CS (408 na Figura 4) de um CSS que representa uma modalidade da presente invenção. O componente CS recebe um ÍD de conteúdo 1202 em uma consulta de busca 1203 a partir de um componente de serviço de busca (404 na Figura 4) do 30 CSS que representa uma modalidade da presente invenção. O ID de conteúdo è geralmente um identificador nurnèrico, ou sequência alfanumérica, que identifica unicamente um item de conteúdo particular. O componente CS usa o ID de conteúdo 1202 para acessar o componente da serviço de dados de midis (418 na Figura 4) para obter um ID de categoria 1204 para o item de conteúdo e uma data/hora 1206 para o item de conteúdo. O componente CS adioionalmente acessa o armazenamento de ontologia (414 na Figura 4) e, em cedas modalidades, o armazenamento de modelo de linguagem (436 na F igura 4) a fim de obter uma ontologia 1208 e um vocabulário 1210 apropriados para o item de conteúdo. Usando a ontologia e vocabulário 12.08 e 121 D. e usando várias regras e rotinas de processamento de linguagem, o componente CS então processa a consulta de busca recebida 1203 para gerar uma ou mais listas de termos ou frases 1212 e 1214. Primeiramente, a consulta de busca tem os erros de grafia corrigidas e è paroíalmente normalizada. para produzir um termo ou frase de busca modificado 1216. A consulta de busca modificada 1216 é em seguida processada para extrair aquelas palavras que ocorrem no vocabulário para a categoria a qual o item de conteúdo identificado pelo ID de conteúdo 1202 pertence. .A categoria é identificada pelo ID de categoria 1204 obtido a partir do componente de serviço de dados de mídia. Cada lista 1212 e 1214 compreende um termo ou frase de busca e frases e termos de busca relacionados adicionais, corno obtido a parte da ontologia 1208. Cada termo ou frase na lista é associado com um valor de métrica de co-ocorrência extraído a partir da ontologia. Nu exemplo mostrado na Figura 12, os termos ''gasolina'. carro*, cobra, e pelo são encontrados, na ontologia a ser relacionada ao termo de busca óleo, e, portanto são índuldos na lista 12'12 para o termo de busca óleo. De maneira similar, a lista 1214 contém o termo de busca carro e os termos adicionais relacionados 'gasolina e oleo. Qs termos e frases relacionados são obtidos, a partir da ontologia, a partir daquelas entradas nas quais um termo ou frase de consulta de busca ocorre como o primeiro valor nas entradas de ontologia (ver Figuras 8 e 9). Uma vez que a liste tenha sido preparada, o componente CS em seguida acessa o componente de dados de corrteúdo extraídos (416 na Figura 4} para obter uma transcrição para o item de conteúdo 1218. O componente CS em seguida usa a lista 1.212 e 1214 para atribuir métricas de co-ocorrência para aqueles termos e frases da transcrição

1218 que ocorrem no vocabulário da categoria a qual o item de conteúdo pertence, para produzir urna transcrição pontuada 1220, Q serviço CS então, em uma modalidade da presente invenção, devolve a transcrição pontuada e a ID de conteúdo, e, opcionalmente, a frase de busca modificada 1216 e uma referência ao vocabulário, para o componente de serviço de busca {404 na Figura 4) do sistema CSS. O componente de serviço de busca em seguida processa adicíonaímente a transcrição ponteada para apresentar os resultados da busca para um usuário,

A Figura 13 ilustra uma modalidade de uma transcrição pontuada, de acordo com uma modalidade da presente invenção, A transcrição pontuada é uma lista de tuples, da qual cada tupla é representada na Figura 13 por uma linha, tai como a linha 1304, Cada tuple, tal como a tupla 1304, Incluí a representação numérica de urna palavra ou frase, uma indicação do tempo decorrido no qual a palavra ou frase ocorrem na transcrição de áudio, e uma pontuação computada para a palavra ou frase. Em geral, a pontuação ê uma função da métrica ou métricas de co-ocnrréncía obtidas a partir da ontologia usada para pontuar a transcrição. Em uma modalidade da presente invenção, por exemplo, a pontuação é simplesmente a métrica de coocorrência obtida a partir da ontologia, a menos que o termo ou frase para o qual a pontuação é computada ocorra em múltiplas listes, tal como em ambas as listas 1212 e 1214 no exemplo da Figura 12, em cujo caso a pontuação pode ser computada nome a média, ou uma média ponderada, das métricas de no -ocorrência associadas com o termo em qualquer das listas na qual o termo ou frase ocorrem.

A Figura 14 fornece um diagrama de controle para o componente CS de um sistema CSS, de acordo com uma modalidade da presente invenção, Na etapa 1402, o componente CS recebe um ID de conteúdo quo identifica unicamente um item de conteúdo e um termo ou frase de busca. Na etapa 1404, o componente GS usa o ID de conteúdo para obter um ID de categoria e data/hora para o ID de conteúdo. O ID de conteúdo identifica a categoria da informação a qual o item de conteúdo pertence, e a data/hora identifica a data ou data e hera com a qual o item de conteúdo está associa20 do, para habilitar o componente CS para encontrar uma ontologia e vocabulário apropriados para o item de conteúdo. Na etapa 1406, o componente CS usa a categorta e datafhora obtidos na etapa 1404 para obter uma ontologia e vocabulário apropriados para o item de conteúdo. Na etapa 1408, o com5 ponente CS process?! o termo de busca ou frase de busca recebido com o uso da ontologia e vocabulário obtidos, através de uma chamada a rotina ’processar frase de busca, chamada na etapa 1408, e uma referência ao vocabulár io obtido na etapa 1408.

A Figura '15 é um diagrama de fluxo de controle para a rotina processar frase de busca chamada na etapa 1408 da Figura 14, de acordo com uma modalidade da presente invenção. Na etapa 1502, a rotina processar a frase de busca recebe uma frase de busca. Na etapa 1504, a grafia dos termos na frase de busca é corrigida e as palavras de frase de busca são normalizadas de acordo com as regras de linguagem e rotinas de iim guagem. Por exemplo, termos plurais podem ser substituídos por termos singulares, e termos e frases derivados de termos e frases raiz podem ser substituídos por termos e frases raiz. Então, na etapa 1506, quaisquer termos e frases que não podem ser encontrados no vocabulário obtido na etapa 1406 da Figura 14 são removidas, deixando um ou mais termos e frases 20 selecionados a partir do vocabulário associados com a categoria de informação a qual o item de conteúdo pertence. Então, no loop-oondrc/onaf das etapas 1508 a 1513. é criada uma iista de termos relacionados para cada termo e frase dod termos e frases restantes após a etapa 1506. Novamente, corno discutida acima, a pontuação da co-ocarréncia associada com cada termo e 25 frase em cada lista é geralmente a métrica de co-ocorrência obtida a partir da ontologia obtida na etapa 1405 da Figura 14.

A togara 16 fornece um diagrama de fluxo rfe controle para a rotina processar transcrição, chamada na etapa 1412 da Figura 14. de acordo com uma modalidade da presente invenção. Na etapa 1602 é cnada uma 30 nova lista de termo/hora/pontuação, tal como aquela mostrada na Figura 13.

Então, no loap-condtóona/ das etapas 1604 a 1607, cada termo na transcrição obtida na etapa 1410 da Figura 14 é considerado durante cada iteração do loop-condoona/, a uma tupla de termo/hora/porduaçâo é entrada na nova lista termo/borafpontuação, criada na etapa 1602, para o termo ou frase considerado correntemente. Corno discutido acima, a pontuação entrada para um termo ou frase é geralmente uma função da métrica ou métricas de 5 co-ocorrõnoia obtida a partir da ontologia, ou_; quando o termo ou frase ocorre em múltiplas listas preparadas nos loops-cond/c/cnais das etapas 1508 a 1513 da Figura 15, a pontuação pode ser computada como uma média, média ponderada, ou alguma outra função de múltiplas ocorrências do termo ou frase a armazenada para o ferrno ou frase. Em cedas modalidades da pre10 sente invenção, um cálculo adicional opcional pode ser realizado com a lista de tuples de termo/l?ora/pontuação produzida pelos loops-ccndídanaís das etapas 1604 a 1607. Por exemplo, em uma modalidade da presente invenção, um loúp-condoona/ das etapas 1610 a 1613 pode ser executado para considerar novamente cada tupla termo/horafpcntuação em uma lista ter15 mo/bora/pontuação recém criada a fim de modificar cada pontuação de acorda com os termos e frases vizinhos a urn dado termo ou frase, no tempo, dentro da lista tennc/hora/pontuação. Por exemplo, o fato de que um intervalo de tempo particular na transcrição contém ocorrências de frases ou termos de todos, ou uma maioria, das listas, preparadas nas etapas 150S a 20 1523 da Figura 15, pode indicar que as pontuações associadas com os termos e frases naquele intervalo devem ser aumentadas, para refletir uma maior probabilidade de que as ocorrências dos termos e frases sejam realmente relacionados à frase de busca. Muitas considerações adicionais podem ser feitas em passagens adicionais pela lista termofhora/pontuação.

Fínaimente, na etapa 1614, a lista termo/horafpontuação, preparada pela rotina ’’processar transcrição”, é retomada como a transcrição pontuada.

Embora a presente invenção tenha sido descrita em termos de modalidades particulares, não se entende que a invenção esteja limitada a estas modalidades, Ficarão evidentes modificações dentro do espirito da 30 invenção para cs indivíduos versados na técnica. Por exemplo, o componente CS de um sistema CSS pode ser implementado em qualquer quantidade de linguagens de programação para execução em qualquer quantidade de sistemas operacionais diferentes sendo executados em diferentes plataformas de hardware dentro de muitos tipos diferentes de sistemas CSS, implementações do componente CS podem variar de acordo oom vanações em parâmetros e carauterlsticas familiares de programação, que incluem 5 estruturas de controle, estruturas de dados, organização modular, e outros parâmetros e características familiares.. Gomo discutido acima, muitas tipos diferentes de ontologias e representações de ontologia, e muitos tipos diferentes de transcrições e representações de transcrição podem ser empregados por várias modalidades do componente CS para preparar transcrição 0 pontuada. As métricas de co-ocorrência e outros valoras numéricas podem ter diferentes amplitudes e representações, em modalidades alternativas,

A descrição acima, para fins de explicação, usou nomendatura especifica para fornecer urn entendimento completo da invenção. Entretanto, ficará aparente para urn indivíduo versado na técnica que detalhes especifi5 cas não são exigidas a fim de exercitar a invenção. As descrições acima de modalidades específicas da presente invenção são apresentadas com o objetivo de ilustração e descnção. As mesmas não são entendidas como sendo completas ou como limitantes da invenção precisamerrte às formas reveladas. Muitas modificações e vanações são possíveis em vista dos ensina0 mantos acima. As modalidades são mostradas e descritas a fim de melhor explicar os princípios da invenção e suas aplicações práticas, para deste moda permitir que outros Indivíduos versados na técnica utilizem melhor a invenção e várias modalidades com várias modificações tanto quanto sejam adequadas para o aso particular contemplado. Ê entendido que o escopo da 5 invenção é definido pelas reivindicações a seguir e seus equivalentes.

Claims

REIVINDICAÇÕES

1. Componente de serviço de conceito (408) de um sistema de serviço de busca de conteúdo para buscar um item de conteúdo tendo uma trilha de áudio, o componente de serviço de conceito (408) caracterizado pelo fato de que compreende:

um processador de hardware configurado para:

receber, como entrada, um ID de conteúdo (1202) e consulta de busca (1203), em que o ID de conteúdo identifica unicamente o item de conteúdo;

usar o ID de conteúdo (1202) para recuperar um ID de conteúdo (1204), ontologia, vocabulário, e uma transcrição, em que o ID de categoria refere-se a uma matéria subjetiva do item de conteúdo, e a transcrição inclui uma renderização textual da trilha de áudio; ;

receber uma consulta de busca (1203) e corrigir e normalizar linguisticamente termos e/ou frases dentro da consulta de busca (1203); e usar os termos e frases normalizados linguisticamente para processar a transcrição para atribuir pontuações baseadas em ontologia aos termos e/ou frases na transcrição; e uma memória acoplada ao processador.
2. Componente de serviço de conceito, de acordo com a reivindicação 1, caracterizado pelo fato de que o componente de aquisição de recurso solicita um ID de conteúdo (1204) e indicação de data ou data/hora que correspondem ao ID de conteúdo (1202) recebido a partir do componente de armazenamento de dados de mídia do sistema de serviço de busca de conteúdo.
3. Componente de serviço de conceito, de acordo com a reivindicação 2, caracterizado pelo fato de que o componente de aquisição de recurso solicita uma ontologia e vocabulário a partir de um componente de armazenamento de ontologia do sistema de serviço de busca de conteúdo, usando o ID de conteúdo (1204) e indicação de data ou data/hora e uma transcrição a partir de um componente de armazenamento de conteúdo extraído usando o ID de conteúdo (1202) recebido.
4. Componente de serviço de conceito, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de consulta de busca:

aplica regras de linguagem e rotinas baseadas em dicionário aos termos e/ou frases dentro da consulta de busca para corrigir grafias ou quaisquer termos grafados incorretamente na consulta de busca (1203);

aplica rotinas de linguagem para normalizar os termos e/ou frases dentro da consulta de busca (1203) recebida através de troca de formas de plural para formas de singular correspondentes e substituição de termos derivados por formas raiz dos termos derivados; e filtra dos termos de consulta de busca (1203) aqueles que não ocorrem no vocabulário recebido.
5. Componente de serviço de conceito, de acordo com a reivindicação 1, caracterizado pelo fato de que o pontuador de transcrição:

prepara uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente de cada consulta de busca (1203); e para cada termo e/ou frase na transcrição, associa uma pontuação com o termo e/ou frase baseado nas métricas de co-ocorrência nas listas preparadas de pares de termo/métrica de ontologia.
6. Componente de serviço de conceito, de acordo com a reivindicação 5, caracterizado pelo fato de que o pontuador de transcrição prepara uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente de cada consulta de busca (1203) através de:

identificar cada entrada na ontologia que inclui o termo e/ou frase emparelhado com um segundo termo; e para cada entrada identificada:

computar uma métrica de co-ocorrência como uma combinação de valores de co-ocorrência na entrada identificada, e adicionar uma entrada a lista que inclui o segundo termo e a métrica de co-ocorrência computada; e adicionar uma entrada a lista que inclui o termo e uma métrica de co-ocorrência de termo idêntico.
7. Componente de serviço de conceito, de acordo com a reivindicação 5, caracterizado pelo fato de que o pontuador de transcrição, para cada termo e/ou frase na transcrição, associa uma pontuação com o termo e/ou a frase baseada nas métricas de co-ocorrência nas listas preparadas de pares de termo/métrica de ontologia através de:

identificar cada entrada em cada lista de pares de termo/métrica de ontologia na qual a ontologia que inclui o termo e/ou frase considerado correntemente;

quando duas ou mais entradas são identificadas, adicionar as métricas de co-ocorrência das entradas identificadas juntas e computar uma pontuação a partir da soma;

quando uma entrada é identificada, usar a métrica de coocorrência na entrada identificada como pontuação; e associar a pontuação com o termo e/ou frase considerado correntemente.
8. Método para buscar e identificar pontos em um item de conteúdo de mídia transcrita relacionado com uma consulta de busca (1203), caracterizado pelo fato de que compreende as etapas de:

receber, como entrada, um ID de conteúdo (1202) e consulta de busca (1203), em que o ID de conteúdo identifica unicamente um item de conteúdo particular;

usar o ID de conteúdo (1202) para recuperar um ID de conteúdo (1204), ontologia, vocabulário, e uma transcrição, em que o ID de categoria relaciona-se a uma matéria subjetiva do item de conteúdo; e a transcrição inclui uma renderização textual de uma trilha de áudio do item de conteúdo;

corrigir e normalizar linguisticamente termos e/ou frases dentro da consulta de busca (1203); e usar os termos e frases normalizados linguisticamente para processar a transcrição para atribuir pontuações baseadas em ontologia aos termos e/ou frases na transcrição.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que ainda compreende a etapa de solicitar um ID de conteúdo (1204) e indicação de data ou data/hora que corresponde ao ID de conteúdo (1202) recebido a partir de um componente de armazenamento de dados de mídia de um sistema de serviço de busca de conteúdo.
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que ainda compreende as etapas de solicitar uma ontologia e vocabulário a partir de um componente de armazenamento de ontologia do sistema de serviço de busca de conteúdo, usar o ID de conteúdo (1204) e indicação de data ou data/hora e solicitar uma transcrição a partir de um componente de armazenamento de conteúdo extraído do sistema de serviço de busca de conteúdo usando o ID de conteúdo (1202).
11. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que as etapas de corrigir e normalizar linguisticamente termos e/ou frases dentro da consulta de busca (1203) adicionalmente compreendem as etapas de:

aplicar regras de linguagem e rotinas baseadas em dicionário aos termos e/ou frases dentro da consulta de busca (1203) para corrigir grafias ou quaisquer termos grafados incorretamente na consulta de busca (1203);

aplicar rotinas de linguagem para normalizar os termos e/ou frases dentro da consulta de busca (1203) recebida através de trocar formas de plural para formas de singular correspondentes e substituir termos derivados por formas raiz dos termos derivados; e filtrar dos termos de consulta de busca (1203) aqueles que não ocorrem no vocabulário recebido.
12. Método, de acordo com a reivindicação 8, caracterizado pe-

Io fato de que a etapa de processar a transcrição para atribuir pontuações baseadas em ontologia aos termos e/ou frases adicionalmente compreende as etapas:

preparar uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente de cada consulta de busca (1203); e para cada termo e/ou frase na transcrição, associar uma pontuação com o termo e/ou frase baseado nas métricas de co-ocorrência nas listas preparadas de pares de termo/métrica de ontologia.
13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que a etapa de preparar uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente da consulta de busca (1203) adicionalmente compreende as etapas de:

identificar cada entrada na ontologia que inclui o termo e/ou frase emparelhado com um segundo termo; e para cada entrada identificada:

computar uma métrica de co-ocorrência como uma combinação de valores de co-ocorrência na entrada identificada, e adicionar uma entrada a lista que inclui o segundo termo e a métrica de co-ocorrência computada; e adicionar uma entrada a lista que inclui o termo e uma métrica de co-ocorrência de termo idêntico.
14. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que ainda compreende, para cada termo e/ou frase na transcrição considerado correntemente, a etapa de associar uma pontuação com o termo e/ou a frase baseada nas métricas de co-ocorrência nas listas preparadas de pares de termo/métrica de ontologia através das etapas de:

identificar cada entrada em cada lista de pares de termo/métrica de ontologia na qual a ontologia que inclui o termo e/ou frase considerado correntemente;

quando duas ou mais entradas são identificadas, adicionar as métricas de co-ocorrência das entradas identificadas juntas e computar uma pontuação a partir da soma;

quando uma entrada é identificada, usar a métrica de coocorrência na entrada identificada como pontuação; e associar a pontuação com o termo e/ou frase considerado correntemente.
15. Meio de armazenamento legível por computador tendo um conjunto de instruções para buscar e identificar pontos em um item de conteúdo de mídia transcrita relacionado com uma consulta de busca (1203), caracterizado pelo fato de que as instruções, quando executadas por pelo menos um computador, faz com que pelo menos um computador:

receba, como entrada, um ID de conteúdo (1202) e consulta de busca (1203), em que o ID de conteúdo identifica unicamente um item de conteúdo particular;

use o ID de conteúdo (1202) para recuperar um ID de conteúdo (1204), ontologia, vocabulário, e uma transcrição, em que o ID de categoria relaciona-se a uma matéria subjetiva do item de conteúdo; e a transcrição inclui uma renderização textual de uma trilha de áudio do item de conteúdo;

corrija e normalize linguisticamente termos e/ou frases dentro da consulta de busca (1203); e use os termos e frases normalizados linguisticamente para processar a transcrição para atribuir pontuações baseadas em ontologia aos termos e/ou frases na transcrição.
16. Meio de armazenamento legível por computador, de acordo com a reivindicação 15, caracterizado pelo fato de que compreende instruções adicionais para solicitar um ID de conteúdo (1204) e indicação de data ou data/hora que corresponde ao ID de conteúdo (1202) recebido a partir de um componente de armazenamento de dados de mídia de um sistema de serviço de busca de conteúdo.
17. Meio de armazenamento legível por computador, de acordo com a reivindicação 16, caracterizado pelo fato de que compreende instruções adicionais para solicitar uma ontologia e vocabulário a partir de um componente de armazenamento de ontologia do sistema de serviço de busca de conteúdo, usar o ID de conteúdo (1204) e indicação de data ou data/hora e solicitar uma transcrição a partir de um componente de armazenamento de conteúdo extraído do sistema de serviço de busca de conteúdo usando o ID de conteúdo (1202).
18. Meio de armazenamento legível por computador, de acordo com a reivindicação 15, caracterizado pelo fato de que as instruções para de corrigir e normalizar linguisticamente termos e/ou frases dentro da consulta de busca (1203) ainda compreendem as etapas de:

aplicar regras de linguagem e rotinas baseadas em dicionário aos termos e/ou frases dentro da consulta de busca (1203) para corrigir grafias ou quaisquer termos grafados incorretamente na consulta de busca (1203);

aplicar rotinas de linguagem para normalizar os termos e/ou frases dentro da consulta de busca (1203) recebida através de trocar formas de plural para formas de singular correspondentes e substituir termos derivados por formas raiz dos termos derivados; e filtrar dos termos de consulta de busca (1203) aqueles que não ocorrem no vocabulário recebido.
19. Meio de armazenamento legível por computador, de acordo com a reivindicação 15, caracterizado pelo fato de que as instruções adicionais para processar a transcrição para atribuir pontuações baseadas em ontologia aos termos e/ou frases adicionalmente compreende as etapas de:

preparar uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente de cada consulta de busca (1203); e para cada termo e/ou frase na transcrição, associar uma pontuação com o termo e/ou frase baseado nas métricas de co-ocorrência nas listas preparadas de pares de termo/métrica de ontologia.
20. Meio de armazenamento legível por computador, de acordo com a reivindicação 19, caracterizado pelo fato de que as instruções adicionais para preparar uma lista de pares de termo/métrica de ontologia para cada termo e/ou frase nos termos e/ou frases normalizados linguisticamente da consulta de busca (1203) adicionalmente compreende as etapas de:

5 identificar cada entrada na ontologia que inclui o termo e/ou frase emparelhado com um segundo termo; e para cada entrada identificada: computar uma métrica de co-ocorrência como uma combinação de valores de co-ocorrência na entrada identificada, e

10 adicionar uma entrada a lista que inclui o segundo termo e a métrica de co-ocorrência computada; e adicionar uma entrada a lista que inclui o termo e uma métrica de co-ocorrência de termo idêntico.