BRPI0913549A2 - Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador - Google Patents

Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador Download PDF

Info

Publication number
BRPI0913549A2
BRPI0913549A2 BRPI0913549-9A BRPI0913549A BRPI0913549A2 BR PI0913549 A2 BRPI0913549 A2 BR PI0913549A2 BR PI0913549 A BRPI0913549 A BR PI0913549A BR PI0913549 A2 BRPI0913549 A2 BR PI0913549A2
Authority
BR
Brazil
Prior art keywords
local
user
terminals
remote
conversation
Prior art date
Application number
BRPI0913549-9A
Other languages
English (en)
Inventor
S. Harmã Aki
Original Assignee
Koninklijke Philips Electronics N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics N.V. filed Critical Koninklijke Philips Electronics N.V.
Publication of BRPI0913549A2 publication Critical patent/BRPI0913549A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1096Supplementary features, e.g. call forwarding or call holding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0297Telephone sets adapted to be mounted on a desk or on a wall
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador trata-se de um método para controlar pelo menos um dispositivo (8, 12, 13, 20-25) que utiliza um sistema de telecomunicações, o qual inclui: - a obtenção dos sinais que comunicam informação a partir de pelo menos um terminal de telecomunicação remoto (1, 2) e de pelo menos um dispositivo de entrada local (14-16) para formar pelo menos um terminal de telecomunicação local com pelo menos um dispositivo de saída local (17-19), sendo que uma conexão é aberta entre os terminais de telecomunicações remotos e locais; - a análise da informação (40, 41) comunicada de pelo menos dois dos terminais de telecomunicação ( 1, 2, 8, 12, 13) ao longo do tempo, um em relação ao outro, mediante a utilização de pelo menos um critério para detectar a interação de um tipo que corresponde ao tomada de turno de conversação entre usuários dos respectivos terminais de telecomunicação (1, 2, 8, 12, 13); e - o ajuste de pelo menos um sinal de saída para controlar um dispositivo (8,12,13,20-25) com base na determinação se pelo menos um critério foi satisfeito.

Description

MÉTODO PARA CONTROLAR PELO MENOS UM DISPOSITIVO QUE UTILIZA UM SISTEMA DE TELECOMUNICAÇÕES, SISTEMA DE TELECOMUNICAÇÕES E PROGRAMA DE COMPUTADOR
CAMPO DA INVENÇÃO
A invenção refere-se a um método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações. A invenção refere-se também a um sistema de telecomunicações e a um programa de computador.
ANTECEDENTES DA INVENÇÃO
A publicação The Mad Hatter's Cocktail Party: A
Social Mobile Audio Space Supporting Multiple Simultaneous Conversations, de Aoki, P.M. e outros, Chi 2003, Conf. Proc. Conference on human factors in computing systems, de 5 abril de 2003, Pag. 425-432, refere-se a um sistema de espaço de 15 audio melhorado com um componente de aprendizagem de máquina que analisa o comportamento de tomada de turno do participante para identificar os pavimentes de conversação conforme eles aparecem, anotando quais participantes estão em qual pavimento. O sistema modifica dinamicamente o áudio 20 entregue a cada participante para realçar ã proeminênciá dos participantes com os quais estão conversando atualmente e para reduzir a proeminênciá dos participantes com os quais não estão conversando atualmente.
A publicação Ambient telephony: scenarios and 25 research challenges, de Hãrmà, A., Proc. INTERSPEECH 2007, de agosto de 2007 proporciona uma visão geral dos desafios técnicos no desenvolvimento de um telefone de ambiente completo para o ambiente residencial. Um telefone de ambiente é um sistema de fone de serviço com base em conjuntos de 3 0 alto-falantes e de microfones, que são distribuídos no ambiente residencial e conectados entre eles através de uma rede residencial. O sistema pode receber chamadas de qualquer fonte através de um dispositivo central conectado à Internet,
2/29 à rede de telefonia celular, e possivelmente à linha tradicional de terra. A reprodução de áudio pode ser executada de uma maneira espacialmente seletiva. Por exemplo, um usuário pode manter uma conversação com um outro usuário 5 de tal forma que o outro aparente se mover suavemente com aquele que fala, de um aposento para outro, ou de maneira que existam várias conexões simultâneas abertas e os contatos sejam reproduzidos em posições espacialmente separadas no ambiente residencial. A possibilidade de mover uma chamada de 10 um dispositivo e uma posição espacial para outra é uma das características centrais do telefone de ambiente.
Em cenários nos quais várias conexões simultâneas estejam abertas a qualquer momento para chamadores remotos, alguns chamadores remotos podem não estar realmente presentes 15 enTum momento determinado. Seria útil se o sistema telefônico de ambiente pudesse se adaptar aos requisitos variáveis de uso sem complicar substancialmente sua utilização. _ ~ BREVE DESCRIÇÃO DA INVENÇÃO
------- É dêsêjável~~a provisão dé um método, um sistema e 20 um programa de computador dos tipos mencionados acima, que, em um cenário no qual as conexões para os terminais remotos estejam abertas, permitam a adaptação do sistema telefônico aos requisitos variáveis sem requerer muita entrada explícita dos usuários.
De acordo com um aspecto da invenção, é apresentado um método tal como definido na reivindicação 1.
Mediante a análise da informação comunicada proveniente de pelo menos dois terminais de telecomunicação ao longo do tempo, um em relação ao outro, que utiliza pelo 3 0 menos um critério para detectar a interação de um tipo que corresponde a tomada de turno de conversação entre usuários dos respectivos terminais de telecomunicação, pode ser detectado se a conexão ou as conexoes abertas estão em uso. O
3/29 usuário não necessita fornecer quaisquer comandos adicionais para que o sistema detecte se as conversações estão em curso. O ambiente local pode ser adaptado na dependência de que conversações com chamadores externos estejam em curso 5 mediante o fornecimento dos sinais de saída apropriados para pelo menos um dispositivo. Por exemplo, dispositivos que fornecem saídas audíveis podem ser silenciados na dependência de que uma conversação com um chamador externo esteja em curso. O método leva em consideração o fato de que muitos 10 tipos de redes de telecomunicações permitem que conexões estejam abertas de forma persistente com pouco ou nenhum custo marginal para os usuários. Com tais redes, as conexões abertas podem não estar em utilização ativa por períodos de tempo prolongados. De fato, o método fornece um tipo de 15 gerência de presença para tais redes.
O método da invenção inclui, por meio da detecção da interação de um tipo que corresponde a uma conversação entre um usuário local que comunica uma informação de menos que toda uma pluralidade de dispositivos de entrada locais e 20 um usuário de qualquer terminal de telecomunicação remoto, mediante a inferência da posição do usuário local com base em posições conhecidas desses dispositivos de entrada locais.
Em particular, em que a informação é informação de áudio, tal método de posição baseada em áudio torna-se muito 25 mais poderoso em combinação com o método de detecção de conversação aqui proposto. Em particular, significa que o método de posição é executado apenas mediante a utilização de sinais determinados para transportar a contribuição de um usuário para uma interação do tipo conversação, e não, por 30 exemplo, ruído de fundo.
Observa-se que a patente norte americana 2005/0251386, descreve um detector de conversação que compreende um pré-condicionador de sinal responsive a um
4/29 sinal de áudio fonte de um indivíduo e que produz um sinal pré-enfatizado; um comparador acoplado para receber o sinal pré-enfatizado e gerar pulsos reduzidos em resolução e taxa de amostra e indicativo de pelo menos uma característica do sinal pré-enfatizado; e uma unidade de análise responsiva aos pulsos gerados e que utiliza regras adaptáveis e uma característica indicada do sinal pré-enfatizado para determinar daí a existência de uma conversação por um indivíduo.
Este sistema conhecido utiliza somente sinais de áudio fonte de um microfone ou de outra fonte mediante a captura de uma apresentação verbal. Não existe nenhuma descrição da obtenção de sinais que comunicam informação de pelo menos dois terminais de telecomunicação entre os quais uma conexão está aberta. Portanto não existe também nenhuma descrição da análise da informação comunicada proveniente de pelo menos dois terminais de telecomunicação ao _longo do tempo, um em relação ao outro que utiliza pelo menos um critério-para detectar a interação de um tipo que corresponde ao tomada de turno de conversação entre os usuários dos respectivos terminais de telecomunicação. De fato, o sistema conhecido pode somente discriminar entre a fala e o ruído de fundo.
Observa-se adicionalmente que a patente norte americana 6.766.019 descreve um método de detecção dupla conversação para utilização em um anulador de eco acústico, sendo o anulador de eco acústico para reduzir o eco não desejado gerado em um aposento de recepção que recebe um sinal distante que compreende a fala de entrada e que produz um sinal de retorno que possui um eco não desejado. Este método compreende a computação de uma estimativa de correlação cruzada representativa de uma correlação cruzada entre o sinal distante e o sinal de retorno normalizado por
5/29 uma covariância do sinal distante e adicionalmente normalizado por uma variação do sinal de retorno.
Este sistema conhecido não realiza uma análise da informação comunicada de pelo menos dois terminais de 5 telecomunicação ao longo do tempo, e a análise não utiliza pelo menos um critério para a detecção da interação de um tipo que corresponde ao tomada de turno de conversação entre usuários dos respectivos terminais de comunicação. De preferência é realizada uma análise momentânea de se um sinal 10 de entrada e um sinal de entrada local são o mesmo (o que indica um eco).
Uma realização do método inclui a análise da informação de áudio comunicada de pelo menos dois dos terminais de telecomunicação ao longo do tempo um com relação 15 ao outro.
Em contraste com, por exemplo, a informação de vídeo, a informação de áudio acima de um determinado volume de limite virá em estouros que correspondem à contribuição das fontes para uma conversação. Isto torna relativamente 20 fácil determinar a existência da interação tipo conversação entre as fontes de dois ou mais sinais de áudio. O reconhecimento de fala não é requerido, uma vez que a determinação da interação tipo conversação com base na informação de vídeo deve requerer geralmente a análise de 25 imagem para a detecção da interação tipo conversação. Esta análise poderia incluir, por exemplo, a detecção do movimento labial com base na detecção e na análise facial, o reconhecimento automatizado de gestos, tais como o movimento das mãos durante a atividade de fala, e o contacto visual 3 0 (virtual) durante a escuta e a fala. É notado que a análise de um sinal áudio-visual não é impossibilitada nesta realização. Comparado às mensagens de texto, a informação de áudio é mais favorável à análise para detectar interações de
6/29 um tipo que corresponde a tomada de turno de conversação. As mensagens de texto geralmente também devem requerer pelo menos a análise dos cabeçalhos dos assuntos para determinar se eles se relacionam a uma discussão particular, por 5 exemplo, uma hospedada em um fórum eletrônico. Ê geralmente difícil detectar conversações com base somente no fluxo temporal das postagens a tal fórum.
Uma variação desta realização inclui o estabelecimento de uma ligação de vídeo entre os terminais de 10 telecomunicação mediante a detecção da interação de um tipo que corresponde a tomada de turno de conversação entre seus respectivos usuários.
Neste contexto, estabelecer pode significar simplesmente que um sinal de vídeo que está sendo recebido de 15 um terminal remoto é distribuído agora em um dispositivo de saída local em que anteriormente nenhuma saída era fornecida apesar da informação de vídeo estar disponível. Um efeito já obtido nesta variação é que é disponibilizado espaço de tela em outros momentos para outras utilizações, por exemplo, 20 reprodução de conteúdo de vídeo, tal como transmissões de televisão, imagens de fotos, etc. Preferivelmente, entretanto, a comunicação de dados de vídeo começa quando a ligação de vídeo é estabelecida, de modo que, como um efeito adicional, é feita uma utilização econômica da largura de 25 banda disponível.
Em uma realização, um sinal de saída é emitido a pelo menos um dispositivo para produzir uma saída audível, em que o sinal de saída ocasiona um ajuste no volume das saídas audíveis.
Um efeito consiste em aumentar a inteligibilidade da informação de fala comunicada, por exemplo, o terminal de telecomunicação local. Um usuário deste terminal pode escutar música em um volume apropriado a uma completa apreciação da
7/29 música, até que seja determinado automaticamente que uma conversação foi iniciada.
Uma realização do método inclui, mediante a determinação de que um critério não foi satisfeito com 5 respeito à pelo menos um usuário do(s) terminal(ais) de telecomunicação local(ais) e a um usuário de um dos terminais . de telecomunicação remotos, fazendo com que a informação do terminal de telecomunicação remoto particular cesse de ser reproduzida por pelo menos um dispositivo de saída local.
Um efeito é que um usuário do terminal de telecomunicação remoto não necessita ativamente terminar uma chamada com um comando predeterminado para que a conexão . entre esse terminal e um terminal local seja interrompida.
Especialrr.ente em sistemas que permitem que as conexões 15 permaneçam abertas com pouco ou nenhum custo extra, isto garante que os sinais dos terminais de telecomunicação ---- remotos- não sejam_reproduzidos_.continuamente no ambiente do terminal de telecomunicação local. No caso de sistemas de comunicações de voz, os usuários locais nao sao sujeitados a 20 uma cacofonia permanente do ruído de fundo proveniente dos terminais de telecomunicação remotos.
Uma realização do método inclui, mediante a determinação de que pelo menos um critério nao foi satisfeito com respeito a um usuário em uma posição particular com 25 relação a uma pluralidade de dispositivos de entrada locais e dispositivos de saída locais e um usuário de um terminal de telecomunicação remoto particular, fazer com que a informação comunicada do terminal de telecomunicação remoto particular seja reproduzida em um subconjunto selecionado dos 30 dispositivos de saída locais.
Um efeito consiste em permitir o ajuste de um sistema de telefonia de ambiente no qual as conexões seguem um usuário de uma posição dentro de um edifício para outra.
8/29
Nesta variação, somente conexões para aqueles chamadores remotos com quem um usuário particular está engajado em uma interação do tipo conversação se movem com o usuário. Por um lado, isto significa que menos conexões têm que ser movidas 5 quando um usuário se move. Por outro lado, dois ou mais usuários de terminais de telecomunicação locais podem ser munidos apenas com a informação desses chamadores externos com quem estão engajados em conversação. Especialmente em que dois ou mais usuários estão em aposentos diferentes, isto 10 torna as conversações claras, impedindo a confusão ou mesmo a falta de audibilidade de parceiros de comunicação.
Uma realização do método inclui, mediante a determinação de que pelo menos um critério não foi satisfeito com respeito à pelo menos um usuário particular de pelo menos 15 um terminal de telecomunicação local, o ajuste de pelo menos um sinal de saída para controlar um dispositivo na dependência da entrada_ recebida por _pelo jnenos um .dispositivo de entrada local.
Um efeito consiste em permitir que regulagens 20 ambientais no terminal de telecomunicação local sejam ajustadas a diversos cenários de utilização diferentes. Em particular, a presença de entrada recebida por pelo menos um dispositivo de entrada local mesmo em que o usuário com quem a entrada se originou não seja determinado para estar 25 engajado em uma conversação é utilizada como uma sugestão, por exemplo, para começar a análise de fala para uma interface de usuário ativada por voz, ou para adaptar um ambiente a uma conversação entre dois usuários locais. A ausência total de entrada pode resultar em um outro conjunto 3 0 de ajustes, por exemplo, a movimentação de todos os dispositivos para configurar os terminais de telecomunicação locais em um modo de espera.
Uma realização do método inclui, mediante a
9/22 determinação de que pelo menos um critério foi satisfeito com respeito a um usuário dos terminais de telecomunicação, a comunicação de uma identificação associada com o usuário com um indicador de status sobre uma rede de comunicações.
A identificação pode ser de um terminal em associação com o qual o usuário é registrado. A mensagem pode ser difundida por rádio ou transmitida de outra maneira para uma rede de superposição, que pode ser diferente daquela utilizada para comunicar a informação que é analisada a fim 10 de detectar interações que correspondem ao tomada de turno de conversação. Um efeito consiste em implementar automaticamente um sistema de gerência de presença, que em particular não se baseia em entradas explícitas do usuário.
Uma realização do método inclui, mediante a 15 detecção de interação de um tipo que corresponde a uma conversação entre um usuário local que comunica uma informação de menos _que toda uma^pluralidade de dispositivos de entrada locais e um usuário de um terminal de telecomunicação remoto particular, o ajuste de uma seleção de 20 dispositivos de entrada locais dos quais a informação é comunicada ao terminal de telecomunicação remoto particular.
Um efeito é que o usuário remoto recebe menos ruído de fundo. A informação do usuário local é mais inteligível ao usuário remoto.
Uma realização do método inclui a detecção de que um critério foi satisfeito pelo menos com respeito aos usuários de apenas um conjunto de terminais de telecomunicação remotos e a provisão de pelo menos um sinal para 30 identificar o conjunto de terminais remotos para um sistema para estabelecer uma conexão direta somente entre· os terminais remotos que formam o conjunto.
Um efeito consiste em eliminar a retransmissão
10/29 desnecessária de chamadas e uma grande quantidade de ruído de fundo, em particular em que o terminal de telecomunicação local é compreendido em um sistema de telefonia de ambiente.
De acordo com um outro aspecto da invenção, é 5 apresentado um sistema de telecomunicações conforme definido na reivindicação 11.
O sistema de telecomunicação é responsivo às mudanças em circunstâncias sem requerer comandos explícitos dos usuários.
O sistema é organizado para executar um método de acordo com a invenção.
De acordo com um outro aspecto da invenção, é apresentado um programa de computador que compreende um conjunto de instruções capazes, quando incorporado em um 15 dispositivo que pode ser lido por máquina, de fazer com que um sistema que tem capacidades de processamento de informação _ execute _um método óe acordo,com a_invenção._ _ .—
BREVE DESCRIÇÃO DOS DESENHOS
A invenção será descrita com referência aos 20 desenhos anexos, nos quais:
a Figura 1 ilustra esquematicamente um sistema telefônico de ambiente em uma rede de comunicações que compreende dois terminais remotos;
a Figura 2 ilustra esquematicamente componentes 25 funcionais de um dispositivo de telefone individual no sistema telefônico de ambiente;
a Figura 3 ilustra esquematicamente componentes funcionais de um telefone mestre ou substituto no sistema telefônico de ambiente;
a Figura 4 ilustra esquematicamente a atividade de fala em dois canais que representam sinais de fala de dois usuários que estão em conversação ativa; e a Figura 5 é um fluxograma que ilustra várias
11/29 maneiras nas quais a detecção de conversação é utilizada para controlar a gerência, a iniciação e o término de sessão no sistema telefônico de ambiente.
DESCRIÇÃO DETALHADA DAS REALIZAÇÕES DA INVENÇÃO
Como exemplo, são mostrados na Figura 1 dois terminais remotos 1 e 2, conectados a uma rede de telecomunicações 3. Um edifício 4 com tres espaços 5-7 forma um ambiente local com pelo menos uma conexão à rede 3.
A rede 3 é uma rede de área larga, e pode incluir telefone celular, as redes POTS ou redes de Internet de banda larga, por exemplo. A comunicação pode ser através de conexão direta, mas é preferivelmente baseada em pacotes de dados. No que se segue será assumido que a comunicação é baseada em voz com imagens de vídeo opcionais^ como é o caso para=aplicaçõ.es= dê videoconferência. Os mesmos princípios também encontram aplicação em outros métodos de comunicação de informação entre indivíduos, que inclui _o _enyio de.mensagem.de texto, aspostagens de mensagens de murais de avisos ,^etcJ^Naqu©JLeq “outros exemplos, bem como neste exemplo, a informação comunicada dos terminais remotos 1, 2 e dos terminais locais reais ou virtuais no edifício 4 é analisada ao longo do tempo, um em relação ao outro, mediante a utilização de pelo menos um critério para detectar a interaçao de um tipo que corresponde ao tomada de turno de conversação entre usuários dos respectivos terminais. As conversações detectadas são utilizadas para controlar a iniciaçao, o término e a gerencia de sessão no sistema telefônico de ambiente, bem como opcionalmente dispositivos no edifício 4. A informação relativa às conversações detectadas é também utilizada para controlar a reprodução de áudio e captura pelo sistema de telefonia de ambiente.
A conectividade da rede é cada vez mais baseada em modelos de subscrição de preço global, em que os minutos da
12/29 chamada não contam. Conseqüentemente, é comum ter chamadas muito longas ou chamadas que já não são abertas ou fechadas, mas parcialmente abertas de muitas maneiras diferentes. Conseqüentemente, existirão muitas situações nas quais 5 existem conexões abertas para diversos terminais remotos 1, 2, sem que a conexão esteja sendo utilizada por usuários para comunicar informação. Por exemplo, um usuário pode ter aberto uma sessão dentro de uma rede de superposição ponto a ponto, sem mesmo estar perto de seu computador.
Na realização ilustrada, o sistema telefônico de ambiente é construído de unidades de telefone conectadas individuais, conectadas preferivelmente mediante a utilização de uma rede sem fio. Entretanto, os princípios aqui esboçados aplicam-se também aos sistemas nos quais os micrqfones_e^os 15 alto-falantes múltiplos são conectados ao mesmo sistema telefônico, por exemplo, um interfone residencial ou um sistema de telefone fixo. Os _méjtodos_ aqui, esboçados sao executados pelo sistema telefônico de ambiente neste exemplo, de modo que uma distinção será feita entre chamadores e 20 usuários, sendo o termo chamadores utilizado para fazer referência a usuários de terminais remotos 1, 2 e o termo usuário utilizado para fazer referência a indivíduos dentro do edifício 4.
Uma unidade de telefone mestre 8 inclui uma 25 interface para a rede de telecomunicações 3, e é ilustrada individualmente na Figura 3. No exemplo ilustrado, existem interfaces 9-11 para Internet, para um POTS e para uma rede de telefone celular. Em realizações alternativas podem ser utilizadas menos interfaces e outros tipos de interface. A 30 unidade de telefone mestre 8 poderia também ser considerada como uma unidade de telefone substituta, no sentido que outras unidades de telefone individuais 12, 13 se comunicam com os terminais remotos 1, 2 através dela. Uma primeira
13/29 dentre as unidades de telefone individuais 12 é ilustrada em detalhe na Figura 2, sendo que as outras são idênticas. A unidade de telefone mestre 8 compreende uma unidade de telefone individual no sistema telefônico de ambiente ilustrado na Figura 1.
Cada unidade de telefone individual 12, 13 e a unidade de telefone mestre 8 formam interface com pelo menos um microfone 14-16, e pelo menos um alto-falante 17-19. Na realização ilustrada, uma segunda unidade de telefone individual 13 e a unidade de telefone individual compreendida na unidade de telefone mestre 8 também fazem interface com as respectivas câmeras 20, 21 e dispositivos de exibição 22, 23. Os sinais de saída podem ser fornecidos da segunda unidade de telefone individual _ 13 para um dispositivo de iluminação externa 24 e para um dispositivo de entretenimento 25, tais como um rádio ou um aparelho de televisão. Uma ou várias destas conexões Jtambém podem ser através de uma_rede. sem f io, ou de alguma rede para a automatização residencial.
Com referência a Figura 2, é fornecida uma unidade de chamador separada 26 para cada conexão a um chamador remoto tratada pela unidade de telefone individual 12. Uma interface 27 inclui um decodificador e uma memória intermediária de entrada. No exemplo ilustrado, a interface 27 compreende uma interface de soquete RTP (protocolo de pacotes de tempo real) que compreende um decodificador G.722 e uma memória intermediária de entrada. Ela recebe dados de RTP de um soquete IP (protocolo de internet) (não mostrado) .
Uma unidade de reprodução 28 permite que os dados de áudio decodificados sejam reproduzidos pelo alto-falante 17. Ela opera pelo menos em parte sob o controle de uma unidade de controle 29, que também implementa um modelo geométrico, e por sua vez recebe sinais de controle sob a forma de mensagens, por exemplo, de acordo com o protocolo
14/29
SIP (Protocolo de Iniciação de Sessão) sendo transportado como TCP (Protocolo de Controle de Transmissão) sobre pacotes IP, da unidade de telefone mestre 8. É fornecida uma linha de retardo 30 para fornecer um sinal de referência para uma unidade de processamento de sinais de entrada 31. O sinal de referência permite a unidade de processamento de sinais de entrada 31 executar o cancelamento de eco acústico. A unidade de processamento de sinais de entrada 31 executa também o controle automático de ganho, e pode executar outras funções de tratamento de sinais para fornecer um sinal que transporta a informação de áudio de um usuário. A unidade de processamento de sinais de entrada 31 também recebe sinais de controle da unidade de controle 29. A unidade de processamento de sinais de entrada fornece_ un sinal que transporta a informação de áudio para um decodificador G.722, para o soquete RTP de saída 3 2 e para um sistema de detecção de atividade de^ fala (SAD) 33. _ . _ _ —. - - Um sistema SAD típico 33 utiliza um algoritmo que computa um número de características de um segmento de áudio curto e os utiliza para determinar se o segmento de som é uma fala, se não é uma fala ou se é silêncio. Qualquer tipo de algoritmo de detecção de atividade de fala (também conhecido como detecção de atividade de voz) pode ser implementado. Os exemplos são fornecidos:
Na publicação A robust endpoint detection of speech for noisy environments with application to automatic speech recognition, de Bhou-Gazale, S. e Assaleh, K. , Proc. ICASSP 2002, Orlando, Florida, de maio de 2 0 02;
Na piihl ί ração Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold, de Davis, A. e outros, IEEE Trans, on audio, speech and language processing, 14 (2), 2006, Pag. 412-424; e Na publicação A novel approach to robust speech
15/29 detection in car environments, de Huang, L, e Yang, C., IEEE Int. Conf, on Acoustics, Speech and Signal Processing, 3(59), 2000, Pag. 1751-1754.
Observa-se que a funcionalidade do sistema SAD 33 5 pode também ser implementada somente na unidade de telefone mestre 8, que recebe o sinal fornecido através do decodif icador G.722 e do soquete RTP de saída 32. Esta funcionalidade pode também ser executada como parte do algoritmo de realce de fala e de cancelamento de eco 10 implementado na unidade de processamento de sinais de entrada 31. A saída da detecção de atividade de fala é frequentemente um valor binário. Pode também ser um valor de confiança, por exemplo. O resultado da detecção de atividade de fala para intervalos de duração predeterminada é enviado através^ da_ 15 rede no edifício 4 para a unidade de telefone mestre 8.
Com referência à Figura 3, a unidade de telefone mestre 8 cria uma instância de-chamada 34 para cada chamador. externo (que. corresponde a um terminal remoto 1, 2 neste casõl para o qual uma conexão está aberta. A instancia de 2 0 chamada 34 emprega uma função de realce de fala 3 5 para fornecer um sinal que transporta a informação de áudio que é transmitida para uma ou várias das unidades de telefone individuais 12,13. Este sinal é sujeitado também à detecção de atividade de fala 36. Ambas as saídas da função de realce 25 de fala 35 e outros sinais que transportam a informação de áudio e associados com a instância de chamada 34 sao submetidos ao AEC residual 37, antes de serem emitidos como saída, em particular a um ou vários dos alto-falantes 17-19.
Uma unidade de detecção da atividade de conversação 30 38 recebe as saídas do sistema SAD 33 na primeira unidade de telefone individual 12 e sistemas similares nas outras unidades de telefone individuais e da função de detecção da atividade de fala 36 aplicada à informação comunicada do
16/29 terminal remoto 1, 2 com o qual a instância de chamada 3 4 é associada. As saídas da unidade de detecção da atividade de conversação 38 são valores que representam probabilidades temporais da presença da interação tipo conversação entre um chamador que utiliza o terminal remoto associado 1, 2 e um usuário local em um ambiente que compreende uma ou várias das unidades de telefone individuais 12, 13. Estas saídas são fornecidas a uma unidade de controle mestra 39 para controlar os próprios sistemas telefônicos de ambiente ou um dispositivo externo a ele, tal como o dispositivo de entretenimento 25 ou o dispositivo de iluminação externa 24, etc., conforme será explicado.
Um tomada de turno de conversação pode ser detectado de várias maneiras diferentes. Com referência à Figura 4, são mostrados dois fluxos 40, 41 da informação de áudio, um deles proveniente de um dos terminais remotos 1, 2 e o outro de um usuário de uma das unidades de telefone individuais 12, 13 ou da unidade de telefone mestre 8. 0 último fluxo 41 pode de fato ser obtido mediante a segmentação de um sinal de áudio em segmentos associados com um dentre vários usuários que fornecem informação de áudio a uma das unidades de telefone 8, 12, 13, que utilizam uma técnica da segmentação tal como descrito na publicação WO 2007/086042, por exemplo. Os fluxos 40, 41 compreendem períodos 42, 43 de silêncio e períodos 44, 45 da fala conforme determinado pelo sistema SAD 33 e pela função SAD 36 .
A detecção de um tipo de interação que corresponde ao tomada de turno de conversação é baseada em um número de princípios:
l. Em uma conversação, somente um orador é ativo a qualquer momento para a maioria da conversação;
2. Os oradores se revezam, tal como os canais que
17/29 alternam o orador ativo/silencioso;
3. O silêncio contínuo em ambos os canais significa que não existe nenhuma tomada de turno de conversação ativa entre os participantes;
4. A atividade não alternada de fala em um canal significa que não existe nenhuma atividade de conversação entre os canais, mas por exemplo, uma conversação entre dois chamadores selecionados pelo mesmo terminal remoto 1, 2.
5. Se o tomada de turno entre os períodos de fala 10 44, 45 e períodos de silêncio 42, 43 não for sincronizada entre os canais, não existe nenhum tomada de turno de conversação entre os canais em questão. Isso é porque os * fluxos 40, 41 são analisados ao longo do tempo, um em relação ao outro. = ____
- ’ 15 ~ =-— = - -Um aigOritmo possível para detectar o tomada de turno de conversação é o seguinte:
Fazer com que n seja o índice_do quadro.de áudio e ~o pl(n) seja a probabilidade de que o quadro n no canal 1 ----contenha-ümã~fãlã~conforme determinado pelo sistema SAD 3 3 ou 20 pela função SAD 36. Em um exemplo simples, o valor de pl (n) pode ser 0 (nenhuma fala) ou 1 (fala) . Existem quatro variáveis de estado que são inicializadas com zero, Presencel, Presence2, Conflict, Silence. Existem três variáveis de estado adicionais que são inicializadas como se 25 segue: gl = 0.9; g2 = 0.99; e g3 = 0.995. No pseudocódigo, o algoritmo funciona como se 30 segue:
1. Determinar o status de VAD do quadro atual n nos canais 1 e 2 e avaliar:
if pl(n)>0 AND p2(n)= = 0,
18/29
Presencel := gl*Presencel*(1-gl); Presences := g2*Presences; Conflict := g2*Conflict; Silence := g3*Silence;
5 Λ end if p2(n)>0 AND pl (n) = = 0,
Presences : = gl*Presences*· (1-gl) ; Presencel := g2*Presencel; Conflict := g2*Conflict;
10 Silence := g3*Silence; end if pS (n) >0 AND pl(n)>0,
Presencel := gS* Presencel*-(1-gS); Presences := gS* PresenceS+JJL-gS}j __ _ . .
15 Conflict := gl*Conflict+(1-gl); Silence := g3*Silence; end _ _ — — — — - - - ~ “ if pS(n)= = 0 AND pl (n) = = 0,_________
Presencel := g3*Presencel;
20 Presences := g3*Presences; Conflict := g3*Conflict; Silence := g3*Silence+(l-g3); end Conversation(n)=Presencel+Presence2-Conflict-
25 Silence; 2. n:=n+l go to step 1.
A conversação é detectada quando o valor atual de Conversation(n) excede um certo valor de limite. Dessa maneira, o algoritmo avalia a informação ao longo do tempo,
30 porque é voltado para trás, sendo que as variáveis de estado asseguram que o valor atual da variável Conversation seja baseado na avaliação dos quadros de áudio precedentes. Ao mesmo tempo, devido a ser uma determinação de evolução
19/29 contínua de se uma conversação existe, ela é adequada como uma base para um sinal de saída para controlar um dispositivo.
método básico esboçado acima pode ser melhorado 5 de várias maneiras, dependendo dos recursos computacionais disponíveis, entre outros. Por exemplo, adicionalmente ou como uma alternativa para as variáveis de estado Presencel, Presences, Conflict, Silence, podem ser utilizadas variáveis de estado computadas por períodos mais longos de observação 10 (vários quadros de áudio). Estes incluem métricas de informação mútua ou correlação computadas por vários minutos de valores de detecção de atividade de fala em dois ou mais sinais.
Em uma conversação natural, o participante que 15 escuta fornece frequentemente um feedback ao orador sob a forma de expressões vocais curtas (sim, OK, realmente?, Hmm., etcj. Isto é chamado freqüentemente de atividade de fala de canal de fundo. Isto pode ser detectado separadamente dentro dos fluxos 40,41 de informação de áudio de um dos 20 terminais remotos 1,2 e de um usuário de uma das unidades de telefone individuais 12,13 ou da unidade de telefone mestre 8, com base no fato de que estas expressões vocais sao curtas (< 1 S.) e são separadas por silêncios relativamente longos. A detecção da atividade de canal de fundo pode ser utilizada 25 como uma variável de estado adicional, ou pode ser utilizada para modificar, por exemplo, o estado da variável Conflict, sendo que um conflito é detectado somente quando um segmento de tempo da atividade de sobreposição de fala não representa uma atividade de canal de fundo do outro orador.
Uma característica adicional pode ser derivada da estrutura fina temporal de tomada de turno. Por exemplo, a. diferença de tempo entre o ponto no tempo entre o fim de um período 45 de atividade de fala no segundo fluxo 41 da
20/29 informação de áudio e no começo de um período subsequente 44 de atividade de fala no primeiro fluxo 40 da informação de áudio e vice-versa pode ser utilizada como uma medida da qualidade de tomada de turno da conversação. No caso de uma 5 interação tipo conversação, esta diferença de tempo medida sobre várias mudanças de orador possui um valor médio ligeiramente positivo e uma baixa variação comparada à interação não conversacional. No último caso, a diferença de tempo possui um valor médio zero e uma grande variação.
Para melhorar a precisão com que as mudanças de orador são detectadas, a detecção da atividade de fala pode ser aumentada com uma análise dos conteúdos da informação de áudio. Em particular, para os fluxos 40,41 de informação de áudio, a frequência real pode ser analisada. Em muitas 15 línguas, uma frequência real que aumenta antes do fim de uma expressão vocal falada indica uma pergunta ao outro orador. Se isto for seguido pela atividade de fala do outro, possivelmente depois de uma pequena pausa, este tipo de mudança pode ser rotulada como uma estrutura Pergunta2 0 Resposta, que pode ser caracterizada como um aspecto (variável de estado) no modelo de conversação utilizado para detectar interações do tipo conversação.
Observa-se que o algoritmo descrito acima em detalhe é baseado na evolução temporal dinâmica de um número 25 de variáveis de estado determinadas mediante a utilização de integradores de primeira ordem. Vários algoritmos de integração e filtragem lineares e não-lineares diferentes podem ser utilizados como uma alternativa.
Em vez de utilizar uma combinação linear de 30 características para formar a característica Conversation que representa a probabilidade da atividade de conversação, a detecção de uma conversação pode ser baseada em outros modelos além de modelos de detecção linear (ou regressão),
21/29 que inclui vários tipos de métodos de classificação de dados com base em análises discriminantes, máquinas de vetor de suporte e redes neurais.
A característica Conversation pode ser também uma 5 variável da probabilidade contínua com valores em uma escala entre 0 e 1, em vez de ser uma variável binária.
Finalmente, em vez de utilizar parâmetros fixos para a evolução temporal (gl, g2, g3) e lógica da detecção (etapa 2) , podem ser utilizadas técnicas separadas para 10 otimizar os parâmetros para usuários e chamadores diferentes, ou contextos diferentes. Por exemplo, o detector de conversação poderia ser ajustado separadamente para cada par de parceiros de conversação do sistema ou cada usuário local e chamador remoto regular identificado._S imilarmente, _os parâmetros e/ou a lógica de detecção poderiam diferir dependendo de se os sinais que comunicam a informação de áudio que está sendo analisada são, da. primeira^ ou. segunda unidade de telefone individual 12,13 ou da unidade de telefone mestre 8.
Os métodos de detecção de conversação são geralmente um tanto difíceis de implementar em tempo real. Entretanto, em um ambiente mediado tal como um sistema de telecomunicações, sua implementação torna-se praticável a custo computacional mais baixo, porque já é claro de em que 25 cada fluxo da informação de áudio está vindo. Isto é em contraste com um sistema de detecção de conversação entre pessoas em um aposento dotado com microfones, porque todo o som é ali capturado, e deve primeiramente ser atribuído às várias pessoas no aposento.
Geralmente, o sistema telefônico de ambiente no edifício 4 fornece um sistema de entrada/sarda de áudio espacial que pode ser controlado de maneira que um chamador segue o usuário quando o usuário se move de um dos espaços 522/29 para outro. Também é possível ter múltiplas chamadas simultâneas com usuários diferentes no ambiente e também chamadas que são deixadas em abertos ou residentes em posições específicas, mas que não estão ativas. Nos casos em 5 que existem diversos chamadores com quem uma conexão do sistema telefônico de ambiente esteja aberta a qualquer momento determinado, o usuário deve poder sinalizar ao sistema qual chamador estará sendo movido. Por exemplo, se um primeiro usuário está tendo uma conversação com um Chamador A 10 em um primeiro espaço 5 e um segundo usuário está em conversação com um chamador B no mesmo espaço, então, quando o primeiro usuário se move para o segundo espaço 6, o sistema assegura que somente a conexão ao chamador A se mova para o ____espaço_6i.i_Istõ requer o rastreamento„do usuário, mas 15 também uma determinação das conversações ativas nas quais o primeiro usuário está engajado. Esta determinação é realizada --.automaticamente,—conforme explicado abaixo com^referência á
Figura 5. Também existe uma possibilidade de que os chamadores A e B estejam em conversação somente um com o 20 outro. Neste cenário, o sistema pode fechar uma conexão entre o sistema telefônico de ambiente e os terminais remotos 1,2 dos chamadores A e B. O sistema pode também detectar que existe somente uma conversação localmente, isto é, uma conversação entre o primeiro e o segundo usuário que nao 25 envolvem quaisquer chamadores externos.
Com referência à Figura 5, é provido um esboço de um método executado pelo sistema telefônico de ambiente e que envolve várias aplicações de controle exemplificadoras, em particular no contexto da gerência de sessão em um sistema de 30 telefone/videoconferência.
Em uma primeira etapa 46, já detalhada acima, são obtidos os sinais que comunicam informação de pelo menos um dos terminais remotos 1,2 à unidade de telefone mestre 8 do
23/29 sistema telefônico de ambiente no edifício 4. Adicionalmente, as unidades de telefone individuais 12,13 e a unidade de telefone mestre 8 obtêm os sinais que transportam informação de áudio dos usuários. Opcionalmente (Etapa 47) estes sinais 5 locais são segmentados em contribuições de usuários diferentes, conforme explicado.
Então, mediante a utilização, por exemplo, do algoritmo detalhado acima, as conversações são detectadas (etapa 48) pela análise da informação comunicada dos 10 terminais remotos 1,2 e dos terminais locais ao longo do tempo, um em relação ao outro, mediante a utilização de pelo menos um critério para detectar a interação de um tipo que corresponde ao tomada de turno de conversação entre o chamador e o (s) usuário (s) . _
Ao mesmo tempo, os usuários no edifício 4 são rastreados (etapa 49) para determinar em qual dos espaços 5-7 eles, estão localizados atualmente . Em uma_. variação., os usuários são rastreados mediante a utilização de identificadores, por exemplo, identificadores e leitores RFID (Identificação de Radiofreqüência) localizados dentro do edifício 4. No método de acordo com a invenção, os usuários são rastreados mediante a utilização de métodos de localização baseados em áudio, isto é, pela determinação das forças de sinal relativas dos sinais dos microfones 14-16.
Nesta última variação, os usuários não são identificados e dessa maneira rastreados, mas é determinado em que cada participante local das conversações detectadas na etapa paralela 48 está localizado. Outros métodos de rastreamento podem ser utilizados nesta etapa 49, como alternativas ou em 30 combinação.
Caso seja determinado que um usuário local particular não participa de uma conversação detectada, mas apesar disso a informação de áudio é comunicada claramente do
24/29 usuário, então pelo menos um sinal de saída para controlar um dispositivo na dependência da entrada recebida por pelo menos um dispositivo de entrada local pode ser fornecido pela unidade mestre 8 ou por uma das unidades de telefone 5 individuais 12,13. Em particular, a entrada de voz sem a existência de uma conversação pode ser utilizada como uma sugestão para permitir que uma interface de usuário ativada por voz permita ao usuário, por exemplo, configurar uma conexão nova (chamar um terminal remoto particular 1,2), 10 controlar o volume dos alto-falantes 17-19 do dispositivo de entretenimento 25, etc.
Se, por outro lado, for determinado que o usuário participa de uma conversação detectada, então uma identificação associada com o usuárioé comunicada,(etapa 50) 15 através da rede de telecomunicações 3. Esta mensagem é adequadamente uma mensagem sobre uma rede ponto a ponto para . indicar a^disponibilidade_ do usuário_para outras„atividades ou adicionalmente interações do tipo conversação. A mensagem pode incluir uma indicação adicional da posição do usuário 20 conforme determinado na etapa paralela 49. Naturalmente, uma comunicação de status também envolverá, caso seja determinado que o usuário esteja no edifício, mas não seja um participante em qualquer uma das conversações detectadas, a transmissão de uma mensagem que comunica uma identificação 25 associada com o usuário em combinação com uma indicação de que o usuário está disponível para uma interação do tipo conversação. Observa-se que, em que os usuários não sao identificados individualmente, por exemplo, porque apenas um método de localização baseado em áudio está em uso, uma 30 identificação associada com o usuário pode compreender meramente uma identificação do sistema telefônico de ambiente, ou possivelmente uma identificação de um dos terminais locais representados pelas unidades de telefone
25/29 individuais 12,13 e pela unidade de telefone mestre 8.
Especialmente no caso em que uma nova conversação seja detectada, envolvendo uma unidade de telefone individual 12,13 até aqui não utilizada, para uma conversação, por exemplo, com a segunda unidade de telefone 13, pode ser aberta uma ligação de vídeo para o chamador remoto (etapa 51) que fornece um sinal de controle à segunda unidade de telefone 13 e dali à câmera 20 e ao dispositivo de exibição 22 nela anexado. Dessa maneira, por exemplo, os conteúdos do dispositivo de exibição 22 podem mudar de entretenimento para uma imagem dos outros participantes da chamada. A comutação da câmera 20 apenas mediante a detecção de uma conversação entre um ou vários chamadores e um usuário na proximidade da segunda unidade de telefone 13 assegura que as inagens dentro. do edifício 4 não sejam transmitidas permanentemente, mas somente aos terminais remotos quando necessário. O usuário não necessita _entrar _quaisquer comandos, para proporcionar, este efeito, além de meramente se engajar em uma conversação.
Também no caso de uma nova conversação ser detectada, o dispositivo de entretenimento 25, que é disposto para produzir uma saída audível não relacionada com as comunicações em curso, pode estar mudo (etapa 52) , ou pelo menos o volume de saída audível pode ser reduzido automaticamente, mediante o fornecimento do sinal de saída apropriado para controlar o dispositivo de entretenimento 25. Com respeito a isto, desligar totalmente o dispositivo de entretenimento 25 é considerado também como um ajuste no volume.
Na realização ilustrada, a detecção de uma conversação entre um chamador que utiliza um dos terminais remotos 1, 2 e um usuário local determinado como presente no ambiente de uma das unidades de telefone 12, 13 é utilizado para selecionar uma unidade de telefone (etapa 53) na qual o
26/29 sinal de áudio proveniente de um dos terminais remotos 1, 2 deve ser reproduzido, e para fazer com que a informação de áudio cesse de ser reproduzida pelas outras unidades de telefone 8, 12, 13. Dessa maneira, em que previamente uma 5 conexão estava aberta para todas as unidades de telefone 8, 12, 13, a detecção de uma conversação entre um usuário próximo de uma delas e um chamador remoto fará com que a informação de áudio comunicada do terminal remoto particular 1, 2 em uso pelo chamador remoto seja reproduzido em um subconjunto selecionado de dispositivos de saída locais (isto é alto-falantes 17-19), que podem ser somente um dispositivo de saída. Similarmente, mediante a detecção de que o usuário local está comunicando informação a partir de menos do que todos os dispositivos de entrada (isto é jmicrofones JL4^16j ,_ _ 1ÈT Inediãnte a determinação da posição do usuário ou pela monitoração das forças relativas e/ou os conteúdos dos sinais de áudio destes dispositivos, éajustada^ uma seleção^ dos. microfones 14-16 a partir dos quais a informação é comunicada
---------ao terminal remoto 1, 2 em uso pelo chamador. O chamador 20 remoto será dessa maneira dotado com uma informação de áudio mais claramente inteligível.
Observa-se que o sistema telefônico de ambiente também analisa a informação comunicada de dois terminais remotos 1, 2, um com relação ao outro, mediante a utilização 25 de pelo menos um critério para detectar a interação de um tipo que corresponde ao tomada de turno de conversação entre os usuários dos terminais remotos. Pode acontecer que esta análise produza a conclusão de que existe uma conversação ativa entre os usuários dos terminais remotos 1,2 que nao envolve nenhum usuário no edifício 4. Nesse caso, a unidade de telefone mestre 8 transmite (etapa 54) uma mensagem aos terminais remotos 1, 2, informando-os das identidades dos chamadores e/ou de seus terminais de telecomunicação e
27/29 indicando que uma conversação direta é possível. Esta mensagem pode, por exemplo, estar de acordo com o protocolo SIP (Protocolo de Iniciação de Sessão) . Se e quando os chamadores que utilizam os terminais remotos 1, 2 aceitarem a 5 mensagem, uma nova chamada entre os chamadores que utilizam os terminais remotos 1, 2 é estabelecida, a qual já não é mais retransmitida através da unidade de telefone mestre 8 no edifício 4. Dessa maneira, mediante a detecção de que pelo menos um critério para detectar a interação tipo conversação 10 foi satisfeito com respeito aos usuários de um conjunto de terminais de telecomunicação que compreende somente os terminais remotos 1, 2, a unidade de telefone mestre 8 fornece pelo menos um sinal que identifica o conjunto dos terminais remotos 1, 2 para estabelecer uma conexão direta 15 entre somente os terminais remotos 1, 2 que formam o conjunto. No presente exemplo os sinais sao enviados para aqueles, terminais, mas em uma outra realização um sinal pode ser enviado a algum tipo de conexão de controle de permits sobre a rede 3.
~ Caso um usuário se mova dentro do edifício 4, isto é detectado (etapa 49) . É conhecido em quais interações de tipo conversação que um usuário particular está engajado (etapa 48). Tendo sido detectado em quais interações do tipo conversação o usuário está participando, e em particular com 25 usuários de quais terminais remotos 1, 2, é executada uma etapa 55 de selecionar para qual unidade de telefone 8, 12, 13 mover o chamador externo. Esta etapa 55 é similar a etapa correspondente 53 executada mediante a detecção de uma nova conversação. Em particular, é ajustada uma seleção dos 30 dispositivos de entrada locais (isto é microfones 14-16) a partir dos quais a informação é comunicada ao referido terminal remoto 1, 2.
Após a determinação de qual a mais apropriada
28/29 dentre as unidades de telefone 8, 12, 13 que o usuário deve utilizar após sua mudança de posição, o chamador externo é movido 56. O que significa dizer que, mediante a detecção de que já não existe uma conversação em uma primeira dentre as unidades de telefone 8, 12, 13, entre um usuário local e um usuário particular de um dos terminais remotos 1, 2, a informação desse terminal remoto particular cessa de ser reproduzida em uma primeira dentre as unidades de telefone 8, 12, 13. Isto ocasiona o início da reprodução em uma unidade diferente dentre as unidades de telefone 8, 12, 13 mediante o acompanhamento da localização do usuário.
Além disso, os dispositivos externos na vizinhança da nova unidade de telefone 8, 12, 13 são controlados mediante a detecção de que a interação tipo conversação se moveu com o usuário para a nova unidade de telefone. Em particular, o dispositivo de entretenimento 2 5 pode ser silenciado, uma ligação de vídeo pode ser aberta, e o dispositivo de iluminação 24 pode ser controlado para iluminar o ambiente da segunda unidade dê“ telefone 13~ a~finrde melhorar a qualidade da imagem ‘fornecida através da ligação de vídeo, ou em todo caso para enfatizar quem é o orador.
Todos os ajustes acima mencionados são feitos, e certamente tornados possíveis, mediante a detecção da interação tipo conversação entre um usuário de um dos terminais remotos 1, 2 e um usuário local. Entradas adicionais do usuário que utiliza painéis de controle ou unidades de controle remoto, em princípio não são requeridas.
Deve-se notar que as realizações acima mencionadas ilustram, em vez de limitar, a invenção, e que técnicos no assunto poderão projetar muitas realizações alternativas sem se afastar do âmbito das reivindicações anexadas. Nas reivindicações, quaisquer sinais de referência colocados
29/29 entre parênteses não serão interpretados como uma limitação da reivindicação. A palavra que compreende não exclui a presença de elementos ou de etapas diferentes daquelas listadas em uma reivindicação. A palavra a ou um que precede um elemento não exclui a presença de uma pluralidade de tais elementos. O mero fato de que determinadas medições estão relatadas em reivindicações diferentes mutuamente dependentes não indica que uma combinação destas medições não possa ser utilizada como vantagem.
Por exemplo, em vez de utilizar as unidades de telefone individuais 12, 13, um sistema de telefonia de ambiente pode ser implementado com apenas um terminal que faça interface com os microfones e os alto-falantes distribuídos no edifício 4.
Embora o método de detecção de conversações tenha sido explicado com a utilização de um exemplo no qual a atividade de fala é detectada, uma análise com base no conteúdo pode ser utilizada adicionalmente ou como uma alternativa para detectar a presença de fala. Além disso, em que uma ligação de vídeo é fornecida, pode ser utilizada a análise vídeo com relação aos sinais de áudio e/ou vídeo para determinar a ocorrência de uma interação tipo conversação. Por exemplo, uma falta de movimento, ou a detecção de uma pose de escuta em uma imagem de vídeo de um usuário remoto enquanto a informação de áudio está sendo comunicada de um usuário local será um bom indicador da interação tipo conversação. Similarmente, os períodos de falta do movimento ou uma pose de escuta intercalada com períodos de movimento ativo do corpo podem também ser uma boa indicação da interação tipo conversação. Métodos similares podem ser utilizados para distinguir entre diferentes interações do tipo conversação em que fluxos de postagens para os ambientes de quadro branco estão sendo analisados.

Claims (12)

1. MÉTODO PARA CONTROLAR PELO MENOS UM DISPOSITIVO QUE UTILIZA UM SISTEMA DE TELECOMUNICAÇÕES, incluindo:
- a obtenção dos sinais que comunicam a informação 5 de pelo menos um terminal de telecomunicação remoto (1, 2) e de uma pluralidade de dispositivos de entrada locais (14-16) para formar pelo menos um terminal de telecomunicação local com pelo menos um dispositivo de saída local (17-19), e uma conexão é aberta entre os terminais de telecomunicações 10 remotos e locais, caracterizado pelo fato de:
- análise da informação (40,41) comunicada de pelo menos dois dos terminais de telecomunicação (1, 2, 8, 12, 13) ao longo do tempo, um com relação ao outro, mediante a utilização de pelo menos um critério para detectar a 15 interação de um tipo que corresponde ao tomada de turno de conversação entre os usuários dos respectivos terminais de telecomunicação (1, 2, 8, 12, 13);
com a detecção de uma interação de um tipo que corresponde a uma conversação entre um usuário local que 20 comunica uma informação de menos que todos dentre uma pluralidade de dispositivos de entrada locais (14-16) e um usuário de qualquer terminal de telecomunicação remoto (1,2), mediante a dedução da posição do usuário local com base em posições conhecidas desses dispositivos de entrada locais 25 (14-16); e
- o ajuste de pelo menos um sinal de saída para controlar um dispositivo (8, 12, 13, 20-25) mediante a determinação se pelo menos um critério foi satisfeito.
2. MÉTODO, de acordo com a reivindicação 1, 30 caracterizado pelo fato de incluir a análise da informação de áudio comunicada de pelo menos dois dos terminais de telecomunicação (1, 2, 8, 12, 13) ao longo do tempo, um com relação ao outro.
2/4
3. MÉTODO, de acordo com a reivindicação 2, caracterizado pelo fato de incluir o estabelecimento de uma ligação de vídeo entre os terminais de telecomunicação (1, 2, 8, 12, 13) mediante a detecção da interação de um tipo que 5 corresponde ao tomada de turno de conversação entre seus * respectivos usuários.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de ser fornecido um sinal de saída a pelo menos um dispositivo (25) para produzir uma saída 10 audível, em que o sinal de saída causa um ajuste no volume da saída audível.
5. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de incluir, mediante a determinação de que pelo menos um critério não foi satisfeito com respeijto 15 à pelo menos um usuário dos terminais de telecomunicação locais e a um usuário de um terminal particular dentre os terminais de telecomunicação remotos (1, 2), fazendo com que a informação do terminal de telecomunicação remoto particular (1, 2) cesse de ser reproduzida por pelo menos um dispositivo 20 de saída local (17-19).
6. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de incluir, mediante a determinação de que pelo menos um critério não foi satisfeito com respeito a um usuário em uma posição particular com relação a uma 25 pluralidade de dispositivos de entrada locais (14-16) e dispositivos de saída locais (17-19) e um usuário de um terminal de telecomunicação remoto particular (1, 2), fazendo com que a informação comunicada do terminal de telecomunicação remoto particular (1, 2) seja reproduzida em 30 um subconjunto selecionado dos dispositivos de saída locais (17-19) .
7. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de incluir, mediante a determinação
2/4 de que pelo menos um critério não foi satisfeito com respeito à pelo menos um usuário particular de pelo menos um terminal de telecomunicação local, mediante o ajuste de pelo menos um sinal de saída para controlar, um dispositivo na dependência 5 da entrada recebida por pelo menos um dispositivo de entrada local (14-16) .
8. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de incluir, mediante a determinação de que pelo menos um critério não foi satisfeito com respeito 10 a um usuário dos terminais de telecomunicação (1, 2, 8, 12, 13) , a comunicação de uma identificação associada com o usuário com um indicador de status através de uma rede de comunicações (3).
9, MÉTODO, de acordo com a reivindicação 1, 15 caracterizado pelo fato de incluir, mediante a detecção de uma interação de um tipo que corresponde a uma conversação entre umusuário local que comunica uma informação de menos que todos dentre uma pluralidade de dispositivos de entrada locais (14-16) e um usuário de um terminal de telecomunicação 2 0 remoto particular (1, 2) , mediante o ajuste de uma seleção dos dispositivos de entrada locais (14-16) a partir dos quais a informação é comunicada ao terminal de telecomunicação remoto particular (1, 2).
10. MÉTODO, de acordo com a reivindicação 1, 25 caracterizado pelo fato de incluir:
a detecção que pelo menos um critério foi satisfeito com respeito aos usuários de um conjunto composto somente de terminais de telecomunicação remotos (1, 2) e a provisão de pelo menos um sinal para 30 identificar o conjunto de terminais remotos (1, 2) a um sistema para estabelecer uma conexão direta entre somente os terminais remotos (1, 2) que formam o conjunto.
11. SISTEMA DE TELECOMUNICAÇÕES, caracterizado pelo
4/4 fato de incluir:
- um dispositivo (8) para estabelecer uma conexão sobre uma rede de telecomunicações (3) entre pelo menos um terminal de telecomunicação remoto (1, 2) e um conjunto de pelo menos um dispositivo de entrada local (14-16) e de pelo menos um dispositivo de saída local (17-19) para formar pelo menos um terminal de telecomunicação local;
- um sistema de processamento de sinais (8, 12, 13) para processar os sinais que comunicam informação de pelo menos dois dos terminais de telecomunicações (1, 2, 8, 12, 13) entre os quais está aberta uma conexão, em que o sistema de processamento de sinais é posicionado para analisar a informação (40, 41) comunicada de pelo menos dois terminais de telecomunicação (1,2, 8, 12, 13) ao longo do tempo, um com relação ao outro, mediante a utilização de pelo menos um critério para detectar a interação de um tipo que corresponde a tomada de_ turno de conversação entre os usuários dos respectivos terminais de telecomunicação (1, 2, 8, 12, 13); e
- uma interface (32) para fornecer um sinal de saída para controlar pelo menos um dispositivo (8, 12, 13, 20-25), em que o sistema é configurado, mediante a determinação se pelo menos um critério foi satisfeito para ajustar o sinal de saída na dependência do resultado da determinação, em que o sistema de telecomunicações é configurado para executar um método conforme definido nas reivindicações de 1 a 10.
12. PROGRAMA DE COMPUTADOR, caracterizado pelo fato de compreender um conjunto de instruções que pode, quando incorporado em um dispositivo que pode ser lido por máquina, fazer com que um sistema que tem capacidades de processamento de informação execute um método conforme definido nas reivindicações de 1 a 10.
BRPI0913549-9A 2008-09-18 2009-09-09 Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador BRPI0913549A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08164553.3 2008-09-18
EP08164553 2008-09-18
PCT/IB2009/053937 WO2010032164A1 (en) 2008-09-18 2009-09-09 Conversation detection in an ambient telephony system

Publications (1)

Publication Number Publication Date
BRPI0913549A2 true BRPI0913549A2 (pt) 2020-05-26

Family

ID=41394936

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0913549-9A BRPI0913549A2 (pt) 2008-09-18 2009-09-09 Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador

Country Status (6)

Country Link
US (1) US9661139B2 (pt)
EP (1) EP2342867A1 (pt)
JP (1) JP5526134B2 (pt)
CN (1) CN102160335B (pt)
BR (1) BRPI0913549A2 (pt)
WO (1) WO2010032164A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014209262A1 (en) * 2013-06-24 2014-12-31 Intel Corporation Speech detection based upon facial movements
US10141011B2 (en) * 2014-04-21 2018-11-27 Avaya Inc. Conversation quality analysis
US9722965B2 (en) 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3301896B1 (en) * 2016-09-28 2019-07-24 British Telecommunications public limited company Streamed communication
CN108271202B (zh) * 2016-12-30 2022-05-10 亿阳信通股份有限公司 一种基于短频话单数据定位网络故障的方法和装置
US10522147B2 (en) * 2017-12-21 2019-12-31 Motorola Solutions, Inc. Device and method for generating text representative of lip movement
KR102168802B1 (ko) * 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법
JP7240596B2 (ja) * 2019-02-26 2023-03-16 京セラドキュメントソリューションズ株式会社 会話分析装置および会話分析システム
US20240155056A1 (en) * 2022-11-08 2024-05-09 Bite Ninja, Inc. Shared resource allocation for multiple queue processing

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427003B1 (en) * 2000-05-05 2002-07-30 Joseph C. Corbett Video caller identification systems and methods
JP2828086B2 (ja) * 1997-01-14 1998-11-25 日本電気株式会社 多地点テレビ会議システム
US6327567B1 (en) 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
WO2001050290A1 (en) 1999-12-30 2001-07-12 Sony Electronics, Inc. A resource manager for providing user-dependent access control
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6329908B1 (en) 2000-06-23 2001-12-11 Armstrong World Industries, Inc. Addressable speaker system
US6766019B1 (en) * 2000-07-21 2004-07-20 Agere Systems Inc. Method and apparatus for performing double-talk detection in acoustic echo cancellation
WO2002049298A1 (en) * 2000-12-14 2002-06-20 Powerhouse Technology, Inc. Circuit switched cellulat network to internet calling
US7231208B2 (en) * 2001-10-17 2007-06-12 Palm, Inc. User interface-technique for managing an active call
US20030210770A1 (en) * 2002-05-10 2003-11-13 Brian Krejcarek Method and apparatus for peer-to-peer voice communication using voice recognition and proper noun identification
US7162256B2 (en) * 2003-09-30 2007-01-09 Avaya Technology Corp. Presence-based telecommunications system
US7933226B2 (en) * 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US20050091693A1 (en) * 2003-10-22 2005-04-28 Rochelle Communications, Inc. Dual mode set-top box that optimizes the delivery and user selection of audio or video programming over data networks
US8315865B2 (en) 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
US20070121606A1 (en) * 2005-11-03 2007-05-31 Fun Racquets, Inc. VOIP Hub Using Existing Audio or Video Systems
US7716048B2 (en) 2006-01-25 2010-05-11 Nice Systems, Ltd. Method and apparatus for segmentation of audio interactions
CN101043759B (zh) 2006-03-24 2010-12-08 华为技术有限公司 一种通过话带数据vbd方式实现数据业务的方法及其系统
US20070287474A1 (en) * 2006-03-28 2007-12-13 Clarity Communication Systems, Inc. Method and system for location based communication service
US7899437B2 (en) * 2006-06-13 2011-03-01 Telemergency Systems Llc Speakerphone control techniques and emergency call systems
US8042961B2 (en) * 2007-12-02 2011-10-25 Andrew Massara Audio lamp

Also Published As

Publication number Publication date
WO2010032164A1 (en) 2010-03-25
CN102160335A (zh) 2011-08-17
CN102160335B (zh) 2015-01-28
US9661139B2 (en) 2017-05-23
JP5526134B2 (ja) 2014-06-18
EP2342867A1 (en) 2011-07-13
US20110164742A1 (en) 2011-07-07
JP2012503400A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
BRPI0913549A2 (pt) Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador
US8731940B2 (en) Method of controlling a system and signal processing system
CN114616606A (zh) 具有改进的目的地回放的多设备会议
US8295462B2 (en) Alerting a participant when a topic of interest is being discussed and/or a speaker of interest is speaking during a conference call
US8817061B2 (en) Recognition of human gestures by a mobile phone
US10574804B2 (en) Automatic volume control of a voice signal provided to a captioning communication service
US20140329511A1 (en) Audio conferencing
CN101371244A (zh) 在启用网络的会议中对发言者分类
US10009475B2 (en) Perceptually continuous mixing in a teleconference
USRE49462E1 (en) Adaptive noise cancellation for multiple audio endpoints in a shared space
US9135928B2 (en) Audio transmission channel quality assessment
US20020197967A1 (en) Communication system with system components for ascertaining the authorship of a communication contribution
US8379800B2 (en) Conference signal anomaly detection
CN108540680A (zh) 讲话状态的切换方法及装置、通话系统
EP4659435A1 (en) Proximity-based audio conferencing
JP2019176386A (ja) 通信端末及び会議システム
US20080059161A1 (en) Adaptive Comfort Noise Generation
TWI801085B (zh) 智能網路通訊之雜訊消減方法
CN112511785A (zh) 一种发言方的切换方法、装置、终端设备和存储介质
Albrecht et al. Continuous Mobile Communication with Acoustic Co-Location Detection

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B25D Requested change of name of applicant approved

Owner name: KONINKLIJKE PHILIPS N.V. (NL)

B25G Requested change of headquarter approved

Owner name: KONINKLIJKE PHILIPS N.V. (NL)

B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: B32B 7/06 , B32B 27/32 , B32B 27/34

Ipc: H04M 1/60 (2006.01), H04M 3/56 (2006.01), H04L 29/

B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements
B11N Dismissal: publication cancelled [chapter 11.14 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 11.2 NA RPI NO 2603 DE 24/11/2020 POR TER SIDO INDEVIDA.

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]

Free format text: MANTIDO O INDEFERIMENTO UMA VEZ QUE NAO FOI APRESENTADO RECURSO DENTRO DO PRAZO LEGAL