BRPI0812652B1 - Método e sistema para avaliar automaticamente um diálogo - Google Patents

Método e sistema para avaliar automaticamente um diálogo Download PDF

Info

Publication number
BRPI0812652B1
BRPI0812652B1 BRPI0812652-6A BRPI0812652A BRPI0812652B1 BR PI0812652 B1 BRPI0812652 B1 BR PI0812652B1 BR PI0812652 A BRPI0812652 A BR PI0812652A BR PI0812652 B1 BRPI0812652 B1 BR PI0812652B1
Authority
BR
Brazil
Prior art keywords
dialogue
people
person
eyes
interaction
Prior art date
Application number
BRPI0812652-6A
Other languages
English (en)
Inventor
Philippe Hamel
Jean-Paul Audrain
Pierre-Sylvain Luquet
Eric Faurot
Original Assignee
Zero To One Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zero To One Technology filed Critical Zero To One Technology
Publication of BRPI0812652A2 publication Critical patent/BRPI0812652A2/pt
Publication of BRPI0812652B1 publication Critical patent/BRPI0812652B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

método e sistema para avaliar automaticamente um diálogo a presente invenção refere-se a um método para avaliar eletronicamente um diálogo entre pelo menos duas pessoas, o qual compreende as etapas de recepção dos dados de áudio, análise dos dados de áudio para determinar a divisão das expressões vocais de pelo menos duas pessoas no decorrer do diálogo, e comparação dos resultados da etapa de análise com os padrões de comunicação predeterminados .

Description

MÉTODO E SISTEMA PARA AVALIAR AUTOMATICAMENTE UM DIÁLOGO
A presente invenção refere-se a métodos para analisar eletronicamente um diálogo sistemas correspondentes para a prática dos métodos.
Tal método é conhecido a partir do documento de patente US2003/0097268, que apresenta um sistema e um método para analisar e avaliar os sinais do comportamento humano. O 10 método descrito encontra sua aplicação no campo da medicina, em particular na análise das entrevistas de pacientes psiquiátricos. Para isso, a saida auditiva e visual originada de um paciente é registrada e, utilizando um dispositivo de computador de diagnóstico, uma informação de tratamento ou os prognósticos são encaminhados para dar suporte ao trabalho de um médico.
No entanto, o método conhecido não é aplicável às situações em que não somente uma pessoa, tal como um paciente, tem de ser analisada, mas em que mais de urna pessoa interfere. Tal situação, por exemplo, ocorre ao analisar uma conversação de vendas ou uma entrevista de trabalho. Até agora, uma câmera era normalmente utilizada para filmar uma conversação ou uma entrevista a fim de dar suporte a uma análise. Um filme gravado era então visto por um usuário, por exemplo, um professor de um seminário de vendas, e revisto e discutido com os participantes do diálogo. Durante a discussão, o usuário indicava os pontos fortes e fracos dos participantes individuais a respeito de seu comportamento com relação à outra pessoa que participava da discussão ou da entrevista.
Uma vez que cada participante é filmado por aproximadamente trinta minutos, o analisador teria de passar . muito tempo assistindo aos filmes de cada participante, e o
Petição 870190124946, de 28/11/2019, pág. 7/17
2/40 tempo reservado para explicar como os participantes poderiam melhorar as suas técnicas comerciais ou aprimorar as suas chances de contratação seria relativamente curto.
Portanto, um objetivo da presente invenção consiste 5 na apresentação de um método e um dispositivo que dê suporte de modo automático à análise de um diálogo.
Este objetivo é atingido com as características do método de acordo com a reivindicação 1. Um diálogo entre uma ou mais pessoas compreende um padrão de comunicação 10 identificável diferente que pode - da perspectiva de uma pessoa (identificada a seguir como primeira pessoa) - ser identificado como escutando, reformulando, reagindo, expressando e em silêncio. Cada padrao de comunicação é caracterizado pela maneira como as expressões vocais das 15 pessoas que estão dialogando são distribuídas entre elas:
- escutando: a primeira pessoa fica em silêncio enquanto a outra fala,
- reformulando: a outra pessoa é a que mais fala, ao passo que a primeira pessoa intervém brevemente de tempo em tempo,
- reagindo: a primeira pessoa está falando, mas a outra pessoa interrompe para intervir,
- expressando: a primeira pessoa é a que mais fala, ao passo que a primeira pessoa intervém brevemente de k'25 tempo em tempo,
- em silêncio: ninguém está falando.
Γ Ao analisar os dados de áudio recebidos de modo que a divisão das expressões vocais seja extraída eletronicamente dos dados recebidos, os vários padrões de comunicação verbal 30 de um diálogo podem ser automaticamente identificados e encaminhados a um usuário de um sistema que realiza o método de acordo com a invenção. Com base nessa informação adicional extraída a respeito do diálogo, uma avaliação do diálogo
3/40 capturado pode ser feita e podem ser apontados especialmente os padrões de comunicação que não são utilizados, que não são suficientemente utilizados ou não são muito utilizados pela(s) pessoa(s) que participa(m) do diálogo.
Neste contexto e por todo o pedido de patente, o termo avaliando eletronicamente refere-se a extrair automaticamente as propriedades das interações que ocorrem durante o diálogo ao utilizar meios eletrônicos. Desse modo, a extração não é baseada em uma análise manual ao 10 simplesmente ouvir novamente as expressões vocais dos participantes.
O objetivo da invenção também é atingido com o método de acordo com a reivindicação 2 e que também se refere a um método para avaliar automaticamente, em particular 15 eletronicamente, um diálogo entre pelo menos duas pessoas, o qual compreende as etapas de a) recepção dos dados de áudio que compreendem um diálogo entre pelo menos duas pessoas, e
d) identificação das fases de interação predeterminadas no decorrer do diálogo com base em um valor médio de movimento 20 do tempo de fala de uma pessoa que participa do diálogo.
Os diálogos comerciais, em particular as conversações de vendas, compreendem fases de interação típicas, a saber, no começo há uma fase de apresentação e no final as conclusões. Entre essas fases, há uma fase de ‘25 descoberta das necessidades, durante a qual o profissional de vendas está escutando o comprador; uma fase de argumentação, durante a qual o profissional de vendas fala predominantemente para apresentar o produto e responder à fase de objeções, que pode ocorrer, durante a qual o 30 comprador faz objeções a respeito do produto proposto e o comprador apresenta os seus argumentos. Dependendo do contexto, o diálogo pode compreender todas essas fases ou
4/40 somente algumas delas. Essas fases serão explicadas mais detalhadamente a seguir.
Com esta etapa adicional, o método confere automaticamente ao usuário informação suplementar, em 5 particular as fases de interação que estão presentes ou não e/ou qual a duração dessas fases em relação ao diálogo total. Esta é uma informação importante, que pode ser utilizada para treinar a(s) pessoa(s) que participa(m) do diálogo para que melhore(m) as técnicas de vendas ou suas possibilidades de 10 contratação. A média de movimento do tempo de fala de uma pessoa que fala é um parâmetro apropriado e confiável para identificar automaticamente as várias fases de acordo com a invenção, e é uma indicação sobre quem fala mais, o que por sua vez é uma indicação sobre a fase atual do diálogo. Além 15 disso, essa análise pode ser realizada durante o diálogo e, portanto, propicia resultados rápidos.
De acordo com uma realização preferida, os dois métodos descritos acima podem ser combinados; desse modo, uma informação valiosa sobre a qualidade do diálogo e as 20 habilidades de comunicação das pessoas pode ser automaticamente extraída de um conjunto de dados de áudio. Naturalmente, a média de movimento do tempo de fala poderia ser obtida sem a distribuição das expressões vocais.
Vantajosamente, a identificação pode ser baseada na ‘25 detecção de pelo menos uma transição de uma fase de interação para outra, sendo que uma transição é detectada ao determinar um primeiro momento em que o valor médio de movimento ultrapassa um primeiro valor limite e um segundo momento em que o valor médio de movimento ultrapassa um segundo limite 30 que indica a presença de uma transição no segundo momento. A passagem de um primeiro limite confirma a presença de uma determinada fase. Ao prover um segundo limite, indicando que a distribuição das expressões vocais irá mudar e que também
5/40 precisa ser ultrapassado, o método conclui que a fase identificada no primeiro momento termina no segundo momento. Esta maneira de proceder estabiliza a análise e a detecção das fases de interação diferentes.
Preferivelmente, o primeiro limite pode estar em uma faixa de 60 a 80%, e em particular de 65%, para fases durante as quais uma pessoa fala mais do que a outra, e estar em uma faixa de 20% a 40%, e em particular de 35%, para fases em que uma pessoa fala menos do que a outra, e o segundo 10 limite estar em uma faixa de 45 a 55%, e em particular de 50%. Para esses limites, a determinação da transição de uma fase à seguinte é estável.
Vantajosamente, o valor médio pode ser calculado em relação a uma duração de tempo de aproximadamente 3% a 10% da 15 duração total do diálogo, e em particular 5% da duração total. Esses valores conferem uma determinação estável para a identificação da transição de uma fase à seguinte.
Vantajosamente, os métodos acima descritos podem compreender adicionalmente uma etapa de e) determinação se a 20 duração das fases de interação está dentro dos intervalos de tempo predeterminados. O método, portanto, permite não apenas uma medição automática qualitativa da qualidade de um diálogo, mas também uma medição quantitativa, permitindo que a pessoa que analisa o diálogo aponte as fases que duraram *-25 mais ou não foram suficientemente longas.
De acordo com uma realização preferida, a etapa b) do método da invenção pode compreender adicionalmente a análise dos dados de áudio para identificar palavras predeterminadas nas expressões vocais de pelo menos duas 30 pessoas, em particular somente na expressão vocal de uma pessoa predeterminada. Esta informação adicional melhora ainda a qualidade da avaliação do diálogo gerada automaticamente. A presença de um vocabulário específico
6/40 indica imediatamente se a pessoa está utilizando o vocabulário adequado à situação. Por exemplo, no caso em que um profissional de vendas vende um produto novo, as palavras predeterminadas normalmente se referem a esse produto; por exemplo, o nome comercial, as propriedades especiais e/ou as vantagens. No caso de avaliar a capacidade de vendas de um profissional de vendas, pode ser suficiente analisar somente as expressões vocais só dessa pessoa do diálogo.
Preferivelmente, o método pode compreender adicionalmente uma etapa f) de análise, em particular de contar, da ocorrência de palavras predeterminadas na fase identificada ou na fase de mais interação, respectivamente. Na conversação de vendas acima mencionada, o vocabulário específico a respeito do produto a ser vendido deve aparecer predominantemente nas fases de argumentação e de resposta às objeções. Se este não for o caso, o diálogo não está bem organizado pelo profissional de vendas. Esta informação importante é fornecida automaticamente pelo método da invenção e, desse modo, dá mais suporte ao usuário do sistema na avaliação dos diálogos.
Vantajosamente, os dados de áudio podem compreender uma pluralidade de fluxos de dados de diferentes microfones, e em particular cada microfone pode ser atribuído a somente uma pessoa dentre pelo menos duas pessoas e pode ser configurado de maneira tal que a intensidade do sinal da uma pessoa, ao falar, seja maior do que a intensidade do sinal das demais pessoas. A provisão de mais de um microfone facilita a determinação da divisão das expressões vocais, pois, para identificar quem está falando atualmente, é suficiente analisar a intensidade do sinal das fluxos de dados de áudio ao assumir que a intensidade do sinal excede um determinado limite quando a pessoa mais próxima do
7/40 microfone está falando, e que o ruído e o sinal provenientes da/s outra/s pessoa/s na soma não excedem esse limite.
Preferivelmente, o método da invenção pode compreender adicionalmente uma etapa g) de recepção dos dados de vídeo que mostram pelo menos duas pessoas pelo menos parcialmente, e uma etapa h) de análise dos dados de vídeo para determinar se ocorre uma interação visual entre pelo menos duas pessoas. Pelo termo interação visual deve ser compreendido que pelo menos uma das pessoas que participa do diálogo olha para uma outra pessoa. Desse modo, a avaliação do diálogo não é apenas baseada na interação entre as pessoas nos dados de áudio, mas, além disso, na interação visual entre pelo menos duas pessoas, o que também é determinado automaticamente, em particular eletronicamente, utilizando os dados de vídeo. Desse modo, o usuário obtém um conjunto de dados mais completo para avaliar o diálogo.
O objetivo da invenção também é atingido com o método de acordo com a reivindicação 11. Não é apenas a análise dos dados de áudio que dá suporte a uma pessoa em sua análise de diálogos, mas também os próprios dados de vídeo fornecem uma informação valiosa sobre o comportamento correto das pessoas durante um diálogo, tal como uma conversação de vendas. A determinação automática e eletrônica de uma presença ou de uma ausência em uma interação visual pode dar suporte ao usuário, pois a interação visual fornece informações sobre canais de comunicação não verbais, e em particular indica o interesse da uma pessoa pelas declarações de outra pessoa ou se uma pessoa pode atrair a intenção da outra pessoa.
Preferivelmente, nos métodos acima descritos, a etapa h) pode compreender adicionalmente a determinação se pelo menos duas pessoas se olham ao detectar a posição da íris de pelo menos duas pessoas. Uma situação onde uma pessoa
8/40 olha para a outra é definida a seguir como focalização, e descreve um estado em que o fluxo de informação verbal de uma pessoa para a outra é sustentado pela interação não-verbal. Portanto, o usuário obtém uma análise mais detalhada do 5 diálogo no caso em que esse tipo de interação é provido. Em uma conversação de vendas, a informação importante a respeito da focalização é a) quanto tempo o profissional de vendas olha para o comprador, b) quanto tempo o comprador olha para o profissional de vendas, e c) quanto tempo elas olham uma 10 para a outra. Quando o protagonista se comporta da mesma maneira a respeito da focalização, é considerado que ambos estão em um estado sincronizado.
Vantajosamente, os métodos acima descritos podem compreender adicionalmente uma etapa i) de análise dos 15 micromovimentos dos olhos de pelo menos duas pessoas para determinar se a direção dos micromovimentos dos olhos está no mesmo modo. Os micromovimentos desempenham um papel importante quando uma falta de focalização é observada. É sabido que os micromovimentos dos olhos existem e que 20 fornecem informações sobre a percepção de uma pessoa. Além disso, também é sabido que uma sincronização dos micromovimentos entre duas pessoas durante o diálogo é possível e vantajosa para o resultado de uma conversação. A detecção automática e eletrônica dos micromovimentos dos u-25 olhos dos participantes de um diálogo e a determinação se os modos estão sincronizados fornece ao usuário do método um parâmetro adicional, que ele pode explorar em sua avaliação. Por exemplo, na ausência de uma sincronização durante uma conversação de vendas, o usuário do método, por exemplo, um 3 0 professor em um seminário, pode apontar esse fato e indicar que o vendedor não utiliza uma ferramenta de comunicação possível. Neste contexto, os micromovimentos significam o movimento da íris em uma das seis direções dos olhos a
9/40 seguir: esquerda superior, direita superior, esquerda, direita, esquerda inferior e direita inferior.
De acordo com uma realização preferida, os métodos acima descritos podem compreender a determinação se a direção 5 dos micromovimentos dos olhos está no mesmo modo em pelo menos uma fase de interação predeterminada. Durante uma conversação de vendas, nem todas as fases diferentes têm a mesma importância no que diz respeito ao sucesso da negociação; desse modo, uma vez que fases de interação 10 diferentes tenham sido identificadas com o fluxo de dados de áudio, torna-se possível relacionar os períodos sincronizados - em relação à sincronização por focalização e do mesmo modo aos micromovimentos - e não sincronizados dessas fases. Desse modo, torna-se possível fornecer ao usuário ainda mais dados 15 sobre o diálogo.
Preferivelmente, a etapa h) pode compreender as etapas de h_l) identificação das características visuais em uma imagem dos dados de vídeo para determinar a zona da imagem que mostra pelo menos uma parte da face de pelo menos
0 uma das duas pessoas, e h_2) isolamento das faixas, em particular faixas verticais, na zona, e h_3) identificação das zonas dos olhos nas faixas. Ao dividir a etapa de analise em três etapas distintas, o processo de determinação que ocorre uma interação visual entre pelo menos duas pessoas “25 pode ser executado de uma maneira confiável e rápida.
Preferivelmente, as imagens mostram ambos os olhos de pelo menos uma pessoa.
De acordo com a invenção, é apresentado um método em que uma maneira simples, mas confiável, permite a
0 identificação de uma zona dos olhos nos dados de vídeo com base na divisão da análise em uma pluralidade de etapas diferentes. Este método compreende as etapas de h_l) identificação das características visuais em uma imagem dos
10/40 dados de vídeo para determinar a zona da imagem que mostra pelo menos uma parte da face de pelo menos uma das duas pessoas, e h_2) isolamento das faixas, em particular as faixas verticais, na zona, e h_3) identificação das zonas dos 5 olhos nas faixas.
Preferivelmente, a etapa h_l) dos métodos previamente descritos pode compreender a determinação de pelo menos uma zona da imagem que tem a cor da pele e a escolha da maior zona dentre as zonas determinadas. Neste caso, o fluxo 10 de dados de vídeo é um fluxo de dados de vídeo colorida e, ao prover uma cor de segundo plano diferente, a etapa de identificar características visuais é simplificada. Uma máscara apropriada para extrair pixels com a cor da pele pode ser aplicada à imagem para obter os dados desejados.
Vantajosamente, a etapa h_2) dos métodos previamente descritos pode compreender a identificação de vales de intensidade na maior zona determinada, sendo que a intensidade dos pixels nos vales é menor do que um valor limite predeterminado, em que o valor limite é uma função do valor de intensidade máximo na zona, e em que cada faixa compreende um vale. Os vales de intensidade na imagem tratada com uma máscara da cor da pele são devidos à presença dos olhos e são, desse modo, um indicador confiável para encontrar a posição dos olhos. No caso de somente um vale ser '25 identificado, o método conclui que no máximo uma posição dos olhos pode ser determinada.
Preferivelmente, os métodos podem compreender adicionalmente a identificação de contornos nas faixas, em particular ao transferir as faixas para um formato em escala 30 de cinza. Uma vez identificadas as faixas, somente essas regiões são tratadas e o gradiente em escala de cinza em cada pixel é determinado para identificar os contornos. Desse modo, a vantagem é devida ao fato que os olhos de uma
11/40 configuração da pessoa se destacam dos contornos, o que pode ser facilmente identificado no formato em escala de cinza.
De acordo com uma realização preferida, uma etapa h_2) pode compreender adicionalmente a busca do centro do 5 candidato de contornos determinados ao procurar pelos círculos suscetíveis de corresponder à íris, em particular ao intensificar a sua intensidade na escala de cinza nos dados de vídeo nos contornos de uma cor predeterminada, preferivelmente o preto. Esta análise é baseada na hipótese 10 de que a íris é mais escura do que outras características da face e permite distinguir entre os vales de intensidade devidos aos olhos e os vales de intensidade devidos a outras características tais como, por exemplo, a presença de cabelos ou de outras características faciais particulares, tais como 15 rugas e, portanto, é um método confiável de identificação das faixas que contêm uma zona dos olhos.
Preferivelmente, os métodos podem compreender adicionalmente uma etapa h_4) de identificação da posição da íris em uma zona dos olhos, ao procurar pelos círculos 20 suscetíveis de corresponder à íris, em particular ao intensificar os dados de vídeo da escala de cinza nos contornos com uma cor predeterminada, preferivelmente o preto, tal como descrito acima. A posição da íris irá fornecer a informação necessária para saber se existe uma '25 interação visual durante o diálogo e, em particular, no caso em que as posições da íris de duas pessoas são identificadas como se as duas pessoas olhassem uma para a outra.
Vantajosamente, para pelo menos a imagem subseqüente dos dados de vídeo, somente a etapa h_4) pode ser 30 repetida para identificar a posição da íris em uma zona dos olhos, a menos que nenhuma posição da íris seja detectável. Isto tem a vantagem de que o processo de cálculo torna-se mais rápido, pois as etapas h_l) a h_3) não precisam ser
12/40 repetidas para cada imagem. Essas etapas só são executadas no caso de nenhuma posição da íris ser detectada durante o processamento da etapa h_4).
De acordo com uma realização preferida, os dados de vídeo podem compreender uma pluralidade de fluxos de dados de câmeras diferentes localizadas em posições diferentes com respeito às pessoas que participam do diálogo. Este arranjo fornece dados suficientes para estabelecer uma análise tridimensional dos dados de vídeo bidimensionais e desse modo 10 ainda melhorar a determinação da informação de interação visual, em particular para identificar se duas pessoas olham uma para a outra.
Preferivelmente, cada câmera pode capturar somente uma pessoa. Isto ainda facilita o tratamento dos dados e 15 desse modo acelera o processo de identificação, pois é assegurado que cada fluxo de dados compreende somente uma pessoa, e desse modo só é preciso procurar por duas faixas que compreendem os contornos que poderíam corresponder aos contornos dos olhos. Preferivelmente, as câmeras são 20 arranjadas de maneira tal que cada câmera filma uma pessoa a partir de ou perto do ângulo de visão de uma outra pessoa.
Vantajosamente, as etapas h) e/ou i) podem ser executadas em um intervalo de tempo que é mais curto do que o intervalo de tempo entre as duas imagens dos dados de vídeo. '25 Isto assegura que imediatamente depois do término do diálogo, o usuário do método tenha a informação necessária sobre o comportamento da(s) pessoa(s) que participa(m) do diálogo.
Preferivelmente, os métodos podem compreender adicionalmente uma etapa j) de armazenamento dos resultados 30 das etapas c) e/ou d) e/ou h) e/ou i) . Desse modo, o usuário pode acessar os resultados sempre que for necessário. Em particular é vantajoso armazenar os resultados em um banco de dados que permita a comparação entre diálogos diferentes da
13/40 mesma pessoa/s e/ou de pessoas diferentes cujos diálogos foram avaliados. A avaliação das técnicas de vendas de uma pessoa pode, desse modo, ser acompanhada por várias sessões de treinamento.
A invenção também se refere a um produto de programa de computador, o qual compreende uma ou mais mídias que podem ser lidas por computador e que têm instruções executáveis em computador para executar as etapas dos métodos tal como descritas acima. A invenção também se refere a um produto de mídia de armazenamento que compreende o produto de programa de computador.
A invenção também se refere aos sistemas para executar alguns dos métodos acima descritos. O objetivo da invenção também é atingido com os sistemas de acordo com as reivindicações 23, 24 e 29, com as quais os mesmos efeitos vantajosos já descritos para as reivindicações 1, 2 e 11 são obtidos.
Preferivelmente, o dispositivo de processamento de dados pode ser configurado adicionalmente para identificar palavras predeterminadas nas expressões vocais de pelo menos duas pessoas. A ocorrência do vocabulário específico indica imediatamente se pelo menos uma das pessoas que participa do diálogo está utilizando o vocabulário apropriado para a situação. Por exemplo, no caso de um profissional de vendas que vende um produto novo, as palavras predeterminadas normalmente se referem a esse produto; por exemplo, seu nome comercial, propriedades especiais e/ou vantagens.
Vantajosamente, pode ser provido um microfone por pessoa participante do diálogo, sendo que o microfone pode ser configurado de maneira tal que a intensidade de sinal de uma pessoa, ao falar, seja maior do que a intensidade de sinal das demais pessoas. Isto facilita a análise de dados, pois a identificação se uma pessoa fala ou não pode
14/40 simplesmente ser determinada ao verificar se o sinal capturado pelo microfone correspondente está acima de um determinado limite abaixo do qual estão o ruído de fundo ou as expressões vocais de outras pessoas.
De acordo com uma variante, o sistema pode compreender adicionalmente pelo menos uma câmera de vídeo para capturar os dados de vídeo que mostram pelo menos duas pessoas durante o diálogo, pelo menos parcialmente, e em que o dispositivo de processamento também é configurado para determinar se uma interação visual entre pelo menos duas pessoas ocorre durante o diálogo. Desse modo, torna-se possível analisar tanto as interações verbais como as nãoverbais para obter uma avaliação mais detalhada do perfil de uma pessoa que participa do diálogo. Em particular, efeitos sinergísticos entre interações verbais e não-verbais e os canais de comunicação podem ser obtidos, por exemplo, ao combinar a informação a respeito da divisão das expressões vocais com o parâmetro de focalização e os micromovimentos para identificar as fases em que ambos os participantes estão em um estado sincronizado, mostrando desse modo o mesmo tipo de comportamento ao escutar e ao falar que a outra pessoa.
Vantajosamente, o dispositivo de processamento também pode ser configurado para detectar a posição dos olhos, em particular da íris, de uma pessoa nos dados de vídeo que compreendem uma pluralidade de imagens subseqüentes, ao identificar características visuais em uma imagem para determinar a zona da imagem que mostra pelo menos uma parte da face, em particular pelo menos ambos os olhos, da pessoa, ao isolar faixas, em particular faixas verticais, na zona, e ao procurar por zonas dos olhos nas faixas se mais de um faixa tiver sido isolada na etapa h_2) . Ao separar a etapa de análise em uma pluralidade de etapas, o tempo total
15/40 necessário para determinar a posição dos olhos pode ser diminuído.
De acordo com uma realização preferida, uma câmera de vídeo pode ser fornecida para cada pessoa participante do 5 diálogo, e as câmeras de vídeo são arranjadas de maneira tal que cada câmera pode capturar somente uma pessoa. Isto também facilita o tratamento dos dados, uma vez que é garantido que em um fluxo de dados somente uma pessoa pode estar presente, e desse modo só é necessário procurar por um par de olhos.
As realizações específicas da presente invenção irão se tornar mais claras com a presente descrição com referência aos desenhos anexos, nos quais:
a Figura 1 ilustra uma primeira realização de um sistema de acordo com a invenção, a Figura 2 ilustra um fluxograma de dados de um método de acordo com a segunda realização da invenção, as Figuras 3a a 3e ilustram vários padrões de comunicação que ocorrem durante um diálogo, a Figura 4 ilustra um segundo fluxograma de dados de um método de acordo com a terceira realização da invenção, e a Figura 5 ilustra o princípio de detectar as transições de fase de interação, a Figura 6 ilustra um terceiro fluxograma de dados ‘25 de um método de acordo com a quarta realização da invenção, a Figura 7 ilustra um sistema de acordo com a invenção de acordo com a quinta realização, a Figura 8 ilustra um quarto fluxograma de dados de um método de acordo com a sexta realização da invenção, a Figura 9 ilustra um quinto fluxograma de dados de um método de acordo com a sétima realização da invenção,
16/40 as Figuras 10a a lOd ilustram os resultados das diferentes etapas de identificar a posição de uma zona dos olhos de acordo com a sétima realização, a Figura 11 ilustra um sexto fluxograma de dados de 5 um método de acordo com a oitava realização da invenção, e a Figura 12 ilustra um sistema de acordo com a invenção e de acordo com a nona realização.
A seguir, as várias realizações a respeito do sistema da invenção para avaliar automaticamente, em 10 particular eletronicamente, um diálogo entre pelo menos duas pessoas e as várias realizações a respeito do método correspondente serão exemplificadas por uma conversação de vendas entre um profissional de vendas (primeira pessoa) e um comprador (segunda pessoa). Naturalmente, a invenção também é 15 aplicável para avaliar automaticamente outros tipos de conversações tais como, por exemplo, uma entrevista de trabalho, etc. Além disso, todas as realizações serão
descritas para duas pessoas que mantêm uma conversação; no aos
entanto, todas as realizações podem ser estendidas
20 diálogos entre mais de duas pessoas.
Primeira realização
A Figura 1 ilustra a primeira realização de um
sistema para avaliar eletronicamente um diálogo entre pelo
menos duas pessoas. O sistema 1 compreende um primeiro e um •25 segundo microfones 3, 5, que são ligados respectivamente a um dispositivo de processamento 7. Os microfones 3 e 5 são arranjados perto das posições 9, 11 que o profissional de vendas e o comprador podem ocupar. O posicionamento dos microfones 3, 5 perto das posições 9, 11, respectivamente, 30 garante que a intensidade de sinal proveniente das expressões vocais da pessoa que se senta na posição mais próxima do microfone, desse modo, a posição 9 no caso do microfone 3, e a posição 11 no caso do microfone 5, seja maior do que a
17/40 intensidade de sinal proveniente das expressões vocais da pessoa que se senta na outra posição, mas também que seja maior do que o ruído de fundo. Durante a análise, o dispositivo de processamento 7 então tira vantagem disso e 5 atribui os sinais de áudio capturados sem ambiguidade à pessoa que se senta na posição 9 ou à pessoa que se senta na posição 11. No caso de mais de duas pessoas participarem da conversação, o sistema 1 pode ser adaptado para prover microfones adicionais.
O dispositivo de processamento de dados 7 compreende uma primeira unidade de processamento 13, a qual recebe as expressões vocais atribuídas. A primeira unidade de processamento 13 é configurada para estabelecer, a partir da atribuição das expressões vocais, a divisão no domínio de 15 tempo das expressões vocais das duas pessoas no decorrer do diálogo. A primeira unidade de processamento 13 também é configurada para comparar os resultados desta etapa de análise com padrões de comunicação predeterminados, definidos e descritos logo abaixo, para identificar um ou mais padrões de comunicação no diálogo, tal como uma conversação de vendas, entre uma pessoa que se senta na posição 9 e uma pessoa que se senta na posição 11 (vide também a segunda realização).
O dispositivo de processamento de dados 7 •25 compreende uma segunda unidade de processamento 15 que também recebe os respectivos dados de áudio e que é configurada para identificar fases de interação predeterminadas no decorrer do diálogo com base em um valor médio de movimento do tempo de fala de uma pessoa que participa do diálogo. Este valor médio 30 de movimento é determinado diretamente a partir dos dados de áudio, a saber, a atribuição das expressões vocais realizada pelo dispositivo de processamento de dados 7. As fases de interação e a maneira como elas são automaticamente
18/40 identificadas utilizando o sistema 1 serão descritas logo abaixo (vide também a terceira realização).
Como um elemento adicional, o dispositivo de processamento 7 compreende uma terceira unidade de 5 processamento 17, a qual é configurada de maneira tal que as palavras predeterminadas podem ser identificadas nas expressões vocais de uma pessoa que se senta na posição 9 e/ou de uma pessoa que se senta na posição 11.
Os resultados obtidos pela primeira unidade de 10 processamento 13, pela segunda unidade de processamento 15 e pela terceira unidade de processamento 17 podem ser armazenados em um dispositivo de armazenamento 19 e/ou encaminhados através de uma interface do usuário (não mostrada) aos participantes da conversação de vendas e/ou a 15 uma terceira pessoa tal como, por exemplo, um professor de um seminário.
O sistema 1 de acordo com a invenção é aplicado na avaliação automática dos diálogos, tais como as conversações de vendas mencionadas, fornecendo uma análise quantitativa do 20 decorrer do diálogo. Esses dados quantitativos dão suporte a um usuário tal como, por exemplo, um professor de um seminário de vendas, de modo que imediatamente depois que registrar o diálogo entre dois participantes, o usuário tem uma informação valiosa sobre a maneira como o(s)
‘25 participante (s) conduziu ou conduziram a conversação de
vendas.
De acordo com as variantes, o sistema 1 pode não
compreender todas as três unidades de processamento, mas
somente uma ou duas
30 Segunda realização
A Figura 2 ilustra a maneira como o sistema 1 é
utilizado para avaliar um diálogo e, além disso, representa a segunda realização de acordo com a invenção, a saber, um
19/40 método para avaliar automaticamente, ou seja, eletronicamente, um diálogo entre pelo menos duas pessoas de acordo com a invenção e que utiliza o sistema 1 da primeira realização.
A etapa SI da segunda realização consiste na recepção dos dados de áudio capturados pelos dois microfones 3 e 5 do sistema 1 ilustrado na Figura 1.
A etapa S2 consiste então na análise desses dados de áudio, neste caso dois fluxos de dados de áudio distintos, 10 para descobrir a atribuição no domínio de tempo das expressões vocais da primeira e da segunda pessoa. Aqui, o dispositivo de processamento 7 realiza esta análise.
A atribuição das expressões vocais às respectivas pessoas que falam é feita com base na filtragem da 15 intensidade de sinal capturada em cada fluxo de dados de áudio. Se o sinal estiver acima de um determinado limite no fluxo de dados do microfone 3, a primeira unidade de processamento 13 decide que a pessoa na posição 9 está falando, e no caso de a intensidade de sinal estar abaixo 20 desse limite, decide que essa pessoa não está falando e que o sinal restante é devido ao ruído de fundo e/ou devido a uma expressão vocal de outra pessoa que se senta na posição 11. O mesmo tipo de análise também é realizado para o segundo fluxo de dados que vem do microfone 5 e para a qual, no caso de o '25 sinal estar acima do limite, a expressão vocal é atribuída à pessoa na posição 11. Este método é fácil de realizar, mas também confiável; em particular, também é possível identificar uma situação em que ambas as pessoas falam ao mesmo tempo.
Uma vez que a atribuição das expressões vocais das duas pessoas no domínio de tempo é estabelecida, torna-se possível extrair informação adicional a respeito da qualidade da conversação entre as duas pessoas. Primeiramente, é
20/40 possível determinar os padrões de comunicação que ocorrem durante um diálogo, tal como uma conversação de vendas. A Figura 3 define padrões de comunicação diferentes entre um profissional de vendas e um comprador.
A Figura 3a ilustra o padrão de comunicação escutando. Nesta Figura, os blocos cinza ilustram as expressões vocais como uma função do tempo (eixo x), ao passo que a ausência de blocos cinza indica que a pessoa correspondente não está falando. As características do padrão escutando são que o profissional de vendas, a primeira pessoa, está em silêncio, enquanto o comprador, a segunda pessoa, fala.
O segundo padrão de comunicação (Figura 3b) representa o padrão reformulando. Neste padrão, é essencialmente a segunda pessoa, desse modo, o comprador, que fala, enquanto a primeira pessoa intervém somente de vez em quando. Normalmente, a primeira pessoa pode expressar sua concordância ou repetir uma palavra-chave ou grupos de palavras-chave.
A Figura 3c ilustra o padrão reagindo. Neste padrão, a primeira pessoa está falando, mas a segunda pessoa interrompe para intervir. Aqui ocorre uma situação durante a qual ambas as pessoas falam e normalmente a segunda pessoa continua a falar. Neste caso, a reação correta do profissional de vendas deveria ser parar de falar tão rápido quanto possível para deixar o comprador expressar seus pensamentos.
A Figura 3d representa o padrão expressando, durante o qual principalmente a primeira pessoa fala, enquanto a segunda pessoa intervém somente de vez em quando.
Finalmente, a Figura 3e ilustra o padrão em silêncio, durante o qual ninguém fala.
21/40
Um bom profissional de vendas precisa poder utilizar ativamente os cinco padrões diferentes, dependendo da situação em que está durante uma conversação. No caso de o profissional de vendas ser hábil na aplicação desta 5 ferramenta de comunicação, ela será capaz de valorizar o produto que tenta vender como uma função das expectativas e do comportamento de sua contraparte, o comprador.
Para voltar à segunda realização da invenção, depois de analisar a atribuição das expressões vocais na 10 etapa S2, o dispositivo de processamento 7 (primeira unidade de processamento 13) prossegue durante a etapa S3 para identificar os vários padrões de comunicação, tal como definido acima. Isto é obtido ao determinar a divisão das expressões vocais entre os dois falantes, o que ê baseado na 15 atribuição determinada na etapa S2. A divisão das expressões vocais é então comparada com os diferentes modelos de padrões de comunicação.
O resultado correspondente é utilizado para determinar, durante a etapa S4, as estatísticas sobre o 20 número de vezes em que cada padrão ocorre, a sua duração ou se durante o padrão de reação o tempo durante o qual as duas pessoas estão falando é muito longo, etc.
Se um profissional de vendas não utiliza ou apenas utiliza de maneira ruim um ou mais dos padrões durante as '25 suas conversações, o usuário, tal como um professor de seminário, pode identificar imediatamente a ausência deste padrão de comunicação e indicar que o profissional de vendas não está utilizando todas as possibilidades que tem com respeito aos padrões de comunicação ou que melhorias podem 30 ser obtidas ao adaptar as habilidades.
Os resultados da análise das etapas S3 e S4 são encaminhados ao usuário (etapa S5) através de uma interface
22/40 de usuário e/ou são armazenados no dispositivo de armazenamento 19 (etapa S6), tal como um banco de dados.
Terceira realização
A Figura 4 ilustra uma maneira adicional de utilizar o sistema 1 para avaliar um diálogo e, além disso, representa a terceira realização de acordo com a invenção, a saber, um método para avaliar automaticamente, ou seja, eletronicamente, um diálogo entre pelo menos duas pessoas de acordo com a invenção e que utiliza o sistema 1 da primeira 10 realização.
Aqui, as etapas SI e S2 correspondem àquelas da segunda realização. A sua descrição é aqui incorporada a título de referência.
Nesta realização, a análise da atribuição das expressões vocais de duas pessoas é utilizada para identificar uma seqüência de fases de interação, a qual é ilustrada na etapa S7. Esta análise é realizada na segunda unidade de processamento 15 do sistema 1.
Uma conversação de vendas pode normalmente 20 compreender pelo menos alguma das seguintes fases de interação:
I. Apresentação, esta fase é uma fase curta no começo de uma conversação durante a qual as duas pessoas se apresentam. Normalmente, vários assuntos sem ligação com o '25 produto ou serviço, que é o objeto da conversação de vendas, são discutidos entre os dois protagonistas. Neste modelo, é o profissional de vendas que fala mais.
II. Então, normalmente, segue-se a fase de descoberta das necessidades, que é mais longa do que a fase anterior. Nesta fase a pessoa principal é o comprador, que, no entanto, é guiado pelo profissional de vendas. O profissional de vendas tenta deixar o comprador expressar as suas necessidades para que ele, por sua vez, possa propor um
23/40 produto ou serviço correspondente. Nesta fase, o fluxo de informação é essencialmente do comprador para o profissional de vendas.
III. A Fase III é a fase de argumentação durante a qual o profissional de vendas apresenta o seu produto; desse modo, é o profissional de vendas que fala mais.
IV. A fase seguinte é a resposta à fase de objeções, durante a qual ambas as pessoas intervém. O comprador expressa as suas objeções em relação ao produto, enquanto o profissional de vendas responde, e ao mesmo tempo identifica de uma maneira mais precisa as necessidades do comprador. Essencialmente, o fluxo de informação vai e volta nesta fase.
V. Finalmente, cada conversação de vendas termina com as conclusões durante as quais normalmente o profissional de vendas recapitula brevemente as decisões tomadas.
Essas fases não têm necessariamente de ser executadas nesta ordem, e naturalmente também é possível que 20 uma fase esteja faltando; por exemplo, no caso de um produto proposto corresponder exatamente às expectativas do comprador, a fase IV não ocorre. A maneira como as fases são organizadas depende de vários parâmetros, tais como a indústria ou como uma empresa deseja conduzir as suas 25 conversações de vendas. No entanto, as fases I e V sempre ocorrem, por definição, no começo e no final, respectivamente.
A etapa S3 da terceira realização consiste em identificar fases de interação predeterminadas no decorrer do 3 0 diálogo com base em um valor médio de movimento do tempo de fala de uma pessoa que participa do diálogo, que foi previamente determinado na etapa S2. O fluxo de informação entre o comprador e o profissional de vendas caracteriza as
24/40 diferentes fases de conversação, tal como explicado acima. Ao utilizar o parâmetro valor médio de movimento do tempo de fala, as fases diferentes e a sua seqüência podem ser estabelecidas automática e eletronicamente sem a atribuição 5 do tempo de fala a uma ou outra pessoa.
A Figura 5 ilustra o valor médio de movimento 21 do tempo de fala de um profissional de vendas que participa de uma conversação de vendas como uma função do tempo. A média de movimento também poderia, naturalmente, ser determinada 10 para o comprador. O eixo x corresponde desse modo ao tempo e o eixo y ao valor médio de movimento em porcentagem. Os melhores resultados são obtidos quando o valor médio de movimento 21 é calculado em relaçao a uma duraçao de tempo de aproximadamente 3% a 10% da duração total do diálogo, em 15 particular 5% da duração total, que é da ordem de dez a vinte minutos.
Primeiramente, todas as fases diferentes de um diálogo são identificadas. Esta identificação é baseada na detecção de uma transição de uma fase à seguinte.
A segunda unidade de processamento 15 é configurada para identificar um primeiro momento 23 em que o valor médio de movimento 21 ultrapassa um primeiro valor limite 25, aqui 65%, e um segundo momento 27 em que o valor médio de movimento 21 ultrapassa um segundo valor limite 29, aqui 50%.
' 25 Uma vez que um primeiro e um segundo momentos 23, 27 tenham sido identificados, o método da invenção conclui que uma transição entre as duas fases está presente no segundo momento 27. A análise continua a identificar o momento seguinte 31 em que um segundo primeiro valor limite 33 é 30 ultrapassado. Aqui o segundo primeiro valor limite 33 é de 35%. Esta fase termina pela detecção do momento seguinte 35 em que o segundo valor limite 29 é ultrapassado outra vez. Do mesmo modo, o método da invenção identifica as fases
25/40 subseqüentes, que terminam nos momentos 36, 37 e o diálogo termina em 38.
Os primeiros valores limite superior e inferior podem ser adaptados ao tipo de diálogo a ser analisado.
O método então continua com a identificação das várias fases: apresentação, descoberta das necessidades, argumentação, resposta às objeções e conclusões. Primeiramente, duas categorias de fases são determinadas. As fases curtas têm uma duração de menos de 20%, e as fases longas uma duração de 20% ou mais do tempo total.
As fases curtas são então atribuídas da seguinte maneira:
Se a fase for a primeira fase e o profissional de vendas falar mais do que o comprador ou igual a ele, a fase é 15 identificada como sendo a fase de apresentação.
Se a fase for a última e o tempo de fala não for equilibrado, a fase é identificada como sendo a fase de conclusão.
Se a fase não for nem a primeira nem a última e o 20 profissional de vendas falar mais do que o comprador, a fase é identificada como sendo uma fase de argumentação. Se o comprador falar mais, a fase é a fase de descoberta das necessidades.
Para as fases longas, um parâmetro adicional se faz •25 necessário para discriminar as fases de argumentação e de descoberta das necessidades a partir da resposta à fase de objeções. Este parâmetro adicional qualifica o tempo de fala médio da fase considerada entre os dois falantes. Três áreas são consideradas para este valor. Uma primeira área na qual o 30 tempo de fala é equilibrado entre as duas pessoas que falam, uma segunda área em que o profissional de vendas fala mais do que o comprador e a terceira em que o comprador fala mais. A área equilibrada é qualificada por uma média de tempo de fala
26/40 das duas pessoas que falam perto do valor de 50%, em particular entre 42,5% e 57,5%.
Utilizando este terceiro valor limite, as fases são atribuídas tal como segue: Se o valor médio do tempo de fala 5 estiver na área do profissional de vendas, a fase é uma fase de argumentação; se o valor médio estiver na área do comprador, a fase é uma fase de descoberta das necessidades. E, no último caso, que é o da área equilibrada, a fase é uma fase de resposta às objeções durante a qual ambos os 10 participantes argumentam.
Desse modo, ao levar em conta essas regras, a fase um, que termina no instante 27, é a fase de apresentação. A fase dois, que termina no instante 35, é a fase de descoberta das necessidades, e indica que nesta fase o comprador fala 15 mais, pois descreve as suas necessidades, responde às objeções e às conclusões. A fase que termina no momento 36 corresponde a uma fase de argumentação, pois aqui o comprador responde às necessidades do comprador, ao indicar o produto adequado aos compradores.
0 A fase seguinte, que termina no momento 37, é a quarta fase e corresponde a uma resposta à fase de objeções.
Finalmente a última fase, que termina com o instante 38, é a fase da conclusão.
No caso em que as duas fases de interação do mesmo -25 tipo são identificadas em sequência, a unidade de processamento 15 também pode ser configurada para que elas sejam fundidas automaticamente em uma fase.
A etapa S8 do método consiste então em analisar os resultados da determinação das fases de interação. No caso em 30 que uma ou mais dessas fases estão faltando durante a seqüência de conversação, ou em que certas fases são muito longas ou muito curtas, um usuário do sistema 1 obtém a informação de que o profissional de vendas não procede de
27/40 modo otimizado, diretamente do sistema 1 e, consequentemente, pode então apontar as possíveis melhorias nas habilidades de comunicação das pessoas que participam do diálogo.
Os resultados das etapas de análise S7 e S8 são encaminhados ao usuário (etapa S5) através da interface do usuário e/ou são armazenados no dispositivo de armazenamento 19 (etapa S6) , tal como um banco de dados, assim como na segunda realização.
A segunda e terceira realizações podem ser vantajosamente combinadas em um processo, de modo que uma imagem mais completa do diálogo e as habilidades de
comunicação possam ser obtidas. Em particular, o uso de
vários padrões de comunicação nas fases de interação
diferentes pode automaticamente ser determinado e então
explorado pelo usuário.
Quarta realização
A Figura 6 ilustra uma quarta realização que representa um terceiro uso do sistema 1 e um terceiro método para avaliar eletronicamente um diálogo entre pelo menos duas pessoas de acordo com a invenção. Em comparação à segunda realização ilustrada na Figura 2, este método compreende uma etapa adicional S9 de identificação de palavras predeterminadas nas expressões vocais pelo menos do profissional de vendas. De acordo com uma variante, as palavras predeterminadas também podem ser identificadas nas expressões vocais do comprador. As outras etapas, Sl a S4, anteriores à etapa S9, e S5 e S6, posteriores à etapa S9, correspondem àquelas da segunda realização e, portanto, não são repetidas, mas as suas descrições são aqui incorporadas a título de referência.
As palavras predeterminadas, normalmente de vinte a cinquenta palavras específicas, em particular trinta palavras específicas, identificam e/ou caracterizam o produto ou o
28/40 serviço a serem vendidos, e, além disso, podem ter relação com o ambiente profissional em que a conversação de vendas é realizada. A identificação das palavras predeterminadas nas expressões vocais do profissional de vendas ajuda a 5 identificar se o profissional de vendas utiliza ou não o vocabulário correto de modo que, no caso em que não são empregadas palavras, as medições adequadas possam ser feitas, tal como um treinamento de novo produto, para melhorar o desempenho de um profissional de vendas.
Em vez da segunda realização, a etapa adicional S9 também poderia ser adicionada do mesmo modo à terceira realização, ou a terceira e quarta realizações poderíam ser combinadas para obter uma análise detalhada adicional do diálogo e das habilidades de comunicação.
A identificação de palavras predeterminadas tem sua importância, pois a ocorrência das palavras predeterminadas é mais ou menos importante, dependendo do tipo de fase de interação de conversação durante a qual elas ocorrem ou não. As palavras predeterminadas que definem o produto a ser vendido devem ser especialmente utilizadas nas fases de argumentação e resposta às objeções para melhorar a possibilidade de uma conversação bem-sucedida. Desse modo, a identificação de palavras predeterminadas como uma função da fase de interação da qual participam os dois protagonistas '25 desempenha um papel importante e indica ao usuário do sistema e do método, por exemplo, um professor, as melhorias possíveis no caso de um profissional de vendas não estar organizada de uma maneira ideal.
De acordo com a invenção, as realizações um a 30 quatro podem também ser adaptadas para uma situação em que as pessoas não estão sentadas frente a frente, mas estão conversando por telefone. Também neste caso as expressões vocais podem ser atribuídas e os padrões de comunicação, as
29/40 fases de comunicação e o uso de palavras predeterminadas determinados.
Quinta realização
A Figura 7 ilustra uma quarta realização da invenção, a saber, um segundo sistema da invenção para avaliar eletronicamente um diálogo entre pelo menos duas pessoas. O sistema 41 compreende duas câmeras de vídeo 43 e 4 5 para capturar os dados de vídeo que mostram pelo menos duas pessoas durante sua conversação. Tal como no caso dos microfones 3 e 5 da primeira realizaçao, aqui as câmeras de vídeo 43 e 45 são arranjadas de maneira tal que a câmera de vídeo 43 captura uma pessoa presente na posição 11 (a mesma posição 11 da primeira realização), ao passo que a segunda câmera 45 captura uma pessoa que está presente na posição 9. Preferivelmente, cada câmera 43, 45 captura somente uma pessoa de cada vez para facilitar o tratamento dos dados.
Cada uma das câmeras 4 3 e 4 5 é ligada com um dispositivo de processamento 47 configurado para determinar se uma interação visual entre pelo menos duas pessoas ocorre durante o seu diálogo. 0 dispositivo de processamento 47 compreende uma quarta unidade de processamento 49 configurada para detectar a posição dos olhos, em particular da íris, das pessoas posicionadas nas posições 9 e 11 para determinar se uma pessoa olha para a outra ou se as duas pessoas olham uma para a outra. Desse modo, três elementos podem identificar três estados de focalização, o profissional de vendas olha para o comprador, o comprador olha para o profissional de vendas e ambos se entreolham. A presença ou a ausência da focalização representa um parâmetro importante que caracteriza a qualidade da conversação de vendas. No caso de uma ausência de focalização, o usuário do sistema 41, aqui o professor de um seminário de vendas, pode indicar essa deficiência nas habilidades de comunicação, em particular do
30/40 profissional de vendas do diálogo, de modo que esta pessoa possa melhorar as suas técnicas de vendas.
dispositivo de processamento 47 também pode compreender uma quinta unidade de processamento 51 para 5 analisar os micromovimentos dos olhos de pelo menos duas pessoas presentes nas posições 9 e 11. A quinta unidade de processamento 51 é configurada para determinar as direções dos micromovimentos dos olhos dos participantes do diálogo e então também determinar se eles estão no mesmo modo. É sabido 10 que duas pessoas que participam de uma conversação têm a tendência de sincronizar seus micromovimentos. Se o dispositivo de processamento 47 determinar que as duas pessoas não estejam sincronizadas, pode-se apontar essa ausência e indicar que esse tipo de interação está faltando 15 durante a conversação e o profissional de vendas pode então ser especialmente treinado para tirar vantagem deste canal de comunicação. Desse modo, um parâmetro adicional que qualifica a conversação de vendas entre um comprador e um profissional de vendas, a saber, a presença ou a ausência de sincronização, pode ser detectada automática e eletronicamente e encaminhado ao usuário do sistema 41. Tal como na primeira realização, o sistema 41 também pode compreender um dispositivo de armazenamento 19 e uma interface de usuário (não mostrada) que informam sobre os ’25 resultados de análise da quarta e da quinta unidade de processamento 49 e 51.
Sexta realização
A Figura 8 ilustra o modo como o sistema 41 da quinta realização é utilizado obter a informação da interação 30 visual e, além disso, representa a sexta realização de acordo com a invenção, a saber, um método para avaliar eletronicamente um diálogo entre pelo menos duas pessoas de acordo com a invenção e que utiliza o sistema 41 da quinta
31/40 realização. Além disso, a sexta realização será descrita para uma conversação de vendas entre duas pessoas. Aqui, a primeira pessoa, por exemplo, o profissional de vendas, senta-se na posição 9, e a segunda pessoa, o comprador, na 5 posição 11. Desse modo, a câmera 43 captura os dados de vídeo de pelo menos uma parte da face do comprador e a câmera 4 5 captura os dados de vídeo de pelo menos de uma parte da face do profissional de vendas.
O método de acordo com a sexta realização começa com a etapa Sll, a saber, a recepção dos dados de vídeo capturados pelas duas câmeras de vídeo 43 e 45 pelo dispositivo de processamento 47.
A etapa S12 consiste então em analisar os dados de vídeo pela quarta unidade de processamento 49 para determinar 15 se uma interação visual, neste caso, a focalização e/ou a sincronização, tal como descrito acima, ocorrem durante a conversação de vendas.
De acordo com a invenção, a análise dos dados de vídeo compreende desse modo uma primeira etapa de determinar 20 se a focalização, neste caso se os dois protagonistas olham um para o outro, está presente (etapa S13) e/ou compreende uma segunda etapa de determinar se a sincronização, neste caso se os micromovimentos dos olhos dos dois protagonistas estão no mesmo modo, está presente (etapa S14).
-25 Os resultados desta análise fornecem uma avaliação determinada eletrônica e automaticamente da interação nãoverbal entre o profissional de vendas e o comprador, e são encaminhados a um usuário através de uma interface do usuário (etapa S15) e/ou são armazenados no dispositivo de 30 armazenamento 19 (etapa S16).
Assim como nas realizações uma a quatro, também a quinta e a sexta realizações são utilizadas para obter automática e eletronicamente uma avaliação de um diálogo, tal
32/40 como a conversação de vendas descrita. No entanto, neste caso os parâmetros analisados referem-se a uma interação nãoverbal. A interação não-verbal é um parâmetro que deve ser levado em conta, pois, por exemplo, um profissional de vendas que não olha a sua contraparte não realiza uma conversação de vendas otimizada, mesmo se houver situações em que não é necessário olhar a outra pessoa, em particular no caso de tomar notas ou durante uma fase marcadamente concentrada em que o profissional de vendas ouve o comprador. Essas situações representam as exceções, que geralmente ocorrem somente durante um curto período. À parte do parâmetro de focalização, a análise de interação visual também pode fornecer eletrônica e automaticamente informações sobre a presença e a ausência da sincronização entre os micromovimentos dos olhos dos dois protagonistas.
Sétima realização
A Figura 9 ilustra uma sétima realização da invenção, a saber, um método para detectar eletronicamente a posição dos olhos de uma pessoa nos dados de vídeo que compreendem uma pluralidade de imagens subseqüentes. O método é particularmente apropriado para detectar a posição da íris e desse modo descreve em detalhes as etapas S12 e S13 da sexta realização. Além disso, o método, assim como aquele da realização seis, começa com a recepção dos dados de vídeo capturados pelas duas câmeras de vídeo 43 e 45 (etapa 21). A Figura 10a ilustra uma imagem 53 da cabeça da pessoa 55 de um fluxo de dados de vídeo capturado pela câmera 43. Para facilitar a análise de dados, o segundo plano 57 atrás da pessoa deve ser de uma cor diferente da cor da pele. Deve ser mencionado que o método de acordo com a sétima realização também pode ser executado somente com uma câmera vídeo que captura a face de apenas uma pessoa.
33/40
A etapa S22 consiste então em determinar uma zona em uma imagem do fluxo de dados de vídeo fornecida pela câmera de vídeo, que é suscetível de conter pelo menos uma parte da face da pessoa analisada. Nesta realização, a 5 determinação da zona que mostra a face ou uma parte da face é baseada na exploração de uma máscara aplicada aos dados da imagem para extrair essa parte da imagem, que mostra as cores da pele. A provisão de um segundo plano atrás da posição 9 ou 11, que não mostra as cores da pele, facilita esta parte da 10 análise. No caso de a etapa de análise prover uma pluralidade de zonas que têm a cor da pele, a maior zona é escolhida, porque a câmera 4 3 e/ou 45 é arranjada e configurada de maneira tal que as imagens obtidas capturem essencialmente apenas a cabeça de uma pessoa e uma pequena parcela do 15 segundo plano, que não é da cor da pele. Para melhorar o resultado, a imagem pode ser tratada diversas vezes da mesma maneira. A Figura 10b ilustra este fato no exemplo prático. O quadrado 59 é a zona conectada da cor da pele suscetível de conter a zona dos olhos.
A etapa seguinte S23 consiste em realizar um estudo detalhado da zona previamente determinada que contém a face da pessoa filmada, a fim de isolar as faixas suscetíveis de conter os olhos da pessoa filmada. O tratamento de dados para determinar as faixas é realizado tal como a seguir: um perfil 25 vertical ou horizontal da intensidade ou da cor dos pixels que define a zona é examinado. Então, o valor máximo do perfil é determinado e as máximas locais são removidas ao suavizar os perfis. A seguir, são procurados os vales de intensidade, sendo que um vale de intensidade corresponde aos 3 0 pixels que têm um valor menor do que um valor limite predeterminado que é determinado, por sua vez, como uma função do valor máximo identificado previamente na zona ou na faixa vertical ou horizontal correspondente. Os vales nos
34/40 perfis podem ser realmente devidos à presença dos olhos, que conduzem aos furos na máscara de cor. No caso de tal vale ser encontrado em um perfil, os perfis vizinhos são então examinados para procurar os vales correspondentes que 5 conduzem às estruturas conectadas. Os perfis que pertencem a tais estruturas conectadas definem então um faixa suscetível de conter um olho da pessoa filmada. A Figura 10c ilustra o resultado desta etapa e mostra três faixas 61a, 61b, 61c, que poderíam compreender os olhos da pessoa. A faixa 61C à 10 direita tem um vale de intensidade na posição das rugas presentes perto do olho direito.
Se for encontrada apenas uma faixa para uma imagem do fluxo de dados de vídeo, conclui-se automaticamente que não é possível identificar as posições dos dois olhos da 15 pessoa filmada. O processo é interrompido com a etapa S23 e a imagem seguinte do fluxo de dados de vídeo é analisada outra vez, começando com etapa S21.
O processo pode ser melhorado ao empregar variantes adicionais. As estruturas conectadas muito pequenas 20 encontradas na zona podem ser eliminadas, e as estruturas conectadas que se encontram perto uma da outra podem ser combinadas e/ou as estruturas conectadas que são muito grandes podem ser divididas em duas, conduzindo a duas faixas. Uma possibilidade ainda consiste em ampliar uma faixa !25 no caso em que as estruturas conectadas sejam relativamente pequenas, mas suficientemente grandes para compreender ainda eventualmente o olho de uma pessoa.
Uma vez que as faixas suscetíveis de conter os olhos de uma pessoa são isoladas, a etapa seguinte S24 30 consiste em procurar por zonas dos olhos dentro das regiões das faixas no caso em que mais de uma faixa tiver sido isolada na etapa anterior. Nesta realização, um mapa de contorno da imagem em escala de cinza dentro de cada faixa é
35/40 computado. A posição potencial para o centro da íris em cada faixa de candidato é então encontrada ao examinar as intersecções dos segmentos extraídos ao longo do raio dos círculos osculadores para todos os pontos do contorno. Supõe5 se que o ponto em torno do qual os segmentos tendem a se cruzar mais é o centro da íris na faixa, uma vez que a íris é a característica facial com o contorno mais circular. O número de intersecções para este centro é uma indicação da qualidade da detecção. Além disso, a probabilidade de este 10 ponto ser o centro da íris aumenta, pois o nível de cinza na imagem nesse ponto é mais escuro porque a íris é preta. O número da interseção pode, portanto, ser intensificado pelo valor do nível de cinza.
No caso de mais de duas faixas terem sido extraídas 15 na etapa anterior, os candidatos menos prováveis são aqueles de menor intensidade e podem, portanto, ser eliminados. A zona dos olhos para cada uma das duas faixas restantes é então definida como uma moldura de dimensões predeterminadas, que é suficientemente grande para conter todos os olhos do 20 vídeo inteiro, e centrado em torno do ponto retido do candidato. A Figura lOd representa o resultado desta etapa no exemplo prático. Nas faixas 61a e 61b as zonas dos olhos 63a e 63b foram identificadas, enquanto na faixa 61c o a intensidade do centro do candidato era muito baixa comparado -25 às anteriores.
Uma vez identificada a zona dos olhos em uma faixa, a etapa seguinte S25 consiste em determinar a posição da íris dentro da zona dos olhos utilizando o mesmo tipo de algoritmo; no entanto, somente dentro da zona dos olhos 30 detectada.
Ao fazer isso, os valores de qualidade resultantes do processo de detecção são intrinsecamente normalizados no que diz respeito às dimensões de zona, e todas as zonas têm o
36/40 mesmo tamanho. Desse modo é possível comparar posteriormente os resultados obtidos para molduras diferentes no vídeo.
Uma vez que a posição da íris tenha sido estabelecida para duas pessoas filmadas por um sistema tal 5 como o sistema 41, torna-se possível determinar se as duas pessoas olham uma para a outra ou não. Isto se deve ao fato de que as posições da câmera de vídeo são fixas de modo que, ao conhecer a posição da íris em uma imagem, o dispositivo de processamento 4 7 pode determinar se as posições da íris das 10 duas pessoas correspondem a uma situação em que as duas pessoas olham uma para a outra. Em uma variante específica desta realização, a detecção da íris obtida para cada imagem pode ser utilizada para determinar as seqüências no vídeo onde a pessoa estava olhando para seu interlocutor. Em uma 15 variante simplificada desta realizaçao, o fato de os olhos de uma pessoa serem identificados é suficiente para concluir que essa pessoa olha para a outra pessoa, e no caso de em ambas as pessoas os olhos serem identificados, pode ser concluído que elas olham uma para a outra.
Além disso, ao analisar a posição da íris e do próprio olho, o micromovimento dos olhos pode ser determinado para cada pessoa. Ou seja, se o movimento da íris estiver em uma das seis direções do olho a seguir: esquerda superior, direita superior, esquerda, direita, esquerda inferior e •25 direita inferior. No caso de ambas as pessoas mostrarem o mesmo comportamento, conclui-se então que elas estão em sincronização.
Oitava realização
A Figura 11 ilustra uma oitava realização que 30 representa um método adicional para avaliar eletronicamente um diálogo entre pelo menos duas pessoas. Além das etapas S21 a S25, que são as mesmas da sétima realização, esta realização compreende as etapas adicionais S26 e S27, que
37/40 permitem acelerar o processo de determinar a posição da íris em uma moldura de imagem dos dados de vídeo. Depois de determinar a posição da íris nas zonas dos olhos de uma primeira imagem (etapa S25) , o dispositivo de processamento 5 47 prossegue com a análise da próxima moldura de imagem dos dados de vídeo, mas não reinicia com a identificação da zona que mostra a face na etapa 22, mas começa imediatamente a determinar novamente a posição da íris na zona que corresponde à posição em que a zona dos olhos foi 10 identificada na moldura de imagem anterior. Finalmente, de acordo com uma variante, esta zona poderia ser ampliada para melhorar a possibilidade de encontrar a íris.
De fato, nesta realização pode-se tirar vantagem do fato de que durante a conversação de vendas a posição da 15 cabeça e desse modo dos olhos não se irá se mover rapidamente, de modo que há grande chance de que nas imagens subseqüentes a íris possa ser encontrada nas posições similares à que estava na imagem anterior sem ter de repetir as etapas S22 a S24.
No caso de ter sido determinado durante a etapa S27 que a íris certamente foi encontrada na imagem subseqüente durante a etapa S26, a etapa S26 é realizada outra vez para a imagem seguinte sem passar pelas etapas 22 a 25. Se, no entanto, o dispositivo de processamento 4 7 não puder • 25 identificar a íris na zona dos olhos durante a etapa S26, o método de acordo com a oitava realização reinicia com a etapa S22, assim como na realização anterior.
Nona realização
A Figura 12 ilustra um terceiro sistema de acordo 30 com a invenção de acordo com uma nona realização da invenção.
O sistema 71 corresponde a uma combinação dos sistemas 1 e 41 de acordo com a primeira e a quinta realizações da invenção. Desse modo - utilizando os mesmos números de referência da
38/40 primeira e da quinta realizações - ela compreende dois microfones 3, 5, duas câmeras de vídeo 43 e 45, cada um deles ligado a um dispositivo de processamento 73 que compreende a primeira dentre as cinco unidades de processamento 13, 15, 5 17, 49 e 51 e que são configuradas para analisar tanto os dados de áudio como os dados de vídeo recebidos dos microfones e das câmeras de vídeo. A descrição detalhada desses elementos não será repetida, mas é aqui incorporada a título de referência à primeira e à quarta realizações. Tal 10 como mencionado acima, no caso de mais de duas pessoas participarem da conversação, o sistema 71 pode ser adaptado adequadamente para empregar o número correspondente de microfones e/ou câmeras de vídeo.
Além disso, o sistema 71 pode compreender ainda um 15 dispositivo de armazenamento 19 e/ou uma interface do usuário (não mostrada), tal como nas realizações anteriores. Com este sistema, os métodos descritos acima podem ser executados em combinação. Desse modo, as duas pessoas que estão dialogando podem ser avaliadas automática e eletronicamente com base em 20 sua interação verbal, bem como em sua interação não-verbal.
Além disso, nesta realização, pode-se tirar vantagem da sinergia entre a informação extraída dos dados de áudio e dos dados de vídeo. Torna-se possível analisar a focalização e/ou os micromovimentos dos olhos como uma função 25 das fases de interação que ocorrem durante a conversação de vendas.
O olhar sobre o parâmetro divisão das expressões vocais e o parâmetro focalização fornece uma primeira medida da sincronização entre duas pessoas; desse modo, um 30 estado em que um comportamento comum está presente podería ser benéfico para o resultado da conversação. Se, por exemplo, o comprador não olha para o profissional de vendas (não focalização do comprador) quando está falando, mas olha
39/40 para o comprador quando está ouvindo, e se o comprador adotar a mesma prática, ambos estarão em um estado sincronizado. Ambos os participantes adotam desse modo um comportamento comum. Assim, mesmo se ambas as pessoas nao olharem uma para a outra, o método da invenção pode identificar um estado de sincronização que é vantajoso para o resultado do diálogo; por exemplo, se o comprador for uma pessoa tímida, sem coragem de olhar para a outra pessoa, ele também achará melhor se a outra pessoa não olhar para ele.
No caso em que a focalização está ausente, torna-se interessante analisar os micromovimentos, pois um tipo de sincronização também é obtido no caso de os micromovimentos de ambos estarem no mesmo modo. Além disso, o micromovimento dos olhos de cada pessoa é analisado durante a primeira e/ou 15 a segunda fase do diálogo, neste caso as fases de apresentação e/ou descoberta das necessidades. Durante as três fases seguintes, o sistema 71 determina se uma sincronização dos micromovimentos entre as duas pessoas ocorre ou se cada uma das pessoas permanece com seu próprio modo de micromovimento.
Os dados obtidos sobre as potencialidades de sincronização do profissional de vendas permitem quantificar a capacidade de se adaptar. Normalmente, uma pessoa repete os mesmos modos verbais e não-verbais. Um treinamento de *25 comunicação correto, no entanto, permite a adaptação ao modo do comprador. Desse modo, com o método e o dispositivo da invenção, tal análise pode ser colocada em uma base quantitativa.
Também é possível verificar a focalização como uma função das fases diferentes de modo que o usuário do sistema possa obter ainda mais informação sobre a maneira como a conversação de vendas entre duas pessoas foi conduzida.
40/40
Preferivelmente, o dispositivo de processamento é configurado de maneira tal que toda a análise será realizada durante o movimento, por exemplo, a posição da íris é calculada entre duas imagens de modo que uma análise em tempo 5 real seja possível. Isto tem a vantagem de que no fim do diálogo o usuário obtém imediatamente os dados sobre as interações verbais e não-verbais entre as duas pessoas e pode determinar o perfil do profissional de vendas.
Preferivelmente, cada um dos sistemas 1, 41 e 71 10 também pode compreender um banco de dados com perfis predeterminados e, ao comparar os resultados da análise da interação verbal e nao-verbal entre o profissional de vendas e o comprador com as propriedades de interação verbal e nãoverbal dos perfis predeterminados, os sistemas podem 15 encaminhar o perfil do profissional de vendas predeterminada mais apropriado para avaliar a pessoa. Ao fazer isso, a pessoa avaliada no teste pode ser direcionada para recursos de treinamento especiais a fim de melhorar as suas habilidades de comunicação e pode, portanto, melhorar as suas 20 chances de finalizar com sucesso as conversações de vendas.
Todos os métodos descritos acima podem ser executados como um programa de computador e colocados em um produto de programa de computador, que compreende uma ou mais mídias que podem ser lidas por computador e que têm “ 25 instruções executáveis por computador para realizar as etapas descritas. De acordo com a invenção, uma mídia de armazenamento pode ser utilizado para armazenar o programa de computador.

Claims (25)

  1. REIVINDICAÇÕES
    1. MÉTODO PARA AVALIAR AUTOMATICAMENTE UM DIÁLOGO, em particular eletronicamente, entre pelo menos duas pessoas, caracterizado pelo fato de compreender as etapas de
    g) recepção dos dados de vídeo que mostram pelo menos duas pessoas pelo menos parcialmente,
    h) análise dos dados de vídeo para determinar se ocorre uma interação visual entre pelo menos duas pessoas durante o diálogo, que compreende a determinação se as pelo menos duas pessoas olham uma para outra pela detecção da posição das íris das pelo menos duas pessoas, e
    i) análise dos micromovimentos dos olhos de pelo menos duas pessoas para determinar se a direção dos micromovimentos dos olhos está no mesmo modo.
  2. 2. MÉTODO, de acordo com a reivindicação 1, caracterizado pela etapa i) compreender movimentos da íris em uma das seis direções dos olhos a seguir: esquerda superior, direita superior, esquerda, direita, esquerda inferior e direita inferior.
  3. 3. MÉTODO, de acordo com a reivindicação 2, caracterizado pela etapa i) compreender determinar se a direção dos micromovimentos dos olhos está no mesmo modo em pelo menos uma fase de interação predeterminada.
  4. 4. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pela etapa h) compreender as etapas de h_1) identificação das características visuais em uma imagem dos dados de vídeo para determinar a zona da imagem que mostra pelo menos uma parte da face de pelo menos ambos os olhos, de pelo menos uma das duas pessoas, h_2) isolamento das faixas na zona, h_3) procura por zonas de olhos nas faixas se mais de uma faixa tiver sido isolada na etapa h_2).
    Petição 870190124946, de 28/11/2019, pág. 8/17
    2/6
  5. 5. MÉTODO, de acordo com a reivindicação 4, caracterizado pela etapa h_2) compreender adicionalmente a identificação dos contornos nas faixas pela transferência das faixas para um formato em escala de cinza, e compreender a busca dos centros de determinados contornos do candidato procurando por círculos suscetíveis de corresponder à íris, em particular pelo aumento a intensidade da escala de cinza nos dados de vídeo nos contornos com uma cor predeterminada, preferivelmente preto.
  6. 6. MÉTODO, de acordo com qualquer uma das reivindicações 4 ou 5, caracterizado por compreender adicionalmente uma etapa h_4) de identificação da posição da íris em uma zona dos olhos procurando pelos círculos suscetíveis de corresponder à íris, em particular ao intensificar a escala de cinza nos dados de vídeo nos contornos com uma cor predeterminada, preferivelmente o preto.
  7. 7. MÉTODO, de acordo com a reivindicação 6, caracterizado por, para pelo menos a imagem subsequente dos dados de vídeo, somente a etapa h_4) ser repetida para identificar a posição da íris em uma zona dos olhos, a menos que nenhuma posição da íris seja detectável.
  8. 8. MÉTODO, de acordo com a reivindicação 7, caracterizado pelos dados de vídeo compreenderem uma pluralidade de fluxos de dados de diferentes câmeras localizadas em posições diferentes com respeito às pessoas que participam do diálogo.
  9. 9. MÉTODO, de acordo com a reivindicação 8, caracterizado por cada câmera capturar somente uma pessoa.
  10. 10. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por compreender as etapas de
    a) recepção dos dados de áudio que compreendem um diálogo entre pelo menos duas pessoas,
    Petição 870190124946, de 28/11/2019, pág. 9/17
    3/6
    b) análise dos dados de áudio para determinar a divisão das expressões vocais de pelo menos duas pessoas no decorrer do diálogo, em particular no âmbito do tempo,
    c) identificação de um ou mais padrões de comunicação no diálogo, em particular ao comparar os resultados da etapa de análise com os padrões de comunicação predeterminados.
  11. 11. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender as etapas de
    a) recepção dos dados de áudio que compreendem um diálogo entre pelo menos duas pessoas,
    d) identificação das fases de interação predeterminadas no decorrer do diálogo com base em um valor médio de movimento do tempo de fala de uma pessoa que participa do diálogo.
  12. 12. MÉTODO, de acordo com a reivindicação 11, caracterizado pela identificação de pelo menos uma fase de interação compreender a detecção de uma transição de uma fase de interação para outra, sendo que uma transição é detectada ao determinar um primeiro momento em que o valor médio de movimento ultrapassa um primeiro valor limite e um segundo momento em que o valor médio de movimento ultrapassa um segundo valor limite que indica a presença de uma transição no segundo momento.
  13. 13. MÉTODO, de acordo com a reivindicação 12, caracterizado pelo primeiro limite estar na faixa de 60 a 80%, em particular 65%, para as fases durante as quais uma pessoa fala mais do que outra, e fica na faixa de 20% a 40%, em particular 35%, para as fases em que uma pessoa fala menos do que a outra, e o segundo limite fica na faixa de 45 a 55%, em particular 50%.
  14. 14. MÉTODO, de acordo com uma das reivindicações 11 a 13, caracterizado pelo valor médio ser calculado em relação a uma duração de tempo de aproximadamente a 10% da duração
    Petição 870190124946, de 28/11/2019, pág. 10/17
    4/6 total do diálogo, em particular 5% da duração total.
  15. 15. MÉTODO, de acordo com qualquer uma das reivindicações 10 a 14, caracterizado por compreender uma etapa adicional e) de análise dos dados de áudio para identificar palavras predeterminadas nas expressões vocais de pelo menos duas pessoas, em particular somente na expressão vocal de uma pessoa predeterminada.
  16. 16. MÉTODO, de acordo com a reivindicação 15, caracterizado por compreender adicionalmente uma etapa f) de análise, em particular contagem, da ocorrência de palavras predeterminadas uma fase de interação identificada ou mais fases de interação, respectivamente.
  17. 17. MÉTODO, de acordo com uma das reivindicações 10 a 16, caracterizado pelos dados de áudio compreenderem uma pluralidade de fluxos de dados de diferentes microfones, e em particular cada microfone é atribuído a somente uma pessoa dentre pelo menos duas pessoas e é configurado de maneira tal que a intensidade de sinal de uma pessoa, ao falar, é maior do que a intensidade de sinal das demais pessoas.
  18. 18. SISTEMA PARA AVALIAR AUTOMATICAMENTE UM DIÁLOGO, em particular eletronicamente, entre pelo menos duas pessoas, caracterizado por compreender pelo menos uma câmera de vídeo (43, 45) para capturar os dados de vídeo que mostram pelo menos duas pessoas durante o diálogo pelo menos parcialmente e um dispositivo de processamento (47) configurado para determinar se ocorre uma interação visual entre pelo menos duas pessoas durante o diálogo, em que o dispositivo de processamento (47, 73) é ainda configurado para detectar a posição dos olhos, em particular as íris, de uma pessoa nos dados de vídeo que compreendem uma pluralidade de imagens subsequentes, ao identificar as características visuais em uma imagem para determinar a zona da imagem que mostra pelo menos uma parte da face, em particular pelo menos ambos os olhos, da pessoa, ao
    Petição 870190124946, de 28/11/2019, pág. 11/17 isolar as faixas, em particular as faixas verticais, na zona, e ao procurar por zonas dos olhos nas faixas se mais de uma faixa tiver sido isolada na etapa anterior em que o dispositivo de processamento (47,73) é ainda configurado para identificar se a direção dos micromovimentos dos olhos das duas pessoas está no mesmo modo.
  19. 19.
    SISTEMA, de acordo com a reivindicação 18 caracterizado por, para cada pessoa que participa do diálogo, ser provida uma câmera de video (43, 45)/ e em gue as câmeras de video (43, 45) são arranjadas de maneira tal que cada câmera (43, 45) captura somente uma pessoa.
  20. 20. SISTEMA de acordo com qualquer uma das reivindicações 18 a 19, caracterizado pelo dispositivo ser configurado para determinar o movimento da íris em uma das seis direções dos olhos a seguir: esquerda superior, direita superior, esquerda, direita, esquerda inferior e direita inferior.
  21. 21. SISTEMA, de acordo com qualquer uma das reivindicações 18 a 19, caracterizado por compreender:
    a) pelo menos um microfone para capturar o diálogo e fornecer dados de áudio, e
    b) um dispositivo de processamento de dados configurado para analisar os dados de áudio para determinar a divisão das expressões vocais de pelo menos duas pessoas no decorrer do diálogo, em particular no âmbito do tempo, e configurado para comparar os resultados da etapa de análise com os padrões de comunicação predeterminados para identificar um ou mais padrões de comunicação no diálogo.
  22. 22. SISTEMA, de acordo com qualquer uma das reivindicações 18 a 19, caracterizado por compreender:
    a) pelo menos um microfone (3, 5) para capturar o diálogo e fornecer os dados de áudio, e
    d) um dispositivo de processamento de dados (7)
    Petição 870190124946, de 28/11/2019, pág. 12/17
    6/6 configurado para identificar fases interação predeterminadas no decorrer do diálogo com base em um valor médio de movimento do tempo de fala de uma pessoa que participa do diálogo.
  23. 23. SISTEMA, de acordo com a reivindicação 21,
    5 caracterizado pelo dispositivo de processamento de dados (7) também ser configurado para identificar fases de interação predeterminadas no decorrer do diálogo com base em um valor médio de movimento do tempo de fala de uma pessoa que participa do diálogo.
    10
  24. 24. SISTEMA, de acordo com qualquer uma das reivindicações 21 a 23, caracterizado pelo dispositivo de processamento de dados (7) também ser configurado para identificar palavras predeterminadas nas expressões vocais.
  25. 25. SISTEMA, de acordo com qualquer uma das
    15 reivindicações 21 ou 24, caracterizado por um microfone (3, 5) ser provido por pessoa participante do diálogo, sendo que cada microfone (3, 5) é configurado de maneira tal que a intensidade de sinal da pessoa correspondente, ao falar, é maior do que a intensidade de sinal das demais pessoas.
BRPI0812652-6A 2007-07-06 2008-06-25 Método e sistema para avaliar automaticamente um diálogo BRPI0812652B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07290851A EP2012304B1 (en) 2007-07-06 2007-07-06 Methods for electronically analysing a dialogue and corresponding systems
EP07290851.0 2007-07-06
PCT/EP2008/005161 WO2009007011A1 (en) 2007-07-06 2008-06-25 Methods for electronically analysing a dialogue and corresponding systems

Publications (2)

Publication Number Publication Date
BRPI0812652A2 BRPI0812652A2 (pt) 2015-10-13
BRPI0812652B1 true BRPI0812652B1 (pt) 2020-02-18

Family

ID=38777936

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0812652-6A BRPI0812652B1 (pt) 2007-07-06 2008-06-25 Método e sistema para avaliar automaticamente um diálogo

Country Status (14)

Country Link
US (1) US8861779B2 (pt)
EP (1) EP2012304B1 (pt)
JP (2) JP2010536053A (pt)
KR (1) KR101532705B1 (pt)
AU (1) AU2008274651B2 (pt)
BR (1) BRPI0812652B1 (pt)
CA (1) CA2691424C (pt)
DK (1) DK2012304T3 (pt)
MA (1) MA31579B1 (pt)
NZ (1) NZ582481A (pt)
RU (1) RU2472219C2 (pt)
TN (1) TN2009000546A1 (pt)
WO (1) WO2009007011A1 (pt)
ZA (1) ZA201000248B (pt)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
JP5150583B2 (ja) * 2009-08-24 2013-02-20 日本電信電話株式会社 聞き役対話評価装置、聞き役対話評価方法、聞き役対話評価プログラム
AU2011279558A1 (en) * 2010-07-15 2013-03-07 The University Of Queensland A communications analysis system and process
US8825493B2 (en) * 2011-07-18 2014-09-02 At&T Intellectual Property I, L.P. Method and apparatus for social network communication over a media network
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP6363986B2 (ja) * 2015-12-24 2018-07-25 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
US10469787B1 (en) 2016-12-02 2019-11-05 Amazon Technologies, Inc. Learning multi-device controller with personalized voice control
US10268447B1 (en) 2016-12-02 2019-04-23 Amazon Technologies, Inc. Curating audio and IR commands through machine learning
US10375340B1 (en) * 2016-12-02 2019-08-06 Amazon Technologies, Inc. Personalizing the learning home multi-device controller
JP6923827B2 (ja) * 2017-11-10 2021-08-25 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
CN111542876B (zh) * 2018-01-12 2025-01-14 索尼公司 信息处理装置、信息处理方法以及程序产品
JP6572354B1 (ja) * 2018-08-10 2019-09-11 Regain Group株式会社 営業提案システム、営業提案プログラム及び営業提案方法
US11817005B2 (en) 2018-10-31 2023-11-14 International Business Machines Corporation Internet of things public speaking coach
CN110491241B (zh) * 2019-09-05 2021-08-13 河南理工大学 一种声乐发声训练装置及其方法
US11163965B2 (en) * 2019-10-11 2021-11-02 International Business Machines Corporation Internet of things group discussion coach
AU2021104873A4 (en) * 2021-02-25 2021-09-30 Gail Bower An audio-visual analysing system for automated presentation delivery feedback generation
JP7688256B2 (ja) * 2021-07-05 2025-06-04 富士通株式会社 接客支援方法およびプログラム
WO2023119671A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS591394A (ja) 1982-06-21 1984-01-06 牧野 鉄郎 粉じん防止貯蔵施設
JPH0591394A (ja) * 1991-09-26 1993-04-09 Canon Inc ビデオカメラ
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
AUPQ896000A0 (en) * 2000-07-24 2000-08-17 Seeing Machines Pty Ltd Facial image processing system
AU2002220997B2 (en) * 2000-11-23 2008-04-24 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
JP2002175538A (ja) 2000-12-08 2002-06-21 Mitsubishi Electric Corp 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP2004175538A (ja) * 2002-11-28 2004-06-24 Toshiba Elevator Co Ltd エレベータ制御装置
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
JP4510562B2 (ja) 2003-09-09 2010-07-28 富士フイルム株式会社 円中心位置検出方法および装置並びにプログラム
US7963652B2 (en) * 2003-11-14 2011-06-21 Queen's University At Kingston Method and apparatus for calibration-free eye tracking
JP4169712B2 (ja) * 2004-03-03 2008-10-22 久徳 伊藤 会話支援システム
JP2006075348A (ja) 2004-09-09 2006-03-23 Fuji Xerox Co Ltd 相互視分析装置、相互視分析方法および相互視分析プログラム
US7995717B2 (en) * 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
JP4804801B2 (ja) 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体
JP4687269B2 (ja) * 2005-06-22 2011-05-25 沖電気工業株式会社 商品販売支援装置
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
JP5317415B2 (ja) * 2006-03-27 2013-10-16 富士フイルム株式会社 画像出力装置、画像出力方法、および画像出力プログラム
JP4869978B2 (ja) 2006-03-28 2012-02-08 富士フイルム株式会社 画像記録装置、画像記録方法、および画像記録プログラム
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system

Also Published As

Publication number Publication date
DK2012304T3 (da) 2012-11-19
WO2009007011A1 (en) 2009-01-15
EP2012304A1 (en) 2009-01-07
JP5634537B2 (ja) 2014-12-03
ZA201000248B (en) 2010-09-29
CA2691424A1 (en) 2009-01-15
MA31579B1 (fr) 2010-08-02
RU2010102675A (ru) 2011-08-20
AU2008274651B2 (en) 2012-07-26
RU2472219C2 (ru) 2013-01-10
US8861779B2 (en) 2014-10-14
NZ582481A (en) 2012-08-31
US20100278377A1 (en) 2010-11-04
KR101532705B1 (ko) 2015-06-30
TN2009000546A1 (en) 2011-03-31
CA2691424C (en) 2017-03-21
KR20100056451A (ko) 2010-05-27
EP2012304B1 (en) 2012-09-05
AU2008274651A1 (en) 2009-01-15
JP2013101680A (ja) 2013-05-23
JP2010536053A (ja) 2010-11-25
BRPI0812652A2 (pt) 2015-10-13

Similar Documents

Publication Publication Date Title
BRPI0812652B1 (pt) Método e sistema para avaliar automaticamente um diálogo
CN111898881B (zh) 一种课堂教学质量评估方法、装置、设备及存储介质
Rosenblum et al. Point-light facial displays enhance comprehension of speech in noise
JP2020113197A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Rosenblum et al. Visual speech information for face recognition
CN111008542A (zh) 对象专注度分析方法、装置、电子终端及存储介质
Jiang et al. Psychophysics of the McGurk and other audiovisual speech integration effects.
JP2016012216A (ja) 会議分析装置、方法及びプログラム
Prince et al. Synching models with infants: A perceptual-level model of infant audio-visual synchrony detection
CN107625527B (zh) 一种测谎方法及装置
Fuyuno et al. Multimodal analysis of public speaking performance by EFL learners: Applying deep learning to understanding how successful speakers use facial movement
CN113517064A (zh) 一种抑郁症程度评估方法、系统、装置及存储介质
Arendsen et al. When and how well do people see the onset of gestures?
JP4775961B2 (ja) 映像を用いた発音の推定方法
CN116341983A (zh) 一种专注力评价和预警方法、系统、电子设备及介质
CN113542668A (zh) 一种基于3d摄像头的监控系统及方法
Aviezer et al. The right place at the right time: Priming facial expressions with emotional face components in developmental visual agnosia
RU2293518C1 (ru) Способ оценки искренности-неискренности говорящего
CN111507873A (zh) 一种基于声音图像联合采样的课堂参与度评估方法
JP2021110996A (ja) 発話者判別方法、発話者判別プログラム、及び、発話者判別装置
Kalbande et al. Detecting the Attention Span of Autistic Children
Priya et al. Automated Analysis and Behavioural Prediction of Interview Performance using Computer Vision
Land et al. Speaker identification using laughter in a close social network
Xiong et al. Research on the Design of an AR-Assisted Intervention System for People with Social Anxiety
CN121414192A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 18/02/2020, OBSERVADAS AS CONDICOES LEGAIS.

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 16A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2780 DE 16-04-2024 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.