FR3124593A1

FR3124593A1 - Score de réception d’un signal de visioconférence

Info

Publication number: FR3124593A1
Application number: FR2106694A
Authority: FR
Inventors: Olivier Lepetit; Christian COLETTE
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-12-30
Anticipated expiration: 2041-06-23
Also published as: FR3124593B1

Abstract

SCORE DE RÉCEPTION D’UN SIGNAL DE VISIOCONFÉRENCE La présente description concerne le traitement de données de visioconférence établie entre un premier terminal, émetteur (TER), et au moins un deuxième terminal, récepteur (TER’). Le premier terminal comportant au moins :- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence, - une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal.Le procédé prévoit un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur. Figure de l’abrégé : Figure 1

Description

SCORE DE RÉCEPTION D’UN SIGNAL DE VISIOCONFÉRENCE

La présente description concerne un traitement de données de visioconférence.

Plus particulièrement, elle concerne le traitement de données sonores acquises par un terminal d’un participant pendant une séance de visioconférence.

Typiquement, lorsqu’un participant a besoin de prendre la parole dans une séance de visioconférence, ce participant ne sait jamais si les autres participants l’entendent correctement (ou le voient correctement), ce qui l’oblige à demander aux autres participants s’ils l'entendent (ou le voient) bien. Avec l’augmentation actuelle de la fréquence des réunions en visioconférence, il est courant en effet que l’utilisateur prenant la parole soit obligé de demander aux autres participants s’il est bien entendu, ce qui coupe la conversation en cours et rend l’utilisation fastidieuse avec un mauvais ressenti de l’utilisateur et des autres participants.

La présente description vient améliorer cette situation.

Il est proposé un procédé de traitement de données de visioconférence établie entre un premier terminal, émetteur, et au moins un deuxième terminal, récepteur, le premier terminal comportant au moins :
- un capteur pour acquérir des données d’un signal de visioconférence,
- une connexion à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau, et
- une interface homme-machine à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.

Le capteur précité peut être un microphone (référence MIC de la commentée plus loin) ou une caméra (CAM) que peut comporter le premier terminal. L’interface homme-machine du premier terminal peut comporter un écran d’affichage (ECR) ou encore en variante ou en complément des haut-parleurs pour émettre un signal sonore donnant le score estimé précité.

Ainsi, grâce notamment à ce guidage par l’interface homme-machine, l’utilisateur du premier terminal peut savoir d’une part s’il est bien perçu par ses interlocuteurs pendant la séance de visioconférence sans devoir interrompre une discussion en cours en posant cette question à ses interlocuteurs, et peut d’autre part, prendre des mesures pour améliorer ce score, par exemple en se rapprochant de son microphone et/ou de sa caméra et en se positionnant face à ce ou ces capteurs. L’utilisateur du premier terminal peut en outre régler éventuellement le gain du microphone du premier terminal, par exemple pour augmenter le niveau sonore du signal de visioconférence que délivre le premier terminal. Dans une réalisation particulière décrite plus loin, le procédé peut permettre en outre d’évaluer un score de dégradation des données reçues par le deuxième terminal, et liée à des conditions de transmission via le réseau. Dans ce cas, l’utilisateur peut prendre d’autres dispositions telles que par exemple arrêter le flux vidéo et ne conserver que le flux audio à transmettre au deuxième terminal, ou encore éventuellement changer de réseau de transmission (en passant par exemple d’un connexion à une passerelle (ou « box ») internet à une connexion partagée offerte par un terminal mobile connecté à un réseau cellulaire).

Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données sonores, le score de perception précité peut être estimé via une analyse des données sonores afin d’estimer au moins un score de prépondérance d’un signal de parole de l’utilisateur du premier terminal relativement à du bruit.

Par exemple, l’analyse des données sonores peut comporter une détermination de paramètres vocaux dans un domaine spectral, propres à une fréquence fondamentale et à des formants, dans le signal de parole de l’utilisateur. Typiquement ici, la fréquence fondamentale précitée est propre à la tonalité de la voix, et les formats peuvent être caractérisés par des modulations notamment en fréquence, liées à la forme du conduit de la voix défini par la position des lèvres, de la langue, de la glotte, etc.

Dans une réalisation, l’analyse des données sonores peut comporter en outre une détermination d’un niveau sonore dudit signal de parole.

Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données d’image de l’utilisateur du premier terminal, l’estimation dudit score de perception peut comporter une analyse des données d’image pour estimer au moins un score de présence de surface de peau de l’utilisateur du premier terminal dans des images du signal de visioconférence.

Dans une première réalisation, le score de perception est estimé à partir d’une comparaison entre le signal de visioconférence transmis au deuxième terminal et un signal de référence correspondant à un signal de visioconférence de l’utilisateur, préenregistré par le capteur. Par exemple, ce signal de référence peut être préenregistré dans des conditions optimales de captation en recommandant à l’utilisateur du premier terminal de se positionner face au capteur de son terminal et à une distance optimale pour une bonne captation.

Dans une deuxième réalisation, complémentaire ou alternative à la première réalisation, l’estimation du score de perception est effectuée en particulier par le deuxième terminal, récepteur.

Ainsi, dans les première et deuxième réalisations, combinées, le signal de référence peut être enregistré auprès d’un serveur de visioconférence en correspondance d’un identifiant de l’utilisateur du premier terminal, et le deuxième terminal obtient du serveur, en fonction de l’identifiant de l’utilisateur du premier terminal des données du signal de référence, pour comparer le signal de visioconférence reçu du premier terminal au signal de référence, et de là estimer le score de perception.

Le deuxième terminal peut, dans la deuxième réalisation en particulier, renvoyer à destination du premier terminal un signal représentatif du score de perception pour piloter l’émission par l’interface homme-machine précitée du signal représentatif du score de perception (par exemple en pilotant un affichage sur l’écran ECR d’un signal représentatif du score afin d’avertir l’utilisateur du premier terminal). Le score peut être évalué de 0 à 5 par exemple et être clignotant pour attirer l’attention de l’utilisateur notamment s’il est bas. Comme présenté ci-dessus, le score peut refléter des conditions de captation par le capteur, mais aussi des conditions de transmission via le réseau. Il est proposé ci-après une réalisation permettant de distinguer les dégradations possibles du score, liées à ces conditions respectives.

Par exemple dans la réalisation où le signal de visioconférence comporte des données sonores, le premier terminal peut déterminer un premier jeu de paramètres vocaux du type précité, dans un signal que capte directement le capteur, et le deuxième terminal peut quant à lui déterminer (étape S6 de la ) un deuxième jeu de paramètres vocaux dans le signal (SIG’) par le deuxième terminal (TER’). Le deuxième terminal (TER’) peut recevoir du premier terminal (TER) ledit premier jeu de paramètres vocaux pour comparer (étape S10 de la ) le deuxième jeu au premier jeu, et de là, estimer une dégradation du signal (SIG’) reçu par le deuxième terminal par rapport au signal (SIG) capté par le capteur, cette dégradation étant alors liée à des conditions de transmission via le réseau (RES).

Dans une telle réalisation, on peut prévoir par exemple que :
- si le score de perception est inférieur à un premier score (S9), typiquement un mauvais score (de 2 ou 3 sur 5 par exemple), et
- si en outre une différence estimée entre le premier jeu et le deuxième jeu est inférieure à un deuxième score (S12), ce qui typiquement est représentatif d’une faible dégradation par le réseau,
alors le deuxième terminal (TER’) peut transmet au premier terminal (TER) un message de recommandations destiné à l’utilisateur (UT) du premier terminal (TER) pour améliorer au moins sa position par rapport audit capteur (MIC).

En effet, dans ce cas, les conditions de transmission via le réseau ne sont pas la cause principale du mauvais score de perception estimé par le deuxième terminal (TER’) et ainsi, il peut être donné des recommandations à l’utilisateur du premier terminal (TER) d’améliorer sa position par rapport au capteur de son terminal.

Par ailleurs, dans la réalisation où le signal de visioconférence comporte des données d’image, le deuxième terminal (TER’) peut:
- détecter si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (étape S21 de la ), conduisant à un affichage d’une image figée sur le deuxième terminal (TER’),
- et, dans ce cas, assigner un premier score de perception (S22).

Ce premier score peut être fixé à zéro par exemple. Il peut être affiché en clignotant (en rouge par exemple) sur le premier terminal pour que l’utilisateur comprenne vite que les dégradations de transmission via le réseau sont importantes et qu’il peut arrêter la transmission du flux vidéo pour préserver la bande passante pour le signal audio typiquement.

Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.

En particulier, ce programme informatique comporte des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d’un circuit de traitement, notamment d’un terminal.

Il est visé également un tel terminal comportant alors un circuit de traitement configuré pour mettre en œuvre au moins :
- une estimation d’un score de perception d’un signal de visioconférence reçu, et
- un pilotage d’émission par une interface homme-machine d’un signal représentatif de ce score, dans le procédé tel que présenté ci-dessus.

Il est visé également un système comportant un premier terminal, émetteur d’un signal de visioconférence, et un deuxième terminal récepteur dudit signal de visioconférence, le premier terminal comportant au moins :
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
dans lequel le deuxième terminal comporte un circuit de traitement configuré pour mettre en œuvre au moins :
- un pilotage d’émission par une interface homme-machine d’un signal représentatif d’un score de perception d’un signal de visioconférence reçu, dans le procédé présenté ci-dessus.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des figures annexées présentées à titre d’exemples non limitatifs, et sur lesquelles :

Fig. 1

illustre un système selon un mode de réalisation pour la mise en œuvre du procédé selon les présentes.

Fig. 2

illustre à titre d’exemple deux situations de captation distinctes d’un signal de visioconférence de l’utilisateur d’un terminal émetteur.

Fig. 3

illustre à titre d’exemple les étapes d’un procédé selon un mode de réalisation pour le traitement de données sonores d’un signal de visioconférence.

Fig. 4

illustre à titre d’exemple l’affichage, sur un écran du terminal émetteur, de signaux visuels représentatifs de scores de réception auprès de terminaux récepteurs respectifs.

Fig. 5

illustre à titre d’exemple les étapes d’un procédé selon un mode de réalisation pour le traitement de données d’image d’un signal de visioconférence.

En référence à la pour la mise en œuvre d’une séance de visioconférence, un terminal TER d’un utilisateur UT comporte une connexion COM à au moins un terminal distant TER’ via un réseau RES. On a illustré en outre sur la un serveur SER de visioconférence pouvant s’interfacer entre les deux terminaux TER et TER’.

Un microphone MIC du terminal TER à disposition de l’utilisateur UT peut capter un signal sonore dans son environnement. Ce signal SIG comporte éventuellement un signal de parole prononcé par l’utilisateur, ainsi qu’éventuellement du bruit (par exemple du bruit de fond ou autre bruit dans l’environnement de l’utilisateur UT). On entend par « signal de parole » typiquement un signal comportant au moins une fréquence, telle que la fréquence fondamentale liée à la tonalité de la voix de l’utilisateur, et des « formants » dans des bandes de fréquences différentes de la fréquence fondamentale et propres à des modulations qu’entrainent les positions des lèvres, de la langue, la forme du conduit vocal, etc. pour prononcer par exemple des consonnes.

Dans une première forme de réalisation, ces paramètres vocaux (fréquences caractéristiques) de l’utilisateur sont analysés par le terminal TER dans le signal capté SIG et comparés à un niveau de bruit dans le signal SIG, afin par exemple d’assigner un score d’audition possible de l’utilisateur UT. Ce score peut alors être affiché sur l’écran ECR du terminal TER pour renseigner l’utilisateur quant aux conditions de captation favorables ou non de son terminal TER, comme illustré dans les deux cas de la . Sur la figure 2A, l’utilisateur UT se tient de profil et loin du microphone MIC de son terminal TER : le score de perception est faible. En revanche, sur la figure 2B, l’utilisateur UT est face au microphone et proche de ce dernier : le score est plus élevé.

Dans un deuxième mode de réalisation, le signal SIG est encodé et transmis aux terminaux des autres participants, dont une partie au moins TER’ peut analyser dans le signal reçu SIG’ les paramètres vocaux de l’utilisateur UT prenant la parole, et comparer des valeurs de ces paramètres à un niveau de bruit dans le signal reçu SIG’ (éventuellement avec un accroissement de bruit par rapport au signal capté SIG, dû à la quantification pendant l’encodage, aux conditions de transmission et de réception du signal, etc.). Tout ou partie des terminaux TER’ des autres participants peuvent ainsi assigner un score d’audition possible de l’utilisateur UT et piloter un affichage de ce score au moins sur l’écran ECR du terminal TER de l’utilisateur UT prenant la parole, comme illustré sur la . Dans l’exemple de la , le score donné par le terminal de l’utilisateur UTA (interlocuteur de l’utilisateur UT prenant la parole) est de 3 sur 5 alors que celui donné par le terminal de l’utilisateur (interlocuteur) UTB est de 2 sur 5. La différence entre les deux scores peut s’expliquer par les conditions de réception du signal SIG’ via le réseau RES qui peuvent être différente d’un terminal récepteur à l’autre. En revanche, dans les deux cas, le score reste assez bas et l’utilisateur UT prenant la parole peut alors ajuster sa position relativement au microphone MIC de son terminal pour tenter d’augmenter ces scores.

Ainsi, dans cette deuxième forme de réalisation, les paramètres de fréquence vocale de l’utilisateur UT peuvent être déterminés en continu dans le flux de visioconférence reçu par les terminaux TER’ des autres participants à la visioconférence. Sur au moins un terminal TER’ par exemple, les fréquences et le niveau sonores reçus en provenance du terminal émetteur TER sont testés de manière logicielle. Cette estimation peut être grossière et telle que décrite en détails ci-après, et n’a pas nécessairement vocation à reconnaître spécifiquement l’utilisateur UT prenant la parole.

En faisant ce test logiciel, certains au moins des terminaux récepteurs peuvent être configurés par exemple pour ne pas activer leurs haut-parleurs, de sorte que les utilisateurs de ces terminaux n’ont pas de son tant que le score de détection du signal de parole dans le signal reçu SIG’ n’est pas calculé. Ensuite, ces terminaux peuvent calculer le score de réception du signal de parole basé sur l’analyse des paramètres spectraux, typiquement de fréquence vocale et de niveau reçu.

Le score évalué sur ces terminaux, par exemple sur une échelle de 0 à 5, est renvoyé au terminal TER de l’utilisateur UT prenant la parole, de sorte que ce dernier UT puisse disposer en direct d’un affichage visuel de jauges de réception de sa voix sur les différents terminaux des participants à la visioconférence comme illustré sur la , ce qui lui est alors utile lorsqu’il prend la parole.

Dans un exemple de réalisation détaillé ci-après, les paramètres vocaux de l’utilisateur sont issus de l’analyse spectrale (analyse en fréquence du signal) illustrée par l’ordinogramme de la .

Un terminal (émetteur selon le premier mode de réalisation, ou récepteur selon le deuxième mode de réalisation) calcule au préalable les paramètres vocaux (fréquences caractéristiques) de l’utilisateur de manière grossière. Les paramètres vocaux de l’utilisateur UT, notés (Pi)_Uci-après, sont issus de l’analyse en fréquence du signal (SIG ou SIG’ respectivement).

Dans une première étape S1, le signal audio est filtré avec un passe-bande fréquentiel pour ne garder que les fréquences de la voix humaine allant de 100 à 300 Hertz.

Dans une deuxième étape S2, une analyse spectrale du signal (analyse en fréquence du signal) est effectuée dans le but de déterminer son contenu fréquentiel (par exemple après une transformée en sous-bandes).

Les paramètres vocaux (Pi)_Ude l’utilisateur UT sont ainsi issus de cette analyse spectrale à l’étape S3.

Les caractéristiques extraites sont en relation avec le contenu fréquentiel de la parole, la forme du conduit vocal (position des lèvres, de la langue, de la glotte etc.), l’intonation, etc. Elles concernent les fréquences les plus présentes dans la voix, ainsi qu’une information de transition entre les fréquences à chaque instant. Pour au moins une trame de parole, on peut extraire ainsi par exemple un vecteur de caractéristiques qui peuvent être des coefficients dits « cepstraux » (transformée de Fourier inverse d’un module spectral exprimé en échelle logarithmique), leurs dérivées, l’énergie du signal, et/ou autres.

Ces caractéristiques sont donc liées au contenu fréquentiel du signal de l’utilisateur et correspondent aux paramètres vocaux de celui-ci.

Dans une réalisation particulière, les paramètres vocaux de l’utilisateur UT peuvent être déterminés dans une phase préalable à tout usage de visioconférence. Alternativement, ils peuvent aussi être déterminés lors des premières prises de parole de l’utilisateur UT dans une première séance de visioconférence. Ces paramètres notés (P₀)_Upeuvent alors, dans ce cas alternatif, être déterminés d’une manière transparente pour l’utilisateur UT. Plus particulièrement, dans cette phase préalable, il est possible à l’étape S4 d’enregistrer un échantillon (de quelques secondes par exemple) de la voix de l’utilisateur UT. Au cours du calcul des paramètres (P₀)_Usur ce premier échantillon, il est alors possible de déterminer aussi le niveau sonore moyen de l’utilisateur UT. L’ensemble de ces paramètres notés (P₀)_U, propres à l’utilisateur UT et déterminés sur un signal capté et reçu correctement, est stocké à l’étape S5 comme premier jeu de paramètres de référence. Par exemple, ce jeu de paramètres vocaux (P₀)_Ude l’utilisateur UT peuvent être envoyés au serveur de visioconférence SER pour stockage, en correspondance d’un identifiant Id(UT) de l’utilisateur (nom de l’utilisateur UT, ou adresse IP de son terminal ou autre).

En phase d’utilisation, les paramètres (P₀)_Uissus de l’échantillon vocal de l’utilisateur émetteur UT à l’étape S5, ainsi qu’un identifiant de l’utilisateur UT (nom, adresse IP ou autre), sont par exemple transmis par le serveur SER via le réseau RES à tout ou partie des terminaux des participants à la visioconférence. Par exemple, un terminal récepteur TER’ en communication avec le terminal émetteur TER de l’utilisateur UT peut transmettre au serveur l’identifiant Id(UT) de l’utilisateur du terminal émetteur pour récupérer les paramètres (P₀)_Udu signal de référence préenregistré.

Ensuite, le test de ces paramètres spectraux est effectué sur le signal reçu par une partie au moins de ces terminaux, comme suit.

Un terminal récepteur peut tester en continu de manière logicielle les fréquences et le niveau sonores reçus en provenance du terminal émetteur de l’utilisateur UT, en calculant, sur le signal reçu SIG’, les paramètres vocaux [(Pi)_U]_rà l’étape S6. Puis il est possible de comparer à l’étape S7 ces paramètres vocaux reçus aux gabarits de fréquences théoriques de l’utilisateur UT préalablement enregistrés auprès du serveur de visioconférence.

Cette opération S7 peut être mise en œuvre en comparant les paramètres vocaux calculés au niveau du terminal sur le signal SIG’, aux coefficients de fréquence référence de l’utilisateur que ce terminal peut récupérer du serveur de visioconférence grâce à l’identifiant précité de l’utilisateur UT. Ce terminal compare ainsi les valeurs de paramètres [(Pi)_U]_rcalculées au niveau du terminal et qui reflètent les altérations subies par le signal vocal au travers de la transmission via le réseau, aux paramètres théoriques (P₀)_Udonnés par le serveur de la visioconférence. Les deux séries de valeurs de paramètres ne sont pas identiques, car la transmission via le réseau peut dégrader la voix de l’utilisateur UT notamment par la perte de paquets d’octets, de perte de fréquences audio, etc.

Le terminal récepteur TER’ peut également tester de manière logicielle ses haut-parleurs (tester éventuellement leur activité). A l’étape S8, le terminal TER’ peut en outre calculer un score (référence « SCORE1 » de la ) de réception du signal de l’utilisateur UT, basé sur l’analyse des paramètres et niveaux reçus sur chacun des paramètres spectraux, reçus [(Pi)_U]_ret de référence (P0)_U, qui peut être évalué par exemple comme suit :

Score de qualité audio(U) = SCORE 1 (U) = f ([(Pi)_U]_r- (P₀)_U)

Le score évalué en fonction du temps sur au moins un terminal TER’ de participant à la conférence, sur une échelle de 0 à 5 par exemple, peut alors être renvoyé à l’étape S14 au terminal de l’utilisateur UT en vue d’un affichage sur l’écran ECR. L’utilisateur UT dispose ainsi en direct de jauges de réception de sa voix sur différents terminaux des participants à la visioconférence.

Dans une réalisation où typiquement ce score de perception est faible à l’issue du test S9 (par exemple inférieur ou égal à un seuil THR1 tel que par exemple 3 sur 5), il est possible d’évaluer en outre si la dégradation est liée à de mauvaises conditions du réseau. Dans cette réalisation, il est alors possible d’évaluer aussi un deuxième score SCORE2 de dégradation du signal original SIG, liée aux conditions du réseau RES, comme suit. A l’étape S10, le terminal récepteur TER’ récupère (sur requête auprès du terminal émetteur TER) les paramètres (Pi)_Uque peut évaluer le terminal émetteur TER directement à partir du signal SIG, pour comparer ces paramètres (Pi)_Uaux paramètres [(Pi)_U]_rdéterminés par le terminal récepteur TER’ sur le signal reçu SIG’. A l’étape S11, le terminal récepteur TER’ peut évaluer le score SCORE2 de dégradation liée aux conditions du réseau comme suit :

SCORE2 (U) = f [ [(Pi)_U]_r- (Pi)_U]

Ensuite, à l’étape S12, si ce score SCORE2 est inférieur à un deuxième seuil THR2, c’est-à-dire que la différence entre :
- les paramètres (Pi)_Utirés du signal original SIG, et
- les paramètres [(Pi)_U]_rtirés du signal reçus SIG’,
n’est pas réellement significative (pas supérieure au seuil THR2 en valeur absolue par exemple), alors la dégradation du signal SIG par sa transmission via le réseau n’est pas la cause du mauvais score de perception SCORE1 calculé à l’étape S8.

Dans ce cas (flèche OK en sortie du test S12), le terminal récepteur TER’ peut transmettre au terminal émetteur TER un message d’activation d’une interface homme machine du terminal émetteur TER (par exemple un affichage sur l’écran ECR) pour suggérer à l’étape S13, des recommandations destinées à l’utilisateur UT telles que :
- s’approcher de son microphone MIC, ou
- augmenter le gain de son microphone MIC (via une carte son de son terminal TER), et/ou autres.

Dans un mode de réalisation complémentaire ou alternatif, une méthode similaire peut être mise en œuvre avec l’image de l’utilisateur UT captée par une caméra CAM que peut comporter en outre le terminal émetteur TER.

A titre d’exemple, il peut être prévu de mesurer si l’image est de profil, en estimant si la surface de peau apparente est inférieure à une surface de peau théorique de l’utilisateur UT lorsqu’il est face à la caméra de son terminal.

Les paramètres propres à l’utilisateur UT sont ici des positions et paramètres géométriques des yeux, du nez, de la mâchoire, des sourcils de l’utilisateur UT qui peuvent être obtenus par des techniques de reconnaissance faciale. Les paramètres initiaux d’image, notés ici (PP₀)_U, peuvent être calculés au préalable (et stockés sur le serveur de visioconférence SER indexés par un identifiant de l’utilisateur UT) en demandant par exemple à l’utilisateur de se tenir droit face à la caméra de son terminal. Ces paramètres peuvent par exemple quantifier des surfaces de peau de l’utilisateur UT apparentes à l’image.

Les paramètres d’image correspondant, couramment obtenus par un terminal tiers et notés [(PPi)_U]_rsont calculés sur un terminal récepteur à partir de l’image de l’utilisateur UT captée à un instant courant t par la caméra du terminal émetteur TER de l’utilisateur UT et envoyée par le réseau au terminal récepteur.

Un terminal récepteur TER’ d’un participant peut ainsi calculer un score de réception de l’image de l’utilisateur UT basé sur l’analyse de ces paramètres :

Score de qualité vidéo (U) = f ( [(PPi)_U]_r- (PP₀)_U)

Le score de qualité du signal d’image (vidéo) en fonction du temps t peut être alors calibré sur une échelle de 0 à 5.

Il est présenté ci-après un exemple de réalisation relatif aux conditions de réception du signal vidéo par le terminal récepteur TER’ en référence à la . Lors d'une première étape S20, le terminal récepteur TER’ décode par exemple le signal vidéo reçu SIG’ et peut alors déterminer si des données d’images ne sont pas reçues (car des trames de données vidéo correspondantes ont été perdues pendant la transmission via le réseau typiquement). Ainsi, dans ce cas, l’image de l’utilisateur UT du terminal émetteur TER apparait figée sur l’écran du terminal récepteur TER’ (flèche OK en sortie du test S21). Il peut être déterminé alors dans ce cas que le score de perception assigné est de zéro à l’étape S22 et cette donnée peut être transmise du terminal récepteur TER’ au terminal émetteur TER pour afficher à l’étape S24, sur l’écran ECR du terminal émetteur TER, un score de perception vidéo de « 0 », clignotant par exemple, et signifiant que l’image de l’utilisateur UT apparait figée pour son interlocuteur.

En revanche, si les données d’images sont bien reçues par le terminal récepteur TER’, ce dernier peut évaluer à l’étape S23 un score de qualité vidéo comme défini précédemment et transmettre les données de ce score de perception vidéo au terminal émetteur TER pour affichage à l’étape S24.

La mise en œuvre du traitement ci-avant permet ainsi à l’utilisateur, du fait de l’affichage du score de réception des données de visioconférence, de mieux se positionner par rapport au microphone et/ou à la caméra de son terminal, sans interrompre la conversation en cours en demandant aux participants s’il est entendu ou vu. Une telle réalisation participe ainsi à l’amélioration de l'expérience utilisateur dans tout type de visioconférence.

Claims

1. Procédé de traitement de données de visioconférence établie entre un premier terminal, émetteur (TER), et au moins un deuxième terminal, récepteur (TER’), le premier terminal comportant au moins :
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission (S14) par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.

2. Procédé selon la revendication 1, dans lequel les données du signal de visioconférence acquises par le capteur comportent au moins des données sonores, et dans lequel ledit score de perception est estimé via une analyse des données sonores (S2) afin d’estimer au moins un score de prépondérance d’un signal de parole de l’utilisateur du premier terminal relativement à du bruit.

3. Procédé selon la revendication 2, dans lequel l’analyse des données sonores comporte une détermination (S3 ; S6) de paramètres vocaux dans un domaine spectral, propres à une fréquence fondamentale et à des formants, dans le signal de parole de l’utilisateur.

4. Procédé selon la revendication 3, dans lequel l’analyse des données sonores comporte en outre une détermination d’un niveau sonore dudit signal de parole.

5. Procédé selon la revendication 1, dans lequel les données du signal de visioconférence acquises par le capteur comportent au moins des données d’image de l’utilisateur du premier terminal, et dans lequel l’estimation dudit score de perception comporte une analyse des données d’image (S20, S21) pour estimer au moins un score (S23) de présence de surface de peau de l’utilisateur du premier terminal dans des images du signal de visioconférence.

6. Procédé selon l'une des revendications précédentes, dans lequel le score de perception est estimé à partir d’une comparaison entre ledit signal de visioconférence transmis au deuxième terminal et un signal de référence correspondant à un signal de visioconférence de l’utilisateur, préenregistré par le capteur.

7. Procédé selon l'une des revendications précédentes, dans lequel l’estimation du score de perception est effectuée par le deuxième terminal, récepteur (TER’).

8. Procédé selon la revendication 6, prise en combinaison avec la revendication 7, dans lequel le signal de référence est enregistré (S4, S5) auprès d’un serveur de visioconférence en correspondance d’un identifiant de l’utilisateur du premier terminal, et dans lequel le deuxième terminal (TER’) obtient du serveur (SER), en fonction de l’identifiant de l’utilisateur du premier terminal (TER) des données dudit signal de référence, pour comparer (S7) le signal de visioconférence reçu du premier terminal au signal de référence, et de là estimer ledit score de perception (S8).

9. Procédé selon l’une des revendications 7 et 8, dans lequel le deuxième terminal renvoie (S14) à destination du premier terminal un signal représentatif dudit score de perception pour piloter l’émission par ladite interface homme-machine dudit signal représentatif du score de perception.

10. Procédé selon l’une des revendications 7 à 9, prises en combinaison avec la revendication 5, dans lequel le deuxième terminal (TER’) :
- détecte si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (S21), conduisant à un affichage d’une image figée sur le deuxième terminal (TER’),
- et, dans ce cas, assigne un premier score de perception (S22).