FR2940576A1 - Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes - Google Patents
Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes Download PDFInfo
- Publication number
- FR2940576A1 FR2940576A1 FR0858833A FR0858833A FR2940576A1 FR 2940576 A1 FR2940576 A1 FR 2940576A1 FR 0858833 A FR0858833 A FR 0858833A FR 0858833 A FR0858833 A FR 0858833A FR 2940576 A1 FR2940576 A1 FR 2940576A1
- Authority
- FR
- France
- Prior art keywords
- images
- motion
- compensated
- coding
- int
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 13
- 230000001427 coherent effect Effects 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007747 plating Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/107—Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/523—Motion estimation or motion compensation with sub-pixel accuracy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/527—Global motion vector estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
L'invention a pour objet un procédé de codage vidéo d'au moins une séquence d'images numériques, les images de ladite séquence pouvant être des images intermédiaires (INT) ou des images clés (IC0, IC1) utilisées comme références pour le codage par compensation de mouvement des images intermédiaires (INT). Les images intermédiaires (INT) sont codées par zone en se basant sur une compensation globale de mouvement GMC (200) dans les sens avant (GM1) et arrière (GM0) à partir des images clés (IC0, IC1), les zones de l'image intermédiaire (INT) étant construites soit par fusion (205) des zones des images clés compensées en mouvement global, soit par codage conventionnel (203), le choix entre fusion et codage conventionnel étant réalisé (201, 202, 204) suivant le résultat d'une mesure de cohérence entre les signaux des zones des images clés compensées en mouvement global. L'invention a aussi pour objets un dispositif de codage vidéo et un dispositif de décodage vidéo.
Description
Procédé de codage vidéo basé sur la compensation de mouvement global et dispositifs apparentés L'invention concerne un procédé de codage vidéo basé sur la compensation de mouvement global et un dispositif mettant en oeuvre le procédé. Elle s'applique notamment aux domaines de la transmission, de l'analyse, du décodage et du transcodage de vidéos.
Une séquence vidéo comporte de par sa nature même une importante redondance statistique tant dans le domaine temporel que spatial. La volonté d'utiliser toujours plus efficacement la bande passante des médias de transmissions sur lesquels transitent ces séquences et les objectifs de réduction du coût de leur stockage ont posé très tôt la question de la compression vidéo. Les techniques classiques de compression vidéo peuvent habituellement se diviser en deux étapes. La première vise à réduire la redondance spatiale et pour cela à compresser une image fixe. L'image est tout d'abord divisée en blocs de pixels (de 4x4 ou 8x8 selon, par exemple, les standards MPEG-1/2/4), un passage dans le domaine fréquentiel puis une quantification permettent d'approximer ou de supprimer les hautes fréquences auxquelles l'oeil est moins sensible, et enfin les données quantifiées sont codées entropiquement. La seconde a pour but de réduire la redondance temporelle. Cette technique permet de prédire une image, appelée image intermédiaire dans la suite de la description, à partir d'une ou plusieurs autre(s) image(s) de référence(s) précédemment décodée(s) au sein de la même séquence. En d'autres termes, une estimation de mouvement est effectuée. Cette technique consiste à chercher dans ces images de référence le bloc qui correspond le mieux à celui à prédire, et seul est conservé un vecteur estimation de mouvement correspondant au déplacement du bloc entre les deux images ainsi qu'une erreur résiduelle permettant de raffiner le rendu visuel. Afin d'améliorer les performances de codage, notamment à bas et moyen débit, et donc obtenir pour des débits équivalents une meilleure qualité visuelle de la vidéo décodée, une technique appelée compensation du mouvement global, désignée dans la suite de la description par l'acronyme GMC venant de l'expression anglo-saxonne Global Motion Compensation , a été proposée. De nombreux modèles de mouvement globaux pour la compression vidéo existent dans l'état de l'art. Ce type de modèles a notamment été introduit dans le standard MPEG-4 Visual , appelé également MPEG-4 part 2 ainsi que dans les standards DivX ou Dirac. Dans les approches développées, pour une image donnée, le mouvement global est estimé sur l'image entière ou par région, et ce entre ladite image et ses images de référence avec au moins un mouvement global par image de référence. Les images de référence compensées par le mouvement global associé deviennent alors des candidates possibles pour la prédiction temporelle, au même titre que les images de références compensées par des mouvements non globaux, c'est-à-dire avec les méthodes classiques de codage menant à des vecteurs de mouvement par bloc. L'intérêt de l'usage du GMC est une réduction significative du coût de l'information de mouvement sur les zones de l'image où elle s'applique. La prédiction temporelle est également améliorée (mouvement au pixel) par rapport à une représentation du mouvement basée sur un vecteur de translation par bloc.
Dans un schéma de codage conventionnel, les images intermédiaires sont habituellement appelées images bidirectionnelles. Dans ce type de schémas, la construction de la prédiction temporelle basée sur la GMC, même en cas de prédiction bi-directionnelle employant un mélange de prédiction avant et arrière, la compensation ne s'applique habituellement que dans un sens, avant et/ou arrière, ce qui peut générer des incohérences temporelles entre les versions compensées avant et arrière et dégrader le rendu visuel par des fluctuations temporelles sur les zones concernées. Par ailleurs, des images intermédiaires utilisant en référence des zones reconstruites à partir d'un mouvement global n'exploitent pas réellement cette information d'incohérence temporelle entre les prédictions avant et arrière. Un autre inconvénient des schémas de codage existant est que les zones exploitant un mouvement global doivent être signalées. Cela implique typiquement la nécessité de coder une information pour chaque bloc de l'image. De plus un résidu de codage est en général codé et si ce n'est pas le cas, il faut le signaler au décodeur. Il est en outre important de noter que le procédé de décodage basé sur la technique GMC est totalement déterminé et non adaptable à la complexité du terminal réalisant le décodage du flux vidéo.
Un but de l'invention est notamment de pallier les inconvénients précités. A cet effet l'invention a pour objet un procédé de codage vidéo d'au moins une séquence d'images numériques, les images de ladite séquence pouvant être des images intermédiaires ou des images clés utilisées comme références pour le codage par compensation de mouvement des images intermédiaires. Les images intermédiaires sont codées par zone en se basant sur une compensation globale de mouvement GMC dans les sens avant et arrière à partir des images clés, les zones de l'image intermédiaire étant construites soit par fusion des zones des images clés compensées en mouvement global, soit par codage conventionnel, le choix entre fusion et codage conventionnel étant réalisé suivant le résultat d'une mesure de cohérence entre les signaux des zones des images clés compensées en mouvement global.
Par exemple, les images de référence sont codées avant les images intermédiaires et au moins une carte de segmentation associée auxdites images est calculée de manière à pouvoir distinguer les pixels de type GMC des autres pixels de ces images. Les paramètres de mouvement global peuvent être estimés et codés 25 avant le codage des images intermédiaires. Selon un aspect de l'invention, des images clés compensées en mouvement sont déduites des images de clés en utilisant au moins les paramètres de mouvement global. Des cartes de segmentation associées aux images clés compensées 30 en mouvement peuvent être déduites des cartes de segmentation associées aux images clés par transpositions en utilisant au moins les paramètres d'estimation de mouvement. L'image intermédiaire à coder ainsi que les images clés compensées en mouvement utilisées pour son codage sont, par exemple, découpées en 35 zones de traitements, les zones de traitements de l'image intermédiaire à coder correspondant aux zones de traitement des images clés compensées en mouvement. Selon un mode de réalisation de l'invention, les zones de traitement des images clés compensées en mouvement sont classées en fonction de leur proportion de pixels GMC, ladite proportion étant comparée à un seuil r1 compris entre 0 et 1, une zone étant classée GMC lorsque ladite proportion est supérieure à i et classée non-GMC dans le cas contraire. Selon un autre mode de mise en oeuvre de l'invention, la proportion de pixels GMC par zone des images clés compensées en mouvement est déduite des cartes de segmentation. Si au moins une zone d'une des images compensées en mouvement et utilisées comme références pour le codage de la zone à coder d'une image intermédiaire est classée non-GMC , un codage conventionnel de ladite zone peut être effectué.
Selon un autre aspect de l'invention, si les zones des images compensées en mouvement utilisées comme références pour le codage d'une zone d'une image intermédiaire sont classées GMC , la cohérence desdites zones est analysée par comparaison des signaux des zones des images clés compensées en mouvement global.
Les zones des images clés compensées en mouvement par la prise en compte des paramètres de compensation global dont la cohérence doit être analysée sont, par exemple, compensées en mouvement une seconde fois à l'aide d'un vecteur de translation d'une précision au pixel près. Le vecteur de translation de la seconde compensation de mouvement peut être calculé à l'aide d'un estimateur de type block matching . Selon un mode de réalisation, l'erreur quadratique moyenne D de la zone à coder est calculée et est comparée à un seuil prédéfini de manière à distinguer les zones à faible gradient local des zones à fort gradient local, la zone étant considérée à faible gradient local et classée cohérente si D est inférieur à et étant considérée à fort gradient local dans le cas contraire. Une borne supérieur S de l'erreur quadratique moyenne D est calculée, par exemple, en utilisant les valeurs des gradients locaux de la zone courante et que l'erreur quadratique moyenne D est comparée à ladite borne S, la zone courante étant classée cohérente lorsque D est inférieur à cette borne et non cohérente dans le cas contraire.
Lorsque la zone à coder est classée cohérente , la fusion des zones correspondantes des images clés compensées en mouvement peut être réalisée. La fusion est réalisée, par exemple, en utilisant un algorithme de type 5 Graph cut . Selon un mode de réalisation, lorsque la zone en cours de traitement est classée non cohérente , le codage conventionnel de ladite zone est réalisé. L'invention a aussi pour objet un dispositif de codage vidéo d'au moins 10 une séquence d'images numériques, les images de ladite séquence pouvant être des images intermédiaires ou des images clés utilisées comme références pour le codage par compensation de mouvement des images intermédiaires. Le dispositif de codage comporte des moyens pour coder les images intermédiaires par zone de traitement en se basant sur une 15 compensation globale de mouvement GMC dans les sens avant et arrière à partir des images clés, les zones de traitement de l'image intermédiaire étant codées soit par fusion des zones correspondantes des images clés, soit par codage conventionnel et pour choisir automatiquement entre fusion et codage conventionnel par analyse de la zone à coder. 20 L'invention a aussi pour objet un dispositif de décodage vidéo d'au moins une séquence d'images numériques préalablement codée en utilisant le procédé de codage selon l'invention, les images de ladite séquence pouvant être des images intermédiaires ou des images clés utilisées comme références pour le décodage par compensation de mouvement des images 25 intermédiaires. Les images intermédiaires sont décodées par zone en se basant sur une compensation globale de mouvement GMC dans les sens avant et arrière à partir des images clés décodées, les zones de l'image intermédiaire étant reconstruites soit par fusion des zones des images clés compensées en mouvement global, soit par décodage conventionnel, le 30 choix entre fusion et décodage conventionnel étant réalisé suivant le résultat d'une mesure de cohérence entre les signaux des zones des images clés compensées en mouvement global.
L'invention a notamment comme avantage d'améliorer les 35 performances de codage, par réduction du débit requis tout en améliorant potentiellement la qualité visuelle de la séquence vidéo codée/décodée. Sur des séquences où seuls quelques objets d'avant plan bougent dans la scène, l'utilisation de ce procédé induit une réduction signification du débit du flux vidéo compressé par rapport aux techniques existantes. Par ailleurs, les artéfacts visuels dus à des fluctuations temporelles du signal sur ces zones sont limités par l'emploi du procédé.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'aide de la description qui suit donnée à titre illustratif et non limitatif, faite en 10 regard des dessins annexés parmi lesquels :
- la figure 1 illustre le principe de dépendance temporelle entre images clés et images intermédiaires ; - la figure 2 donne un exemple de mise en oeuvre du procédé 15 de codage selon l'invention ; - la figure 3 présente une méthode pour tester la cohérence d'une zone sur deux images différentes.
Le figure 1 illustre le principe de dépendance temporelle entre images 20 de référence, appelées images clés dans la suite de la description, et images intermédiaires. L'exemple de la figure considère un groupe d'images, habituellement désigné par l'acronyme GOP venant de l'expression anglo-saxonne Group of Picture , formé de deux images clés ICO, ICI et encadrant une ou des images intermédiaires INT. Le procédé de codage 25 selon l'invention opère sur des zones de traitement pouvant correspondre, par exemples, à un ou plusieurs blocs ou macroblocs. Les images clés du GOP ICO et ICI sont codées en premier. Le codage est effectué selon une approche conventionnelle, les outils de codage basés GMC pouvant être également mis en oeuvre. Ainsi des zones 30 d'une image clé peuvent être codées ou servir de référence, avec une prédiction GMC et d'autres non. Il est alors possible de déduire au niveau du codeur et du décodeur une carte de segmentation binaire indiquant si une zone, et donc les pixels qui la composent, est de type GMC ou non. L'invention porte notamment sur le codage des images intermédiaires 35 INT. Pour une zone à coder d'une image intermédiaire donnée, il est supposé pour la suite de la description que les paramètres de mouvement global vers l'avant et vers l'arrière notés GMO et GM1 ont été préalablement estimés et codés. Il est également pris comme hypothèse que les images clés ICO et ICI sont reconstruites afin de servir d'images de référence, les images intermédiaires déjà codées pouvant aussi être disponibles comme images de référence. Enfin, une carte de segmentation binaire est calculée pour chaque image par le module de décision de l'encodeur et indique pour chaque pixel de l'image de référence s'il est de type GMC ou non.
La figure 2 donne un exemple de mise en oeuvre du procédé de codage selon l'invention. Le procédé de codage peut être décomposé en plusieurs étapes. Une première étape 200 réalise la compensation de mouvement global GMC des images clés ICO et ICI. Leurs cartes de segmentation associées SO et S1, déterminées préalablement par un module de décision de l'encodeur, ou par décodage des modes de codage au décodeur, sont utilisées en entrée, ainsi que les paramètres de mouvement GMO et GM1 déterminés préalablement par un module d'estimation des paramètres de mouvement 208. Les images IGO et IG1 sont alors obtenues, ces dernières correspondant respectivement aux images ICO et ICI compensées en mouvement suivant les modèles de mouvement GMO et GM1. Par ailleurs, deux cartes de segmentation SGO et SG1 associées aux images IGO et IG1 sont transposées à partir des cartes de segmentation SO et S1 par compensation de mouvement suivant les modèles de mouvement GMO et GM1 L'image intermédiaire à coder est découpée en zones de traitement. Ce découpage peut être automatique ou adaptatif. A titre d'exemple, une zone de traitement peut correspondre à un macrobloc de l'image à coder. Une succession d'étapes est ensuite appliquée pour chacune des zones de l'image intermédiaire à coder. Dans la suite de la description, la zone en cours de traitement est appelée zone courante . Un classification 201 des zones correspondantes est réalisée en s'appuyant sur les cartes de segmentation SGO et SG1. Chaque zone est associée, par exemple, à une classe parmi deux possibles. Chacune desdites classes identifie respectivement une zone GMC ou non- GMC . Ainsi, pour la zone courante, une variable CO associée à IGO porte cette information de classe. De la même manière, une variable Cl est associée à IG1. A titre d'exemple, les deux classes peuvent être définies en dénombrant la proportion de pixels classés GMC de l'image dans la zone considérée et de comparer cette proportion à un seuil donné n compris entre 0 et 1, et ce à l'aide des cartes de segmentation SGO et SG1. Il est aussi possible de ne pas utiliser les cartes SO, S1, SGO et SG1. Dans ce cas, CO et Cl sont, par exemple, systématiquement considérées comme GMC .
Il est ensuite vérifié 202 si CO et Cl sont de type GMC. Dans cet exemple de mise en oeuvre, si CO ou Cl ne sont pas de type GMC , un codage conventionnel 203 de la zone est effectué. Ce codage conventionnel peut être, par exemple, de type prédiction spatiale, prédiction temporelle monodirectionnelle ou prédiction temporelle bidirectionnelle. Le codage conventionnel peut toujours employer la prédiction GMC, mais ceci sera un mode parmi d'autres devant être signalé au décodeur dans le flux binaire. Lorsque CO et Cl sont de type GMC , la cohérence dans la zone considérée des images IGO et IG1 est testée 204. La notion de cohérence entre zone d'images est détaillée plus loin dans la description. Si les contenus desdites images sont considérés cohérents, le signal est généré par fusion 205 de la zone traité de IGO et IG1, ce qui implique qu'aucune information n'a besoin d'être codée. Les zones construites par fusion ne nécessitent le codage d'aucune information additionnelle et correspondent donc à un coût de codage nul, ce qui est évidemment très avantageux si lesdites zones sont nombreuses. Le mode de codage ainsi mis en oeuvre est un mode implicite, qui ne nécessite aucune information de signalisation. Ce mode de codage, testé côté codeur, est aussi testé côté décodeur. Le décodeur est alors lui-même capable, sans information de signalisation, de savoir si la zone courante est construite selon ce mode de codage GMC implicite ou non. Si les contenus sont sensiblement différents, et donc que la cohérence n'est pas vérifiée, un codage conventionnel 203 de la zone est effectué. La prédiction GMC peut toujours être utilisée comme un des modes de prédiction possibles.
L'image intermédiaire codée en utilisant le procédé selon l'invention est donc composée de zones prédites 207 ne pouvant être utilisées comme référence pour le codage d'autres images intermédiaires et de zones reconstruites 206 pouvant être, quant à elle, utilisées comme références pour le codage d'autres images.
Le procédé de codage, décrit ci-dessus côté encodeur, peut s'appliquer symétriquement au décodeur. Les images clés ICO et ICI du GOP sont décodées en premier. Le décodeur, à partir des modes de codage décodés des images clés, construit pour chaque image clé ICO et ICI une carte de segmentation binaire SO et S1 indiquant si une zone, et donc les pixels qui la composent, est de type GMC ou non. L'invention porte notamment sur le décodage des images intermédiaires INT. Pour une zone à décoder d'une image intermédiaire donnée, les paramètres de mouvement global vers l'avant et vers l'arrière notés GMO et GM1 sont préalablement décodés. Le procédé de décodage peut être décomposé en plusieurs étapes. Une première étape réalise la compensation de mouvement global GMC des images clés ICO et ICI. Les images IGO et IG1 sont alors obtenues, ces dernières correspondant respectivement aux images ICO et ICI compensées en mouvement suivant les modèles de mouvement GMO et GM1. Par ailleurs, deux cartes de segmentation SGO et SG1 associées aux images IGO et IG1 sont transposées à partir des cartes de segmentation SO et S1 par compensation de mouvement suivant les modèles de mouvement GMO et GM1. L'image intermédiaire à décoder est découpée en zones de traitement. Ce découpage peut être automatique ou adaptatif. A titre d'exemple, une zone de traitement peut correspondre à un macrobloc de l'image à coder. Une succession d'étapes est ensuite appliquée pour 3o chacune des zones de l'image intermédiaire à coder. Un classification des zones correspondantes est réalisée en s'appuyant sur les cartes de segmentation SGO et SG1. Il est ensuite vérifié si CO et Cl sont de type GMC. Dans cet exemple de mise en oeuvre, si CO ou Cl ne sont pas de type GMC , un décodage 35 des informations de codage (mode de codage, paramètres associés û par exemple direction de prédiction intra, vecteurs mouvements - résidu de prédiction) pour la zone courante est effectué. Ces informations doivent donc alors être présentes dans le flux binaire. Lorsque CO et Cl sont de type GMC , la cohérence dans la zone 5 considérée des images IGO et IG1 est testée. Si les contenus desdites images sont considérés cohérents, le signal est généré par fusion de la zone traité de IGO et IG1, ce qui implique qu'aucune information n'a besoin d'être décodée. Les zones construites par fusion ne nécessitent le décodage d'aucune information additionnelle. 10 Si les contenus sont sensiblement différents, et donc que la cohérence n'est pas vérifiée, un décodage des informations de codage est effectué. Ces informations doivent donc alors être présentes dans le flux binaire.
15 La figure 3 présente une méthode pour tester la cohérence d'une zone sur deux images différentes. La notion de cohérence entre images a été abordée avec la figure précédente. La mesure de cohérence des deux signaux IGO et IG1 dans la zone courante peut se faire par des mesures classiques de distorsion, telle que l'erreur quadratique moyenne. Cependant, 20 du fait des limitations possibles de l'estimateur de mouvement global et de la quantification nécessaire lors du codage des paramètres de mouvement global, les signaux IGO et IG1 ne seront jamais parfaitement alignés et un léger décalage a de très grandes chances d'apparaître, même si les deux signaux sont jugés cohérents. Ce décalage peut être d'autant plus important 25 que le modèle de mouvement s'éloigne d'un modèle translationnel, c'est-à-dire d'un modèle où tous les pixels d'une zone se déplacent selon le même vecteur. Dans ce cas, le mouvement dépend de la position du pixel. Lorsque l'on est loin du point d'origine, une erreur infime d'une composante non translationnelle du modèle va se traduire par un écart important du vecteur 30 mouvement issu du modèle. L'erreur quadratique moyenne seule ne permet pas de prendre en compte ce possible décalage. Afin de prendre en compte ce décalage, une approche est proposée dans le cadre de l'invention. Une première étape 300 a notamment pour objectif un recalage au 35 pixel de IG1 par compensation de mouvement locale de IG1 par rapport à IGO. Cette compensation est faite avec un vecteur de translation, d'une précision au pixel, et avec une excursion maximum excmax limitée. L'excursion vaut par exemple 2 ou 3 pixels. Pour ce faire un estimateur classique de type block-matching peut être utilisé. Ce type d'algorithme a pour but de rechercher un vecteur minimisant l'erreur quadratique moyenne. Ceci est mis en oeuvre afin de corriger les décalages importants dus aux erreurs du modèle de mouvement. Lors d'une seconde étape, l'erreur quadratique moyenne est calculée 301 sur la zone courante. Cette erreur D peut s'exprimer avec 10 l'expression suivante :
D = I (IGO[p]- IG1,n [p])2 (1) pE Z
dans laquelle Z désigne la zone considérée, p un pixel et IG1 mc l'image 15 compensée en mouvement de IG1. Il est possible d'intégrer dans l'équation (1) la variation des moyennes, ce qui mène à l'expression suivante :
D = I (IGO[p]-,to- IG1,, [pl +,t1)2 (2) pE Z 20 dans laquelle 1.10 et g1 sont les moyennes estimées des luminances respectives de IGO et de IG1 mc sur la zone courante Z. Cette estimation est suivie d'une comparaison directe des signaux pour les zones à faible gradient local. Si D est inférieur à un seuil prédéfini X, IGO et IG1 sont considérées cohérentes sur la zone. Le seuil peut, par 25 exemple, prendre comme valeur 52xNz, Nz étant le nombre de points de la zone courante Z. Cela implique, dans ce cas, qu'un écart moyen inter-signaux de 5 est toléré. Si le test précédent 302 est négatif, une mesure du gradient local est effectuée 303, et ce pour les zones à fort gradient local. La forte valeur de D 30 peut être due, par exemple, à un léger décalage, inférieur au pixel, d'une zone texturée et donc à fort gradients. Si les deux signaux sont cohérents, IG1 mc peut s'exprimer pour tout pixel p dans la zone courante avec l'expression : IG1mc [p] IGO[p + 8] (3)
dans laquelle 8=(8x, 8y) est un vecteur dont les deux composantes 8x et 8y sont d'amplitude inférieure à 1, puisqu'un recalage au pixel a déjà été fait.
Il est alors possible, après développement de Taylor de l'équation (3) et en considérant l'expression (2) de déterminer une borne supérieure S de D dont l'expression est : 2 ~<S= aIGO[p] 2 + alGO[p] +2 pE Z ax ' pE Zay i CaIGO [p] aIGO [p] ax ay ~ pE Z
(4) Les gradients locaux sont donc calculés 303, puis la somme S est comparée 304 à D. Si D est inférieur ou égal à s, IGO et IG1 sont considérées cohérentes sur la zone courante Z. Dans le cas contraire, IGO et IG1 sont considérées non cohérentes sur la zone courante.
Certains paramètres tels excmax et intervenant dans l'algorithme peuvent être codés et transmis au décodeur. Il a été vu avec l'exemple de la figure 2 que lorsque la zone comparée est considérée cohérente, une fusion des deux signaux IGO et IG1 peut être envisagée. L'algorithme de fusion vise à mélanger les deux signaux de façon satisfaisante, c'est-à-dire sans faire apparaître d'échos dus au léger décalage spatial mentionné précédemment. Une solution est d'utiliser des algorithmes de plaquage sans couture, de type Graph cut . Un exemple de ce type de technique est décrit dans l'article de Vivek Kwatra et al. intitulé Graphcut Textures : Image and Video Synthesis Using Graph Cuts , Proc. ACM Transactions on Graphics, Siggraph'03. Ces algorithmes permettent d'assembler des parcelles de texture en limitant les artéfacts visuels de type coutures apparentes.
Claims (19)
- REVENDICATIONS1- Procédé de codage vidéo d'au moins une séquence d'images numériques, les images de ladite séquence pouvant être des images intermédiaires (INT) ou des images clés (ICO, ICI) utilisées comme références pour le codage par compensation de mouvement des images intermédiaires (INT), le procédé de codage étant caractérisé en ce que les images intermédiaires (INT) sont codées par zone en se basant sur une compensation globale de mouvement GMC (200) dans les sens avant (GM1) et arrière (GMO) à partir des images clés (ICO, ICI), les zones de l'image intermédiaire (INT) étant construites soit par fusion (205) des zones des images clés compensées en mouvement global, soit par codage conventionnel (203), le choix entre fusion et codage conventionnel étant réalisé (201, 202, 204) suivant le résultat d'une mesure de cohérence entre les signaux des zones des images clés compensées en mouvement global.
- 2- Procédé de codage vidéo selon la revendication 1 caractérisé en ce que les images de référence (ICO, ICI) sont codées avant les images intermédiaires et qu'au moins une carte de segmentation (SO, Si) associée auxdites images est calculée de manière à pouvoir distinguer les pixels de type GMC des autres pixels de ces images.
- 3- Procédé de codage vidéo selon l'une quelconque des revendications précédentes caractérisé en ce que les paramètres de mouvement global (GMO, GM1) sont estimés et codés (208) avant le codage des images intermédiaires (INT).
- 4- Procédé de codage vidéo selon la revendication 3 caractérisé en ce que des images clés compensées en mouvement (IGO, IG1) sont déduites (200) des images de clés (ICO, ICI) en utilisant au moins les paramètres de mouvement global (GMO, GM1).
- 5- Procédé de codage vidéo selon la revendication 4 caractérisé en ce que des cartes de segmentation (SGO, SG1) associées aux imagesclés compensées en mouvement (IGO, IG1) sont déduites des cartes de segmentation (SO, Si) associées aux images clés (ICO, ICI) par transpositions en utilisant au moins les paramètres d'estimation de mouvement (GMO, GM1).
- 6- Procédé de codage vidéo selon l'une quelconque des revendications 4 ou 5 caractérisé en ce que l'image intermédiaire (INT) à coder ainsi que les images clés compensées en mouvement (IGO, IG1) utilisées pour son codage sont découpées en zones de traitements, les zones de traitements de l'image intermédiaire (INT) à coder correspondant aux zones de traitement des images clés compensées en mouvement (IGO, IG1).
- 7- Procédé de codage vidéo selon l'une quelconque des revendications précédentes caractérisé en ce que les zones de traitement des images clés compensées en mouvement (IGO, IG1) sont classées (CO, Cl) en fonction de leur proportion de pixels GMC, ladite proportion étant comparée à un seuil r1 compris entre 0 et 1, une zone étant classée (201) GMC lorsque ladite proportion est supérieure à i et classée non-GMC dans le cas contraire.
- 8- Procédé de codage vidéo selon la revendication 7 caractérisé en ce que la proportion de pixels GMC par zone des images clés compensées en mouvement (IGO, IG1) est déduite des cartes de segmentation (SGO, SG1).
- 9- Procédé de codage vidéo selon l'une quelconque des revendications 7 ou 8 caractérisé en ce que si au moins une zone d'une des images compensées en mouvement (SGO, SG1) et utilisées comme références pour le codage de la zone à coder d'une image intermédiaire (INT) est classée non-GMC , un codage conventionnel de ladite zone est effectué.
- 10- Procédé de codage vidéo selon l'une quelconque des revendications 7 à 9 caractérisé en ce que si les zones des images compensées enmouvement (SGO, SG1) utilisées comme références pour le codage d'une zone d'une image intermédiaire (INT) sont classées GMC , la cohérence desdites zones est analysée (204) par comparaison des signaux des zones des images clés compensées en mouvement global.
- 11- Procédé de codage vidéo selon la revendication 10 caractérisé en ce que les zones des images clés compensées en mouvement (IGO, IG1) par la prise en compte des paramètres de compensation global (GMO, GM1) dont la cohérence doit être analysée sont compensées en mouvement une seconde fois (300) à l'aide d'un vecteur de translation d'une précision au pixel près.
- 12- Procédé de codage vidéo selon la revendication 11 caractérisé en ce que le vecteur de translation de la seconde compensation (300) de mouvement est calculé à l'aide d'un estimateur de type block matching .
- 13- Procédé de codage vidéo selon l'une quelconque des revendications 10 à 12 caractérisé en ce que l'erreur quadratique moyenne D de la zone à coder est calculée et est comparée à un seuil prédéfini (302) de manière à distinguer les zones à faible gradient local des zones à fort gradient local, la zone étant considérée à faible gradient local et classée cohérente si D est inférieur à et étant considérée à fort gradient local dans le cas contraire.
- 14- Procédé de codage vidéo selon la revendication 13 caractérisé en ce qu'une borne supérieur S de l'erreur quadratique moyenne D est calculée en utilisant les valeurs des gradients locaux de la zone courante et que l'erreur quadratique moyenne D est comparée (304) à ladite borne S, la zone courante étant classée cohérente lorsque D est inférieur à cette borne et non cohérente dans le cas contraire.
- 15- Procédé de codage vidéo selon l'une quelconque des revendications 13 ou 14 caractérisé en ce que lorsque la zone à coder est classée cohérente , la fusion des zones correspondantes des images clés compensées en mouvement (IGO, IG1) est réalisée.
- 16- Procédé de codage vidéo selon la revendication 15 caractérisé en ce que la fusion est réalisée en utilisant un algorithme de type Graph cut .
- 17- Procédé de codage vidéo selon l'une quelconque des revendications 15 à 16 caractérisé en ce que lorsque la zone en cours de traitement est classée non cohérente , le codage conventionnel de ladite zone est réalisé.
- 18- Dispositif de codage vidéo d'au moins une séquence d'images numériques, les images de ladite séquence pouvant être des images intermédiaires (INT) ou des images clés (ICO, ICI) utilisées comme références pour le codage par compensation de mouvement des images intermédiaires (INT), le dispositif de codage étant caractérisé en ce qu'il comporte des moyens pour : - coder les images intermédiaires (INT) par zone de traitement en se basant sur une compensation globale de mouvement GMC dans les sens avant (GM1) et arrière (GMO) à partir des images clés (ICO, ICI), les zones de traitement de l'image intermédiaire (INT) étant codées soit par fusion des zones correspondantes des images clés, soit par codage conventionnel ; - choisir automatiquement entre fusion et codage conventionnel par analyse de la zone à coder.
- 19- Dispositif de décodage vidéo d'au moins une séquence d'images numériques préalablement codée en utilisant le procédé selon l'une quelconque des revendications 1 à 17, les images de ladite séquence pouvant être des images intermédiaires (INT) ou des images clés (ICO, ICI) utilisées comme références pour le décodage par compensation de mouvement des images intermédiaires (INT), le dispositif de décodage étant caractérisé en ce qu'il comporte desmoyens pour décoder les images intermédiaires (INT) par zone en se basant sur une compensation globale de mouvement GMC dans les sens avant (GM1) et arrière (GMO) à partir des images clés décodées (ICO, ICI), les zones de l'image intermédiaire (INT) étant reconstruites soit par fusion (205) des zones des images clés compensées en mouvement global, soit par décodage conventionnel (203), le choix entre fusion et décodage conventionnel étant réalisé suivant le résultat d'une mesure de cohérence entre les signaux des zones des images clés compensées en mouvement global.
Priority Applications (8)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0858833A FR2940576A1 (fr) | 2008-12-19 | 2008-12-19 | Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes |
| PCT/FR2009/052625 WO2010070247A1 (fr) | 2008-12-19 | 2009-12-18 | Codage video base sur la compensation de mouvement global |
| EP09805757.3A EP2374278B1 (fr) | 2008-12-19 | 2009-12-18 | Codage video base sur la compensation de mouvement global |
| JP2011541573A JP5512696B2 (ja) | 2008-12-19 | 2009-12-18 | ビデオピクチャ系列の動きパラメータを予測及び符号化する方法及び装置 |
| BRPI0922734A BRPI0922734A2 (pt) | 2008-12-19 | 2009-12-18 | método de estimação e codificação dos parâmetros de movimento de uma sequência de imagem de vídeo e dispositivo relacionados. |
| CN200980151139.3A CN102257817B (zh) | 2008-12-19 | 2009-12-18 | 基于全局运动补偿的视频编码 |
| KR1020117016796A KR101638211B1 (ko) | 2008-12-19 | 2009-12-18 | 전역 움직임 보상에 기초하는 비디오 코딩 |
| US12/998,921 US20120207217A1 (en) | 2008-12-19 | 2009-12-18 | Video coding based on global movement compensation |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0858833A FR2940576A1 (fr) | 2008-12-19 | 2008-12-19 | Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| FR2940576A1 true FR2940576A1 (fr) | 2010-06-25 |
Family
ID=40786434
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR0858833A Pending FR2940576A1 (fr) | 2008-12-19 | 2008-12-19 | Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR2940576A1 (fr) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0909092A2 (fr) * | 1997-10-07 | 1999-04-14 | Hitachi, Ltd. | Méthode et dispositif pour la conversion de signaux vidéo |
| US6205178B1 (en) * | 1996-09-20 | 2001-03-20 | Hitachi, Ltd. | Method and synthesizing a predicted image, video coding device and video coding method |
| US20030043912A1 (en) * | 2001-08-23 | 2003-03-06 | Sharp Laboratories Of America, Inc. | Method and apparatus for motion vector coding with global motion parameters |
-
2008
- 2008-12-19 FR FR0858833A patent/FR2940576A1/fr active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6205178B1 (en) * | 1996-09-20 | 2001-03-20 | Hitachi, Ltd. | Method and synthesizing a predicted image, video coding device and video coding method |
| EP0909092A2 (fr) * | 1997-10-07 | 1999-04-14 | Hitachi, Ltd. | Méthode et dispositif pour la conversion de signaux vidéo |
| US20030043912A1 (en) * | 2001-08-23 | 2003-03-06 | Sharp Laboratories Of America, Inc. | Method and apparatus for motion vector coding with global motion parameters |
Non-Patent Citations (2)
| Title |
|---|
| LYNCH W E ED: "Bidirectional motion estimation based on P frame motion vectors and area overlap", PROCEEDINGS OF THE 1992 INTERNATIONAL CONFERENCE ON ACOUSTIGS, SPEECH AND SIGNAL PROCESSING (ICASSP 1992), vol. 3, 23 March 1992 (1992-03-23), IEEE, US, pages 445 - 448, XP010058915, ISBN: 978-0-7803-0532-8 * |
| ZHANG J ET AL: "Bidirectional variable size block motion compensation", ELECTRONICS LETTERS, vol. 34, no. 1, 8 January 1998 (1998-01-08), IEE, Stevenage, GB, pages 52 - 53, XP006009109, ISSN: 0013-5194 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1604529B1 (fr) | PROCEDES ET DISPOSITIFS DE CODAGE ET DE DECODAGE D&rsquo;UNE SEQUENCE D&rsquo;IMAGES PAR DECOMPOSITION MOUVEMENT/TEXTURE ET CODAGE PAR ONDELETTES | |
| FR2724083A1 (fr) | Procede d'estimation du mouvement bidirectionnel et dispositif correspondant | |
| EP3225029B1 (fr) | Procede d'encodage d'image et equipement pour la mise en oeuvre du procede | |
| KR20140110881A (ko) | 장면 컷 결함들을 고려한 비디오 품질 평가 | |
| WO2019211541A2 (fr) | Procédé et dispositif de décodage d'une vidéo multi-vue, et procédé et dispositif de traitement d'images | |
| EP2279621B1 (fr) | Procédé de codage, de décodage, codeur et décodeur | |
| FR2932036A1 (fr) | Procede et systeme permettant de proteger un flux video compresse contre les erreurs survenant lors d'une transmission | |
| Singh et al. | Optical flow and prediction residual based hybrid forensic system for inter-frame tampering detection | |
| FR2986395A1 (fr) | Codage et decodage par heritage progressif | |
| EP1020085B1 (fr) | Procede d'evaluation de la degradation d'une image video introduite par un systeme de codage et/ou de stockage et/ou de transmission numerique | |
| EP2443835B1 (fr) | Codage de vecteurs mouvement par compétition de prédicteurs | |
| EP2374278B1 (fr) | Codage video base sur la compensation de mouvement global | |
| EP2380352A2 (fr) | Procede d'encodage par segmentation d'une image | |
| FR2813485A1 (fr) | Procede de construction d'au moins une image interpolee entre deux images d'une sequence animee, procedes de codage et de decodage, signal et support de donnees correspondant | |
| EP1297710B1 (fr) | Dispositif et procede de codage video avec filtrage recursif compense en mouvement | |
| EP1702473B1 (fr) | Procede de codage d une sequence d images | |
| FR2940576A1 (fr) | Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes | |
| FR2821998A1 (fr) | Procede de codage d'images numeriques base sur la dissimulation d'erreurs | |
| EP1261209A2 (fr) | Procédé de détection de bruit dans un flux de données vidéo codées | |
| FR2955730A1 (fr) | Procedes de codage et de decodage | |
| WO2003053065A2 (fr) | Procede et dispositif de compression de donnees video codees par paquets video | |
| FR2940492A1 (fr) | Procede d'estimation de mouvement multi-resolutions | |
| WO2004047451A1 (fr) | Procede et systeme de mesure des degradations d'une image video introduites par un codage a reduction de debit. | |
| EP1297494B1 (fr) | Procede et dispositif de traitement de sequences d'images avec masquage | |
| Diop et al. | Performances of the estimation and motion compensation for the reconstruction of motion areas in a sequence video Motion JPEG 2000 |