EP1654882A2 - Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants - Google Patents

Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants

Info

Publication number
EP1654882A2
EP1654882A2 EP04767398A EP04767398A EP1654882A2 EP 1654882 A2 EP1654882 A2 EP 1654882A2 EP 04767398 A EP04767398 A EP 04767398A EP 04767398 A EP04767398 A EP 04767398A EP 1654882 A2 EP1654882 A2 EP 1654882A2
Authority
EP
European Patent Office
Prior art keywords
mesh
images
model
dimensional
gop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP04767398A
Other languages
German (de)
English (en)
Inventor
Raphaèle BALTER
Patrick Gioia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1654882A2 publication Critical patent/EP1654882A2/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating three-dimensional [3D] models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/27Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Definitions

  • the field of the invention is that of the coding of image sequences. More specifically, the invention relates to a technique for coding image sequences by flow of three-dimensional models, or 3D.
  • video coding by 3D models consists in representing a video sequence by one or more 3D textured models.
  • the information to be transmitted to an encoder of the image sequence are the 3D models, the texture images associated with them, and the parameters of the camera having filmed the sequence.
  • This type of coding therefore makes it possible to achieve lower bit rates than conventional coding techniques, according to which videos are generally represented by a set of pixels, which is much more expensive to transmit.
  • Certain techniques called active, require controlling the lighting of a real scene, and generally use laser technology, or a large number of cameras, in order to acquire several viewing angles and a lot of depth information.
  • camera calibration which consists of estimating the image formation parameters (i.e., the intrinsic parameters of the camera (focal length, etc.) and its extrinsic parameters (positions of the camera for the acquisition of the different footage of the sequence, etc.)).
  • the mapping is generally managed manually, as described by N. M. Bove et al. in "Semiautomatic 3D-model extraction from uncalibrated 2-D camera views," (in French, “semi-automatic extraction of 3D models from two-dimensional non-calibrated camera views”) Proceedings Visual Data Exploration and Analysis, 1995.
  • mapping is not managed manually.
  • this step consists in following along the video sequence the particular points or lines extracted during the previous step; - linking of the different images; - projective reconstruction of 3D points;
  • An autocalibration by fixing certain unknown factors to their default values and by applying the concept of the absolute conic, allows to find the internal parameters of the camera, in order to pass to a metric representation.
  • the data is then merged into a common 3D model, using a method which concatenates the points which correspond on several images, to form two chains (a descending chain and a rising chain), from the disparity maps. and rotations calculated during calibration.
  • a multi-resolution approach is proposed.
  • a drawback of this technique is that the multi-resolution approach proposed for large objects requires having several videos of the same scene, in order to have access not only to an overview but also to the details.
  • this method is of semi-automatic type.
  • two images are selected, in order to obtain an initial reconstruction, by determining the projection matrices for intrinsic parameters and an approximate rotation matrix, and by triangulating.
  • the position of the cameras corresponding to the other views is then determined using epipolar geometry.
  • the structure is then refined using a Kalman filter (described by M. Pollefeys, in "Tutorial on 3D Modeling from Images," eccv2000, June 26, 2000, Dublin, Ireland) extended for each point.
  • a beam adjustment is carried out.
  • the virtual 3D model is then obtained by elevating the triangular mesh on one of the images in the sequence, eliminating the points for which the depth is not available.
  • a disadvantage of this method is that it only works well on simple scenes, and is not suitable for complex scenes.
  • An estimation of the dense movement is carried out, based on the equation of the optical flow or on a deformable 2D mesh, in order to allow an estimation between images distant from the sequence (namely the key images which delimit the GOPs). These key images are selected in parallel and are used to support the estimation of the 3D model.
  • the robust calculation of the intrinsic and extrinsic parameters of the cameras is also carried out on the key images, and refined simultaneously with the 3D geometry, by a method of beam adjustment by sliding window.
  • the positions of the intermediate images are estimated by location by Dementhon (see in particular "Representation of video sequence: automatic extraction scheme for a stream of 3D models, applications to compression and virtual reality", University of Rennes 1, January 2002, by Franck Galpin) in order to be able to reconstruct the original sequence, as illustrated in Figure 1.
  • the initial sequence comprises a plurality of successive images I k , grouped into groups of images called GOPs.
  • the images I 0 to I 5 are grouped together in a first GOP referenced 1, which is associated with a 3D model M 0 .
  • the images I 5 to I 13 are collected in a second GOP referenced 2, with which a second model M t is associated.
  • FIG. 2a presents the evolution of the PSNR, FIGS.
  • the first curve (the highest in the figure) is the objective quality of the reconstructed sequence, obtained by reprojection of the 3D models according to the method of Franck Galpin in texture space, ie without taking into account the distortions geometric.
  • the two other curves in FIG. 2a indicate the objective quality for the reconstructed sequences obtained by the method of Franck Galpin and by the H264 coder in image space.
  • the performances obtained are similar for the Franck Galpin coder and the H26L coder, it will be noted that, from a visual point of view, the quality obtained is higher with the coder based on a flow of 3D models, in particular in terms of respect for details, absence of block effects, etc.
  • this coding technique based on a flow of 3D models makes it possible to achieve very low bit rates for satisfactory visual quality, as illustrated by FIGS. 3a to 3c, which respectively present: the evolution of the PSNR; - an image obtained using this technique; a detail area of this image, for a bit rate of 16kb / s.
  • a drawback of this technique of the prior art is that all of the 3D models obtained for a sequence of images are only partially redundant, which makes this technique unsuitable for free navigation applications in a scene.
  • This method is therefore not, or ill-suited to implementation on display terminals of very diverse processing capacities, or on variable speed transmission networks.
  • the invention particularly aims to overcome these drawbacks of the prior art.
  • an objective of the invention is to provide a technique for representing a sequence of images by 3D model which is suitable for any type of sequence of fixed or static images, or of scenes, including complex ones.
  • the invention aims to implement such a technique which allows the reconstruction of a scene, on which no hypothesis is formulated, which is acquired with a consumer device, of which we know neither the characteristics, nor move.
  • Another objective of the invention is to implement such a technique which makes it possible to obtain a sequence reproduced by reprojection of good visual quality, even when one moves away from the original trajectory of the camera used for the acquisition. of the sequence.
  • the invention also aims to provide such a technique which is suitable for low and very low flow rates.
  • the invention also aims to implement such a technique which is particularly well suited to large scenes.
  • Another object of the invention is to provide such a technique which is suitable for coding and virtual navigation applications.
  • the invention also aims to implement such a technique which makes it possible to obtain scalable representations (in English “scalable”) of image sequences, so as to allow transmission over networks of various bit rates, with a view to including portable applications.
  • Another objective of the invention is to provide such a technique, which allows, at the same rate, the representation of scenes of better visual quality than according to the technique of Franck Galpin described above.
  • the invention also aims to implement such a technique which allows, for the representation of a sequence of images of the same visual quality, a reduction in bit rate compared to the Franck Galpin technique described above.
  • the three-dimensional model associated with the GOP of level n is represented using an irregular mesh taking into account at least one vertex of at least the irregular mesh representing the three-dimensional model associated with the GOP of level n -1, said vertex being called common vertex.
  • the invention is based on a completely new and inventive approach to the representation of a sequence of images by 3D models. Indeed, as for the method proposed by Franck Galpin, the invention proposes an approach based, not on the extraction of a single 3D model for all the images of the sequence, but on the extraction of a flow of 3D models, each associated with a group of images, called GOP.
  • the invention proposes an inventive improvement of Franck Galpin's technique, by establishing a correspondence between the different models
  • 3D associated with each of the GOPs in order, in particular, to increase their redundancy.
  • the invention therefore advantageously allows applications of the interactive navigation type.
  • Such a correspondence between successive 3D models is made possible by using an irregular mesh of images, which adapts particularly well to the singularities of the images.
  • the irregular mesh of a 3D model thus takes into account at least one singular vertex (and more generally the particular points or lines of the image) of the irregular mesh of the previous 3D vertex.
  • the invention therefore makes it possible, for equal visual quality, to reduce the transmission rate of the sequence of images, due to the redundancy between the different 3D models. It also allows, for the same bit rate, to obtain a better visual quality of the representation of the sequence of images, thanks to the monitoring of the singularities of the image between successive 3D models.
  • a basic model constructed from said vertices common to said at least two three-dimensional models is also associated with at least two consecutive three-dimensional models.
  • all the 3D models associated with the sequence correspond to the same basic mesh.
  • This basic mesh, or coarse mesh whose various 3D models constitute refinements, corresponds to the geometric structure common to all the 3D models which are associated with it.
  • one of said three-dimensional models is obtained from said associated basic model by transformation into wavelets, using a second set of wavelet coefficients.
  • the invention therefore allows a scalable transmission of the sequence of images, adaptable as a function of the characteristics of the network or of the display terminal.
  • the elements to be transmitted for a reconstruction of the sequence are, in addition to the parameters of the camera, the basic mesh on the one hand, and the wavelet coefficients making it possible to reconstruct the various 3d models on the other hand.
  • a greater or lesser number of wavelet coefficients By transmitting a greater or lesser number of wavelet coefficients, a higher or lower quality of reconstruction is obtained, adapted to the speed of the transmission network or to the capacity of the display terminal.
  • said irregular mesh of level n is a two-dimensional irregular mesh of one of the images of said GOP of level n.
  • said mesh image is the first image of said GOP of level n.
  • each of said three-dimensional models is obtained by elevation of said irregular mesh representing it.
  • said irregular two-dimensional mesh is obtained by successive simplifications of a regular triangular mesh of said image.
  • said irregular two-dimensional mesh is obtained from a Delaunay mesh of predetermined points of interest of said image.
  • two successive GOPs have at least one common image.
  • the last image of a GOP is also the first image of the next GOP.
  • said vertices common to said levels n-1 and n are detected by estimation of movement between the first image of said GOP of level n-1 and the first image of said GOP of level n.
  • such a method comprises a step of storing said detected common vertices.
  • said irregular mesh representing said model associated with the GOP of level n also takes into account at least one vertex of at least the irregular mesh representing the model associated with the GOP of level n + 1.
  • said second set of wavelet coefficients is generated by applying at least one analysis filter to a semi-regular remeshing of said associated three-dimensional model.
  • a semi-regular mesh is a mesh whose vertices which do not have six neighbors are isolated on the mesh (that is to say that they are not neighbors between them).
  • said wavelets are second generation wavelets.
  • the said wavelets belong to the group comprising: - the chunky wavelets; polynomial wavelets; wavelets based on the Butterfly subdivision scheme.
  • the invention also relates to a signal representative of a sequence of images grouped into sets of at least two successive images, called GOPs, a three-dimensional textured mesh model being associated with each of said GOPs.
  • such a signal comprises: at least one field containing a basic model constructed from vertices common to at least two irregular meshes, each representing a three-dimensional model, said at least two three-dimensional models being associated with at least two Successive GOPs; at least one field containing a set of wavelet coefficients making it possible to construct, by transformation into wavelets from said basic model, at least one three-dimensional model associated with one of said GOPs; at least one field containing at least one texture associated with one of said three-dimensional models; at least one field containing at least one camera position parameter.
  • the invention also relates to a device for representing a sequence of images implementing the representation method described above.
  • the invention relates in particular to a device for representing a sequence of images grouped into sets of at least two successive images, called GOPs, a three-dimensional meshed texture model being associated with each of said GOPs.
  • such a device comprises: means for constructing said three-dimensional models, by transforming into wavelets at least one basic model, developed from vertices common to at least two irregular meshes representing two successive three-dimensional models; means for representing said images of the sequence from said three-dimensional models, at least one texture image and at least one camera position parameter.
  • the invention also relates to a device for coding a sequence of images grouped into sets of at least two successive images, called GOPs, a three-dimensional textured mesh model being associated with each of said GOPs.
  • a coding device comprises means for coding a three-dimensional model associated with the GOP of level n, said three-dimensional model being represented using an irregular mesh taking account of at least one vertex d 'at least the irregular mesh representing the three-dimensional model associated with the GOP of level n-1.
  • FIGS. 2a to 2e already commented on in relation to the prior art, illustrate a comparison of the visual results obtained according to a technique of the H26L type on the one hand, and according to the coding technique of FIG. 1 on the other hand;
  • Figures 3a to 3c already discussed in connection with the prior art, present the results obtained according to the technique of Figure 1 for a low bit rate of 16kb / s;
  • FIG. 4 illustrates the general principle of the reconstruction of a video sequence from a 3D model;
  • FIG. 5 illustrates the general principle of the present invention, based on the extraction of a stream of 3D models, each associated with a basic model, common to one or more 3D models;
  • FIG. 6 presents the various wavelet coefficients used for the coding of the 3D models of FIG. 4;
  • FIG. 7 presents a block diagram of the different steps implemented according to the invention for coding the images of the sequence.
  • the general principle of the invention is based on the extraction of a stream of 3D models with which irregular meshes are associated, adapted to the content of the images of the sequence, and which take into account the correspondents of the vertices of the irregular mesh of the 3D model. previous.
  • a sequence of images 45 is obtained, which is called the original sequence.
  • At least one 3D model 47 (a plurality of 3D models according to the invention) is constructed, from which a sequence of images 49 can be reconstructed (48), for display on a display terminal.
  • a sequence of images 49 can be reconstructed (48), for display on a display terminal.
  • Each 3D model corresponds to a part of the original image sequence, that is to say to a GOP (in English "Group of Pictures").
  • the 3D models considered are irregularly meshed elevation maps, under the constraint of taking into account the correspondents of the vertices of the previous model. This constraint makes it possible to guarantee precise correspondences between the vertices of successive models.
  • the transformations allowing to pass from one model to another are decomposed into wavelets, which makes it possible to adapt the precision of the transformation to the flow rate, thanks to the natural scalability of the wavelets.
  • the invention is also based on the reconstruction of basic models, which are associated with one or more successive GOPs, as illustrated in FIG. 4.
  • the original sequence of images is made up of successive images I k . More particularly, FIG. 4 shows the images I 0 , 1 3 , 1 5 , 1 10 , 1 20 , 1 30 , 1 40 , I 50 , and I 60 .
  • This sequence can be of any length, no restrictive hypothesis being necessary according to the present invention.
  • the sequence of images I k is divided into successive groups of images, called GOPs.
  • the first GOP 50 comprises the images referenced I 0 to I 5
  • the second GOP 51 comprises the images I 5 to I 20
  • a (k + l) ⁇ eme GOP 52 notably includes the images I 30 to I 40
  • a ( k + 2) ' th GOP 53 includes images I 40 to I 60 .
  • the last image of a GOP is also the first image of the following GOP: thus, the image I 5 for example belongs to the first GOP 50 and to the second GOP 51 .
  • a 3D model M k For each of these GOPs 50 to 53, a 3D model M k .
  • the 3D M 0 model is associated with the GOP 50
  • the 3D M model ! is associated with GOP 51, etc.
  • MB k a set of basic models, denoted MB k , of which the 3D models M k constitute refinements. So, in Figure 4, the model of base MB 0 is associated with 3D models M 0 to M k , and the basic model MB l is associated with 3D models M k , M k + 1 and following.
  • the basic mesh MB k may be valid for a variable number of GOPs, or even possibly for the whole sequence of images. Thanks to these basic models MB k , we can therefore express each model
  • 3D M k estimated, by the basic mesh corresponding to it on the one hand, and by a set of wavelet coefficients on the other hand.
  • the wavelet coefficients t 0 k, k + 1 to t n k ' k +! are used to pass from a 3D model M k to the 3D model M k + 1 .
  • the wavelet coefficients r 0 k to r k illustrate the transition from a 3D model M k to the associated basic model (in this case, the MB L model).
  • the first set of wavelet coefficients t k therefore defines the links between the different models M k , which makes it possible to switch from one to the other, and to generate intermediate models, either by linear interpolation between the correspondents , either implicitly thanks to wavelets.
  • the second set of wavelets r k ensures progressive and efficient transmission (in terms of throughput) of the different models.
  • the technique of the invention can be adapted to all types of terminals, whatever their processing capacity, and to all types of transmission networks, whatever their bit rate.
  • the selection 72 of the key images K k delimiting the GOPs is carried out according to the algorithm developed by Franck Galpin et al. in "Sliding Adjustment for 3D Video Representation" EURASIP Journal on Applied Signal Processing 2002: 10 (see in particular paragraph 5.1. Criteria selection). This selection 72 of the GOP start and end images is therefore based on the validation of three criteria:
  • the first key image selected is the first image, I 0 of the original sequence.
  • a calibration 75 is also carried out, making it possible to determine all the intrinsic and extrinsic parameters of the camera used to the acquisition of the sequence of images, and in particular the position P k of the camera associated with the image I k .
  • the depth map Z k associated with the GOP k is estimated (74).
  • an irregular two-dimensional mesh 77 of the maps of depth Z k is produced , under the constraint of taking into account the correspondents of the vertices of the model associated with the previous GOP, contained in the image K k .
  • This 2D mesh can be calculated in two ways: by successive simplifications from a regular mesh of triangles of side 1 (ie all the points of the image);
  • this study is made bidirectional, by forcing the mesh of the current model to take into account the correspondents, not only the vertices of the previous model, but also vertices of the following model.
  • the 3D meshes M k corresponding to the geometry of the 3D models representing the GOPs, are obtained by elevation of the estimated 2D meshes, as illustrated by the block referenced 80.
  • the advantage of expressing this transformation using wavelets is that one can adapt the precision of the transformation to the flow rate thanks to the natural scalability of the wavelets.
  • the wavelets used for the decomposition are second generation wavelets, that is to say that they can be defined on sets which have no vector space structure. In this case, with the notations in Figure 6, the wavelets are defined on the basic models MB 0 , MB t , etc.
  • the wavelet coefficients d are the solution of the following linear system:
  • Td ⁇ c Td ⁇ c
  • T depends on the type of wavelets used. Three schemes are favored according to the invention: the affine wavelets by pieces, the polynomial wavelets (in particular the Loop wavelets), and the wavelets based on the Butterfly subdivision scheme (J. Warren et al., "Multiresolution Analysis for Surfaces of Arbitrary Topological Type, "ACM Transactions on Graphics, vol. 16, pp. 34-73, 1997).
  • P is a sub-matrix which represents only the subdivision scheme (Affine, Loop, Butterfly, ...) and where the sub-matrix Q is the geometric interpretation of the wavelet coefficients.
  • Q is chosen so that the wavelet coefficients have a zero moment.
  • P and Q can be arbitrary as long as T remains invertible.
  • Figure 7 summarizes the approach just described for GOP k.
  • - C l n + p is the field of motion between the images / psychologistand I n + p
  • C k is the motion field associated with GOP k
  • - C (V) is the set of correspondents of the points of the set V found by the motion field
  • was the set of support points for the estimation of 3D information (vertices of the mesh used for the motion estimation having the highest scores with the Harris and Stephen detector and decimated regularly)
  • - E k is the set of vertices of the 3D model associated with GOP k;
  • - K k is the image of the original sequence corresponding to the key image associated with GOP k
  • - M k is the 3D model associated with GOP k
  • ⁇ k is the set of wavelet coefficients defining the transition transformation between M k and M k + 1 ,;
  • V k is the set of vertices of the mesh corresponding to the model M, ..
  • the encoder 81 receives as input the positions P k of the camera for the different images I k of the original sequence, the estimate M k of the 3D texture model, and the wavelet coefficients making it possible to transform the model M k _ ! in model M k . Simultaneously with the estimation of the 3D models M k of each of the GOPs k, illustrated in FIG. 7, basic models MBj valid for several successive GOPs are reconstructed.
  • the set of particular points detected in the first image of the GOP k along several images of the sequence. More precisely, the presence of the correspondents of these points is detected along several successive GOPs, until the number of correspondents included in the analyzed image is less than a predetermined threshold.
  • This threshold must be chosen so as to ensure the possibility of reconstruction (ie of the estimation of the fundamental matrix); it is chosen for example equal to 7.
  • the coefficients t k of FIG. 6 are obtained in the following way: the basic meshes from the same GOP are identical, and generate after subdivision, the same semi-regular mesh. Consequently, the coefficients r k are indexed by the same geometric vertices when k varies in the same GOP. For each intermediate k, we can therefore define a function 1 * which makes the difference between the coefficients r correspond to each of these vertices ; k and r ; k + 1 . This function i * is then broken down, as before, into wavelet coefficients, which are the coefficients
  • the invention therefore makes it possible to transmit the geometry of the models associated with the original sequence inexpensively, since the basic meshes are transmitted on the one hand and the wavelet coefficients associated with the different models on the other hand .
  • the possible applications within the framework of the invention are numerous.
  • the invention thus applies very particularly to the coding of images representing the same fixed scene (which can be a set of independent images or a video).
  • the compression rates achieved by this type of representation are in the low and very low bit rates (typically of the order of 20 kbits / s) and we can therefore consider portable applications.
  • the virtual sequence obtained by reprojection has all the features allowed by 3D, such as changing the illumination, stabilizing the sequence, free navigation, adding objects ...

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

L'invention concerne un procédé de représentation d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texturé étant associé à chacun desdits GOPs. Selon l'invention, le modèle tridimensionnel associé au GOP de niveau n est représenté à l'aide d'un maillage irrégulier tenant compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle tridimensionnel associé au GOP de niveau n-1, ledit sommet étant appelé sommet commun.

Description

Procédé de représentation d'une séquence d'images par modèles 3D, signal et dispositifs correspondants.
Le domaine de l'invention est celui du codage de séquences d'images. Plus précisément, l'invention concerne une technique de codage de séquences d'images par flux de modèles tridimensionnels, ou 3D.
On rappelle que le codage vidéo par modèles 3D consiste à représenter une séquence vidéo par un ou plusieurs modèles 3D textures. Les informations à transmettre à un codeur de la séquence d'images sont les modèles 3D, les images de textures qui leur sont associées, et les paramètres de la caméra ayant filmé la séquence.
Ce type de codage permet donc d'atteindre des débits plus faibles que les techniques de codage classiques, selon lesquelles on représente généralement les vidéos par un ensemble de pixels, qui est bien plus coûteux à transmettre.
En outre, une telle technique de codage par modèles 3D permet, par rapport aux techniques de codage classiques, d'ajouter certaines fonctionnalités à la séquence reconstruite. Il est ainsi possible de changer l'illumination de la scène, de réaliser un affichage stéréoscopique, de stabiliser la séquence (lorsqu'il s'agit d'une séquence vidéo), d'ajouter des objets dans la scène ou enfin de changer le point de vue, de façon à simuler une navigation libre dans la scène (la navigation libre peut en effet être définie comme un changement de trajectoire de la caméra par rapport au chemin original).
Il existe de ce fait, sur le marché du codage d'images, une demande importante de méthodes d'extraction de modèles 3D à partir de vidéos. En effet, en partant de scènes 3D réelles, on obtient par modélisation 3D un contenu beaucoup plus photoréalistique que selon les méthodes de synthèse envisagées par le passé. En outre, grâce aux fonctionnalités citées ci-dessus, l'obtention de modèles virtuels des scènes réelles permet d'envisager un grand nombre d'applications telles que l'e-commerce, les jeux vidéo, la simulation, les effets spéciaux ou encore le repérage géographique. On connaît à ce jour plusieurs techniques permettant la construction de modèles 3D à partir d'une vidéo.
Certaines techniques, dites actives, nécessitent de contrôler l'éclairage d'une scène réelle, et mettent généralement en oeuvre une technologie laser, ou un grand nombre de caméras, afin d'acquérir plusieurs angles de vues et de nombreuses informations de profondeur.
D'autres techniques, dites passives, reposent quant à elles sur des algorithmes de calcul sophistiqués, et sont basées, soit sur les relations entre les images, soit sur les silhouettes. Elles diffèrent principalement les unes des autres par le niveau de calibration nécessaire et le degré d'interactivité autorisé. Elles consistent à reconstruire une information 3D à partir d'un ensemble de photographies ou d'images, et se heurtent principalement aux deux problèmes suivants : la mise en correspondance, qui consiste à trouver, pour une zone d'une image donnée, une zone correspondante dans les autres images
(cette zone peut être réduite à un point de l'image) ; la calibration de la caméra, qui consiste à estimer les paramètres de formation de l'image (à savoir, les paramètres intrinsèques de la caméra (distance focale, etc.) et ses paramètres extrinsèques (positions de la caméra pour l'acquisition des différentes images de la séquence, etc.)). La mise en correspondance est généralement gérée manuellement, comme décrit par N. M. Bove et al. dans "Semiautomatic 3D-model extraction from uncalibrated 2-D caméra views," (en français, "extraction semi-automatique de modèles 3D à partir de vues bidimensionnelles non-calibrées de caméra") Proceedings Visual Data Exploration and Analysis, 1995.
La calibration est quant à elle un processus fastidieux, et les algorithmes de calcul qui lui sont associés sont souvent instables. De nombreuses méthodes reposent donc sur des séquences calibrées qui demandent, soit une intervention humaine (E. Boyer et al., "Calibrage et Reconstruction à l'aide de Parallélépipèdes et de Parallélogrammes," Actes du treizième congrès francophone des reconnaissances de Formes et Intelligence Artificielle, 2002), soit un système d'acquisition compliqué, reposant sur une « turntable » (en français, « table tournante ») (W. Niem, "Robust and Fast Modeling of 3D Natural Objects from Multiple Niews,", en français "modélisation rapide et robuste d'objets naturels 3D à partir de vues multiples", vcipl994, 1994) ou sur l'utilisation d'un robot mobile (J. Wingbermuhle, "Automatic Reconstruction of 3D Object Using a Mobile Monoscopic Caméra," en français "Reconstruction automatique d'objets 3D utilisant une caméra mobile monoscopique", Proceedings of the International Conférence on Récent Advances in 3D Imaging and Modelling, Ottawa, Canada, 1997 ).
Selon certaines autres méthodes automatiques, ou semi-automatiques, la mise en correspondance n'est pas gérée manuellement. On se référera par exemple aux techniques de A. Fitzgibbon et al., ("Automatic Line Matching and 3D Reconstruction of Buildings from Multiple Niews," (en français, "Mise en correspondance automatique de lignes, et reconstruction 3D d'immeubles à partir de vues multiples") IAPRS, Munich, Allemagne, 1999) ou de C. Zeller et al., ("3- D Reconstruction of Urban Scène from Séquence of Images," (en français, "Reconstruction 3D de scènes urbaines à partir de séquences d'images) IΝRIA, Information Technology 2572, 1995).
Cependant, ces méthodes semi-automatiques, ou automatiques, nécessitent de faire de nombreuses hypothèses sur les scènes à reconstruire, et ne s'appliquent par exemple qu'aux scènes architecturales.
Ces méthodes de reconstruction 3D automatiques mettent classiquement en œuvre les étapes suivantes :
- détection de points ou de lignes particuliers ;
- mise en correspondance entre les images : cette étape consiste à suivre le long de la séquence vidéo les points ou lignes particuliers extraits lors de l'étape précédente ; - mise en relation des différentes images ; - reconstruction projective des points 3D ;
- autocalibration, ou raffinement de la calibration, si nécessaire, pour passer à un modèle 3D métrique (en effet, les manipulations interactives du modèle se font dans l'espace euclidien) ; - estimation du modèle 3D texture.
Certaines approches, basées sur l'algorithme ci-dessus, permettent de reconstruire un modèle 3D à partir de données fournies par une caméra monoculaire en mouvement (c'est à dire qu'on n'a aucune connaissance a priori, ni sur les paramètres intrinsèques ou extrinsèques de la caméra, ni sur la scène à reconstruire). On peut se référer par exemple aux techniques de P. Debevec et al., "Panel Session on Visual Scène Représentation," Smile2000, 2000, ou de G. Cross et al., "VHS to VRML: 3D Graphical Models from Video Séquences," en français "de la VHS au VRML : modèles graphiques 3D à partir de séquences vidéo", IEEE International Conférence on Multimedia Computing and System, Florence, 1999.
J. Rôning et al. dans "Modeling Structured Environments by a Single Moving Caméra," (en français "Modélisation d'environnements structurés par une simple caméra mobile") Second International Conférence on 3-D Imaging and Modelling, 1999 ont proposé une méthode qui estime un premier modèle à partir de contours détectés et de filtres étendus de Kalman. Cependant, cette méthode présente l'inconvénient de reposer beaucoup sur les contours, et donc d'être mal adaptée aux scènes compliquées.
Dans "NHS to VRML: 3D Graphical Models from Video Séquences," IEEE International Conférence on Multimedia Computing and System, Florence, 1999, G. Cross et al. ont présenté une méthode consistant à détecter des points par la méthode de Harris, et à les mettre en correspondance entre les différentes vues, simultanément à l'estimation de la géométrie. La mise en correspondance se fait par corrélation en croix, couplée à la géométrie épipolaire pour deux vues, ou à la géométrie trifocale pour trois vues, qui permettent de guider les appariements. Les correspondances sont ensuite étendues à la séquence et optimisées par un ajustement par faisceaux. On obtient donc des matrices de projection 3*4 et une structure 3D euclidienne (par autocalibration), sur laquelle on plaque la texture des images originales. Ceci permet de masquer les imperfections de la géométrie. Cependant, un inconvénient de cette méthode est que le mouvement entre deux images successives doit être relativement petit et que la séquence d'images doit être de taille raisonnable. Cette méthode n'est donc pas adaptée à une séquence d'images quelconque.
Deux approches ont également été proposées par l'université de Louvain. Selon la première approche (M. Pollefeys, "Tutorial on 3D Modeling from Images," eccv2000, 2000), les points ou lignes particuliers des images détectés sont extraits et mis en correspondance à l'aide de l'algorithme de Torr (décrit dans l'ouvrage cité ci-dessus). En parallèle, une calibration restreinte est évaluée, afin de pouvoir éliminer les correspondances incompatibles avec la calibration. La méthode de Beardsley (M. Pollefeys, "Tutorial on 3D Modeling from Images," eccv2000, 26 juin 2000, Dublin, Irlande) permet d'obtenir une ébauche de reconstruction projective pour les deux premières images, et les matrices de projection des autres vues. Une autocalibration, en fixant certaines inconnues à leurs valeurs par défaut et en appliquant le concept de la conique absolue, permet de retrouver les paramètres internes de la caméra, afin de passer à une représentation métrique. Les donnés sont ensuite fusionnées en un modèle 3D commun, à l'aide d'une méthode qui concatène les points qui se correspondent sur plusieurs images, pour former deux chaînes (une chaîne descendante et une chaîne montante), à partir des cartes de disparités et des rotations calculées lors de la calibration. Pour les grands objets, une approche multi résolution est proposée. Cependant, un inconvénient de cette technique est que l'approche multi résolution proposée pour les grands objets nécessite de disposer de plusieurs vidéos de la même scène, afin d'avoir accès non seulement à une vue d'ensemble mais également aux détails. En outre, cette méthode est de type semi-automatique.
Selon une seconde technique (Gool et al., "From image séquences to 3D models," en français "des séquences d'images aux modèles 3D", Third International Wor shop on Automatic Extraction of Man-made Objects from Aerial and Space Images, 2001), les points ou lignes particuliers des images sont détectés par la méthode de Harris ou par la méthode de Shi et Tomasi (décrite par M. Pollefeys, dans "Tutorial on 3D Modeling from Images," eccv2000, 26 juin 2000, Dublin, Irlande). Ces caractéristiques sont ensuite mises en correspondance, ou suivies entre les différentes vues, suivant qu'il s'agit d'images ou de vidéo. A partir de ces correspondances, les relations entre les vues sont calculées par une méthode robuste comme celle de Torr ou de Fisher et Bolles. Pour la reconstruction projective, deux images sont sélectionnées, afin d'obtenir une reconstruction initiale, en déterminant les matrices de projection pour des paramètres intrinsèques et une matrice de rotation approchée, et en triangulant. La position des caméras correspondant aux autres vues est ensuite déterminée à l'aide de la géométrie épipolaire. La structure est ensuite raffinée en utilisant un filtre de Kalman (décrit par M. Pollefeys, dans "Tutorial on 3D Modeling from Images," eccv2000, 26 juin 2000, Dublin, Irlande) étendu pour chaque point. Lorsque la structure et le mouvement ont été obtenus pour toute la séquence, un ajustement de faisceaux est réalisé. On passe de la reconstruction projective à la reconstruction euclidienne grâce à l' autocalibration. Le modèle 3D virtuel est ensuite obtenu en élevant le maillage triangulaire sur l'une des images de la séquence, en éliminant les points pour lesquels la profondeur n'est pas disponible. Un inconvénient de cette méthode est qu'elle ne donne de bons résultats que sur les scènes simples, et n'est pas adaptée aux scènes complexes.
Plus généralement, toutes les techniques de l'art antérieur décrites ci- dessus présentent comme inconvénient de nécessiter de faire des hypothèses simplificatrices sur l'acquisition de la séquence d'images (en termes par exemple de paramètres de la caméra), et/ou sur le contenu de la scène, ou encore sur la longueur de la séquence. En d'autres termes, ces différentes méthodes ne sont pas adaptées à une scène et une séquence d'images quelconques, éventuellement complexes. Une dernière méthode, orientée codage, a été proposée par Franck Galpin dans "Représentation 3D de séquences vidéo: Schéma d'extraction automatique d'un flux de modèles 3D, applications à la compression et à la réalité virtuelle," Université de Rennes 1, 2002. Contrairement aux autres méthodes de l'art antérieur, selon lesquelles on cherche à reconstruire un modèle 3D unique pour l'ensemble de la séquence d'images, l'idée principale de la méthode de Franck Galpin est de traiter la séquence vidéo par morceaux, afin d'obtenir plusieurs modèles, qui seront chacun valides pour une section de la séquence, appelée GOP (« Group Of Pictures », en français « groupe d'images »). On suppose que la scène est statique (ou segmentée au sens du mouvement), filmée par une caméra monoculaire en mouvement, que les paramètres d'acquisition (paramètres intrinsèques et extrinsèques de la caméra) sont inconnus, que la focale de la caméra est constante et que la scène contient peu ou pas de surfaces spéculaires. Le contenu de la scène et les mouvements de la caméra sont supposés quelconques.
On réalise une estimation du mouvement dense, basée sur l'équation du flot optique ou sur un maillage 2D déformable, afin de permettre une estimation entre des images éloignées de la séquence (à savoir les images clefs qui délimitent les GOPs). Ces images clefs sont sélectionnées parallèlement et servent de support à l'estimation du modèle 3D. Le calcul robuste des paramètres intrinsèques et extrinsèques des caméras est également réalisé sur les images clefs, et affiné simultanément avec la géométrie 3D, par une méthode d'ajustement de faisceaux par fenêtre glissante. Les positions des images intermédiaires sont estimées par localisation par Dementhon (voir notamment « Représentation de séquence vidéo : schéma d'extraction automatique d'un flux de modèles 3D, applications à la compression et à la réalité virtuelle », Université de Rennes 1, janvier 2002, par Franck Galpin) afin de pouvoir reconstruire la séquence originale, comme illustré sur la figure 1.
La séquence initiale comprend une pluralité d'images Ik successives, regroupées en groupes d'images appelées GOPs. Ainsi, les images I0 à I5 sont regroupées au sein d'un premier GOP référencé 1, auquel est associé un modèle 3D M0. Les images I5 à I13 sont rassemblées au sein d'un deuxième GOP référencé 2, auquel est associé un deuxième modèle Mt.
Cette dernière méthode de l'art antérieur permet d'obtenir, en termes de codage, des résultats très supérieurs aux autres méthodes décrites précédemment dans ce document. Les figures 2a à 2e illustrent les résultats obtenus, en bas débit, selon cette technique d'une part, et selon la technique H26L d'autre part. Plus précisément, la figure 2a présente l'évolution du PSNR, les figures 2b et 2c présentent respectivement une image et une zone de détail de cette image obtenues selon la technique H26L (ou H264, voir notamment « Sliding adjustment for 3D video représentation », Franck Galpin et Luce Morin, eurasip 2002, pages 1088 à 2001) pour un débit de 82kb/s, et les figures 2d et 2e présentent les mêmes images obtenues selon la méthode de flux de modèles 3D de Franck Galpin.
Sur la figure 2a, la première courbe (la plus haute sur la figure) est la qualité objective de la séquence reconstruite, obtenue par reprojection des modèles 3D suivant la méthode de Franck Galpin dans l'espace texture, i.e. sans prendre en compte les distorsions géométriques. Les deux autres courbes de la figure 2a indiquent la qualité objective pour les séquences reconstruites obtenues par la méthode de Franck Galpin et par le codeur H264 dans l'espace image. Bien qu'en mesure objective (c'est-à-dire en termes de PSNR « Peak
Signal to Noise Ratio », « rapport signal à bruit crête ») les performances obtenues soient similaires pour le codeur de Franck Galpin et le codeur H26L, on notera que, d'un point de vue visuel, la qualité obtenue est supérieure avec le codeur basé sur un flux de modèles 3D, notamment en termes de respect des détails, d'absence d'effets blocs, etc.
En outre, cette technique de codage basée sur un flux de modèles 3D permet d'atteindre de très bas débits pour une qualité visuelle satisfaisante, ainsi qu'illustré par les figures 3a à 3c, qui présentent respectivement : l'évolution du PSNR ; - une image obtenue selon cette technique ; une zone de détail de cette image, pour un débit de 16kb/s.
Bien que la méthode de Franck Galpin, reposant sur l'extraction d'un flux de modèles 3D, ne présente pas certains inconvénients inhérents aux méthodes d'extraction d'un modèle 3D unique décrites précédemment, elle se heurte cependant à certains problèmes.
Notamment, un inconvénient de cette technique de l'art antérieur est que l'ensemble des modèles 3D obtenus pour une séquence d'images ne sont que partiellement redondants, ce qui rend cette technique inadaptée aux applications de navigation libre dans une scène.
En effet, les différents modèles 3D obtenus sont exprimés dans des repères différents, et présentent de nombreuses imperfections (en termes notamment de dérive, de points aberrants, etc.).
Un autre inconvénient de cette technique de l'art antérieur est que, bien qu'elle soit orientée vers le codage (contrairement aux autres approches décrites précédemment), elle n'est échelonnable (en anglais « scalable ») que du point de vue de la texture des images, et non de la géométrie.
Cette méthode n'est donc pas, ou mal adaptée à une mise en œuvre sur des terminaux de visualisation de capacités de traitement très diverses, ou sur des réseaux de transmission de débit variable.
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de représentation d'une séquence d'images par modèle 3D qui soit adaptée à tout type de séquence d'images fixes ou statiques, ou de scène, y compris complexe. Notamment, l'invention a pour objectif de mettre en œuvre une telle technique qui permette la reconstruction d'une scène, sur laquelle on ne formule aucune hypothèse, qui est acquise avec un appareil grand public, dont on ne connaît ni les caractéristiques, ni le déplacement. Un autre objectif de l'invention est de mettre en œuvre une telle technique qui permette d'obtenir une séquence reproduite par reprojection de bonne qualité visuelle, même lorsqu'on s'éloigne de la trajectoire originale de la caméra ayant servi à l'acquisition de la séquence. L'invention a encore pour objectif de fournir une telle technique qui soit adaptée aux bas et très bas débits.
L'invention a également pour objectif de mettre en œuvre une telle technique qui soit particulièrement bien adaptée aux scènes de grandes dimensions. L'invention a encore pour objectif de fournir une telle technique qui convienne aux applications de codage et de navigation virtuelle.
L'invention a aussi pour objectif de mettre en œuvre une telle technique qui permette d'obtenir des représentations échelonnables (en anglais « scalable ») des séquences d'images, de façon à permettre une transmission sur des réseaux de débits divers, en vue notamment d'applications portables.
Encore un objectif de l'invention est de fournir une telle technique, qui permette, à même débit, la représentation de scènes de meilleure qualité visuelle que selon la technique de Franck Galpin décrite ci-dessus.
L'invention a aussi pour objectif de mettre en œuvre une telle technique qui permette, pour la représentation d'une séquence d'images de même qualité visuelle, une réduction du débit par rapport à la technique de Franck Galpin décrite ci-dessus.
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de représentation d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs.
Selon l'invention, le modèle tridimensionnel associé au GOP de niveau n est représenté à l'aide d'un maillage irrégulier tenant compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle tridimensionnel associé au GOP de niveau n-1, ledit sommet étant appelé sommet commun. Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la représentation d'une séquence d'images par modèles 3D. En effet, comme pour la méthode proposée par Franck Galpin, l'invention propose une approche reposant, non pas sur l'extraction d'un modèle 3D unique pour l'ensemble des images de la séquence, mais sur l'extraction d'un flux de modèles 3D, associés chacun à un groupe d'images, appelé GOP.
En outre, l'invention propose une amélioration inventive de la technique de Franck Galpin, en établissant une correspondance entre les différents modèles
3D associés à chacun des GOPs, de façon, notamment, à accroître leur redondance. L'invention permet donc avantageusement des applications de type navigation interactive.
Une telle correspondance entre modèles 3D successifs est rendue possible en utilisant un maillage irrégulier des images, qui s'adapte particulièrement bien aux singularités des images. Le maillage irrégulier d'un modèle 3D prend ainsi en compte au moins un sommet singulier (et plus généralement les points ou lignes particuliers de l'image) du maillage irrégulier du sommet 3D précédent.
L'invention permet donc, à qualité visuelle égale, de réduire le débit de transmission de la séquence d'images, du fait de la redondance entre les différents modèles 3D. Elle permet également, pour un même débit, d'obtenir une meilleure qualité visuelle de la représentation de la séquence d'images, grâce au suivi des singularités de l'image entre modèles 3D successifs.
Selon une caractéristique avantageuse de l'invention, on associe également à au moins deux modèles tridimensionnels consécutifs un modèle de base construit à partir desdits sommets communs auxdits au moins deux modèles tridimensionnels.
Selon la nature de la séquence d'images, il est possible qu'à tous les modèles 3D associés à la séquence corresponde un même maillage de base. Ce maillage de base, ou maillage grossier dont les différents modèles 3D constituent des raffinements, correspond à la structure géométrique commune à tous les modèles 3D qui lui sont associés. Préférentiellement, on passe d'un desdits modèles tridimensionnels à un autre par transformation en ondelettes, à l'aide d'un premier ensemble de coefficients d' ondelettes.
Avantageusement, un desdits modèles tridimensionnels est obtenu à partir dudit modèle de base associé par transformation en ondelettes, à l'aide d'un deuxième ensemble de coefficients d' ondelettes.
L'invention permet donc une transmission scalable de la séquence d'images, adaptable en fonction des caractéristiques du réseau ou du terminal de visualisation. Les éléments à transmettre pour une reconstruction de la séquence sont, outre les paramètres de la caméra, le maillage de base d'une part, et les coefficients d'ondelettes permettant de reconstruire les différents modèles 3d d'autre part. En transmettant un nombre plus ou moins grand de coefficients d'ondelettes, on obtient une qualité de reconstruction plus ou moins élevée, adaptée au débit du réseau de transmission ou à la capacité du terminal de visualisation.
De manière préférentielle, ledit maillage irrégulier de niveau n est un maillage irrégulier bidimensionnel de l'une des images dudit GOP de niveau n.
De manière avantageuse, ladite image maillée est la première image dudit GOP de niveau n. Préférentiellement, chacun desdits modèles tridimensionnels est obtenu par élévation dudit maillage irrégulier le représentant.
On combine ainsi des informations de profondeur au maillage 2D, pour obtenir par élévation une carte de profondeur maillée.
Selon une première variante avantageuse de l'invention, ledit maillage bidimensionnel irrégulier est obtenu par simplifications successives d'un maillage triangulaire régulier de ladite image.
Par exemple, on part de triangles de côté 1 , pour couvrir tous les points de l'image. Selon une deuxième variante avantageuse de l'invention, ledit maillage bidimensionnel irrégulier est obtenu à partir d'un maillage de Delaunay de points d'intérêt prédéterminés de ladite image.
Ces points d'intérêt sont détectés au préalable, par exemple par l' algorithme de Harris et Stephen.
Préférentiellement, deux GOPs successifs ont au moins une image commune.
Ainsi, la dernière image d'un GOP est aussi la première image du GOP suivant. Selon une caractéristique avantageuse de l'invention, lesdits sommets communs auxdits niveaux n-1 et n sont détectés par estimation de mouvement entre la première image dudit GOP de niveau n-1 et la première image dudit GOP de niveau n.
Avantageusement, un tel procédé comprend une étape de stockage desdits sommets communs détectés.
Ces sommets communs stockés peuvent ensuite être utilisés pour la construction du modèle associé au GOP suivant.
De manière préférentielle, ledit maillage irrégulier représentant ledit modèle associé au GOP de niveau n tient également compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle associé au GOP de niveau n+1.
En procédant ainsi de manière bidirectionnelle, on accroît encore la qualité visuelle lors de la reconstruction.
Avantageusement, ledit deuxième ensemble de coefficients d'ondelettes est généré par application d'au moins un filtre d'analyse sur un remaillage semi- régulier dudit modèle tridimensionnel associé.
On rappelle qu'un maillage semi-régulier est un maillage dont les sommets qui n'ont pas six voisins sont isolés sur le maillage (c'est-à-dire qu'ils ne sont pas voisins entre eux). Préférentiellement, lesdites ondelettes sont des ondelettes de deuxième génération.
De manière préférentielle, lesdites ondelettes appartiennent au groupe comprenant : - les ondelettes affines par morceaux ; les ondelettes polynomiales ; les ondelettes basées sur le schéma de subdivision de Butterfly. L'invention concerne aussi un signal représentatif d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs.
Selon l'invention, un tel signal comprend : au moins un champ contenant un modèle de base construit à partir de sommets communs à au moins deux maillages irréguliers, représentant chacun un modèle tridimensionnel, lesdits au moins deux modèles tridimensionnels étant associés à au moins deux GOPs successifs ; au moins un champ contenant un ensemble de coefficients d'ondelettes permettant de construire, par transformation en ondelettes à partir dudit modèle de base, au moins un modèle tridimensionnel associé à l'un desdits GOPs ; au moins un champ contenant au moins une texture associée à l'un desdits modèles tridimensionnels ; au moins un champ contenant au moins un paramètre de position de caméra. L'invention concerne encore un dispositif de représentation d'une séquence d'images mettant en œuvre le procédé de représentation décrit précédemment.
L'invention concerne notamment un dispositif de représentation d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs.
Selon l'invention, un tel dispositif comprend : des moyens de construction desdits modèles tridimensionnels, par transformation en ondelettes d'au moins un modèle de base, élaboré à partir de sommets communs à au moins deux maillages irréguliers représentant deux modèles tridimensionnels successifs ; des moyens de représentation desdites images de la séquence à partir desdits modèles tridimensionnels, d'au moins une image de texture et d'au moins un paramètre de position de caméra.
L'invention concerne aussi un dispositif de codage d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs. Selon l'invention, un tel dispositif de codage comprend des moyens de codage d'un modèle tridimensionnel associé au GOP de niveau n, ledit modèle tridimensionnel étant représenté à l'aide d'un maillage irrégulier tenant compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle tridimensionnel associé au GOP de niveau n-1. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1, déjà commentée en relation avec l'art antérieur, présente le principe de la reconstruction d'une séquence vidéo par un flux de modèles
3D ; les figures 2a à 2e, déjà commentées en relation avec l'art antérieur, illustrent un comparatif des résultats visuels obtenus selon une technique de type H26L d'une part, et selon la technique de codage de la figure 1 d'autre part ; les figures 3a à 3c, déjà commentées en relation avec l'art antérieur, présentent les résultats obtenus selon la technique de la figure 1 pour un débit faible de 16kb/s ; la figure 4 illustre le principe général de la reconstruction d'une séquence vidéo à partir d'un modèle 3D ; la figure 5 illustre le principe général de la présente invention, reposant sur l'extraction d'un flux de modèles 3D, associés chacun à un modèle de base, commun à un ou plusieurs modèles 3D ; la figure 6 présente les différents coefficients d'ondelettes utilisés pour le codage des modèles 3D de la figure 4 ; la figure 7 présente un synoptique des différentes étapes mises en œuvre selon l'invention pour le codage des images de la séquence.
Le principe général de l'invention repose sur l'extraction d'un flux de modèles 3D auxquels on associe des maillages irréguliers, adaptés au contenu des images de la séquence, et qui prennent en compte les correspondants des sommets du maillage irrégulier du modèle 3D précédent.
On rappelle brièvement, en relation avec la figure 4, le principe général de la reconstruction d'une séquence vidéo par l'intermédiaire d'un modèle tridimensionnel. On considère une scène réelle, en l'occurrence un objet 41 (ici, une théière), que l'on filme (42) au moyen d'une caméra 43. On ne fait aucune hypothèse, ni sur la nature de cette caméra, qui peut être un appareil grand public, ni sur les paramètres d'acquisition de la vidéo.
Après numérisation 44 de la vidéo, on obtient une séquence d'images 45, que l'on appelle séquence originale.
Par analyse 46 de cette séquence originale, on construit au moins un modèle 3D 47 (une pluralité de modèles 3D selon l'invention), à partir duquel on peut reconstruire (48) une séquence d'images 49, en vue de son affichage sur un terminal de visualisation. On présente désormais, en relation avec la figure 5, le principe général de l'invention, qui est basé, d'une part, sur un flux de modèles 3D maillés textures, et d'autre part, sur la mise en œuvre de transformations en ondelettes.
Chaque modèle 3D correspond à une partie de la séquence d'images d'origine, c'est-à-dire à un GOP (en anglais « Group of Pictures »). Les modèles 3D considérés sont des cartes d'élévations maillées irrégulièrement, sous la contrainte de la prise en compte des correspondants des sommets du modèle précédent. Cette contrainte permet de garantir des correspondances précises entre les sommets des modèles successifs. Les transformations permettant de passer d'un modèle à un autre sont décomposées en ondelettes, ce qui permet d'adapter la précision de la transformation au débit, grâce à la scalabilité naturelle des ondelettes.
L'invention repose en outre sur la reconstruction de modèles de base, que l'on associe à un ou plusieurs GOPs successifs, ainsi qu'illustré par la figure 4. La séquence d'images originale est constituées d'images Ik successives. On a plus particulièrement représenté sur la figure 4 les images I0, 13, 15, 110, 120, 130, 140, I50, et I60. Cette séquence peut être de longueur quelconque, aucune hypothèse restrictive n'étant nécessaire selon la présente invention.
La séquence d'images Ik est divisée en groupes d'images successifs, appelés GOPs. Ainsi, le premier GOP 50 comprend les images référencées I0 à I5, le deuxième GOP 51 comprend les images I5 à I20, un (k+l)ιeme GOP 52 comprend notamment les images I30 à I40 et un (k+2)'ème GOP 53 comprend les images I40 à I60. On notera que, dans le mode de réalisation préférentiel de la figure 4, la dernière image d'un GOP est également la première image du GOP suivant : ainsi, l'image I5 par exemple appartient au premier GOP 50 et au deuxième GOP 51.
On construit, pour chacun de ces GOPs 50 à 53, un modèle 3D Mk. Le modèle 3D M0 est associé au GOP 50, le modèle 3D M! est associé au GOP 51, etc.
On construit également un ensemble de modèles de base, notés MBk, dont les modèles 3D Mk constituent des raffinements. Ainsi, sur la figure 4, le modèle de base MB0 est associé aux modèles 3D M0 à Mk, et le modèle de base MBl est associé aux modèles 3D Mk, Mk+1 et suivants.
On choisit d'associer un tel modèle grossier MBk aux modèles 3D de l'ensemble des GOPs le long desquels on peut suivre un ensemble de points particuliers prédéterminés. Lorsque certains de ces points ne sont plus apparents dans le modèle 3D suivant, on choisit de passer à un nouveau modèle de base
MBk+1.
On peut ainsi décomposer en ondelettes les différents modèles 3D Mk, qui ont été obtenus séparément, mais qui s'appuient tous sur un même maillage de base, à savoir celui du modèle grossier commun associé.
Suivant la nature des images de la séquence originale, et l'existence de zones communes entre celles-ci en plus ou moins grand nombre, le maillage de base MBk pourra être valide pour un nombre variable de GOPs, voire même éventuellement pour toute la séquence d'images. Grâce à ces modèles de base MBk, on peut donc exprimer chaque modèle
3D Mk estimé, par le maillage de base lui correspondant d'une part, et par un ensemble de coefficients d'ondelettes d'autre part.
Cette représentation est résumée dans le schéma de la figure 6, où les coefficients tk représentent les coefficients d'ondelettes relatifs à une transformation de passage d'un modèle 3D Mk au suivant et où les coefficients rk représentent les coefficients d'ondelettes relatifs à un raffinement entre un modèle de base MBk et un modèle 3D Mk associé.
Ainsi, les coefficients d'ondelettes t0 k,k+1 à tn k'k+! sont utilisés pour passer d'un modèle 3D Mk au modèle 3D Mk+1. Les coefficients d'ondelettes r0 k à r k illustrent quant à eux le passage d'un modèle 3D Mk au modèle de base associé (en l'espèce, le modèle MBL).
Le premier ensemble de coefficients d'ondelettes tk définit donc les liens entre les différents modèles Mk, ce qui permet de passer de l'un à l'autre, et de générer des modèles intermédiaires, soit par une interpolation linéaire entre les correspondants, soit de manière implicite grâce aux ondelettes. Le deuxième jeu d'ondelettes rk assure une transmission progressive et efficace (en terme de débit) des différents modèles. Ainsi, la technique de l'invention peut être adaptée à tous types de terminaux, quelle que soit leur capacité de traitement, et à tous types de réseaux de transmission, quel que soit leur débit.
On présente désormais, en relation avec la figure 7, les différentes étapes mises en œuvre selon l'invention, lors du codage des modèles et des textures associées, pour la représentation d'une séquence d'images originale.
En entrée de l'algorithme, on a un ensemble d'images naturelles In à Im, correspondant à différentes prises de vue d'une scène ou d'un objet du monde réel, comme illustré précédemment en relation avec la figure 4. Dans un mode de réalisation préféré de l'invention, ces images sont au format ppm et au format pgm. L'invention s'applique bien sûr également à tout autre format d'image.
On procède tout d'abord à une estimation de mouvement 71 entre les différentes images de la séquence originale, de façon à déterminer le champ de mouvement Cl ll+p entre les images In et In+p, ainsi que l'ensemble des points supports de l'estimation de l'information 3D, à savoir l'ensemble εn π+p des sommets du maillage utilisé pour l'estimation de mouvement entre les images In et In+p, ayant les plus hauts scores avec le détecteur de Harris et Stephen et décimés régulièrement.
On sélectionne ensuite (72) les images clefs Kk de la séquence originale, qui délimitent les différents GOPs de la séquence.
Si la séquence originale est une séquence vidéo, la sélection 72 des images clefs Kk délimitant les GOPs est réalisée selon l'algorithme développé par Franck Galpin et al. dans "Sliding Adjustment for 3D Video Représentation" EURASIP Journal on Applied Signal Processing 2002 :10 (voir notamment le paragraphe 5.1. Sélection Criteria). Cette sélection 72 des images de début et de fin de GOP repose donc sur la validation de trois critères:
- un mouvement moyen suffisant pour la reconstruction de l'information 3D ; un pourcentage de points communs relativement élevé entre les deux images extrêmes du GOP ; - la validité de la géométrie estimée (évaluée grâce au résidu épipolaire). La première image clef sélectionnée est quant à elle la première image, I0 de la séquence originale.
Pour l'extraction des modèles 3D Mk, c'est-à-dire pour l'estimation de la matrice fondamentale et pour l'estimation des matrices de projection et des positions de caméra 73, on exploite également les techniques développées par Franck Galpin dans "Représentation 3D de séquences vidéo: Schéma d'extraction automatique d'un flux de modèles 3D, applications à la compression et à la réalité virtuelle," Université de Rennes 1, 2002 et dans "Sliding Adjustment for 3D Video Représentation" EURASIP Journal on Applied Signal Processing 2002 :10. Ces techniques reposent sur les algorithmes classiques de la modélisation 3D.
Dans le cas, non pas d'une séquence vidéo, mais d'un ensemble d'images, le principe est le même pour l'extraction de l'information 3D. En revanche, le support de cette estimation est un ensemble de points particuliers de l'image courante, ayant un fort score pour le détecteur de Harris et Stephen (dans "A
Combined Corner and Edge Detector," en français "un détecteur combiné de sommets et d'arêtes", Proc. 4th Alvey Vision Conf., 1988), dont on cherche les correspondants dans l'image suivante par « block matching » (ou estimation de mouvement par blocs). On limite en outre le nombre de modèles à transmettre, en mettant en œuvre une sélection 72 des images à prendre en compte pour la reconstruction de la séquence originale. Cette sélection 72 est basée sur les mêmes critères que la sélection des images clefs dans le cas d'une vidéo. Après sélection 72 des images clefs Kk du GOP k, on détermine donc le champ de mouvement Ck associé au GOP k comme étant le champ de mouvement entre les deux images de début et de fin de GOP k.
On procède également à une calibration 75, permettant de déterminer l'ensemble des paramètres intrinsèques et extrinsèques de la caméra ayant servi à l'acquisition de la séquence d'images, et notamment la position Pk de la caméra associée à l'image Ik.
Connaissant cette position Pk d'une part, et le champ de mouvement Ck associé au GOP k d'autre part, on estime (74) la carte de profondeur Zk associée au GOP k.
On sauvegarde également (76) l'ensemble des images clefs Kk de la séquence originale associées aux GOPs k.
On pourra se référer aux deux publications de Franck Galpin citées précédemment pour le mode de fonctionnement plus particulier des blocs référencés 71 à 76 sur la figure 7.
En vue de la reconstruction, on réalise un maillage irrégulier bidimensionnel 77 des cartes de profondeur Zk, sous la contrainte de la prise en compte des correspondants des sommets du modèle associé au GOP précédent, contenus dans l'image Kk. Ce maillage 2D peut être calculé de deux manières: par des simplifications successives à partir d'un maillage régulier de triangles de coté 1 (i.e. tous les points de l'image) ;
- par un maillage de Delaunay de points d'intérêt détectés au préalable. Lorsque le maillage a été déterminé au niveau n, on estime (78), à l'aide du champ de mouvement Cn, les correspondants de ces points dans la dernière image du GOP n (qui est aussi, dans un mode de réalisation préféré de l'invention, la première image du GOP n+1). Cette liste de sommets correspondants est alors stockée (78) et utilisée lors du maillage 77 du modèle associé au GOP n+1.
Dans le cas du maillage 2D obtenu par simplification, on contraint que les points de cette liste 78 soient présents dans le maillage final.
Dans le cas du maillage de Delaunay, les sommets du maillage associé au GOP n+1 obtenu par une triangulation de Delaunay sont:
- les points particuliers détectés par l'algorithme de Harris et Stephen ("A Combined Corner and Edge Detector," Proc. 4th Alvey Vision Conf., 1988), ou tout autre détecteur de points d'intérêt adéquat, sur l'image clef Kn+1 du GOP n+1, - les correspondants des sommets du maillage associé au GOP n. La liste des correspondants C(En) calculés au niveau n permet de prendre en compte les sommets du modèle du GOP n qui ne feraient pas partie des sommets détectés par Harris sur l'image clé du GOP n+1.
Ainsi, on est assuré de la présence des correspondants des sommets d'un modèle dans le modèle suivant, ce qui facilite amplement le lien 79 entre ces deux modèles. En effet, les correspondances 79 entre les modèles pourront être obtenues de manière précise grâce au champ de mouvement.
Dans une variante de réalisation de l'invention, pour obtenir une transformation 79 encore plus précise, on rend cette étude bidirectionnelle, en contraignant le maillage du modèle courant à la prise en compte des correspondants, non seulement des sommets du modèle précédent, mais également des sommets du modèle suivant.
Les maillages 3D Mk, correspondant à la géométrie des modèles 3D représentant les GOPs, sont obtenus par élévation des maillages 2D estimés, ainsi qu'illustré par le bloc référencé 80.
Les correspondances 78 établies entre les sommets de deux modèles successifs permettent d'exprimer la transformation 79, permettant de passer d'un modèle Mk à un modèle Mk+1, à l'aide de coefficients d'ondelettes.
L'intérêt d'exprimer cette transformation à l'aide d'ondelettes est que l'on peut adapter la précision de la transformation au débit grâce à la scalabilité naturelle des ondelettes. Les ondelettes utilisées pour la décomposition sont des ondelettes de deuxième génération, c'est-à-dire qu'elles sont définissables sur des ensembles qui n'ont pas de structure d'espace vectoriel. En l'espèce, avec les notations de la Figure 6, les ondelettes sont définies sur les modèles de base MB0, MBt, etc.
Disposant du maillage de base MBj et de la correspondance géométrique entre MB; et le modèle 3D Mi5 la génération des coefficients d'ondelettes se fait par application de filtres d'analyse sur un remaillage semi-régulier de M;. Les coefficients d'ondelettes d sont la solution du système linéaire suivant :
Td ≈ c où T est la matrice de synthèse globale et où c est l'ensemble des positions des sommets sur le remaillage semi-régulier de M,.
T dépend du type d'ondelettes utilisées. Trois schémas sont privilégiés selon l'invention : les ondelettes affines par morceaux, les ondelettes polynomiales (notamment les ondelettes de Loop), et les ondelettes basées sur le schéma de subdivision de Butterfly (J. Warren et al., "Multiresolution Analysis for Surfaces of Arbitrary Topological Type," ACM Transactions on Graphics, vol. 16, pp. 34-73, 1997).
Ainsi, la matrice T est de la forme
T - (P Q) où P est une sous-matrice qui représente uniquement le schéma de subdivision (Affine, Loop, Butterfly,...) et où la sous-matrice Q est l'interprétation géométrique des coefficients d'ondelettes.
Dans un mode de réalisation préféré de l'invention, Q est choisie de telle sorte que les coefficients d'ondelettes aient un moment nul. Dans le cas général, P et Q peuvent être arbitraires dans la mesure où T reste inversible. La figure 7 résume l'approche qui vient d'être exposée pour le GOP k.
Les notations utilisées sur cette figure sont les suivantes:
- /„... ,„ sont les images d'entrée ;
- Cl n+p est le champ de mouvement entre les images /„ et In+p, ; Ck est le champ de mouvement associé au GOP k ; - C(V) est l'ensemble des correspondants des points de l'ensemble V trouvés par le champ de mouvement ; ε,„ est l'ensemble des points supports de l'estimation de l'information 3D (sommets du maillage utilisé pour l'estimation de mouvement ayant les plus hauts scores avec le détecteur de Harris et Stephen et décimés régulièrement) ; - Ek est l'ensemble des sommets du modèle 3D associé au GOP k ;
- Zk est la carte de profondeur associée au GOP k ;
- Kk est l'image de la séquence originale correspondant à l'image clef associée au GOP k ; - Mk est le modèle 3D associé au GOP k ;
- Pm est la position de caméra associée à l'image Im ; θk est l'ensemble des coefficients d'ondelettes définissant la transformation de passage entre Mk et Mk+1, ;
Vk est l'ensemble des sommets du maillage correspondant au modèle M,..
Le codeur 81 reçoit en entrée les positions Pk de la caméra pour les différentes images Ik de la séquence originale, l'estimation Mk du modèle 3D texture, et les coefficients d'ondelettes permettant de transformer le modèle Mk_! en modèle Mk. Simultanément à l'estimation des modèles 3D Mk de chacun des GOPs k, illustrée en figure 7, on reconstruit des modèles de base MBj valides pour plusieurs GOPs successifs.
On suit pour cela, grâce au champ de mouvement calculé Ck, l'ensemble de points particuliers détectés dans la première image du GOP k le long de plusieurs images de la séquence. Plus précisément, on détecte la présence des correspondants de ces points le long de plusieurs GOPs successifs, jusqu'à ce que le nombre de correspondants inclus dans l'image analysée soit inférieur à un seuil prédéterminé. Ce seuil doit être choisi de façon à assurer la possibilité de la reconstruction (i.e. de l'estimation de la matrice fondamentale) ; on le choisit par exemple égal à 7. Lorsque le nombre de points particuliers détectés dans un GOP est inférieur au seuil, on en déduit que ce GOP ne doit pas être associé au même modèle de base MBj que les GOPs précédents.
A partir de ce sous-ensemble de points particuliers, que l'on a suivis de GOP en GOP, on reconstruit un modèle de base MB; dont les sommets sont tous présents dans les modèles Mk associés aux GOPs k le long desquels on a pu suivre ces points.
Ces modèles de base, ou modèles grossiers MB; sont ensuite individuellement décomposés en ondelettes. Pour ce faire, on met en œuvre la méthode décrite par P. Gioia, dans "Reducing the number of wavelet coefficients by géométrie partitioning," Computational geometry, Theory and applications, vol. 14, 1999, en s'appuyant sur le même maillage de base. Chaque modèle 3D M est considéré comme un raffinement du modèle de base grossier MB;.
Ainsi, les coefficients tk de la figure 6 sont obtenus de la manière suivante : les maillages de base issus d'un même GOP sont identiques, et génèrent après subdivision, le même maillage semi-régulier. Par conséquent, les coefficients rk sont indexés par les mêmes sommets géométriques lorsque k varie dans un même GOP. Pour chaque k intermédiaire, on peut donc définir une fonction 1* qui fait correspondre à chacun de ces sommets la différence entre les coefficients r; k et r; k+1. Cette fonction i* est alors décomposée, comme précédemment, en coefficients d'ondelettes, qui sont les coefficients
L'invention permet donc de transmettre la géométrie des modèles associés à la séquence originale de manière peu coûteuse, puisqu'on transmet, d'une part, les maillages de base et d'autre part, les coefficients d'ondelettes associés aux différents modèles.
Les applications envisageables dans le cadre de l'invention sont nombreuses. L'invention s'applique ainsi tout particulièrement au codage d'images représentant une même scène fixe (qui peuvent être un ensemble d'images indépendantes ou une vidéo). Les taux de compression atteints par ce type de représentation se situent dans les bas et très bas débits (typiquement de l'ordre de 20 kbits/s) et on peut donc envisager des applications portables.
De plus, la séquence virtuelle obtenue par reprojection (au décodage) possède toute les fonctionnalités permises par la 3D, telles que le changement d'illumination, la stabilisation de la séquence, la navigation libre, l'ajouts d'objet...

Claims

REVENDICATIONS
1. Procédé de représentation d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs, caractérisé en ce que le modèle tridimensionnel associé au GOP de niveau n est représenté à l'aide d'un maillage irrégulier tenant compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle tridimensionnel associé au GOP de niveau n-1, ledit sommet étant appelé sommet commun.
2. Procédé de représentation selon la revendication 1, caractérisé en ce qu'on associe également à au moins deux modèles tridimensionnels consécutifs un modèle de base construit à partir desdits sommets communs auxdits au moins deux modèles tridimensionnels.
3. Procédé de représentation selon l'une quelconque des revendications 1 et 2, caractérisé en ce qu'on passe d'un desdits modèles tridimensionnels à un autre par transformation en ondelettes, à l'aide d'un premier ensemble de coefficients d'ondelettes.
4. Procédé de représentation selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'un desdits modèles tridimensionnels est obtenu à partir dudit modèle de base associé par transformation en ondelettes, à l'aide d'un deuxième ensemble de coefficients d'ondelettes.
5. Procédé de représentation selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ledit maillage irrégulier de niveau n est un maillage irrégulier bidimensionnel de l'une des images dudit GOP de niveau n.
6. Procédé de représentation selon la revendication 5, caractérisé en ce que ladite image maillée est la première image dudit GOP de niveau n.
7. Procédé de représentation selon l'une quelconque des revendications 1 à 6, caractérisé en ce que chacun desdits modèles tridimensionnels est obtenu par élévation dudit maillage irrégulier le représentant.
8. Procédé de représentation selon l'une quelconque des revendications 5 à 7, caractérisé en ce que ledit maillage bidimensionnel irrégulier est obtenu par simplifications successives d'un maillage triangulaire régulier de ladite image.
9. Procédé de représentation selon l'une quelconque des revendications 5 à 7, caractérisé en ce que ledit maillage bidimensionnel irrégulier est obtenu à partir d'un maillage de Delaunay de points d'intérêt prédéterminés de ladite image.
10. Procédé de représentation selon l'une quelconque des revendications 1 à 9, caractérisé en ce que deux GOPs successifs ont au moins une image commune.
11. Procédé de représentation selon l'une quelconque des revendications 1 à 10, caractérisé en ce que lesdits sommets communs auxdits niveaux n-1 et n sont détectés par estimation de mouvement entre la première image dudit GOP de niveau n- 1 et la première image dudit GOP de niveau n.
12. Procédé de représentation selon la revendication 11 , caractérisé en ce qu'il comprend une étape de stockage desdits sommets communs détectés.
13. Procédé de représentation selon l'une quelconque des revendications 1 à 12, caractérisé en ce que ledit maillage irrégulier représentant ledit modèle associé au GOP de niveau n tient également compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle associé au GOP de niveau n+ 1.
14. Procédé de représentation selon l'une quelconque des revendications 4 à 13, caractérisé en ce que ledit deuxième ensemble de coefficients d'ondelettes est généré par application d'au moins un filtre d'analyse sur un remaillage semi-régulier dudit modèle tridimensionnel associé.
15. Procédé de représentation selon l'une quelconque des revendications 3 à 14, caractérisé en ce que lesdites ondelettes sont des ondelettes de deuxième génération.
16. Procédé de représentation selon l'une quelconque des revendications 3 à 15, caractérisé en ce que lesdites ondelettes appartiennent au groupe comprenant : les ondelettes affines par morceaux ; - les ondelettes polynomiales ; les ondelettes basées sur le schéma de subdivision de Butterfly.
17. Signal représentatif d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs, caractérisé en ce qu'il comprend : au moins un champ contenant un modèle de base construit à partir de sommets communs à au moins deux maillages irréguliers, représentant chacun un modèle tridimensionnel, lesdits au moins deux modèles tridimensionnels étant associés à au moins deux GOPs successifs ; - au moins un champ contenant un ensemble de coefficients d'ondelettes permettant de construire, par transformation en ondelettes à partir dudit modèle de base, au moins un modèle tridimensionnel associé à l'un desdits GOPs ; au moins un champ contenant au moins une texture associée à l'un desdits modèles tridimensionnels ; au moins un champ contenant au moins un paramètre de position de caméra.
18. Dispositif de représentation d'une séquence d'images mettant en œuvre le procédé de représentation de l'une quelconque des revendications 1 à 16.
19. Dispositif de représentation d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs, caractérisé en ce qu'il comprend : des moyens de construction desdits modèles tridimensionnels, par transformation en ondelettes d'au moins un modèle de base, élaboré à partir de sommets communs à au moins deux maillages irréguliers représentant deux modèles tridimensionnels successifs ; - des moyens de représentation desdites images de la séquence à partir desdits modèles tridimensionnels, d'au moins une image de texture et d'au moins un paramètre de position de caméra.
20. Dispositif de codage d'une séquence d'images regroupées en ensembles d'au moins deux images successives, appelés GOPs, un modèle tridimensionnel maillé texture étant associé à chacun desdits GOPs, caractérisé en ce qu'il comprend des moyens de codage d'un modèle tridimensionnel associé au GOP de niveau n, ledit modèle tridimensionnel étant représenté à l'aide d'un maillage irrégulier tenant compte d'au moins un sommet d'au moins le maillage irrégulier représentant le modèle tridimensionnel associé au GOP de niveau n-1.
EP04767398A 2003-06-18 2004-06-18 Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants Withdrawn EP1654882A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0307375A FR2856548A1 (fr) 2003-06-18 2003-06-18 Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants
PCT/FR2004/001542 WO2004114669A2 (fr) 2003-06-18 2004-06-18 Procede de representation d’une sequence d’images par modeles 3d, signal et dispositifs correspondants

Publications (1)

Publication Number Publication Date
EP1654882A2 true EP1654882A2 (fr) 2006-05-10

Family

ID=33484549

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04767398A Withdrawn EP1654882A2 (fr) 2003-06-18 2004-06-18 Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants

Country Status (8)

Country Link
EP (1) EP1654882A2 (fr)
JP (1) JP2006527945A (fr)
KR (1) KR20060015755A (fr)
CN (1) CN1806443A (fr)
BR (1) BRPI0411506A (fr)
CA (1) CA2528709A1 (fr)
FR (1) FR2856548A1 (fr)
WO (1) WO2004114669A2 (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008110719A1 (fr) 2007-02-01 2008-09-18 France Telecom Procede de codage de donnees representatives d'une texture multidimensionnelle, dispositif de codage, procede et dispositif de decodage, signal et programme correspondants
ATE554601T1 (de) * 2007-04-18 2012-05-15 Univ Hannover Skalierbare komprimierung zeitkonsistenter 3d- netzwerksequenzen
CN104243958B (zh) * 2014-09-29 2016-10-05 联想(北京)有限公司 三维网格数据的编码、解码方法以及编码、解码装置
JP7279939B2 (ja) * 2016-09-21 2023-05-23 カカドゥ アール アンド ディー ピーティーワイ リミテッド ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論
GB2563895B (en) * 2017-06-29 2019-09-18 Sony Interactive Entertainment Inc Video generation method and apparatus
JP7660284B2 (ja) * 2019-11-20 2025-04-11 パナソニックIpマネジメント株式会社 三次元モデル生成方法及び三次元モデル生成装置
CN111862305B (zh) 2020-06-30 2024-06-18 阿波罗智能技术(北京)有限公司 处理图像的方法、装置、电子设备、存储介质和程序产品
JP7701898B2 (ja) * 2022-07-09 2025-07-02 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
US12542926B2 (en) * 2022-08-12 2026-02-03 Tencent America LLC Motion field coding in dynamic mesh compression
WO2025154699A1 (fr) * 2024-01-16 2025-07-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Procédé de codage, procédé de décodage, dispositif de codage et dispositif de décodage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2004114669A2 *

Also Published As

Publication number Publication date
WO2004114669A3 (fr) 2005-03-10
FR2856548A1 (fr) 2004-12-24
CN1806443A (zh) 2006-07-19
KR20060015755A (ko) 2006-02-20
BRPI0411506A (pt) 2006-07-25
CA2528709A1 (fr) 2004-12-29
WO2004114669A2 (fr) 2004-12-29
JP2006527945A (ja) 2006-12-07

Similar Documents

Publication Publication Date Title
US20030235338A1 (en) Transmission of independently compressed video objects over internet protocol
WO2020117657A1 (fr) Amélioration de la capture de performance avec rendu neuronal en temps réel
Nocerino et al. A smartphone-based pipeline for the creative industry-The REPLICATE project
EP1604529A2 (fr) PROCEDES ET DISPOSITIFS DE CODAGE ET DE DECODAGE D’UNE SEQUENCE D’IMAGES PAR DECOMPOSITION MOUVEMENT/TEXTURE ET CODAGE PAR ONDELETTES
WO2002007099A1 (fr) Estimateur de mouvement pour le codage et le decodage de sequences d'images
EP3891991A1 (fr) Codage de nuage de points à l'aide d'une transformée d'homographie
EP1654882A2 (fr) Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants
Jantet Layered depth images for multi-view coding
EP1413140B1 (fr) Procede d'estimation de mouvement entre deux images avec gestion des retournements de mailles et procede de codage correspondant
EP1116185B1 (fr) Methode de compression et de codage d'un reseau maille tridimensionnel
FR2813485A1 (fr) Procede de construction d'au moins une image interpolee entre deux images d'une sequence animee, procedes de codage et de decodage, signal et support de donnees correspondant
US20070064099A1 (en) Method of representing a sequence of pictures using 3d models, and corresponding devices and signals
EP1574068B1 (fr) Procede de codage d'une image par ondelettes et procede de decodage correspondant
EP0722251A1 (fr) Procédé d'interpolation d'images
Zhang et al. Light field sampling
EP3939304B1 (fr) Procédés et dispositifs de codage et de décodage d'une séquence vidéo multi-vues
WO2006030103A1 (fr) Procede d'estimation de mouvement a l'aide de maillages deformables
EP3991401A1 (fr) Procédé et dispositif de traitement de données de video multi-vues
EP3918576A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
WO2006040270A2 (fr) Procede de decodage local d'un train binaire de coefficients d'ondelettes
Hayat Scalable 3D visualization via synchronous data hiding
Dvořák et al. Survey of Inter‐Prediction Methods for Time‐Varying Mesh Compression
Jacumin Variational methods for PDE-based image and video compression
WO2000022577A1 (fr) Procede de codage d'un maillage source, avec optimisation de la position d'un sommet resultant d'une fusion d'arete, et applications correspondantes
Lingadahalli-Ravi Machine Learning-based Depth Estimation and View Synthesis for Immersive Video

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060118

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL HR LT LV MK

RIN1 Information on inventor provided before grant (corrected)

Inventor name: GIOIA, PATRICK

Inventor name: BALTER, RAPHAELE

17Q First examination report despatched

Effective date: 20060830

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20080610