WO2017082076A1 - 符号化装置および符号化方法、復号装置および復号方法 - Google Patents

符号化装置および符号化方法、復号装置および復号方法 Download PDF

Info

Publication number
WO2017082076A1
WO2017082076A1 PCT/JP2016/082024 JP2016082024W WO2017082076A1 WO 2017082076 A1 WO2017082076 A1 WO 2017082076A1 JP 2016082024 W JP2016082024 W JP 2016082024W WO 2017082076 A1 WO2017082076 A1 WO 2017082076A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
dimensional
viewpoint
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2016/082024
Other languages
English (en)
French (fr)
Inventor
田中 潤一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US15/765,805 priority Critical patent/US11716487B2/en
Priority to RU2018116473A priority patent/RU2721678C2/ru
Priority to EP16864039.9A priority patent/EP3343914A4/en
Priority to AU2016352648A priority patent/AU2016352648A1/en
Priority to MYPI2018000679A priority patent/MY202620A/en
Priority to SG11201803682RA priority patent/SG11201803682RA/en
Priority to KR1020187012316A priority patent/KR102516992B1/ko
Priority to CN201680064678.3A priority patent/CN108353157B/zh
Priority to MX2018005501A priority patent/MX389538B/es
Priority to CN202110383257.XA priority patent/CN113286137B/zh
Priority to CA3004241A priority patent/CA3004241C/en
Priority to BR112018009070A priority patent/BR112018009070A8/pt
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2017550061A priority patent/JP6384744B2/ja
Publication of WO2017082076A1 publication Critical patent/WO2017082076A1/ja
Priority to ZA2018/02193A priority patent/ZA201802193B/en
Priority to PH12018500977A priority patent/PH12018500977A1/en
Anticipated expiration legal-status Critical
Priority to AU2021203450A priority patent/AU2021203450B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more two-dimensional [2D] image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/246Calibration of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • H04N13/268Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from three-dimensional [3D] object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from three-dimensional [3D] object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from three-dimensional [3D] object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/286Image signal generators having separate monoscopic and stereoscopic modes
    • H04N13/289Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/296Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format

Definitions

  • the present disclosure relates to an encoding device, an encoding method, a decoding device, and a decoding method, and particularly acquires two-dimensional image data and depth image data of a viewpoint corresponding to a predetermined display image generation method regardless of the viewpoint at the time of imaging.
  • the present invention relates to an encoding device, an encoding method, a decoding device, and a decoding method that can be performed.
  • a transmission system In multi-view stereo technology, a transmission system has been devised that records, encodes, transmits, decodes, and displays three-dimensional data composed of three-dimensional position information and two-dimensional image data of a three-dimensional object imaged by a plurality of cameras.
  • three-dimensional data For example, refer nonpatent literature 1).
  • MPEG Motion / Picture / Experts / Group / phase
  • Non-Patent Document 2 for example, see Non-Patent Document 2.
  • two-dimensional image data of a plurality of viewpoints obtained by a plurality of cameras and depth image data including a depth indicating the position of each pixel in the depth direction (direction perpendicular to the imaging surface) are directly recorded.
  • Transmission systems for encoding, transmission, decoding and display have been devised.
  • MVCD Multiview and depth video coding
  • AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • the processing on the receiving side is facilitated, but the viewpoints of the plurality of cameras are a predetermined display image generation method.
  • the viewpoint is not limited to the point of view, and excessive or insufficient viewpoints occur on the receiving side.
  • the present disclosure has been made in view of such a situation, and can acquire two-dimensional image data and depth image data of a viewpoint corresponding to a predetermined display image generation method regardless of the viewpoint at the time of imaging. It is what you want to do.
  • the encoding device includes a plurality of second viewpoints corresponding to a predetermined display image generation method from three-dimensional data of a subject generated from two-dimensional image data of a plurality of first viewpoints.
  • Two-dimensional image data and a two-dimensional data generation unit that generates depth image data indicating the position of the subject in the depth direction of each pixel with respect to the third viewpoint, and the plurality of second data generated by the two-dimensional data generation unit
  • a transmission unit a transmission unit.
  • the encoding method according to the first aspect of the present disclosure corresponds to the encoding device according to the first aspect of the present disclosure.
  • two-dimensional of a plurality of second viewpoints corresponding to a predetermined display image generation method from three-dimensional data of a subject generated from two-dimensional image data of a plurality of first viewpoints.
  • Image data and depth image data indicating the position of the subject in the depth direction of each pixel with respect to the third viewpoint are generated, and the generated two-dimensional image data and depth image data of the plurality of second viewpoints are encoded. Then, the encoded two-dimensional image data of the second viewpoint and the depth image data are transmitted.
  • the decoding device includes encoded data of two-dimensional image data of a plurality of first viewpoints corresponding to a predetermined display image generation method, and a depth direction of a subject of each pixel with respect to the second viewpoint
  • a decoding unit that decodes encoded data of depth image data indicating the position of the image, a plurality of second-dimensional image data of the first viewpoint obtained as a result of decoding by the decoding unit, and the depth image data
  • a three-dimensional data generation unit that generates three-dimensional data of a subject, and two-dimensional image data by the predetermined display image generation method based on the three-dimensional data generated by the three-dimensional data generation unit.
  • a two-dimensional data generation unit that generates as a decoding device.
  • the decoding method and program according to the second aspect of the present disclosure correspond to the decoding device according to the second aspect of the present disclosure.
  • encoded data of a plurality of first viewpoint two-dimensional image data corresponding to a predetermined display image generation method, and the position of each pixel in the depth direction of the subject with respect to the second viewpoint 3D data of the subject is generated using the second-dimensional image data of the plurality of first viewpoints and the depth-image data obtained as a result of the decoding.
  • two-dimensional image data is generated as display image data by the predetermined display image generation method.
  • the encoding device according to the first aspect and the decoding device according to the second aspect can be realized by causing a computer to execute a program.
  • a program to be executed by a computer is transmitted through a transmission medium or recorded on a recording medium, Can be provided.
  • encoding can be performed. Further, according to the first aspect of the present disclosure, encoding is performed so that the decoding device can acquire the two-dimensional image data and the depth image data of the viewpoint corresponding to the predetermined display image generation method regardless of the viewpoint at the time of imaging. can do.
  • ⁇ ⁇ Decoding according to the second aspect of the present disclosure. Further, according to the second aspect of the present disclosure, it is possible to acquire 2-dimensional image data and depth image data of a viewpoint corresponding to a predetermined display image generation method regardless of the viewpoint at the time of imaging.
  • 3 is a flowchart for describing encoding processing of the imaging device and the encoding device in FIG. 1. It is a block diagram which shows the 1st structural example of the conversion part of FIG. It is a block diagram which shows the 2nd structural example of the conversion part of FIG. It is a block diagram which shows the 3rd structural example of the conversion part of FIG.
  • FIG. 11 is a flowchart for describing encoding processing of the imaging apparatus and the encoding apparatus in FIG. 10.
  • FIG. It is a block diagram which shows the structural example of the decoding part of FIG. It is a flowchart explaining the decoding process of the decoding apparatus of FIG. FIG.
  • FIG. 10 is a block diagram illustrating a configuration example of a third embodiment of a transmission system to which the present disclosure is applied. It is a block diagram which shows the structural example of the synthesizing
  • First embodiment Transmission system (FIGS. 1 to 9) 2.
  • Second Embodiment Transmission System (FIGS. 10 to 16) 3.
  • Third Embodiment Transmission System (FIGS. 17 to 19) 4).
  • Fourth Embodiment Transmission System (FIGS. 20 to 25) 5.
  • Fifth embodiment Transmission system (FIGS. 26 to 29) 6).
  • FIG. 1 is a block diagram illustrating a configuration example of a first embodiment of a transmission system to which the present disclosure is applied.
  • the transmission system 10 uses the two-dimensional image data acquired by the imaging device 11 to generate display image data using a predetermined display image generation method, and displays the display image data.
  • the imaging device 11 of the transmission system 10 includes, for example, a multi camera, a distance measuring device, and an image processing unit.
  • the multi-camera of the imaging device 11 is configured by a plurality of (for example, eight) cameras, and captures two-dimensional image data of a moving image of a subject that is at least a part of each camera.
  • the distance measuring device is provided in each camera, for example, and generates depth image data of the same viewpoint as that camera.
  • the image processing unit (three-dimensional data generation unit) of the imaging device 11 performs modeling using Visual Hull or the like using the two-dimensional image data and depth image data of the viewpoint of each camera, and the internal parameters and external parameters of each camera. And create a mesh.
  • the image processing unit obtains the geometric information (Geometry) indicating the three-dimensional position of each point (Vertex) constituting the created mesh and the connection (Polygon) of the point, and the two-dimensional image data of the mesh as 3D of the subject. It is generated as dimension data and supplied to the encoding device 12.
  • the encoding device 12 includes a conversion unit 21, an encoding unit 22, and a transmission unit 23.
  • the conversion unit 21 of the encoding device 12 sets internal parameters and external parameters of a plurality of viewpoint virtual cameras corresponding to a predetermined display image generation method as camera parameters.
  • the conversion unit 21 generates two-dimensional image data and depth image data of a plurality of viewpoints corresponding to a predetermined display image generation method from the three-dimensional data supplied from the imaging device 11 based on the camera parameters.
  • the viewpoints of the two-dimensional image data and the depth image data are the same, but the viewpoints and the number of viewpoints of the two-dimensional image data and the depth image data may be different.
  • the viewpoints and the number of viewpoints of the two-dimensional image data and the depth image data may be the same as or different from the viewpoints of the camera of the imaging device 11.
  • the conversion unit 21 extracts, from the three-dimensional data supplied from the imaging device 11, three-dimensional data of an occlusion region that cannot be seen from a plurality of viewpoints corresponding to a predetermined display image generation method (hereinafter referred to as occlusion three-dimensional data). To do.
  • the conversion unit 21 is camera-related information that is information about a virtual camera such as two-dimensional image data and depth image data of a plurality of viewpoints corresponding to a predetermined display image generation method, occlusion three-dimensional data, and camera parameters of each viewpoint. Is supplied to the encoding unit 22.
  • the encoding unit 22 encodes the two-dimensional image data, depth image data, and metadata supplied from the conversion unit 21.
  • an encoding method an MVCD (Multiview and depth video coding) method, an AVC method, an HEVC method, or the like can be adopted.
  • the encoding method is the MVCD method
  • the two-dimensional image data and depth image data of all viewpoints are encoded together.
  • one encoded stream including encoded data and metadata of two-dimensional image data and depth image data is generated.
  • the camera parameters in the metadata are arranged in the reference
  • Information about depth image data in the metadata is arranged in Deptheprepresentation information SEI.
  • the encoding method is the AVC method or HEVC method
  • the depth image data and the two-dimensional image data of each viewpoint are encoded separately.
  • an encoded stream of each viewpoint including the two-dimensional image data and metadata of each viewpoint, and an encoded stream of each viewpoint including the encoded data and metadata of the depth image data of each viewpoint are generated.
  • the metadata is arranged in, for example, User unregistered SEI of each encoded stream.
  • the metadata includes information associating the encoded stream with camera parameters and the like.
  • information that associates an encoded stream with a camera parameter or the like may not be included in the metadata, and only the metadata corresponding to the encoded stream may be included in the encoded stream.
  • the encoding unit 22 supplies the encoded stream to the transmission unit 23.
  • the transmission unit 23 transmits the encoded stream supplied from the encoding unit 22 to the decoding device 13.
  • metadata is arranged and transmitted in an encoded stream, but may be transmitted separately from the encoded stream.
  • the decoding device 13 includes a receiving unit 31, a decoding unit 32, and a conversion unit 33.
  • the reception unit 31 of the decoding device 13 receives the encoded stream transmitted from the transmission unit 23 and supplies it to the decoding unit 32.
  • the decoding unit 32 decodes the encoded stream supplied from the receiving unit 31 by a method corresponding to the encoding method in the encoding unit 22.
  • the decoding unit 32 supplies the two-dimensional image data and depth image data of a plurality of viewpoints obtained as a result, and metadata to the conversion unit 33.
  • the conversion unit 33 Based on the metadata supplied from the decoding unit 32 and the display image generation method of the decoding device 13, the conversion unit 33 generates two-dimensional image data of a predetermined viewpoint from two-dimensional image data and depth image data of a plurality of viewpoints. Alternatively, two-dimensional image data and depth image data at a predetermined viewpoint are selected. The conversion unit 33 generates display image data based on the selected two-dimensional image data of a predetermined viewpoint or two-dimensional image data and depth image data of a predetermined viewpoint, and supplies the display image data to the display device 14.
  • the display device 14 includes a two-dimensional head mounted display, a two-dimensional monitor, a three-dimensional head mounted display, a three-dimensional monitor, and the like.
  • the display device 14 performs two-dimensional display or three-dimensional display of the display image based on the display image data supplied from the conversion unit 33.
  • FIG. 2 is a block diagram illustrating a configuration example of the conversion unit 21 in FIG.
  • 2 includes a subject position determination unit 51, a camera determination unit 52, a two-dimensional data generation unit 53, and an occlusion determination unit 54.
  • the subject position determination unit 51 of the conversion unit 21 determines a three-dimensional position that is the center of the subject among the three-dimensional objects corresponding to the three-dimensional data supplied from the imaging device 11 of FIG.
  • the represented subject position information is supplied to the camera determination unit 52.
  • the camera determination unit 52 determines camera parameters of a plurality of viewpoints corresponding to a predetermined display image generation method based on the subject position information supplied from the subject position determination unit 51, and determines the occlusion with the two-dimensional data generation unit 53. Supplied to the unit 54. Moreover, the camera determination part 52 produces
  • the two-dimensional data generation unit 53 performs perspective projection of a three-dimensional object corresponding to the three-dimensional data for each viewpoint based on the camera parameters of the plurality of viewpoints supplied from the camera determination unit 52.
  • the relationship between the matrix m ′ corresponding to the two-dimensional position of each pixel and the matrix M corresponding to the three-dimensional coordinates of the world coordinate system is as follows using the internal parameter A and external parameter R
  • Equation (1) is expressed in more detail by Equation (2).
  • (u, v) is a two-dimensional coordinate on the image
  • f x and f y are focal lengths.
  • C x and C y are principal points
  • r 11 to r 13 r 21 to r 23 , r 31 to r 33
  • t 1 to t 3 are parameters
  • (X, Y, Z ) Is a three-dimensional coordinate in the world coordinate system.
  • the two-dimensional data generation unit 53 obtains the three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel using the camera parameters according to the above formulas (1) and (2).
  • the two-dimensional data generation unit 53 converts the two-dimensional image data of the three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel in the three-dimensional data into the two-dimensional image data of each pixel. Two-dimensional image data that associates the two-dimensional coordinates of each pixel with the image data is generated.
  • the two-dimensional data generation unit 53 obtains the depth of each pixel based on the three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel, and obtains depth image data that associates the two-dimensional coordinates of each pixel with the depth. Generate.
  • the depth is, for example, the reciprocal 1 / z of the position z in the depth direction of the subject.
  • the two-dimensional data generation unit 53 supplies the two-dimensional image data and depth image data of each viewpoint to the encoding unit 22.
  • the occlusion determination unit 54 extracts the occlusion 3D data from the 3D data supplied from the imaging device 11 based on the camera parameters supplied from the camera determination unit 52, and supplies the extracted data to the encoding unit 22 as metadata.
  • FIG. 3 is a diagram illustrating an example of a plurality of viewpoints corresponding to a predetermined display image generation method.
  • the predetermined display image generation method includes two predetermined viewpoint display image generation methods for two-dimensionally displaying a predetermined one-point display image, and two free viewpoint display images as one arbitrary viewpoint.
  • This is a free viewpoint display image generation method for dimensional display.
  • the plurality of viewpoints corresponding to the predetermined display image generation method are, for example, a plurality of viewpoints (8 in the example of A in FIG. 3) existing at equal intervals on the same circle. 71 to 78, and the directions of the viewpoints 71 to 78 are toward the center of the circle.
  • the decoding device 13 selects the two-dimensional image data of any one of the viewpoints 71 to 78 as the display image data and supplies it to the display device 14, whereby the display image of the viewpoint is displayed on the display device 14. Can be displayed two-dimensionally.
  • the decoding device 13 generates three-dimensional data based on the two-dimensional image data and the depth image data of the viewpoints 71 to 78, and performs perspective projection of the three-dimensional object corresponding to the three-dimensional data with respect to the free viewpoint. By doing so, it is possible to generate two-dimensional image data of a free viewpoint as display image data. Therefore, the decoding device 13 can cause the display device 14 to display the free viewpoint display image two-dimensionally by supplying the generated display image data to the display device 14.
  • the predetermined display image generation method is a predetermined viewpoint display image generation method, a free viewpoint display image generation method, or a three-dimensional display in which a display image is three-dimensionally displayed based on two-viewpoint two-dimensional image data.
  • the plurality of viewpoints corresponding to the predetermined display image generation method are, for example, a plurality of viewpoints (10 in the example of B in FIG. 3) existing at equal intervals on the same circle. 81 to 90.
  • the viewpoint 88 and the viewpoint 89 are arranged in a substantially horizontal direction with the viewpoint 87 and the viewpoint 88, respectively.
  • the distance between the viewpoints 87 and 89 and between the viewpoints 88 and 90 in the substantially horizontal direction corresponds to, for example, the distance between the left and right eyes of a human.
  • the direction of the viewpoints 81 to 90 is the direction toward the center of the circle where the viewpoints 81 to 90 are arranged.
  • the decoding device 13 can cause the display device 14 to two-dimensionally display the display image at any one of the viewpoints 81 to 90 or the display image at the free viewpoint, as in the case of A in FIG.
  • the decoding device 13 selects the two-dimensional image data of the viewpoint 87 and the viewpoint 89 or the pair of the viewpoint 88 and the viewpoint 90 as display image data, and supplies the display image data to the display device 14.
  • the display image of the pair or the viewpoint 88 and the viewpoint 90 can be displayed on the display device 14 in a three-dimensional manner.
  • the decoding device 13 interpolates the two-dimensional image data of the viewpoint between the pair based on the two-dimensional image data and the depth image data of the viewpoint 87 and the viewpoint 89 pair or the viewpoint 88 and the viewpoint 90 pair. Can do. Therefore, the decoding device 13 supplies the interpolated two-dimensional image data to the display device 14 as display image data, thereby displaying a display image of the viewpoint between the viewpoint 87 and the viewpoint 89 pair or the viewpoint 88 and the viewpoint 90 pair. Can be displayed two-dimensionally on the display device 14.
  • the number of predetermined display image generation methods is plural. Therefore, the decoding device 13 can generate display image data by one of the predetermined display image generation methods based on the two-dimensional image data and the depth image data of a plurality of viewpoints corresponding to the predetermined display image generation method. it can. Therefore, it can be said that the encoding device 12 can generate an encoded stream having scalability. Note that the number of predetermined display image generation methods may be one.
  • the camera determination unit 52 determines the camera parameters of the plurality of viewpoints corresponding to the predetermined display image generation method. By doing so, viewpoint redundancy can be eliminated.
  • the viewpoints of the camera of the imaging device 11 are eight viewpoints 71 to 78, but a plurality of viewpoints corresponding to a plurality of display image generation methods are four viewpoints 71, 73, 75, and 77. If there is, the camera determination unit 52 determines the camera parameters of the four viewpoints. Therefore, the viewpoint redundancy in the encoded stream can be eliminated as compared with the case where all the two-dimensional image data and depth image data of the viewpoints 71 to 78 are encoded.
  • the positions of the plurality of viewpoints corresponding to the plurality of display image generation methods are not limited to the examples of A in FIG. 3 and B in FIG. 3, and can be set to arbitrary positions.
  • the camera parameter of each viewpoint can be set to a camera parameter corresponding to a relatively narrow angle of view, for example. In this case, the resolution at the time of zooming the display image can be improved.
  • encoded streams of a plurality of viewpoints corresponding to all of the predetermined display image generation methods are generated.
  • an encoded stream of a plurality of corresponding viewpoints may be generated for each predetermined display image generation method.
  • the decoding device 13 generates display image data using an encoded stream corresponding to its own display image generation method.
  • the camera determination unit 52 may determine a plurality of viewpoints corresponding to a predetermined display image generation method in response to a request from the decoding device 13.
  • FIG. 4 is a diagram illustrating an example of camera-related information.
  • a plurality of viewpoints corresponding to a predetermined display image generation method are the viewpoints 81 to 90 of B of FIG.
  • the camera-related information is configured by associating the camera ID of each viewpoint with the external parameter R
  • the camera ID is an ID unique to the viewpoint.
  • camera IDs are assigned in order from 0 to viewpoints 81 to 90.
  • T with the camera ID i is described as Ri
  • the internal parameter A is described as Ai.
  • IsStereoFlag is a flag indicating whether or not there is another viewpoint arranged in a substantially horizontal direction, and is set to 1 when there is another viewpoint arranged in a substantially horizontal direction.
  • IsStereoFlag is 1.
  • the stereo camera ID is a camera ID of another viewpoint arranged in a substantially horizontal direction, and is pair information for specifying two viewpoints arranged in a substantially horizontal direction.
  • the camera ID of the other viewpoint 89 arranged in the substantially horizontal direction of the viewpoint 87 with the camera ID 6 is 8, and therefore the stereo camera ID associated with the camera ID 6 is 8. .
  • the stereo camera ID associated with the camera ID of 7 is 9.
  • the stereo camera ID associated with the camera ID of 8 is 6, and the stereo camera ID associated with the camera ID of 9 is 7.
  • FIG. 5 is a flowchart for explaining the encoding process of the imaging device 11 and the encoding device 12 of FIG.
  • step S11 of FIG. 5 the imaging device 11 captures two-dimensional image data of a moving image with a multi-camera, and generates depth image data with a distance measuring device.
  • step S ⁇ b> 12 the imaging device 11 generates 3D data using the 2D image data and the depth image data, and supplies the 3D data to the encoding device 12.
  • step S ⁇ b> 13 the subject position determination unit 51 (FIG. 2) of the encoding device 12 determines a three-dimensional position that is the center of the subject among the three-dimensional objects corresponding to the three-dimensional data supplied from the imaging device 11. Then, subject position information representing the three-dimensional position is supplied to the camera determination unit 52.
  • step S14 the camera determination unit 52 determines camera parameters of a plurality of viewpoints corresponding to a predetermined display image generation method based on the subject position information supplied from the subject position determination unit 51, and a two-dimensional data generation unit. 53 and the occlusion determination unit 54. Further, the camera determination unit 52 generates the camera-related information in FIG. 4 from the camera parameters and the like, and supplies it to the encoding unit 22 in FIG. 1 as metadata.
  • step S15 the two-dimensional data generation unit 53 performs perspective projection of a three-dimensional object corresponding to the three-dimensional data for each viewpoint based on the camera parameters of the plurality of viewpoints supplied from the camera determination unit 52, A three-dimensional coordinate corresponding to the two-dimensional coordinate of the pixel is obtained.
  • step S16 the two-dimensional data generation unit 53 converts the two-dimensional image data of the three-dimensional coordinates of each pixel in the three-dimensional data into the two-dimensional image data of each pixel for each viewpoint. Is generated.
  • the two-dimensional data generation unit 53 obtains the depth of each pixel based on the three-dimensional coordinates of each pixel for each viewpoint, and generates depth image data.
  • the two-dimensional data generation unit 53 supplies the two-dimensional image data and depth image data of each viewpoint to the encoding unit 22.
  • step S ⁇ b> 17 the occlusion determination unit 54 extracts occlusion three-dimensional data from the three-dimensional data supplied from the imaging device 11 based on the camera parameters supplied from the camera determination unit 52, and encodes the encoding unit 22 as metadata. To supply.
  • step S18 the encoding unit 22 encodes the two-dimensional image data, the depth image data, and the metadata supplied from the conversion unit 21, and supplies the encoded stream obtained as a result to the transmission unit 23.
  • step S19 the transmission unit 23 transmits the encoded stream supplied from the encoding unit 22 to the decoding device 13. Then, the process ends.
  • FIG. 6 is a block diagram illustrating a first configuration example of the conversion unit 33 in FIG. 1.
  • FIG. 6 is a conversion unit 33 when the display image generation method of the decoding device 13 of FIG. 1 is a predetermined viewpoint display image generation method, and includes a selection unit 111 and a display control unit 112.
  • the selection unit 111 of the conversion unit 33 recognizes a desired one-viewpoint camera ID based on the camera-related information supplied from the decoding unit 32 of FIG.
  • the selection unit 111 selects two-dimensional image data of one viewpoint corresponding to the recognized camera ID from the two-dimensional image data, depth image data, and occlusion three-dimensional data supplied from the decoding unit 32.
  • the selection unit 111 supplies the selected one-view two-dimensional image data to the display control unit 112.
  • the display control unit 112 supplies the display device 14 with two-dimensional display by supplying the one-view two-dimensional image data supplied from the selection unit 111 to the display device 14 as display image data.
  • the selection unit 111 is arranged in a substantially horizontal direction based on the camera related information.
  • the configuration is the same as that of FIG. 6 except that two-dimensional two-dimensional image data is selected.
  • the selection unit 111 selects the two-dimensional image data of the viewpoint of the camera ID whose isStereoFlag is 1 in the camera related information and the viewpoint of the stereo camera ID corresponding to the camera ID.
  • the selected two-viewpoint two-dimensional image data is supplied to the display device 14 as display image data.
  • the display device 14 displays a left-eye display image based on one-viewpoint two-dimensional image data in the display image data, and displays a right-eye display image based on another one-viewpoint two-dimensional image data.
  • the display image is three-dimensionally displayed.
  • FIG. 7 is a block diagram illustrating a second configuration example of the conversion unit 33 in FIG. 1.
  • a conversion unit 33 when the display image generation method of the decoding device 13 is an interpolation viewpoint display image generation method, and includes a selection unit 131, an interpolation unit 132, and a display control unit 133. .
  • the selection unit 131 of the conversion unit 33 selects one of the camera IDs corresponding to isStereoFlag being 1 and the stereo camera ID corresponding to the one. Recognize
  • the selection unit 131 includes two-viewpoint two-dimensional image data and depth images corresponding to two recognized camera IDs out of the two-dimensional image data, the depth image data, and the occlusion three-dimensional data supplied from the decoding unit 32. Data is selected and supplied to the interpolation unit 132.
  • the interpolation unit 132 interpolates two-dimensional image data having a viewpoint between the two viewpoints based on the two-viewpoint two-dimensional image data and depth image data supplied from the selection unit 131.
  • Such an interpolation technique is called Depth Image Based Rendering, and is described, for example, in International Publication No. WO2014083752.
  • the interpolation unit 132 supplies the interpolated one-viewpoint two-dimensional image data to the display control unit 133.
  • the display control unit 133 supplies the display device 14 with a two-dimensional display by supplying the two-dimensional image data of one viewpoint supplied from the interpolation unit 132 to the display device 14 as display image data.
  • FIG. 8 is a block diagram illustrating a third configuration example of the conversion unit 33 in FIG. 1.
  • 8 is a conversion unit 33 when the display image generation method of the decoding device 13 is a free viewpoint display image generation method.
  • 8 includes a three-dimensional data generation unit 151, a subject position determination unit 152, a camera position determination unit 153, a two-dimensional data generation unit 154, and a display control unit 155.
  • the three-dimensional data generation unit 151 of the conversion unit 33 uses the two-dimensional image data, the depth image data, and the camera parameters included in the camera-related information supplied from the decoding unit 32, as in the imaging device 11. Three-dimensional data is generated.
  • the three-dimensional data generation unit 151 corrects the generated three-dimensional data using the occlusion three-dimensional data supplied from the decoding unit 32. Thereby, it is possible to generate three-dimensional data of the entire region of the subject including the occlusion region that cannot be generated only by the two-dimensional image data and the depth image data.
  • the three-dimensional data generation unit 151 supplies the corrected three-dimensional data to the subject position determination unit 152 and the two-dimensional data generation unit 154.
  • the subject position determination unit 152 determines a three-dimensional position as the center of the subject among the three-dimensional objects corresponding to the three-dimensional data supplied from the three-dimensional data generation unit 151, and subject position information representing the three-dimensional position Is supplied to the camera position determination unit 153.
  • the camera position determination unit 153 determines the camera parameter of the free viewpoint based on the subject position information supplied from the subject position determination unit 152, and supplies the camera parameter to the two-dimensional data generation unit 154.
  • the two-dimensional data generation unit 154 is a free viewpoint display image generation method based on the three-dimensional data supplied from the three-dimensional data generation unit 151 and the free viewpoint camera parameters supplied from the camera position determination unit 153. Dimensional image data is generated as display image data.
  • the two-dimensional data generation unit 154 performs perspective projection of a three-dimensional object corresponding to the three-dimensional data, similarly to the two-dimensional data generation unit 53 of FIG. A three-dimensional coordinate corresponding to the two-dimensional coordinate of each pixel is obtained. Then, the two-dimensional data generation unit 154 generates two-dimensional image data of three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel in the three-dimensional data as display image data of each pixel.
  • the two-dimensional data generation unit 154 obtains the depth of each pixel based on the three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel, and generates depth image data.
  • the two-dimensional data generation unit 154 supplies display image data and depth image data to the display control unit 155.
  • the display control unit 155 supplies display image data and depth image data supplied from the two-dimensional data generation unit 154 to the display device 14.
  • the display device 14 displays the display image two-dimensionally using the display image data and the depth image data as Point Cloud.
  • the converting unit 33 in FIG. 8 generates three-dimensional data from two-dimensional image data and depth image data of a plurality of viewpoints, and determines the three-dimensional data based on the newly determined camera parameters of the free viewpoint. Two-dimensional image data and depth image data are generated from the data. Therefore, the conversion unit 33 can change the zoom magnification of the two-dimensional image data and depth image data of the plurality of viewpoints transmitted from the encoding device 12 or change the viewpoint.
  • FIG. 9 is a flowchart illustrating a decoding process of the decoding device 13 when the configuration of the conversion unit 33 in FIG. 1 is the configuration in FIG. This decoding process is started, for example, when an encoded stream is transmitted from the encoding device 12.
  • the reception unit 31 of the decoding device 13 receives the encoded stream transmitted from the transmission unit 23 and supplies the encoded stream to the decoding unit 32.
  • step S32 the decoding unit 32 decodes the encoded stream supplied from the receiving unit 31.
  • the decoding unit 32 supplies the two-dimensional image data and depth image data of a plurality of viewpoints obtained as a result, and metadata to the conversion unit 33.
  • step S ⁇ b> 33 the three-dimensional data generation unit 151 (FIG. 8) of the conversion unit 33 uses the camera parameters included in the two-dimensional image data, the depth image data, and the metadata supplied from the decoding unit 32. Similarly to 11, three-dimensional data of the subject is generated.
  • step S34 the three-dimensional data generation unit 151 modifies the three-dimensional data generated in step S33 using the occlusion three-dimensional data included in the metadata supplied from the decoding unit 32.
  • the three-dimensional data generation unit 151 supplies the corrected three-dimensional data to the subject position determination unit 152.
  • step S35 the subject position determination unit 152 determines a three-dimensional position that is the center of the subject among the three-dimensional objects corresponding to the three-dimensional data supplied from the three-dimensional data generation unit 151, and uses the three-dimensional position.
  • the object position information to be represented is supplied to the camera position determination unit 153.
  • step S36 the camera position determination unit 153 determines the camera parameter of the free viewpoint based on the subject position information supplied from the subject position determination unit 152, and supplies the camera parameter to the two-dimensional data generation unit 154.
  • step S37 the two-dimensional data generation unit 154 generates two-dimensional image data as display image data by the free viewpoint display image generation method based on the three-dimensional data and the camera parameters of the free viewpoint.
  • step S38 the two-dimensional data generation unit 154 determines the depth of each pixel based on the three-dimensional coordinates corresponding to the two-dimensional coordinates of each pixel, and generates depth image data.
  • the two-dimensional data generation unit 154 supplies display image data and depth image data to the display control unit 155.
  • step S39 the display control unit 155 supplies the display image data and the depth image data supplied from the two-dimensional data generation unit 154 to the display device 14.
  • the imaging device 11 generates three-dimensional data from the captured two-dimensional image data of a plurality of viewpoints
  • the encoding device 12 generates a predetermined display image from the three-dimensional data.
  • Two-dimensional image data and depth image data of a plurality of viewpoints corresponding to the method are generated and encoded. Therefore, the encoding device 12 can encode the two-dimensional image data and the depth image data of the viewpoint corresponding to the predetermined display image generation method so that the decoding device 13 can acquire it regardless of the viewpoint at the time of imaging. .
  • the decoding device 13 receives and decodes encoded streams of two-dimensional image data and depth image data of a plurality of viewpoints corresponding to a predetermined display image generation method transmitted from the encoding device 12. Therefore, the decoding device 13 can acquire the two-dimensional image data and the depth image data of the viewpoint corresponding to the predetermined display image generation method regardless of the viewpoint at the time of imaging.
  • the encoded stream generated by the encoding device 12 can be reproduced by a decoding device of a plurality of display image generation methods.
  • a decoding device of a plurality of display image generation methods For example, in both a low-function decoding device whose display image generation method is a predetermined viewpoint display image generation method and a high-function decoding device whose display image generation method is a free viewpoint image generation method Stream can be played back.
  • FIG. 10 is a block diagram illustrating a configuration example of the second embodiment of the transmission system to which the present disclosure is applied.
  • the configuration of the transmission system 170 in FIG. 10 is that the imaging device 11, the encoding device 12, and the decoding device 13 are replaced with the imaging device 171, the encoding device 172, and the decoding device 173. And different.
  • the two-dimensional image data and the depth image data acquired by the imaging device 171 are encoded and transmitted as they are.
  • the imaging device 171 of the transmission system 170 includes a multi-camera 181 and an image processing unit 182.
  • the plurality of cameras constituting the multi-camera 181 of the imaging device 171 each captures two-dimensional image data.
  • the multi camera 181 supplies the two-dimensional image data captured by each camera to the image processing unit 182.
  • the image processing unit 182 uses one of a plurality of cameras constituting the multi-camera 181 as a reference camera and the other camera as a reference camera.
  • the image processing unit 182 synchronizes the two-dimensional image data of each reference camera with the reference camera based on the two-dimensional image data captured by the reference camera of the multi-camera 181 and the two-dimensional image data captured by each reference camera. Detect deviation.
  • the image processing unit 182 detects the synchronization shift of the reference camera as 0.
  • the image processing unit 182 supplies synchronization deviation information including information indicating the detected synchronization deviation of the viewpoint of each camera and camera-related information to the encoding device 172.
  • the image processing unit 182 generates depth image data of each camera by performing stereo matching on the two-dimensional image data captured by each camera, and supplies the depth image data to the encoding device 172.
  • the encoding device 172 uses the synchronization error information and camera-related information supplied from the imaging device 171 as metadata.
  • the encoding device 172 encodes the two-dimensional image data, depth image data, and metadata of each camera supplied from the imaging device 171 in the same manner as the encoding unit 22 in FIG. 1, and generates an encoded stream.
  • the encoding device 172 (transmission unit) transmits the generated encoded stream to the decoding device 173.
  • the configuration of the decoding device 173 is different from the configuration of the decoding device 13 in FIG. 1 in that the decoding unit 32 and the conversion unit 33 are replaced with the decoding unit 191 and the conversion unit 192.
  • the decoding unit 191 of the decoding device 173 decodes the encoded stream supplied from the receiving unit 31 by a method corresponding to the encoding method in the encoding device 172.
  • the decoding unit 191 synchronizes the two-dimensional image data and the depth image data of the reference camera and each reference camera based on the synchronization deviation information in the metadata obtained as a result, and supplies the data to the conversion unit 192. Also, the decoding unit 191 supplies camera-related information in the metadata to the conversion unit 192.
  • the configuration of the conversion unit 192 is the same as the configuration of the conversion unit 33 in FIG. 1 except that the three-dimensional data is not corrected using the occlusion three-dimensional data, description thereof is omitted.
  • FIG. 11 is a block diagram illustrating a configuration example of the imaging device 171 in FIG.
  • the multi-camera 181 of the image pickup apparatus 171 in FIG. 11 includes N (N is a plurality) cameras 211-1 to 211-N.
  • the cameras 211-1 to 211 -N are arranged so that, for example, the viewpoints of the cameras 211-1 to 211 -N are viewpoints corresponding to a predetermined display image generation method.
  • Each of the cameras 211-1 to 211 -N captures an image, and supplies two-dimensional image data (captured image data) of a moving image obtained as a result to the image processing unit 182.
  • the camera 211 when it is not necessary to particularly distinguish the cameras 211-1 to 211 -N, they are collectively referred to as the camera 211.
  • the image processing unit 182 includes a calibration unit 221, a synchronization shift detection unit 222, and a depth generation unit 223.
  • the calibration unit 221 of the image processing unit 182 calibrates the two-dimensional image data supplied from the multi-camera 181 for each camera 211 using camera parameters.
  • the calibration unit 221 supplies the two-dimensional image data of each camera 211 after calibration to the synchronization shift detection unit 222. Further, the calibration unit 221 supplies camera related information to the encoding device 172 of FIG.
  • the synchronization error detection unit 222 uses one of the cameras 211-1 to 211-N as a reference camera and the rest as a reference camera.
  • the synchronization shift detection unit 222 is configured to calculate the reference camera two-dimensional image data for the reference camera for each reference camera based on the reference camera two-dimensional image data and the reference camera two-dimensional image data supplied from the calibration unit 221. Detect synchronization loss in msec order.
  • the synchronization shift detection unit 222 detects flash light from the two-dimensional image data of the reference camera and the two-dimensional image data of the reference camera.
  • the synchronization deviation detection unit 222 detects a difference between the imaging times of the two-dimensional image data of the reference camera and the reference camera from which the flash light is detected as the synchronization deviation of the two-dimensional image data of the reference camera.
  • the synchronization shift of the two-dimensional image data of the reference camera may be performed using the two-dimensional image data by a method other than the method of detecting the flash light. Further, when the camera 211 acquires audio data together with the two-dimensional image data, the synchronization deviation of the reference camera two-dimensional image data is detected by detecting the synchronization deviation of the reference camera audio data with respect to the reference camera. It may be.
  • the synchronization deviation detection unit 222 detects the synchronization deviation of the two-dimensional image data of the reference camera as 0.
  • the synchronization error detection unit 222 supplies the synchronization information of the detected synchronization error to the encoding device 172. Further, the synchronization shift detection unit 222 supplies the two-dimensional image data of each camera 211 supplied from the calibration unit 221 to the depth generation unit 223.
  • the depth generation unit 223 generates depth image data of each camera 211 by performing stereo matching on the two-dimensional image data of each camera 211 supplied from the synchronization shift detection unit 222.
  • the depth generation unit 223 supplies the two-dimensional image data and depth image data of each camera 211 to the encoding device 172.
  • FIG. 12 is a diagram illustrating an example of synchronization error information.
  • the viewpoints of the camera 211 are the viewpoints 81 to 90 of B of FIG.
  • the synchronization deviation information is configured by associating the camera ID of the viewpoint of each camera 211 with the num_units_in_tick, time_scale, Delta_num_units_in_tick, and Delta_time_scale of the camera 211.
  • Num_units_in_tick is information indicating how many time_unit the frame interval is defined by time_scale.
  • time_scale is the number of time_units per second. Therefore, the frame rate can be expressed by num_units_in_tick and time_scale.
  • the frame rate of the camera 211 whose camera IDs are 0, 1, 4, and 5 is 60 Hz (59.94 Hz). Therefore, for example, num_units_in_tick of the cameras 211 whose camera IDs are 0, 1, 4, and 5 is 1001, and time_scale is 60000.
  • the frame rate of the camera 211 having camera IDs 2, 3, and 6 to 9 is 30 Hz (29.97 Hz). Therefore, for example, the num_units_in_tick of the camera 211 whose camera ID is 2, 3, and 6 to 9 is 2002 and the time_scale is 60000.
  • Delta_num_units_in_tick is information indicating the number of time_units defined by Delta_time_scale.
  • Delta_time_scale is the number of time_units per second. Therefore, the synchronization shift can be expressed by Delta_num_units_in_tick and Delta_time_scale.
  • the camera 211 whose camera ID is 0 is the reference camera. Therefore, Delta_num_units_in_tick corresponding to the camera ID which is 0 is 0.
  • the synchronization error of the cameras 211 whose camera IDs are 3, 4, 7, and 9 is zero. Therefore, Delta_num_units_in_tick corresponding to the camera IDs of 3, 4, 7, and 9 is also 0.
  • the synchronization shift of the camera 211 with the camera IDs 1 and 5 is 1/30 (1 / 29.97) seconds.
  • Delta_num_units_in_tick corresponding to camera IDs 1 and 5 is 2002
  • Delta_time_scale is 60000.
  • the synchronization shift of the cameras 211 with the camera IDs 2, 6, and 8 is 1/15 (1 / 14.985) seconds. Therefore, for example, Delta_num_units_in_tick corresponding to camera IDs of 2, 6, and 8 is 4004, and Delta_time_scale is 60000.
  • the synchronization error information may include a synchronization error common flag indicating whether or not the synchronization errors of all the cameras 211 in which synchronization error has occurred are the same.
  • the synchronization shift information indicates that the synchronization shift of all the cameras 211 in which the synchronization shift has occurred is the same.
  • the synchronization deviation information includes the synchronization deviation information in FIG. 12 and the synchronization deviation of all the cameras 211 in which the synchronization deviation has occurred. It is composed of a synchronization error common flag indicating that they are not the same.
  • FIG. 13 is a block diagram illustrating a configuration example of the encoding device 172 of FIG.
  • 13 is an encoding device 172 in the case of performing encoding according to the AVC method or HEVC method, and includes 2N encoding units 241-1 to 241-2N and a transmission unit 242.
  • the encoding units 241-1 to 241-2N of the encoding device 172 respectively encode the two-dimensional image data or the depth image data of each camera 211 supplied from the imaging device 171 using the AVC method or the HEVC method. Generate a stream.
  • the encoding units 241-1 to 241-2N use, as metadata, camera-related information and synchronization deviation information supplied from the imaging device 171 and information that associates the camera-related information and synchronization deviation information with the encoded stream.
  • the encoding units 241-1 to 241-2N arrange metadata in User unregistered SEI of the generated encoded stream.
  • the encoding units 241-1 to 241 -N can arrange only the metadata corresponding to the encoded stream in the User unregistered SEI of the encoded stream. In this case, information that associates the camera-related information and the synchronization error information with the encoded stream is not included in the metadata.
  • the encoding units 241-1 to 241-2N supply the encoded stream in which the metadata is arranged to the transmission unit 242.
  • the transmission unit 242 transmits the encoded stream supplied from the encoding units 241-1 to 241-2N to the decoding device 173 in FIG.
  • FIG. 14 is a flowchart for describing the encoding processing of the imaging device 171 and the encoding device 172 of FIG.
  • step S51 of FIG. 14 the camera 211 (FIG. 11) of the imaging device 171 performs imaging and supplies the two-dimensional image data of the moving image obtained as a result to the image processing unit 182.
  • step S52 the calibration unit 221 of the image processing unit 182 calibrates the two-dimensional image data supplied from the multi-camera 181 for each camera 211 using camera parameters.
  • the calibration unit 221 supplies the two-dimensional image data of each camera 211 after calibration to the synchronization shift detection unit 222.
  • step S53 the calibration unit 221 supplies camera-related information to the encoding device 172 as metadata.
  • step S54 the synchronization shift detection unit 222 synchronizes the two-dimensional image data of the reference camera with the reference camera based on the two-dimensional image data of the reference camera and the reference camera supplied from the calibration unit 221 for each reference camera. Detect deviation. Further, the synchronization shift detection unit 222 detects 0 as the synchronization shift of the two-dimensional image data of the reference camera.
  • step S55 the synchronization error detection unit 222 supplies the detected synchronization error information to the encoding device 172 as metadata. Further, the synchronization shift detection unit 222 supplies the two-dimensional image data of each camera 211 supplied from the calibration unit 221 to the depth generation unit 223.
  • step S56 the depth generation unit 223 generates the depth image data of each camera 211 by performing stereo matching on the two-dimensional image data of each camera 211 supplied from the synchronization shift detection unit 222.
  • step S57 the depth generation unit 223 supplies the two-dimensional image data and depth image data of each camera 211 to the encoding device 172.
  • step S58 the encoding device 172 encodes the two-dimensional image data, the depth image data, and the metadata of each camera 211 supplied from the imaging device 171 to generate an encoded stream.
  • step S59 the encoding device 172 transmits the generated encoded stream to the decoding device 173. Then, the process ends.
  • FIG. 15 is a block diagram illustrating a configuration example of the decoding unit 191 in FIG.
  • the configuration of the encoding device 172 is the configuration of FIG. 13, and the encoding method of the encoded stream transmitted from the encoding device 172 is the AVC method or the HEVC method.
  • the decoding unit 191 in FIG. 15 includes 2N decoding processing units 261-1 to 261-2N and an output unit 262.
  • the decoding processing units 261-1 to 261-2N of the decoding unit 191 correspond to the encoded streams of the two-dimensional image data and the depth image data of each camera 211 supplied from the receiving unit 31, respectively, in accordance with the AVC method or the HEVC method. Decrypt by the method.
  • the decoding processing units 261-1 to 261-2N supply the output unit 262 with the two-dimensional image data or depth image data of each camera 211 obtained as a result of the decoding, and the camera-related information and synchronization shift information constituting the metadata. To do.
  • the output unit 262 (synchronization processing unit) performs two-dimensional image data and depth image data of the reference camera and the reference camera for each reference camera based on the synchronization shift information supplied from the decoding processing units 261-1 to 261-2N. Are supplied to the converter 192 of FIG.
  • the output unit 262 outputs 2D image data and depth image data of the reference camera to 2 The frame is delayed and supplied to the conversion unit 192. Further, the output unit 262 supplies the camera-related information supplied from the decoding processing units 261-1 to 261-2N to the conversion unit 192.
  • the two-dimensional image data and the depth image data of each camera 211 supplied to the conversion unit 192 are synchronized, the generation accuracy of the three-dimensional data in the conversion unit 192 is improved.
  • FIG. 16 illustrates a decoding process of the decoding device 173 when the configuration of the conversion unit 192 in FIG. 10 is the same as the configuration in FIG. 8 except that the 3D data is not corrected using the occlusion 3D data. It is a flowchart. This decoding process is started, for example, when an encoded stream is transmitted from the encoding device 172.
  • the reception unit 31 of the decoding device 173 receives the encoded stream transmitted from the encoding device 172 and supplies the encoded stream to the decoding unit 191.
  • step S72 the decoding unit 191 decodes the encoded stream supplied from the receiving unit 31 by a method corresponding to the encoding method in the encoding device 172.
  • step S73 the decoding unit 191 synchronizes and converts the two-dimensional image data and the depth image data of the reference camera and the reference camera for each reference camera based on the synchronization shift information in the metadata obtained as a result of the decoding.
  • the output unit 262 supplies camera related information in the metadata to the conversion unit 192.
  • step S74 the conversion unit 192 uses the two-dimensional image data, the depth image data, and the camera parameters included in the camera-related information supplied from the decoding unit 191, and the three-dimensional data of the subject as in the imaging device 11. Is generated.
  • steps S75 to S79 Since the processing of steps S75 to S79 is the same as the processing of steps S35 to S39 in FIG.
  • the two-dimensional image data and the depth image data acquired by each camera 211 are encoded and transmitted as they are, so that the two-dimensional image data and the depth image data of each camera 211 can be synchronized. There may not be.
  • the imaging device 171 detects a synchronization shift of the two-dimensional image data of each camera, and the encoding device 172 uses the detected synchronization shift synchronization information as the two-dimensional image data and the depth image. Transmit with data. Therefore, the decoding device 173 can synchronize the two-dimensional image data and the depth image data of each camera 211 based on the synchronization shift information. As a result, the decoding device 173 can generate three-dimensional data with high accuracy using the two-dimensional image data and depth image data of the N cameras 211 that are synchronized.
  • FIG. 17 is a block diagram illustrating a configuration example of the third embodiment of the transmission system to which the present disclosure is applied.
  • the configuration of the transmission system 280 in FIG. 17 is that the imaging device 281, the encoding device 282, and the synthesizing device 283 are newly provided, the decoding device 13 replaces the decoding device 284, and the encoding device 12 generates the transmission system 280. 1 differs from the configuration of the transmission system 10 in FIG. 1 in that the viewpoints of the two-dimensional image data and the depth image data are a part of a plurality of viewpoints corresponding to a predetermined display image generation method.
  • an encoding stream of a part of viewpoints (hereinafter referred to as a first viewpoint group) among a plurality of viewpoints corresponding to a predetermined display image generation method is generated by the encoding device 12, and
  • An encoded stream of a viewpoint (hereinafter referred to as a second viewpoint group) is generated by the encoding device 282, and both encoded streams are combined (merged).
  • the imaging device 281 of the transmission system 280 is configured in the same manner as the imaging device 11 of FIG. 1, images at least a part of the subject that is the same as the subject in the imaging device 11, and three-dimensional data of the subject. Is supplied to the encoding device 282.
  • the encoding device 282 includes a conversion unit 291 configured similarly to the conversion unit 21, an encoding unit 292 configured similar to the encoding unit 22, and a transmission unit 293 configured similar to the transmission unit 23.
  • the encoding device 282 generates 2D image data and depth image data of the second viewpoint group from the 3D data, encodes them, and transmits them to the synthesis device 283.
  • the synthesizer 283 transmits the first viewpoint group encoded stream (hereinafter referred to as the first partial encoded stream) transmitted from the encoder 12 and the second viewpoint group transmitted from the encoder 282.
  • An encoded stream (hereinafter, second partial encoded stream) is received.
  • the synthesizing device 283 detects a synchronization shift of the second partial encoded stream with respect to the first partial encoded stream, and generates viewpoint group synchronization shift information indicating the synchronization shift of the second encoded stream.
  • the viewpoint group synchronization shift information includes, for example, num_units_in_tick and time_scale representing the frame rate of the second viewpoint group, and Delta_num_units_in_tick and Delta_time_scale representing the synchronization shift.
  • the synthesizing device 283 includes the viewpoint group synchronization deviation information in the metadata of the second partial encoded stream.
  • the synthesizing device 283 synthesizes the second partial encoded stream in which the viewpoint group synchronization deviation information is arranged and the first partial encoded stream, and generates encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method. It is generated and transmitted to the decoding device 284.
  • the configuration of the decoding device 284 is different from the configuration of the decoding device 13 in FIG. 1 in that the decoding unit 32 replaces the decoding unit 301.
  • FIG. 18 is a block diagram illustrating a configuration example of the synthesis device 283 in FIG.
  • a decoding unit 321 includes a decoding unit 321, a decoding unit 322, a synchronization deviation detection unit 323, and a metadata addition unit 324.
  • the decoding unit 321 of the synthesizing device 283 receives the first partial encoded stream transmitted from the encoding device 12.
  • the decoding unit 321 decodes the received first partial encoded stream by a method corresponding to the encoding method (MVCD in the example of FIG. 18) in the encoding unit 22, and the two-dimensional image of the first viewpoint group Generate data, depth image data, and metadata.
  • the decoding unit 321 supplies the two-dimensional image data of one viewpoint in the generated first viewpoint group to the synchronization shift detection unit 323.
  • the decoding unit 322 receives the second partial encoded stream transmitted from the encoding device 282.
  • the decoding unit 322 decodes the received second partial encoded stream by a method corresponding to the encoding method (MVCD in the example of FIG. 18) in the encoding unit 292, and the two-dimensional image of the second viewpoint group Generate data, depth image data, and metadata.
  • the decoding unit 322 supplies the two-dimensional image data of one viewpoint in the generated second viewpoint group to the synchronization shift detection unit 323.
  • the synchronization shift detection unit 323 detects a synchronization shift of the 2D image data of the second viewpoint group with respect to the first viewpoint group based on the 2D image data supplied from the decoding unit 321 and the decoding unit 322.
  • the method for detecting synchronization deviation may be the same as or different from the method for detecting synchronization deviation in the second embodiment.
  • the synchronization deviation detection unit 323 determines each time of one viewpoint in the first viewpoint group and one viewpoint in the second viewpoint group based on the camera parameter included in the camera-related information.
  • the two-dimensional position of the feature point of the two-dimensional image data is converted into a three-dimensional position.
  • the synchronization shift detection unit 323 obtains the time difference of the two-dimensional image data when the difference between the three-dimensional positions of the feature points of the two viewpoints is minimized, and the two-dimensional image of the second viewpoint group with respect to the first viewpoint group. Detected as data out of sync.
  • the synchronization deviation detection unit 323 supplies viewpoint group synchronization deviation information representing the detected synchronization deviation to the metadata adding unit 324.
  • the metadata adding unit 324 arranges the viewpoint group synchronization shift information supplied from the synchronization shift detection unit 323 as metadata in the second partial encoded stream transmitted from the encoding device 282.
  • the metadata adding unit 324 combines the second partial encoded stream in which the viewpoint group synchronization deviation information is replaced as metadata and the first partial encoded stream transmitted from the encoding device 12.
  • the metadata addition unit 324 transmits the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284.
  • FIG. 19 is a flowchart for explaining the composition processing of the composition device 283 in FIG.
  • the decoding unit 321 of the synthesizing device 283 decodes the first partial encoded stream transmitted from the encoding device 12 by a method corresponding to the encoding method in the encoding unit 22.
  • the decoding unit 321 supplies the two-dimensional image data of one viewpoint in the first viewpoint group obtained as a result of decoding to the synchronization shift detection unit 323.
  • step S92 the decoding unit 322 decodes the second partial encoded stream transmitted from the encoding device 282 by a method corresponding to the encoding method in the encoding unit 292.
  • the decoding unit 322 supplies the two-dimensional image data of one viewpoint in the second viewpoint group obtained as a result of decoding to the synchronization shift detection unit 323.
  • step S93 the synchronization deviation detection unit 323 detects the synchronization deviation of the two-dimensional image data of the second viewpoint group with respect to the first viewpoint group based on the two-dimensional image data supplied from the decoding unit 321 and the decoding unit 322. To detect.
  • the synchronization deviation detection unit 323 supplies viewpoint group synchronization deviation information representing the detected synchronization deviation to the metadata adding unit 324.
  • step S94 the metadata adding unit 324 arranges the viewpoint group synchronization shift information supplied from the synchronization shift detection unit 323 as metadata in the second partial encoded stream transmitted from the encoding device 282.
  • step S95 the metadata adding unit 324 combines the first partial encoded stream transmitted from the encoding device 12 and the second partial encoded stream including the viewpoint group synchronization shift information.
  • the metadata adding unit 324 supplies the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284, and ends the processing.
  • step S74 the process is similar to step S34 of FIG. Except for the point that the three-dimensional data is corrected using the occlusion three-dimensional data, this is the same as the decoding process of FIG.
  • the first partial encoded stream generated by the encoding device 12 and the second partial encoded stream generated by the encoding device 282 are combined and are combined into the decoding device 284. Is transmitted. Therefore, the encoded streams of the first viewpoint group and the second viewpoint group corresponding to a predetermined display image generation method obtained as a result of synthesis may not be synchronized.
  • the synthesizing device 283 once decodes the first partial encoded stream and the second partial encoded stream, and two-dimensional of the first viewpoint group and the second viewpoint group obtained as a result. Detects synchronization loss of image data. Then, the synthesizing device 283 transmits viewpoint group synchronization shift information indicating the detected synchronization shift together with the first partial encoded stream and the second partial encoded stream. Therefore, the decoding device 284 can synchronize the two-dimensional image data and the depth image data of the first viewpoint group and the second viewpoint group based on the viewpoint group synchronization shift information. As a result, the decoding device 284 can generate three-dimensional data with high accuracy using the synchronized two-dimensional image data and depth image data of the first viewpoint group and the second viewpoint group.
  • ⁇ Fourth embodiment> (Configuration example of the synthesis device in the fourth embodiment of the transmission system)
  • the configuration of the transmission system according to the fourth embodiment to which the present disclosure is applied is that the synthesizing device 283 is replaced by the synthesizing device 340, the converting unit 33 of the decoding device 284 is replaced by the converting unit 380, and the viewpoint group synchronization shift information is coordinates.
  • the configuration is the same as that of the transmission system 280 in FIG. 17 except that the conversion information is used. Therefore, only the synthesis apparatus 340 and the conversion unit 380 will be described below.
  • FIG. 20 is a block diagram illustrating a configuration example of the synthesis apparatus 340.
  • the configuration of the synthesizing device 340 in FIG. 20 is different from the configuration of the synthesizing device 283 in FIG. 18 in that the synchronization deviation detecting unit 323 and the metadata adding unit 324 are replaced with the coordinate conversion data generating unit 341 and the metadata adding unit 342. .
  • the synthesizing device 340 does not detect the synchronization shift of the two-dimensional image data of each viewpoint, but uses the first three-dimensional coordinate system which is the three-dimensional coordinate system of the first viewpoint group as the three-dimensional of the second viewpoint group. Coordinate conversion data to be converted into a second three-dimensional coordinate system that is a coordinate system is generated.
  • the coordinate transformation data generation unit 341 of the synthesizing device 340 performs, for each viewpoint of the first viewpoint group, based on the two-dimensional image data of the first viewpoint group generated by the decoding of the decoding unit 322. The two-dimensional position of the feature point is obtained.
  • the coordinate conversion data generation unit 341 uses the above-described formula based on the camera parameters, the two-dimensional image data, and the depth image data included in the camera-related information of the second viewpoint group generated by the decoding of the decoding unit 321. From (1), the three-dimensional position of the feature point in the second three-dimensional coordinate system is obtained.
  • the coordinate conversion data generation unit 341 generates coordinate conversion data for each viewpoint of the first viewpoint group based on the two-dimensional position of the feature point and the three-dimensional position in the second three-dimensional coordinate system.
  • the coordinate conversion data generation unit 341 supplies coordinate conversion information including the coordinate conversion data of each viewpoint of the first viewpoint group to the metadata adding unit 342.
  • the metadata adding unit 342 arranges the coordinate conversion information supplied from the coordinate conversion data generation unit 341 as metadata in the first partial encoded stream transmitted from the encoding device 12. Also, the metadata adding unit 342 combines the first partial encoded stream in which the coordinate conversion information is arranged as metadata and the second partial encoded stream transmitted from the encoding device 282.
  • the metadata addition unit 342 transmits the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284.
  • FIG. 21 is a diagram for explaining the process of generating coordinate conversion data by the coordinate conversion data generation unit 341 in FIG.
  • the first three-dimensional coordinate system is a coordinate system having axes x A to z A perpendicular to each other as coordinate axes
  • the second three-dimensional coordinate system is an axis perpendicular to each other.
  • the coordinate system is different from the first three-dimensional coordinate system having x B to z B as coordinate axes.
  • 2-dimensional position P A on the first three-dimensional position is P 1 feature point in a three-dimensional coordinate system image, following (3)
  • t camA is a camera parameter in the first three-dimensional coordinate system of the virtual camera 361 in the metadata of the first partial encoded stream.
  • t camB is a camera parameter in the second three-dimensional coordinate system of the virtual camera 361.
  • Equation (6) is an equation for converting the three-dimensional position P 1 in the first three-dimensional coordinate system, the three-dimensional position P 1 'of the second three-dimensional coordinate system. Therefore, the coordinate conversion data generation unit 341 obtains R con
  • the coordinate conversion data generation unit 341 uses the above-described equation (1) based on the camera parameters, the two-dimensional image data, and the depth image data of the second viewpoint group to calculate the second 3 of feature points. A three-dimensional position in a dimensional coordinate system is obtained. Further, the coordinate conversion data generation unit 341 obtains the two-dimensional position of the feature point for each viewpoint of the first viewpoint group based on the two-dimensional image data of the first viewpoint group.
  • coordinate transformation data generating unit 341 for each viewpoint of the first viewpoint group, a 3-dimensional position in the second three-dimensional coordinate system of the feature point is assigned to P 1 ', substituted for 2-dimensional position in the P A
  • t camB in the second three-dimensional coordinate system of the virtual camera 361 is obtained by the equation (4).
  • online calibration Details of online calibration are described in, for example, Zhengyou Zhang, “A Flexible New Technique for Camera Calibration”, Technical Report MSR-TR-98-71, Microsoft Corporation, December 2.1998 and the like.
  • the coordinate conversion data generation unit 341 obtains coordinate conversion data by the above-described equation (6) using the external parameter R camB
  • FIG. 22 is a diagram illustrating an example of coordinate conversion information.
  • the camera IDs of the viewpoints of the first viewpoint group are 0 to 3.
  • the coordinate conversion information is configured by associating the camera ID of each viewpoint of the first viewpoint group with the isCorrectionFlag of the viewpoint and the coordinate conversion data.
  • IsCorrectionFlag is a flag indicating whether or not the first three-dimensional coordinate system that is the three-dimensional coordinate system of the corresponding viewpoint is different from the second three-dimensional coordinate system serving as a reference.
  • isCorrectionFlag is 1 when indicating that the first 3D coordinate system, which is the 3D coordinate system of the corresponding viewpoint, is different from the second 3D coordinate system serving as a reference, and 0 when indicating that it is not different. is there.
  • the coordinate conversion information may include a coordinate conversion common flag indicating whether or not the coordinate conversion data of all the viewpoints in the first viewpoint group are the same.
  • the coordinate conversion information indicates that the coordinate conversion data of all viewpoints of the first viewpoint group is the same.
  • the coordinate conversion common flag is, for example, 1 when the coordinate conversion data of all viewpoints of the first viewpoint group are the same, and 0 when they are different.
  • FIG. 23 is a flowchart for describing the composition processing of the composition device 340 of FIG.
  • steps S111 and S112 in FIG. 23 Since the processing of steps S111 and S112 in FIG. 23 is the same as the processing of steps S91 and S92 in FIG.
  • step S113 the coordinate conversion data generation unit 341 of the synthesizing device 340, based on the camera parameters of the second viewpoint group, the two-dimensional image data, the depth image data, and the two-dimensional image data of the first viewpoint group, Coordinate conversion data for each viewpoint of the first viewpoint group is generated.
  • the coordinate conversion data generation unit 341 supplies coordinate conversion information including the coordinate conversion data of each viewpoint of the first viewpoint group to the metadata adding unit 342.
  • step S114 the metadata adding unit 342 arranges the coordinate conversion information supplied from the coordinate conversion data generation unit 341 as metadata in the first partial encoded stream transmitted from the encoding device 12.
  • step S115 the metadata adding unit 342 synthesizes the first partial encoded stream including the coordinate conversion information and the second partial encoded stream transmitted from the encoding device 282.
  • the metadata adding unit 342 transmits the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284. Then, the process ends.
  • FIG. 24 is a block diagram illustrating a configuration example of the conversion unit 380 when the display image generation method of the decoding device 284 is a free viewpoint display image generation method.
  • the three-dimensional data generation unit 381 includes a three-dimensional position conversion unit 391, a three-dimensional position conversion unit 392, a coordinate conversion unit 393, and a data generation unit 394.
  • the three-dimensional position conversion unit 391 (first three-dimensional position conversion unit) of the three-dimensional data generation unit 381 is a camera parameter or two-dimensional image data in the metadata of the first viewpoint group supplied from the decoding unit 301. Based on the depth image data, the two-dimensional position of each pixel of the two-dimensional image data of the first viewpoint is converted into a three-dimensional position in the first three-dimensional coordinate system by the above-described equation (1).
  • the three-dimensional position conversion unit 391 is a coordinate conversion unit that converts the three-dimensional position in the first three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group and the two-dimensional image data of the first viewpoint group. 393.
  • the three-dimensional position conversion unit 392 (second three-dimensional position conversion unit) is based on the camera parameter, the two-dimensional image data, and the depth image data in the metadata of the second viewpoint group supplied from the decoding unit 301.
  • the two-dimensional position of each pixel of the two-dimensional image data of the second viewpoint group is converted into a three-dimensional position in the second three-dimensional coordinate system by the above-described equation (1).
  • the three-dimensional position conversion unit 392 is a data generation unit that converts the three-dimensional position in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the second viewpoint group and the two-dimensional image data of the second viewpoint group. 394.
  • the coordinate conversion unit 393 is based on the coordinate conversion information in the metadata supplied from the decoding unit 301, and the first pixel group of the two-dimensional image data of the first viewpoint group supplied from the three-dimensional position conversion unit 391. A three-dimensional position in one three-dimensional coordinate system is converted into a three-dimensional position in a second three-dimensional coordinate system.
  • the coordinate conversion unit 393 sends the three-dimensional position in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group and the two-dimensional image data of the first viewpoint group to the data generation unit 394. Supply.
  • the data generation unit 394 generates the first viewpoint group and the second viewpoint group based on the three-dimensional position in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group and the second viewpoint group.
  • Three-dimensional data of the subject is generated from the two-dimensional image data of the viewpoint group.
  • the data generation unit 394 corrects the generated three-dimensional data using the occlusion three-dimensional data in the metadata supplied from the decoding unit 301, and supplies the corrected three-dimensional data to the subject position determination unit 152 and the two-dimensional data generation unit 154. To do.
  • FIG. 25 is a flowchart illustrating the decoding process of the decoding device 284 according to the fourth embodiment. This decoding process is started, for example, when an encoded stream is transmitted from the synthesizing device 340.
  • the reception unit 31 of the decoding device 284 receives the encoded stream transmitted from the synthesis device 283.
  • step S132 the decoding unit 301 decodes the received encoded stream by a method corresponding to the encoding method in the encoding unit 22 and the encoding unit 292.
  • the decoding unit 301 supplies the two-dimensional image data, depth image data, and metadata of the first viewpoint group and the second viewpoint group obtained as a result to the conversion unit 380 (FIG. 24).
  • step S133 the three-dimensional position conversion unit 391 of the conversion unit 380 determines the second viewpoint group 2 based on the camera parameters, the two-dimensional image data, and the depth image data in the metadata of the first viewpoint group.
  • the three-dimensional position in the first three-dimensional coordinate system of each pixel of the two-dimensional image data is obtained.
  • the three-dimensional position conversion unit 391 supplies the coordinate conversion unit 393 with the three-dimensional position and the two-dimensional image data in the first three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group.
  • step S134 the three-dimensional position conversion unit 392 performs each of the two-dimensional image data of the second viewpoint based on the camera parameter, the two-dimensional image data, and the depth image data in the metadata of the second viewpoint group. A three-dimensional position of the pixel in the second three-dimensional coordinate system is obtained.
  • the three-dimensional position conversion unit 392 supplies the data generation unit 394 with the three-dimensional position and the two-dimensional image data in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the second viewpoint group.
  • step S135 the coordinate conversion unit 393 determines the three-dimensional position in the first three-dimensional coordinate system supplied from the three-dimensional position conversion unit 391 based on the coordinate conversion information in the metadata supplied from the decoding unit 301. Is converted into a three-dimensional position in the second three-dimensional coordinate system.
  • the coordinate conversion unit 393 supplies the data generation unit 394 with the three-dimensional position and the two-dimensional image data in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group.
  • step S136 the data generation unit 394 generates the first viewpoint group based on the three-dimensional position in the second three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group and the second viewpoint group. Then, three-dimensional data of the subject is generated from the two-dimensional image data of the second viewpoint group.
  • steps S137 to S142 is the same as the processing of steps S34 to S39 in FIG.
  • the synthesizing device 283 does not arrange the coordinate conversion information in the first partial encoded stream, but instead of the first viewpoint group in the first three-dimensional coordinate system arranged in the first partial encoded stream.
  • t camA for each viewpoint may be replaced with the external parameter R camB
  • the coordinate conversion unit 393 is not provided in the three-dimensional data generation unit 381, and the three-dimensional position conversion unit 391 uses the external parameter R camB
  • the three-dimensional position in the second three-dimensional coordinate system is directly obtained.
  • the coordinate conversion data of each viewpoint of the first viewpoint group is the same if the scale (distance in the depth direction between the viewpoint and the imaging surface) of the two-dimensional image data of each viewpoint is the same. Therefore, in this case, the coordinate conversion data generation unit 341 generates only coordinate conversion data of one viewpoint in the first viewpoint group as coordinate conversion data common to the viewpoints of the first viewpoint group. You may do it.
  • the first partial encoded stream generated by the encoding device 12 and the second partial encoded stream generated by the encoding device 282 are combined and decoded. 284. Therefore, the three-dimensional coordinate systems of the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of synthesis may not be the same.
  • the synthesizing device 340 once decodes the first partial encoded stream and the second partial encoded stream, and generates coordinate conversion data based on the decoding result. Then, the synthesizing device 340 transmits the coordinate conversion information including the generated coordinate conversion data together with the first partial encoded stream and the second partial encoded stream. Therefore, the conversion unit 380 converts the three-dimensional position in the first three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group into the three-dimensional position in the second three-dimensional coordinate system based on the coordinate conversion information. Can be converted to a dimensional position.
  • the conversion unit 380 calculates from the two-dimensional image data based on the three-dimensional position in the same first three-dimensional coordinate system of each pixel of the two-dimensional image data of the first viewpoint group and the second viewpoint group.
  • Three-dimensional data can be generated with high accuracy.
  • the two-dimensional image data and the depth image data are used respectively. Detection of synchronization deviation of the viewpoint or generation of coordinate conversion data is performed.
  • ⁇ Fifth embodiment> (Configuration example of the synthesizing device in the fifth embodiment of the transmission system)
  • the configuration of the fifth embodiment of the transmission system to which the present disclosure is applied is that the combining device 283 replaces the combining device 400, the converting unit 33 of the decoding device 284 replaces the converting unit 420, and the viewpoint group synchronization shift information is color
  • the configuration is the same as that of the transmission system 280 in FIG. 17 except that the shift correction information is used. Accordingly, only the synthesis apparatus 400 and the conversion unit 420 will be described below.
  • FIG. 26 is a block diagram illustrating a configuration example of the synthesis apparatus 400.
  • the configuration of the synthesizing device 400 in FIG. 26 is the same as the configuration of the synthesizing device 283 in FIG. 18 in that the synchronization deviation detecting unit 323 and the metadata adding unit 324 are replaced with the color misregistration correction data generating unit 401 and the metadata adding unit 402. Different.
  • the synthesizing device 400 does not detect the synchronization shift of the two-dimensional image data of each viewpoint, but generates color shift correction data for correcting the color shift of the two-dimensional image data of each viewpoint.
  • the color misregistration correction data generation unit 401 of the synthesizing apparatus 400 uses one of the viewpoints of the first viewpoint group and the second viewpoint group as a reference viewpoint and the other viewpoint as a reference viewpoint.
  • the color misregistration correction data generation unit 401 generates a reference viewpoint two-dimensional image for the reference viewpoint based on the reference viewpoint and the reference viewpoint two-dimensional image data generated by the decoding unit 321 or the decoding unit 322 for each reference viewpoint. Color misregistration correction data for correcting data color misregistration is generated.
  • RGB values (R ′, G ′, B ′) obtained by performing inverse gamma correction on the RGB values (R, G, B) of feature points in the two-dimensional image data of the reference viewpoint are Is represented by the following equation (7).
  • ⁇ R, ⁇ G, and ⁇ B are gamma values of R, G, and B, respectively.
  • RGB values (R c , R ′, G ′, B ′) of the feature points having the reference viewpoint RGB value (R, G, B) of the two-dimensional image data of the reference viewpoint (R c) are used.
  • G c , B c ) is converted to RGB values (R ′′, G ′′, B ′′) obtained by performing inverse gamma correction, and is expressed by the following equation (8).
  • a 11 to a 13 , a 21 to a 23 , and a 31 to a 33 are coefficients.
  • the color misregistration correction data generation unit 401 extracts the RGB value (R, G, B) of the feature point from the two-dimensional image data of the reference viewpoint, and the RGB value ( R c , G c , B c ) are extracted. Then, the color misregistration correction data generation unit 401 calculates RGB values (R, G, B) based on the extracted RGB values (R, G, B) and RGB values (R c , G c , B c ).
  • the color misregistration correction data generation unit 401 uses color misregistration correction data in which the RGB values (R, G, B) and RGB values (R c , G c , B c ) are the same as the color misregistration correction data for the reference viewpoint. Is generated.
  • the color misregistration correction data generation unit 401 supplies color misregistration correction information including the generated color misregistration correction data for each viewpoint to the metadata adding unit 402.
  • the metadata adding unit 402 transmits the first part of the color misregistration correction information supplied from the color misregistration correction data generating unit 401 to the first viewpoint group. Arranged as metadata in the encoded stream. Further, the metadata adding unit 402 transmits the second viewpoint group color misregistration correction information of the color misregistration correction information supplied from the color misregistration correction data generation unit 401 from the encoding device 282. Are arranged as metadata in the partially encoded stream.
  • the metadata adding unit 402 combines the first partial encoded stream and the second partial encoded stream in which the color misregistration correction information is arranged as metadata.
  • the metadata addition unit 402 (transmission unit) transmits the encoded streams of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284.
  • FIG. 27 is a diagram illustrating an example of color misregistration correction information.
  • the number of multiple viewpoints corresponding to the predetermined display image generation method is nine.
  • the color misregistration correction information is configured by associating each viewpoint's isCorrectionFlag and color misregistration correction data with each camera ID of all viewpoints corresponding to a predetermined display image generation method.
  • IsCorrectionFlag is a flag indicating whether or not a color shift occurs between the corresponding viewpoint and the reference viewpoint. isCorrectionFlag is 1 when indicating that color misregistration has occurred between the corresponding viewpoint and the reference viewpoint, and is 0 when indicating that it has not occurred.
  • a viewpoint with a camera ID of 0 is a reference viewpoint, and no color misregistration occurs between a reference viewpoint with a camera ID of 1, 2, 4, and 6 to 9 and a reference viewpoint. . Therefore, isCorrectionFlag corresponding to camera IDs 0 to 2, 4, and 6 to 9 is 0, and color misregistration correction data is not described corresponding to these camera IDs.
  • color misregistration occurs between the reference viewpoints with the camera IDs 3 and 5 and the standard viewpoint. Therefore, isCorrectionFlag corresponding to camera IDs 3 and 5 is 1, and color misregistration correction data is described corresponding to these camera IDs.
  • the color misregistration correction data of the viewpoint whose camera ID is i is described as P (i).
  • the color misregistration correction information may include a color misregistration common flag indicating whether or not the color misregistration correction data of all viewpoints where color misregistration is the same. In this case, when the color misregistration correction data of all viewpoints in which color misregistration is the same, the color misregistration correction information indicates that the color misregistration correction data of all viewpoints in which color misregistration is the same.
  • Color misregistration common flag color misregistration common information
  • the color misregistration common flag is, for example, 1 when the color misregistration correction data of all viewpoints where color misregistration is the same, and 0 when different.
  • FIG. 28 is a flowchart for describing the composition processing of the composition device 400 of FIG.
  • step S163 the color misregistration correction data generation unit 401 of the synthesizing device 400 performs, for each reference viewpoint, based on the two-dimensional image data of the reference viewpoint and the reference viewpoint generated by decoding by the decoding unit 321 or the decoding unit 322.
  • the reference viewpoint color misregistration correction data is generated.
  • the color misregistration correction data generation unit 401 uses color misregistration correction data in which the RGB values (R, G, B) and RGB values (R c , G c , B c ) are the same as the color misregistration correction data for the reference viewpoint. Is generated.
  • the color misregistration correction data generation unit 401 supplies color misregistration correction information including the generated color misregistration correction data for each viewpoint to the metadata adding unit 402.
  • step S ⁇ b> 164 the metadata adding unit 402 receives the color misregistration correction information of the first viewpoint group among the color misregistration correction information supplied from the color misregistration correction data generation unit 401 from the encoding device 12. Arranged as metadata in the first partial encoded stream.
  • step S165 the metadata adding unit 402 receives the color misregistration correction information of the second viewpoint group from the color misregistration correction information supplied from the color misregistration correction data generation unit 401 from the encoding device 282. It arrange
  • step S166 the metadata adding unit 402 combines the first partial encoded stream and the second partial encoded stream in which the color misregistration correction information is arranged as metadata.
  • the metadata adding unit 402 transmits an encoded stream of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of the synthesis to the decoding device 284.
  • FIG. 29 is a block diagram illustrating a configuration example of the conversion unit 420.
  • the color correction unit 421 of the conversion unit 420 uses the first viewpoint group and the second viewpoint group based on the color misregistration correction information obtained as a result of decoding by the decoding unit 301 according to the above-described equations (7) to (9).
  • the color correction of the two-dimensional image data is performed. Thereby, the relationship between the color and the RGB value is the same in the two-dimensional image data of all viewpoints.
  • the color correction unit 421 includes two-dimensional image data of the first viewpoint group and the second viewpoint group after color correction, and the depths of the first viewpoint group and the second viewpoint group obtained as a result of decoding by the decoding unit 301.
  • the image data is supplied to the three-dimensional data generation unit 151.
  • the decoding process of the decoding device 284 in the fifth embodiment is the same as the decoding process of FIG. 9 except that the color correction by the color correction unit 421 is performed between step S32 and step S33. Is omitted.
  • the first partial encoded stream and the second partial encoded stream generated by using the two-dimensional image data captured by different cameras are combined and decoded by the decoding device 284. Transmit to. Accordingly, color misregistration may occur in an encoded stream of a plurality of viewpoints corresponding to a predetermined display image generation method obtained as a result of synthesis.
  • the synthesizing device 340 once decodes the first partial encoded stream and the second partial encoded stream, and color misregistration correction data of the two-dimensional image data of each viewpoint obtained as a result. Is generated. Then, the synthesizing device 340 transmits the color misregistration correction information of the generated color misregistration correction data together with the first partial encoded stream and the second partial encoded stream. Accordingly, the conversion unit 420 can correct the color shift of the two-dimensional image data of each viewpoint of the first viewpoint group and the second viewpoint group based on the color shift correction data.
  • the conversion unit 420 generates three-dimensional data using the two-dimensional image data and the depth image data of the first viewpoint group and the second viewpoint group in which the color misregistration is corrected, thereby generating the three-dimensional data.
  • the accuracy of the two-dimensional image data can be improved.
  • the synthesizing apparatus 400 since the synthesizing apparatus 400 transmits the color misregistration correction information, only the color misregistration correction information is arranged as metadata in the first partial encoded stream and the second partial encoded stream. Just do it. Therefore, the processing amount of the synthesizing apparatus 400 can be reduced as compared with the case where the first partial coded stream and the second partial coded stream are decoded, corrected for color misregistration, and re-encoded.
  • the peripheral partial light correction information including the gain for correcting the peripheral light attenuation with respect to the central portion of the two-dimensional image data for each viewpoint or viewpoint group is the first partial encoding as metadata. It may be arranged in the stream and the second partially encoded stream. Further, Exif (Exchangeable image file format) information for each viewpoint or viewpoint group may be arranged as metadata.
  • ⁇ Sixth embodiment> (Description of computer to which the present disclosure is applied)
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
  • FIG. 30 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 605 is further connected to the bus 604.
  • An input unit 606, an output unit 607, a storage unit 608, a communication unit 609, and a drive 610 are connected to the input / output interface 605.
  • the input unit 606 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 607 includes a display, a speaker, and the like.
  • the storage unit 608 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 609 includes a network interface or the like.
  • the drive 610 drives a removable medium 611 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 601 loads the program stored in the storage unit 608 to the RAM 603 via the input / output interface 605 and the bus 604 and executes the program, for example. A series of processing is performed.
  • the program executed by the computer 600 can be provided by being recorded in, for example, a removable medium 611 as a package medium or the like.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 608 via the input / output interface 605 by installing the removable medium 611 in the drive 610. Further, the program can be received by the communication unit 609 via a wired or wireless transmission medium and installed in the storage unit 608. In addition, the program can be installed in the ROM 602 or the storage unit 608 in advance.
  • the program executed by the computer 600 may be a program that is processed in time series in the order described in this specification, or a necessary timing such as in parallel or when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • This disclosure can have the following configurations.
  • a plurality of second-viewpoint two-dimensional image data corresponding to a predetermined display image generation method and each pixel corresponding to the third viewpoint from three-dimensional data of the subject generated from the plurality of first-viewpoint two-dimensional image data A two-dimensional data generation unit that generates depth image data indicating the position of the subject in the depth direction; A plurality of second viewpoint two-dimensional image data generated by the two-dimensional data generation unit and an encoding unit that encodes the depth image data;
  • An encoding apparatus comprising: the plurality of second viewpoint two-dimensional image data encoded by the encoding unit; and a transmission unit that transmits the depth image data.
  • the two-dimensional data generation unit generates two-dimensional image data of the plurality of second viewpoints from the three-dimensional data based on the camera parameters of the plurality of second viewpoints, and the camera of the third viewpoint Generating the depth image data based on the parameters;
  • the encoding device according to any one of (1) to (6), wherein the transmission unit is configured to transmit the camera parameters of the plurality of second viewpoints and the third viewpoint.
  • the encoding device according to any one of (1) to (7), wherein the number of the predetermined display image generation methods is plural.
  • the encoding device A plurality of second-viewpoint two-dimensional image data corresponding to a predetermined display image generation method and each pixel corresponding to the third viewpoint from three-dimensional data of the subject generated from the plurality of first-viewpoint two-dimensional image data
  • a two-dimensional data generation step for generating depth image data indicating the position of the subject in the depth direction
  • An encoding step for encoding the plurality of second viewpoint two-dimensional image data and the depth image data generated by the processing of the two-dimensional data generation step
  • An encoding method comprising: a plurality of second-viewpoint two-dimensional image data encoded by the encoding step and a transmission step of transmitting the depth image data.
  • a decoding unit for decoding A three-dimensional data generation unit that generates three-dimensional data of a subject using the second-dimensional image data of the plurality of first viewpoints and the depth image data obtained as a result of decoding by the decoding unit;
  • a decoding device comprising: a two-dimensional data generation unit that generates two-dimensional image data as display image data by the predetermined display image generation method based on the three-dimensional data generated by the three-dimensional data generation unit.
  • the decoding device (12) The decoding device according to (11), wherein the plurality of first viewpoints are configured to exist at equal intervals on the same circle. (13) The decoding device according to (11), wherein at least two viewpoints of the plurality of first viewpoints are arranged in a substantially horizontal direction. (14) The decoding device according to (13), further including: a receiving unit that receives information specifying two viewpoints arranged in a horizontal direction among the plurality of first viewpoints. (15) The plurality of first viewpoint two-dimensional image data and the depth image data are configured to be generated from subject three-dimensional data generated from a plurality of third viewpoint two-dimensional image data. 11) The decoding device according to any one of (14).
  • the three-dimensional data generation unit uses three-dimensional data of an occlusion region in the two-dimensional image data of the plurality of first viewpoints, the depth image data, and the two-dimensional image data of the plurality of first viewpoints, The decoding device according to (15), configured to generate three-dimensional data of the subject.
  • the three-dimensional data generation unit is configured to generate the three-dimensional data of the subject based on the camera parameters of the plurality of first viewpoints and the second viewpoint.
  • the decoding apparatus in any one of.
  • the decoding device according to any one of (11) to (18), wherein the plurality of first viewpoints and the second viewpoint are the same.
  • the decryption device Encoded data of two-dimensional image data of a plurality of first viewpoints corresponding to a predetermined display image generation method, encoded data of depth image data indicating the position of each pixel in the depth direction of the subject with respect to the second viewpoint,
  • a decoding step for decoding A three-dimensional data generation step of generating three-dimensional data of a subject using the second-dimensional image data of the plurality of first viewpoints and the depth image data obtained as a result of decoding by the decoding step;
  • a decoding method comprising: a two-dimensional data generation step of generating two-dimensional image data as display image data by the predetermined display image generation method based on the three-dimensional data generated by the processing of the three-dimensional data generation step.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示は、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを取得することができるようにする符号化装置および符号化方法、復号装置および復号方法に関する。 変換部は、複数の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の視点の2次元画像データと各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する。符号化部は、変換部により生成された2次元画像データとデプス画像データを符号化する。伝送部は、符号化部により符号化された2次元画像データとデプス画像データを伝送する。本開示は、例えば、符号化装置等に適用することができる。

Description

符号化装置および符号化方法、復号装置および復号方法
 本開示は、符号化装置および符号化方法、復号装置および復号方法に関し、特に、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを取得することができるようにした符号化装置および符号化方法、復号装置および復号方法に関する。
 マルチビューステレオ技術において、複数のカメラにより撮像された3次元物体の3次元位置情報と2次元画像データとからなる3次元データを記録、符号化、伝送、復号、表示する伝送システムが考案されている(例えば、非特許文献1参照)。3次元データの符号化方式としては、MPEG(Moving Picture Experts Group phase)方式などがある(例えば、非特許文献2参照)。
 また、複数のカメラにより得られた、複数の視点の2次元画像データと、各画素の被写体の奥行き方向(撮像面に垂直な方向)の位置を示すデプスからなるデプス画像データとをそのまま記録、符号化、伝送、復号、表示する伝送システムが考案されている。2次元画像データとデプス画像データを符号化する方式としては、MVCD(Multiview and depth video coding)方式、AVC(Advanced Video Coding)方式、HEVC(High Efficiency Video Coding)方式などがある。
Ming Chuang, Pat Sweeney, Don Gillett, Dennis Evseev, David Calabrese, Hugues Hoppe, Adam Kirk, Steve Sullivan, "High-Quality Streamable Free-Viewpoint Video, Alvaro Collet", Microsoft Corporation Marius Preda,"MPEG Graphics Compression Model" MPEG document: N9892,May 2008
 しかしながら、被写体の3次元情報を3次元データとして伝送する場合、受信側において、3次元データを処理する高機能の処理部が必要になる。
 また、被写体の3次元情報を複数のカメラにより得られた2次元画像データとデプス画像データで伝送する場合、受信側の処理は容易になるが、複数のカメラの視点が所定の表示画像生成方式に適した視点とは限らず、受信側において視点の過不足が生じる。
 本開示は、このような状況に鑑みてなされたものであり、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを取得することができるようにするものである。
 本開示の第1の側面の符号化装置は、複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する2次元データ生成部と、前記2次元データ生成部により生成された前記複数の第2の視点の2次元画像データと前記デプス画像データを符号化する符号化部と、前記符号化部により符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データを伝送する伝送部とを備える符号化装置である。
 本開示の第1の側面の符号化方法は、本開示の第1の側面の符号化装置に対応する。
 本開示の第1の側面においては、複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとが生成され、生成された前記複数の第2の視点の2次元画像データと前記デプス画像データが符号化され、符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データが伝送される。
 本開示の第2の側面の復号装置は、所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとを復号する復号部と、前記復号部による復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データを生成する3次元データ生成部と、前記3次元データ生成部により生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データを表示画像データとして生成する2次元データ生成部とを備える復号装置である。
 本開示の第2の側面の復号方法およびプログラムは、本開示の第2の側面の復号装置に対応する。
 本開示の第2の側面においては、所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとが復号され、復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データが生成され、生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データが表示画像データとして生成される。
 なお、第1の側面の符号化装置および第2の側面の復号装置は、コンピュータにプログラムを実行させることにより実現することができる。
 また、第1の側面の符号化装置および第2の側面の復号装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 本開示の第1の側面によれば、符号化することができる。また、本開示の第1の側面によれば、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを復号装置が取得できるように符号化することができる。
 本開示の第2の側面によれば、復号することができる。また、本開示の第2の側面によれば、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを取得することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示を適用した伝送システムの第1実施の形態の構成例を示すブロック図である。 図1の変換部の構成例を示すブロック図である。 所定の表示画像生成方式に対応する複数の視点の例を示す図である。 カメラ関連情報の例を示す図である。 図1の撮像装置と符号化装置の符号化処理を説明するフローチャートである。 図1の変換部の第1の構成例を示すブロック図である。 図1の変換部の第2の構成例を示すブロック図である。 図1の変換部の第3の構成例を示すブロック図である。 図1の復号装置の復号処理を説明するフローチャートである。 本開示を適用した伝送システムの第2実施の形態の構成例を示すブロック図である。 図10の撮像装置の構成例を示すブロック図である。 同期ずれ情報の例を示す図である。 図10の符号化装置の構成例を示すブロック図である。 図10の撮像装置と符号化装置の符号化処理を説明するフローチャートである。 図10の復号部の構成例を示すブロック図である。 図10の復号装置の復号処理を説明するフローチャートである。 本開示を適用した伝送システムの第3実施の形態の構成例を示すブロック図である。 図17の合成装置の構成例を示すブロック図である。 図18の合成装置の合成処理を説明するフローチャートである。 第4実施の形態における合成装置の構成例を示すブロック図である。 座標変換データを生成する処理を説明する図である。 座標変換情報の例を示す図である。 図20の合成装置の合成処理を説明するフローチャートである。 第4実施の形態における変換部の構成例を示すブロック図である。 第4実施の形態における復号装置の復号処理を説明するフローチャートである。 第5実施の形態における合成装置の構成例を示すブロック図である。 色ずれ補正情報の例を示す図である。 図26の合成装置の合成処理を説明するフローチャートである。 第5実施の形態における変換部の構成例を示すブロック図である。 コンピュータのハードウエアの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
 1.第1実施の形態:伝送システム(図1乃至図9)
 2.第2実施の形態:伝送システム(図10乃至図16)
 3.第3実施の形態:伝送システム(図17乃至図19)
 4.第4実施の形態:伝送システム(図20乃至図25)
 5.第5実施の形態:伝送システム(図26乃至図29)
 6.第6実施の形態:コンピュータ(図30)
 <第1実施の形態>
 (伝送システムの第1実施の形態の構成例)
 図1は、本開示を適用した伝送システムの第1実施の形態の構成例を示すブロック図である。
 図1の伝送システム10は、撮像装置11、符号化装置12、復号装置13、および表示装置14により構成される。伝送システム10は、撮像装置11により取得された2次元画像データ等を用いて、所定の表示画像生成方式で表示画像データを生成し、表示する。
 具体的には、伝送システム10の撮像装置11は、例えば、マルチカメラ、測距測定器、および画像処理部により構成される。撮像装置11のマルチカメラは、複数(例えば、8)のカメラにより構成され、各カメラで少なくとも一部が同一である被写体の動画像の2次元画像データを撮像する。測距測定器は、例えば、各カメラに設けられ、そのカメラと同一の視点のデプス画像データを生成する。
 撮像装置11の画像処理部(3次元データ生成部)は、各カメラの視点の2次元画像データおよびデプス画像データ、並びに、各カメラの内部パラメータおよび外部パラメータを用いて、Visual Hull等によるモデリングを行い、メッシュを作成する。画像処理部は、作成されたメッシュを構成する各点(Vertex)の3次元位置と各点のつながり(Polygon)を示す幾何情報(Geometry)と、そのメッシュの2次元画像データとを被写体の3次元データとして生成し、符号化装置12に供給する。
 複数の視点の2次元画像データとデプス画像データから3次元データを生成する方法の詳細は、例えば、Saied Moezzi, Li-Cheng Tai, Philippe Gerard, “Virtual View Generation for 3D Digital Video”, University of California, San DiegoやTakeo Kanade and Peter Rander,P.J. Narayanan, "Virtualized Reality:Constructing Virtual Worlds from Real Scenes"に記載されている。
 符号化装置12は、変換部21、符号化部22、および伝送部23により構成される。
 符号化装置12の変換部21は、所定の表示画像生成方式に対応する複数の視点の仮想カメラの内部パラメータと外部パラメータをカメラパラメータとして設定する。変換部21は、カメラパラメータに基づいて、撮像装置11から供給される3次元データから、所定の表示画像生成方式に対応する複数の視点の2次元画像データとデプス画像データとを生成する。
 3次元データから複数の視点の2次元画像データとデプス画像データを生成する3DCG技術の詳細は、例えば、谷本正幸、「究極の映像通信を目指して」電子情報通信学会技術研究報告. CS, 通信方式 110(323), 73-78, 2010-11-25等に記載されている。
 本明細書では、2次元画像データとデプス画像データの視点は同一であるものとするが、2次元画像データとデプス画像データの視点および視点の数は、異なっていてもよい。また、2次元画像データとデプス画像データの視点および視点の数は、撮像装置11のカメラの視点と同一であっても、異なっていてもよい。
 変換部21は、撮像装置11から供給される3次元データから、所定の表示画像生成方式に対応する複数の視点からは見えないオクルージョン領域の3次元データ(以下、オクルージョン3次元データという)を抽出する。変換部21は、所定の表示画像生成方式に対応する複数の視点の2次元画像データおよびデプス画像データ、オクルージョン3次元データ、並びに、各視点のカメラパラメータ等の仮想カメラに関する情報であるカメラ関連情報を含むメタデータを符号化部22に供給する。
 符号化部22は、変換部21から供給される2次元画像データ、デプス画像データ、およびメタデータを符号化する。符号化方式としては、MVCD(Multiview and depth video coding)方式、AVC方式、HEVC方式等を採用することができる。
 符号化方式がMVCD方式である場合、全ての視点の2次元画像データとデプス画像データは、まとめて符号化される。その結果、2次元画像データとデプス画像データの符号化データとメタデータを含む1本の符号化ストリームが生成される。この場合、メタデータのうちのカメラパラメータは、符号化ストリームのreference displays information SEIに配置される。また、メタデータのうちのデプス画像データに関する情報は、Depth representation information SEIに配置される。
 一方、符号化方式がAVC方式やHEVC方式である場合、各視点のデプス画像データと2次元画像データは別々に符号化される。その結果、各視点の2次元画像データとメタデータを含む各視点の符号化ストリームと、各視点のデプス画像データの符号化データとメタデータとを含む各視点の符号化ストリームが生成される。この場合、メタデータは、例えば、各符号化ストリームのUser unregistered SEIに配置される。また、メタデータには、符号化ストリームとカメラパラメータ等とを対応付ける情報が含まれる。
 なお、メタデータに符号化ストリームとカメラパラメータ等とを対応付ける情報を含めず、符号化ストリームに、その符号化ストリームに対応するメタデータのみを含めるようにしてもよい。
 符号化部22は、符号化ストリームを伝送部23に供給する。伝送部23は、符号化部22から供給される符号化ストリームを復号装置13に伝送する。なお、本明細書では、メタデータが符号化ストリームに配置されて伝送されるようにするが、符号化ストリームとは別に伝送されるようにしてもよい。
 復号装置13は、受け取り部31、復号部32、および変換部33により構成される。
 復号装置13の受け取り部31は、伝送部23から伝送されてくる符号化ストリームを受け取り、復号部32に供給する。復号部32は、受け取り部31から供給される符号化ストリームを、符号化部22における符号化方式に対応する方式で復号する。復号部32は、その結果得られる複数の視点の2次元画像データおよびデプス画像データ、並びにメタデータを変換部33に供給する。
 変換部33は、復号部32から供給されるメタデータと復号装置13の表示画像生成方式に基づいて、複数の視点の2次元画像データとデプス画像データから、所定の視点の2次元画像データ、または、所定の視点の2次元画像データとデプス画像データを選択する。変換部33は、選択された所定の視点の2次元画像データ、または、所定の視点の2次元画像データとデプス画像データに基づいて、表示画像データを生成し、表示装置14に供給する。
 表示装置14は、2次元ヘッドマウントディスプレイや2次元モニタ、3次元ヘッドマウントディスプレイや3次元モニタなどにより構成される。表示装置14は、変換部33から供給される表示画像データに基づいて、表示画像を2次元表示または3次元表示する。
 (変換部21の構成例)
 図2は、図1の変換部21の構成例を示すブロック図である。
 図2の変換部21は、被写体位置決定部51、カメラ決定部52、2次元データ生成部53、およびオクルージョン決定部54により構成される。
 変換部21の被写体位置決定部51は、図1の撮像装置11から供給される3次元データに対応する3次元物体のうちの被写体の中心とする3次元位置を決定し、その3次元位置を表す被写体位置情報をカメラ決定部52に供給する。
 カメラ決定部52は、被写体位置決定部51から供給される被写体位置情報に基づいて、所定の表示画像生成方式に対応する複数の視点のカメラパラメータを決定し、2次元データ生成部53とオクルージョン決定部54に供給する。また、カメラ決定部52は、各視点のカメラパラメータ等からカメラ関連情報を生成し、メタデータとして図1の符号化部22に供給する。
 2次元データ生成部53は、カメラ決定部52から供給される複数の視点のカメラパラメータに基づいて、視点ごとに、3次元データに対応する3次元物体の透視投影を行う。
 具体的には、各画素の2次元位置に対応する行列m´とワールド座標系の3次元座標に対応する行列Mの関係は、カメラの内部パラメータAと外部パラメータR|tを用いて、以下の式(1)により表現される。
Figure JPOXMLDOC01-appb-M000001
 式(1)は、より詳細には式(2)で表現される。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、(u,v)は画像上の2次元座標であり、fx, fyは、焦点距離である。また、Cx, Cyは、主点であり、r11乃至r13,r21乃至r23,r31乃至r33、およびt乃至tは、パラメータであり、(X,Y,Z)は、ワールド座標系の3次元座標である。
 従って、2次元データ生成部53は、上述した式(1)や(2)により、カメラパラメータを用いて、各画素の2次元座標に対応する3次元座標を求める。
 そして、2次元データ生成部53は、視点ごとに、3次元データのうちの各画素の2次元座標に対応する3次元座標の2次元画像データを各画素の2次元画像データにすることにより、各画素の2次元座標と画像データを対応付ける2次元画像データを生成する。また、2次元データ生成部53は、視点ごとに、各画素の2次元座標に対応する3次元座標に基づいて各画素のデプスを求め、各画素の2次元座標とデプスを対応付けるデプス画像データを生成する。デプスは、例えば、被写体の奥行き方向の位置zの逆数1/zである。2次元データ生成部53は、各視点の2次元画像データとデプス画像データを符号化部22に供給する。
 オクルージョン決定部54は、カメラ決定部52から供給されるカメラパラメータに基づいて、撮像装置11から供給される3次元データからオクルージョン3次元データを抽出し、メタデータとして符号化部22に供給する。
 (所定の表示画像生成方式に対応する複数の視点の例)
 図3は、所定の表示画像生成方式に対応する複数の視点の例を示す図である。
 図3のAの例では、所定の表示画像生成方式が、所定の1視点の表示画像を2次元表示する所定視点表示画像生成方式と、1つの任意の視点である自由視点の表示画像を2次元表示する自由視点表示画像生成方式である。この場合、図3のAに示すように、所定の表示画像生成方式に対応する複数の視点は、例えば、同一円上に等間隔に存在する複数(図3のAの例では8)の視点71乃至78であり、視点71乃至78の向きは、その円の中心に向かう向きである。
 以上により、復号装置13は、視点71乃至78のうちのいずれかの視点の2次元画像データを表示画像データとして選択し、表示装置14に供給することにより、その視点の表示画像を表示装置14に2次元表示させることができる。
 また、復号装置13は、視点71乃至78の2次元画像データとデプス画像データに基づいて3次元データを生成し、自由視点に対して、その3次元データに対応する3次元物体の透視投影を行うことにより、自由視点の2次元画像データを表示画像データとして生成することができる。従って、復号装置13は、生成された表示画像データを表示装置14に供給することにより、自由視点の表示画像を表示装置14に2次元表示させることができる。
 図3のBの例では、所定の表示画像生成方式が、所定視点表示画像生成方式、自由視点表示画像生成方式、2視点の2次元画像データに基づいて表示画像を3次元表示させる3次元表示画像生成方式、および2視点の間の視点の表示画像を2次元表示させる補間視点表示画像生成方式である。
 この場合、図3のBに示すように、所定の表示画像生成方式に対応する複数の視点は、例えば、同一円上に等間隔に存在する複数(図3のBの例では10)の視点81乃至90である。視点88と視点89は、それぞれ、視点87、視点88と略水平方向に並ぶ。視点87と視点89、および、視点88と視点90の略水平方向の間隔は、例えば、人間の左右の目の間隔に対応する。視点81乃至90の向きは、視点81乃至90が配置される円の中心に向かう向きである。
 以上により、復号装置13は、図3のAの場合と同様に、視点81乃至90のいずれかの視点の表示画像または自由視点の表示画像を表示装置14に2次元表示させることができる。また、復号装置13は、視点87と視点89のペアまたは視点88と視点90のペアの2次元画像データを表示画像データとして選択し、表示装置14に供給することにより、視点87と視点89のペアまたは視点88と視点90のペアの表示画像を表示装置14に3次元表示させることができる。
 さらに、復号装置13は、視点87と視点89のペアまたは視点88と視点90のペアの2次元画像データとデプス画像データに基づいて、そのペアの間の視点の2次元画像データを補間することができる。従って、復号装置13は、補間された2次元画像データを表示画像データとして表示装置14に供給することにより、視点87と視点89のペアまたは視点88と視点90のペアの間の視点の表示画像を表示装置14に2次元表示させることができる。
 図3のAおよび図3のBの例の場合、所定の表示画像生成方式の数が複数である。従って、復号装置13は、所定の表示画像生成方式に対応する複数の視点の2次元画像データとデプス画像データに基づいて、所定の表示画像生成方式のいずれかで表示画像データを生成することができる。よって、符号化装置12は、スケーラビリティを有する符号化ストリームを生成することができるといえる。なお、所定の表示画像生成方式の数は1つであってもよい。
 また、カメラ決定部52は、撮像装置11のカメラの数が、所定の表示画像生成方式に対応する複数の視点より多い場合、所定の表示画像生成方式に対応する複数の視点のカメラパラメータを決定することにより、視点の冗長性をなくすことができる。
 例えば、撮像装置11のカメラの視点が視点71乃至78の8視点であるが、複数の表示画像生成方式に対応する複数の視点が視点71、視点73、視点75、および視点77の4視点である場合、カメラ決定部52は、その4視点のカメラパラメータを決定する。従って、視点71乃至78の全ての2次元画像データとデプス画像データが符号化される場合に比べて、符号化ストリームにおける視点の冗長性をなくすことができる。
 複数の表示画像生成方式に対応する複数の視点の位置は、図3のAおよび図3のBの例に限定されず、任意の位置にすることが可能である。また、各視点のカメラパラメータは、例えば、比較的狭い画角に対応するカメラパラメータにすることができる。この場合、表示画像のズーム時の解像度を向上させることができる。
 また、本明細書では、所定の表示画像生成方式の数が複数である場合であっても、所定の表示画像生成方式の全てに対応する複数の視点の符号化ストリームが生成されるようにするが、所定の表示画像生成方式ごとに、対応する複数の視点の符号化ストリームが生成されるようにしてもよい。この場合、復号装置13は、自分の表示画像生成方式に対応する符号化ストリームを用いて表示画像データを生成する。
 さらに、カメラ決定部52は、復号装置13からの要求に応じて、所定の表示画像生成方式に対応する複数の視点を決定するようにしてもよい。
 (カメラ関連情報の例)
 図4は、カメラ関連情報の例を示す図である。
 図4の例では、所定の表示画像生成方式に対応する複数の視点が、図3のBの視点81乃至90である。
 図4に示すように、カメラ関連情報は、各視点のカメラIDに、その視点の外部パラメータR|T、内部パラメータA、isStereoFlag、およびステレオカメラIDが対応付けられることにより構成される。
 カメラIDは、視点に固有のIDである。図4の例では、カメラIDは、視点81乃至90に対して0から順に付されている。また、図4では、カメラIDがiである外部パラメータR|TをRi|Ti、内部パラメータAをAiと記載している。
 isStereoFlagは、略水平方向に並ぶ他の視点が存在するかどうかを表すフラグであり、略水平方向に並ぶ他の視点が存在する場合1に設定される。図4の例では、カメラIDが6乃至9である視点87乃至90に、略水平方向に並ぶ他の視点が存在するため、図4に示すように、6乃至9であるカメラIDに対応付けられたisStereoFlagは1となる。
 ステレオカメラIDは、略水平方向に並ぶ他の視点のカメラIDであり、略水平方向に並ぶ2つの視点を特定するペア情報である。図4の例では、カメラIDが6である視点87の略水平方向に並ぶ他の視点89のカメラIDは8であるので、6であるカメラIDに対応付けられたステレオカメラIDは8となる。
 同様に、カメラIDが7である視点88の略水平方向に並ぶ他の視点90のカメラIDは9であるので、7であるカメラIDに対応付けられたステレオカメラIDは9となる。また、8であるカメラIDに対応付けられたステレオカメラIDは6となり、9であるカメラIDに対応付けられたステレオカメラIDは7となる。
 (撮像装置と符号化装置の処理の説明)
 図5は、図1の撮像装置11と符号化装置12の符号化処理を説明するフローチャートである。
 図5のステップS11において、撮像装置11は、マルチカメラで動画像の2次元画像データを撮像し、測距測定器でデプス画像データを生成する。ステップS12において、撮像装置11は、2次元画像データとデプス画像データを用いて3次元データを生成し、符号化装置12に供給する。
 ステップS13において、符号化装置12の被写体位置決定部51(図2)は、撮像装置11から供給される3次元データに対応する3次元物体のうちの被写体の中心とする3次元位置を決定し、その3次元位置を表す被写体位置情報をカメラ決定部52に供給する。
 ステップS14において、カメラ決定部52は、被写体位置決定部51から供給される被写体位置情報に基づいて、所定の表示画像生成方式に対応する複数の視点のカメラパラメータを決定し、2次元データ生成部53とオクルージョン決定部54に供給する。また、カメラ決定部52は、カメラパラメータ等から図4のカメラ関連情報を生成し、メタデータとして図1の符号化部22に供給する。
 ステップS15において、2次元データ生成部53は、カメラ決定部52から供給される複数の視点のカメラパラメータに基づいて、視点ごとに、3次元データに対応する3次元物体の透視投影を行い、各画素の2次元座標に対応する3次元座標を求める。
 ステップS16において、2次元データ生成部53は、視点ごとに、3次元データのうちの各画素の3次元座標の2次元画像データを各画素の2次元画像データにすることにより、2次元画像データを生成する。また、2次元データ生成部53は、視点ごとに、各画素の3次元座標に基づいて各画素のデプスを求め、デプス画像データを生成する。2次元データ生成部53は、各視点の2次元画像データとデプス画像データを符号化部22に供給する。
 ステップS17において、オクルージョン決定部54は、カメラ決定部52から供給されるカメラパラメータに基づいて、撮像装置11から供給される3次元データからオクルージョン3次元データを抽出し、メタデータとして符号化部22に供給する。
 ステップS18において、符号化部22は、変換部21から供給される2次元画像データ、デプス画像データ、およびメタデータを符号化し、その結果得られる符号化ストリームを伝送部23に供給する。
 ステップS19において、伝送部23は、符号化部22から供給される符号化ストリームを復号装置13に伝送する。そして、処理は終了する。
 (変換部33の第1の構成例)
 図6は、図1の変換部33の第1の構成例を示すブロック図である。
 図6の変換部33は、図1の復号装置13の表示画像生成方式が所定視点表示画像生成方式である場合の変換部33であり、選択部111と表示制御部112により構成される。
 変換部33の選択部111は、図1の復号部32から供給されるカメラ関連情報に基づいて、所望の1視点のカメラIDを認識する。選択部111は、復号部32から供給される2次元画像データ、デプス画像データ、およびオクルージョン3次元データのうちの、認識されたカメラIDに対応する1視点の2次元画像データを選択する。選択部111は、選択された1視点の2次元画像データを表示制御部112に供給する。
 表示制御部112は、選択部111から供給される1視点の2次元画像データを表示画像データとして表示装置14に供給することにより、表示画像を表示装置14に2次元表示させる。
 なお、図示は省略するが、復号装置13の表示画像生成方式が3次元表示画像生成方式である場合の変換部33の構成は、選択部111が、カメラ関連情報に基づいて略水平方向に並ぶ2視点の2次元画像データを選択する点を除いて、図6の構成と同一である。
 即ち、この場合、選択部111は、カメラ関連情報のうちのisStereoFlagが1であるカメラIDの視点と、そのカメラIDに対応するステレオカメラIDの視点の2次元画像データを選択する。その結果、表示装置14には、選択された2視点の2次元画像データが表示画像データとして供給される。表示装置14は、表示画像データのうちの1視点の2次元画像データに基づいて左目用の表示画像を表示し、他の1視点の2次元画像データに基づいて右目用の表示画像を表示することにより、表示画像を3次元表示する。
 (変換部33の第2の構成例)
 図7は、図1の変換部33の第2の構成例を示すブロック図である。
 図7の変換部33は、復号装置13の表示画像生成方式が補間視点表示画像生成方式である場合の変換部33であり、選択部131、補間部132、および表示制御部133により構成される。
 変換部33の選択部131は、図1の復号部32から供給されるカメラ関連情報に基づいて、1であるisStereoFlagに対応するカメラIDのうちの1つと、その1つに対応するステレオカメラIDとを認識する。選択部131は、復号部32から供給される2次元画像データ、デプス画像データ、およびオクルージョン3次元データのうちの、認識された2つのカメラIDに対応する2視点の2次元画像データとデプス画像データを選択し、補間部132に供給する。
 補間部132は、選択部131から供給される2視点の2次元画像データとデプス画像データに基づいて、その2視点の間の位置を視点とする2次元画像データを補間する。このような補間技術は、Depth Image Based Renderingと呼ばれ、例えば、国際公開WO2014083752号パンフレットに記載されている。補間部132は、補間された1視点の2次元画像データを表示制御部133に供給する。
 表示制御部133は、補間部132から供給される1視点の2次元画像データを表示画像データとして表示装置14に供給することにより、表示画像を表示装置14に2次元表示させる。
 (変換部33の第3の構成例)
 図8は、図1の変換部33の第3の構成例を示すブロック図である。
 図8の変換部33は、復号装置13の表示画像生成方式が自由視点表示画像生成方式である場合の変換部33である。図8の変換部33は、3次元データ生成部151、被写体位置決定部152、カメラ位置決定部153、2次元データ生成部154、および表示制御部155により構成される。
 変換部33の3次元データ生成部151は、復号部32から供給される2次元画像データ、デプス画像データ、およびカメラ関連情報に含まれるカメラパラメータを用いて、撮像装置11と同様に、被写体の3次元データを生成する。3次元データ生成部151は、生成された3次元データを、復号部32から供給されるオクルージョン3次元データを用いて修正する。これにより、2次元画像データとデプス画像データのみでは生成することができないオクルージョン領域を含む被写体の全領域の3次元データを生成することができる。3次元データ生成部151は、修正された3次元データを被写体位置決定部152と2次元データ生成部154に供給する。
 被写体位置決定部152は、3次元データ生成部151から供給される3次元データに対応する3次元物体のうちの被写体の中心とする3次元位置を決定し、その3次元位置を表す被写体位置情報をカメラ位置決定部153に供給する。
 カメラ位置決定部153は、被写体位置決定部152から供給される被写体位置情報に基づいて、自由視点のカメラパラメータを決定し、カメラパラメータを2次元データ生成部154に供給する。
 2次元データ生成部154は、3次元データ生成部151から供給される3次元データと、カメラ位置決定部153から供給される自由視点のカメラパラメータとに基づいて、自由視点表示画像生成方式で2次元画像データを表示画像データとして生成する。
 具体的には、2次元データ生成部154は、自由視点のカメラパラメータに基づいて、図2の2次元データ生成部53と同様に、3次元データに対応する3次元物体の透視投影を行い、各画素の2次元座標に対応する3次元座標を求める。そして、2次元データ生成部154は、3次元データのうちの各画素の2次元座標に対応する3次元座標の2次元画像データを、各画素の表示画像データとして生成する。
 また、2次元データ生成部154は、各画素の2次元座標に対応する3次元座標に基づいて各画素のデプスを求め、デプス画像データを生成する。2次元データ生成部154は、表示画像データとデプス画像データを表示制御部155に供給する。
 表示制御部155は、2次元データ生成部154から供給される表示画像データとデプス画像データを表示装置14に供給する。表示装置14は、例えば、表示画像データとデプス画像データをPoint Cloudとして、表示画像を2次元表示する。
 以上のように、図8の変換部33は、複数の視点の2次元画像データとデプス画像データから3次元データを生成し、新たに決定された自由視点のカメラパラメータに基づいて、その3次元データから、2次元画像データとデプス画像データを生成する。従って、変換部33は、符号化装置12から伝送されてくる複数の視点の2次元画像データとデプス画像データのズーム倍率を変更したり、視点を変更したりすることができる。
 (復号装置の処理の説明)
 図9は、図1の変換部33の構成が図8の構成である場合の復号装置13の復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置12から符号化ストリームが伝送されてきたとき開始される。
 図9のステップS31において、復号装置13の受け取り部31は、伝送部23から伝送されてくる符号化ストリームを受け取り、復号部32に供給する。
 ステップS32において、復号部32は、受け取り部31から供給される符号化ストリームを復号する。復号部32は、その結果得られる複数の視点の2次元画像データおよびデプス画像データ、並びにメタデータを変換部33に供給する。
 ステップS33において、変換部33の3次元データ生成部151(図8)は、復号部32から供給される2次元画像データ、デプス画像データ、およびメタデータに含まれるカメラパラメータを用いて、撮像装置11と同様に、被写体の3次元データを生成する。
 ステップS34において、3次元データ生成部151は、復号部32から供給されるメタデータに含まれるオクルージョン3次元データを用いて、ステップS33で生成された3次元データを修正する。3次元データ生成部151は、修正された3次元データを被写体位置決定部152に供給する。
 ステップS35において、被写体位置決定部152は、3次元データ生成部151から供給される3次元データに対応する3次元物体のうちの被写体の中心とする3次元位置を決定し、その3次元位置を表す被写体位置情報をカメラ位置決定部153に供給する。
 ステップS36において、カメラ位置決定部153は、被写体位置決定部152から供給される被写体位置情報に基づいて、自由視点のカメラパラメータを決定し、カメラパラメータを2次元データ生成部154に供給する。
 ステップS37において、2次元データ生成部154は、3次元データと自由視点のカメラパラメータとに基づいて、自由視点表示画像生成方式で2次元画像データを表示画像データとして生成する。
 ステップS38において、2次元データ生成部154は、各画素の2次元座標に対応する3次元座標に基づいて各画素のデプスを求め、デプス画像データを生成する。2次元データ生成部154は、表示画像データとデプス画像データを表示制御部155に供給する。
 ステップS39において、表示制御部155は、2次元データ生成部154から供給される表示画像データとデプス画像データを表示装置14に供給する。
 以上のように、伝送システム10では、撮像装置11が、撮像された複数の視点の2次元画像データから3次元データを生成し、符号化装置12が、その3次元データから所定の表示画像生成方式に対応する複数の視点の2次元画像データとデプス画像データを生成して符号化する。従って、符号化装置12は、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを復号装置13が取得できるように符号化することができる。
 また、復号装置13は、符号化装置12から伝送されてくる所定の表示画像生成方式に対応する複数の視点の2次元画像データとデプス画像データの符号化ストリームを受け取り、復号する。従って、復号装置13は、撮像時の視点によらずに所定の表示画像生成方式に対応する視点の2次元画像データとデプス画像データを取得することができる。
 さらに、所定の表示画像生成方式の数が複数である場合、複数の表示画像生成方式の復号装置で、符号化装置12で生成された符号化ストリームを再生することができる。例えば、表示画像生成方式が所定視点表示画像生成方式である低機能の復号装置と、表示画像生成方式が自由視点画像生成方式である高機能の復号装置の両方で、自分の能力に応じた符号化ストリームの再生を行うことができる。
 <第2実施の形態>
 (伝送システムの第2実施の形態の構成例)
 図10は、本開示を適用した伝送システムの第2実施の形態の構成例を示すブロック図である。
 図10に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図10伝送システム170の構成は、撮像装置11、符号化装置12、および復号装置13が、撮像装置171、符号化装置172、および復号装置173に代わる点が、図1の伝送システム10の構成と異なる。伝送システム170では、撮像装置171により取得された2次元画像データとデプス画像データがそのまま符号化されて伝送される。
 具体的には、伝送システム170の撮像装置171は、マルチカメラ181と画像処理部182により構成される。撮像装置171のマルチカメラ181を構成する複数のカメラは、それぞれ、2次元画像データを撮像する。マルチカメラ181は、各カメラにより撮像された2次元画像データを画像処理部182に供給する。
 画像処理部182は、マルチカメラ181を構成する複数のカメラのうちの1つのカメラを基準カメラとし、他のカメラを参照カメラとする。画像処理部182は、マルチカメラ181の基準カメラにより撮像された2次元画像データと各参照カメラにより撮像された2次元画像データとに基づいて、基準カメラに対する各参照カメラの2次元画像データの同期ずれを検出する。また、画像処理部182は、基準カメラの同期ずれを0として検出する。画像処理部182は、検出された各カメラの視点の同期ずれを表す情報を含む同期ずれ情報とカメラ関連情報を符号化装置172に供給する。
 また、画像処理部182は、各カメラにより撮像された2次元画像データに対してステレオマッチングを行うことにより、各カメラのデプス画像データを生成し、符号化装置172に供給する。
 符号化装置172は、撮像装置171から供給される同期ずれ情報とカメラ関連情報をメタデータとする。符号化装置172は、図1の符号化部22と同様に、撮像装置171から供給される各カメラの2次元画像データおよびデプス画像データ、並びにメタデータを符号化し、符号化ストリームを生成する。符号化装置172(伝送部)は、生成された符号化ストリームを復号装置173に伝送する。
 復号装置173の構成は、復号部32と変換部33が、復号部191と変換部192に代わる点が、図1の復号装置13の構成と異なる。
 復号装置173の復号部191は、受け取り部31から供給される符号化ストリームを、符号化装置172における符号化方式に対応する方式で復号する。復号部191は、その結果得られるメタデータのうちの同期ずれ情報に基づいて、基準カメラと各参照カメラの2次元画像データおよびデプス画像データを同期させ、変換部192に供給する。また、復号部191は、メタデータのうちのカメラ関連情報を変換部192に供給する。
 変換部192の構成は、3次元データがオクルージョン3次元データを用いて補正されない点を除いて、図1の変換部33の構成と同一であるので、説明は省略する。
 (撮像装置の構成例)
 図11は、図10の撮像装置171の構成例を示すブロック図である。
 図11の撮像装置171のマルチカメラ181は、N個(Nは複数)のカメラ211-1乃至211-Nにより構成される。
 カメラ211-1乃至211-Nは、例えば、カメラ211-1乃至211-Nの視点が所定の表示画像生成方式に対応する視点となるように配置される。カメラ211-1乃至211-Nは、それぞれ撮像を行い、その結果得られる動画像の2次元画像データ(撮像画像データ)を画像処理部182に供給する。以下では、カメラ211-1乃至211-Nを特に区別する必要がない場合、それらをまとめてカメラ211という。
 画像処理部182は、キャリブレーション部221、同期ずれ検出部222、およびデプス生成部223により構成される。
 画像処理部182のキャリブレーション部221は、カメラ211ごとに、マルチカメラ181から供給される2次元画像データに対して、カメラパラメータを用いてキャリブレーションを行う。キャリブレーション部221は、キャリブレーション後の各カメラ211の2次元画像データを同期ずれ検出部222に供給する。また、キャリブレーション部221は、カメラ関連情報を図10の符号化装置172に供給する。
 同期ずれ検出部222は、カメラ211-1乃至211-Nのうちの1つを基準カメラとし、残りを参照カメラとする。同期ずれ検出部222は、キャリブレーション部221から供給される基準カメラの2次元画像データと参照カメラの2次元画像データに基づいて、参照カメラごとに、基準カメラに対する参照カメラの2次元画像データの同期ずれをmsecオーダーで検出する。
 具体的には、同期ずれ検出部222は、基準カメラの2次元画像データと参照カメラの2次元画像データからフラッシュ光を検出する。同期ずれ検出部222は、フラッシュ光が検出された基準カメラの2次元画像データと参照カメラの2次元画像データの撮像時刻の差分を、参照カメラの2次元画像データの同期ずれとして検出する。
 参照カメラの2次元画像データの同期ずれは、フラッシュ光を検出する方法以外の方法により、2次元画像データを用いて行われるようにしてもよい。また、カメラ211が2次元画像データとともに音声データを取得する場合には、基準カメラに対する参照カメラの音声データの同期ずれを検出することにより、参照カメラの2次元画像データの同期ずれを検出するようにしてもよい。
 同期ずれ検出部222は、基準カメラの2次元画像データの同期ずれを0として検出する。同期ずれ検出部222は、検出された同期ずれの同期ずれ情報を符号化装置172に供給する。また、同期ずれ検出部222は、キャリブレーション部221から供給される各カメラ211の2次元画像データをデプス生成部223に供給する。
 デプス生成部223は、同期ずれ検出部222から供給される各カメラ211の2次元画像データに対してステレオマッチングを行うことにより、各カメラ211のデプス画像データを生成する。デプス生成部223は、各カメラ211の2次元画像データとデプス画像データを符号化装置172に供給する。
 (同期ずれ情報の例)
 図12は、同期ずれ情報の例を示す図である。
 図12の例では、カメラ211の視点が、図3のBの視点81乃至90である。
 図12に示すように、同期ずれ情報は、各カメラ211の視点のカメラIDに、そのカメラ211のnum_units_in_tick,time_scale,Delta_num_units_in_tick、およびDelta_time_scaleが対応付けられることにより構成される。
 num_units_in_tickは、フレーム間隔がtime_scaleで定義されるtime_unitの何個分であるかを示す情報である。time_scaleは、1秒間のtime_unitの数である。従って、num_units_in_tickとtime_scaleにより、フレームレートを表すことができる。
 図12の例では、カメラIDが0,1,4、および5であるカメラ211のフレームレートは60Hz(59.94Hz)である。従って、例えば、カメラIDが0,1,4、および5であるカメラ211のnum_units_in_tickは1001であり、time_scaleは60000である。また、カメラIDが2,3、および6乃至9であるカメラ211のフレームレートは30Hz(29.97Hz)である。従って、例えば、カメラIDが2,3、および6乃至9であるカメラ211のnum_units_in_tickは2002であり、time_scaleは60000である。
 Delta_num_units_in_tickは、同期ずれがDelta_time_scaleで定義されるtime_unitの何個分であるかを示す情報である。Delta_time_scaleは、1秒間のtime_unitの数である。従って、Delta_num_units_in_tickとDelta_time_scaleにより、同期ずれを表すことができる。
 図12の例では、カメラIDが0であるカメラ211が基準カメラである。従って、0であるカメラIDに対応するDelta_num_units_in_tickは0である。また、図12の例では、カメラIDが3,4,7、および9であるカメラ211の同期ずれは0である。従って、3,4,7、および9であるカメラIDに対応するDelta_num_units_in_tickも0である。
 さらに、図12の例では、カメラIDが1および5であるカメラ211の同期ずれは1/30(1/29.97)秒である。従って、例えば、1および5であるカメラIDに対応するDelta_num_units_in_tickは2002であり、Delta_time_scaleは60000である。また、カメラIDが2,6、および8であるカメラ211の同期ずれは1/15(1/14.985)秒である。従って、例えば、2,6、および8であるカメラIDに対応するDelta_num_units_in_tickは4004であり、Delta_time_scaleは60000である。
 なお、同期ずれ情報には、同期ずれが発生している全てのカメラ211の同期ずれが同一であるかどうかを示す同期ずれ共通フラグが含まれるようにしてもよい。
 この場合、同期ずれが発生している全てのカメラ211の同期ずれが同一であるとき、同期ずれ情報は、同期ずれが発生している全てのカメラ211の同期ずれが同一であることを示す同期ずれ共通フラグ、各カメラ211の同期ずれの有無を示す同期ずれフラグ(同期ずれ有無情報)、および、同期ずれが発生している全てのカメラ211に共通の同期ずれを表す情報により構成される。
 一方、同期ずれが発生している全てのカメラ211の同期ずれが同一ではないとき、同期ずれ情報は、図12の同期ずれ情報と、同期ずれが発生している全てのカメラ211の同期ずれが同一ではないことを示す同期ずれ共通フラグとにより構成される。
 (符号化装置の構成例)
 図13は、図10の符号化装置172の構成例を示すブロック図である。
 図13の符号化装置172は、AVC方式またはHEVC方式で符号化を行う場合の符号化装置172であり、2N個の符号化部241-1乃至241-2Nと伝送部242を備える。
 符号化装置172の符号化部241-1乃至241-2Nは、それぞれ、撮像装置171から供給される各カメラ211の2次元画像データまたはデプス画像データを、AVC方式またはHEVC方式で符号化し、符号化ストリームを生成する。
 符号化部241-1乃至241-2Nは、撮像装置171から供給されるカメラ関連情報と同期ずれ情報、並びに、カメラ関連情報および同期ずれ情報と符号化ストリームとを対応付ける情報をメタデータとする。符号化部241-1乃至241-2Nは、生成された符号化ストリームのUser unregistered SEIにメタデータを配置する。
 なお、符号化部241-1乃至241-Nは、符号化ストリームのUser unregistered SEIに、その符号化ストリームに対応するメタデータのみを配置することもできる。この場合、カメラ関連情報および同期ずれ情報と符号化ストリームとを対応付ける情報はメタデータに含まれない。符号化部241-1乃至241-2Nは、メタデータが配置された符号化ストリームを伝送部242に供給する。
 伝送部242は、符号化部241-1乃至241-2Nから供給される符号化ストリームを図10の復号装置173に伝送する。
 (撮像装置と符号化装置の処理の説明)
 図14は、図10の撮像装置171と符号化装置172の符号化処理を説明するフローチャートである。
 図14のステップS51において、撮像装置171のカメラ211(図11)は、撮像を行い、その結果得られる動画像の2次元画像データを画像処理部182に供給する。
 ステップS52において、画像処理部182のキャリブレーション部221は、カメラ211ごとに、マルチカメラ181から供給される2次元画像データに対して、カメラパラメータを用いてキャリブレーションを行う。キャリブレーション部221は、キャリブレーション後の各カメラ211の2次元画像データを同期ずれ検出部222に供給する。
 ステップS53において、キャリブレーション部221は、カメラ関連情報をメタデータとして符号化装置172に供給する。
 ステップS54において、同期ずれ検出部222は、参照カメラごとに、キャリブレーション部221から供給される基準カメラと参照カメラの2次元画像データに基づいて、基準カメラに対する参照カメラの2次元画像データの同期ずれを検出する。また、同期ずれ検出部222は、基準カメラの2次元画像データの同期ずれとして0を検出する。
 ステップS55において、同期ずれ検出部222は、検出された同期ずれの同期ずれ情報をメタデータとして符号化装置172に供給する。また、同期ずれ検出部222は、キャリブレーション部221から供給される各カメラ211の2次元画像データをデプス生成部223に供給する。
 ステップS56において、デプス生成部223は、同期ずれ検出部222から供給される各カメラ211の2次元画像データに対してステレオマッチングを行うことにより、各カメラ211のデプス画像データを生成する。
 ステップS57において、デプス生成部223は、各カメラ211の2次元画像データとデプス画像データを符号化装置172に供給する。
 ステップS58において、符号化装置172は、撮像装置171から供給される各カメラ211の2次元画像データおよびデプス画像データ、並びにメタデータを符号化し、符号化ストリームを生成する。
 ステップS59において、符号化装置172は、生成された符号化ストリームを復号装置173に伝送する。そして、処理は終了する。
 (復号部の構成例)
 図15は、図10の復号部191の構成例を示すブロック図である。
 図15の例では、符号化装置172の構成が図13の構成であり、符号化装置172から伝送されてくる符号化ストリームの符号化方式がAVC方式またはHEVC方式である。図15の復号部191は、2N個の復号処理部261-1乃至261-2Nと出力部262により構成される。
 復号部191の復号処理部261-1乃至261-2Nは、受け取り部31から供給される各カメラ211の2次元画像データおよびデプス画像データの符号化ストリームを、それぞれ、AVC方式またはHEVC方式に対応する方式で復号する。復号処理部261-1乃至261-2Nは、復号の結果得られる各カメラ211の2次元画像データまたはデプス画像データと、メタデータを構成するカメラ関連情報および同期ずれ情報とを出力部262に供給する。
 出力部262(同期処理部)は、復号処理部261-1乃至261-2Nから供給される同期ずれ情報に基づいて、参照カメラごとに、基準カメラと参照カメラの2次元画像データおよびデプス画像データを同期させて図10の変換部192に供給する。
 例えば、同期ずれ情報に含まれる参照カメラのnum_units_in_tickが1001であり、Delta_num_units_in_tickが2002であり、time_scaleとDelta_time_scaleが60000である場合、出力部262は、参照カメラの2次元画像データとデプス画像データを2フレームだけ遅らせて変換部192に供給する。また、出力部262は、復号処理部261-1乃至261-2Nから供給されるカメラ関連情報を変換部192に供給する。
 以上により、変換部192に供給される各カメラ211の2次元画像データとデプス画像データが同期するため、変換部192における3次元データの生成精度が向上する。
 (復号装置の処理の説明)
 図16は、図10の変換部192の構成が、3次元データがオクルージョン3次元データを用いて補正されない点を除いて図8の構成と同一である場合の復号装置173の復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置172から符号化ストリームが伝送されてきたとき、開始される。
 図16のステップS71において、復号装置173の受け取り部31は、符号化装置172から伝送されてくる符号化ストリームを受け取り、復号部191に供給する。
 ステップS72において、復号部191は、受け取り部31から供給される符号化ストリームを、符号化装置172における符号化方式に対応する方式で復号する。
 ステップS73において、復号部191は、復号の結果得られるメタデータのうちの同期ずれ情報に基づいて、参照カメラごとに、基準カメラと参照カメラの2次元画像データおよびデプス画像データを同期させて変換部192に供給する。また、出力部262は、メタデータのうちのカメラ関連情報を変換部192に供給する。
 ステップS74において、変換部192は、復号部191から供給される2次元画像データ、デプス画像データ、およびカメラ関連情報に含まれるカメラパラメータを用いて、撮像装置11と同様に、被写体の3次元データを生成する。
 ステップS75乃至S79の処理は、図9のステップS35乃至S39の処理と同様であるので、説明は省略する。
 以上のように、伝送システム170では、各カメラ211で取得された2次元画像データおよびデプス画像データをそのまま符号化して伝送するため、各カメラ211の2次元画像データおよびデプス画像データの同期がとれていない場合がある。
 しかしながら、伝送システム170では、撮像装置171が、各カメラの2次元画像データの同期ずれを検出し、符号化装置172が、検出された同期ずれの同期ずれ情報を、2次元画像データおよびデプス画像データとともに伝送する。従って、復号装置173は、同期ずれ情報に基づいて、各カメラ211の2次元画像データおよびデプス画像データを同期させることができる。その結果、復号装置173は、同期がとれたN個のカメラ211の2次元画像データおよびデプス画像データを用いて、3次元データを高精度で生成することができる。
 <第3実施の形態>
 (伝送システムの第3実施の形態の構成例)
 図17は、本開示を適用した伝送システムの第3実施の形態の構成例を示すブロック図である。
 図17に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図17の伝送システム280の構成は、新たに撮像装置281、符号化装置282、および合成装置283が設けられる点、復号装置13が復号装置284に代わる点、および、符号化装置12で生成される2次元画像データおよびデプス画像データの視点が、所定の表示画像生成方式に対応する複数の視点のうちの一部である点が、図1の伝送システム10の構成と異なる。
 伝送システム280では、所定の表示画像生成方式に対応する複数の視点のうちの一部の視点(以下、第1の視点群という)の符号化ストリームが符号化装置12により生成され、他部の視点(以下、第2の視点群という)の符号化ストリームが符号化装置282により生成され、両方の符号化ストリームが合成(マージ)される。
 具体的には、伝送システム280の撮像装置281は、図1の撮像装置11と同様に構成され、少なくとも一部が撮像装置11における被写体と同一である被写体を撮像し、その被写体の3次元データを符号化装置282に供給する。
 符号化装置282は、変換部21と同様に構成される変換部291、符号化部22と同様に構成される符号化部292、および伝送部23と同様に構成される伝送部293により構成される。符号化装置282は、3次元データから第2の視点群の2次元画像データとデプス画像データを生成し、符号化して合成装置283に伝送する。
 合成装置283は、符号化装置12から伝送されてくる第1の視点群の符号化ストリーム(以下、第1の部分符号化ストリーム)と符号化装置282から伝送されてくる第2の視点群の符号化ストリーム(以下、第2の部分符号化ストリーム)を受け取る。合成装置283は、第1の部分符号化ストリームに対する第2の部分符号化ストリームの同期ずれを検出し、第2の符号化ストリームの同期ずれを表す視点群同期ずれ情報を生成する。
 視点群同期ずれ情報は、例えば、第2の視点群のフレームレートを表すnum_units_in_tickおよびtime_scaleと、同期ずれを表すDelta_num_units_in_tickおよびDelta_time_scaleにより構成される。
 合成装置283は、第2の部分符号化ストリームのメタデータに視点群同期ずれ情報を含める。合成装置283は、視点群同期ずれ情報が配置された第2の部分符号化ストリームと第1の部分符号化ストリームを合成し、所定の表示画像生成方式に対応する複数の視点の符号化ストリームを生成して復号装置284に伝送する。
 復号装置284の構成は、復号部32が復号部301に代わる点が、図1の復号装置13の構成と異なる。復号装置284の復号部301は、同期ずれ情報が視点群同期ずれ情報に代わる点、および、カメラ関連情報とともに、メタデータのうちのオクルージョン3次元データを変換部33に供給する点を除いて、図10の復号部191と同様であるので、説明は省略する。
 (合成装置の構成例)
 図18は、図17の合成装置283の構成例を示すブロック図である。
 図18の合成装置283は、復号部321、復号部322、同期ずれ検出部323、およびメタデータ付加部324により構成される。
 合成装置283の復号部321は、符号化装置12から伝送されてくる第1の部分符号化ストリームを受け取る。復号部321は、受け取られた第1の部分符号化ストリームを、符号化部22における符号化方式(図18の例ではMVCD)に対応する方式で復号し、第1の視点群の2次元画像データ、デプス画像データ、およびメタデータを生成する。復号部321は、生成された第1の視点群のうちの1つの視点の2次元画像データを同期ずれ検出部323に供給する。
 復号部322は、符号化装置282から伝送されてくる第2の部分符号化ストリームを受け取る。復号部322は、受け取られた第2の部分符号化ストリームを、符号化部292における符号化方式(図18の例ではMVCD)に対応する方式で復号し、第2の視点群の2次元画像データ、デプス画像データ、およびメタデータを生成する。復号部322は、生成された第2の視点群のうちの1つの視点の2次元画像データを同期ずれ検出部323に供給する。
 同期ずれ検出部323は、復号部321と復号部322から供給される2次元画像データに基づいて、第1の視点群に対する第2の視点群の2次元画像データの同期ずれを検出する。
 同期ずれの検出方法は、第2実施の形態における同期ずれの検出方法と同一であってもよいし、異なっていてもよい。
 また、同期ずれの検出には、2次元画像データだけでなく、カメラパラメータとデプス画像データを用いるようにしてもよい。この場合、例えば、同期ずれ検出部323は、カメラ関連情報に含まれるカメラパラメータに基づいて、第1の視点群のうちの1つの視点と第2の視点群のうちの1つの視点の各時刻の2次元画像データの特徴点の2次元位置を3次元位置に変換する。同期ずれ検出部323は、2つの視点の特徴点の3次元位置の差分が最小となるときの2次元画像データの時刻の差分を、第1の視点群に対する第2の視点群の2次元画像データの同期ずれとして検出する。
 同期ずれ検出部323は、検出された同期ずれを表す視点群同期ずれ情報を、メタデータ付加部324に供給する。
 メタデータ付加部324は、同期ずれ検出部323から供給される視点群同期ずれ情報を、符号化装置282から伝送されてくる第2の部分符号化ストリームにメタデータとして配置する。メタデータ付加部324は、視点群同期ずれ情報がメタデータとして置換された第2の部分符号化ストリームと、符号化装置12から伝送されてくる第1の部分符号化ストリームとを合成する。メタデータ付加部324(伝送部)は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に伝送する。
 (合成装置の処理の説明)
 図17の撮像装置11と符号化装置12、撮像装置281と符号化装置282の符号化処理は、図5の符号化処理と同様であるので、説明は省略する。
 図19は、図18の合成装置283の合成処理を説明するフローチャートである。
 図19のステップS91において、合成装置283の復号部321は、符号化装置12から伝送されてくる第1の部分符号化ストリームを、符号化部22における符号化方式に対応する方式で復号する。復号部321は、復号の結果得られる第1の視点群のうちの1つの視点の2次元画像データを同期ずれ検出部323に供給する。
 ステップS92において、復号部322は、符号化装置282から伝送されてくる第2の部分符号化ストリームを、符号化部292における符号化方式に対応する方式で復号する。復号部322は、復号の結果得られる第2の視点群のうちの1つの視点の2次元画像データを同期ずれ検出部323に供給する。
 ステップS93において、同期ずれ検出部323は、復号部321と復号部322から供給される2次元画像データに基づいて、第1の視点群に対する第2の視点群の2次元画像データの同期ずれを検出する。同期ずれ検出部323は、検出された同期ずれを表す視点群同期ずれ情報をメタデータ付加部324に供給する。
 ステップS94において、メタデータ付加部324は、同期ずれ検出部323から供給される視点群同期ずれ情報を、符号化装置282から伝送されてくる第2の部分符号化ストリームにメタデータとして配置する。
 ステップS95において、メタデータ付加部324は、符号化装置12から伝送されてくる第1の部分符号化ストリームと、視点群同期ずれ情報を含む第2の部分符号化ストリームとを合成する。メタデータ付加部324は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に供給し、処理を終了する。
 復号装置284の復号処理は、同期ずれ情報が視点群同期ずれ情報に代わる点、および、ステップS72の処理によりオクルージョン3次元データも生成され、ステップS74の処理後、図9のステップS34と同様にオクルージョン3次元データを用いて3次元データが修正される点を除いて、図16の復号処理と同様である。
 以上のように、伝送システム280では、符号化装置12により生成された第1の部分符号化ストリームと、符号化装置282により生成された第2の部分符号化ストリームが合成されて復号装置284に伝送される。従って、合成の結果得られる所定の表示画像生成方式に対応する第1の視点群と第2の視点群の符号化ストリームの同期がとれていない場合がある。
 しかしながら、伝送システム280では、合成装置283が、第1の部分符号化ストリームと第2の部分符号化ストリームを一旦復号し、その結果得られる第1の視点群と第2の視点群の2次元画像データの同期ずれを検出する。そして、合成装置283は、検出された同期ずれを表す視点群同期ずれ情報を、第1の部分符号化ストリームおよび第2の部分符号化ストリームとともに伝送する。従って、復号装置284は、視点群同期ずれ情報に基づいて、第1の視点群と第2の視点群の2次元画像データおよびデプス画像データを同期させることができる。その結果、復号装置284は、同期がとれた第1の視点群と第2の視点群の2次元画像データとデプス画像データを用いて、3次元データを高精度で生成することができる。
 <第4実施の形態>
 (伝送システムの第4実施の形態における合成装置の構成例)
 本開示を適用した伝送システムの第4実施の形態の構成は、合成装置283が合成装置340に代わり、復号装置284の変換部33が変換部380に代わる点、および視点群同期ずれ情報が座標変換情報に代わる点を除いて、図17の伝送システム280の構成と同一である。従って、以下では、合成装置340と変換部380についてのみ説明する。
 図20は、合成装置340の構成例を示すブロック図である。
 図20に示す構成のうち、図18の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図20の合成装置340の構成は、同期ずれ検出部323、メタデータ付加部324が、座標変換データ生成部341、メタデータ付加部342に代わる点が、図18の合成装置283の構成と異なる。合成装置340は、各視点の2次元画像データの同期ずれを検出するのではなく、第1の視点群の3次元座標系である第1の3次元座標系を第2の視点群の3次元座標系である第2の3次元座標系に変換する座標変換データを生成する。
 具体的には、合成装置340の座標変換データ生成部341は、復号部322の復号により生成された第1の視点群の2次元画像データに基づいて、第1の視点群の視点ごとに、特徴点の2次元位置を求める。
 また、座標変換データ生成部341は、復号部321の復号により生成された第2の視点群のカメラ関連情報に含まれるカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、上述した式(1)により、特徴点の第2の3次元座標系における3次元位置を求める。
 座標変換データ生成部341は、第1の視点群の視点ごとに、特徴点の2次元位置と第2の3次元座標系における3次元位置に基づいて、座標変換データを生成する。座標変換データ生成部341は、第1の視点群の各視点の座標変換データを含む座標変換情報をメタデータ付加部342に供給する。
 メタデータ付加部342は、座標変換データ生成部341から供給される座標変換情報を、符号化装置12から伝送されてくる第1の部分符号化ストリームにメタデータとして配置する。また、メタデータ付加部342は、座標変換情報がメタデータとして配置された第1の部分符号化ストリームと、符号化装置282から伝送されてくる第2の部分符号化ストリームを合成する。メタデータ付加部342(伝送部)は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に伝送する。
 (座標変換データの生成処理の説明)
 図21は、図20の座標変換データ生成部341による座標変換データを生成する処理を説明する図である。
 図21の例では、第1の3次元座標系が、互いが垂直に交わる軸x乃至zを座標軸とする座標系であり、第2の3次元座標系が、互いが垂直に交わる軸x乃至zを座標軸とする、第1の3次元座標系とは異なる座標系である。
 第1の視点群のうちの1つの視点の仮想カメラ361により撮像される、第1の3次元座標系における3次元位置がPである特徴点の画像上の2次元位置Pは、以下の式(3)で表される。
Figure JPOXMLDOC01-appb-M000003
 RcamA|tcamAは、第1の部分符号化ストリームのメタデータのうちの、仮想カメラ361の第1の3次元座標系におけるカメラパラメータである。
 一方、仮想カメラ361により撮像される、第1の3次元座標系における3次元位置がPであり、第2の3次元座標系における3次元位置がP´である特徴点の画像上の2次元位置Pは、以下の式(4)で表される。
Figure JPOXMLDOC01-appb-M000004
 RcamB|tcamBは、仮想カメラ361の第2の3次元座標系におけるカメラパラメータである。
 式(4)を変形すると、3次元位置P´は、以下の式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 2次元位置Pと2次元位置Pは同一であるので、上述した式(5)の2次元位置Pに式(3)の右辺を代入すると、式(6)になる。
Figure JPOXMLDOC01-appb-M000006
 式(6)は、第1の3次元座標系における3次元位置Pを、第2の3次元座標系における3次元位置P´に変換する式である。従って、座標変換データ生成部341は、式(6)における、カメラの外部パラメータと同一の表現方法で表現されるRcon|tconを、座標変換データとして求める。
 具体的には、座標変換データ生成部341は、第2の視点群のカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、上述した式(1)により、特徴点の第2の3次元座標系における3次元位置を求める。また、座標変換データ生成部341は、第1の視点群の2次元画像データに基づいて、第1の視点群の視点ごとに、特徴点の2次元位置を求める。
 そして、座標変換データ生成部341は、第1の視点群の視点ごとに、特徴点の第2の3次元座標系における3次元位置をP´に代入し、2次元位置をPに代入した式(4)により、仮想カメラ361の第2の3次元座標系における外部パラメータRcamB|tcamBを求める。
 以上の処理は、オンラインキャリブレーションと呼ばれる。オンラインキャリブレーションの詳細は、例えば、Zhengyou Zhang,"A Flexible New Technique for Camera Calibration",Technical Report MSR-TR-98-71,Microsoft Corporation,December 2.1998等に記載されている。
 座標変換データ生成部341は、第1の視点群の視点ごとに、外部パラメータRcamB|tcamBと外部パラメータRcamB|tcamBを用いて、上述した式(6)により、座標変換データを求める。
 (座標変換情報の例)
 図22は、座標変換情報の例を示す図である。
 図22の例では、第1の視点群の視点のカメラIDが0乃至3である。
 図22に示すように、座標変換情報は、第1の視点群の各視点のカメラIDに、その視点のisCorrectionFlagと座標変換データが対応付けられることにより構成される。
 isCorrectionFlagは、対応する視点の3次元座標系である第1の3次元座標系が、基準となる第2の3次元座標系と異なるかどうかを示すフラグである。isCorrectionFlagは、対応する視点の3次元座標系である第1の3次元座標系が、基準となる第2の3次元座標系と異なることを示す場合1であり、異ならないことを示す場合0である。
 第4実施の形態では、第1の3次元座標系と第2の3次元座標系は異なっているので、全てのisCorrectionFlagは1である。また、図22では、カメラIDがiである視点の座標変換データをR|t(i)と記載している。
 なお、座標変換情報には、第1の視点群の全ての視点の座標変換データが同一であるかどうかを示す座標変換共通フラグが含まれるようにしてもよい。この場合、第1の視点群の全ての視点の座標変換データが同一であるとき、座標変換情報は、第1の視点群の全ての視点の座標変換データが同一であることを示す座標変換共通フラグ(座標変換共通情報)と、第1の視点群の全ての視点に共通の座標変換データとにより構成される。座標変換共通フラグは、例えば、第1の視点群の全ての視点の座標変換データが同一である場合1であり、異なる場合0である。
 (合成装置の処理の説明)
 図23は、図20の合成装置340の合成処理を説明するフローチャートである。
 図23のステップS111およびS112の処理は、図19のステップS91およびS92の処理と同様であるので、説明は省略する。
 ステップS113において、合成装置340の座標変換データ生成部341は、第2の視点群のカメラパラメータ、2次元画像データ、およびデプス画像データと、第1の視点群の2次元画像データに基づいて、第1の視点群の各視点の座標変換データを生成する。座標変換データ生成部341は、第1の視点群の各視点の座標変換データを含む座標変換情報をメタデータ付加部342に供給する。
 ステップS114において、メタデータ付加部342は、座標変換データ生成部341から供給される座標変換情報を、符号化装置12から伝送されてくる第1の部分符号化ストリームにメタデータとして配置する。
 ステップS115において、メタデータ付加部342は、座標変換情報を含む第1の部分符号化ストリームと、符号化装置282から伝送されてくる第2の部分符号化ストリームを合成する。メタデータ付加部342は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に伝送する。そして、処理は終了する。
 (変換部の構成例)
 図24は、復号装置284の表示画像生成方式が自由視点表示画像生成方式である場合の変換部380の構成例を示すブロック図である。
 図24に示す構成のうち、図8の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図24の変換部380の構成は、3次元データ生成部151が3次元データ生成部381に代わる点が、図8の変換部33の構成と異なる。
 3次元データ生成部381は、3次元位置変換部391、3次元位置変換部392、座標変換部393、およびデータ生成部394により構成される。
 3次元データ生成部381の3次元位置変換部391(第1の3次元位置変換部)は、復号部301から供給される第1の視点群のメタデータのうちのカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、上述した式(1)により、第1の視点の2次元画像データの各画素の2次元位置を、第1の3次元座標系における3次元位置に変換する。3次元位置変換部391は、第1の視点群の2次元画像データの各画素の第1の3次元座標系における3次元位置と、第1の視点群の2次元画像データとを座標変換部393に供給する。
 3次元位置変換部392(第2の3次元位置変換部)は、復号部301から供給される第2の視点群のメタデータのうちのカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、上述した式(1)により、第2の視点群の2次元画像データの各画素の2次元位置を、第2の3次元座標系における3次元位置に変換する。3次元位置変換部392は、第2の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置と、第2の視点群の2次元画像データとをデータ生成部394に供給する。
 座標変換部393は、復号部301から供給されるメタデータのうちの座標変換情報に基づいて、3次元位置変換部391から供給される第1の視点群の2次元画像データの各画素の第1の3次元座標系における3次元位置を、第2の3次元座標系における3次元位置に変換する。座標変換部393は、第1の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置と、第1の視点群の2次元画像データとをデータ生成部394に供給する。
 データ生成部394は、第1の視点群および第2の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置に基づいて、第1の視点群および第2の視点群の2次元画像データから、被写体の3次元データを生成する。
 データ生成部394は、生成された3次元データを、復号部301から供給されるメタデータのうちのオクルージョン3次元データを用いて修正し、被写体位置決定部152と2次元データ生成部154に供給する。
 (復号装置の処理の説明)
 図25は、第4実施の形態における復号装置284の復号処理を説明するフローチャートである。この復号処理は、例えば、合成装置340から符号化ストリームが伝送されてきたとき開始される。
 図25のステップS131において、復号装置284の受け取り部31は、合成装置283から伝送されてくる符号化ストリームを受け取る。
 ステップS132において、復号部301は、受け取られた符号化ストリームを、符号化部22および符号化部292における符号化方式に対応する方式で復号する。復号部301は、その結果得られる第1の視点群と第2の視点群の2次元画像データ、デプス画像データ、およびメタデータを変換部380(図24)に供給する。
 ステップS133において、変換部380の3次元位置変換部391は、第1の視点群のメタデータのうちのカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、第1の視点群の2次元画像データの各画素の第1の3次元座標系における3次元位置を求める。3次元位置変換部391は、第1の視点群の2次元画像データの各画素の第1の3次元座標系における3次元位置と2次元画像データを座標変換部393に供給する。
 ステップS134において、3次元位置変換部392は、第2の視点群のメタデータのうちのカメラパラメータ、2次元画像データ、およびデプス画像データに基づいて、第2の視点の2次元画像データの各画素の第2の3次元座標系における3次元位置を求める。3次元位置変換部392は、第2の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置と2次元画像データをデータ生成部394に供給する。
 ステップS135において、座標変換部393は、復号部301から供給されるメタデータのうちの座標変換情報に基づいて、3次元位置変換部391から供給される第1の3次元座標系における3次元位置を、第2の3次元座標系における3次元位置に変換する。座標変換部393は、第1の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置と2次元画像データをデータ生成部394に供給する。
 ステップS136において、データ生成部394は、第1の視点群および第2の視点群の2次元画像データの各画素の第2の3次元座標系における3次元位置に基づいて、第1の視点群および第2の視点群の2次元画像データから、被写体の3次元データを生成する。
 ステップS137乃至S142の処理は、図9のステップS34乃至S39の処理と同様であるので、説明は省略する。
 なお、合成装置283は、座標変換情報を第1の部分符号化ストリームに配置するのではなく、第1の部分符号化ストリームに配置される第1の3次元座標系における第1の視点群の各視点の外部パラメータRcamA|tcamAを、第2の3次元座標系における各視点の外部パラメータRcamB|tcamBに置換するようにしてもよい。この場合、3次元データ生成部381には、座標変換部393が設けられず、3次元位置変換部391は、外部パラメータRcamA|tcamAの代わりに外部パラメータRcamB|tcamBを用いて、直接、第2の3次元座標系における3次元位置を求める。
 第1の視点群の全ての視点の座標変換データが異なる場合には、外部パラメータRcamA|tcamAを外部パラメータRcamB|tcamBに置換する方が望ましい。座標変換情報を第1の部分符号化ストリームに配置する場合、元の第1の部分符号化ストリームを修正する必要がないため、外部パラメータを置換する場合に比べて処理が容易である。
 また、第1の視点群の各視点の座標変換データは、各視点の2次元画像データのスケール(視点と撮像面との奥行き方向の距離)が同一であれば同一である。従って、この場合には、座標変換データ生成部341は、第1の視点群のうちの1つの視点の座標変換データのみを、第1の視点群の各視点に共通の座標変換データとして生成するようにしてもよい。
 以上のように、第4実施の形態では、符号化装置12により生成された第1の部分符号化ストリームと、符号化装置282により生成された第2の部分符号化ストリームが合成されて復号装置284に伝送される。従って、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームの3次元座標系が同一ではない場合がある。
 しかしながら、第4実施の形態では、合成装置340が、第1の部分符号化ストリームと第2の部分符号化ストリームを一旦復号し、復号結果に基づいて座標変換データを生成する。そして、合成装置340は、生成された座標変換データを含む座標変換情報を、第1の部分符号化ストリームおよび第2の部分符号化ストリームとともに伝送する。従って、変換部380は、座標変換情報に基づいて、第1の視点群の2次元画像データの各画素の第1の3次元座標系における3次元位置を、第2の3次元座標系における3次元位置に変換することができる。その結果、変換部380は、第1の視点群と第2の視点群の2次元画像データの各画素の同一の第1の3次元座標系における3次元位置に基づいて、2次元画像データから3次元データを高精度で生成することができる。
 第2乃至第4実施の形態において、2次元画像データとデプス画像データの所定の表示画像生成方式に対応する視点が異なる場合には、2次元画像データとデプス画像データそれぞれに基づいて、それぞれの視点の同期ずれの検出または座標変換データの生成が行われる。
 <第5実施の形態>
 (伝送システムの第5実施の形態における合成装置の構成例)
 本開示を適用した伝送システムの第5実施の形態の構成は、合成装置283が合成装置400に代わり、復号装置284の変換部33が変換部420に代わる点、および視点群同期ずれ情報が色ずれ補正情報に代わる点を除いて、図17の伝送システム280の構成と同一である。従って、以下では、合成装置400と変換部420についてのみ説明する。
 図26は、合成装置400の構成例を示すブロック図である。
 図26に示す構成のうち、図18の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図26の合成装置400の構成は、同期ずれ検出部323、メタデータ付加部324が、色ずれ補正データ生成部401、メタデータ付加部402に代わる点が、図18の合成装置283の構成と異なる。合成装置400は、各視点の2次元画像データの同期ずれを検出するのではなく、各視点の2次元画像データの色ずれを補正する色ずれ補正データを生成する。
 具体的には、合成装置400の色ずれ補正データ生成部401は、第1の視点群と第2の視点群の視点のうちの1つを基準視点とし、他の視点を参照視点とする。色ずれ補正データ生成部401は、参照視点ごとに、復号部321または復号部322の復号により生成された基準視点と参照視点の2次元画像データに基づいて、基準視点に対する参照視点の2次元画像データの色ずれを補正する色ずれ補正データを生成する。
 具体的には、参照視点の2次元画像データのうちの特徴点のRGB値(R,G,B)に対して逆ガンマ補正が行われたRGB値(R´,G´,B´)は、以下の式(7)により表される。
Figure JPOXMLDOC01-appb-M000007
 γR, γG, γBは、それぞれ、R,G,Bのガンマ値である。
 また、RGB値(R´,G´,B´)を、基準視点の2次元画像データのうちの、参照視点のRGB値が(R、G,B)である特徴点のRGB値(R,G,B)に対して逆ガンマ補正を行ったRGB値(R´´,G´´,B´´)に変換する式は、以下の式(8)により表される。
Figure JPOXMLDOC01-appb-M000008
 a11乃至a13,a21乃至a23、およびa31乃至a33は、係数である。
 さらに、RGB値(R,G,B)は、RGB値(R´´,G´´,B´´)に対してガンマ補正を行った値であるので、以下の式(9)で表される。
Figure JPOXMLDOC01-appb-M000009
 以上により、色ずれ補正データ生成部401は、参照視点の2次元画像データから特徴点のRGB値(R,G,B)を抽出し、基準視点の2次元画像データから特徴点のRGB値(R,G,B)を抽出する。そして、色ずれ補正データ生成部401は、抽出されたRGB値(R,G,B)とRGB値(R,G,B)に基づいて、RGB値(R,G,B)をRGB値(R,G,B)に変換する際に必要となるガンマ値γR, γG, γBと、係数a11乃至a13、a21乃至a23、およびa31乃至a33とを色ずれ補正データとして生成する。
 また、色ずれ補正データ生成部401は、基準視点の色ずれ補正データとして、RGB値(R,G,B)とRGB値(R,G,B)が同一となる色ずれ補正データを生成する。色ずれ補正データ生成部401は、生成された各視点の色ずれ補正データを含む色ずれ補正情報をメタデータ付加部402に供給する。
 メタデータ付加部402は、色ずれ補正データ生成部401から供給される色ずれ補正情報のうちの第1の視点群の色ずれ補正情報を、符号化装置12から伝送されてくる第1の部分符号化ストリームにメタデータとして配置する。また、メタデータ付加部402は、色ずれ補正データ生成部401から供給される色ずれ補正情報のうちの第2の視点群の色ずれ補正情報を、符号化装置282から伝送されてくる第2の部分符号化ストリームにメタデータとして配置する。
 メタデータ付加部402は、色ずれ補正情報がメタデータとして配置された第1の部分符号化ストリームと第2の部分符号化ストリームを合成する。メタデータ付加部402(伝送部)は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に伝送する。
 (色ずれ補正情報の例)
 図27は、色ずれ補正情報の例を示す図である。
 図27の例では、所定の表示画像生成方式に対応する複数の視点の数が9である。
 図27に示すように、色ずれ補正情報は、所定の表示画像生成方式に対応する全ての視点の各カメラIDに、その視点のisCorrectionFlagと色ずれ補正データが対応付けられることにより構成される。
 isCorrectionFlagは、対応する視点と基準視点との間で色ずれが発生しているかどうかを示すフラグである。isCorrectionFlagは、対応する視点と基準視点との間で色ずれが発生していることを示す場合1であり、発生していないことを示す場合0である。
 図27の例では、カメラIDが0である視点が基準視点であり、カメラIDが1,2,4、および6乃至9である参照視点と基準視点との間で色ずれが発生していない。従って、0乃至2,4、および6乃至9であるカメラIDに対応するisCorrectionFlagは0であり、これらのカメラIDに対応して色ずれ補正データは記述されない。
 また、図27の例では、カメラIDが3および5である参照視点と基準視点との間で色ずれが発生している。従って、3および5であるカメラIDに対応するisCorrectionFlagは1であり、これらのカメラIDに対応して色ずれ補正データが記述される。図27では、カメラIDがiである視点の色ずれ補正データをP(i)と記載している。
 なお、色ずれ補正情報には、色ずれが発生している全ての視点の色ずれ補正データが同一であるかどうかを示す色ずれ共通フラグが含まれるようにしてもよい。この場合、色ずれが発生している全ての視点の色ずれ補正データが同一であるとき、色ずれ補正情報は、色ずれが発生している全ての視点の色ずれ補正データが同一であることを示す色ずれ共通フラグ(色ずれ共通情報)と、色ずれが発生している全ての視点に共通の色ずれ補正データとにより構成される。色ずれ共通フラグは、例えば、色ずれが発生している全ての視点の色ずれ補正データが同一である場合1であり、異なる場合0である。
 (合成装置の処理の説明)
 図28は、図26の合成装置400の合成処理を説明するフローチャートである。
 図28のステップS161およびS162の処理は、図19のステップS91およびS92の処理と同様であるので、説明は省略する。
 ステップS163において、合成装置400の色ずれ補正データ生成部401は、参照視点ごとに、復号部321または復号部322の復号により生成された基準視点と参照視点の2次元画像データに基づいて、各参照視点の色ずれ補正データを生成する。また、色ずれ補正データ生成部401は、基準視点の色ずれ補正データとして、RGB値(R,G,B)とRGB値(R,G,B)が同一となる色ずれ補正データを生成する。色ずれ補正データ生成部401は、生成された各視点の色ずれ補正データを含む色ずれ補正情報をメタデータ付加部402に供給する。
 ステップS164において、メタデータ付加部402は、色ずれ補正データ生成部401から供給される色ずれ補正情報のうちの第1の視点群の色ずれ補正情報を、符号化装置12から伝送されてくる第1の部分符号化ストリームにメタデータとして配置する。
 ステップS165において、メタデータ付加部402は、色ずれ補正データ生成部401から供給される色ずれ補正情報のうちの第2の視点群の色ずれ補正情報を、符号化装置282から伝送されてくる第2の部分符号化ストリームにメタデータとして配置する。
 ステップS166において、メタデータ付加部402は、色ずれ補正情報がメタデータとして配置された第1の部分符号化ストリームと第2の部分符号化ストリームを合成する。メタデータ付加部402は、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームを、復号装置284に伝送する。
 (変換部の構成例)
 図29は、変換部420の構成例を示すブロック図である。
 図29に示す構成のうち、図8の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 図29の変換部420の構成は、色補正部421が新たに設けられる点が、図8の変換部33の構成と異なる。
 変換部420の色補正部421は、復号部301による復号の結果得られる色ずれ補正情報に基づいて、上述した式(7)乃至(9)により、第1の視点群と第2の視点群の2次元画像データの色補正を行う。これにより、全ての視点の2次元画像データにおいて色とRGB値との関係が同一になる。色補正部421は、色補正後の第1の視点群と第2の視点群の2次元画像データと、復号部301による復号の結果得られる第1の視点群と第2の視点群のデプス画像データを3次元データ生成部151に供給する。
 第5実施の形態における復号装置284の復号処理は、ステップS32とステップS33の間で、色補正部421による色補正が行われる点を除いて、図9の復号処理と同様であるので、説明は省略する。
 以上のように、第5実施の形態では、異なるカメラにより撮像された2次元画像データを用いて生成された第1の部分符号化ストリームと第2の部分符号化ストリームを合成して復号装置284に伝送する。従って、合成の結果得られる所定の表示画像生成方式に対応する複数の視点の符号化ストリームにおいて色ずれが発生する場合がある。
 しかしながら、第5実施の形態では、合成装置340が、第1の部分符号化ストリームと第2の部分符号化ストリームを一旦復号し、その結果得られる各視点の2次元画像データの色ずれ補正データを生成する。そして、合成装置340は、生成された色ずれ補正データの色ずれ補正情報を、第1の部分符号化ストリームおよび第2の部分符号化ストリームとともに伝送する。従って、変換部420は、色ずれ補正データに基づいて、第1の視点群と第2の視点群の各視点の2次元画像データの色ずれを補正することができる。その結果、変換部420は、色ずれが補正された第1の視点群と第2の視点群の2次元画像データとデプス画像データを用いて3次元データを生成することにより、3次元データのうちの2次元画像データの精度を向上させることができる。
 また、第5実施の形態では、合成装置400が、色ずれ補正情報を伝送するので、第1の部分符号化ストリームと第2の部分符号化ストリームに色ずれ補正情報をメタデータとして配置するだけで済む。従って、第1の部分符号化ストリームと第2の部分符号化ストリームを復号し、色ずれを補正して再符号化する場合に比べて、合成装置400の処理量を削減することができる。
 なお、第5実施の形態において、視点または視点群ごとの2次元画像データの、中心部に対する周辺部の減光を補正するゲインを含む周辺減光補正情報がメタデータとして第1の部分符号化ストリームと第2の部分符号化ストリームに配置されるようにしてもよい。また、視点または視点群ごとのExif(Exchangeable image file format)情報がメタデータとして配置されるようにしてもよい。
 <第6実施の形態>
 (本開示を適用したコンピュータの説明)
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータ600において、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
 バス604には、さらに、入出力インタフェース605が接続されている。入出力インタフェース605には、入力部606、出力部607、記憶部608、通信部609、及びドライブ610が接続されている。
 入力部606は、キーボード、マウス、マイクロフォンなどよりなる。出力部607は、ディスプレイ、スピーカなどよりなる。記憶部608は、ハードディスクや不揮発性のメモリなどよりなる。通信部609は、ネットワークインタフェースなどよりなる。ドライブ610は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア611を駆動する。
 以上のように構成されるコンピュータ600では、CPU601が、例えば、記憶部608に記憶されているプログラムを、入出力インタフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ600(CPU601)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア611に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータ600では、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インタフェース605を介して、記憶部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記憶部608にインストールすることができる。その他、プログラムは、ROM602や記憶部608に、あらかじめインストールしておくことができる。
 なお、コンピュータ600が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 本開示は、以下のような構成もとることができる。
 (1)
 複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する2次元データ生成部と、
 前記2次元データ生成部により生成された前記複数の第2の視点の2次元画像データと前記デプス画像データを符号化する符号化部と、
 前記符号化部により符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データを伝送する伝送部と
 を備える符号化装置。
 (2)
 前記複数の第1の視点と前記複数の第2の視点とは異なる
 ように構成された
 前記(1)に記載の符号化装置。
 (3)
 前記複数の第2の視点は、同一円上に等間隔に存在する
 ように構成された
 前記(1)または(2)に記載の符号化装置。
 (4)
 前記複数の第2の視点のうちの少なくも2つの視点は、略水平方向に並ぶ
 ように構成された
 前記(1)または(2)に記載の符号化装置。
 (5)
 前記伝送部は、前記複数の第2の視点のうちの水平方向に並ぶ2つの視点を特定する情報を伝送する
 ように構成された
 前記(4)に記載の符号化装置。
 (6)
 前記伝送部は、前記複数の第2の視点の2次元画像データにおけるオクルージョン領域の前記3次元データを伝送する
 ように構成された
 前記(1)乃至(5)のいずれかに記載の符号化装置。
 (7)
 前記2次元データ生成部は、前記複数の第2の視点のカメラパラメータに基づいて、前記3次元データから前記複数の第2の視点の2次元画像データを生成し、前記第3の視点のカメラパラメータに基づいて、前記デプス画像データを生成し、
 前記伝送部は、前記複数の第2の視点および前記第3の視点の前記カメラパラメータを伝送する
 ように構成された
 前記(1)乃至(6)のいずれかに記載の符号化装置。
 (8)
 前記所定の表示画像生成方式の数は、複数である
 ように構成された
 前記(1)乃至(7)のいずれかに記載の符号化装置。
 (9)
 前記複数の第2の視点と前記第3の視点は同一である
 ように構成された
 前記(1)乃至(8)のいずれかに記載の符号化装置。
 (10)
 符号化装置が、
 複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する2次元データ生成ステップと、
 前記2次元データ生成ステップの処理により生成された前記複数の第2の視点の2次元画像データと前記デプス画像データを符号化する符号化ステップと、
 前記符号化ステップの処理により符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データを伝送する伝送ステップと
 を含む符号化方法。
 (11)
 所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとを復号する復号部と、
 前記復号部による復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データを生成する3次元データ生成部と、
 前記3次元データ生成部により生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データを表示画像データとして生成する2次元データ生成部と
 を備える復号装置。
 (12)
 前記複数の第1の視点は、同一円上に等間隔に存在する
 ように構成された
 前記(11)に記載の復号装置。
 (13)
 前記複数の第1の視点のうちの少なくも2つの視点は、略水平方向に並ぶ
 ように構成された
 前記(11)に記載の復号装置。
 (14)
 前記複数の第1の視点のうちの水平方向に並ぶ2つの視点を特定する情報を受け取る受け取り部
 をさらに備える
 前記(13)に記載の復号装置。
 (15)
 前記複数の第1の視点の2次元画像データと前記デプス画像データは、複数の第3の視点の2次元画像データから生成された被写体の3次元データから生成される
 ように構成された
 前記(11)乃至(14)のいずれかに記載の復号装置。
 (16)
 前記3次元データ生成部は、前記複数の第1の視点の2次元画像データ、前記デプス画像データ、および前記複数の第1の視点の2次元画像データにおけるオクルージョン領域の3次元データを用いて、前記被写体の3次元データを生成する
 ように構成された
 前記(15)に記載の復号装置。
 (17)
 前記3次元データ生成部は、前記複数の第1の視点および前記第2の視点のカメラパラメータに基づいて、前記被写体の3次元データを生成する
 ように構成された
 前記(11)乃至(16)のいずれかに記載の復号装置。
 (18)
 前記所定の表示画像生成方式の数は、複数である
 ように構成された
 前記(11)乃至(17)のいずれかに記載の復号装置。
 (19)
 前記複数の第1の視点と前記第2の視点は同一である
 ように構成された
 前記(11)乃至(18)のいずれかに記載の復号装置。
 (20)
 復号装置が、
 所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとを復号する復号ステップと、
 前記復号ステップの処理による復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データを生成する3次元データ生成ステップと、
 前記3次元データ生成ステップの処理により生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データを表示画像データとして生成する2次元データ生成ステップと
 を含む復号方法。
 11 撮像装置, 12 符号化装置, 13 復号装置, 22 符号化部, 23 伝送部, 31 受け取り部, 32 復号部, 53 2次元データ生成部, 151 3次元データ生成部, 154 2次元データ生成部, 171 撮像装置, 172 符号化装置, 173 復号装置, 192 変換部, 211-1乃至211-N カメラ, 222 同期ずれ検出部, 261-1乃至261-2N 復号処理部, 262 出力部, 282 符号化装置, 283 合成装置, 284 復号装置, 292 符号化部, 301 復号部, 321,322 復号部, 323 同期ずれ検出部, 324 メタデータ付加部, 340 合成装置, 341 座標変換データ生成部, 342 メタデータ付加部, 391,392 3次元位置変換部, 393 座標変換部, 394 データ生成部, 400 合成装置, 401 色ずれ補正データ生成部, 402 メタデータ付加部, 421 色補正部

Claims (20)

  1.  複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する2次元データ生成部と、
     前記2次元データ生成部により生成された前記複数の第2の視点の2次元画像データと前記デプス画像データを符号化する符号化部と、
     前記符号化部により符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データを伝送する伝送部と
     を備える符号化装置。
  2.  前記複数の第1の視点と前記複数の第2の視点とは異なる
     ように構成された
     請求項1に記載の符号化装置。
  3.  前記複数の第2の視点は、同一円上に等間隔に存在する
     ように構成された
     請求項1に記載の符号化装置。
  4.  前記複数の第2の視点のうちの少なくも2つの視点は、略水平方向に並ぶ
     ように構成された
     請求項1に記載の符号化装置。
  5.  前記伝送部は、前記複数の第2の視点のうちの水平方向に並ぶ2つの視点を特定する情報を伝送する
     ように構成された
     請求項4に記載の符号化装置。
  6.  前記伝送部は、前記複数の第2の視点の2次元画像データにおけるオクルージョン領域の前記3次元データを伝送する
     ように構成された
     請求項1に記載の符号化装置。
  7.  前記2次元データ生成部は、前記複数の第2の視点のカメラパラメータに基づいて、前記3次元データから前記複数の第2の視点の2次元画像データを生成し、前記第3の視点のカメラパラメータに基づいて、前記デプス画像データを生成し、
     前記伝送部は、前記複数の第2の視点および前記第3の視点の前記カメラパラメータを伝送する
     ように構成された
     請求項1に記載の符号化装置。
  8.  前記所定の表示画像生成方式の数は、複数である
     ように構成された
     請求項1に記載の符号化装置。
  9.  前記複数の第2の視点と前記第3の視点は同一である
     ように構成された
     請求項1に記載の符号化装置。
  10.  符号化装置が、
     複数の第1の視点の2次元画像データから生成された被写体の3次元データから、所定の表示画像生成方式に対応する複数の第2の視点の2次元画像データと第3の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データとを生成する2次元データ生成ステップと、
     前記2次元データ生成ステップの処理により生成された前記複数の第2の視点の2次元画像データと前記デプス画像データを符号化する符号化ステップと、
     前記符号化ステップの処理により符号化された前記複数の第2の視点の2次元画像データと前記デプス画像データを伝送する伝送ステップと
     を含む符号化方法。
  11.  所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとを復号する復号部と、
     前記復号部による復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データを生成する3次元データ生成部と、
     前記3次元データ生成部により生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データを表示画像データとして生成する2次元データ生成部と
     を備える復号装置。
  12.  前記複数の第1の視点は、同一円上に等間隔に存在する
     ように構成された
     請求項11に記載の復号装置。
  13.  前記複数の第1の視点のうちの少なくも2つの視点は、略水平方向に並ぶ
     ように構成された
     請求項11に記載の復号装置。
  14.  前記複数の第1の視点のうちの水平方向に並ぶ2つの視点を特定する情報を受け取る受け取り部
     をさらに備える
     請求項13に記載の復号装置。
  15.  前記複数の第1の視点の2次元画像データと前記デプス画像データは、複数の第3の視点の2次元画像データから生成された被写体の3次元データから生成される
     ように構成された
     請求項11に記載の復号装置。
  16.  前記3次元データ生成部は、前記複数の第1の視点の2次元画像データ、前記デプス画像データ、および前記複数の第1の視点の2次元画像データにおけるオクルージョン領域の3次元データを用いて、前記被写体の3次元データを生成する
     ように構成された
     請求項15に記載の復号装置。
  17.  前記3次元データ生成部は、前記複数の第1の視点および前記第2の視点のカメラパラメータに基づいて、前記被写体の3次元データを生成する
     ように構成された
     請求項11に記載の復号装置。
  18.  前記所定の表示画像生成方式の数は、複数である
     ように構成された
     請求項11に記載の復号装置。
  19.  前記複数の第1の視点と前記第2の視点は同一である
     ように構成された
     請求項11に記載の復号装置。
  20.  復号装置が、
     所定の表示画像生成方式に対応する複数の第1の視点の2次元画像データの符号化データと、第2の視点に対する各画素の被写体の奥行き方向の位置を示すデプス画像データの符号化データとを復号する復号ステップと、
     前記復号ステップの処理による復号の結果得られる前記複数の第1の視点の第2次元画像データと前記デプス画像データとを用いて、被写体の3次元データを生成する3次元データ生成ステップと、
     前記3次元データ生成ステップの処理により生成された前記3次元データに基づいて、前記所定の表示画像生成方式で2次元画像データを表示画像データとして生成する2次元データ生成ステップと
     を含む復号方法。
PCT/JP2016/082024 2015-11-11 2016-10-28 符号化装置および符号化方法、復号装置および復号方法 Ceased WO2017082076A1 (ja)

Priority Applications (16)

Application Number Priority Date Filing Date Title
RU2018116473A RU2721678C2 (ru) 2015-11-11 2016-10-28 Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования
EP16864039.9A EP3343914A4 (en) 2015-11-11 2016-10-28 ENCLOSURE DEVICE AND ENCLOSURE METHOD AND DECOMPOSITION DEVICE AND DECOMPOSITION METHOD
AU2016352648A AU2016352648A1 (en) 2015-11-11 2016-10-28 Encoding device and encoding method, and decoding device and decoding method
MYPI2018000679A MY202620A (en) 2015-11-11 2016-10-28 Encoding apparatus and encoding method, decoding apparatus and decoding method
SG11201803682RA SG11201803682RA (en) 2015-11-11 2016-10-28 Encoding apparatus and encoding method, decoding apparatus and decoding method
KR1020187012316A KR102516992B1 (ko) 2015-11-11 2016-10-28 부호화 장치 및 부호화 방법, 복호 장치 및 복호 방법
CN201680064678.3A CN108353157B (zh) 2015-11-11 2016-10-28 编码设备和编码方法以及解码设备和解码方法
CN202110383257.XA CN113286137B (zh) 2015-11-11 2016-10-28 编码设备和编码方法以及解码设备和解码方法
MX2018005501A MX389538B (es) 2015-11-11 2016-10-28 Dispositivo de codificación y método de codificación, aparato de decodificación y método de decodificación.
US15/765,805 US11716487B2 (en) 2015-11-11 2016-10-28 Encoding apparatus and encoding method, decoding apparatus and decoding method
BR112018009070A BR112018009070A8 (pt) 2015-11-11 2016-10-28 aparelhos de codificação e de decodificação, e, métodos para codificação por um aparelho de codificação e para decodificação por um aparelho de decodificação.
CA3004241A CA3004241C (en) 2015-11-11 2016-10-28 Encoding apparatus and encoding method, decoding apparatus and decoding method
JP2017550061A JP6384744B2 (ja) 2015-11-11 2016-10-28 符号化装置および符号化方法
ZA2018/02193A ZA201802193B (en) 2015-11-11 2018-04-04 Encoding device and encoding method, and decoding device and decoding method
PH12018500977A PH12018500977A1 (en) 2015-11-11 2018-05-04 Encoding device and encoding method, and decoding device and decoding method
AU2021203450A AU2021203450B2 (en) 2015-11-11 2021-05-27 Encoding device and encoding method, and decoding device and decoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-221233 2015-11-11
JP2015221233 2015-11-11

Publications (1)

Publication Number Publication Date
WO2017082076A1 true WO2017082076A1 (ja) 2017-05-18

Family

ID=58695131

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/082024 Ceased WO2017082076A1 (ja) 2015-11-11 2016-10-28 符号化装置および符号化方法、復号装置および復号方法

Country Status (14)

Country Link
US (1) US11716487B2 (ja)
EP (1) EP3343914A4 (ja)
JP (3) JP6384744B2 (ja)
KR (1) KR102516992B1 (ja)
CN (2) CN113286137B (ja)
AU (2) AU2016352648A1 (ja)
BR (1) BR112018009070A8 (ja)
MX (1) MX389538B (ja)
MY (1) MY202620A (ja)
PH (1) PH12018500977A1 (ja)
RU (1) RU2721678C2 (ja)
SG (1) SG11201803682RA (ja)
WO (1) WO2017082076A1 (ja)
ZA (1) ZA201802193B (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769643A (zh) * 2018-06-15 2018-11-06 深圳超多维科技有限公司 视频拍摄方法、装置及系统
WO2019031259A1 (ja) * 2017-08-08 2019-02-14 ソニー株式会社 画像処理装置および方法
WO2019167300A1 (en) 2018-03-01 2019-09-06 Sony Corporation Image processing device, encoding device, decoding device, image processing method, program, encoding method, and decoding method
WO2020008758A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2020105422A1 (en) 2018-11-20 2020-05-28 Sony Corporation Image processing device, image processing method, program, and display device
WO2020121844A1 (en) 2018-12-12 2020-06-18 Sony Corporation Image processing device, image processing method, and program
WO2020137584A1 (ja) 2018-12-25 2020-07-02 ソニー株式会社 映像再生装置、再生方法、およびプログラム
JP2020522802A (ja) * 2017-05-31 2020-07-30 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッドVerizon Patent And Licensing Inc. 異なる複数のヴァンテージ・ポイントから、バーチャル・シーンのバーチャル・エンティティ記述フレームに基づいて、バーチャル・シーンのフレームをレンダリングする方法及びシステム
JP2020522801A (ja) * 2017-05-31 2020-07-30 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッドVerizon Patent And Licensing Inc. バーチャル・リアリティ・メディア・コンテンツ内に含める目的での現実世界シーンのカスタマイズされるビューの仮想化プロジェクションを生成するための方法及びシステム
WO2020262261A1 (ja) 2019-06-28 2020-12-30 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2021079592A1 (ja) 2019-10-21 2021-04-29 ソニー株式会社 情報処理装置、3dデータの生成方法及びプログラム
WO2021187093A1 (ja) 2020-03-17 2021-09-23 ソニーグループ株式会社 画像処理装置、および、動画像データ生成方法
WO2022024780A1 (ja) * 2020-07-30 2022-02-03 ソニーグループ株式会社 情報処理装置、情報処理方法、映像配信方法及び情報処理システム
US11557087B2 (en) 2018-12-19 2023-01-17 Sony Group Corporation Image processing apparatus and image processing method for generating a strobe image using a three-dimensional model of an object
JP2024040313A (ja) * 2019-06-11 2024-03-25 株式会社Mujin 第1のカメラによって生成された第1の画像を第2のカメラによって生成された第2の画像に基づいて更新する方法及び処理システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110876050B (zh) * 2018-08-31 2021-08-20 盎锐(上海)信息科技有限公司 基于3d摄像机的数据处理装置及方法
CN111669570B (zh) * 2019-03-07 2023-12-19 阿里巴巴集团控股有限公司 多角度自由视角视频数据处理方法及装置、介质、设备
US11341715B2 (en) 2019-03-07 2022-05-24 Alibaba Group Holding Limited Video reconstruction method, system, device, and computer readable storage medium
US12136243B2 (en) * 2019-03-20 2024-11-05 Interdigital Vc Holdings, Inc. Processing missing points of a point cloud
WO2021022266A2 (en) * 2019-10-07 2021-02-04 Futurewei Technologies, Inc. Video-based point cloud compression (v-pcc) timing information
CN112788325B (zh) * 2019-11-06 2023-06-02 Oppo广东移动通信有限公司 一种图像处理方法、编码装置、解码装置及存储介质
JP2021099430A (ja) * 2019-12-23 2021-07-01 セイコーエプソン株式会社 表示装置の制御方法及び表示装置
KR102242710B1 (ko) * 2019-12-31 2021-04-22 서울과학기술대학교 산학협력단 반자유 시점 영상을 제공하는 장치
CN114926605B (zh) * 2022-07-19 2022-09-30 北京飞渡科技有限公司 一种三维模型的抽壳方法
CN117671402A (zh) * 2022-08-22 2024-03-08 华为技术有限公司 识别模型训练方法、装置以及可移动智能设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157825A (ja) * 2008-12-26 2010-07-15 Victor Co Of Japan Ltd 画像符号化装置、画像符号化方法およびそのプログラム
JP2010531604A (ja) * 2007-06-26 2010-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 3次元ビデオ信号をエンコードするための方法及びシステム、含まれる3次元ビデオ信号、並びに3次元ビデオ信号のためのデコーダのための方法及び信号
JP2011519227A (ja) * 2008-04-25 2011-06-30 トムソン ライセンシング 奥行き信号の符号化
JP2012023488A (ja) * 2010-07-13 2012-02-02 Ntt Docomo Inc 画像処理装置、画像処理方法、表示装置及びプログラム
JP2012518367A (ja) * 2009-02-19 2012-08-09 トムソン ライセンシング 3d映像フォーマット

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3231618B2 (ja) * 1996-04-23 2001-11-26 日本電気株式会社 3次元画像符号化復号方式
US6573912B1 (en) * 2000-11-07 2003-06-03 Zaxel Systems, Inc. Internet system for virtual telepresence
US20050185711A1 (en) * 2004-02-20 2005-08-25 Hanspeter Pfister 3D television system and method
US8244025B2 (en) * 2006-03-20 2012-08-14 Siemens Energy, Inc. Method of coalescing information about inspected objects
CN101453662B (zh) * 2007-12-03 2012-04-04 华为技术有限公司 立体视频通信终端、系统及方法
CN101472190B (zh) * 2007-12-28 2013-01-23 华为终端有限公司 多视角摄像及图像处理装置、系统
JP5035195B2 (ja) 2008-09-25 2012-09-26 Kddi株式会社 画像生成装置及びプログラム
EP2197217A1 (en) * 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format
US8750632B2 (en) 2008-12-26 2014-06-10 JVC Kenwood Corporation Apparatus and method for encoding images from multiple viewpoints and associated depth information
JP2010157821A (ja) * 2008-12-26 2010-07-15 Victor Co Of Japan Ltd 画像符号化装置、画像符号化方法およびそのプログラム
JP2010157823A (ja) 2008-12-26 2010-07-15 Victor Co Of Japan Ltd 画像符号化装置、画像符号化方法およびそのプログラム
US9124874B2 (en) * 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
KR101694821B1 (ko) * 2010-01-28 2017-01-11 삼성전자주식회사 다시점 비디오스트림에 대한 링크 정보를 이용하는 디지털 데이터스트림 전송 방법와 그 장치, 및 링크 정보를 이용하는 디지털 데이터스트림 전송 방법과 그 장치
HU1000640D0 (en) * 2010-11-29 2011-02-28 Holografika Hologrameloeallito Fejlesztoe Es Forgalmazo Kft Image coding and decoding method and apparatus for efficient encoding and decoding of 3d field content
WO2012101582A1 (en) * 2011-01-24 2012-08-02 Invision Biometrics Ltd. Method and system for acquisition, representation, compression, and transmission of three-dimensional data
CN102724520A (zh) 2011-03-29 2012-10-10 青岛海信电器股份有限公司 视频处理方法和系统
US20120314031A1 (en) * 2011-06-07 2012-12-13 Microsoft Corporation Invariant features for computer vision
US9351028B2 (en) 2011-07-14 2016-05-24 Qualcomm Incorporated Wireless 3D streaming server
JP2013211777A (ja) * 2012-03-30 2013-10-10 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
KR102126532B1 (ko) * 2013-09-30 2020-06-24 엘지디스플레이 주식회사 멀티뷰 영상 생성 방법과 이를 이용한 입체 영상 표시 장치
GB2525170A (en) 2014-04-07 2015-10-21 Nokia Technologies Oy Stereo viewing
EP3175200A4 (en) * 2014-07-31 2018-04-04 Hewlett-Packard Development Company, L.P. Three dimensional scanning system and framework
US20170004647A1 (en) * 2015-06-30 2017-01-05 Microsoft Technology Licensing, Llc Rendering graphics data on demand

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010531604A (ja) * 2007-06-26 2010-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 3次元ビデオ信号をエンコードするための方法及びシステム、含まれる3次元ビデオ信号、並びに3次元ビデオ信号のためのデコーダのための方法及び信号
JP2011519227A (ja) * 2008-04-25 2011-06-30 トムソン ライセンシング 奥行き信号の符号化
JP2010157825A (ja) * 2008-12-26 2010-07-15 Victor Co Of Japan Ltd 画像符号化装置、画像符号化方法およびそのプログラム
JP2012518367A (ja) * 2009-02-19 2012-08-09 トムソン ライセンシング 3d映像フォーマット
JP2012023488A (ja) * 2010-07-13 2012-02-02 Ntt Docomo Inc 画像処理装置、画像処理方法、表示装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3343914A4 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020522802A (ja) * 2017-05-31 2020-07-30 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッドVerizon Patent And Licensing Inc. 異なる複数のヴァンテージ・ポイントから、バーチャル・シーンのバーチャル・エンティティ記述フレームに基づいて、バーチャル・シーンのフレームをレンダリングする方法及びシステム
JP7194125B2 (ja) 2017-05-31 2022-12-21 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッド バーチャル・リアリティ・メディア・コンテンツ内に含める目的での現実世界シーンのカスタマイズされるビューの仮想化プロジェクションを生成するための方法及びシステム
JP7194126B2 (ja) 2017-05-31 2022-12-21 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッド 異なる複数のヴァンテージ・ポイントから、バーチャル・シーンのバーチャル・エンティティ記述フレームに基づいて、バーチャル・シーンのフレームをレンダリングする方法及びシステム
JP2020522801A (ja) * 2017-05-31 2020-07-30 ベライゾン・パテント・アンド・ライセンシング・インコーポレイテッドVerizon Patent And Licensing Inc. バーチャル・リアリティ・メディア・コンテンツ内に含める目的での現実世界シーンのカスタマイズされるビューの仮想化プロジェクションを生成するための方法及びシステム
CN110998669A (zh) * 2017-08-08 2020-04-10 索尼公司 图像处理装置和方法
CN110998669B (zh) * 2017-08-08 2023-12-08 索尼公司 图像处理装置和方法
WO2019031259A1 (ja) * 2017-08-08 2019-02-14 ソニー株式会社 画像処理装置および方法
JP7003994B2 (ja) 2017-08-08 2022-01-21 ソニーグループ株式会社 画像処理装置および方法
JPWO2019031259A1 (ja) * 2017-08-08 2020-09-10 ソニー株式会社 画像処理装置および方法
WO2019167300A1 (en) 2018-03-01 2019-09-06 Sony Corporation Image processing device, encoding device, decoding device, image processing method, program, encoding method, and decoding method
CN108769643A (zh) * 2018-06-15 2018-11-06 深圳超多维科技有限公司 视频拍摄方法、装置及系统
US11516453B2 (en) 2018-07-06 2022-11-29 Sony Corporation Information processing apparatus, information processing method, and program for point cloud sample processing
JP7310816B2 (ja) 2018-07-06 2023-07-19 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
JPWO2020008758A1 (ja) * 2018-07-06 2021-07-08 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2020008758A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2020105422A1 (en) 2018-11-20 2020-05-28 Sony Corporation Image processing device, image processing method, program, and display device
WO2020121844A1 (en) 2018-12-12 2020-06-18 Sony Corporation Image processing device, image processing method, and program
US11557087B2 (en) 2018-12-19 2023-01-17 Sony Group Corporation Image processing apparatus and image processing method for generating a strobe image using a three-dimensional model of an object
WO2020137584A1 (ja) 2018-12-25 2020-07-02 ソニー株式会社 映像再生装置、再生方法、およびプログラム
KR20210107631A (ko) 2018-12-25 2021-09-01 소니그룹주식회사 영상 재생 장치, 재생 방법 및 프로그램
US11825066B2 (en) 2018-12-25 2023-11-21 Sony Corporation Video reproduction apparatus, reproduction method, and program
JP2024040313A (ja) * 2019-06-11 2024-03-25 株式会社Mujin 第1のカメラによって生成された第1の画像を第2のカメラによって生成された第2の画像に基づいて更新する方法及び処理システム
WO2020262261A1 (ja) 2019-06-28 2020-12-30 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US11842453B2 (en) 2019-06-28 2023-12-12 Sony Group Corporation Information processing device, information processing method, and program
WO2021079592A1 (ja) 2019-10-21 2021-04-29 ソニー株式会社 情報処理装置、3dデータの生成方法及びプログラム
WO2021187093A1 (ja) 2020-03-17 2021-09-23 ソニーグループ株式会社 画像処理装置、および、動画像データ生成方法
JPWO2022024780A1 (ja) * 2020-07-30 2022-02-03
WO2022024780A1 (ja) * 2020-07-30 2022-02-03 ソニーグループ株式会社 情報処理装置、情報処理方法、映像配信方法及び情報処理システム
US12260491B2 (en) 2020-07-30 2025-03-25 Sony Group Corporation Information processing device, information processing method, video distribution method, and information processing system

Also Published As

Publication number Publication date
BR112018009070A8 (pt) 2019-02-26
MY202620A (en) 2024-05-10
KR20180081720A (ko) 2018-07-17
JP7143905B2 (ja) 2022-09-29
BR112018009070A2 (ja) 2018-10-30
RU2721678C2 (ru) 2020-05-21
EP3343914A1 (en) 2018-07-04
AU2021203450A1 (en) 2021-06-24
SG11201803682RA (en) 2018-06-28
RU2018116473A (ru) 2019-11-05
CA3004241A1 (en) 2017-05-18
KR102516992B1 (ko) 2023-04-04
US11716487B2 (en) 2023-08-01
AU2016352648A1 (en) 2018-05-10
CN113286137B (zh) 2024-02-02
JP6384744B2 (ja) 2018-09-05
US20180302647A1 (en) 2018-10-18
MX389538B (es) 2025-03-20
MX2018005501A (es) 2018-08-01
AU2021203450B2 (en) 2022-11-24
RU2018116473A3 (ja) 2019-11-05
JPWO2017082076A1 (ja) 2018-07-26
CN113286137A (zh) 2021-08-20
CN108353157B (zh) 2021-06-08
EP3343914A4 (en) 2019-04-10
JP2018182755A (ja) 2018-11-15
ZA201802193B (en) 2020-08-26
CN108353157A (zh) 2018-07-31
JP2021072639A (ja) 2021-05-06
JP6872131B2 (ja) 2021-05-19
PH12018500977A1 (en) 2019-01-28

Similar Documents

Publication Publication Date Title
JP6384744B2 (ja) 符号化装置および符号化方法
JP6911765B2 (ja) 画像処理装置および画像処理方法
KR102527566B1 (ko) 화상 처리 장치 및 화상 처리 방법
CN101651841B (zh) 一种立体视频通讯的实现方法、系统和设备
JP7009996B2 (ja) 画像処理装置および画像処理方法
KR101233399B1 (ko) 다시점 깊이 영상 생성 방법 및 장치
CA3004241C (en) Encoding apparatus and encoding method, decoding apparatus and decoding method
JP6599634B2 (ja) 多視点画像符号化装置、多視点画像復号装置、補助情報生成装置、画像復元装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16864039

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017550061

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2016864039

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15765805

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20187012316

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2018/005501

Country of ref document: MX

ENP Entry into the national phase

Ref document number: 3004241

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 11201803682R

Country of ref document: SG

Ref document number: 2018116473

Country of ref document: RU

Ref document number: 12018500977

Country of ref document: PH

ENP Entry into the national phase

Ref document number: 2016352648

Country of ref document: AU

Date of ref document: 20161028

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112018009070

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112018009070

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20180504