WO2005122593A1 - 動画符号化方法および動画復号方法 - Google Patents

動画符号化方法および動画復号方法 Download PDF

Info

Publication number
WO2005122593A1
WO2005122593A1 PCT/JP2005/005941 JP2005005941W WO2005122593A1 WO 2005122593 A1 WO2005122593 A1 WO 2005122593A1 JP 2005005941 W JP2005005941 W JP 2005005941W WO 2005122593 A1 WO2005122593 A1 WO 2005122593A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
key frame
key
frame
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2005/005941
Other languages
English (en)
French (fr)
Inventor
Shinichi Yamashita
Masuharu Endo
Kozo Akiyoshi
Nobuo Akiyoshi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Monolith Co Ltd
Original Assignee
Monolith Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monolith Co Ltd filed Critical Monolith Co Ltd
Priority to EP05727896A priority Critical patent/EP1765020A4/en
Priority to JP2006514417A priority patent/JPWO2005122593A1/ja
Priority to US11/547,289 priority patent/US20070206672A1/en
Publication of WO2005122593A1 publication Critical patent/WO2005122593A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Definitions

  • the present invention relates to an image processing technique, and more particularly to a moving picture coding technique and a moving picture decoding technique using matching.
  • MPEG Motion Picture Experts Group
  • An object of the present invention is to provide a moving picture encoding and decoding technique which solves this problem.
  • the present invention utilizes an image matching technique. This technology was first disclosed by the applicant in Patent No. 292.
  • the technology proposed in 7350 (hereinafter referred to as "prerequisite technology”) can be used.
  • the moving image encoding method according to the present invention executes the following processing.
  • the moving picture decoding method of the present invention executes the following processing.
  • the moving picture coding method of the present invention further includes a step of evaluating the accuracy of the matching in the step a), and the compression scheme in the step c) may be switched depending on the result of the evaluation. Good.
  • the accuracy of the matching may be evaluated by focusing on the matching energy value between the key frames.
  • the matching energy is a value calculated based on a difference between a distance between corresponding points and a pixel value, for example, calculated in image matching using a premise technology described later.
  • Another aspect of the present invention is a video encoding method. This method calculates region-based image matching between the first and second image frames, and encodes at least a third image frame by using the matching result. Quality of matching result Determining for each region, and selecting a quantization scheme for each region based on the quality determined in the determining step in the encoding process of the third image frame.
  • the image quality of a moving image is improved while achieving a relatively high compression ratio.
  • FIGS. 1 (a) and 1 (b) are images obtained by applying an averaging filter to the faces of two persons
  • FIGS. 1 (c) and 1 (d) are images of the two persons.
  • Figure 1 (e) and Figure 1 (f) show the image of ⁇ ( 5′ ⁇ ) obtained by the base technology for the faces of two persons.
  • g) and Fig. 1 (h) show the image of ⁇ (5 ') obtained by the underlying technology for the faces of two people
  • Figs. 1 (i) and 1 (j) show the This is a photograph of a halftone image in which the required ⁇ ( 5'3 ) image is displayed on the display.
  • Fig. 2 shows the original quadrilateral, Fig. 2 (A), Fig. 2 (B), Fig. 2 (C), Fig. 2 (D), Fig. 2 ( ⁇ ), respectively. It is a figure which shows an inheritance quadrilateral.
  • FIG. 3 is a diagram illustrating a relationship between a start image and an end image, and a relationship between an m-th level and an m ⁇ 1-th level using an inherited quadrilateral.
  • FIG. 4 is a diagram showing the relationship between parameter 7? And energy C.
  • FIGS. 5 (a) and 5 (b) are diagrams showing a manner in which a mapping regarding a certain point satisfies the bijection condition by determining a force from outer product calculation.
  • FIG. 6 is a flowchart showing an overall procedure of a base technology.
  • FIG. 7 is a flowchart showing details of S1 in FIG. 6.
  • FIG. 8 is a flowchart showing details of S10 in FIG. 7.
  • FIG. 9 is a diagram showing a correspondence relationship between a part of an m-th level image and a part of an m-1st level image.
  • FIG. 10 is a view showing a starting hierarchical image generated by the base technology.
  • FIG. 11 is a diagram showing a procedure for preparing a matching evaluation before proceeding to S2 in FIG. 6.
  • FIG. 12 is a flowchart showing details of S2 in FIG. 6.
  • FIG. 13 is a diagram showing how a sub-mapping is determined at the 0th level.
  • FIG. 14 is a diagram showing how a submap is determined at a first level.
  • FIG. 15 is a flowchart showing details of S21 in FIG. 12.
  • FIG. 18 is a flowchart for obtaining a submapping at the m-th level in the base technology after improvement.
  • FIG. 19 is a diagram showing a configuration and processing of a moving picture encoding device and a decoding device according to the embodiment.
  • FIG. 20 is a diagram showing a configuration of a differential encoder and a noise reducer according to the embodiment.
  • [0014] First, [1] details the elemental technology of the base technology, and [2] specifically describes the processing procedure. . Furthermore, [3] describes the points of improvement based on the underlying technology.
  • a new multi-resolution filter called a singularity filter is introduced to accurately calculate the matching between images. No prior knowledge of the object is required.
  • the calculation of the matching between the images is calculated at each resolution while proceeding through the resolution hierarchy. At this time, the resolution level is gradually increased from the coarse level power to the fine level.
  • the parameters required for the calculation are set automatically by dynamic calculations similar to the human visual system. It is not necessary to manually specify corresponding points between images.
  • the base technology can be applied to, for example, completely automatic morphing, object recognition, stereoscopic photogrammetry, volume rendering, and generation of smooth moving images with low frame power.
  • morphing a given image can be automatically transformed.
  • volume rendering it can accurately reconstruct intermediate images between sections. The same applies to the case where the shape of the cross section changes greatly when the distance between the cross sections increases.
  • the multi-resolution singularity filter according to the base technology can save the luminance and the position of each singularity included in the image while reducing the resolution of the image.
  • the width of the image is N and the height is M.
  • the section [0, N] CR is described as I.
  • the pixel of the image in (i, j) is described as p (i, j ei)
  • a multi-resolution hierarchy is introduced.
  • the hierarchical image group is generated by a multi-resolution filter.
  • the multi-resolution filter performs a two-dimensional search on the original image to detect singular points, and extracts the detected singular points to generate another image with lower resolution than the original image I do.
  • the size of each image in the m level shall be the 2 m X 2 m (0 ⁇ m ⁇ n) .
  • the singularity filter recursively constructs the following four types of new hierarchical images in the direction from n.
  • sub-images sub-images
  • min max x + l is described as ⁇ and j8, respectively
  • the sub-image can be described as follows.
  • each sub-image corresponds to a singular point.
  • the singularity filter detects singularities for each block composed of 2 ⁇ 2 pixels in the original image. At that time, a point having a maximum pixel value or a minimum pixel value is searched in two directions of each block, that is, in the vertical and horizontal directions. As the pixel value, luminance is used in the base technology, but various numerical values related to the image can be used.
  • the pixel with the maximum pixel value in both directions is the local maximum point
  • the pixel with the minimum pixel value in both directions is the local minimum point
  • the pixel value in one of the two directions is the maximum pixel value
  • the pixel value in the other direction is the minimum pixel value. Pixels that are values are detected as saddle points.
  • the singularity filter reduces the resolution of the image by representing the image of the singularity (here, one pixel) detected within each block by the image of that block (here, four pixels).
  • Ex (X) a (y) preserves the minimum point
  • ⁇ (X) ⁇ (y) preserves the maximum point
  • 8 ( ⁇ ) a (y) preserves the saddle point.
  • a singular point filter process is separately performed on a start point (source) image and an end point (destination) image to be matched to generate a series of images, that is, a start point hierarchical image and an end point hierarchical image. Keep it.
  • the start hierarchical image and the end hierarchical image are each generated in four types corresponding to the type of singular point.
  • the starting hierarchical image and the end hierarchical image are matched in a series of resolution levels.
  • First p (m 'using the ⁇ matching the minimum point are taken.
  • P (m' is taken saddle point matching using a ", p other using (m 'saddle point
  • the maximum point is matched using p (m'3 ) .
  • FIG. 1 (c) and FIG. 1 (d) shows the sub-image ⁇ (5 ' ⁇ , respectively, in FIG 1 (a) and FIG. 1 (b).
  • FIG. 1 (e) and FIG. 1 (f) is ⁇ (5 '", 01 ( g) and FIG. 1 (h) is ⁇ (5' 2)
  • FIG. 1 (j 1 and (i)) is Re its a ⁇ (5 '3)
  • the sub-image makes it easy to match the characteristic parts of the image.
  • the eyes are clarified by ⁇ ( 5′ ⁇ . is the minima points forces.
  • ⁇ (5' 2) clear vertical lines on either side of the neck, according
  • ⁇ ( 5′3 ) makes the brightest points of the ear clear, which are also the maximal points of luminance.
  • the characteristics of an image can be extracted by using a singularity filter, the characteristics of an image captured by a camera are compared with the characteristics of several objects recorded in advance, for example. Can be identified.
  • the pixel at the position (i, j) of the start image is written as ⁇ ⁇ , and the pixel at the position (k, 1) of the end image is also written.
  • This energy is determined by the difference between the luminance of the pixel of the source image and the luminance of the corresponding pixel of the destination image, and the smoothness of the mapping.
  • a mapping f °) between p (m'G ) and q ( m , 0), which have the minimum energy, is calculated based on p ( m , o) ⁇ q ( m , «. F0 )
  • the mapping f (m , "between P (m ,, q (m '" with minimum energy is computed.
  • mapping f ( m ' between p (m , 3 ⁇ 4 and q (m , 3 ⁇ 4
  • mapping should satisfy the bijection condition between the two images.
  • the conceptual advantage between the two images is the power that the pixels of each other should be connected in a bijective and injective manner.
  • the mapping to be constructed here is a digital version of bijection. In the base technology, pixels are specified by grid points.
  • f (i, j) (k
  • the pixel q is described as q when, 1) is satisfied.
  • [0035] Define the energy of the mapping f.
  • the goal is to find a mapping that minimizes energy.
  • the energy is mainly determined by the difference between the luminance of the pixel of the source image and the luminance of the corresponding pixel of the destination image. That is, the energy C (m 's ) at the point (i, j) of the mapping f (m 's )
  • the total energy c ( m 's ) of f is one evaluation formula for evaluating the matching, and can be defined by the sum of c ( m 's ) shown below.
  • the energy-saving one is determined by the position relationship Nag p (m 's) and q (m' s) to the luminance of the pixel (i
  • Point (i, j) 'energy D (m of (s s) mapping in f m)' is defined by the following equation.
  • the total energy of the mapping that is, the total evaluation formula relating to the integration of multiple evaluation formulas, is ⁇ C (m's )
  • the coefficient parameter ⁇ is a real number greater than or equal to zero.
  • the purpose is comprehensive ff
  • mapping becomes meaningless. It does not make any sense to transform a mapping based on such a meaningless mapping. For this reason, consideration is given to how to give the coefficient parameters so that the unit mapping is selected as the best mapping at the start of the evaluation.
  • the optical flow also considers the difference in luminance between pixels and the smoothness.
  • optical flow cannot be used for image conversion. This is because only the local movement of the object is considered.
  • Global correspondence can be detected by using the singularity filter according to the base technology.
  • mapping f that gives the minimum energy and satisfies the bijection condition is used in a multi-resolution hierarchy.
  • the mapping between the start sub-image and the end sub-image is calculated for each resolution level. Start at the top of the resolution hierarchy (the coarsest level) and The mapping is determined taking into account other levels of mapping.
  • the number of candidate mappings at each level is limited by using higher, or coarser, levels of mapping. More specifically, when determining a mapping at a certain level, a mapping obtained at a coarser level is imposed as a kind of constraint.
  • mapping f (m 's ) between p (m's ) and q (m 's ) has been minimized by performing the energy calculation.
  • Equation 18 The quadrilateral thus defined is hereinafter referred to as the inherited quadrilateral of p (m 's ) .. To. The pixel that minimizes the energy inside the inherited quadrilateral is determined.
  • FIG. 3 shows the above procedure.
  • pixels A, B, C, and D of the start point image are mapped to ⁇ ′, ⁇ ′, C, and D of the end point image at the m ⁇ 1th level.
  • Pixel p (m 's) are inherited quadrilateral A'B'C'D' is Utsushikage to pixel q (m 's) present inside the
  • mapping from the m-1th level mapping to the mth level mapping is made.
  • the energy E defined above is used to calculate the submap f (m '°) at the m-th level.
  • Equation 20 shows the distance between f (m ' s) (i, j) and the position of the point where (i, j) should be projected when considered as part of the pixel at the m-1th level. Te ru.
  • the approximation method using multi-resolution avoids the mapping being affected by image details. , Is essential to determine the global correspondence between images. Without using the multi-resolution approximation, it is impossible to find the correspondence between pixels at a long distance. In that case, the size of the image must be limited to a very small one, and only images with small changes can be handled. In addition, I usually try to find the correspondence between such pixels in order to require smooth mapping. This is because the energy of the mapping from a pixel at a distance to the pixel is high. According to the approximation method using multiple resolutions, it is possible to find an appropriate correspondence between such pixels. These distances are at the upper level (coarse, level) of the resolution hierarchy!
  • the system according to the base technology includes two parameters, ⁇ and 7 ?.
  • is the weight of the difference in luminance between pixels
  • 7 ⁇ is the stiffness of the mapping.
  • the initial values of these parameters are 0.
  • fix 0 and gradually increase ⁇ from 0. If the value of ⁇ is increased and the force is also minimized in the overall evaluation formula (Equation 14), the value of c (m 's ) for each submap generally decreases. This is basically two images
  • Pixels that should not be handled are incorrectly matched simply because the brightness is close.
  • Equation 14 takes the minimum value while increasing ⁇
  • This method is similar to the operation of the focus mechanism of the human visual system.
  • the images of the left and right eyes are matched while moving one eye.
  • the object is clearly recognizable, his eyes are fixed.
  • is increased from 0 at a predetermined step size, and the submap is evaluated every time the value of the fly changes.
  • Equation 9 D the total energy is defined by CD (m , s) .
  • the number of pixels that violates the bijection condition may be examined for further safety.
  • the probability of violating the bijection condition is p.
  • It can be used to detect degree distortion.
  • B ⁇ 2 and B ⁇ 2 do not become constants, but increase gradually according to the factor ⁇ (1_k) / 2
  • the starting image is a circular object having a center (X, y) and a radius r as shown in the following equation:
  • the end image is an object with a center (X, y) and a radius of ⁇
  • the histogram h (l) has the form shown below.
  • the image shows an object having a clear border embedded in the background.
  • Equation 27 is generally a decreasing function.
  • D (n) is determined independently of the immediately preceding submap, and the current submap is elastic.
  • the range of f (m ′ s) can be extended to R XR to increase the degree of freedom (R is a set of real numbers).
  • R is a set of real numbers.
  • F (m's ) with luminance at is provided. That is, super sampling is performed.
  • f (m's ) is allowed to take integer and half-integer values
  • the start image and the end image include objects that are extremely different from each other, it is difficult to use the luminance of the original pixel as it is for calculating the mapping. This is because the energy c (m's ) relating to the luminance is too large due to the large difference in luminance, and it is difficult to perform a correct evaluation.
  • the sub-image is first normalized to calculate the sub-map between the two faces. That is, the brightness of the darkest pixel is set to 0, the brightness of the brightest is set to 255, and the brightness of the other pixels is obtained by linear interpolation.
  • a recursive method in which the calculation proceeds linearly according to the scanning of the starting point image is used.
  • the value of each f (m's ) (i, j) is determined while increasing i by one. When the value of i reaches the width of the image, increase the value of j by 1 and reset i to 0.
  • f (m's ) (i, j) is determined as the start image is scanned. If the correspondence of pixels is determined for all points, one mapping f ( m's ) is determined. If the corresponding point q is determined for a certain p, then the corresponding point q of p is determined.
  • the point where the corresponding point is determined first has a higher priority in this system.
  • f (m 's ) is determined by the following method to avoid this situation.
  • FIG. 5A and FIG. 5B show the reason for checking this condition.
  • Figure 5 (a) shows the penalty No candidate
  • Fig. 5 (b) shows a candidate with a penalty.
  • mapping the determination of the mapping in the case where the constraint condition force S is not present as it is, is described. However, when the correspondence between the specific pixels of the start image and the end image is defined in advance, the mapping can be determined based on this as a constraint condition.
  • the basic idea is that the starting image is roughly deformed by a rough mapping that moves a specific pixel of the starting image to a specific pixel of the ending image, and then the mapping f is calculated accurately.
  • a specific mapping of a specific pixel of the start image to a specific pixel of the end image and a projection of another pixel of the start image to an appropriate position are determined. That is, a pixel that is close to a particular pixel is a mapping that is projected near where the particular pixel is projected.
  • the rough mapping at the m-th level is described as F (m) .
  • the rough mapping F is determined in the following manner. First, the mapping is specified for some pixels. N pixels for the source image,
  • the pixel p is projected to the following pixels of the destination image.
  • each f (m 's) (i , j) is as close enough to F (m) (i, j ), so to get dropped in position in the destination image, for want automatically determine the value It is. For this reason, source images that do not need to specify the exact correspondence in detail are automatically mapped to match the destination images.
  • FIG. 6 is a flowchart showing an overall procedure of the base technology. As shown in the figure, first, processing using a multi-resolution singularity filter is performed! (S1), and then matching between the start image and the end image is performed (S2). However, S2 is not essential, and processing such as image recognition may be performed based on the features of the image obtained in S1.
  • FIG. 7 is a flowchart showing details of S1 in FIG.
  • the starting point image is first hierarchized by the singular point filter (S10) to obtain a series of starting point hierarchical images.
  • the destination images are hierarchized by the same method (S11) to obtain a series of destination hierarchical images.
  • S10 and S11 is arbitrary, and a start hierarchical image and an end hierarchical image are generated in parallel.
  • FIG. 8 is a flowchart showing details of S10 in FIG. Original source image size is 2 n
  • the parameter m indicating the resolution level to be processed is set to n (S100).
  • m-th A singular point is detected from the Bell image ⁇ ( ⁇ ' ⁇ , p ⁇ p (m ' 2) , p (m ' 3) using a singular point filter (S101), and an image p (m m_1 '.), p (m_1 ' ⁇ , p (m_1 '2), p (m_1' 3) a to generate (S102).
  • FIG. 9 shows the correspondence between a part of the m-th level image and a part of the m-th level image. Numerical values in the figure indicate the luminance of each pixel. The figure is intended to symbolize the image of Tsu of ⁇ , p (m_1 'to generate a G) is, p (m' s) are we consider to be a p (m 'G).
  • p ( m_1 ') is, for example, V for the block in which the luminance is written in the figure, and "3" out of the four pixels included therein, and p (m_1 '"is” 8 , P (m_1 ' 2 ) obtains “6” and p (m_1 ' 3 ) obtains “10”, and replaces this block with one pixel that has been obtained.
  • the size of the image will be 2 m_1 X 2 m_1 .
  • FIG. 12 is a flowchart showing the details of S2 in FIG.
  • the matching of the start hierarchical image and the end hierarchical image is performed between images having the same resolution level.
  • the matching is calculated in order from the level with the lowest resolution. Since the start point hierarchical image and the end point hierarchical image are generated using the singular point filter, the position and luminance of the singular point are clearly preserved even at the coarse level of the resolution, and the result of global matching is It will be much better than before.
  • the coefficient parameter 7? Is set to 0, and the level parameter m is set to 0 (S20).
  • matching is calculated between each of the four sub-images at the m-th level in the source hierarchical image and each of the four m-th sub-images in the destination hierarchical image.
  • Four types of submappings f ( m's ) (s 0, 1, 2, 3) that minimize is obtained (S21).
  • the bijection condition is checked using the inheritance quadrilateral described in [1.3.3].
  • FIG. 13 is a diagram showing how the sub-mapping is determined at the 0th level.
  • the 0th level since each sub-image is composed of only one pixel, all four sub-maps ⁇ ( ' s) are automatically determined to be unit maps.
  • FIG. 14 is a diagram showing how the sub-mapping is determined at the first level. At the first level, each sub-image is composed of four pixels. In the figure, these four pixels are indicated by solid lines. Now, when searching for the corresponding point of point X of p (1 's ) in q (1 's ) , the following steps are taken.
  • pixels A to D are virtual pixels that do not originally exist.
  • Pixels A ′ to C ′ are virtual pixels and are assumed to be located at the same positions as pixels A to C, respectively.
  • the candidates for the corresponding point x ′ may be limited to, for example, those in which the center of the pixel is included in an inherited quadrilateral. In the case of FIG. 14, all four pixels are candidates.
  • FIG. 15 is a flowchart showing the details of S21 in FIG. According to this flowchart, for a given r ?, the submapping at the m-th level is determined. In determining the submapping, the base technology determines the optimal ⁇ independently for each submapping.
  • C (n) usually decreases ff, but when r? Exceeds the optimal value, C (n) starts to increase. Then, when C (n) takes the minimum value, ff
  • Fig. 17 can be considered as an enlarged view of the vicinity of zero on the horizontal axis in Fig. 4. Once ⁇ opt opt is determined, f (n) can be finally determined.
  • the base technology various merits can be obtained.
  • the problem of the conventional edge detection type technology can be solved.
  • a priori knowledge of the outside of the object included in the image is not required, and automatic detection of corresponding points is realized.
  • the special point filter the luminance and position of a specific point can be maintained even at a coarse level of resolution, which is extremely advantageous for object recognition, feature extraction, and image matching. As a result, it is possible to construct an image processing system that significantly reduces manual work.
  • is determined as the optimal parameter when E takes the minimum value.
  • the mapping corresponding to the parameter is finally regarded as the optimal matching between the two images.
  • the nomometer may be any of a, only a, two cases as in the base technology, and two or more cases. If the parameter is 3 or more, change it one by one and decide
  • the pixel becomes 1Z4.
  • the pixel becomes 1Z9.
  • the singularity filter was changed as follows. First, HIS, which is said to best match human intuition, was used as the color space. But color When converting to luminance, instead of luminance I, luminance Y, which is said to be closest to the sensitivity of the human eye, was selected.
  • sub-images five types are generated for each level. Note that the highest level sub-image matches the original image.
  • a primary derivative edge detection filter is further used.
  • This filter can be realized by convolution with an operator G.
  • the two types of filters corresponding to the horizontal and vertical derivatives of the nth level image are expressed as follows.
  • G is selected from the following operators in consideration of the force calculation speed, which can apply a general operator used for edge detection in image analysis, and the like.
  • Equation 59 The image of Equation 59 is used for the energy due to the difference of the newly introduced luminance derivative (edge) in the energy function when calculating the Forward Stage, that is, the first submapping derivation stage described later.
  • Equation 60 Since this value is always positive, a maximum value filter is used for multi-resolution processing.
  • Equation 61 The image of Equation 61 is used to determine the calculation order when calculating the Forward Stage described later.
  • FIG. 18 is a flowchart relating to an improvement in the calculation for determining the sub-mapping at the m-th level.
  • mapping f (m 'S) is sequentially obtained by energy minimization.
  • the derivation of the mapping f (m 'S) is described below.
  • the energy to be minimized here is the sum of the energy C by the corresponding pixel value and the energy D by the smoothness of the mapping in the improved base technology.
  • the energy C is the energy C due to the difference in brightness (in the base technology before the improvement described above).
  • ⁇ (z,) C ⁇ (z,) + ⁇ ⁇ (, J) + eC (, J) ( Equation 6 3)
  • Parametae the ⁇ and ⁇ is 0 or a real number, after the improved In technology, it is a constant.
  • these parameters can be constants because the newly introduced
  • the energy C depends on the coordinate and the resolution level regardless of the type s of the submap f (m 's ).
  • the energy D the same energy as that of the base technology before the improvement is used.
  • the force S that considers only adjacent pixels and the number of surrounding pixels to consider can be specified by the parameter d. So that it was improved.
  • mapping g ( m's ) from the end image q to the start image is similarly calculated.
  • Refinement Stage (S42) bidirectional mapping f (m, s) of the obtained in Forward Stage Contact and 'based on (s, more reasonable mapping f, (m g m)' Request s).
  • energy minimization calculation is performed for the newly defined energy M! /.
  • the energy M is composed of the degree of consistency M between the destination image and the mapping g of the source image, and the difference M between the original mapping and the minimum M.
  • a mapping g '( m ' s) from the end image q to the start image p is obtained in a similar manner so as not to lose the symmetry.
  • the mapping of surrounding points is used, so whether or not those points have already been calculated affects the energy. In other words, the accuracy of the whole mapping changes greatly depending on from which point to calculate in order. Therefore, the absolute value image of the edge is used. Since the edge part contains a large amount of information, When the absolute value is large, the mapping calculation is performed first. This has made it possible to obtain a very accurate mapping especially for an image such as a binary image.
  • FIG. 19 shows the configuration and processing of a moving image encoding device and a moving image decoding device.
  • the upper part of the figure relates to the encoding device, and the lower part relates to the decoding device.
  • CPF Critical Point Filter of the base technology, that is, an image matching processor using a singular point filter. Calculates matching between key frames in pixel units and outputs corresponding point information. This information is output as a file.
  • This file describes the force that each pixel of the source keyframe corresponds to any pixel of the destination keyframe. Therefore, a morphing image between two key frames can be obtained by interpolating the pixel positions and pixel values corresponding to these key frames based on this file. If this file is applied only to the source-side keyframe and the interpolation calculation is performed, a morphing image is obtained that simply moves each pixel of the source-side keyframe to the position of the corresponding pixel described in this file. Can be In this case, only the position is interpolated between the corresponding pixels.
  • DE Differential Encoder A differential (error) encoder. The difference between two image frames is variable-length coded based on Huffman coding and other statistical methods.
  • NR maskable Noise Reducer noise reducer.
  • Human vision often cannot recognize subtle changes. For example, in a portion where luminance changes rapidly, that is, in a region where a component having a high luminance spatial frequency component is strong, an error in luminance change is not visually recognized. Noise is superimposed on video information in various forms, and such data is simply visually recognized as noise and has no meaning as an image. Ignoring such visually meaningless random information, or “visual mask information”, results in higher compression ratios. Is important to achieve.
  • Quantization in the current block matching uses visual mask information on luminance values, but there are some visual mask information other than luminance values.
  • NR utilizes visual masks for spatial location information as well as temporal location information.
  • the spatial position information visual mask makes use of the fact that the phase component of the spatial frequency is difficult to visually recognize in the case of an image with a complex luminance change.
  • the visual mask of the time position information utilizes the fact that, even if the change in the time direction is severe and the change in the data is shifted in the time direction, the difference is hardly recognized visually. In these, the deviation is detected by comparing with a predetermined threshold value.
  • DD Differential Decoder Differential (error) decoder. Decodes the difference coded by DE and adds it to the image frame in which the difference occurred, thereby improving the accuracy of the image frame
  • F0 and the like indicate each frame of the moving image to be processed
  • M0-4 indicates corresponding point information between F0 and F4 generated by the CPF.
  • the pixel shifter Moving a pixel included in the first key frame (F0) to generate a virtual second key frame (F4,);
  • the output destination may be a recording medium or a transmission medium. Actually, it is integrated with the information output in j) described later, and is output to a recording medium or the like as moving image encoded data.
  • g) Matching is calculated by CPF between the second and third key frames (F4, F8) sandwiching one or more image frames (F5 to F7), and the corresponding point information between the second and third key frames ( Generating M4 8).
  • the pixel shifter moves the pixels included in the improved virtual second keyframe (F4 ").
  • the steps e) to j) described above are sequentially repeated for a further subsequent key frame as shown in frame F9 and the subsequent steps in FIG.
  • the group end key frame is equivalent to a 1G OP end frame in MPEG. Therefore, the frame following this frame is newly regarded as the first key frame as the first frame of the new group, and the following processing a) is repeated.
  • a group for a group corresponding to a GOP in MPEG (hereinafter simply referred to as a group), only one image corresponding to a key frame (I picture in MPEG) has to be encoded and transmitted.
  • Decoding proceeds according to the following procedure.
  • Steps to get Acquisition may be from either a transmission medium or a recording medium.
  • the image shifter moves the pixels included in the first keyframe (F0) to create a virtual second keyframe. Generating (F4,).
  • a virtual second key frame (F4 ') is generated by the same processing in advance, and the difference between this and the actual second key frame (F4) on the encoding side is Generating the compressed encoded data ( ⁇ 4) of the compressed data.
  • INT Based on the corresponding point information (M0-4) between the first and second keyframes, INT allows the first keyframe (F0) and the improved virtual second keyframe (F4 ") to be Perform interpolation calculation Thereby generating intermediate frames (Fl "to F3") to be present between these key frames (FO, F4 ").
  • the first key frame (FO), the generated intermediate frames (F1 "to F3"), and the improved virtual second key frame (F4 ") are used as decoded data between these key frames as a display device, etc. Step to output to.
  • the pixel shifter moves the pixels included in the improved virtual second key frame (F4 ").
  • a virtual third key frame (F8,) is also generated on the encoding side, and this is combined with the actual third key frame (F8) on the encoding side.
  • V Based on the corresponding point information between the second and third keyframes (M4-8), the virtual second keyframe (F4 ") improved by INT and the virtual third keyframe improved by INT Generating intermediate frames (F5, to F7,) to be present between these key frames by interpolating between (F8 ").
  • the enhanced virtual second key frame (F4 "), the generated intermediate frames (F5 'to F7,), and the enhanced virtual third key frame (F8 ,,) F4 ", F8") A step of outputting to a display device or the like as decoded data.
  • this coding method does not use block matching, so that even if the compression ratio is increased, there is no block noise which is a problem in MPEG. Of course, even in image matching other than CPF, block noise should be used.
  • the encoding device can be configured with an image matching processor, a differential encoder with a noise reduction function, a differential decoder, and a pixel shifter, and is simple. Also, the noise reduction function is an optional function, and need not be provided. Similarly, the decoding device can be composed of an interpolation processor, a differential decoder, and a pixel shifter, and is simple. In particular, the decoding device has a small amount of processing without having to perform image matching.
  • this method may express a force corresponding point information file as a function of time, which ultimately improves the matching accuracy between F0 and F4.
  • the partial files may be provided to the decryption side as the corresponding point information files without combining the four files.
  • the decoding side can generate a more accurate video by repeating the process of generating Fl from FO, F4, and MO and generating F2 from FO, F4, MO, and Ml.
  • Another embodiment of the present invention relates to the encoding device of FIG.
  • image matching energy is introduced as a measure of the accuracy of image matching, and is used for noise reduction in DE + NR.
  • FIG. 19 the features and functions not specifically described with reference to FIG. 19 are the same as those of the first embodiment.
  • the matching energy here is determined by the difference between the distance between corresponding points and the pixel value, and is shown, for example, in Expression 49 in the base technology.
  • the matching energy obtained at the time of image matching in the CPF is used as a by-product.
  • the image matching of the base technology for each pixel between key frames, the pixel having the minimum mapping energy is detected as a corresponding point. Focusing on these characteristics of the underlying technology, good matching is achieved for pixels with low matching energy, while for locations with high matching energy, the positions and pixel values change naturally between key frames. Force that should have been a pixel In some cases, it can be evaluated that there may have been a matching error. As will be described in detail below, in the present embodiment, the compression ratio of the difference is increased for a portion having high matching accuracy. In another example, difference information on pixels for which a matching error is estimated may be highly compressed.
  • the CPF when the CPF calculates the matching between the first and second key frames, the CPF also obtains the matching energy of each pixel corresponding between the two frames, and obtains the first matching energy. Generate an energy map describing the matching energy of each pixel on a key frame (FO). Similarly, an energy map is generated between other adjacent key frames. In other words, the energy map is the corresponding point between keyframes.
  • Each matching energy is basically data describing each pixel of the previous key frame. The energy map may be displayed on a later key frame among the preceding and following key frames. The energy map is sent from CPF to DE + NR by a route not shown.
  • DE + NR evaluates the quality of matching between key frames using this energy map, and adaptively compresses and encodes the difference between a virtual key frame and a real key frame based on the evaluation.
  • the corresponding point information file is also sent to the DE + NR via a path (not shown).
  • FIG. 20 is a diagram showing the configuration of DE + NR in FIG. 19 according to the present embodiment.
  • + NR includes a difference calculator 10, a difference compression unit 12, an energy acquisition unit 14, and a determination unit 16. Of these, the former two correspond exclusively to DE, and the latter two correspond exclusively to NR.
  • DE + NR a force explaining the operation of DE + NR when the first key frame (F0), the second key frame (F4), and the intermediate image frames (F1 to F3) are encoded.
  • the operation of DE + NR is the same in the encoding of an image frame.
  • the difference calculator 10 acquires the actual second key frame (F4) and the virtual second key frame (F4,), and calculates the difference between the pixel values of the pixels that correspond in position. As a result, a kind of image in which each pixel has a difference in pixel value between the two key frames is formed, and this is called a difference image.
  • the difference image is sent to the energy acquisition unit 14.
  • the energy acquisition unit 14 also inputs the energy map between the actual first key frame (F0) and the actual second key frame (F4) and the corresponding point information (M0-4) force. Is done.
  • the energy obtaining unit 14 obtains the matching energy of the difference image using these.
  • the acquiring unit 14 acquires corresponding point information (M0-4) between the first and second key frames from the CPF.
  • the difference image power follows the virtual second key frame (F4,) and the first key frame (F0), so that the pixels of the difference image become the pixels of the first key frame (F0). Acquire the force and the correspondence that correspond to the shifted one.
  • the matching energy of the pixel on the first key frame (F0) corresponding to each pixel of the difference image is calculated as the difference image Is obtained as the matching energy of each pixel.
  • the matching energy of the difference image is thus obtained.
  • the energy acquisition unit 14 sends the matching energy of the difference image to the determination unit 16.
  • the determining unit 16 uses the matching energy of each pixel of the differential image to determine a high compression target region in the differential image, and notifies the compressing unit 12 of information on a force to which any region should be highly compressed.
  • the determination is performed, for example, as follows.
  • the determination unit 16 divides the difference image into blocks of 16 ⁇ 16 pixels, and compares the matching energy of all the pixels included in each block with a predetermined threshold. As a result of the comparison, if the matching energy of all the pixels in the block is less than or equal to the threshold value, the area is determined to be the high compression target block.
  • the compression unit 12 compresses the difference image in a JPEG format.
  • the compression ratio is adaptively changed between the normal region and the high-compression corresponding region using the information on the high-compression corresponding region notified from the determination unit 16.
  • processing that makes the quantization width of the DCT coefficient larger than that of a normal block can be used.
  • a process of applying JPEG compression may be performed after setting the pixel value of the high compression target block to 0.
  • the reason why the region with low matching energy is highly compressed is as follows.
  • a pixel having a low matching energy can be regarded as having a good matching result between key frames. Therefore, in the difference image where the matching energy is low, the difference between the actual second key frame (F4) and the virtual second key frame (F4 ') is different from the original one. If so, it can be considered noise. Therefore, a region having a low matching energy in the difference image can be significantly compressed as compared with other regions which do not care about information loss due to high compression. On the other hand, in the region where the matching energy is large, an error may have occurred in the matching, and the difference between the virtual second key frame (F4,) and the actual second key frame (F4) is important in decoding. Therefore, the compression ratio is kept low and the decoding accuracy is given priority.
  • the compression unit 18 outputs the compression-encoded difference ( ⁇ 4) between the actual second key frame (F4) and the virtual second key frame (F4 ′).
  • Code according to the present embodiment the difference information between the real key frame and the virtual key frame can be adaptively compressed according to the importance of performing accurate decoding of the encoded image more faithfully to the original image.
  • high encoding efficiency can be realized while maintaining decoding accuracy.
  • the significance is, of course, that the present embodiment can also enjoy the advantages of the first embodiment.
  • DE + NR compares the matching energy of each pixel in the second key frame (F4) with, for example, the average of the matching energies of the other pixels in the 9 ⁇ 9 pixel block centered on itself. If the result of the comparison indicates that the difference between the two exceeds a predetermined threshold value, ie, V, then such a pixel may be determined to cause a matching error.
  • a predetermined threshold value ie, V
  • Corresponding information causing an error can be considered to be meaningless data for the decoding side, and the difference information between the actual second key frame (F4) and the virtual second key frame (F4,) can be considered.
  • data on a pixel having a matching error can be called noise. This eliminates the need to consider information loss due to high compression, and the DE + NR is the difference image between the real key frame and the virtual key frame, and the pixel corresponding to the matching error between the real key frames. Is compressed at a higher rate than other pixels.
  • the matching error is determined, for example, by comparing the tendency of the motion vector of the surrounding pixel with the tendency of the motion vector of the pixel of interest to determine whether the motion vector of the pixel of interest is significantly different from the surrounding tendency. You may do it with.
  • the intermediate frames (F1 to F3) between the first and second key frames (FO, F4) are taken into consideration, and the adjacent frames of all these image frames are considered.
  • a matching is calculated to generate corresponding point information files (MO to M3), and those are integrated to make one-to-one correspondence between the first and second key frames (FO, F1).
  • Deformation technology to obtain two corresponding point information files is conceivable.
  • this modification technique it is possible to calculate matching energy between image frames and apply the calculated energy to scene change detection and the like.
  • the configuration related to scene change detection is as follows.
  • the CPF performs matching calculations for each set of FO and Fl, F1 and F2, F2 and F3, F3 and F4 ' I do.
  • the average of the matching energies of the pixels of an entire image frame is compared with a predetermined threshold for scene change detection, and the image immediately after that is regarded as a new group.
  • a predetermined threshold for scene change detection For example, based on the energy map # 5 between F5 and F6, it is assumed that as a result of averaging the matching energies of the respective pixels of F5 relating to the matching of F5 and F6, the value exceeds the key frame addition threshold value.
  • the immediately following key frame that is, F6 and below, may be a new group, and F6 may be the first key frame of the next group. This is because if the matching energy is large, it can be considered that there has been a large change between the images. This makes it possible to automatically detect scene changes and to select groups in response to scene changes.
  • the average matching energy of the pixels in each image frame is calculated and added cumulatively, and when the value exceeds a predetermined threshold value,
  • the image frame may be newly registered as a key frame. This is because if a key frame can be added when the accumulated amount of change between image frames exceeds a certain value, the image quality at the time of decoding will be further improved.
  • the present invention can be used for compression encoding and decoding of moving images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 MPEGで動画を高い圧縮率で符号化するとブロックノイズが顕著になる。第1、第2キーフレーム(F0、F4)間でマッチングを計算し、対応点情報(M0-4)を生成する。この対応点情報をもとに、仮想の第2キーフレーム(F4’)を生成する。現実の第2キーフレーム(F4)と仮想の第2キーフレーム(F4’)との差分を差分符号化器DEで圧縮符号化する。F0、M0-4、および、圧縮符号化された差分Δ4をキーフレームF0、F4間の符号化データとして出力する。

Description

明 細 書
動画符号化方法および動画復号方法
技術分野
[0001] この発明は、画像処理技術に関し、とくにマッチングを用いた動画符号ィ匕技術およ び動画復号技術に関する。
背景技術
[0002] MPEG (Motion Picture Experts Group)は動画圧縮のひとつの標準技術である。
MPEGでは、ブロックマッチングが利用される。このマッチングは、ブロック間の差分 が最小になるようブロック探索を行う。そのため、差分は確かに小さくなる力 必ずしも フレーム間で本来対応しあう領域どおしが対応づけられるわけではない。
発明の開示
発明が解決しょうとする課題
[0003] MPEGでは、圧縮率を上げようとすると、いわゆるブロックノイズが問題になる。この ノイズの発生を抑え、フレーム間コヒーレンシに注目した圧縮率をさらに上げるために は、現状のブロックマッチングベースの技術を改める必要である。求める技術は、本 来対応しあう領域なり画素なりが正しく対応するよう符号ィ匕すべきであり、また、単純 なブロックマッチングは避けることが望まし!/、。
本発明の目的は、この課題を解決する動画符号化および復号技術を提供すること にある。
課題を解決するための手段
[0004] 本発明は画像マッチング技術を利用する。この技術は本出願人が先に特許第 292
7350号にて提案した技術 (以下「前提技術」という)を利用することができる。本発明 の動画符号化方法は、以下の処理を実行する。
[0005] a) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間でマッチングを計算 し、第 1、第 2キーフレーム間の対応点情報を生成するステップと、
b) 第 1、第 2キーフレーム間の対応点情報をもとに第 1キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 c) 現実の第 2キーフレームと仮想の第 2キーフレームとの差分を圧縮符号ィ匕する ステップと、
d) 第 1キーフレーム、第 1、第 2キーフレーム間の対応点情報、および、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号ィ匕された差分をこれらのキー フレーム間の符号ィ匕データとして出力するステップ。
[0006] 一方、本発明の動画復号方法は、以下の処理を実行する。
k) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間の対応点情報、お よび第 1キーフレームを取得するステップと、
1) 第 1、第 2キーフレーム間の対応点情報をもとに、第 1キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 m) 予め符号ィ匕側にて求められた現実の第 2キーフレームと仮想の第 2キーフレー ムとの差分の圧縮符号化データを取得するステップと、
o) 取得された差分の圧縮符号化データと前記仮想の第 2キーフレームとから、改 良された仮想の第 2キーフレームを生成するステップと、
P) 第 1、第 2キーフレーム間の対応点情報をもとに、第 1キーフレームと改良され た仮想の第 2キーフレーム間で補間計算をすることにより、これらのキーフレームの間 に存在すべき中間フレームを生成するステップと、
q) 第 1キーフレーム、生成された中間フレーム、改良された仮想の第 2キーフレー ムをこれらのキーフレーム間の復号データとして出力するステップ。
[0007] 本発明の動画符号化方法は、さらに前記 a)のステップにおけるマッチングの正確さ を評価するステップを備え、評価の結果に依存して、前記 c)のステップにおける圧縮 スキームを切り替えてもよい。評価するステップでは、キーフレーム間のマッチングェ ネルギー値に着目してマッチングの正確さを評価してもよい。マッチングエネルギー とは、例えば後述する前提技術を利用した画像マッチングにおいて算出される、対応 点どうしの距離と画素値の違いに基づく値である。
[0008] 本発明の別の態様は、動画符号化方法である。この方法は、第 1、第 2画像フレー ム間で、領域ベースの画像マッチングを計算し、そのマッチング結果を利用して、少 なくとも第 3画像フレームを符号ィ匕する方法であって、画像マッチングの結果の良否 を領域ごとに判定するステップと、第 3画像フレームの符号ィ匕プロセスにおいて、判 定するステップにおいて判定された良否に基づき、領域ごとに量子化スキームを選 択するステップとを備える。
[0009] 以上の各ステップを入れ替えたり、方法と装置の間で表現を一部または全部入れ 替え、または追加したり、表現をコンピュータプログラム、記録媒体等に変更したもの もまた、本発明として有効である。
発明の効果
[0010] 本発明によれば、比較的高!、圧縮率を実現しつつ、動画の画質が高まる。
図面の簡単な説明
[0011] [図 1]図 1 (a)と図 1 (b)は、ふたりの人物の顔に平均化フィルタを施して得られる画像 、図 1 (c)と図 1 (d)は、ふたりの人物の顔に関して前提技術で求められる の画 像、図 1 (e)と図 1 (f)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' υの画 像、図 1 (g)と図 1 (h)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' の 画像、図 1 (i)と図 1 (j)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' 3)の 画像をそれぞれディスプレイ上に表示した中間調画像の写真である。
[図 2]図 2 (R)はもとの四辺形を示す図、図 2 (A)、図 2 (B)、図 2 (C)、図 2 (D)、図 2 ( Ε)はそれぞれ相続四辺形を示す図である。
[図 3]始点画像と終点画像の関係、および第 mレベルと第 m— 1レベルの関係を相続 四辺形を用いて示す図である。
[図 4]パラメータ 7?とエネルギー Cの関係を示す図である。
[図 5]図 5 (a)、図 5 (b)は、ある点に関する写像が全単射条件を満たすか否力を外積 計算から求める様子を示す図である。
[図 6]前提技術の全体手順を示すフローチャートである。
[図 7]図 6の S1の詳細を示すフローチャートである。
[図 8]図 7の S10の詳細を示すフローチャートである。
[図 9]第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示す 図である。
[図 10]前提技術で生成された始点階層画像を示す図である。 [図 11]図 6の S2に進む前に、マッチング評価の準備の手順を示す図である。
[図 12]図 6の S2の詳細を示すフローチャートである。
[図 13]第 0レベルにおいて副写像を決定する様子を示す図である。
[図 14]第 1レベルにおいて副写像を決定する様子を示す図である。
[図 15]図 12の S21の詳細を示すフローチャートである。
[図 16]ある f (m, s)について λを変えながら求められた f (m, ( λ =i Δ λ )に対応するェ ネルギー c (m' s)の挙動を示す図である。
f
[図 17] r?を変えながら求められた f(n) ( r? =1 Δ r? ) (i = 0, 1, · · ·)に対応するエネルギ 一 C(n)の挙動を示す図である。
f
[図 18]改良後の前提技術において第 mレベルにおける副写像を求めるフローチヤ一 トである。
[図 19]実施の形態に係る動画の符号ィ匕装置および復号装置の構成および処理を示 す図である。
[図 20]実施の形態に係る差分符号化器およびノイズリデューサの構成を示す図であ る。
符号の説明
[0012] Fx 現実の画像フレーム、 CPF 画像マッチングプロセッサ、 DE 差分符号ィ匕 器、 NR ノイズリデューサ、 DD 差分復号器、 INT 補間プロセッサ、 Fx, 仮 想の画像フレーム、 Fx" 改良された仮想の画像フレーム、 Mx—y 対応点情報 ファイル
発明を実施するための最良の形態
[0013] はじめに、実施の形態で利用する多重解像度特異点フィルタ技術とそれを用いた 画像マッチングを「前提技術」として詳述する。これらの技術は本出願人がすでに特 許第 2927350号を得ている技術であり、本発明との組合せに最適である。ただし、 実施の形態で採用可能な画像マッチング技術はこれに限られない。図 19以降、前 提技術を利用した画像処理技術を具体的に説明する。
[前提技術の実施の形態]
[0014] 最初に [1]で前提技術の要素技術を詳述し、 [2]で処理手順を具体的に説明する 。さらに [3]で前提技術に基づき改良を施した点について述べる。
[1]要素技術の詳細
[1. 1]イントロダクション
[0015] 特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、画像間のマツチン グを正確に計算する。オブジェクトに関する予備知識は一切不要である。画像間のマ ツチングの計算は、解像度の階層を進む間、各解像度において計算される。その際 、粗いレベル力も精細なレベルへと順に解像度の階層を迪つていく。計算に必要な パラメータは、人間の視覚システムに似た動的計算によって完全に自動設定される。 画像間の対応点を人手で特定する必要はない。
[0016] 本前提技術は、例えば完全に自動的なモーフイング、物体認識、立体写真測量、 ボリュームレンダリング、少ないフレーム力 の滑らかな動画像の生成などに応用でき る。モーフイングに用いる場合、与えられた画像を自動的に変形することができる。ボ リュームレンダリングに用いる場合、断面間の中間的な画像を正確に再構築すること 力 Sできる。断面間の距離が遠ぐ断面の形状が大きく変化する場合でも同様である。
[1. 2]特異点フィルタの階層
[0017] 前提技術に係る多重解像度特異点フィルタは、画像の解像度を落としながら、しか も画像に含まれる各特異点の輝度及び位置を保存することができる。ここで画像の幅 を N、高さを Mとする。以下簡単のため、 N = M = 2n(nは自然数)と仮定する。また、 区間 [0, N] CRを Iと記述する。 (i, j)における画像の画素を p と記述する(i, j ei)
U, j)
[0018] ここで多重解像度の階層を導入する。階層化された画像群は多重解像度フィルタ で生成される。多重解像度フィルタは、もとの画像に対して二次元的な探索を行って 特異点を検出し、検出された特異点を抽出してもとの画像よりも解像度の低い別の画 像を生成する。ここで第 mレベルにおける各画像のサイズは 2mX 2m(0≤m≤n)とす る。特異点フィルタは次の 4種類の新たな階層画像を nから下がる方向で再帰的に構 築する。
[0019] [数 1] (τη,η) · i · ( (m+1,0) (m+1,0)、 - ( (m+1,0) fm+1,0) \\
Figure imgf000008_0001
P¾ = mi (S f ¾),^ ¾, ;:¾+1)))
Figure imgf000008_0002
(式 1 ) _ _ ゝ
[数 2]
Figure imgf000008_0003
とする。以降これら 4つの画像を副画像 (サブイメージ)と呼ぶ。 min max x+lをそれぞれ α及び j8と記述すると、副画像はそれぞれ以下のように記述できる。
τ-, (m, 0) ( ヽ ( ヽ (m+1, 0)
P = a ) a {y) p
P(m'1)=a(x) ^ (y)p(m+1'1)
P(m'2)=^ (x) a(y)p(m+1'2)
P(m'3)=^ (x) ^ (y)p(m+1'3)
[0020] すなわち、これらは aと 13のテンソル積のようなものと考えられる。副画像はそれぞ れ特異点に対応している。これらの式から明らかなように、特異点フィルタはもとの画 像について 2X2画素で構成されるブロックごとに特異点を検出する。その際、各プロ ックのふたつの方向、つまり縦と横について、最大画素値または最小画素値をもつ点 を探索する。画素値として、前提技術では輝度を採用するが、画像に関するいろいろ な数値を採用することができる。ふたつの方向の両方について最大画素値となる画 素は極大点、ふたつの方向の両方について最小画素値となる画素は極小点、ふた つの方向の一方について最大画素値となるとともに、他方について最小画素値とな る画素は鞍点として検出される。
[0021] 特異点フィルタは、各ブロックの内部で検出された特異点の画像 (ここでは 1画素) でそのブロックの画像 (ここでは 4画素)を代表させることにより、画像の解像度を落と す。特異点の理論的な観点力もすれば、 ex (X) a (y)は極小点を保存し、 β (X) β (y )は極大点を保存し、 a (χ) β (y)及び |8 (χ) a (y)は鞍点を保存する。
[0022] はじめに、マッチングをとるべき始点(ソース)画像と終点(デスティネーション)画像 に対して別々に特異点フィルタ処理を施し、それぞれ一連の画像群、すなわち始点 階層画像と終点階層画像を生成しておく。始点階層画像と終点階層画像は、特異点 の種類に対応してそれぞれ 4種類ずつ生成される。
[0023] この後、一連の解像度レベルの中で始点階層画像と終点階層画像のマッチングが とられていく。まず p(m' ωを用いて極小点のマッチングがとられる。次に、その結果に 基づき、 P(m' "を用いて鞍点のマッチングがとられ、 p(m' を用いて他の鞍点のマッチ ングがとられる。そして最後に p(m' 3)を用いて極大点のマッチングがとられる。
[0024] 図 1 (c)と図 1 (d)はそれぞれ図 1 (a)と図 1 (b)の副画像 ρ(5' ωを示している。同様に 、図 1 (e)と図 1 (f)は ρ(5' "、 01 (g)と図 1 (h)は ρ(5' 2)、図 1 (i)と図 1 (j)は ρ(5' 3)をそ れぞれ示している。これらの図からわかるとおり、副画像によれば画像の特徴部分の マッチングが容易になる。まず ρ(5' ωによって目が明確になる。目は顔の中で輝度の 極小点だ力 である。 ρ(5' "によれば口が明確になる。口は横方向で輝度が低いため である。 ρ(5' 2)によれば首の両側の縦線が明確になる。最後に、 ρ(5' 3)によって耳ゃ頰 の最も明るい点が明確になる。これらは輝度の極大点だ力もである。
[0025] 特異点フィルタによれば画像の特徴が抽出できるため、例えばカメラで撮影された 画像の特徴と、予め記録しておいたいくつかのオブジェクトの特徴を比較することに より、カメラに映った被写体を識別することができる。
[1. 3]画像間の写像の計算
[0026] 始点画像の位置 (i, j)の画素を ρω と書き、同じく終点画像の位置 (k, 1)の画素
, ])
を q(n) で記述する。 i, j, k, 1EIとする。画像間の写像のエネルギー(後述)を定義
(k, 1)
する。このエネルギーは、始点画像の画素の輝度と終点画像の対応する画素の輝度 の差、及び写像の滑ら力さによって決まる。最初に最小のエネルギーを持つ p(m' G)と q(m, 0)間の写像 f °) . p (m, o)→q (m, «が計算される。 f 0)に基づき、最小エネルギー を持つ P(m, 、 q(m' "間の写像 f(m, "が計算される。この手続は、 p(m¾と q(m¾の間の 写像 f(m' 3)の計算が終了するまで続く。各写像 ί(1η' ΰ = 0, 1, 2,…;)を副写像と呼ぶ ことにする。 の計算の都合のために、 iの順序は次式のように並べ替えることがで きる。並べ替えが必要な理由は後述する。
[0027] [数 3]
,び (り〕 (m ( )
Figure imgf000010_0001
P →マ
(式 3 )
ここで σ (i) e {0, 1, 2, 3}である。
[1. 3. 1]全単射
[0028] 始点画像と終点画像の間のマッチングを写像で表現する場合、その写像は両画像 間で全単射条件を満たすべきである。両画像に概念上の優劣はなぐ互いの画素が 全射かつ単射で接続されるべきだ力もである。し力しながら通常の場合とは異なり、こ こで構築すべき写像は全単射のデジタル版である。前提技術では、画素は格子点に よって特定される。
[0029] 始点副画像 (始点画像にっ 、て設けられた副画像)から終点副画像 (終点画像に っ ヽて設けられた副画像)への写像は、 f(m' s): l/2n"m X l/2n"m→l/2n"m X l/2n "m(s = 0, 1, · ··)によって表される。ここで、 f(m' s) (i, j) = (k, 1)は、始点画像の p(m' s) が終点画像の q(m' s) に写像されることを意味する。簡単のために、 f (i, j) = (k
(i, j) (k, 1)
, 1)が成り立つとき画素 q を q と記述する。
(k, 1) f(i, j)
[0030] 前提技術で扱う画素 (格子点)のようにデータが離散的な場合、全単射の定義は重 要である。ここでは以下のように定義する(i, i' , j, j ' , k, 1は全て整数とする)。まず 始めに、始点画像の平面において Rによって表記される各正方形領域、
Figure imgf000010_0002
(式 4 )
を考える(i=0, · ··, 2m— l、j = 0, · ··, 2m— 1)。ここで Rの各辺(エッジ)の方向を以 下のように定める。
[0031] [数 5]
(m,s) (m,3) {m,3) {m,S)
Figure imgf000010_0003
(式 5 ) この正方形は写像 fによって終点画像平面における四辺形に写像されなければな らない。 f(m.s) (R)によって示される四辺形、
[0032] [数 6]
Figure imgf000011_0001
は、以下の全単射条件を満たす必要がある。
1.四辺形 1"' s) (R)のエッジは互いに交差しない。
2. f(m's) (R)のエッジの方向は Rのそれらに等しい(図 2の場合、時計回り)。
3.緩和条件として収縮写像(リトラクシヨン: retractions)を許す。
[0033] 何らかの緩和条件を設けないかぎり、全単射条件を完全に満たす写像は単位写像 しかないためである。ここでは f(ms) (R)のひとつのエッジの長さが 0、すなわち f(ms) ( R)は三角形になってもよい。しかし、面積が 0となるような図形、すなわち 1点または 1 本の線分になってはならない。図 2 (R)がもとの四辺形の場合、図 2(A)と図 2(D)は 全単射条件を満たすが、図 2(B)、図 2(C)、図 2(E)は満たさない。
[0034] 実際のインプリメンテーションでは、写像が全射であることを容易に保証すベぐさら に以下の条件を課してもよい。つまり始点画像の境界上の各画素は、終点画像にお いて同じ位置を占める画素に写影されるというものである。すなわち、 f(i, j) = (i, j) ( ただし i=0, i=2m-l, j = 0, j = 2m— 1の 4本の線上)である。この条件を以下「付加 条件」とも呼ぶ。
[1.3.2]写像のエネルギー
[1.3.2.1]画素の輝度に関するコスト
[0035] 写像 fのエネルギーを定義する。エネルギーが最小になる写像を探すことが目的で ある。エネルギーは主に、始点画像の画素の輝度とそれに対応する終点画像の画素 の輝度の差で決まる。すなわち、写像 f(m's)の点 (i, j)におけるエネルギー C(m's)
(i, j) は次式によって定まる。
[0036] [数 7]
. ') = 1^¾))ー )12 (式 7 ) ここで、 V(p(m's) )及び V(q(m's) )はそれぞれ画素 p(m's) 及び q(m's) の 輝度である。 fのトータルのエネルギー c(m's)は、マッチングを評価するひとつの評価 式であり、つぎに示す c(m' s) の合計で定義できる。
(i,j)
[数 8]
0 = ∑ ∑ ) ぱ 8 )
i=Q j=0
[1.3.2.2]滑らかな写像のための画素の位置に関するコスト
[0037] 滑らかな写像を得るために、写像に関する別のエネルギー Dfを導入する。このエネ ルギ一は画素の輝度とは関係なぐ p(m' s) および q(m' s) の位置によって決まる (i
(i, j) f (i, j)
=0, ···, 2m-l, j = 0, ···, 2m - 1)。点 (i, j)における写像 f(m's)のエネルギー D(m's) は次式で定義される。
, ])
[0038] [数 9]
"(W)
Figure imgf000012_0001
卞 (") (式 9 ) ただし、係数パラメータ 7?は 0以上の実数であり、また、
[数 10]
Figure imgf000012_0002
/( ( 12 (式 1 o〉
[数 11] ||(/ — ( : )- ',/)— 川2
Figure imgf000012_0003
(式 1 1 ) とする。ここで、
[数 12]
Figure imgf000012_0004
(式丄 2 ) であり、 i, < 0および j, < 0に対して f (i,, j,)は 0と決める。 Eは (i, j)及び f (i, j)の距
0
離で決まる。 Eは画素があまりにも離れた画素へ写影されることを防ぐ。ただし Eは、
0 0 後に別のエネルギー関数で置き換える。 Eは写像の滑ら力さを保証する。 Eは、 p
1 1 の変位とその隣接点の変位の間の隔たりを表す。以上の考察をもとに、マッチングを 評価する別の評価式であるエネルギー Dは次式で定まる。 [0039] [数 13]
,'一 τη二 i j— 2m— 1
Figure imgf000013_0001
( ) (式 1 3 )
[1. 3. 2. 3]写像の総エネルギー
[0040] 写像の総エネルギー、すなわち複数の評価式の統合に係る総合評価式は λ C(m' s)
+ D(m' s)で定義される。ここで係数パラメータ λは 0以上の実数である。目的は総合 f f
評価式が極値をとる状態を検出すること、すなわち次式で示す最小エネルギーを与 える写像を見 、だすことである。
[0041] [数 14] mm λυ) ' + D) (式 1 4 )
[0042] λ =0及び 7? =0の場合、写像は単位写像になることに注意すべきである(すなわ ち、全ての i=0, · ··, 2m— 1及び j = 0, · ··, 2m— 1に対して f(m' s) (i, j) = (i, j)となる) 。後述のごとぐ本前提技術では最初に λ =0及び r? =0の場合を評価するため、写 像を単位写像力も徐々に変形していくことができる。仮に総合評価式の λの位置を 変えて C(m' s) + l D(m' s)と定義したとすれば、 λ =0及び r? =0の場合に総合評価
f f
式が c (m' s)だけになり、本来何等関連のない画素どうしが単に輝度が近いというだけ
f
で対応づけられ、写像が無意味なものになる。そうした無意味な写像をもとに写像を 変形していってもまったく意味をなさない。このため、単位写像が評価の開始時点で 最良の写像として選択されるよう係数パラメータの与えかたが配慮されている。
[0043] オプティカルフローもこの前提技術同様、画素の輝度の差と滑ら力さを考慮する。し かし、オプティカルフローは画像の変換に用いることはできない。オブジェクトの局所 的な動きしか考慮しな 、ためである。前提技術に係る特異点フィルタを用いることに よって大域的な対応関係を検出することができる。
[1. 3. 3]多重解像度の導入による写像の決定
[0044] 最小エネルギーを与え、全単射条件を満足する写像 f を多重解像度の階層を用
min
ヽて求める。各解像度レベルにぉ ヽて始点副画像及び終点副画像間の写像を計算 する。解像度の階層の最上位 (最も粗いレベル)からスタートし、各解像度レベルの 写像を、他のレベルの写像を考慮に入れながら決定する。各レベルにおける写像の 候補の数は、より高い、つまりより粗いレベルの写像を用いることによって制限される 。より具体的には、あるレベルにおける写像の決定に際し、それよりひとつ粗いレベル において求められた写像が一種の拘束条件として課される。
まず、
[数 15]
', j") = ([i],[i]) (式 1 5)
が成り立つとき、 p(m_1, s) 、 q(m_1' をそれぞれ p(m, 、 q(m' の parent α',Γ) (i'.j') (i,j) (i,j)
と呼ぶことにする。 [x]は χを越えな!/、最大整数である。また p(m' s) 、 q(m' s) をそ
(i, j) (i, j) れぞれ p(m_1's) 、 q(m_1's) の childと呼ぶ。関数 parentG, j)は次式で定義さ
(ί', j') (i'.j')
れる。
[数 16] parent{i,j) = ([-j, [^\) (式 1 6 )
[0045] p(m' s) と q(m' s) の間の写像 f (m' s)は、エネルギー計算を行って最小になったも
(i, j) (k, 1)
のを見つけることで決定される。 f(m's)(i, j) = (k, 1)の値は f(m_1's)(m=l, 2, ···, n) を用いることによって、以下のように決定される。まず、 q(m's)
(k, 1)は次の四辺形の内部 になければならな!/ヽと ヽぅ条件を課し、全単射条件を満たす写像のうち現実性の高 いものを絞り込む。
[0046] [数 17]
(m,s) tm,s) (m,S) ( ,a)
(式 1 7)
_ _ ゝ
[数 18]
g{m's)( ) = f{m~ 3){parent(i )) + ^'^(paren^ ) + (1,1)))
(式 1 8 ) である。こうして定めた四辺形を、以下 p(m's) ..の相続 (inherited)四辺形と呼ぶこと にする。相続四辺形の内部において、エネルギーを最小にする画素を求める。
[0047] 図 3は以上の手順を示している。同図において、始点画像の A, B, C, Dの画素は 、第 m— 1レベルにおいてそれぞれ終点画像の Α', Β', C, D,へ写影される。画素 p(m's) は、相続四辺形 A'B'C'D'の内部に存在する画素 q(m's) へ写影され
(i, j) f(m) (i, j)
なければならない。以上の配慮により、第 m— 1レベルの写像から第 mレベルの写像 への橋渡しがなされる。
[0048] 先に定義したエネルギー Eは、第 mレベルにおける副写像 f (m' °)を計算するため
0
に、次式に置き換える。
[数 19]
Εο, = \\ ^ ^) -9^ )\\2 (式 1 9 )
また、副写像 f (m' s)を計算するためには次式を用いる。
[数 20]
¾ = ― /( , i)H2 ≤り 2 0 )
[0049] こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。式 20により 、異なる特異点に対応する副写像が、副写像どうしの類似度が高くなるように同一レ ベル内で関連づけられる。式 19は、 f(m's) (i, j)と、第 m— 1レベルの画素の一部と考 えた場合の (i, j)が射影されるべき点の位置との距離を示して 、る。
[0050] 仮に、相続四辺形 A'B'C'D'の内部に全単射条件を満たす画素が存在しない場 合は以下の措置をとる。まず、 A'B'C'D'の境界線力もの距離が L (始めは L=l)で ある画素を調べる。それらのうち、エネルギーが最小になるものが全単射条件を満た せば、これを f(m's) (i, j)の値として選択する。そのような点が発見される力、または L がその上限の L(m)maxに到達するまで、 Lを大きくしていく。 L(m)maxは各レベル mに 対して固定である。そのような点が全く発見されない場合、全単射の第 3の条件を一 時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、 f(m' s) (i, j)を 決定する。それでも条件を満たす点が見つ力 ない場合、つぎに全単射の第 1及び 第 2条件を外す。
[0051] 多重解像度を用いる近似法は、写像が画像の細部に影響されることを回避しつつ 、画像間の大域的な対応関係を決定するために必須である。多重解像度による近似 法を用いなければ、距離の遠い画素間の対応関係を見いだすことは不可能である。 その場合、画像のサイズはきわめて小さなものに限定しなければならず、変化の小さ な画像しか扱うことができない。さらに、通常写像に滑らかさを要求するため、そうした 画素間の対応関係を見つけに《している。距離のある画素から画素への写像のェ ネルギ一は高いためである。多重解像度を用いた近似法によれば、そうした画素間 の適切な対応関係を見いだすことができる。それらの距離は、解像度の階層の上位 レベル(粗 、レベル)にお!/、て小さ!/、ためである。
[1. 4]最適なパラメータ値の自動決定
[0052] 既存のマッチング技術の主な欠点のひとつに、パラメータ調整の困難さがある。大 抵の場合、パラメータの調整は人手作業によって行われ、最適な値を選択することは きわめて難しい。前提技術に係る方法によれば、最適なパラメータ値を完全に自動 決定することができる。
[0053] 前提技術に係るシステムはふたつのパラメータ、 λ及び 7?を含む。端的にいえば、 λは画素の輝度の差の重みであり、 7}は写像の剛性を示している。これらのパラメ一 タの値は初期値が 0であり、まず =0に固定して λを 0から徐々に増加させる。 λの 値を大きくしながら、し力も総合評価式 (式 14)の値を最小にする場合、各副写像に 関する c(m' s)の値は一般に小さくなつていく。このことは基本的にふたつの画像がよ
f
りマッチしなければならないことを意味する。しかし、えが最適値を超えると以下の現 象が発生する。
1.本来対応すべきではない画素どうしが、単に輝度が近いというだけで誤って対 応づけられる。
2.その結果、画素どうしの対応関係がお力しくなり、写像がくずれはじめる。
3.その結果、式 14において D(m' s)が急激に増加しょうとする。
f
4.その結果、式 14の値が急激に増カロしょうとするため、 D(m' s)の急激な増加を抑制
f
するよう f(m' s)が変化し、その結果 C(m' s)が増加する。
f
[0054] したがって、 λを増加させながら式 14が最小値をとるという状態を維持しつつ C(m' s) が減少力も増加に転じる閾値を検出し、そのえを 7? =0における最適値とする。つぎ に r?を少しずつ増やして C(m' s)の挙動を検査し、後述の方法で 7?を自動決定する。
f
その 7?に対応して λも決まる。
[0055] この方法は、人間の視覚システムの焦点機構の動作に似ている。人間の視覚シス テムでは、一方の目を動かしながら左右両目の画像のマッチングがとられる。ォブジ ェタトがはっきりと認識できるとき、その目が固定される。
[1. 4. 1]えの動的決定
[0056] λは 0から所定の刻み幅で増加されていき、えの値が変わる度に副写像が評価さ
(m, s)
れる。式 14のごとく、総エネルギーはえ C D(ms)によって定義される。式 9の D
(m, s)
は滑ら力さを表すもので、理論的には単位写像の場合に最小になり、写像が歪 むほど Eも Eも増加していく。 Eは整数であるから、 D(m' s)の最小刻み幅は 1である
(m, s)
二のため、現在の の変化 (減少量)が 1以上でなければ、写像を変化さ
(i, j)
せることによって総エネルギーを減らすことはできない。なぜなら、写像の変化に伴つ て D(m' s)は 1以上増加するため、 λ C(m' s) 力 Si以上減少しない限り総エネルギー f (i, j)
は減らないためである。
(m, s)
[0057] 二の条件のもと、 えの増加に伴い、正常な場合に C が減少することを示す。
(i, j)
(m, s) (m, s)
C のヒストグラムを h(i)と記述する。 Mi)はエネルギー c が eある画素
(i, j) (i, j) の数である。 λ ΐ≥ιが成り立つため 例えば 1 = 1/ λの場合を考える。 えがえ からえ まで微小量変化するとき、
2
[数 21]
Α = ∑
Figure imgf000017_0001
(式
で示される Α個の画素力
[数 22]
Figure imgf000017_0002
(式 2 2 )
のエネルギーを持つより安定的な状態に変化する。ここでは仮に、これらの画素のェ ネルギ一がすべてゼロになると近似している。この式は C(m' s)の値が、 [数 23] dC{ 3) = -i (式 2 3 )
だけ変化することを示し、その結果、
[数 24] dC[^s) ― h{l)
一^ (式 24)
が成立する。 h(l) >0であるから、通常 c(m's)は減少する。しかし、
f λが最適値を越え ようとするとき、上述の現象、つまり c(m's)の増加が発生する。この現象を検出するこ f
とにより、えの最適値を決定する。
なお、 H(h>0)及び kを定数とするとき、
[0058] [数 25]
H
h{l) = Η = (式 2 5) と仮定すれば、
[0059] [数 26] d\ 2 (式 26). が成り立つ。このとき k≠— 3であれば、
[数 27]
C{ ,a) = G + 〔式 2 7)
(3/2 + fc/2)^3/m/2
となる。これが c(m's)の一般式である
f (Cは定数)。
[0060] えの最適値を検出する際、さらに安全を見て、全単射条件を破る画素の数を検査 してもよい。ここで各画素の写像を決定する際、全単射条件を破る確率を pと仮定す
0 る。この場合、
[0061] [数 28] d = ^ (式 28)
8λ λ3/2 が成立して 、るため、全単射条件を破る画素の数は次式の率で増加する。
[数 29]
p一 k(l)Po
(式 2 9 )
従って、
[数 30] ( = 1 (式3 0 )
は定数である。仮に Ml) =Hlkを仮定するとき、例えば、
[0062] [数 31]
SoA3/3+t/2 = (式 3 1 )
は定数になる。しかしえが最適値を越えると、上の値は急速に増加する。この現象を 検出し、 B λ
0 3/2+k/2Z2mの値が異常値 Β を越えるかどうかを検査し、 λの最適
Othres
値を決定することができる。同様に、 B λ
1 3/2+k/2Z2mの値が異常値 Β を越える
lthres
力どうかを検査することにより、全単射の第 3の条件を破る画素の増加率 Bを確認す る。ファクター 2mを導入する理由は後述する。このシステムはこれら 2つの閾値に敏感 ではない。これらの閾値は、エネルギー 1"' s)の観察では検出し損なった写像の過
f
度の歪みを検出するために用いることができる。
[0063] なお実験では、副写像 f (m' s)を計算する際、もし λが 0. 1を越えたら f (m' s)の計算は 止めて f(m' s+1)の計算に移行した。え〉 0. 1のとき、画素の輝度 255レベル中のわず 力 「3」の違いが副写像の計算に影響したためであり、 λ >0. 1のとき正しい結果を得 ることは困難だったためである。
[1. 4. 2]ヒス卜グラム h (l)
[0064] C(ms)の検査はヒストグラム h (1)に依存しな 、。全単射及びその第 3の条件の検査
f
の際、 h (1)に影響を受けうる。実際に( λ , C(m' s) )をプロットすると、 kは通常 1付近に
f
ある。実験では k= lを用い、 B X 2t λ 2を検査した。仮に kの本当の値が 1未満で
0 1
あれば、 B λ 2と B λ 2は定数にならず、ファクター λ (1_k)/2に従って徐々に増加する
0 1
。 h(l)が定数であれば、例えばファクタ一はえ 1/2である。しかし、こうした差は閾値 B thresを正しく設定することによって吸収することができる。
[0065] ここで次式のごとく始点画像を中心が(X , y )、半径 rの円形のオブジェクトであると
0 0
仮定する。
[数 32]
ψ ^ - χ0)2 + 0 - νο)2) - o)2 + U - yD < r)
0 {otherwise) '.
(式 3 2 )
'方、終点画像は、次式のごとく中心 (X , y )、半径カ^のオブジェクトであるとする
[0066] [数 33]
. - χ γ + 一 yi ≤ τ)
_
Figure imgf000020_0001
(otherwise)
(式 3 3 )
[0067] ここで c (x)は c (x) =xkの形であるとする。中心 (X , y )及び (X , y )が十分遠い場
0 0 1 1
合、ヒストグラム h(l)は次式の形となる。
[数 34]
(り c ^ ( ) (式 3 4 )
[0068] k= 1のとき、画像は背景に埋め込まれた鮮明な境界線を持つオブジェクトを示す。
このオブジェクトは中心が暗ぐ周囲にいくに従って明るくなる。 k=— lのとき、画像 は曖昧な境界線を持つオブジェクトを表す。このオブジェクトは中心が最も明るぐ周 囲にいくに従って暗くなる。一般のオブジェクトはこれらふたつのタイプのオブジェクト の中間にあると考えてもさして一般性を失わない。したがって、 kは一 l≤k≤lとして 大抵の場合をカバーでき、式 27が一般に減少関数であることが保障される。
[0069] なお、式 34からわ力るように、 rは画像の解像度に影響されること、すなわち rは 2m に比例することに注意すべきである。このために [1. 4. 1]においてファクター 2mを 導入した。
[1. 4. 3] 7?の動的決定
[0070] ノ メータ 7?も同様の方法で自動決定できる。はじめに 7? =0とし、最も細かい解像 度における最終的な写像 f W及びエネルギー C(n)を計算する。つづいて、 7?をある値
Δ r?だけ増加させ、再び最も細かい解像度における最終写像 f(n)及びエネルギー C( Π)を計算し直す。この過程を最適値が求まるまで続ける。 7?は写像の剛性を示す。次 f
式の重みだからである。
[0071] [数 35] = II/<W , Λ— /(m's1 , li2
(式 3 5 )
[0072] ηが 0のとき、 D(n)は直前の副写像と無関係に決定され、現在の副写像は弾性的
f
に変形され、過度に歪むことになる。一方、 r?が非常に大きな値のとき、 D(n)は直前
f の副写像によってほぼ完全に決まる。このとき副写像は非常に剛性が高ぐ画素は同 じ場所に射影される。その結果、写像は単位写像になる。 ηの値が 0から次第に増え るとき、後述のごとく C(n)は徐々に減少する。しかし 7?の値が最適値を越えると、図 4 に示すとおり、エネルギーは増加し始める。同図の X軸は 7?、 Y軸は Cである。
[0073] この方法で C(n)を最小にする最適な 7?の値を得ることができる。しかし、 λの場合 に比べていろいろな要素が計算に影響する結果、 C(n)は小さく揺らぎながら変化す
f
る。えの場合は、入力が微小量変化するたびに副写像を 1回計算しなおすだけだが 、 r?の場合はすべての副写像が計算しなおされるためである。このため、得られた C( n) fの値が最小であるかどうかを即座に判断することはできない。最小値の候補が見つ かれば、さらに細かい区間を設定することによって真の最小値を探す必要がある。
[1. 5]スーパーサンプリング
[0074] 画素間の対応関係を決定する際、自由度を増やすために、 f(m' s)の値域を R XRに 拡張することができる (Rは実数の集合)。この場合、終点画像の画素の輝度が補間 され、非整数点、
[0075] [数 36]
' • s) (i,j) ) (式 3 6 )
における輝度を持つ f(m' s)が提供される。つまりスーパーサンプリングが行われる。実 験では、 f(m' s)は整数及び半整数値をとることが許され、
[数 37] (式 3 7 )
Figure imgf000022_0001
は、
[数 38]
(V(& + ^(¾ ( ) )) 2 (. 3 8 )
によって与えられた。
[1. 6]各画像の画素の輝度の正規ィ匕
[0076] 始点画像と終点画像がきわめて異なるオブジェクトを含んで 、るとき、写像の計算 に元の画素の輝度がそのままでは利用しにくい。輝度の差が大きいために輝度に関 するエネルギー c(m' s)が大きくなりすぎ、正しい評価がしづらいためである。
f
[0077] 例えば、人の顔と猫の顔のマッチングをとる場合を考える。猫の顔は毛で覆われて おり、非常に明るい画素と非常に暗い画素が混じっている。この場合、ふたつの顔の 間の副写像を計算するために、まず副画像を正規化する。すなわち、最も暗い画素 の輝度を 0、最も明るいそれを 255に設定し、他の画素の輝度は線形補間によって 求めておく。
[1. 7]インプリメンテーション
[0078] 始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用いる。始め に、 1番上の左端の画素 (i, j) = (0, 0)について f(m' s)の値を決定する。次に iを 1ず つ増やしながら各 f (m' s) (i, j)の値を決定する。 iの値が画像の幅に到達したとき、 jの 値を 1増やし、 iを 0に戻す。以降、始点画像のスキャンに伴い f(m' s) (i, j)を決定して いく。すべての点について画素の対応が決まれば、ひとつの写像 f(m' s)が決まる。 ある p について対応点 q が決まれば、つぎに p の対応点 q が決めら
(i, j) f (i, j) (i, j + 1) f (i, j + 1)
れる。この際、 q の位置は全単射条件を満たすために、 q の位置によって制
f (i, j + 1) f (i, j)
限される。したがって、先に対応点が決まる点ほどこのシステムでは優先度が高くなる
。つねに (0, 0)が最も優先される状態がつづくと、求められる最終の写像に余計な 偏向が加わる。本前提技術ではこの状態を回避するために、 f(m' s)を以下の方法で 決めていく。
[0079] まず(s mod 4)が 0の場合、 (0, 0)を開始点と U及び jを徐々に増やしながら決め ていく。 (s mod 4)が 1の場合、最上行の右端点を開始点とし、 iを減少、 jを増加させ ながら決めていく。 (s mod 4)が 2のとき、最下行の右端点を開始点とし、 i及び jを減 少させながら決めていく。 (s mod 4)が 3の場合、最下行の左端点を開始点とし、 iを 増カロ、 jを減少させながら決めていく。解像度が最も細かい第 nレベルには副写像とい う概念、すなわちパラメータ sが存在しないため、仮に s = 0及び s = 2であるとしてふた つの方向を連続的に計算した。
[0080] 実際のインプリメンテーションでは、全単射条件を破る候補に対してペナルティを与 えることにより、候補 (k, 1)の中からできる限り全単射条件を満たす f(m' s) (i, j) (m=0 , · · ·, η)の値を選んだ。第 3の条件を破る候補のエネルギー D (k、 1)には φを掛け、 一方、第 1または第 2の条件を破る候補には φを掛ける。今回は φ = 2、 φ = 10000 0を用いた。
[0081] 前述の全単射条件のチェックのために、実際の手続として (k, l) =f(m' s) (i, j)を決 定する際に以下のテストを行った。すなわち f(m' s) (i, j)の相続四辺形に含まれる各格 子点 (k, 1)に対し、次式の外積の z成分が 0以上になるかどうかを確かめる。
[数 39]
W = A ^ (式 3 9 )
こ _ ゝ
[数 40]
Ά _ 3 ') ( 一 (式 4 0 )
[数 41]
Ώ一 m^a) J^)
D― - i)Y(W)
(式 4 1 )
である(ここでベクトルは三次元ベクトルとし、 z軸は直交右手座標系にお 、て定義さ れる)。もし Wが負であれば、その候補については D(m' s) 〖こ φを掛けることによつ
(k, 1)
てペナルティを与え、できるかぎり選択しな 、ようにする。
[0082] 図 5 (a)、図 5 (b)はこの条件を検査する理由を示している。図 5 (a)はペナルティの ない候補、図 5(b)はペナルティがある候補をそれぞれ表す。隣接画素 (i, j + 1)に 対する写像 f (m' s) (i, j + 1)を決定する際、 Wの z成分が負であれば始点画像平面上 にお ヽて全単射条件を満足する画素は存在しな!ヽ。なぜなら、 q(m' s) は隣接する
(k, 1)
四辺形の境界線を越えるためである。
[1. 7. 1]副写像の順序
[0083] インプリメンテーションでは、解像度レベルが偶数のときには σ (0) =0、 σ (1) = 1 、 σ (2) =2、 σ (3) =3、 σ (4) =0を用い、奇数のときは σ (0) =3、 σ (1) =2、 σ ( 2) =1、 σ (3) =0、 σ (4) =3を用いた。このことで、副写像を適度にシャッフルした 。なお、本来副写像は 4種類であり、 sは 0〜3のいずれかである。しかし、実際には s =4に相当する処理を行った。その理由は後述する。
[1.8]補間計算
[0084] 始点画像と終点画像の間の写像が決定された後、対応しあう画素の輝度が補間さ れる。実験では、トライリニア補間を用いた。始点画像平面における正方形 ρ ρ
(i, j) (i + 1, p p が終点画像平面上の四辺形 q q q q に射影さ j) (i, j + l) (i + 1, j + 1) f(i, j) f(i+l, j) f (i, j + D f (i+1, j + 1) れると仮定する。簡単のため、画像間の距離を 1とする。始点画像平面からの距離が t(0≤t≤l)である中間画像の画素 r(x, y, t) (0≤x≤N— 1, 0≤y≤M— 1)は以 下の要領で求められる。まず画素 r(x, y, t)の位置(ただし x, y, tER)を次式で求 める。
[0085] [数 42]
= (1 - dx)(l - dy)(l - t)(i ) + (1 - dx)(l - dy)tf(i,j)
+ dx(l - y)(l - + l ) + dx(l - dy)tf(i + l,j)
+ (1— dx)dy{l一 t)(i,j + 1) + (1 - dx)dytf(i,j + 1)
+ dxdy{l一 t){i + 1)+ dxdytf(i + l,j + 1)
(式 4 2 )
つづいて r(x, y, t)における画素の輝度が次の式を用いて決定される
[0086] [数 43] V{r{x,y,i)) - (1- dx)(l― dy){l一 i)V(P(£J)) + (1 - dx)(l - dy)tV{q ))
+
+
+
Figure imgf000025_0001
(式 4 3 ) ' ここで dx及び dyはパラメータであり、 0から 1まで変化する。
[1.9]拘束条件を課したときの写像
[0087] V、ままでは拘束条件力 Sレ、つさ 、存在しな 、場合の写像の決定を述べた。しかし、始 点画像と終点画像の特定の画素間に予め対応関係が規定されているとき、これを拘 束条件としたうえで写像を決定することができる。
[0088] 基本的な考えは、まず始点画像の特定の画素を終点画像の特定の画素に移す大 まかな写像によって始点画像を大まかに変形し、しかる後、写像 fを正確に計算する
[0089] まず始めに、始点画像の特定の画素を終点画像の特定の画素に射影し、始点画 像の他の画素を適当な位置に射影する大まかな写像を決める。すなわち、特定の画 素に近い画素は、その特定の画素が射影される場所の近くに射影されるような写像 である。ここで第 mレベルの大まかな写像を F(m)と記述する。
[0090] 大まかな写像 Fは以下の要領で決める。まず、いくつかの画素について写像を特定 する。始点画像について n個の画素、
s
[数 44]
P(i0j0)? (¾lJl)' ···, P(ins- jns-l)
(式 4 4) を特定するとき、以下の値を決める。
[数 45] (式 4 5)
始点画像の他の画素の変位量は、 P (h=0, ···, n 1)の変位に重み付けを
(ih, jh s
して求められる平均である。すなわち画素 p は、終点画像の以下の画素に射影さ れる。
[0092] [数 46]
Figure imgf000026_0001
(式 4 6) こ し^ ~ゝ _、 f
[数 47] weightk{i ) =
total wetan i,, ) (式 47)
[数 48] total we%gnt\%^j) = > 一 んー (式 4 8)
ん =o
とする。
[0093] つづ 、て、 F(m)に近 、候補写像 fがより少な 1、エネルギーを持つように、その
(m, s)
のエネルギー D(m's) を変更する。正確には、が1"' s' . Jま、
(i, Jリ
[数 49] v(i ) ―
Figure imgf000026_0002
τ リ + L
(式 49)
である。ただし、
[数 50]
Figure imgf000027_0001
(式 5 0 ) であり、 κ , ≥0とする。最後に、前述の写像の自動計算プロセスにより、 fを完全 決定する。
ここで、 f (ms) (i,j)が F(m) (i,j)に十分近いとき、つまりそれらの距離が、
[数 51]
(式 5 1 )
Figure imgf000027_0002
以内であるとき、 E (m' s) 力^になることに注意すべきである。そのように定義した理
2 (i, j)
由は、各 f(m' s) (i,j)が F(m) (i,j)に十分近い限り、終点画像において適切な位置に落ち 着くよう、その値を自動的に決めたいためである。この理由により、正確な対応関係を 詳細に特定する必要がなぐ始点画像は終点画像にマッチするように自動的にマツ ビングされる。
[2]具体的な処理手順
[1]の各要素技術による処理の流れを説明する。
[0095] 図 6は前提技術の全体手順を示すフローチャートである。同図のごとぐまず多重解 像度特異点フィルタを用いた処理を行!ヽ(S 1)、つづ ヽて始点画像と終点画像のマツ チングをとる(S2)。ただし、 S2は必須ではなく、 S1で得られた画像の特徴をもとに画 像認識などの処理を行ってもょ 、。
[0096] 図 7は図 6の S1の詳細を示すフローチャートである。ここでは S2で始点画像と終点 画像のマッチングをとることを前提としている。そのため、まず特異点フィルタによって 始点画像の階層化を行い(S 10)、一連の始点階層画像を得る。つづいて同様の方 法で終点画像の階層化を行い(S 11)、一連の終点階層画像を得る。ただし、 S10と S 11の順序は任意であるし、始点階層画像と終点階層画像を並行して生成して 、く ことちでさる。
[0097] 図 8は図 7の S10の詳細を示すフローチャートである。もとの始点画像のサイズは 2n
X 2nとする。始点階層画像は解像度が細かいほうから順に作られるため、処理の対 象となる解像度レベルを示すパラメータ mを nにセットする(S100)。つづいて第 mレ ベルの画像 ρ(κι'ω、 p ^ p(m'2)、 p(m'3)から特異点フィルタを用いて特異点を検出し (S101)、それぞれ第 m— 1レベルの画像 p(m_1'。)、 p(m_1' υ、 p(m_1' 2)、 p(m_1'3)を生 成する(S102)。ここでは m=nであるため、 p(m' )=p(m' =ρ(ιη' 2)=p(m3)=p(n)で あり、ひとつの始点画像力も 4種類の副画像が生成される。
[0098] 図 9は第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示 している。同図の数値は各画素の輝度を示す。同図の は 〜 の っ の画像を象徴するもので、 p(m_1'G)を生成する場合には、 p(m's)は p(m'G)であると考え る。 [1.2]で示した規則により、 p(m_1' )は例えば同図で輝度を記入したブロックにつ V、て、そこに含まれる 4画素のうち「3」、 p(m_1' "は「8」、 p(m_1' 2)は「6」、 p(m_1' 3)を「1 0」をそれぞれ取得し、このブロックをそれぞれ取得したひとつの画素で置き換える。 したがって、第 m— 1レベルの副画像のサイズは 2m_1 X 2m_1になる。
[0099] つづいて mをデクリメントし(図 8の S103)、 mが負になっていないことを確認し(SI 04)、 S101に戻ってつぎに解像度の粗い副画像を生成していく。この繰り返し処理 の結果、 m=0、すなわち第 0レベルの副画像が生成された時点で S10が終了する。 第 0レベルの副画像のサイズは 1 X 1である。
[0100] 図 10は S 10によって生成された始点階層画像を n= 3の場合について例示してい る。最初の始点画像のみが 4つの系列に共通であり、以降特異点の種類に応じてそ れぞれ独立に副画像が生成されていく。なお、図 8の処理は図 7の S11にも共通であ り、同様の手順を経て終点階層画像も生成される。以上で図 6の S1による処理が完 了する。
[0101] 前提技術では、図 6の S2に進むためにマッチング評価の準備をする。図 11はその 手順を示している。同図のごとぐまず複数の評価式が設定される(S30)。 [1.3.2 . 1]で導入した画素に関するエネルギー C(m's)と [1.3.2.2]で導入した写像の滑 f
らかさに関するエネルギー D(m's)がそれである。つぎに、これらの評価式を統合して f
総合評価式を立てる(S31)。 [1.3.2.3]で導入した総エネルギーえ C(m's) +D(m' f s)がそれであり、 [1.3.2.2]で導入した r?を用いれば、
f
[0102] [数 52]
∑∑ C '、 (i , J) + Ε。 , =) (i , j} + E l s) となる。ただし、総和は i、; jについてそれぞれ 0、 1· ··、 2m— 1で計算する。以上でマツ チング評価の準備が整う。
[0103] 図 12は図 6の S2の詳細を示すフローチャートである。 [1]で述べたごとぐ始点階 層画像と終点階層画像のマッチングは互いに同じ解像度レベルの画像どうしでとら れる。画像間の大域的なマッチングを良好にとるために、解像度が粗いレベルから順 にマッチングを計算する。特異点フィルタを用いて始点階層画像および終点階層画 像を生成して ヽるため、特異点の位置や輝度は解像度の粗 ヽレベルでも明確に保 存されており、大域的なマッチングの結果は従来に比べて非常に優れたものになる。
[0104] 図 12のごとぐまず係数パラメータ 7?を 0、レベルパラメータ mを 0に設定する(S20) 。つづいて、始点階層画像中の第 mレベルの 4つの副画像と終点階層画像中の第 m レベルの 4つの副画像のそれぞれの間でマッチングを計算し、それぞれ全単射条件 を満たし、かつエネルギーを最小にするような 4種類の副写像 f(m' s) (s = 0, 1, 2, 3) を求める(S21)。全単射条件は [1. 3. 3]で述べた相続四辺形を用いて検査される 。この際、式 17、 18が示すように、第 mレベルにおける副写像は第 m—lレベルのそ れらに拘束されるため、より解像度の粗いレベルにおけるマッチングが順次利用され ていく。これは異なるレベル間の垂直的参照である。なお、いま m=0であってそれよ り粗 、レベルはな 、が、この例外的な処理は図 13で後述する。
一方、同一レベル内における水平的参照も行われる。 [1. 3. 3]の式 20のごとぐ f(m ' 3)は f(m2)に、 f(m2)は f(m, "に、 f(mυは f(m, °)に、それぞれ類似するように決める。そ の理由は、特異点の種類が違っても、それらがもともと同じ始点画像と終点画像に含 まれている以上、副写像がまったく異なるという状況は不自然だ力 である。式 20か らゎ力るように、副写像どうしが近いほどエネルギーは小さくなり、マッチングが良好と みなされる。
[0105] なお、最初に決めるべき f(m' G)については同一のレベルで参照できる副写像がない ため、式 19に示すごとくひとつ粗いレベルを参照する。ただし、実験では f(m' 3)まで求 まった後、これを拘束条件として ί(1η' ωを一回更新するという手続をとつた。これは式 2 0に s=4を代入し、 f(m' 4)を新たな f(m' G)とすることに等しい。产, と , の関連度が 低くなり過ぎる傾向を回避するためであり、この措置によって実験結果がより良好にな つた。この措置にカ卩え、実験では [1. 7. 1]に示す副写像のシャッフルも行った。これ も本来特異点の種類ごとに決まる副写像どうしの関連度を密接に保つ趣旨である。ま た、処理の開始点に依存する偏向を回避するために、 sの値にしたがって開始点の 位置を変える点は [1. 7]で述べたとおりである。
[0106] 図 13は第 0レベルにおいて副写像を決定する様子を示す図である。第 0レベルで は各副画像がただひとつの画素で構成されるため、 4つの副写像 ί( ' s)はすべて自動 的に単位写像に決まる。図 14は第 1レベルにおいて副写像を決定する様子を示す 図である。第 1レベルでは副画像がそれぞれ 4画素で構成される。同図ではこれら 4 画素が実線で示されている。いま、 p (1' s)の点 Xの対応点を q(1' s)の中で探すとき、以 下の手順を踏む。
1.第 1レベルの解像度で点 Xの左上点 a、右上点 b、左下点 c、右下点 dを求める。
[0107] 2.点 a〜dがひとつ粗いレベル、つまり第 0レベルにおいて属する画素を探す。図 1
4の場合、点 a〜dはそれぞれ画素 A〜Dに属する。ただし、画素 A〜Cは本来存在し ない仮想的な画素である。
[0108] 3.第 0レベルですでに求まっている画素 A〜Dの対応点 A,〜D,を q(1' s)の中にプ ロットする。画素 A'〜C 'は仮想的な画素であり、それぞれ画素 A〜Cと同じ位置にあ るちのとする。
[0109] 4.画素 Aの中の点 aの対応点 a'が画素 A,の中にあるとみなし、点 a'をプロットする
。このとき、点 aが画素 Aの中で占める位置(この場合、右下)と、点 a'が画素 A'の中 で占める位置が同じであると仮定する。
5. 4と同様の方法で対応点 b '〜d 'をプロットし、点 a'〜d 'で相続四辺形を作る。
[0110] 6.相続四辺形の中でエネルギーが最小になるよう、点 Xの対応点 x 'を探す。対応 点 x 'の候補として、例えば画素の中心が相続四辺形に含まれるものに限定してもよ い。図 14の場合、 4つの画素がすべて候補になる。
[0111] 以上がある点 Xの対応点の決定手順である。同様の処理を他のすべての点につい て行い、副写像を決める。第 2レベル以上のレベルでは、次第に相続四辺形の形が 崩れて 、くと考えられるため、図 3に示すように画素 A'〜D 'の間隔が空 ヽて 、く状 況が発生する。 [0112] こうして、ある第 mレベルの 4つの副写像が決まれば、 mをインクリメントし(図 12の S 22)、 m力^!を超えて!/、な! /、ことを確力めて(S23)、 S21に戻る。以下、 S21に戻るた びに次第に細かい解像度のレベルの副写像を求め、最後に S21に戻ったときに第 n レベルの写像 f(n)を決める。この写像は 7? =0に関して定まったものであるから、 f(n) ( r? =0)と書く。
[0113] つぎに異なる 7?に関する写像も求めるベぐ 7?を Δ 7?だけシフトし、 mをゼロクリアす る(S24)。新たな 7?が所定の探索打切り値 7? を超えていないことを確認し (S25)
max
、 S21に戻り、今回の 7?に関して写像 f(n) ( 7? = Δ 7? )を求める。この処理を繰り返し、 S21で f(n) =i A 7? ) (i=0, 1, · · ·)を求めていく。 ηが η を超えたとき S26に進
max
み、後述の方法で最適な r? = r? を決定し、 f(n) ( η = η )を最終的に写像 f (n)とす
opt opt
る。
[0114] 図 15は図 12の S21の詳細を示すフローチャートである。このフローチャートにより、 ある定まった r?について、第 mレベルにおける副写像が決まる。副写像を決める際、 前提技術では副写像ごとに最適な λを独立して決める。
[0115] 同図のごとぐまず sとえをゼロクリアする(S210)。つぎに、そのときのえについて( および暗に 7?について)エネルギーを最小にする副写像 f(m' s)を求め(S211)、これ を f (m' s) ( λ =0)と書く。異なる λに関する写像も求めるベぐ λを Δ λだけシフトし、 新たなえが所定の探索打切り値え を超えていないことを確認し (S213)、 S211に
max
戻り、以降の繰り返し処理で产' 3) (ぇ= 1 ぇ)(1= 0, 1 , ···)を求める。えがえ を
max 超えたとき S214に進み、最適な λ = λ を決定し、 &- s) ( = λ )を最終的に写
opt opt
像 f(m' s)とする (S214)。
[0116] つぎに、同一レベルにおける他の副写像を求めるベぐ λをゼロクリアし、 sをインク リメントする(S215)。 sが 4を超えていないことを確認し(S216)、 S211に戻る。 s=4 になれば上述のごとく f(m' 3)を利用して f (m' ωを更新し、そのレベルにおける副写像の 決定を終了する。
[0117] 図 16は、ある mと sについて λを変えながら求められた f(m' s) ( =i A λ ) (i=0, 1, …;)に対応するエネルギー C(m' s)の挙動を示す図である。 [1. 4]で述べたとおり、 λ
f
が増加すると通常 c(m's)は減少する。しかし、えが最適値を超えると c(m's)は増加に 転じる。そこで本前提技術では c(m' s)が極小値をとるときの λをえ と決める。同図 f opt
のように λ > λ の範囲で再度 c(ms)が小さくなつていつても、その時点ではすでに opt f
写像がくずれていて意味をなさないため、最初の極小点に注目すればよい。 λ
optは 副写像ごとに独立して決めて 、き、最後に f (n)につ 、てもひとつ定まる。
[0118] 一方、図 17は、 7?を変えながら求められた f(n) ( r? =1Δ r? ) (i = 0, 1, · · · )に対応す るエネルギー C(n)の挙動を示す図である。ここでも ηが増加すると通常 C(n)は減少 f f するが、 r?が最適値を超えると C(n)は増加に転じる。そこで C(n)が極小値をとるとき f f
の ηを η と決める。図 17は図 4の横軸のゼロ付近を拡大した図と考えてよい。 η opt opt が決まれば f(n)を最終決定することができる。
[0119] 以上、本前提技術によれば種々のメリットが得られる。まずエッジを検出する必要が ないため、エッジ検出タイプの従来技術の課題を解消できる。また、画像に含まれる オブジェ外に対する先験的な知識も不要であり、対応点の自動検出が実現する。特 異点フィルタによれば、解像度の粗 ヽレベルでも特異点の輝度や位置を維持するこ とができ、オブジェクト認識、特徴抽出、画像マッチングに極めて有利である。その結 果、人手作業を大幅に軽減する画像処理システムの構築が可能となる。
なお、本前提技術について次のような変形技術も考えられる。
(1)前提技術では始点階層画像と終点階層画像の間でマッチングをとる際にパラメ ータの自動決定を行った力 この方法は階層画像間ではなぐ通常の 2枚の画像間 のマッチングをとる場合全般に利用できる。
[0120] たとえば 2枚の画像間で、画素の輝度の差に関するエネルギー Eと画素の位置的
0
なずれに関するエネルギー Eのふたつを評価式とし、これらの線形和 E = α Ε +
1 tot 0
Eを総合評価式とする。この総合評価式の極値付近に注目して αを自動決定する。 つまり、いろいろな αについて Ε が最小になるような写像を求める。それらの写像の tot
うち、 αに関して Eが極小値をとるときの αを最適パラメータと決める。そのパラメータ に対応する写像を最終的に両画像間の最適マッチングとみなす。
[0121] これ以外にも評価式の設定にはいろいろな方法があり、例えば 1ZEと 1ZEのよ
1 2 うに、評価結果が良好なほど大きな値をとるものを採用してもよい。総合評価式も必 ずしも線形和である必要はなぐ η乗和 (η=2、 1/2, 1、 一 2など)、多項式、任意 の関数などを適宜選択すればよい。
[0122] ノラメータも、 aのみ、前提技術のごとく 7?とえのふたつの場合、それ以上の場合 など、いずれでもよい。パラメータが 3以上の場合はひとつずつ変化させて決めていく
(2)本前提技術では、総合評価式の値が最小になるよう写像を決めた後、総合評価 式を構成するひとつの評価式である C(m' s)が極小になる点を検出してパラメータを決
f
定した。しかし、こうした二段回処理の代わりに、状況によっては単に総合評価式の 最小値が最小になるようにパラメータを決めても効果的である。その場合、例えば α Ε + β Εを総合評価式とし、 α + β = 1なる拘束条件を設けて各評価式を平等に扱
0 1
うなどの措置を講じてもよい。パラメータの自動決定の本質は、エネルギーが最小に なるようにパラメータを決めて 、く点にあるからである。
(3)前提技術では各解像度レベルで 4種類の特異点に関する 4種類の副画像を生 成した。しかし、当然 4種類のうち 1、 2、 3種類を選択的に用いてもよい。例えば、画 像中に明るい点がひとつだけ存在する状態であれば、極大点に関する f(m' 3)だけで 階層画像を生成しても相応の効果が得られるはずである。その場合、同一レベルで 異なる副写像は不要になるため、 sに関する計算量が減る効果がある。
(4)本前提技術では特異点フィルタによってレベルがひとつ進むと画素が 1Z4にな つた。例えば 3 X 3で 1ブロックとし、その中で特異点を探す構成も可能であり、その場 合、レベルがひとつ進むと画素は 1Z9になる。
(5)始点画像と終点画像力 Sカラーの場合、それらをまず白黒画像に変換し、写像を 計算する。その結果求められた写像を用いて始点のカラー画像を変換する。それ以 外の方法として、 RGBの各成分につ 、て副写像を計算してもよ!/、。
[3]前提技術の改良点
[0123] 以上の前提技術を基本とし、マッチング精度を向上させるためのいくつかの改良が なされている。ここではその改良点を述べる。
[3. 1]色情報を考慮に入れた特異点フィルタおよび副画像
[0124] 画像の色情報を有効に用いるために、特異点フィルタを以下のように変更した。ま ず色空間としては、人間の直感に最も合致するといわれている HISを用いた。但し色 を輝度に変換する際は、輝度 Iに代わり人間の目の感度に最も近いといわれている輝 度 Yを選択した。
[0125] [数 53]
2R-G-R
-― tan
H■
R + G + B
Figure imgf000034_0001
7 = 0.299x^ + 0.587xG+0.114xB (式 53
[0126] ここで画素 aにおける Y (輝度)を Y(a)、 S (彩度)を S (a)として、次のような記号を定 義する。
[数 54]
■(Y(a)≤Y(b))
Y(a,b)
(Y(a) >Y(b))
■(Y(a)≥Y(b))
βΛα
■(Y(a)<Y(b))
■(S(a)≥S(b))
(S(a)<S(b)) (式 54)
上の定義を用いて以下のような 5つのフィルタを用意する。
[数 55]
Figure imgf000034_0002
0,3)
UY UY \F(2i,2 j), (2i,2 j+l) , UY (2+1,2 j), (2i+l,2 j+l) "
Figure imgf000034_0003
j), (2+1,2 j+l) "
(式 55) このうち上力も 4つのフィルタは改良前の前提技術におけるフィルタとほぼ同じで、 輝度の特異点を色情報も残しながら保存する。最後のフィルタは色の彩度の特異点 をこちらも色情報を残しながら保存する。
[0129] これらのフィルタによって、各レベルにつき 5種類の副画像(サブイメージ)が生成さ れる。なお、最も高いレベルの副画像は元画像に一致する。
[0130] [数 56]
_ n (H,l) _ ( », 2) _ ( n,3) _ (n, 4) _
Figure imgf000035_0001
(式 5 6 )
[3. 2]エッジ画像およびその副画像
[0131] 輝度微分 (エッジ)の情報をマッチングに利用するため、さらに一次微分エッジ検出 フィルタを用いる。このフィルタはあるオペレータ Gとの畳み込み積分で実現できる。 第 nレベルの画像の、水平方向、垂直方向の微分に対応した 2種類のフィルタをそれ ぞれ以下のように表す。
[数 57]
Figure imgf000035_0002
(式 5 7 )
[0132] ここで Gは画像解析においてエッジ検出に用いられる一般的なオペレータを適用 することが可能である力 演算スピードなども考慮して以下のようなオペレータを選択 した。
[0133] [数 58]
(式 5 8 )
Figure imgf000035_0003
次にこの画像を多重解像度化する。フィルタにより 0を中心とした輝度をもつ画像が 生成されるため、次のような平均値画像が副画像としては最も適切である。 [数 59]
, (m+l,h) (m+l,h) (m+l,h) (m+l,h)
^ (2ί, 2ί) ^(2;,2 +1) ^ /(2;+l,2 ) ^ -^(2;+1,2 +1)
Figure imgf000036_0001
(式 5 9 )
[0135] 式 59の画像は後述する Forward Stage,すなわち初回副写像導出ステージの計算 の際、エネルギー関数のうち新たに導入された輝度微分 (エッジ)の差によるエネルギ 一に用いられる。
エッジの大きさ、すなわち絶対値も計算に必要なため、以下のように表す。
[0136] [数 60]
Figure imgf000036_0002
(式 6 0 ) この値は常に正であるため、多重解像度化には最大値フィルタを用 、る。
[0137] [数 61] Y
Figure imgf000036_0003
+l)ノノ
(式 6 1 )
式 61の画像は後述する Forward Stageの計算の際、計算する順序を決定するのに用 いられる。
[3. 3]計算処理手順
[0138] 計算は最も粗い解像度の副画像カゝら順に行う。副画像は 5つあるため、各レベルの 解像度において計算は複数回行われる。これをターンと呼び、最大計算回数を tで 表すことにする。各ターンは前記 Forward Stageと、副写像再計算ステージである Refinement Stageという二つのエネルギー最小化計算から構成される。図 18は第 mレ ベルにおける副写像を決める計算のうち改良点に係るフローチャートである。
[0139] 同図のごとぐ sをゼロクリアする(S40)。つぎに Forward Stage (S41)において始点 画像 P力も終点画像 qへの写像 f(m' s)および、終点画像 qから始点画像 pへの写像 g(mS)を順次、エネルギー最小化によって求める。以下、写像 f(m' S)の導出について記述 する。ここで最小化するエネルギーは、改良後の前提技術においては、対応する画 素値によるエネルギー Cと、写像の滑らかさによるエネルギー Dの和である。
[0140] [数 62] m /in ( + ( )) ^ (式.り 92 , )
[0141] エネルギー Cは、輝度の差によるエネルギー C (前記改良前の前提技術における
I
エネルギー Cと等価)と、色相、彩度によるエネルギー C、輝度微分 (エッジ)の差に
C
よるエネルギー cで構成され、以下のように表される。
E
[0142] [数 63]
( ,ゾ) = |r(d)
))「
Figure imgf000037_0001
σ (z, ) = C{ (z, ) + ψθ^ ( , J) + eC ( , J) (式 6 3 ) ここでパラメータえ、 φおよび Θは 0以上の実数であり、本改良後の技術においては 定数である。ここでこれらのパラメータを定数とできるのは、新たに導入された
Refinement Stageにより、パラメータに対する結果の安定性が向上したためである。ま た、エネルギー Cは副写像 f(m' s)の種類 sに関わらず、座標と解像度のレベルによつ
E
て決定する値である。
[0143] エネルギー Dは前記改良前の前提技術と同じものを用いる。ただし前記改良前の 前提技術において、写像の滑らかさを保証するエネルギー Eを導出する際、隣接す る画素のみを考慮していた力 S、周囲の何画素を考慮するかをパラメータ dで指定でき るように改良した。
[0144] [数 64]
Figure imgf000038_0001
( , j) =∑ ∑ \ ((f fa i)) -― a ( , j))― if ff(f,ゾ D ')-— ( , f r\ ))\\|
(式 6 4 )
[0145] 次の Refinement Stageに備えて、このステージでは終点画像 qから始点画像 への 写像 g(m' s)も同様に計算する。
[0146] Refinement Stage (S42)では Forward Stageにおいて求めた双方向の写像 f(ms)お よび g(m' s)を基に、より妥当な写像 f,(m' s)を求める。ここでは新たに定義されるェネル ギー Mにつ!/、てエネルギー最小化計算を行う。エネルギー Mは終点画像から始点 画像への写像 gとの整合度 Mと、もとの写像との差 Mより構成され、 Mを最小とする
0 1
ような f' が求められる。
[0147] [数 65]
Figure imgf000038_0002
M /,ゾ) = || z,ノ) - (/,川2
Figure imgf000038_0003
(式 6 5 )
[0148] 対称性を損なわないように、終点画像 qから始点画像 pへの写像 g' (m' s)も同様の方 法で求めておく。
その後、 sをインクリメントし(S43)、 sが tを超えていないことを確認し(S44)、次のタ ーンの Forward Stage (S41)に進む。その際前記 Eを次のように置き換えてエネルギ
0
一最小化計算を行う。
[0149] [数 66]
Ei(i ) =
Figure imgf000038_0004
(式 6 6 )
[3. 4]写像の計算順序
[0150] 写像の滑らかさを表すエネルギー Eを計算する際、周囲の点の写像を用いるため 、それらの点がすでに計算されているかどうかがエネルギーに影響を与える。すなわ ち、どの点から順番に計算するかによって、全体の写像の精度が大きく変化する。そ こでエッジの絶対値画像を用いる。エッジの部分は情報量を多く含むため、エッジの 絶対値が大きいところ力 先に写像計算を行う。このことによって、特に二値画像のよ うな画像に対して非常に精度の高い写像を求めることができるようになった。
[動画符号化と復号に関する実施の形態]
以上の前提技術を一部利用した動画処理の具体例を述べる。
[0151] 図 19は、動画の符号化装置と復号装置の構成および処理を示す。同図上段が符 号化装置、下段が復号装置に関する。
[1]符号化装置の構成
[0152] CPF : 前提技術の Critical Point Filter,すなわち特異点フィルタを用いる画像マツ チングプロセッサ。キーフレーム間のマッチングを画素単位で計算し、対応点情報を 出力する。この情報はファイルとして出力される。このファイルは、ソース側のキーフレ 一ムの各画素がデスティネーション側のキーフレームのいずれの画素に対応する力 を記述する。したがって、このファイルをもとに、これらのキーフレーム間で対応しあう 画素の位置と画素値を内挿計算すれば、ふたつのキーフレーム間のモーフイング画 像が得られる。なお、このファイルをソース側のキーフレームだけに作用させて内挿 計算をすれば、単にソース側のキーフレームの各画素をこのファイルに記述した対応 画素の位置へ徐々に移動させるモーフイング画像が得られる。この場合、対応画素 間で位置だけが内挿されたことになる。
[0153] なお、 CPFの代わりに、広く画像マッチングプロセッサを利用することができるが、 本実施の形態の趣旨からいえば、精度が高い画素マッチングが理想的であり、前提 技術はその条件を満たす。
[0154] DE: Differential Encoder差分(誤差)符号化器。ふたつの画像フレーム間の差分 をハフマン符号化その他の統計手法に基づき可変長符号化する。
[0155] NR : maskable Noise Reducerノイズリデューサ。人間の視覚では微細な変化を認 識できないことが多い。たとえば輝度の変化の激しい部分、つまり輝度の空間周波数 成分が高い成分が強い領域では、輝度変化の誤差は視覚的には把握されない。動 画情報にはさまざまな形でノイズが重畳しており、そのようなデータは視覚的には単 にノイズとして認識されるだけで画像としての意味を持たな ヽ。そのような視覚的無意 味なランダム情報、すなわち「視覚的マスク情報」を無視することが、より高い圧縮率 を達成するために重要である。
[0156] 現在のブロックマッチングにおける量子化は、輝度値に関する視覚的マスク情報を 利用したものであるが、輝度値以外にもいくつかの視覚的マスク情報が存在する。 N Rは、空間位置情報ならびに時間位置情報に関する視覚的マスクを利用する。空間 位置情報の視覚的マスクは、位置情報に関して、輝度変化が複雑な画像の場合は 空間周波数の位相成分が視覚的に認識されにくいという事実を利用する。時間位置 情報の視覚的マスクは、時間方向での変化が激し 、部分では時間方向にデータの 変化がずれたとしても、視覚的にはその差が認識されにくい事実を利用する。これら は 、ずれも所定のしき 、値との比較して検出する。
[0157] 少なくともブロックマッチングと差分符号化という現在の MPEGのスキームでは、こ れらのマスクを積極的に利用することは困難である。これに対し、前提技術における 復号処理は、視覚的な不自然さをもたらすような不連続性を回避するために、動画 上の変化をトリリニアその他の補間で生成するものであり、それは誤差を輝度方向だ けでなぐ空間方向や時間方向に散らして視覚的に目立たなくする働きを持つ。 NR は前提技術との組合せにぉ 、て有用である。
[0158] DD: Differential Decoder差分 (誤差)復号器。 DEで符号化された差分を復号し、 その差分が生じた画像フレームに加算することで、その画像フレームの精度を高める
[0159] なお、これらのほかに、ある単一のキーフレームに対応点情報を作用させ、そのキ 一フレームの画素移動だけ力 仮想的に別のキーフレームを生成する機能が存在 する。以下、この機能を実現する機能ブロックを画素シフタとよぶ。
[2]符号化処理
[0160] 図 19において、「F0」等は処理の対象となる動画の各フレーム、 「M0—4」は CPF によって生成された F0と F4間の対応点情報を示す。符号ィ匕は以下の手順で進む。
[0161] a) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間で CPFによってマッチングを計算し、第 1、第 2キーフレーム間の対応点情報 (M0 4)を生成するステップ。
b) 第 1、第 2キーフレーム間の対応点情報 (M0— 4)をもとに、画素シフタによって 第 1キーフレーム (F0)に含まれる画素を移動させて仮想の第 2キーフレーム (F4,) を生成するステップ。
c) 現実の第 2キーフレーム(F4)と仮想の第 2キーフレーム(F4, )との差分を NR 機能付き DE (DE + NRと表記)で圧縮符号化するステップ。
d) 第 1キーフレーム (FO)、第 1、第 2キーフレーム間の対応点情報 (MO— 4)、お よび、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号ィ匕された差分 ( Δ 4)をこれらのキーフレーム (FO、 F4)間の符号ィ匕データとして出力するステップ。 出力先は記録媒体、伝送媒体を問わない。実際には後述の j)で出力される情報と一 体となり、動画符号ィ匕データとして記録媒体等に出力される。
[0162] つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。
e) 現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4, )間で圧縮符号 化された差分( Δ 4)を DDで復号するステップ。
f) 復号された差分と前記仮想の第 2キーフレーム (F4' )とから、改良された仮想 の第 2キーフレーム(F4")を DDで生成するステップ。
g) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間で CPFによってマッチングを計算し、第 2、第 3キーフレーム間の対応点情報 (M4 8)を生成するステップ。
h) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、画素シフタによって 、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動させることによつ て、仮想の第 3キーフレーム(F8, )を生成するステップ。
i) 現実の第 3キーフレーム (F8)と仮想の第 3キーフレーム (F8, )との差分を DE + NRで圧縮符号化するステップ。
j) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)、および現実の第 3キーフレ ームと仮想の第 3キーフレーム間で圧縮符号ィ匕された差分( Δ 8)をこれらのキーフレ ーム (F4、 F8)間の符号ィ匕データとして出力するステップ。出力先は一般に d)の出 力先と同じである。
[0163] 以下、さらに後続のキーフレームについて、図 19のフレーム F9以下に示すごとく、 順次前記の e)から j)のステップを繰り返し、所定のグループ終了キーフレームに到達 したときに繰り返し処理を終了する。グループ終了キーフレームは、 MPEGでいう 1G OPの終了フレームに相当する。したがって、このフレームの次のフレームが新たなグ ループの先頭フレームとして新たに第 1キーフレームと見なされ、 a)以下の処理が繰 り返される。以上の処理により、 MPEGでいう GOPに相当するグループ(以下、単に グループとよぶ)について、キーフレーム(MPEGでいう Iピクチャ)に相当する画像は 1枚のみ符号化および伝送すればょ 、。
[3]復号装置の構成
符号化側にもましてシンプルな構成である。
DD : 符号化装置の DDと同じ。
INT: INTerpolator ネ ΐ間プロセッサ。
[0164] これらの他に符号化側同様の画素シフタが存在する。ふたつの画像フレームと対 応点情報から内挿処理による中間フレームを生成する。
[4]復号処理
復号は以下の手順で進む。
[0165] k) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間の対応点情報 (MO— 4)、および第 1キーフレーム (F0)を取得するステップ。取得 は伝送媒体、記録媒体のいずれからでもよい。
1) 第 1、第 2キーフレーム間の対応点情報 (M0— 4)をもとに、画像シフタによって 第 1キーフレーム (F0)に含まれる画素を移動させることによって、仮想の第 2キーフ レーム(F4,)を生成するステップ。
m) 予め符号ィ匕側にて 1)同様の処理により、仮想の第 2キーフレーム (F4' )が生 成され、符号ィ匕側でこれと現実の第 2キーフレーム (F4)との差分の圧縮符号化デー タ( Δ 4)を生成して 、るため、これを取得するステップ。
o) 取得された差分の圧縮符号化データ( Δ 4)を DDで復号し、仮想の第 2キーフ レーム (F4,)と加算して、改良された仮想の第 2キーフレーム (F4,,)を生成するステ ップ。
P) 第 1、第 2キーフレーム間の対応点情報 (M0— 4)をもとに、 INTによって、第 1 キーフレーム (F0)と改良された仮想の第 2キーフレーム (F4")間で補間計算をする ことにより、これらのキーフレーム(FO、 F4")の間に存在すべき中間フレーム(Fl"〜 F3")を生成するステップ。
q) 第 1キーフレーム (FO)、生成された中間フレーム (F1"〜F3")、改良された仮 想の第 2キーフレーム(F4")をこれらのキーフレーム間の復号データとして表示装置 等へ出力するステップ。
[0166] つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。
r) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間の対応点情報 (M4— 8)を取得するステップ。
s) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、画素シフタによって 、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動させることによつ て、仮想の第 3キーフレーム(F8, )を生成するステップ。
t) 予め符号ィ匕側にて s)同様の処理により、符号ィ匕側でも仮想の第 3キーフレーム (F8, )が生成され、符号化側でこれと現実の第 3キーフレーム (F8)との差分の圧縮 符号化データ( Δ 8)を生成しており、これを取得するステップ。
u) 取得された差分の圧縮符号化データ( Δ 8)と仮想の第 3キーフレーム (F8 ' )と から、 DDによって、改良された仮想の第 3キーフレーム (F8")を生成するステップ。
V) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、 INTによって、改良 された仮想の第 2キーフレーム (F4")と改良された仮想の第 3キーフレーム (F8")間 で補間計算をすることにより、これらのキーフレームの間に存在すべき中間フレーム( F5,〜F7, )を生成するステップ。
w) 改良された仮想の第 2キーフレーム(F4")、生成された中間フレーム(F5'〜F 7,)、改良された仮想の第 3キーフレーム(F8,,)をこれらのキーフレーム(F4"、 F8") 間の復号データとして表示装置などへ出力するステップ。
[0167] 以下、さらに後続のキーフレームについて、図 19のフレーム F9以降に示すごとく、 順次前記の r)力も w)のステップを繰り返し、グループ終了キーフレームに到達したと きに繰り返し処理を終了する。このフレームの次のフレームが新たなグループの先頭 フレームとして新たに第 1キーフレームと見なされ、 k)以下の処理が繰り返される。
[5]本実施の形態によるメリット [0168] 画像マッチングに前提技術の CPFを利用する場合、マッチング精度が高いため、 本実施の形態で実現される圧縮率が高くなる。なぜなら、 DE + NRによって圧縮す べき差分が最初力 小さぐかつ統計的な偏りが大きくなるためである。
[0169] 同様に、 CPFを用いる場合、この符号ィ匕方法はブロックマッチングを用いないので 、圧縮率を高めても MPEGで問題となるブロックノイズがでない。もちろん、 CPF以外 の画像マッチングでも、ブロックノイズがでな ヽ処理方法を採用すればよ!ヽ。
[0170] もともと MPEGは差分の最小化しか考慮しないが、 CPFは本来対応すべき個所を 検出するため、究極的には MPEGよりも高い圧縮率が実現できる。
[0171] 符号ィ匕装置は画像マッチングプロセッサ、ノイズリダクション機能付き差分符号化器 、差分復号器、画素シフタで構成でき、簡易である。また、ノイズリダクション機能はォ プショナルな機能であり、これはなくともよい。同様に、復号装置も補間プロセッサ、差 分復号器、画素シフタで構成でき、簡素である。とくに、復号装置は画像マッチング を行う必要もなぐ処理量が軽い。
[0172] 仮想のキーフレームを生成するたびに、それと現実のキーフレームの差分を Δ 4、
Δ 8などのように符号ィ匕データへ取り込むため、グループごとに 1枚しか完全な形の キーフレームを符号ィ匕しないにもかかわらず、長い動画を再生しても誤差の蓄積がな い。
[6]変形技術
[0173] 第 1、第 2キーフレーム (FO、 F4)間のマッチング計算をして対応点情報ファイルを 生成する際、それらキーフレーム間に存在する中間フレーム (F1〜F3)も考慮しても よい(図 19の破線矢印)。その場合、 CPFは FOと Fl、 F1と F2、 F2と F3、 F3と F4の それぞれの組につ!、てマッチングを計算し、 4個のファイル(仮に部分ファイル MO〜 M3とよぶ)を生成する。つづいて、これら 4個のファイルを統合してひとつの対応点 情報ファイルとして出力すればよい。
[0174] 統合のために、まず、 FOの各画素が MOによって F1上のどこへ移動するかを特定 する。つづいて、 F1上で特定された画素が Mlによって F2上のどこへ移動するかを 特定する。これを F4まで行えば、 4個の部分ファイルにより、 FOと F4の対応がより正 確になる。 FOと F4は多少距離があり、それらの間よりも隣接する画像フレーム間のマ ツチング精度のほうが一般に高いためである。
[0175] なお、この方法は最終的に F0と F4のマッチング精度を改善するものである力 対 応点情報ファイルを時間の関数として表現してもよい。その場合、部分ファイルを統 合せず、 4個の状態のまま、これらを対応点情報ファイルとみなして復号側へ提供す ればよい。復号側は FO、 F4、 MOから Flを生成し、 FO、 F4、 MO、 Mlから F2を生成 し、という繰り返し処理でより正確な動画を復号できる。
[0176] (第 2実施形態)
本発明の他の実施形態は、図 19の符号ィ匕装置に関する。ここでは、画像マツチン グの正確性を示す尺度として画像のマッチングエネルギーを導入し、これを DE + N Rにおけるノイズリダクション等に利用する。以下、適宜図 19を用いて説明する力 特 に言及しない構成、機能については第 1実施形態と同様である。
[0177] ここでいうマッチングエネルギーとは、対応点どうしの距離と画素値の違いで定まる ものであり、例えば前提技術における式 49に示されている。本実施形態では、 CPF における画像マッチングの際得られるこのマッチングエネルギーをいわば副産物とし て利用する。前提技術の画像マッチングでは、キーフレーム間の各画素につき、写 像のエネルギーが最小となるものを対応点として検出する。前提技術のこのような特 徴に着目すれば、マッチングエネルギーの低い画素に関しては良好なマッチングが とれており、一方マッチングエネルギーの高い箇所については、当然キーフレーム間 で位置や画素値の変化の大きい画素であったはずである力 場合によってはマッチ ングエラーがあった可能性もあると評価できる。以下詳説するが、本実施形態ではマ ツチング精度の高い部分については差分の圧縮率を高める。また別の例では、マツ チングェラーが推定される画素に関する差分情報を高く圧縮しても良い。
[0178] [1]符号化処理
本実施形態の符号化装置では、 CPFが第 1、第 2のキーフレームのマッチングを計 算する際に、併せて両フレーム間で対応しあう各画素のマッチングエネルギーを取 得し、第 1のキーフレーム(FO)上に各画素のマッチングエネルギーを記述したエネ ルギーマップを生成する。同様に、その他の隣接しあうキーフレーム間でもエネルギ 一マップを生成する。すなわち、エネルギーマップとは、キーフレーム間の対応点そ れぞれのマッチングエネルギーを、基本的には前のキーフレームの各画素に関して 記述したデータである。なお、エネルギーマップは前後のキーフレームのうち、後の キーフレーム上に表しても良い。エネルギーマップは不図示の経路により CPFから D E + NRに送られる。 DE + NRでは、このエネルギーマップを利用してキーフレーム 間のマッチングの良否を評価し、それに基づいて、仮想のキーフレームと現実のキー フレームの差分を適応的に圧縮符号化する。なお、 DE + NRには、エネルギーマツ プの他、対応点情報ファイルも不図示の経路で送られて 、る。
[0179] 図 20は、本実施形態に係る図 19の DE + NRの構成を示す図である。図 20の DE
+NRは差分計算器 10と、差分圧縮部 12と、エネルギー取得部 14と、判定部 16とを 備える。このうち、前 2者が専ら DEに相当し、後 2者が専ら NRに相当する。以下第 1 のキーフレーム(F0)と第 2のキーフレーム(F4)およびその中間の画像フレーム(F1 〜F3)を符号ィ匕する際の DE + NRの動作を説明する力 後続の各キーフレーム、画 像フレームの符号化においても、 DE + NRの動作は同様である。
[0180] 差分計算器 10は、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,) を取得して、位置的に対応しあう画素どうしの画素値の差分をとる。これにより、各画 素が両キーフレーム間の画素値の差をもつ一種の画像が形成され、これを差分画像 と呼ぶ。差分画像はエネルギー取得部 14へと送られる。また、エネルギー取得部 14 には、現実の第 1キーフレーム(F0)と現実の第 2キーフレーム(F4)の間のエネルギ 一マップ及び対応点情報(M0— 4)力 図 19の CPF力も入力される。エネルギー取 得部 14は、これらを利用して差分画像のマッチングエネルギーを取得する。
[0181] まず、取得部 14は、第 1、第 2キーフレーム間の対応点情報 (M0— 4)を CPFから 取得する。これを利用して、差分画像力も仮想の第 2キーフレーム (F4,)、第 1キーフ レーム(F0)とたどっていくことで、差分画像のどの画素が第 1キーフレーム(F0)のど の画素をシフトしたものに対応している力、対応関係を取得する。その上で第 1キー フレーム上に表されたエネルギーマップ上の各画素のエネルギーを参照し、差分画 像の各画素に対応する第 1キーフレーム(F0)上の画素のマッチングエネルギーを、 差分画像の各画素のマッチングエネルギーとして取得する。差分画像のマッチング エネルギーはこうして求められる。 [0182] エネルギー取得部 14は、差分画像のマッチングエネルギーを判定部 16へと送る。 判定部 16は差分画像の各画素のマッチングエネルギーを利用して、差分画像のうち 高圧縮対象領域を判定し、いずれの領域を高圧縮すべき力の情報を圧縮部 12へと 通知する。判定は例えば以下のように行われる。判定部 16は、差分画像を 16X16画 素単位のブロックに分割し、各ブロックに含まれる画素の全てについてマッチングェ ネルギーを所定のしきい値と比較する。比較の結果、ブロック内の全ての画素のマツ チングェネルギーがしき 、値以下であった場合は、その領域を高圧縮対象ブロックと 判定する。
[0183] 圧縮部 12は、差分画像を JPEG形式にて圧縮する。この際、判定部 16から通知さ れた高圧縮対応領域の情報を利用し、圧縮率を通常の領域と高圧縮対応領域との 間で適応的に変化させる。具体的には、高圧縮対象ブロックは DCT係数の量子化 幅を通常のブロックに比べて大きくする処理などが利用できる。別の例では、差分画 像では、高圧縮対象ブロックの画素値を 0にしてしまつてから JPEG圧縮をかける処 理を行ってもよい。いずれにせよ、マッチングエネルギーが低い領域を高圧縮する理 由は以下の考え方による。
[0184] すなわち、上述のごとくマッチングエネルギーの低い画素は、キーフレーム間のマツ チング結果が良好であるとみなせる。従って、差分画像のうちマッチングエネルギー が低 、部分に関しては、現実の第 2のキーフレーム (F4)と仮想の第 2のキーフレー ム (F4' )の間に差分は本来生じにくぐ差分が生じているとすればそれはノイズであ ると考えてよい。よって、差分画像においてマッチングエネルギーが低い領域は、高 圧縮による情報の欠落を気にすることなぐ他の領域に比べて大幅に圧縮できる。一 方、マッチングエネルギーの大きい領域については、マッチングにエラーが生じてい る可能性もあり、仮想の第 2キーフレーム (F4,)と現実の第 2キーフレーム (F4)の差 分は復号において重要な情報であるため、圧縮率を低くとどめ、復号時の正確性を 優先する。
[0185] [2]第 2実施形態によるメリット
以上の処理を経て、圧縮部 18は、現実の第 2キーフレーム (F4)と仮想の第 2キー フレーム (F4' )の圧縮符号化された差分( Δ 4)を出力する。本実施形態による符号 化装置によれば、現実のキーフレームと仮想のキーフレームの差分情報を、符号ィ匕 画像をより原画像に忠実に、正確な復号を行うための重要性に応じて適応的に圧縮 可能であり、復号の正確性を保ちつつ高い符号ィ匕効率が実現できる。重要性とは、 もちろん、本実施形態でも第 1実施形態に係るメリットを享受できる。
[0186] [3]第 2実施形態の変形技術
本実施形態の変形例として、マッチングエネルギーの大きい画素、中でも近傍の画 素の対応傾向と著しく異なる対応傾向を示す画素はマッチングエラーを起こしている 場合が多いと経験的に認められることから、マッチングエネルギーが周囲の画素と比 ベ大幅に異なる画素をマッチングエラーと評価し、これをノイズリダクションに導入す ることもできる。この場合、 DE+NRは、第 2キーフレーム(F4)の各画素のマッチング エネルギーを、例えば自身を中心とする 9X9画素のブロック内の、他の画素のマッチ ングエネルギーの平均と比較する。比較の結果両者の差が所定のしき 、値を超えて V、る場合、そのような画素はマッチングエラーをおこして 、ると判定してもよ 、。
[0187] エラーを起こしている対応情報は復号側にとって無意味なデータであると考えること ができ、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,)間の差分情 報中では、マッチングエラーを起こしている画素に関するデータはノイズといえる。よ つて、高圧縮による情報の欠落への配慮を不要とし、 DE + NRは、現実のキーフレ ームと仮想のキーフレーム間の差分画像のうち、現実のキーフレーム間のマッチング エラーに対応する画素を他の画素に比べて高い率で圧縮する。なお、マッチングェ ラーの判定は、例えば、周囲の画素の動きベクトルの傾向と、注目する画素の動きべ タトルの傾向を比較し、注目する画素の動きベクトルが周囲の傾向と著しく異なるか 否かをもって行なっても良い。
[0188] 第 2実施形態においても、第 1実施形態と同様に、第 1、第 2キーフレーム (FO、 F4 )間の中間フレーム(F1〜F3)を考慮し、これら全ての画像フレームの隣り合うそれぞ れの組にっ 、てマッチングを計算して対応点情報ファイル (MO〜M3)を生成し、そ れらを統合して第 1、第 2キーフレーム (FO、 F1)間で一つの対応点情報ファイルを 得る変形技術が考えられる。第 1実施形態の変形技術同様、マッチング精度を向上 し、正確な動画復号が実現できる。 [0189] さらに、この変形技術では、各画像フレーム間のマッチングエネルギーを計算して それをシーンチェンジ検出等に応用可能である。シーンチェンジ検出に係る構成は 以下のとおりである。まず、 CPFは FOと Fl、 F1と F2、 F2と F3, F3と F4' · 'それぞれ の組について、マッチング計算をおこない、その副産物としてエネルギーマップ、 EO 、 Ε1、 Ε2、 Ε3 · · ·を取得する。ここで、ある画像フレーム全体の画素に係るマツチン グエネルギーの平均をとり、それを所定のシーンチェンジ検出用しきい値と比較し、 その直後の画像を新たなグループとすればょ 、。例えば F5と F6の間のエネルギー マップ Ε5に基づき、 F5と F6のマッチングに係る F5の各画素のマッチングエネルギ 一を平均した結果、その値がキーフレーム追加用しきい値を越えたとする。この場合 、直後のキーフレームすなわち F6以下を新たなグループとし、 F6が次のグループの 第 1キーフレームとすればよい。マッチングエネルギーが大きい場合、画像間に大き な変化があつたと考えることができるためである。これにより、 自動的なシーンチェンジ の検出ができ、シーンチェンジに対応してグループの選定が可能となる。
[0190] 各エネルギーマップに基づいて、各画像フレーム内画素の平均マッチングェネル ギーを計算して、これを累積的に加算していき、その値が所定のしきい値を越えた時 点でその画像フレームを新たにキーフレームとして登録しても良い。画像フレーム間 の変化量の累積がある一定値を越えた時点でキーフレームを追加できれば、より復 号時の画質の向上がはかれるためである。
産業上の利用可能性
[0191] 以上のように、本発明は動画の圧縮符号ィ匕および復号に利用することができる。

Claims

請求の範囲
[1] a) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間でマッチングを計算 し、第 1、第 2キーフレーム間の対応点情報を生成するステップと、
b) 第 1、第 2キーフレーム間の対応点情報をもとに当該キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 c) 現実の第 2キーフレームと仮想の第 2キーフレームとの差分を圧縮符号ィ匕する ステップと、
d) 第 1キーフレーム、第 1、第 2キーフレーム間の対応点情報、および、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号ィ匕された差分をこれらのキー フレーム間の符号ィ匕データとして出力するステップと、
を備える動画符号化方法。
[2] 請求項 1に記載の方法において、さらに、
e) 現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号化された差分 を復号するステップと、
f) 復号された差分と前記仮想の第 2キーフレームとから、改良された仮想の第 2キ 一フレームを生成するステップと、
g) 1以上の画像フレームを間に挟む第 2、第 3キーフレーム間でマッチングを計算 し、第 2、第 3キーフレーム間の対応点情報を生成するステップと、
h) 第 2、第 3キーフレーム間の対応点情報をもとに、改良された仮想の第 2キーフ レームに含まれる画素を移動させることによって、仮想の第 3キーフレームを生成する ステップと、
i)現実の第 3キーフレームと仮想の第 3キーフレームとの差分を圧縮符号ィ匕するス テツプと、
j)第 2、第 3キーフレーム間の対応点情報、および現実の第 3キーフレームと仮想の 第 3キーフレーム間で圧縮符号化された差分をこれらのキーフレーム間の符号ィ匕デ ータとして出力するステップと、
を備える動画符号化方法。
[3] 請求項 2に記載の方法において、さらに後続のキーフレームについて、順次前記の e)から j)のステップを繰り返す動画符号化方法。
[4] 請求項 3に記載の方法にお 、て、前記の e)から j)のステップを所定のグループ終 了キーフレームに到達したときに終了し、当該グループ終了キーフレームの次のキー フレームを新たに第 1キーフレームと見なして前記の a)以下の処理を繰り返す動画 符号化方法。
[5] k) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間の対応点情報、お よび第 1キーフレームを取得するステップと、
1) 第 1、第 2キーフレーム間の対応点情報をもとに第 1キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 m) 予め符号ィ匕側にて求められた現実の第 2キーフレームと仮想の第 2キーフレー ムとの差分の圧縮符号化データを取得するステップと、
o) 取得された差分の圧縮符号化データと前記仮想の第 2キーフレームとから、改 良された仮想の第 2キーフレームを生成するステップと、
P) 第 1、第 2キーフレーム間の対応点情報をもとに、第 1キーフレームと改良され た仮想の第 2キーフレーム間で補間計算をすることにより、これらのキーフレームの間 に存在すべき中間フレームを生成するステップと、
q) 第 1キーフレーム、生成された中間フレーム、改良された仮想の第 2キーフレー ムをこれらのキーフレーム間の復号データとして出力するステップと、
を備える動画復号方法。
[6] 請求項 5に記載の方法において、さらに、
r) 1以上の画像フレームを間に挟む第 2、第 3キーフレーム間の対応点情報を取 得するステップと、
s) 第 2、第 3キーフレーム間の対応点情報をもとに、改良された仮想の第 2キーフ レームに含まれる画素を移動させることによって、仮想の第 3キーフレームを生成する ステップと、
t) 予め符号ィ匕側にて求められた現実の第 3キーフレームと仮想の第 3キーフレー ムとの差分の圧縮符号化データを取得するステップと、
u) 取得された差分の圧縮符号化データと前記仮想の第 3キーフレームとから、改 良された仮想の第 3キーフレームを生成するステップと、
V) 第 2、第 3キーフレーム間の対応点情報をもとに、改良された仮想の第 2キーフ レームと改良された仮想の第 3キーフレーム間で補間計算をすることにより、これらの キーフレームの間に存在すべき中間フレームを生成するステップと、
w) 改良された仮想の第 2キーフレーム、生成された中間フレーム、改良された仮 想の第 3キーフレームをこれらのキーフレーム間の復号データとして出力するステツ プと、
を備える動画復号方法。
[7] 請求項 6に記載の方法において、さらに後続のキーフレームについて、順次前記の r)カゝら w)のステップを繰り返す動画復号方法。
[8] 請求項 7に記載の方法にお 、て、前記の!:)力も w)のステップを所定のグループ終 了キーフレームに到達したときに終了し、当該グループ終了キーフレームの次のキー フレームを新たに第 1キーフレームと見なして前記の k)以下の処理を繰り返す動画 復号方法。
[9] 請求項 1に記載の方法をコンピュータに実行せしめることを特徴とするコンピュータ プログラム。
[10] 請求項 5に記載の方法をコンピュータに実行せしめることを特徴とするコンピュータ プログラム。
[11] 前記 a)のステップにおけるマッチングの正確さを評価するステップをさらに備え、 評価の結果に依存して、前記 c)のステップにおける圧縮スキームを切り替えること を特徴とする請求項 1から 4のいずれか〖こ記載の動画符号ィ匕方法。
[12] 前記現実の第 2キーフレームと仮想の第 2キーフレームとの差分のうち、前記評価 するステップにおいて前記第 1、第 2キーフレーム間のマッチング精度が高いと判断 された領域に対応する部分の圧縮率を高くすることを特徴とする請求項 11に記載の 動画符号化方法。
[13] 前記評価するステップでは、前記対応点情報を生成するステップにおいて相互に 対応するとされた前記第 1、第 2キーフレーム間の各点のうち、対応傾向を示すパラメ ータが近接する点のものと比べて所定のしきい値以上に異なる点をマッチングエラー として検出し、
前記現実の第 2キーフレームと仮想の第 2キーフレームとの差分のうち、マッチング エラーが検出された領域に対応する部分の圧縮率を高くすることを特徴とする請求 項 11に記載の動画符号化方法。
[14] 前記評価するステップでは、マッチングエネルギー値に着目してマッチングの正確 さを評価することを特徴とする請求項 11から 13のいずれかに記載の動画符号化方 法。
[15] 前記マッチングエネルギーは対応点の位置と画素値の双方に基づ 、て導出される ことを特徴とする請求項 14に記載の動画符号ィ匕方法。
[16] 前記第 1、第 2キーフレーム及び間に挟まれる画像フレームの全てについて隣り合 う画像フレームどうしのマッチングをさらに計算するステップと、
前記計算するステップで得られる各画像間のマッチングエネルギーを計算して、各 画像フレームのマッチングエネルギーに関するパラメータを取得するステップと、 前記パラメータを累積的に加算するステップと、
加算の結果が所定のしきい値を越える画像フレームを新たにキーフレームとして登 録するステップと、
をさらに備えることを特徴とする請求項 1から 4、 11から 15のいずれかに記載の動 画符号化方法。
[17] 前記第 2キーフレーム以降の各画像フレームについても、隣り合う画像フレームどう しでマッチングを計算し、マッチングエネルギーに関するパラメータの累積的な加算 値が前記しきい値を越えた場合はその直前の画像フレームを新たにキーフレームと して登録することを特徴とする請求項 16に記載の動画符号ィ匕方法。
[18] 画像フレームの全てについて隣り合う画像どうしのマッチングをさらに計算するステ ップと、
前記計算するステップで得られる各画像フレーム間のマッチングエネルギーに基づ いて各画像フレームのマッチングエネルギーに関するパラメータを取得するステップ と、
前記パラメータが、所定のしき 、値を越える画像フレームを前記グループ終了キー フレームとするステップと、
をさらに備えることを特徴とする請求項 4に記載の動画符号化方法。
第 1、第 2画像フレーム間で、領域ベースの画像マッチングを計算し、そのマツチン グ結果を利用して、少なくとも第 3画像フレームを符号ィ匕する方法であって、 画像マッチングの結果の良否を領域ごとに判定するステップと、
第 3画像フレームの符号ィ匕プロセスにお 、て、前記判定するステップにお!/、て判定 された良否に基づき、領域ごとに量子化スキームを選択するステップと、
を備える動画符号化方法。
PCT/JP2005/005941 2004-06-14 2005-03-29 動画符号化方法および動画復号方法 Ceased WO2005122593A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP05727896A EP1765020A4 (en) 2004-06-14 2005-03-29 METHOD FOR ENCODING MOVING IMAGES AND METHOD FOR DECODING MOVING IMAGES
JP2006514417A JPWO2005122593A1 (ja) 2004-06-14 2005-03-29 動画符号化方法および動画復号方法
US11/547,289 US20070206672A1 (en) 2004-06-14 2005-03-29 Motion Image Encoding And Decoding Method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-175979 2004-06-14
JP2004175979 2004-06-14

Publications (1)

Publication Number Publication Date
WO2005122593A1 true WO2005122593A1 (ja) 2005-12-22

Family

ID=35503519

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/005941 Ceased WO2005122593A1 (ja) 2004-06-14 2005-03-29 動画符号化方法および動画復号方法

Country Status (7)

Country Link
US (1) US20070206672A1 (ja)
EP (1) EP1765020A4 (ja)
JP (1) JPWO2005122593A1 (ja)
KR (1) KR20070026515A (ja)
CN (1) CN1957616A (ja)
TW (1) TW200612756A (ja)
WO (1) WO2005122593A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007129436A1 (ja) * 2006-04-18 2007-11-15 Monolith Co., Ltd. 画像圧縮方法、画像圧縮装置、および動画符号化方法
GB2520840A (en) * 2010-10-01 2015-06-03 Trust Battery Ireland Ltd Detection of radio frequency emissions

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007192919A (ja) * 2006-01-17 2007-08-02 Olympus Corp 画像表示装置
US10027478B2 (en) * 2007-10-09 2018-07-17 International Business Machines Corporation Differential key backup
TWI424360B (zh) * 2007-12-31 2014-01-21 Altek Corp Multi-directional face detection method
US8300964B2 (en) * 2008-08-07 2012-10-30 Apteryx Inc. System and method for preparing spatially related medical digital image data sets for image compression and storage prior to image reconstruction
EP2330817B1 (en) * 2008-09-04 2016-08-31 Japan Science and Technology Agency Video signal converting system
CA3052614C (en) * 2010-09-30 2021-03-09 Mitsubishi Electric Corporation Moving image encoding device, moving image decoding device, moving image coding method, and moving image decoding method
US9578333B2 (en) * 2013-03-15 2017-02-21 Qualcomm Incorporated Method for decreasing the bit rate needed to transmit videos over a network by dropping video frames
US10621446B2 (en) * 2016-12-22 2020-04-14 Texas Instruments Incorporated Handling perspective magnification in optical flow processing
CN115499666B (zh) * 2022-11-18 2023-03-24 腾讯科技(深圳)有限公司 视频的压缩方法、解压缩方法、装置、设备和存储介质
KR102738639B1 (ko) * 2022-12-23 2024-12-05 한국전자기술연구원 데이터 특성 분류에 따른 분류 기반 동영상 프레임 율 변환 방법 및 장치
US12120311B2 (en) * 2023-02-08 2024-10-15 Realtek Semiconductor Corp. Encoder and associated signal processing method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08107558A (ja) * 1994-10-07 1996-04-23 Nec Corp 動画符号化および復号の方法および装置
JPH10304374A (ja) * 1997-04-25 1998-11-13 Sharp Corp 動画像符号化装置
JP2001128179A (ja) * 1999-10-26 2001-05-11 Nec Corp 動画像符号化装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU657510B2 (en) * 1991-05-24 1995-03-16 Apple Inc. Improved image encoding/decoding method and apparatus
JPH0787482A (ja) * 1993-09-17 1995-03-31 Fujitsu Ltd 画像データの符号化方法及び復元方法並びに装置
US6567469B1 (en) * 2000-03-23 2003-05-20 Koninklijke Philips Electronics N.V. Motion estimation algorithm suitable for H.261 videoconferencing applications
US6842483B1 (en) * 2000-09-11 2005-01-11 The Hong Kong University Of Science And Technology Device, method and digital video encoder for block-matching motion estimation
JP3859989B2 (ja) * 2000-10-30 2006-12-20 株式会社モノリス 画像マッチング方法およびその方法を利用可能な画像処理方法と装置
JP4050472B2 (ja) * 2001-02-06 2008-02-20 株式会社モノリス 画像生成方法、装置およびシステム
JP2003018602A (ja) * 2001-04-24 2003-01-17 Monolith Co Ltd 画像データ符号化および復号のための方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08107558A (ja) * 1994-10-07 1996-04-23 Nec Corp 動画符号化および復号の方法および装置
JPH10304374A (ja) * 1997-04-25 1998-11-13 Sharp Corp 動画像符号化装置
JP2001128179A (ja) * 1999-10-26 2001-05-11 Nec Corp 動画像符号化装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007129436A1 (ja) * 2006-04-18 2007-11-15 Monolith Co., Ltd. 画像圧縮方法、画像圧縮装置、および動画符号化方法
GB2520840A (en) * 2010-10-01 2015-06-03 Trust Battery Ireland Ltd Detection of radio frequency emissions

Also Published As

Publication number Publication date
EP1765020A1 (en) 2007-03-21
EP1765020A4 (en) 2010-10-06
CN1957616A (zh) 2007-05-02
TW200612756A (en) 2006-04-16
JPWO2005122593A1 (ja) 2008-04-10
KR20070026515A (ko) 2007-03-08
US20070206672A1 (en) 2007-09-06

Similar Documents

Publication Publication Date Title
JP3889233B2 (ja) 画像符号化方法と装置および画像復号方法と装置
JP2008252860A (ja) 画像処理方法及び画像処理装置
JP2008282376A (ja) 画像処理方法および装置
WO2005122593A1 (ja) 動画符号化方法および動画復号方法
US20030076881A1 (en) Method and apparatus for coding and decoding image data
JP2004040422A (ja) 画像処理方法と装置
JP4050472B2 (ja) 画像生成方法、装置およびシステム
JP4157686B2 (ja) 画像符号化および復号のための方法および装置
JP4039858B2 (ja) 画像マッチング方法と装置、および画像符号化方法と装置
JP2003037842A (ja) 画像符号化方法、復号方法および画像符号化装置、復号装置
JP2007122751A (ja) 画像処理のための方法、装置、プログラム
WO2007072543A1 (ja) 動画符号化方法
JP3827981B2 (ja) 画像符号化方法と装置および画像復号方法と装置
JP4524412B2 (ja) 画像符号化方法、復号方法および画像符号化装置、復号装置
JP3839353B2 (ja) 画像符号化方法と装置および画像復号方法および装置
JP2003274399A (ja) 画像符号化方法と装置、画像復号方法と装置
WO2007129436A1 (ja) 画像圧縮方法、画像圧縮装置、および動画符号化方法
JPWO2007069350A1 (ja) 画像符号化および復号の方法と装置
WO2007069320A1 (ja) 動画符号化方法および動画復号方法
JP3773417B2 (ja) 画像データ符号化および復号のための方法および装置
JP2003032687A (ja) 画像処理方法および装置
JP2004048595A (ja) 画像符号化方法および装置
EP1294191A2 (en) Image processing method and apparatus
JP2004048496A (ja) 画像符号化方法および装置、画像復号方法および装置と、画像配信装置
JP2007174690A (ja) 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006514417

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11547289

Country of ref document: US

Ref document number: 2007206672

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020067024383

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 200580016419.5

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2005727896

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 1020067024383

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2005727896

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11547289

Country of ref document: US