WO2006059419A1 - 追跡装置および追跡方法 - Google Patents

追跡装置および追跡方法 Download PDF

Info

Publication number
WO2006059419A1
WO2006059419A1 PCT/JP2005/016711 JP2005016711W WO2006059419A1 WO 2006059419 A1 WO2006059419 A1 WO 2006059419A1 JP 2005016711 W JP2005016711 W JP 2005016711W WO 2006059419 A1 WO2006059419 A1 WO 2006059419A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
image data
tracking
feature data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2005/016711
Other languages
English (en)
French (fr)
Inventor
Nobuyuki Otsu
Masaaki Kawai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to EP05782365.0A priority Critical patent/EP1835462A4/en
Priority to US11/792,084 priority patent/US7957557B2/en
Publication of WO2006059419A1 publication Critical patent/WO2006059419A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Definitions

  • the present invention relates to a tracking device and a tracking method for capturing a moving image and tracking an object.
  • Coexistence robots need to recognize the environment and human actions, and if they move and follow things with their eyes, human visual functions must be realized as a system.
  • systems that can quickly and accurately obtain information on surveillance cameras and video surveillance that examines recorded video, as well as human behavior. increasing.
  • the inter-frame difference image force also extracts the area of the moving object by extracting the edge part of the moving object to be tracked, and the direction of the point or figure in the image at the next moment.
  • an optical flow which is a velocity vector indicating how much distance to move, and selects only the pixels with a large flow as the region of the moving object.
  • Patent Document 1 discloses an object tracking method that uses both motion information based on correlation (matching) between an optical flow and a template image.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2004-240762
  • the object of the present invention is to solve such problems and realize real-time tracking with a method that is as light as possible and recognizes it by sequentially learning and updating target features through tracking. It provides a tracking device and a tracking method that realizes more accurate tracking at the level.
  • tracking is performed while identifying an object by using an object-specific feature that does not match image (pixel) level matching (correlation) found in many conventional methods.
  • object-specific feature that does not match image (pixel) level matching (correlation) found in many conventional methods.
  • correlation image level matching
  • the tracking device of the present invention divides input moving image data to generate divided image data, and extracts non-background image data of a portion different from background image data from the divided image data.
  • Extracting means for determining, based on the output of the extracting means, target presence / absence determining means for determining whether the divided image includes at least a part of the tracking target, non-background image determined to have the target
  • feature data calculation means for calculating color higher-order local autocorrelation feature data
  • target position determination means for determining the position of a tracking target by grouping adjacent divided images for divided images determined to have a target
  • an adder / synthesizer for adding and synthesizing the feature data of the collected non-background image data, and a distance between the registered feature data of the tracking target and the output of the adder / synthesizer.
  • key comprising the identifying means for identifying Dzu-out tracked.
  • the tracking device of the present invention includes an image dividing unit that divides input moving image data to generate divided image data, and a non-background image of a portion different from background image data from the divided image data.
  • Extraction means for extracting data
  • feature data calculation means for calculating color higher-order local autocorrelation feature data for non-background image data
  • color higher-order local autocorrelation feature data force norm which is the length of feature data vector Based on the output of the norm calculation means
  • a target presence / absence determination means for determining whether at least a part of the tracking target is included in the divided image, and an amount determined to be present.
  • target position determining means for determining the target position by collecting adjacent divided images
  • addition composition means for adding and combining the feature data of the collected non-background image data
  • registration The main feature is that it comprises an identification means for identifying the tracking object based on the distance between the feature data of the tracking object being recorded and the output of the adding and synthesizing means.
  • the tracking device described above may include background image update means for updating a background image based on the divided image determined by the target presence / absence determination means that there is no tracking target.
  • the identification unit includes a storage unit that stores a plurality of latest feature data for each tracking target, all stored feature data, and feature data of the detected target. Each distance is calculated, the distance is the nearest !, the latest feature data extraction means for extracting the odd number of feature data, and the detected object is the number of feature data in the extracted odd number of feature data.
  • an object identification means for determining that the object belongs to the tracking target with the largest number.
  • registration is performed based on the identification result of the identification means! It also has a registration target update means for updating the feature data of the tracking target.
  • Higher-order local autocorrelation features are known to be effective features for personal identification such as face recognition in conventional research.
  • this higher-order local autocorrelation feature is further extended to color, and a color higher-order local autocorrelation feature that extracts shape and color information simultaneously is used.
  • This color higher-order local autocorrelation feature has position invariance in the image, and can be accurately recognized no matter where the tracking target is in the divided image. Therefore, tracking is performed while identifying the tracking target at the feature level without the need to accurately detect or predict the target itself (contour) as in conventional image matching, thereby realizing more robust and highly accurate tracking. There is an effect that can be done.
  • the method of the present invention is equivalent to performing the process of tracking and the process of acquiring information from the tracking target at the same time. Therefore, even if the target cannot be recognized due to hiding or crossing with another target, tracking can be continued without any problems by identifying the target after the status is resolved. Another advantage is that real-time processing with a small amount of calculation for feature extraction is possible. Further, since each divided image can be processed in parallel, the processing speed can be further improved by performing parallel processing using a PC cluster or the like.
  • the method of the present invention does not compare with the template image, it is not necessary to prepare a template in advance, thereby improving versatility and accurate feature data of the newly detected object. Can be acquired immediately, and does not depend on the size or movement of the target image, and can be traced with high accuracy even if the shape, color, and size change as well as the position over time. There is also.
  • FIG. 1 is a block diagram showing a configuration of a tracking device according to the present invention.
  • FIG. 2 is a flowchart showing the contents of the object tracking process of the present invention.
  • FIG. 3 is an explanatory diagram showing types of displacement vectors of color higher-order local autocorrelation.
  • FIG. 4 is an explanatory diagram showing an example of an input image divided into strips.
  • FIG. 5 is an explanatory view showing a non-background image example (whole).
  • FIG. 6 is a flowchart showing the contents of the tracking process of the second embodiment of the present invention. Explanation of symbols
  • the following processing is performed to estimate the position of the tracking target.
  • the image is divided into strips (or rectangles), and by checking each strip-shaped divided image, a divided image in which the tracking target exists is extracted.
  • a divided image in which the tracking target exists is extracted by comparing a background image not including the tracking target with the current image.
  • the current position of the tracking target can be acquired by grouping adjacent images that are the tracking target.
  • feature data for the tracking target is generated and compared with the registered data to identify the tracking target. Acquire features while tracking the tracking target, identify the target using the features, and realize high-precision tracking.
  • FIG. 1 is a block diagram showing a configuration of a tracking device according to the present invention.
  • the video camera 10 outputs color moving image frame data of the target person or device in real time.
  • the color moving image data may be 256 gradations of RGB.
  • a computer 12 such as a PC (computer) captures color moving image frame data from the video camera 10 in real time via an external or built-in video capture device 11 for capturing moving images.
  • the computer 12 is connected to a known monitor device 13, keyboard 14, mouse 15, and LAN 20.
  • the LAN 30 is connected to the Internet 30 via the router 23, and the computer 12 can communicate with other PCs 21 and 22 on the LAN and the PC 31 on the Internet.
  • the tracking device of the present invention is realized by creating, installing, and starting a program for executing processing described later on a known arbitrary computer 11 such as a personal computer.
  • the other PCs 21, 22, and 31 can be used as a parallel processing device in the tracking process or for remote display of the tracking result.
  • the video camera 10 may input the moving image data input in real time to disclose an example in which the moving image data is stored in a moving image file and may be read and processed sequentially. .
  • FIG. 2 is a flowchart showing the contents of the object tracking process of the present invention executed in the computer 12.
  • an example of tracking a person as a tracking target is opened.
  • the present invention is applicable to any tracking object.
  • image frame data is captured in real time from the video camera 10 using the video capture device 11.
  • the input image data is divided into N strip-shaped (divided only vertically) or rectangular (divided horizontally and vertically) images. At the dividing boundary, it is cut out redundantly by one pixel more than the boundary line in order to calculate the feature data described later.
  • the size of the divided image should be about the same size as the target and smaller. When there are a large number of objects, the separation accuracy of the objects is further improved by reducing the size of the divided image.
  • FIG. 4 is an explanatory diagram showing an example of an image that is input to the computer 12 and divided into strips.
  • the tracking target extraction method include a method using an optical flow, a method using an interframe difference method, and a method using a background difference method.
  • the method using optical flow is not very suitable for extraction of the tracking target because it is vulnerable to noise with a large amount of calculation.
  • the interframe difference method has a problem that the target cannot be extracted if the target is stationary.
  • the background subtraction method can extract accurately even if the tracking target is stationary. Therefore, the background subtraction method is used in the present invention.
  • the background subtraction method is a method for obtaining an object to be processed by taking a difference between a background image prepared in advance by some method and the current input image.
  • a background image an image that does not include a tracking target may be input and stored in advance.
  • tracking targets such as roads and places with many traffics, and it is difficult to obtain images that do not include tracking targets. Even in such a case, it is necessary to estimate the background image without including the tracking target. Therefore, multiple background images that do not use the background image as it is You may take the median on a time series about each pixel of an image.
  • the background image is updated by replacing an image having no tracking target in strip units with a background image.
  • FIG. 5 is an explanatory diagram showing an example of a non-background image (entire) extracted from a plurality of divided images. Extracted even though there is no target to be traced, as indicated by the circled circle in the figure! There is “noise”. In order to reduce this noise as much as possible, the following processing is performed.
  • the background image is B (x)
  • the threshold ⁇ is a small value
  • the difference image G (X) is as follows: To calculate.
  • This process is performed for RGB, and a difference image G is generated. This process does not detect slight changes, reduces noise, and improves the accuracy of target detection. Note that the background image changes over time due to the effects of lighting, sunlight, and shadows. Such a change cannot be dealt with only by the processing described above, so the background image is always updated by the processing described later.
  • S14 a non-background area is obtained. That is, since the difference pixel value is 0 in the background portion, the number of pixels other than 0 in the strip-like difference image is counted.
  • the counting process in S14 may be performed simultaneously with the determination process for each pixel in S13.
  • S15 it is determined whether there is a high possibility that the target exists depending on whether the value of the non-background area (number of pixels) for each strip is larger than a predetermined threshold! If the result is negative, move to S17. If positive, move to S16.
  • the optimum value of the predetermined threshold value may be determined by experiment, but it must be detected even when the target is divided from the adjacent strip, so 1Z20 of the total number of pixels of the tracking target (person) image. About 1Z5.
  • color higher-order local autocorrelation features are calculated and stored.
  • high-order local autocorrelation which is a feature that has been proven in personal identification, can extract shape information.
  • the feature has been extended to color so that both color and shape information can be extracted simultaneously.
  • the higher-order autocorrelation feature is an extension of the autocorrelation feature to a higher order. If the target image in the screen is f (r), the higher-order local autocorrelation feature is the displacement direction (a,-, a )
  • High-order local autocorrelation features are considered innumerable depending on the order and the direction of displacement (a,-, a).
  • the displacement vector a takes values such as (0,0), (0,1), (1,0), (1, 1),.
  • the feature data calculated in this way has the following properties.
  • the feature value of the entire image is the sum of the feature values of each target in the image. In other words, the sum of the features of each part of the target is equal to the features of the entire target.
  • S17 it is determined whether or not there is noise and whether or not there is noise depending on whether or not the value of the non-background area (number of pixels) for each strip is larger than a predetermined second threshold value! If the judgment result is negative, then this is the force to move to S18.
  • the background data is updated using background data in which there is no target and there is almost no noise. As an update method, it may be simply overwritten and replaced, or the median of the pixel values of the most recent background data may be adopted.
  • S19 it is determined whether or not all the divided image data have been processed. If the determination result is negative, the process proceeds to S12, but if the determination is affirmative, the process proceeds to S20.
  • S20 it is determined whether or not the divided image includes at least a part of the target, and for the divided image determined to have the target, the adjacent divided images are grouped to determine the position of the target. At the same time, the feature data of the adjacent divided images are added together to synthesize the target feature data.
  • the strip image determined to have a target is further divided into two, “large” and “medium”, according to the size of the non-background area, and the non-adjacent strip images are not covered.
  • the size of the background area (“large”, “medium”, “small” (no object))
  • a tracking target for example, a bird
  • the optimum threshold values for “Large” and “Medium” depend on the tracking target, the size of the input image, the segmentation method, etc., and can be determined by experiment.
  • the feature data of the entire object can be obtained simply by adding the feature data that have already been extracted to the strip image in which the subject exists. This is because the feature data is additive.
  • the distance to the already registered target feature data is calculated to identify the target.
  • normalize the obtained feature data vector X.
  • the normality ⁇ here means that the norm is processed so that the norm is 1, specifically, the value of each element of the feature vector X is divided by the norm value.
  • the norm (norm) is the length of the feature vector defined by Equation 5 below.
  • a point obtained by plotting the extracted target feature on the feature space is placed on a unit sphere centered on the origin in the feature space.
  • the distance is 0 and the distance from the origin is 1.
  • the closer to the distance force ⁇ the closer the similarity is, and the easier it is to identify. It also provides robust identification against large and small variations due to the distance of the object.
  • the k-NN method employed for object identification in the embodiment is the closest to the feature vector to be discriminated while keeping several feature data as they are for all recently detected objects.
  • this method k pieces of feature data are extracted, and it is determined that the largest number of pieces of feature data belong to the extracted object. This makes it possible to identify robustly against changes in the shape of the object due to movements such as walking.
  • the k-NN method registers a plurality of feature data for each object as they are and compares the distances to each other. Therefore, when the tracking target is a person, a plurality of features with different postures during walking are used. Data will be registered, and gait can be used for identification.
  • the target class is determined as A. If the smallest distance is larger than the predetermined value, it is determined that the object is not included in the currently registered error and is registered as a new object. This method keeps multiple pieces of the latest information to be tracked, so it can be tracked stably. Note that registration information increases each time a new target is added, so it is recommended that you remove the powerful registration information that does not detect the target belonging to the registration information even after a certain period of time.
  • the tracking result is output.
  • the result is information such as the position of the object on the current image and the locus of the object.
  • the registered feature data is updated.
  • the target class is determined, the oldest registered data of the class is deleted, the latest feature data is registered, and the feature data is updated.
  • S24 for example, whether or not to end the process is determined based on whether or not the administrator has performed an end operation. If the determination result is negative, the process proceeds to S10, but if the determination is positive, the process ends. To do.
  • Example 2 Example 2
  • the presence / absence of the target is determined based on the non-background area of the divided image.
  • the background differential image force feature data of all the divided images is calculated, and the feature data Based on the above, the presence or absence of the target is determined.
  • FIG. 6 is a flowchart showing the contents of the object tracking process of the second embodiment of the present invention.
  • S36 it is determined whether or not there is a possibility that at least a part of the target exists in the divided image depending on whether or not the norm is equal to or greater than a predetermined value, and if the determination result is negative. Will move to S37 if positive. In S37, S18 Similarly, the background data is updated using background data that does not exist and has almost no noise.
  • the norm is used to estimate the position of the object.
  • the feature norm obtained from the non-background image generated by performing background subtraction is large for images that have a tracking target and is small for images that are not. That is, by comparing the size of the norm of each strip image, it is possible to know which strip image has the tracking target.
  • the norm is divided into three types, those whose norm is close to 0, medium, and large.
  • a large one is a strip image with a tracking target
  • a one near 0 is a tracking image with no tracking target V
  • a strip image
  • a medium one is a large strip noise or a strip image with (a part of) a tracking target.
  • a strip image adjacent to a strip image with a large norm that has a medium norm is considered to be part of the target, and is separated from a strip with a large norm by V, a medium norm.
  • a strip with is considered noise.
  • the tracking target is a person whose width changes with time, such as a person, it can accurately follow.
  • it is possible to acquire the features of the entire target by simply adding the feature data already extracted to the strip image where the tracking target exists. it can.
  • the present invention may be modified as follows.
  • the detected position information of the target is It is not used for tracking processing. Therefore, it is possible to memorize where the tracking target is now and where it is likely to move next, and add a target position estimation function based on action prediction that is effectively used for later identification. . This can further reduce the computational complexity.
  • color and shape information is extracted in the form of color higher-order local autocorrelation features, and the time-based features such as gait are used in the k-NN identification method and the “weight” is used. You may make it.
  • complex identification such as color, shape, and movement (gait) is used at a predetermined ratio (weight) for comprehensive identification. By changing (multiplying) the weight according to the importance level, it is possible to identify with higher reliability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

 処理負荷の軽い方法で動画像からの人などの移動対象の実時間追跡を実現すると共に、追跡を通して特徴を学習し、より精度の高い追跡を実現する追跡装置および追跡方法を提供する。追跡装置は、入力された動画像データを部分画像(短冊状あるいは矩形状)に分割し、追跡対象の含まれていない背景画像と現在の画像とを比較することにより追跡対象が存在する分割画像を抽出する。また、追跡対象の識別を行うために色と形の特徴を一度に抽出できるカラー高次局所自己相関特徴データを算出し、登録されている追跡対象の特徴データとの距離に基づき識別を行う。更に背景画像や登録特徴データを直近のものに更新する。追跡対象を追跡しながら特徴を獲得し、その特徴を利用して対象を識別するので頑健で高精度な追跡を実現できる。

Description

明 細 書
追跡装置および追跡方法
技術分野
[0001] 本発明は、動画像を取り込んで対象を追跡する追跡装置および追跡方法に関する ものである。
背景技術
[0002] 近年、生活支擦こ利用できる人間協調 ·共存型ロボットや情報機器の必要性が高 まっている。共存型ロボットには環境と人間のアクションを認識させる必要があり、動 Vヽて 、るものを目で追うと 、う人間の視覚機能をシステムとして実現しなければならな い。また、犯罪率の増加に伴い、監視カメラや録画しておいた映像を調べるビデオサ 一べランスと 、つた、動 ヽて 、る人の情報を的確にすばやく取得することのできるシ ステムの需要が増えて 、る。
[0003] 上記したような用途に必要な移動物体の自動追跡技術に関しては、既に多くの研 究がなされて!/、る。フレーム間差分画像力も追跡対象である移動物体のエッジ部分 を抽出することによって移動物体の領域を抽出して追跡するものや、画像中のある点 や図形が次の瞬間にどのような方向へ、どの程度の距離を移動するかを示す速度べ タトルであるオプティカルフローを用い、フローが大きい画素のみを移動物体の領域 として選択する方法などがある。
[0004] 例えば下記特許文献 1には、オプティカルフローとテンプレート画像との相関(マツ チング)による動き情報の双方を使用する物体追跡方法が開示されている。
特許文献 1:特開 2004— 240762号公報
発明の開示
発明が解決しょうとする課題
[0005] 上記した従来の自動追跡方式にお!、ては、対象領域の画像の類似性に注目し、そ の類似度の高いものを追跡することに主眼を置いてきた。しかし、追跡対象の隠れや 交差、向きや大きさの変化等が起きた場合、画像の類似性によってのみ追跡するだ けではどうしても対象の識別精度が不十分であり、追跡動作が不安定になるという問 題があった。また、従来の自動追跡方式においては、計算量が膨大で実時間追跡に は不向きであり、雑音に対して弱いという問題点もあった。
[0006] 本発明の目的はこのような問題点を解決し、できるだけ処理負荷の軽 、方法で実 時間追跡を実現すると共に、追跡を通して対象の特徴を逐次学習し、更新することに より、認識レベルでのより精度の高い追跡を実現する追跡装置および追跡方法を提 供する点にある。
課題を解決するための手段
[0007] 本発明にお 、ては、従来手法の多くに見られる画像 (画素)レベルのマッチング (相 関)ではなぐ対象特有の特徴を利用して、対象の識別を行いながら追跡を行う。こ のために、顔の形や色の特徴を一度に抽出できるカラー高次局所自己相関特徴を 利用した追跡手法を用いる。
[0008] 本発明の追跡装置は、入力された動画像データを分割して分割画像データを生成 する画像分割手段と、前記分割画像データから背景画像データと異なる部分の非背 景画像データを抽出する抽出手段と、前記抽出手段の出力に基づき、前記分割画 像に追跡対象の少なくとも一部が含まれている力否かを判定する対象有無判定手段 と、対象有りと判定された非背景画像データについて、カラー高次局所自己相関特 徴データを算出する特徴データ計算手段と、対象有りと判定された分割画像につい て、隣接する分割画像をまとめて追跡対象の位置を決定する対象位置決定手段と、 まとめられた非背景画像データの前記特徴データを加算合成する加算合成手段と、 登録されている追跡対象の特徴データと前記加算合成手段の出力との距離に基づ き追跡対象を識別する識別手段とを備えたことを主要な特徴とする。
[0009] あるいは、本発明の追跡装置は、入力された動画像データを分割して分割画像デ ータを生成する画像分割手段と、前記分割画像データから背景画像データと異なる 部分の非背景画像データを抽出する抽出手段と、非背景画像データについてカラ 一高次局所自己相関特徴データを算出する特徴データ計算手段と、カラー高次局 所自己相関特徴データ力 特徴データベクトルの長さであるノルムを算出するノルム 算出手段と、ノルム算出手段の出力に基づき、分割画像に追跡対象の少なくとも一 部が含まれているか否かを判定する対象有無判定手段と、対象有りと判定された分 割画像につ!ヽて、隣接する分割画像をまとめて対象の位置を決定する対象位置決 定手段と、まとめられた非背景画像データの前記特徴データを加算合成する加算合 成手段と、登録されている追跡対象の特徴データと前記加算合成手段の出力との距 離に基づき追跡対象を識別する識別手段とを備えたことを主要な特徴とする。
[0010] また、前記した追跡装置において、前記対象有無判定手段によって追跡対象が無 いと判定された分割画像に基づき背景画像を更新する背景画像更新手段を備えて いてもよい。
また、前記した追跡装置において、前記識別手段は、追跡対象毎に直近の複数個 の特徴データを保存する保存手段と、保存されている全ての特徴データと、検出され た対象の特徴データとの距離をそれぞれ計算し、距離が最も近!、奇数個の特徴デ ータを抽出する最近特徴データ抽出手段と、検出された対象が、抽出された奇数個 の特徴データの内で特徴データの数が最も多い追跡対象に属するものと判定する対 象識別手段とを備えていてもよい。更に、前記した追跡装置において、前記識別手 段の識別結果に基づき、登録されて!ヽる追跡対象の特徴データを更新する登録対 象更新手段を備えて 、てもよ 、。
発明の効果
[0011] 高次局所自己相関特徴は、従来の研究において顔認識等の個人識別に対して有 効な特徴であることが知られている。本発明においては、この高次局所自己相関特 徴を更にカラーに拡張し、形と色の情報を同時に抽出するカラー高次局所自己相関 特徴を使用する。このカラー高次局所自己相関特徴は、画像内における位置不変性 があり、追跡対象が分割画像内のどこにあっても正確に認識可能である。従って従来 の画像マッチングのように対象そのものの位置(輪郭)を正確に検出あるいは予測す る必要がなぐ追跡対象を特徴レベルで識別しながら追跡を行うことで、より頑健で高 精度な追跡を実現できるという効果がある。
[0012] 本発明の方式は、追跡する処理と追跡対象から情報を獲得する処理を同時に行う こと〖こ相当する。従って、対象の隠れや他の対象との交差等によって対象の認識が できない状態が発生しても、その状態が解消された後は対象を識別することにより、 問題なく追跡を継続できる。 また、特徴抽出のための計算量が少なぐ実時間処理が可能であるという効果もあ る。更に各分割画像について並行処理が可能であるので、 PCクラスターなどを用い て並行処理することにより、更に処理速度を向上させることが可能であるという効果も ある。
[0013] 更に、本発明の方式はテンプレート画像との比較を行わないので、テンプレートを 予め用意する必要がなぐこのことによって汎用性が向上すると共に、新たに検出さ れた対象の正確な特徴データを直ちに取得可能であり、対象の画像上における大き さや動きに依存せず、時間と共に位置のみならず、形、色、大きさが変化しても高精 度で追跡可能であると 、う効果もある。
図面の簡単な説明
[0014] [図 1]図 1は本発明による追跡装置の構成を示すブロック図である。
[図 2]図 2は本発明の対象追跡処理の内容を示すフローチャートである。
[図 3]図 3はカラー高次局所自己相関の変位ベクトルの種類を示す説明図である。
[図 4]図 4は短冊状に分割した入力画像例を示す説明図である。
[図 5]図 5は非背景画像例 (全体)を示す説明図である。
[図 6]図 6本発明の第 2実施例の追跡処理の内容を示すフローチャートである。 符号の説明
[0015] lO- '·ビテォカメラ
l l - '·ビデオキヤプチャ装置
12· "コンピュータ
13· '·モニタ装置
14· ··キーボード
15· "マウス
20· •LAN
21、 22、 31- --PC
23· ' ·ルータ
30· "インターネット
発明を実施するための最良の形態 [0016] 本発明では、追跡対象の位置を推定するために以下の処理を行う。まず、画像を 短冊状 (または矩形)に分割し、短冊型の各分割画像を調べることで、追跡対象が存 在する分割画像を抽出する。
[0017] 追跡対象の抽出法には様々な方法がある力 本発明では、追跡対象の含まれてい ない背景画像と現在の画像とを比較することにより、追跡対象が存在する分割画像を 抽出する。追跡対象の存在する分割画像について隣接するものをまとめることで、追 跡対象の現在位置を取得することができる。また、追跡対象の特徴データを生成し、 登録データと比較して追跡対象の識別を行う。追跡対象を追跡しながら特徴を獲得 、その特徴を利用して対象を識別し、高精度な追跡を実現する。
実施例 1
[0018] 図 1は、本発明による追跡装置の構成を示すブロック図である。ビデオカメラ 10は 対象となる人や装置のカラー動画像フレームデータをリアルタイムで出力する。カラ 一動画像データは例えば RGB各 256階調であってもよい。 PC (パソコン)などのコン ピュータ 12は、外付けあるいは内蔵の、動画像を取り込むためのビデオキヤプチヤー 装置 11を介して、ビデオカメラ 10からカラー動画像フレームデータをリアルタイムで 取り込む。
[0019] コンピュータ 12は周知のモニタ装置 13、キーボード 14、マウス 15、 LAN20に接続 されている。 LAN20には PC21、 22の他、ルータ 23を介してインターネット 30が接 続されており、コンピュータ 12は LAN上の他の PC21、 22やインターネット上の PC3 1と通信可能である。本発明の追跡装置は、パソコンなどの周知の任意のコンビユー タ 11に後述する処理を実行するプログラムを作成してインストール、起動することによ り実現される。
[0020] 他の PC21、 22、 31は、追跡処理における並列処理装置として、あるいは追跡結 果の遠隔表示に使用可能である。なお、実施例においては、例えばビデオカメラ 10 力 入力された動画像データを実時間で処理する例を開示する力 ー且動画像ファ ィルに保存して力 順次読み出して処理してもよ 、。
[0021] 図 2は、コンピュータ 12において実行される本発明の対象追跡処理の内容を示す フローチャートである。なお、実施例においては追跡対象として人を追跡する例を開 示するが、本発明は任意の追跡対象に適用可能である。 S10においては、ビデオキ ャプチヤー装置 11を使用してビデオカメラ 10から画像フレームデータをリアルタイム で取り込む。
[0022] S11においては、入力した画像データを N個の短冊型 (垂直にのみ分割)または矩 形 (水平および垂直に分割)の画像へ分割する。分割境界では、後述する特徴デー タ算出のため、境界線よりも 1画素余分に重複して切り出す。分割画像の大きさは対 象と同程度カゝより小さい程度とする。対象が多数存在する場合には分割画像の大き さを小さくすることにより、対象の分離精度がより向上する。
[0023] 画像を分割した後の各短冊画像での処理は全て並列に行うことができ、実時間処 理を実現するのに好都合である。また本発明で使用する対象を識別するための特徴 データは加法性を持っており、画像の分割、結合に対して極めて相性が良い。以下 実施例においては、短冊型 (垂直にのみ分割)に分割した場合について説明する。 また、実施例においては画像の分割数を例えば 40とする。図 4はコンピュータ 12に 入力し、短冊状に分割した画像例を示す説明図である。
[0024] S12においては、分割画像データを 1つ取り出す。 S13においては、背景画像との 差分を取り、非背景画像を抽出する。追跡対象抽出手法としては、オプティカルフロ 一を用いる方法、フレーム間差分法、背景差分法を用いる方法等がある。しかし、ォ プティカルフローを用いる方法は計算量が多ぐ雑音に対しても弱いため、追跡対象 の抽出にはあまり適切ではない。また、フレーム間差分法は、対象が静止してしまうと 対象を抽出できなくなるという問題点がある。これに対して背景差分法は追跡対象が たとえ静止したとしても正確に抽出することができる。よって、本発明においては背景 差分法を用いる。
[0025] 背景差分法とは、予めなんらかの方法で用意した背景画像と現在の入力画像との 差分を取ることにより、処理すべき対象を得る方法である。背景画像としては予め追 跡対象を含まない画像を入力し、保存すればよい。しかし、実際の場面では、道路や 人通りが多い場所など常に追跡対象が存在しており、追跡対象が含まれない画像を 取得するのが難し 、場合が多 、。このような場合にも追跡対象を含まな 、背景画像 を推定する必要がある。そこで、背景画像をそのまま使うのではなぐ複数の背景画 像の各画素について時系列上の中央値を取ってもよい。なお、本発明においては、 後述するように、短冊単位で追跡対象がない画像を背景画像として置き換えることに より背景画像を更新している。
[0026] 図 5は複数の分割画像カゝら抽出した非背景画像 (全体)例を示す説明図である。図 中〇で囲んだ部分のように、追跡対象が存在しないにもかかわらず抽出されて!、る「 雑音」が存在する。この雑音を極力減らすために、次のような処理を行う。各短冊に おいて、背景画像を B (x)、現在の画像を F (X) (x=r,g,b)、閾値 εを小さな値として、 差分画像 G (X)を以下のようにして算出する。
[0027] [数 1]
I Fi x) - Β ω| > ε ならば、 。 ): ) 、 そうでなければ、 Gij(x) = 0
[0028] この処理を RGBに関して行い、差分画像 Gを生成する。この処理により、わずかな 変化は検出しないので雑音が減り、対象の検出精度が向上する。なお、照明や日射 し、影などの影響により背景画像が時間と共に変化する。このような変化については 上記した処理だけでは対応できな 、ので、後述する処理によって背景画像を常に更 新する。
[0029] S14においては、非背景面積を求める。即ち、背景部分においては差分画素値は 0であるので、短冊状の差分画像における 0以外の画素数を計数する。 S 14の計数 処理は S13の画素毎の判定処理と同時に処理してもよい。
S 15にお 、ては、各短冊毎の非背景面積 (画素数)の値が所定の閾値より大き!/、か 否かによって対象が存在する可能性が大きいか否かが判定され、判定結果が否定 の場合には S17に移行する力 肯定の場合には S16に移行する。所定の閾値の最 適値は、実験により決定すればよいが、対象が隣の短冊と分割されている場合にも 検出する必要があるので、追跡対象 (人)の画像全体の画素数の 1Z20〜1Z5程度 とする。
[0030] S16においては、カラー高次局所自己相関特徴を計算して保存する。本発明にお いては、形の情報を抽出でき、個人識別に実績のある特徴である高次局所自己相関 特徴をカラーに拡張し、色と形の両方の情報を同時に抽出できるようにした。高次自 己相関特徴は、自己相関特徴を高次へと拡張したものであり、画面内の対象画像を f (r)とすると、 高次局所自己相関特徴は変位方向(a ,-,a )に対して次式 2で定義さ
1 N
れる。 V
[0031] ノ
Figure imgf000010_0001
[0032] 高次局所自己相関特徴は、次数や変位方向(a , -,a )の取り方により無数に考え
1 N
られる。しかし、画像は局所的な相関が大きいので局所に限り、組み合わせ爆発を避 ける。また局所に限ることにより加法性を持つ。従来の高次局所自己相関特徴は 2値 画像や濃淡画像力も抽出していたが、本発明においてはカラー画像に適用するため に高次局所自己相関をカラーに拡張する。
[0033] 今、カラー画像を {fG,j) = (r(i,j),g(i,j),b(i,j))|iE I,jEj}とする。ただし、 r(i,j)、 g(i,j)、 b(i, j)は、それぞれ画素 (i,j)における赤 (r)、緑 (g)、青 (b)成分の輝度を表す。実施例に おいてはカラー高次局所自己相関の次数を、高々 1までとする力 2以上を採用して もよい。カラー画像に対する 0次の自己相関は、画素数で正規化した場合、
[0034] [数 3]
Figure imgf000010_0002
U
[0035] で定義される。これらは画像の赤、緑、青成分の平均値である。これにより 3個の特徴 が得られる(図 3 (a) )。
[0036] また、 1次の自己相関特徴は、変位方向を a= (a ,a )とすると、
m n
[0037] [数 4] 、
=— (U)f + am,j + an)
IJ iel eJ
Figure imgf000011_0001
。b
[0038] で定義される。変位方向の取り方により、無数の可能性が考えられるが、ここでは簡 単のため、それを参照点 rのまわりの局所的な 3 X 3の局所領域に限定する。つまり、 変位ベクトル aは、(0,0)、(0,1)、(1,0)、(1, 1)、…のような値をとる。
[0039] 局所領域の平行移動により等価となる変位ベクトルパターンを除くと、変位ベクトル の種類は図 3 (b)〜(f)に示す 5種類に限定される。このパターンから、 0次と同じバタ ーン (b)については同じ画素値を乗算するために重複する値が 3組あるので 6種類、 他の 4つのパターン (c)〜 (f)につ 、ては各 9種類の独立な特徴データが計算される 。従って、合計 42個の 1次の局所自己相関特徴が得らえる。そして、 0次と 1次の特 徴データを合せると、画像カゝら全体として 45個のデータが得られる。特徴データはこ の 45個の値力 なり、 45次元特徴ベクトルデータとみなすこともできる。
[0040] 各特徴の計算は、「数 3」および「数 4」に示すように、局所パターンの対応する画素 の値の積を全矩形画像について加算する。この特徴抽出は、認識のための非可逆 な情報圧縮であるが、対象の形および色に関して、画像内における対象の位置に寄 らない本質的な情報を抽出し、無関係な情報を捨象する。この情報圧縮によって、入 力画像における対象の少々の変動に対して頑健性が期待される。
[0041] こうして計算された特徴データは、次のような性質を持つ。
( 1)位置に関して不変である。背景が一様であれば、対象が画像中のどこにあっても 特徴値は同じとなる。従って、対象が画像中で平行移動しても、画像全体から計算さ れる特徴量は同じである。
(2)画面に関する加法性を満たす。画像全体の特徴量は画像中の各対象の特徴量 の和になる。言い替えれば、対象の各部位の特徴の和が対象全体の特徴と等しくな る。
(3)計算量が少ない。 (4)認識課題に依存しな!、一般的な特徴である。特徴抽出の際に認識対象を特定 する必要がな 、。この性質によりシステムの汎用性が確保される。
[0042] S17においては、各短冊毎の非背景面積 (画素数)の値が所定の第二の閾値より 大き!/、か否かによって雑音が存在して 、る力否かが判定され、判定結果が否定の場 合〖こは S 18に移行する力 肯定の場合には S 19に移行する。
[0043] S18においては、対象が存在せず雑音もほとんどない背景データを用いて背景デー タを更新する。更新方法としては、単純に上書きして置き換えてもよいし、直近の複 数個の背景データの画素値の中央値を採用してもよい。 S19においては、分割画像 データが全て処理完了したか否かが判定され、判定結果が否定の場合には S12に 移行するが、肯定の場合には S20に移行する。
[0044] S20においては、分割画像に対象の少なくとも一部が含まれているカゝ否かを判定し て、対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の 位置を決定すると共に、それらの隣接する分割画像の特徴データを全て加算して対 象の特徴データを合成する。
[0045] 例えば人が歩いている状態を考えてみると、足を前後に開いた状態と直立に近い 状態を交互に繰り返している。足先に注目してみると、足先のみの短冊画像はあたか も大きい雑音の様なものであり、雑音と足先との区別がつかない。
[0046] そこで、 S 15にお 、て対象有りと判定された短冊画像を非背景面積の大きさによつ て更に「大」、「中」の 2つに分け、隣接する短冊画像の非背景面積の大きさ(「大」、「 中」、「小」(対象無し))によって、対象の一部力雑音かを判定する。即ち、「大」は対 象の一部であるものと見なし、隣接する「大」または「中」と加算する。「中」は、隣接す る「大」があれば対象の一部と見なし、隣接する「大」と加算するが、両隣が「中」また は「小」である場合には雑音と見なす。
[0047] なお、「大」 1つのみなどの場合には対象である人とは異なる追跡対象 (例えば鳥な ど)である可能性がある。この場合には、例えば非背景面積の大きさや特徴ベクトル の長さ等に基づき、対象力否かを判定するようにしてもよい。「大」と「中」の閾値の最 適値は追跡対象や入力画像の大きさ、分割方法等によるので実験により決めればよ い。 [0048] 以上の処理により、対象を含む複数の隣接する短冊状画像が抽出され、その短冊 状画像の位置に対象が存在することが認識できる。また、対象が存在する短冊画像 にお 、て既に各々抽出されて 、る特徴データを足し合わせるだけで、対象全体の特 徴データを獲得することができる。これは特徴データが加法性を持っためである。
[0049] S21においては、既に登録されている対象の特徴データとの距離を計算し、対象を 識別する。識別を行う前に、得られた特徴データ (ベクトル X)の正規化を行う。ここで の正規ィ匕とはノルムが 1となるように処理する、具体的には特徴ベクトル Xの各要素の 値をノルムの値で除算することを示す。ノルム(norm)は下記の数式 5により定義され る特徴ベクトルの長さである。
[0050] [数 5]
Figure imgf000013_0001
[0051] すなわち、抽出した対象の特徴を特徴空間上にプロットした点が、特徴空間上にお いて原点を中心とした単位球上に乗るようにする。このようにすると、全く同一の特徴 データであれば距離が 0となり、原点との距離が 1となる。つまり距離力^に近ければ 近 、ほど類似度が高 、と 、う簡単な処理で識別できるようになる。またそれによつて、 対象の距離による大小の変動にも頑健な識別となる。
[0052] 実施例において対象の識別に採用する k-NN法は、最近の検出された全ての対象 について、それぞれ数個の特徴データをそのまま保持 '更新しながら、判別したい特 徴ベクトルからもっとも近い k個の特徴データを抽出し、その内で最も多数の特徴デ ータが抽出された対象に属するものと判定する方法である。これによつて、歩行など の動きによる対象の形の変化にも頑健な識別が可能となる。
[0053] k-NN法は、対象毎に複数の特徴データをそのまま登録してそれぞれとの距離を 比較するので、追跡対象が人物である場合には、歩行中の異なる姿勢の複数の特 徴データが登録されることになり、 gait (歩様)も識別に利用することができる。
[0054] 以下、 k-NN法にっ 、て説明する。今、対象 A、 Bにつ 、てそれぞれ n個の特徴デ ータが所属するクラス(=対象 ID、 Aまたは B)と共に登録されているとする。画像から 検出した対象の特徴データ Xと、上記登録されて!、る特徴データそれぞれとの距離を 算出し、距離の小さい順に並べる。そして最初の k個 (kは奇数)を取り出し、その特 徴データのクラスの多数決を取って最も数の多いクラスを対象が属するクラスとする。
[0055] 例えば kが 5であり、最も近い 5個の特徴データのクラス力 Aが 3個、 Bが 2個であれ ば対象のクラスを Aと決定する。なお、最も小さい距離が所定値よりも大きい場合には 現在登録されて ヽる ヽずれの対象にも属さな ヽものと判定し、新たな対象として登録 する。この手法では追跡対象の直近の情報を複数個保持し続けるため、安定して追 跡することができる。なお、登録情報は対象が新たに追加される毎に増加していくの で、一定時間経ってもその登録情報に属する対象が検出されな力つた登録情報は 肖 IJ除するようにしてちょい。
[0056] S22においては、追跡結果を出力する。結果としては、例えば現在の画像上の対 象の位置やその対象の軌跡等の情報である。 S23においては、登録特徴データを 更新する。対象のクラスが決定した場合には、そのクラスの登録データの最古のもの を削除し、最新の特徴データを登録して特徴データを更新する。 S24においては、 例えば管理者の終了操作の有無に基づき、処理を終了するか否かが判定され、判 定結果が否定の場合には S 10に移行するが、肯定の場合には処理を終了する。 実施例 2
[0057] 次に第 2実施例について説明する。第 1実施例においては、分割画像の非背景面 積に基づいて対象の有無等を判断したが、第 2実施例においては、全ての分割画像 の背景差分画像力 特徴データを算出し、特徴データに基づいて対象の有無等を 判断する。
[0058] 図 6は、本発明の第 2実施例の対象追跡処理の内容を示すフローチャートである。
第 1実施例と異なる処理は、 S34〜S37および S39であるので、この部分の処理に ついて説明する。 S34においては、図 2の S16と同様の処理により、カラー高次局所 自己相関特徴を計算して保存する。この処理は全ての分割画像に対して行われる。 S 35においては、前述したノルムを計算する。
[0059] S36においては、ノルムが所定値以上であるか否かによって、対象の少なくとも一 部が分割画像内に存在する可能性が無いか否かが判定され、判定結果が否定の場 合には S38に移行する力 肯定の場合には S37に移行する。 S37においては、 S18 と同様に、対象が存在せず雑音もほとんどない背景データを用いて背景データを更 新する。
[0060] S39においては、対象の位置の推定のためにノルムを用いる。背景差分を行い、 生成された非背景画像から得られる特徴のノルムは、追跡対象が存在する画像では 大きぐそうでない画像では小さくなつている。つまり、各短冊画像のノルムの大きさを 比較すれば、どの短冊画像に追跡対象が存在するかがわかる。
[0061] そこで、ノルムを、ノルムが 0に近いもの、中程度のもの、大きいものの 3つに分ける 。大きいものは追跡対象が存在する短冊画像、 0に近いものは追跡対象が存在しな V、短冊画像、中程度のものは大き ヽ雑音かあるいは追跡対象(の一部)がある短冊 画像となる。そして、ノルムが大きい短冊画像に隣接する短冊画像で、中程度のノル ムを持つものを対象の一部が存在するものとみなし、大き 、ノルムの短冊とは離れて V、る中程度のノルムを持つ短冊を雑音とみなす。
[0062] このようにすれば追跡対象が人物のように時刻によって幅が変化するものであって も正確に追従できる。また、対象の特徴を獲得する際には、追跡対象が存在する短 冊画像にお 1ヽて既に各々抽出されて ヽる特徴データを足し合わせるだけで、対象全 体の特徴を獲得することができる。
[0063] 次に、実験結果について説明する。本発明者がカラー動画を用いて行った実験の 結果、基本的に対象の追跡が可能であり、単純な隠れについて問題なく追跡できる ことが検証できた。また、追跡対象が隠れ状態から復帰した時、別の対象 (人)に入 れ替わっている場合についても実験を行った。その結果、隠れ状態から復帰した人 物が入れ替わつていた時は別人だと判断し、その後、元の人物が登場した時に正し く判別しながら追跡を行うことができ、対象が急に入れ替わった場合でもそれを正しく 判別し、追跡を行うことができることが検証できた。更に対象者が別の人物と交差する 場合、交差中は追跡対象が存在する短冊画像がつながり、うまく認識できない (手前 の人物と識別されることが多い)が、交差が終了すると対象の識別がうまく働き、問題 なく追跡を続行できた。
[0064] 以上、人などの移動対象の追跡を行う実施例について説明した力 本発明には以 下のような変形例も考えられる。実施例においては、検出した対象の位置情報を次 の追跡処理には利用していない。そこで、追跡対象が今どこに存在し、次にどの位 置に移動しそうか、ということを記憶しておき、後の識別に有効に利用する行動予測 による対象の位置推定機能を追加してもよい。これによつて更に大幅な計算量の削 減が図れる。
また、実施例では色と姿形の情報をカラー高次局所自己相関特徴という形で抽出 し、 gaitといった時間軸上の特徴を k-NN識別法で利用している力 更に「重み」を用 いるようにしてもよい。即ち、実施例においては、色、形、動き方 (gait)といった複合 的な特徴をある所定の割合 (重み)で使って総合的に識別を行って ヽるが、状況によ つては、特徴の重要度に応じて重みを変える(掛ける)ことで、より信頼度の高い識別 も可能となる。

Claims

請求の範囲
[1] 入力された動画像データを分割して分割画像データを生成する画像分割手段と、 前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 する抽出手段と、
前記抽出手段の出力に基づき、前記分割画像に追跡対象の少なくとも一部が含ま れて!、る力否かを判定する対象有無判定手段と、
対象有りと判定された非背景画像データについて、カラー高次局所自己相関特徴 データを算出する特徴データ計算手段と、
対象有りと判定された分割画像について、隣接する分割画像をまとめて追跡対象 の位置を決定する対象位置決定手段と、
まとめられた非背景画像データの前記特徴データを加算合成する加算合成手段と 登録されている追跡対象の特徴データと前記加算合成手段の出力との距離に基 づき追跡対象を識別する識別手段と、
を備えたことを特徴とする追跡装置。
[2] 入力された動画像データを分割して分割画像データを生成する画像分割手段と、 前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 する抽出手段と、
非背景画像データについてカラー高次局所自己相関特徴データを算出する特徴 データ計算手段と、
カラー高次局所自己相関特徴データ力 特徴データベクトルの長さであるノルムを 算出するノルム算出手段と、
ノルム算出手段の出力に基づき、分割画像に追跡対象の少なくとも一部が含まれ て!ヽるか否かを判定する対象有無判定手段と、
対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の位 置を決定する対象位置決定手段と、
まとめられた非背景画像データの前記特徴データを加算合成する加算合成手段と 登録されている追跡対象の特徴データと前記加算合成手段の出力との距離に基 づき追跡対象を識別する識別手段と、
を備えたことを特徴とする追跡装置。
[3] 前記対象有無判定手段によって追跡対象が無いと判定された分割画像に基づき 背景画像を更新する背景画像更新手段を備えたことを特徴とする請求項 1または 2 の!、ずれかに記載の追跡装置。
[4] 前記識別手段は、
追跡対象毎に直近の複数個の特徴データを保存する保存手段と、
保存されている全ての特徴データと、検出された対象の特徴データとの距離をそれ ぞれ計算し、距離が最も近!ヽ奇数個の特徴データを抽出する最近特徴データ抽出 手段と、
検出された対象が、抽出された奇数個の特徴データの内で特徴データの数が最も 多い追跡対象に属するものと判定する対象識別手段と
を備えたことを特徴とする請求項 1または 2のいずれかに記載の追跡装置。
[5] 前記識別手段の識別結果に基づき、登録されて!ヽる追跡対象の特徴データを更 新する登録対象更新手段を備えたことを特徴とする請求項 1または 2のいずれかに 記載の追跡装置。
[6] コンピュータを、
入力された動画像データを分割して分割画像データを生成する画像分割手段、 前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 する抽出手段、
前記抽出手段の出力に基づき、前記分割画像に追跡対象の少なくとも一部が含ま れて!ヽるか否かを判定する対象有無判定手段、
対象有りと判定された非背景画像データについて、カラー高次局所自己相関特徴 データを算出する特徴データ計算手段、
対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の位 置を決定する対象位置決定手段、
まとめられた非背景画像データの前記特徴データを加算合成する加算合成手段、 登録されている追跡対象の特徴データと前記加算合成手段の出力との距離に基 づき追跡対象を識別する識別手段
として機能させることを特徴とする追跡プログラム。
[7] コンピュータを、
入力された動画像データを分割して分割画像データを生成する画像分割手段、 前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 する抽出手段、
非背景画像データについてカラー高次局所自己相関特徴データを算出する特徴 データ計算手段、
カラー高次局所自己相関特徴データ力 特徴データベクトルの長さであるノルムを 算出するノルム算出手段、
ノルム算出手段の出力に基づき、分割画像に追跡対象の少なくとも一部が含まれ て!ヽるか否かを判定する対象有無判定手段、
対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の位 置を決定する対象位置決定手段、
まとめられた非背景画像データの前記特徴データを加算合成する加算合成手段、 登録されている追跡対象の特徴データと前記加算合成手段の出力との距離に基 づき追跡対象を識別する識別手段
として機能させることを特徴とする追跡プログラム。
[8] 入力された動画像データを分割して分割画像データを生成するステップ、
前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 するステップ、
前記分割画像に追跡対象の少なくとも一部が含まれているか否かを判定するステ ップ、
対象有りと判定された非背景画像データについて、カラー高次局所自己相関特徴 データを算出するステップ、
対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の位 置を決定するステップ、 まとめられた非背景画像データの前記特徴データを加算合成するステップ、 登録されている追跡対象の特徴データと前記加算合成出力との距離に基づき追跡 対象を識別するステップ
を含むことを特徴とする追跡方法。
入力された動画像データを分割して分割画像データを生成するステップ、 前記分割画像データ力 背景画像データと異なる部分の非背景画像データを抽出 するステップ、
非背景画像データについてカラー高次局所自己相関特徴データを算出するステツ プ、
カラー高次局所自己相関特徴データ力 特徴データベクトルの長さであるノルムを 算出するステップ、
ノルムに基づき、分割画像に追跡対象の少なくとも一部が含まれているカゝ否かを判 定するステップ、
対象有りと判定された分割画像について、隣接する分割画像をまとめて対象の位 置を決定するステップ、
まとめられた非背景画像データの前記特徴データを加算合成するステップ、 登録されている追跡対象の特徴データと前記加算合成出力との距離に基づき追跡 対象を識別するステップ
を含むことを特徴とする追跡方法。
PCT/JP2005/016711 2004-12-02 2005-09-12 追跡装置および追跡方法 Ceased WO2006059419A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05782365.0A EP1835462A4 (en) 2004-12-02 2005-09-12 TRACKING DEVICE AND PERSECUTION PROCEDURE
US11/792,084 US7957557B2 (en) 2004-12-02 2005-12-09 Tracking apparatus and tracking method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004349244A JP3970877B2 (ja) 2004-12-02 2004-12-02 追跡装置および追跡方法
JP2004-349244 2004-12-02

Publications (1)

Publication Number Publication Date
WO2006059419A1 true WO2006059419A1 (ja) 2006-06-08

Family

ID=36564859

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/016711 Ceased WO2006059419A1 (ja) 2004-12-02 2005-09-12 追跡装置および追跡方法

Country Status (4)

Country Link
US (1) US7957557B2 (ja)
EP (1) EP1835462A4 (ja)
JP (1) JP3970877B2 (ja)
WO (1) WO2006059419A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4368767B2 (ja) * 2004-09-08 2009-11-18 独立行政法人産業技術総合研究所 異常動作検出装置および異常動作検出方法
JP4215781B2 (ja) * 2006-06-16 2009-01-28 独立行政法人産業技術総合研究所 異常動作検出装置および異常動作検出方法
JP4603512B2 (ja) * 2006-06-16 2010-12-22 独立行政法人産業技術総合研究所 異常領域検出装置および異常領域検出方法
JP4429298B2 (ja) * 2006-08-17 2010-03-10 独立行政法人産業技術総合研究所 対象個数検出装置および対象個数検出方法
US8593506B2 (en) * 2007-03-15 2013-11-26 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
JP4389956B2 (ja) 2007-04-04 2009-12-24 ソニー株式会社 顔認識装置及び顔認識方法、並びにコンピュータ・プログラム
JP4842197B2 (ja) * 2007-04-17 2011-12-21 財団法人ソフトピアジャパン 多重分割画像を用いた異常動作検出装置、異常動作検出方法及び異常動作検出用プログラム
CN101453660B (zh) * 2007-12-07 2011-06-08 华为技术有限公司 一种视频目标跟踪方法和装置
JP2010061588A (ja) * 2008-09-05 2010-03-18 Univ Of Tokyo 特徴ベクトル算出装置、特徴ベクトル算出方法及びプログラム
CN101567087B (zh) * 2009-05-25 2012-05-23 北京航空航天大学 复杂天空背景下红外序列图像弱小目标检测与跟踪方法
US8340435B2 (en) * 2009-06-11 2012-12-25 California Institute Of Technology Method and system for object recognition search
JP2012133759A (ja) * 2010-11-29 2012-07-12 Canon Inc 侵入物体の検知を行うことができる物体追尾装置、物体追尾方法及び記憶媒体
CN102208023B (zh) * 2011-01-23 2013-05-08 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
JP6095283B2 (ja) * 2012-06-07 2017-03-15 キヤノン株式会社 情報処理装置、およびその制御方法
CN104769578B (zh) * 2012-11-09 2017-06-27 加州理工学院 自动特征分析、比较和异常检测的方法
CN104504401B (zh) * 2015-01-09 2018-08-31 成都新舟锐视科技有限公司 一种基于多监控探头的目标识别系统
CN104519326B (zh) * 2015-01-09 2017-12-08 成都新舟锐视科技有限公司 一种联合多监控探头系统的目标跟踪方法
JP6756338B2 (ja) 2015-12-18 2020-09-16 株式会社リコー 画像処理装置、画像処理システム、画像処理方法およびプログラム
US10469590B2 (en) * 2018-01-02 2019-11-05 Scanalytics, Inc. System and method for smart building control using directional occupancy sensors
CN109389640A (zh) * 2018-09-29 2019-02-26 北京字节跳动网络技术有限公司 图像处理方法和装置
US10607105B1 (en) * 2019-03-27 2020-03-31 Disney Enterprises, Inc. Perceptual data association
CN113379762A (zh) * 2021-05-28 2021-09-10 上海商汤智能科技有限公司 图像分割方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287258A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd カラー画像認識装置
JPH08329247A (ja) * 1995-05-30 1996-12-13 Nippon Telegr & Teleph Corp <Ntt> 動画像認識装置
JP2000090277A (ja) * 1998-09-10 2000-03-31 Hitachi Denshi Ltd 基準背景画像更新方法及び侵入物体検出方法並びに侵入物体検出装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0363828B1 (en) 1988-10-11 1999-01-07 Kabushiki Kaisha Ouyo Keisoku Kenkyusho Method and apparatus for adaptive learning type general purpose image measurement and recognition
JP2834153B2 (ja) 1988-10-11 1998-12-09 工業技術院長 適応学習型汎用画像計測装置
JP2982814B2 (ja) 1988-10-11 1999-11-29 工業技術院長 適応学習型汎用画像計測方法
JP4187448B2 (ja) * 2002-03-07 2008-11-26 富士通マイクロエレクトロニクス株式会社 画像における移動体追跡方法及び装置
CN100477745C (zh) * 2002-08-09 2009-04-08 夏普株式会社 图像合成装置和图象合成方法
JP4283005B2 (ja) 2003-02-06 2009-06-24 パナソニック株式会社 物体追跡方法、プログラム、及び記録媒体
JP4090388B2 (ja) * 2003-05-27 2008-05-28 三洋電機株式会社 電波受信装置
CN100573548C (zh) * 2004-04-15 2009-12-23 格斯图尔泰克股份有限公司 跟踪双手运动的方法和设备
US7616782B2 (en) * 2004-05-07 2009-11-10 Intelliview Technologies Inc. Mesh based frame processing and applications
US7376246B2 (en) * 2005-06-27 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Subspace projection based non-rigid object tracking with particle filters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287258A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd カラー画像認識装置
JPH08329247A (ja) * 1995-05-30 1996-12-13 Nippon Telegr & Teleph Corp <Ntt> 動画像認識装置
JP2000090277A (ja) * 1998-09-10 2000-03-31 Hitachi Denshi Ltd 基準背景画像更新方法及び侵入物体検出方法並びに侵入物体検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1835462A4 *

Also Published As

Publication number Publication date
EP1835462A4 (en) 2014-11-12
JP3970877B2 (ja) 2007-09-05
JP2006163452A (ja) 2006-06-22
EP1835462A1 (en) 2007-09-19
US7957557B2 (en) 2011-06-07
US20080187172A1 (en) 2008-08-07

Similar Documents

Publication Publication Date Title
JP3970877B2 (ja) 追跡装置および追跡方法
JP6482195B2 (ja) 画像認識装置、画像認識方法及びプログラム
CN112861808B (zh) 动态手势识别方法、装置、计算机设备及可读存储介质
WO2006028106A1 (ja) 異常動作検出装置および異常動作検出方法
Yadav et al. Human illegal activity recognition based on deep learning techniques
TW201832182A (zh) 動作學習裝置、技能判別裝置以及技能判別系統
Alksasbeh et al. Smart hand gestures recognition using K-NN based algorithm for video annotation purposes
David An intellectual individual performance abnormality discovery system in civic surroundings
Devasena et al. Video surveillance systems-a survey
Kataoka et al. Extended co-occurrence hog with dense trajectories for fine-grained activity recognition
Lejmi et al. A Novel Spatio-Temporal Violence Classification Framework Based on Material Derivative and LSTM Neural Network.
Liang et al. Three dimensional motion trail model for gesture recognition
JP2007052609A (ja) 手領域検出装置及び手領域検出方法、並びにプログラム
Lin et al. Smoking behavior detection based on hand trajectory tracking and mouth saturation changes
Poonkodi et al. RETRACTED ARTICLE: Action recognition using Correlation of Temporal Difference Frame (CTDF)—an algorithmic approach
CN106682582A (zh) 一种基于压缩感知外观模型的人脸跟踪方法及系统
WO2007112295A1 (en) Method and apparatus for predicting the accuracy of a virtual scene based on incomplete information in video
Haque et al. Optical flow based violence detection from video footage using hybrid MobileNet and Bi-LSTM
Kuppuswamy et al. Similar Object Detection and Tracking in H. 264 Compressed Video Using Modified Local Self Similarity Descriptor and Particle Filtering.
Du Design of dance movement recognition algorithm based on 3d motion capture data
Lei et al. A novel approach for enhanced abnormal action recognition via coarse and precise detection stage
Wensheng et al. Implementation of virtual mouse based on machine vision
Fernández et al. Contextual and skin color region information for face and arms location
Goudelis et al. Identifying unintentional falls in action videos using the 3D Cylindrical Trace Transform
Pandey et al. VCFNet-A Multi-Stream Approach to Violence Detection in Complex Video Scenarios using Spatiotemporal Motion Fusion

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2005782365

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005782365

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11792084

Country of ref document: US