HUP0700540A2 - Method of identification of an object - Google Patents
Method of identification of an object Download PDFInfo
- Publication number
- HUP0700540A2 HUP0700540A2 HU0700540A HUP0700540A HUP0700540A2 HU P0700540 A2 HUP0700540 A2 HU P0700540A2 HU 0700540 A HU0700540 A HU 0700540A HU P0700540 A HUP0700540 A HU P0700540A HU P0700540 A2 HUP0700540 A2 HU P0700540A2
- Authority
- HU
- Hungary
- Prior art keywords
- image
- target object
- target
- during
- features
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 77
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 27
- 230000004807 localization Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000001413 cellular effect Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 238000001454 recorded image Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims 1
- 238000005259 measurement Methods 0.000 description 23
- 239000000523 sample Substances 0.000 description 20
- 230000003068 static effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 239000013074 reference sample Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Description
KÖZZÉTÉTELIPUBLICATION
PÉLDÁNY fon OoSAOCOPY fon OoSAO
Eljárás céltárgy azonosságának megállapításáraProcedure for determining the identity of a target
A találmány tárgya egy eljárás céltárgy azonosságának megállapítására, amelynek segítségével ugyanazt a céltárgyat különböző szögekből ábrázoló kameraképek sorozatából a cél5 tárgy alakjára jellemző, az említett kameraképekből egyenként ki nem nyerhető sajátságokat nyerünk ki. Az eljárás során a céltárgyról, amely bármilyen tárgy, de akár testrész is lehet, felvételt készítünk; a felvételen a céltárgyat detektáljuk és lokalizáljuk; a felvételen a céltárgyra jellemző sajátságokat térképezünk fel; összehasonlítás során a feltérképezett sajátságokat előre eltárolt sajátságokkal összevetjük, és előre meghatározott szintű egyezés 10 esetén a céltárgy azonosságát megállapítjuk, vagy ha a tárgy egy távoli biometrikus azonosításra alkalmas testrész, akkor a testrész tulajdonosának azonosságát megállapítjuk, illetve két céltárgy azonosságát igazoljuk a sajátságok alapján.The subject of the invention is a method for determining the identity of a target object, with the help of which we extract features characteristic of the shape of the target object from a series of camera images depicting the same target object from different angles, which cannot be extracted individually from the said camera images. During the method, a recording is made of the target object, which can be any object, or even a body part; the target object is detected and localized on the recording; the features characteristic of the target object are mapped on the recording; during comparison, the mapped features are compared with pre-stored features, and in the case of a predetermined level of match 10, the identity of the target object is established, or if the object is a body part suitable for remote biometric identification, the identity of the owner of the body part is established, or the identity of two targets is verified based on the features.
A fent leírt azonosítási módszer alapjai manapság már nem számítanak újdonságnak a biometrikus - tehát testjellemzők, testméretek alapján történő - személyazonosítás terüle15 tén. Fontos azonban látni, hogy a passzív biometrikus azonosítási módszereknél (ahol nincs szükség az azonosítandó szermély együttműködésére, mint ahogyan az például az ujjnyomat vagy írisz-alapú azonosításnál elengedhetetlen), igen nagy problémát jelent az általában kamerával - levett minták minősége, mivel azok számos véletlen faktortól függhetnek. A kamerák háromdimenziós testek kétdimenziós leképezését látják, ami a perspek20 tíva és a felvételi szögből adódó torzulások miatt nagyon széles határok között változtathatja a felvett kép formáját. A természetesen adódó megoldás a testek háromdimenziós szkennelése lenne, ez azonban ma még drága felszerelést igényel és az alany aktív részvétele nélkül a gyakorlatban nehezen valósítható meg. A mi megoldásunk videofelvételek, tehát kameraképek sorozatának elemzésével nyer ki az azonosítani kívánt tárgy háromdi25 menziós alakjával kapcsolatos információt, így hatékonyan tudja kompenzálni a torzulásból adódó eltéréseket Leírásunkban legtöbbször a kamera kifejezést használjuk, de ebbe beleértendő minden képet létrehozó optikai, elektrooptikai eszköz, digitális és analóg egyaránt.The basics of the identification method described above are no longer considered novel in the field of biometric - i.e. based on body characteristics and body dimensions - personal identification15. However, it is important to note that with passive biometric identification methods (where there is no need for the cooperation of the person to be identified, as is essential for fingerprint or iris-based identification, for example), the quality of the samples usually taken with a camera is a very big problem, as they can depend on many random factors. Cameras see a two-dimensional image of three-dimensional bodies, which can change the shape of the recorded image within very wide limits due to distortions resulting from perspective20 and the recording angle. The natural solution would be three-dimensional scanning of bodies, but this still requires expensive equipment today and is difficult to implement in practice without the active participation of the subject. Our solution extracts information about the three-dimensional shape of the object to be identified by analyzing a series of video recordings, i.e. camera images, and thus can effectively compensate for differences resulting from distortion. In our description, we mostly use the term camera, but this includes all optical and electro-optical devices that create images, both digital and analog.
A távoli vagy passzív azonosítási technikák esetében a jellegzetességek észlelése és mérése 30 mozgó-, illetve bizonyos esetekben állóképek elemzésével történik, ezért eljárásainkhoz szorosan kapcsolódnak a képfeldolgozási eljárások. Ezek egy része általános képfeldolgozási eljárás, mint például a szűrés, az élkeresés, illetve a szegmentálás, mások viszont specifikusak, egy adott azonosítási módszer részét képezik. Az alapvető képfeldolgozási mód-2szerekről (szegmentálás, élszűrés, geometriai transzformációk, szín transzformációk, stb.) például Álló Géza, Hegedűs Gy. Csaba, Kelemen Dezső, Szabó József: A digitális képfeldolgozás alapproblémái című könyvéből, Akadémiai Kiadó, Budapest, 1989. tájékozódhatunk.In the case of remote or passive identification techniques, the detection and measurement of features is done by analyzing moving or, in some cases, still images, therefore, image processing methods are closely related to our methods. Some of these are general image processing methods, such as filtering, edge detection, and segmentation, while others are specific and form part of a given identification method. For information on the basic image processing methods (segmentation, edge filtering, geometric transformations, color transformations, etc.), see, for example, the book by Géza Álló, Gy. Csaba Hegedűs, Dezső Kelemen, József Szabó: Basic Problems of Digital Image Processing, Akadémiai Kiadó, Budapest, 1989.
A kamera a valós világ egy szegmenséről készít képet, a kameraképen szerepel a háttér, illetve egyéb objektumok is, amelyek a megfigyelés szempontjából irrelevánsak. Egy tárgy azonosítása esetében tehát általában az első lépés a számunkra fontos képrészlet felismerése és kiemelése: a teljes mozgóképből ki kell nyerni a megfigyelt alakzatot, amely eljárást szegmentálásnak nevezünk. Ha az alakzat egészét megtaláljuk és kiemeljük a képen, akkor 10 a szegmentálást foltkeresésnek nevezzük, ha pedig csak az alakzat körvonalait határozzuk meg, akkor élkeresésről beszélünk.The camera takes an image of a segment of the real world, the camera image also includes the background and other objects that are irrelevant to the observation. In the case of identifying an object, the first step is usually to recognize and highlight the part of the image that is important to us: the observed shape must be extracted from the entire moving image, a process called segmentation. If the entire shape is found and highlighted in the image, then 10 the segmentation is called spot detection, and if only the outline of the shape is determined, then we speak of edge detection.
Ahhoz, hogy a tárgy azonosítása során a sajátságok levétele megtörténhessen, az aktuálisan levett mintát (akár a teljes képkockát vagy annak bizonyos szegmentált részeit) általában normalizáljuk, pontosabban a képet normálalakra transzformáljuk. A normalizálás során 15 kiemeljük a kép azon sajátosságait, amelyek az összehasonlításban szerepet játszanak és megpróbáljuk csökkenteni azokat, amelyek az összehasonlítást nehezítik vagy számításigényessé teszik.In order to extract features during object identification, the currently extracted sample (either the entire frame or certain segmented parts of it) is usually normalized, or more precisely, the image is transformed into a normal form. During normalization, we highlight the features of the image that play a role in the comparison and try to reduce those that make the comparison difficult or computationally demanding.
A legfontosabb normalizálás a geometriai normálalakra hozás, amely során a mintát egy adott, többnyire egy mintahalmaz átlagából képzett mintával hozzuk fedésbe. Ez általában 20 egy, a fedés szempontjából optimális hasonlósági affm transzformáció megtalálását és elvégzését jelenti, tehát egy forgatási és eltolási műveletet, illetve egy skálázást (nagyítást vagy kicsinyítést).The most important normalization is the geometric normalization, during which the sample is brought into alignment with a given sample, usually the average of a set of samples. This usually means finding and performing a similarity affm transformation that is optimal for the alignment, i.e. a rotation and translation operation, or a scaling (enlargement or reduction).
A hasonlósági transzformáción felül különböző egyeb, altalaban kisebb korrekciókat is végzünk az objektum egyes komponensein, amelyek szintén javíthatják az azonosítást, te25 hát kiiktathatnak bizonyos torzulásokat, például egy emberi arc esetében a különböző grimaszokat.In addition to the similarity transformation, we also perform various other, usually minor, corrections on individual components of the object, which can also improve identification, i.e. eliminate certain distortions, for example, various grimaces on a human face.
Egy másik fontos normalizálási eljárás a fényviszonyokat egyenlíti ki. Ez általában valamilyen hisztogram (a kép színintenzitás eloszlása) transzformációt jelent, amely révén a két minta színösszetétele, fényerőssége hasonló képet mutat, így az összehasonlítás már na30 gyobb megbízhatósággal végezhető el.Another important normalization procedure equalizes the lighting conditions. This usually involves some kind of histogram (the distribution of the image's color intensity) transformation, which makes the color composition and light intensity of the two samples look similar, so that the comparison can be made with greater reliability.
-3Az alábbiakban egy, az alakfelismerésben és alakkövetésben hatékonyan használható új módszert, az aktív kontúrt mutatjuk be, amely számunkra ígéretes tulajdonságokkal rendelkezik, és amelyről Andrew Blake, Michael Isard: Active Contours, Springer, 1998., című művében olvashatunk részletesebben.-3 Below, we present a new method that can be used effectively in shape recognition and shape tracking, the active contour, which has promising properties for us and about which we can read in more detail in Andrew Blake, Michael Isard: Active Contours, Springer, 1998.
Az aktív kontúr módszer segítségével a képen található élekre „korlátozott rugalmassággal” rendelkező görbét vagy görbéket tudunk illeszteni. A „korlátozott rugalmasság” azt fejezi ki, hogy a görbéink alaktartó tulajdonsággal rendelkeznek, azaz az eredeti állapotuktól csak korlátozott mértékben képesek eltorzulni. Az alaktartó tulajdonságot a görbén ható, általunk felvett úgynevezett belső erőkkel reprezentáljuk, míg a képen található élek, illetve az ezekből képzett vonzóhalmazok - amik lehetnek képpontok, vonaldarabok vagy a képen képzett egyéb objektumok - külső erőként hatnak. Az aktív kontúr végső alakja e két erőhatás eredőjeként, azok egyensúlyi helyzeteként áll elő.With the active contour method, we can fit a curve or curves with “limited elasticity” to the edges in the image. “Limited elasticity” means that our curves have a shape-retaining property, i.e. they can only be distorted to a limited extent from their original state. The shape-retaining property is represented by the so-called internal forces acting on the curve, which we assume, while the edges in the image, or the attractive sets formed from them - which can be pixels, line segments or other objects formed in the image - act as external forces. The final shape of the active contour is the result of these two force effects, their equilibrium position.
Az egyensúlyi helyzetet iterációval tudjuk megkeresni úgy, hogy a belső és külső erőket együttesen alkalmazzuk. Az iteráció esetén fontos a képre helyezett eredeti, deformációmentes alak kezdőhelyzetének jó megválasztása. Ezt más módszerekkel, pl. közvetlen mintaillesztéssel vagy neurális hálókkal oldhatjuk meg. Mozgókép esetén például felhasználhatjuk az előző képkocka során adaptált helyzetet is.The equilibrium position can be found by iteration by applying internal and external forces together. In the case of iteration, it is important to choose the right starting position of the original, non-deformable shape placed on the image. This can be solved by other methods, e.g. direct pattern matching or neural networks. In the case of a moving image, for example, we can use the position adapted during the previous frame.
Az aktív kontúr görbét jellemzően r(s) B-Spline görbékből állítjuk össze (0 < s < 1, lásd Foley, van Dam, Feiner, Hughes: Computer Graphics című könyvében, Addison-Wesley kiadó, 1997.), amelyek kontrollpontjai néhány külső paramétertől függnek, ezek a paraméterek bizonyos határok között mozoghatnak. A spline görbék paramétereit, illetve ezek határait tulajdonképpen az X alaktér (shape-space) paraméterei határozzák meg: r(s;X). Az alaktér határozza meg a görbére ható belső erőket (internal force).The active contour curve is typically composed of r(s) B-Spline curves (0 < s < 1, see Foley, van Dam, Feiner, Hughes: Computer Graphics, Addison-Wesley, 1997.), whose control points depend on some external parameters, these parameters can vary between certain limits. The parameters of the spline curves, and their limits, are actually determined by the parameters of the shape-space X: r(s;X). The shape space determines the internal forces acting on the curve.
Egy példa alakteret mutatunk be a 2a. ábrán, ahol a szem kontúrját tizenegy lehetséges paraméterrel írjuk le. A 2b. ábrán a modell különböző illeszkedéseit vázoltuk egy szem különböző képeire.An example shape space is shown in Figure 2a, where the contour of the eye is described by eleven possible parameters. In Figure 2b, we have sketched different fits of the model to different images of an eye.
Az első, nagyjábóli mintaillesztést a görbére ható erők kiszámolása követi. Általános esetben, a fenti módon leírt potenciális energiák esetében a görbe egyensúlyi helyzetét az alábbi képlettel számolhatjuk ki az adott képkockán található alakzathoz:The first, rough pattern fitting is followed by the calculation of the forces acting on the curve. In the general case, for the potential energies described above, the equilibrium position of the curve can be calculated for the shape in the given frame using the following formula:
' d(yv^r(s-,X)) d2(w2* r(s-,X))' ds ds2 + VF = 0,' d(yv^r(s-,X)) d 2 (w 2 * r(s-,X))' ds ds 2 + VF = 0,
-4ahol wi és az alakzat rugalmasságát és merevségét meghatározó koefficiensek. A görbe alakváltozásait tehát a rá ható „erő” eredményezi, amelyet a fenti két tényező - a VF külső és a zárójelben lévő belső erő - különbségeként kaphatunk meg; ha ez az erő nulla, egyensúlyi helyzet áll fenn. A görbe egy következő képkockán elfoglalt helyét és alakját megjósoljuk, majd a jósolt alakzatot a képkockákból kinyert kontúrok alapján folyamatosan finomítjuk, ahogy azt a 3. ábrán bemutatjuk.-4where wi and are the coefficients determining the elasticity and stiffness of the shape. The deformation of the curve is therefore caused by the “force” acting on it, which can be obtained as the difference between the two factors above - the external force VF and the internal force in brackets; if this force is zero, an equilibrium situation exists. The position and shape of the curve in a subsequent frame are predicted, and then the predicted shape is continuously refined based on the contours extracted from the frames, as shown in Figure 3.
Az alaktér modellek egy spline görbét síkbeli pontokkal definiálnak, így egy görbét leíró Q e Sq spline vektor dimenzióinak a száma kétszerese a görbét meghatározó pontok számának [Nq = 2NB ), hiszen minden pont helyzetét két koordináta határozza meg. Ezt a dimenzió számot azonban csökkenthetjük, ha a konkrét alakzatra vonatkozó paraméterekkel dolgozunk, amit alaktér vektornak nevezzük. Az X e S alaktér vektor dimenzióinak a száma lényegesen kisebb Nx « NQ, így könnyebben kezelhető.Shape space models define a spline curve with points in the plane, so the number of dimensions of the spline vector Q e Sq describing a curve is twice the number of points defining the curve [Nq = 2N B ), since the position of each point is determined by two coordinates. However, this number of dimensions can be reduced by working with parameters related to the specific shape, which is called the shape space vector. The number of dimensions of the shape space vector X e S is significantly smaller N x « N Q , so it is easier to handle.
Az alaktérről a spline görbe paramétereire a következőképpen térhetünk át:We can move from the shape space to the parameters of the spline curve as follows:
Q = wx+Q0, ahol a Wegy NQxNx méretű mátrix, Qq pedig az etalon (deformálatlan) alakzat. Az alak azonosítását az alaktér koordináták alapján végezhetjük. Az előző képletből intuitív módon érezhető, hogy az A alaktérvektor valamiféle mértéke lesz annak, hogy az alakzat mennyire tér el az etalon alakzattól.Q = wx+Q 0 , where Wegy is a matrix of size N Q xN x and Qq is the standard (undeformed) shape. The shape can be identified based on the shape space coordinates. From the previous formula, it can be intuitively seen that the shape space vector A will be some kind of measure of how much the shape deviates from the standard shape.
Ahhoz, hogy kifejezhessük a távolság mértékét az alaktérben, a távolságot úgy definiáljuk, hogy fennálljonTo express the measure of distance in shape space, we define distance such that
He -ahlhi -^iTehát:He -ahlhi -^iSo:
______________ _______ -- ..... ______________||A| = 7^7'(frW)A,------------------ahol U a B-spline parametrikus görbe mérték-mátrixa. A fentiek alapján megállapítható az előzőekben már sejtett összefüggés, miszerint______________ _______ -- ..... ______________||A| = 7^ 7 '(frW)A,-----where U is the measure matrix of the B-spline parametric curve. Based on the above, the previously suspected relationship can be established, namely
-5tehát az alaktér vektor mértékét úgy is felfoghatjuk, mint annak a mutatóját, hogy mennyire tér el a görbe a Qo mintától.-5so we can also understand the magnitude of the shape space vector as an indicator of how much the curve deviates from the Qo pattern.
Az aktív kontúr sikeres iterációja nagymértékben függ attól, hogy az aktív kontúr kezdeti pozícióját a célpozícióhoz képest hova választjuk. A kezdeti pozíció megválasztását például az objektum jellegzetes helyeinek lokalizálására szolgáló, alkalmas mintahalmazon előzőleg betanított neurális hálók segítségével végezhetjük el, de más akár heurisztikus eljárás is alkalmazható. A továbbiakban a neurális hálózat alapú megoldást mutatjuk be annak érdekében, hogy az alkalmazott eljárás gyakorlati megvalósíthatóságát bemutassuk.The successful iteration of the active contour largely depends on the initial position of the active contour relative to the target position. The initial position can be selected, for example, by using neural networks previously trained on a suitable sample set for localizing characteristic locations of the object, but other, even heuristic, methods can also be used. In the following, we present the neural network-based solution in order to demonstrate the practical feasibility of the applied method.
A neurális hálók perceptronokból összeépített adaptív modulok, amelyek a sikeres tanításuk után adott bemenetre relatíve kis hibával az elvárt kimenetet produkálják. Egy perceptron a bemenetelt lineárisan összegzi a belső súlyaival, egy újabb súlyértékkel eltolja, majd az így kapott értéket az úgynevezett szigmafüggvénnyel 0 és 1 közötti értékek közé normálja, tehát az egyes perceptronok kimenete az alábbi módon számítható ki:Neural networks are adaptive modules built from perceptrons, which, after successful training, produce the expected output with a relatively small error for a given input. A perceptron linearly sums the input with its internal weights, shifts it with another weight value, and then normalizes the resulting value between 0 and 1 with the so-called sigma function, so the output of each perceptron can be calculated as follows:
out = σ Σ ink wk + w0 \kein ahol a wk és w0 mennyiségek a perceptron súlyai, illetve σ(x)=l/(l + e').out = σ Σ in k w k + w 0 \kein where aw k and w 0 are the weights of the perceptron, respectively, and σ(x)=l/(l + e').
A perceptronok rétegekbe vannak szervezve és általában három réteget szokás használni Egy három rétegű neurális hálóban található egy bemeneti réteg (ami a neurális hálónak a bemenetére adott vektor), egy rejtett réteg, ami a bemeneti réteget összegző perceptronokból áll és egy kimeneti réteg, ami a rejtett réteg kimeneteit összegzi. Egy percetront a 4a. ábrán, egy három rétegű neurális háló felépítését a 4b. ábrán mutatjuk be.Perceptrons are organized into layers, and three layers are usually used. A three-layer neural network has an input layer (which is the vector given to the input of the neural network), a hidden layer consisting of perceptrons that sum up the input layer, and an output layer that sums up the outputs of the hidden layer. A perceptron is shown in Figure 4a, and the structure of a three-layer neural network is shown in Figure 4b.
A neurális hálókkal jól tanulhatóak azok a függvények, amelyek esetében olyan bemenetkimenet párokat kell approximálni, ahol a bemenet egy fix méretű vektor, a kimenet pedig egy digitális, 0 és 1 értékeket tartalmazó vektor, továbbá a bemenetként adagolt képek vagy egyéb adatok relatíve jól szeparálhatóak a bemeneti vektorok terében. Ilyenekre példa a nyomtatott karakterek felismerése (OCR — Optical Character Recognition), vagy az esetünkben alkalmazott speciális fül- és arcpontok elnagyolt lokalizálása is.Neural networks are good at learning functions that require approximation of input-output pairs, where the input is a fixed-size vector and the output is a digital vector containing 0 and 1 values, and where the images or other data fed as input can be separated relatively well in the space of the input vectors. Examples of such tasks include the recognition of printed characters (OCR — Optical Character Recognition), or the coarse localization of special ear and face points used in our case.
A neurális hálókat a leggyakrabban használatos „backpropagation” módszerrel tanítjuk, amely folyamat során a fenti képletben szereplő w, súlyok értékét állapítjuk meg és finomítjuk annak érdekében, hogy a neurális háló a bemenetére érkező értékekre a megfelelőNeural networks are trained using the most commonly used “backpropagation” method, during which the values of the weights w, in the above formula, are determined and refined in order to ensure that the neural network responds appropriately to the values arriving at its input.
- 6 válaszokat adja. A „backpropagation” módszer a neurális háló hibafiiggvényének deriválásából és ennek a deriváltnak egy hegymászó-algoritmusban való alkalmazásából áll, különböző bemenet és az ahhoz elvárt kimenet párokon iterálva.- gives 6 answers. The “backpropagation” method consists of deriving the error function of the neural network and applying this derivative in a hill-climbing algorithm, iterating over different pairs of inputs and the expected output.
Pontosabban: a hibafüggvény az elvárt és a számított kimenet különbségéből adódik. A hiba a neurális háló súlyainak függvényeként írható fel, tehát vehetjük a hiba súlyok szerinti parciális deriváltjait. Természetesen, az ezekből képzett gradiensvektor minden minta esetén más és más irányba mutat. A neurális háló tanított állapotának azt nevezzük, amikor a mintakészleten vett gradiensvektorok elegendően kicsik, ez együtt jár a neurális háló stabilizálódott állapotával is. A neurális háló belső memóriáját tehát a súlyok jelentik, tehát egy kész, betanított neurális hálót a súlykészlete reprezentál, ami fájlba menthető és onnan a későbbiekben visszaolvasható.More precisely: the error function is the difference between the expected and the calculated output. The error can be written as a function of the weights of the neural network, so we can take the partial derivatives of the error with respect to the weights. Of course, the gradient vector formed from these points in a different direction for each sample. The trained state of the neural network is when the gradient vectors taken on the sample set are sufficiently small, which also goes hand in hand with the stabilized state of the neural network. The internal memory of the neural network is therefore represented by the weights, so a ready, trained neural network is represented by its set of weights, which can be saved to a file and read back from there later.
A céltárgy - esetünkben egy testrész - neurális hálókkal vagy más módszerrekkel való lokalizálása után az objektum képpontos reprezentációjáról a könnyebben kezelhető görbealapú reprezentációra térhetünk át. Ennek előkészítéseként élszűrő eljárásokat alkalmazunk, amit például sejtautomaták segítségével végezhetünk el. A felállított sejtautomata szabályok segítségével például olyan képpont halmazokat kaphatunk, amelyekben minden, a halmazban szereplő képpontnak csak egy vagy két szomszédos képpont lehet a halmaz eleme. Ezek a transzformációk foltozó és csupaszító algoritmusokból állnak, amelyek alkalmazásával végül hosszú képpont-szálakat nyerünk. A foltozó algoritmusok az esetleges szakadásokat tüntetik el, míg a csupaszító algoritmusok a felesleges tüskéket, vastagodásokat szüntetik meg. Ezek az ilyen módon kapott szálak fogják az alább ismertetett aktív kontúr modellünk külső erőket képező, úgynevezett vonzóhalmazát képezni.After localizing the target object - in our case a body part - with neural networks or other methods, we can switch from the pixel representation of the object to the easier to handle curve-based representation. In preparation for this, we use edge filtering methods, which can be performed, for example, using cellular automata. Using the established cellular automata rules, we can obtain, for example, pixel sets in which each pixel in the set can only have one or two neighboring pixels as elements of the set. These transformations consist of patching and stripping algorithms, which ultimately yield long pixel threads. The patching algorithms remove any breaks, while the stripping algorithms eliminate unnecessary spikes and thickenings. These threads obtained in this way will form the so-called attractive set that forms the external forces of our active contour model described below.
A találmánnyal célunk tehát a jelenleg ismert azonosság megállapító eljárásoknál jobb módszer kidolgozása, amelynek segítségével rövidebb idő alatt, nagyobb találati aránnyal, kisebb eszközráfordítással tudunk céltárgy vagy akár testrész alapú azonosítást végezni több, ugyanazon objektumot tartalmazó képkockából képzett sajátságértékek szerint.Our goal with the invention is to develop a method that is better than currently known identity determination methods, with the help of which we can perform target object or even body part-based identification in a shorter time, with a higher hit rate, and with less equipment expenditure, according to feature values generated from multiple frames containing the same object.
A kitűzött feladat megoldása során olyan eljárásból indultunk ki egy céltárgy azonosságának megállapítására, amelynek során a céltárgyról, amely bármilyen tárgy, de akár testrész is lehet, felvételt készítünk; a felvételen a céltárgyat detektáljuk és lokalizáljuk; a felvételen a céltárgyra jellemző sajátságokat térképezünk fel; összehasonlítás során a feltérképezett sajátságokat előre eltárolt sajátságokkal összevetjük, és előre meghatározott szintű egyezés esetén a céltárgy azonosságát megállapítjuk, vagy ha a tárgy egy távoliIn solving the task set, we started from a procedure for determining the identity of a target, in which we take a picture of the target, which can be any object or even a body part; we detect and localize the target on the picture; we map the characteristics of the target on the picture; during comparison, we compare the mapped characteristics with pre-stored characteristics, and in case of a predetermined level of match, we determine the identity of the target, or if the object is a distant object, we
-Ίbiometrikus azonosításra alkalmas testrész, akkor a testrész tulajdonosának azonosságát megállapítjuk, illetve két céltárgy azonosságát igazoljuk a sajátságok alapján. Továbbfejlesztésünk értelmében a céltárgyról egy-egy mintavétel során felvétel-sorozatot készítünk; a céltárgyra jellemző sajátságok feltérképezését minden egyes felvételen elvégezzük; előre 5 meghatározott sajátságokat az egyes felvételeken kiátlagolunk; kiválasztott sajátságok korrelációját a felvételek sorozatain belül elemezzük; egy korrelációs eljárás segítségével a halmazokat rendezzük; a rendezett halmazokra regressziós egyenest számítunk; és ezen regressziós egyenesek meredekségét további sajátságként tekintjük az azonosítás során.-If a body part is suitable for biometric identification, then we establish the identity of the owner of the body part, or we verify the identity of two targets based on the characteristics. According to our further development, we take a series of images of the target during each sampling; we map the characteristics characteristic of the target on each image; we average 5 predefined features on each image; we analyze the correlation of selected features within the series of images; we sort the sets using a correlation procedure; we calculate a regression line for the sorted sets; and we consider the slope of these regression lines as an additional feature during identification.
A találmány néhány további előnyös foganatosítási módját az aligénypontokban fogalmaz10 tűk meg.Some further advantageous embodiments of the invention are set out in the subclaims.
Leírásunkban a találmány vonatkozásában sajátság kifejezés alatt olyan mérhető jellegzetességeket (mérőszámokat) értünk, amelyek jellemzők egy tárgyra vagy személyre, és amelyek összessége adott valószínűséggel megkülönbözteti azt a céltárgyat vagy célszemélyt.In our description, in relation to the invention, the term feature refers to measurable characteristics (metrics) that are characteristic of an object or person, and the sum of which distinguishes that target object or person with a given probability.
A találmányt az alábbiakban a csatolt rajz segítségével mutatjuk be részletesebben, ahol azThe invention is described in more detail below with the aid of the attached drawing, where the
A találmány szerinti eljárás megvalósítása során egyaránt alkalmaztunk széleskörűen ismert, ugyanakkor céljainkhoz adaptált módszereket, illetve általunk kidolgozott megoldá20 sokat is. Az 1. ábrán csupán egy lehetséges megvalósításként bemutatott teljes folyamat megértése érdekében magán az azonosítási módszeren kívül bemutatjuk az előfeldolgozási eljárásokat, illetve ismertetjük az azonosítási döntés meghozatalánál használt módszert is; ezek nem képezik szorosan részét a kidolgozott eljárásnak, mégis fontos lépések, amelyek egyrészt nélkülözhetetlen részei a teljes azonosítási folyamatnak, másrészt ennek követ25 kezményeként megismerésük elengedhetetlen a teljes eljárás megértéséhez.In implementing the method according to the invention, we have used both widely known methods adapted to our purposes and solutions developed by us. In order to understand the entire process, which is presented in Figure 1 as only one possible implementation, we present the preprocessing procedures in addition to the identification method itself, and we also describe the method used to make the identification decision; these are not strictly part of the developed method, but are still important steps, which are on the one hand an indispensable part of the entire identification process, and on the other hand, as a consequence, their knowledge is essential for understanding the entire process.
Az 1. ábrán látható architektúra alapján képkockánként elvégezzük a céltárgy lokalizációját és a képkockánként! sajátságok kinyerérését; ezt íulazonosítás esetében például a 1 la11c. ábrákon bemutatott módon tehetjük meg.Based on the architecture shown in Figure 1, the localization of the target object and the extraction of features per frame are performed; in the case of image identification, this can be done, for example, in the manner shown in Figures 1a11c.
Miután a megfelelő számú képkockára (mintára) ezen műveleteket elvégeztük (a „megfele30 lő számú” esetünkben például egy előre rögzített mintaszámot jelenthet), akkor elindulhatAfter these operations have been performed for the appropriate number of frames (samples) (in our case, the “appropriate number” may mean a pre-set sample number), you can start
-9az azonosítási döntés, amely célja annak eldöntése, hogy az aktuális és a referencia céltárgy megegyezik-e, pontosabban hogy a kinyert sajátságok és a referencia mintáról eltároltak hasonlóak-e, származhatnak-e ugyanarról a céltárgyról.-9the identification decision, which aims to decide whether the current and reference target objects are the same, more precisely whether the extracted features and those stored from the reference sample are similar and can come from the same target object.
Az aktuálisan kinyert és a referenci mintáról eltárolt sajátságok különbségét különböző 5 módon képezzük, majd az így meghatározott különbségeket egyetlen szám (skalár) alakjában fejezzük ki, amely különbségérték ha kisebb egy előre meghatározott határértéknél, akkor a két minta elegendően hasonlít egymáshoz, tehát a két céltárgy azonosnak tekinthető (az azonosítási döntés pozitív).The difference between the currently extracted and stored features from the reference sample is formed in 5 different ways, and then the differences determined in this way are expressed in the form of a single number (scalar). If this difference value is smaller than a predefined limit value, then the two samples are sufficiently similar to each other, so the two targets can be considered identical (the identification decision is positive).
Bizonyos sajátságértékeket kiátlagolunk, és az így kapott átlagos sajátságértékeket egysze10 rűen (koordinátánként) kivonjuk referencia minta vonatkozó értékeiből. A sajátságértékekre, vagy egy bizonyos részhalmazukra viszont optimális regressziós görbéket is számolunk, amelyekre azonban speciális módon képezünk a különbséget.We average certain feature values and simply subtract the resulting average feature values (coordinate by coordinate) from the corresponding values of the reference sample. However, we also calculate optimal regression curves for the feature values or a certain subset of them, for which we form the difference in a special way.
Az „optimális regressziós görbe” itt azt jelenti, hogy azt a görbét (ami lehet akár lineáris is, tehát egyenes) keressük, amely úgy illeszkedik legjobban az egyes mintákon kinyert érté15 kekhez, hogy közben a minták sorrendjét, azaz a vízszintes (idő) koordinátán nem tekintjük rögzítettnek. Ezáltal nemcsak a görbe paramétereit kapjuk meg, de egyben a minták olyan rendezését is, amely ezt az optimálisan illeszkedő görbe paramétereit eredményezi. A felhasznált módszer matematikai alapjai az általános regressziós módszerekhez hasonló módon vezethető le, egy optimumszámításra visszavezetve a paraméterek keresését.The “optimal regression curve” here means that we are looking for the curve (which can even be linear, i.e. straight) that best fits the values obtained on the individual samples15 without considering the order of the samples, i.e. on the horizontal (time) coordinate, as fixed. This way we not only obtain the parameters of the curve, but also an ordering of the samples that results in the parameters of the optimally fitting curve. The mathematical foundations of the method used can be derived in a similar way to general regression methods, reducing the search for parameters to an optimum calculation.
A speciális különbségképzés során a cél a regressziós görbék közötti különbségek kifejezése. Erre különböző módszereket vethetünk be: egyszerűen kivonhatjuk egymásból a regressziós görbék paramétereit, a görbék egymáshoz illesztésével a görbék alatti területek különbségének az integrálját is számolhatjuk, illetve különböző módon kötegelve több görbe együttes különbségét is számolhatjuk az említett módszerekkel. A fulazonosítás esetében 25 például mérőegyeneseként egyszerre képezzük a 6, 7 illetve 8 darab regressziós egyenes különbségét oly módon, hogy az egy mérőegyeneshez tartozó regressziós egyeneseket egyszerre hozzuk optimális fedésbe, majd a különbségek integrálját számoljuk; ezáltal a teljes mintáról a regressziós ágon összesen 3 különbségértéket kapunk.During the special difference formation, the goal is to express the differences between the regression curves. We can use different methods for this: we can simply subtract the parameters of the regression curves from each other, we can also calculate the integral of the difference of the areas under the curves by fitting the curves to each other, or we can also calculate the joint difference of several curves by bundling them in different ways with the aforementioned methods. In the case of full identification, for example, we form the difference of 6, 7 or 8 regression lines simultaneously as a measuring line of 25, in such a way that the regression lines belonging to one measuring line are brought into optimal overlap at the same time, and then the integral of the differences is calculated; thus, we obtain a total of 3 difference values on the regression branch from the entire sample.
A legtöbbször, de nem kizárólagosan kamerával felvett videokép - itt mindig több képről 30 van szó, eddigi kísérleteink alapján legalább hat képre van szükség, és 18 feletti képszám esetén ér el az eljárás kifejezetten jó eredményt - digitalizálását követően az elő feldolgozásAfter digitizing the video image recorded with a camera, which is usually, but not exclusively, more than 30 images, based on our experiments so far, at least six images are needed, and the procedure achieves particularly good results with an image number of more than 18, the pre-processing
-10három lépésből áll. Az első lépés a keresett tárgy, vagy testrész (esetünkben fül) detektálása és a tárgy, vagy testrész (fül) helyzetének lokalizálása a képeken; ezzel párhuzamosan , élszürést végzünk, majd végül az élszűrt és normalizált (fül)képen megállapítjuk az aktív kontúr alapú modell vonzóhalmazait. A lokalizálás eredményeképpen a teljes embert illet5 ve a fejét ábrázoló képkockából kiragadhatjuk, majd alaphelyzetbe hozhatjuk (normalizálhatjuk) a fül képét, az élszürés és a vonzóhalmaz pedig a modell illesztését készítik elő, illetve teszik lehetővé.-10consists of three steps. The first step is to detect the searched object or body part (in our case, the ear) and to localize the position of the object or body part (ear) in the images; in parallel, edge filtering is performed, and finally the attractive sets of the active contour-based model are determined on the edge-filtered and normalized (ear) image. As a result of the localization, the image of the ear can be extracted from the frame depicting the head of the whole person and then brought to the basic position (normalized), and the edge filtering and the attractive set prepare and enable the fitting of the model.
A teljes folyamat elején a digitalizált képkockát mindenekelőtt szürkeárnyalatos képpé alakítjuk oly módon, hogy a szürkeárnyalat intenzitásokat egyszerűen a három színcsatorna 10 átlagolásával képezzük. Ezután a szürkeárnyalatos képet a bemutatott esetben negyedére kicsinyítjük, intenzitásban normáljuk, majd újra a negyedére kicsinyítjük, végül az így előkészített képén neuralis hálókat használunk. A kicsinyítés segítségével a viszonylag nagy számításigényü neurális hálók kisebb hibával tanulnak, emellett gyorsabban tudják végigpásztázni a képet. Az intenzitás normalizalása kontrasztot növel oly módon, hogy a szürke15 árnyalatok eloszlásában a várható érték körüli domináns tartományt a 0-255 értékekre széthúzza. Ez ugyancsak a neurális háló tanulóképességét javítja.At the beginning of the whole process, the digitized image frame is first converted into a grayscale image by simply averaging the grayscale intensities of the three color channels 10 . Then, in the presented case, the grayscale image is reduced by a quarter, normalized in intensity, then reduced by a quarter again, and finally neural networks are used on the image thus prepared. With the help of the reduction, the relatively computationally demanding neural networks learn with smaller errors, and they can also scan the image faster. Normalizing the intensity increases contrast by stretching the dominant range around the expected value in the distribution of gray15 shades to the values 0-255. This also improves the learning ability of the neural network.
Számos más lokalizálás! módszerrel (például a közvetlen mintaillesztéssel) szemben a neurális hálók előnye a mintához való adaptálhatóság, anélkül, hogy bonyolult heurisztikákat kellene a minta leírására bevezetni. A tanításuk viszonylag gyors, az adott képen való szá20 mításigényük pedig stabil. Más módszerek a kép bonyolultságától függően váratlanul hoszszú ideig is képesek futni.Compared to many other localization methods (such as direct pattern matching), neural networks have the advantage of being adaptable to the sample without having to introduce complex heuristics to describe the sample. They are relatively fast to train and their computational requirements are stable on a given image. Other methods can take unexpectedly long times, depending on the complexity of the image.
A neurális hálókat hat, viszonylag jól definiálható sajátság pontra tanítottuk. A sajátság pontok rögzítése kézileg történt egy néhány száz képből álló reprezentatív mintán. Ezen pontok elsajátítása a neurális hálón való kétmillió tanítási iteráció után 1 % alatti hibával 25 működött. A pontok hozzávetőleges helyzetei a 6. ábrán láthatóak. Három pont (A, B, C) a fül belső vonalainak töréseinél található, van egy elágazási pont (D), további két pontot (E, F) pedig a föl peremén választottunk. Az eljárás fejlesztése során ezen pontokat egy bővebb halmazból választottuk ki, legvégül a legjobban taníthatónak bizonyult hat pontot tartottuk meg. Ezen referencia pontok megválasztása példa jellegű, a lokalizáció során a 30 tárgyra jellemző más ilyen pontok is választhatóak, ez érdemben az eljárást nem befolyásolja.The neural networks were trained on six relatively well-defined feature points. The feature points were recorded manually on a representative sample of a few hundred images. The learning of these points worked with an error of less than 1% after two million training iterations on the neural network. The approximate positions of the points are shown in Figure 6. Three points (A, B, C) are located at the breaks of the inner lines of the ear, there is a branch point (D), and two more points (E, F) were selected at the edge of the ear. During the development of the procedure, these points were selected from a larger set, and in the end, the six points that proved to be the best to be trained were kept. The choice of these reference points is exemplary; other such points characteristic of the 30 objects can also be selected during localization, this does not significantly affect the procedure.
- 11 A neurális háló kimenete egy 0 és 1 közötti valós szám, tehát a neurális hálóval végigpásztázva a képen képpontonként egy 0 és 1 közötti értéket kapunk. Ezt a képpont-függvényt egy lineáris szűrővel kisimítva, egy alkalmas küszöbértéket választva, a küszöbérték fölötti értékek úgynevezett szinthalmazokat alkotnak, amelyek összefüggő foltok alakjában je5 lentkeznek a képen. A halmazok centrumpontjait véve, sajátságpont-mintákat képezünk, és ezeket összehasonlítjuk a pontok előzőleg előállított, egymáshoz viszonyított átlagos helyzetével. Erre amiatt van szükség, hogy a neurális háló esetleges tévedéseit kiküszöböljük, tehát a lokalizálást robosztusabbá tegyük.- 11 The output of the neural network is a real number between 0 and 1, so by scanning the image with the neural network, we get a value between 0 and 1 for each pixel. This pixel function is smoothed with a linear filter and a suitable threshold value is chosen, and the values above the threshold value form so-called level sets, which appear in the image as connected spots. By taking the center points of the sets, we form feature point patterns and compare these with the previously generated average position of the points relative to each other. This is necessary in order to eliminate possible errors of the neural network, thus making the localization more robust.
Méréseink alapján a módszerrel a füleket egy 40 %-os méretarányon belül kielégítően tud10 tűk lokalizálni, de a 30°-nál jobban elfordított fülekre a lokalizálás hatékonysága erősen romlott. Igaz, ezekben a helyzetekben már a fül vonalai sem láthatóak kellőképpen, tehát a további feldolgozásnak, illetve az azonosításnak úgysem lenne értelme. A hat lokalizált pont egy affin (transzláció, forgatás és nagyítás) transzformációt is meghatároz, amely egy olyan normalizálási eljárás, amelyet az élszűrés előtt alkalmazunk, és amely révén a képet 15 egységes méretre hozzuk, és amelyen a fül már nagyjából középen van. Ezt a transzformációt azonban csak az élszűrés folyamán alkalmazzuk majd (Id. alább).Based on our measurements, the method can locate ears satisfactorily within a 40% scale ratio, but the localization efficiency is severely impaired for ears rotated by more than 30°. It is true that in these situations the ear lines are no longer sufficiently visible, so further processing or identification would be pointless anyway. The six localized points also define an affine (translation, rotation and magnification) transformation, which is a normalization procedure that is applied before edge filtering, and through which the image is brought to a uniform size, and on which the ear is already roughly in the middle. However, this transformation will only be applied during edge filtering (see below).
A lokalizáló eljárás részletesebben is megismerhető Máté László: Localizing Feature Points on Ear Images című előadásából, amelyet a HACIPPR konferencia, Veszprém, 2005, anyaga tartalmaz.The localization process can be learned in more detail from László Máté's presentation: Localizing Feature Points on Ear Images, which is included in the proceedings of the HACIPPR conference, Veszprém, 2005.
A második előfeldolgozási lépés a szürkeárnyalatos fulképen végzett élszűrés, ami egy egyszerű, végsősoron tetszőleges (felüláteresztő) szűrővel történhet. Ennek a lépésnek az eredményét a lokalizálás által meghatározott lineáris transzformáció segítségével transzformáljuk. Ezen a ponton egy normalizált, szürkeámyalatos fulképet kapunk.The second preprocessing step is edge filtering on the grayscale full image, which can be done with a simple, ultimately arbitrary (high-pass) filter. The result of this step is transformed using a linear transformation determined by localization. At this point, we obtain a normalized, grayscale full image.
Az előfeldolgozás utolsó lépése a vonzóhalmazok előállítása, amit a fulkép képpontjain el25 végzett sejtautomata transzformációkkal érhetünk el. Kiindulásul a képpontokat intenzitásuk szerint szinthalmazokba soroljuk, majd a megfelelő sejtautomata szabályok alkalmazására!ezen szinthalmazokat clvékonyítjuk. A vékonyítás során először a négy szomszéddal rendelkező, úgynevezett belső képpontokat töröljük a halmazból, így minden megmaradt képpont a halmazok határán lesz, majd töröljük azokat a két szomszéddal rendelkezőket, 30 amelyek két darab három szomszédú képponttal érintkeznek, ezután végül töröljük a három szomszédúakat is. Ekkor már minden képpont legfeljebb egy szomszéddal rendelkezik, tehát elvileg már görbealakra hozható. Ezután még a szomszéd nélküli képpontokat,The last step of preprocessing is the generation of attractive sets, which can be achieved by performing cellular automaton transformations on the pixels of the full image. Initially, the pixels are classified into level sets according to their intensity, and then these level sets are thinned by applying the appropriate cellular automaton rules. During the thinning, first the so-called inner pixels with four neighbors are deleted from the set, so that all remaining pixels will be on the boundary of the sets, then we delete those with two neighbors, which are in contact with two pixels with three neighbors, and finally we delete those with three neighbors. At this point, each pixel has at most one neighbor, so in principle it can be transformed into a curve. Then the pixels without neighbors,
-12majd a 2x2-es izolált négyzeteket is eltávolítjuk, mivel azok valójában nem éleket reprezentálnak, hanem legtöbbször csak zavaró pontszerű képvételi hibákból erednek.-12then we also remove the 2x2 isolated squares, since they do not actually represent edges, but most often only result from annoying point-like imaging errors.
Ezt követően még foltozni is kell a halmazt, mert az élszűrt képeken a valóságban összefüggő élek sokszor több részre szakadnak szét. Először a közelebbi élvégeket, majd a távo5 labbiakat is összekötjük, ez utóbbi nagyjából két kihagyott köztes képpontot jelent. Az öszszefoltozás után eldobjuk a kisebb elemszámú összefüggő képpont-halmazokat és ezzel előállnak azok a képpontokból álló vonzóhalmazok, amelyek az aktív kontúr iterációjára használhatunk. A sejtaumata segítségével történő élszűrést, tehát a kiindulási szinthalmazokat, illetve a kontúrok mentén elvékonyított éleket, amelyeket a vonzóhalmazokat képe10 zik az 5a, 5b. ábrák mutatják be.After this, the set must also be patched, because in edge-filtered images, connected edges in reality often break into several parts. First, we connect the closer edges, then the more distant ones, the latter roughly means two omitted intermediate pixels. After patching, we discard the connected pixel sets with a smaller number of elements, and this produces the attractive sets consisting of pixels that can be used for the iteration of the active contour. Edge filtering using cell automata, i.e. the initial level sets and the edges thinned along the contours, which form the attractive sets, are shown in Figures 5a, 5b.
Az alábbiakban példaként a ful-modellt, illetve azonosítási módszerünk lényegét képező sajátság kinyerő eljárást mutatjuk be.Below, we present the full model and the feature extraction procedure that forms the core of our identification method as an example.
A cél egy tárgy, esetünkben egy emberi fül modell alapú azonosítása, ahol egy modellhez viszonyítva az alapmintától való különféle eltérések egyedi, az azonosításhoz használható 15 sajátságokat eredményeznek. A modell illesztésére az aktív kontúr módszerét használjuk, amit két lépésre bontottuk: először a fül peremére húzunk rá egy görbét, ami lehetővé teszi a pontosabb lokalizálást, majd ezután egy összetett fulmodellt alkalmazunk, amely a fül belső vonalait is tartalmazza. Eme utóbbi modellt a következőkben ismertetjük.The goal is to identify an object, in our case a human ear, based on a model, where various deviations from the base pattern compared to a model result in unique 15 features that can be used for identification. To fit the model, we use the active contour method, which is divided into two steps: first, we draw a curve on the edge of the ear, which allows for more precise localization, and then we apply a complex full model that also includes the inner lines of the ear. This latter model is described in the following.
A fül külső pereme szolgáltatja a legerősebb, összefüggő jelet, ahogyan az a 8. ábrán látha20 tó, amely különböző fulképek kiátlagolásával nyert átlag falképet szemlélteti, ezért is került a választás erre a részobjektumra a durvább fülmodell kapcsán. A perem vonalára a fülek átlagos alakjából előállított aktív kontúrt iteráljuk, ahogyan ezt a 7. ábrán szemléltetjük. Az iteráció a külső és belső erők felváltva való alkalmazását jelenti, amely hatására a modell torzulni kezd, mindaddig, amíg a torzított modell egy állapotában a két erő egyensúly25 ba nem kerül. A tapasztalatok szerint legfeljebb ezer iteráció alkalmazásával az aktív kontúr biztosan egyensúlyi helyzetbe kerül, így ezt a számot határoztuk meg a maximális iterációk számának. A fül peremére it éráit aktív kontúrt a 7. ábrán vékonyabb vonallal jelöltük, az aktív kontúr kezdeti helyzetét a vastagabb görbe mutatja, a pontozott területek pedig az élszűréssel előállított képpont szálakat jelölik, amelyek esetünkben az aktív kontúr 30 vonzóhalmazait képezik.The outer edge of the ear provides the strongest, most coherent signal, as can be seen in Figure 8, which shows the average wall image obtained by averaging different wall images, which is why this sub-object was chosen for the coarser ear model. The active contour generated from the average shape of the ears is iterated on the edge line, as shown in Figure 7. Iteration means the alternating application of external and internal forces, which causes the model to distort until the two forces reach equilibrium in one state of the distorted model. According to experience, the active contour will definitely reach equilibrium after applying a maximum of a thousand iterations, so this number was determined as the maximum number of iterations. The active contour along the edge of the ear is marked with a thinner line in Figure 7, the initial position of the active contour is shown by the thicker curve, and the dotted areas indicate the pixel strands produced by edge filtering, which in our case form the 30 attractive sets of the active contour.
- 13 A görbe iterálásakor tehát a külső erőket a vonalszűréssel megállapított képpont-szálak indukálják, figyelembe vesszük azonban a szálaknak az egyes görbeszegmenshez viszonyított kölcsönös irányát is, hiszen a párhuzamos irányok pontosabb megfelelést jelenthetnek, emiatt az általuk indukált vonzóerőt is nagyobbnak számoljuk. Ehhez egyszerűen a két 5 görbe érintője irányainak skaláris szorzatát (annak abszolút értékét) vesszük figyelembe az erő meghatározásakor. A külső erőket véletlenszerűen generált ponthelyzetekben számoljuk ki, hogy a pillanatnyi erőhatások egyenletesen oszoljanak el a görbeíveken. Az aktív kontúr módszernek megfelelően a belső erőket a görbe eredeti alakja indukálja, legvégül a két erő egyensúlyaként alakul ki a görbe végső, enyhén deformált alakja és pozíciója.- 13 When iterating the curve, the external forces are induced by the pixel threads determined by line filtering, but we also take into account the mutual direction of the threads relative to each curve segment, since parallel directions can provide a more accurate correspondence, and therefore the attractive force induced by them is calculated to be larger. To do this, we simply take into account the scalar product (its absolute value) of the tangent directions of the two curves when determining the force. The external forces are calculated at randomly generated point positions so that the instantaneous force effects are evenly distributed over the curve arcs. According to the active contour method, the internal forces are induced by the original shape of the curve, and finally the final, slightly deformed shape and position of the curve is formed as a balance of the two forces.
A fül külső kontúrját reprenzentáló görbét meghatározó pontok helyzete egy leképezést határoz meg. Ezen a transzformáció pusztán azért kell, hogy a teljes, négy görbéből álló (fül) modell aktív kontúros iterációját pontosabb pozícióból indíthassuk, tehát a modellben szereplő eredeti koordináták helyett a görbéket a transzformált helyről indítjuk. A külső kontúr aktív kontúros iterációját tehát egyszerűen a fül lokalizálásának pontosításaként is fel15 foghatjuk.The position of the points defining the curve representing the outer contour of the ear defines a mapping. This transformation is needed simply to start the active contour iteration of the complete four-curve (ear) model from a more precise position, i.e. instead of the original coordinates in the model, the curves are started from the transformed location. The active contour iteration of the outer contour can therefore be simply understood as a refinement of the ear localization15.
A pontosított lokalizálás után a fül peremének figyelembevételével az előzőekhez képest bonyolultabb szerkezetű aktív kontúrt iterálhatunk a fül pontjaira, amely modell újra mind a négy laza kölcsönhatásban lévő görbéből áll. Ez a laza kölcsönhatás a belső erők alkalmazásában realizálódik, azaz az egyes aktív kontúr komponensek egészére ható alak20 visszatérítő erők jóval gyengébbek, mint az egyes komponenseken belül vett alakvisszatérítő erők. Annak érdekében, hogy a komponensekhez tartozó pontok ne fejtsenek ki vonzó hatást a többi komponensre, a képet négy diszjunkt zónára bontjuk. A markáns zónák kiválasztását a kiátlagolt fülképek alapján végezzük el.After the refined localization, taking into account the edge of the ear, we can iterate an active contour with a more complex structure than the previous ones for the points of the ear, which model again consists of all four loosely interacting curves. This loose interaction is realized by the application of internal forces, i.e. the shape-restoring forces acting on the entire active contour components are much weaker than the shape-restoring forces taken within each component. In order to ensure that the points belonging to the components do not exert an attractive effect on the other components, the image is divided into four disjoint zones. The selection of the prominent zones is performed based on the averaged ear images.
A 9. ábrán a teljes fül modellünk négy görbéje látható. A számozott pontok az aktív kontúr 25 kontrollpontjai, amelyek a görbeszegmenseket definiálják a négy görbén. A 10. ábrán egy példa látható, amely bemutatja, hogy a görbék hogyan iterálódnak egy konkrét fülképen. Az ábrán az aktív kontúr kezdeti és végső állapota látható. A vékonyabb vonalak a kezdeti állapotot jelentik egy-egy görbére, ezek a perem szerinti normalizálás figyelembevételével lettek kiszámolva. Ezután a belső és külső erők egyensúlyi helyzeteként alakult ki a vasta30 gabb vonalak által reprezentált végső állapot. A görbék belső merevségük eredményeképpen nem pontosan fekszenek föl a fülön található görbékre, de pont ezek az eltérések adnak lehetőséget a sajátságok kiemelésére. A 10. ábrán a vonzóhalmazokat is feltüntettük az akFigure 9 shows the four curves of our full ear model. The numbered points are the 25 control points of the active contour, which define the curve segments on the four curves. Figure 10 shows an example of how the curves are iterated on a specific ear image. The figure shows the initial and final states of the active contour. The thinner lines represent the initial state for each curve, calculated taking into account the edge normalization. Then, the final state represented by the thicker lines was formed as an equilibrium position of the internal and external forces. The curves do not exactly lie on the curves on the ear due to their internal stiffness, but it is these deviations that allow us to highlight the features. In Figure 10, we also show the attractive sets of the curves
- 14tív kontúrra rávetítve (satírozott területek). Látszik, hogy több rivális görbeszakasz is vonzhatja a görbét, de a fül egészén ezek a hatások kiátlagolódnak.- 14 projected onto the contour (shaded areas). It can be seen that several rival curve sections can attract the curve, but these effects are averaged over the ear as a whole.
Az így előállított komplex aktív kontúr görbe elemezésével kinyerhetők a tágyra, vagy testrészre, esetünkben fülre jellemző sajátságok, amelyek alapján azonosítás végezhető.By analyzing the complex active contour curve thus produced, characteristics characteristic of the object or body part, in our case the ear, can be extracted, based on which identification can be performed.
Ezek az egyes képkockákon látható fülképekről származtatott statikus sajátságok az aktív kontúr iterált, tehát egyensúlyi helyzetben lévő végállapotának elemzéséből származtathatóak, természetesen képkockánként. Ezeket az értékeket egy vektorba gyűjtjük, ami alapján az összehasonlítás megtörténhet.These static properties derived from the ear images visible in each frame can be derived from the analysis of the iterated, i.e. equilibrium, final state of the active contour, frame by frame of course. These values are collected into a vector, based on which the comparison can be made.
Hagyományosan az azonosság megállapítását általában ilyen, egy-egy képkockáról kinyer10 hető sajátságvektorok alapján, azok összehasonlításával végzik el. A mi továbbfejlesztésünkben azonban a statikus sajátságokon felül további sajátságokat is kinyerhetünk, ha feltételezzük, hogy egy mozgó tárgy, jelen esetben az elhaladó ember füléről szekvenciálisán több felvételt is tudunk készíteni. Ekkor a feltételezhetően különböző szögekből felvett képekből kinyert sajátságértékek közötti korrelációk elemzésével újabb sajátság-értékeket tu15 dunk előállítani. Ezek az értékek már nem az egyes képkockák feldolgozásával nyerhetők ki, és nem is az így kinyert értékek átlagolásából erednek, hanem az összes rendelkezésre álló képkocka által szolgáltatott statikus sajátságértékek viselkedését együttesen veszi figyelembe. Ezen értékek előállítása találmányunk értelmében a következő módon történhet:Traditionally, the determination of identity is usually carried out by comparing such feature vectors, which can be extracted from a single frame. However, in our further development, in addition to the static features, we can also extract additional features if we assume that we can sequentially take several recordings of the ear of a moving object, in this case the ear of a passing person. In this case, we can generate new feature values by analyzing the correlations between the feature values extracted from the images presumably taken from different angles. These values can no longer be extracted by processing individual frames, nor do they result from averaging the values thus extracted, but rather take into account the behavior of the static feature values provided by all available frames together. According to our invention, these values can be generated in the following way:
Először szükség van néhány olyan sajátságértékre, amelyek a képfelvétel irányától függően 20 változnak, arra ézékenyek. Ilyen, mérőirány alapú sajátságcsoportot például három megfelelően választott egyenes (il, i2 és i3 mérő irány), és a négy fül kontúr görbén ezekhez választott 21 pont segítségével határozhatunk meg. Minden pont a három egyenes valamelyikéhez tartozik (az egyes tengelyekhez tartozó pontok száma 6, 7 illetve 8). Az iterált görbe ezen 21 pontjának mindegyikét (Pi) a neki megfelelő egyenesre vetítjük (Pi’), majd a 25 sajátságértékeket ezen pontoknak a három egyenes metszéspontjától mért távolságok (fi) kiszámításával kapjuk meg, ahogyan azt a 11. ábra jobb oldalán a B rajzon szemléltettük. Ilyen módon 21 sajátságértéket nyerünk, amelyek a három egyenes megfelelő megválasztása esetén viszonylag függetlennek bizonyultak a kamera és a fül síkja által bezárt szögre, méréseink szerint azonban az irányfüggőség még így is jelentős volt.First, we need some feature values that vary depending on the direction of the image capture, and are sensitive to it. Such a group of features based on measurement direction can be determined, for example, by using three appropriately chosen lines (measurement directions il, i2 and i3) and the 21 points selected for them on the four ear contour curves. Each point belongs to one of the three lines (the number of points belonging to each axis is 6, 7 and 8, respectively). Each of these 21 points (Pi) of the iterated curve is projected onto its corresponding line (Pi’), and then the 25 feature values are obtained by calculating the distances (fi) of these points from the intersection points of the three lines, as illustrated in drawing B on the right side of Figure 11. In this way, we obtain 21 feature values, which, if the three lines are appropriately chosen, turned out to be relatively independent of the angle between the camera and the ear plane, but according to our measurements, the direction dependence was still significant.
A dinamikus sajátságcsoportba tartozó értékeket az említett, speciálisan megválasztott mérőirányok alapján képezzük. Az egyes csoportokhoz - azaz azonos tengelyhez - tartozó minták egyetlen rejtett paramétertől, a fül síkjának a kamerához képest mért elfordulási « .-:: :.:. — ··«· ·· ··· szögétől függenek. A rejtett paramétert megkaphatjuk a mintakötegek korrelációinak elemzésével, ami lehetővé teszi, hogy a minták egymásnak megfelelő elemeit mérőirányonként egy-egy egyenessel reprezentáljuk, ahogy a 12. ábrán látható. Miután megkaptuk a rejtett paramétert, eliminálni tudjuk a hatását, és ilyen módon a fül háromdimenziós alakjára vo5 natkozó információt tudunk kinyerni a kétdimenziós képkockák sorozatából.The values belonging to the dynamic feature group are formed based on the mentioned, specially chosen measurement directions. The samples belonging to each group - i.e. to the same axis - depend on a single hidden parameter, the angle of rotation of the ear plane with respect to the camera. The hidden parameter can be obtained by analyzing the correlations of the sample bundles, which allows us to represent the corresponding elements of the samples with a line for each measurement direction, as shown in Figure 12. Once we have obtained the hidden parameter, we can eliminate its effect and thus extract information about the three-dimensional shape of the ear from the series of two-dimensional frames.
A 12. ábrán a függőlegesen egymás felett lévő pontok jelentik a sajátságpontok egy mérőirányra a fenti módon vetített helyzeteit - egy ilyen „oszlop” tehát az egyes képkockához tartozó, az adott mérőirányra vetített mérőirány alapú sajátságokat reprezentálja. Egyszerű korrelációs eljárás segítségével ezeket a halmazokat rendezzük és halmazonként egy reg10 ressziós egyenest számolunk, hiszen az egymásnak megfelelő pontok relatíve kis hibával egy-egy egyenesen helyezkednek el. Az egyenesek száma megegyezik az ábrának megfelelő mérőirányra vetített pontok számával (tehát összesen három ilyen ábrát kapunk, amelyeken az egyes mérőirányok esetében 6, 7 illetve 8 egyenes látható). Az ilyen módon a különböző szögekből felvett képkockák segítségével előállított egyenesek tulajdonképpen 15 a fül háromdimenziós alakjának a rejtett paramétereiről hordoznak információt.In Figure 12, the vertically stacked points represent the positions of the feature points projected onto a measurement direction in the above manner - such a "column" therefore represents the measurement direction-based features belonging to each frame and projected onto the given measurement direction. Using a simple correlation procedure, we sort these sets and calculate a regression line for each set, since the points corresponding to each other are located on a line with a relatively small error. The number of lines is the same as the number of points projected onto the measurement direction corresponding to the figure (so we get a total of three such figures, on which 6, 7 and 8 lines are visible for each measurement direction). The lines generated in this way using frames taken from different angles actually carry information about the hidden parameters of the three-dimensional shape of the ear.
A halmazok rendezésére alkalmazott korrelációs elemzési lépés feltételezi, hogy az adott felvétel kötegen belül az egyes képkockákat már feldolgoztuk, az azokon fellelhető sajátságokat már kivonatoltuk. Az így kiszámolt sajátságvektorok bizonyos elemeit vetjük csak alá a kötegelt elemzésnek - a fülazonosítás során például csak a mérőirány alapú sajátsá20 gokat.The correlation analysis step used to sort the sets assumes that the individual frames within the given recording batch have already been processed and the features found in them have already been extracted. Only certain elements of the feature vectors calculated in this way are subjected to the batch analysis - for example, during ear identification only the measurement direction-based features20.
Az analízis során egyes sajátságokra vonatkozóan a különböző képkockákból kinyert értékekre regressziós görbét (egyszerű esetben egyenest) illesztünk. Ez történhet például valamely klasszikus regressziós eljárással, amely módszerek lényege minden esetben a keresett görbe azon paraméter értékeinek a megkeresése, ahol a mintahalmaz és a görbe közötti el25 térés („hiba”) összességében a legkisebb. Ebben az esetben tehát a problémát egy olyan optimumkeresési eljárásra vezetjük vissza, ahol a görbe paramétereinek a megtalált optimális értékén a görbe a legjobban illeszkedik a mintahalmazhoz. Két dimenzióban a lineáris regresszió például azt jelentheti, hogy a mintákat reprezentáló p, = (x(,y,) mintaponthalmazra keressük az y = ax + b egyenesnek azon a és b paramétereit, amelyekre a 30 X (y, - (ax t + b))2 értéke minimális (legkisebb négyzetösszeg illesztés). A módszer hason ώ · ··· ··· • · A · · · · · ··*· · · · · ·During the analysis, a regression curve (in the simplest case a straight line) is fitted to the values obtained from different frames for certain features. This can be done, for example, with a classical regression method, the essence of which is to find the values of the parameters of the curve in question where the overall deviation (“error”) between the sample set and the curve is the smallest. In this case, the problem is reduced to an optimum search method, where the curve best fits the sample set at the optimal value found for the parameters of the curve. In two dimensions, linear regression may mean, for example, that for a set of sample points p, = (x ( ,y,) representing the samples, we find the parameters a and b of the line y = ax + b for which the value of 30 X (y, - ( ax t + b)) 2 is minimal (least sum of squares fit). The method is based on the
- 16lóképpen terjeszthető ki a minták tekintetében többdimenziós vektorokra, illetve az illesztendő görbe tekintetében általános görbére is.- It can be extended to multidimensional vectors in terms of patterns, and to a general curve in terms of the curve to be fitted.
A fulazonosítás esetében a három mérőirány (nevezzük őket P, Q és Λ-nek) 6, 7, illetve 8 pontot határoz meg (pi...6,qi...7,ri.„8), illetve ezen pontok a mérőirányok metszéspontjától 5 számított távolsága az, amely a sajátságértékeket adja. így képkockánként 6+7+8=21 skalár (egydimenziós) értékünk van. A képkockák sorrendje azonban semmilyen módon nem határoz meg egy olyan második paramétert a minta-pontok tekintetében, amellyel kétdimenzióssá téve a mintákat már egyértelmű lineáris regressziót végezhetünk a fenti módszerrel, hiszen például a fülnek a kamerával bezárt szöge nem függ a képkocka sorszámá10 tói. Egy adott (különböző mintákról származó) ponthalmazhoz illeszkedő regressziós egyenest tehát olyan módon kell megtalálnunk, hogy csak egyetlen paraméterünk van (y,), és a hozzá tartozó x,-ket is a regressziós módszerrel határozzuk meg. Erre a speciális regresszióra úgy is gondolhatunk, mint amely a görbe (egyenes) illesztésén felül az pont értékek rendezését is elvégzi (a fenti analógiával élve az x tengelyen) oly módon, hogy a 15 pontok a legjobban illeszkedjenek az optimális egyeneshez. Ez elvégezhető, ha mérőirányonként azonos x-kkel számolunk, tehát például a Q mérőirányon mért qy pontokra (ahol j a pont sorszáma 1..7, i pedig továbbra is a minta sorszámát indexeli) vonatkozóan egyszerre keressük azokat az qj = aJx + bj egyeneseket (j=1..7), ahol azIn the case of the fulanization, the three measurement directions (let's call them P, Q and Λ) define 6, 7 and 8 points respectively (pi...6,qi...7,ri.„8), and the distance of these points from the intersection of the measurement directions is the distance calculated from 5, which gives the feature values. Thus, we have 6+7+8=21 scalar (one-dimensional) values per frame. However, the order of the frames does not in any way define a second parameter with respect to the sample points, with which we can make the samples two-dimensional and perform a clear linear regression using the above method, since, for example, the angle closed by the ear with the camera does not depend on the frame number. We must therefore find a regression line that fits a given set of points (from different samples) in such a way that we have only one parameter (y,), and we also determine the corresponding x, using the regression method. For this We can also think of the special regression as one that, in addition to fitting the curve (line), also arranges the point values (using the above analogy on the x axis) in such a way that the 15 points best fit the optimal line. This can be done if we calculate with the same x for each measurement direction, so for example, for the qy points measured in the Q measurement direction (where the point number ja is 1..7, and i continues to index the sample number), we simultaneously search for the lines q j = a J x + b j (j=1..7), where
Σ -(ayx; +ű;))2 a minimális. Hasonlóképpen a P és R merő irányokra is a fenti J=1..7 i módon kereshetjük meg az optimumot.Σ -(a y x ; +ű ; )) 2 is minimal. Similarly, for the pure directions P and R, we can find the optimum in the above J=1..7 i way.
A több képkockára támaszkodó teljes, statikus és dinamikus sajátságokat egyaránt tartalmazó egységes sajátságvektort végül úgy kapjuk, hogy a képkockákon mért statikus sajátságokat kiátlagoljuk és kiegészítjük a 21 (6+7+8) egyenes meredekségével, amelyek a dinamikus sajátságok. így több képkocka feldolgozásával egy több dimenziós összevont sa25 játságvektort kapunk.The complete, unified feature vector based on multiple frames, containing both static and dynamic features, is finally obtained by averaging the static features measured on the frames and supplementing them with the slope of the 21 (6+7+8) line, which are the dynamic features. Thus, by processing multiple frames, we obtain a multi-dimensional merged feature vector.
A sajátság-értékek meghatározása után a végső lépés annak eldöntése, hogy egy aktuálisan készült képen látható fül sajátság-értékei mely személynek a rögzített adataihoz, vagy mely korábbi képeken már látható személy mért adataihoz állnak a legközelebb, azaz a fül melyik minta-fulhöz hasonlít a legjobban. Ha a hasonlóság kellő mértékű, akkor beszélhetünk 30 arról, hogy a fül gazdáját azonosítani tudjuk.After determining the feature values, the final step is to decide which person's feature values of the ear in the current image are closest to the recorded data of the person or to the measured data of the person already seen in previous images, i.e. which sample ear the ear resembles the most. If the similarity is sufficient, then we can say that we can identify the owner of the ear.
- 17Az összehasonlítás során mind a statikus mind a dinamikus sajátságokat figyelembe veszszük. Tekintettel arra, hogy a statikus sajátságok esetében ezek kiátlagolt értékeit tároltuk el, az összehasonlítás során ezeknél egyszerű Euklideszi, vagy más, az egyes koordináta értékek különbségére alapuló távolság kiszámítására támaszkodhatunk.- 17During the comparison, we take into account both static and dynamic properties. Given that in the case of static properties, their average values were stored, during the comparison, we can rely on calculating a simple Euclidean distance or another distance based on the difference of the individual coordinate values.
A képsorozatokból kinyert dinamikus sajátságok között az összehasonlítás valamivel öszszetettebb. Az eltárolt 21 pont átlaga (a mérőirány alapú statikus sajátságok) és a 21 egyenes meredekség (a mérőirány alapú dinamikus sajátságok) segítségével újrageneráljuk a három 6, 7, illetve 8 egyenest tartalmazó ábrát, valamint az aktuális mintákra is hasonlóképpen három ilyen ábrát kapunk. Az azonos mérőirányokhoz tartozó ábrák analízisével 10 távolságokat képezünk (az egyenesek távolságát mérjük úgy, hogy tulajdonképpen a két egyenes különbségét integráljuk, majd az így kapott területeket összeadjuk az ábrán szereplő egyenesekre), így mérőirányonként újabb sajátságértéket képezünk. így a két sajátságvektor különbségének a tekintetében 21+3=24 elemű sajátság-különbség vektort kapunk, és az azonosítási döntést végül ezen értékek alapján hozzuk meg.The comparison between the dynamic features extracted from the image sequences is somewhat more complex. Using the average of the 21 stored points (static features based on the measurement direction) and the 21 line slopes (dynamic features based on the measurement direction), we regenerate the figure containing the three lines 6, 7, and 8, and similarly we obtain three such figures for the current samples. By analyzing the figures belonging to the same measurement directions, we form 10 distances (the distance of the lines is measured by actually integrating the difference of the two lines, and then adding the areas thus obtained to the lines in the figure), thus forming a new feature value for each measurement direction. Thus, we obtain a feature-difference vector with 21+3=24 elements in terms of the difference of the two feature vectors, and the identification decision is finally made based on these values.
Mivel az összehasonlításokat a 24 dimenziós térben körülményesebb végrehajtani, szükség van egy olyan leképezésre, amely a 24 elemű különbség-vektort egy skalárrá, végső soron egy 0 és 1 közé eső értékké alakítja, amely értékeket egymással már könnyen összehasonlíthatjuk. Erre nagyon egyszerű módszer lenne például a különbségvektor hosszát elemezni, ugyanakkor ez nem veszi figyelembe, hogy az egyes sajátságok esetleg más-más mér20 tékben utalhatnak az egyezőségre, illetve különbözőségre. Ezért célszerűen valamilyen súlyozással kell figyelembe venni a sajatságértékeket a távolság meghatározásakor.Since comparisons are more difficult to perform in a 24-dimensional space, a mapping is needed that converts the 24-element difference vector into a scalar, ultimately a value between 0 and 1, which values can be easily compared with each other. A very simple method for this would be to analyze the length of the difference vector, for example, but this does not take into account that individual features may indicate similarity or difference to different degrees. Therefore, it is advisable to consider the feature values with some weighting when determining the distance.
Kísérleteinkben az a megoldás vezetett a legjobb eredményre, amikor meghatároztuk a felvett képsorozatokból elkészített sajátságvektorok egy közel optimális szeparálás! irányát, azaz a sajátságkoordinátánként vett különbségek súlyozását, és erre vetítve határoztuk meg 25 a sajátságvektorok különbségét.In our experiments, the solution that led to the best results was when we determined a nearly optimal separation direction for the feature vectors prepared from the recorded image sequences, i.e. the weighting of the differences taken per feature coordinate, and based on this, we determined the difference of the feature vectors.
A megfelelő szeparálás! irány például a regisztrációkor felvett minta fulképek halmazának 24 dimenziós sajátságtérben képzett súlypontjai távolságának elemzésével határozható meg. A szeparálás! irány - v - képlete az előzetesen felvett ugyanazon, illetve különböző személyekhez tartozó íulsorozat-párok figyelembevételével a következőképpen alakul:The appropriate separation direction can be determined, for example, by analyzing the distance between the centroids of the set of sample facial images recorded during registration in the 24-dimensional feature space. The separation direction formula - v - is as follows, taking into account the previously recorded facial sequence pairs belonging to the same or different persons:
DD
II
- 18ahol dt a különböző forrásból származó minták különbségvektorait, sk pedig az egyező forrásból származó minták különbségvektorait jelenti. D az eltérő minták párjainak számossága, illetve S' az azonos minták párjainak számossága (ezek a konstansok normalizálási tényezők, avégett, hogy az azonosságok és a különbségek egyenlően legyenek súlyozva).- 18where d t is the difference vector of samples from different sources and s k is the difference vector of samples from the same source. D is the cardinality of pairs of different samples and S' is the cardinality of pairs of identical samples (these constants are normalization factors, so that similarities and differences are weighted equally).
A szeparálás! irány megállapítása után a különbségvektor adott irányra vetített képének hossza már csak egy dimenziós (skalár) érték, így már csak egy egyszerű számmal kell beállítani az azonos-különböző döntés optimális küszöbértékét, attól függően, hogy hogyan kívánjuk beállítani az FAR illetve FRR értékeket. A szakterületen az FAR (False Acceptance Rate) jelentése a téves elfogadások aránya az összehasonlítások számához képest, az FRR (False Rejection Rate) jelentése a téves elutasítások aránya az összehasonlítások számához képest.After the separation direction is determined, the length of the image of the difference vector projected onto the given direction is only a one-dimensional (scalar) value, so the optimal threshold value for the same-different decision only needs to be set with a simple number, depending on how we want to set the FAR and FRR values. In the field, FAR (False Acceptance Rate) means the ratio of false acceptances to the number of comparisons, and FRR (False Rejection Rate) means the ratio of false rejections to the number of comparisons.
A 13. ábra a különböző vágási küszöbértékek mellett mért FAR és FRR értékeket mutatja, valamint a GFR értéket, ami a két érték közötti különbség függvénye. Az ábrából kiolvasható, hogy a fulazonosítási módszerünk EER értéke (ahol FAR=FRR) 8 % körüli (pontosan 7,6%).Figure 13 shows the FAR and FRR values measured at different cutoff thresholds, as well as the GFR value, which is a function of the difference between the two values. It can be seen from the figure that the EER value of our fulan identification method (where FAR=FRR) is around 8% (exactly 7.6%).
Javasolt eljárásunk előnye, hogy a hagyományosnak tekinthető egy-egy felvétel elemzése alapján működő azonosító algoritmusokkal szemben több felvétel együttes információját használjuk fel, így implicit módon az azonosítandó tárgy háromdimenziós alakjáról kaphatunk információt anélkül, hogy arról tényleges 3D modellt készítenénk. Tekintettel arra, hogy az azonosításhoz használt fulmintákat video képekről vesszük le, néhány másodpercnyi mintagyűjtés során egy-egy emberről nem csak egyetlen, hanem akár 20-30, ráadásul az adott személy mozgásából, kamera előtti elhaladásából fakadóan különböző szögből levett fulkép mintát is összegyűjthetünk, így a statikus (azaz egyetlen képkockáról levehető) sajátságokon kívül a módszer alapja ezen dinamikus sajátságok kiszámítása és figyelembevétele. Ez utóbbiak azért bizonyultak erős sajátságnak, mert a különböző szögből levett fül minták együttes viselkedése a fül háromdimenziós alakjáról hordoz információt, amit - a létező módszerektől eltérően - ilyen módon anélkül építhettük bele a rendszerbe, hogy a tényleges háromdimenziós fulmodellt felépítettük volna.The advantage of our proposed method is that, in contrast to traditional identification algorithms that operate on the basis of the analysis of a single image, we use the combined information of multiple images, thus implicitly obtaining information about the three-dimensional shape of the object to be identified without creating an actual 3D model of it. Given that the full-frame samples used for identification are taken from video images, during a few seconds of sample collection, we can collect not only one, but up to 20-30 full-frame samples of each person, and even more, from different angles due to the person's movement and passing in front of the camera, so in addition to the static (i.e., deducible from a single frame) features, the method is based on the calculation and consideration of these dynamic features. The latter proved to be a strong feature because the combined behavior of ear samples taken from different angles carries information about the three-dimensional shape of the ear, which - unlike existing methods - could be incorporated into the system in this way without having to build the actual three-dimensional full model.
Claims (12)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| HU0700540A HUP0700540A2 (en) | 2007-08-17 | 2007-08-17 | Method of identification of an object |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| HU0700540A HUP0700540A2 (en) | 2007-08-17 | 2007-08-17 | Method of identification of an object |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| HU0700540D0 HU0700540D0 (en) | 2007-10-29 |
| HUP0700540A2 true HUP0700540A2 (en) | 2009-05-28 |
Family
ID=89987700
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| HU0700540A HUP0700540A2 (en) | 2007-08-17 | 2007-08-17 | Method of identification of an object |
Country Status (1)
| Country | Link |
|---|---|
| HU (1) | HUP0700540A2 (en) |
-
2007
- 2007-08-17 HU HU0700540A patent/HUP0700540A2/en unknown
Also Published As
| Publication number | Publication date |
|---|---|
| HU0700540D0 (en) | 2007-10-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20250182290A1 (en) | Human pose analysis system and method | |
| KR102147052B1 (en) | Emotional recognition system and method based on face images | |
| Yan et al. | Biometric recognition using 3D ear shape | |
| JP4755202B2 (en) | Face feature detection method | |
| CN103530599B (en) | The detection method and system of a kind of real human face and picture face | |
| CN101510257A (en) | Human face similarity degree matching method and device | |
| CN111783748A (en) | Face recognition method and device, electronic equipment and storage medium | |
| CN112257641A (en) | Face recognition living body detection method | |
| CN112329662B (en) | Multi-view saliency estimation method based on unsupervised learning | |
| Ling et al. | Image quality assessment for free viewpoint video based on mid-level contours feature | |
| Gürel et al. | Design of a face recognition system | |
| TWI427545B (en) | Face recognition method based on sift features and head pose estimation | |
| Sharma et al. | Image-level iris morph attack | |
| JP3577908B2 (en) | Face image recognition system | |
| CN113610058A (en) | Facial pose enhancement interaction method for facial feature migration | |
| CN117523663A (en) | Re-identification method of people changing clothes based on foreground image and noise clothes-changing image guidance | |
| KR101672814B1 (en) | Method for recognizing gender using random forest | |
| Gottumukkal et al. | Real time face detection from color video stream based on PCA method | |
| Shahin et al. | Human face recognition from part of a facial image based on image stitching | |
| Patil et al. | Forensic sketch based face recognition using geometrical face model | |
| Grover et al. | Face spoofing detection using enhanced local binary pattern | |
| Işık et al. | Deep convolutional feature-based gait recognition using silhouettes and RGB images | |
| Mohamed et al. | Automated face recogntion system: Multi-input databases | |
| Vinitha et al. | Face recognition using probabilistic neural networks | |
| HUP0700540A2 (en) | Method of identification of an object |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FD9A | Lapse of provisional protection due to non-payment of fees |