WO2017164478A1 - 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치 - Google Patents

미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치 Download PDF

Info

Publication number
WO2017164478A1
WO2017164478A1 PCT/KR2016/012772 KR2016012772W WO2017164478A1 WO 2017164478 A1 WO2017164478 A1 WO 2017164478A1 KR 2016012772 W KR2016012772 W KR 2016012772W WO 2017164478 A1 WO2017164478 A1 WO 2017164478A1
Authority
WO
WIPO (PCT)
Prior art keywords
spatial
learning
frames
fine
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2016/012772
Other languages
English (en)
French (fr)
Inventor
노용만
김대회
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020160063555A external-priority patent/KR102036955B1/ko
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of WO2017164478A1 publication Critical patent/WO2017164478A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Definitions

  • the present invention relates to a fine target recognition technology, and more particularly, to a method and an apparatus capable of recognizing a fine expression through deep learning analysis of fine face dynamics.
  • Facial analysis includes biometrics, security, human-computer interaction, and more recently, healthcare, smart home control, and human sensing to understand and recognize human emotions. It is widely attracting attention in a very wide field.
  • Fine face dynamic information is distributed in a few milliseconds that is difficult to visually identify.
  • This fine facial dynamic is caused by intentional or unintentional facial muscle movement and contains important information such as facial expression, facial recognition, and facial condition detection.
  • dynamics on the microscopic time scale which are invisible to the naked eye, can provide critical information that cannot be provided in the visible areas, such as intrinsic feature extraction or spontaneous facial emotions, which are useful for human identification. have.
  • Embodiments of the present invention provide a method and apparatus capable of recognizing a fine expression through deep learning analysis of fine face dynamics.
  • embodiments of the present invention provide a method and apparatus for analyzing a fine facial dynamic feature in a video including a face using deep learning and recognizing a facial expression using the deep learning.
  • a method of learning a fine facial expression extracts frames of predefined fine expressions from an input video, and generates a spatial learning model by learning spatial features of the extracted frames. ; And extracting the spatial feature of the frames of the input video using the generated spatial learning model, and generating the temporal learning model using the extracted spatial feature of the frames. Learning each of them.
  • the generating of the spatial learning model includes a classification error minimization function, a variance minimization function in the same class in the feature space, a facial expression state classification error minimization function, a variance minimization function in the facial expression state in the feature space, and preserving the continuity of the facial expression state in the feature space.
  • the spatial learning model may be generated by learning spatial features of the extracted frames using five objective functions of the function.
  • the generating of the spatial learning model may generate the spatial learning model by learning a convolutional neural network (CNN) with respect to the spatial features of the extracted frames.
  • CNN convolutional neural network
  • the learning of each of the fine expressions may learn each of the fine expressions by generating the temporal learning model using the spatial feature extracted for the frames based on a recursive neural network.
  • the recursive neural network may include at least one of a recurrent neural network (RNN), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • RNN recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • a method of recognizing a fine facial expression comprising: extracting spatial features of frames of a video using a spatial learning model that learns spatial features of predefined fine expressions; Calculating a recognition value for each of the fine expressions based on a recursive neural network using the spatial features extracted for the frames and a pre-trained temporal learning model; And recognizing a fine expression in the video based on the calculated recognition value.
  • the recursive neural network may include at least one of a recurrent neural network (RNN), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • RNN recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • the apparatus for fine expression learning is a space for extracting frames for predefined fine expressions from an input video, and learning a spatial feature of the extracted frames to generate a spatial learning model.
  • Learning unit And extracting the spatial feature of the frames of the input video using the generated spatial learning model, and generating the temporal learning model using the extracted spatial feature of the frames. It includes a time learning unit for learning each of them.
  • the spatial learning unit has five objective functions: a classification error minimization function, a variance minimization function in the same class in the feature space, a facial expression state classification error minimization function, a variance minimization function in the facial expression state in the feature space, and a continuity preservation function of the facial expression state in the feature space.
  • the spatial learning model may be generated by learning spatial features of the extracted frames.
  • the spatial learner may generate the spatial learning model by learning a convolutional neural network (CNN) with respect to the spatial features of the extracted frames.
  • CNN convolutional neural network
  • the temporal learning unit may learn each of the fine expressions by generating the temporal learning model using the spatial features extracted for the frames based on a recursive neural network.
  • the recursive neural network may include at least one of a recurrent neural network (RNN), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • RNN recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • An apparatus for recognizing fine expressions includes an extractor which extracts spatial features of frames of a video by using a spatial learning model that learns spatial features of predefined fine expressions; A calculator configured to calculate a recognition value for each of the fine expressions based on a recursive neural network using the spatial features extracted for the frames and a pre-trained temporal learning model; And a recognition unit recognizing a fine expression in the video based on the calculated recognition value.
  • the recursive neural network may include at least one of a recurrent neural network (RNN), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • RNN recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • a deep facial dynamic feature in a video including a face may be analyzed using deep learning, and facial expression may be recognized using the deep learning.
  • an efficient fine facial expression video recognition system framework may be configured.
  • the microscopic movement of a person may be analyzed and captured and widely applied in various fields such as medicine, psychology, human-computer interaction and multimedia, entertainment, human sensing, and the like.
  • FIG. 1 illustrates an exemplary diagram for describing a method of learning a micro expression through deep learning analysis of micro facial dynamics according to an exemplary embodiment of the present invention.
  • Figure 2 shows a conceptual illustration of the objective function of the facial expression state emphasis learning method in the method according to the present invention.
  • FIG. 3 is a conceptual illustration of recursive neural network based dynamic sequence analysis in a method according to the present invention.
  • FIG. 4 is a flowchart illustrating an operation of a method for recognizing a fine facial expression according to an exemplary embodiment of the present invention.
  • Figure 5 shows the configuration of the apparatus for learning a fine expression in one embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a configuration of an apparatus for recognizing fine expressions in an embodiment of the present invention.
  • Embodiments of the present invention are intended to analyze the fine facial dynamics in a video including a face using deep learning and to efficiently recognize facial expressions using the same.
  • FIG. 1 illustrates an exemplary diagram for describing a method of learning a micro expression through deep learning analysis of micro facial dynamics according to an exemplary embodiment of the present invention.
  • the method for learning fine expressions is composed of an expression state emphasized learning process and a dynamic sequence analysis using recurrent neural network process. This will be described as follows.
  • the facial expression state emphasis learning process may perform the facial expression state emphasis learning process in a convolution neural network (CNN), and a five-step facial expression state that is predefined in each input video, for example, long video and short video, for example, onset Only onset-to-apex, apex, apex-to-offset, and offset images can be sampled and learned.
  • CNN convolution neural network
  • the facial expression state emphasizing learning process may generate a spatial learning model by extracting frames for a five-stage facial expression state from the input video and learning a CNN about spatial features of the extracted frames.
  • the classification error minimization function the variance minimization function in the same class in the feature space
  • the facial expression state classification error minimization function the variance minimization function in the facial expression state in the feature space
  • the continuity preservation function of the facial expression state in the feature space The spatial learning model can be generated by learning the spatial features of the extracted frames using the two objective functions, which are described in FIG. 2.
  • the recursive neural network based dynamic sequence analysis process uses the spatial learning model generated by the facial expression state emphasis learning process to extract spatial features of all frames of the input video, and extracts the extracted spatial features of all frames. By using this to generate a temporal learning model, each of the fine expressions is learned.
  • the recursive neural network based dynamic sequence analysis process generates a temporal learning model using the spatial features extracted for all frames based on the recursive neural network, thereby learning each of the fine expressions. and at least one of a recurrent neural network (GRU), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • GRU recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • Dynamic sequence analysis process based on recursive neural network is to learn recursive neural network based on time axis.
  • deep learning (or learning) technology is used to learn features that enable analysis of fine facial motion changes.
  • five levels of expression states for each expression for example, onset, onset-to-apex, apex, apex-to-offset, and offset, in order to have discernment in the change of minute movements
  • each sample video is trained by sampling only images (or frames only) corresponding to the five-stage facial expression state, and based on a recurrent neural network (RNN) as a test or second stage.
  • RNN recurrent neural network
  • five objective functions may be used to increase the difference between the motion states in the feature space, and the five objective functions will be described with reference to FIG. 2.
  • FIG. 2 is a conceptual illustration of the objective function of the facial expression state emphasis learning method in the method according to the present invention.
  • five objective functions are classified in a classification space minimization (E1) in a feature space.
  • Each color illustrated in FIG. 2 may mean a kind of facial expression, and a shape may mean facial expression state, and each function will be described below.
  • the minimizing expression classification error (E1) function is a function for minimizing the classification error in classifying each fine expression, that is, the class.
  • the classification error minimization function is expressed as in Equation 1 below. Can be.
  • c is the class index
  • i is the index of the training sample
  • t c i is the true value of the sample (1 if the class of sample i is c and 0 otherwise)
  • Equation 2 The minimizing intra-class variation (E2) function in the same class in the feature space may be expressed as Equation 2 below.
  • y c, p, i means the feature vector for the sample x c, p, i , m c means the average vector of the feature vector of the learning samples of class c, d c min is different from It can mean half the distance from the nearest class among the classes.
  • Equation 3 Minimizing expression state classification error (E3) function can be expressed as in Equation 3 below.
  • p denotes the facial expression state index
  • t p i denotes the true facial expression state value of the sample (1 only when the facial expression state index of sample i is p and 0 otherwise)
  • Equation 4 The minimizing expression state variation (E4) function in the facial expression state in the feature space may be expressed as Equation 4 below.
  • m c, p may mean an average vector of feature vectors of the learning samples belonging to the facial expression state p of the facial expression class c
  • may mean a parameter for determining a distribution range of the facial expression state.
  • the preserving expression state continuity (E5) function in the feature space allows expressions existing between two expression states among the five levels of expression state used for learning to exist between two expression states in the feature space. This is related to the second stage of dynamic sequence analysis.
  • the E5 function can make a frame exist between apex-to-offset and offset for a frame that exists between apex-to-offset and offset.
  • the continuity preservation (E5) function of the facial expression state in the feature space can be expressed as Equation 5 below.
  • the dynamic feature or spatial feature learned by the expression state emphasis learning process makes the dynamic sequence analysis easier through the recursive neural network in the second stage by increasing the difference according to the motion state in the feature space, and describes the dynamic sequence analysis. Is as follows.
  • the facial features extracted in the first step are analyzed only for the fine motion of each frame, so it is necessary to analyze the change of the fine motion over time in the entire video.
  • the second step involves recursive neural network-based face dynamic modeling and analysis.
  • Recursive neural network-based dynamic sequence analysis uses recursive neural networks to model various feature changes that appear in fine motion from a series of sequential input frames.
  • the recursive neural network in the present invention may be used a simple RNN, a gated recurrent unit (GRU), a long short-term memory (LSTM), etc.
  • the recursive neural network based dynamic sequence analysis shown in Figure 3 is an example using LTSM It is shown.
  • recursive neural network based dynamic sequence analysis uses an expression state emphasized CNN model to spatially space all frames (onset to offset) of the input video.
  • Each of the microscopic expressions can be learned by extracting a typical feature and generating a temporal learning model using a recursive neural network, for example, LTSM, using the extracted spatial features for all frames.
  • a recursive neural network for example, LTSM
  • the spatial learning model and the temporal learning model learned by the above-described process may be used to recognize the fine expression of the video to recognize the fine expression.
  • the method of fine expression learning extracts the features of every frame of a video through a spatial learning model emphasizing the facial expression state learned in the first step, and changes the time between all frames based on the recursive neural network.
  • a spatial learning model emphasizing the facial expression state learned in the first step, and changes the time between all frames based on the recursive neural network.
  • the spatial learning model and the temporal learning model generated by the fine expression learning method may be used to recognize the fine expression in the video to recognize the fine expression, which will be described with reference to FIG. 4.
  • FIG. 4 is a flowchart illustrating a method for recognizing a fine facial expression according to an exemplary embodiment of the present invention.
  • the method for recognizing a fine facial expression uses all frames of a video, for example, an onset frame or an offset frame, to recognize the fine facial expression using a previously learned spatial learning model. Extract the spatial features (S410).
  • step S410 When the spatial feature of each of the frames is extracted by step S410, the recognition value of each of the fine expressions defined in advance based on the recursive neural network using the extracted spatial feature and the pre-trained temporal learning model for all the frames is extracted. Calculate (S420).
  • the recognition value of each of the fine expressions may be a probability value of each of the fine expressions.
  • step S420 When the recognition value for each of the fine expressions is calculated in step S420, the fine expression of the corresponding video is recognized based on the calculated recognition value (S430).
  • the fine expression having the largest value among the recognition values calculated for each of the fine expressions may be recognized as the fine expression of the corresponding video.
  • the spatial learning model pre-learned by emphasizing the spatial state of all frames (onset to offset) of the video to recognize the micro-expression ( A temporal learning model and a recursive neural network pre-trained on each of the microexpressions with respect to the extracted spatial features. analysis result) is recognized as a fine expression of the video.
  • the method for recognizing the micro expression according to the present invention can easily extract the micro expression by extracting unique features useful for human identification or recognition of spontaneous facial emotion by constructing a neural network for fine facial movements which cannot be identified by the naked eye. have.
  • the methods according to the present invention can recognize a fine expression by providing a learning method considering a facial expression state and a fine expression recognition framework through deep learning analysis of fine face dynamics.
  • the present invention provides a recursive neural network-based learning method based on a time axis and provides a result of learning the spatial information of the facial expression, and recognizes the fine expression of the video using the learning model generated by the learned method. .
  • the method for recognizing a fine facial expression according to the present invention can recognize a fine facial expression by fusing facial spatial information, time information, and motion information, and can perform effective facial recognition in consideration of fine facial dynamics through the present invention.
  • FIG. 5 illustrates a configuration of a micro expression learning apparatus in an embodiment of the present invention, and illustrates a configuration of an apparatus for performing the method of FIGS. 1 to 3.
  • the micro-expression learning apparatus 500 includes a spatial learner 510 and a time learner 520.
  • the spatial learner 510 extracts frames of predefined fine expressions from the input video, and learns spatial features of the extracted frames to generate a spatial learning model.
  • the spatial learning unit 510 minimizes a classification error minimizing function, a variance minimizing function in the same class in the feature space, a facial expression state classification error minimizing function, a variance minimizing function in the facial expression state in the feature space, and preserves the continuity of the facial expression state in the feature space.
  • Spatial learning model can be generated by learning spatial features of the extracted frames using five objective functions of the function, and spatial learning by learning CNN about the spatial features of the extracted frames. You can create a model.
  • the temporal learning unit 520 extracts the spatial features of all the frames of the input video using the generated spatial learning model, and generates the temporal learning model using the spatial features extracted for all the frames. Thereby learning each of the fine expressions.
  • the temporal learning unit 520 can learn each of the fine expressions by generating a temporal learning model using spatial features extracted for all frames based on the recursive neural network, and the recursive neural network is an RNN. and at least one of a recurrent neural network (GRU), a gated recurrent unit (GRU), and a long short-term memory (LSTM).
  • GRU recurrent neural network
  • GRU gated recurrent unit
  • LSTM long short-term memory
  • the apparatus for learning fine expressions may include not only the contents described with reference to FIG. 5 but also the contents of FIGS. 1 to 3 described above.
  • FIG. 6 illustrates a configuration of an apparatus for recognizing fine expressions in an embodiment of the present invention, and illustrates a configuration of an apparatus for performing the method of FIG. 4.
  • the apparatus for recognizing micro expressions 600 includes an extractor 610, a calculator 620, and a recognizer 630.
  • the extractor 610 extracts the spatial features of all the frames of the video to recognize the fine expression using a spatial learning model that learns the spatial features of the predefined fine expressions.
  • the calculator 620 calculates a recognition value for each of the fine expressions based on a recursive neural network using a spatial feature extracted for all frames and a pre-trained temporal learning model.
  • the calculator 620 may calculate a probability value for each of the fine expressions.
  • the recognition unit 630 recognizes the fine expression in the video based on the calculated recognition value.
  • the recognition unit 630 may recognize the fine expression having the largest value among the recognition values calculated for each of the fine expressions as the fine expression of the corresponding video.
  • the apparatus for recognizing a fine facial expression may include not only the contents of FIG. 6 but also the contents of FIGS. 1 to 4.
  • the system or apparatus described above may be implemented with hardware components, software components, and / or combinations of hardware components and software components.
  • the systems, devices, and components described in the embodiments may include, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs). ), A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using one or more general purpose or special purpose computers.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 미세 표정 학습 방법은 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성하는 단계; 및 상기 생성된 공간적인 학습 모델을 이용하여 상기 입력 비디오의 모든 프레임들에 대한 공간적인 특징을 추출하고, 상기 모든 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 단계를 포함한다.

Description

미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
본 발명은 미세 표적 인식 기술에 관한 것으로서, 보다 상세하게는 미세 얼굴 다이나믹의 딥 러닝 분석을 통하여 미세 표정을 인식할 수 있는 방법 및 장치에 관한 것이다.
얼굴 분석은 생체인식(biometrics), 보안(security), 인간-컴퓨터 상호작용(human-computer interaction)부터 최근에는 헬스케어(healthcare), 스마트 홈 제어, 사람의 감정을 이해하고 인지하는 휴먼 센싱(human sensing)까지 매우 폭넓은 분야에서 광범위하게 주목 받고 있다.
현재 대부분의 얼굴분석 기법들은 정지 영상(still image)의 정적인(static) 정보를 이용해 개발되어 왔다. 또한 얼굴 모션 분석에 관한 연구도 눈으로 쉽게 관찰되는 식별 가능한(visible) 움직임에 국한되어 왔다.
하지만, 최근 연구에서 얼굴의 미세한 다이나믹(dynamic) 정보가 얼굴분석에서 중요한 분별력을 제공한다고 알려지고 있다. 미세 얼굴 다이나믹 정보는 육안으로 식별하기 어려운 수 밀리 초의 시간에서 분포한다. 이 미세 얼굴 다이나믹은 의도적 또는 비의도적인 얼굴 근육의 움직임에 의해 발생하는 것으로 얼굴 표정, 얼굴 인식, 얼굴 상태 감지 등의 중요한 정보를 담고 있다.
특히, 육안으로 식별 불가능한(invisible) 미세 시간 스케일의 다이나믹은 사람 식별에 유용한 고유 특성추출이나 자연스러운(spontaneous) 얼굴 감정인지 등에서 식별 가능한(visible) 영역에서 제공할 수 없는 매우 핵심정인 정보를 제공할 수 있다.
하지만 얼굴 분석에서 그 중요성이 간과되어 왔으며 이 미세 구간 분석을 위해 기존 얼굴 분석 방법들을 적용하는 것은 불가능하다.
따라서, 미세 얼굴 다이나믹 분석을 통해 미세 표정을 인식할 수 있는 방법의 필요성이 대두된다.
본 발명의 실시예들은, 미세 얼굴 다이나믹의 딥 러닝 분석을 통하여 미세 표정을 인식할 수 있는 방법 및 장치를 제공한다.
구체적으로, 본 발명의 실시예들은 얼굴을 포함하는 비디오에서의 미세 얼굴 다이나믹 특징을 딥 러닝을 활용하여 분석하고 이를 이용하여 얼굴 표정을 인식할 수 있는 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따른 미세 표정 학습 방법은 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성하는 단계; 및 상기 생성된 공간적인 학습 모델을 이용하여 상기 입력 비디오의 프레임들에 대한 공간적인 특징을 추출하고, 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 단계를 포함한다.
상기 공간적인 학습 모델을 생성하는 단계는 분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수의 5 개의 목적 함수를 이용하여 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 상기 공간적인 학습 모델을 생성할 수 있다.
상기 공간적인 학습 모델을 생성하는 단계는 상기 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN(convolutional neural network)을 학습함으로써, 상기 공간적인 학습 모델을 생성할 수 있다.
상기 미세 표정들 각각을 학습하는 단계는 재귀 신경망을 기반으로 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 상기 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습할 수 있다.
상기 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따른 미세 표정 인식 방법은 미리 정의된 미세 표정들에 대한 공간적인 특징을 학습한 공간적인 학습 모델을 이용하여 비디오의 프레임들에 대한 공간적인 특징을 추출하는 단계; 상기 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 상기 미세 표정들 각각에 대한 인식 값을 계산하는 단계; 및 상기 계산된 인식 값에 기초하여 상기 비디오에서의 미세 표정을 인식하는 단계를 포함한다.
상기 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따른 미세 표정 학습 장치는 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성하는 공간 학습부; 및 상기 생성된 공간적인 학습 모델을 이용하여 상기 입력 비디오의 프레임들에 대한 공간적인 특징을 추출하고, 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 시간 학습부를 포함한다.
상기 공간 학습부는 분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수의 5 개의 목적 함수를 이용하여 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 상기 공간적인 학습 모델을 생성할 수 있다.
상기 공간 학습부는 상기 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN(convolutional neural network)을 학습함으로써, 상기 공간적인 학습 모델을 생성할 수 있다.
상기 시간 학습부는 재귀 신경망을 기반으로 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 상기 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습할 수 있다.
상기 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따른 미세 표정 인식 장치는 미리 정의된 미세 표정들에 대한 공간적인 특징을 학습한 공간적인 학습 모델을 이용하여 비디오의 프레임들에 대한 공간적인 특징을 추출하는 추출부; 상기 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 상기 미세 표정들 각각에 대한 인식 값을 계산하는 계산부; 및 상기 계산된 인식 값에 기초하여 상기 비디오에서의 미세 표정을 인식하는 인식부를 포함한다.
상기 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
본 발명의 실시예들에 따르면, 얼굴을 포함하는 비디오에서의 미세 얼굴 다이나믹 특징을 딥 러닝을 활용하여 분석하고 이를 이용하여 얼굴 표정을 인식할 수 있다.
본 발명의 실시예들에 따르면, 효율적인 미세 얼굴 표정 비디오 인식 시스템 프레임워크를 구성할 수 있다.
본 발명의 실시예들에 따르면, 얼굴의 미세 다이나믹 특징을 모델링하여 활용할 수 있기 때문에 성능 측면에서 효과적인 표정 인식을 수행할 수 있다.
본 발명의 실시예들에 따르면, 사람의 미세 움직임까지 분석 포착하여 의학, 심리학, 인간-컴퓨터 상호작용 및 멀티미디어, 엔터테인먼트, 휴먼 센싱 등의 다양한 분야에서 폭넓게 응용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 학습 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 2는 본 발명에 따른 방법에서 표정 상태 강조 학습 방법의 목적함수에 대한 개념적인 예시도를 나타낸 것이다.
도 3은 본 발명에 따른 방법에서 재귀 신경망 기반 다이나믹 시퀀스 분석에 대한 개념적인 예시도를 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 미세 표정 인식 방법에 대한 동작 흐름도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 미세 표정 학습 장치에 대한 구성을 나타낸 것이다.
도 6은 본 발명의 일 실시예에 미세 표정 인식 장치에 대한 구성을 나타낸 것이다.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
본 발명의 실시예들은, 얼굴을 포함하는 비디오에서의 미세 얼굴 다이나믹 특징을 딥 러닝을 활용하여 분석하고 이를 이용하여 얼굴 표정을 효율적으로 인식하고자 하는 것을 그 요지로 한다.
도 1은 본 발명의 일 실시예에 따른 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 학습 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 미세 표정 학습 방법은 표정 상태 강조 학습(expression state emphasized learning) 과정과 재귀 신경망 기반 다이나믹 시퀀스 분석(dynamic sequence analysis using recurrent neural network) 과정으로 구성되며, 이에 대해 설명하면 다음과 같다.
표정 상태 강조 학습 과정은 CNN(convolution neural network)에서 표정 상태 강조 학습 과정을 수행할 수 있으며, 각 입력 비디오 예를 들어, long video, short video 각각에서 미리 정의된 5 단계 표정 상태 예를 들어, onset, onset-to-apex, apex, apex-to-offset, offset에 해당하는 영상들만 샘플링하여 학습할 수 있다.
여기서, 표정 상태 강조 학습 과정은 입력 비디오에서 5 단계 표정 상태에 대한 프레임들을 추출하고, 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN을 학습함으로써, 공간적인 학습 모델을 생성할 수 있다.
본 발명에 따른 학습 방법에서는 분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수의 5 개의 목적 함수를 이용하여 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성할 수 있으며, 이러한 5개의 목적 함수에 대해서는 도 2에서 설명한다.
재귀 신경망 기반 다이나믹 시퀀스 분석 과정은 표정 상태 강조 학습 과정에 의해 생성된 공간적인 학습 모델을 이용하여 입력 비디오의 모든 프레임들에 대한 공간적인 특징을 추출하고, 모든 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 미세 표정들 각각을 학습한다.
여기서, 재귀 신경망 기반 다이나믹 시퀀스 분석 과정은 재귀 신경망을 기반으로 모든 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 미세 표정들 각각을 학습할 수 있으며, 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
재귀 신경망 기반 다이나믹 시퀀스 분석 과정은 공간 정보가 학습된 결과를 시간축으로 재귀 신경망 기반으로 학습하는 것이다.
이러한 표정 상태 강조 학습 과정과 재귀 신경망 기반 다이나믹 시퀀스 분석 과정에 대해 상세히 설명하면 다음과 같다.
1. 표정 상태 강조 학습
표정 상태 강조 학습 단계에서는 미세 얼굴 모션 변화를 분석 가능하게 하는 특징을 딥 러닝(또는 학습) 기술을 통해 데이터 자체에서 학습한다.
이 때, 본 발명에서는 미세한 움직임의 변화에 분별력이 있게 하기 위해 각 표정 별로 5 단계의 표정 상태(expression state) 예를 들어, onset, onset-to-apex, apex, apex-to-offset, offset을 정의할 수 있다.
본 발명에서의 첫 번째 네트워크 학습 시에는 각 표정 비디오에서 5 단계 표정 상태에 해당하는 영상들만(또는 프레임들만) 샘플링하여 학습하고, 테스트 또는 두 번째 단계인 재귀 신경망(RNN; recurrent neural network) 기반 다이나믹 시퀀스 분석을 위한 다이나믹 특징 추출 시에는 입력 비디오의 모든 프레임을 사용할 수 있다.
또한, 본 발명의 실시예에서는 특징 공간에서 움직임 상태 사이의 차이를 크게 하기 위하여, 5개의 목적 함수(objective function)를 사용할 수 있으며, 5 개의 목적 함수에 대하여 도 2를 참조하여 설명한다.
도 2는 본 발명에 따른 방법에서 표정 상태 강조 학습 방법의 목적함수에 대한 개념적인 예시도를 나타낸 것으로, 도 2에 도시된 바와 같이, 5 개의 목적 함수는 분류 에러 최소화(E1), 특징 공간에서 동일 클래스 내 분산 최소화(E2), 표정 상태 분류 에러 최소화(E3), 특징공간에서 표정 상태 내 분산 최소화(E4) 및 특징공간에서 표정 상태의 연속성 보존(E5)일 수 있다.
도 2에 도시된 각 색깔은 표정의 종류를 의미하고, 모양은 표정 상태를 의미할 수 있으며, 각 함수에 대해 설명하면 다음과 같다.
분류 에러 최소화(E1)(minimizing expression classification error) 함수는 각 미세 표정별 즉, 클래스별 분류를 하는데 있어서 그 분류 에러를 최소화하기 위한 함수로서, 분류 에러 최소화 함수는 아래 <수학식 1>과 같이 나타낼 수 있다.
[수학식 1]
Figure PCTKR2016012772-appb-I000001
여기서, c는 클래스 인덱스를 의미하고, i는 트레이닝 샘플의 인덱스를 의미하며, tc i는 해당 샘플의 참 값(샘플 i의 클래스가 c일때만 1이고 그 외에는 0)을 의미하고,
Figure PCTKR2016012772-appb-I000002
는 각 클래스 c에 대해 추정된 확률 값을 의미할 수 있다.
특징 공간에서 동일 클래스 내 분산 최소화(E2)(minimizing intra-class variation) 함수는 아래 <수학식 2>와 같이 나타낼 수 있다.
[수학식 2]
Figure PCTKR2016012772-appb-I000003
여기서, yc,p,i는 샘플 xc,p,i에 대한 특징 벡터를 의미하고, mc는 클래스 c에 속한 학습 샘플들의 특징 벡터의 평균 벡터를 의미하며, dc min은 자기와 다른 클래스 중 가장 가까운 클래스와의 거리의 절반을 의미할 수 있다.
표정 상태 분류 에러 최소화(E3)(minimizing expression state classification error) 함수는 아래 <수학식 3>과 같이 나타낼 수 있다.
[수학식 3]
Figure PCTKR2016012772-appb-I000004
여기서, p 는 표정 상태 인덱스를 의미하고, tp i는 해당 샘플의 표정 상태 참값(샘플 i의 표정 상태 인덱스가 p 일때만 1이고 그 외에는 0)을 의미하며,
Figure PCTKR2016012772-appb-I000005
는 각 표정 상태 p 에 대해 추정된 확률값을 의미할 수 있다.
특징공간에서 표정 상태 내 분산 최소화(E4)(minimizing expression state variation) 함수는 아래 <수학식 4>와 같이 나타낼 수 있다.
[수학식 4]
Figure PCTKR2016012772-appb-I000006
여기서, mc,p는 표정 클래스 c의 표정 상태 p에 속한 학습 샘플들의 특징 벡터의 평균 벡터를 의미하고, τ는 표정 상태의 분포 범위를 결정하는 파라미터를 의미할 수 있다.
상술한 E3, E4를 통해 표정 상태간의 차이를 강조하여 학습할 수 있지만, 인접 프레임간의 특징의 연속성은 보장되지 않는다. 특징공간에서 표정 상태의 연속성 보존(E5)(preserving expression state continuity) 함수는 학습에 사용된 5단계의 표정 상태 중 2개의 표정 상태 사이에 존재하는 표정들을 특징 공간에서도 2개의 표정 상태 사이에 존재하게 만들어 주며, 이는 두 번째 단계의 다이나믹 시퀀스 분석과 연관이 있다. 예를 들어, E5 함수는 apex-to-offset과 offset 사이에 존재하는 프레임에 대해서는, apex-to-offset과 offset의 특징 공간 사이에 존재하도록 만들어줄 수 있다.
특징공간에서 표정 상태의 연속성 보존(E5) 함수는 아래 <수학식 5>와 같이 나타낼 수 있다.
[수학식 5]
Figure PCTKR2016012772-appb-I000007
표정 상태 강조 학습 과정에 의해 학습된 다이나믹 특징 또는 공간적인 특징은 특징 공간에서 모션 상태에 따른 차이를 크게 함으로써 두 번째 단계의 재귀 신경망을 통한 다이나믹 시퀀스 분석을 더 용이하게 하며, 다이나믹 시퀀스 분석에 대해 설명하면 다음과 같다.
2. 재귀 신경망 기반 다이나믹 시퀀스 분석
첫 번째 단계에서 추출한 얼굴 특징은 각 프레임별 미세 모션만 분석이 되었기 때문에 전체 비디오에서 시간 변화에 따른 미세 모션의 변화를 분석할 필요가 있다. 이를 위해 두 번째 단계에서는 재귀 신경망 기반 얼굴 다이나믹 모델링 및 분석 방법을 수행한다.
재귀 신경망 기반 다이나믹 시퀀스 분석은 재귀 신경망을 활용하여 일련의 순차적인 입력 프레임으로부터 미세 모션에 나타나는 다양한 특징 변화를 모델링한다.
여기서, 본 발명에서의 재귀 신경망은 simple RNN, GRU(gated recurrent unit), LSTM(long short-term memory) 등이 사용될 수 있으며, 도 3에 도시된 재귀 신경망 기반 다이나믹 시퀀스 분석은 LTSM을 활용한 예를 나타낸 것이다.
예를 들어, 도 3에 도시된 바와 같이 재귀 신경망 기반 다이나믹 시퀀스 분석은 표정 상태가 강조된 공간적인 학습 모델(expression state emphasized CNN model)을 이용하여 입력 비디오의 모든 프레임들(onset 내지 offset)에 대한 공간적인 특징을 추출하고, 모든 프레임들에 대해 추출된 공간적인 특징들을 재귀 신경망 예를 들어, LTSM을 이용하여 시간적인 학습 모델을 생성함으로써, 미세 표정들 각각을 학습할 수 있다.
상술한 과정에 의해 학습된 공간적인 학습 모델과 시간적인 학습 모델은 미세 표정을 인식하고자 하는 비디오의 미세 표정을 인식하는데 사용될 수 있다.
이와 같이, 본 발명의 실시예에 따른 미세 표정 학습 방법은 첫번째 단계에서 학습된 표정 상태가 강조된 공간적인 학습 모델을 통해 비디오의 모든 프레임의 특징을 추출하고, 재귀 신경망을 기반으로 모든 프레임간 시간 변화를 학습함으로써, 시간적인 학습 모델을 생성하고, 이를 통해 미세 표정들을 학습할 수 있다.
이러한 미세 표정 학습 방법에 의해 생성된 공간적인 학습 모델과 시간적인 학습 모델은 미세 표정을 인식하고자 하는 비디오에서 미세 표정을 인식하는데 사용될 수 있으며, 이에 대해 도 4를 참조하여 설명하면 다음과 같다.
도 4는 본 발명의 일 실시예에 따른 미세 표정 인식 방법에 대한 동작 흐름도를 나타낸 것으로, 도 1 내지 도 3에서 설명한 미세 표정 학습 방법에 의해 생성된 학습 모델들을 이용하여 미세 표정을 인식하는 방법에 대한 동작 흐름도를 나타낸 것이다.
도 4를 참조하면, 본 발명의 실시예에 따른 미세 표정 인식 방법은 미리 학습된 공간적인 학습 모델을 이용하여 미세 표정을 인식하고자 하는 비디오의 모든 프레임들 예를 들어, onset 프레임 내지 offset 프레임 각각에 대한 공간적인 특징들을 추출한다(S410).
단계 S410에 의해 모든 프레임들 각각의 공간적인 특징이 추출되면 모든 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 미리 정의된 미세 표정들 각각의 인식 값을 계산한다(S420).
여기서, 미세 표정들 각각의 인식 값은 미세 표정들 각각에 대한 확률 값일 수 있다.
단계 S420에 의해 미세 표정들 각각에 대한 인식 값이 계산되면 계산된 인식 값에 기초하여 해당 비디오의 미세 표정을 인식한다(S430).
여기서, 단계 S430은 미세 표정들 각각에 대해 계산된 인식 값 중 가장 큰 값을 가지는 미세 표정을 해당 비디오의 미세 표정으로 인식할 수 있다.
이러한 미세 표정 인식 과정에 대해 도 3을 참조하여 설명하면, 미세 표정을 인식하고자 하는 비디오의 모든 프레임들(onset 내지 offset)에 대한 공간적인 특징을 표정 상태가 강조되어 미리 학습된 공간적인 학습 모델(expression state emphasized CNN model)을 이용하여 추출하고, 추출된 공간적인 특징들에 대하여 미세 표정들 각각에 대해 미리 학습된 시간적인 학습 모델과 재귀 신경망 여기서는 LSTM을 이용하여 가장 높은 인식 값을 가지는 미세 표정(analysis result)을 해당 비디오의 미세 표정으로 인식한다.
이와 같이, 본 발명에 따른 미세 표정 인식 방법은 육안으로 식별 못하는 미세 얼굴 움직임을 신경회로망을 구성함으로써, 사람 식별에 유용한 고유 특성 추출이나 자연스러운(spontaneous) 얼굴 감정 인지 등에서 미세 표정을 용이하게 추출할 수 있다.
특히, 본 발명에 따른 방법들은 표정 상태를 고려한 학습 방법과 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 프레임워크를 제공함으로써, 미세 표정을 인식할 수 있다.
구체적으로, 본 발명은 표정의 공간정보가 학습된 결과를 시간축에 따른 재귀 신경망 기반의 학습 방법으로 제공하고, 이렇게 학습된 방법에 의해 생성된 학습 모델을 이용하여 비디오의 미세 표정을 인식할 수 있다.
즉, 본 발명에 따른 미세 표정 인식 방법은 얼굴 공간정보 및 시간정보, 모션정보를 융합하여 미세 표정을 인식할 수 있고, 이러한 본 발명을 통해 미세 얼굴 다이나믹을 고려한 효과적인 표정 인식을 수행할 수 있다.
도 5는 본 발명의 일 실시예에 미세 표정 학습 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 3의 방법을 수행하는 장치에 대한 구성을 나타낸 것이다.
도 5를 참조하면, 본 발명의 실시예에 따른 미세 표정 학습 장치(500)는 공간 학습부(510) 및 시간 학습부(520)를 포함한다.
공간 학습부(510)는 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성한다.
이 때, 공간 학습부(510)는 분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수의 5 개의 목적 함수를 이용하여 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성할 수 있으며, 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN을 학습함으로써, 공간적인 학습 모델을 생성할 수 있다.
시간 학습부(520)는 생성된 공간적인 학습 모델을 이용하여 입력 비디오의 모든 프레임들에 대한 공간적인 특징을 추출하고, 모든 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 미세 표정들 각각을 학습한다.
이 때, 시간 학습부(520)는 재귀 신경망을 기반으로 모든 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 미세 표정들 각각을 학습할 수 있으며, 재귀 신경망은 RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함할 수 있다.
본 발명의 실시예에 따른 미세 표정 학습 장치는 도 5 에 기재된 내용 뿐만 아니라 상술한 도 1 내지 도 3의 내용을 모두 포함할 수 있다.
도 6은 본 발명의 일 실시예에 미세 표정 인식 장치에 대한 구성을 나타낸 것으로, 도 4의 방법을 수행하는 장치에 대한 구성을 나타낸 것이다.
도 6을 참조하면, 본 발명의 실시예에 따른 미세 표정 인식 장치(600)는 추출부(610), 계산부(620) 및 인식부(630)를 포함한다.
추출부(610)는 미리 정의된 미세 표정들에 대한 공간적인 특징을 학습한 공간적인 학습 모델을 이용하여 미세 표정을 인식하고자 하는 비디오의 모든 프레임들에 대한 공간적인 특징을 추출한다.
계산부(620)는 모든 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 미세 표정들 각각에 대한 인식 값을 계산한다.
여기서, 계산부(620)는 미세 표정들 각각에 대한 확률 값을 계산할 수 있다.
인식부(630)는 계산된 인식 값에 기초하여 비디오에서의 미세 표정을 인식한다.
여기서, 인식부(630)는 미세 표정들 각각에 대해 계산된 인식 값 중 가장 큰 값을 가지는 미세 표정을 해당 비디오의 미세 표정으로 인식할 수 있다.
본 발명의 실시예에 따른 미세 표정 인식 장치는 도 6 에 기재된 내용 뿐만 아니라 상술한 도 1 내지 도4의 내용을 모두 포함할 수 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (14)

  1. 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성하는 단계; 및
    상기 생성된 공간적인 학습 모델을 이용하여 상기 입력 비디오의 프레임들에 대한 공간적인 특징을 추출하고, 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 단계
    를 포함하는 미세 표정 학습 방법.
  2. 제1항에 있어서,
    상기 공간적인 학습 모델을 생성하는 단계는
    분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수 중 적어도 하나의 목적 함수를 이용하여 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 상기 공간적인 학습 모델을 생성하는 것을 특징으로 하는 미세 표정 학습 방법.
  3. 제1항에 있어서,
    상기 공간적인 학습 모델을 생성하는 단계는
    상기 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN(convolutional neural network)을 학습함으로써, 상기 공간적인 학습 모델을 생성하는 것을 특징으로 하는 미세 표정 학습 방법.
  4. 제1항에 있어서,
    상기 미세 표정들 각각을 학습하는 단계는
    재귀 신경망을 기반으로 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 상기 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 것을 특징으로 하는 미세 표정 학습 방법.
  5. 제4항에 있어서,
    상기 재귀 신경망은
    RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함하는 것을 특징으로 하는 미세 표정 학습 방법.
  6. 미리 정의된 미세 표정들에 대한 공간적인 특징을 학습한 공간적인 학습 모델을 이용하여 비디오의 프레임들에 대한 공간적인 특징을 추출하는 단계;
    상기 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 상기 미세 표정들 각각에 대한 인식 값을 계산하는 단계; 및
    상기 계산된 인식 값에 기초하여 상기 비디오에서의 미세 표정을 인식하는 단계
    를 포함하는 미세 표정 인식 방법.
  7. 제6항에 있어서,
    상기 재귀 신경망은
    RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함하는 것을 특징으로 하는 미세 표정 인식 방법.
  8. 입력 비디오에서 미리 정의된 미세 표정들에 대한 프레임들을 추출하고, 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 공간적인 학습 모델을 생성하는 공간 학습부; 및
    상기 생성된 공간적인 학습 모델을 이용하여 상기 입력 비디오의 프레임들에 대한 공간적인 특징을 추출하고, 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 시간 학습부
    를 포함하는 미세 표정 학습 장치.
  9. 제8항에 있어서,
    상기 공간 학습부는
    분류 에러 최소화 함수, 특징 공간에서 동일 클래스 내 분산 최소화 함수, 표정 상태 분류 에러 최소화 함수, 특징공간에서 표정 상태 내 분산 최소화 함수 및 특징공간에서 표정 상태의 연속성 보존 함수 중 적어도 하나의 목적 함수를 이용하여 상기 추출된 프레임들에 대한 공간적인 특징을 학습하여 상기 공간적인 학습 모델을 생성하는 것을 특징으로 하는 미세 표정 학습 장치.
  10. 제8항에 있어서,
    상기 공간 학습부는
    상기 추출된 프레임들에 대한 공간적인 특징에 대하여 CNN(convolutional neural network)을 학습함으로써, 상기 공간적인 학습 모델을 생성하는 것을 특징으로 하는 미세 표정 학습 장치.
  11. 제8항에 있어서,
    상기 시간 학습부는
    재귀 신경망을 기반으로 상기 프레임들에 대해 추출된 공간적인 특징을 이용하여 상기 시간적인 학습 모델을 생성함으로써, 상기 미세 표정들 각각을 학습하는 것을 특징으로 하는 미세 표정 학습 장치.
  12. 제11항에 있어서,
    상기 재귀 신경망은
    RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함하는 것을 특징으로 하는 미세 표정 학습 장치.
  13. 미리 정의된 미세 표정들에 대한 공간적인 특징을 학습한 공간적인 학습 모델을 이용하여 비디오의 프레임들에 대한 공간적인 특징을 추출하는 추출부;
    상기 프레임들에 대해 추출된 공간적인 특징과 미리 학습된 시간적인 학습 모델을 이용한 재귀 신경망 기반으로 상기 미세 표정들 각각에 대한 인식 값을 계산하는 계산부; 및
    상기 계산된 인식 값에 기초하여 상기 비디오에서의 미세 표정을 인식하는 인식부
    를 포함하는 미세 표정 인식 장치.
  14. 제13항에 있어서,
    상기 재귀 신경망은
    RNN(recurrent neural network), GRU(gated recurrent unit), 및 LSTM(long short-term memory) 중 적어도 하나를 포함하는 것을 특징으로 하는 미세 표정 인식 장치.
PCT/KR2016/012772 2016-03-25 2016-11-08 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치 Ceased WO2017164478A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20160036064 2016-03-25
KR10-2016-0036064 2016-03-25
KR1020160063555A KR102036955B1 (ko) 2016-03-25 2016-05-24 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
KR10-2016-0063555 2016-05-24

Publications (1)

Publication Number Publication Date
WO2017164478A1 true WO2017164478A1 (ko) 2017-09-28

Family

ID=59900519

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/012772 Ceased WO2017164478A1 (ko) 2016-03-25 2016-11-08 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2017164478A1 (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742117A (zh) * 2017-11-15 2018-02-27 北京工业大学 一种基于端到端模型的人脸表情识别方法
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及系统
CN109063643A (zh) * 2018-08-01 2018-12-21 中国科学院合肥物质科学研究院 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
WO2019120032A1 (zh) * 2017-12-21 2019-06-27 Oppo广东移动通信有限公司 模型构建方法、拍照方法、装置、存储介质及终端
CN109993061A (zh) * 2019-03-01 2019-07-09 珠海亿智电子科技有限公司 一种人脸检测与识别方法、系统以及终端设备
CN110348271A (zh) * 2018-04-04 2019-10-18 山东大学 一种基于长短时记忆网络的微表情识别方法
CN110569795A (zh) * 2018-03-13 2019-12-13 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN112699815A (zh) * 2020-12-30 2021-04-23 常州码库数据科技有限公司 基于时空运动增强网络的动态表情识别方法及系统
CN112801009A (zh) * 2021-02-07 2021-05-14 华南理工大学 基于双流网络的面部情感识别方法、装置、介质及设备
CN113537008A (zh) * 2021-07-02 2021-10-22 江南大学 基于自适应运动放大和卷积神经网络的微表情识别方法
CN110097004B (zh) * 2019-04-30 2022-03-29 北京字节跳动网络技术有限公司 面部表情识别方法和装置
CN114333002A (zh) * 2021-12-27 2022-04-12 南京邮电大学 基于图深度学习和人脸三维重建的微表情识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100081874A (ko) * 2009-01-07 2010-07-15 포항공과대학교 산학협력단 사용자 맞춤형 표정 인식 방법 및 장치
JP2012008779A (ja) * 2010-06-24 2012-01-12 Nippon Telegr & Teleph Corp <Ntt> 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
KR20160027576A (ko) * 2014-09-01 2016-03-10 유형근 얼굴인식형 인터랙티브 디지털 사이니지장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100081874A (ko) * 2009-01-07 2010-07-15 포항공과대학교 산학협력단 사용자 맞춤형 표정 인식 방법 및 장치
JP2012008779A (ja) * 2010-06-24 2012-01-12 Nippon Telegr & Teleph Corp <Ntt> 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
KR20160027576A (ko) * 2014-09-01 2016-03-10 유형근 얼굴인식형 인터랙티브 디지털 사이니지장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. KOBAYASHI ET AL.: "Dynamic recognition of basic facial expressions by discrete-time recurrent neural network", NEURAL NETWORKS, 1993. IJCNN '93-NAGOYA. PROCEEDINGS OF 1993 INTERNATIONAL JOINT CONFERENCE ON, 6 August 2002 (2002-08-06), pages 155 - 158, XP000499135 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742117A (zh) * 2017-11-15 2018-02-27 北京工业大学 一种基于端到端模型的人脸表情识别方法
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
WO2019120032A1 (zh) * 2017-12-21 2019-06-27 Oppo广东移动通信有限公司 模型构建方法、拍照方法、装置、存储介质及终端
CN110569795B (zh) * 2018-03-13 2022-10-14 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN110569795A (zh) * 2018-03-13 2019-12-13 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN108596039B (zh) * 2018-03-29 2020-05-05 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN110348271A (zh) * 2018-04-04 2019-10-18 山东大学 一种基于长短时记忆网络的微表情识别方法
CN108932500B (zh) * 2018-07-09 2019-08-06 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及系统
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及系统
CN109063643B (zh) * 2018-08-01 2021-09-28 中国科学院合肥物质科学研究院 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN109063643A (zh) * 2018-08-01 2018-12-21 中国科学院合肥物质科学研究院 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN109993061B (zh) * 2019-03-01 2021-12-07 珠海亿智电子科技有限公司 一种人脸检测与识别方法、系统以及终端设备
CN109993061A (zh) * 2019-03-01 2019-07-09 珠海亿智电子科技有限公司 一种人脸检测与识别方法、系统以及终端设备
CN110097004B (zh) * 2019-04-30 2022-03-29 北京字节跳动网络技术有限公司 面部表情识别方法和装置
CN112699815A (zh) * 2020-12-30 2021-04-23 常州码库数据科技有限公司 基于时空运动增强网络的动态表情识别方法及系统
CN112801009A (zh) * 2021-02-07 2021-05-14 华南理工大学 基于双流网络的面部情感识别方法、装置、介质及设备
CN113537008A (zh) * 2021-07-02 2021-10-22 江南大学 基于自适应运动放大和卷积神经网络的微表情识别方法
CN113537008B (zh) * 2021-07-02 2024-03-29 江南大学 基于自适应运动放大和卷积神经网络的微表情识别方法
CN114333002A (zh) * 2021-12-27 2022-04-12 南京邮电大学 基于图深度学习和人脸三维重建的微表情识别方法
CN114333002B (zh) * 2021-12-27 2024-12-03 南京邮电大学 基于图深度学习和人脸三维重建的微表情识别方法

Similar Documents

Publication Publication Date Title
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
KR102036955B1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
Hisham et al. Arabic sign language recognition using Ada-Boosting based on a leap motion controller
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2020071701A1 (ko) 딥러닝 네트워크 모델에 의한 실시간 객체 검출 방법 및 장치
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2020122432A1 (ko) 전자 장치 및 그의 3d 이미지 표시 방법
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2019098418A1 (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN112527113A (zh) 手势识别及手势识别网络的训练方法和装置、介质和设备
WO2020231005A1 (ko) 영상 처리 장치 및 그 동작방법
WO2020032506A1 (ko) 시각 감지 시스템 및 이를 이용한 시각 감지 방법
WO2021235682A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2016108327A1 (ko) 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법
WO2022131490A1 (ko) 딥러닝 기반 이미지 복구 기술을 이용한 패션 이미지 검색 방법 및 장치
CN113850750B (zh) 一种目标轨迹校验的方法、装置、设备及存储介质
WO2023136417A1 (ko) 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법
WO2019240330A1 (ko) 영상 기반 힘 예측 시스템 및 그 방법
KR20250054845A (ko) 비디오 영상 내 인간과 객체 간의 상호 작용을 분석 및 학습하여 인간 행동 의도를 추론하는 영상 분석 장치 및 영상 분석 방법
Allam et al. Sign language recognition using CNN
Senthilkumar et al. Suspicious human activity detection in classroom examination
WO2025159280A1 (ko) 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16895604

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16895604

Country of ref document: EP

Kind code of ref document: A1