KR20200043985A - 적응적 실시간 검출 및 검사 네트워크(arden) - Google Patents

적응적 실시간 검출 및 검사 네트워크(arden) Download PDF

Info

Publication number
KR20200043985A
KR20200043985A KR1020207004307A KR20207004307A KR20200043985A KR 20200043985 A KR20200043985 A KR 20200043985A KR 1020207004307 A KR1020207004307 A KR 1020207004307A KR 20207004307 A KR20207004307 A KR 20207004307A KR 20200043985 A KR20200043985 A KR 20200043985A
Authority
KR
South Korea
Prior art keywords
image
cnn
rnn
providing
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020207004307A
Other languages
English (en)
Other versions
KR102599212B1 (ko
Inventor
빅터 와이. 왕
케빈 에이. 칼코트
Original Assignee
노스롭 그루먼 시스템즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노스롭 그루먼 시스템즈 코포레이션 filed Critical 노스롭 그루먼 시스템즈 코포레이션
Publication of KR20200043985A publication Critical patent/KR20200043985A/ko
Application granted granted Critical
Publication of KR102599212B1 publication Critical patent/KR102599212B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06K9/00664
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06K9/00718
    • G06K9/4628
    • G06K9/6274
    • G06K9/6277
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/00Two-dimensional [2D] image generation
    • G06T11/60Creating or editing images; Combining images with text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

픽셀 단위의(pixilated) 2차원 디지털 이미지의 스트림에서 객체(object)를 검출하고 인식하기 위하여 딥 러닝을 채용하는 적응적 실시간 검출 및 검사 네트워크. 네트워크는 픽셀 단위의 이미지 프레임으로서의 이미지 소스로부터의 이미지를 입력층과 출력층을 갖는 CNN에 제공하고, CNN은 이미지 내의 객체를 식별하여 분류한다. 또한, 네트워크는 이미지 소스 및 이의 위치에 관한 메타데이터(metadata)를 제공하고, 객체 분류 데이터 및 메타데이터를 이미지 내의 분류된 객체의 모션과 상대 속도를 식별하는 RNN에 제공한다. 네트워크는 CNN으로부터의 객체 분류 데이터와 RNN으로부터의 모션 데이터를 조합하고, 조합된 데이터를 상관시켜 각각의 분류된 객체 주위의 경계 상자와 분류된 객체의 상대 속도와 이동 방향의 인디케이터(indicator)를 정의하며, 이들은 디스플레이 장치에 디스플레이될 수 있다.

Description

적응적 실시간 검출 및 검사 네트워크(ARDEN)
본 발명은 일반적으로 2차원 디지털 이미지에서 객체를 검출하고 분류하기 위한 시스템 및 방법에 관한 것으로, 더욱 상세하게는, 픽셀 단위의(pixilated) 2차원 디지털 이미지의 스트림에서 객체를 검출하여 분류하고, 이미지에서 검출된 객체의 위치를 식별하고, 이동하는 객체의 상대 속도 및 방향을 결정하기 위한 방법 및 시스템에 관한 것으로, 시스템은 객체를 검출하고 분류하기 위한 다층 피드포워드 컨볼루션 신경망(multi-layer feed-forward convolutional neural network(CNN))과 객체의 상대 속도를 결정하기 위한 순환 신경망(recurrent neural network(RNN))을 포함한다.
인공 지능(AI)은 소프트웨어 애플리케이션들이 이들의 환경으로부터 학습하여 소정의 결과를 성취하기 위하여 그로부터 결정할 수 있게 하는 알고리즘을 채용하는 컴퓨터 사이언스의 일부이다. 기계 학습은 반복적인 방식으로 방대한 양의 원시(raw) 입력 데이터를 분석하여 데이터로부터 패턴을 추출하고 소프트웨어 애플리케이션이 어느 작업을 수행하도록 구체적으로 프로그래밍되지 않고서도 그 작업을 수행하도록 학습할 수 있게 함으로써 자신의 지식을 획득하는 소프트웨어 애플리케이션을 채용하는 AI의 일부이다. 딥 러닝(deep learning)은 증가하는 복잡한 개념들의 계층에서 소정의 실제 환경을 나타내는 것을 통해 더 큰 학습 성능을 제공하는 특정 유형의 기계 학습이다.
딥 러닝은 통상적으로 각각의 연속하는 층이 이전 층의 출력을 수신하는 비선형 처리를 수행하는 여러 층의 신경망을 포함하는 소프트웨어 구조를 채용한다. 일반적으로, 층은 센서로부터 원시 데이터를 수신하는 입력층, 데이터로부터 추상적인 특징을 추출하는 다수의 은닉층(hidden layer) 및 은닉층으로부터의 특징 추출에 기초하여 소정의 사물(thing)을 식별하는 출력층을 포함한다. 신경망은 어떤 것이 정확한지에 대한 확률을 획득하기 위하여 노드에 대한 입력에 곱해지는 "가중치(weight)"를 각각 갖는 뉴런들 또는 노드들을 포함한다. 더욱 구체적으로는, 노드의 각각은 입력의 일부 부분인 그 노드에 대한 출력을 생성하기 위하여 노드에 대한 입력이 곱해지는 부동 소수점 숫자인 가중치를 가진다. 가중치는 초기에 "훈련되거나(trained)" 또는 신경망이 감독을 받는 처리 하에서 그리고 비용 함수를 최소하는 것을 통해 알려진 데이터 세트를 분석하게 하여 네트워크가 가장 높은 확률을 갖는 정확한 출력을 획득할 수 있게 함으로써 설정된다.
딥 러닝 신경망은 보통 이미지에서의 객체의 시각적 검출 및 분류를 위하여 이미지 특징 추출 및 변환을 제공하기 위하여 채용되며, 이미지의 비디오 또는 스트림은 객체를 식별 및 분류하고 객체를 더 양호하게 인식하기 위하여 처리를 통해 학습하도록 네트워크에 의해 분석될 수 있다. 따라서, 이러한 종류의 네트워크에서, 시스템은 소정의 객체를 검출하기 위하여 동일한 처리 구성을 사용하고 객체를 인식하기 위하여 알고리즘이 학습된 방법에 기초하여 다르게 이를 분류한다.
딥 러닝 알고리즘 및 네트워크는 데이터 처리 능력이 증가함에 따라 계속 개선된다. 개선의 특정 범위는 이미지의 검출 품질 및 객체가 인식되고 분류되는 속도를 증가시키는 차별성을 포함한다.
본 발명은 픽셀 단위의 2차원 디지털 이미지에서 객체를 검출하고 인식하기 위하여 딥 러닝을 채용하는 적응적 실시간 검출 및 검사 네트워크를 개시하고 설명한다. 네트워크는 픽셀 단위의(pixilated) 디지털 이미지 프레임으로서의 이미지 소스로부터의 이미지를 입력층과 출력층을 갖는 CNN에 제공하고, CNN은 이미지 내의 객체를 식별하고 분류한다. 또한, 네트워크는 이미지 소스 및 이의 위치에 관한 메타데이터(metadata)를 제공하고, 이미지 내의 분류된 객체의 모션과 상대 속도를 식별하고 이동하는 객체의 장래 위치를 예측하는 RNN에 객체 분류 데이터 및 메타데이터를 제공한다. 네트워크는 CNN으로부터의 객체 분류 데이터와 RNN으로부터의 모션 및 예측 데이터를 조합하고, 조합된 데이터를 상관시켜 디스플레이 장치 상에 디스플레이될 수 있는 분류된 객체의 각각 주위의 경계 상자 및 분류된 객체의 상대 속도 및 이동 방향에 대한 인디케이터를 정의한다.
본 발명의 추가 특징들은 첨부된 도면과 함께 고려되는 이어지는 설명과 첨부된 도면으로부터 명백하게 될 것이다.
도 1은 이미지에 대한 도면이다;
도 2는 도 1에 도시된 이미지에서 객체를 검출하고 분류하기 위한 시스템의 개략적인 블록도이다;
도 3은 입력층, 은닉층 및 출력층을 포함하는 신경망에 대한 도면이다;
도 4는 도 2에 도시된 시스템에 의해 처리되고 이미지에서 분류된 객체 주위의 경계 상자 및 라벨과 이동하는 각각의 객체와 연관된 셰브론(chevron)을 포함하는 도 1에 도시된 이미지의 도면이고, 셰브론의 개수는 객체의 상대 속도를 나타낸다;
도 5는 도 2에 도시된 시스템에 의해 처리되고 이미지에서 분류된 객체 주위의 경계 상자 및 라벨과 이동하는 각각의 객체와 연관된 화살표를 포함하는 도 1에 도시된 이미지의 도면이고, 화살표의 길이는 객체의 상대 속도를 나타낸다; 그리고
도 6은 기계 학습 및 훈련을 도 2에 도시된 시스템의 일부인 신경망에 제공하는 시스템의 개략적인 블록도이다.
픽셀 단위의(pixilated) 2차원 디지털 이미지의 스트림에서 객체의 검출, 분류 및 상대 속도를 제공하기 위한 딥 러닝을 채용하는 시스템 및 방법에 관한 본 발명의 실시예에 대한 다음의 논의는 본질적으로 단지 예시적일 뿐이며, 본 발명이나, 어떠한 방식으로도 이의 적용례 또는 용도를 한정하려고는 전혀 의도되지 않는다.
도 1은 도로(14, 16)를 가로질러 정의되는 도시 교차로(12)를 도시하는 픽셀 단위의 2차원 디지털 이미지(10)의 도면이고, 인도(18)는 도로(14, 16)에 인접하게 제공된다. 변화하는 속도로 도로(14, 16)를 따라 이동하는 트럭, 자동차 등을 포함하는 다수의 차량(20)이 도시된다. 또한, 인도(18) 및 건널목(24)에서 걷고 있는 다수의 행인(22)이 도시된다. 본 명세서에서의 논의의 목적으로, 디지털 이미지(10)는 단일 스틸 이미지일 수 있거나, 이미지의 비디오 스트림으로부터의 한 프레임일 수 있다.
아래에서 상세히 논의되는 바와 같이, 본 발명은 2차원 디지털 이미지에서의 객체, 예를 들어, 이미지(10)에서의 차량(20) 및 행인(22)의 검출 및 분류를 제공하는 딥 러닝 및 훈련된 신경망을 채용하는 적응적 실시간 검출 및 검사 네트워크(adaptive real-time detection and examination network(ARDEN))를 제공한다. 네트워크는, 실시간 비디오에서의 사용을 위하여, 모두 예를 들어 30 ms 미만인 매우 낮은 대기 시간(latency)으로, 디지털 이미지(10) 내에서 객체를 식별하고, 이미지(10) 내의 이의 픽셀 기반 위치를 제공하고, 객체 검출의 확률을 예측할 것이다. 또한, 네트워크는 이미지의 이전 프레임에서의 객체의 위치에 기초하여 이미지(10)에서 이동하는 객체의 상대 속도를 예측할 것이다.
도 2는 위에서 언급된 ARDEN을 구체화하는 객체 검출 및 분류 시스템(30)의 블록도이다. 시스템(30)은 이미지(10)와 같은 픽셀 단위의 스틸 이미지 또는 픽샐 단위의 비디오 이미지의 스트림을 생성할 수 있는 임의의 적합한 장치일 수 있는 비디오 소스(32)를 포함한다. 적합한 비디오 소스의 비한정적인 예들은 카메라, 전자 광학 적외선 센서, LIDAR 센서, X-선 기계, 자기 공명 촬영(magnetic resonance imaging(MRI)) 장치, 합성 개구 레이더(synthetic aperture radar(SAR)) 장치 등을 포함한다. 비디오 소스(32)는, 초당 30 프레임과 같은 소정의 샘플 레이트의 픽셀 데이터로 정의되는, 비디오 데이터의 디지털 이미지 프레임(34) 시컨스 또는 스틸 이미지를 제공한다. 시스템(30)은 비디오 프레임(34)을 수신하고 프레임(34) 내의 객체를 식별하여 분류하는 분류 엔진(36)을 포함한다. 각각의 이미지 프레임(34)은 분류 엔진(36) 내에 다층 피드포워드 컨볼루션 신경망(multi-layer feed-forward convolutional neural network(CNN))(38)을 포함하고, CNN(38)의 입력층은 이미지 프레임(34)으로부터 얻어진다. 당해 업계에서의 통상의 기술자에게 잘 알려진 바와 같이, CNN은 일반적인 매트릭스 곱셈 대신에 컨볼루션 수학 연산을 채용하고, 이미지와 같은 값들의 그리드를 처리하기 위한 특정 애플리케이션을 갖는 신경망이다. 더욱 구체적으로는, CNN(38)은 중첩하는 입력 영역 및 각각의 층에서 훈련되고 가중치가 주어진 노드를 갖는 다수의 수용(receptive) 필드 층을 포함하는 다층 신경망이고, CNN(38)은 구체적으로 완전 연결층(fully connected layer) 가지지 않으며, 이는 시스템(30)의 적응적 특징을 지원하고 제1 입력층의 더 유연한 크기 조절(resizing)을 허용한다. 더 낮은 이미지 해상도의 훈련 세트로부터의 훈련된 CNN 가중치 다른 더 높은 이지지 해상도에서의 간섭 또는 훈련을 위한 출발점으로서 사용될 수 있다. CNN(38) 내의 각각의 노드에는 이것이 후속 노드에 데이터를 어떻게 출력하는지를 정의하는 가중치 및 바이어스(bias)가 제공된다. CNN(38)의 출력층(40)은 이미지(10) 내의 검출되고 분류된 객체와 이미지(10) 내의 이의 해당하는 위치를 식별하는 원시 디지털 데이터를 제공한다. 아래에서 더 상세히 논의되는 바와 같이, 검출되고 분류된 객체는 경계 상자 및 라벨에 의해 이미지에서 식별된다.
도 3은 조정 가능한 가중치(W)를 각각 갖는 복수의 노드(122)를 포함하는 신경망(신경 네트워크)(120)의 도면이고, 네트워크(120)는 본 명세서에서 논의되는 신경망을 일반적으로 나타내도록 의도된다. 신경망(120)은 이미지 프레임(34)으로부터 개별 픽셀 데이터를 수신하는 입력층(124)과, 픽셀 데이터에서 특징을 식별하는 2개의 은닉층(126, 128)과, 출력층(130)을 포함하며, 출력층(130) 내의 각각의 노드는 객체 중 하나를 식별한다.
이미지(10) 내의 많은 객체는 이동하고 있다. 따라서, 이동하는 객체의 상대 속도, 이동하는 객체의 방향 및 이전 이미지 프레임에서의 상대 속도 및 방향에 기초하여 후속 이미지 프레임에서 이러한 이동하는 객체가 어디에 있을 것인지에 대한 예측과, 신경망 학습으로부터 얻어진 패턴을 식별하는 것이 바람직할 수 있다. 또한, 이동하는 객체의 위치의 예측은 선형 모션에서 이동하고 있지 않을 수 있는 방향 전환(turning)과 같은 이러한 객체의 위치를 예측하는 것을 포함한다.
시스템(30)은 이러한 기능들을 제공하기 위하여 예측 엔진(44)을 포함한다. 비디오 소스(32)는 예측 엔진(44)에 의해 수신되는 상자 46로 표현되는 메타데이터(metadata)를 제공하고, 메타데이터(46)는 비디오 소스(32)의 위치, 즉 이의 GPS좌표, 하루 중의 시간, 기상 상태, 배터리 수명 등과 같은 특정 애플리케이션을 위한 다양하고 구체적인 정보를 포함하고, 메타데이터(46)는 시간에 있어서 이미지 프레임(34)에 상관된다. 메타데이터(46)는 특정 위치에 대한 객체 위치 예측 프로세스에 바람직한 메타데이터(46)를 선택하는 예측 엔진(44) 내의 메타데이터 추출 데이터베이스(48)에 제공된다. 일 실시예에서, 메타데이터 추출 데이터베이스(48)는 CNN(38)을 위한 입력층으로서 제공되는 이미지 프레임(34)으로부터 얻어지는 동일한 층을 사용한다.
출력층(40)으로부터의 원시 객체 분류 데이터와 데이터베이스(48)로부터의 추출된 메타데이터는 객체가 이전 프레임(34)에서 어디에 있었는지에 기초하여 이미지 프레임(34) 내의 객체의 상대 속도와 방향을 결정하는 예측 엔진(44) 내의 순환 신경망(recurrent neural network(RNN))(50)으로 전송된다. 당해 업계의 통상의 기술자에게 알려진 바와 같이, 순환 신경망은, 훈련되고 가중치가 주어진 노드를 갖는 다수의 층을 또한 포함하며, 순차적인 데이터를 처리하기 위한 특정 애플리케이션을 갖고, 노드 사이의 연결이 방향성 사이클(directed cycle)을 형성하는 일종의 인공 신경망이다. RNN(50)의 구성은 이것이 동적인 시간적 거동을 발휘할 수 있게 하는 네트워크의 내부 상태를 형성하고, 피드포워드(feed-forward) 신경망과는 다르게, RNN은 임의의 입력 시퀀스를 처리하기 위하여 자신의 내부 메모리를 사용할 수 있다. 일 실시예에서, RNN(50)은 당해 기술 분야에서의 통상의 기술자에게 알려진 LSTM(long short-term memory) 아키텍처를 이용하여 설계된다. RNN(50)은, 메타데이터의 사용 가능성에 따라, 객체 분류, 각각의 분류된 객체의 각도(방향)의 예측, 선형 방식으로 이동하고 있지 않을 수 있는 객체의 위치의 예측, 시간의 미터법 단위 당 픽셀과 같은 입력층에만 유의미한 단위를 가질 각각의 분류된 객체의 상대 속도의 예측 및 시간의 미터법 단위 당 픽셀의 GPS 좌표 또는 다른 좌표계 기반의 이동 단위로의 변환을 포함하는 메타데이터를 형성하기 위하여, 메타데이터 추출 데이터베이스(48)와 CNN 출력층(40)로부터의 컨텐츠의 융합을 제공한다.
설명된 바와 같이, RNN(50)은 이것이 현재 이미지 프레임(34)과 조합하의 이전 이미지 프레임(34)을 사용하여 분류된 객체의 상대 속도를 제공할 수 있게 하는 중간 메모리 상태를 포함한다는 것이 주목된다. 시스템(30)이 단지 소스(32)로부터의 단일 스틸 이미지를 처리하고 있다면, 이전 이미지 프레임은 사용 가능하지 않고, 따라서, RNN(50)은 객체의 상대 속도의 표시를 제공할 수 없다.
그 다음, 분류 엔진(36)에 의해 식별된 이미지 프레임(34) 내의 객체의 모션을 식별하는 RNN(50)에 의해 생성된 데이터는 CNN(38)에 의해 제공된 이미지 프레임(34) 내의 객체의 검출을 RNN(50)에 의해 결정된 이러한 객체의 모션과 조합하는 예측 엔진(44) 내의 객체 분류 및 모션 벡터 메타데이터 프로세서(52)로 전송된다. 그 다음, 객체 위치와 객체 상대 속도를 포함하는 데이터의 조합이 이미지 프레임(34)과 함께 프레임(34) 내의 각각의 검출된 객체 주위의 경계 상자와 객체 상대 속도 및 예측된 장래 위치의 표시를 제공하는 시각화 엔진(58) 내의 객체 분류 및 모션 벡터 메타데이터 프로세서(56)의 시각적 오버레이로 제공된다. 이미지(10) 내의 객체의 위치 및 상대 속도를 나타내는 이미지를 생성하는 시각화 엔진(58) 내의 이미지 프레임 및 분류 오버레이 및 모션 벡터 객체 예측 프로세서(60)에 상관 관계가 제공된다. 프로세서(52)로부터의 객체 위치 및 객체 상대 속도를 포함하는 데이터의 조합 및 이미지는 이미지를 디스플레이하기 위하여 디스플레이 장치(62)로 제공된다. 디스플레이 장치(62)는, 모니터, 헤드업 디스플레이(head-up display(HUD)) 장치, 고글, 프로젝터, 스마트폰, 컴퓨터 등과 같은, 본 명세서에 설명된 목적에 적합한 임의의 디스플레이 장치일 수 있다.
도 4는, 설명된 바와 같이, 시스템(30)을 통한 이미지(10)의 처리에 의해 디스플레이 장치(62) 상에 디스플레이될 수 있는 것의 예인 이미지(70)의 예시이다. 이미지(70)에서, 식별되고 분류된 각각의 객체는 그것이 식별되었고 분류되었다는 것을 나타내고, 이의 분류, 즉 차량(vehicle), 사람(person) 등을 식별하는 라벨(74)을 포함하는 경계 상자(72)에 의해 둘러싸인다. 움직이는 분류된 객체의 각각에 대하여, 다수의 셰브론(76)이 경계 상자(72)와 연관하여 제공되고, 셰브론(76)의 방향은 객체의 이동 방향을 나타내고, 셰브론(76)의 개수는 객체의 상대 속도를 나타낸다.
도 5는 객체의 각각 주위의 경계 상자(72)와 객체를 식별하는 라벨(74)을 포함하는 시스템(30)을 통한 이미지(10)의 처리에 의해 디스플레이 장치(62) 상에 디스플레이될 수 있는 것의 예인 이미지(80)의 예시이다. 그러나, 셰브론(76) 대신에, 이미지(80)는 객체의 이동 방향과 객체의 상대 속도를 나타내는 화살표(82)를 포함하고, 화살표(82)의 길이는 상대 속도를 나타낸다.
당해 업계에서의 통상의 기술자에 의해 잘 이해되는 바와 같이, CNN(38) 및 RNN(50)에서의 노드의 각각에 대하여 적합한 가중치를 제공하도록 본 명세서에서 논의된 목적을 위하여 신경망을 훈련시키는 것이 필요하다. 이러한 훈련은 감독되며, 통상적으로, 현장에서의 사용을 위하여 가중치가 적절히 훈련되도록, 전부 오프라인에서, 이미지 내의 객체를 초기에 식별하고 노드에 대한 초기 가중치를 제공하고, 네트워크의 출력을 평가하고 정정하는 기술자를 필요로 한다. 아래에서 상세히 논의되는 바와 같이, 본 발명은 또한 CNN(38)과 RNN(50) 내에서 훈련된 노드를 이미 포함하는 도 2에 도시된 종류의 객체 검출 및 분류 시스템이 다른 객체 검출 및 분류 시스템으로부터 이미지를 수신하는 훈련 시스템에 의해 수정되고 업데이트된 노드를 가질 수 있게 하는 시스템을 포함하고, 훈련 시스템은 대표적인 신경망을 더 훈련시키기 위하여 이러한 이미지를 사용한다.
도 6은 본 발명의 이러한 특징을 나타내는 신경망에서 노드의 분산(distributive) 훈련 및 가중치 분포를 제공하는 객체 검출 네트워크(90)의 개략적인 블록도이다. 네트워크(90)는 훈련 설비에 위치된 훈련 시스템(92) 및 훈련 시스템(92)으로부터 분리되어 위치되고 현장에서 사용되는 복수의 물체 검출 및 분류 시스템(94)을 포함하며, 시스템(94)은 시스템(30)과 유사하다. 시스템(94)의 개수는 2 이상의 임의의 적절한 개수라는 것이 주목된다. 훈련 시스템(92)은 적합한 알고리즘을 동작시키는 컴퓨터 시스템인 훈련 도구 세트(training tool suite)(96) 및 필요한 액세서리를 포함하며, 이 모두는 당해 업계의 통상의 기술자에게 잘 알려져 있다. 기술자는 도구 세트(96)를 사용하여 시스템(94)에 의해 분류될 이미지일 수 있는 객체를 포함하는 훈련 이미지 세트를 검사하고, 훈련 이미지에서 객체 주위에 경계 박스를 그리고 이를 분류할 것이며, 기술자는 객체를 나타내는 라벨에 의해 분류된 객체를 식별한다. 상자(98)에 의해 표현되는 라벨과 이미지는 훈련될 시스템(94)에서 사용되는 동일하거나 유사한 네트워크인 훈련 CNN 및 RNN을 포함하는 분류 및 예측 엔진(100)에 제공된다. 또한, 엔진(100)은 다른 이미지에서 객체를 더욱 정확하게 분류하게 하기 위하여 그 내의 CNN 및 RNN에서의 노드에 대한 가중치의 값을 조정하는데 사용되는 평가 및 역전파(back propagation) 특징을 포함한다. 더욱 구체적으로는, 가중치가 조정되는 것에 따라 훈련 CNN 및 RNN이 객체를 정확하게 분류하도록 가중치는 제어된 방식으로 평가되고, 가중치는 평가 함수를 통해 추출되고, 저장되고, 전송되고, 정제될 수 있으며, 훈련하는 동안의 그 전파 동안 회귀적으로 업데이트되는 정적 데이터인 특성을 가진다. 분류 및 예측 엔진(100)은 동작이 당해 업계의 통상의 기술자에게 잘 알려지고 데이터 처리량을 증가시키기 위하여 병렬 데이터 처리를 제공하는 그래픽 처리 유닛(graphical processing unit(GPU)) 클러스터(102)로 데이터를 제공하고 그로부터 데이터를 수신한다. 평가 프로세스가 완료되고 엔진(100)이 가중치가 훈련된 대상인 객체를 식별하고 분류하는 높은 예측 가능성을 제공한다고 결정하면, 가중치는 훈련된 가중치(104)로서 엔진(100)으로부터 출력된다. 또한, 훈련 시스템(92)은 훈련된 가중치(104)를 전송하고 이미지를 수신하기 위한 트랜스시버(transceiver) 또는 네트워크 라우터(106)를 포함한다.
각각의 객체 검출 및 분류 시스템(94)은 조합된 분류 엔진(36), 예측 엔진(44) 및 시각화 엔진(58)을 나타내도록 의도된 검출기(114)에 제공되는 이미지(112)를 생성하는, 비디오 소스(32)를 나타내도록 의도된, 센서(110)를 포함한다. 또한, 각각의 시스템(94)은 시스템(92) 내의 네트워크 라우터(106)와 무선 통신할 수 있게 하는 트랜스시버 또는 네트워크 라우터(116)를 포함하고, 네트워크 라우터(116)도 또한 센서(110)로부터 이미지(112)를 수신한다. 본 실시예가 서로 무선 연결된 네트워크 라우터들(106, 116)을 나타내지만, 임의의 적합한 통신 구성이 채용될 수 있다는 것이 주목된다. 이미지(112)는 네트워크 라우터(116)에 의해 훈련 시스템(92)으로 전송되고, 여기에서 이는 특정 시스템(94)의 위치에 있는 객체를 검출하는 것을 돕기 위하여 훈련 CNN 및 RNN에서의 노드를 위한 가중치의 추가 훈련을 위하여 도구 세트(96)로 제공되고 그 다음 분류 및 예측 엔진(100)으로 제공된다. 또한, 네트워크 라우터(116)는 검출기(114)에서 CNN 및 RNN에서의 가중치를 업데이트하기 위하여 상자(118)에서 검출기(114)로 제공된 훈련된 가중치(104)를 시스템(92)으로부터 수신할 수 있다. 따라서, 하나의 시스템(94)으로부터의 이미지를 이용하여 적응적으로 훈련된 가중치는 다른 하나의 시스템(94) 내의 CNN 및 RNN에서의 노드에 대하여 가중치를 업데이트하는데 사용될 수 있어, 그 시스템(94) 내의 검출기(114)가 그 시스템(94)에 의해 수신된 이미지에 있지 않을 수 있는 객체를 분류하도록 훈련될 수 있다.
본 발명을 설명하기 위하여 본 명세서에서 논의된 여러 다양한 단계 및 과정은 전기 현상을 이용하여 데이터를 조작하고 그리고/또는 변환하는 컴퓨터, 프로세서 또는 다른 전자 계산 장치에 의해 수행되는 동작을 나타내고 있을 수 있다. 이러한 컴퓨터 및 전자 장치는 컴퓨터 또는 프로세서에 의해 수행될 수 있는 다양한 코드 또는 실행 가능한 명령어를 포함하는 실행 가능한 프로그램이 저장된 비일시적인 컴퓨터 판독 가능한 매체를 포함하는 다양한 휘발성 및/또는 비휘발성 메모리를 채용할 수 있고, 메모리 및/또는 컴퓨터 판독 가능한 매체는 모든 형태와 종류의 메모리 및 다른 컴퓨터 판독 가능한 매체를 포함할 수 있다.
전술한 논의는 단지 본 발명의 예시적인 실시예들을 개시하고 설명한다. 당해 업계에서의 통상의 기술자는 이러한 논의로부터 그리고 첨부된 도면과 청구범위로부터 다양한 변경, 수정 및 변동이 이어지는 청구범위에서 정의된 본 발명의 사상과 범위로부터 벗어나지 않으면서 이루어질 수 있다는 것을 쉽게 인식할 것이다.

Claims (20)

  1. 이미지 소스로부터의 비디오 스트림에서 객체(object)의 상대 속도를 식별하고, 분류하고 나타내는 방법에 있어서,
    상기 비디오 스트림으로부터의 픽셀 단위의(pixilated) 이미지 프레임의 시퀀스를 입력층과 출력층을 포함하는 컨볼루션 신경망(convolutional neural network(CNN))에 제공하는 단계;
    상기 CNN을 이용하여 상기 이미지 프레임 내의 객체를 식별하여 분류하고, 상기 출력층에 객체 분류 데이터를 제공하는 단계;
    상기 이미지 소스로부터 메타데이터(metadata)를 제공하는 단계;
    상기 출력층에서의 상기 객체 분류 데이터와 상기 메타데이터를 순환 신경망(recurrent neural network(RNN))에 제공하는 단계;
    상기 RNN을 이용하여 상기 이미지 프레임 내의 분류된 상기 객체의 모션과 상대 속도를 식별하고, 상기 RNN으로부터 객체 모션 데이터를 제공하는 단계;
    상기 CNN으로부터의 상기 객체 분류 데이터와 상기 RNN으로부터의 상기 객체 모션 데이터를 조합하는 단계;
    조합된 상기 객체 분류 데이터와 상기 객체 모션 데이터를 상기 이미지 프레임과 상관시켜, 각각의 분류된 객체 주위의 경계 상자와 상기 분류된 객체의 상대 속도 및 이동 방향의 인디케이터(indicator)를 포함하는 상관된 이미지를 제공하는 단계; 및
    상기 상관된 이미지를 디스플레이 장치 상에 디스플레이하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 이미지 프레임을 CNN에 제공하는 단계는, 상기 이미지 프레임을 다층 피드포워드(multi-layer feed-forward) CNN에 제공하는 단계를 포함하는, 방법.
  3. 제2항에 있어서,
    상기 이미지 프레임을 CNN에 제공하는 단계는, 상기 이미지 프레임을 구체적으로 완전 연결층(fully connected layer)을 가지지 않는 CNN에 제공하는 단계를 포함하는, 방법.
  4. 제1항에 있어서,
    상기 이미지 프레임을 CNN에 제공하는 단계는, 상기 이미지 프레임을 상기 CNN의 상기 입력층에 제공하는 단계를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 메타데이터를 제공하는 단계는, 상기 CNN에서의 상기 입력층에 제공된 데이터와 동일한 데이터를 포함하는 메타데이터를 제공하는 단계를 포함하는, 방법.
  6. 제1항에 있어서,
    상기 객체 분류 데이터 및 상기 메타데이터를 RNN에 제공하는 단계는, 상기 객체 분류 데이터 및 상기 메타데이터를 LSTM(long short-term memory)을 포함하는 RNN에 제공하는 단계를 포함하는, 방법.
  7. 제1항에 있어서,
    상기 분류된 객체의 모션 및 상대 속도를 식별하는 단계는, 방향 전환하는(turning) 객체의 장래 위치를 예측하는 단계를 포함하는, 방법.
  8. 제1항에 있어서,
    상기 상관된 이미지 내의 상대 속도의 인디케이터는 이동하는 객체와 연관된 적어도 하나의 셰브론(chevron)이며, 상기 셰브론의 방향은 상기 객체의 이동 방향을 나타내고, 상기 셰브론의 개수는 상기 객체의 상대 속도를 나타내는, 방법.
  9. 제1항에 있어서,
    상기 상관된 이미지 내의 상대 속도의 인디케이터는 화살표이고, 상기 화살표의 방향은 상기 객체의 이동 방향을 식별하고, 상기 화살표의 길이는 상기 객체의 상대 속도를 식별하는, 방법.
  10. 제1항에 있어서,
    상기 비디오 소스로부터의 상기 이미지 프레임을 훈련 설비로 전송하는 단계를 더 포함하고, 상기 이미지 프레임은 상기 훈련 설비에서 훈련하는 CNN 및 훈련하는 RNN 내의 신경망 노드에서의 가중치를 훈련시키는데 사용되는, 방법.
  11. 제10항에 있어서,
    이미지 소스로부터의 비디오 스트림에서 객체의 상대 속도를 식별하고, 분류하고 나타내는 상기 방법은, 하나의 객체 검출 및 분류 시스템에서 수행되고, 상기 방법은, 훈련된 상기 신경망 가중치를 상기 훈련 설비로부터 다른 이미지 소스로부터의 다른 비디오 스트림에서 객체의 상대 속도를 식별하고, 분류하고, 나타내는 하나 이상의 다른 객체 검출 및 분류 시스템에 전송하는 단계를 더 포함하는, 방법.
  12. 제11항에 있어서,
    상기 다른 객체 검출 및 분류 시스템은 상기 훈련하는 CNN 및 RNN을 위하여 상기 신경망 노드에서의 상기 가중치를 더 훈련시키기 위하여 자신의 이미지 프레임을 상기 훈련 설비에 전송하는, 방법.
  13. 제1항에 있어서,
    상기 이미지 소스는, 카메라, 전자 광학 적외선 센서, LIDAR 센서, X-선 장치, 자기 공명 촬영(magnetic resonance imaging(MRI)) 장치 및 합성 개구 레이더(synthetic aperture radar(SAR)) 장치로 이루어진 그룹으로부터 선택되는, 방법.
  14. 제1항에 있어서,
    상기 디스플레이 장치는, 모니터, 헤드업 디스플레이(head-up display(HUD)) 장치, 고글, 프로젝터, 스마트폰 및 컴퓨터로 이루어진 그룹으로부터 선택되는, 방법.
  15. 이미지 소스로부터의 비디오 스트림에서 객체(object)의 상대 속도를 식별하고, 분류하고 나타내는 방법에 있어서,
    상기 비디오 스트림으로부터의 픽셀 단위의(pixilated) 이미지 프레임의 시퀀스를 구체적으로 완전 연결층(fully connected layer)을 가지지 않으며 입력층과 출력층을 포함하는 컨볼루션 다층 피드포워드 신경망(convolutional multi-layer feed-forward neural network(CNN))에 제공하는 단계로서, 상기 CNN의 상기 입력층에 상기 이미지 프레임을 제공하는 단계를 포함하는 단계;
    상기 CNN을 이용하여 상기 이미지 프레임 내의 객체를 식별하여 분류하고, 상기 출력층에 객체 분류 데이터를 제공하는 단계;
    상기 이미지 소스로부터 메타데이터(metadata)를 제공하는 단계;
    상기 출력층에서의 상기 객체 분류 데이터와 상기 메타데이터를 순환 신경망(recurrent neural network(RNN))에 제공하는 단계;
    상기 RNN을 이용하여 상기 이미지 프레임 내의 분류된 상기 객체의 모션과 상대 속도를 식별하고, 상기 RNN으로부터 객체 모션 데이터를 제공하는 단계로서, 방향 전환하는(turning) 객체의 장래 위치를 예측하는 단계를 포함하는 단계;
    상기 CNN으로부터의 상기 객체 분류 데이터와 상기 RNN으로부터의 상기 객체 모션 데이터를 조합하는 단계;
    조합된 상기 객체 분류 데이터와 상기 객체 모션 데이터를 상기 이미지 프레임과 상관시켜, 각각의 분류된 객체 주위의 경계 상자와 상기 분류된 객체의 상대 속도 및 이동 방향의 인디케이터(indicator)를 포함하는 상관된 이미지를 제공하는 단계; 및
    상기 상관된 이미지를 디스플레이 장치 상에 디스플레이하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서,
    상기 메타데이터를 제공하는 단계는, 상기 CNN에서의 상기 입력층에 제공된 데이터와 동일한 데이터를 포함하는 메타데이터를 제공하는 단계를 포함하는, 방법.
  17. 제15항에 있어서,
    상기 객체 분류 데이터 및 상기 메타데이터를 RNN에 제공하는 단계는, 상기 객체 분류 데이터 및 상기 메타데이터를 LSTM(long short-term memory)를 포함하는 RNN에 제공하는 단계를 포함하는, 방법.
  18. 이미지에서 객체(object)의 상대 속도를 식별하고, 분류하고 나타내기 위한 객체 검출 및 분류 시스템에 있어서,
    픽셀 단위의(pixilated) 이미지 프레임의 스트림 및 메타데이터(metadata)를 제공하는 비디오 소스;
    입력층과 출력층을 포함하고, 상기 입력층에서 상기 이미지 프레임에 응답하고, 상기 이미지 프레임 내의 객체를 식별 및 분류하여 상기 출력층에서 객체 분류 데이터를 제공하는 다층 피드포워드 컨볼루션 신경망(multi-layer feed-forward convolutional neural network(CNN))을 포함하는 분류 엔진;
    순환 신경망(recurrent neural network(RNN)을 포함하는 예측 엔진 - 상기 RNN은 상기 출력층에서의 상기 객체 분류 데이터 및 상기 메타데이터에 응답하고, 상기 RNN은 상기 이미지 프레임 내의 분류된 상기 객체의 모션과 상대 속도를 식별하여 객체 모션 데이터를 제공하고, 상기 예측 엔진은 상기 CNN으로부터의 상기 객체 분류 데이터와 상기 RNN으로부터의 상기 객체 모션 데이터를 조합하는 객체 분류 및 모션 벡터 프로세서를 더 포함함 -;
    상기 이미지 프레임과 상기 예측 엔진으로부터의 조합된 상기 객체 분류 데이터 및 상기 객체 모션 데이터에 응답하고, 조합된 상기 객체 분류 데이터 및 상기 객체 모션 데이터를 상기 이미지 프레임과 상관시켜 각각의 분류된 객체 주위의 경계 상자와 상기 분류된 객체의 상대 속도 및 이동 방향의 인디케이터를 포함하는 상관된 이미지를 제공하는 시각화 엔진; 및
    상기 상관된 이미지를 디스플레이하는 디스플레이 장치
    를 포함하는, 객체 검출 및 분류 시스템.
  19. 제18항에 있어서,
    상기 RNN은 방향 전환하는(turning) 객체의 위치를 예측하는, 객체 검출 및 분류 시스템.
  20. 제18항에 있어서,
    상기 RNN은 LSTM(long short-term memory)을 포함하는, 객체 검출 및 분류 시스템.
KR1020207004307A 2017-08-22 2018-07-20 적응적 실시간 검출 및 검사 네트워크(arden) Active KR102599212B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/683,483 US10275691B2 (en) 2017-08-22 2017-08-22 Adaptive real-time detection and examination network (ARDEN)
US15/683,483 2017-08-22
PCT/US2018/043128 WO2019040213A1 (en) 2017-08-22 2018-07-20 ADAPTIVE REAL TIME DETECTION AND EXAMINATION NETWORK (ARDEN)

Publications (2)

Publication Number Publication Date
KR20200043985A true KR20200043985A (ko) 2020-04-28
KR102599212B1 KR102599212B1 (ko) 2023-11-08

Family

ID=63294422

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207004307A Active KR102599212B1 (ko) 2017-08-22 2018-07-20 적응적 실시간 검출 및 검사 네트워크(arden)

Country Status (4)

Country Link
US (1) US10275691B2 (ko)
EP (1) EP3673411B1 (ko)
KR (1) KR102599212B1 (ko)
WO (1) WO2019040213A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853350B2 (en) 2021-08-24 2023-12-26 Korea Institute Of Science And Technology Method for updating query information for tracing target object from multi-camera and multi-camera system performing the same

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878592B2 (en) * 2018-05-23 2020-12-29 Apical Limited Video data processing
JP6988698B2 (ja) * 2018-05-31 2022-01-05 トヨタ自動車株式会社 物体認識装置
KR102727289B1 (ko) * 2018-06-27 2024-11-07 삼성전자주식회사 모션 인식 모델을 이용한 자체 운동 추정 장치 및 방법, 모션 인식 모델 트레이닝 장치 및 방법
US11423284B2 (en) * 2018-09-07 2022-08-23 Black Sesame Technologies, Inc Subgraph tile fusion in a convolutional neural network
JP7402606B2 (ja) * 2018-10-31 2023-12-21 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置及び電子機器
EP3776262A1 (en) * 2018-12-18 2021-02-17 Google LLC Systems and methods for geolocation prediction
CN109919087B (zh) * 2019-03-06 2022-03-08 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置
CN109829451B (zh) * 2019-03-22 2021-08-24 京东方科技集团股份有限公司 生物体动作识别方法、装置、服务器及存储介质
CN110020693B (zh) * 2019-04-15 2021-06-08 西安电子科技大学 基于特征注意和特征改善网络的极化sar图像分类方法
US20200356812A1 (en) * 2019-05-10 2020-11-12 Moley Services Uk Limited Systems and methods for automated training of deep-learning-based object detection
CN110472483B (zh) * 2019-07-02 2022-11-15 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置
CN110415297B (zh) * 2019-07-12 2021-11-05 北京三快在线科技有限公司 定位方法、装置及无人驾驶设备
EP4000006B1 (en) 2019-07-17 2025-10-08 Telefonaktiebolaget LM Ericsson (publ) A computer software module arrangement, a circuitry arrangement, an arrangement and a method for improved object detection
US11447063B2 (en) * 2019-07-18 2022-09-20 GM Global Technology Operations LLC Steerable scanning and perception system with active illumination
CN110414414B (zh) * 2019-07-25 2022-02-18 合肥工业大学 基于多层级特征深度融合的sar图像舰船目标鉴别方法
US10970602B1 (en) * 2019-10-08 2021-04-06 Mythical, Inc. Systems and methods for converting video information into electronic output files
CN110728695B (zh) * 2019-10-22 2022-03-04 西安电子科技大学 基于图像区域积累的视频sar运动目标检测方法
US11113584B2 (en) * 2020-02-04 2021-09-07 Nio Usa, Inc. Single frame 4D detection using deep fusion of camera image, imaging RADAR and LiDAR point cloud
US11270170B2 (en) * 2020-03-18 2022-03-08 GM Global Technology Operations LLC Object detection using low level camera radar fusion
CN113466877B (zh) * 2020-03-30 2024-03-01 北京轻舟智航智能技术有限公司 一种实时物体检测的方法、装置及电子设备
CN112419413B (zh) * 2020-12-07 2024-01-05 萱闱(北京)生物科技有限公司 终端设备的运动方向监测方法、介质、装置和计算设备
CN114937221A (zh) * 2021-02-05 2022-08-23 Tcl科技集团股份有限公司 一种视频分类方法、装置、终端设备和存储介质
CN112926448B (zh) * 2021-02-24 2022-06-14 重庆交通大学 一种相干斑模式起伏稳健的sar图像分类方法
CN113111909B (zh) * 2021-03-04 2024-03-12 西北工业大学 一种面向训练目标视角不完备的sar目标识别的自学习方法
KR102511315B1 (ko) * 2022-09-07 2023-03-17 주식회사 스마트인사이드에이아이 환경 변수 데이터 학습에 기초한 영상 기반 객체 인식 방법 및 시스템
US12546881B2 (en) * 2022-10-11 2026-02-10 Gm Cruise Holdings Llc Curvelet-based low level fusion of camera and radar sensor information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150104149A1 (en) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Video summary apparatus and method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5012718B2 (ja) * 2008-08-01 2012-08-29 トヨタ自動車株式会社 画像処理装置
US10949059B2 (en) * 2016-05-23 2021-03-16 King.Com Ltd. Controlling movement of an entity displayed on a user interface
CN105628951B (zh) * 2015-12-31 2019-11-19 北京迈格威科技有限公司 用于测量对象的速度的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150104149A1 (en) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Video summary apparatus and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M. Ghaemmaghami, ‘Tracking of Humans in Video Stream Using LSTM Recurrent Neural Network,’2017 (URN:urn:nbn:se:kth:diva-217495) 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853350B2 (en) 2021-08-24 2023-12-26 Korea Institute Of Science And Technology Method for updating query information for tracing target object from multi-camera and multi-camera system performing the same

Also Published As

Publication number Publication date
US20190065910A1 (en) 2019-02-28
EP3673411A1 (en) 2020-07-01
EP3673411B1 (en) 2025-06-25
KR102599212B1 (ko) 2023-11-08
US10275691B2 (en) 2019-04-30
WO2019040213A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
KR102599212B1 (ko) 적응적 실시간 검출 및 검사 네트워크(arden)
EP3673417B1 (en) System and method for distributive training and weight distribution in a neural network
Kyrkou et al. EmergencyNet: Efficient aerial image classification for drone-based emergency monitoring using atrous convolutional feature fusion
US20230367809A1 (en) Systems and Methods for Geolocation Prediction
Khow et al. Improved YOLOv8 model for a comprehensive approach to object detection and distance estimation
US11164003B2 (en) System and method for detecting objects in video sequences
Abu-Khadrah et al. Drone-assisted adaptive object detection and privacy-preserving surveillance in smart cities using whale-optimized deep reinforcement learning techniques
CN111931720B (zh) 跟踪图像特征点的方法、装置、计算机设备和存储介质
Praneeth et al. Scaling object detection to the edge with yolov4, tensorflow lite
JP2020170252A (ja) 画像処理装置、情報処理方法及びプログラム
An et al. DCE-YOLOv8: Lightweight and Accurate Object Detection for Drone Vision
Wang et al. Gated image-adaptive network for driving-scene object detection under nighttime conditions
US20230260259A1 (en) Method and device for training a neural network
Sathyamoorthy et al. Ensemble deep learning approach for traffic video analytics in edge computing
Kulkarni et al. Key-track: A lightweight scalable lstm-based pedestrian tracker for surveillance systems
WO2019228654A1 (en) Method for training a prediction system and system for sequence prediction
Arivazhagan et al. FPGA implementation of GMM algorithm for background subtractions in video sequences
Wu Data-Efficient Object Detection Combining YOLO with Few-Shot Learning Techniques
Kondratiuk et al. Using the Temporal Data and Three-dimensional Convolutions for Sign Language Alphabet Recognition.
Alahdal et al. YOLO meets FedAVG: A privacy-preserving approach to autonomous vehicles object detection
US20240169762A1 (en) Methods for featureless gaze tracking in ecologically valid conditions
KR102456083B1 (ko) 영상기반 주행 속도 및 방향 추론 장치 및 이를 이용한 영상기반 주행 속도 및 방향 추론 방법
Jebadurai et al. Efficient traffic signal detection with tiny YOLOv4: enhancing road safety through computer vision
Gosika et al. Hybrid YOLOv5-CNN Framework with Grey Wolf Optimization for Enhanced Accident Prevention in Traffic and Industrial Environments.
Cordeiro Out of Distribution Detection in Camera Perception for Autonomous Driving

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20200213

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20210525

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20221125

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20230527

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20231019

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20231102

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20231103

End annual number: 3

Start annual number: 1

PG1601 Publication of registration