WO2018174623A1

WO2018174623A1 - 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법

Info

Publication number: WO2018174623A1
Application number: PCT/KR2018/003404
Authority: WO
Inventors: 김동민; 백종환; 이명재; 손지수; 강신욱; 김태원; 김동억
Original assignee: Jlk Inspection
Current assignee: Jlk Inspection
Priority date: 2017-03-24
Filing date: 2018-03-23
Publication date: 2018-09-27
Anticipated expiration: 2019-09-24
Also published as: KR20180108501A; CN110574077B; EP3605472A4; US20210103716A1; JP2020513124A; JP6979664B2; US10970520B1; KR102061408B1; CN110574077A; EP3605472A1

Abstract

가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법이 개시된다. 영상 분석 장치는, 복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 영상 획득부, 영상 획득부로부터의 쌓은 형태의 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 3차원 영상 생성부, 및 3차원 영상 생성부로부터의 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 복수의 3차원 데이터에 대한 2차원 합성곱 신경망의 적용 결과들을 합치는 딥러닝 알고리즘 분석부를 포함한다.

Description

가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법

본 발명의 실시예는 영상 재구성을 이용한 영상 분석 기술에 관한 것으로, 보다 상세하게는, 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법에 관한 것이다.

인공 신경망(artificial neural network, ANN)은 기계 학습(machine learning)을 구현하는 기법들 중 하나이다.

일반적으로 인공 신경망은 입력 계층(input layer), 은닉 계층(hidden layer) 및 출력 계층(output layer)으로 이뤄져 있다. 각 계층들은 뉴런(neuron)으로 구성되어 있으며, 각 계층의 뉴런들은 이전 계층의 뉴런들의 출력과 연결되어 있다. 이전 계층의 뉴런들의 각 출력 값과 그에 상응하는 연결 가중치(weight)를 내적(inner product)한 값에 바이어스(bias)를 더한 값을 일반적으로 비선형(non-linear)인 활성화 함수(activation function)에 넣고 그 출력값을 다음 단계 계층의 뉴런들에게 전달한다.

기존의 기계 학습 기법들은 입력 데이터에서 사람이 설계한 특징 추출(feature extraction) 과정을 통해 얻은 정보에서 분류기(classifier)를 학습하는 반면, 인공 신경망은 특징 추출과 분류기를 처음부터 끝까지 학습(end-to-end learning)하는 것이 특징이다.

합성곱 신경망(convolutional neural network, CNN)은 영상 인식 분야에서 기존의 기계 학습 기법들의 성능을 압도하며 크게 주목받고 있다. 합성곱 신경망의 구조는 일반적인 인공 신경망의 구조와 거의 동일한데, 추가적인 구성요소로는 합성곱 계층(convolutional layer)와 통합 계층(pooling layer)이 있다.

일반적인 합성곱 신경망의 구조는 합성곱 계층과 통합 계층이 번갈아가면서 진행되고, 두세 개 정도의 완전 연결 계층(fully-connected layer)을 거쳐 마지막에 출력 계층이 오는 것이다. 합성곱 계층의 뉴런들은, 이전 계층의 모든 뉴런들과 완전 연결(fully-connected)되는 인공 신경망과 달리, 이전 계층의 작은 지역에만 연결(local connectivity)되어 있다.

또한, 특징 지도(feature map)와 같은 슬라이스(slice)에 속하는 뉴런들은 동일한 값(parameter sharing)의 가중치와 바이어스를 갖는다. 이렇게 진행되는 연산이 합성곱이며, 적용되는 가중치들의 집합을 필터(filter) 또는 커널(kernel)이라고 부른다. 합성곱 신경망은 영상에서의 특징을 효과적으로 추출할 수 있고, 파라미터 수를 줄여서 과적합(overfitting)을 방지하고 일반화(generalization) 성능을 향상시킬 수 있다.

통합 계층은 합성곱 계층들 사이에 위치하며, 특징 지도(feature map)의 공간적(spatial) 크기를 줄여주는 역할을 한다. 이러한 과정도 파라미터 수를 줄여서 과적합을 방지하는 역할을 한다. 가장 많이 쓰이는 형태는 2×2 필터들을 2의 간격으로 적용시키는 맥스 풀링(max-pooling) 방법이다. 이 과정은 특징 지도의 크기를 너비, 높이 방향에 대해 각각 절반씩 줄이게 된다.

한편, 종래기술로는 비주얼 콘텐츠기반 영상 인식을 위한 딥러닝 프레임워크 및 영상 인식 방법에 관한 대한민국 공개특허공보 제10-2016-0122452호(2016.10.24 공개)가 있다. 그러나 상기 기술은 기본적인 딥러닝 모델을 적용하는 프레임워크를 제공하는 것으로, 특정한 구조의 모델을 구성하는 것과는 다소 거리가 있다.

상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은, 2차원 영상을 3차원 공간에서 3차원 데이터로 재구성하고 재구성한 3차원 데이터를 회전시켜 다른 3차원 데이터를 생성하고, 생성된 복수의 3차원 데이터 각각에 2차원 합성곱 신경망을 적용하여 합침으로써 심층 신경망에서 용이하게 3차원 영상 데이터를 분석할 수 있는 영상 분석 장치 및 방법을 제공하는 데 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치는, 복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 영상 획득부; 상기 영상 획득부로부터의 쌓은 형태의 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 3차원 영상 생성부; 및 상기 3차원 영상 생성부로부터의 복수의 3차원 데이터에 대해 2차원 합성곱 신경망을 적용하고 상기 복수의 3차원 데이터에 대한 2차원 합성곱 신경망의 적용 결과들을 합치는 딥러닝 알고리즘 분석부를 포함한다.

일실시예에서, 상기 3차원 영상 생성부는, 상기 복수의 3차원 데이터를 생성하기 전에 상기 복수의 2차원 영상 데이터 각각에 대해 제로-평균(zero-mean) 또는 단위-변화(unit-variance) 연산을 수행할 수 있다.

일실시예에서, 상기 서로 다른 형태들의 복수의 정보는 상기 쌓은 2차원 영상 데이터의 시간 또는 위치에 따른 움직임이나 모양의 변화에 대응하는 패턴을 인식한 것을 포함할 수 있다.

일실시예에서, 상기 딥러닝 알고리즘 분석부는 상기 복수의 3차원 데이터에 대한 상기 2차원 합성곱 신경망의 적용 결과들을 합성곱 레이어(convolutional layer), 전결합 레이어(fully-connected layer), 출력 레이어(output layer) 및 최종 결과들의 평균을 내는 결정 수준 융합(decision level fusion) 중 어느 하나에서 합칠 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 다른 측면에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 방법은, 영상 획득부에서, 복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 단계; 3차원 영상 생성부에서, 쌓은 형태의 상기 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 단계; 및 딥러닝 알고리즘 분석부에서, 상기 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 상기 복수의 3차원 데이터에 대한 2차원 합성곱 신경망의 적용 결과들을 합치는 단계를 포함한다.

일실시예에서, 상기 생성하는 단계는, 상기 복수의 3차원 데이터를 생성하기 전에 상기 복수의 2차원 영상 데이터 각각에 대해 제로-평균(zero-mean) 또는 단위-변화(unit-variance) 연산을 수행할 수 있다.

일실시예에서, 상기 합치는 단계는, 상기 복수의 3차원 데이터에 대한 상기 2차원 합성곱 신경망의 적용 결과들을 합성곱 레이어(convolutional layer), 전결합 레이어(fully-connected layer), 출력 레이어(output layer) 및 최종 결과들의 평균을 내는 결정 수준 융합(decision level fusion) 중 어느 하나에서 합칠 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치는, 2차원 영상들을 촬영 위치 또는 시간 순서대로 쌓는 영상 획득부; 상기 영상 획득부에서 전달받은 2차원 영상들로 제1의 3차원 영상 데이터를 생성하고, 상기 제1의 3차원 영상 데이터에서 상기 촬영 위치 또는 시간을 나타내는 축이 나머지 두 축들 중 어느 하나에 일치하도록 회전시킨 제2의 3차원 영상 데이터를 생성하는 3차원 영상 생성부; 및 상기 3차원 영상 생성부에서 전달받은 복수개의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 각 3차원 데이터에 대한 적용 결과를 합치는 딥러닝 알고리즘 분석부를 포함한다.

일실시예에서, 상기 3차원 영상 생성부는, 상기 2차원 영상들의 프레임들 사이의 차이 또는 광학 흐름을 통해 얻은 상기 2차원 영상들을 회전시켜 얻은 다른 2차원 영상들에 기초하여 추가적인 3차원 데이터를 생성할 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면의 가상 3차원 심층 신경망을 이용하는 영상 분석 방법, 영상 획득부에서 2차원 영상들을 촬영 위치 또는 시간 순서대로 쌓는 단계; 3차원 영상 생성부에서 상기 영상 획득부로부터 받은 2차원 영상들로 제1의 3차원 영상 데이터를 생성하고, 상기 제1의 3차원 영상 데이터에서 상기 촬영 위치 또는 시간을 나타내는 축이 나머지 두 축들 중 어느 하나에 일치하도록 회전시킨 제2의 3차원 영상 데이터를 생성하는 단계; 및 딥러닝 알고리즘 분석부에서 상기 3차원 영상 생성부로부터 받는 복수개의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 각 3차원 데이터에 대한 적용 결과를 합치는 단계를 포함한다.

일실시예에서, 상기 생성하는 단계는, 상기 2차원 영상들의 프레임들 사이의 차이 또는 광학 흐름을 통해 얻은 상기 2차원 영상들을 회전시켜 얻은 다른 2차원 영상들에 기초하여 추가적인 3차원 데이터를 생성할 수 있다.

본 발명에 의하면, 일반적인 3차원 합성곱 신경망 방법에 비해 더 적은 파라미터를 가지는 2차원 합성곱 신경망을 이용하여 3차원 데이터를 더욱 효율적으로 학습하고 영상 분석할 수 있는 장점이 있다.

또한, 본 발명에 의하면, 파라미터 수가 매우 많기 때문에 메모리를 많이 차지하며 학습할 때 오랜 시간이 걸리고 학습된 모델을 사용할 때 계산 시간이 긴 3차원 합성곱 신경망 모델의 문제점을 해결할 수 있으면서, 3차원 영상 데이터에 대하여 효율적인 학습과 영상 분석을 수행할 수 있는 새로운 영상 분석 모델을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치의 블록도이다.

도 2는 도 1의 영상 분석 장치의 작동 원리를 도식적으로 나타낸 예시도이다.

도 3은 도 1의 영상 분석 장치에 채용할 수 있는 2차원 합성곱 신경망의 기존적인 작동 원리를 설명하기 위한 예시도이다.

도 4는 비교예에 따른 3차원 합성곱 신경망의 작동 원리를 설명하기 위한 예시도이다.

도 5는 본 발명의 다른 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 방법의 흐름도이다.

도 6은 본 발명의 또 다른 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치의 블록도이다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치의 블록도이다.

도 1을 참조하면, 본 실시예에 따른 영상 분석 장치(100)는 영상 획득부(110), 3차원 영상 생성부(120) 및 딥러닝 알고리즘 분석부(130)를 포함한다.

영상 획득부(110)는 2차원 영상들의 촬영 각도나 시간에 따라 순서대로 쌓은 2차원 영상들을 준비한다. 영상 획득부(110)는 카메라, 제어부, 통신부 등에 연결될 수 있다.

3차원 영상 생성부(120)는 영상 획득부(110)로부터 받은 2차원 영상들로 복수의 3차원 데이터를 생성한다. 간단한 예로써, 3차원 영상 생성부(120)는 2차원 영상들을 적층하여 제1의 3차원 데이터로 변환하고, 변환된 제1의 3차원 데이터를 3차원 공간에서 임의의 각도로, 바람직하게는 3차원 공간상에서의 3축들(x, y, z) 중 어느 하나의 축이 다른 하나의 축의 위치로 회전하여 제2의 3차원 데이터를 생성하도록 3차원 데이터를 복수개로 재구성할 수 있다.

이것은 미리 설정된 기준에 따라 예컨대, 시간 축을 따라 적층되는 복수의 2차원 영상 데이터를 상기 복수의 2차원 영상 데이터에 대한 상대적인 시간이나 위치 변화에 따라 서로 다른 형태의 복수의 3차원 데이터를 얻을 수 있음을 나타낸다. 즉, 본 실시예에서는 2차원 영상 데이터들을 쌓고, 쌓은 2차원 영상 데이터들에 대한 시간이나 위치 변화에 기초하여 복수의 연산을 각각 수행하여 복수의 3차원 데이터를 획득할 수 있다. 3차원 데이터는 3차원 영상 데이터를 포함할 수 있다.

또한, 일례로, 세포 영상과 같이 움직이는 동영상에 대한 정보를 포함하는 2차원 영상 데이터들은 2차원 영상 데이터들 각각에서 모폴로지가 변할 수 있고 위치가 변할 수 있는 형태 즉, 트래킹을 할 수 있는 상태를 가진다. 여기서, 영상 인식 장치는, 외곽선을 고려하는 경우, 위치 또는 시간에 따른 2차원 영상 데이터들에서 외곽선이 변해 있거나 위치가 좀 바뀌어 있거나 하는 차이들을 추출하고, 2차원 영상 데이터들을 3차원 데이터화하는 경우에 있어서, 추출된 정보에 기초하여 움직임의 변화 또는 모양의 변화에 대응하는 패턴을 인식할 수 있다. 영상 인식 장치는 볼륨메트리 등을 이용하여 패턴 인식을 수행할 수 있다.

다시 말하면, 2차원 영상 데이터들을 X-Y 평면 상에 시간 축(Z) 방향으로 쌓는다고 할 때, 쌓은 2차원 영상 데이터들은 3차원 데이터 형태를 가지며, 여기서 쌓은 2차원 영상 데이터들을 위에서 볼 때와 옆에서 볼 때 차이가 발생하며, 예컨대 2차원 영상 데이터들을 위에서 보는 경우, 그 차이는 모폴로지의 차이가 주된 차이로 인식될 수 있고, 2차원 영상 데이터들을 옆에서 보는 경우, 그 차이는 시간적인 차이에 따라서 그 위치에 대한 변화로 인식될 수 있다. 이와 같이, 본 실시예에서는 쌓은 2차원 영상 데이터들에 대한 다른 형태로 인식되는 복수의 데이터 즉 복수의 가상 3차원 데이터를 획득하여 이용한다.

딥러닝 알고리즘 분석부(130)는 재구성된 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망(2D Convolutional Neural Network, CNN)을 적용하고 각 3차원 데이터에 대한 적용 결과를 합쳐 3차원 영상을 분석한다.

이와 같이, 본 실시예에서는 2차원 영상 데이터를 쌓은 후 쌓은 2차원 영상 데이터에 대한 다른 형태의 정보를 2차원 합성곱 신경망으로 학습하여 3차원 영상 분석을 수행하는 것을 주된 기술적 특징으로 한다.

전술한 구성요소들(110 내지 130)은 하드웨어적으로 구성될 수 있으나, 이에 한정되지 않는다. 영상 분석 장치(100)의 구성요소들은 소프트웨어 모듈 형태로 메모리 등의 저장장치에 저장되고, 저장장치에 연결되는 프로세서가 소프트웨어 모듈을 실행하여 가상 3차원 심층 신경망을 기반으로 3차원 영상 데이터를 효과적으로 학습하고 분석하도록 구현될 수 있다.

이하, 가상 3차원 심층 신경망을 이용하는 영상 분석 장치에 대해 자세히 설명하기로 한다.

도 2를 참조하면, 영상 획득부는 외부로부터 수신되거나 획득한 2차원 영상들 혹은 영상 분석 장치 외부나 내부의 메모리 등에 저장되어 있는 것을 독출한 2차원 영상들을 촬영 위치나 촬영 시간에 따라 쌓을 수 있다.

3차원 영상 생성부는 영상 획득부로부터 전달받은 2차원 영상들을 이용하여 복수 개의 3차원 데이터를 생성한다. 3차원 데이터는 3차원 영상 데이터를 포함할 수 있다.

3차원 영상 생성부는 복수 개의 2차원 영상들을 촬영 위치 또는 시간 순서대로 적층시켜 3차원 영상 데이터를 생성할 수 있다. 3차원 영상 생성부는 생성된 3차원 영상 데이터를 미리 설정된 각도로 회전시켜 추가적인 3차원 영상 데이터를 생성할 수 있다.

예를 들어, 3차원 영상 데이터에 대해 서로 직교하는 3가지 방향에 대해서 분석을 진행하는 경우에는, 다음의 과정에 의해 복수 개의 3차원 영상 데이터를 생성할 수 있다. 즉, 2차원 영상의 두 축을 x, y라 하고 2차원 영상들의 촬영 위치 또는 시간을 나타내는 축을 z라고 한다면, z축 순서 그대로 2차원 영상들을 적층시켜 만든 3차원 데이터 Dxyz(제1의 3차원 데이터)와, Dxyz를 다른 두 개의 축 방향으로 각각 회전시켜 만든 3차원 데이터 Dyzx와 3차원 데이터 Dzxy를 사용할 수 있다.

물론, 최종 모델의 메모리 크기나 계산 속도 또는 목표하는 성능에 따라 세 방향 중 두 방향에 대해서만 진행할 수 있다.

또한, 3차원 영상 생성부는 위에서 기술한 복수 개의 3차원 데이터에 더하여 또 다른 3차원 데이터를 추가로 생성하여 사용할 수 있다. 즉, 3차원 영상 생성부는 본래의 2차원 영상들에서 미리 준비된 계산을 통해 얻은 또 다른 영상들에 대해 위에 기술한 방법을 적용하여 복수개의 3차원 영상을 생성할 수 있다. 예컨대, 각 2차원 영상들에 대해 제로 평균(zero-mean)과 단위 변화(unit-variance)를 갖게끔 정규화(normalization)를 거친 후에 위에서 말한 방법을 통해 복수개의 3차원 데이터를 생성할 수 있다.

또 다른 구현에서, 3차원 영상 생성부는, 비디오의 경우, 프레임들 간의 차이 또는 광학 흐름(optical flow) 등의 계산을 통해 얻은 영상들과 그 영상들을 회전시켜 추가적인 3차원 영상을 생성할 수 있다.

딥러닝 알고리즘 분석부는 필요에 따라 3차원 영상 생성부에서 받은 복수 개의 3차원 데이터들에 대해 각각 임의의 간격으로 분할하고 투영함으로써 복수의 2차원 데이터 셋을 생성할 수 있다. 복수의 2차원 데이터 셋을 3차원 데이터에 포함될 수 있다.

딥러닝 알고리즘 분석부는 3차원 영상 생성부로부터 받은 복수 개의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고, 이들을 합치는 과정을 통해 영상 분석 결과를 얻어낼 수 있다.

딥러닝 알고리즘 분석부에서, 각 2차원 합성곱 신경망이 합쳐지는 곳은 합성곱 레이어(convolutional layer)이거나 전결합 레이어(fully-connected layer) 또는 출력 레이어(output layer) 또는 마지막 결과들의 평균을 내는 결정 수준 융합(decision level fusion)이 될 수 있다.

도 3은 도 1의 영상 분석 장치에 채용할 수 있는 2차원 합성곱 신경망의 작동 원리를 설명하기 위한 예시도이다. 도 4는 비교예에 따른 3차원 합성곱 신경망의 작동 원리를 설명하기 위한 예시도이다.

먼저, 도 3을 참조하면, 2차원 합성곱 신경망의 합성곱(convolution) 계산 구조가 나타나 있다. 2차원 합성곱 신경망의 합성곱 계산 구조는 다음의 수학식 1과 같이 표현될 수 있다.

수학식 1에서,

는 i번째 레이어(layer)의 j번째 특징 맵(feature map)에서 (x,y) 위치의 값을 나타내고,

는 활성 함수(activation function)를 나타내며,

는 해당되는 특징 맵에 대한 바이어스(bias)를 나타내며,

m은 (i-1)번째 레이어의 특징 맵의 인덱스를 나타내며,

는 m번째 특징 맵에 적용된 커널(kernel) 또는 필터(filter)의 (p,q) 위치의 값을 나타내고,

와

는 각각 커널의 세로와 가로 크기를 나타낸다.

전술한 2차원 합성곱 신경망은 영상 인식에서 뛰어난 성능을 보이고 있다. 하지만, 수행되는 합성곱(convolution)이 2차원 공간(spatial) 특징만을 계산하기 때문에 2차원 합성곱 신경망만을 이용하는 경우에는 여러 개의 2차원 영상들이 모인 3차원 영상에서의 깊이 또는 시간 방향으로의 정보를 학습할 수 없다.

위에서 기술된 문제를 극복하기 위해 3차원 합성곱 신경망 모델을 대체하여 사용할지라도, 일반적인 3차원 합성곱 신경망은 3차원 영상을 분석하기 위해 3차원 필터들을 학습하므로, 파라미터 수가 많아 메모리를 많이 차지하고 학습에 오랜 시간이 걸린다(수학식 2 참조). 이에 본 실시예에서는 2차원 합성곱 신경망을 이용하는 합성곱 계산 구조와 3차원 합성곱 신경망을 이용하는 합성곱 계산 구조를 새로운 방식으로 조합하여 사용한다.

2차원 합성곱 신경망의 합성곱 계산 구조에 결합하는 3차원 합성곱 신경망의 합성곱 계산 구조는 도 4에 도시한 바와 같이 도시될 수 있고, 다음의 수학식 2와 같이 표현될 수 있다.

수학식 2에서,

는 i번째 레이어의 j번째 특징 맵에서 (x,y,z) 위치의 값을 나타내고,

는 활성 함수를 나타내고,

는 해당되는 특징 맵에 대한 바이어스를 나타내고,

m은 (i-1)번째 레이어의 특징 맵의 인덱스를 나타내고,

는 m번째 특징 맵에 적용된 커널(kernel) 또는 필터(filter)의 (p,q,r) 위치의 값을 나타내며,

, ,

는 각각 커널의 세로와 가로, 그리고 깊이(또는 시간) 방향으로의 크기를 나타낸다.

이와 같이, 전술한 3차원 합성곱 신경망 모델만을 이용하는 기존 기술은 기본적으로 파라미터 수가 매우 많기 때문에 메모리를 많이 차지하며, 학습시킬 때 오랜 시간이 걸리고, 더욱이 학습된 모델을 사용할 때도 계산 시간이 길다. 따라서 본 실시예에서는 3차원 합성곱 신경망보다 더 적은 수의 파라미터를 가지는 2차원 합성곱 신경망을 이용하여 3차원 영상 데이터에 대해서 효율적인 학습을 하고 영상을 분석할 수 있다.

즉, 딥러닝 알고리즘 분석부는 3원 영상 생성부로부터 전달받은 복수 개의 2차원 데이터 셋(복수의 3차원 데이터) 각각에 대해 2차원 합성곱 신경망을 적용하고, 그 적용 결과를 합치는 과정을 포함하는 ‘가상 3차원 심층 신경망’에 의한 영상 분석 결과를 도출할 수 있다.

도 5를 참조하면, 본 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 방법은, 먼저 영상 분석 장치 내 영상 획득부에서 특정 그룹의 2차원 영상들을 촬영 위치 또는 시간에 따라 쌓는 단계(S51), 2차원 영상들을 이용하여 3차원 영상(제1의 3차원 데이터)를 생성하고, 제1의 3차원 데이터를 회전한 제2의 3차원 데이터를 생성하는 단계(S52), 그리고 복수의 3차원 영상들(제1 및 제2의 3차원 데이터) 각각에 대해 2차원 합성곱 신경망을 적용하고 각 3차원 영상에 대한 적용 결과를 합치는 단계(S53)를 포함한다.

본 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 방법은 일반적인 3차원 합성곱 신경망 방법에 비해 더 적은 파라미터를 가지는 2차원 합성곱 신경망을 이용하여 3차원 데이터를 더욱 효율적으로 학습하고 영상 분석에 적용할 수 있다. 이러한 방법은 ‘가상 3차원 심층 신경망’에 의한 방법이라고 명명될 수 있다.

도 6은 본 발명의 또 다른 실시예에 따른 가상 3차원 심층 신경망을 이용하는 영상 분석 장치에 대한 블록도이다.

도 6은 참조하면, 본 실시예에 따른 영상 분석 장치(100)는 통신부(160), 제어부(170) 및 메모리(180)를 포함할 수 있다. 영상 분석 장치(100)는 컨트롤러 또는 컴퓨팅 장치를 포함하여 구현될 수 있다. 영상 분석 장치(100)는 사용자, 관리자, 제어단말 등으로부터 입력에 따라 데이터 또는 신호를 처리한 후 그 결과를 출력하기 위한 입출력장치(190)에 연결될 수 있다. 또한, 영상 분석 장치(100)는 데이터베이스를 구비하는 데이터베이스 시스템(200)과 연결될 수 있다. 데이터베이스는 분석하고자 하는 영상을 제공하는 장치의 식별정보, 접속정보, 인증정보 중 적어도 어느 하나를 포함할 수 있다.

본 실시예에서 입출력장치(190) 및 데이터베이스 시스템(200)은 영상 분석 장치(100)에 포함되지 않는 형태로 도시되어 있으나, 본 발명은 그러한 구성으로 한정되지 않고, 구현에 따라서 입출력장치(190) 및 데이터베이스 시스템(200) 중 적어도 어느 하나 이상을 더 포함하도록 구현될 수 있다.

통신부(160)는 영상 분석 장치(100)를 통신 네트워크에 연결한다. 통신부(160)는 네트워크를 통해 접근하는 사용자 단말, 서버, 관리자 단말 등으로부터 영상이나 영상 분석에 관련된 정보 혹은 신호를 수신할 수 있다.

통신부(160)는 하나 이상의 통신 프로토콜을 지원하는 하나 이상의 유선 및/또는 무선 통신 서브시스템을 포함할 수 있다. 유선 통신 서브시스템은 PSTN(public switched telephone network), ADSL(Asymmetric Digital Subscriber Line) 또는 VDSL(Very high-data rate Digital Subscriber Line) 네트워크, PES(PSTN Emulation Service)를 위한 서브시스템, IP(internet protocol) 멀티미디어 서브시스템(IMS) 등을 포함할 수 있다. 무선 통신 서브시스템은 무선 주파수(radio frequency, RF) 수신기, RF 송신기, RF 송수신기, 광(예컨대, 적외선) 수신기, 광 송신기, 광 송수신기 또는 이들의 조합을 포함할 수 있다.

무선 네트워크는 기본적으로 Wi-Fi를 지칭하나, 이에 한정되지 않는다. 본 실시예에서 통신부(160)는 다양한 무선 네트워크 예를 들어, GSM(Global System for Mobile Communication), EDGE(Enhanced Data GSM Environment), CDMA(Code Division Multiple Access), W-CDMA(W-Code Division Multiple Access), LTE(Long Term Evolution), LET-A(LET-Advanced), OFDMA(Orthogonal Frequency Division Multiple Access), WiMax, Wi-Fi(Wireless Fidelity), Bluetooth 등에서 선택되는 적어도 하나 이상을 지원하도록 구현될 수 있다.

제어부(170)는 내장 메모리 혹은 메모리(180)에 저장되는 소프트웨어 모듈이나 프로그램을 수행하여 영상 분석 방법을 구현할 수 있다. 제어부(170)는 예를 들어 프로세서로 지칭될 수 있고, 도 5에 도시한 일련의 절차들을 수행할 수 있다.

제어부(170)는 적어도 하나 이상의 중앙 처리 장치(CPU) 또는 코어를 포함하는 프로세서나 마이크로프로세서로 구현될 수 있다. 중앙처리장치 또는 코어는 처리할 명령어를 저장하는 레지스터(register)와, 비교, 판단, 연산을 담당하는 산술논리연산장치(arithmetic logical unit, ALU)와, 명령어의 해석과 실행을 위해 CPU를 내부적으로 제어하는 제어유닛(control unit)과, 이들을 연결하는 내부 버스 등을 구비할 수 있다. 중앙처리장치 혹은 코어는 MCU(micro control unit)와 주변 장치(외부 확장 장치를 위한 집적회로)가 함께 배치되는 SOC(system on chip)로 구현될 수 있으나, 이에 한정되지는 않는다.

또한, 제어부(170)는 하나 이상의 데이터 프로세서, 이미지 프로세서 또는 코덱(CODEC)을 포함할 수 있으나, 이에 한정되지는 않는다. 제어부(170)는 주변장치 인터페이스와 메모리 인터페이스를 구비할 수 있다. 주변장치 인터페이스는 제어부(170)와 입출력장치(190) 등의 입출력 시스템이나 다른 주변 장치를 연결하고, 메모리 인터페이스는 제어부(170)와 메모리(180)를 연결할 수 있다.

메모리(180)는 가상 3차원 심층 신경망을 이용하여 영상을 분석하기 위한 소프트웨어 모듈을 저장할 수 있다. 소프트웨어 모듈은, 도 5의 단계들(S51 내지 S53)을 각각 수행하는 제1 모듈 내지 제3 모듈을 포함할 수 있다.

전술한 메모리(180)는 비휘발성 랜덤 액세스 메모리(non-volatile RAM, NVRAM), 대표적 휘발성 메모리인 DRAM(dynamic random access memory) 등의 반도체 메모리, 하드디스크 드라이브(hard disk drive, HDD), 광 저장 장치, 플래시 메모리 등으로 구현될 수 있다. 그리고 메모리(180)는 가상 3차원 심층 신경망을 이용하여 영상을 분석하기 위한 소프트웨어 모듈들 외에 운영체제, 프로그램, 명령어 집합 등을 저장할 수 있다.

한편, 본 실시예에 따른 영상 분석 방법은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이, 본 실시예에서는 3차원 영상 데이터를 분석하기 위한 심층 신경망의 구조를 구성하는 방법을 제공한다. 본 실시예에 따른 가상 3차원 심층 신경망 구조는 입력된 의료 영상에서 질병 진단을 내리거나 또는 병변의 위치를 찾아내거나 또는 비디오에서 사람의 행동을 인식하는 등의 3차원 영상 데이터 분석에 활용될 수 있다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 영상 획득부;

상기 영상 획득부로부터의 쌓은 형태의 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 3차원 영상 생성부; 및

상기 3차원 영상 생성부로부터의 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 상기 복수의 3차원 데이터에 대한 2차원 합성곱 신경망의 적용 결과들을 합치는 딥러닝 알고리즘 분석부를 포함하는,

가상 3차원 심층 신경망을 이용하는 영상 분석 장치.
청구항 1에 있어서,

상기 3차원 영상 생성부는, 상기 복수의 3차원 데이터를 생성하기 전에 상기 복수의 2차원 영상 데이터 각각에 대해 제로-평균(zero-mean) 또는 단위-변화(unit-variance) 연산을 수행하는, 가상 3차원 심층 신경망을 이용하는 영상 분석 장치.
청구항 1에 있어서,

상기 서로 다른 형태들의 복수의 정보는 상기 쌓은 2차원 영상 데이터의 시간 또는 위치에 따른 움직임이나 모양의 변화에 대응하는 패턴을 인식한 것을 포함하는, 가상 3차원 심층 신경망을 이용하는 영상 분석 장치.
청구항 1에 있어서,

상기 딥러닝 알고리즘 분석부는 상기 복수의 3차원 데이터에 대한 상기 2차원 합성곱 신경망의 적용 결과들을 합성곱 레이어(convolutional layer), 전결합 레이어(fully-connected layer), 출력 레이어(output layer) 및 최종 결과들의 평균을 내는 결정 수준 융합(decision level fusion) 중 어느 하나에서 합치는, 가상 3차원 심층 신경망을 이용하는 영상 분석 장치.
영상 획득부에서, 복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 단계;

3차원 영상 생성부에서, 쌓은 형태의 상기 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 단계; 및

딥러닝 알고리즘 분석부에서, 상기 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 상기 복수의 3차원 데이터에 대한 2차원 합성곱 신경망의 적용 결과들을 합치는 단계;

를 포함하는 가상 3차원 심층 신경망을 이용하는 영상 분석 방법.
청구항 5에 있어서,

상기 생성하는 단계는, 상기 복수의 3차원 데이터를 생성하기 전에 상기 복수의 2차원 영상 데이터 각각에 대해 제로-평균(zero-mean) 또는 단위-변화(unit-variance) 연산을 수행하는, 가상 3차원 심층 신경망을 이용하는 영상 분석 방법.
청구항 5에 있어서,

상기 합치는 단계는, 상기 복수의 3차원 데이터에 대한 상기 2차원 합성곱 신경망의 적용 결과들을 합성곱 레이어(convolutional layer), 전결합 레이어(fully-connected layer), 출력 레이어(output layer) 및 최종 결과들의 평균을 내는 결정 수준 융합(decision level fusion) 중 어느 하나에서 합치는, 가상 3차원 심층 신경망을 이용하는 영상 분석 방법.