KR20200052453A

KR20200052453A - 딥러닝 모델 학습 장치 및 방법

Info

Publication number: KR20200052453A
Application number: KR1020180131610A
Authority: KR
Inventors: 최영준; 최종원; 김지훈
Original assignee: 삼성에스디에스 주식회사
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-15
Also published as: US20200134455A1

Abstract

딥러닝 모델 학습 장치 및 방법이 개시된다. 일 실시예에 따른 딥러닝 모델 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록을 학습시키는 과정, 상기 학습된 특징 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출하는 과정, 상기 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록 중 상기 복수의 학습 데이터 각각과 관련된 도메인 블록을 학습시키는 과정, 상기 학습된 도메인 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출하는 과정 및 상기 제2 특징 값을 이용하여 상기 복수의 도메인 블록 각각과 연결된 복수의 전문(specialty) 블록 중 상기 복수의 학습 데이터 각각과 관련된 전문 블록을 학습시키는 과정을 포함한다.

Description

딥러닝 모델 학습 장치 및 방법{APPARATUS AND METHOD FOR TRAINING DEEP LEARNING MODEL}

개시되는 실시예들은 딥러닝 모델 학습 기술과 관련된다.

딥러닝(Deep Learning) 모델을 이용한 문제 해결에 있어서, 종래의 기술은 다양한 종류의 문제들을 해결하기 위해서 해당 문제 각각에 대한 모델이 필요하다. 이러한, 종래의 기술은 다양한 문제점들이 발생하게 된다.

우선, 종래의 기술은 문제의 종류가 많아질수록 모델의 개수가 늘어나게 되므로, 복수의 모델을 관리하기 어렵다. 또한, 모델이 많아질수록 중복되는 모델이 발생하게 되므로, 모델에 사용되는 컴퓨팅 리소스가 낭비되는 문제가 있다. 또한, 종래의 기술은 모델에 학습시키는 학습 데이터의 양이 충분하지 않는 경우, 해당 모델의 성능이 좋지 않게 된다.

따라서, 다양한 종류의 문제들을 해결할 수 있고, 새로운 문제에 대해서도 쉽게 학습할 수 있는 딥러닝 모델이 요구되고 있다.

한국등록특허 제10-1738825호 (2017.05.23. 공고)

개시되는 실시예들은 딥러닝 모델 학습 장치 및 방법을 제공하기 위한 것이다.

일 실시예에 따른 딥러닝 모델 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록을 학습시키는 과정, 상기 학습된 특징 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출하는 과정, 상기 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록 중 상기 복수의 학습 데이터 각각과 관련된 도메인 블록을 학습시키는 과정, 상기 학습된 도메인 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출하는 과정 및 상기 제2 특징 값을 이용하여 상기 복수의 도메인 블록 각각과 연결된 복수의 전문(specialty) 블록 중 상기 복수의 학습 데이터 각각과 관련된 전문 블록을 학습시키는 과정을 포함한다.

상기 특징 블록을 학습시키는 과정은, 사전 학습된 특징 추출 모델을 이용하여 상기 복수의 학습 데이터 각각에 대한 초기 특징 값을 추출하고, 상기 초기 특징 값을 상기 생성 모델의 학습 데이터로 이용하여 상기 생성 모델을 학습시키되, 상기 생성 모델에 설정된 손실 함수에 기초하여 학습시킬 수 있다.

상기 특징 블록을 학습시키는 과정은, 상기 학습된 생성 모델의 파라미터를 상기 특징 블록의 파라미터로 결정할 수 있다.

상기 제1 특징 값을 추출하는 과정은, 상기 학습된 생성 모델의 파라미터를 이용하여 상기 제1 특징 값을 추출할 수 있다.

상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각에 설정된 손실 함수의 결과 값이 최소가 되도록 상기 복수의 도메인 블록 각각을 학습시키되, 상기 복수의 도메인 블록에 설정된 손실 함수의 결과 값은 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록 각각에 설정된 손실 함수의 결과 값의 합에 해당할 수 있다.

상기 도메인 블록은, 중간 단계 층(middle level layer) 및 날리지 스케일링 층(knowledge scaling layer)을 포함할 수 있다.

상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각과 관련된 학습 데이터에 대한 제1 특징 값을 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층을 학습시킬 수 있다.

상기 제2 특징 값을 추출하는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 상기 제2 특징 값을 추출할 수 있다.

상기 도메인 블록을 학습시키는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 추출된 제2 특징 값을 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층을 학습시킬 수 있다.

상기 특징 블록을 학습시키는 과정은, 상기 학습된 날리지 스케일링 층의 스케일링 값에 기초하여 상기 학습된 날리지 스케일링 층을 포함하는 도메인 블록에 대한 상기 학습된 특징 블록의 파라미터를 조절할 수 있다.

상기 도메인 블록을 학습시키는 과정은, 도메인 적대 신경망(Domain Adversarial Neural Network)을 이용하여 상기 복수의 도메인 블록 각각을 재학습시키되, 상기 도메인 적대 신경망에 설정된 손실 함수에 기초하여 재학습시킬 수 있다.

상기 전문 블록을 학습시키는 과정은, 상기 복수의 전문 블록 각각에 설정된 손실 함수에 기초하여 상기 복수의 전문 블록 각각에 포함된 마스크 층(mask layer)을 학습시키되, 상기 제2 특징 값을 상기 마스크 층의 학습 데이터로 이용하여 학습시킬 수 있다.

상기 마스크 층은, 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록과 관련된 학습 데이터에 대한 특징 값을 추출하는 긍정 마스크 층(positive mask layer) 및 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록에 부정적인 영향을 미치는 학습 데이터에 대한 특징 값을 추출하는 부정 마스크 층(negative mask layer)을 포함할 수 있다.

상기 복수의 학습 데이터에 포함되지 않은 새로운 학습 데이터가 입력된 경우, 상기 새로운 학습 데이터의 문제가 기 학습된 문제인지 여부를 판단하는 과정을 더 포함할 수 있다.

상기 새로운 학습 데이터의 문제가 기 학습된 문제가 아닌 경우, 상기 새로운 학습 데이터와 관련된 도메인 블록을 결정하는 과정, 상기 결정된 도메인 블록에 상기 새로운 학습 데이터와 관련된 새로운 전문 블록을 생성하여 연결하는 과정 및 상기 새로운 학습 데이터를 이용하여 상기 결정된 도메인 블록 및 상기 새로운 전문 블록을 학습시키는 과정을 더 포함할 수 있다.

상기 새로운 학습 데이터의 문제가 기 학습된 문제인 경우, 상기 새로운 학습 데이터를 이용하여 상기 기 학습된 문제와 관련된 도메인 블록 및 전문 블록을 재학습시키는 과정을 더 포함할 수 있다.

일 실시예에 따른 딥러닝 모델 학습 장치는, 하나 이상의 프로세서들, 메모리, 및 하나 이상의 프로그램들을 포함하고, 상기 하나 이상의 프로그램들은 상기 메모리에 저장되고, 상기 하나 이상의 프로세서들에 의해 실행되도록 구성되며, 상기 하나 이상의 프로그램들은, 복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록을 학습시키는 과정, 상기 학습된 특징 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출하는 과정, 상기 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록 중 상기 복수의 학습 데이터 각각과 관련된 도메인 블록을 학습시키는 과정, 상기 학습된 도메인 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출하는 과정 및 상기 제2 특징 값을 이용하여 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록(specialty) 중 상기 복수의 학습 데이터 각각과 관련된 전문 블록을 학습시키는 과정을 실행하기 위한 명령어들을 포함한다.

상기 하나 이상의 프로그램들은, 상기 복수의 학습 데이터에 포함되지 않은 새로운 학습 데이터가 입력된 경우, 상기 새로운 학습 데이터의 문제가 기 학습된 문제인지 여부를 판단하는 과정을 실행하기 위한 명령어들을 더 포함할 수 있다.

상기 하나 이상의 프로그램들은, 상기 새로운 학습 데이터의 문제가 기 학습된 문제가 아닌 경우, 상기 새로운 학습 데이터와 관련된 도메인 블록을 결정하는 과정, 상기 결정된 도메인 블록에 상기 새로운 학습 데이터와 관련된 새로운 전문 블록을 생성하여 연결하는 과정 및 상기 새로운 학습 데이터를 이용하여 상기 결정된 도메인 블록 및 상기 새로운 전문 블록을 학습시키는 과정을 실행하기 위한 명령어들을 더 포함할 수 있다.

상기 하나 이상의 프로그램들은, 상기 새로운 학습 데이터의 문제가 기 학습된 문제인 경우, 상기 새로운 학습 데이터를 이용하여 상기 기 학습된 문제와 관련된 도메인 블록 및 전문 블록을 재학습시키는 과정을 실행하기 위한 명령어들을 더 포함할 수 있다.

개시되는 실시예들에 따르면, 다양한 분야의 문제들에 대한 학습 데이터를 이용하여 딥러닝 모델을 학습시킬 수 있으므로, 모델이 학습한 데이터의 양이 풍부하고, 학습된 모델의 성능이 높아질 수 있다.

또한, 개시되는 실시예들에 따르면, 다양한 문제들을 하나의 딥러닝 모델을 통해 학습할 수 있으므로, 데이터 셋의 개수에 따라 늘어나는 모델에 사용되는 컴퓨팅 리소스를 줄일 수 있다.

도 1은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 일 실시예에 따른 딥러닝 모델의 구성도
도 3은 일 실시예에 따른 도메인 블록과 특징 블록 및 도메인 적대 신경망 사이의 연결 관계를 설명하기 위한 도면
도 4은 일 실시예에 따른 딥러닝 모델 학습 방법의 흐름도
도 5는 일 실시예에 따른 특징 블록을 학습시키는 방법의 흐름도
도 6은 일 실시예에 따른 자기부호화기를 이용하여 특징 블록을 학습시키는 예를 설명하기 위한 도면
도 7은 일 실시예에 따른 도메인 블록을 학습시키는 방법의 흐름도
도 8은 추가적 실시예에 따른 딥러닝 모델 학습 방법의 흐름도
도 9는 일 실시예에 따른 딥러닝 모델을 학습시키는 예를 설명하기 위한 도면
도 10은 일 실시예에 따른 딥러닝 모델의 구성도
도 11은 일 실시예에 따른 딥러닝 모델을 학습시키는 다른 예를 설명하기 위한 도면

이하, 도면을 참조하여 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 이에 제한되지 않는다.

실시예들을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 또한, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 본 실시예들에 따른 딥러닝 모델 학습 장치일 수 있다. 컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

도 2는 일 실시예에 따른 딥러닝(Deep Learning) 모델(200)의 구성도이다.

딥러닝 모델(200)은 본 실시예들에 따른 딥러닝 모델 학습 방법에 의해 학습될 수 있다.

도 2를 참조하면, 딥러닝 모델(200)은 특징 블록(210), 도메인 블록(220) 및 전문(specialty) 블록(230)을 포함한다.

이때, 특징 블록(210), 도메인 블록(220) 및 전문 블록(230)은 각각 복수의 층(layer)들을 포함하는 신경망(neural network)일 수 있다.

신경망은 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들이 이용되고, 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 신경망의 파라미터인 연결 가중치는 연결선이 갖는 특정한 값으로서 연결 강도라고도 나타낼 수 있다. 신경망은 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다. 인공 뉴런은 노드(node)라고도 지칭할 수 있다.

신경망은 복수의 층들을 포함할 수 있다. 예를 들어, 신경망은 입력 층(input layer), 은닉 층(hidden layer), 출력 층(output layer)를 포함할 수 있다. 입력 층은 학습을 수행하기 위한 입력을 수신하여 은닉 층에 전달할 수 있고, 출력 층은 은닉 층의 노드들로부터 수신한 신호에 기초하여 신경망의 출력을 생성할 수 있다. 은닉 층은 입력 층과 출력 층 사이에 위치하고, 입력 층을 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다. 입력 층과 은닉 층에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결되고, 은닉 층과 출력 층에 포함된 노드들에서도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력 층, 은닉 층 및 출력 층은 복수의 노드들을 포함할 수 있다.

신경망은 복수의 은닉 층들을 포함할 수 있다. 복수의 은닉 층들을 포함하는 신경망을 깊은 신경망(deep neural network)이라고 하고, 깊은 신경망을 학습시키는 것을 깊은 학습(deep learning)이라고 한다. 은닉 층에 포함된 노드를 은닉 노드(hidden node)라고 한다. 이하, 신경망을 학습시킨다는 것은 신경망의 파라미터를 학습시킨다는 것으로 이해될 수 있다. 또한, 학습된 신경망은 학습된 파라미터가 적용된 신경망으로 이해될 수 있다.

이때, 신경망은 기 설정된 손실 함수(loss function)를 지표로 삼아 학습될 수 있다. 손실 함수는 신경망이 학습을 통해 최적의 가중치 매개변수를 결정하기 위한 지표일 수 있다. 신경망은 설정된 손실 함수의 결과 값을 가장 작게 만드는 것을 목표로 학습될 수 있다.

신경망은 지도 학습(supervised learning) 또는 비지도 학습(unsupervised learning) 방식을 통해 학습될 수 있다. 지도 학습이란 학습 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 입력하고, 학습 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결 가중치를 업데이트하는 방법이다. 비지도 학습이란 학습 데이터에 대응하는 출력 데이터 없이 학습 데이터만을 신경망에 입력하고, 학습 데이터의 특징 또는 구조를 알아내도록 연결선들의 연결 가중치를 업데이트하는 방법이다.

한편, 특징 블록(210)은 복수의 학습 데이터를 학습하여 특정 데이터에 대한 특징 값을 추출하는 신경망일 수 있다. 이때, 특징 블록(210)은 복수의 도메인 블록(220)과 연결될 수 있다. 이에 따라, 특징 블록(210)는 문제의 종류에 무관하게 다양한 문제에 대한 데이터들을 학습할 수 있으므로, 하나의 문제에 대한 데이터에서 획득할 수 있는 정보보다 많은 양의 정보를 획득할 수 있다.

도메인 블록(220)은 복수의 학습 데이터 각각과 관련된 문제의 종류에 기초하여 복수의 학습 데이터 중 유사한 특징을 가지는 문제에 대한 학습 데이터들의 특징 값을 추출하는 신경망일 수 있다. 이에 따라, 도메인 블록(220)는 유사한 특징을 가진 문제에 대한 데이터들을 학습할 수 있으므로, 해당 문제에 대한 정확한 특징 값을 추출할 수 있다.

이때, 일 실시예에 따르면, 도메인 블록(220)은 중간 단계 층(middle level layer) 및 날리지 스케일링 층(knowledge scaling layer)을 포함할 수 있다.

중간 단계 층은 신경망을 구성하는 일반적인 층일 수 있다. 이때, 도메인 블록(220)은 학습된 중간 단계 층의 파라미터를 이용하여 학습 데이터에 대한 특징 값을 추출할 수 있다.

날리지 스케일링 층은 중간 단계 층의 파라미터에 기초하여 날리지 스케일링 층이 속한 특정 도메인에 대한 스케일링 값을 획득할 수 있다. 이때, 스케일링 값은 특징 블록(210)이 상기 스케일링 값을 가지는 날리지 스케일링 층이 속한 특정 도메인 블록과 관련된 학습 데이터에 대한 특징 값을 추출 시 특정 도메인과 관련성이 높은 특징 값에 대한 가중치를 키우고, 특정 도메인과 관련성이 낮은 특징 값에 대한 가중치를 줄이는 역할을 할 수 있다.

도 3은 일 실시예에 따른 도메인 블록과 특징 블록 및 도메인 적대 신경망(Domain Adversarial Neural Network) 사이의 연결 관계를 설명하기 위한 도면이다.

도 3을 참조하면, 제1 도메인 블록(310) 및 제2 도메인 블록(320)을 각각 학습시켜 각 도메인 블록(310, 320)에 포함된 날리지 스케일링 층이 각 도메인 블록(310, 320)에 대한 스케일링 값을 획득한 것으로 가정한다.

이때, 특징 블록(210)은 제1 도메인 블록(310) 및 제2 도메인 블록(320)과 각각 관련된 학습 데이터에 대한 특징 값을 추출하는 경우, 각 도메인 블록(310, 320)에 대한 스케일링 값에 기초하여 각 도메인 블록(310, 320)과 관련된 학습 데이터에 대한 특징 값을 추출할 수 있다.

한편, 상술한 도 3에서 도메인 블록의 수가 2개인 것으로 도시되었으나, 반드시 이에 한정되는 것은 아니고, 도메인 블록의 수는 다양하게 설정될 수 있다.

다시 도 2를 참조하면, 도메인 블록(220)은 복수의 전문 블록(230)과 연결될 수 있다.

전문 블록(230)은 도메인 블록(220)과 문제를 세부적인 복수의 문제로 분할하여 세부적으로 분할된 복수의 문제 각각에 대한 학습 데이터들의 특징 값을 추출하는 신경망일 수 있다. 이에 따라, 전문 블록(230)는 세부적으로 분할된 문제에 대한 데이터들을 학습할 수 있으므로, 세부적으로 분할된 문제에 대한 정확한 특징 값을 추출할 수 있다.

전문 블록(230)은 도메인 블록(220)으로부터 해당 전문 블록(230)에서 학습하려는 문제에 대한 데이터에 가중치를 부여하는 마스크 층(mask layer)을 포함할 수 있다.

마스크 층은 도메인 블록(220)에 포함된 데이터들 중 전문 블록(230)이 집중적으로 관심을 가져야 할 문제에 대한 데이터들을 추출하거나 집중적으로 관심을 가지지 않아야 할 문제에 대한 데이터들을 추출하는 역할을 수행할 수 있다.

이때, 일 실시예에 따르면, 마스크 층은 전문 블록(230)과 연결된 도메인 블록(220)에서 학습한 학습 데이터 중 전문 블록(230)과 관련된 학습 데이터에 대한 특징 값을 추출하는 긍정 마스크 층(positive mask layer) 및 전문 블록(230)과 연결된 도메인 블록(220)에서 학습한 학습 데이터 중 전문 블록(230)에 부정적인 영향을 미치는 학습 데이터에 대한 특징 값을 추출하는 부정 마스크 층(negative mask layer)을 포함할 수 있다.

한편, 전문 블록(230)은 해결하려는 문제의 종류에 기초하여 학습 방법이 다양할 수 있다.

도 4은 일 실시예에 따른 딥러닝 모델 학습 방법의 흐름도이다.

도 4에 도시된 방법은, 예를 들어, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 4를 참조하면, 컴퓨팅 장치(12)는 복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록(210)을 학습시킨다(410). 이때, 특징 블록(210)은 예를 들어, 비지도 학습 방식을 통해 학습될 수 있다.

복수의 학습 데이터는 다양한 종류의 문제들에 대한 학습 데이터를 포함할 수 있다. 따라서, 각 학습 데이터는 각각 다른 종류의 문제에 대한 데이터일 수 있다. 또한, 각 학습 데이터는 각 학습 데이터의 문제에 대한 복수의 학습 샘플을 포함할 수 있다. 이때, 학습 데이터는 예를 들어, 음성 데이터, 영상 데이터, 생체 데이터, 또는 필적 데이터 등과 같은 순차적 데이터를 포함할 수 있다.

생성 모델은 학습 데이터의 확률 분포를 학습하여 샘플 데이터 셋(sample dataset)을 생성하는 모델일 수 있다. 생성 모델은 예를 들어, 자기부호화기(AutoEncoder), 생성적 적대 신경망(Generative Adversarial Networks) 등을 포함할 수 있다.

이후, 컴퓨팅 장치(12)는 학습된 특징 블록(210)을 이용하여 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출한다(420). 이때, 컴퓨팅 장치(12)는 학습된 특징 블록(210)의 파라미터를 이용하여 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출할 수 있다.

이후, 컴퓨팅 장치(12)는 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록(220) 중 복수의 학습 데이터 각각과 관련된 도메인 블록(220)을 학습시킨다(430). 이때, 도메인 블록(220)은 예를 들어, 지도 학습 방식을 통해 학습될 수 있다.

이때, 일 실시예에 따르면, 컴퓨팅 장치(12)는 복수의 도메인 블록(220) 각각에 설정된 손실 함수의 결과 값이 최소가 되도록 복수의 도메인 블록(220) 각각을 학습시키되, 복수의 도메인 블록(220) 각각에 설정된 손실 함수의 결과 값은 복수의 도메인 블록(220) 각각과 연결된 복수의 전문 블록(230) 각각에 설정된 손실 함수의 결과 값의 합에 해당할 수 있다.

이후, 컴퓨팅 장치(12)는 학습된 도메인 블록(220)을 이용하여 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출한다(440).

일 실시예에 따르면, 컴퓨팅 장치(12)는 도메인 블록(220)에 포함된 학습된 중간 단계 층의 파라미터를 이용하여 제2 특징 값을 추출할 수 있다.

또한, 일 실시예에 따르면, 컴퓨팅 장치(12)는 도메인 블록(220)에 포함된 학습된 날리지 스케일링 층의 스케일링 값에 기초하여 학습된 날리지 스케일링 층을 포함하는 도메인 블록(220)과 관련된 학습 데이터에 대한 특징 블록(210)의 파라미터를 조절할 수 있다.

일 실시예에 따르면, 컴퓨팅 장치(12)는 도메인 적대 신경망(330)을 이용하여 복수의 도메인 블록(220) 각각을 재학습시되, 도메인 적대 신경망(330)에 설정된 손실 함수에 기초하여 재학습시킬 수 있다.

도메인 적대 신경망(330)은 각 도메인 블록(220)이 과적합(overfitting)되는 것을 방지하는 신경망일 수 있다. 도메인 적대 신경망(330)은 예를 들어, 도메인 적응(Domain adaptation) 기법을 기반으로 학습된 신경망일 수 있다.

또한, 도메인 적대 신경망(330)은 도메인 분류기(domain classifier)를 포함할 수 있다. 도메인 분류기는 도메인 적대 신경망(330)에 입력된 학습 샘플이 학습 중인 도메인 블록(220)에 관한 것인지에 대해 참(True) 또는 거짓(False) 여부를 분류할 수 있다.

이때, 도 3을 참조하면, 도메인 적대 신경망(330)은 복수의 도메인 블록(310, 320)과 연결될 수 있다.

도메인 적대 신경망(330)은 설정된 손실 함수의 결과 값이 최소가 되도록 복수의 도메인 블록(310, 320)을 학습시킬 수 있다. 이때, 도메인 적대 신경망(330)에 설정된 손실 함수는 아래 수학식 1과 같이 나타낼 수 있다.

수학식 1에서

는 도메인 분류기,

는 도메인 블록,

는 학습된 도메인 분류기에 설정된 손실 함수의 결과 값,

는 i번째 학습 샘플 및

는 조정 파라미터를 의미한다.

다시 도 4를 참조하면, 이후, 컴퓨팅 장치(12)는 제2 특징 값을 이용하여 복수의 도메인 블록(220) 각각에 포함된 복수의 전문 블록(230) 중 복수의 학습 데이터 각각과 관련된 전문 블록(230)을 학습시킨다(450). 이때, 전문 블록(230)은 예를 들어, 지도 학습 방식을 통해 학습될 수 있다.

일 실시예에 따르면, 컴퓨팅 장치(12)는 복수의 학습 데이터 각각에 대한 제2 특징 값을 복수의 전문 블록(230) 각각에 포함된 마스크 층의 학습 데이터로 이용하여 복수의 전문 블록 각각에 설정된 손실 함수의 결과 값이 최소가 되도록 마스크 층을 학습시킬 수 있다.

도 5는 일 실시예에 따른 특징 블록(210)을 학습시키는 방법의 흐름도이다.

도 5에 도시된 방법은, 예를 들어, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 5를 참조하면, 컴퓨팅 장치(12)는 복수의 학습 데이터를 특징 블록(210)에 입력할 수 있다(510).

이후, 컴퓨팅 장치(12)는 사전 학습된 특징 추출 모델을 이용하여 복수의 학습 데이터 각각에 대한 초기 특징 값을 추출할 수 있다(520).

이때, 사전 학습된 특징 추출 모델은 예를 들어, 이미지넷 데이터 셋(ImageNet dataset) 등과 같은 학습 데이터에 기초하여 특정 데이터에 대한 특징 값을 추출하는 딥러닝 모델일 수 있다. 사전 학습된 특징 추출 모델은 생성 모델에 복수의 학습 데이터를 입력하기 전에 각 학습 데이터를 전처리하기 위한 것일 수 있다.

특징 값은 학습 데이터의 특징을 벡터 값으로 표현한 것일 수 있다.

이후, 컴퓨팅 장치(12)는 초기 특징 값을 생성 모델의 학습 데이터로 이용하여 생성모델을 학습시키되, 생성 모델에 설정된 손실 함수에 기초하여 학습시킬 수 있다(530). 이때, 손실 함수는 생성 모델의 종류에 따라 상이할 수 있다.

이후, 컴퓨팅 장치(12)는 학습된 생성 모델의 파라미터를 특징 블록(210)의 파라미터로 결정할 수 있다(540).

도 6은 일 실시예에 따른 자기부호화기(640)를 이용하여 특징 블록(210)을 학습시키는 예를 설명하기 위한 도면이다.

도 6을 참조하면, 컴퓨팅 장치(12)는 복수의 학습 데이터(610)를 특징 블록(210)에 입력할 수 있다.

이후, 컴퓨팅 장치(12)는 사전 학습된 특징 추출 모델(620)을 이용하여 복수의 학습 데이터 각각에 대한 초기 특징 값(630)을 추출할 수 있다.

이후, 컴퓨팅 장치(12)는 초기 특징 값(630)을 자기부호화기(640)의 학습 데이터로 이용하여 자기부호화기(640)를 학습시킬 수 있다.

이때, 자기부호화기(640)는 출력 데이터와 입력 데이터가 같도록 설계된 신경망을 의미할 수 있다. 구체적으로, 자기부호화기(640)는 입력 데이터를 부호화(encode)한 후 부호화된 데이터를 다시 복호화(decode)하는 경우, 복호화된 출력 데이터가 입력 데이터와 같도록 하는 부호화 방법을 찾기 위해 학습하는 신경망일 수 있다.

자기부호화기(640)는 입력 층과 은닉 층을 포함하는 부호화부(encoder)(641) 및 은닉 층과 출력 층을 포함하는 복호화부(decoder)(643)로 구성될 수 있다. 자기부호화기(640)는 초기 특징 값(630)을 입력 데이터로 이용하여 기 설정된 손실 함수(

)의 결과 값이 최소가 되도록 학습할 수 있다. 이때, 자기부호화기(640)에 설정된 손실 함수(

)는 하기 수학식 1과 같이 나타낼 수 있다.

수학식 2에서,

는 복수의 학습 데이터 각각에 포함된 학습 샘플의 수,

는 i번째 학습 샘플의 특징 값,

는 복호화부(643)의 출력 함수,

는 파라미터를 의미한다.

자기부호화기(640)는 학습을 수행한 후 복호화부(643)를 제거하고, 부호화부(641)의 출력 값 즉 부호화부(641)의 파라미터를 이용하여 복수의 학습 데이터 각각에 대한 특징 값을 추출할 수 있다.

이후, 컴퓨팅 장치(12)는 부호화부(641)의 파라미터를 특징 블록(210)의 파라미터로 결정할 수 있다.

한편, 상술한 예에서 자기부호화기를 이용하여 특징 블록(210)을 학습시켰으나, 반드시 이에 한정되는 것은 아니고, 특징 블록(210)을 학습시키는 방법은 생성 모델의 종류에 따라 다양할 수 있다.

도 7은 일 실시예에 따른 도메인 블록(220)을 학습시키는 방법의 흐름도이다.

도 7에 도시된 방법은, 예를 들어, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 7을 참조하면, 컴퓨팅 장치(12)는 복수의 도메인 블록(220) 각각과 관련된 학습 데이터에 대한 제1 특징 값을 복수의 도메인 블록(220) 각각에 포함된 중간 단계 층의 학습 데이터로 이용하여 복수의 도메인 블록(220) 각각에 포함된 중간 단계 층을 학습시킬 수 있다(710).

예를 들어, 컴퓨팅 장치(12)는 제1 특징 값을 중간 단계 층의 입력 데이터로 이용하고, 제1 특징 값에 기 할당된 레이블(label)를 타겟 데이터로 이용하여 중간 단계 층을 학습시킬 수 있다. 이때, 레이블은 입력 데이터에 대응되는 출력 데이터를 의미할 수 있다.

이후, 컴퓨팅 장치(12)는 학습된 중간 단계 층의 파라미터를 이용하여 추출된 복수의 학습 데이터 각각에 대한 제2 특징 값을 복수의 도메인 블록(220) 각각에 포함된 날리지 스케일링 층의 학습 데이터로 이용하여 복수의 도메인 블록(220) 각각에 포함된 날리지 스케일링 층을 학습시킬 수 있다(720).

예를 들어, 컴퓨팅 장치(12)는 학습된 중간 단계 층의 파라미터를 이용하여 해당 중간 단계 층을 포함하는 도메인 블록(220)과 관련된 학습 데이터에 대한 제2 특징 값을 추출할 수 있다. 이후, 컴퓨팅 장치(12)는 추출된 제2 특징 값을 해당 중간 단계 층을 포함하는 도메인 블록(220)에 포함된 날리지 스케일링 층의 학습 데이터로 이용하여 해당 날리지 스케일링 층을 학습시킬 수 있다.

도 8은 추가적 실시예에 따른 딥러닝 모델 학습 방법의 흐름도이다.

도 8에 도시된 방법은, 예를 들어, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 8을 참조하면, 컴퓨팅 장치(12)는 복수의 학습 데이터에 포함되지 않은 새로운 학습 데이터가 입력된 경우, 새로운 학습 데이터의 문제가 기 학습된 문제인지 여부를 판단할 수 있다(810).

이후, 컴퓨팅 장치(12)는 새로운 학습 데이터의 문제가 기 학습된 문제가 아닌 경우(810), 새로운 학습 데이터와 관련된 도메인 블록(220)을 결정할 수 있다(820).

이때, 컴퓨팅 장치(12)는 예를 들어, 엔트로피 기반(entropy based) 탐색 알고리즘, 거리 기반(distance based) 탐색 알고리즘, 밀도 기반(density based) 탐색 알고리즘 등을 이용하여 도메인 블록(220)을 결정할 수 있으나, 반드시 이에 한정되는 것은 아니고, 도메인 블록(220)을 결정하는 방법은 실시예에 따라 다양할 수 있다.

이후, 컴퓨팅 장치(12)는 결정된 도메인 블록(220)에 새로운 학습 데이터와 관련된 새로운 전문 블록(230)을 생성하여 연결할 수 있다(830).

이후, 컴퓨팅 장치(12)는 새로운 학습 데이터를 이용하여 결정된 도메인 블록(220) 및 새로운 전문 블록(230)을 학습시킬 수 있다(840).

한편, 컴퓨팅 장치(12)는 새로운 학습 데이터의 문제가 기 학습된 문제인 경우(810), 새로운 학습 데이터를 이용하여 기 학습된 문제와 관련된 도메인 블록(220) 및 전문 블록(230)을 재학습시킬 수 있다(850).

도 9는 일 실시예에 따른 딥러닝 모델(200)을 학습시키는 예를 설명하기 위한 도면이다.

예를 들어, 사용자가 반도체 결함을 식별하는 딥러닝 모델(200)을 생성하는 것으로 가정한다.

도 9를 참조하면, 컴퓨팅 장치(12)는 의료 데이터, 제조 데이터, 리테일 데이터 등을 포함하는 복수의 학습 데이터를 이용하여 딥러닝 모델(200)에 대한 초기 학습을 수행할 수 있다(910).

이후, 컴퓨팅 장치(12)는 반도체 결함 데이터를 초기 학습된 딥러닝 모델(200)에 입력하여 반도체 결함 데이터에 대한 제1 특징 값을 추출할 수 있다. 이때, 반도체 결함 데이터에 대한 제1 특징 값은 고정된 값일 수 있다.

이후, 컴퓨팅 장치(12)는 기존의 특징 블록보다 크기가 작은 제1 특징 블록을 생성할 수 있다(920). 이때, 제1 특징 블록은 기존의 특징 블록보다 층의 개수가 작은 특징 블록을 의미할 수 있다.

또한, 컴퓨팅 장치(12)는 반도체 결함 데이터를 학습 데이터로 이용하여 상술한 특징 블록을 학습시키는 방식과 동일한 방식을 통해 제1 특징 블록을 학습시킬 수 있다.

이후, 컴퓨팅 장치(12)는 사용자에게 학습된 제1 특징 블록이 제조 도메인 블록과 연결된 딥러닝 모델을 반도체 식별 모델로 제공할 수 있다(930).

도 10은 일 실시예에 따른 딥러닝 모델(200)의 구성도이다. 또한, 도 11은 일 실시예에 따른 딥러닝 모델(200)을 학습시키는 다른 예를 설명하기 위한 도면이다.

도 10 및 11을 참조하면, 컴퓨팅 장치(12)는 비디오 데이터, 이미지 데이터, 텍스트 데이터 등을 포함하는 복수의 학습 데이터를 이용하여 비디오 도메인 블록(1010) 및 이미지 도메인 블록(1020)을 포함하는 딥러닝 모델(200)을 학습시킬 수 있다.

이때, 컴퓨팅 장치(12)는 학습된 비디오 도메인 블록(1010)을 이용하여 입력된 비디오 데이터로부터 이미지들을 추출할 수 있다. 또한, 컴퓨팅 장치(12)는 비디오 데이터에 포함된 시간 정보에 기초하여 이미지들을 시간순으로 정렬한 방향성 그래프 모델(directed graph model)(1110)을 생성할 수 있다.

방향성 그래프 모델(1110)은 비디오 도메인 블록(1010)에서 학습된 비디오 데이터로부터 다양한 이미지들을 추출한 후 추출된 이미지들을 비디오 데이터에 포함된 시간 정보에 기초하여 순차적으로 나열한 모델일 수 있다. 예를 들어, 방향성 그래프 모델(1110)은 특정 비디오 데이터에서 시간대가 1초인 경우에 추출된 복수의 이미지가 나열되고, 특정 비디오 데이터에서 시간대가 2초인 경우에 추출된 복수의 이미지가 나열될 수 있다. 이때, 방향성 그래프 모델(1110)은 각 시간대 별로 나열된 복수의 이미지 사이의 연결관계에 대한 정보를 포함할 수 있다.

이후, 컴퓨팅 장치(12)는 예를 들어, 은닉 마르코프 모델(HMM: Hidden Markov Model) 기반의 손실 함수에 기초하여 방향성 그래프 모델(1110)을 학습시킬 수 있다. 이때, 학습된 방향성 그래프 모델(1110)로부터 추출된 특징 값은 이미지 도메인 블록(1020)의 학습 데이터로 이용할 수 있다. 따라서, 이미지 도메인 블록(1020)에 학습된 방향성 그래프 모델(1110)로부터 추출된 특징 값 및 이미지 데이터를 학습 데이터로 입력하여 이미지 도메인 블록(1020)을 학습시킴으로써 이미지 도메인 블록(1020)의 이미지 분류 성능을 높일 수 있다.

한편, 딥러닝 모델(200)을 학습시키는 예와 관련하여, 상술한 예에서는 비디오 데이터로부터 추출된 이미지 데이터를 이용하여 이미지 도메인 블록(1020)을 학습시키는 것으로 설명하였으나, 반드시 이에 한정되는 것은 아니다. 예를 들어, 컴퓨팅 장치(12)는 학습된 이미지 도메인 블록(1020)을 이용하여 복수의 이미지 데이터 각각에 포함된 객체들을 식별할 수 있다. 이후, 컴퓨팅 장치(12)는 식별된 객체들을 순차적으로 연결하여 나열한 방향성 그래프 모델을 생성하고, 생성된 방향성 그래프 모델을 이용하여 비디오 도메인 블록(1010)을 학습시킬 수 있다.

한편, 일 실시예에 따르면, 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램, 및 상기 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 프로그램의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서는 실시예들을 중심으로 기술적 특징들을 설명하였다. 하지만, 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한고, 권리 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 권리범위에 포함된 것으로 해석되어야 할 것이다.

10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
210: 특징 블록
220: 도메인 블록
230: 전문 블록
310: 제1 도메인 블록
320: 제2 도메인 블록
330: 도메인 적대 신경망
620: 사전 학습된 특징 추출 모델
640: 자기부호화기
641: 부호화부
643: 복호화부
1010: 비디오 도메인 블록
1020: 이미지 도메인 블록

Claims

하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록을 학습시키는 과정;
상기 학습된 특징 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출하는 과정;
상기 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록 중 상기 복수의 학습 데이터 각각과 관련된 도메인 블록을 학습시키는 과정;
상기 학습된 도메인 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출하는 과정; 및
상기 제2 특징 값을 이용하여 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록(specialty) 중 상기 복수의 학습 데이터 각각과 관련된 전문 블록을 학습시키는 과정을 포함하는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 특징 블록을 학습시키는 과정은, 사전 학습된 특징 추출 모델을 이용하여 상기 복수의 학습 데이터 각각에 대한 초기 특징 값을 추출하고, 상기 초기 특징 값을 상기 생성 모델의 학습 데이터로 이용하여 상기 생성 모델을 학습시키되, 상기 생성 모델에 설정된 손실 함수에 기초하여 학습시키는 딥러닝 모델 학습 방법.
청구항 2항에 있어서,
상기 특징 블록을 학습시키는 과정은, 상기 학습된 생성 모델의 파라미터를 상기 특징 블록의 파라미터로 결정하는 딥러닝 모델 학습 방법.
청구항 3항에 있어서,
상기 제1 특징 값을 추출하는 과정은, 상기 학습된 생성 모델의 파라미터를 이용하여 상기 제1 특징 값을 추출하는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각에 설정된 손실 함수의 결과 값이 최소가 되도록 상기 복수의 도메인 블록 각각을 학습시키되, 상기 복수의 도메인 블록에 설정된 손실 함수의 결과 값은 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록 각각에 설정된 손실 함수의 결과 값의 합에 해당하는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 도메인 블록은, 중간 단계 층(middle level layer) 및 날리지 스케일링 층(knowledge scaling layer)을 포함하는 딥러닝 모델 학습 방법.
청구항 6항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각과 관련된 학습 데이터에 대한 제1 특징 값을 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층을 학습시키는 딥러닝 모델 학습 방법.
청구항 7항에 있어서,
상기 제2 특징 값을 추출하는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 상기 제2 특징 값을 추출하는 딥러닝 모델 학습 방법.
청구항 8항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 추출된 제2 특징 값을 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층을 학습시키는 딥러닝 모델 학습 방법.
청구항 9항에 있어서,
상기 특징 블록을 학습시키는 과정은, 상기 학습된 날리지 스케일링 층의 스케일링 값에 기초하여 상기 학습된 날리지 스케일링 층을 포함하는 도메인 블록에 대한 상기 학습된 특징 블록의 파라미터를 조절하는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 도메인 적대 신경망(Domain Adversarial Neural Network)을 이용하여 상기 복수의 도메인 블록 각각을 재학습시키되, 상기 도메인 적대 신경망에 설정된 손실 함수에 기초하여 재학습시키는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 전문 블록을 학습시키는 과정은, 상기 복수의 전문 블록 각각에 설정된 손실 함수에 기초하여 상기 복수의 전문 블록 각각에 포함된 마스크 층(mask layer)을 학습시키되, 상기 제2 특징 값을 상기 마스크 층의 학습 데이터로 이용하여 학습시키는 딥러닝 모델 학습 방법.
청구항 12항에 있어서,
상기 마스크 층은, 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록과 관련된 학습 데이터에 대한 특징 값을 추출하는 긍정 마스크 층(positive mask layer) 및 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록에 부정적인 영향을 미치는 학습 데이터에 대한 특징 값을 추출하는 부정 마스크 층(negative mask layer)을 포함하는 딥러닝 모델 학습 방법.
청구항 1항에 있어서,
상기 복수의 학습 데이터에 포함되지 않은 새로운 학습 데이터가 입력된 경우, 상기 새로운 학습 데이터의 문제가 기 학습된 문제인지 여부를 판단하는 과정을 더 포함하는 딥러닝 모델 학습 방법.
청구항 14항에 있어서,
상기 새로운 학습 데이터의 문제가 기 학습된 문제가 아닌 경우, 상기 새로운 학습 데이터와 관련된 도메인 블록을 결정하는 과정;
상기 결정된 도메인 블록에 상기 새로운 학습 데이터와 관련된 새로운 전문 블록을 생성하여 연결하는 과정; 및
상기 새로운 학습 데이터를 이용하여 상기 결정된 도메인 블록 및 상기 새로운 전문 블록을 학습시키는 과정을 더 포함하는 딥러닝 모델 학습 방법.
청구항 14항에 있어서,
상기 새로운 학습 데이터의 문제가 기 학습된 문제인 경우, 상기 새로운 학습 데이터를 이용하여 상기 기 학습된 문제와 관련된 도메인 블록 및 전문 블록을 재학습시키는 과정을 더 포함하는 딥러닝 모델 학습 방법.
하나 이상의 프로세서들;
메모리; 및
하나 이상의 프로그램들을 포함하고,
상기 하나 이상의 프로그램들은 상기 메모리에 저장되고, 상기 하나 이상의 프로세서들에 의해 실행되도록 구성되며,
상기 하나 이상의 프로그램들은,
복수의 학습 데이터를 이용하여 생성 모델(Generative model)을 포함하는 특징 블록을 학습시키는 과정;
상기 학습된 특징 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제1 특징 값을 추출하는 과정;
상기 제1 특징 값을 학습 데이터로 이용하여 복수의 도메인 블록 중 상기 복수의 학습 데이터 각각과 관련된 도메인 블록을 학습시키는 과정;
상기 학습된 도메인 블록을 이용하여 상기 복수의 학습 데이터 각각에 대한 제2 특징 값을 추출하는 과정; 및
상기 제2 특징 값을 이용하여 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록(specialty) 중 상기 복수의 학습 데이터 각각과 관련된 전문 블록을 학습시키는 과정을 실행하기 위한 명령어들을 포함하는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 특징 블록을 학습시키는 과정은, 사전 학습된 특징 추출 모델을 이용하여 상기 복수의 학습 데이터 각각에 대한 초기 특징 값을 추출하고, 상기 초기 특징 값을 상기 생성 모델의 학습 데이터로 이용하여 상기 생성 모델을 학습시키되, 상기 생성 모델에 설정된 손실 함수에 기초하여 학습시키는 딥러닝 모델 학습 장치.
청구항 18항에 있어서,
상기 특징 블록을 학습시키는 과정은, 상기 학습된 생성 모델의 파라미터를 상기 특징 블록의 파라미터로 결정하는 딥러닝 모델 학습 장치.
청구항 19항에 있어서,
상기 제1 특징 값을 추출하는 과정은, 상기 학습된 생성 모델의 파라미터를 이용하여 상기 제1 특징 값을 추출하는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각에 설정된 손실 함수의 결과 값이 최소가 되도록 상기 복수의 도메인 블록 각각을 학습시키되, 상기 복수의 도메인 블록에 설정된 손실 함수의 결과 값은 상기 복수의 도메인 블록 각각과 연결된 복수의 전문 블록 각각에 설정된 손실 함수의 결과 값의 합에 해당하는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 도메인 블록은, 중간 단계 층(middle level layer) 및 날리지 스케일링 층(knowledge scaling layer)을 포함하는 딥러닝 모델 학습 장치.
청구항 22항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 복수의 도메인 블록 각각과 관련된 학습 데이터에 대한 제1 특징 값을 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각에 포함된 중간 단계 층을 학습시키는 딥러닝 모델 학습 장치.
청구항 23항에 있어서,
상기 제2 특징 값을 추출하는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 상기 제2 특징 값을 추출하는 딥러닝 모델 학습 장치.
청구항 24항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 상기 학습된 중간 단계 층의 파라미터를 이용하여 추출된 제2 특징 값을 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층의 학습 데이터로 이용하여 상기 복수의 도메인 블록 각각과 연결된 날리지 스케일링 층을 학습시키는 딥러닝 모델 학습 장치.
청구항 25항에 있어서,
상기 특징 블록을 학습시키는 과정은, 상기 학습된 날리지 스케일링 층의 스케일링 값에 기초하여 상기 학습된 날리지 스케일링 층을 포함하는 도메인 블록에 대한 상기 학습된 특징 블록의 파라미터를 조절하는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 도메인 블록을 학습시키는 과정은, 도메인 적대 신경망(Domain Adversarial Neural Network)을 이용하여 상기 복수의 도메인 블록 각각을 재학습시키되, 상기 도메인 적대 신경망에 설정된 손실 함수에 기초하여 재학습시키는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 전문 블록을 학습시키는 과정은, 상기 복수의 전문 블록 각각에 설정된 손실 함수에 기초하여 상기 복수의 전문 블록 각각에 포함된 마스크 층(mask layer)을 학습시키되, 상기 제2 특징 값을 상기 마스크 층의 학습 데이터로 이용하여 학습시키는 딥러닝 모델 학습 장치.
청구항 28항에 있어서,
상기 마스크 층은, 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록과 관련된 학습 데이터에 대한 특징 값을 추출하는 긍정 마스크 층(positive mask layer) 및 상기 전문 블록과 연결된 도메인 블록에서 학습한 학습 데이터 중 상기 전문 블록에 부정적인 영향을 미치는 학습 데이터에 대한 특징 값을 추출하는 부정 마스크 층(negative mask layer)을 포함하는 딥러닝 모델 학습 장치.
청구항 17항에 있어서,
상기 하나 이상의 프로그램들은,
상기 복수의 학습 데이터에 포함되지 않은 새로운 학습 데이터가 입력된 경우, 상기 새로운 학습 데이터의 문제가 기 학습된 문제인지 여부를 판단하는 과정을 실행하기 위한 명령어들을 더 포함하는 딥러닝 모델 학습 장치.
청구항 30항에 있어서,
상기 하나 이상의 프로그램들은,
상기 새로운 학습 데이터의 문제가 기 학습된 문제가 아닌 경우, 상기 새로운 학습 데이터와 관련된 도메인 블록을 결정하는 과정;
상기 결정된 도메인 블록에 상기 새로운 학습 데이터와 관련된 새로운 전문 블록을 생성하여 연결하는 과정; 및
상기 새로운 학습 데이터를 이용하여 상기 결정된 도메인 블록 및 상기 새로운 전문 블록을 학습시키는 과정을 실행하기 위한 명령어들을 더 포함하는 딥러닝 모델 학습 장치.
청구항 30항에 있어서,
상기 하나 이상의 프로그램들은,
상기 새로운 학습 데이터의 문제가 기 학습된 문제인 경우, 상기 새로운 학습 데이터를 이용하여 상기 기 학습된 문제와 관련된 도메인 블록 및 전문 블록을 재학습시키는 과정을 실행하기 위한 명령어들을 더 포함하는 딥러닝 모델 학습 장치.