KR20240077642A

KR20240077642A - 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법

Info

Publication number: KR20240077642A
Application number: KR1020220159388A
Authority: KR
Inventors: 우홍욱; 유민종; 조상우
Original assignee: 성균관대학교산학협력단
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2024-06-03
Also published as: JP2024076349A; US20240185134A1; EP4375885A1

Abstract

강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.

Description

스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법{MULTI-TASK OFFLINE REINFORCEMENT LEARNING MODEL BASED ON SKILL REGULARIZED TASK DECOMPOSITION AND MULTI-TASK OFFLINE REINFORCEMENT LEARNING METHOD USING THE SAME}

본 발명은 강화학습 모델 및 강화학습 방법에 관한 것으로, 보다 상세하게는 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법에 관한 것이다.

강화학습 기반 제어 기술들은 다양한 오프라인 데이터를 사용하여 실세계의 복잡한 문제를 효율적으로 해결한다. 그러나, 실제 환경과 상호 작용이 불가능한 데이터 기반의 학습 방식에서 주어진 데이터는 수집한 정책의 품질이 좋지 않거나, 데이터의 양이 부족할 수 있다. 위와 같은 문제는 오프라인 강화학습 성능을 크게 저하시킨다.

여러 태스크를 학습하는 다중 태스크 학습을 학습하는 방식은 첫 번째로 다양한 태스크의 지식을 활용하기 위하여 모듈 기반의 네트워크 구조와 어텐션을 활용하는 Soft-Modularization 기법이 있고, 두 번째로 업데이트를 할 때 발생하는 그래디언트를 조절하여 학습 중에 발생하는 태스크간의 지식의 충돌을 조정하는 학습하는 Gradient surgery 방식이 있다.

하지만, Soft-Modularization 기법과 Gradient surgery 방식 모두 데이터의 품질이 일정치 않고, 데이터가 부족한 오프라인 상황에서는 학습 성능이 저하되는 문제가 있다.

또한, 현재 수행할 태스크를 추론하여 학습하는 Task inference 방식은 태스크를 작은 단위의 서브-태스크로 분해하지 못하여 다른 태스크간의 데이터 공유가 힘든 문제점이 존재한다. 따라서, Task inference 방식은 데이터가 부족한 상황에서는 학습 성능이 저하되는 문제가 발생한다.

한국공개특허 제10-2022-0117625호 "자율형 CPS의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 CPS 자가진화 프레임워크 및 이를 이용한 자율형 CPS의 성능 자가진화 방법"

본 발명의 일 목적은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능한 강화학습 모델을 제공하는 것이다.

본 발명의 다른 목적은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능한 강화학습 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.

일 실시예에서, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다. 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.

일 실시예에서, 상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고, 매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론할 수 있다.

일 실시예에서, 상기 스킬 임베딩은 아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행될 수 있다.

[수식1]

(여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.)

일 실시예에서, 상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고, 같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고, 상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론할 수 있다.

일 실시예에서, 상기 스킬 정규화는 아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행될 수 있다.

[수식2]

(여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.)

일 실시예에서, 상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론할 수 있다.

일 실시예에서, 상기 데이터 증강 모델은 상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성하고, 서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강할 수 있다.

일 실시예에서, 상기 가상 데모는 아래 [수식3]을 통해 생성될 수 있다.

[수식3]

(여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.)

본 발명의 다른 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 강화학습 방법은 품질을 고려한 스킬 정규화 태스크 분해를 수행하는 단계, 및 가상 데모 생성을 통한 데이터 증강을 수행하는 단계를 포함할 수 있다. 상기 스킬 정규화 태스크 분해를 수행하는 단계는 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 단계, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 단계, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 단계를 포함할 수 있다.

본 발명의 강화학습 모델 및 강화학습 방법에 의하면, 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능할 수 있다.

다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

도 1은 본 발명의 실시예들에 따른 강화학습 모델의 구성을 나타내는 개념도이다.
도 2는 도 1의 강화학습 모델의 동작을 나타내는 순서도이다.
도 3은 스킬 정규화 태스크 분해 단계의 세부 단계을 나타내는 순서도이다.
도 4는 품질을 고려한 스킬 정규화 태스크 분해 모델의 구조를 나타내는 도면이다.
도 5는 품질을 고려한 스킬 정규화 태스크 분해 모델의 학습 과정을 나타내는 알고리즘이다.
도 6은 가상 데모 생성을 통한 데이터 증강 모델의 구조를 나타내는 도면이다.
도 7은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 로봇 팔 제어 학습 성능을 나타내는 도표이다.
도 8은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 드론 주행 학습 성능을 나타내는 도표이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들면 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들면 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 실시예들에 따른 강화학습 모델의 구성을 나타내는 개념도이고, 도 2는 도 1의 강화학습 모델의 동작을 나타내는 순서도이다.

도 1을 참조하면, 본 발명의 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다.

예를 들어, 본 발명의 강화학습 모델은 관측할 수 없는 환경 변화에도 안정적인 강화학습을 수행하기 위하여, 스킬 임베딩 모델과 태스크 임베딩 모델로 구성된 스킬 정규화 태스크 분해 추론 모델을 포함할 수 있다.

도 2에서 보듯이, 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해(S100)를 수행하고, 가상 데모 생성을 통한 데이터 증강(S200)을 수행할 수 있다.

예를 들어, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다.

상기 태스크(Task)는 강화학습의 환경을 모델링하는 Markov decision process를 의미할 수 있다. 여기서, Markov decision process는 의 4-tuple로 표현될 수 있다. 의 각 문자는 아래와 같은 것을 표시할 수 있다.

멀티 태스크(Multi-task) 환경은 여러 태스크로 이루어진 환경을 의미하며, 일반적으로 Transition probability와 reward function이 서로 다른 여러 태스크의 set 으로 표현될 수 있다.

서브 태스크(Sub Task)는 전체 태스크를 수행하기 위하여 짧은 기간 동안 수행해야 하는 목표를 의미할 수 있다. 서브 태스크 임베딩(z)를 활용하여 멀티 태스크 환경을 단일 Markov decision process인 로 표현할 수 있다.

스킬(Skill)은 에이전트(Agent)가 발생하는 행동 시퀀스(Action Sequence)를 의미할 수 있다.

예를 들어, 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.

이에 따라, 본 발명의 강화학습 모델은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습을 수행할 수 있다.

이하, 도 3 내지 6을 통해 본 발명의 강화학습 모델의 보다 구체적인 구성 및 동작을 설명한다.

도 3은 스킬 정규화 태스크 분해 단계의 세부 단계을 나타내는 순서도이고, 도 4는 품질을 고려한 스킬 정규화 태스크 분해 모델의 구조를 나타내는 도면이고, 도 5는 품질을 고려한 스킬 정규화 태스크 분해 모델의 학습 과정을 나타내는 알고리즘이다.

도 3 내지 5를 참조하면, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다.

예를 들어, 도 3에서 보듯이, 상기 스킬 정규화 태스크 분해 모델은 스킬 임베딩을 수행(S110)하고, 스킬 정규화를 수행(S120)하며, 태스크를 서브 태스크로 분해(S130)할 수 있다.

구체적으로, 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.

일 실시예에서, 스킬 임베딩은 2n-step의 상태-행동 쌍을 사용하여, 짧은 기간 동안의 정책 함수의 행동을 특정 벡터로 임베딩 하는 것을 목표로 할 수 있다.

상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고, 매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론할 수 있다.

구체적으로, 상기 스킬 정규화 태스크 분해 모델은, 주어진 오프라인 데이터의 2n-step의 상태-행동 쌍을 특정 스킬 잠재 공간에 매핑하고, 매핑된 잠재 벡터와 state를 사용하여 매핑 과정에서 주어진 2n-step 행동을 추론하고, 스킬 임베딩 로스를 사용하여 스킬 인코더 및 스킬 디코더를 학습시킬 수 있다.

예를 들어, 상기 스킬 임베딩은 아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행될 수 있다.

[수식1]

여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.

일 실시예에서, 스킬 정규화는 각각의 태스크의 데이터셋을 공유 가능한 서브 태스크로 분해하는 것을 목표로 할 수 있다.

상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고, 같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고, 상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론할 수 있다.

예를 들어, 상기 스킬 정규화 태스크 분해 모델은 주어진 n-step 트랜지션(state, action, reward, next state)을 서브 태스크 잠재 공간에 매핑하고, 매핑 과정에서 현재 이 데이터에서 수행한 스킬이 높은 보상을 받았다면, 스킬 임베딩과 같은 값을 가지도록 하며, 낮은 보상을 받았다면 다른 값을 가지도록 할 수 있다.

상기 스킬 정규화 태스크 분해 모델은 주어진 태스크와 상기 주어진 태스크를 풀 수 있는 스킬이 매칭되게 할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 스킬 정규화 로스를 사용하여 태스크 인코더 및 태스크 디코더를 학습시킬 수 있다.

예를 들어, 상기 스킬 정규화는 아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행될 수 있다.

[수식2]

여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.

상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론할 수 있다.

즉, 상기 스킬 정규화 태스크 분해 모델은 태스크와 스킬을 매칭하는 과정을 통하여 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해할 수 있다.

도 6은 가상 데모 생성을 통한 데이터 증강 모델의 구조를 나타내는 도면이다.

도 6을 참조하면, 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.

상기 데이터 증강 모델은 상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성할 수 있다.

상기 데이터 증강 모델은 서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강할 수 있다.

예를 들어, 상기 가상 데모는 아래 [수식3]을 통해 생성될 수 있다.

[수식3]

여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.

즉, 본 발명의 강화학습 모델은 주어진 데이터를 사용하여 스킬 정규화 태스크 분해 모델을 학습시키고, 스킬 정규화 태스크 분해를 통해 학습된 스킬 디코더, 및 태스크 디코더를 활용하여 품질이 높은 가상 데이터 생성하고, 스킬 정규화 태스크 분해를 통해 학습된 태스크 인코더를 사용하여 서브 태스크 정보를 강화학습 에이전트 입력 값에 추가 학습시킬 수 있다.

이와 같이, 본 발명의 강화학습 모델에 의하면, 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능할 수 있다.

도 7은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 로봇 팔 제어 학습 성능을 나타내는 도표이다.

도 7을 참조하면, 본 발명의 강화학습 모델을 이용하여 로봇 팔 제어 학습을 수행한 경우(SRTD+ID)가 다른 비교군에 비해 학습 성능이 향상된 것을 확인할 수 있다.

구체적으로, 도 7에서 보듯이, 실험을 통해 같은 시간 학습하였을 때, 본 발명의 강화학습 모델에 의한 경우가, Soft Modularization 방식에 비해 평균적으로 8.67~17.67% 성능 증가를 보이는 것을 알 수 있다.

도 8은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 드론 주행 학습 성능을 나타내는 도표이다.

도 8을 참조하면, 본 발명의 강화학습 모델을 이용하여 드론 자율 주행 학습을 수행한 경우(SRTD+ID)가 다른 비교군에 비해 학습 성능이 향상된 것을 확인할 수 있다.

구체적으로, 도 8에서 보듯이, 실험을 통해 같은 시간 학습하였을 때, 본 발명의 강화학습 모델에 의한 경우가, Soft Modularization 방식에 비해 평균적으로 5.01~11.37% 성능 증가가 있음을 알 수 있다.

따라서, 본 발명의 강화학습 모델은 로봇, 자율 주행 드론, 스마트 팩토리 등 4차 산업에 적용되는 경우, 실제 환경과 상호작용 없이 강화학습을 수행할 때 일정하지 않은 품질의 데이터와 데이터의 부족 문제를 해결할 수 있으며, 상호 작용이 불가능한 다양한 특성을 가진 실제 세계에서 사용할 강화학습을 학습할 때 생기는 문제를 해결할 수 있다.

다만, 이에 대해서는 상술한 바 있으므로, 그에 대한 중복되는 설명은 생략하기로 한다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

품질을 고려한 스킬 정규화 태스크 분해 모델; 및
가상 데모 생성을 통한 데이터 증강 모델을 포함하고,
상기 스킬 정규화 태스크 분해 모델은,
2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작;
상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작; 및
에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행하는 것을 특징으로 하는,
강화학습 모델.
제1항에 있어서,
상기 스킬 정규화 태스크 분해 모델은,
행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해하고,
상기 데이터 증강 모델은,
복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행하는 것을 특징으로 하는,
강화학습 모델.
제1항에 있어서,
상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고,
매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론하는 것을 특징으로 하는,
강화학습 모델.
제3항에 있어서,
상기 스킬 임베딩은,
아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
강화학습 모델.
[수식1]

(여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.)
제1항에 있어서,
상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고,
같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고,
상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론하는 것을 특징으로 하는,
강화학습 모델.
제5항에 있어서,
상기 스킬 정규화는,
아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
강화학습 모델.
[수식2]

(여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.)
제6항에 있어서,
상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론하는 것을 특징으로 하는,
강화학습 모델.
제1항에 있어서,
상기 데이터 증강 모델은,
상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성하고,
서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강하는 것을 특징으로 하는,
강화학습 모델.
제8항에 있어서,
상기 가상 데모는,
아래 [수식3]을 통해 생성되는 것을 특징으로 하는,
강화학습 모델.
[수식3]

(여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.)
품질을 고려한 스킬 정규화 태스크 분해를 수행하는 단계; 및
가상 데모 생성을 통한 데이터 증강을 수행하는 단계를 포함하고,
상기 스킬 정규화 태스크 분해를 수행하는 단계는,
2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 단계;
상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 단계; 및
에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 단계를 포함하는 것을 특징으로 하는,
강화학습 방법.