KR20240077642A - 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 - Google Patents

스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 Download PDF

Info

Publication number
KR20240077642A
KR20240077642A KR1020220159388A KR20220159388A KR20240077642A KR 20240077642 A KR20240077642 A KR 20240077642A KR 1020220159388 A KR1020220159388 A KR 1020220159388A KR 20220159388 A KR20220159388 A KR 20220159388A KR 20240077642 A KR20240077642 A KR 20240077642A
Authority
KR
South Korea
Prior art keywords
task
skill
reinforcement learning
model
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020220159388A
Other languages
English (en)
Inventor
우홍욱
유민종
조상우
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020220159388A priority Critical patent/KR20240077642A/ko
Priority to EP23203809.1A priority patent/EP4375885A1/en
Priority to US18/488,246 priority patent/US20240185134A1/en
Priority to JP2023181874A priority patent/JP2024076349A/ja
Publication of KR20240077642A publication Critical patent/KR20240077642A/ko
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.

Description

스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법{MULTI-TASK OFFLINE REINFORCEMENT LEARNING MODEL BASED ON SKILL REGULARIZED TASK DECOMPOSITION AND MULTI-TASK OFFLINE REINFORCEMENT LEARNING METHOD USING THE SAME}
본 발명은 강화학습 모델 및 강화학습 방법에 관한 것으로, 보다 상세하게는 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법에 관한 것이다.
강화학습 기반 제어 기술들은 다양한 오프라인 데이터를 사용하여 실세계의 복잡한 문제를 효율적으로 해결한다. 그러나, 실제 환경과 상호 작용이 불가능한 데이터 기반의 학습 방식에서 주어진 데이터는 수집한 정책의 품질이 좋지 않거나, 데이터의 양이 부족할 수 있다. 위와 같은 문제는 오프라인 강화학습 성능을 크게 저하시킨다.
여러 태스크를 학습하는 다중 태스크 학습을 학습하는 방식은 첫 번째로 다양한 태스크의 지식을 활용하기 위하여 모듈 기반의 네트워크 구조와 어텐션을 활용하는 Soft-Modularization 기법이 있고, 두 번째로 업데이트를 할 때 발생하는 그래디언트를 조절하여 학습 중에 발생하는 태스크간의 지식의 충돌을 조정하는 학습하는 Gradient surgery 방식이 있다.
하지만, Soft-Modularization 기법과 Gradient surgery 방식 모두 데이터의 품질이 일정치 않고, 데이터가 부족한 오프라인 상황에서는 학습 성능이 저하되는 문제가 있다.
또한, 현재 수행할 태스크를 추론하여 학습하는 Task inference 방식은 태스크를 작은 단위의 서브-태스크로 분해하지 못하여 다른 태스크간의 데이터 공유가 힘든 문제점이 존재한다. 따라서, Task inference 방식은 데이터가 부족한 상황에서는 학습 성능이 저하되는 문제가 발생한다.
한국공개특허 제10-2022-0117625호 "자율형 CPS의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 CPS 자가진화 프레임워크 및 이를 이용한 자율형 CPS의 성능 자가진화 방법"
본 발명의 일 목적은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능한 강화학습 모델을 제공하는 것이다.
본 발명의 다른 목적은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능한 강화학습 방법을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.
일 실시예에서, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다. 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.
일 실시예에서, 상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고, 매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론할 수 있다.
일 실시예에서, 상기 스킬 임베딩은 아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행될 수 있다.
[수식1]
(여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.)
일 실시예에서, 상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고, 같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고, 상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론할 수 있다.
일 실시예에서, 상기 스킬 정규화는 아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행될 수 있다.
[수식2]
(여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.)
일 실시예에서, 상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론할 수 있다.
일 실시예에서, 상기 데이터 증강 모델은 상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성하고, 서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강할 수 있다.
일 실시예에서, 상기 가상 데모는 아래 [수식3]을 통해 생성될 수 있다.
[수식3]
(여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.)
본 발명의 다른 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 강화학습 방법은 품질을 고려한 스킬 정규화 태스크 분해를 수행하는 단계, 및 가상 데모 생성을 통한 데이터 증강을 수행하는 단계를 포함할 수 있다. 상기 스킬 정규화 태스크 분해를 수행하는 단계는 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 단계, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 단계, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 단계를 포함할 수 있다.
본 발명의 강화학습 모델 및 강화학습 방법에 의하면, 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능할 수 있다.
다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
도 1은 본 발명의 실시예들에 따른 강화학습 모델의 구성을 나타내는 개념도이다.
도 2는 도 1의 강화학습 모델의 동작을 나타내는 순서도이다.
도 3은 스킬 정규화 태스크 분해 단계의 세부 단계을 나타내는 순서도이다.
도 4는 품질을 고려한 스킬 정규화 태스크 분해 모델의 구조를 나타내는 도면이다.
도 5는 품질을 고려한 스킬 정규화 태스크 분해 모델의 학습 과정을 나타내는 알고리즘이다.
도 6은 가상 데모 생성을 통한 데이터 증강 모델의 구조를 나타내는 도면이다.
도 7은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 로봇 팔 제어 학습 성능을 나타내는 도표이다.
도 8은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 드론 주행 학습 성능을 나타내는 도표이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들면 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들면 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시예들에 따른 강화학습 모델의 구성을 나타내는 개념도이고, 도 2는 도 1의 강화학습 모델의 동작을 나타내는 순서도이다.
도 1을 참조하면, 본 발명의 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해 모델, 및 가상 데모 생성을 통한 데이터 증강 모델을 포함할 수 있다.
예를 들어, 본 발명의 강화학습 모델은 관측할 수 없는 환경 변화에도 안정적인 강화학습을 수행하기 위하여, 스킬 임베딩 모델과 태스크 임베딩 모델로 구성된 스킬 정규화 태스크 분해 추론 모델을 포함할 수 있다.
도 2에서 보듯이, 강화학습 모델은 품질을 고려한 스킬 정규화 태스크 분해(S100)를 수행하고, 가상 데모 생성을 통한 데이터 증강(S200)을 수행할 수 있다.
예를 들어, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다.
상기 태스크(Task)는 강화학습의 환경을 모델링하는 Markov decision process를 의미할 수 있다. 여기서, Markov decision process는 의 4-tuple로 표현될 수 있다. 의 각 문자는 아래와 같은 것을 표시할 수 있다.
멀티 태스크(Multi-task) 환경은 여러 태스크로 이루어진 환경을 의미하며, 일반적으로 Transition probability와 reward function이 서로 다른 여러 태스크의 set 으로 표현될 수 있다.
서브 태스크(Sub Task)는 전체 태스크를 수행하기 위하여 짧은 기간 동안 수행해야 하는 목표를 의미할 수 있다. 서브 태스크 임베딩(z)를 활용하여 멀티 태스크 환경을 단일 Markov decision process인 로 표현할 수 있다.
스킬(Skill)은 에이전트(Agent)가 발생하는 행동 시퀀스(Action Sequence)를 의미할 수 있다.
예를 들어, 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.
이에 따라, 본 발명의 강화학습 모델은 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습을 수행할 수 있다.
이하, 도 3 내지 6을 통해 본 발명의 강화학습 모델의 보다 구체적인 구성 및 동작을 설명한다.
도 3은 스킬 정규화 태스크 분해 단계의 세부 단계을 나타내는 순서도이고, 도 4는 품질을 고려한 스킬 정규화 태스크 분해 모델의 구조를 나타내는 도면이고, 도 5는 품질을 고려한 스킬 정규화 태스크 분해 모델의 학습 과정을 나타내는 알고리즘이다.
도 3 내지 5를 참조하면, 상기 스킬 정규화 태스크 분해 모델은 행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해할 수 있다.
예를 들어, 도 3에서 보듯이, 상기 스킬 정규화 태스크 분해 모델은 스킬 임베딩을 수행(S110)하고, 스킬 정규화를 수행(S120)하며, 태스크를 서브 태스크로 분해(S130)할 수 있다.
구체적으로, 상기 스킬 정규화 태스크 분해 모델은 2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작, 상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작, 및 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행할 수 있다.
일 실시예에서, 스킬 임베딩은 2n-step의 상태-행동 쌍을 사용하여, 짧은 기간 동안의 정책 함수의 행동을 특정 벡터로 임베딩 하는 것을 목표로 할 수 있다.
상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고, 매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론할 수 있다.
구체적으로, 상기 스킬 정규화 태스크 분해 모델은, 주어진 오프라인 데이터의 2n-step의 상태-행동 쌍을 특정 스킬 잠재 공간에 매핑하고, 매핑된 잠재 벡터와 state를 사용하여 매핑 과정에서 주어진 2n-step 행동을 추론하고, 스킬 임베딩 로스를 사용하여 스킬 인코더 및 스킬 디코더를 학습시킬 수 있다.
예를 들어, 상기 스킬 임베딩은 아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행될 수 있다.
[수식1]
여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.
일 실시예에서, 스킬 정규화는 각각의 태스크의 데이터셋을 공유 가능한 서브 태스크로 분해하는 것을 목표로 할 수 있다.
상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고, 같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고, 상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론할 수 있다.
예를 들어, 상기 스킬 정규화 태스크 분해 모델은 주어진 n-step 트랜지션(state, action, reward, next state)을 서브 태스크 잠재 공간에 매핑하고, 매핑 과정에서 현재 이 데이터에서 수행한 스킬이 높은 보상을 받았다면, 스킬 임베딩과 같은 값을 가지도록 하며, 낮은 보상을 받았다면 다른 값을 가지도록 할 수 있다.
상기 스킬 정규화 태스크 분해 모델은 주어진 태스크와 상기 주어진 태스크를 풀 수 있는 스킬이 매칭되게 할 수 있다. 상기 스킬 정규화 태스크 분해 모델은 스킬 정규화 로스를 사용하여 태스크 인코더 및 태스크 디코더를 학습시킬 수 있다.
예를 들어, 상기 스킬 정규화는 아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행될 수 있다.
[수식2]
여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.
상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은, 상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론할 수 있다.
즉, 상기 스킬 정규화 태스크 분해 모델은 태스크와 스킬을 매칭하는 과정을 통하여 에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해할 수 있다.
도 6은 가상 데모 생성을 통한 데이터 증강 모델의 구조를 나타내는 도면이다.
도 6을 참조하면, 상기 데이터 증강 모델은 복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행할 수 있다.
상기 데이터 증강 모델은 상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성할 수 있다.
상기 데이터 증강 모델은 서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강할 수 있다.
예를 들어, 상기 가상 데모는 아래 [수식3]을 통해 생성될 수 있다.
[수식3]
여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.
즉, 본 발명의 강화학습 모델은 주어진 데이터를 사용하여 스킬 정규화 태스크 분해 모델을 학습시키고, 스킬 정규화 태스크 분해를 통해 학습된 스킬 디코더, 및 태스크 디코더를 활용하여 품질이 높은 가상 데이터 생성하고, 스킬 정규화 태스크 분해를 통해 학습된 태스크 인코더를 사용하여 서브 태스크 정보를 강화학습 에이전트 입력 값에 추가 학습시킬 수 있다.
이와 같이, 본 발명의 강화학습 모델에 의하면, 데이터의 품질이 일정치 않고 데이터가 부족한 다중 태스크 오프라인 강화학습 환경에서, 데이터 품질을 고려한 스킬 정규화 태스크 분해를 통해 제어 모델의 효율적이고 안정적인 학습이 가능할 수 있다.
도 7은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 로봇 팔 제어 학습 성능을 나타내는 도표이다.
도 7을 참조하면, 본 발명의 강화학습 모델을 이용하여 로봇 팔 제어 학습을 수행한 경우(SRTD+ID)가 다른 비교군에 비해 학습 성능이 향상된 것을 확인할 수 있다.
구체적으로, 도 7에서 보듯이, 실험을 통해 같은 시간 학습하였을 때, 본 발명의 강화학습 모델에 의한 경우가, Soft Modularization 방식에 비해 평균적으로 8.67~17.67% 성능 증가를 보이는 것을 알 수 있다.
도 8은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 드론 주행 학습 성능을 나타내는 도표이다.
도 8을 참조하면, 본 발명의 강화학습 모델을 이용하여 드론 자율 주행 학습을 수행한 경우(SRTD+ID)가 다른 비교군에 비해 학습 성능이 향상된 것을 확인할 수 있다.
구체적으로, 도 8에서 보듯이, 실험을 통해 같은 시간 학습하였을 때, 본 발명의 강화학습 모델에 의한 경우가, Soft Modularization 방식에 비해 평균적으로 5.01~11.37% 성능 증가가 있음을 알 수 있다.
따라서, 본 발명의 강화학습 모델은 로봇, 자율 주행 드론, 스마트 팩토리 등 4차 산업에 적용되는 경우, 실제 환경과 상호작용 없이 강화학습을 수행할 때 일정하지 않은 품질의 데이터와 데이터의 부족 문제를 해결할 수 있으며, 상호 작용이 불가능한 다양한 특성을 가진 실제 세계에서 사용할 강화학습을 학습할 때 생기는 문제를 해결할 수 있다.
다만, 이에 대해서는 상술한 바 있으므로, 그에 대한 중복되는 설명은 생략하기로 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 품질을 고려한 스킬 정규화 태스크 분해 모델; 및
    가상 데모 생성을 통한 데이터 증강 모델을 포함하고,
    상기 스킬 정규화 태스크 분해 모델은,
    2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작;
    상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작; 및
    에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행하는 것을 특징으로 하는,
    강화학습 모델.
  2. 제1항에 있어서,
    상기 스킬 정규화 태스크 분해 모델은,
    행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해하고,
    상기 데이터 증강 모델은,
    복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행하는 것을 특징으로 하는,
    강화학습 모델.
  3. 제1항에 있어서,
    상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
    오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고,
    매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론하는 것을 특징으로 하는,
    강화학습 모델.
  4. 제3항에 있어서,
    상기 스킬 임베딩은,
    아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
    강화학습 모델.
    [수식1]

    (여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.)
  5. 제1항에 있어서,
    상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
    상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고,
    같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고,
    상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론하는 것을 특징으로 하는,
    강화학습 모델.
  6. 제5항에 있어서,
    상기 스킬 정규화는,
    아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
    강화학습 모델.
    [수식2]

    (여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.)
  7. 제6항에 있어서,
    상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
    상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론하는 것을 특징으로 하는,
    강화학습 모델.
  8. 제1항에 있어서,
    상기 데이터 증강 모델은,
    상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성하고,
    서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강하는 것을 특징으로 하는,
    강화학습 모델.
  9. 제8항에 있어서,
    상기 가상 데모는,
    아래 [수식3]을 통해 생성되는 것을 특징으로 하는,
    강화학습 모델.
    [수식3]

    (여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.)
  10. 품질을 고려한 스킬 정규화 태스크 분해를 수행하는 단계; 및
    가상 데모 생성을 통한 데이터 증강을 수행하는 단계를 포함하고,
    상기 스킬 정규화 태스크 분해를 수행하는 단계는,
    2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 단계;
    상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 단계; 및
    에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 단계를 포함하는 것을 특징으로 하는,
    강화학습 방법.
KR1020220159388A 2022-11-24 2022-11-24 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 Pending KR20240077642A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020220159388A KR20240077642A (ko) 2022-11-24 2022-11-24 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법
EP23203809.1A EP4375885A1 (en) 2022-11-24 2023-10-16 Multi-task offline reinforcement learning model based on skill regularized task decomposition and multi-task offline reinforcement learning method using the same
US18/488,246 US20240185134A1 (en) 2022-11-24 2023-10-17 Multi-task offline reinforcement learning model based on skill regularized task decomposition and multi-task offline reinforcement learning method using the same
JP2023181874A JP2024076349A (ja) 2022-11-24 2023-10-23 スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220159388A KR20240077642A (ko) 2022-11-24 2022-11-24 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법

Publications (1)

Publication Number Publication Date
KR20240077642A true KR20240077642A (ko) 2024-06-03

Family

ID=88417098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220159388A Pending KR20240077642A (ko) 2022-11-24 2022-11-24 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법

Country Status (4)

Country Link
US (1) US20240185134A1 (ko)
EP (1) EP4375885A1 (ko)
JP (1) JP2024076349A (ko)
KR (1) KR20240077642A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119717870B (zh) * 2024-12-13 2025-08-01 天津大学 基于可解释强化学习的飞行器姿态控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4117473A4 (en) 2020-03-26 2024-05-01 Cqens Technologies Inc. HEATING DEVICE WITHOUT COMBUSTION AND METHOD
KR20220117625A (ko) 2021-02-17 2022-08-24 한국기술교육대학교 산학협력단 자율형 cps의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 cps 자가진화 프레임워크 및 이를 이용한 자율형 cps의 성능 자가진화 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국공개특허 제10-2022-0117625호 "자율형 CPS의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 CPS 자가진화 프레임워크 및 이를 이용한 자율형 CPS의 성능 자가진화 방법"

Also Published As

Publication number Publication date
JP2024076349A (ja) 2024-06-05
US20240185134A1 (en) 2024-06-06
EP4375885A1 (en) 2024-05-29

Similar Documents

Publication Publication Date Title
Luo et al. Gui-r1: A generalist r1-style vision-language action model for gui agents
US12293009B1 (en) Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation
US8631160B2 (en) Development of parallel/distributed applications
Thórisson A new constructivist AI: from manual methods to self-constructive systems
US10970623B2 (en) System and method for training artificial intelligence systems using a sima based processor
US10949743B2 (en) Method and system for implementing reinforcement learning agent using reinforcement learning processor
US10733532B2 (en) Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence
US10553207B2 (en) Systems and methods for employing predication in computational models
KR102610431B1 (ko) 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법
WO2021136512A1 (zh) 基于深度学习节点计算的调度方法、设备及存储介质
Yampolskiy Analysis of types of self-improving software
KR20240077642A (ko) 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법
CN119772873A (zh) 用于使用语言模型对机器人任务进行自动化编程的技术
Pérez‐Dattari et al. PUMA: Deep metric imitation learning for stable motion primitives
CN112269606B (zh) 一种类脑计算机操作系统的应用处理程序动态加载方法
US12400137B1 (en) Bidirectional network on a data-flow centric processor
US20240403601A1 (en) Method for inductive knowledge graph embedding using relation graphs and system thereof
CN118092764B (zh) 一种大语言模型指导的智能体动作控制方法及装置
KR102900493B1 (ko) 메타 입력을 통한 사용자 중심 추론 방법 및 시스템
US20240354550A1 (en) Adaptation of task performable by pre-trained model into parallel hardware
CN120821823A (zh) 一种基于语言模型的任务处理方法、装置
KR20240066227A (ko) 기계 학습 모델을 학습시키는 학습 장치 및 방법
KR20240027470A (ko) 인공 신경망 모델의 동작 방법 및 장치
CN113688998A (zh) 一种用于离线强化学习的样本生成方法及装置
Demicoli et al. Designing resilient autonomous systems with the reflex pattern

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

D21 Rejection of application intended

Free format text: ST27 STATUS EVENT CODE: A-1-2-D10-D21-EXM-PE0902 (AS PROVIDED BY THE NATIONAL OFFICE)

PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

E13 Pre-grant limitation requested

Free format text: ST27 STATUS EVENT CODE: A-2-3-E10-E13-LIM-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11 Amendment of application requested

Free format text: ST27 STATUS EVENT CODE: A-2-2-P10-P11-NAP-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000