KR20240077642A - 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 - Google Patents
스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 Download PDFInfo
- Publication number
- KR20240077642A KR20240077642A KR1020220159388A KR20220159388A KR20240077642A KR 20240077642 A KR20240077642 A KR 20240077642A KR 1020220159388 A KR1020220159388 A KR 1020220159388A KR 20220159388 A KR20220159388 A KR 20220159388A KR 20240077642 A KR20240077642 A KR 20240077642A
- Authority
- KR
- South Korea
- Prior art keywords
- task
- skill
- reinforcement learning
- model
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
도 2는 도 1의 강화학습 모델의 동작을 나타내는 순서도이다.
도 3은 스킬 정규화 태스크 분해 단계의 세부 단계을 나타내는 순서도이다.
도 4는 품질을 고려한 스킬 정규화 태스크 분해 모델의 구조를 나타내는 도면이다.
도 5는 품질을 고려한 스킬 정규화 태스크 분해 모델의 학습 과정을 나타내는 알고리즘이다.
도 6은 가상 데모 생성을 통한 데이터 증강 모델의 구조를 나타내는 도면이다.
도 7은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 로봇 팔 제어 학습 성능을 나타내는 도표이다.
도 8은 본 발명의 실시예들에 따른 강화학습 모델을 적용한 드론 주행 학습 성능을 나타내는 도표이다.
Claims (10)
- 품질을 고려한 스킬 정규화 태스크 분해 모델; 및
가상 데모 생성을 통한 데이터 증강 모델을 포함하고,
상기 스킬 정규화 태스크 분해 모델은,
2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 동작;
상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 동작; 및
에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 동작을 수행하는 것을 특징으로 하는,
강화학습 모델. - 제1항에 있어서,
상기 스킬 정규화 태스크 분해 모델은,
행동 시퀀스(Action Sequence) 단위의 복수의 스킬(Skill)에 서브 태스크(Sub Task)를 매칭함으로써, 태스크(Task)를 상기 서브 태스크로 분해하고,
상기 데이터 증강 모델은,
복수의 상기 태스크 사이에서 상기 서브 태스크에 대응되는 상기 스킬을 공유함으로써, 강화학습을 수행하는 것을 특징으로 하는,
강화학습 모델. - 제1항에 있어서,
상기 스킬 임베딩을 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
오프라인 데이터의 상기 2n-step의 상태-행동 쌍을 스킬 후보 공간에 매핑하고,
매핑된 후보 벡터를 사용하여 상기 2n-step의 상태-행동 쌍을 추론하는 것을 특징으로 하는,
강화학습 모델. - 제3항에 있어서,
상기 스킬 임베딩은,
아래 [수식1]의 스킬 임베딩 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
강화학습 모델.
[수식1]
(여기서, 이고, 는 스킬 인코더이고, 는 스킬 디코더이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, 는 스킬 임베딩이고, 는 t-n부터 t+n-1 사이의 상태-행동 쌍이다.) - 제1항에 있어서,
상기 스킬 정규화를 수행하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
상기 n-step 트랜지션을 태스크 후보 공간에 매핑하고,
같은 스킬로 해결되고, 기준 품질 이상의 데이터의 경우, 같은 태스크로 추론하고,
상기 기준 품질 미만의 데이터의 경우, 다른 태스크로 추론하는 것을 특징으로 하는,
강화학습 모델. - 제5항에 있어서,
상기 스킬 정규화는,
아래 [수식2]의 스킬 정규화 로스를 사용한 학습을 통해 수행되는 것을 특징으로 하는,
강화학습 모델.
[수식2]
(여기서, 이고, 이고, 는 태스크 인코더이고, 는 태스크 디코더이고, 는 t 시간의 보상이고, 는 트랜지션이고, 는 서브 태스크 임베딩 벡터이고, 은 상태-행동 쌍이 포함된 에피소드의 보상 합이다.) - 제6항에 있어서,
상기 에피소드 단위의 상기 태스크를 n-step 단위의 상기 서브 태스크로 분해하는 동작을 수행할 때, 상기 스킬 정규화 태스크 분해 모델은,
상기 스킬 정규화 과정에서 학습된 상기 태스크 인코더를 사용하여 서브 태스크를 추론하는 것을 특징으로 하는,
강화학습 모델. - 제1항에 있어서,
상기 데이터 증강 모델은,
상기 스킬 정규화 태스크 분해 모델을 사용하여 주어진 태스크에 맞는 스킬을 수행하였을 때 생성되는 데이터를 추론함으로써, 상기 가상 데모를 생성하고,
서브 태스크 정보를 입력값에 추가하여 학습함으로써, 학습 데이터를 증강하는 것을 특징으로 하는,
강화학습 모델. - 제8항에 있어서,
상기 가상 데모는,
아래 [수식3]을 통해 생성되는 것을 특징으로 하는,
강화학습 모델.
[수식3]
(여기서, 이고, 는 t 시간의 행동이고, 는 t 시간의 상태이고, , 는 t 시간의 보상이고, 는 서브 태스크 임베딩 벡터이고, 는 태스크 인코더이고, 는 태스크 디코더이다.) - 품질을 고려한 스킬 정규화 태스크 분해를 수행하는 단계; 및
가상 데모 생성을 통한 데이터 증강을 수행하는 단계를 포함하고,
상기 스킬 정규화 태스크 분해를 수행하는 단계는,
2n-step의 상태-행동 쌍(state-action pair)을 사용하여 스킬 임베딩을 수행하는 단계;
상태, 행동, 보상, 및 다음 상태를 포함하는 n-step 트랜지션(transition)을 사용하여 스킬 정규화를 수행하는 단계; 및
에피소드 단위의 태스크를 n-step 단위의 서브 태스크로 분해하는 단계를 포함하는 것을 특징으로 하는,
강화학습 방법.
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220159388A KR20240077642A (ko) | 2022-11-24 | 2022-11-24 | 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 |
| EP23203809.1A EP4375885A1 (en) | 2022-11-24 | 2023-10-16 | Multi-task offline reinforcement learning model based on skill regularized task decomposition and multi-task offline reinforcement learning method using the same |
| US18/488,246 US20240185134A1 (en) | 2022-11-24 | 2023-10-17 | Multi-task offline reinforcement learning model based on skill regularized task decomposition and multi-task offline reinforcement learning method using the same |
| JP2023181874A JP2024076349A (ja) | 2022-11-24 | 2023-10-23 | スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220159388A KR20240077642A (ko) | 2022-11-24 | 2022-11-24 | 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20240077642A true KR20240077642A (ko) | 2024-06-03 |
Family
ID=88417098
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020220159388A Pending KR20240077642A (ko) | 2022-11-24 | 2022-11-24 | 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20240185134A1 (ko) |
| EP (1) | EP4375885A1 (ko) |
| JP (1) | JP2024076349A (ko) |
| KR (1) | KR20240077642A (ko) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119717870B (zh) * | 2024-12-13 | 2025-08-01 | 天津大学 | 基于可解释强化学习的飞行器姿态控制方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4117473A4 (en) | 2020-03-26 | 2024-05-01 | Cqens Technologies Inc. | HEATING DEVICE WITHOUT COMBUSTION AND METHOD |
| KR20220117625A (ko) | 2021-02-17 | 2022-08-24 | 한국기술교육대학교 산학협력단 | 자율형 cps의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 cps 자가진화 프레임워크 및 이를 이용한 자율형 cps의 성능 자가진화 방법 |
-
2022
- 2022-11-24 KR KR1020220159388A patent/KR20240077642A/ko active Pending
-
2023
- 2023-10-16 EP EP23203809.1A patent/EP4375885A1/en not_active Withdrawn
- 2023-10-17 US US18/488,246 patent/US20240185134A1/en active Pending
- 2023-10-23 JP JP2023181874A patent/JP2024076349A/ja active Pending
Non-Patent Citations (1)
| Title |
|---|
| 한국공개특허 제10-2022-0117625호 "자율형 CPS의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 CPS 자가진화 프레임워크 및 이를 이용한 자율형 CPS의 성능 자가진화 방법" |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024076349A (ja) | 2024-06-05 |
| US20240185134A1 (en) | 2024-06-06 |
| EP4375885A1 (en) | 2024-05-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Luo et al. | Gui-r1: A generalist r1-style vision-language action model for gui agents | |
| US12293009B1 (en) | Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation | |
| US8631160B2 (en) | Development of parallel/distributed applications | |
| Thórisson | A new constructivist AI: from manual methods to self-constructive systems | |
| US10970623B2 (en) | System and method for training artificial intelligence systems using a sima based processor | |
| US10949743B2 (en) | Method and system for implementing reinforcement learning agent using reinforcement learning processor | |
| US10733532B2 (en) | Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence | |
| US10553207B2 (en) | Systems and methods for employing predication in computational models | |
| KR102610431B1 (ko) | 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법 | |
| WO2021136512A1 (zh) | 基于深度学习节点计算的调度方法、设备及存储介质 | |
| Yampolskiy | Analysis of types of self-improving software | |
| KR20240077642A (ko) | 스킬 정규화 태스크 분해 기반 다중 태스크 오프라인 강화학습 모델 및 이를 이용한 다중 태스크 오프라인 강화학습 방법 | |
| CN119772873A (zh) | 用于使用语言模型对机器人任务进行自动化编程的技术 | |
| Pérez‐Dattari et al. | PUMA: Deep metric imitation learning for stable motion primitives | |
| CN112269606B (zh) | 一种类脑计算机操作系统的应用处理程序动态加载方法 | |
| US12400137B1 (en) | Bidirectional network on a data-flow centric processor | |
| US20240403601A1 (en) | Method for inductive knowledge graph embedding using relation graphs and system thereof | |
| CN118092764B (zh) | 一种大语言模型指导的智能体动作控制方法及装置 | |
| KR102900493B1 (ko) | 메타 입력을 통한 사용자 중심 추론 방법 및 시스템 | |
| US20240354550A1 (en) | Adaptation of task performable by pre-trained model into parallel hardware | |
| CN120821823A (zh) | 一种基于语言模型的任务处理方法、装置 | |
| KR20240066227A (ko) | 기계 학습 모델을 학습시키는 학습 장치 및 방법 | |
| KR20240027470A (ko) | 인공 신경망 모델의 동작 방법 및 장치 | |
| CN113688998A (zh) | 一种用于离线强化学习的样本生成方法及装置 | |
| Demicoli et al. | Designing resilient autonomous systems with the reflex pattern |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| R17-X000 | Change to representative recorded |
St.27 status event code: A-3-3-R10-R17-oth-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| D21 | Rejection of application intended |
Free format text: ST27 STATUS EVENT CODE: A-1-2-D10-D21-EXM-PE0902 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13 | Pre-grant limitation requested |
Free format text: ST27 STATUS EVENT CODE: A-2-3-E10-E13-LIM-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11 | Amendment of application requested |
Free format text: ST27 STATUS EVENT CODE: A-2-2-P10-P11-NAP-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |