KR20200094577A

KR20200094577A - 인공신경망 시뮬레이터와 강화학습 제어기를 사용한 실시간 가속기 제어 시스템

Info

Publication number: KR20200094577A
Application number: KR1020190012232A
Authority: KR
Inventors: 이근호; 이상윤; 이준현; 이준엽
Original assignee: 주식회사 모비스
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-07
Also published as: JP2021515352A; WO2020159052A1

Abstract

본 발명은 인공 신경망을 기초로 가속기 제어 장치들에 대한 가속기 제어 시스템에 관한 것이다. 본 발명에 따른 가속기 제어 장치들에 대한 가속기 제어 시스템은, 복수 개의 가속기 제어 장치 각각에 대응되고, 인공 신경망 기반으로 학습 및 시뮬레이션을 수행하는 복수 개의 장치 시뮬레이터와; 상기 복수 개의 장치 시뮬레이터에 대응되는 적어도 하나의 제어 파라미터들에 대한 조정과 그에 따른 가속기 최종 출력 품질을 수행한 후, 가속기용 인젝터의 출력, 각 장치 시뮬레이터의 제어 파라미터 값과, 가속기 최종 출력 품질 값이 매칭된 복수 개의 학습용 데이터를 생성하고, 해당 복수 개의 학습용 데이터를 이용하여 기계 학습을 수행하여 상기 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 강화 학습 제어기를 포함하고, 상기 복수 개의 장치 시뮬레이터 각각은, 1차 시뮬레이터와; 상기 1차 시뮬레이터의 출력을 수신하여 노이즈 부가 처리를 수행하여 출력하는 노이즈 처리부와; 상기 노이즈 처리부의 출력을 기초로 궤환 신호를 발생하여 상기 1차 시뮬레이터로 제공하는 궤환 처리부를 포함하는 것을 특징으로 한다.

Description

인공신경망 시뮬레이터와 강화학습 제어기를 사용한 실시간 가속기 제어 시스템{Realtime Accelerator Controlling System using Artificial Neural Network Simulator and Reinforcement Learning Controller}

본 발명은 가속기 제어 시스템에 관한 것으로서, 보다 상세하게는 가속기 제어 장치들에 대응되는 시뮬레이터를 인공 신경망 기반으로 구축한 후 학습 및 시뮬레이션을 통해 각 가속기 제어 장치들에 대한 파라미터 값을 결정하는 인공신경망 시뮬레이터와 강화학습 제어기를 사용한 실시간 가속기 제어 시스템에 관한 것이다.

입자 가속기는 원자핵, 또는 기본 입자를 가속시키는 장치이나 궁극적으로는 입자의 충돌, 그 관측을 통해 물질의 미세 구조를 관측, 판명하고자 하는 장치이다.

이러한 입자 가속기는 가속 대상에 따라 양이온 가속기, 음이온 가속기, 중이온 가속기, 전자 가속기(방사광 가속기) 등이 있고, 가속 방식에 따라 선형 가속기, 원형 가속기 등이 있는 등 그 종류는 다양하다.

그런데 이러한 입자 가속기에서 입자를 빛의 속도에 근접하는 속도까지 가속시키기 위해서는 상당히 많은 장치들로 이루어져 있고, 그 규모 또한 상당히 크다.

예를 들어 4세대 포항 가속기의 경우에는, 강력한 자외선 레이저를 구리에 쬐어 전자가 튀어나오도록 하는 전자총, 이러한 전자총에 의한 전자빔의 길이를 대폭 압축시키는 선형가속기, 압축 가속된 전자빔이 영구자석 사이를 지나며 빛보다 상당히 밝은 X-선 방사광을 생성하는 언듈레이터, X-선 방사광을 출력하여 물질의 구조와 현상을 분자 구조까지 규명하는 X-선 실험장치(빔라인) 등이 하나의 가속 시스템을 구성하고 있고, 이러한 가속 시스템에서 전자총 제어, 입자의 가속 제어, 방사광 제어 등과 관련된 각종 제어 장치들이 모여 하나의 가속기 제어 시스템을 구성하는 것이다.

그런데 이러한 가속기 제어 시스템은 공간적으로 nm에서 Km까지의 영역을 다루고, 시간적으로 femto-sec에서 수일의 데이터 영역을 다루면서, 수십만 개의 제어 변수를 다루게 되는데, 이러한 가속기 제어 시스템에 포함된 각종 장치들에 대한 제어 파라미터에 대한 최적화가 상당히 어렵다.

즉, 가속기 제어 시스템에는 상술한 바와 같이 각종 제어 장치들(내부에 센서가 구비될 수 있음)이 가속 시스템 전 구간에 걸쳐 적게는 수십 개에서 많게는 수백 개까지 존재하고, 이들 각각의 제어 장치들에는 그 동작 방식을 결정하는 각종 파라미터(제어 변수)가 존재하게 되는데, 이러한 각 제어 장치들의 파라미터의 최적화는 종래에는 연구자들의 경험 등에 의존하고 있는 실정이다.

실제 제어 파라미터 설정의 시행착오를 줄이기 위하여 Matlab등을 사용하여 사전에 물리적 시뮬레이션은 수행하고 있으나, 전체 시스템의 시뮬레이션 기반 분석은 정확도나 계산 시간 면에서 많은 문제점을 가지고 있고, 포항가속기연구소등에서도 제어 파라미터의 최적화는 오랫동안의 운영 경험에 기초하여 전문가의 판단에 따른 제어 파라미터 설정을 사용하고 있다.

현재의 Matlab등을 이용한 물리 모델 시뮬레이션이나 실제 운영 경험에 따른 장비별 최적화 등은 부분적 최적화를 이룰 수 있으나, 다양한 제어 파라미터의 상호 영향에 따라 최종 목표인 가속기 최종 출력 품질(예를 들어 Q-BPM total 값)을 최대화하는 최적의 제어 파라미터를 탐색/결정하는 데에는 한계가 있다.

특히, 가속기 시뮬레이터인 Elegant 등을 기반으로 가상 가속기를 구현하고 제어 파라미터 최적화를 오프라인으로 구현하고자 하는 시도들이 있으나, 이러한 종래의 가속기 시뮬레이터의 속도 문제 등으로 인해 실시간 가속기 제어 시스템을 최적화할 수 없는 문제점이 있다.

공개특허 제10-2007-0054457호

본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 가속기 제어 시스템에 포함된 각종 제어 파라미터들에 대해 가속기 최종 출력 품질을 극대화하기 위한 최적 값을 산출/탐색하는 시스템을 제공하는 것이다.

상기한 목적을 달성하기 위해 본 발명에 따른 가속기 제어 장치들에 대한 가속기 제어 시스템은, 복수 개의 가속기 제어 장치 각각에 대응되고, 인공 신경망 기반으로 학습 및 시뮬레이션을 수행하는 복수 개의 장치 시뮬레이터와; 상기 복수 개의 장치 시뮬레이터에 대응되는 적어도 하나의 제어 파라미터들에 대한 조정과 그에 따른 가속기 최종 출력 품질을 수행한 후, 가속기용 인젝터의 출력, 각 장치 시뮬레이터의 제어 파라미터 값과, 가속기 최종 출력 품질 값이 매칭된 복수 개의 학습용 데이터를 생성하고, 해당 복수 개의 학습용 데이터를 이용하여 기계 학습을 수행하여 상기 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 강화학습 제어기를 포함하고, 상기 복수 개의 장치 시뮬레이터 각각은, 1차 시뮬레이터와; 상기 1차 시뮬레이터의 출력을 수신하여 노이즈 부가 처리를 수행하여 출력하는 노이즈 처리부와; 상기 노이즈 처리부의 출력을 기초로 궤환 신호를 발생하여 상기 1차 시뮬레이터로 제공하는 궤환 처리부를 포함하는 것을 특징으로 한다.

여기서, 상기 1차 시뮬레이터, 상기 노이즈 처리부, 상기 궤환 처리부는 모두 인공 신경망으로 이루어지고, 각 장치 시뮬레이터에 대응되는 가속기 제어 장치의 입력값에 따른 출력값을 기초로 한 기계 학습에 의해 형성된 것일 수 있다.

여기서, 상기 강화학습 제어기는 상기 복수 개의 장치 시뮬레이터에 구비된 적어도 하나의 제어 파라미터들의 모음에 해당하는 제어 파라미터 모음 세트를 지정하고, 상기 제어 파라미터 모음 셋에 포함된 제어 파라미터들의 값에 대한 변경 및 그에 따른 가속기 최종 출력 품질을 인공 신경망 기반 학습 과정을 통해 학습한 후, 상기 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 것일 수 있다.

여기서, 상기 강화학습 제어기는 상기 제어 파라미터 모음 세트에 포함된 제어 파라미터들 중 해당 제어 파라미터 모음 세트에 포함된 순서대로 하나씩 최적의 제어 파라미터 값을 산출한 것일 수 있다.

이상 설명한 바와 같이 본 발명에 따르면, 각 가속기 제어 장치들의 제어 파라미터에 대해 인공 신경망 기반 기계 학습을 수행함으로써, 가속기 최종 출력 품질을 높이는 최적의 제어 파라미터들의 값을 신속하게 판단할 수 있다.

또한, 실제 운영되는 가속기 제어 장치를 인공 신경망 기반의 장치 시뮬레이터로 대체한 후, 학습용 데이터를 수집함으로써, 최적의 제어 파라미터 도출을 위한 가속기 운영 중단을 방지할 수 있음은 물론이고, 제대로 된 학습을 통해 가속기 최종 출력 품질을 높이는 최적의 제어 파리미터들에 대한 판단 정확도를 상당히 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 가속기 제어 시스템의 기능 블록도이고,
도 2는 도 1의 장치 시뮬레이터의 인공 신경망의 구조의 일 예이고,
도 3은 각 장치 시뮬레이터의 구체적 구성의 일 예이고,
도 4는 도 1의 강화학습 제어기가 지도 학습을 위해 이용하는 데이터의 일 예이고,
도 5는 종래의 EPICS 기반 가속기 제어 시스템의 구성의 일 예이고,
도 6은 도 5와 비교되는 본 발명의 일 실시예에 따른 가속기 제어 시스템과 종래의 EPIC 시스템 간의 결합을 나타낸 도면이다.

이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.

이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.

도 1은 본 발명의 일 실시예에 따른 가속기 제어 장치들에 대한 실시간 가속기 제어 시스템(100)(이하 '가속기 제어 시스템(100)'이라 함)의 기능 블록도인데, 이러한 가속기 제어 시스템(100)은 후술하는 바와 같이 장치 시뮬레이터(110)의 각 파라미터를 최적화하기 위한 파라미터 결정 시스템에 해당할 수 있다.

동 도면에 도시된 바와 같이 가속기 제어 시스템(100)은 복수 개의 인공 신경망 기반 장치 시뮬레이터(110)(이하, '장치 시뮬레이터(110)'라 함) 및 강화학습 제어기(120)를 포함하여 구성된다.

여기서 각 장치 시뮬레이터(110)는 각 가속기 제어 장치에 대응되는 것으로서, 앞서 배경기술에서 언급한 바와 같이 하나의 가속기를 운영하기 위해서는 수십 개~ 수백 개, 필요에 따라서는 그 이상의 가속기 제어 장치가 필요한데, 도 1의 각 장치 시뮬레이터(110)는 이러한 가속기 제어 장치들을 각각 구현한 것이다.

특히 장치 시뮬레이터(110)는 인공 신경망 기반으로 학습 또는 시뮬레이션을 수행하도록 구성될 수 있다.

예를 들어 장치 시뮬레이터(110)는 도 2와 같은 인공 신경망을 구성하고, 기계 학습을 통해 실제 가속기 제어 장치와 동일한 특성을 보이도록 하는 최적의 내부 파라미터 값을 결정할 수 있다.

예를 들어 장치 시뮬레이터(110)는 가속기 시스템에서 오프 타겟(Off Target)으로 종래에 이용되고 있는 Elegant, Genesis 시뮬레이터를 시뮬레이션 하는 인공신경망으로 이루어진 것일 수 있다.

특히 이러한 복수 개의 장치 시뮬레이터(110) 각각은, 도 3에 도시된 바와 같이 1차 시뮬레이터(101), 노이즈 처리부(102), 궤환 처리부(103)를 포함하여 구성될 수 있다.

여기서 1차 시뮬레이터는 각 가속기 제어 장치의 기능을 시뮬레이션하는 것으로서, 예를 들어 Elegant LLRF(Low Level RF) 시뮬레이터 또는 Genesis 언듈레이터(Undultator) 시뮬레이터에 해당할 수 있다.

노이즈 처리부는 1차 시뮬레이터의 출력을 수신하여 노이즈 부가 처리를 수행하여 출력하는 기능을 수행하는 것이다.

여기서 노이즈 처리부는 가속기 운영 중 실제 상황에서 발생하거나 발생할 수 있는 외력, 진동 등에 따른 노이즈를 인위적으로 생성할 수 있다.

궤환 처리부는 노이즈 처리부의 출력을 기초로 궤환 신호를 발생하여 1차 시뮬레이터로 제공하는 기능을 수행한다.

이러한 1차 시뮬레이터, 노이즈 처리부, 궤환 처리부는 모두 인공 신경망(Neural Network)으로 형성된 것으로서, 기존의 시뮬레이터의 특성(입력 및 출력)을 기계 학습하여 형성된 것일 수 있다.

도 3에서 입력 및 출력되는 BPM(Beam Position Monitor)는 cBPM(cavity BPM) 이거나 sBPM(stripline BPM)일 수 있다.

참고로 도 2와 같은 형태는 기계 학습을 위한 인공 신경망 구성 분야에서 널리 알려진 형태에 불과하므로, 각 레이어에서의 가중치(Weight)를 기계 학습에 의해 최적의 값이 되도록 하는 공지된 기술에 대해서는 설명을 생략한다.

다만, 도 2에 도시된 바와 같이 각 장치 시뮬레이터(110)는 앞 단에 위치한 장치 시뮬레이터(110)의 결과를 센서 파라미터로서 입력받고, 또한 제어 파리미터를 입력받은 후, 내부의 히든 레이어(히든 레이어의 형태나 가중치 등은 장치 시뮬레이터(110)에 대응되는 각 가속기 제어 장치의 기능에 따라 달라짐)를 거친 후, 최종적으로 출력 레이어에서 다음 단에 위치한 장치 시뮬레이터(110)로 센서 파라미터를 전달할 수 있다.

즉, 이 경우 각 장치 시뮬레이터(110)는 앞 단에 위치한 장치 시뮬레이터(110)의 결과값을 입력받은 후 내부 제어 파라미터 값에 따른 결과를 출력하는 구조로 이루어지는 것이다.

여기서 각 장치 시뮬레이터(110)가 '앞 단' 또는 '다음 단'에 위치한다는 것은 실제 가속기 운영을 위한 가속기 제어 장치들이 그러한 순서대로 배치되어 있음을 의미한다.

즉, 복수 개의 장치 시뮬레이터(110)는 각각 특정 배치 순서에 매칭되어 있고 이러한 장치 시뮬레이터(110)에 매칭된 배치 순서는 실제 가속기 운영을 위한 가속기 제어 장치들의 배치 순서와 일치하는 것이다.

이렇게 인공 신경망 기반으로 기계 학습을 수행한 후 장치 시뮬레이터(110)의 각 레이어(인공 신경망 레이어)의 내부 변수 weight 값이 결정되게 되고, 이후 이를 전제로 가속기 최종 출력 품질을 가장 좋도록 하는 각 가속기 제어 장치들 즉, 각 장치 시뮬레이터(110)들의 제어 파라미터들이 강화학습 제어기(120)에 의해 산출 또는 결정되는데, 이를 위해 강화학습 제어기(120) 역시 도 2와 같은 인공 신경망으로 구성될 수 있다.

이하 이러한 과정을 구체적으로 설명한다.

우선, 강화학습 제어기(120)는 복수 개의 장치 시뮬레이터(110)에 대응되는 적어도 하나의 제어 파라미터들에 대한 조정과 그에 따른 가속기 최종 출력 품질을 수행한 후, 가속기용 인젝터의 출력, 각 장치 시뮬레이터(110)의 제어 파라미터 값과, 가속기 최종 출력 품질 값이 매칭된 복수 개의 학습용 데이터를 생성한다.

즉, 종래에는 이러한 학습용 데이터를 가속기 운영 중에 발생하거나 적용한 데이터를 이용하였으나, 본 발명에서는 인공 신경망으로 이루어진 장치 시뮬레이터(110)를 이용하여 이러한 복수 개의 학습용 데이터를 생성하고, 이를 이용하는 것이다.

이처럼 각 장치 시뮬레이터(110)가 인공 신경망으로 구성된 경우 학습용 데이터를 획득하는 시간이 상당히 단축될 수 있다. 즉, 앞서 설명한 바와 같이 장치 시뮬레이터(110)가 Elegant 기반의 가상화 장치에 불과한 경우에는 그 처리 속도가 상당히 떨어지므로 신속하게 학습용 데이터를 구할 수 없다.

이에 반해 장치 시뮬레이터(110)가 인공 신경망으로 구성되어 기계 학습을 통해 실제 각 가속기 제어 장치의 특징을 구현한 경우에는 실제 가속기 운영 중에 적용할 수 없었던 제어 파라미터 변경 등을 적용할 수 있고, 그에 따른 학습용 데이터를 용이하게 획득할 수 있다.

이어서 강화학습 제어기(120)는 생성된 복수 개의 학습용 데이터를 이용하여 기계 학습을 수행하여 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하게 된다.

즉, 강화학습 제어기(120)가 상황에 따른 가속기 최종 출력 품질이 가장 높도록 하는 각 가속기 제어 장치들의 제어 파라미터를 산출하도록 하기 위해서는 상술한 학습용 데이터를 위한 기계 학습이 선행되어야 하는데, 종래에는 실제의 가속기 운영 중에 적용되었던 데이터를 수집하여 학습용 데이터로 이용함에 반해, 본 실시예에서는 각 가속기 제어 장치에 대응되는 장치 시뮬레이터(110)가 인공 신경망으로 구성되어 있으므로 다양한 제어 파라미터(실제 가속기에는 적용할 수 없었던 제어 파라미터)를 적용한 학습용 데이터를 생성한 후 이를 이용함으로써, 결국 인공 신경망의 장점을 극대화시킬 수 있다.

즉, 인공 신경망으로 이용하여 기계 학습을 하는 경우 그 학습용 데이터가 다양해야 제대로 된 학습이 이루어질 수 있는데, 종래에 실제 가속기 운영 중에 수집되는 학습용 데이터는 가속기의 안정성 등의 이유로 인해 제한된 범위의 데이터일 수밖에 없고, 결국 이를 이용하면 제대로 된 학습이 이루어 질 수 없지만, 본 실시예에 따른 학습용 데이터가 종래에 적용될 수 없는 제어 파라미터를 적용하여 수집한 데이터이기 때문에 강화학습 제어기(120)는 제대로 된 인공 신경망(상황별로 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하도록 하는 인공 신경망) 구축을 위한 기계 학습을 수행할 수 있는 것이다.

이하에서는 강화학습 제어기(120)가 제어 파라미터 모음 세트(Set)을 이용하여 학습을 진행하는 구체적인 과정을 설명한다.

강화학습 제어기(120)는 복수 개의 장치 시뮬레이터(110)에 구비된 적어도 하나의 제어 파라미터들의 모음에 해당하는 제어 파라미터 모음 세트(SET)을 지정하고, 그 제어 파라미터 모음 세트에 포함된 파라미터들의 값에 대한 변경 및 그에 따른 가속기 최종 출력 품질을 인공 신경망 기반 학습 과정을 통해 학습한 후, 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 기능을 수행한다.

예를 들어 각 복수 개의 장치 시뮬레이터(110)에 포함된 파라미터들이 각각 C0_1, C1_1, C2_1, C3_1인 경우, 강화학습 제어기(120)는 이들을 하나의 파라미터 모음 세트인 '{C0_1, C1_1, C2_1, C3_1}'을 지정한 후, 그 파라미터 모음 세트에 포함된 각 파라미터들(즉, C0_1, C1_1, C2_1, C3_1)의 값에 대한 변경을 기계 학습을 통해 수행하면서 최종 출력 품질이 가장 높도록 하는 제어 파라미터들의 값을 산출하는 것이다.

이때 강화학습 제어기(120)는 제어 파라미터 모음 세트에 포함된 파라미터들 중 해당 제어 파라미터 모음 세트에 포함된 순서대로 하나씩 최적의 파라미터 값을 산출할 수 있다.

즉, 상술한 예와 같이 모음 세트이 '{C0_1, C1_1, C2_1, C3_1}'과 같이 되어 있는 경우 강화학습 제어기(120)는 첫 번째 파라미터인 C0_1에 대한 값을 지정하고, 그 값을 고정 값으로 한 상태에서 기계 학습을 통해 최적의 최종 출력 품질을 만족하는 C1_1을 산출하는 것이다.

이후 강화학습 제어기(120)는 기 지정 또는 산출된 C0_1, C1_1의 값을 고정 값으로 한 상태에서 기계 학습을 통해 최적의 최종 출력 품질을 만족하는 C2_1을 산출하고, 마찬가지로, C0_1, C1_1, C2_1의 값을 고정 값으로 한 상태에서 기계 학습을 통해 최적의 최종 출력 품질을 만족하는 C3_1을 산출할 수 있다.

여기서 제어 파라미터 모음 세트에는 복수 개의 장치 시뮬레이터(110)에 포함된 제어 파라미터들이 그 대응되는 장치 시뮬레이터(110)의 배치 순서와 동일한 순서대로 포함될 수 있다.

즉, 앞서 설명한 바와 같이 복수 개의 장치 시뮬레이터(110)는 그 대응되는 가속기 제어 장치에 따라 각각 특정 배치 순서를 가질 수 있는데, 제어 파라미터 모음 세트에는 이러한 각 장치 시뮬레이터(110)의 배치 순서에 따라 각 제어 파라미터들이 포함되게 되고, 강화학습 제어기(120)는 그 제어 파라미터 모음 세트에 포함된 순서대로 각 제어 파라미터의 값을 결정/산출하는 것이다.

예를 들어 가속기 운영을 위해 제1 가속기 제어 장치, 제2 가속기 제어 장치, 제3 가속기 제어 장치, 제4 가속기 제어 장치가 그 순서대로 배치되어야 하고, 제1 가속기 제어 장치에는 제1 제어 파라미터(C0_1)가, 제2 가속기 제어 장치에는 제2 제어 파라미터(C1_1)가, 제3 가속기 제어 장치에는 제3 제어 파라미터(C2_1)가, 제4 가속기 제어 장치에는 제4 제어 파라미터(C3_1)가 설정될 수 있다고 가정하면, 제어 파라미터 모음 세트는 '{C0_1, C1_1, C2_1, C3_1}'과 같이 구성될 수 있고, 강화학습 제어기(120)는 그 순서대로 각 파라미터 값을 결정하는 과정을 수행하는 것이다.

본 실시예에서는 각 가속기 제어 장치가 하나의 파라미터를 가지는 것을 일 예로 하였으나, 각 가속기 제어 장치는 복수 개의 파라미터를 가질 수도 있고, 그 복수 개의 파라미터들 간의 우선순위도 존재할 수 있음은 물론이다.

상술한 바와 같이 각 장치 시뮬레이터(110)(가속기 제어 장치)의 최적의 제어 파라미터 값을 산출하기 위해 강화학습 제어기(120)는 강화학습 모델을 기초로 MCTS(Monte Carlo Tree Search) 알고리즘을 이용할 수 있다.

여기서 MCTS 알고리즘은 난수를 사용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어로서, 계산하려는 값이 닫힌 값으로 표현되지 않거나 복잡한 경우, 이를 근사적으로 계산하기 위해 사용되는 것이다.

예를 들어 Monte-Carlo 알고리즘을 적용해 원의 넓이를 구하는 경우, 원과 원에 내접하는 정사각형을 그리고 정사각형 안에 많은 수의 점을 찍어 점이 원의 내부에 찍힌 확률을 계산하면 원의 넓이를 근사적으로 구할 수 있다는 것이고, 이러한 Monte-Carlo 알고리즘은 임의 시행의 횟수를 증가시킬수록 정확도가 증가하게 된다.

Monte-Carlo Tree Search(MCTS)는 최선의 선택(optimal decision)을 찾는 방법으로서, 의사 결정을 위한 체험적 탐색 알고리즘으로 수식을 만들어 해를 찾기가 쉽지 않을 때 주로 사용되는데, 예를 들어 게임에서 최선의 수를 찾기 위한 방법으로 활용되는 것이다.

예를 들어 MCTS를 게임에 적용한다면, 게임에서 두는 각각의 수가 노드이고 게임의 전체 과정은 각 수의 연속인 트리로 표현된다. 각 노드에는 승률이 기록되어 있으며, 게임에서 최선의 수를 찾는 과정은 가장 승률이 높은 노드를 찾아가는 것으로 근사될 수 있고, MCTS는 각 노드별 승률을 계산하고 승률이 높은 노드를 찾아가는 과정이라 할 수 있다.

트리 탐색의 문제점은 자식 노드가 많아지면 탐색에 시간이 굉장히 많이 걸린다는 점인데, MCTS는 전체 가능성을 모두 탐색하지 않고 다수의 random simulation을 통해 게임 결과를 구하여 이를 노드의 승률에 적용하는 알고리즘에 해당한다.

이러한 MCTS 알고리즘은 Selection, Expansion, Simulation, Back propagation 네 가지 단계로 이루어지는데, 간략하게 설명하면 다음과 같다.

(1) Selection (선택): 루트 R에서 시작하여 연속되는 자식 노드를 따라 내려가 노드L을 선택한다.

(2) Expansion (확장): 노드L에서 게임이 종료되지 않은 경우, 새로운 자식 노드C를 생성하거나 기존의 자식 노드 중 하나를 노드C로 선정한다.

(3)Simulation (시뮬레이션): 노드C를 대상으로 random playout을 수행한다.

(4) Back propagation (역전파): playout의 결과를 노드 C에서 루트 R까지 업데이트한다.

이러한 MCTS 알고리즘 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.

강화학습 제어기(120)는 상술한 과정을 거쳐 가속기용 인젝터의 출력, 각 장치 시뮬레이터(110)의 제어 파라미터 값과, 가속기 최종 출력 품질 값이 매칭된 학습용 데이터를 복수 개 구비하게 되는데, 그 복수 개의 학습용 데이터들 중 기 설정된 개수만큼의 학습용 데이터를 이용하여 지도 학습(SL : Supervised Learning)을 통해 학습을 한 후, 강화 학습(RL : reinforcement learning)을 수행하여 최적의 제어 파라미터 값들을 산출해 낼 수 있다.

여기서 '지도 학습'(Supervised Learning)은 데이터에 대한 레이블(Label)-명시적인 정답-이 주어진 상태에서 학습을 시키는 것으로서, 기존에 산출된 빅 데이터(즉, 상술한 바와 같이 인공 신경망으로 구성된 장치 시뮬레이터(110)를 이용하여 제어 파라미터를 변경해 가면서 획득한 입력, 제어 파라미터, 최종 출력 품질 값)를 이용하여 인공 신경망 기반으로 학습하는 것을 의미하고, 강화 학습은 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고 이로부터 어떤 보상(reward)을 얻으면서 학습을 진행하는 것을 의미한다.

이러한 지도 학습 또는 강화 학습 역시 이론적 내용은 기 공지된 기술에 해당하는데, 본 발명의 특징은 이러한 학습 방법을 가속기 제어 장치들의 최적의 파라미터를 산출하는데 이용하고 있다는데도 그 특징이 있는 것이다.

도 4는 강화학습 제어기(120)의 '지도 학습'을 위해 미리 획득한 데이터의 일 예이다.

즉, 도 4의 각 행은 앞서 언급한 학습용 데이터에 해당하고, 강화학습 제어기(120)는 이렇게 모인 복수 개의 학습용 데이터 중 기 설정된 순서에 따라 또는 랜덤 방식으로 몇 개의 케이스에 해당하는 학습용 데이터를 추출한 후, 그 추출한 학습용 데이터를 이용하여 인공 신경망에서 '지도 학습'을 수행할 수 있는 것이다.

참고로 도 4의 각 학습용 데이터에서 'I'는 인젝터의 출력 값, Q-BPM은 가속기 최종 출력 품질 값이고, 나머지는 각 가속기 제어 장치들의 제어 파라미터에 해당한다.

상술한 실시예에서 설명한 가속기 제어 시스템(100)은 예를 들어 EPICS 기반 가속기 제어 시스템과 결합하여 운영될 수도 있다.

도 5는 종래의 EPICS 기반 가속기 제어 시스템을 나타내고 있고, 도 6은 이러한 EPICS 기반 가속기 제어 시스템에서 제어 장치들이 본 발명에 따른 장치 시뮬레이터(110)로 대체되고 강화학습 제어기(120)가 추가되어 운영되는 형태를 도시하고 있다.

도 5를 참조하면, LLRF, BPM 등의 가속기 제어 장치는 가속기 전체구간에서 수십대씩 배치되어 각 구간에서 최적화를 수행하는데, 이때 가속기 제어 장치들은 EPICS IOC에 각 디바이스별로 주어진 시간 주기별로 Pv data에 대한 이벤트를 발생하거나, 변화한 값들에 대한 이벤트를 발생시키고, EPICS IOC( Input Output Controller) 서버는 각 디바이스들의 이벤트를 수집하여 운영자가 사용하는 CSS 화면 등에 표시할 수 있게 데이터를 보내거나, 추후 데이터를 활용할 수 있게 AA (Archiver Appliance) 서버 등에 데이터를 보내어 저장하고, 만일 특정한 설정값을 벗어난 값이 들어올 때는 Alarm Server를 통해 CSS 시스템에 경고 메시지등을 출력함으로써 운영자가 조치할 수 있도록 한다.

도 6은 이러한 가속기 제어 장치가 인공 신경망 기반의 장치 시뮬레이터(110)로 대체되고, 장치 시뮬레이터(110)와 통신하는 강화학습 제어기(120)가 추가된 상태가 도시되었다.

도 6과 같이 실제 운영되는 가속기 제어 장치를 인공 신경망 기반의 장치 시뮬레이터(110)로 대체함으로써, 최적의 제어 파라미터 도출을 위한 가속기 운영 중단을 방지할 수 있을 뿐만 아니라, 장치 시뮬레이터(110)가 인공 신경망 기반으로 학습이 이루어진 형태를 가짐으로써 실제의 가속기 제어 장치의 특성에 상당히 근접할 수 있게 되는 것이다.

도 6에는 편의상 종래의 EPICS에 가속기 제어 장치가 추가로 포함되는 것을 일 예로 하였으나, 가속기 제어 장치는 별도의 시스템으로 구성되거나 상술한 장치 시뮬레이터(110)와 함께 하나의 시스템으로 구성될 수도 있다.

상술한 실시예에서는 각 장치 시뮬레이터에 궤환 처리부가 포함되는 것을 일 예로 하였으나, 궤환 처리부 그 자체는 강화 학습 제어기에 포함될 수도 있다.

한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.

이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.

또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 특허청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.

100 : 가속기 제어 시스템 110 : 장치 시뮬레이터
120 : 강화학습 제어기

Claims

복수 개의 가속기 제어 장치 각각에 대응되고, 인공 신경망 기반으로 학습 및 시뮬레이션을 수행하는 복수 개의 장치 시뮬레이터와;
상기 복수 개의 장치 시뮬레이터에 대응되는 적어도 하나의 제어 파라미터들에 대한 조정과 그에 따른 가속기 최종 출력 품질을 수행한 후, 가속기용 인젝터의 출력, 각 장치 시뮬레이터의 제어 파라미터 값과, 가속기 최종 출력 품질 값이 매칭된 복수 개의 학습용 데이터를 생성하고, 해당 복수 개의 학습용 데이터를 이용하여 기계 학습을 수행하여 상기 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 강화학습 제어기를 포함하고,
상기 복수 개의 장치 시뮬레이터 각각은, 1차 시뮬레이터와; 상기 1차 시뮬레이터의 출력을 수신하여 노이즈 부가 처리를 수행하여 출력하는 노이즈 처리부와; 상기 노이즈 처리부의 출력을 기초로 궤환 신호를 발생하여 상기 1차 시뮬레이터로 제공하는 궤환 처리부를 포함하는 것을 특징으로 하는 가속기 제어 장치들에 대한 가속기 제어 시스템.
제1항에 있어서,
상기 1차 시뮬레이터, 상기 노이즈 처리부, 상기 궤환 처리부는 모두 인공 신경망으로 이루어지고, 각 장치 시뮬레이터에 대응되는 가속기 제어 장치의 입력값에 따른 출력값을 기초로 한 기계 학습에 의해 형성된 것을 특징으로 하는 가속기 제어 장치들에 대한 가속기 제어 시스템.
제1항에 있어서,
상기 강화학습 제어기는 상기 복수 개의 장치 시뮬레이터에 구비된 적어도 하나의 제어 파라미터들의 모음에 해당하는 제어 파라미터 모음 세트를 지정하고, 상기 제어 파라미터 모음 셋에 포함된 제어 파라미터들의 값에 대한 변경 및 그에 따른 가속기 최종 출력 품질을 인공 신경망 기반 학습 과정을 통해 학습한 후, 상기 가속기 최종 출력 품질이 가장 높도록 하는 최적의 제어 파라미터들의 값을 산출하는 것을 특징으로 하는 가속기 제어 장치들에 대한 가속기 제어 시스템.
제3항에 있어서,
상기 강화학습 제어기는 상기 제어 파라미터 모음 세트에 포함된 제어 파라미터들 중 해당 제어 파라미터 모음 세트에 포함된 순서대로 하나씩 최적의 제어 파라미터 값을 산출하는 것을 특징으로 하는 가속기 제어 장치들에 대한 가속기 제어 시스템.