WO2021187672A1

WO2021187672A1 - 에너지 관리 시스템 및 에너지 관리 방법

Info

Publication number: WO2021187672A1
Application number: PCT/KR2020/007878
Authority: WO
Inventors: 홍승호; 루렌지
Original assignee: Industry University Cooperation Foundation IUCF HYU
Current assignee: Industry University Cooperation Foundation IUCF HYU
Priority date: 2020-03-20
Filing date: 2020-06-18
Publication date: 2021-09-23
Anticipated expiration: 2022-09-20
Also published as: KR20210117823A; CN115298683A; KR102573714B1; EP4109378A4; EP4109378A1; US20230103426A1

Abstract

본 발명의 실시예들은 에너지 공급자로부터 에너지 가격 정보를 수신하는 수신부, 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력하는 출력부 및 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하는 결정부를 포함하고, 결정부는 시간 h에서의 에너지 소비 액션을 결정하기 위해 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행하는 에너지 관리 시스템 및 에너지 관리 방법을 제공한다.

Description

에너지 관리 시스템 및 에너지 관리 방법

본 발명의 실시예들은 에너지 관리 시스템 및 에너지 관리 방법에 관한 것이다.

산업 발전에 따라 에너지 수요가 증가하면서, 에너지를 소비하는 다양한 주체들의 수요 반응(demand response, DR)을 관리하는 것이 중요한 문제로 대두되고 있다. 이를 위해 다양한 분야에 대해 수요 반응을 관리하기 위한 에너지 관리 장치, 방법 및 시스템을 연구하는 노력이 활발하게 이루어지고 있다.

특히 가정이나 상업 시설에 설치된 에너지 소비 장치의 수요 반응을 관리하여 에너지 소비를 최적화하기 위한 다양한 에너지 관리 시스템이 개발되었다. 그러나 기존에 개발된 에너지 관리 시스템은 결정론적 규칙(deterministic rules), 추상적인 모델(abstract model), 혼합 정수 계획법(Mixed Integer Linear Programming, MILP) 또는 게임 이론(game theory) 등을 기초로 구축되어 최적화를 보장하지 못하거나 현실의 에너지 소비 장치와 맞지 않는 문제가 있다.

전술한 배경에서 본 발명의 실시예들은 특정한 모델에 종속되지 않으면서, 다양한 환경에 적응 가능한 에너지 관리 시스템 및 에너지 관리 방법을 제공할 수 있다.

또한 본 발명의 실시예들은 에너지 소비로 인한 비용 및 불만족 비용의 합을 최소화할 수 있는 에너지 관리 시스템 및 에너지 관리 방법을 제공할 수 있다.

일 측면에서, 본 발명의 실시예들은 복수의 에너지 소비 장치를 제어하는 에너지 관리 시스템에 있어서, 에너지 공급자로부터 에너지 가격 정보를 수신하는 수신부, 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력하는 출력부 및 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하는 결정부를 포함하고, 결정부는 시간 h에서의 에너지 소비 액션을 결정하기 위해, 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행하는 에너지 관리 시스템을 제공할 수 있다.

다른 측면에서, 본 발명의 실시예들은 복수의 에너지 소비 장치를 제어하는 에너지 관리 방법에 있어서, 에너지 공급자로부터 에너지 가격 정보를 수신하는 수신 단계, 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력하는 출력 단계 및 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하는 결정 단계를 포함하고, 결정 단계는 시간 h에서의 에너지 소비 액션을 결정하기 위해, 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행하는 에너지 관리 방법을 제공할 수 있다.

본 발명의 실시예들에 따르면 특정한 모델에 종속되지 않으면서, 다양한 환경에 적응 가능한 에너지 관리 시스템 및 에너지 관리 방법을 제공할 수 있다.

또한 본 발명의 실시예들에 따르면 에너지 소비로 인한 비용 및 불만족 비용의 합을 최소화할 수 있는 에너지 관리 시스템 및 에너지 관리 방법을 제공할 수 있다.

도 1은 본 발명의 실시예들에 따른 에너지 관리 시스템의 블록도이다.

도 2는 본 발명의 실시예들에 따른 에너지 관리 시스템과 에너지 소비 장치의 상호 작용을 통한 강화 학습을 나타낸 도면이다.

도 3은 본 발명의 실시예들에 따른 에너지 소비 장치의 타입의 일 예를 나타낸 도면이다.

도 4는 본 발명의 실시예들에 따른 에너지 관리 시스템과 에너지 소비 장치의 동작을 나타낸 도면이다.

도 5는 본 발명의 실시예들에 따른 인공 신경망의 일 예를 나타낸 도면이다.

도 6은 본 발명의 실시예들에 따른 에너지 관리 시스템의 동작이 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 결정하는 일 예를 나타낸 흐름도이다.

도 7은 본 발명의 실시예들에 따른 에너지 소비 장치의 시간 h에서의 Q값을 업데이트하는 동작의 일 예를 나타낸 흐름도이다.

도 8은 본 발명의 실시예들에 따른 결정부가 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 선택하는 일 예를 나타낸 도면이다.

도 9는 본 발명의 실시예들에 따른 에너지 관리 방법을 나타낸 흐름도이다.

이하, 본 개시의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

본 발명의 실시예들에 있어서, 에너지의 형태는 전기 에너지, 열 에너지, 빛 에너지 등일 수 있다. 이하, 본 발명의 실시예들에서는 에너지의 형태가 전기 에너지인 경우에 대해 주로 설명하나 에너지의 형태는 이에 한정되지 않는다.

이하에서는, 관련 도면을 참조하여 본 발명의 실시예들에 따른 에너지 관리 장치, 에너지 관리 방법 및 에너지 관리 시스템에 대하여 설명하기로 한다.

도 1을 참조하면, 복수의 에너지 소비 장치를 제어하는 에너지 관리 시스템(100)은 수신부(110), 출력부(120) 및 결정부(130)를 포함할 수 있다.

에너지 소비 장치는 에너지를 소비하여 특정한 동작을 수행할 수 있는 모든 장치를 의미한다. 예를 들어 에너지 소비 장치는 가정 또는 상업 시설에서 사용하는 전기 기기(e.g. 냉장고/세탁기/에어컨/전등/히터 등)일 수 있다. 에너지 소비 장치는 에너지 관리 시스템(100)과 서로 정보를 송수신하면서 상호 작용할 수 있다.

수신부(110)는 에너지 공급자(10)로부터 에너지 가격 정보를 수신할 수 있다. 에너지 공급자(10)는 에너지 소비 장치가 에너지를 소비할 수 있도록 에너지를 공급하는 주체(e.g. 전력 회사)를 의미한다. 에너지 관리 시스템(100)은 에너지 공급자(10)로부터 에너지 가격 정보를 수신하고, 에너지 관리 시스템이 제어하는 복수의 에너지 소비 장치의 에너지 소비 정보를 에너지 공급자(10)에게 송신할 수 있다.

에너지 가격 정보는 특정 시간에 단위 에너지를 소비할 때 발생하는 비용(e.g. 40$/MWh)을 지시하는 정보이다. 예를 들어, 에너지 가격 정보는 현재 시점으로부터 한 시간 후(hour-ahead)에 단위 에너지를 소비할 때 발생하는 비용을 지시할 수 있다.

출력부(120)는 수신부(110)가 에너지 공급자(10)로부터 수신한 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력할 수 있다. 이때, 출력되는 예상 에너지 가격 정보는 전술한 에너지 가격 정보가 지시하는 시간 이후에 단위 에너지를 소비할 때 발생하는 비용의 예상치를 지시하는 정보이다.

환경 정보는 인공 신경망(ANN)이 예상 에너지 가격 정보를 결정하기 위해 필요한 다양한 정보를 의미한다.

결정부(130)는 출력부(120)에서 출력한 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정할 수 있다.

에너지 소비 장치의 시간 h에서의 에너지 소비 액션이란 에너지 소비 장치가 특정한 시간 h(e.g. 15시)에서 에너지를 소비하기 위해 실행하는 구체적인 동작을 의미한다. 예를 들어 에너지 소비 장치의 시간 h에서 에너지 소비 액션은 에너지 소비 장치가 온(On) 동작, 오프(Off) 동작, 100MWh의 전력을 사용하여 난방을 수행하는 동작 등을 실행할 것을 지시할 수 있다. 이때 시간 h는 현재 시점보다 미래인 임의의 시간이다.

이때, 결정부(130)는 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하기 위해, 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값(Q-value)을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행할 수 있다.

Q값은 특정 에너지 소비 상태에서 특정 에너지 소비 액션을 수행하였을 때의 결과를 평가하기 위한 값으로서, 각 에너지 소비 장치가 특정 에너지 소비 상태일 때 어떤 에너지 소비 액션을 수행해야 하는지를 결정하기 위해 사용될 수 있다. Q값은 에너지 소비 장치의 에너지 소비 상태 s, 에너지 소비 액션 a을 인자로 하며 Q(s, a)로 표현될 수 있다. Q값은 에너지 소비 상태 s 및 에너지 소비 액션 a를 인자로 하는 임의의 수식에 의해 결정되는 값일 수 있다.

도 2는 본 발명의 실시예들에 따른 에너지 관리 시스템(100)과 에너지 소비 장치의 상호 작용을 통한 강화 학습을 나타낸 도면이다.

에너지 관리 시스템(100)과 복수의 에너지 소비 장치의 상호 작용은 상태(state), 액션(action)과 보상(reward)과의 연관 관계를 나타내는 마르코프 결정 프로세스(MDP, Markov Decision Process)에 기반한다.

에너지 관리 시스템(100)은 각 에너지 소비 장치와 상호 작용하면서, 각 에너지 소비 장치를 제어하기 위한 정책(policy) π를 최적화하는 강화 학습(RL, Reinforcement Learning)을 수행할 수 있다.

구체적으로, 에너지 관리 시스템(100)은 각 에너지 소비 장치의 상태(state) s를 입력받은 후 정책 π에 따라 액션(action) a를 결정할 수 있다. 각 에너지 소비 장치는 액션 a를 실행한 후 그 결과에 따른 보상(reward)을 결정하여 에너지 관리 시스템(100)에 피드백할 수 있다. 에너지 관리 시스템(100)은 피드백된 보상에 따라 정책 π를 변경할 수 있다. 그리고 각 에너지 소비 장치는 액션 a를 수행한 후 변경된 상태를 다시 에너지 관리 시스템(100)에 입력할 수 있다.

이와 같이 에너지 관리 시스템(100)과 각 에너지 소비 장치 간에 서로 상태, 액션, 보상에 대한 정보를 주고 받으면서 상호 작용하는 과정을 반복적으로 수행하여, 에너지 관리 시스템(100)은 각 에너지 소비 장치를 제어하기 위한 최적화된 정책을 학습할 수 있다.

이때, 각 에너지 소비 장치가 수행할 수 있는 액션, 즉 각 에너지 소비 장치의 시간 별 에너지 소비 액션은 각 에너지 소비 장치의 타입에 따라 다르게 결정될 수 있다.

도 3을 참조하면, 에너지 소비 장치의 타입은 1) 비변경(non-shiftable) 로드 타입, 2) 변경(shiftable) 로드 타입 및 3) 제어-가능(controllable) 로드 타입 중 어느 하나일 수 있다.

비변경(non-shiftable) 로드 타입인 에너지 소비 장치는 특정한 요구 사항을 만족하기 위하여 하나의 에너지 소비 액션(e.g. On 동작)만 실행 가능하다. 예를 들어 냉장고는 음식물의 신선도를 유지하기 위해 24시간 동작해야 하므로 항상 에너지를 소비하는 온(On) 동작만 실행 가능하다.

변경(shiftable) 로드 타입인 에너지 소비 장치는 두 가지의 에너지 소비 액션(e.g. On/Off)만 실행 가능하다. 예를 들어 세탁기는 에너지를 소비하는 온(On) 동작 또는 에너지를 소비하지 않는 오프(Off) 동작만 가능하다. 이러한 변경(shiftable) 로드 타입인 에너지 소비 장치는 어느 시점에 온(On)으로 동작하는지에 따라 에너지 소비 비용이 달라질 수 있다.

제어-가능(controllable) 로드 타입인 에너지 소비 장치는 서로 다른 에너지 소비량에 대응하는 복수의 에너지 소비 액션이 실행 가능하다. 예를 들어 에어컨은 설정 온도에 따라 에너지 소비량이 달라질 수 있다. 이러한 제어-가능(controllable) 로드 타입인 에너지 소비 장치는 어느 시점에 어떤 에너지 소비 액션을 실행하는지에 따라 에너지 소비 비용이 달라질 수 있다.

도 4는 본 발명의 실시예들에 따른 에너지 관리 시스템(100)과 에너지 소비 장치의 동작을 나타낸 도면이다.

전술한 바와 같이, 에너지 관리 시스템(100)은 각 에너지 소비 장치의 상태(state)를 입력받은 후 정책에 따라 액션(action)을 결정할 수 있다. 각 에너지 소비 장치는 액션을 실행한 후 그 결과에 따른 보상(reward)을 보상 함수를 기초로 결정하여 에너지 관리 시스템(100)에 피드백할 수 있다.

비변경(non-shiftable) 로드 타입인 에너지 소비 장치는 에너지 소비 상태 정보를 에너지 관리 시스템(100)에 출력할 수 있다. 에너지 관리 시스템(100)은 비변경(non-shiftable) 로드 타입인 에너지 소비 장치가 실행 가능한 하나의 에너지 소비 액션(e.g. On)을 지시할 수 있다. 비변경(non-shiftable) 로드 타입인 에너지 소비 장치는 에너지 관리 시스템(100)이 지시한 에너지 소비 액션을 수행하고 그 결과에 따른 보상을 에너지 관리 시스템(100)에 출력할 수 있다. 이때, 보상은 에너지 소비로 인한 비용일 수 있다. 에너지 소비로 인한 비용은 전술한 예상 에너지 가격 정보와 에너지 소비량을 기초로 결정될 수 있다.

변경(shiftable) 로드 타입인 에너지 소비 장치는 에너지 소비 상태 정보를 에너지 관리 시스템(100)에 출력할 수 있다. 에너지 관리 시스템(100)은 변경(shiftable) 로드 타입인 에너지 소비 장치가 실행 가능한 두 가지 에너지 소비 액션 중 어느 하나(e.g. On or Off)를 지시할 수 있다. 변경(shiftable) 로드 타입인 에너지 소비 장치는 에너지 관리 시스템(100)이 지시한 에너지 소비 액션을 수행하고 그 결과에 따른 보상을 에너지 관리 시스템(100)에 출력할 수 있다. 이때, 보상은 에너지 소비로 인한 비용 및 불만족(dissatisfaction) 비용일 수 있다. 에너지 소비로 인한 비용은 전술한 예상 에너지 가격 정보와 에너지 소비량을 기초로 결정될 수 있다.

제어-가능(controllable) 로드 타입인 에너지 소비 장치는 에너지 소비 상태 정보를 에너지 관리 시스템(100)에 출력할 수 있다. 에너지 관리 시스템(100)은 제어-가능(controllable) 로드 타입인 에너지 소비 장치가 실행 가능한 복수의 에너지 소비 액션 중 어느 하나를 지시할 수 있다. 제어-가능(controllable) 로드 타입인 에너지 소비 장치는 에너지 관리 시스템(100)이 지시한 에너지 소비 액션을 수행하고 그 결과에 따른 보상을 에너지 관리 시스템(100)에 출력할 수 있다. 이때, 보상은 에너지 소비로 인한 비용 및 불만족(dissatisfaction) 비용일 수 있다. 에너지 소비로 인한 비용은 전술한 예상 에너지 가격 정보와 에너지 소비량을 기초로 결정될 수 있다.

불만족 비용이란 에너지 소비 장치가 최대로 에너지를 소비하는 에너지 소비 액션을 실행하지 않고, 다른 에너지 소비 액션을 실행하였을 때 에너지 소비 장치를 사용하는 사용자가 체감하는 불만족의 정도를 나타낸 비용이다. 예를 들어 세탁기에 대한 불만족 비용은 세탁기를 온(On)하는 대신 오프(Off)하여 세탁을 하지 못하였을 때 사용자가 체감하는 비용일 수 있다. 이처럼 불만족 비용은 에너지 소비 비용을 절약하기 위한 에너지 소비량이 감소한 양에 비례하여 증가할 수 있다.

도 5는 본 발명의 실시예들에 따른 인공 신경망(ANN)의 일 예를 나타낸 도면이다.

인공 신경망(ANN)은 하나의 입력층(input layer), 복수의 은닉층(hidden layer), 하나의 출력층(output layer)으로 구성될 수 있다.

이때, 인공 신경망(ANN)에 입력되는 환경 정보는 요일 정보, 시간 정보, 휴일 여부 정보, 에너지 수요 정보, 에너지 가격 정보를 포함할 수 있다.

요일 정보는 현재 시점이 일/월/화/수/목/금/토 중 어느 요일에 대응하는지를 지시할 수 있다. 일 예로 요일 정보는 1-7 중 하나의 값일 수 있다.

시간 정보는 하루 24시간 중 어느 시간인지를 지시할 수 있다. 일 예로 시간 정보는 1-24 중 하나의 값일 수 있다.

휴일 여부 정보는 현재 시점이 휴일인지 또는 휴일이 아닌지를 지시할 수 있다. 일 예로 휴일 여부 정보는 0-1 중 하나의 값일 수 있다.

에너지 수요 정보는 하나 이상의 특정 시간에서의 에너지 소비 장치 전체의 에너지 수요를 지시할 수 있다.

전술한 환경 정보가 인공 신경망(ANN)의 입력층에 입력되면, 인공 신경망(ANN)은 은닉층의 구성에 따라 예상 에너지 가격 정보를 출력할 수 있다.

한편, 인공 신경망(ANN)은 다량의 데이터를 이용하여 입력값에 대한 특성(feature)을 자동으로 학습할 수 있으며, 이를 통해 목적 함수, 즉 예측 정확도의 에러를 최소화하도록 네트워크를 학습시켜 나아가는 형태의 모델일 수 있다.

인공 신경망(ANN)은 CNN(Convolutional Neural Network), DHN(Deep Hierachical Network), CDBN(Convolutional Deep Belief Network), DDN(Deconvolutional Deep Network), RNN(Recurrent Neural Network), GAN(Generative Adversarial Network) 등일 수 있으며, 이에 제한되지 않고 현재 또는 장래에 사용될 수 있는 다양한 딥 러닝 모델이 될 수 있다. 딥 러닝 모델은 딥 러닝 프레임워크를 통해 구현될 수 있다. 딥 러닝 프레임워크는 딥 러닝 모델을 개발할 때 공통적으로 사용되는 기능들을 라이브러리 형태로 제공하고, 시스템 소프트웨어나 하드웨어 플랫폼을 잘 사용할 수 있도록 지원하는 역할을 한다. 본 실시예에서 딥 러닝 모델은 현재 공개되었거나 장래 공개될 어떠한 딥 러닝 프레임워크를 이용하여 구현될 수 있다.

도 6은 본 발명의 실시예들에 따른 에너지 관리 시스템(100)이 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 결정하는 동작의 일 예를 나타낸 흐름도이다.

도 6을 참조하면, 에너지 관리 시스템(100)의 결정부(130)는 에너지 소비 장치에 대해, 전술한 Q값을 초기화할 수 있다.

먼저 결정부(130)는 반복 횟수를 지시하는 i값을 1로 초기화하고, i번째 반복(iteration)에서의 Q값인 Qⁱ를 초기화할 수 있다(S610). 이때, Qⁱ의 값은 0 또는 랜덤한 값으로 초기화될 수 있다.

결정부(130)는 에너지 소비 장치의 에너지 소비 상태 및 에너지 소비 액션을 기초로 Qⁱ값을 업데이트할 수 있다(S620). 에너지 소비 장치의 Q값을 업데이트하는 동작의 일 예는 이하 도 7에서 설명한다.

결정부(130)는 S620 단계를 수행한 이후 설정된 종료 조건을 만족하는지 판단할 수 있다(S630).

종료 조건은 일 예로 현재 업데이트 스텝, 즉 i번째 업데이트 스텝에서 결정된 Q값인 Qⁱ와 현재 업데이트 스텝의 바로 직전의 업데이트 스텝, 즉 (i-1)번째 업데이트 스텝에서 결정된 Q값인 Q^i-1의 오차인 |Qⁱ- Q^i-1|의 값이 임계 오차 δ 이하인 조건일 수 있다. (단, i=1일 때, 현재 업데이트 스텝의 바로 직전의 업데이트 스텝이 없으므로 이때의 Q값인 Q⁰는 Q¹과 다른 임의의 값으로 선택될 수 있다.)

일반적으로 각 에너지 소비 장치의 시간 h에서의 Q값을 반복적으로 업데이트하는 경우, Q값은 초기 값에서 점점 증가하다가 특정한 값에 수렴(converge)하는 패턴을 가진다. 따라서 |Qⁱ- Q^i-1|의 값이 임계 오차 δ 이하인 경우, 결정부(130)는 Q값이 특정한 값에 수렴하였다고 판단하고 Qⁱ값을 업데이트하는 동작을 중단할 수 있다.

결정부(130)는 만약 종료 조건이 만족되지 않으면(S630-N), i값을 1 증가시키고(S640) 다시 S620 단계를 실행할 수 있다.

결정부(130)는 만약 종료 조건이 만족되면(S630-Y), Qⁱ값을 업데이트하는 동작을 중단하고, 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 결정할 수 있다(S650). 이때, 결정부(130)는 전술한 Q값에 대한 argmax 값을 기초로 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 결정할 수 있다

도 7은 본 발명의 실시예들에 따른 에너지 소비 장치의 시간 h에서의 Q값을 업데이트하는 구체적인 동작의 일 예를 나타낸 흐름도이다.

도 7을 참조하면, 에너지 관리 시스템(100)의 결정부(130)는 에너지 소비 장치 n에 대해, 변수 t값을 1로 초기화할 수 있다(S710). 변수 t값은 업데이트 완료 조건을 지시하기 위해 사용되는 변수 값이다.

결정부(130)는 에너지 소비 장치 n의 시간 h에서의 에너지 소비 상태를 확인할 수 있다(S720). 에너지 소비 장치 n의 시간 h에서의 에너지 소비 상태는 s_n,h로 표현될 수 있다.

결정부(130)는 에너지 소비 장치 n의 에너지 소비 상태에 따라 선택 가능한 에너지 소비 액션의 리스트 중에서 하나의 에너지 소비 액션을 선택할 수 있다(S730). 예를 들어 결정부(130)는 에너지 소비 장치 n이 비변경(non-shiftable) 로드 타입이면 하나의 에너지 소비 액션(e.g. On)만 선택할 수 있고, 변경(shiftable) 로드 타입이면 두 개의 에너지 소비 액션(e.g. On/Off) 중 하나를 선택할 수 있고, 제어-가능(controllable) 로드 타입이면 복수의 에너지 소비 액션 중 하나를 선택할 수 있다. 에너지 소비 장치 n의 시간 h에서 선택되는 에너지 소비 액션은 a_n,h로 표현될 수 있다. 결정부(130)가 선택 가능한 에너지 소비 액션의 리스트 중에서 하나의 에너지 소비 액션을 선택하는 일 예는 이하 도 8에서 설명한다.

이후 결정부(130)는 1) 에너지 소비 장치 n의 시간 h에서의 보상 함수 값 및 2) 에너지 소비 장치 n의 시간 h+1에서의 Q값의 최대값을 계산할 수 있다(S740).

에너지 소비 장치 n의 시간 h에서의 보상 함수는 에너지 소비 상태 및 에너지 소비 액션에 따른 보상을 결정하기 위한 함수로서 r(s_n,h, a_n,h)로 표현될 수 있다.

에너지 소비 장치 n의 시간 h+1에서의 Q값은 Q(s_n,h+1, a_n,h+1)로 표현될 수 있다. 시간 h에서의 에너지 소비 상태 s_n,h와 에너지 소비 액션 a_n,h이 결정되면 도 2에서 설명한 모델에 따라 시간 h+1에서의 에너지 소비 상태 s_n,h+1가 결정된다. 시간 h+1에서 에너지 소비 상태 s_n,h+1일 때 에너지 소비 장치 n은 타입에 따라 실행 가능한 에너지 소비 액션 중 하나의 에너지 소비 액션인 a_n,h+1을 실행할 수 있다. 에너지 소비 장치 n의 시간 h+1에서의 Q값은 어떤 에너지 소비 액션을 선택하는지에 따라 달라지는데 그 중 최대값은 max Q(s_n,h+1, a_n,h+1)로 표현된다.

이후 결정부(130)는 S740 단계에서 계산한 값들 기초로 에너지 소비 장치 n의 시간 h에서의 Q값 Q(s_n,h, a_n,h)을 업데이트할 수 있다(S750). 일 예로 결정부(130)는 아래 수학식 1에 따라 Q값을 업데이트할 수 있다.

[수학식 1]

Q(s_n,h, a_n,h)←Q(s_n,h, a_n,h)+θ[r(s_n,h, a_n,h)+γmax Q(s_n,h+1, a_n,h+1)-Q(s_n,h, a_n,h)]

수학식 1에서 θ∈[0,1]은 이전의 Q값을 어느 정도 비율로 갱신할지를 결정하는 학습율(learning rate) 값이다. θ는 0에서 1 사이의 값으로 결정될 수 있는데 θ가 0이면 이전 Q값을 그대로 유지한다는 것을 의미하고, θ가 1이면 이전 Q값을 무시하고 항상 새로운 Q값을 결정한다는 것을 의미한다. 결정부(130)는 θ값을 임의로 설정할 수 있다.

그리고 수학식 1에서 γ∈[0,1]은 현재 보상 정보 r(s_n,h, a_n,h)와 미래의 예상값 max Q(s_n,h+1, a_n,h+1)을 어느 정도 비율로 반영할지를 결정하는 디스카운트 팩터(discount factor) 값이다. γ은 0에서 1 사이의 값으로 결정될 수 있는데 γ이 0이면 현재 보상 정보만이 반영된다는 것을 의미하고 γ이 1이면 미래의 예상값을 최대로 반영한다는 것을 의미한다. 결정부(130)는 γ값을 임의로 설정할 수 있다.

이후 결정부(130)는 설정된 업데이트 완료 조건이 만족되었는지 판단한다(S760).

일 예로 업데이트 완료 조건은 h = 24 - t일 수 있다. 즉, 현재 시간 h의 값에 따라 Q값을 업데이트하는 횟수가 달라지게 된다. 예를 들어 시간 h의 값이 15이면, 15 = 24 - 9 이므로 결정부(130)는 t=9가 될 때까지 9번 Q값을 업데이트할 수 있다.

만약 업데이트 완료 조건이 만족되지 않은 경우(S760-N), 결정부(130)는 t값을 1 증가시키고(S770), 다시 S730 단계부터 반복 실행할 수 있다.

반면 업데이트 완료 조건이 만족되면(S760-Y), 결정부(130)는 Q값 업데이트를 완료할 수 있다(S780).

도 8은 본 발명의 실시예들에 따른 결정부(130)가 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 선택하는 일 예를 나타낸 도면이다.

결정부(130)는 일 예로 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 엡실론-그리디(epsilon-greedy, ε-greedy) 정책을 기초로 선택할 수 있다.

엡실론-그리디 정책은 각 단계에서 최선의 선택을 수행하는 그리디 정책의 변형이다. 엡실론-그리디 정책은 0에서 1 사이의 값인 ε의 확률로 랜덤하게 에너지 소비 액션을 선택하고, 1-ε의 확률로 최상의 결과를 내는 액션, 즉 Q값을 최대화하는 에너지 소비 액션을 선택하는 정책을 의미한다.

엡실론-그리디 정책에 따라 에너지 소비 장치의 시간 h에서 에너지 소비 액션을 선택하는 동작은 에너지 소비 장치의 타입에 따라 달라질 수 있다.

일 예로 에너지 소비 장치의 타입이 비변경(non-shiftable) 로드 타입이면 에너지 소비 장치는 하나의 에너지 소비 액션 action#0만을 실행할 수 있다. 따라서, 결정부(130)는 엡실론-그리디 정책을 사용하더라도 에너지 소비 장치가 실행할 에너지 소비 액션을 항상 action#0으로 선택한다.

다른 예로 에너지 소비 장치의 타입이 변경(non-shiftable) 로드 타입이고 에너지 소비 장치가 2개의 에너지 소비 액션 action#0, action#1 중 하나를 실행할 수 있다고 가정한다. 이 때, 에너지 소비 액션 action#1이 Q값을 최대화하는 에너지 소비 액션이면, 결정부(130)는 ε의 확률로 에너지 소비 액션 action#0, action#1 중 하나를 랜덤하게 선택하고, 1-ε의 확률로 에너지 소비 액션 action#1을 선택할 수 있다.

또 다른 예로 에너지 소비 장치의 타입이 제어-가능(controllable) 로드 타입이고 에너지 소비 장치가 m개의 에너지 소비 액션 action#0, action#1, ..., action#m-1 중 하나를 실행할 수 있다고 가정한다. 이 때, 에너지 소비 액션 action#1이 Q값을 최대화하는 에너지 소비 액션이면, 결정부(130)는 ε의 확률로 에너지 소비 액션 action#0, action#1, action#2, action#3, ..., action#m-1 중 하나를 랜덤하게 선택하고, 1-ε의 확률로 에너지 소비 액션 action#1을 선택할 수 있다.

도 9는 본 발명의 실시예들에 따른 에너지 관리 방법(900)을 나타낸 흐름도이다.

도 9를 참조하면, 에너지 관리 방법(900)은 수신 단계(S910), 출력 단계(S920) 및 결정 단계(S930)를 포함할 수 있다.

수신 단계(S910)는 에너지 공급자(10)로부터 에너지 가격 정보를 수신할 수 있다.

출력 단계(S920)는 수신 단계(S910)에서 수신한 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력할 수 있다. 이때, 환경 정보는 일 예로 1)요일 정보, 2)시간 정보, 3)휴일 여부 정보, 4)에너지 수요 정보 및 5)에너지 가격 정보를 포함할 수 있다.

결정 단계(S930)는 출력 단계(S920)에서 출력된 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정할 수 있다. 이때, 결정 단계(S930)는 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 결정하기 위해, 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행할 수 있다.

각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션은 각 에너지 소비 장치의 타입에 따라 다르게 결정될 수 있다. 일 예로 각 에너지 소비 장치의 타입은 1)하나의 에너지 소비 액션만 실행 가능한 비변경(non-shiftable) 로드 타입, 2)두 가지의 에너지 소비 액션만 실행 가능한 변경(shiftable) 로드 타입 및 3)서로 다른 에너지 소비량에 대응하는 복수의 에너지 소비 액션이 실행 가능한 제어-가능(controllable) 로드 타입 중 어느 하나일 수 있다.

일 예로, 전술한 종료 조건은 업데이트 스텝에서 결정된 Q값과 상기 업데이트 스텝 직전의 업데이트 스텝에서 결정된 Q값의 오차가 임계 오차 이하인 조건일 수 있다.

일 예로, 결정 단계(S930)는 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때, 각 에너지 소비 방치의 시간 h에서의 에너지 소비 액션을 엡실론-그리디(epsilon-greedy) 정책을 기초로 선택할 수 있다.

일 예로, 결정 단계(S930)는 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때, 1) 각 에너지 소비 장치의 시간 h에서의 에너지 소비 상태 및 에너지 소비 액션에 따른 보상 함수 값 및 2) 상기 각 에너지 소비 장치의 시간 h+1에서의 Q값의 최대값을 기초로 상기 각 에너지 소비 장치의 시간 h에서의 Q값을 업데이트할 수 있다.

한편, 도 9에서 설명한 에너지 관리 방법(900)은 전술한 에너지 관리 장치(100)에 의해 실행될 수 있다.

전술한 에너지 관리 시스템(100) 및 에너지 관리 방법(900) 은 인공 신경망을 이용하여 예상 에너지 가격 정보를 도출하고, 강화 학습을 통해 복수의 에너지 소비 장치 각각에 대해 시간 h에서의 최적의 에너지 소비 액션을 결정할 수 있다. 따라서, 에너지 관리 시스템(100) 및 에너지 관리 방법(900)은 다양한 환경에 대한 최적화된 에너지 소비 정책을 특정한 모델을 사용하여 미리 설계하지 않아도 반복된 강화 학습을 통해 도출할 수 있다. 따라서, 특정한 모델을 필요로 하지 않으면서도, 다양한 환경에 적응 가능한 에너지 관리 시스템 및 에너지 관리 방법이 제공될 수 있다.

또한 에너지 관리 시스템(100) 및 에너지 관리 방법(900)은 복수의 에너지 소비 장치 각각으로부터 수신한 에너지 소비로 인한 비용 및 불만족 비용의 값을 시간 h에서의 최적의 에너지 소비 액션을 결정하는 데 반영함으로써, 에너지 소비로 인한 비용 및 불만족 비용(dissatisfaction cost)의 합을 최소화할 수 있다.

전술한 에너지 관리 시스템(100)은, 프로세서, 메모리, 사용자 입력장치, 프레젠테이션 장치 중 적어도 일부를 포함하는 컴퓨팅 장치에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 매체이다. 프로세서는 메모리에 저장되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.

컴퓨팅 장치는 스마트폰, 태블릿, 랩탑, 데스크탑, 서버, 클라이언트 등의 다양한 장치를 포함할 수 있다. 컴퓨팅 장치는 하나의 단일한 스탠드-얼론 장치일 수도 있고, 통신망을 통해 서로 협력하는 다수의 컴퓨팅 장치들로 이루어진 분산형 환경에서 동작하는 다수의 컴퓨팅 장치를 포함할 수 있다.

또한 전술한 에너지 관리 방법(900)은, 프로세서를 구비하고, 또한 프로세서에 의해 실행되면 딥 러닝 모델을 활용한 영상 진단 방법을 수행할 수 있도록 코딩된 컴퓨터 판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 구조 등을 저장한 메모리를 구비하는 컴퓨팅 장치에 의해 실행될 수 있다.

상술한 본 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 실시예들에 따른 딥 러닝 모델을 활용한 영상 진단 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러 또는 마이크로 프로세서 등에 의해 구현될 수 있다.

예를 들어 실시예들에 따른 에너지 관리 방법(900)은 심층 신경망의 뉴런(neuron)과 시냅스(synapse)가 반도체 소자들로 구현된 인공지능 반도체 장치를 이용하여 구현될 수 있다. 이때 반도체 소자는 현재 사용하는 반도체 소자들, 예를 들어 SRAM이나 DRAM, NAND 등일 수도 있고, 차세대 반도체 소자들, RRAM이나 STT MRAM, PRAM 등일 수도 있고, 이들의 조합일 수도 있다.

실시예들에 따른 에너지 관리 방법(900)을 인공지능 반도체 장치를 이용하여 구현할 때, 딥 러닝 모델을 소프트웨어로 학습한 결과(가중치)를 어레이로 배치된 시냅스 모방소자에 전사하거나 인공지능 반도체 장치에서 학습을 진행할 수도 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 실시예들에 따른 에너지 관리 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 장치, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.

또한, 위에서 설명한 "시스템", "프로세서", "컨트롤러", "컴포넌트", "모듈", "인터페이스", "모델", 또는 "유닛" 등의 용어는 일반적으로 컴퓨터 관련 엔티티 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행 중인 소프트웨어를 의미할 수 있다. 예를 들어, 전술한 구성요소는 프로세서에 의해서 구동되는 프로세스, 프로세서, 컨트롤러, 제어 프로세서, 개체, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만 이에 국한되지 않는다. 예를 들어, 컨트롤러 또는 프로세서에서 실행 중인 애플리케이션과 컨트롤러 또는 프로세서가 모두 구성 요소가 될 수 있다. 하나 이상의 구성 요소가 프로세스 및/또는 실행 스레드 내에 있을 수 있으며, 구성 요소들은 하나의 장치(예: 시스템, 컴퓨팅 디바이스 등)에 위치하거나 둘 이상의 장치에 분산되어 위치할 수 있다.

한편, 또 다른 실시예는 전술한 에너지 관리 방법(900)을 수행하는, 컴퓨터 기록매체에 저장되는 컴퓨터 프로그램을 제공한다. 또한 또 다른 실시예는 전술한 에너지 관리 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 단계들을 실행할 수 있다.

이와 같이, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다.

이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다.

또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다.

또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.

이상에서 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함할 수 있다.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.

에너지 관리 방법(900)은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 에너지 관리 방법(900)은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있다)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 에너지 관리 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시는 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 개시의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 개시의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 개시에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 개시의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 개시에 개시된 실시예들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 개시의 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

CROSS-REFERENCE TO RELATED APPLICATION

본 특허출원은 2020년 03월 20일 한국에 출원한 특허출원번호 제 10-2020-0034613 호에 대해 미국 특허법 119(a)조 (35 U.S.C § 119(a))에 따라 우선권을 주장하며, 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다. 아울러, 본 특허출원은 미국 이외에 국가에 대해서도 위와 동일한 이유로 우선권을 주장하면 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다.

Claims

복수의 에너지 소비 장치를 제어하는 에너지 관리 시스템에 있어서,

에너지 공급자로부터 에너지 가격 정보를 수신하는 수신부;

상기 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력하는 출력부; 및

상기 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하는 결정부를 포함하고,

상기 결정부는,

상기 시간 h에서의 에너지 소비 액션을 결정하기 위해, 상기 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행하는 에너지 관리 시스템.
제1항에 있어서,

상기 각 에너지 소비 장치의 시간 별 에너지 소비 액션은,

상기 각 에너지 소비 장치의 타입에 따라 다르게 결정되는 에너지 관리 시스템.
제2항에 있어서,

상기 타입은,

하나의 에너지 소비 액션만 실행 가능한 비변경(non-shiftable) 로드 타입, 두 가지의 에너지 소비 액션만 실행 가능한 변경(shiftable) 로드 타입 및 서로 다른 에너지 소비량에 대응하는 복수의 에너지 소비 액션이 실행 가능한 제어- 가능(controllable) 로드 타입 중 어느 하나인 에너지 관리 시스템.
제1항에 있어서,

상기 환경 정보는,

요일 정보, 시간 정보, 휴일 여부 정보, 에너지 수요 정보 및 상기 에너지 가격 정보를 포함하는 에너지 관리 시스템.
제1항에 있어서,

상기 결정부는,

상기 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때,

상기 각 에너지 소비 장치의 시간 h에서의 에너지 소비 상태 및 에너지 소비 액션에 따른 보상 함수 값 및 상기 각 에너지 소비 장치의 시간 h+1에서의 Q값의 최대값을 기초로 상기 각 에너지 소비 장치의 시간 h에서의 Q값을 업데이트하는 에너지 관리 시스템.
제5항에 있어서,

상기 결정부는,

상기 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때,

상기 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 엡실론-그리디(epsilon-greedy) 정책을 기초로 선택하는 에너지 관리 시스템.
제5항에 있어서,

상기 종료 조건은,

상기 업데이트 스텝에서 결정된 Q값과 상기 업데이트 스텝 직전의 업데이트 스텝에서 결정된 Q값의 오차가 임계 오차 이하인 조건인 에너지 관리 시스템.
복수의 에너지 소비 장치를 제어하는 에너지 관리 방법에 있어서,

에너지 공급자로부터 에너지 가격 정보를 수신하는 수신 단계;

상기 에너지 가격 정보를 포함하는 환경 정보를 인공 신경망(ANN, Artificial Neural Network)에 입력하여 예상 에너지 가격 정보를 출력하는 출력 단계; 및

상기 예상 에너지 가격 정보를 포함하는 결정 정보를 기초로 복수의 에너지 소비 장치 각각의 시간 h에서의 에너지 소비 액션을 결정하는 결정 단계를 포함하고,

상기 결정 단계는,

상기 시간 h에서의 에너지 소비 액션을 결정하기 위해, 상기 각 에너지 소비 장치의 시간에 따른 에너지 소비 상태 및 에너지 소비 액션을 기초로 결정되는 Q값을 업데이트하는 업데이트 스텝을 설정된 종료 조건을 만족할 때까지 반복적으로 수행하는 에너지 관리 방법.
제8항에 있어서,

상기 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션은,

상기 각 에너지 소비 장치의 타입에 따라 다르게 결정되는 에너지 관리 방법.
제9항에 있어서,

상기 타입은,

하나의 에너지 소비 액션만 실행 가능한 비변경(non-shiftable) 로드 타입, 두 가지의 에너지 소비 액션만 실행 가능한 변경(shiftable) 로드 타입 및 서로 다른 에너지 소비량에 대응하는 복수의 에너지 소비 액션이 실행 가능한 제어-가능(controllable) 로드 타입 중 어느 하나인 에너지 관리 방법.
제8항에 있어서,

상기 환경 정보는,

요일 정보, 시간 정보, 휴일 여부 정보, 에너지 수요 정보 및 상기 에너지 가격 정보를 포함하는 에너지 관리 방법.
제8항에 있어서,

상기 결정 단계는,

상기 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때,

상기 각 에너지 소비 장치의 시간 h에서의 에너지 소비 상태 및 에너지 소비 액션에 따른 보상 함수 값 및 상기 각 에너지 소비 장치의 시간 h+1에서의 Q값의 최대값을 기초로 상기 각 에너지 소비 장치의 시간 h에서의 Q값을 업데이트하는 에너지 관리 방법.
제12항에 있어서,

상기 결정 단계는,

상기 각 에너지 소비 장치에 대한 업데이트 스텝을 수행할 때,

상기 각 에너지 소비 장치의 시간 h에서의 에너지 소비 액션을 엡실론-그리디(epsilon-greedy) 정책을 기초로 선택하는 에너지 관리 방법.
제12항에 있어서,

상기 종료 조건은,

상기 업데이트 스텝에서 결정된 Q값과 상기 업데이트 스텝 직전의 업데이트 스텝에서 결정된 Q값의 오차가 임계 오차 이하인 조건인 에너지 관리 방법.
제8항 내지 제14항 중 어느 한 항의 에너지 관리 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.