WO2022191459A1

WO2022191459A1 - 약물 설계 방법 및 이를 이용한 디바이스

Info

Publication number: WO2022191459A1
Application number: PCT/KR2022/002340
Authority: WO
Inventors: 동재준; 이현근; 박태환; 신동일; 하산 베이그모하마드
Original assignee: Bnj Biopharma Inc
Current assignee: Bnj Biopharma Inc
Priority date: 2021-03-08
Filing date: 2022-02-17
Publication date: 2022-09-15
Anticipated expiration: 2023-09-08
Also published as: KR102604462B1; EP4307308A1; EP4307308A4; KR20220126120A

Abstract

본 발명은, 프로세서 및 통신부에 의해 구현되는 약물 설계 방법으로서, 통신부를 통해, 생물학적 표적 (biological target) 에 대한 구조를 수신하는 단계, 프로세서를 통해, 강화 학습된 화합물 생성 모델을 획득하도록, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 생물학적 표적과의 결합 친화도 (binding affinity) 를 이용하여 강화 학습 (reinforcement learning) 을 수행하는 단계, 강화 학습된 화합물 생성 모델을 이용하여, 생물학적 표적에 대한 후보 화합물을 생성하는 단계, 및 상기 후보 화합물을 제공하는 단계를 포함하는, 약물 설계 방법 방법 및 이를 이용한 디바이스를 제공한다.

Description

약물 설계 방법 및 이를 이용한 디바이스

본 발명은 약물 설계 방법 및 이를 이용한 디바이스에 관한 것으로, 보다 구체적으로는 약물의 구조적 특징에 기초한 약물 설계 방법 및 이를 이용한 약물 설계용 디바이스에 관한 것이다.

약물의 설계와 관련하여, 약물의 작용 경로에 대한 연구는 지속적으로 수행되어 왔다. 표현형 선별에서부터 시판 후 부작용 감시에 이르기까지 수 많은 보고서와 후속 연구가 이루어져왔다. 하지만, 약물 작용에 대한 설계는 약물의 의도된 치료 효과, 또는 빈번히 발생되는 부작용에 대한 연구에 치중되어 있고, 이로 인해 의도치 않은 약물의 효과에 대한 작용 메커니즘을 해독하는 일에 있어서는 많은 어려움이 있다.

이때, 약물 작용의 이해, 새로운 약물 효과의 발견 또는 부작용의 예측과 같은 약물 설계에 있어서는 약물 작용에 대한 비편향적인 분석 방법에 기초한 연구가 필요하다.

한편, 약리 유전학, 약물 유발 유전자 발현 프로파일 및 약물 부작용 정보 등을 포함하는 문헌, 자료 등을 포함하는 약물 데이터베이스가 급속히 성장하는 것으로 보고되어 왔다. 동시에, 이러한 약물 데이터베이스를 이용하여 약물 설계의 필요성이 대두되고 있으며, 약물 데이터베이스에 대한 접근성 및 사용성을 강화한 약물 설계 방법이 조명 받고 있다. 이때, 약물 데이터베이스에 기초한 설계 방법은 시간 및 비용 효율성 측면에서 매우 뛰어나고, 체계적인 구현을 통한 재현 가능성이 높을 수 있다.

이와 같이, 데이터베이스에 기초한 약물 설계는 후보 물질 발굴에 적용될 수 있지만, 아직까지 적절한 방법이 제시되지 못하고 있는 실정이다.

이에, 약물 데이터베이스에 기초한 새로운 약물 설계 방법에 대한 설계가 지속적으로 요구되고 있는 실정이다.

발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.

약물 설계와 관련하여, 약물의 화학적 성질 (chemical property) 에 근거하여 약물의 표적, 화학 구조 및 부작용의 약물 작용을 예측하려는 시도가 있어 왔다. 이러한 약물의 설계는 신약 설계에 있어서 유용하지만, 약물의 내재적 메커니즘에 의존하는 경향이 있다. 상기와 같은 약물 설계는 실제 임상 단계에서 저조한 표적 (예를 들어, 바이러스 단백질) 과의 상호작용에 따른 문제를 야기할 수 있다.

약물 설계와 더욱 관련하여, 뉴럴 네트워크 (neural network) 기반 생성 모델 (generative model) 을 이용하여, 후보 물질의 분자를 무작위로 생성하고, 이로부터 후보 물질을 발굴하려는 시도가 있었다. 그러나, 그 구조가 잘 알려지지 않은 표적에 대한 후보 물질 발굴, 즉 초기 의약품 후보 물질 단계에서 소요되는 시간 및 비용이 상당하다는 문제가 존재할 수 있다.

한편, 본 발명의 발명자들은 종래의 약물 설계 시스템이 갖는 문제점을 해결하기 위한 방안으로, 약물의 구조적 특징, 특히 표적과의 결합 친화도 (binding affinity) 를 고려하여 후보 약물의 적정성을 평가하고자 하였다.

관련하여, 본 발명의 발명자들은, 강화 학습 (reinforcement learning) 모델을 이용하여, 도킹 시뮬레이션 (docking simulation) 환경에서 표적-후보 물질의 결합 에너지 (binding energy) 에 따른 보상을 최대로 받는 물질을 선별하고자 하였다.

그 결과, 본 발명의 발명자들은 약물에 대하여 구조적 적정성을 평가하도록 구성된 새로운 약물 설계 시스템을 설계하기에 이르렀다.

보다 구체적으로, 본 발명의 발명자들은 표적-후보 물질의 결합 에너지 기반의 보상 함수 (reward function) 를 설계하였고, 이로부터 생물학적 표적과 상호 작용할 것으로 예상되는 분자를 생성하는 에이전트 네트워크 (agent network) 를 설계할 수 있었다.

특히, 본 발명의 발명자들은 강화 학습된 화합물 생성 모델에 대하여, 단순히 화합물을 이루는 분자의 수를 늘려 친화도를 증가시키는 것이 아니라, 화합물을 이루는 단위 원자 (예를 들어, C, H, O, 등) 가 증가될 때, 증가하는 결합 친화도가 최대가 되도록 학습시키고자 하였다.

그 결과, 단위 원자가 증가함에 따른 결합 친화도의 증가 수준이 최대가 되도록 학습된 강화 학습된 화합물 생성 모델이 구축될 수 있었다.

이러한, 강화 학습된 화합물 생성 모델은, 화합물을 구성하는 분자의 숫자를 단순 증가시켜 총 결합 에너지를 증가시키도록 학습된 생성 모델 및 강화 학습 모델의 단순 결합 모델에서 나타날 수 있는, 모드 붕괴 (Mode collapse) 의 경향성을 해결할 수 있다.

또한, 본 발명의 발명자들은, 보상 함수의 변형에 따라, 두 개 이상의 생물학적 표적 (예를 들어, 복수의 표적 단백질) 에 대하여 공통으로 결합력을 갖는 화합물을 생성하도록 강화 학습된 생성 모델을 설계하고자 하였다. 또한, 본 발명의 발명자들은, 보상 함수의 변형에 따라, 선택적으로 단일의 표적에 대하여 결합 친화도가 높고, 다른 표적에 대하여 결합 친화도가 낮은 화합물의 획득이 가능함을 인지할 수 있었다. 이에, 본 발명의 발명자들은, 복수의 표적에 대한 저해능을 갖거나, 표적 선택적 저해능의 후보 약물을 제공함으로써, 단일의 약물에 대한 복수의 질환의 치료 효과, 또는 선택적 치료 효과를 기대할 수 있었다.

더욱이, 본 발명의 발명자들은, 이와 같은 강화 학습 모델 기반의 새로운 약물 설계 시스템이 기존에 인공지능에 따로 학습 시키지 않은, 즉 데이터가 없는 새로운 생물학적 표적 (또는 이의 리간드 (ligand)) 에 대하여, 기존 약물과 유사한 후보 물질을 제공할 수 있음을 기대할 수 있었다.

특히, 본 발명의 발명자들은, 새로운 약물 설계 시스템이, 코로나 바이러스 감염증 19 (COVID-19) 와 같은 글로벌 펜데믹 (global pandemic) 상황을 개선하기 위한 연구에 기여할 수 있음을 기대할 수 있었다.

나아가, 본 발명의 발명자들은 후보 약물 및 표적에 대한 작용 메커니즘 및 구조적 특징을 모두 고려하여 약물간 적정성을 평가할 수 있어, 종래의 약물 설계 시스템보다 약물에 대한 신뢰도 높은 설계 결과를 제공할 수 있음을 기대할 수 있었다.

따라서, 본 발명이 해결하고자 하는 과제는, 강화 학습 모델 기반의 결합 친화도에 따른 보상을 이용하여 후보 약물을 생성하도록 구성된, 약물 설계 방법 및 디바이스를 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 약물 설계 방법을 제공한다. 상기 방법은, 프로세서 및 통신부에 의해 구현되는 약물 설계 방법으로서, 통신부를 통해, 생물학적 표적 (biological target) 에 대한 구조를 수신하는 단계, 프로세서를 통해, 강화 학습된 화합물 생성 모델을 획득하도록, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 생물학적 표적과의 결합 친화도 (binding affinity) 를 이용하여 강화 학습 (reinforcement learning) 을 수행하는 단계, 강화 학습된 화합물 생성 모델을 이용하여, 생물학적 표적에 대한 후보 화합물을 생성하는 단계, 및 후보 화합물을 제공하는 단계를 포함할 수 있다.

본 발명의 특징에 따르면, 후보 화합물을 생성하는 단계는, 강화 학습된 화합물 생성 모델을 이용하여, 복수의 후보 화합물을 생성하는 단계, 생물학적 표적 및 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하는 단계, 및 각각에 대한 결합 친화도에 기초하여, 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함할 수 있다.

본 발명의 다른 특징에 따르면, 각각에 대한 결합 친화도를 결정하는 단계는, 도킹 시뮬레이션 (docking simulation) 환경에서, 생물학적 표적과의 결합 에너지 (binding energy) 를 평가하도록 구성된 보상 함수를 이용하여, 각각에 대한 보상 점수를 결정하는 단계를 포함할 수 있다. 또한, 후보 화합물을 결정하는 단계는, 보상 점수에 기초하여 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 후보 화합물을 결정하는 단계는, 복수의 후보 화합물 중 보상 점수가 최대인 화합물을, 생물학적 표적에 대한 후보 화합물로 결정하는 단계를 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 보상 함수는, 기수신된 표준 생물학적 표적 및 표준 화합물의 결합 에너지의 분포에 기초하여, 상기 결합 친화도를 평가하도록 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 보상 함수는, 0 내지 1 사이의 값으로 상기 결합 친화도 점수를 결정하도록 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 보상 함수는, 생물학적 표적과의 결합 친화도가 낮을 수록 높은 보상 점수를 받도록 구성될 수 있다. 또한, 후보 화합물을 결정하는 단계는, 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적과 결합 친화도가 낮은 후보 화합물을 결정하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 강화 학습을 수행하는 단계 이전에, 학습용 화합물의 분자 구조를 수신하는 단계, 학습용 화합물의 분자 구조를 학습용 SMILES (Simplified molecular-input line-entry system) 코드로 변환하는 단계, 및 학습용 SMILES 코드를 입력으로 하여, 학습용 화합물과 유사한 SMILES 코드를 출력하도록, 상기 화합물 생성 모델을 학습시키는 단계를 더 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 후보 화합물을 생성하는 단계는, 강화 학습된 화합물 생성 모델을 이용하여, 복수의 SMILES 코드를 생성하는 단계, 복수의 SMILES 코드를 기초로, 복수의 후보 화합물 결정하는 단계, 생물학적 표적 및 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하는 단계, 및 각각에 대한 결합 친화도에 기초하여, 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 강화된 화합물 생성 모델은, 에이전트 네트워크 (agent network) 를 포함할 수 있다. 또한, 강화 학습을 수행하는 단계는, 생물학적 표적과의 결합 에너지에 기초하여 결합 친화도를 평가하도록 구성된 보상 함수를 이용하여, 에이전트 네트워크를 업데이트하는 단계를 포함할 수 있다.

본 발명의 또 다른 특징에 따르면, 생물학적 표적은, 바이러스 (virus) 의 특정 영역, 바이러스 단백질 (virus protein), 예를 들어 코로나바이러스 (Coronavirus) 및 사스-코로나바이러스 (Severe acute respiratory syndrome coronavirus) 의 활성과 연관된 메인 프로테아제 (main protease; Mpro), 폴리머라아제 (polymerase) 중 적어도 하나일 수 있다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 약물 설계용 디바이스가 제공된다. 상기 디바이스는, 생물학적 표적 (biological target) 에 대한 구조를 수신하도록 구성된, 통신부, 및 상기 통신부와 통신하도록 구성된 프로세서를 포함한다. 이때, 프로세서는, 강화 학습된 화합물 생성 모델을 획득하도록, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 생물학적 표적과의 결합 친화도 (binding affinity) 를 이용하여 강화 학습 (reinforcement learning) 을 수행하고, 강화 학습된 화합물 생성 모델을 이용하여, 생물학적 표적에 대한 후보 화합물을 생성하고, 후보 화합물을 제공하도록 구성된다.

본 발명의 특징에 따르면, 프로세서는, 강화 학습된 화합물 생성 모델을 이용하여, 복수의 후보 화합물을 생성하고, 생물학적 표적 및 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하고, 각각에 대한 결합 친화도에 기초하여, 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성될 수 있다.

본 발명의 다른 특징에 따르면, 프로세서는, 도킹 시뮬레이션 (docking simulation) 환경에서, 생물학적 표적과의 결합 에너지 (binding energy) 를 평가하도록 구성된 보상 함수를 이용하여, 각각에 대한 보상 점수를 결정하고, 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 프로세서는, 복수의 후보 화합물 중 보상 점수가 최대인 화합물을, 생물학적 표적에 대한 후보 화합물로 결정하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 보상 함수는, 생물학적 표적과의 결합 친화도가 낮을 수록 높은 보상 점수를 받도록 구성될 수 있다. 이때, 프로세서는, 보상 점수에 기초하여 복수의 후보 화합물 중, 생물학적 표적과 결합 친화도가 낮은 후보 화합물을 결정하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 통신부는, 학습용 화합물의 분자 구조를 수신하도록 더 구성되고, 프로세서는, 학습용 화합물의 분자 구조를 학습용 SMILES (Simplified molecular-input line-entry system) 코드로 변환하고, 학습용 SMILES 코드를 입력으로 하여, 상기 학습용 화합물과 유사한 SMILES 코드를 출력하도록, 상기 화합물 생성 모델을 학습하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 프로세서는, 강화 학습된 화합물 생성 모델을 이용하여, 복수의 SMILES 코드를 생성하고, 복수의 SMILES 코드를 기초로, 복수의 후보 화합물 결정하고, 생물학적 표적 및 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하고, 각각에 대한 결합 친화도에 기초하여, 상기 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 강화된 화합물 생성 모델은, 에이전트 네트워크 (agent network) 를 포함할 수 있다. 이때, 프로세서는, 생물학적 표적과의 결합 에너지에 기초하여 상기 결합 친화도를 평가하도록 구성된 보상 함수를 이용하여, 상기 에이전트 네트워크를 업데이트하도록 더 구성될 수 있다.

본 발명의 또 다른 특징에 따르면, 생물학적 표적은, 바이러스 (virus) 의 특정 영역, 바이러스 단백질 (virus protein), 예를 들어 코로나바이러스 (Coronavirus) 및 사스-코로나바이러스 (Severe acute respiratory syndrome coronavirus) 의 증식과 연관된 메인 프로테아제 (main protease; Mpro), 폴리머라아제 (polymerase) 중 하나일 수 있다.

이하, 실시예를 통하여 본 발명을 보다 상세히 설명한다. 다만, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것에 불과하므로 본 발명의 범위가 이들 실시예에 의해 한정되는 것으로 해석되어서는 아니 된다.

본 발명은, 뉴럴 네트워크 (neural network) 기반 생성 모델 (generative model) 을 이용하여, 후보 물질의 분자를 무작위로 생성하고, 이로부터 후보 물질을 생성하는 것에 기초한 종래의 약물 설계 시스템이 갖는 한계를 극복할 수 있는 효과가 있다.

보다 구체적으로, 본 발명은, 구조가 잘 알려지지 않은 표적에 대한 후보 물질 발굴, 즉 초기 의약품 후보 물질 발굴 단계에서 소요되는 시간 및 비용이 상당한 종래의 약물 설계 시스템을 보완할 수 있다.

특히, 본 발명은, 강화 학습 (reinforcement learning) 모델을 이용하여, 도킹 시뮬레이션 (docking simulation) 환경에서 표적-후보 물질의 결합 에너지 (binding energy) 에 따른 보상을 최대로 받는 물질을 선별하도록 구성된, 새로운 약물 설계 시스템을 제공할 수 있다.

이에, 본 발명은, 강화 학습 모델 기반의 새로운 약물 설계 시스템이 기존에 인공지능에 따로 학습 시키지 않은, 즉 데이터가 없는 새로운 생물학적 표적에 대하여, 존재하는 약물과 유사한 신규 물질을 제공할 수 있다.

이에, 본 발명은, 종래의 약물 설계 시스템보다, 적은 소요 시간 및 비용으로 신뢰도 높은 설계 결과를 제공할 수 있다.

특히, 본 발명은, 생물학적 표적에 대하여 결합 친화도가 높은, 새롭고 유효한 다수의 화합물을 제공할 수 있어, 신약 개발 (de novo drug design) 의 효율 증대에 기여할 수 있다.

더욱이, 본 발명은 글로벌 펜데믹 (global pandemic) 상황을 개선하기 위한 연구에 기여할 수 있는 효과가 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.

도 1a은 본 발명의 일 실시예에 따른 약물 설계 시스템을 설명하기 위한 개략도이다.

도 1b는 본 발명의 일 실시예에 따른 약물 설계용 디바이스의 구성의 개략도이다.

도 1c는 본 발명의 일 실시예에 따른 약물 설계용 디바이스로부터 정보를 제공받는 사용자 모바일 디바이스를 설명하기 위한 개략도이다.

도 2a는 본 발명의 일 실시예에 따른 약물 설계 방법을 설명하기 위한 개략적인 순서도이다.

도 2b는 본 발명의 일 실시예에 따른 강화 학습의 절차를 예시적으로 도시한 것이다.

도 2c는 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델에 적용되는 보상 함수의 설계를 위한 ChEMBL 데이터베이스의 활성 데이터를 도시한 것이다.

도 2d는 본 발명의 일 실시예에 따른 약물 설계 절처에 의해 후보 화합물이 결정되는 절차를 예시적으로 도시한 것이다.

도 3은 본 발명의 다양한 실시예에 이용되는 화합물 생성 모델의 사전 학습 절차를 예시적으로 도시한 것이다.

도 4는 본 발명의 다양한 실시예에 이용되는 화합물 생성 모델의 구조를 예시적으로 도시한 것이다.

도 5a 내지 5d는 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델의 평가 결과를 도시한 것이다.

도 6a 및 6b는 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델 및 사전 학습된 화합물 생성 모델 각각에 의해 생성된 후보 화합물의 특징을 비교하여 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

본 명세서의 해석의 명확함을 위해, 이하에서는 본 명세서에서 사용되는 용어들을 정의하기로 한다.

본원 명세서 내에서 이용되는 용어 “생물학적 표적”은, 질환 또는 어떠한 증상을 야기하는 것으로서, 이의 활성 또는 생성 (또는, 합성) 을 억제하고자 하는 대상을 의미할 수 있다.

바람직하게, 생물학적 표적은 바이러스 그 자체 또는 바이러스 단백질일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 생물학적 표적은 코로나바이러스 (Coronavirus) 또는 사스-코로나바이러스 (Severe acute respiratory syndrome coronavirus) 의 증식과 연관된, 메인 프로테아제 (main protease; Mpro), 또는 RNA-의존 RNA 폴리머라아제 (RNA-dependent RNA polymerase; RdRp) 일 수 있다.

본 발명의 특징에 따르면, 생물학적 표적은 그 구조 (특히, 단백질 구조) 가 공지된 물질일 수 있다.

본원 명세서 내에서 이용되는 용어 “후보 화합물”은, 생물학적 표적에 결합하여 생물학적 표적의 활성 또는 생성을 억제하여 병인을 차단하는 화합물을 의미할 수 있다.

예를 들어, 후보 화합물은 바이러스의 증식 또는 활성과 연관된 핵심 부위 (특히, 프로테아제, 폴리머라아제) 에 결합하여, 이의 활성을 억제하거나, 바이러스의 침투 경로를 차단하는 후보 물질을 의미할 수 있다.

본원 명세서에서, 후보 화합물은, 후보 약물, 후보 물질과 상호 교환적으로 이용될 수 있다.

나아가, 후보 화합물은, 리간드 (ligand) 와 동일한 의미로 해석될 수도 있다.

본원 명세서 내에서 이용되는 용어 “결합 친화도”는 화합물 및 생물학적 표적의 결합 정도를 의미할 수 있다.

한편, 결합 친화도는 결합 에너지에 대응할 수 있으나, 이에 제한되는 것은 아니다.

예를 들어, 생물학적 표적과의 결합 친화도가 높은 화합물은, 도킹 시뮬레이션 환경에서 생물학적 표적과 높은 결합 에너지로 결합하는 화합물을 의미할 수 있다. 나아가, 이는 생물학적 표적의 활성을 억제할 수 있어, 표적 바이러스의 활성을 또한 억제할 수 있는, 후보 약물일 확률이 높다는 것을 의미할 수 있다.

본원 명세서 내에서 이용되는 용어 “화합물 생성 모델”은, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된 모델을 의미할 수 있다.

즉, 본원 명세서 내에서 화합물 생성 모델은, 선행 학습된 화합물 생성 모델과 동일하게 해석될 수 있다.

이때, 화합물 생성 모델에 입력되는 화합물의 분자 구조는, SMILES (Simplified molecular-input line-entry system) 코드 형태일 수 있으나, 이에 제한되는 것은 아니다.

예를 들어, 화합물 생성 모델은, 복수의 약물-유사 특성을 갖는 생물학적 활성 분자들에 대한 정보를 제공하는 ChEMBL 데이터베이스로부터 획득된 생물학적 활성 분자들에 대한 SMILES 코드를 입력으로 하여 유사한 SMILES 코드를 출력하도록 학습될 수 있다.

즉, 화합물 생성 모델은 기존에 존재하는 화합물의 분포와 특성을 학습하여, 새로운 화합물의 분자 구조 (또는, SMILES 코드) 를 생성하는, 머신러닝 알고리즘 기반의 생성 (generative) 모델일 수 있다.

이때, 화합물 생성 모델은, LSTM (Long Short Term Memory networks) 모델, RNN (Recurrent Neural Network) 모델, CNN (Convolution Neural Network) 모델, GRU (Gated Recurrent Unit) 모델, 및 트랜스포머 (Transformer) 모델 중 적어도 하나일 수 있다.

본 발명의 특징에 따르면, 화합물 생성 모델은, LSTM 모델일 수 있으나, 이에 제한되는 것은 아니다.

본원 명세서 내에서 이용되는 용어 “강화 학습된 화합물 생성 모델”은, 생물학적 표적에 대한 결합 친화도에 따라 보상이 최대가 되도록 학습된 에이전트 (trained agent) 를 갖는 모델을 의미할 수 있다.

보다 구체적으로, 강화 학습된 화합물 생성 모델은, 생물학적 표적-후보 화합물과의 결합 에너지 (binding energy) 기반의 보상 함수에 기초하여, 생물학적 표적과 상호 작용할 것으로 예상되는 적정성 높은 화합물을 생성하도록, 학습된 모델일 수 있다.

즉, 강화 학습된 화합물 생성 모델은, 무작위로 화합물을 생성하도록 학습된 화합물 생성 모델 (또는, 선행 학습된 화합물 생성 모델) 과 달리, 보상 함수에 의해 생물학적 표적의 구조에 따라 결합 친화도가 높은 화합물을 생성하도록 강화 학습된 모델일 수 있다.

이때, 강화 학습된 화합물 생성 모델은, 단순히 화합물을 이루는 분자의 수를 늘려 친화도를 증가시키는 것이 아니라, 화합물을 이루는 단위 원자 (예를 들어, C, H, O, 등) 가 증가될 때, 증가하는 결합 친화도가 최대가 되도록 학습된 모델일 수 있다.

즉, 강화 학습된 화합물 생성 모델은, 단위 원자가 증가함에 따른 결합 친화도의 증가 수준이 최대가 되도록 학습된 모델일 수 있다.

또한, 강화 학습된 화합물 생성 모델은, 두 개 이상의 생물학적 표적 (예를 들어, 복수의 표적 단백질) 에 대하여 공통으로 결합력을 높이는 방향으로 학습될 수 있다. 즉, 강화 학습된 화합물 생성 모델은, 복수의 표적에 대한 저해능의 후보 약물을 제공할 수 있어, 복수의 질환에 대한 치료 효과를 제공할 수도 있다.

나아가, 강화 학습된 화합물 생성 모델은, 선택적으로 하나의 생물학적 표적에 대한 결합력은 낮추면서 다른 생물학적 표적에 대한 결합력은 높이는 방법으로 학습될 수 있다.

이러한 생물학적 표적은, 학습 보상 함수의 설계에 따라 다양하게 설정될 수 있다. 여기서, “보상 함수”는, 생물학적 표적과 화합물의 결합 에너지 (binding energy) 를 평가하도록 설계된 함수를 의미할 수 있다.

보다 구체적으로, 보상 함수는, 도킹 시뮬레이션 (docking simulation) 환경에서 생물학적 표적과 화합물의 결합 친화도를 함수화한 것을 의미할 수 있다.

예를 들어, 생물학적 표적과 화합물의 결합 친화도 (B(A))는 하기의 [수학식 1]에 의해 산출될 수 있다.

[수학식 1]

B(A) = max (결합 에너지/화합물의 경험적 최소 결합 에너지, 0)

이때, 결합 친화도는 0 내지 1 사이의 값을 가질 수 있다. 관련하여, 수학식 1은, 공지된 바이오 활성 분자의 데이터베이스로부터 획득된, 생물학적 표적 및 리간드 (화합물) 의 활성 데이터의 분포에 기초하여 결합 칩화도를 산출하도록 설계된 수식일 수 있다. 그러나, 이에 제한되지 않고 결합 친화도는 보다 다양한 방법에 의해 결정될 수 있다.

즉, 본 명세서에서 사용된 용어, “표준 생물학적 표적”은, ChEMBL과 같은 데이터베이스로부터 획득 가능한 약물 유사 특성을 갖는 공지된 생물학적 활성 분자들일 수 있고 “표준 화합물의 결합 에너지”는 ChEMBL과 같은 데이터베이스로부터 획득 가능한 생물학적 활성 분자의 활성 에너지를 의미할 수 있다.

한편, 화합물 생성 모델의 보상은, 하기 [수학식 2]를 기준으로 결정될 수 있다.

[수학식 2]

QED*0.1 + [도킹 프리 에너지]*0.9

여기서, QED (quantitative estimate of drug-likeness) 는 약물 유사성의 정량 추정값으로, 가중치를 변경시킬 수 있는 파라미터일 수 있다.

즉, 학습된 에이전트를 갖고, 결합 친화도에 따른 보상을 최대로 받도록 강화 학습된 화합물 생성 모델은, 이전의 화합물 생성 모델보다 생물학적 표적에 적합한 후보 화합물을 생성할 수 있다.

한편, 이에 제한되지 않고, 보상 함수의 QED 값에 다양한 가중치 (예를 들어, - 가중치) 가 적용될 수 있어, 화합물 생성 모델은, 친화도가 낮은 화합물을 배제시키거나, 선택적으로 하나의 생물학적 표적에 대한 결합 친화도가 낮고, 다른 생물학적 표적에 대한 결합 친화도가 높은 화합물을 생성할 수도 있다. 나아가, 화합물 생성 모델은, 복수의 생물학적 표적에 결합 친화도가 높은 화합물을 생성할 수도 있다.

이하에서는, 도 1a 내지 도 1c를 참조하여, 본 발명의 다양한 실시예에 따른 약물 설계용 디바이스를 상세히 설명한다.

먼저, 도 1a을 참조하면, 약물 설계 시스템 (1000) 은, 생물학적 표적에 대한 억제능을 갖는 후보 약물에 대한 정보를 제공하도록 구성된 시스템일 수 있다. 이때, 약물 설계 시스템 (1000) 은, 생물학적 표적과 화합물의 결합 친화도에 기초하여, 후보 화합물을 결정하도록 구성된 약물 설계용 디바이스 (100), 사용자의 모바일 디바이스 (200) 및 생물학적 표적 또는 화합물에 대하여 다양한 정보를 제공하는 정보 제공 서버 (300) 로 구성될 수 있다.

먼저, 약물 설계용 디바이스 (100) 는 정보 제공 서버 (300) 로부터 제공된 생물학적 표적 또는 화합물에 대한 데이터를 기초로 약물을 평가하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 및/또는 데이터 서버 등을 포함할 수 있다. 이때, 사용자 모바일 디바이스 (200) 는 후보 약물에 대한 웹 페이지를 제공하는 웹 서버 (web server) 또는 모바일 웹 사이트를 제공하는 모바일 웹 서버 (mobile web server) 에 액세스하기 위한 디바이스일 수 있으나, 이에 한정되지 않는다.

구체적으로, 약물 설계용 디바이스 (100) 는 정보 제공 서버 (300) 로부터 제공된 생물학적 표적의 구조에 대한 데이터를 수신하고, 인공지능 알고리즘 기반의 화합물 생성 모델을 이용하여 수신된 생물학적 표적과 화합물의 결합 친화도를 결정하여, 결합 친화도가 높은 화합물을 후보 화합물로 제공하도록 구성될 수 있다.

약물 설계용 디바이스 (100) 는 생물학적 표적에 대한 후보 약물을 분석한 데이터를 사용자 모바일 디바이스 (200) 로 제공할 수 있다.

이와 같이 약물 설계용 디바이스 (100) 로부터 제공되는 데이터는 사용자 모바일 디바이스 (200) 에 설치된 웹 브라우저를 통해 웹 페이지로 제공되거나, 어플리케이션, 또는 프로그램 형태로 제공될 수 있다. 다양한 실시예에서 이러한 데이터는 클라이언트-서버 환경에서 플랫폼에 포함되는 형태로 제공될 수 있다.

다음으로, 사용자 모바일 디바이스 (200) 는 생물학적 표적에 대한 약물 설계를 요청하고 분석 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하는 전자 장치로서, 스마트폰, 태블릿 PC (Personal Computer), 노트북 및/또는 PC 등 중 적어도 하나를 포함할 수 있다.

사용자 모바일 디바이스 (200) 는 약물 설계용 디바이스 (100) 로부터 생물학적 표적에 대한 후보 약물 분석 결과를 수신하고, 수신된 결과를 표시부를 통해 표시할 수 있다. 여기서, 분석 결과는, 생물학적 표적과 결합 친화도가 높은 후보 화합물의 구조, 이의 SMILES 코드, 결합 친화도 (또는, 보상 점수) 등을 포함할 수 있다. 이때, 후보 화합물은 복수일 수 있다.

다음으로, 도 1b를 참조하여, 본 발명의 약물 설계용 디바이스 (100) 의 구성 요소에 대하여 구체적으로 설명한다.

도 1b를 참조하면, 약물 설계용 디바이스 (100) 는 저장부 (110), 통신부 (120) 및 프로세서 (130) 를 포함한다.

먼저, 저장부 (110) 는 생물학적 표적에 대한 후보 약물을 평가를 위한 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (110) 는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

통신부 (120) 는 약물 설계용 디바이스 (100) 가 외부 장치와 통신이 가능하도록 연결한다. 통신부 (120) 는 유/무선 통신을 이용하여 사용자 모바일 디바이스 (200), 나아가 정보 제공 서버 (300) 와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부 (120) 는 정보 제공 서버 (300) 로부터 생물학적 표적에 대한 구조, 나아가 ChEMBL과 같은 공개된 화합물에 대한 데이터를 수신할 수 있다. 또한, 통신부 (120) 는 사용자 모바일 디바이스 (200) 에 분석 결과를 전달할 수 있다.

프로세서 (130) 는 저장부 (110) 및 통신부 (120) 와 동작 가능하게 연결되며, 생물학적 표적에 대한 후보 약물을 분석하기 위한 다양한 명령들을 수행할 수 있다.

구체적으로, 프로세서 (130) 는 통신부 (120) 를 통해 정보 제공 서버 (300) 로부터 생물학적 표적에 대한 구조를 수신하고, 도킹 시뮬레이션 환경에서 생물학적 표적과의 결합 에너지가 높은 화합물을 후보 화합물로 제공할 수 있다.

이때, 프로세서 (130) 는 생물학적 표적-후보 화합물과의 결합 에너지 (binding energy) 기반의 보상 함수에 기초하여, 생물학적 표적과 상호 작용할 것으로 예상되는 적정성 높은 화합물을 생성하도록 강화 학습된 화합물 생성 모델에 기초할 수 있다.

따라서, 사용자는 사용자 모바일 디바이스 (200) 를 통해, 구조만 알려진 생물학적 표적에 대하여 활성을 억제하거나, 이의 복제를 억제하는 신규 화합물을 제공받을 수 있다.

즉, 사용자는, 초기 의약품 후보 물질 발굴 단계에서 소요되는 시간 및 비용을 줄일 수 있다.

이와 같이 본 발명은, 생물학적 표적에 대하여 결합 친화도가 높은, 새롭고 (novelty) 유효한 (validity) 다수의 화합물을 제공할 수 있어, 신약 개발 (de novo drug design) 의 효율 증대에 기여할 수 있다.

한편, 도 1c를 함께 참조하면, 사용자 모바일 디바이스 (200) 는 통신부 (210), 표시부 (220), 저장부 (230) 및 프로세서 (240) 를 포함한다.

통신부 (210) 는 사용자 모바일 디바이스 (200) 가 외부 장치와 통신이 가능하도록 연결한다. 통신부 (210) 는 유/무선 통신을 이용하여 약물 설계용 디바이스 (100) 와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부 (210) 는 약물 설계용 디바이스 (100) 로부터 생물학적 표적과 연관된 분석 결과를 수신할 수 있다.

표시부 (220) 는 생물학적 표적과 연관된 분석 결과를 나타내기 위한 다양한 인터페이스 화면을 표시할 수 있다.

다양한 실시예에서 표시부 (220) 는 터치스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치 (touch), 제스처 (gesture), 근접, 드래그 (drag), 스와이프 (swipe) 또는 호버링 (hovering) 입력 등을 수신할 수 있다.

저장부 (230) 는 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위해 사용되는 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (230) 는 플래시 메모리 타입 (flash memory type), 하드디스크 타입 (hard disk type), 멀티미디어 카드 마이크로 타입 (multimedia card micro type), 카드 타입의 메모리 (예를 들어 SD 또는 XD 메모리 등), 램 (Random Access Memory, RAM), SRAM (Static Random Access Memory), 롬 (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

프로세서 (240) 는 통신부 (210), 표시부 (220) 및 저장부 (230) 와 동작 가능하게 연결되며, 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위한 다양한 명령들을 수행할 수 있다.

이하에서는, 도 2a 내지 도 2d를 참조하여, 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델을 이용한 후보 화합물 생성 방법에 대하여 설명한다.

먼저, 도 2a를 참조하면, 생물학적 표적에 대한 분자 구조가 수신된다 (S210). 그 다음, 화합물 생성 모델에 대한 강화 학습이 수행되고 (S220), 강화 학습된 모델에 의해 생물학적 표적에 대한 후보 화합물이 생성된다 (S230). 마지막으로, 결과가 제공된다 (S240).

보다 구체적으로, 생물학적 표적에 대한 분자 구조가 수신되는 단계 (S210) 에서, 바이러스 단백질 (예를 들어, Mpro) 과 같은 생물학적 표적에 대한 단백질 구조가 수신된다.

그 다음, 강화 학습이 수행되는 단계 (S220) 에서, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 생물학적 표적과의 결합 친화도를 이용하여 강화 학습이 수행된다.

예를 들어, 도 2b를 함께 참조하면, 강화 학습이 수행되는 단계 (S220) 에서, 사전 학습된 화합물 생성 모델 (410) 의 초기 네트워크 (prior network) 로부터 사전 가능성 (Prior Likelihood) 이 결정되고, 에이전트 네트워크 (agent network) (420) 로부터 시퀀스가 생성된 후, 에이전트 가능성 (Agent Likelihood) 이 결정된다. 동시에, SMILES 코드가 생성되고, 기수신된 생물학적 표적과의 결합 친화도 (Binding Affinity) 가 결정된다. 그 다음, 생물학적 표적과 화합물의 결합 에너지를 평가하도록 설계된 보상 함수 (reward function) (430) 에 의해, 보상이 최대로 되는 화합물을 생성하도록 에이전트 학습되고, 학습된 내용이 업데이트되면서 강화 학습된 화합물 생성 모델이 생성될 수 있다.

이때, 보상 함수는, 공지된 바이오 활성 분자의 데이터베이스로부터 획득된, 생물학적 표적 및 리간드 (화합물) 의 활성 데이터의 분포에 기초하여 결합 칩화도를 산출하도록 설계된 수식일 수 있다.

예를 들어, 2c의 (a)를 참조하면, ChEMBL 데이터베이스의 활성 데이터로부터 범위화된 결합 에너지 (Scaled Binding Energy) (또는, 사전 보상 점수) 는, 0.5 이상의 높은 값을 갖는 경우가 거의 없고 대체적으로 낮은 값으로 분포하는 것으로 나타난다. 나아가, 도 2c의 (b)를 참조하면, 표준화 (Normalization) 이전의 결합 에너지는, 최소값이 -15.21kcal/mol이고, 상대적으로 고르게 분포되어 있는 것으로 나타난다.

이때, 보상 함수는, ChEMBL 데이터베이스와 같은 실제 생물학적 표적-화합물 활성 실험 데이터로부터 획득된 결합 에너지 분포에 기초하여, 결합 에너지의 범위를 0 내지 -15.21 kcal/mol로 가정하여, 0 내지 1 사이의 값으로 스케일하도록 구성될 수 있다.

본 발명의 특징에 따르면, 보상 함수는 다음의 수학식 1에 의해 산출될 수 있다.

[수학식 1]

B(A) = max (결합 에너지/화합물의 경험적 최소 결합 에너지, 0)

그러나, 이에 제한되는 것은 아니다.

다시, 도 2a를 참조하면, 강화 학습이 수행되는 단계 (S220) 의 결과로, 강화 학습이 수행된, 즉 학습된 에이전트를 갖는 화합물 생성 모델이 구축될 수 있다.

한편, 강화 학습이 수행되는 단계 (S220), 전술한 절차에 제한되어 생성되는 것이 아니다. 예를 들어, 강화 학습이 수행되는 단계 (S220) 에서, 화합물의 분자 구조를 나타내는 SMILES 코드를 입력으로 하여 유사한 SMILE 코드를 출력으로 하는 화합물 생성 모델에 대하여 강화 학습이 수행될 수 있다. 보다 구체적으로, 강화 학습이 수행되는 단계 (S220) 에서, 화합물 생성 모델은, 기 수신된 생물학적 표적과의 결합 친화도가 높은 새로운 SMILES 코드를 생성할 때, 높은 보상 점수를 받도록 학습될 수 있다.

다음으로, 후보 화합물이 생성되는 단계 (S230) 에서, 화합물 생성 모델에 의해 무작위로 생성된 복수의 후보 화합물에 대하여, 생물학적 표적과의 결합 친화도가 결정되고, 결합 친화도에 기초하여, 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물이 결정된다.

보다 구체적으로, 도 2d를 함께 참조하면, 후보 화합물이 생성되는 단계 (S230) 에서, 화합물 생성 모델에 복수의 후보 화합물이 무작위로 생성된다 (S2100). 그 다음, 도킹 시뮬레이션 (docking simulation) 환경에서, 생물학적 표적과의 결합 에너지 (binding energy) 를 평가하도록 구성된 보상 함수에 의해 각각에 대한 보상 점수가 결정될 수 있다 (S2200). 그 다음, 보상 점수에 기초하여 복수의 후보 화합물 중, 생물학적 표적에 대한 후보 화합물이 결정될 수 있다 (S2300).

예를 들어, 후보 화합물이 결정되는 단계 (S2300) 에서, 복수의 화합물 중 보상 점수가 최대인 화합물 또는, 보상 점수가 상위 순위에 있는 화합물들, 또는 미리 결정된 수준 이상의 보상 점수를 갖는 화합물들이, 생물학적 표적에 대한 후보 화합물 (또는, 후보 약물) 로서 결정될 수 있다.

나아가, 생물학적 표적이 복수일 경우, 후보 화합물이 결정되는 단계 (S2300) 에서, 기설정된 보상 함수에 따라, 복수의 생물학적 표적에 대하여 결합 친화도가 높은 후보 화합물이 결정될 수 있다. 즉, 후보 화합물이 결정되는 단계 (S2300) 에서, 복수의 표적에 대한 저해능을 갖고, 이에 복수의 질환에 대한 치료 효과를 제공하는 후보 화합물을 제공할 수도 있다.

나아가, 후보 화합물이 결정되는 단계 (S2300) 에서, 기설정된 보상 함수에 따라, 택적으로 하나의 생물학적 표적에 대한 결합력이 낮으면서도, 다른 생물학적 표적에 대한 결합력은 높은 후보 화합물이 결정될 수도 있다.

이와 같이 후보 화합물이 생성되는 단계 (S230) 에서는, 강화 학습 절차와 유사한 방법으로 생물학적 표적에 대한 후보 화합물이 결합 친화도에 기초하여 최종 결정될 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 복수의 후보 화합물이 무작위로 생성되는 단계 (S2100) 에서, 강화 학습이 수행된 화합물 생성 모델로부터, 무작위로 생성된 복수의 후보 화합물 자체가 생물학적 표적과의 결합 친화도가 높은 화합물일 수 있다. 이에, 보상 점수가 결정되는 단계 (S2200) 없이, 후보 화합물이 결정되는 단계 (S2300) 에서 무작위로 생성된 복수의 후보 화합물들이 생물학적 표적과 결합 친화도가 높은 최종 후보 화합물로서 결정될 수 있다.

다시, 도 2a를 참조하면, 결과가 제공되는 단계 (S240) 에서, 생물학적 표적에 대하여 결합 친화도가 높은 화합물들이 후보 화합물로 제공될 수 있다.

즉, 상기와 같은 절차에 의해 생물학적 표적에 대하여 결합 친화도가 높은, 새롭고 유효한 다수의 화합물이 제공될 수 있다.

이에, 본 발명은, 신약 개발 (de novo drug design) 의 효율 증대에 기여할 수 있다. 특히, 본 발명은 강화 학습 모델 기반의 새로운 약물 설계 시스템이 기존에 인공지능에 따로 학습 시키지 않은, 즉 데이터가 없는 새로운 생물학적 표적에 대하여, 존재하는 약물과 유사한 신규 물질을 제공할 수 있다. 이에, 본 발명은 종래의 약물 설계 시스템보다, 적은 소요 시간 및 비용으로 신뢰도 높은 설계 결과를 제공할 수 있다.

이하에서는, 도 3 및 도 4를 참조하여, 본 발명의 다양한 실시예에 적용되는 사전 학습된 화합물 생성 모델의 학습 방법 및 이의 구조에 대하여 설명한다.

먼저, 도 3을 참조하면, 본 발명의 다양한 실시예에 이용되는 약물 설계 모델의 설계를 위해, 학습용 화합물의 분자 구조가 수신된다 (S310). 그 다음 학습용 화합물의 분자 구조가 SMILES 코드로 변환된다 (S320). 그 다음, 인공지능 알고리즘 기반 화합물 생성 모델은, 학습용 화합물의 SMILES 코드를 입력으로 하여 학습용 화합물의 구조와 유사한 SMILES 코드를 출력하도록 학습된다 (S330).

예를 들어, 화합물의 분자 구조가 수신되는 단계 (S230) 에서, 복수의 약물-유사 특성을 갖는 생물학적 활성 분자들에 대한 정보를 제공하는 ChEMBL 데이터베이스로부터 학습용 화합물의 분자 구조를 수신할 수 있다. 그 다음, 화합물의 분자 구조가 SMILES 코드로 변환되는 단계 (S320) 에서, 기 존재 화합물에 대한 SMILES 코드가 생성될 수 있다. 마지막으로, 학습되는 단계 (S330) 에서, ChEMBL 데이터베이스로부터 획득된 생물학적 활성 분자들에 대한 SMILES 코드를 입력으로 하여 유사한 SMILES 코드를 출력하도록, 화합물 생성 모델이 학습될 수 있다.

즉, 상기 절차에 의해, 기존에 존재하는 화합물의 분포와 특성을 학습하여, 새로운 화합물의 분자 구조 (또는, SMILES 코드) 를 생성하는, 머신러닝 알고리즘 기반의 생성 (generative) 모델인, 사전 학습된 화합물 생성 모델이 구축될 수 있다.

이때, 도 4를 함께 참조하면, 사전 학습된 화합물 생성 모델은, SMILES 코드를 입력 받는, 입력 레이어 (input layer), 입력된 SMILES 코드로부터 임베딩된 백터를 생성하는 임베딩 레이어 (embedding layer), 3 단의 LSTM으로 이루어진 인코딩 레이어 (encoding layer), 완전 연결 (fully connected) 을 통해 새로운 SMILE 코드를 출력하는 디코딩 레이어 (decoding layer) 로 이루어질 수 있다.

보다 구체적으로, 아세톤 (Acetone) 의 SMILES 코드인 CC(=O)C가 입력 레이어를 통해 입력되면, 임베딩 레이어, 인코딩 레이어, 및 디코딩 레이어를 거친 후, softmax를 통해 새로운 SMILES 코드가 출력될 수 있다.

한편, 사전 학습된 화합물 생성 모델의 구조 및 학습 방법은 전술한 것에 제한되지 않는다.

평가: 강화 학습된 화합물 생성 모델의 평가

이하에서는 도 5a 내지 5d, 6a 및 6b를 참조하여 본 발명의 다양한 실시예에 적용되는 강화 학습된 화합물 생성 모델의 평가 결과에 대하여 설명한다.

이때, 강화 학습된 화합물 생성 모델은, 코로나바이러스의 증식과 연관된 메인 프로테아제 (Mpro) 또는 RNA-의존 RNA 폴리머라아제 (RdRp) 를 생물학적 표적으로 하여 이에 대하여 결합 친화도가 높은 후보 화합물을 생성하도록 구성될 수 있다. 그러나, 생물학적 표적은 이에 제한되지 않고, 바이러스의 활성 또는 증식과 연관된 구조가 밝혀진 부위 (또는, 영역) 일 수도 있다.

먼저, 도 5a를 참조하면, 화합물 생성 모델에 대한 강화 학습의 스텝 반복 수에 따른 학습 커브 (learning curve) 가 도시된다.

보다 구체적으로, 강화 학습을 수행할수록, 코로나바이러스 Mpro와의 결합 에너지가 향상되는 것으로 나타난다.

*도 5b의 (a), (b) 및 (c)를 함께 참조하면, 강화 학습된 화합물 생성 모델에 의해 생성된, 코로나바이러스 Mpro에 대한 3 가지 후보 화합물은 각각, -12.17 kcal/mol, -11.26 kcal/mol 및 -11.1 kcal/mol의 높은 바인딩 에너지를 갖고, 0.8, 0.74 및 0.73의 높은 보상 점수를 갖는 것으로 나타난다.

도 5c를 함께 참조하면, 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델에 의해 생성된, 코로나바이러스 프로테아제와 결합 친화도가 높은 화합물의 SMILES 코드와 함께, ChEMBL ID, 성분명 (일반명) (Generic Name) 이 도시된다. 이들 46 개의 화합물은, 코로나바이러스의 활성, 나아가 복제와 연관된 프로테아제에 대한 저해능을 가질 수 있어, 코로나바이러스 감염증의 치료를 위한 후보 물질로서 제공될 수 있다.

또한, 도 5d를 참조하면, 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델에 의해 생성된, 코로나바이러스 RNA-의존 RNA 폴리머라아제 (RdRp) 와 결합 친화도가 높은 화합물의 SMILES 코드와 함께, ChEMBL ID, 성분명 (일반명) (Generic Name) 이 도시된다. 이들 17 개의 화합물은, 코로나바이러스의 활성과 연관된 폴리머라아제에 대한 저해능을 가질 수 있어, 코로나바이러스 감염증의 치료를 위한 후보 물질로서 제공될 수 있다.

즉, 본 발명의 다양한 실시예에 이용되는 강화 학습된 화합물 생성 모델은, 생물학적 표적과의 반응과 연관된 바인딩 에너지가 높은 신규 화합물을, 후보 약물로서 제공할 수 있다. 즉, 이러한 후보 약물은, 생물학적 표적과 높은 친화도로 결합하여, 이의 활성을 억제할 수 있다.

도 6a 및 6b를 참조하면, 본 발명의 다양한 실시예에 적용되는 강화 학습된 화합물 생성 모델, 즉 학습된 에이전트 네트워크 (trained agent network) 를 갖는 모델과 초기 네트워크 (prior network) 를 갖는 강화 학습 이전 모델 (즉, 사전 학습 모델) 각각으로부터 생성된 화합물의 특징이 비교하여 도시된다.

보다 구체적으로, 도 6a 본 발명의 다양한 실시예에 적용되는 강화 학습된 화합물 생성 모델은, 사전 학습된 모델과 상이하게 코로나바이러스 Mpro에 결합하기 위해, 불소 (F), 탄소 (C), 산소 (O)를 화합물에 추가하려는 경향이 나타나다.

나아가, 도 6b를 참조하면, 본 발명의 다양한 실시예에 적용되는 강화 학습된 화합물 생성 모델은, 사전 학습된 모델과 상이하게 붕소 (B), 셀레늄 (Se) 의 준금속 원소를 추가하려는 경향성이 낮은 것으로 나타난다.

즉, 이러한 결과는, 발명의 다양한 실시예에 적용되는 강화 학습된 화합물 생성 모델이 사전 학습된 화합물 생성 모델보다 개선된 구조의 화합물을 생성하는 것을 의미할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 일 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

[부호의 설명]

100: 약물 설계용 디바이스

110, 230: 저장부

120, 210: 통신부

130, 240: 프로세서

200: 사용자 모바일 디바이스

220: 표시부

410: 화합물 생성 모델

420: 에이전트 네트워크

430: 보상함수

1000: 약물 설계 시스템

[이 발명을 지원한 국가연구개발사업]

[과제고유번호] 1711106599

[과제번호] 2018R1C1B6009531

[부처명] 과학기술정보통신부

[과제관리(전문)기관명] 한국연구재단

[연구사업명] 개인기초연구(과기정통부)(R＆D)

[연구과제명] 임상-병리, 딥러닝 기반 폐선암 종양 내 다양성 질환

분석 연구

[기여율] 1/1

[과제수행기관명] 연세대학교

[연구기간] 2020.03.01 ~ 2021.02.28

Claims

프로세서 및 통신부에 의해 구현되는 약물 설계 방법으로서,

상기 통신부를 통해, 생물학적 표적 (biological target) 에 대한 구조를 수신하는 단계;

상기 프로세서를 통해, 강화 학습된 화합물 생성 모델을 획득하도록, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 상기 생물학적 표적과의 결합 친화도 (binding affinity) 를 이용하여 강화 학습 (reinforcement learning) 을 수행하는 단계;

상기 강화 학습된 화합물 생성 모델을 이용하여, 상기 생물학적 표적에 대한 후보 화합물을 생성하는 단계, 및

상기 후보 화합물을 제공하는 단계를 포함하는, 약물 설계 방법.
제1항에 있어서,

상기 후보 화합물을 생성하는 단계는,

상기 강화 학습된 화합물 생성 모델을 이용하여, 복수의 후보 화합물을 생성하는 단계;

상기 생물학적 표적 및 상기 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하는 단계, 및

상기 각각에 대한 결합 친화도에 기초하여, 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함하는, 약물 설계 방법.
제2항에 있어서,

상기 각각에 대한 결합 친화도를 결정하는 단계는,

도킹 시뮬레이션 (docking simulation) 환경에서, 생물학적 표적과의 결합 에너지 (binding energy) 를 평가하도록 구성된 보상 함수를 이용하여, 상기 각각에 대한 보상 점수를 결정하는 단계를 포함하고,

상기 후보 화합물을 결정하는 단계는,

상기 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함하는, 약물 설계 방법.
제3항에 있어서,

상기 후보 화합물을 결정하는 단계는,

상기 복수의 후보 화합물 중 상기 보상 점수가 최대인 화합물을, 상기 생물학적 표적에 대한 후보 화합물로 결정하는 단계를 포함하는, 약물 설계 방법.
제3항에 있어서,

상기 보상 함수는,

기수신된 표준 생물학적 표적 및 표준 화합물의 결합 에너지의 분포에 기초하여, 상기 결합 친화도를 평가하도록 구성된, 약물 설계 방법.
제3항에 있어서,

상기 보상 함수는,

0 내지 1 사이의 값으로 상기 결합 친화도 점수를 결정하도록 구성된, 약물 설계 방법.
제3항에 있어서,

상기 보상 함수는,

상기 생물학적 표적과의 결합 친화도가 낮을 수록 높은 보상 점수를 받도록 구성되고,

상기 후보 화합물을 결정하는 단계는,

상기 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적과 결합 친화도가 낮은 후보 화합물을 결정하는 단계를 더 포함하는, 약물 설계 방법.
제1항에 있어서,

상기 강화 학습을 수행하는 단계 이전에,

학습용 화합물의 분자 구조를 수신하는 단계;

상기 학습용 화합물의 분자 구조를 학습용 SMILES (Simplified molecular-input line-entry system) 코드로 변환하는 단계, 및

상기 학습용 SMILES 코드를 입력으로 하여, 상기 학습용 화합물과 유사한 SMILES 코드를 출력하도록, 상기 화합물 생성 모델을 학습시키는 단계를 더 포함하는, 약물 설계 방법.
제8항에 있어서,

상기 후보 화합물을 생성하는 단계는,

상기 강화 학습된 화합물 생성 모델을 이용하여, 복수의 SMILES 코드를 생성하는 단계;

상기 복수의 SMILES 코드를 기초로, 복수의 후보 화합물 결정하는 단계;

상기 생물학적 표적 및 상기 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하는 단계, 및

상기 각각에 대한 결합 친화도에 기초하여, 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하는 단계를 포함하는, 약물 설계 방법.
제1항에 있어서,

상기 강화된 화합물 생성 모델은,

에이전트 네트워크 (agent network) 를 포함하고,

상기 강화 학습을 수행하는 단계는,

생물학적 표적과의 결합 에너지에 기초하여 상기 결합 친화도를 평가하도록 구성된 보상 함수를 이용하여, 상기 에이전트 네트워크를 업데이트하는 단계를 포함하는, 약물 설계 방법.
제1항에 있어서,

상기 생물학적 표적은,

바이러스 단백질 (virus protein), 코로나바이러스 (Coronavirus) 의 활성 핵심 부위 및 사스-코로나바이러스 (Severe acute respiratory syndrome coronavirus) 의 활성 핵심 부위 중 적어도 하나인, 약물 설계 방법.
생물학적 표적 (biological target) 에 대한 구조를 수신하도록 구성된, 통신부, 및

상기 통신부와 통신하도록 구성된 프로세서를 포함하고,

상기 프로세서는,

강화 학습된 화합물 생성 모델을 획득하도록, 화합물의 분자 구조를 입력으로 하여 유사 화합물의 분자 구조를 출력하도록 선행 학습된, 화합물 생성 모델에 대하여, 상기 생물학적 표적과의 결합 친화도 (binding affinity) 를 이용하여 강화 학습 (reinforcement learning) 을 수행하고,

상기 강화 학습된 화합물 생성 모델을 이용하여, 상기 생물학적 표적에 대한 후보 화합물을 생성하고,

상기 후보 화합물을 제공하도록 구성된, 약물 설계용 디바이스.
제12항에 있어서,

상기 프로세서는,

상기 강화 학습된 화합물 생성 모델을 이용하여, 복수의 후보 화합물을 생성하고,

상기 생물학적 표적 및 상기 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하고,

상기 각각에 대한 결합 친화도에 기초하여, 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성된, 약물 설계용 디바이스.
제13항에 있어서,

상기 프로세서는,

도킹 시뮬레이션 (docking simulation) 환경에서, 생물학적 표적과의 결합 에너지 (binding energy) 를 평가하도록 구성된 보상 함수를 이용하여, 상기 각각에 대한 보상 점수를 결정하고,

상기 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성된, 약물 설계용 디바이스.
제14항에 있어서,

상기 프로세서는,

상기 복수의 후보 화합물 중 상기 보상 점수가 최대인 화합물을, 상기 생물학적 표적에 대한 후보 화합물로 결정하도록 더 구성된, 약물 설계용 디바이스.
제14항에 있어서,

상기 보상 함수는,

기수신된 표준 생물학적 표적 및 표준 화합물의 결합 에너지의 분포에 기초하여, 상기 결합 친화도를 평가하도록 구성된, 약물 설계용 디바이스.
제14항에 있어서,

상기 보상 함수는,

0 내지 1 사이의 값으로 상기 결합 친화도 점수를 결정하도록 구성된, 약물 설계용 디바이스.
제14항에 있어서,

상기 보상 함수는,

상기 생물학적 표적과의 결합 친화도가 낮을 수록 높은 보상 점수를 받도록 구성되고,

상기 프로세서는,

상기 보상 점수에 기초하여 상기 복수의 후보 화합물 중, 상기 생물학적 표적과 결합 친화도가 낮은 후보 화합물을 결정하도록 더 구성된, 약물 설계용 디바이스.
제12항에 있어서,

상기 통신부는,

학습용 화합물의 분자 구조를 수신하도록 더 구성되고,

상기 프로세서는,

상기 학습용 화합물의 분자 구조를 학습용 SMILES (Simplified molecular-input line-entry system) 코드로 변환하고,

상기 학습용 SMILES 코드를 입력으로 하여, 상기 학습용 화합물과 유사한 SMILES 코드를 출력하도록, 상기 화합물 생성 모델을 학습하도록 더 구성된, 약물 설계용 디바이스.
제19항에 있어서,

상기 프로세서는,

상기 강화 학습된 화합물 생성 모델을 이용하여, 복수의 SMILES 코드를 생성하고,

상기 복수의 SMILES 코드를 기초로, 복수의 후보 화합물 결정하고,

상기 생물학적 표적 및 상기 복수의 후보 화합물 각각에 대한 결합 친화도를 결정하고,

상기 각각에 대한 결합 친화도에 기초하여, 상기 복수의 후보 화합물 중, 상기 생물학적 표적에 대한 후보 화합물을 결정하도록 더 구성된, 약물 설계용 디바이스.
제12항에 있어서,

상기 강화된 화합물 생성 모델은,

에이전트 네트워크 (agent network) 를 포함하고,

상기 프로세서는,

생물학적 표적과의 결합 에너지에 기초하여 상기 결합 친화도를 평가하도록 구성된 보상 함수를 이용하여, 상기 에이전트 네트워크를 업데이트하도록 더 구성된, 약물 설계용 디바이스.
제12항에 있어서,

상기 생물학적 표적은,

바이러스 단백질 (virus protein), 코로나바이러스 (Coronavirus) 의 활성 핵심 부위 및 사스-코로나바이러스 (Severe acute respiratory syndrome coronavirus) 의 활성 핵심 부위 중 적어도 하나인, 약물 설계용 디바이스.