KR20140146193A

KR20140146193A - 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 방법, 시스템, 및 컴퓨터 판독가능 매체

Info

Publication number: KR20140146193A
Application number: KR1020147031796A
Authority: KR
Inventors: 셩페이 천; 후이쥐엔 거; 쉬차오 리; 샹 이; 지앤 왕; 준 왕; 후안밍 양; 시우칭 쟝
Original assignee: 비지아이 다이어그노시스 씨오., 엘티디.
Priority date: 2012-05-14
Filing date: 2012-05-14
Publication date: 2014-12-24
Anticipated expiration: 2032-05-14
Also published as: US20180320235A1; EP2851431B1; JP6045686B2; RU2597981C2; JP2015525062A; WO2013170429A1; RU2014150655A; ES2656023T3; HK1196401A1; CN104053789A; SG11201407515RA; KR101770460B1; US20150094210A1; AU2012380221A1; AU2012380221B2; EP2851431A4; PL2851431T3; CN104053789B; EP2851431A1

Abstract

태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 방법, 시스템, 및 컴퓨터 판독가능 매체를 제공하며, 이 방법은, 태아의 게놈 DNA 샘플에 대한 시퀀싱 라이브러리를 구축하는 단계; 시퀀싱 라이브러리를 시퀀싱하여 복수의 시퀀싱 데이터로 이루어지는 태아의 시퀀싱 결과를 얻는 단계; 및 상기 태아의 시퀀싱 결과에 기초하여, 태아에 유전적으로 관련된 개체의 유전자 정보와 함께 히든 마르코프 모델에 따라 소정의 영역의 염기 정보를 확정하는 단계를 포함한다.

Description

태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 방법, 시스템, 및 컴퓨터 판독가능 매체{METHOD, SYSTEM AND COMPUTER READABLE MEDIUM FOR DETERMINING BASE INFORMATION IN PREDETERMINED AREA OF FETUS GENOME}

본 개시 내용의 실시예들은, 일반적으로 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법, 시스템, 및 컴퓨터 판독가능 매체에 관한 것이다.

유전병은, 선천적, 가족적, 영구적, 유전적 특징들을 갖는 유전 물질들의 변화로 인한 질병의 한 종류이다. 유전병은 세 가지로 분류될 수 있는데, 단세대 질병, 다세대 장애, 및 염색체 이상으로 분류될 수 있다. 이 중에서 단세대 질병이 가장 흔한데, 그 이유는 단일의 질병 유발 유전자(single disease-causing gene)의 우성 또는 열성 유전에 의해 야기되는 유전적 기능 이상 때문이며, 다세대 장애는 복수의 유전자 변화에 의해 야기되는 질병의 일종이며, 이는 외부 환경에 의해 어느 정도 영향을 받을 수도 있는 것이며, 염색체 이상은 개수 이상과 구조 이상을 포함하며, 가장 흔한 일례는 3염색체성 21로부터 발생하는 다운 증후군이며, 비정상적 신체 형상과 몽고증 등의 선천적 특성을 나타내는 어린이 환자가 그러하다. 유전병에 대한 효과적인 치료법은 아직까지 없으므로, 고가의 약 감면 또는 지지적 치료를 적절히 수행하는 것만 가능하며, 이에 따라 사회와 가족을 위한 기분과 경제 모두에 있어서 큰 부담을 야기할 수 있다. 따라서, 양호한 산전 관리 및 산후 관리를 달성하도록 출생 전 태아의 병적 상태를 검출함으로써 일부 예방 작업을 행하는 것이 절실히 필요하다.

그러나, 여전히 관련된 검출 방법을 개선할 필요가 있다.

본 발명의 목적은 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 방법, 시스템, 및 컴퓨터 판독가능 매체를 제공하는 것이다.

본 개시 내용의 실시예들은 당해 기술에 존재하고 있는 문제점들 중 적어도 하나를 어느 정도 이상 해결한다.

본 개시 내용의 넓은 제1 양태의 실시예들은 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법을 제공한다. 본 개시 내용의 실시예들에 따르면, 이 방법은, 태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리(sequencing library)를 구축하는 단계; 시퀀싱 라이브러리를 시퀀싱하여 복수의 시퀀싱 데이터로 이루어지는 태아의 시퀀싱 결과를 얻는 단계; 및 상기 태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며 히든 마르코프 모델(hidden Markov Model)을 이용하여 상기 소정의 영역의 염기 정보를 확정하는 단계를 포함할 수 있다. 자식 게놈의 형성은, 부모 세대의 게놈의 랜덤한 재조합(즉, 일배체형 재조합의 상호 교환, 및 배우자들의 랜덤한 조합)과 같다. 임산부의 혈장에 대하여, 태아 일배체형(부모 일배체형들의 재조합)이 숨겨진 상태인 경우, 혈장의 시퀀싱 데이터가 관측(시퀀싱 관측), 천이 확률, 관측 심볼 확률로서 사용될 수 있고, 초기 상태 분포가 이전 데이터에 의해 추론될 수 있고, 이어서, 산전 태아의 더욱 많은 정보를 얻도록 비터비 알고리즘에 기초하는 히든 마르코프 모델을 이용하여 가장 가능성이 높은 태아 일배체형 재조합을 확정할 수 있다. 따라서, 본 개시 내용의 실시예들에 따르면, 히든 마르코프 모델에 의해, 예를 들어, 비터비 알고리즘을 이용하고 관련된 개체의 유전자 정보를 참조함으로써, 태아 게놈의 소정의 영역의 핵산 시퀀스를 확정할 수 있고, 이에 의해 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

본 개시 내용의 넓은 제2 양태의 실시예들은 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템을 제공한다. 본 개시 내용의 실시예들에 따르면, 시스템은, 태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리를 구축하도록 구성된 라이브러리 구축 장치, 라이브러리 구축 장치에 연결되고, 복수의 시퀀싱 데이터로 이루어지는 태아의 시퀀싱 결과를 얻기 위해 시퀀싱 라이브러리를 시퀀싱하도록 구성된 시퀀싱 장치; 및 상기 시퀀싱 장치에 연결되고, 상기 태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며 히든 마르코프 모델을 이용하여 상기 소정의 영역의 염기 정보를 확정하기에 적합한 분석 장치를 포함할 수 있다. 이러한 시스템을 이용함으로써, 상술한 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법을 효과적으로 구현할 수 있으며, 히든 마르코프 모델에 의해, 예를 들어, 비터비 알고리즘을 이용하고 관련된 개체의 유전자 정보를 참조함으로써 태아 게놈의 소정의 영역의 핵산 시퀀스를 확정할 수 있고, 이에 의해 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

본 개시 내용의 넓은 제3 양태의 실시예들은 컴퓨터 판독가능 매체를 제공한다. 본 개시 내용의 실시예들에 따르면, 복수의 명령어를 포함하는 컴퓨터 판독가능 매체는,

태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며, 히든 마르코프 모델을 이용하여 소정의 영역의 염기 정보를 확정하기에 적합한 복수의 명령어를 포함한다. 본 개시 내용의 컴퓨터 판독가능 매체를 이용함으로써, 복수의 명령어를 프로세서에 의해 효과적으로 실행하여 히든 마르코프 모델에 의해, 예를 들어, 관련된 개체의 유전자 정보와 결합되는 태아의 시퀀싱 데이터에 기초하는 비터비 알고리즘을 이용하여 태아 게놈의 소정의 영역의 핵산 시퀀스를 확정할 수 있고, 이에 의해 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

본 개시 내용의 실시예들의 추가 양태들과 장점들은, 다음에 따르는 상세한 설명에서 부분적으로 주어지며, 다음에 따르는 상세한 설명으로부터 부분적으로 명백할 것이며, 또는 본 개시 내용의 실시예들의 실시로부터 학습될 것이다.

본 발명에 의하면 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 방법, 시스템, 및 컴퓨터 판독가능 매체를 제공할 수 있다.

본 개시 내용의 실시예들의 이러한 양태들과 장점들 및 다른 양태들과 장점들은 첨부 도면을 참조하여 다음에 따르는 상세한 설명으로부터 명백할 것이며 더욱 쉽게 인식될 것이다.
도 1은 본 개시 내용의 일 실시예에 따라 히든 마르코프 모델을 이용하는 분석 공정을 도시하는 흐름도.
도 2는 본 개시 내용의 일 실시예에 따라 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템을 도시하는 개략도.

본 개시 내용의 실시예들을 상세히 참조한다. 동일한 또는 유사한 요소들 및 동일한 또는 유사한 기능들을 갖는 요소들에는 상세한 설명 전체에 걸쳐 유사한 참조 번호들을 부여한다. 본 명세서에서 도면을 참조하여 설명하는 실시예들은, 설명하기 위한 것이고 예시적이며, 본 개시 내용을 전체적으로 이해하는 데 이용된다. 실시예들이 본 개시 내용을 제한하는 것으로 해석해서는 안 된다.

"제1" 및 "제2" 등의 용어들은, 본 명세서에서 설명을 위해 사용되는 것이며, 상대적 중요성이나 유의성을 가리키거나 암시하려는 것이 아니라는 점에 주목한다. 따라서, "제1" 또는 "제2"'로 규정되는 특징들은 해당 특징을 하나 이상 명시적으로 또는 암시적으로 포함할 수도 있다. 또한, 본 개시 내용의 설명에 있어서, 특별히 달리 언급하지 않는 한, "복수"는 두 개 이상을 의미한다.

태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법

본 개시 내용의 제1 양태에서는, 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법을 제공한다. 본 개시 내용의 실시예들에 따르면, 이 방법은, 먼저, 태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리를 구축하는 단계를 포함할 수 있다. 본 개시 내용의 실시예들에 따르면, 태아의 게놈 DNA 샘플의 소스는 특정하게 제한되지 않는다. 본 개시 내용의 일부 실시예들에 따르면, 태아의 핵산을 함유하는 임산부의 임의의 샘플을 사용하면 된다. 예를 들어, 본 개시 내용의 실시예들에 따르면, 임산부 샘플은 임산부의 모유, 소변, 및 말초혈액일 수 있다. 이 중에서, 임산부의 말초혈액이 바람직하다. 임산부의 말초혈액을 태아의 게놈 DNA 샘플의 소스로서 사용함으로써, 비침습성 샘플링에 의해 태아의 게놈 DNA 샘플을 효과적으로 구하는 것을 효과적으로 실현할 수 있고, 이에 의해 태아 성장의 정상적인 발달에 영향을 끼치지 않는다는 전제 하에서 태아 게놈을 효과적으로 감시할 수 있다. 핵산 샘플을 위한 시퀀싱 라이브러리를 구축하는 방법과 공정에 대해서는, 통상의 기술자라면 서로 다른 시퀀싱 기술에 따라 적절히 선택할 수 있다. 상세한 공정은, Illumina Company 등의 시퀀서 제조사에 의해 제공되는 프로시저를 참조할 수 있으며, 예를 들어, 본 명세서에 참고로 원용되는, Illumina Company의 Multiplexing Sample Preparation Guide (Part#1005361; Feb 2010) 또는 Paired-End SamplePrep Guide (Part#1005063, Feb 2010)를 참조할 수 있다. 본 개시 내용의 실시예들에 따르면, 생물학적 샘플로부터 핵산을 추출하기 위한 방법과 장치는 특별히 제한되지 않으며, 이는 상업용 핵산 추출 키트를 사용하여 수행될 수 있다.

시퀀싱 라이브러리가 구축된 후, 얻은 시퀀싱 라이브러리를 시퀀서에 적용하여, 복수의 시퀀싱 데이터로 이루어지는 대응하는 시퀀싱 결과를 얻는다. 본 개시 내용의 실시예들에 따르면, 시퀀싱을 위한 방법과 장치는 연쇄 종료법(Sanger)을 포함하지만, 특별히 이러한 예로 제한되지 않으며, 고 처리량 시퀀싱 방법(high-throughput sequencing method)이 바람직하다. 따라서, 이러한 장치들의 딥 시퀀싱과 고 처리량인 특징을 이용함으로써, 효율을 더욱 개선할 수 있고, 이에 의해 통계 시험 등의 시퀀싱 데이터를 이용한 후속 분석을 정밀하고 정확하게 더욱 개선할 수 있다. 고 처리량 시퀀싱 방법은 차세대 시퀀싱 기술 또는 단일 시퀀싱 기술을 포함하지만, 이러한 예로 제한되지는 않는다. 차세대 시퀀싱 플랫폼(Metzker ML, Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan; 11(1):31-46)은, Illumina-Solexa(GATM, HiSeq2000TM, 등), ABI-Solid, 및. Roche-454 (파이로시퀀싱) 시퀀싱 플랫폼을 포함하지만, 이러한 예로 제한되지 않으며, 단일 시퀀싱 플랫폼(기술)은, Helicos Company의 트루 단분자(True Single Molecule) DNA 시퀀싱, Pacific Biosciences Company의 단분자 실시간(SMRT^TM), 및 Oxford Nanopore Technologies의 노나포어 시퀀싱 기술(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245) 등을 포함하지만, 이러한 예들로 제한되지 않는다. 시퀀싱 기술이 점진적으로 발전함에 따라, 통상의 기술자라면 모든 게놈 시퀀싱에 사용될 수 있는 다른 시퀀싱 방법들을 이해할 수 있다. 본 개시 내용의 특정 예들에 따르면, 전체 게놈 시퀀싱 라이브러리는, Illumina-Solexa, ABI-SOLiD, Roche-454, 및 단분자 시퀀싱 장치 중에서 선택되는 적어도 하나에 의해 시퀀싱될 수 있다.

선택 사항으로, 시퀀싱 결과를 얻은 후에, 시퀀싱 결과를 참조 시퀀스와 비교 대조하여 소정의 영역으로부터 오는 시퀀싱 데이터를 확정할 수 있다. 본 명세서에서 사용되는 "소정의 영역"이라는 용어는, 가능한 소정의 이벤트를 포함하는 핵산 분자의 임의의 영역을 가리키는 것으로 넓게 이해해야 한다. SNP 분석에서는, 소정의 영역이 SNP 사이트를 포함하는 영역일 수 있다. 염색체 이우성 분석에서는, 소정의 영역이 분석될 염색체의 전체 또는 일부를 가리키며, 즉, 염색체로부터 도출되는 시퀀싱 데이터를 가리킨다. 시퀀싱 데이터를 시퀀싱 결과의 대응하는 영역으로부터 선택하는 방법은 특별히 제한되지 않는다. 본 개시 내용의 실시예들에 따르면, 얻은 모든 시퀀싱 데이터를 핵산이 알려져 있는 참조 시퀀스와 비교 대조하여 소정의 영역으로부터 오는 시퀀싱 데이터를 얻을 수 있다. 또한, 본 개시 내용의 실시예들에 따르면, 소정의 영역은, 또한, 게놈 내에서 불연속적이지 않은 복수의 분산 점일 수 있다. 본 개시 내용의 실시예들에 따르면, 사용되는 참조 시퀀스의 유형은 특별히 제한되지 않으며, 타겟 영역을 포함하는 임의의 알려져 있는 시퀀스이면 된다. 본 개시 내용의 실시예들에 따르면, 참조 시퀀스는 알려져 있는 인간 참조 게놈을 이용할 수 있다. 예를 들어, 본 개시 내용의 실시예들에 따르면, 인간 참조 게놈은 NCBI 36.3, HG18이다. 또한, 본 개시 내용의 실시예들에 따르면, 비교 대조 방법은 특별히 제한되지 않는다. 특정 예들에 따르면, 비교 대조 방법을 위해 SOAP를 이용할 수 있다.

이어서, 소정의 영역에 대응하는 시퀀싱 데이터에 기초하여 소정의 영역의 핵산 시퀀스의 일부를 확정하는 단계, 및 비터비 알고리즘을 이용하여 소정의 영역의 핵산 시퀀스의 확정된 일부에 기초하여 핵산의 다른 일부들을 확정하여 소생의 영역의 핵산 시퀀스를 얻는 단계를 포함할 수 있다. 본 개시 내용의 실시예들에 따르면, 소정의 영역의 염기 정보는, 히든 마르코프 모델을 이용하여 관련된 개체의 유전자 정보와 결합되는 태아의 시퀀싱 결과에 기초하여 확정된다. 본 개시 내용의 실시예들에 따르면, 소정의 영역의 염기 정보는, 비터비 알고리즘에 기초하는 히든 마르코프 모델을 이용하여 확정된다. 따라서, 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

도 1을 참조하여, 히든 마르코프 모델에 의해 비터비 알고리즘을 이용하여 분석을 행하기 위한 원리를 상세히 후술한다.

유전자 측면에서, "관련된 개체"이라는 용어는 태아와의 유전자적 관계를 갖는 개체을 가리킨다. 예를 들어, 본 개시 내용의 실시예들에 따르면, "관련된 개체"은 부모 등의 태아의 부모 세대일 수 있다. 따라서, 자식 게놈의 형성은 부모 세대의 게놈의 랜덤한 재조합(즉, 일배체형 재조합의 상호 교환, 및 배우자들의 랜덤한 조합)과 같다. 임산부 혈장에 대하여, 태아 일배체형(부모 일배체형들의 재조합)이 숨겨진 상태인 경우, 혈장의 시퀀싱 데이터가 관측(시퀀스 관측), 천이 확률, 관측 심볼 확률로서 사용될 수 있고, 초기 상태 분포가 이전 데이터에 의해 추론될 수 있고, 이어서, 산전 태아의 더욱 많은 정보를 얻기 위해 비터비 알고리즘에 기초하는 히든 마르코프 모델을 이용하여 가능성이 가장 높은 태아 일배체형 재조합을 확정할 수 있다.

분석하는 단계들은 이하에서 상세히 예시되어 있다.

마커 :

I. 검출될 사이트의 개수는 N이다.

II. 부모의 일배체형은 각각

및

으로서 기록되며,

여기서,

,

, i = 1, 2, 3,...,N이다.

III. 미지의 태아 일배체형은

으로서 인식되며, 특히, h₀과 h₁은 각각 모와 부로부터 유전됨을 나타낸다.

,

여기서,

,

이다.

첨자 x_i와 y_i는 각각 시퀀스 쌍을 나타내며, q_i = {x_i, y_i}는 디코딩될 필요가 있는 숨겨진 상태를 나타낸다.

그러나, 모든 숨겨진 상태들은 집합 Q를 나타낼 수 있다.

IV. 시퀀싱 데이터는

으로서 기록된다.

여기서,

는, 4개의 염기인 A, C, T, G의 개수를 포함하는 사이트의 시퀀싱 정보를 나타낸다.

V. 평균 태아 농도와 평균 시퀀싱 오류율은 각각 ε과 e로서 기록된다.

단계 1.

초기 상태들의 확률 분포 벡터 및 일배체형 재조합의 천이 행렬을 구축한다.

I. 초기 상태들의 확률 분포 벡터는

,

로서 기록된다.

본 개시 내용의 실시예들에 따르면, 참조 데이터가 없는 상황에서,

라고 가정할 수 있는데, 즉, 제1 사이트에서 제시되는 각 숨겨진 상태의 확률이 동일하다.

II. 본 개시 내용의 실시예들에 따르면, 일배체형 재조합의 확률은

으로서 기록되고, 여기서, re는 인간 생식자 재조합의 평균 횟수를 의미하며, 이전 데이터 범위는 25 내지 30이다.

III. 본 개시 내용의 실시예들에 따르면, 일배체형 재조합의 천이 행렬은

,

로서 기록되고, 여기서, a_jk는 숨겨진 상태 천이 확률을 나타내며, 즉,

태아 일배체형

와

의 첨자 x_i와 y_i는 시퀀스 쌍을 구성하며, q_i = {x_i, y_i}는 인코딩될 숨겨진 상태들을 구성한다. 예를 들어, x_i=0은 "모 염색체에서, 대응하는 로커스의 대립 유전자가 m_i,0이다"를 나타낸다.

단계 2. 관측의 확률 행렬을 구축한다.

본 개시 내용의 실시예들에 따르면, 관측의 확률 행렬은

로서 기록되며, 여기서, b_i _,j(s_i)는 "모 일배체형과 태아 일배체형을 고려할 때, 사이트 i에서의 이 시퀀싱 정보의 관측된 확률"을 나타내며(상태,

), 즉,

여기서, P_i _, _base는 "모 일배체형과 태아 일배체형을 고려할 때(상태 j,

, 사이트 i에서의 염기의 확률"을 나타내며, 즉,

이고,

여기서, 지표 함수는

이다.

이러한 단계는, HMM 파라미터를 수행하여, 각 사이트의 관측 확률 분포, b_i,j(s_i)를 산출하는 것이며, 즉, 각 사이트에서 서로 다른 태아 일배체형들을 취하여 임산부 혈장의 현재 시퀀싱 데이터(관측)를 나타내는 확률을 산출하는 것이다.

단계 3. 부분 확률 행렬, 및 역 커서(reversal cursor)를 구축한다(1차원 확률 행렬을 구축하는 일례를 취한다).

정의: 부분 확률

정의: 역 커서

본 명세서에서 사용되는 "부분 확률 δ_i(q_i)"와 "역 커서 ψ_i(q_i)"는 비터비 알고리즘의 클래식 정의를 따른다. 파라미터 정의에 대한 상세한 설명은, 본 명세서에 참고로 원용되는 "Lawrence R. Rabiner, PROCESSING OF THE IEEE Vol. 77, No. 2, February 1989"를 참조할 수 있다.

단계 4. 최종 상태를 확정하고, 선택적 경로를 역추적한다.

최종 상태의 확정

가능성이 가장 높은 태아 일배체형

은, 역 곡선에 기초하여 선택적 경로를 역추적함으로써 얻어진다.

단계 5. 결과를 출력한다.

따라서, 태아 게놈의 시퀀스를 효과적으로 분석할 수 있다. 기존의 다른 산전 검출 방법에 비해, 본 개시 내용의 방법은, 얻을 수 있는 유전자 정보의 정확도와 양을 주로 구체화하는 다음에 따르는 기술적 장점들을 가질 수 있다.

1) 본 개시 내용의 실시예들에 따르면, 검출될 사이트는 부모 사이트를 위한 모 사이트, 즉, 모 이질 사이트(maternal heterozygous site)로 제한되지 않으며, 태아가 모 발병 사이트를 물려받는지 여부도 최대 95% 또는 그 이상의 정확도로 뛰어나게 검출할 수 있으며, 복수의 이상 유형을 검출할 수 있고, 이는 질병 검출의 범위를 확대한다.

2) 본 개시 내용의 실시예들에 따르면, 복수의 사이트와 질병의 정보는 한 번의 시퀀싱에 의해 얻을 수 있는 한편, 시퀀싱 심도를 향상시키는 것만으로는 정확하게 확정될 수 없는, 부모 혈장 내의 낮은 커 버리지를 갖는 그러한 유전자 시퀀스를, 본 개시 내용의 방법에 의해 정확하고도 신뢰성 있는 결과로 얻을 수 있다.

3) 본 개시 내용의 실시예들에 따르면, 유전병의 플롯팅을 수행할 수 있고, 일부 관련된 질병들을 다른 사이트들의 정보를 이용하여 직접 추론할 수 있고, 이때 한 번에 대량의 정보를 얻을 수 있으며, 이는 임상 검출에 있어서 더욱 유익함을 의미한다.

또한, 본 개시 내용의 실시예들에 따르면, SNP 또는 STR 등의 소정의 유전자 다형성 사이트로 제한되지 않는, 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법은, 서로를 검증하도록 복수의 사이트에 병행 사용될 수 있는 모든 유전 다형성 사이트에 대하여 구성되며, 이는 서로를 검증하도록 복수의 사이트에 병행 사용될 수 있다. 질병 검출을 태아의 산전 비침습성 검출 게놈 정보에 적용하는 것에 더하여, 본 개시 내용의 방법은, 산전 비침습성 부계 식별(noninvasive antenatal paternity Identification)에도, 즉, 출생 전 태아의 아버지 식별을 확정하는 데에도 사용될 수 있어서, 부양 책임과 의무에 관련된 분쟁, 소유물과 성범죄 사건 등의 해결에 일조할 수 있다.

태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템

본 개시 내용의 다른 양태에서는, 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템을 제공한다. 본 개시 내용의 실시예들에 따르면, 도 2를 참조해 볼 때, 시스템(1000)은, 라이브러리 구축 장치(100), 시퀀싱 장치(200), 및 분석 장치(400)를 포함할 수 있다.

본 개시 내용의 실시예들에 따르면, 라이브러리 구축 장치(100)는, 태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리를 구축하도록 구성된다. 본 개시 내용의 실시예들에 따르면, 시퀀싱 장치(200)는, 라이브러리 구축 장치(100)에 연결되고, 복수의 시퀀싱 데이터로 이루어지는 태아의 시퀀싱 결과를 얻기 위해 시퀀싱 라이브러리를 시퀀싱하도록 구성된다. 본 개시 내용의 실시예들에 따르면, 시스템(1000)은, 또한, 임산부의 말초혈액으로부터 태아의 게놈 DNA 샘플을 추출하도록 구성된 DNA 샘플 추출 장치를 포함할 수 있다. 따라서, 시스템은 산전 비침습성 검출에 대하여 구성될 수 있다.

본 개시 내용의 실시예들에 따르면, 선택 사항으로, 시스템은 또한 비교 대조 장치(300)를 포함할 수 있다. 본 개시 내용의 실시예들에 따르면, 비교 대조 장치(300)는, 시퀀싱 장치(200)에 연결되고, 소정의 영역으로부터 도출되는 시퀀싱 결과를 확정하기 위해 태아의 시퀀싱 결과를 참조 시퀀스에 비교 대조하도록 구성된다. 본 개시 내용의 실시예들에 따르면, 시퀀싱을 위한 방법과 장치는 연쇄 종단법(Sanger)을 포함하지만, 이러한 예로 특별히 제한되지 않으며, 고 처리량 시퀀싱 방법이 바람직하다. 따라서, 이러한 장치들의 딥 시퀀싱과 고 처리량인 특징을 이용함으로써, 효율을 더욱 개선할 수 있고, 이에 의해 통계 시험 등의 시퀀싱 데이터를 이용한 후속 분석을 정밀하고 정확하게 더욱 개선할 수 있다. 고 처리량 시퀀싱 방법은 차세대 시퀀싱 기술 또는 단일 시퀀싱 기술을 포함하지만, 이러한 예로 제한되지는 않는다. 차세대 시퀀싱 플랫폼(Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet . 2010 Jan; 11(1):31-46)은, Illumina-Solexa(GATM, HiSeq2000TM, 등), ABI-Solid, 및 Roche-454 (파이로시퀀싱) 시퀀싱 플랫폼을 포함하지만, 이러한 예로 제한되지 않으며, 단일 시퀀싱 플랫폼(기술)은, Helicos Company의 트루 단분자(True Single Molecule) DNA 시퀀싱, Pacific Biosciences Company의 단분자 실시간(SMRT^TM), 및 Oxford Nanopore Technologies의 노나포어 시퀀싱 기술(Rusk, Nicole (2009-04-01), Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245) 등을 포함하지만, 이러한 예들로 제한되지 않는다. 시퀀싱 기술이 점진적으로 발전함에 따라, 통상의 기술자라면 모든 게놈 시퀀싱에 사용될 수 있는 다른 시퀀싱 방법들을 이해할 수 있다. 본 개시 내용의 특정 예들에 따르면, 전체 게놈 시퀀싱 라이브러리는, Illumina-Solexa, ABI-SOLiD, Roche-454, 및 단분자 시퀀싱 장치 중에서 선택되는 적어도 하나에 의해 시퀀싱될 수 있다. 본 개시 내용의 실시예들에 따르면, 사용되는 참조 시퀀스의 유형은 특별히 제한되지 않으며, 타겟 영역을 포함하는 임의의 알려져 있는 시퀀스이면 된다. 본 개시 내용의 실시예들에 따르면, 참조 시퀀스는 알려져 있는 인간 참조 게놈을 이용할 수 있다. 예를 들어, 본 개시 내용의 실시예들에 따르면, 인간 참조 게놈은 NCBI 36.3, HG18이다. 또한, 본 개시 내용의 실시예들에 따르면, 비교 대조 방법은 특별히 제한되지 않는다. 특정 예들에 따르면, 비교 대조을 위해 SOAP를 이용할 수 있다.

본 개시 내용의 실시예들에 따르면, 분석 장치(400)는, 시퀀싱 장치에 연결되고, 히든 마르코프 모델을 이용하여 관련된 개체의 유전자 정보와 결합되는 태아의 시퀀싱 결과에 기초하여 소정의 영역의 염기 정보를 확정하도록 구성된다.

본 개시 내용의 실시예들에 따르면, 비터비 알고리즘에서, 0.25를 초기 상태의 확률 분포로서 사용하고, re/N을 재조합 확률로서 사용하고, re는 25 내지 30이고 바람직하게는 re는 25이며, N은 소정의 영역의 길이이고,

는, 재조합 천이 행렬로서 사용되며, 이때 p_r은 re/N이다.

본 개시 내용의 실시예들에 따르면, 비교 대조 장치는,

라는 식에 기초하여 최고 확률을 갖는 염기를 확정하도록 구성되며,

여기서,

이다.

상세히 전술한 시퀀싱 데이터를 이용한 분석도, 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템에 대하여 구성되며, 이는 간결함을 위해 생략한다.

따라서, 시스템을 이용함으로써, 태아 게놈의 소정의 영역의 염기 정보를 확정하는 전술한 방법을 효과적으로 구현할 수 있고, 이는, 예를 들어, 비터비 알고리즘을 이용하고 관련된 개체의 유전자 정보를 참조하여 히든 마르코프 모델에 의해 태아 게놈의 소정의 영역의 핵산 시퀀스를 확정할 수 있으며, 이에 의해, 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

또한, 본 개시 내용의 실시예들에 따르면, 소정의 영역은 유전적 다형성을 갖는 것으로서 이전에 확정된 사이트이며, 유전적 다형성은 단일 뉴클레오티드 다형성과 STR 중에서 선택되는 적어도 하나이다.

"연결'이라는 용어는, 넓게 이해해야 하며, 전술한 기능적 연결을 달성하는 한, 직접적 연결 또는 간접적 연결을 가리킬 수 있다.

전술한 태아 게놈의 소청의 영역의 염기 정보를 확정하는 방법의 특징들과 장점들이, 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템에도 구성될 수 있음을 통상의 기술자가 이해할 수 있으며, 이는 간결함을 위해 생략되어 있다는 점에 주목하기 바란다.

컴퓨터 판독가능 매체

본 개시 내용의 추가 양태에서는, 컴퓨터 판독가능 매체를 제공한다. 본 개시 내용의 실시예들에 따르면, 컴퓨터 판독가능 매체는, 히든 마르코프 모델을 이용하여 관련 개체의 유전자 정보와 결합되는 태아의 시퀀싱 결과에 기초하여 소정의 영역의 염기 정보를 확정하도록 구성된 복수의 명령어를 포함한다. 따라서, 컴퓨터 판독가능 매체를 이용함으로써, 태아 게놈의 소정의 영역의 염기 정보를 확정하는 전술한 방법을 효과적으로 구현할 수 있고, 이는, 예를 들어, 비터비 알고리즘을 이용하고 관련된 개체의 유전자 정보를 참조하여 히든 마르코프 모델에 의해 태아 게놈의 소정의 영역의 핵산 시퀀스를 확정할 수 있으며, 이에 의해, 태아 게놈의 유전자 정보를 이용하여 산전 유전자 검출을 효과적으로 수행할 수 있다.

본 개시 내용의 실시예들에 따르면, 복수의 명령어는, 비터비 알고리즘에 기초하여 히든 마르코프 모델을 이용하여 소정의 영역의 염기 정보를 확정하도록 구성된다. 본 개시 내용의 실시예들에 따르면, 비터비 알고리즘에서, 0.25를 초기 상태의 확률 분포로서 사용하고, re/N을 재조합 확률로서 사용하고, re는 25 내지 30이고 바람직하게 re는 25이며, N은 소정의 영역의 길이이고,

는, 재조합 천이 행렬로서 사용되며, 이때 p_r은 re/N이다.

본 개시 내용의 실시예들에 따르면, 비교 대조 장치는,

여기서,

이다.

상세히 전술한 시퀀싱 데이터를 이용한 분석이, 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 컴퓨터 판독가능 매체에도 구성되며, 이는 간결함을 위해 생략한다.

명세서에서, "컴퓨터 판독가능 매체"는, 명령어 실행 시스템, 장치, 또는 장비에 의해 또는 이러한 명령어 실행 시스템, 장치, 또는 장비와 함께 사용될 프로그램을 포함, 저장, 통신, 전파, 또는 전달하도록 구성되는 임의의 장치일 수 있다. 컴퓨터 판독가능 매체의 더욱 구체적인 예로는, 하나 이상의 와이어를 이용한 전자 연결 장치(전자 장치), 휴대용 컴퓨터 인클로저(자기 장치), 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 소거가능 프로그래밍 가능 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유 장치, 및 휴대용 컴팩트 디스크 리드 온리 메모리(CDROM)가 있지만, 이러한 예들로 제한되지는 않는다. 또한, 컴퓨터 판독가능 매체는, 프로그램을 인쇄할 수 있는 종이 또는 기타 적절한 매체일 수도 있는 데, 이는, 예를 들어, 종이 또는 기타 적절한 매체가, 프로그램을 전기적 방식으로 얻을 필요가 있을 때 다른 적절한 방법들에 의해 광학적으로 스캔된 후 편집, 해독, 또는 처리될 수 있고 이어서 프로그램을 컴퓨터 메모리에 저장할 수 있기 때문이다.

본 개시 내용의 각 부분이 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다는 점을 이해하기 바란다. 상술한 실시예들에서, 복수의 단계 또는 방법은, 메모리에 저장되며 적절한 명령어 실행 시스템에 의해 실행되는 소프트웨어 또는 펌웨어에 의해 구현될 수 있다. 예를 들어, 다른 일 실시예에서처럼, 복수의 단계 또는 방법이 하드웨어에 의해 구현되면, 이 단계들 또는 방법들은 당해 기술에 알려져 있는 다음에 따르는 기술들 중 하나 또는 조합에 의해 구현될 수 있는데, 즉, 데이터 신호의 논리 함수를 구현하기 위한 논리 게이트 회로를 갖는 이산 논리 회로, 적절한 조합 논리 게이트 회로를 갖는 주문형 집적 회로, 프로그래밍가능 게이트 어레이(PGA), 필드 프로그래밍 가능 게이트 어레이(FPGA) 등의 기술들이다.

통상의 기술자라면, 본 개시 내용의 전술한 예시적인 방법의 단계들의 일부 또는 전부가, 프로그램들에 의해 관련된 하드웨어에 지시함으로써 달성될 수 있다는 점을 이해할 것이다. 프로그램들은 컴퓨터 판독가능 저장 매체에 저장될 수 있고, 프로그램들은 컴퓨터에서 실행시 본 개시 내용의 방법 실시예들의 단계들 중 하나 또는 조합을 포함한다.

또한, 본 개시 내용의 실시예들의 각 기능 세포는 처리 모듈에서 집적될 수 있고, 또는 이러한 세포들은 별도의 물리적 존재물일 수 있고, 또는 두 개 이상의 세포가 처리 모듈에 집적된다. 집적된 모듈은 하드웨어의 형태로 또는 소프트웨어 함수 모듈들의 형태로 구현될 수 있다. 집적된 모듈이 소프트웨어 함수 모듈의 형태로 구현되고 독립형 제품으로서 판매되거나 사용되는 경우, 집적된 모듈은 컴퓨터 판독가능 저장 매체에 저장될 수 있다.

본 개시 내용의 예들을 상세히 참조한다. 통상의 기술자라면 다음에 따르는 예들이 설명을 위한 것이며, 본 개시 내용의 범위를 한정하는 것으로 해석해서는 안 된다는 점을 인식할 것이다. 예들에서 특정한 기술이나 조건이 특정되지 않으면, 단계는 문헌(예를 들어, (Huang PT에 의해 번역된) Sambrook 등의 Molecular Cloning 참조; A Laboratory Manual, 3rd Ed., Science Press)에 개시되어 있는 기술 또는 조건에 따라 또는 제품 설명서에 따라 수행된다. 시약 또는 기구의 제조사가 특정되지 않으면, 시약 또는 기구는, 예를 들어, Illumina company에 의해 시판되는 것일 수 있다.

일반적 방법

본 개시 내용의 실시예들에 따른 방법은, 주로 다음에 따르는 단계들을 포함할 수 있다:

1) 태아 유전 물질을 함유하는 임산부의 샘플을 비침습성 샘플링하여, 이 샘플로부터 게놈 DNA를 추출한다.

2) 부모 또는 조부모 등의 태아의 가족들로부터 게놈 DNA 샘플을 추출 및 정화한다.

3) 서로 다른 시퀀싱 플랫폼에 대한 요건에 따라 모든 유전 물질을 갖는 시퀀싱 라이브러리를 구축한다.

4) 품질 값, 유도관 오염 등에 기초하여 필터링 기준에 의해, 얻은 시퀀싱 데이터를 필터링한다.

5) 필요시, 얻은 고품질 시퀀스들을 조립하고, 조립된 결과를 인간 게놈 참조 시퀀스에 비교 대조하여, 모델을 이용하여 분석하기 위한 고유하게 매핑된 시퀀스들을 얻는다.

분석 모델

마커 :

I. 검출될 사이트의 개수는 N이다.

II. 부모의 일배체형은 각각

및

으로서 기록되며,

여기서,

,

, i = 1, 2, 3,...,N이다.

III. 미지의 태아 일배체형은

,

여기서,

,

이다.

그러나, 모든 숨겨진 상태들은 집합 Q를 나타낼 수 있다.

IV. 시퀀싱 데이터는

으로서 기록된다.

여기서,

단계 1.

I. 초기 상태들의 확률 분포 벡터는

,

로서 기록된다.

로서 기록되고, 여기서, re는 인간 생식자 재조합의 평균 횟수를 의미하며, 이전 데이터 범위는 25 내지 30이다.

,

태아 일배체형

와

단계 2. 관측의 확률 행렬을 구축한다.

본 개시 내용의 실시예들에 따르면, 관측의 확률 행렬은

), 즉,

), 사이트 i에서의 염기의 확률"을 나타내며, 즉,

이며,

여기서, 지표 함수는

이다.

정의: 부분 확률

정의: 역 커서

단계 4. 최종 상태를 확정하고, 선택적 경로를 역추적한다.

최종 상태의 확정

가능성이 가장 높은 태아 일배체형

단계 5. 결과를 출력한다.

예 1

샘플 수집 및 처리

(1) 수집된 샘플은, 가족 내의 부와 임신한 모로부터 추출된 말초혈액, 및 산후 태아의 제대혈을 포함하였으며, 이들 모두는 항응고를 위해 EDTA를 함유하는 튜브에 수집되었으며, 타액은, Oragene

DNA collection/DNA purification kit OG-250을 사용하여 4명의 조부모로부터 수집되었다.

(2) Infinium

HD Human 610-Quad BeadChip gene chip을 사용하여 4명의 조부모의 추출된 타액 DNA를 유전형 분석하였다.

(3) 임산부인 모로부터 수집된 말초혈액을 10분 동안 4℃에서 16000g으로 원심 분리하여, 혈구와 혈장을 분리하였다. 이어서, 얻은 혈장을 10분 동안 4℃에서 16000g으로 원심 분리하여 남아 있던 백혈구를 더욱 제거하여, 임산부인 모의 최종 혈장을 얻었다. 이어서, TIANamp Micro DNA Kit(TIANGEN)를 사용하여 임산부인 모의 최종 혈장으로부터 게놈 DNA를 추출하여, 모와 태아의 게놈 DNA 혼합물을 얻었다. 이어서, 모 게놈 DNA를 제거된 남아 있던 백혈구로부터 추출하였다. 얻은 혈장 DNA를, Illumia

시퀀서의 HiSeq2000^TM 시퀀서 요건에 기초하여 라이브러리 구축하였다. 절편(fragment) 범위를 위한 요건을 충족시키도록 Agilent

Bioanalyzer 2100을 사용하여, 구축된 라이브러리들을 분포 테스트를 받게 하였다. 이어서, 두 개의 라이브러리를 Q-PCR 법을 이용하여 정량화하였다. PE101index의 시퀀싱 사이클(쌍 말단 101 bp 인덱스 시퀀싱)을 갖는 Illumina

HiSeq2000^TM 시퀀서를 사용하여, 정량된 라이브러리들을 시퀀싱하였으며, 이때, 파라미터 설정과 작동은, (http://www.illumina.com/support/documentation.ilmn에서 얻은) Illumina

HD Human 610-Quad BeadChip 유전자 칩 명세에 기초하였다.

(4) 모 말초혈액과 태아 제대혈로부터 추출된 부 말초혈액 백혈구들에서 TIANamp Micro DNA Kit(TIANGEN)를 사용하여 각각의 게놈 DNA를 추출하였다.

혈장 DNA 샘플을 제외하고는, 얻은 모든 DNA 샘플을 500bp의 길이를 얻도록 Covaris^TM를 사용하여 절편화할 필요가 있었다. Illumia

시퀀서의 HiSeq2000^TM 시퀀서의 요건에 기초하여, 얻은 DNA 절편과 혈장 DNA 샘플을 라이브러리 구축하였으며, 상세한 프로시저는 다음과 같다:

말단-수리 반응 시스템(End-reparing reacting system):

10 x T4 폴리뉴클레오티드 키나아제 완충제 10㎕

dNTPs (10 mM) 4㎕

T4 DNA 폴리메라아제 5㎕

클레노우 절편 1㎕

T4 폴리뉴클레오티드 키나아제 5㎕

DNA 절편 30㎕

ddH₂O 최대 100㎕

30분 동안 20℃에서 반응한 후, 리사이클링된 말단 수리된 산물(recycling end-repaired products)에서 PCR 정화 키트(QIAGEN)를 사용하였다. 이어서, 리사이클링된 말단 수리된 산물을 34㎕의 EB 완충제에서 최종적으로 용해하였다.

말단에서 염기 A를 추가하기 위한 반응 시스템:

10 x 클레노우 완충제 5㎕

dATP (1mM) 10㎕

클레노우 (3' - 5' exo^-) 3㎕

DNA 32㎕

30분 동안 36℃에서 배양 후, 얻은 산물을 MinElute

PCR 정화 키트(QIAGEN)를 사용하여 정화하고 12㎕의 EB 완충제에서 용해하여, 말단에서 염기 A가 추가된 DNA 샘플을 얻었다.

결찰 어댑터 반응 시스템:

2 x 급속 DNA 결찰 완충제 25㎕

PEI 어댑터 올리고-믹스(20μM) 10㎕

T4 DNA 리가아제 5㎕

말단에서 염기 A가 추가된 DNA 샘플 10㎕

15분 동안 20℃에서 반응한 후, 리사이클링된 결찰 산물에서 PCR 정화 키트(QIAGEN)를 사용하였다. 이어서, 결찰 산물을 32㎕의 EB 완충제에서 최종적으로 용해하였다.

PCR 반응 시스템:

결찰 산물 10㎕

Phusion DNA 폴리머라제 믹스 25㎕

PCR 프라이머 (10pmol/㎕) 1㎕

인덱스 N (10 pmol/㎕) 1㎕

UltraPureTM 물 13㎕

반응 프로시저는 아래와 같았다:

98℃ 30s

98℃ 10s 10 사이클

65℃ 30s 10 사이클

72℃ 30s 10 사이클

72℃ 5min

4℃ 유지

리사이클링 PCR 산물에서 PCR 정화 키트(QIAGEN)를 사용하였으며, 이를 50㎕의 EB 완충제에서 최종적으로 용해하였다.

절편 범위를 위한 요건을 충족시키도록 Agilent

Bioanalyzer 2100을 사용하여, 구축된 라이브러리들을 분포 테스트를 받게 하였다. 이어서, 두 개의 라이브러리를 Q-PCR 법을 이용하여 정량화하였다. PE101index의 시퀀싱 사이클(즉, 쌍 말단 101 bp 인덱스 시퀀싱)을 갖는 Illumina

명세에 기초하였다.

(5) 부 및 모 게놈 시퀀싱 유전형 분석

a. SOAP2를 이용하여 시퀀싱 데이터를 인간 참조 게놈(Hg19, NCBI 36.3)에 비교 대조하였다.

b. SOAPsnp를 이용하여 얻은 데이터를 공통 시퀀스(CNS) 구축하였다(Southern Han (CHS) 가계 데이터를 위해 수천 개의 계획 데이터를 사용하였다).

c. 마커 사이트의 유전자형을 추출하였다.

(6) 부모의 일배체 확정

a. 조상과 부모의 유전자형들을 포함한 그룹 유전자형 행렬을 구축하며, 즉, 부모, 조상, 및 Southern Han 가계의 마커 사이트에서 유전자형들을 추출한다.

b. BEAGLE을 이용하여 부모의 일배체형을 추론한다.

(7) 태아 일배체형의 확정

a. SOAP2를 이용하여 혈장 시퀀싱 데이터를 인간 참조 게놈(Hg19, NCBI 36.3)에 비교 대조한다.

b. 초기 상태들의 확률 벡터, 및 일배체형 재조합의 천이 행렬을 구축하고,

초기 상태들의 확률 벡터를 구축하고, 예를 들어, 비참조 데이터의 모델을 취하는데, 즉, 모든 초기 상태의 확률은 0.25로 동일하였고,

일배체형 재조합의 천이 행렬을 구축하는데, 예를 들어, 줄잡아, re=25이었다(다른 것들은 "일반적인 방법"에서의 설명과 동일하였다).

c. 각 사이트의 시퀀싱 정보를 산출하고, 관측의 확률 행렬을 구축한다(다른 것들은 "일반적인 방법"에서의 설명과 동일하였다).

d. 부분 확률 행렬, 및 역 커서를 구축한다(다른 것들은 "일반적인 방법"에서의 설명과 동일하였다).

e. 최종 상태를 확정하고, 선택적 경로를 역추적한다.

f. 출력한다.

유전자형 분석 결과에 따르면, 그 정확도가 아래와 같았다.

산업적 이용가능성

본 개시 내용의 실시예들에 따른 태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법, 태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템 및 컴퓨터 판독가능 매체는, 태아 게놈의 소정의 영역의 핵산 시퀀스를 분석하는 데 효과적으로 적용될 수 있다.

예시적인 실시예들을 설명하고 도시하였지만, 상술한 실시예들이 본 개시 내용을 한정하는 것으로 해석해서는 안 되며, 본 개시 내용의 사상, 원리, 및 범위로부터 벗어나지 않고서 변경, 대체, 및 수정을 실시예들에 행할 수 있다는 점을 통상의 기술자라면 인식할 것이다.

본 명세서 전체에 걸쳐, "일 실시예", "일부 실시예들", "한 실시예", "다른 일례", "일례", "특정 예들", 또는 "일부 예들"은, 실시예 또는 예에서 설명하는 구체적인 특성, 구조, 재료, 또는 특징이 본 개시 내용의 적어도 하나의 실시예 또는 예에 포함됨을 의미한다. 따라서, 본 명세서 전체에 걸쳐 다양한 부분에서 보이는 "일부 실시예들에서", "일 실시예에서", "다른 일례로", "일례로", "특정한 예로", 또는 "일부 예들에서" 등의 구는, 반드시 본 개시 내용의 동일한 실시예나 예를 가리키는 것은 아니다. 또한, 구체적인 특성, 구조, 재료, 또는 특징은 하나 이상의 실시예 또는 예에서 임의의 적절한 방식으로 조합될 수 있다.

Claims

태아 게놈의 소정의 영역의 염기 정보를 확정하는 방법으로서,
태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리(sequencing library)를 구축하는 단계;
상기 시퀀싱 라이브러리를 시퀀싱하여 복수의 시퀀싱 데이터로 이루어지는 상기 태아의 시퀀싱 결과를 얻는 단계; 및
상기 태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며 히든 마르코프 모델(hidden Markov Model)을 이용하여 상기 소정의 영역의 염기 정보를 확정하는 단계를 포함하는, 염기 정보 확정 방법.
제1항에 있어서, 상기 태아의 게놈 DNA 샘플은 임산부의 말초혈액으로부터 추출되는, 염기 정보 확정 방법.
제1항에 있어서, Illumina-Solexa, ABI-Solid, Roche-454, 및 단분자 시퀀싱 장치 중에서 선택되는 적어도 하나로 상기 시퀀싱 라이브러리에 대해 시퀀싱을 실행하는, 염기 정보 확정 방법.
제1항에 있어서, 상기 태아의 시퀀싱 결과를 참조 시퀀스(reference sequence)와 비교 대조하여 상기 소정의 영역으로부터 오는 시퀀싱 결과를 확정하는 단계를 더 포함하는, 염기 정보 확정 방법.
제4항에 있어서, 상기 참조 시퀀스는 인간 참조 게놈인, 염기 정보 확정 방법.
제1항에 있어서, 상기 태아 유전 관련된 개체는 상기 태아의 부모인, 염기 정보 확정 방법.
제1항에 있어서, 상기 히든 마르코프 모델을 이용하여 상기 소정의 영역의 염기 정보를 확정하는 단계는 비터비 알고리즘에 기초하여 수행되는, 염기 정보 확정 방법.
제7항에 있어서, 상기 비터비 알고리즘에서, 0.25를 초기 상태의 확률 분포로서 사용하고, re/N을 재조합 확률로서 사용하고, re는 25 내지 30이고 바람직하게는 25이며, N은 상기 소정의 영역의 길이이고,

을 재조합 전이 행렬로서 사용하고, p_r은 re/N인, 염기 정보 확정 방법.
제4항에 있어서, 상기 태아의 시퀀싱 결과를 참조 시퀀스와 비교 대조하여 상기 소정의 영역으로부터 오는 시퀀싱 결과를 확정하는 단계는,
식에 기초하여 최고 확률을 갖는 염기를 확정하는 단계를 더 포함하고,

인, 염기 정보 확정 방법.
제1항에 있어서, 상기 소정의 영역은 유전적 다형성을 갖는 것으로서 이전에 확정된 사이트인, 염기 정보 확정 방법.
제10항에 있어서, 상기 유전적 다형성은 단일 뉴클레오티드 다형성과 STR 중에서 선택되는 적어도 하나인, 염기 정보 확정 방법.
태아 게놈의 소정의 영역의 염기 정보를 확정하기 위한 시스템으로서,
태아의 게놈 DNA 샘플에 기초하여 시퀀싱 라이브러리를 구축하기에 적합한 라이브러리 구축 장치;
상기 라이브러리 구축 장치에 연결되고, 복수의 시퀀싱 데이터로 이루어지는 상기 태아의 시퀀싱 결과를 얻기 위해 상기 시퀀싱 라이브러리를 시퀀싱하기에 적합한 시퀀싱 장치; 및
상기 시퀀싱 장치에 연결되고, 상기 태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며 히든 마르코프 모델을 이용하여 상기 소정의 영역의 염기 정보를 확정하기에 적합한 분석 장치를 포함하는, 염기 정보 확정 시스템.
제12항에 있어서, 임산부의 말초혈액으로부터 상기 태아의 게놈 DNA 샘플을 추출하기에 적합한 DNA 샘플 추출 장치를 더 포함하는, 염기 정보 확정 시스템.
제12항에 있어서, 상기 시퀀싱 장치는, Illumina-Solexa, ABI-Solid, Roche-454, 및 단분자 시퀀싱 장치 중에서 선택되는 적어도 하나인, 염기 정보 확정 시 스템.
제12항에 있어서,
상기 시퀀싱 장치에 연결되고, 상기 태아의 시퀀싱 결과를 참조 시퀀스와 비교 대조하여 상기 소정의 영역으로부터 오는 시퀀싱 결과를 확정하기에 적합한 비교 대조 장치를 더 포함하는, 염기 정보 확정 시스템.
제12항에 있어서, 상기 분석 장치는, 비터비 알고리즘에 기초하고 히든 마르코프 모델을 이용하여 상기 소정의 영역의 염기 정보를 확정하기에 적합한, 염기 정보 확정 시스템.
제16항에 있어서, 상기 비터비 알고리즘에서, 0.25를 초기 상태의 확률 분포로서 사용하고, re/N을 재조합 확률로서 사용하고, re는 25 내지 30이고 바람직하게는 25이며, N은 상기 소정의 영역의 길이이고,

을 재조합 전이 행렬로서 사용하고, p_r은 re/N인, 염기 정보 확정 시스템.
제15항에 있어서, 상기 비교 대조 장치는
식에 기초하여 최고 확률을 갖는 염기를 확정하기에 적합하고,

인, 염기 정보 확정 시스템.
태아의 시퀀싱 결과에 기초하고 태아 유전 관련 개체의 유전 정보를 결부하며, 히든 마르코프 모델을 이용하여 소정의 영역의 염기 정보를 확정하기에 적합한 복수의 명령어를 포함하는 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 복수의 명령어는 비터비 알고리즘에 기초하고 상기 히든 마르코프 모델을 이용하여 상기 소정의 영역의 염기를 정보를 확정하기에 적합한, 컴퓨터 판독가능 매체.
제20항에 있어서, 상기 비터비 알고리즘에서, 0.25를 초기 상태의 확률 분포로서 사용하고, re/N을 재조합 확률로서 사용하고, re는 25 내지 30이고 바람직하게는 25이며, N은 상기 소정의 영역의 길이이고,

을 재조합 전이 행렬로서 사용하고, p_r은 re/N인, 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 복수의 명령어는, 상기 태아의 시퀀싱 결과를 참조 시퀀스와 비교 대조하여 상기 소정의 영역으로부터 오는 시퀀싱 결과를 확정하기에 적합한, 컴퓨터 판독가능 매체.
제22항에 있어서, 상기 복수의 명령어는, 또한,
식에 기초하여 최고 확률을 갖는 염기를 확정하는데 적합하고,

인, 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 소정의 영역은 유전적 다형성을 갖는 것으로서 이전에 확정된 사이트인, 컴퓨터 판독가능 매체.
제24항에 있어서, 상기 유전적 다형성은 단일 뉴클레오티드 다형성과 STR 중에서 선택되는 적어도 하나인, 컴퓨터 판독가능 매체.