JP5946277B2 - アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) - Google Patents
アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) Download PDFInfo
- Publication number
- JP5946277B2 JP5946277B2 JP2012007764A JP2012007764A JP5946277B2 JP 5946277 B2 JP5946277 B2 JP 5946277B2 JP 2012007764 A JP2012007764 A JP 2012007764A JP 2012007764 A JP2012007764 A JP 2012007764A JP 5946277 B2 JP5946277 B2 JP 5946277B2
- Authority
- JP
- Japan
- Prior art keywords
- library
- read
- assembly
- processor
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000001514 detection method Methods 0.000 title description 5
- 239000013598 vector Substances 0.000 claims description 18
- 108020004414 DNA Proteins 0.000 claims description 17
- 102000053602 DNA Human genes 0.000 claims description 17
- 230000002068 genetic effect Effects 0.000 claims description 4
- 238000000126 in silico method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000003766 bioinformatics method Methods 0.000 claims 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 229920002477 rna polymer Polymers 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001215 fluorescent labelling Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009452 underexpressoin Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
304 読取りデータを読取りのライブラリ(L)に集める
306 Lから読取りサイズ対サイズ当りの読取り数のヒストグラムをプロットする
308 被覆度Cを用いてDを正規化してD’を得、D’を得るために用いられない位置iを保留する
310 AおよびD’を用いて読取りの部分集合Si⊂Lを集める
312 平均μiおよび標準偏差(√ci・σi)を計算する
Claims (8)
- コンピュータ・システムにより遺伝子配列アセンブリの誤りを検出するための方法であって、前記コンピュータ・システムはメモリとディスプレイとプロセッサとを含み、
前記方法は、
前記プロセッサが前記メモリ上で遺伝子データの配列のアセンブリ(A)を規定するステップと、
前記プロセッサが前記メモリ上で読取りデータを読取りのライブラリ(L)に集めるステップと、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(V i )を含み、各ベクトル(V i )は塩基の位置(i)についての読取りカウントc i および一つ以上の読取り長さlを含み、読取りカウントc i は塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
前記プロセッサが、前記複数のベクトル(V i )についての複数のヒストグラムであって、複数のヒストグラムは読取り長さl対読取りカウントc i を示し、複数のヒストグラムの各々は分布(D i )を有する、複数のヒストグラムをプロットするステップと、
前記プロセッサが、前記複数のベクトル(V i )における前記分布(D i )が平均または標準偏差を有している前記複数のベクトル(V i )から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をするステップと、
前記プロセッサが、前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集めるステップと、
前記プロセッサが前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算するステップと、
前記プロセッサが、前記計算した平均(μ i )と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した標準偏差(√c i ・σ i )と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した平均(μ i )と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√c i ・σ i )と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立てるステップと、
前記プロセッサがユーザに対して前記ディスプレイ上に結果を出力するステップと
を含む、方法。 - 前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項1に記載の方法。
- 前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項1に記載の方法。
- 読取りの前記ライブラリは複数の読取りデータを含む、請求項1に記載の方法。
- 遺伝子配列アセンブリの誤りを検出するためのシステムであって、前記システムは、
メモリと、
ディスプレイと、
プロセッサとを含み、
前記プロセッサが、
遺伝子データの配列のアセンブリ(A)を規定し、
読取りデータを読取りのライブラリ(L)に集め、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(V i )を含み、各ベクトル(V i )は塩基の位置(i)についての読取りカウントc i および一つ以上の読取り長さlを含み、読取りカウントc i は塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
読取り長さl対読取りカウントc i を示し、分布(D i )を有する、各ベクトル(V i )についてのヒストグラムをプロットし、
前記複数のベクトル(V i )における前記分布(D i )が平均または標準偏差を有している前記複数のベクトル(V i )から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をし、
前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集め、
前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算し、
前記計算した平均(μ i )と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定め、
前記計算した標準偏差(√c i ・σ i )と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定め、
前記計算した平均(μ i )と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√c i ・σ i )と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立て、
ユーザに対して前記ディスプレイ上に結果を出力する、
システム。 - 前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項5に記載のシステム。
- 前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項5に記載のシステム。
- 読取りの前記ライブラリは複数の読取りデータを含む、請求項5に記載のシステム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US13/010,949 US20120191356A1 (en) | 2011-01-21 | 2011-01-21 | Assembly Error Detection |
| US13/010949 | 2011-01-21 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012155715A JP2012155715A (ja) | 2012-08-16 |
| JP5946277B2 true JP5946277B2 (ja) | 2016-07-06 |
Family
ID=46544794
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012007764A Expired - Fee Related JP5946277B2 (ja) | 2011-01-21 | 2012-01-18 | アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) |
Country Status (3)
| Country | Link |
|---|---|
| US (2) | US20120191356A1 (ja) |
| JP (1) | JP5946277B2 (ja) |
| CN (1) | CN102682225B (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103699818B (zh) * | 2013-12-10 | 2017-04-05 | 深圳先进技术研究院 | 基于多步双向De Bruijn图的变长kmer查询的双向边扩展方法 |
| CN103714263B (zh) * | 2013-12-10 | 2017-06-13 | 深圳先进技术研究院 | 双向多步De Bruijn图的错误双向边识别与去除方法 |
| CN104850761B (zh) * | 2014-02-17 | 2017-11-07 | 深圳华大基因科技有限公司 | 核酸序列拼接方法及装置 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6714874B1 (en) * | 2000-03-15 | 2004-03-30 | Applera Corporation | Method and system for the assembly of a whole genome using a shot-gun data set |
| JP2008161056A (ja) * | 2005-04-08 | 2008-07-17 | Hiroaki Mita | Dna配列解析装置、dna配列解析方法およびプログラム |
| CN101401101B (zh) * | 2006-03-10 | 2014-06-04 | 皇家飞利浦电子股份有限公司 | 用于通过谱分析鉴定dna模式的方法和系统 |
| US8165821B2 (en) * | 2007-02-05 | 2012-04-24 | Applied Biosystems, Llc | System and methods for indel identification using short read sequencing |
-
2011
- 2011-01-21 US US13/010,949 patent/US20120191356A1/en not_active Abandoned
-
2012
- 2012-01-18 JP JP2012007764A patent/JP5946277B2/ja not_active Expired - Fee Related
- 2012-01-21 CN CN201210020103.5A patent/CN102682225B/zh not_active Expired - Fee Related
- 2012-09-06 US US13/605,119 patent/US20120330563A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| US20120191356A1 (en) | 2012-07-26 |
| US20120330563A1 (en) | 2012-12-27 |
| CN102682225A (zh) | 2012-09-19 |
| JP2012155715A (ja) | 2012-08-16 |
| CN102682225B (zh) | 2016-01-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kovaka et al. | Targeted nanopore sequencing by real-time mapping of raw electrical signal with UNCALLED | |
| Yu et al. | Statistical and bioinformatics analysis of data from bulk and single-cell RNA sequencing experiments | |
| Sheng et al. | Multi-perspective quality control of Illumina RNA sequencing data analysis | |
| Krawitz et al. | Microindel detection in short-read sequence data | |
| Giordano et al. | De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms | |
| Lowe et al. | Transcriptomics technologies | |
| Conesa et al. | A survey of best practices for RNA-seq data analysis | |
| JP6725481B2 (ja) | 母体血漿の無侵襲的出生前分子核型分析 | |
| CN110870016A (zh) | 用于序列变体呼出的验证方法和系统 | |
| KR101828052B1 (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
| Chu et al. | EBARDenovo: highly accurate de novo assembly of RNA-Seq with efficient chimera-detection | |
| Sater et al. | UMI-VarCal: a new UMI-based variant caller that efficiently improves low-frequency variant detection in paired-end sequencing NGS libraries | |
| Kremer et al. | Approaches for in silico finishing of microbial genome sequences | |
| Gogol-Döring et al. | An overview of the analysis of next generation sequencing data | |
| Haile et al. | Evaluation of protocols for rRNA depletion-based RNA sequencing of nanogram inputs of mammalian total RNA | |
| CN116386718B (zh) | 检测拷贝数变异的方法、设备和介质 | |
| US20160154930A1 (en) | Methods for identification of individuals | |
| de Sá et al. | Next-generation sequencing and data analysis: strategies, tools, pipelines and protocols | |
| CN109949866B (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
| CN115083521A (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
| JP5946277B2 (ja) | アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) | |
| Meleshko et al. | Detection and assembly of novel sequence insertions using Linked-Read technology | |
| Zhang et al. | methylGrapher: genome-graph-based processing of DNA methylation data from whole genome bisulfite sequencing | |
| JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
| KR101841265B1 (ko) | Nmf를 이용한 표적 염기 서열 해독에서의 바이어스 제거 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140808 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151217 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160531 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5946277 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |