JP7640267B2

JP7640267B2 - ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長

Info

Publication number: JP7640267B2
Application number: JP2020572747A
Authority: JP
Inventors: マイケル・ルーレ
Original assignee: イルミナインコーポレイテッド
Priority date: 2019-05-24
Filing date: 2020-05-22
Publication date: 2025-03-05
Anticipated expiration: 2040-05-22
Also published as: EP3807887B1; ZA202402217B; AU2020285655A1; WO2020243009A1; CN113826168B; IL315429A; BR112020025788A2; KR20220011055A; US11803554B2; IL279558B1; EP3807887C0; IL279558B2; US20200372031A1; AU2025275269A1; CN119889444A; MX2020014030A; MY206173A; US20240061843A1; EP3807887A1; JP2025097984A

Description

関連出願の相互参照
本出願は、２０１９年５月２４日に出願された米国仮特許出願第６２／８５２，９６５号の利益を主張し、この出願は、参照によりその全体が本明細書に組み込まれる。

核酸シーケンサは、核酸配列のプロセスを自動化するように構成された器具である。核酸配列決定は、核酸配列中のヌクレオチドの順序を決定するプロセスである。核酸は、デオキシリボ核酸（deoxyribonucleic acid、ＤＮＡ）又はリボ核酸（ribonucleic acid、ＲＮＡ）を含み得る。

核酸シーケンサは、核酸サンプルを受け取り、核酸サンプル中のヌクレオチドの順序を表す１つ以上の「リード」と呼ばれる出力データを生成するように構成されている。ＤＮＡサンプル中のヌクレオチドは、グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、及びチミン（Ｔ）を任意の組み合わせで含む１個以上のヌクレオチド塩基を含むことができる。ＲＮＡサンプル中のヌクレオチドは、Ｇ、Ｃ、Ａ、及びウラシル（Ｕ）を任意の組み合わせで含む１個以上の塩基を含むことができる。

ＤＮＡシーケンサによって生成されたリードは、マッピング及びアライニングエンジンを使用して、参照ゲノムのヌクレオチドの既知の配列にマッピングできる。参照ゲノムのヌクレオチドの配列に対するリードのマッピングは、ハッシュテーブルインデックスを使用してマッピング及びアライニングエンジンによって達成できる。

本開示は、ゲノムマッピング及びアライニングシステムの性能を改善するために、柔軟性のあるシード伸長（seed extension）を容易にするハッシュテーブルインデックスの構築及び使用について記載している。特に、本開示を使用して、（ｉ）計算リソース及び電力の消費を低減し、かつ（ｉｉ）本明細書に記載される従来のシード伸長法に関連する問題を解決する手法で、柔軟性のあるシード伸長を実行することができる。これらの利点を達成するために、本開示は、とりわけ、ハッシュテーブル位置に記憶できる「間隔レコード」を提供する。

本開示の態様は、マッピング及びアライニングユニットが、間隔レコードを単独で、又は１つ以上の伸長レコードと併せて使用して、シード伸長を通してマッピング及びアライニングユニットによって処理される一致する位置の数を低減することを可能にしながら、同時に、動的なシード伸長を使用して識別される一致する参照位置が正確であるかどうか、又はいくつかの場合、１つ以上の伸長レコードを使用するシード伸長がはたして行われるべきであるかどうかを判定する柔軟性を、マッピング及びアライニングユニットに提供する。これにより、より少ない電力及びより少ない計算リソースを使用する一方で、また従来のシード伸長技術自体を利用する他のマッピング及びアライニングユニットよりも正確であるマッピング及びアライニングユニットがもたらされる。

一態様では、本開示は、参照へのサンプルリードのマッピングのためのハッシュテーブルを生成するための方法を提供する。一態様では、方法は、コンピュータシステムによって、参照配列からヌクレオチドの第１のシードを取得することであって、第１のシードが、Ｋ個のヌクレオチドの長さを有する、取得することと、コンピュータシステムによって、第１のシードが所定数の参照配列位置よりも多く一致すると判定することと、第１のシードが所定数の参照配列位置よりも多く一致すると判定することに基づいて、コンピュータシステムによって、複数のノードを有するシード伸長ツリーを生成することであって、複数のノードの各ノードが、（ｉ）第１のシードの伸長であり、かつＫ^＊のヌクレオチド長を有する伸長されたシードであって、Ｋ^＊が、Ｋよりも大きい１個以上のヌクレオチドである、伸長されたシードと、（ｉｉ）シード伸長テーブル内の、伸長されたシードに一致する参照配列位置を記述するデータを含む、１個以上の位置と、に対応する、生成することと、複数のノードの各ノードについて、コンピュータシステムによって、伸長されたシードのインデックスキーに対応するハッシュテーブルの位置に間隔情報を記憶することであって、間隔情報が、ノードと関連付けられた伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の１個以上の位置を参照する、記憶することと、のアクションを含むことができる。

他の態様は、コンピュータ可読記憶デバイス上に符号化された命令によって定義されるような、本明細書に開示されるような方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。

これら及び他の態様は、任意で、以下の特徴のうちの１つ以上を含んでもよい。例えば、いくつかの実装形態では、一致する参照配列位置の各々が、第１のシードのＫ個のヌクレオチドを含む。

いくつかの実装形態では、方法は、コンピュータシステムによって、第１のシードとは異なる参照配列からヌクレオチドの第２のシードを取得することと、コンピュータシステムによって、第２のシードが、所定数の参照配列位置よりも多くは一致しないと判定することと、コンピュータシステムによって第２のシードが所定数の参照配列位置よりも多くは一致しないと判定することに基づいて、コンピュータシステムによって、第２のシードに一致する参照配列位置の各々を記述するデータを取得することと、コンピュータシステムによって、第２のシードのインデックスキーに対応するハッシュテーブルの第２の位置に、第２のシードに一致する参照配列位置を記述するデータを記憶することと、をさらに含むことができる。

いくつかの実装形態では、伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の１個以上の位置が、伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の位置の連続する間隔を含むことができる。

いくつかの実装形態では、ノードと関連付けられた伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の１個以上の位置が、ノードと関連付けられた伸長されたシードに一致する参照配列位置の伸長テーブル内に連続する間隔を含むことができる。

いくつかの実装形態では、コンピュータシステムによって、参照配列からヌクレオチドの第１のシードを取得することであって、第１のシードが、Ｋ個のヌクレオチドのヌクレオチド長を有するヌクレオチドの配列を表す、取得することが、コンピュータシステムによって、参照配列内のシードアクセス窓の位置を判定することと、コンピュータシステムによって、シードアクセス窓によって識別される参照配列のサブセットを取得することと、を含むことができる。

いくつかの実装形態では、方法は、コンピュータシステムによって、シード伸長窓を参照配列に沿って順方向にＫ個のヌクレオチドだけ調整して、Ｋ個のヌクレオチドのヌクレオチド長を有する参照配列からヌクレオチドの第２のシードを識別することと、コンピュータシステムによって、第２のシードを参照配列から取得することと、第２のシードが、所定数の参照配列位置よりも多く一致すると判定することと、第２のシードが所定数の参照配列位置よりも多く一致すると判定することに基づいて、コンピュータシステムによって、複数の第２のノードを有する第２のシード伸長ツリーを生成することであって、複数の第２のノードの各第２のノードが、（ｉ）第２のシードの伸長であり、かつＫ^＊のヌクレオチド長を有する第２の伸長されたシードであって、Ｋ^＊が、Ｋよりも大きい１個以上のヌクレオチドである、第２の伸長されたシードと、（ｉｉ）第２のシード伸長テーブル内の、第２の伸長されたシードに一致する参照配列位置を記述するデータを含む、１個以上の第２の位置と、に対応する、生成することと、複数の第２のノードの各第２のノードについて、コンピュータシステムによって、第２の伸長されたシードのインデックスキーに対応するハッシュテーブルの位置に第２の間隔情報を記憶することであって、第２の間隔情報が、第２のノードと関連付けられた第２の伸長されたシードに一致する参照配列位置を記述するデータを含む、第２のシード伸長テーブル内の１個以上の位置を参照する、記憶することと、をさらに含むことができる。

いくつかの実装形態では、方法は、複数のノードの各ノードについて、コンピュータシステムによって、シード伸長ツリーのノードが、リーフノードであるかどうかを判定することと、コンピュータシステムによって、伸長ツリーのノードが、リーフノードでないと判定することに基づいて、コンピュータシステムによって、伸長されたシードのインデックスキーに対応するハッシュテーブルの位置に伸長レコードを記憶することと、をさらに含むことができる。

いくつかの実装形態では、伸長レコードが、コンピュータシステムによって実行されるとコンピュータシステムに１個以上の追加のヌクレオチドを伸長レコードと関連付けられたシードに追加させる、１つ以上の命令を含む。

いくつかの実装形態では、コンピュータシステムによってノード伸長ツリードがリーフノードであると判定することに基づいて、コンピュータシステムによって、伸長されたシードのインデックスキーに対応するハッシュテーブルの位置に伸長レコードを記憶しないこと、をさらに含むことができる。

いくつかの実装形態では、方法は、コンピュータシステムによって、シード伸長テーブルを生成することをさらに含むことができる。このような実装形態では、シード伸長テーブルを生成することが、コンピュータシステムによって、第１のシードに一致する参照配列の各シードを識別することと、コンピュータシステムによって、識別されるシードを識別するデータをシード伸長テーブルに記憶することと、を含むことができる。

いくつかの実装形態では、方法は、コンピュータシステムによって、シード伸長テーブル内の識別されるシードをソートすることをさらに含むことができる。

いくつかの実装形態では、方法は、コンピュータシステムによって、ハッシュテーブルインストールパッケージを生成することであって、ハッシュテーブルインストールパッケージが、ハッシュテーブルインストールパッケージを受信する１つ以上のコンピュータによって処理されると１つ以上のコンピュータに、プログラム可能な論理回路によってアクセス可能であるメモリにハッシュテーブルをインストールさせる命令を含む、生成することをさらに含むことができる。

いくつかの実装形態では、ハッシュテーブルインストールパッケージが、シード伸長テーブルを含むことができ、ハッシュテーブルインストールパッケージが、（ｉ）プログラム可能な論理回路又は（ｉｉ）別のコンピュータに、プログラム可能な論理回路がアクセス可能であるメモリデバイスにシード伸長テーブルを記憶するように命令する命令を含むことができる。

いくつかの実装形態では、コンピュータシステムによって、ハッシュテーブルインストールパッケージを別のコンピュータに提供する。

いくつかの実装形態では、他のコンピュータが、（ｉ）プログラム可能な論理回路と通信するように構成されたコンピュータ、又は（ｉｉ）プログラム可能な論理回路自体を含むことができる。

いくつかの実装形態では、コンピュータシステムは、複数のコンピュータを含むことができる。

別の態様では、本開示は、ハッシュテーブルを使用して参照配列へのサンプルリードのマッピングを改善するための方法を提供する。一態様では、方法は、マッピング及びアライニングユニットによって、ハッシュテーブルのクエリを実行することであって、クエリが、第１のシードを含み、第１のシードが、サンプルリードの特定のリードから取得されたヌクレオチドのサブセットを含む、実行することと、マッピング及びアライニングユニットによって、クエリに応答すると判定されたハッシュテーブルの位置によって記憶された情報を含む実行されたクエリへの応答を取得することと、マッピング及びアライニングユニットによって、実行されたクエリへの応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、マッピング及びアライニングユニットによって、マッピング及びアライニングユニットによって実行されたクエリへの応答が（ｉ）伸長レコード及び（ｉｉ）間隔レコードを含むと判定することに基づいて、伸長テーブルが、間隔レコードによって参照される伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、伸長テーブルがアクセスされないと判定することに基づいて、マッピング及びアライニングユニットによって、間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することと、マッピング及びアライニングユニットによって、伸長レコードを使用して第１のシードの伸長である第１の伸長されたシードを生成することと、マッピング及びアライニングユニットによって、第１の伸長されたシードを含む後続のハッシュクエリを生成することと、マッピング及びアライニングユニットによって、ハッシュテーブルの後続のハッシュクエリを実行することと、を含むことができる。

他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。

本開示のこれら及び他の態様は、以下の特徴のうちの１つ以上を任意で含むことができる。例えば、いくつかの実装形態では、この方法は、伸長テーブルがアクセスされると判定することに基づいて、マッピング及びアライニングユニットによって、伸長テーブルにアクセスして、間隔レコードによって参照される伸長テーブル内の１個以上の一致する参照配列位置を取得することと、マッピング及びアライニングユニットによって、１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含むことができる。

いくつかの実装形態では、方法は、マッピング及びアライニングユニットによって、実行されたクエリへの応答が、１個以上の一致する参照配列位置を含むと判定することと、マッピング及びアライニングによって、実行されたクエリへの応答が１個以上の一致する参照配列位置を含むと判定することに基づいて、マッピング及びアライニングによって、１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含むことができる。

いくつかの実装形態では、マッピング及びアライニングユニットによって、間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することが、マッピング及びアライニングユニットによって、特定のリードに対する最良間隔候補としての間隔レコードを記述する以前の情報が存在しないと判定することと、マッピング及びアライニングユニットによって、間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶することと、を含むことができる。

いくつかの実装形態では、方法は、マッピング及びアライニングユニットによって、クエリに応答すると判定されたハッシュテーブルの位置によって記憶された情報を含む後続の実行されたクエリへの応答を取得することと、マッピング及びアライニングユニットによって、後続の実行されたクエリへの応答が、（ｉ）第２の伸長レコード（ｉｉ）第２の間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むと判定することと、マッピング及びアライニングユニットによって、後続の実行されたクエリへの応答が、（ｉ）第２の伸長レコード又は（ｉｉ）第２の間隔レコードを含むと判定することに基づいて、マッピング及びアライニングユニットによって、伸長テーブルが、第２の間隔レコードによって参照される伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、伸長テーブルがアクセスされないと判定することに基づいて、マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、第２の間隔レコードを記述する第２の情報、又は最良間隔候補を記述する第１の情報が、最良間隔候補として使用されるかどうかを判定することと、マッピング及びアライニングユニットによって、第２の伸長レコードを使用して第１の伸長されたシードの伸長である第２の伸長されたシードを生成することと、マッピング及びアライニングユニットによって、第２の伸長されたシードを含む第３のハッシュクエリを生成することと、マッピング及びアライニングユニットによって、第２の伸長されたシードを含むハッシュテーブルの第３のクエリを実行することと、をさらに含むことができる。

いくつかの実装形態では、マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、第２の間隔レコードを記述する第２の情報、又は最良間隔候補を記述する第１の情報が、最良間隔として使用されるかどうかを判定することが、第２の間隔レコードを記述する第２の情報か、又は最良間隔候補レコードを記述する第１の情報のいずれかを、（ｉ）間隔レコード及び第２の間隔レコードの各々によって返された一致する参照配列位置の数、（ｉｉ）参照配列位置の所定の閾値レベル、又は（ｉｉｉ）間隔レコード及び第２の間隔レコードを記憶しているハッシュ位置に到達したそれぞれのシードの各シード長、を含む複数の要因に基づいて選択することを含むことができる。

いくつかの実装形態では、間隔レコードが、シード伸長テーブル内の、クエリの第１のシードに一致する参照配列位置を記述するデータを含む、複数の位置を参照する。

いくつかの実装形態では、シード伸長テーブル内の、クエリの第１のシードに一致する参照配列位置を記述するデータを含む複数の位置が、伸長テーブル内に、クエリの第１のシードに一致する参照配列位置の連続する間隔を含むことができる。

別途定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、本発明が属する技術分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと同様又は同等の方法及び材料を本発明の実施又は試験に使用することができるが、好適な方法及び材料が、以下に記載されている。本明細書で言及される全ての刊行物、特許出願、特許、及び他の参考文献は、参照によりその全体が本明細書に組み込まれる。矛盾の場合、本明細書は、定義を含めて、制御する。加えて、材料、方法、及び実施例は、単なる例示であり、限定することを意図するものではない。

本開示のこれら及び他の態様は、添付の図面及び特許請求の範囲を参照して以下の詳細な説明においてより詳細に論じられる。

ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長を容易にするハッシュテーブルインデックスを生成するためのシステムのコンテキスト図である。ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長を容易にするハッシュテーブルインデックスを生成するためのプロセスのフローチャートである。ハッシュテーブルゲノムマッピングのためのランタイムの柔軟性のあるシード伸長を実行するためのランタイムシステムのコンテキスト図である。ハッシュテーブルゲノムマッピングのための、ランタイムの柔軟性のあるシード伸長を実行するためのプロセスのフローチャートである。リードの各シードに対するハッシュテーブルゲノムマッピングのための、反復的なランタイムの柔軟性のあるシード伸長を実行するためのプロセスのフローチャートである。ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長に関連した本明細書に記載されるシステムを実装するために使用できるシステム構成要素の図である。柔軟性のあるシード伸長法を使用しないシステムと比較した、本明細書に記載されるような柔軟性のあるシード伸長法を使用するシステムにおけるマッピングされないリードの割合の形態をなす試験結果を表すデータを表示する棒グラフの説明図である。柔軟性のあるシード伸長法を使用しないシステムと比較した、本明細書に開示されるような柔軟性のあるシード伸長法を使用するシステムにおけるリードマッピング精度の形態をなす試験結果を表すデータを表示する線グラフの説明図である。

本開示は、ゲノムマッピング及びアライニングシステムの性能を改善するために、柔軟性のあるシード伸長（seed extension）を容易にするハッシュテーブルインデックスの構築及び使用について記載している。本明細書で使用される場合、用語「シード」は、核酸リード（「リード」）又は核酸参照配列（「参照配列」）に存在する連続ヌクレオチドのサブセットを指す。例として、リードのための短いシードは、例えば、シーケンサへの生体サンプル入力に基づいて、例えば、核酸シーケンサ（「シーケンサ」）によって生成された１５０個の塩基又はヌクレオチドのリードから抽出される２１個の塩基又はヌクレオチドを有することができる。このような短いシードは、数百の、数千の、数十万の、又はさらに多い参照配列の位置に一致することが可能である。参照配列のシードは、参照配列位置を表す参照配列からの連続ヌクレオチドのサブセットを含むことができる。リードの特定の短いシードに一致するこのような大量の参照配列位置の識別は、参照配列内の多くの位置に発生し得る「．．．ＡＴＡＴＡＴ．．．」などの反復配列の発生を含む複数の理由で生じることが可能である。これに代えて、又はこれに加えて、このような多量の一致する参照配列位置は、ゲノム配列の多くの近方コピーが、参照配列内に出現することができるために、発生することが可能である。

特定の短いシードに一致するこれらの大量の参照配列位置は、マッピング及びアライニングエンジンが、大量の一致を処理するように強制できるため、従来のハッシュテーブルインデックスを使用して従来のマッピング及びアライニングユニットにひずみを生じさせることができる。特定の短いシードに一致する大量の参照配列位置のこのような過剰な処理は、処理リソース、メモリリソースの酷使を含む計算リソースの不必要な消費と、処理リソース、メモリデバイス、並びに処理リソース及びメモリリソースを冷却するために使用される冷却ユニット、又はそれらの任意の組み合わせに電力を供給するために使用される電力の浪費とをもたらす。

従来の方法は、短いシードに一致する大量の参照配列位置の識別及び処理から生じる可能性がある問題に対処するために利用されてきた。例えば、ハッシュテーブル位置に記憶された伸長レコードを利用して、短いシードを反復的に伸長する従来の方法が利用されてきた。このような方法として、例えば、参照により本明細書に組み込まれる米国特許第１０，０８３，２７６号に記載されたものが挙げられ、これは、ハッシュクエリのシードに対応するハッシュテーブルの位置に記憶された「伸長レコード」を返すことができる。伸長レコードを使用して、シードの各末端に１個以上の塩基又はヌクレオチドを追加することによって、受信されたハッシュクエリ内のシードの長さを対称的に増加させることによって、伸長されたシードを作成することができる。次いで、従来のシステムは、伸長されたシードを含む別のハッシュクエリを使用して、ハッシュテーブルを再度クエリすることができる。伸長されたシードを有するこの他のハッシュクエリは、伸長されたシードがより長いため、伸長されたシードに一致するより少ない参照位置を識別するハッシュ位置に対応する可能性が高い。この反復プロセスは、（ｉ）結果として得られる一致セットが、伸長されたシードに一致する閾値数未満の参照配列位置を含むのに十分に収縮するか、（ｉｉ）一致セットが空になるか、（ｉｉｉ）最大シード伸長に到達するか、又は（ｉｖ）伸長が、短いシードが基づくリードのエッジを越えて移動するため、次の伸長が可能でないときまで、継続することができる。厳密には、従来のシステムでは、マッピング及びアライニングユニットは、上記の手法（ｉｉ）、（ｉｉｉ）、又は（ｉｖ）のいずれで終了する場合でもなく、反復プロセスが上記の手法（ｉ）で終了する場合にのみ、一致する参照位置の空でないセットを取得し得る。

これらの従来の方法は、短いシードに一致する参照配列位置の量を低減するのに役立つことが可能である。しかしながら、これらの従来の方法は、３つの別異する問題に悩まされる。

第１に、従来の方法は、「マッピングされないリードの問題」に陥りやすい可能性がある。マッピングされないリード問題は、従来のシード伸長法が、伸長されたシードに対してゼロ一致を返すときに生じる。このようなゼロ一致結果セットは、伸長されたシードがＳＮＰなどの変異体を組み込んでいる場合、又は伸長されたシードが、伸長されたシードが対応するリードのエッジをオーバーランしている場合に生じる可能性がある。このようなシナリオが、従来の方法を使用したリードの各シード場所に対して生じた場合、リードは、マッピングされない可能性がある。

第２に、従来の方法は、「高確度の誤マッピング問題」に陥りやすい可能性がある。このような高確度の誤マッピング問題は、伸長されたシードがＳＮＰなどの変異体を含むが、１個以上の参照位置に依然として一致する場合に生じる。このようなマッピングは、伸長されたシードが不適切にマッピングされても、高ＭＡＰＱスコアなどの高確度のスコアによって特徴付けできる。これが従来の方法を使用したリードの各シード場所に対して起こる場合、リードは、潜在的に高確度で誤マッピングされ得る。このようなマッピングのために、反対に、エビデンスが失われる可能性がある。高確度の誤マッピングは、低確度の誤マッピングよりも、全体的なマッパーの精度に対して、より有害である可能性がある。ＭＡＰＱスコアは、マッピングされたリードが誤配置されている確率を定量化する品質スコアを含むことができる。

第３に、従来の方法は、「固定された最大一致の問題」に陥りやすい可能性がある。一般に、シード伸長のために構築されたハッシュテーブルは、Ｍ＝１６などの最大一致パラメータＭを使用する。このパラメータは、シード伸長ツリーのリーフノードがＭのパラメータを超えないことを確実にする。しかしながら、いくつかのアプリケーションは、Ｍ＝６４などの異なる最大一致パラメータＭ^＊を使用することから利益を得ることができる。従来のシード伸長法の場合、リーフノードに到達するまで、シードを反復的に伸長させ続ける。したがって、従来の方法を使用したアプリケーションは、最大一致パラメータＭが６４に設定されるようにハッシュテーブルが再構築されなかった場合、Ｍ＝６４の一致するセットが達成されたときに、シードの伸長を停止させることができない。

本開示の革新的な態様を使用して、（ｉ）本明細書に記載されるような計算リソース及び電力の消費を低減し、かつ（ｉｉ）上述したそれらの問題などの従来のシード伸長法に関連する問題を解決する手法で、柔軟性のあるシード伸長を実行することができる。これらの利点を達成するために、本開示は、とりわけ、ハッシュテーブル位置に記憶できる「間隔レコード」を提供する。間隔レコードは、特定のシードについて、シード伸長テーブルに記憶された、特定のシードに一致する、参照配列位置の連続するセットを識別する。特定のシードを識別するハッシュクエリを実行すると、マッピング及びアライニングユニットは、クエリに応答するハッシュ位置の内容に基づいて、（ｉ）ハッシュ位置に記憶されたシード伸長レコードに基づいてシードを伸長するか、（ｉｉ）シード伸長テーブル内の、特定のシードに一致する参照位置を識別する間隔レコードを記憶するか、又は（ｉｉｉ）シード伸長テーブル内の、ハッシュ位置に記憶された間隔レコードによって識別される参照配列位置にアクセスするかどうかを判定することができる。いくつかの実装形態では、シードを伸長させて間隔を記憶することなどの、これらの動作の組み合わせを実行することができる。

したがって、間隔レコードを１つ以上の伸長レコードと併せて使用することにより、マッパー及びアライナが、シード伸長を通してマッピング及びアライニングユニットによって処理される一致する位置の数を低減することを可能にしながら、同時に、動的なシード伸長を使用して識別される一致する参照位置が正確であるかどうか、又はいくつかの場合、１つ以上の伸長レコードを使用するシード伸長がはたして行われるべきであるかどうかを判定する柔軟性を、マッピング及びアライニングユニットに提供する。これにより、より少ない電力及びより少ない計算リソースを使用する一方で、また従来のシード伸長技術自体を利用する他のマッピング及びアライニングユニットよりも正確であるマッピング及びアライニングユニットがもたらされる。
柔軟性のある封止された伸長のためのハッシュテーブルインデックスの生成

図１は、ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長を容易にするハッシュテーブルインデックスを生成するためのシステム１００のコンテキスト図である。システム１００は、コンピュータ１１０、メモリ１１２、及びメモリ１３０を含む。図１にはメモリ１１２及び１３０が別個のメモリデバイスとして描示されているが、本開示は、そのように限定される必要はない。代わりに、いくつかの実装形態では、メモリ１１２及びメモリ１３０は、同じメモリデバイスとすることができる。例えば、メモリ１１２及びメモリ１３０は、単に、単一のメモリデバイス上の２つの別個の記憶位置を指す。これに代えて、メモリ１１２及びメモリ１３０は、各々、コンピュータ１１０によってアクセス可能な別個のハードディスクなどの別個のメモリデバイスに格納できる。別の例として、メモリ１１２は、参照ゲノムのライブラリを記憶するクラウドベースのサーバのメモリデバイスとすることができ、メモリ１３０は、コンピュータ１１０のローカルメモリとすることができる。したがって、図１では別個のメモリであるメモリ１１２及びメモリ１３０の描示は、メモリ１１２，１３０自体、又はそれらのメモリの内容に限定されず、これらのメモリが、本開示の任意の特定の実装形態に編成又は格納されなければならないことを要しない。

コンピュータ１１０は、１つ以上のソフトウェア命令を実行することによって動作を実行するように構成された１つ以上の処理ユニットを各々が含むコンピュータ又は複数のコンピュータを含むことができる。１つ以上の処理ユニットは、１つ以上の中央処理ユニット（central processing unit、ＣＰＵ）、１つ以上のグラフィック処理ユニット（graphical processing unit、ＧＰＵ）、又はこれらの任意の組み合わせを含むことができる。コンピュータ１１０は、１つ以上のバス、１つ以上のＵＳＢケーブル、１つ以上のＵＳＢ－Ｃケーブルなど、又はこれらの任意の組み合わせなどの直接接続を介して、メモリ１１２、メモリ１３０，又はプログラム可能な回路１６２と直接相互作用するように構成できる。これに代えて、又はこれに加えて、コンピュータ１１０は、１つ以上のネットワークを介してメモリ１１２、メモリ１３０、又はプログラム可能な回路１６２と相互作用するように構成できる。１つ以上のネットワークは、有線Ｅｔｈｅｒｎｅｔネットワーク、無線ネットワーク、光ネットワーク、ＬＡＮ、ＷＡＮ、セルラーネットワーク、インターネット、又はそれらの任意の組み合わせを含むことができる。

一例として、一実装形態は、（ｉ）コンピュータ１１０がアクセス可能な１つ以上のローカルメモリデバイス内に格納されたメモリ１１２及びメモリ１３０と相互作用して、シード伸長テーブル１３２及びハッシュテーブル１４０を生成し、かつ（ｉｉ）１つ以上のネットワークを使用して、生成されたシード伸長テーブル１３２及びハッシュテーブル１４０を、別のデバイス１６０と一体化されたプログラム可能な回路１６２に伝達するように構成されたコンピュータ１１０を含むことができる。他のデバイス１６０は、核酸シーケンサ、クラウドベースのサーバ（単数又は複数）、又は任意の他のコンピュータを含むことができる。いくつかの実装形態では、プログラム可能な回路１６２は、ＰＣＩカードなどの拡張カードを使用して、他のデバイスと統合できる。このような実装形態では、プログラム可能な回路１６２は、マザーボード上のＰＣＩポートを使用して、シーケンサ、クラウドベースのサーバ、又は他のコンピュータのマザーボードに挿入されたＰＣＩカードのロジックボード上に収容できる。

プログラム可能な回路１６２は、１つ以上のフィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）などの１つ以上のプログラム可能な集積回路を含むことができる。フィールドプログラマブルゲートアレイは、マッピング及びアライニングユニット１７０などのゲノム解析パイプラインのゲノム解析モジュール、又はハッシュテーブル１４０などの処理モジュールの一部分などの１つ以上の処理モジュールを実装するように動的に構成可能である、複数のハードウェアデジタル論理ゲート、ハードウェアデジタル論理回路などを含む集積回路である。ＦＰＧＡは、超高速集積回路ハードウェア記述言語（Very High Speed Integrated Circuit Hardware Description Language、ＶＨＤＬ）、Ｖｅｒｉｌｏｇなどのハードウェア記述言語（hardware description language、ＨＤＬ）を使用してプログラムできる。ＦＰＧＡは、ゲノム解析パイプラインの１つ以上のゲノム解析モジュール又はこのゲノム解析モジュールの一部分を含むように事前にプログラムされたＦＰＧＡが、１つ以上のゲノム解析モジュール、他の異なるゲノム解析モジュールなどに対する更新を含むように動的に再構成できる点で、柔軟性がある。

本明細書に記載されるプログラム可能な回路１６２の機能性を実現するために、プログラム可能な回路１６２の代わりに、又はプログラム可能な回路１６２に加えて、他の種類の集積回路を使用することができる。例えば、１つ以上の特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）を使用して、プログラム可能な回路１６２の機能性、又は機能性の一部分を実現することができる。ＡＳＩＣは、製造時に構成された複数のハードウェアデジタル論理ゲート、複数のデジタル論理回路などを含む、カスタム集積回路である。ＡＳＩＣは、ハードウェアデジタル論理ゲート、又はＡＳＩＣの複数のデジタル論理回路が、ＶＨＤＬ、Ｖｅｒｉｌｏｇなどのハードウェア記述言語を使用して記述又は設計できる点で、本明細書に記載されるＦＰＧＡと同様である。次いで、ＡＳＩＣは、ＨＤＬによって記述されるデジタル論理回路又はデジタル回路を含むように製造又は印刷できる。しかしながら、ＡＳＩＣは、製造又は印刷されると、ＦＰＧＡのように動的に再構成できない。本明細書に記載される実施例は、プログラム可能な回路又はカスタム回路を記載しているが、本開示は、そのように限定される必要はない。いくつかの実装形態では、例えば、プログラム可能な回路１６２によって実行されるものとして記載される機能性を実現するために、他の種類の集積回路を使用することができる。

メモリ１１２は、１つ以上の参照配列１１４を記憶することができる。参照配列は、（ｉ）種を代表する全参照ゲノム、（ｉｉ）種を代表する参照ゲノムの一部分、又は（ｉｉｉ）複数の種を代表する完全な及び／又は部分的な参照ゲノムを含むことができる。参照配列は、塩基又はヌクレオチドの連続的なリストを含む。参照配列を構成する塩基又はヌクレオチドの連続的なリストは、デジタル核酸配列データベースとしてメモリ１１２内に編成できる。種を代表するものとして、特定の種の複数の異なるドナーから、人間、コンピュータ、又はその両方によって、特定の参照配列を組み立てることができる。

いくつかの実装形態では、特定の参照配列を、特定の集団を代表するものとして組み立てることができ、ここで、特定の集団は、種内の他の集団から特定の集団を一意に区別し得る特定の核酸配列を有する種のサブセットである。種は、ヒト、非ヒト哺乳動物、は虫類、魚、昆虫、植物、細菌、ウイルスなどを含む任意の種を含むことができる。参照配列は、ヒトなどの非絶滅種のサンプルから、又は、恐竜又はマンモスの集団などの現在では絶滅した種から生成できる。恐竜などの絶滅種の参照配列は、化石化、凍結、又は他の方法で保存された絶滅種の残存物内に含有される生物学的物質から取得される試料を使用して組み立てられ得る。絶滅種の参照配列は、（ｉ）絶滅種の化石化された残存物から取得される生物学的残存物の配列決定と、（ｉｉ）非絶滅種からの生物学的試料の配列決定と、の組み合わせから組み立てられ得る。参照ゲノム全体は、多くの連続塩基又は連続ヌクレオチドを含むことができる。例えば、ヒト参照ゲノムは、３億もの連続塩基又は連続ヌクレオチドを含むことができる。

コンピュータ１１０は、柔軟性のあるシード伸長を容易にするハッシュテーブル１４０を生成するように構成されている。コンピュータ１１０は、メモリ１１２に記憶された参照配列１１４にアクセスし、かつ参照配列のシード１１４－１，１１４－２，１１４－３～１１４－ｎを取得することによって、ハッシュテーブル１４０を生成し始め、ここで、ｎは、０よりも大きい任意の非ゼロ整数である。いくつかの実装形態では、コンピュータ１１０は、シードアクセス窓を使用して、参照配列１１４のシード１１４－１，１１４－２，１１４－３～１１４－ｎを識別及び取得することができる。コンピュータ１１０は、シードアクセス窓をシード長さＫとなるように初期化することができ、ここで、Ｋは、各シードに含まれる塩基又はヌクレオチドの数であり、Ｋは、ゼロよりも大きい任意の非ゼロ整数である。コンピュータ１１０は、参照配列の開始時に、長さＫのシードアクセス窓を位置決めして、シード「ＧＴＴＴＡ」１１４－１などの参照配列にＫ個のヌクレオチドの第１のセットを包含するように、参照配列１１４のシードにアクセスし始めることができる。この実施例では、Ｋは、５に等しいが、Ｋは、このようなヌクレオチド長に限定されない。代わりに、Ｋを、ゼロよりも大きい任意の非ゼロ整数に等しくすることができ、いくつかの実装形態では、例えば、７，１０，１２，１５，１８，２０，２１，２５個、又はそれより多い塩基又はヌクレオチドに等しくしてもよい。シード１１４－１，１１４－２，及び１１４－３～１１４－ｎは、参照配列１１４のシードの単なる実施例であり、この実施例では、参照配列１１４の４つの配列シードのセットに対応する必要はない。

ハッシュテーブル１４０を生成するために、コンピュータ１１０は、参照配列１１４の各シード１１４－１，１１４－２，及び１１４－３～１１４－ｎにアクセスし、かつ各シード１１４－１，１１４－２，及び１１４－３～１１４－ｎに対して動作のセットを実行するように構成されている。動作のセットは、ハッシュテーブル１４０のインデックスキー１４２に対応するハッシュテーブル１４０のハッシュ位置１４４に記憶するための情報を生成するように設計されている。各インデックスキー１４２は、参照配列１１４の複数のシード１１４－１，１１４－２，１１４－３～１１４－ｎ、のそれぞれのシード、シード１１４－１，１１４－２，１１４－３～１１４－ｎの各々の逆補体、複数のシード１１４－１，１１４－２，１１４－３～１１４－ｎのうちの１つ以上の伸長されたシード、又は伸長されたシードの各々の逆補体に対応することができる。インデックスシード１４２の各々は、ハッシュ関数１４３を使用してハッシュ位置１４４にマッピングできる。

コンピュータ１１０は、それぞれの各シードがアクセスされ、かつ動作のセットを実行するために使用された後に、参照配列１１４内のシードアクセス窓のＫ個の位置を前進させることによって、複数のシード１１４－１，１１４－２，及び１１４－３～１１４－ｎの各シードを識別し、及びこの各シードにアクセスすることができる。それぞれの各シード１１４－１，１１４－２，及び１１４－３～１１４－ｎに対して実行される動作のセットは、以下により詳細に記載される。操作のセットは、生成された情報を使用してハッシュテーブル１４０の集団を含むことができる。これに代えて、ハッシュテーブル１４０の集団は、各シードについて動作のセットが完了した後に生じることが可能である。

コンピュータ１１０の動作のセットは、参照配列１１４の各シード１１４－１，１１４－２、及び１１４－３～１１４－ｎ上で、コンピュータ１１０がシードアクセス窓によって識別されるシードを取得することで開始する。図１の実施例では、シードアクセス窓によって識別される参照配列１１４のシードが、「ＧＴＴＴＡ」１１４－１であるものとする。

コンピュータ１１０は、取得されたシード「ＧＴＴＴＡ」１１４－１が、所定数の参照配列１１４の位置よりも多く一致するかどうかを判定することができる。一致する参照配列位置は、シード１１４－１を含む参照配列１１４のサブセットを含むことができる。参照配列１１４のサブセットは、取得されたシード中のＫ個以上のヌクレオチドである、連続的に順序付けられたヌクレオチドのセットを含むことができる。いくつかの実装形態では、所定数の一致する参照配列位置は、１個の一致する参照配列位置を含むことができる。ただし、他の実装形態では、所定数は、２個以上の一致する参照配列位置に設定できる。

シード１１４－１が、所定数の参照配列位置以下、あるいは一致するとコンピュータ１１０が判定した場合には、コンピュータは、シード１１４－１に一致する参照位置（単数又は複数）を、シード「ＧＴＴＴＡ」１１４－１が到達したハッシュ位置１４４に充填することができる。ハッシュ関数１４３がハッシュ位置にマップするハッシュキー１４２にシード１１４－１が一致する場合、ハッシュ位置１４４に、シード１１４－１などのシードが「到達する」ことができる。これに代えて、コンピュータ１１０が、所定数の一致する参照配列位置が所定数の参照配列位置よりも多いと判定した場合には、コンピュータ１１０は、シード１１４－１についてのシード伸長ツリーを生成することができる。図１の実施例では、コンピュータ１１０は、シード「ＧＴＴＴＡ」１１４－１が所定数の参照配列位置よりも多く一致すると判定する。したがって、コンピュータ１１０は、シード１１４－１についてのシード伸長ツリー１２０を生成する。

コンピュータ１１０は、ルートノード１２０から開始してノードごとにシード１１４－１についてのシード伸長ツリー１２０を生成することができる。シード伸長ツリー１２０は、リーフノードによって識別される一致する参照位置のセットが、さらなるシード伸長が可能でない場合、所定の一致限界を超えないように生成できる。シード伸長ツリー１２０の各ノードは、シード伸長テーブル１３２内の連続するアドレスのシード及び間隔を含むことができる。いくつかの実装形態では、シード伸長テーブル１３２は、シードアクセス窓を使用してコンピュータ１１０によって取得されたシード１１４－１などのシードに一致する、１３１－１～１３１－６の参照配列位置の中心辞書式にソートされたリストを含む。中心辞書式ソートは、例えば、記号場所の優先順位を確立すること、次いで、中心記号から左及び右の外側に交互に入れ替えることを含むことができる。これに代えて、中心辞書式ソートは、例えば、記号場所の優先順位を確立すること、次いで、中心記号から右及び左の外側に交互に入れ替えることを含むことができる。さらに、他の変形例をも使用することができる。

図１の実施例では、シード伸長テーブル１３２は、「ＧＴＴＴＡ」のシード１１４－１に基づいて、１３３で中心辞書式にソートされている。この実施例は、図１に示される中央辞書的なソート順序を達成するために、左を１番目とする通常のアルファベットのヌクレオチド順序（すなわち、Ａ、Ｃ、Ｇ、Ｔ）を想定している。コンピュータ１１０は、所定の閾値数よりも多い一致する参照配列位置を有すると判定された各シード１１４－１，１１４－２，１１４－３，１１４－ｎについて、シード伸長テーブル１３２などのシード伸長テーブルを生成することができる。いくつかの実装形態では、各適格シードについてのシード伸長テーブル１３２は、コンピュータ１１０がシードアクセス窓を使用して特定のシードにアクセスした後であって、かつシードについてのシード伸長ツリー１２０が生成される前に、特定のシードについて生成され得る。

上記のシード伸長ツリー１２０のノードの説明は、各ノードのアドレスの間隔が連続していることを示す。ただし、本開示は、そのように限定される必要はない。代わりに、ノードのアドレスの間隔は、連続していなくてもよい。例えば、特定の実装形態は、シード伸長テーブルの１個以上の連続する位置の複数の異なるセット、又は１つ以上のメモリデバイスに記憶された他のデータ構造の複数の異なるセットを記述するための間隔を使用してもよく、１個以上の連続する位置の各連続するセットは、互いに対して非連続である。すなわち、それぞれの各セットの間に連続性の破断が存在することが可能である。

各適格シードについてのシード伸長テーブルは、メモリ１３０に記憶できる。これにより、ｎ個のシード伸長テーブル、すなわち、参照配列１１４のｎ個のシードの各々について１つがもたらされ得る。これに代えて、シード伸長テーブルの数は、シード伸長テーブルが、所定の閾値数よりも多い一致する参照配列位置を有するシードに対してのみ生成及び記憶される場合など、ｎ未満であってもよい。シード伸長テーブルの各々の生成後、シード伸長テーブルの各々のセット１３２Ａを、プログラム可能な回路１６２を収容するデバイス１６０に提供し、プログラム可能な回路１６２がアクセス可能であるメモリ１８０に記憶することができる。メモリ１８０は、ＤＲＡＭメモリ、ＳＲＡＭメモリ、ＮＡＮＤメモリなどを含むことができる。いくつかの実装形態では、シード伸長テーブルのセット１３２Ａを、プログラム可能な回路１６２を個々のシード伸長テーブルとして収容するデバイス１６０に提供することができる。他の実装形態では、シード伸長テーブルのセット１３２Ａは、各シードのそれぞれのシード伸長テーブルの各々の連結から構成される単一のマスターシード伸長テーブルとして提供され得る。シード伸長テーブルのセット１３２Ａは、任意の数のフォーマットで提供できる。いくつかの実装形態では、シード伸長テーブルのセット１３２Ａは、デバイス１６０に提供されたシード伸長テーブルファイルのサイズを低減し、かつ、次いで、メモリ１８０に記憶するためにデバイス１６０、プログラム可能な回路１６２などによって解凍されるように、コンピュータ１１０によって圧縮できる。

コンピュータ１１０は、シード「ＧＴＴＴＡ」１２１ａ及び間隔Ａ１２１ｂを含むためのシード伸長ツリー１２０のルートノード１２１を生成することができる。間隔Ａ１２１ｂは、ルートノード１２１によって表されるシード「ＧＴＴＴＡ」１２１ａに一致する参照配列位置を記憶するシード伸長テーブル１３２内の位置の連続する間隔を識別する。この例では、間隔Ａは、１３１－１～１３２－６にわたり、かつ「ＴＡＧＴＴＴＡＣＴ」、「ＴＡＧＴＴＴＡＴＣ」、「ＧＡＧＴＴＴＡＴＧ」、「ＡＣＧＴＴＴＡＧＴ」、「ＴＣＧＴＴＴＡＧＴ」、及び「ＡＣＧＴＴＴＡＧＣ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２にアクセスして、ノード１２１のシードに一致する参照配列位置を有するシード伸長テーブル１３２の位置を判定することによって、ノード１２１などのノードの特定のシードについての適切な間隔又は複数の間隔を判定することができる。

いくつかの実装形態では、ノード１２１などのノードの特定のシードについての間隔１２１ｂは、シード伸長テーブル１３２内の間隔の開始位置アドレスと、シード伸長テーブル１３２内の間隔の終了位置アドレスと、を使用して記述できる。他の実装形態では、ノード１２１などのノードの特定のシードについての間隔１２１ｂは、シード伸長テーブル１３２内の間隔の開始位置アドレスと、開始位置アドレスからのオフセットと、を使用して記述できる。このような実装形態では、間隔は、間隔の開始アドレス及び終了アドレス、又は間隔の開始アドレス及びオフセットを使用して、後で計算できる。ただし、本開示は、そのように限定される必要はない。代わりに、間隔レコードは、任意の適切な仕方で構造化又は非構造化された任意の形態の情報を使用して、ハッシュテーブル位置１４４内に表され得ることが理解される。例えば、いくつかの実装形態では、間隔レコードは、固定サイズ及びフォーマットの１つのレコードを使用して実施できる。他の実装形態では、間隔レコードを、レコードカウントなどを含む異なるサイズの複数のフォーマットの中から選択することによって実装して、ハッシュテーブル１４０によって消費される記憶スペースを最適化し、ハッシュテーブル１４０の圧縮性を可能にし、他の間隔レコードフォーマットに対するハッシュクエリの効率を改善するなどすることができる。

コンピュータ１１０は、ルートノードで識別されるシード１２１ａについての塩基又はヌクレオチドの数を伸長することによって、シード伸長ツリー１２０の生成を継続することができる。例えば、コンピュータ１１０は、５個の塩基又はヌクレオチドから７個の塩基又はヌクレオチドまで、ルートノードのシード長を伸長し、７個の一致する塩基又はヌクレオチドを有するシード伸長テーブル内の参照配列位置の最大のサブセットを識別することができる。図１の実施例では、コンピュータ１１０は、７個の一致するヌクレオチドを有する参照配列位置の最大のサブセットが「ＣＧＴＴＴＡＧ」であると判定することができる。間隔Ｂは、シード「ＣＧＴＴＴＡＧ」に一致する参照配列位置を記憶する、シード伸長テーブル１３２内の位置の連続する間隔を識別する。この実施例では、間隔Ｂは、１３２－４～１３２－６にわたり、かつ「ＡＣＧＴＴＴＡＧＴ」、「ＴＣＧＴＴＴＡＧＴ」、及び「ＡＣＧＴＴＴＡＧＣ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２を使用して判定された情報を使用してノード１２２を生成することができる。例えば、コンピュータ１１０は、シード「ＣＧＴＴＴＡＧ」１２２ａ及び間隔Ｂ１２２ｂを含むノード１２２を生成することができる。

図１の実施例を参照すると、コンピュータ１１０は、シード伸長テーブル内に、７個の一致する塩基又はヌクレオチドを有する他の参照配列位置が存在するかどうかを判定することによって、シード伸長ツリー１２０の生成を継続することができる。シード伸長テーブル１３２内に、７個の一致する塩基又はヌクレオチドを有する他の参照配列位置が存在する場合、コンピュータ１１０は、７個の一致する塩基又はヌクレオチドを有する、参照配列位置の次の最大のセットを使用して、シード伸長ツリーの次のノードを生成する。図１の実施例では、コンピュータ１１０は、参照配列位置の次の最大のサブセットが、７個の一致するヌクレオチドを有すると判定することができる。間隔Ｅは、シード「ＡＧＴＴＴＡＴ」に一致する参照配列位置を記憶するシード伸長テーブル１３２内の位置の連続する間隔を識別する。この実施例では、間隔Ｅは、１３２－２～１３２－３にわたり、かつ「ＴＡＧＴＴＴＡＴＣ」及び「ＧＡＧＴＴＴＡＴＧ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２を使用して判定された情報を使用してノード１２３を生成することができる。例えば、コンピュータ１１０は、シード「ＡＧＴＴＴＡＴ」１２３ａ及び間隔Ｅ１２３ｂを含むノード１２３を生成することができる。

図１の実施例を参照すると、コンピュータ１１０は、シード伸長テーブル内に、７個の一致する塩基又はヌクレオチドを有する他の参照配列位置が存在するかどうかを判定することによって、シード伸長ツリー１２０の生成を継続することができる。シード伸長テーブル内の他の参照配列位置が、７個の一致する塩基又はヌクレオチドを有するものとして識別される場合、コンピュータ１１０は、上述したように、７個の一致する塩基又はヌクレオチドを有する、参照配列位置の次の最大のセットを使用して、シード伸長テーブル１２０の新たなノードを生成することができる。ただし、図１の実施例では、シード伸長テーブル１３２内に、７個の一致する塩基又はヌクレオチドを有する他の参照配列位置は存在しない。したがって、コンピュータ１１０は、ヌクレオチドの塩基の数を７個から９個に伸長すると判定し、シード伸長テーブル１３２内の参照配列位置を解析し続けることができる。

図１の実施例を参照すると、コンピュータ１１０は、９個の一致するヌクレオチドを有する参照配列位置の最大のサブセットを識別することができる。この実施例では、９個の一致するヌクレオチドを有する参照配列位置の複数のサブセットが存在する。このような例では、コンピュータ１１０は、９個の一致する参照配列ヌクレオチドを有する参照配列位置の各セットについてシード伸長ツリーのノードを作成すると判定することができる。いくつかの実装形態では、コンピュータ１１０は、シード伸長ツリーノードの作成順序をランダムに判定し得る。他の実装形態では、コンピュータ１１０は、それらの中心辞書式順序に基づいて、後続の伸長ツリーノードを生成し始めることができる。

それらの作成順序にかかわらず、コンピュータ１１０は、９個の一致するヌクレオチドを有する参照配列位置の各サブセットについて、シード伸長テーブルのノードを生成することによって継続することができる。例として、コンピュータ１１０は、伸長された短いシード「ＴＣＧＴＴＴＡＧＴ」１２４ａ及び間隔Ｃ１２４ｂを含むように、シード伸長ツリー１２０のノード１２４を生成することができる。間隔Ｃ１２４ｂは、短いシード「ＴＣＧＴＴＴＡＧＴ」１２４ａに一致する参照配列位置を記憶する、シード伸長テーブル１３２内の位置の、連続する間隔を識別する。この実施例では、間隔Ｃは、１３２－５にわたり、かつ「ＴＣＧＴＴＴＡＧＴ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２にアクセスして、ノード１２４の短シードに一致する参照配列位置を有するシード伸長テーブル１３２の位置を判定することによって、ノード１２４などのノードの特定の短いシードについての適切な間隔を判定することができる。

図１の実施例を参照すると、コンピュータ１１０は、９個の一致するヌクレオチドを有する参照配列位置の各サブセットについて、シード伸長テーブルのノードを生成することによって継続することができる。例として、コンピュータ１１０は、伸長された短いシード「ＡＣＧＴＴＴＡＧＣ」１２５ａ及び間隔Ｄ１２５ｂを含むように、シード伸長ツリー１２０のノード１２５を生成することができる。間隔Ｄ１２５ｂは、短いシード「ＡＣＧＴＴＴＡＧＣ」１２５ａに一致する参照配列位置を記憶する、シード伸長テーブル１３２内の位置の、連続する間隔を識別する。この実施例では、間隔Ｄは、１３２－６にわたり、かつ「ＡＣＧＴＴＴＡＧＣ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２にアクセスして、ノード１２５の短シードに一致する参照配列位置を有するシード伸長テーブル１３２の位置を判定することによって、ノード１２５などのノードの特定の短いシードについての適切な間隔を判定することができる。

図１の実施例を参照すると、コンピュータ１１０は、９個の一致するヌクレオチドを有する参照配列位置の各サブセットについて、シード伸長テーブルのノードを生成することによって継続することができる。例として、コンピュータ１１０は、伸長された短いシード「ＴＡＧＴＴＴＡＴＣ」１２６ａ及び間隔Ｆ１２６ｂを含むように、シード伸長ツリー１２０のノード１２６を生成することができる。間隔Ｆ１２６ｂは、短いシード「ＴＡＧＴＴＴＡＴＣ」１２６ａに一致する参照配列位置を記憶する、シード伸長テーブル１３２内の位置の、連続する間隔を識別する。この実施例では、間隔Ｆは、１３２－２にわたり、かつ「ＴＡＧＴＴＴＡＴＣ」を含む、シード伸長テーブル１３２の位置を識別する。コンピュータ１１０は、シード伸長テーブル１３２にアクセスして、ノード１２６の短シードに一致する参照配列位置を有するシード伸長テーブル１３２の位置を判定することによって、ノード１２６などのノードの特定の短いシードについての適切な間隔を判定することができる。

本開示は、一致する塩基の最大のセットから一致する塩基の最小のセットへと進行する特定の規則的な順序でシード伸長テーブルを構築する実施例を記載している。ただし、本開示は、この仕方で構築されたシード伸長ツリーの使用に限定される必要はない。代わりに、シード伸長テーブル構造プロセスの結果が、シード伸長テーブルを作り出す限り、シード伸長テーブルを構築するための任意のプロセスを使用することができる。例えば、シード伸長ツリーは、一致する塩基の最小のセットから一致する塩基の最大のセットまで、又は、全く特定の順序なく生成できる。いくつかの実装形態では、シード伸長テーブルがシステム１００によって構築される必要なしに、以前に生成されたシード伸長テーブルをシステム１００によって生成及び使用することができる。

コンピュータ１１０は、生成されたシード伸長ツリー１２０を使用して、特定のハッシュインデックスキー１４２に対応する特定のシード入力が到達するハッシュテーブル１４０のハッシュ位置１４４を充填することができる。例として、コンピュータ１１０は、ノード１２１がリーフノードであるかどうかを判定することができる。ノード１２１がリーフノードでないとの判定に基づいて、コンピュータ１１０は、ルートノード１２１を使用してハッシュ位置１４４－ｙを充填することができ、ここで、ｙは、任意の非ゼロ整数である。ルートノード１２１を使用してハッシュ位置１４４－ｙを充填することは、シード１２１ａが到達するハッシュテーブル位置１４４－ｙに間隔レコード１５３ｂを記憶することを含むことができる。間隔レコード１５３ｂは、ノード１２１についての間隔１２１ｂを識別する。ハッシュテーブル１４０は、各シード１１４－１，１１４－２，１１４－３～１１４－ｎ、各シード１１４－１，１１４－２，１１４－３～１１４－ｎの逆補体、又はそれらの組み合わせについてのハッシュテーブルインデックスキー１４２を含むことができる。各ハッシュテーブルインデックスキー１４２は、ハッシュ関数１４３を使用して１個以上のハッシュ位置１４４にマッピングできる。各ハッシュ位置１４４は、１つ以上の記憶バケットを使用して実装でき、ここで、記憶バケットは、メモリデバイスの１つ以上の記憶位置のセットに対応する。メモリデバイスの１つ以上の記憶位置の各々は、連続するか、又は非連続であるメモリ位置であり得る。

図１の実施例は、シード１２１，１２２，１２３，及び１２５の前方シードに対応するキー１４２を有するハッシュテーブル１４０の一部分のみを示す。しかしながら、本開示は、そのように限定される必要はない。例えば、いくつかの実装形態では、任意のシードの逆補体ヌクレオチド配列が、元の前方シードと同じハッシュをもたらすような仕方で、ハッシュ関数１４３を使用してシードをハッシュすることができる。ヌクレオチド配列の逆補体は、元のヌクレオチド配列の順序を逆転させ、かつＡｓをＴｓと、ＴｓをＡと、ＣｓをＧｓと、及びＧｓをＣｓと交換することによって決定できる。例として、元の前方シードＧＴＴＴＡ１２１ａについてのハッシュキー１４２は、ＴＡＡＡＣであるシードＧＴＴＴＡの逆補体のためのハッシュキー１４２と同じハッシュを有することができる。このような実装形態では、一致する参照配列位置が、ハッシュ位置１４４に、又はシード伸長テーブル１３２内のエントリとして記憶されると、それらの配列配向は、例えば、逆補体（reverse-complement、ＲＣ）フラグを使用してアノテーションできる。ただし、他の実装形態では、シードの逆補体は、異なるハッシュをもたらしてもよく、ハッシュテーブル１４０又はシード伸長テーブル１３２のハッシュ位置１４４に記憶された一致する参照配列位置において、配向がアノテーションされる必要はない。

ハッシュテーブル１４０の位置１４４を充填することはまた、伸長レコードがハッシュ位置１４４に充填されるかどうかを判定することを含むことができる。ハッシュ位置１４４に伸長レコードが充填されるべきかどうかを判定することは、ハッシュ位置を充填するために使用されているシード伸長ツリー１２０のノードが、リーフノードであるかどうかを判定することを含むことができる。ノードが、リーフノードであると判定された場合には、コンピュータ１１０は、ノードと関連付けられたシードが到達するハッシュ位置に、伸長レコードを記憶しないと判定することができる。これに代えて、ノードが、リーフノードでないと判定された場合、コンピュータ１１０は、伸長レコードを生成し、生成された伸長レコードをハッシュテーブル位置１４４に記憶することができる。図１の実施例を参照すると、コンピュータ１１０は、ノード１２１が、リーフノードでないと判定することができるか、又は以前に判定している。このような例では、コンピュータ１１０は、シード１２１ａが到達したハッシュテーブル位置１４４－ｙに、伸長レコード１５３ａを生成及び記憶することができる。したがって、ハッシュ位置１４４－ｙは、伸長レコード１５３ａ及び間隔レコード１５３ｂを含むことができる。

伸長レコードは、ソフトウェア命令を実行する中央処理ユニット（ＣＰＵ）若しくはグラフィック処理ユニット（ＧＰＵ）又はプログラム可能な回路１６２などのコンピュータによって実行されると、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２に、ヌクレオチド１個以上分、伸長レコードを記憶するハッシュ位置に到達した、ハッシュクエリ内で使用されるシードを伸長させることができる。いくつかの実装形態では、伸長レコードが、シードの各端部上で対称にシードを伸長するようにコンピュータに命令するように、伸長レコードを生成することができる。したがって、例として、伸長レコードは、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２などのコンピュータに、ヌクレオチド２個分、ヌクレオチド４個分、ヌクレオチド６個分などシードを伸長するように命令するように生成できる。このような実装形態では、シードの対称的な伸長は、シードのそれぞれの各端部上のヌクレオチド１個分、シードのそれぞれの各端部上のヌクレオチド２個分、シードのそれぞれの各端部上のヌクレオチド３個分など、シードを伸長することによって達成できる。図１の実施例では、伸長レコード１５３ａは、初期シード１２１ａを塩基２個分、対称に伸長するように構成されている。コンピュータ１１０は、（ｉ）シードに一致する数参照配列位置、（ｉｉ）所望されるランタイムシード伸長反復の数、（ｉｉｉ）各反復について求められる一致する参照配列位置の数などを含む、多様な要因に基づいて、伸長レコードに含めるための伸長長さを判定することができる。ハッシュテーブル１４０を使用したランタイムの柔軟性のあるシード伸長は、図３に関連して以下により詳細に記載されている。

ヌクレオチドのシードは、一般に、連続ヌクレオチドの連続するセットからなるものとして記載されてきた。同様に、伸長レコードは、連続ヌクレオチドの連続するセットを、対称であれ、非対称であれ、いずれにしても連続し得る仕方で、ヌクレオチドの１個以上の追加分、順次伸長するものとして記載されている。ただし、本開示は、連続ヌクレオチドの連続するセットの使用に限定されない。代わりに、リード又は参照配列のシードを、リード又は参照配列からの非連続であるシードパターンとすることができる。同様に、伸長レコードは、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２によって処理されると、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２に、非連続である近傍の塩基又はヌクレオチドを組み込むように初期シードを伸長させる命令を含むことができる。このような実装形態では、各ルートノードシードについての一致する参照配列位置は、非連続であるシードの使用に見合う仕方で、シード伸長テーブル１３２内で辞書的にソートされ得る。

コンピュータ１１０は、シード伸長ツリー１２０の残りの各ノード１２２，１２３，１２４，１２５，１２６について、ハッシュ位置１４４に情報を充填し続けることができる。例として、コンピュータ１１０は、ノード１２２が、リーフノードであるかどうかを判定することができる。ノード１２２が、リーフノードでないとの判定に基づいて、コンピュータ１１０は、ノード１２２を使用してハッシュ位置１４４－３を充填することができる。ノード１２２を使用してハッシュ位置１４４－３を充填することは、間隔レコード１５２ｂを、シード１２２ａが到達するハッシュテーブル位置１４４－３に記憶することを含むことができる。間隔レコード１５２ｂは、ノード１２２についての間隔１２２ｂを識別する。コンピュータ１１０は、ノード１２２が、リーフノードでなく、かつハッシュ位置１４４－３に記憶するための伸長レコード１５２ａを生成すると判定するか、又は以前に判定している。図１の実施例では、伸長レコード１５２ａは、シード１２２ａを塩基又はヌクレオチド２個分、対称に伸長する命令を含む。伸長レコード１５２ａのこれらの命令は、例えば、間隔Ｂが、シード１２２ａについてのクエリに応答してアクセスされない場合、実行時に実行できる。

ただし、本開示は、そのように限定されず、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２に、異なる追加のヌクレオチド長（例えば、２個，４個，６個，８個など）分、又は異なる手法で（例えば、１個，３個，５個などの追加のヌクレオチド長を非対称的に使用して）シードを伸長するように命令する他の伸張レコードスキャンも生成できる。図１の実施例は、ハッシュ位置１４４－３内の単一の伸長レコードを示しているが、本開示は、そのように限定されない。代わりに、いくつかの実装形態では、複数の伸長レコードを、単一のハッシュ位置１４４－３に記憶することができる。例えば、コンピュータ１１０はまた、初期シード１２２ａを塩基４個分、伸長させるように構成されたハッシュ位置１４４－３に、１つ以上の追加の伸長レコードを記憶することができる。このような実装形態では、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２は、実行時に、最初に初期シード１２２ａを塩基４個分、伸長することを試みることができる。このようなシード伸長が失敗した場合には、ハッシュテーブル１４０の後続クエリは、実行時に、一致する参照配列位置を作り出さないため、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路は、初期塩基を塩基２個分のみ伸長する命令を含む他の伸長レコード１５２ａを取得することができる。これは、一致する参照配列位置が返される可能性を増加させることができる。

コンピュータ１１０は、シード伸長ツリー１２０の各ノード１２３，１２４，１２５，１２６についてのハッシュ位置１４４に、情報を充填し続けることができる。例として、コンピュータは、ノード１２３がリーフノードであるかどうかを判定することができる。ノード１２３が、リーフノードでないとの判定に基づいて、コンピュータ１１０は、ノード１２３を使用してハッシュ位置１４４－１を充填することができる。ハッシュ位置１４４－１を充填することは、間隔レコード１５０ｂを、シード１２３ａが到達するハッシュテーブル位置１４４－１に記憶することを含むことができる。間隔レコード１５０ｂは、ノード１２３についての間隔１２３ｂを識別する。コンピュータ１１０は、ノード１２３が、リーフノードでなく、かつハッシュ位置１４４－１に記憶するための伸長レコード１５０ａを生成すると判定するか、又は以前に判定している。この実施例では、伸長レコード１５０ａは、シード１２３ａを塩基又はヌクレオチド２個分、対称に伸長する命令を含む。伸長レコード１５０ａのこれらの命令は、例えば、間隔Ｅが、シード１２３ａについてのクエリに応答してアクセスされない場合、実行時に実行できる。

コンピュータ１１０は、シード伸長ツリー１２０の各ノード１２４，１２５，１２６についてのハッシュ位置１４４に、情報を充填し続けることができる。例として、コンピュータ１１０は、ノード１２５が、リーフノードであるかどうかを判定することができる。ノード１２５が、リーフノードであるとの判定に基づいて、コンピュータ１１０は、シード「ＡＣＧＴＴＴＡＧＣ」に一致する間隔Ｄ１２５ｂによって識別される一致する参照配列位置１５５をハッシュ位置１４４－２に記憶することによってハッシュテーブル１４０を充填すると判定することができる。これに代えて、他の実装形態では、コンピュータ１１０は、間隔レコードを、間隔Ｄ１２５ｂを識別するハッシュ位置１４４－２に記憶すると判定することができる。このような判定は、いくつかの実装形態では、リーフノードについてのハッシュテーブル位置１４４での一致する参照配列位置の各々の記憶が、メモリリソースの最適な使用であるかどうかに基づいて、コンピュータ１１０によって行われ得る。したがって、リーフノードについてのハッシュテーブル位置１４４での一致する参照配列位置の記憶が、メモリリソースの所定の閾値使用量を満たさないと判定された場合、コンピュータ１１０は、一致する参照配列位置を、シード伸長ツリーのリーフノードのシードが到達するハッシュ位置に記憶することができる。そうではなく、このメモリリソース使用閾値を超過する場合、コンピュータ１１０は、シード伸長ツリーのリーフノードのシードが到達するハッシュ位置１４４に間隔レコードを記憶することができる。コンピュータ１１０は、ノード１２５が、リーフノードであり、かつハッシュ位置１４４－２に記憶するための伸長レコードを生成しないと判定するか、又は以前に判定している。したがって、この実施例では、実行時に発生するような、シード「ＡＣＧＴＴＴＡＧＣ」のさらなる伸長はない。

上述したように、ハッシュ位置１４４－２は、シード１２５ａに一致し、かつハッシュキー１４２－１に対応する一致する参照配列位置のみを記憶することができる。これは、この実施例では、シード１２５ａが、伸長させることができないリーフノード１２５のシードであるためである。ただし、伸長レコード又は間隔レコードのうちの一方又は両方がない参照配列位置の集団は、リーフノードのシードが到達するハッシュ位置１４４に限定されない。代わりに、コンピュータ１１０は、他のインスタンスにおける、伸長レコード又は間隔レコードのうちの一方又は両方がない一致する参照配列位置を有するハッシュ位置１４４を充填すると判定することができる。例えば、いくつかの実装形態では、コンピュータ１１０が、特定のシードについてのシード伸長テーブル１３２が、一致する参照配列位置の閾値数よりも小さい一致する参照配列位置の間隔のみを識別する場合には、コンピュータ１１０は、伸長レコード又は間隔レコードのうちの一方又は両方がない一致する参照配列位置を有する特定のシードが到達するハッシュ位置１４４を充填することができる。

ハッシュテーブル１４０のハッシュ位置１４４に、他の種類の情報を記憶することができる。例えば、コンピュータ１１０は、１つ以上の「ストップ」レコードをハッシュテーブル１４０のハッシュ位置１４４に挿入する命令を受信することができる。このような「ストップ」ハッシュレコードは、（ｉ）間隔レコードか、又は（ｉｉ）ハッシュ位置に到達するために使用されたシードのさらなる伸長がない１個以上の一致する参照位置のセットのいずれかを返すために、間隔レコード又は１個以上の一致する参照位置のセットを記憶する特定のハッシュ位置１４０を生じさせることができる。他の実装形態では、コンピュータ１１０は、「ストップ」レコードを、既に伸長レコードを含むハッシュ位置に挿入する命令を受信することができる。このような実装形態では、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２が、「ストップ」レコードに遭遇すると、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２は、（ｉ）伸長レコードを破棄し、かつ（ｉ）間隔レコード、又は（ｉｉ）「ストップ」レコードを有するハッシュ位置に到達するために使用されるシードに一致する１個以上の一致する参照位置のセットを返すか、又は（ｉｉ）伸長レコードによって記述されるシード伸長を実行するかどうかを条件的に判定することができる。いくつかの実装形態では、条件判定は、（ｉ）間隔レコード、又は（ｉｉ）１個以上の一致する参照配列位置のセットによって識別される一致する参照配列の数などの１つ以上の要因に基づいて行える。したがって、それぞれの入力シードに応答して１つ以上の「ストップ」レコードを特定のハッシュ位置に挿入する挿入を設計ツールとして使用して、ハッシュテーブル１４０などのハッシュテーブルを再構築することなく、固定された最大誤一致問題を回避することができる。

コンピュータ１１０は、ノード１２４，１２６などのシード伸長ツリー１２０の残りの各ノードについてのハッシュ位置１４４に反復的に充填し続けることができる。ノード１２４，１２６がノード１２５のようなリーフノードであるため、これらのリーフノードの各々についてのエントリは、ノード１２５に関して上述した手法で充填できる。

加えて、コンピュータ１１０は、シード「ＧＴＴＴＡ」１１４－１を参照して図１の実施例で反復して上述したプロセスを、参照配列１１４の各シードに適用し続けることができる。例えば、シード「ＧＴＴＴＡ」１１４－１が上述のように処理されると、コンピュータ１１０は、シードアクセス窓を参照配列内の次の後続のシードに進めることができ、シードにアクセスし、次いで、シード「ＧＴＴＴＡ」１１４－１を参照して上述したプロセスを参照配列のｎシードの各々に反復的に実行することができる。これらのプロセスは、シードアクセス窓によって識別されるシードを取得することと、シードが所定数よりも多い一致する参照配列位置を有するかどうかを判定することと、所定数よりも多い一致する参照配列位置が存在する場合、シード伸長ツリーを生成することと、次いで、シード伸長ツリーのノードによって識別されるシード及び間隔を使用してハッシュテーブル１４４を充填することと、を含むことができる。いくつかの実装形態では、コンピュータ１１０はまた、参照配列１１４のｎ個のシードの各々についての逆補体に対して、シード「ＧＴＴＴＡ」１１４－１を参照して上述した同じプロセスを反復して実行することができる。各参照シード及び各逆補体についてのこれらの反復プロセスの培養は、ｘ個のインデックスエントリ及びｙ個のハッシュ位置を有するハッシュテーブル１４０をもたらすことができ、ここでｘ及びｙは各々、ヒトゲノムなどの特定の参照配列について、１億又はさらには１０億である。

いくつかの実装形態では、１つ以上のＣＰＵ、ＧＰＵ、又はそれらの組み合わせを使用して、実行されると１つ以上のＣＰＵ、ＧＰＵ、又はそれらの組み合わせに図３及び図４に関して記載されたプロセスを実行させるソフトウェア命令を実行するように、ソフトウェアでハッシュテーブル１４０をコンピュータ１１０などのコンピュータによって使用して、ハッシュテーブル１４０に対するハッシュクエリを実行することにより、ランタイムの柔軟性のあるシード伸長を実行することができる。他の実装形態では、コンピュータ１１０は、ハッシュテーブル１４０をインストールするためのソフトウェア命令と、別のコンピュータ上のシード伸長テーブルのセット１３２Ａと、を含むハッシュテーブルインストールパッケージを生成することができる。例えば、ハッシュテーブルインストールパッケージは、実行されると、図２のプロセス２００によって記載される動作を実行するソフトウェア命令を含むことができる。コンピュータ１１０は、ソフトウェア命令を含むハッシュテーブルインストールパッケージを他のコンピュータに提供することができる。他のコンピュータは、ハッシュテーブルインストールパッケージを受信し、ハッシュテーブル１４０及びシード伸長テーブルのセット１３２Ａをインストールすることができる。次いで、他のコンピュータは、１つ以上のＣＰＵ、ＧＰＵ、又はそれらの組み合わせを使用して、実行されると１つ以上のＣＰＵ、ＧＰＵ、又はそれらの組み合わせに図３及び図４に関して記載されたプロセスを実行させるソフトウェア命令を実行するように、ソフトウェアでハッシュテーブル１４０に対するハッシュクエリを実行することによって、ランタイムの柔軟性のあるシード伸長を実行することができる。

ただし、いくつかの実装形態では、コンピュータ１１０は、ハードウェアデジタル論理回路にマッピング及びアライニングユニット１７０を実装するようにプログラム可能な回路１６２を構成することができるハードウェアプログラミング言語命令を含むハッシュテーブルインストールパッケージ１４６を生成することができる。ハードウェアプログラミング言語命令を、バイナリビットストリームファイルなどのファイルの形態とすることができる。バイナリビットストリームファイルは、プログラム可能な回路１６２によって実装される回路機構を記述するＶＨＤＬ、Ｖｅｒｉｌｏｇなどのハードウェアプログラミング言語コードをコンパイルすることによって、ハッシュテーブルインストールパッケージ１４６内に含める前に生成できる。ハッシュテーブルインストールパッケージのハードウェアプログラミング言語命令は、プログラム可能な回路１６２によって処理されると、プログラム可能な論理回路に、図３及び図４に関して記載されるプロセスを使用してハードウェアでハッシュテーブル１４０に対するハッシュクエリを実行することによって柔軟なシード伸張を実装するように、プログラム可能な論理回路の動的に構成可能な論理回路をプログラムさせることができる。ハッシュテーブルインストールパッケージ１４６はまた、シード伸長テーブルのセット１３２Ａと、プログラム可能な回路１６２がアクセス可能なメモリ１８０内にシード伸長テーブルのセット１３２Ａをインストールするための命令と、を含むことができる。ハッシュテーブルインストールパッケージ１４６はまた、ハッシュテーブル１４０と、プログラム可能な回路１６２がアクセス可能なメモリ１８０内にハッシュテーブル１４０をインストールするための命令と、を含むことができる。プログラム可能な回路１６０は、ハッシュテーブル１４０をマッピング／アライニングユニット１７０の一部として使用して、図３に関して本明細書でより詳細に論じられるように、短いシードの参照配列へのマッピングを実行するようにプログラムすることができる。コンピュータ１１０は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、クラウドベースのサーバ、シーケンサ、又は１つ以上のネットワーク、１つ以上のバス、ＵＳＢケーブル、ＵＳＢーＣケーブルなどの直接接続、若しくはそれらの任意の組み合わせを使用してプログラム可能な回路１６０を収容する他のデバイスなどの、デバイス１６０に、ハッシュテーブルインストールパッケージを提供することができる。デバイス１６０は、ハッシュテーブルインストールパッケージを受信し、プログラム可能な回路１６２をプログラムして、ハッシュテーブルインストールパッケージのハードウェアプログラミング言語命令を使用して、プログラム可能な回路１６２のハードウェア論理ゲート内にマッピング及びアライニングユニット１７０を実装することができる。

したがって、それぞれのハッシュテーブルインストールパッケージ１４６を使用して、多様な異なる手法でハッシュテーブル１４０及びシード伸長テーブルのインストール、使用、及びさらには除去を管理することができる。例えば、いくつかの実装形態では、ハッシュテーブル１４０及びシード伸長テーブルのセット１３２Ａは、各々、ハードディスク又は他の記憶媒体上のファイルとして記憶でき、次いで、各々は、ランタイムアクセスの前に、図３及び図４を参照して本明細書に記載されるプロセスに関して記載されるようなランタイム柔軟性のあるシード伸長を実装するための１つ以上のコンポーネント又はモジュールを含むＤＲＡＭなどの共通メモリにロードできる。ただし、他の実装形態では、シード伸長テーブルのハッシュテーブル１４０又はセット１３２Ａは、各々メモリデバイス内の１つ以上の別異する連続する部分、又はメモリデバイスの非連続である部分として、合わせて又は別個に記憶され得る。同じく、ランタイムマッピング中、又はそれ以外にランタイムマッピング及びアライニングユニット１７０がハッシュテーブル１４０及びシード伸長テーブルのセット１３２Ａの両方の選択された部分にアクセスするための何らかの道筋及び方法が存在する限り、シード伸長テーブルのハッシュテーブル１４０又はセット１３２Ａを、圧縮するか若しくは非圧縮とするか、共通又は別個の記憶媒体及び／若しくはメモリ上に記憶するか、又はキャッシュするか若しくは未キャッシュとすることができる。さらに他の実装形態では、ハッシュテーブル１４０は、プログラム可能な回路１６２のハードウェア論理回路内に完全に実装でき、シード伸長テーブルのセット１３２Ａは、ＤＲＡＭメモリユニットなどのプログラム可能な論理回路１６２によってアクセス可能なメモリ１８０に記憶できる。さらに他の実装形態では、ハッシュテーブル１４０は、ＤＲＡＭメモリユニットなどのプログラム可能な論理回路１６２によってアクセス可能であるメモリ１８０に記憶でき、シード伸長テーブルのセット１３２Ａは、プログラム可能な回路１６２のハードウェア論理回路内に完全に実装できる。

いくつかの実装形態では、コンピュータ１１０はまた、本明細書に記載されるようなハッシュテーブル及びシード伸長ビルダを含むインストールパッケージを生成することができる。コンピュータ１１０は、ネットワークを介して別のコンピュータにインストールパッケージを提供することができる。インストールパッケージを使用して、ハッシュテーブル及びシード伸長ビルダを他のコンピュータ又は異なるコンピュータにインストールし、ハッシュテーブル及びシード伸長ビルダを受信及びインストールするパーティが、それ自体の選択された参照配列から、パーティ自体の選択された設定で、パーティ自体のハッシュテーブル及びシード伸長テーブルを構築できるようにすることができる。したがって、ハッシュテーブル及びシード伸長ビルダインストールパッケージの受信者は、受信者自体のハッシュテーブルを受信者の選択された参照からの任意の時点で構築し、そのハッシュテーブルをディスク上に記憶し、プログラム可能な回路１６２がアクセス可能なメモリ１８０にそのハッシュテーブルをロードし、プログラム可能な回路１６２を使用してマッピング及びアライニングを実行することができる。

図２は、ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長を容易にするハッシュテーブルインデックスを生成するためのプロセス２００のフローチャートである。一般に、プロセス２００は、コンピュータシステムによって、参照配列からヌクレオチドの特定のシードを取得することであって、特定のシードが、Ｋ個のヌクレオチドのヌクレオチド長を有するヌクレオチドの配列を表す、取得すること（２１０）と、コンピュータシステムによって、特定のシードが所定数の参照配列位置よりも多く一致すると判定すること（２２０）と、特定のシードが所定数の参照配列位置よりも多く一致すると判定することに基づいて、コンピュータシステムによって、複数のノードを有するシード伸長ツリーを生成することであって、複数のノードの各ノードが、（ｉ）特定のシードの伸長であり、かつＫ^＊のヌクレオチド長を有する伸長されたシードであって、Ｋ^＊が、Ｋよりも大きい１個以上のヌクレオチドである、伸長されたシードと、（ｉｉ）シード伸張テーブル内の、伸長されたシードに一致する参照配列位置を記述するデータを含む複数の位置と、に対応する、生成すること（２３０）と、複数のノードの各ノードについて、コンピュータシステムによって、伸長されたシードのインデックスキーに対応するハッシュテーブルの位置に間隔情報を記憶することであって、間隔情報が、ノードと関連付けられた伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸張テーブル内の複数の位置を参照する、記憶すること（２４０）と、を含むことにより、ハッシュテーブルを生成することができる。プロセス２００を、コンピュータ１１０などのコンピュータシステムによって実行されるものとして、以下により詳細に記載する。

より詳細には、コンピュータシステムは、コンピュータシステムによって、参照配列からヌクレオチドの特定のシードを取得することによって、プロセス２００の実行を開始することができ、特定のシードは、Ｋ個のヌクレオチドのヌクレオチド長を有するヌクレオチドの配列を表す（２１０）。いくつかの実装形態では、特定のシードを取得することは、コンピュータシステムによって、参照配列内のシードアクセス窓の位置を判定することを含むことができる。次いで、コンピュータシステムは、シードアクセス窓によって識別される参照配列のサブセットを取得することができる。コンピュータシステムは、１つ以上のコンピュータを含むことができる。

コンピュータシステムは、コンピュータシステムによって、特定のシードが、所定数の参照配列位置よりも多く一致するかどうかを判定することによって、プロセス２００の実行を継続することができる（２２０）。コンピュータシステムによって、特定のシードが、所定数の参照配列位置よりも多くは一致しないと判定された場合、コンピュータシステムは、特定のシードについてのシード伸長ツリーを生成しないと判定することができる。代わりに、コンピュータシステムは、第２のシードに一致する参照配列位置の各々を記述するデータを取得することができる。次いで、コンピュータシステムは、特定のシードのインデックスキーに対応するハッシュテーブルの第２の位置に、特定のシードに一致する参照配列位置を記述するデータを記憶することができる。

これに代えて、コンピュータシステムによって、特定のシードが、所定数の参照配列位置よりも多く一致すると判定された場合、コンピュータシステムは、複数のノードを有するシード伸長ツリーを生成することができる（２３０）。複数のノードの各ノードは、（ｉ）特定のシードの伸長であり、かつＫ^＊のヌクレオチド長を有する伸長されたシードであって、Ｋ^＊が、Ｋよりも大きい１個以上のヌクレオチドである、伸長されたシードと、（ｉｉ）伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸張テーブル内の複数の位置と、を表すデータを含むことができる。いくつかの実装形態では、複数の位置は、ノードと関連付けられた伸長されたシードに一致する参照配列位置の、伸長テーブル内の連続する間隔を含むことができる。

コンピュータシステムは、シード伸長ツリーの各ノードについて、ハッシュテーブルのハッシュ位置に間隔情報を記憶することによって、プロセス２００の実行を継続することができる。いくつかの実装形態では、コンピュータシステムは、シード伸長ツリーの各ノードについて、伸長されたシードのインデックスキーに対応するハッシュテーブルのハッシュ位置に、間隔情報を記憶することにより、ハッシュテーブルを生成することができる（２４０）。間隔情報は、ノードと関連付けられた伸長されたシードに一致する参照配列位置を記述するデータを含む複数のシード伸長位置への参照を含むことができる。いくつかの実装形態では、間隔情報によって記述される複数のシード伸長テーブル位置は、伸長されたシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の位置の連続する間隔を含むことができる。
ハッシュテーブルゲノムマッピングを使用したランタイムの柔軟性のあるシード伸長

図３は、ハッシュテーブルゲノムマッピングのためのランタイムの柔軟性のあるシード伸長を実行するためのランタイムシステム３００のコンテキスト図である。ランタイムシステム３００は、プログラム可能な論理回路１６２、マッピング及びアライニングユニット１７０、ハッシュテーブル１４０、メモリ１８、メモリ１８０に記憶されたシード伸長テーブル１３２などの複数のシード伸長テーブルを含む。図３の実施例は、プログラム可能な論理ユニット１６２のハードウェア論理回路を使用してハードウェアに実装されたマッピング及びアライニングユニット１７０及びハッシュテーブル１４０を記載しているが、本開示はそのように限定されない。代わりに、マッピング及びアライニングユニット１７０は、メモリユニットに記憶されたハッシュテーブル１４０にアクセスする１つ以上のＣＰＵ、ＧＰＵ、又はそれらの組み合わせによって実行されるソフトウェア命令を使用して実装されるソフトウェアアプリケーションであってもよい。

システム３００による、ハッシュテーブルゲノムマッピングのためのランタイムの柔軟性のあるシード伸長の実行は、マッピング及びアライニングユニット１７０が現在のリード３０５にアクセスすることによって開始することができる。現在のリード３０５は、生体サンプルの一次解析を実行した核酸シーケンサによって生成できる。一次解析は、核酸シーケンサによって、血液サンプル、組織サンプル、又は痰などの生体サンプルを受信することと、受信された生体サンプル中の核酸配列中のヌクレオチドの順序を表す１つ以上のリード３０５などの出力データを生成することと、を含むことができる。いくつかの実装形態では、生体サンプルは、ＤＮＡサンプルを含むことができ、核酸シーケンサは、ＤＮＡシーケンサを含むことができる。このような実装形態では、核酸シーケンサによって生成される、リード３０５中の配列決定されたヌクレオチドの順序は、グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、及びチミン（Ｔ）のうちの１つ以上を任意の組み合わせで含むことができる。他の実装形態では、核酸シーケンサは、ＲＮＡシーケンサを含むことができ、生体サンプルは、ＲＮＡサンプルを含むことができる。このような実装形態では、核酸シーケンサによって生成される、リード中の配列決定されたヌクレオチドの順序は、Ｇ、Ｃ、Ａ、及びウラシル（Ｕ）のうちの１つ以上を任意の組み合わせで含むことができる。したがって、図３の実施例は、ＤＮＡサンプルに基づいてＤＮＡシーケンサによって生成されるＧ、Ｃ、Ａ、及びＴからなるリードの処理を記載しているが、本開示は、そのように限定されない。代わりに、他の実装形態は、ＲＮＡサンプルに基づいてＲＮＡシーケンサによって生成されるＣ、Ｇ、Ａ、及びＵからなるリードを処理することができる。

一般に、マッピング及びアライニングユニット１７０は、マッピング及びアライニングユニット１７０が受信し、マッピングし、及びアライニングするリードのタイプに対してアグノスティックであるように構成できる。例えば、いくつかの実装形態では、同じバイナリコードを使用して、「Ｔ」及び「Ｕ」を表すことができる。マッピング及びアライニングユニット１７０によって受信されるリードは、ＤＮＡ、ｃＤＮＡ、及び／又はＲＮＡを含むことができ、参照を、ＤＮＡ、ｃＤＮＡ、及び／又はＲＮＡとすることができる。このような実装形態では、リードＴ及び／又はＵが、参照Ｔ及び／又はＵに一致するように、リード塩基Ｔ及び／又はＵは、単一のバイナリコードを共有することができる。

いくつかの実装形態では、核酸シーケンサは、超高スループット、スケーラビリティ、及び超並列配列決定技術の使用による速度を達成する手法で、所与のサンプルについてのリード３０５などの配列リードを生成するように構成された次世代シーケンサ（next generation sequencer、ＮＧＳ）を含むことができる。ＮＧＳは、ゲノム全体の迅速な配列決定と、深く配列決定された標的領域にズームするか、ＲＮＡ配列決定（ＲＮＡ－Ｓｅｑ）を利用して、新規ＲＮＡ変異体及びスプライス部位を発見するか、又は遺伝子発現解析、ゲノムワイドＤＮＡメチル化及びＤＮＡ－タンパク質相互作用などのエピジェネティック因子の解析、希少体変異体及び腫瘍サブクローンを研究するための癌サンプルの配列決定、並びにヒト又は環境における微生物多様性の研究のためのｍＲＮＡを定量化する能力と、を可能にする。

核酸シーケンサによって生成されるリード３０５などの配列リードは、マッピング及びアライニングユニット１７０などの二次解析ユニットによってアクセス及び処理できる。いくつかの実装形態では、マッピング及びアライニングユニット１７０などの二次解析ユニットは、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）又は特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）などのプログラム可能な回路１６２を使用して、デジタル論理回路などのハードウェアで実装できる。他の実装形態では、マッピング及びアライニングユニット１７０などの二次解析ユニットは、マッピング及びアライニングユニット１７０の機能を実装するために、１つ以上のＣＰＵ、ＧＰＵ、又はそれらの両方の組み合わせを使用して実装できる。ハッシュテーブル１４０は、プログラム可能な回路１６２を使用してマッピング及びアライニングユニット１７０が実装されるなどのいくつかの実装形態では、ハッシュテーブル１４０をプログラム可能な回路１６２のハードウェア論理回路で実装できるが、本開示はそのように限定されない。代わりに、ハッシュテーブル１４０は、メモリデバイスに記憶でき、（ｉ）マッピング及びアライニングユニット１７０の機能性を実現するソフトウェア命令を実行するＣＰＵ、ＧＰＵ、又はその両方の組み合わせ、又は（ｉｉ）ハードウェアデジタル論理回路で実装されたマッピング及びアライニングユニット１７０によって、必要時にアクセスできる。

いくつかの実装形態では、プログラム可能な回路１６２は、リード３０５を生成した核酸シーケンサと統合できる。このような実装形態では、例えば、プログラム可能な回路１６２は、ペリフェラルコンポーネントインターコネクト（Peripheral Component Interconnect、ＰＣＩ）伸長カードなどの伸長カードに収容でき、核酸シーケンサにインストールできる。他の実装形態では、例えば、プログラム可能な回路１６２の各々を、核酸シーケンサとは異なり、かつＥｔｈｅｒｎｅｔケーブル、ＵＳＢケーブル、ＵＳＢ－Ｃケーブルなどを使用して核酸シーケンサに直接接続される別のコンピュータの一部とすることができる。さらに他の実装形態では、例えば、プログラム可能な回路１６２は、ローカルエリアネットワーク（local area network、ＬＡＮ）、広域ネットワーク（wide area network、ＷＡＮ）、セルラーネットワーク、インターネット、又はそれらの組み合わせなどの１つ以上の有線又は無線ネットワークを使用してリード３０５を生成した核酸シーケンサによってリモートアクセス可能であるクラウドベースのサーバに統合できる。

マッピング及びアライニングユニット１７０は、初期シード「ＧＴＴＴＡ」３１０ａを含む第１のハッシュクエリ３１０を受信することができる。いくつかの実装形態では、ハッシュクエリは、単に、ハッシュテーブル１４０への入力として使用される現在のリード３０５などのサンプルリードのシードから構成できる。他の実装形態では、追加のデータ、メタデータなどを、サンプルリードのシードに追加して、サンプルを、ハッシュテーブル１４０を探索するために使用できるフォーマットに変換し得る。

図３の実施例では、ハッシュクエリ３１０に含まれる初期シード「ＧＴＴＴＡ」３１０ａは、シードアクセス窓３０５ａを使用して識別される現在のリード

３０５の第１の部分から取得される。マッピング及びアライニングユニット１７０は、ハッシュテーブル１４０を使用してハッシュクエリ３１０を実行して、ハッシュ関数１４３を使用して短い初期シード３１０ａをハッシュ位置１４４にマッピングすることができる。図３の実施例では、ハッシュクエリ３１０の実行は、シード「ＧＴＴＴＡ」３１０ａが、ハッシュ関数１４３によってハッシュ位置１４４－ｙにマッピングされるハッシュインデックスキー「ＧＴＴＴＡ」１４２－２に一致すると判定することができる。

マッピング及びアライニングユニット１７０は、ハッシュテーブル１４０を使用してハッシュクエリ３１０への応答３１０ｂを生成することができる。応答３１０ｂは、ハッシュクエリ３１０のシード３１０ａが到達するハッシュ位置１４４－ｙの内容を含むことができる。マッピング及びアライニングユニット１７０は、ハッシュクエリ３１０への応答３１０ｂを評価し、内容が、一致する参照配列位置のセット、伸長レコード、間隔レコード、又はそれらの組み合わせを含むかどうかを判定する。応答３１０ｂが、伸長レコード又は間隔レコードがない一致する参照配列位置のセットのみを含む場合、マッピング及びアライニングユニット１７０は、シード一致セット３５２内の一致する参照配列位置のセットを、一致する参照位置を受信されたクエリのシードと関連付けるメタデータと共に記憶することができる。これに代えて、マッピング及びアライニングユニット１７０が、応答が間隔レコード、伸長レコード、又はその両方を含むと判定した場合、マッピング及びアライニングユニット１７０は、間隔レコードによって識別される一致する参照シードを使用するか、又はクエリのシードの伸長を進行させるかどうかを３２０で判定しなければならない。

図３の実施例では、応答３１０ｂの評価は、（ｉ）応答が、一致する参照配列位置のセットを含まないこと、及び（ｉｉ）応答３１０ｂが、伸長レコード１５３ａ及び間隔レコード１５３ｂを含むことを示す。応答３１０ｂに基づいて、マッピング及びアライニングユニット１７０は、間隔レコード１５３ｂによって識別される一致する参照位置がアクセスされるかどうかを３２０で判定することができる。いくつかの実装形態では、マッピング及びアライニングユニット１７０は、ハッシュクエリ３１０への３１０ｂなどの応答が、伸長レコード１５３ａを含む場合、間隔レコード１５３ｂなどの間隔レコードによって識別される一致する参照配列位置にアクセスしないようになっている。

ただし、他の実装形態では、マッピング及びアライニングユニット１７０は、伸長レコード１５３ｂを使用してシード３１０ａを伸長する前に、間隔レコード１５３ｂによって識別される一致する参照配列位置の数を評価するように構成できる。このような実装形態では、一致する参照配列位置の数が、所定の閾値を下回る場合には、マッピング及びアライニングユニット１７０は、間隔レコードによって識別される間隔Ａの一致する参照配列位置を３１０ｄで出力することができる。一致する参照配列位置を出力することは、マッピング及びアライニングユニット１７０によって、メモリ１８０内のシード伸長テーブル１３２の間隔Ａに記憶された一致する参照配列位置にアクセスすることと、アクセスされた一致する参照配列位置をシード一致セットストレージ３５２に記憶することと、を含むことができる。アクセスされた一致する参照配列位置がシード一致セット３５２に記憶されると、図３によって記載されるプロセスが、シード３１０ａのさらなる伸長なしに終了することが可能である。次いで、シードアクセス窓３０５ａを、現在のリード３０５に沿って１個以上のヌクレオチドだけ順方向に調整することが可能である。シードアクセス窓３０５ａが調整されると、図３に関連して記載されるプロセスが再び開始し、現在のリード３０５の全体がクエリされるまで、反復的に続行することができる。一方、この代替実装形態では、一致する参照配列位置の数が、所定の閾値を下回っていないと判定された場合、シード３１０ａは、伸長レコード１５２ａを使用して伸長できる。

図３の実施例に戻ると、マッピング及びアライニングユニット１７０は、間隔レコード１５３ｂによって識別される一致に、前述の閾値を適用しない。代わりに、マッピング及びアライニングユニット１７０は、出力３１０ｂが伸長レコード１５３ａを含むため、間隔レコード１５３ｂによって識別される一致する参照配列位置を使用しないと３２０で判定する。したがって、このシナリオでは、マッピング及びアライニングユニット１７０は、シード３１０ａを伸長すると判定する。

伸長されたシードに基づいて後続のクエリを実行することを進行させる前に、マッピング及びアライニングユニットは、間隔Ａ３１０ｃを記述する情報を「最良間隔」ストレージ３５０に記憶することができる。間隔Ａは、プロセスのこの時点で他の間隔が識別及び評価されていないため、シード３１０ａについてのシード伸長テーブル１３２内の一致する参照配列位置の「最良間隔」と見なせる。ただし、図３によって記載されるプロセスの後続の反復では、識別される後続の各間隔は、間隔が、初期シード３１０ａ又は初期シード３１０ａの伸長されたシードに対する最良間隔ストレージに記憶された既存の間隔よりも良好であるかどうかを判定するために、ヒューリスティックに評価できる。間隔Ａ３１０ｃを記述する情報を最良間隔ストレージ３４０に記憶することにより、初期シード３１０ａのイベント伸長で回帰される間隔Ａの一致する参照配列位置が、未読マッピング問題又は高確度マッピング問題などのマッピング不良を引き起こし得る。間隔Ａ３１０ｃを記述する情報は、初期シードに一致する参照配列位置の連続するリストの開始位置及び終了位置を記述するデータを含むことができる。いくつかの実装形態では、間隔Ａ３１０ｃを記述する情報はまた、間隔Ａによって識別される参照配列位置が一致するシードを識別するデータを含むことができる。

マッピング及びアライニングユニット１７０による柔軟性のあるシード伸長の実行は、マッピング及びアライニングユニット１７０が、伸長レコード１５３ａを使用して初期シード３１０ａの伸長である第１の伸長されたシード３１２ａを生成することを、継続することができる。図３の実施例では、伸長レコード１５３ａは、マッピング及びアライニングユニット１７０に、初期シード３１０ａを塩基又はヌクレオチド２個分、対称に伸長するように命令する１つ以上の命令を含むことができる。図３の実施例では、初期シード「ＧＴＴＴＡ」３１０ａを塩基又はヌクレオチド２個分、対称に伸長することにより、リード３０５の伸長されたシード「ＣＧＴＴＴＡＧ」３１２ａがもたらされる。いくつかの実装形態では、初期シード３１０ａを伸長させるために使用される追加のヌクレオチド「Ｃ」及び「Ｇ」は、シードアクセス窓３０５ａによって識別される初期シード３１０ａの両側にある、リード３０５の次のヌクレオチドから取得できる。

シードアクセス窓がリード３０５の先頭にある時などの他の実装形態では、シードアクセス窓の各側に、このシード伸張を容易にするための追加のシードが存在するが、伸長は、リードの境界３０５を越える初期シードの伸長を引き起こし得る。このような実装形態では、シード伸長は、失敗する可能性があり、ハッシュテーブル１４０を使用して初期シードを一致する参照配列位置にマッピングするプロセスは、初期シードから開始したクエリサイクルに対して、シード一致セット３５２に一致する参照配列位置を全く追加することなく終了する可能性がある。ただし、このような実装形態では、シードアクセス窓３０５ａは、リード３０５に沿って順方向に１個以上のヌクレオチドだけ調整でき、調整されたシードアクセス窓によって識別されるリード３０５の次のシードは、ハッシュテーブル１４０を使用する新たなクエリサイクルに対するハッシュクエリの初期シードとして使用するために取得できる。次のシードについての新たなクエリサイクルの実行、及びその後にシードの各々が処理されるまでのシードの各々を使用して、最良間隔ストレージ３５０を更新するか、シード一致セットストレージ３５２に一致する参照配列位置の１つ以上のセットを記憶するか、又はその両方を行うことができ、これを評価して、失敗したシード伸長にかかわらず、図５を参照して記載されるようなリード３０５の一致する参照配列位置の最適なセットを識別し、したがって、従来の方法では存在する可能性があるマッピングされないリード問題を解決することができる。

シードアクセス窓３０５ａがリード３０５の両端部に向かって進む際に、同様の理由で、同様のシード伸長失敗が起こる可能性がある。本開示は同様に、図５を参照して記載されるように、リードのためのハッシュクエリの前の反復から、最良間隔ストレージ２５０、シード一致セット３５３、又はその両方を評価することによって、これらのシード伸長失敗を解決する。

図３の実施例に戻ると、マッピング及びアライニングユニット１７０は、第１の伸長されたシード３１２ａを含む後続のハッシュクエリ３１２を生成することができる。マッピング及びアライニングユニット１７０は、ハッシュクエリ３１２から第１の伸長されたシード３１２ａを取得し、ハッシュテーブルを使用して、ハッシュ関数１４３を使用して第１の伸長された短いシード３１２ａをハッシュ位置１４４にマッピングすることができる。いくつかの実装形態では、第１の伸長されたシード３１２ａを使用したハッシュクエリ３１２の生成は、クエリを生成することなく、ハッシュテーブル１４０を使用したシードマッピングのための入力として、第１の伸長されたシード３１２ａをマッピング及びアライニングユニット１７０に提供することを含むことができる。図３の実施例では、ハッシュクエリ３１２の実行は、シード「ＣＧＴＴＴＡＧ」３１２ａが、ハッシュ関数１４３によってハッシュ位置１４４－３にマッピングされるハッシュインデックスキー「ＣＧＴＴＴＡＧ」１４２－ｘに一致すると判定する。

マッピング及びアライニングユニット１７０は、ハッシュテーブル１４０を使用してハッシュクエリ３１２への応答３１２ｂを生成することができる。応答３１２ｂは、ハッシュクエリ３１２のシード３１２ａが到達するハッシュ位置１４４－３の内容を含むことができる。マッピング及びアライニングユニット１７０は、ハッシュクエリ３１２への応答３１２ｂを評価し、応答３１２ｂが、（ｉ）一致する参照配列位置のセットを含まず、かつ（ｉｉ）伸長レコード１５２ａ及び間隔レコード１５２ｂを含むと判定することができる。応答３１２ｂに基づいて、マッピング及びアライニングユニット１７０は、間隔レコード１５２ｂによって識別される一致する参照位置がアクセスされるかどうかを３３０で判定することができる。いくつかの実装形態では、マッピング及びアライニングユニット１７０は、ハッシュクエリ３１２への３１２ｂなどの応答が、伸長レコード１５２ａを含む場合、間隔レコード１５２ｂなどの間隔レコードによって識別される一致する参照配列位置にアクセスしないようになっている。

ただし、他の実装形態では、マッピング及びアライニングユニット１７０は、伸長レコード１５２ｂを使用してシード３１２ａを伸長する前に、間隔レコード１５２ｂによって識別される一致する参照配列位置の数を評価するように構成できる。このような実装形態では、間隔レコード１５２ｂによって識別される一致する参照配列位置の数が、所定の閾値を下回る場合には、マッピング及びアライニングユニット１７０は、間隔レコード１５２ｂによって識別される間隔Ｂの一致する参照配列位置を３１２ｄで出力することができる。一致する参照配列位置を出力することは、マッピング及びアライニングユニット１７０によって、メモリ１８０内のシード伸長テーブル１３２の間隔Ｂに記憶された一致する参照配列位置にアクセスすることと、アクセスされた一致する参照配列位置をシード一致セットストレージ３５２に記憶することと、を含むことができる。アクセスされた一致する参照配列位置がシード一致セットストレージ３５２に記憶されると、図３によって記載されるプロセスが、シード３１２ａのさらなる伸長なしに終了することが可能である。次いで、シードアクセス窓３０５ａを、現在のリード３０５に沿って１個以上のヌクレオチドだけ調整することが可能である。シードアクセス窓３０５ａが調整されると、図３に関連して記載されるプロセスが再び開始し、現在のリード３０５の全体がクエリされるまで、反復的に続行することができる。一方、この代替実装形態では、一致する参照配列位置の数が、所定の閾値を下回っていないと判定された場合、シード３１２ａは、伸長レコード１５２ａを使用して伸長できる。

図３の実施例に戻ると、マッピング及びアライニングユニット１７０は、間隔レコード１５２ｂによって識別される一致に、前述の閾値を適用しない。代わりに、マッピング及びアライニングユニット１７０は、出力３１２ｂが伸長レコード１５２ａを含むため、間隔レコード１５２ｂによって識別される一致する参照配列位置を使用しないと３３０で判定する。したがって、マッピング及びアライニングユニット１７０は、シード３１２ａを伸長すると判定する。

伸長されたシードに基づいて後続のクエリを実行することを進行させる前に、マッピング及びアライニングユニットは、間隔Ｂ３１２ｃを記述する情報を「最良間隔」として最良間隔ストレージ３５０に記憶するかどうかを判定することができる。間隔Ｂ３１２ｃを記述する情報を「最良間隔」として記憶するかどうかを判定することは、間隔Ｂが、第１の伸長されたシードの前の反復について最良間隔ストレージ３５２に現在記憶されている、この実施例では間隔Ａである間隔よりも良好な間隔であるかどうかをヒューリスティックに判定することを含む。一実装形態では、複数の間隔の中からの最良間隔を、各間隔について返された標的ヒットの数を評価することによって判定できる。このような実装形態では、「最良の」間隔は、マルチパート規則に従って選択できる。例として、マッピング及びアライニングユニット１７０は、少なくとも所定数の一致する参照配列位置を内包する間隔に第１の優先度を割り当てることができ、これは、ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（３２）一致などの閾値として称され得る。ただし、各間隔が、ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（３２）よりも少ない一致を有する場合には、最も多い一致を有する間隔が、最良間隔として記憶される。さらに、マッピング及びアライニングユニット１７０は、このような間隔が好ましいため、より長い伸長されたシードと関連付けられた間隔に第２の優先度を割り当てることができる。また、マッピング及びアライニングユニット１７０が、少なくとも１個の間隔が、少なくともｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（３２）一致を有すると判定した場合には、少なくともｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（３２）一致を満たす全ての間隔の中から、最も長い伸長されたシードと関連付けられている間隔に基づいて、最良間隔が選択される。本明細書の実施例は、３２個の一致を有する閾値ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（３２）に言及しているが、本開示は、そのように限定される必要はない。代わりに、閾値ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（）を、このマルチパートヒューリスティック規則を実装するために、任意の数の一致する参照配列位置に送ることがきる。

図３の実施例では、最良間隔ストレージ３５０に最良間隔として以前に記憶された間隔Ａは、６個の一致する参照配列位置１３２－１～１３２－６を識別し、間隔Ｂは、３個の一致する参照配列位置１３２－４～１３２－６を識別する。１０個の一致の例示的なｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔ（１０）閾値を適用すると、マッピング及びアライニングユニット１７０は、マルチパートヒューリスティック規則を適用し、間隔がｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔ（１０）閾値を満たしていると判定することができる。したがって、マルチパートヒューリスティック規則に従い、マッピング及びアライニングユニット１７０は、間隔Ａが、間隔Ａと間隔Ｂとの間の最も多い一致、すなわち６つの一致を有するため、間隔Ａを最良間隔として選択することができる。この例示的なマルチパートヒューリスティック規則の適用に基づいて、間隔Ｂ３２１ｃを記述する情報は、破棄でき、間隔Ａは、最良間隔として記憶されたままである。ただし、マルチパートヒューリスティック規則である必要がない異なるヒューリスティック規則を適用する他の実施例の下では、間隔Ｂが最良間隔として選択され、間隔Ａを置換するために最良間隔ストレージ３５０に記憶されることが可能である。このような結果を、ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ（）閾値の設定、１つ以上のヒューリスティック規則の設計などの特定の設計構成に最終的に残すことができる。

図３の実施例では、前述のヒューリスティック規則を使用して、最良間隔ストレージ３５０に以前に記憶された間隔Ａと、クエリ３１２への応答３１２ｂに含まれる間隔Ｂと、を比較する。しかしながら、本開示は、そのように限定される必要はない。例えば、いくつかの実装形態では、ハッシュクエリへの応答は、ハッシュクエリの特定のシードが到達したハッシュ位置１４４に記憶されていた複数の間隔レコードを含んでもよい。このような実装形態では、マッピング及びアライニングユニット１７０は、前述のヒューリスティック規則を適用して、複数の間隔レコードのいずれがアクセスされるべきかを判定することができる。同じく、マッピング及びアライニングユニット１７０はまた、クエリ応答で返された間隔レコードの各々のうちから最良間隔ストレージ４５０に記憶するために、このようなヒューリスティック規則を使用して、最良間隔を判定することができる。別の例として、マッピング及びアライニングユニット１７０はまた、このようなヒューリスティック規則を使用して、クエリ応答で返された各間隔レコードと、複数の間隔を返すクエリに使用されるシードの以前の反復について最良間隔ストレージ３５０に以前に記憶された別の間隔と、のうちから、最良間隔ストレージ４５０に記憶するための最良間隔を決定することができる。

いくつかの実装形態では、システム３００は、最良間隔ストレージ３５０への２個以上の最良間隔の記憶を容易にすることができる。例えば、いくつかの実装形態では、最大２個の最良間隔が、追跡されてもよい。いくつかの実装形態では、最大Ｎ個の最良間隔が、追跡されてもよい。このような実装形態では、Ｎ＞１個の最良間隔が記憶される場合、いずれの間隔が保持されているかを判定するための基準は、Ｎ個の最良間隔がリード内で互いに重なり合わない伸長されたシードと関連付けられることを必要とするような、間隔候補、間隔候補の関連付けられた伸長されたシード、又はその両方同士又は間の関係の評価を伴うことができる。

マッピング及びアライニングユニット１７０による柔軟性のあるシード伸長の実行は、マッピング及びアライニングユニット１７０が、伸長レコード１５２ａを使用して第１の伸張されたシード３１２ａの伸長である第２の伸長されたシード３１４ａを生成することを、継続することができる。図３の実施例では、伸長レコード１５２ａは、マッピング及びアライニングユニット１７０に、第１の伸張されたシード３１２ａを塩基又はヌクレオチド２個分、対称に伸長するように命令する１つ以上の命令を含むことができる。図３の実施例では、第１の伸張されたシード「ＣＧＴＴＴＡＧ」３１２ａを塩基又はヌクレオチド２個分、対称に伸長することにより、リード３０５の第２の伸長されたシード「ＡＣＧＴＴＴＡＧＣ」３１４ａがもたらされる。いくつかの実装形態では、第１の伸長されたシード３１２ａを伸長させるために使用される追加のヌクレオチド「Ａ」及び「Ｃ」は、第１の伸長されたシード「ＣＧＴＴＴＡＧ」３１２ａの両側にある、リード３０５の次のヌクレオチドから取得できる。

図３の実施例に戻ると、マッピング及びアライニングユニット１７０は、第２の伸長されたシード３１４ａを含む後続のハッシュクエリ３１４を生成することができる。マッピング及びアライニングユニット１７０は、ハッシュクエリ３１４から第２の伸長されたシード３１４ａを取得し、ハッシュテーブルを使用して、ハッシュ関数１４３を使用して第２の伸長された短いシード３１４ａをハッシュ位置１４４にマッピングすることができる。いくつかの実装形態では、第２の伸長されたシード３１４ａを使用したハッシュクエリ３１４の生成は、クエリを生成することなく、ハッシュテーブル１４０を使用したシードマッピングのための入力として、第２の伸長されたシード３１４ａをマッピング及びアライニングユニット１７０に提供することを含むことができる。図３の実施例では、ハッシュクエリ３１４の実行は、シード「ＡＣＧＴＴＴＡＧＣ」３１４ａが、ハッシュ関数１４３によってハッシュ位置１４４－２にマッピングされるハッシュインデックスキー「ＡＣＧＴＴＴＡＧＣ」１４２－１に一致すると判定する。

マッピング及びアライニングユニット１７０は、ハッシュテーブル１４０を使用してハッシュクエリ３１４への応答３１４ｂを生成することができる。応答３１４ｂは、ハッシュクエリ３１４の第２の伸張されたシード３１４ａが到達するハッシュ位置１４４－２の内容を含むことができる。マッピング及びアライニングユニット１７０は、ハッシュクエリ３１４への応答３１４ｂを評価し、応答３１４ｂが、（ｉ）一致する参照配列位置１５５のセットを含み、かつ（ｉｉ）伸長レコードを含まず、かつ（ｉｉｉ）間隔レコードを含まないと判定する。応答３１４ｂに基づいて、マッピング及びアライニングユニット１７０は、一致する参照配列位置１５５が、シード一致セットストレージ３５２に記憶されるべきであると判定することができる。

応答３１４ｂは、伸長レコードを含まないため、リード３０５のシード「ＧＴＴＴＡ」３１０ａについてのランタイムの柔軟性のあるシード伸長プロセスが終了する。シードアクセス窓３０５ａを、図３に関して記載されるプロセス各々が、リード３０５のそれぞれの各シードに対して実行されるまで、リード３０５に沿って、１個以上のヌクレオチドだけ前進させ続けることができる。このプロセスはまた、図４のフローチャートに関して記載されている。上述したように、シードアクセス窓３０５ａがリード３０５の端部に向かって伸長すると、マッピング及びアライニングユニット１７０へのシード入力を伸長する試みが失敗し、潜在的なマッピングされないリード問題を生じる可能性がある。ただし、本開示は、少なくとも図５に関して記載されるように、リード３０５の一致する参照配列位置のセットを識別するために、最良間隔ストレージに記憶された１個以上の間隔、シード一致セット３５２に記憶された１つ以上のリード、又はその両方の組み合わせを使用することができる。

図４は、ハッシュテーブルゲノムマッピングのためのランタイムの柔軟性のあるシード伸長を実行するためのプロセス４００のフローチャートである。プロセス４００を、１つ以上のコンピュータのコンピュータシステムによって実行されるものとして以下に記載する。１つ以上のコンピュータは、例えば、マッピング及びアライニングユニット１７０を含むことができる。本開示の目的で、１つ以上のコンピュータは、ソフトウェア命令を取得及び実行して、ソフトウェア命令によって記述される特定のプログラムされた機能性を実現するように構成されたＣＰＵ又はＧＰＵを含むことができる。これに代えて、又はこれに加えて、１つ以上のコンピュータは、プログラム可能な回路のハードウェアデジタル論理回路が、特定のプログラムされた機能性をハードウェアで実現するように構成されているように構成されているプログラム可能な回路を含むことができる。

コンピュータシステムは、ハッシュテーブル４０５のクエリを実行することによって、プロセス４００の実行を開始することができる。クエリは、ヌクレオチドのシードを含むことができる。ヌクレオチドのシードは、リードから取得されたヌクレオチドのサブセットを含むことができる。リードは、核酸シーケンサに入力された生体サンプルに基づいて核酸シーケンサによって生成されたヌクレオチドのセットを含むことができる。生体サンプルは、例えば、血液サンプル、組織サンプル、痰などを含むことができる。

例として、生体サンプルに基づいて核酸シーケンサによって生成されたリードは、「ＡＣＧＴＴＴＡＧＣ」などの一連のヌクレオチドを含むことができる。この実施例は、９個のヌクレオチドのリードを含む。ただし、９ヌクレオチドのリードの使用は、実施例としてのみ使用される。９個のヌクレオチドに限定される代わりに、本開示によって記載されるようなリードは、５個の塩基若しくはヌクレオチド、１０個の塩基若しくはヌクレオチド、１２個の塩基若しくはヌクレオチド、１５個の塩基若しくはヌクレオチド、１８個の塩基若しくはヌクレオチド、２１個の塩基若しくはヌクレオチド、２５個の塩基若しくはヌクレオチド、３５個の塩基若しくはヌクレオチド、５０個の塩基若しくはヌクレオチド、１００個の塩基のヌクレオチド、１５０個の塩基若しくはヌクレオチド、１，０００個の塩基若しくはヌクレオチド、百万個の塩基若しくはヌクレオチド、又はさらに多くの塩基若しくはヌクレオチドを含む任意のヌクレオチド長であることが可能であるが、これらに限定されない。クエリのシードは、「ＧＴＴＴＡ」などのリードの部分を含むことができる。プロセス４００の第１の反復中に第１のハッシュクエリで使用するためのリードから取得されたシードは、任意の長さＫとすることができ、ここで、Ｋは、リード内の塩基又はヌクレオチドの数よりも小さい。いくつかの実装形態では、Ｋを、リード長の１／１００、リード長の１／１０、リード長の１／５などのリードヌクレオチド長よりも実質的に小さくすることができる。

コンピュータシステムは、シードを取得することと、シードをハッシュテーブルのハッシュキーと比較することと、によって、シードを含むクエリを実行することができる。ハッシュキーは、各参照配列シード、各参照配列シードの逆補体、参照配列の伸長された各シード、及び参照配列の伸長された各シードの逆補体に対応することができる。参照配列は、例えば、ヒト又は他の動物などの種についての参照ゲノム又は参照ゲノムの一部を含むことができる。クエリのシードに一致するハッシュキーが、コンピュータシステムによって識別されると、コンピュータシステムは、ハッシュ関数を使用して、ハッシュキーを１個以上のハッシュ位置にマッピングすることができる。本開示のいくつかの態様では、１個以上のハッシュ位置は、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の参照配列位置を記憶することができる。コンピュータシステムは、クエリのシードが到達した１個以上のハッシュ位置の内容を含むクエリへの応答を生成することができる。

コンピュータシステムは、クエリが到達すると判定されるハッシュテーブルの１個以上の位置によって記憶された情報を含む、実行されたクエリへの応答を取得する（４１０）ことによって、プロセス４００の実行を継続することができる。クエリのシードが、ハッシュ関数を使用して１個以上の位置にマッピングされたハッシュキーに一致すると判定された場合に、ハッシュテーブルの１個以上の位置にクエリが到達すると判定される。

コンピュータシステムは、実行されたクエリへの応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定する（４１５）ことによって、プロセス４００の実行を継続することができる。コンピュータシステムによって、実行されたクエリへの応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定する（４１５）ことは、受信された応答をパースすることと、パースされた応答データを解析することとを含むことができる。コンピュータシステムは、パースされたデータに基づいて、パースされたデータが、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を表すかを判定することができる。他の実装形態では、実行されたクエリへの応答が、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを示す１つ以上のデータフラグを含み得る。

いくつかの例では、コンピュータシステムは、段階４１５で、応答が、伸長レコード、間隔レコード、又は１つ若しくは一致する参照配列位置を含まないと判定することによって、プロセス４００の実行を継続することができる。コンピュータシステムが、応答は、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含まないと判定した場合には、プロセスは、クエリのシードについてのシード一致セットに任意の一致する参照配列位置を追加することなく、段階４２０で終了する。例として、シードが伸長されたシードであり、かつシード伸張エラーが存在していた場合、シードを含むクエリへの取得された応答は、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）の１個以上の一致する参照配列位置を含まなくてもよい。このようなシード伸長エラーは、例えば、コンピュータシステムが、シードが取得されたリードの端部を越えてシードを伸長することを試みる場合に、存在し得る。

これに代えて、他の例では、コンピュータシステムは、段階４１５で、実行されたクエリへの応答が、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）その両方を含むと判定することによって、プロセス４００の実行を継続することができる。このような例では、コンピュータシステムは、間隔レコードによって参照される伸長テーブル内の１個以上の一致する参照配列位置を取得するために伸長テーブルがアクセスされるどうかを判定する（４３０）ことによって、プロセス４００の実行を継続することができる。

いくつかの例では、コンピュータシステムは、間隔レコードによって再参照された伸長テーブル内の１個以上の一致する参照配列位置を取得するためにシード伸長テーブルがアクセスされると判定することによって、プロセス４００の実行を継続することができる。例えば、いくつかの実装形態では、コンピュータシステムは、一致する参照配列位置の数が所定の閾値を下回る場合、間隔レコードによって識別される１個以上の一致する参照配列位置を取得するために、シード伸長テーブルにアクセスするように構成できる。これに代えて、又はこれに加えて、コンピュータシステムは、実行されたクエリへの応答が、ハッシュクエリのシードが到達したハッシュ位置に記憶された「ストップ」レコードも含んでいた場合、間隔レコードによって識別される１個以上の一致する参照配列位置を取得するために、シード伸長テーブルにアクセスするように構成できる。「停止」レコードは、一致する参照配列位置の数が所定の閾値を下回る場合などに、優先的に、コンピュータシステムに、クエリ内のシードのさらなるシード伸張を実行せず、かつ間隔レコードによって識別される１個以上の一致する参照配列位置にアクセスしないように命令することができる。

段階４３０でシード伸長ステーブルがアクセスされると判定するこのような例では、コンピュータシステムは、コンピュータシステムは、シード伸長テーブルにアクセスして、シード伸長テーブル内の１個以上の参照配列位置を取得する（４５０）ことによって、プロセス４００の実行を継続することができる。コンピュータシステムは、間隔レコードを使用することによって、シード伸長テーブルから取得するために、１個以上の一致する参照配列位置の特定のセットを識別することができる。間隔レコードは、クエリのシードに一致する参照配列位置を記述するデータを含む、シード伸長テーブル内の複数の位置を参照する情報を含むことができる。いくつかの実装形態では、複数の位置を参照する情報は、伸長テーブル内の、クエリの伸長されたシードに一致する参照配列位置の連続する間隔を含むことができる。これに代えて、他の実装形態では、複数の位置を参照する情報は、伸長テーブル内の、クエリのシードに一致する参照配列位置の１個以上の不連続である間隔を含むことができる。

このような例では、コンピュータシステムは、間隔レコードを使用して識別されるシード伸長テーブルから１個以上の一致する参照配列位置を取得することができる。取得された１個以上の参照配列位置は、シード一致セットに追加できる（４５５）。いくつかの実装形態では、１個以上の一致する参照配列位置をシード一致セットに追加することは、シード一致セットストレージに割り当てられたメモリデバイスの位置に、１個以上の一致する参照配列位置を表すデータを取得及び記憶することを含むことができる。他の実装形態では、１個以上の一致する参照配列位置をシード一致セットに追加することは、１個以上の参照配列位置を記憶するシード伸長テーブルの間隔（単数又は複数）を参照する、ポインタなどのデータを記憶することを含むことができる。したがって、シード一致セットを、識別及び取得された一致する参照配列位置のセットを記憶する記憶位置とすることができる。これに代えて、シード一致セットは、１個以上の一致する参照配列位置への参照を記憶する１個以上の記憶位置を含むことができる。コンピュータシステムは、間隔レコードによって識別される１個以上の一致する参照配列位置をシード一致に追加すると、プロセス４００のこの例を４６０で終了することができる。

他の例では、コンピュータシステムが、応答は、少なくとも（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）又はその両方を含むと判定した（４１５）後、コンピュータシステムは、１個以上の一致する参照配列位置を取得するためにシード伸長テーブルがアクセスされないと判定する（４３０）ことができる。コンピュータシステムによる、シード伸張テーブルが、１個以上の一致する参照配列位置を取得するためにアクセスされないとの判定は、多様な要因に基づき得る。例として、いくつかの実装形態では、コンピュータシステムは、応答が伸長レコードを返した場合、間隔レコードによって識別される一致する参照配列位置を取得するためにシード伸長テーブルにアクセスしないと判定することができる。このような判定は、伸長されたシードが、間隔レコードによって識別される一致する参照配列位置のセットよりも小さい、一致する参照配列位置のセットを作り出す可能性が高いため、好ましい場合がある。

別の例として、他の実装形態では、コンピュータシステムは、一致する参照配列位置の数が、一致する参照配列位置の所定の閾値数を超えているとコンピュータシステムが判定した場合に、間隔レコードによって識別される一致する参照配列位置を取得するためにシード伸長テーブルにアクセスしないと判定することができる。同様に、このような実装形態では、間隔によって識別される一致する参照配列位置が一致閾値を超えているとき、コンピュータシステムは、シード伸長テーブルにアクセスしないと判定することができる。

コンピュータシステムが、シード伸長テーブルにアクセスしないと４３０で判定すると、コンピュータシステムは、取得された応答が、間隔レコード及び伸長レコードを含むかどうかを４６５で判定することによって、プロセス４００の実行を継続することができる。コンピュータシステムが、取得された応答は、間隔レコード及び伸長レコードを含むと４６５で判定した場合には、コンピュータシステムは、間隔レコード、又は実行されたクエリへの応答に含まれる間隔レコードを記述する情報を最良間隔候補として記憶するかどうかを４３５で判定することができる。まだ伸長されていない初期シードを有するクエリに対するプロセス４００の第１の反復の間、コンピュータシステムは、メモリデバイスの最良間隔ストレージに、間隔レコード又は間隔レコードを記述する情報を最良間隔候補として記憶すると判定することができる。このような間隔レコードには、伸長されていない初期シードを有するクエリに対するプロセス４００の初期反復中に遭遇するため、１つ以上の後続の伸長されたシードについての他のクエリに応答して遭遇した他の間隔レコードはない。したがって、まだ伸長されていない初期シードを有するクエリに応答して返される第１の間隔は、比較のために識別された他の間隔がまだないため、「最良間隔」でなければならい。

ただし、伸長されたシードを有するクエリに対して応答が受信された後のプロセス４００による後続のインタラクションのために、コンピュータシステムは、伸長されたシードを有するクエリへの応答から第２の間隔レコードを取得することができる。このような例では、コンピュータシステムは、第２の間隔レコードを使用して、最良間隔ストレージ内の以前に記憶された最良間隔候補を置き換えるために使用されるべきかどうかをヒューリスティックに判定することができる。以前に記憶された最良間隔候補を維持するか、又は最良間隔候補を第２の間隔若しくは間隔を記述する情報で置き換えるかどうかに関する判定は、図３の実施例を参照して記載されるように、１つ以上のヒューリスティック規則を適用することによって行える。いくつかの実装形態では、ヒューリスティック規則は、１つ以上のマルチパートヒューリスティック規則を含むことができる。

本開示のいくつかの実装形態は、クエリのシードが基づく現在のリードについて記憶されるべき単一の最良間隔を判定するために、その後に返された各間隔レコードと以前に記憶された最良間隔候補との対比を反復的に評価することを目的とすることができるが、本開示はそのように限定される必要はない。代わりに、いくつかの実装形態では、全ての間隔を間隔ストレージに保存し、シード一致セットを補完する際に使用するために後で評価することができる。

コンピュータシステムは、伸長されたシードを生成する（４４０）ことによって、プロセス４００の実行を継続することができる。伸長されたシードは、クエリに応答して返された伸長レコードに含まれる命令に基づいて生成できる。例として、伸長レコードは、ソフトウェア命令を実行する中央処理ユニット（ＣＰＵ）若しくはグラフィック処理ユニット（ＧＰＵ）又はプログラム可能な回路１６２などのコンピュータによって実行されると、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路に、ヌクレオチド１個以上分、伸長レコードを記憶するハッシュ位置に到達した、ハッシュクエリ内で使用されるシードを伸長させることができる。いくつかの実装形態では、伸長レコードが、シードの各端部上で対称にシードを伸長するようにコンピュータに命令するように、伸長されたレコードを生成することができる。したがって、例として、伸長レコードは、ＣＰＵ、ＧＰＵ、又はプログラム可能な回路１６２などのコンピュータに、ヌクレオチド２個分、ヌクレオチド４個分、ヌクレオチド６個分などシードを伸長するように命令するように生成できる。このような実装形態では、シードの対称的な伸長は、シードのそれぞれの各端部上のヌクレオチド１個分、シードのそれぞれの各端部上のヌクレオチド２個分、シードのそれぞれの各端部上のヌクレオチド３個分など、シードを伸長することによって達成できる。ただし、本開示は、シードの対称的な伸長に限定されるべきではない。代わりに、シードの非対称な伸長もまた、本開示によって想到される。

コンピュータシステムは、伸長されたシードを含むハッシュクエリを４４５で生成することによって、プロセス４００の実行を継続することができる。次いで、コンピュータシステムは、段階４０５で、伸長されたクエリを有するクエリを実行することによってプロセス４００の別の反復を実行し、次いで、（ａ）１個以上の一致する参照配列位置をシード一致セットに追加することによって、プロセスが４２７又は４６０で終了するまで、プロセス４００の実行を継続し、プロセスは、間隔レコードを最良間隔候補として記憶するかどうかを判定した後、４７５で終了するか、又は（ｃ）プロセスは、（ｉ）伸長レコード、（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含む、実行されたクエリへの応答を受信しないクエリをもたらすシード伸長エラーなどの１つ以上のエラーの結果として、段階４２０で終了する。

これに代えて、段階４６５で、コンピュータシステムが、取得された応答は、間隔レコード及び伸長レコードの両方を含まないと判定した場合には、コンピュータシステムは、取得された応答が伸長レコードを含むかどうかを判定することによって、プロセス４００の実行を継続することができる。

コンピュータシステムが、取得された応答は伸長レコードを含むと判定した場合、コンピュータシステムは、段階４４０で、伸長されたシードを生成することによってプロセス４００の実行を継続し、伸長されたシードを含むハッシュクエリ４４５を生成し、段階４０５で、伸長されたクエリを有するクエリを実行することによってプロセス４００の別の反復を実行することができる。次いで、コンピュータシステムは、（ａ）プロセスが、４２７，４２０，４６０，４７５で終了するまでプロセス４００の実行を継続することができる。

一方、コンピュータシステムが、取得された応答は伸長レコードを含まないと判定した場合には、コンピュータシステムは、段階４７０で、間隔レコード又は間隔レコードを記述する情報を最良間隔候補として記憶するかどうかを判定することによって、プロセス４００の実行を継続することができる。コンピュータシステムは、段階４３５で間隔レコードを最良間隔候補として記憶するかどうかを判定することに関して記載された同じプロセスを使用して、段階４７０で、間隔レコードを最良間隔候補として記憶するかどうかを判定することができる。コンピュータシステムが、段階４７０で、間隔レコードを最良間隔候補として記憶すると判定するかどうかにかかわらず、プロセス４００は、段階４７５で終了する。

プロセス４００の少なくとも１つの変形例を実装することができ、コンピュータシステムは、代わりに、取得された応答が間隔レコードを含むかどうかを段階４７０で判定する。このような例では、論理的に、コンピュータシステムが、取得された応答が間隔レコードを含むと判定した場合、コンピュータシステムは、段階４７０でプロセスの実行を継続することができることとなる。これに代えて、コンピュータシステムが、取得された応答が間隔レコードを含まないと判定した場合には、プロセスは、段階４４０で、伸長されたシードを生成することによって続行する。プロセス４００のプロセスフローの他の変形例は、同様に実装でき、本開示の趣旨及び範囲内に収まることができる。

図５は、リードの各シードに対するハッシュテーブルゲノムマッピングのための、反復的なランタイムの柔軟性のあるシード伸長を実行するためのプロセス５００のフローチャートである。一般に、プロセス５００は、核酸シーケンサによって生成されたリードを取得する（５０５）ことと、シードアクセス窓の位置を判定することであって、シードアクセス窓が、リードのシードを識別する、判定する（５１０）ことと、シードアクセス窓によって識別されるシードを含むハッシュクエリを生成する（５１５）ことと、プロセス４００が終了するまで生成されたハッシュクエリを実行し、かつプロセス４００の反復実行を継続することによって、段階４１０において図４によって記載されるプロセス４００の実行を開始する（５２０）ことと、リードが別のシードを含むかどうかを判定する（５２５）ことと、を含むことができ、リードが別のシードを含むと判定された（５２５）場合、シードアクセス窓を調整して他のシード（５３０）を識別し、段階５１５を実行して、他のシードを使用してハッシュクエリを生成する（５１５）。

プロセス５００は、段階５２５において、段階５０５で取得されたリードがプロセス４００を使用してマッピング及びアライニングされる別のシードを含まないと判定されるまで、段階５１５，５２０，５２５、及び５３０の処理ループを実行し続けることができる。このような例では、最良間隔を使用してリードについての現在のシード一致セットを補完するかどうかを判定する（５３５）ことができる。段階５３５で最良間隔を使用して現在のシード一致を補完すると判定された場合、プロセス５００は、段階５４０で最良間隔を処理することによって続行する（５４０）ことができ、最良間隔を使用して識別されるシード伸長テーブルの一部分から取得された１個以上の一致する参照配列位置を使用して、現在のシード一致セットを補完し（５４５）、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在するかどうかを５５０で判定する。マッピング及びアライニングの準備ができている別のリードが存在しない場合には、プロセス５００は、段階５５５で終了する。これに代えて、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在する場合には、プロセス５００は、段階５０５で、マッピング及びアライニングの準備ができている他のリードを取得することによって続行する。次いで、プロセス５００は、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在しないと段階５５０で判定されるまで、反復的にプロセス５００を実行し続けることができる。

プロセス５００を、１つ以上のコンピュータのコンピュータシステムによって実行されるものとして、以下により詳細に記載する。１つ以上のコンピュータは、例えば、マッピング及びアライニングユニット１７０を含むことができる。本開示の目的で、１つ以上のコンピュータは、ソフトウェア命令を取得及び実行して、ソフトウェア命令によって記述される特定のプログラムされた機能性を実現するように構成されたＣＰＵ又はＧＰＵを含むことができる。これに代えて、又はこれに加えて、１つ以上のコンピュータは、プログラム可能な回路のハードウェアデジタル論理回路が、特定のプログラムされた機能性をハードウェアで実現するように構成されているように構成されているプログラム可能な回路を含むことができる。

コンピュータシステムは、核酸シーケンサによって生成される核酸リード（本明細書では「リード」とも呼ばれる）を表すデータを取得する（５０５）ことによって、プロセス５００の実行を開始することができる。リードは、リードが核酸シーケンサによって生成された後に、入力として核酸シーケンサから、コンピュータシステムによって受信できる。これに代えて、又は加えて、核酸シーケンサによって生成されたリードは、コンピュータシステムがアクセス可能なメモリデバイスに記憶されてもよい。次いで、コンピュータシステム５００は、メモリデバイスから１つ以上のリードを取り出すためにメモリにアクセスすることによって、記憶されたリード（単数又は複数）を取得することができる。例として、リードは、「ＡＣＧＴＴＴＡＧＣ」などのヌクレオチドのセットを含むことができる。この実施例は、９個のヌクレオチドのリードを含む。ただし、９個のヌクレオチドのリードの使用は、実施例としてのみ使用される。９個のヌクレオチドに限定される代わりに、本開示によって記載されるようなリードは、５個の塩基若しくはヌクレオチド、１０個の塩基若しくはヌクレオチド、１２個の塩基若しくはヌクレオチド、１５個の塩基若しくはヌクレオチド、１８個の塩基若しくはヌクレオチド、２１個の塩基若しくはヌクレオチド、２５個の塩基若しくはヌクレオチド、３５個の塩基若しくはヌクレオチド、５０個の塩基若しくはヌクレオチド、１００個の塩基のヌクレオチド、１５０個の塩基若しくはヌクレオチド、１，０００個の塩基若しくはヌクレオチド、百万個の塩基若しくはヌクレオチド、又はさらに多くの塩基若しくはヌクレオチドを含む任意のヌクレオチド長であることが可能であるが、これらに限定されない。

コンピュータシステムは、シードアクセス窓の位置を判定する（５１０）ことによって、プロセス５００の実行を継続することができる。シードアクセス窓を使用して、リードのヌクレオチドのサブセットから構成されるヌクレオチドのシードを識別することができる。シードの例は、リード「ＡＣＧＴＴＴＡＧＣ」のシードである、連続ヌクレオチドのセット「ＧＴＴＴＡ」である。連続ヌクレオチドのセット「ＧＴＴＴＡ」は、リード「ＡＣＧＴＴＴＡＧＣ」の連続するシードの例を表すが、本開示は、そのように限定される必要はない。代わりに、いくつかの実装形態では、非連続であるシードは、本開示によって記載されるシステム及びプロセスを使用して取得及び解析できる。例えば、「Ｇ＿Ｔ＿Ａ」などの非連続であるシードはまた、リード「ＡＣＧＴＴＴＡＧＣ」から取得でき、本明細書に記載されるシステム及び方法を使用して解析できる。このような実装形態では、本開示のシステム及び方法は、任意の塩基又はヌクレオチドと一致することが可能であるワイルドカードとして、アンダースコア「＿」によって表されるスキップされた位置を取り扱い得る。

シードアクセス窓は、リード長さよりも短い任意の塩基又はヌクレオチド長であるように構成できる。シードアクセス窓は、処理のためにリードのシードを識別するために、連続リードに沿って順方向又は逆方向に移動するように構成できる。非連続であるシードが利用される場合、シードアクセス窓は、それに応じて構成できる。例として、シードアクセス窓は、ヌクレオチド位置６及びヌクレオチド位置８に挿入されたワイルドカードで９個のヌクレオチドの非連続であるシードを識別するように構成できる。

コンピュータシステムは、シードアクセス窓によって識別されるシードを含むハッシュクエリを生成する（５１５）ことによって、プロセス５００の実行を継続することができる。いくつかの実装形態では、ハッシュクエリは、単に、「ＡＣＧＴＴＴＡＧＣ」などのリードのシード「ＧＴＴＴＡ」から構成できる。他の実装形態では、追加のデータ、メタデータなどを、サンプルのシードに追加して、シードを、ハッシュテーブルを探索するために使用できるフォーマットに変換し得る。

コンピュータシステムは、図４によって記載されるプロセス４００を実行することによって、プロセス５００の実行を継続して（５２０）、生成されたクエリのシードを１個以上の参照配列位置にマッピング及びアライニングすることができる。コンピュータシステムは、段階４１０で、段階５１５で生成されたハッシュクエリを実行することによって、プロセス４００の実行を開始する。次いで、コンピュータシステムは、プロセス４００が、場合によっては段階４２５又は４５５でシード一致セットに一致する参照配列位置を追加しながら、段階４２０，４２７，４６０，又は４７５で終了するまで、プロセス４００の反復実行を継続することができる。

プロセス４００が終了した後、コンピュータシステムは、段階５０５で取得されたリードが別のシードを含むかどうかを判定する（５２５）ことができる。いくつかの実装形態では、リードが別のシードを含むかどうかを判定することは、リード内の起こり得る全てのシードアクセス窓位置を考慮することを含む。これに代えて、リードが別のシードを含むかどうかを判定することは、偶数のシードアクセス窓位置のみ又は奇数のシードアクセス窓位置のみなどの、全ての起こり得るシードアクセス窓位置の所定のサブセットのみを考慮することを含むことができる。したがって、本開示は、プロセス５００を使用してリードの各シードが評価されることを必要としない。代わりに、いくつかの実装形態では、それらコンピュータシステムは、プロセス５００を使用して評価されるリードのシードの所定のサブセットの別のシードが存在するかどうかを段階５０５で判定することができる。

コンピュータシステムが、段階５２５でリードが別のシードを含むと判定した場合、コンピュータシステムは、シードアクセス窓を調整して他のシードを識別する（５３０）ことができ、コンピュータシステムは、段階５１５を実行して、調整されたシードアクセス窓によって識別される他のシードを使用してハッシュクエリを生成する（５１５）ことができる。シードアクセス窓を調整することは、例えば、シードアクセス窓を、段階５０５で取得されたリードに沿って順方向に、１個以上の塩基又はヌクレオチドの位置だけ移動させることを含み得る。コンピュータシステムは、段階５２５において、段階５０５で取得されたリードがプロセス４００を使用してマッピング及びアライニングされる別のシードを含まないと判定するまで、段階５１５，５２０，５２５及び段階５３０の処理ループの実行を継続することができる。

コンピュータシステムが、段階５０５で取得されたリードがマッピング及びアライニングされる別のシードを含まないと判定すると、コンピュータシステムは、最良間隔を使用して、リードについての現在のシード一致セットを補完するかどうかを判定する（５３５）ことができる。いくつかの例では、コンピュータシステムが、シード一致セットは補完されるべきではないと判定した場合、コンピュータシステムは、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在するかどうかを判定する（５５０）ことができる。このような例では、コンピューティングシステムが、マッピング及びアライニングの準備ができている別のリードが存在すると判定した場合、コンピュータシステムは、段階５０５で、マッピング及びアライニングの準備ができている他のリードを取得することによってプロセス５００の実行を継続することができる。次いで、コンピュータシステムは、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在しないと段階５５０で判定されるまで、反復的にプロセス５００を実行することができる。

これに代えて、他の例では、コンピュータシステムは、リードのための現在のシード一致セットが、最良間隔によって識別される１個以上の一致する参照配列位置を使用して補完されるべきであると判定することができる。コンピュータシステムは、（ｉ）クエリが最良間隔を作り出した伸長されたシーのシード長、（ｉｉ）１個以上の一致する参照配列位置のシード長、（ｉｉｉ）生成されたシード鎖の数、又はそれらの組み合わせに、１つ以上のヒューリスティック規則を適用することによって、最良間隔によって識別される１個以上の一致する参照配列位置を使用して現在のシード一致セットが補完されるべきであると判定することができる。いくつかの実装形態では、ヒューリスティック規則は、トリガされた場合にコンピュータシステムに最良間隔を処理させる、１つ以上の独立したトリガ条件を指定することができる。

例として、最良間隔のコンピュータシステムによる処理をトリガすることができる第１の独立したトリガ条件は、クエリが最良間隔を作り出した伸長されたシードのシード長が、ｉｎｔｖｌ－ｓｅｅｄ－ｌｅｎｇｔｈ（６０）以上の塩基又はヌクレオチド以上であったかどうかを判定することである。この実施例では、閾値ｉｎｔｖｌ－ｓｅｅｄ－ｌｅｎｇｔｈ（６０）は、最良間隔を作り出す伸長されたシードの長さを評価するために、コンピュータシステムによって使用できる所定の閾値である。この実施例では、コンピュータシステムが検査する最良間隔を作り出した伸長されたシードのシード長は、６０個のヌクレオチドをチェックである。ただし、本開示は、そのように限定される必要はない。代わりに、閾値ｉｎｔｖｌ－ｓｅｅｄ－ｌｅｎｇｔｈ（）は、任意のヌクレオチド長に設定できる。コンピュータシステムが、ｉｎｔｖｌ－ｓｅｅｄ－ｌｅｎｇｔｈ（）閾値は満たされていないと判定した場合、コンピュータシステムは、他のトリガ条件を評価して、最良間隔が処理されるかどうかを判定することができる。

別の例として、最良間隔のコンピュータシステムによる処理をトリガすることができる第２の独立したトリガ条件は、クエリが最良間隔を作り出した伸長されたシードのシード長が、少なくともｉｎｔｖｌ－ｓｅｅｄ－ｌｏｎｇｅｒ（８）の塩基又はヌクレオチドによって処理された最長の一致する参照配列位置よりも大きかったかどうかを判定することである。この実施例では、閾値ｉｎｔｖｌ－ｓｅｅｄ－ｌｏｎｇｅｒ（８）は、（ｉ）クエリが最良間隔を作り出した伸長されたシードのシード長と、（ｉｉ）最長の一致する参照配列位置と、の比較を評価するために、コンピュータシステムによって使用できる所定の閾値である。この実施例では、コンピュータシステムが、クエリが最良間隔を作り出した伸長されたシードのシード長は、任意の一致したシードよりも大きい８個以上の塩基又はヌクレオチであると判定した場合、最良間隔の処理が、トリガされる。

別の実施例として、最良間隔のコンピュータシステムによる処理をトリガすることができる第３の独立したトリガ条件は、シード鎖の数が、ｉｎｔｖｌ－ｍｉｎ－ｃｈａｉｎｓ（８）よりも小さいかどうかを判定することである。シード鎖は、同様に配置された参照配列位置の一致の群を含むことができる。この実施例では、閾値ｉｎｔｖｌ－ｍｉｎ－ｃｈａｉｎｓ（８）は、生成されたシード鎖の数を評価するために使用できる所定の閾値である。この実施例では、８個より小さいシード鎖が生成された場合には、最良間隔の処理が、トリガされる。

シード一致セットを補完するための最良間隔の処理をトリガするための３つの独立したトリガ条件の例が記載されているが、本開示は、そのように限定される必要はない。代わりに、特定のコンピュータシステムが必要とし得るような最良間隔の処理をトリガするように、他のトリガ条件を構築することができる。
例えば最良間隔を処理するためのトリガ条件の１つ以上の閾値が満たされているため、コンピュータシステムが段階５３５でシード一致を補完すると判定した場合には、コンピュータシステムは、最良間隔を使用して、段階５３５で現在のシード一致セットを補完すると判定することができる。最良間隔を使用して現在のシード一致セットを補完することは、コンピュータシステムが最良間隔を処理する（５４０）ことを含むことができる。最良間隔を処理することは、最良間隔によって識別され、かつシード伸長テーブルに記憶された１個以上の一致する参照配列位置を識別するために、１つ以上のヒューリスティック規則を最良間隔に適用することを含むことができる。

例として、コンピュータシステムは、最良間隔によって識別される参照配列位置の数が、ｉｎｔｖｌ－ｍａｘ－ｈｉｔｓ（６４）以下である場合、最良間隔によって識別される１個以上の参照配列位置の全てを処理すると判定することができる。この実施例では、コンピュータシステムが、最良間隔は６４個以下の一致する参照配列位置を識別したと判定した場合には、コンピュータシステムは、最良間隔を使用したシード伸長テーブルから、最良間隔によって識別される一致する参照配列位置の全てを取得することができる。これに代えて、コンピュータシステムが、最良間隔は６４個よりも多い一致する参照配列位置を識別すると判定した場合には、コンピュータシステムは、最良間隔によって識別される一致する参照配列位置のセットから、ｉｎｔｖｌ－ｓａｍｐｌｅ－ｈｉｔｓ（３２）の一致する参照配列をランダムに取得することができる。

３２個の一致する参照配列位置の閾値量をランダムに取得することは、最良間隔を使用したシード伸長テーブルから、３２個の一致する参照配列位置の閾値量をランダムに、又は決定論的な擬似ランダム選択によって取得することを含むことができる。最良間隔は、（ｉ）シード伸長テーブルの１個以上の停止及び開始位置、（ｉｉ）１個以上の開始位置及び１つ以上のオフセット、又はそれらの組み合わせを識別するデータを含むことができる。６４個の一致する参照位置及び３２個のランダムにサンプリングされたヒットなどの閾値の例が記載されているが、本開示は、そのように限定される必要はない。代わりに、他の数値を有する他の閾値を使用して、本開示の利点を達成することができる。

最良間隔を使用して取得された一致する参照配列位置を使用して、現在のシード一致セット５４５を補完することができる。最良間隔を使用したシード一致セットのこのような補完は、シード一致セットに記憶された一致する参照配列位置をもたらさない可能性があるか、又はシード一致セットに記憶された一致する参照配列位置をごく少数しかもたらさない可能性がある、マッピングされないリード問題又は高確度の誤マッピング問題などの問題を解決することができる。一致する参照配列位置は、最良間隔（５４０）によって識別されるシード伸長テーブルの一部分から取得されていてもよいか、又はこの一部分から取得できる。

シード一致セットが補充されると、コンピュータシステムは、プロセス５００を使用したマッピング及びアライニングの準備ができている別のリードが存在するかどうかを判定することができる。マッピング及びアライニングの準備ができている別のリードが存在する場合、コンピュータシステムは、他のリードを取得することによって、プロセス５００の実行を継続する。これに代えて、マッピング及びアライニングの準備ができている別のリードが存在しない場合、プロセス５００は、５５５で終了することができる。

プロセス５００を参照して記載される実施例では、最良間隔は、最良間隔又は最良間隔の一部分を使用してシード一致セットを補完することができるかどうかを判定するために評価される。ただし、最良間隔ストレージに単一の最良間隔のみが記憶される必要はない。いくつかの実装形態では、コンピュータシステムは、最良間隔ストレージへの２個以上の最良間隔の記憶を容易にすることができる。例えば、いくつかの実装形態では、最大２個の最良間隔が、追跡されてもよい。いくつかの実装形態では、最大Ｎ個の最良間隔が、追跡されてもよい。このような実装形態では、Ｎ＞１個の最良間隔が記憶される場合、いずれの間隔が保持されているかを判定するための基準は、Ｎ個の最良間隔がリード内で互いに重なり合わない伸長されたシードと関連付けられることを必要とするような、間隔候補、間隔候補の関連付けられた伸長されたシード、又はその両方同士又は間の関係の評価を伴うことができる。いくつかの実装形態では、コンピュータシステムは、複数の異なる最良間隔のうちから一致する参照配列位置を選択することまでも可能である。複数の異なる最良間隔のうちからの一致する参照配列位置のこのような選択は、ランダムに、疑似ランダムに、又は１つ以上のヒューリスティックを適用することによって実行できる。
システム構成要素

図６は、ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長に関連した本明細書に記載されるシステムを実装するために使用できるシステム構成要素の図である。

コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス６５０は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことが意図されている。これに加えて、コンピューティングデバイス６００又は６５０は、ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）フラッシュドライブを含むことができる。ＵＳＢフラッシュドライブは、オペレーティングシステム及び他のアプリケーションを記憶することができる。ＵＳＢフラッシュドライブは、別のコンピューティングデバイスのＵＳＢポートに挿入できる無線送信機又はＵＳＢコネクタなどの入力／出力構成要素を含むことができる。本明細書に示される構成要素、この構成要素の接続及び関係、並びにこの構成要素の機能は、単なる例であることを意味し、本文書に記載及び／又は特許請求される発明の実装形態を限定することを意味するものではない。

コンピューティングデバイス６００は、プロセッサ６０２，メモリ６０４、記憶デバイス６０８、メモリ６０４及び高速拡張ポート６１０に接続する高速インターフェース６０８、並びに低速バス６１４及び記憶デバイス６０８に接続する低速インターフェース６１２を含む。構成要素６０２，６０４，６０８，６０８，６１０，及び６１２の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、又は適宜他の手法で実装できる。プロセッサ６０２は、メモリ６０４又は記憶デバイス６０８上に記憶された命令を含むコンピューティングデバイス６００内での実行のための命令を処理して、高速インターフェース６０８に結合されたディスプレイ６１６などの外部入力／出力デバイス上のＧＵＩに関するグラフィカル情報を表示することができる。他の実装形態では、複数のプロセッサ及び／又は複数のバスを、適宜、複数のメモリ及び複数種類のメモリと共に使用できる。また、複数のコンピューティングデバイス６００を接続して、各デバイスが、例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして、必要な動作の部分を提供するようにすることができる。

メモリ６０４は、コンピューティングデバイス６００内に情報を記憶する。一実装形態では、メモリ６０４は、揮発性メモリユニット又は複数の揮発性メモリユニットである。別の実装形態では、メモリ６０４は、不揮発性メモリユニット又は複数の不揮発性メモリユニットである。メモリ６０４を、磁気ディスク又は光ディスクなどの別の形態のコンピュータ可読媒体とすることもできる。

記憶デバイス６０８は、コンピューティングデバイス６００のための大規模ストレージを提供することができる。一実装形態では、記憶デバイス６０８は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の類似のソリッドステートメモリデバイス、又はストレージエリアネットワーク若しくは他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であり得るか、又はそれを内包することができる。コンピュータプログラム製品は、情報キャリア内に、有形に実施できる。コンピュータプログラム製品はまた、実行されると、上述したものなどの１つ以上の方法を実行する命令を内包することができる。情報キャリアは、メモリ６０４、記憶デバイス６０８、又はプロセッサ６０２上のメモリなどのコンピュータ可読媒体又はマシン可読媒体である。

高速コントローラ６０８は、コンピューティングデバイス６００の帯域幅集約動作を管理する一方、低速コントローラ６１２は、低帯域幅集約動作を管理する。このような機能の割り当ては、一実施例に過ぎない。一実装形態では、高速コントローラ６０８は、例えば、グラフィックプロセッサ又はアクセラレータを介してメモリ６０４、ディスプレイ６１６に、及び様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート６１０に結合されている。この実装形態では、低速コントローラ６１２は、記憶デバイス６０８及び低速拡張ポート６１４に結合されている。様々な通信ポート、例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、Ｅｔｈｅｒｎｅｔ、無線Ｅｔｈｅｒｎｅｔを含むことができる低速拡張ポートは、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、マイクロフォン／スピーカペア、スキャナ、又はスイッチ若しくはルータなどのネットワーキングデバイスなどの１つ以上の入力／出力デバイスに結合できる。コンピューティングデバイス６００は、図に示されるように、いくつかの異なる形態で実装できる。例えば、コンピューティングデバイス６００は、標準サーバ６２０として、又はこのようなサーバのグループ内で複数回、実装できる。コンピューティングデバイス６００はまた、ラックサーバシステム６２４の一部として実装できる。加えて、コンピューティングデバイス６００は、ラップトップコンピュータ６２２などのパーソナルコンピュータに実装できる。これに代えて、コンピューティングデバイス６００からの構成要素を、デバイス６５０などのモバイルデバイス（図示せず）内の他の構成要素と組み合わせることができる。このようなデバイスの各々は、コンピューティングデバイス６００，６５０のうちの１つ以上を内包することができ、システム全体を、互いに通信する複数のコンピューティングデバイス６００，６５０から構成することができる。

コンピューティングデバイス６００は、図に示されるように、いくつかの異なる形態で実装できる。例えば、コンピューティングデバイス６００は、標準サーバ６２０として、又はこのようなサーバのグループ内で複数回、実装することができる。コンピューティングデバイス６００はまた、ラックサーバシステム６２４の一部として実装できる。加えて、コンピューティングデバイス６００は、ラップトップコンピュータ６２２などのパーソナルコンピュータに実装できる。これに代えて、コンピューティングデバイス６００からの構成要素を、デバイス６５０などのモバイルデバイス（図示せず）内の他の構成要素と組み合わせることができる。このようなデバイスの各々は、コンピューティングデバイス６００，６５０のうちの１つ以上を内包することができ、システム全体を、互いに通信する複数のコンピューティングデバイス６００，６５０から構成することができる。

コンピューティングデバイス６５０は、構成要素の中でもとりわけ、プロセッサ６５２，メモリ６６４と、ディスプレイ６５４、通信インターフェース６６６、及び送受信機６６８などの入出力デバイスを含む。デバイス６５０はまた、追加のストレージを提供するために、マイクロドライブ又は他のデバイスなどの記憶デバイスを備えることができる。構成要素６５０，６５２，６６４，６５４，６６６，及び６６８の各々は、様々なバスを使用して相互接続されており、構成要素はのうちのいくつかは、共通のマザーボード上に、又は適宜他の手法で実装できる。

プロセッサ６５２は、メモリ６６４に記憶された命令を含む、コンピューティングデバイス６５０内の命令を実行することができる。プロセッサは、別個及び複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装できる。これに加えて、プロセッサは、いくつかのアーキテクチャのうちのいずれかを使用して実装できる。例えば、プロセッサ６１０を、ＣＩＳＣ（複合命令セットコンピュータ（Complex Instruction Set Computers））プロセッサ、ＲＩＳＣ（縮小命令セットコンピュータ（Reduced Instruction Set Computer））プロセッサ、又はＭＩＳＣ（最小命令セットコンピュータ（Minimal Instruction Set Computer））プロセッサとすることができる。プロセッサは、例えば、ユーザインタフェースの制御、デバイス６５０によって実行されるアプリケーション、及びデバイス６５０による無線通信など、デバイス６５０の他の構成要素の協調を提供することができる。

プロセッサ６５２は、制御インターフェース６５８とディスプレイ６５４に結合されたディスプレイインターフェース６５６とを介してユーザと通信することができる。ディスプレイ６５４を、例えば、ＴＦＴ（薄膜トランジスタ液晶ディスプレイ（Thin-Film-Transistor Liquid Crystal Display））ディスプレイ、ＯＬＥＤ（有機発光ダイオード（Organic Light Emitting Diode））ディスプレイ、又は他の適切なディスプレイ技術とすることができる。ディスプレイインターフェース６５６は、ディスプレイ６５４を駆動してグラフィカル情報及び他の情報をユーザに提示するための適切な回路を含むことができる。制御インターフェース６５８は、ユーザからコマンドを受信し、このコマンドをプロセッサ６５２へのサブミット用に変換することができる。加えて、デバイス６５０と他のデバイスとの近接領域通信を可能にするために、プロセッサ６５２と通信する外部インターフェース６６２を提供することができる。外部インターフェース６６２は、例えば、いくつかの実装形態では有線通信を、又は他の実装形態では無線通信を提供することができ、複数のインターフェースを使用することもできる。

メモリ６６４は、コンピューティングデバイス６５０内に情報を記憶する。メモリ６６４は、コンピュータ可読媒体若しくは媒体、揮発性メモリユニット若しくはユニット、又は不揮発性メモリユニット若しくはユニットのうちの１つ以上として実装することができる。また、例えばＳＩＭＭ（シングルインラインメモリモジュール（Single In Line Memory Module））カードインターフェースを含むことができる、拡張インターフェース６７２を介して、デバイス６５０に拡張メモリ６７４を提供及び接続することができる。このような拡張メモリ６７４は、デバイス６５０のための増設記憶空間を提供することができるか、又は、デバイス６５０のためのアプリケーション又は他の情報を記憶することもできる。具体的には、拡張メモリ６７４は、上述したプロセスを実行又は補完する命令を含むことができ、セキュアな情報を含むこともできる。したがって、例えば、拡張メモリ６７４は、デバイス６５０のためのセキュリティモジュールとして提供でき、デバイス６５０のセキュアな使用を可能にする命令を用いてプログラムできる。加えて、セキュアなアプリケーションは、ＳＩＭＭカードを介して、ハッキング不能な手法でＳＩＭＭカード上に識別情報を配置するなど、追加情報と共に提供できる。

メモリは、例えば、後述するように、フラッシュメモリ及び／又は不揮発性ランダムアクセスメモリ（Non-volatile random-access memory、ＮＶＲＡＭ）メモリを含むことができる。一実装形態では、コンピュータプログラム製品は、情報キャリア内で有形に実施される。コンピュータプログラム製品は、実行されると、上述したものなどの１つ以上の方法を実行する命令を内包する。情報キャリアは、例えば送受信機６６８又は外部インターフェース６６２を介して受信できるメモリ６６４，拡張メモリ６７４又はプロセッサ６５２上のメモリなどの、コンピュータ可読媒体又はマシン可読媒体である。

デバイス６５０は、必要に応じてデジタル信号処理回路を含むことができる通信インターフェース６６６を介して無線通信することができる。通信インターフェース６６６は、とりわけＧＳＭ音声通話、ＳＭＳ、ＥＭＳ、又はＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、又はＧＰＲＳなどの様々なモード又はプロトコル下での通信を提供することができる。このような通信は、例えば、高周波送受信機６６８を介して行われることが可能である。加えて、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、又は他のこのような送受信機（図示せず）を使用するなど、短距離通信が行われることが可能である。加えて、ＧＰＳ（全地球測位システム（Global Positioning System））受信機モジュール６７０が、デバイス６５０に追加のナビゲーション関連及び位置関連の無線データを提供することができ、デバイス６５０は、デバイス６５０上で作動するアプリケーションによって適宜使用できる。

デバイス６５０はまた、オーディオコーデック６６０を使用して可聴的に通信することができ、オーディオコーデック６６０は、ユーザから発話情報を受信し、この発話情報を使用可能なデジタル情報に変換することができる。オーディオコーデック６６０は同じく、例えばデバイス６５０のハンドセット内の、スピーカを介してなど、ユーザのための可聴音を生成することができる。このような音は、音声電話通話からの音を含むことができ、録音された音、例えば、音声メッセージ、音楽ファイルなどを含むことができ、また、デバイス６５０上で動作するアプリケーションによって生成される音を含むこともできる。

コンピューティングデバイス６５０は、図に示されるように、いくつかの異なる形態で実装できる。例えば、コンピューティングデバイス６５０は、携帯電話６８０として実装できる。また、コンピューティングデバイス６５０を、スマートフォン６８２、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実装することもできる。

本明細書に記載されるシステム及び方法の様々な実装形態は、デジタル電子回路、集積回路、専用に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこのような実装形態の組み合わせで実現できる。これらの様々な実装形態は、専用又は汎用であり、記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、かつこれらにデータ及び命令を送信するように結合された少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能及び／又は解釈可能である１つ以上のコンピュータプログラムでの実装形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている）は、プログラム可能なプロセッサのためのマシン命令を含み、高水準手続き型及び／又はオブジェクト指向プログラミング言語で、及び／又はアセンブリ／マシン言語で実装できる。本明細書で使用されるとき、用語「マシン可読媒体」「コンピュータ可読媒体」は、任意のコンピュータプログラム製品、装置、及び／又はデバイス、例えば、磁気ディスク、光ディスク、メモリ、マシン命令及び／又はデータをプログラム可能なプロセッサに提供するために使用されるプログラマブルロジックデバイス（Programmable Logic Device、ＰＬＤ）を指し、マシン可読信号としてマシン命令を受信するマシン可読媒体を含む。用語「マシン可読信号」は、プログラム可能なプロセッサにマシン命令及び／又はデータを提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されるシステム及び技術は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管（cathode ray tube））又はＬＣＤ（液晶ディスプレイ（liquid crystal display））モニタ、並びにユーザがコンピュータに入力を提供することができるポインティング装置、例えばマウス又はトラックボールを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションをも提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信できる。

本明細書に記載されるシステム及び技術は、例えばデータサーバとしての、バックエンド構成要素を含むコンピューティングシステムで、又はミドルウェアコンポーネント、例えば、アプリケーションサーバを含むコンピューティングシステムで、又はフロントエンド構成要素、例えばユーザが介して本明細書に記載されるシステム及び技術の実装形態とインタラクトすることができるグラフィカルユーザインターフェース又はウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで、又はこのようなバックエンド、ミドルウェア、又はフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、及びインターネットが挙げられる。

コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは一般に、互いにリモートであり、通常、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。
実施例

本開示は、特許請求の範囲を限定しない以下の実施例にさらに記載されている。
実施例１：柔軟性のあるシード伸長を使用するシステムと柔軟性のあるシード伸長を使用しないシステムとの間でのマッピングされないリードの割合の比較

この実施例では、特定のサンプルを配列するために、ＨｉＳｅｑ（登録商標）２５００シーケンサ、ＨｉＳｅｑ（登録商標）Ｘシーケンサ、及びＮｏｖａＳｅｑ（登録商標）シーケンサを含む異なる核酸シーケンサを使用した。次に、ＤＲＡＧＥＮ（商標）プラットフォームを使用して、本明細書に記載されるような柔軟性のあるシード伸長を用いて、及び柔軟性のあるシード伸長を用いずに、各シーケンサによって生成されたリードをマッピングした。マッピングされると、コンピュータシステムは、各シーケンサに対する各マッピング動作から結果として得られたマッピングされないリードの割合を判定した。

ＤＲＡＧＥＮ（商標）プラットフォームは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）のハードウェア回路機構で実装されたマッピング及びアライニングユニットである。ＤＲＡＧＥＮ（商標）ｖ７プラットフォームは、本明細書に記載されるような柔軟性のあるシード伸長を現在利用しないのに対して、ＤＲＡＧＥＮ（商標）ｖ８プラットフォームは、柔軟性のあるシード伸長を利用する。本明細書で使用されるＤＲＡＧＥＮ（商標）プラットフォームは、ＦＰＧＡで実装されていたが、一般に、ＤＲＡＧＥＮ（商標）プラットフォームは、特定用途向け集積回路（ＡＳＩＣ）などの他の集積回路ででも実装できる。

特に、ＨｉＳｅｑ（登録商標）２５００シーケンサを使用して、「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑ２５００」サンプルを配列決定し、ＨｉＳｅｑ（登録商標）Ｘシーケンサを使用して、「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑＸ」サンプルをシーケンサし、ＮｏｖａＳｅｑ（登録商標）シーケンサを使用して、「ＤＮＡ＿Ｎｅｘｕｓ＿ＮｏｖａＳｅｑ」サンプル、「ＮｏｖａＳｅｑ＿ＮＡ１２８７８＿ｒｅｐ１サンプル」、「ＮｏｖａＳｅｑ＿ＴｒｕＳｅｑ－ｎａｎｏ－５５０サンプル」、「ＡＷＳ＿ＨＧ００５＿４０ｘ」サンプルを配列決定した。「ＡＷＳ＿ＨＧ００５＿４０Ｘ」は、被験体ＨＧ００５に由来するものであった。他のサンプルの全ては、被験体ＨＧ００１に由来するものであった。

図７は、柔軟性のあるシード伸長法を使用しないシステムと比較した、本明細書に記載されるような柔軟性のあるシード伸長法を使用するシステムにおけるマッピングされないリードの割合の形態をなす試験結果を表すデータを表示する棒グラフ７００の説明図である。棒グラフ７００は、Ｉｌｌｕｍｉｎａ、Ｉｎｃ．の異なる配列決定デバイスによって生成されたゲノムリードに対して実行されるマッピング動作の結果を比較する試験結果７１０，７２０，７３０，７４０，７５０、及び７６０のグラフ表示である。

第１の実施例では、試験結果７１０は、ＨｉＳｅｑ（登録商標）２５００シーケンサが「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑ２５００」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７１０ｂで生じるマッピングされないリードの割合が、ＨｉＳｅｑ（登録商標）２５００シーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑ２５００」サンプルを配列決定するときに７１０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

第２の実施例では、試験結果７２０は、ＮｏｖａＳｅｑ（登録商標）シーケンサが「ＤＮＡ＿Ｎｅｘｕｓ＿ＮｏｖａＳｅｑ」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７２０ｂで生じるマッピングされないリードの割合が、ＮｏｖａＳｅｑシーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＤＮＡ＿Ｎｅｘｕｓ＿ＮｏｖａＳｅｑ」サンプルを配列決定するときに７２０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

第３の実施例では、試験結果７３０は、ＨｉＳｅｑ（登録商標）Ｘシーケンサが「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑＸ」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７３０ｂで生じるマッピングされないリードの割合が、ＨｉＳｅｑ（登録商標）Ｘシーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＤＮＡ＿Ｎｅｘｕｓ＿ｈｉｓｅｑＸ」サンプルを配列決定するときに７３０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

第４の実施例では、試験結果７４０は、ＮｏｖａＳｅｑ（登録商標）シーケンサが「ＮｏｖａＳｅｑ＿ＮＡ１２８７８＿ｒｅｐ１」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７４０ｂで生じるマッピングされないリードの割合が、ＮｏｖａＳｅｑ（登録商標）シーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＮｏｖａＳｅｑ＿ＮＡ１２８７８＿ｒｅｐ１」サンプルを配列決定するときに７４０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

第５の実施例では、試験結果７５０は、ＮｏｖａＳｅｑ（登録商標）シーケンサが「ＮｏｖａＳｅｑ＿ＴｒｕＳｅｑ－ｎａｎｏ－５５０」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７５０ｂで生じるマッピングされないリードの割合が、ＮｏｖａＳｅｑ（登録商標）シーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＮｏｖａＳｅｑ＿ＴｒｕＳｅｑ－ｎａｎｏ－５５０」サンプルを配列決定するときに７５０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

第６の実施例では、試験結果７６０は、ＮｏｖａＳｅｑ（登録商標）シーケンサが「ＡＷＳ＿ＨＧ００５＿４０Ｘ」サンプルを配列決定し、かつマッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用するときに７６０ｂで生じるマッピングされないリードの割合が、ＮｏｖａＳｅｑ（登録商標）シーケンサが、マッピング中に本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を利用せずに「ＡＷＳ＿ＨＧ００５＿４０Ｘ」サンプルを配列決定するときに７６０ａで生じる、マッピングされないリードの割合よりも著しく小さいことを示す。

したがって、本明細書に記載されるハッシュテーブルを使用する柔軟性のあるシード伸長の実装形態は、本明細書に記載されるハッシュテーブルを生成又は使用しない従来の方法と比較したときに、マッピングされないリードを低減する点で、著しい性能改善を達成する。
実施例２：柔軟性のあるシード伸長を使用するシステムと柔軟性のあるシード伸長を使用しないシステムとの間でのリードマッピング精度の比較

この実施例２では、ＤＲＡＧＥＮ（商標）プラットフォームを使用して、核酸シーケンサによって生成されたリードを参照配列にマッピングした。各ＤＲＡＧＥＮ（商標）プラットフォームは、同じリードセットを同じ参照シーケンサにマッピングした。マッピングが完了すると、コンピュータシステムは、マッピング誤り率の関数として各マッピング動作のリードマッピング精度を判定した。

ＤＲＡＧＥＮ（商標）プラットフォームは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）のハードウェア回路機構で実装されたマッピング及びアライニングユニットである。ＤＲＡＧＥＮ（商標）ｖ７プラットフォームは、本明細書に記載されるような柔軟性のあるシード伸長を現在利用しないのに対して、ＤＲＡＧＥＮ（商標）ｖ８プラットフォーム及びＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔプラットフォームは、柔軟性のあるシード伸長を利用する。

本明細書で使用されるＤＲＡＧＥＮ（商標）プラットフォームは、ＦＰＧＡで実装されていたが、一般に、ＤＲＡＧＥＮ（商標）プラットフォームは、特定用途向け集積回路（ＡＳＩＣ）などの他の集積回路ででも実装できる。

ＤＲＡＧＥＮ（商標）ｖ８プラットフォームとＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔプラットフォームとの間の違いは、ヒューリスティック及び他のパラメータの設定である。ＤＲＡＧＥＮ（商標）ｖ８プラットフォームは、以下のヒューリスティック、すなわち、ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ＝３２、ｉｎｔｖｌ－ｍａｘ－ｈｉｔｓ＝１６、及びｉｎｔｖｌ－ｓａｍｐｌｅ－ｈｉｔｓ＝１６を使用する。これらのヒューリスティックの各々は、本明細書に記載されている。加えて、ＤＲＡＧＥＮ（商標）ｖ８プラットフォームは、ｍａｘ－ｈｉｆｒｅｑ－ｈｉｔｓ＝１６、ｒｅｓｃｕｅ－ｈｉｆｒｅｑ＝０、ｓ及びｓｗ－ｅｘｔｒａ－ｉｎｔｖｌ＝１の他のパラメータを使用する。ｍａｘ－ｈｉｆｒｅｑ－ｈｉｔｓパラメータは、失敗したシード伸長の前に到達した一致間隔から取られたランダムなサンプル一致の最大数を示す（例えば、限度に達するまで、失敗した伸長当たり１つのサンプル）。ｒｅｓｃｕｅ－ｈｉｆｒｅｑパラメータは、一致間隔からのランダムなサンプルのみによって見出される一致のために高価なレスキュースキャン動作が利用されるかどうかを判定する。レスキュースキャンは、リードアラインメント候補付近の起こり得る嵌合リードアラインメントを探索するための方法である。ｓｗ－ｅｘｔｒａ－ｉｎｔｖｌパラメータは、最良（「エクストラ」）間隔にアクセスすることによって見出されるか、又は一致間隔をランダムにサンプリングすることによって、一致のための高価なＳｍｉｔｈ－Ｗａｔｅｒｍａｎアラインメントを利用するためのポリシーを判定する。Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎは一般に、ギャップなしアラインメントがクリップされていない場合には使用されないが、ギャップレス整列がクリップされている場合は、この設定を含むヒューリスティックに応じて利用され得る。「１」の設定は、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎが、全体がアクセスされるがランダムサンプリングによってはアクセスされない、エクストラ／最良一致間隔からの候補に使用され得ることを意味する。「２」の設定は、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎが、一致間隔のランダムなサンプリングからの候補にも使用され得ることを意味する。「０」の設定であれば、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎが、エクストラ／最良間隔の処理からの、又は一致間隔のランダムサンプリングからの候補のために適用されないことを意味する。

一方、ＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔプラットフォームは、以下のヒューリスティック、すなわち、ｉｎｔｖｌ－ｔａｒｇｅｔ－ｈｉｔｓ＝３２、ｉｎｔｖｌ－ｍａｘ－ｈｉｔｓ＝６４、及びｉｎｔｖｌ－ｓａｍｐｌｅ－ｈｉｔｓ＝４８を使用する。加えて、ＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔプラットフォームは、ｍａｘ－ｈｉｆｒｅｑ－ｈｉｔｓ＝３２、ｒｅｓｃｕｅ－ｈｉｆｒｅｑ＝０、及びｓｗ－ｅｘｔｒａ－ｉｎｔｖｌ＝２の他のパラメータを使用する。したがって、ＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔプラットフォームは、ＤＲＡＧＥＮ（商標）ｖ８プラットフォームよりも充実したヒューリスティックセットを有する。

図８は、柔軟性のあるシード伸長法を使用しないシステムと比較した、本明細書に開示されるような柔軟性のあるシード伸長法を使用するシステムにおけるリードマッピング精度の形態をなす試験結果を表すデータを表示する線グラフ８００の説明図である。特に、グラフ８００は、受信機動作特性（「ＲＯＣ（receiver operating characteristic）」）曲線（又は線）の形態をなす精度曲線を使用して、確度メトリックを使用してデータを階層化したときの誤検出と検出漏れとの間のトレードオフを示す。図８の説明図では、グラフ８００の上壁及び左壁に近い曲線（又は線）は、より良好なリードマッピング精度を意味する。

マッピング中に本明細書の１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を使用しないＤＲＡＧＥＮ（商標）ｖ７プラットフォームのリードマッピング精度を表す曲線８１０が描示されている。マッピング中に本明細書の１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を使用するＤＲＡＧＥＮ（商標）ｖ８プラットフォームのリードマッピング精度を表す曲線８２０が描示されている。曲線８１０と曲線８２０との比較により、曲線８２０が曲線８１０よりも上壁及び左壁に近いことを明らかである。したがって、リードマッピング精度の改善は、本明細書における１つ以上の実装形態に記載されるような柔軟性のあるシード伸長を、単に、いくつかの容量で実装することによって達成されている。

図８は、「ｈｉ－ｅｆｆｏｒｔ」のＤＲＡＧＥＮ（商標）実装形態ｖ８を表す曲線８３０をさらに描示している。ＤＲＡＧＥＮ（商標）ｖ８実装形態と同じく、ＤＲＡＧＥＮ（商標）ｖ８ｈｉ－ｅｆｆｏｒｔ実装形態もまた、マッピング中に、本明細書に記載されるような柔軟性のあるシード伸長法を利用する。ただし、上述したように、ＤＲＡＧＥＮ（商標）ｖ８「ｈｉ－ｅｆｆｏｒｔ」実装形態によって利用されるヒューリスティックスは、性能が８２０曲線によって表されるＤＲＡＧＥＮ（商標）ｖ８実装形態を利用するために使用されるヒューリスティックよりも充実している。ＤＲＡＧＥＮ（商標）の「ｈｉ－ｅｆｆｏｒｔ」ｖ８バージョンには、ＤＲＡＧＥＮ（商標）ｖ８実装形態（例えば、ｓｗ－ｅｘｔｒａ－ｉｎｔｖｌ＝１）に対して下流でより多くのＳｍｉｔｈ－Ｗａｔｅｒｍａｎアラインメントワークを実行する意欲を増大させるパラメータ（例えば、ｓｗ－ｅｘｔｒａ－ｉｎｔｖｌ＝２）が割り当てられる。図８に示されるように、曲線８３０は、曲線８１０及び８２０の両方よりも上壁及び左壁に近いことにより、ＤＲＡＧＥＮ（商標）ｖ８ｈ－ｅｆｆｏｒｔ実装形態によるリードマッピング精度で著しい性能利得を呈している。

図８は、また、ＢＷＡ－ＭＥＭソフトウェアマッピングツールによって達成されるリードマッピング精度を表す曲線８４０を描示している。ＢＷＡ－ＭＥＭソフトウェアマッピングツールは、ＢＷＡ－ＭＥＭソフトウェアマッピングツールのインデックスとして参照ゲノムのＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（Burrows-Wheeler Transform、ＢＷＴ）を使用する。参照ゲノムを表すこの方法は、任意の長さの一致に対応する一致の完全なセットを取り出す能力などの、柔軟性のあるシード伸長によって提供されるものと同様の利益を本来的に提供することができる。曲線８３０及び８４０によって描示されるように、ＤＲＡＧＥＮ（商標）ｖ８「ｈｉ－ｅｆｆｏｒｔ」実装形態は、ソフトウェアベースのＢＷＡソフトウェアマッピングツールと同じリードマッピング精度を達成することができる。したがって、ＤＲＡＧＥＮ（商標）ｖ８「ｈｉ－ｅｆｆｏｒｔ」は、ＤＲＡＧＥＮ（商標）ｖ８「ｈｉ－ｅｆｆｏｒｔ」が、例えばシードをマップするためのより少ないメモリアクセスを含むＤＲＡＧＥＮ（商標）プラットフォームの他の利益も利用するため、ソフトウェアベースのＢＷＡマッピングツールと同等のリードマッピング精度レベルを達成することが可能であることが重要である。ただし、本明細書に記載されるハードウェアベースの柔軟性のあるシード伸長の実装形態の前に、ＤＲＡＧＥＮ（商標）プラットフォームは、ＢＷＡソフトウェアマッピングツールによって達成されるものと同じレベルのリードマッピング精度を達成することができた。

したがって、本明細書に記載されるハッシュテーブルを使用する柔軟性のあるシード伸長の実装形態は、本明細書に記載されるハッシュテーブルを生成又は使用しない従来の方法と比較したときに、リードマッピング精度の点で、著しい性能改善を達成する。
他の実施形態

いくつかの実施形態が記載された。それにもかかわらず、本発明の趣旨及び範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。加えて、図に描示される論理フローは、所望の結果を達成するために、示される特定の順序、又は順次的な順序を必要としない。加えて、記載されたフローから他の工程を提供することができ、又は工程を排除することができ、記載されたシステムに他の構成要素を追加するか、又はそこから除去することができる。したがって、他の実施形態は、以下の特許請求の範囲内にある。

１００システム
１１０コンピュータ
１１２メモリ
１１４参照配列
１２０シード伸長ツリー
１２１ノード
１２２ノード
１２３ノード
１２４ノード
１２５ノード
１２６ノード
１３０メモリ
１３２シード伸長テーブル
１４０ハッシュテーブル
１４２インデックスキー
１４３ハッシュ関数
１４４ハッシュ位置
１４６ハッシュテーブルインストールパッケージ
１５０レコード
１５２レコード
１５３レコード
１５５参照配列位置
１６０デバイス
１６２回路
１７０マッピング及びアライニングユニット
１８０メモリ
３００ランタイムシステム
３０５リード
３１０ハッシュクエリ
３４０最良間隔ストレージ
３５０最良間隔ストレージ
６００コンピューティングデバイス
６０２プロセッサ
６０４メモリ
６１０高速拡張ポート
６１２低速コントローラ
６１４低速拡張ポート
６１６ディスプレイ
６２０標準サーバ
６２２ラップトップコンピュータ
６２４ラックサーバシステム
６５０デバイス
６５２プロセッサ
６５４ディスプレイ
６５６ディスプレイインターフェース
６５８制御インターフェース
６６０オーディオコーデック
６６２外部インターフェース
６６４メモリ
６６６通信インターフェース
６６８送受信機
６７０受信機モジュール
６７２拡張インターフェース
６７４拡張メモリ
６８０携帯電話
６８２スマートフォン

Claims

参照配列へのサンプルリードのマッピングのためのハッシュテーブルを使用するための方法であって、
マッピング及びアライニングユニットによって、ハッシュテーブルのクエリを実行することであって、前記クエリが、第１のシードを含み、前記第１のシードが、前記サンプルリードの特定のリードから取得されたヌクレオチドのサブセットを含む、実行することと、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード及び（ｉｉ）間隔レコードを含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記伸長レコードを使用して前記第１のシードの伸長である第１の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第１の伸長されたシードを含む後続のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記ハッシュテーブルの前記後続のクエリを実行することと、を含む、方法。
前記方法が、
前記伸長テーブルがアクセスされると判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記伸長テーブルにアクセスして、前記間隔レコードによって参照される前記伸長テーブル内の前記１個以上の一致する参照配列位置を取得することと、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項１に記載の方法。
前記方法が、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項１又は２に記載の方法。
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することが、
前記マッピング及びアライニングユニットによって、前記特定のリードに対する最良間隔候補としての間隔レコードを記述する以前の情報が存在しないと判定することと、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報として前記メモリデバイスに記憶することと、を含む、請求項１～３のいずれか一項に記載の方法。
前記方法が、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記後続の実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）第２の伸長レコード（ｉｉ）第２の間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）前記第２の伸長レコード及び（ｉｉ）前記第２の間隔レコードを含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記第２の間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、前記最良間隔候補として使用されるかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長レコードを使用して前記第１の伸長されたシードの伸長である第２の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む第３のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む前記ハッシュテーブルの前記第３のハッシュクエリを実行することと、をさらに含む、請求項１～４のいずれか一項に記載の方法。
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する前記第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、最良間隔として使用されるかどうかを判定することが、
前記第２の間隔レコードを記述する前記第２の情報か、又は最良間隔候補レコードを記述する前記第１の情報のいずれかを、（ｉ）前記間隔レコード及び前記第２の間隔レコードの各々によって返された一致する参照配列位置の数、（ｉｉ）参照配列位置の所定の閾値レベル、又は（ｉｉｉ）前記間隔レコード及び前記第２の間隔レコードを記憶しているハッシュ位置に到達した前記それぞれのシードの各シード長、を含む複数の要因に基づいて選択することを含む、請求項５に記載の方法。
前記間隔レコードが、前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の１個以上の位置を参照する、請求項１～６のいずれか一項に記載の方法。
前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の前記１個以上の位置が、
伸長テーブル内の、前記クエリの前記第１のシードに一致する参照配列位置の連続する間隔を含む、請求項７に記載の方法。
ハッシュテーブルを使用して参照配列へのサンプルリードのマッピングを改善するためのシステムであって、
動作可能である命令を記憶している１つ以上のコンピュータ及び１つ以上の記憶デバイスであって、前記命令が、前記１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、
マッピング及びアライニングユニットによって、ハッシュテーブルのクエリを実行することであって、前記クエリが、第１のシードを含み、前記第１のシードが、前記サンプルリードの特定のリードから取得されたヌクレオチドのサブセットを含む、実行することと、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード及び（ｉｉ）間隔レコード、を含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記伸長レコードを使用して前記第１のシードの伸長である第１の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第１の伸長されたシードを含む後続のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記ハッシュテーブルの前記後続のハッシュクエリを実行することと、を含む動作を実行させる、システム。
前記動作が、
前記伸長テーブルがアクセスされると判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記伸長テーブルにアクセスして、前記間隔レコードによって参照される前記伸長テーブル内の前記１個以上の一致する参照配列位置を取得することと、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項９に記載のシステム。
前記動作が、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項９又は１０に記載のシステム。
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することが、
前記マッピング及びアライニングユニットによって、前記特定のリードに対する最良間隔候補としての間隔レコードを記述する以前の情報が存在しないと判定することと、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報として前記メモリデバイスに記憶することと、を含む、請求項９～１１のいずれか一項に記載のシステム。
前記動作が、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記後続の実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）第２の伸長レコード（ｉｉ）第２の間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）前記第２の伸長レコード及び（ｉｉ）前記第２の間隔レコードを含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記第２の間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、前記最良間隔候補として使用されるかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長レコードを使用して前記第１の伸長されたシードの伸長である第２の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む第３のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む前記ハッシュテーブルの前記第３のハッシュクエリを実行することと、をさらに含む、請求項９～１２のいずれか一項に記載のシステム。
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する前記第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、最良間隔として使用されるかどうかを判定することが、
前記第２の間隔レコードを記述する前記第２の情報か、又は最良間隔候補レコードを記述する前記第１の情報のいずれかを、（ｉ）前記間隔レコード及び前記第２の間隔レコードの各々によって返された一致する参照配列位置の数、（ｉｉ）参照配列位置の所定の閾値レベル、又は（ｉｉｉ）前記間隔レコード及び前記第２の間隔レコードを記憶しているハッシュ位置に到達した前記それぞれのシードの各シード長、を含む複数の要因に基づいて選択することを含む、請求項１３に記載のシステム。
前記間隔レコードが、前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の１個以上の位置を参照する、請求項９～１４のいずれか一項に記載のシステム。
前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の前記１個以上の位置が、
伸長テーブル内の、前記クエリの前記第１のシードに一致する参照配列位置の連続する間隔を含む、請求項１５に記載のシステム。
１つ以上のコンピュータによって実行可能な命令を含むソフトウェアを記憶している非一時的コンピュータ可読媒体であって、前記命令が、このような実行時に、前記１つ以上のコンピュータに、
マッピング及びアライニングユニットによって、ハッシュテーブルのクエリを実行することであって、前記クエリが、第１のシードを含み、前記第１のシードが、サンプルリードの特定のリードから取得されたヌクレオチドのサブセットを含む、実行することと、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード（ｉｉ）間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、（ｉ）伸長レコード及び（ｉｉ）間隔レコード、を含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記伸長レコードを使用して前記第１のシードの伸長である第１の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第１の伸長されたシードを含む後続のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記ハッシュテーブルの前記後続のクエリを実行することと、を含む動作を実行させる、コンピュータ可読媒体。
前記動作が、
前記伸長テーブルがアクセスされると判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記伸長テーブルにアクセスして、前記間隔レコードによって参照される前記伸長テーブル内の前記１個以上の一致する参照配列位置を取得することと、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項１７に記載のコンピュータ可読媒体。
前記動作が、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することと、
前記マッピング及びアライニングユニットによって、前記実行されたクエリへの前記応答が、１個以上の一致する参照配列位置を含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、前記１個以上の一致する参照配列位置をシード一致セットに追加することと、をさらに含む、請求項１７又は１８に記載のコンピュータ可読媒体。
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報としてメモリデバイスに記憶するかどうかを判定することが、
前記マッピング及びアライニングユニットによって、前記特定のリードに対する最良間隔候補としての間隔レコードを記述する以前の情報が存在しないと判定することと、
前記マッピング及びアライニングユニットによって、前記間隔レコードを記述する前記第１の情報を最良間隔候補を記述する情報として前記メモリデバイスに記憶することと、を含む、請求項１７～１９のいずれか一項に記載のコンピュータ可読媒体。
前記動作が、
前記マッピング及びアライニングユニットによって、前記クエリに応答すると判定された前記ハッシュテーブルの位置によって記憶された情報を含む前記後続の実行されたクエリへの応答を取得することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）第２の伸長レコード（ｉｉ）第２の間隔レコード、又は（ｉｉｉ）１個以上の一致する参照配列位置を含むかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記後続の実行されたクエリへの前記応答が、（ｉ）前記第２の伸長レコード及び（ｉｉ）前記第２の間隔レコードを含むと判定することに基づいて、
前記マッピング及びアライニングユニットによって、伸長テーブルが、前記第２の間隔レコードによって参照される前記伸長テーブル内の１個以上の一致する参照配列位置を取得するためにアクセスされるかどうかを判定することと、
前記伸長テーブルがアクセスされないと判定することに基づいて、
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、前記最良間隔候補として使用されるかどうかを判定することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長レコードを使用して前記第１の伸長されたシードの伸長である第２の伸長されたシードを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む第３のハッシュクエリを生成することと、
前記マッピング及びアライニングユニットによって、前記第２の伸長されたシードを含む前記ハッシュテーブルの前記第３のハッシュクエリを実行することと、をさらに含む、請求項１７～２０のいずれか一項に記載のコンピュータ可読媒体。
前記マッピング及びアライニングユニットによって、かつ１つ以上のヒューリスティック規則を使用して、前記第２の間隔レコードを記述する前記第２の情報、又は前記最良間隔候補を記述する前記第１の情報が、最良間隔として使用されるかどうかを判定することが、
前記第２の間隔レコードを記述する前記第２の情報か、又は最良間隔候補レコードを記述する前記第１の情報のいずれかを、（ｉ）前記間隔レコード及び前記第２の間隔レコードの各々によって返された一致する参照配列位置の数、（ｉｉ）参照配列位置の所定の閾値レベル、又は（ｉｉｉ）前記間隔レコード及び前記第２の間隔レコードを記憶しているハッシュ位置に到達した前記それぞれのシードの各シード長、を含む複数の要因に基づいて選択することを含む、請求項２１に記載のコンピュータ可読媒体。
前記間隔レコードが、前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の１個以上の位置を参照する、請求項１７～２２のいずれか一項に記載のコンピュータ可読媒体。
前記クエリの前記第１のシードに一致する参照配列位置を記述するデータを含む、前記シード伸長テーブル内の前記１個以上の位置が、
伸長テーブル内の、前記クエリの前記第１のシードに一致する参照配列位置の連続する間隔を含む、請求項２３に記載のコンピュータ可読媒体。