以下の説明及び図では、本発明の特定の実施形態が説明されている。しかしながら、本発明は、記載されている実施形態に限定されるものではなく、いくつかの実施形態は、以下に記載されている特徴の全てを含まない場合があることが理解されよう。しかしながら、添付の特許請求の範囲に記載されている本発明のより広い精神及び範囲から逸脱することなく、本明細書において様々な変更及び変形を行うことができることは明らかであろう。
図1aは、サンプル100が質量分析計装置101を使用して分析される例示的なシステムを概略的に示す。
サンプル100は、1つ以上の分子種の分子を含む。サンプル100は直接得られてもよい。それに加えて、又はその代わりに、サンプル100は、以下で簡単に説明するように、液体(又は気体)クロマトグラフィー、イオン移動度分離などの分離技術の出力から得ることができる。図1aに示すように、サンプル100は、質量分析計装置101に提供される。
質量分析計装置101は、サンプル100を受け取るように構成される。質量分析計装置は、サンプル100をイオン化して1つ以上の分子種のイオンを生成するように構成されてもよい。あるいは、サンプル100は、例えばサンプルを得るために使用される分離技術の一部として、既にイオン化されていてもよい。いくつかの例では、以下で更に説明するように、質量分析計装置101は、サンプル100が各分子種について複数のフラグメントイオンを含むように、サンプル100中の1つ以上の分子種をフラグメント化するように構成されてもよい。
質量分析計装置101は、サンプル100のイオン(又はフラグメントイオン)を分離し、サンプル中に存在するイオン(又はフラグメントイオン)の量(又は相対存在量)をイオン(又はフラグメントイオン)質量電荷(m/z)比の関数として測定するように構成される。質量分析計装置101は、イオンの測定値を、質量スペクトルの形態などの質量分析データ190として出力するように構成されてもよい。そのような質量分析計装置101の動作は、当技術分野で周知であり、本明細書では更に説明しない。当業者は、質量分析計装置101が任意のタイプであってもよいことを理解するであろう。例えば、質量分析計装置は、飛行時間型(TOF)質量分析計、フーリエ変換イオンサイクロトロン共鳴質量分析計(FT-ICRMS)、Orbitrap(商標)質量分析計などのうちのいずれか1つを備えてもよい。
質量スペクトルの形態での質量分析データ190の例示的なグラフ表示も図1aに示されている。
質量分析データ190は、1つ以上の質量チャネルの形態で表すことができる。各質量チャネルは、同じ質量(又は質量電荷比)のイオン種が質量分析計装置101において検出されるそれぞれの質量値(又は質量電荷比、本明細書ではm/z値と呼ばれる)に対応する。各m/z値は、それぞれのイオン種に対応し、それぞれのイオン種の絶対元素電荷で割ったそれぞれのイオン種の分子質量に等しい。質量分析データ190は、1つ以上の強度値196-nを含み、各強度値196-nは、それぞれのm/z値(又はチャネル)194-nに対して現れる。各強度値196-nは、サンプル100から質量分析計装置101によって測定されるようなそれぞれのm/z値194-nに対応するイオン種の相対存在量(又は量)に相関する。各強度値196~nは、それぞれのm/z値に対応するイオン種の相対存在量に比例し得る。所与の質量チャネルについて質量分析計装置101によって測定される強度(又は相対存在量)は、質量分析計装置101によって検出される質量(又は質量電荷比m/z)を有するイオン種の相対存在量に相関する。質量分析データ190(ひいては質量スペクトル)は、Orbitrap(商標)質量分析計又はイオンサイクロトロン共鳴(FT-ICR)分光計などの他のフーリエ変換質量分析計によって生成される過渡信号、飛行時間(TOF)質量分析計によって生成されるイオン飛行時間など、いくつかの異なる形態のうちのいずれか1つで表され得ることが理解されよう。以下に説明される方法及びシステムは、質量分析データ190(又は質量スペクトル)の任意の表現と共に使用されることができることを理解されたい。
同じ質量(又はm/z値)を有する所与の質量分析実験において検出される2つ以上のイオン種が存在し得ることが理解されるであろう。したがって、所与の質量チャネルについての強度値は、以下で簡単に説明するように、その特定の質量チャネルに対応する質量(又はm/z値)を有する所与の質量分析実験において検出されたイオン種の全ての存在量の合計を表すことができる。
質量分析データ190などの実験質量分析データは、破線によって示される連続体プロット、及び垂直実線によって示される質量中心プロットの形態でプロットされてもよい。破線によって示されるピークの幅は、質量分解能の限界を表し、これは、近いm/z比を有する2つの異なるイオン種を区別する能力である。
しかしながら、質量分析データ190は、グラフの形態でプロットされる必要がないことが理解されるであろう。実際に、質量分析データ190は、任意の適切な形態で表され得る。例えば、質量分析データ190は、1つ以上の強度値196-n及び1つ以上のm/z値194-nを含むリストで表されてもよい。いくつかの場合において、質量スペクトルは、質量中心(又は極大値)のリストとして単純に表され得、各質量中心は、m/z値及び強度値の対として表される。
質量分析データからそのような質量中心を得るために当技術分野で一般的に使用される多くの技法があるので、本明細書ではこれらについて更に説明しない。しかしながら、本明細書に記載される技術は、質量分析データを形成する質量中心のリストに対して、又は適切な技術が強度最大値(又は質量中心)を同定するために使用される生の質量分析データに対して実施され得ることが理解される。
図1bは、タンデム質量分析を使用してサンプル100が分析される更なる例を概略的に示す。理解を容易にするために、図1bは、第1の質量分析計装置101及び第2の質量分析計装置201を示す。しかしながら、タンデム質量分析では、これらは、典型的には、それぞれ、第1のモード101及び第2のモード201で動作する、単一の質量分析計装置(前述のような装置)に対応することを理解されたい。図1aに関する質量分析計装置101の上記の説明は、これらの第1の質量分析計装置101及び第2の質量分析計装置201に等しく適用される。
この更なる例では、図1aに関連して上述したように、初期サンプル100が第1の質量分析計装置101(又は第1の動作モード)に提供される。初期サンプル100は、1つ以上の分子種のイオンを含み、イオンは、第1の質量分析計装置101によって分離及び測定されて、初期サンプル100の初期質量分析データ190を生成する。第2の質量分析計装置201(又は第2の動作モード)は、質量分析計装置の質量フィルタが、所定の範囲内のm/z比を有する初期サンプル100内のイオンのサブセットを選択するために、質量選択モードに切り替えられるように動作するように構成される。イオンのサブセットは、更なるサンプル200を形成すると考えられてもよい。これは、類似のm/z値を有する異なる分子種のイオンが、以下に記載されるような更なる分析のために分離されることを可能にする。更なるサンプル200は、イオン移動度などの他の物理化学的特性に基づいてイオンを選択することによって基づいてイオンを選択することによって形成することができることが理解されよう。
第2の質量分析計装置は、更なるサンプル200中のイオンをフラグメント化するように構成され、その結果、更なるサンプルは、更なるサンプル200中に元々存在する分子種(前駆体分子種として知られる)の各々についてフラグメントイオン205を含む。第2の質量分析計装置201は、更なるサンプル200のフラグメントイオン205を分離し、フラグメントイオン205m/z比の関数としてサンプル中に存在するフラグメントイオン205の量を測定するように構成される。特に、第2の質量分析計装置は、フラグメント化された更なるサンプル200について更なる質量分析データ290を生成するように構成される。
この更なる例は、タンデム質量分析(又はMS/MS)として一般に知られているものの一例であることが理解されよう。事実上、第2の質量分析計装置201は、初期サンプル100から更なるサンプル200を選択するように動作可能な第1の質量分析計装置101の選択的動作モードである。更なるサンプル200の分子種の前駆体イオンは、それらの質量電荷比が近いので、更なるサンプル200のフラグメントイオン205へのこれらの前駆体イオンのフラグメント化は、各前駆体分子種に関連付けられたフラグメントイオン205の予想されるパターンに基づいて、前駆体分子種間の識別を可能にする。これはまた、正確な質量だけでは分子種の正確な構造を決定するのに十分でないことが多いので、有利である。したがって、第2の質量分析計装置201は、フラグメントイオンに基づいて更なる構造情報を提供すると考えられ得る。第1の質量分析計装置101(又は第1の動作モード)の質量分析計分析は、一般に、MS1ステージとして知られ、第2の質量分析計装置201(又は第2の動作モード)の質量分析計分析は、MS2ステージとして知られる。更なるステージ(MSn、ここでn=3,4,5,...)が追加され得、ここで、前のステージ(MS2ステージなど)からのフラグメントイオン205が、m/z比に基づいて再び選択され、次のステージのための前駆体イオンとして使用され、ここで、それらは更にフラグメント化され、質量分析計装置201において分析されることが理解されるであろう。これらのステージもまた、同じ質量分析計装置の更なる動作モードによって実行することができる。これは、再び、m/z比が近い前駆体フラグメントイオン間の識別を補助し、及び/又は所与の前駆体イオンに関する更なる構造情報を提供する。いずれの場合も、MS1質量分析計装置101(又は第1の動作モード)及びMS2(又はMSn)質量分析計装置201(又は第2の動作モード)は、図1aに関連して上述された質量分析計装置101の特定の例であると考えられ得る。第1及び第2の動作モードを有するそのようなタンデム質量分析計装置の例は、Thermo Fisher Scientific GmbH(Bremen,Germany)によって生産されるOrbitrap Q Exactive及びOrbitrap Exploris機器を含み、両方とも、質量分析計装置内に軌道トラップ型質量分析器を備える。軌道トラップ型質量分析器は、国際公開第02/078046(A)号に詳細に説明されており、その全内容は参照により本明細書に組み込まれ、ここでは詳細に説明しない。
本明細書において以下に記載される本発明の方法及びシステムは、一般に、上記の質量分析ステージ及び動作モードのいずれにも適用可能である。
当然のことながら、質量分析計装置101及び201はまた、液体(又は気体)クロマトグラフなどの分離デバイスと共に使用されてもよいことを理解されよう。このような分離デバイスは、マスターサンプルを複数のサンプル100に分離するように構成されている。特に、分離デバイスは、通常、マスターサンプルの成分(又は分析物)を分離パラメータ(又は次元)の関数として分離デバイスから溶出させる(又は放出させる、又は別様に発散させる)ように構成される。分離パラメータ(又は複数のパラメータ)は、特に分離デバイスがクロマトグラフ又はクロマトグラフィーカラムを含む場合、溶出パラメータと考えることもできる。例えば、分離デバイスは、当技術分野で一般に知られているタイプの液体(又は気体)クロマトグラフであってもよい。この例では、溶出パラメータは保持時間である。言い換えれば、成分がクロマトグラフを通過するのに必要な持続時間(例えば、サンプルがデバイスに注入されてから成分が質量分析計装置101及び201に供給されるまでの時間)である。液体(及び気体)クロマトグラフは当技術分野でよく知られているので、本明細書ではこれ以上説明しない。
分析物は、典型的には、分子種の流れとして分離デバイスによって放出され、次いで、質量分析計装置101及び201内に導入(又は注入)され、イオン化されてもよい(ただし、分離イオン化デバイスが追加的又は代替的に使用されてもよいことが理解されるであろう)。したがって、サンプル100は、通常、質量分析計装置101及び201によって、分離パラメータの関数として受け取られる。このようにして、質量分析計装置101及び201は、溶出パラメータの同じ値(又は値の同じ範囲内)で同時に(又は実質的に同時に)放出されたサンプル(又は分析物)を受け取ることが理解されるであろう。その結果、質量分析計装置101及び201は、質量分析データ190及び290(複数の質量スペクトルの形態など)の複数の項目を分離パラメータの関数として生成するように構成され得る。換言すれば、質量分析データ190及び290(又は各質量スペクトル)の各項目は、溶出パラメータのそれぞれの値について生成される。より具体的には、質量分析データ190及び290の各項目は、溶出パラメータのそれぞれの値で放出されたサンプル100の質量スペクトルと考えられ得る(又はそれを表し得る)。
図1cは、質量分析計装置101のいずれかによって生成され得るような質量スペクトルの形態の例示的な質量分析データ390を概略的に示す。201(又はステージ)は、図1a及び図1bに関連して上述されている。質量分析データ190及び290は、質量スペクトルの形態でグラフで表されるこの例示的な質量分析データ390に等しく適用され、逆もまた同様である、という説明を理解されよう。図1cはまた、質量スペクトルの形態でグラフ表示された質量分析データ390-1、390-2、及び390-3の3つの更なる項目を概略的に示す。
図1cに示される例示的な質量分析データ390は、複数の分子種を含むサンプル100及び200に対応する。したがって、質量分析計装置101によって生成される例示的な質量分析データ390、サンプル100からの201及び200は、サンプル100及び200中に存在する分子種の各々からの寄与を含み得る。
更なる質量スペクトル390-1、390-2、390-3は各々、サンプル100及び200中の複数の分子種のそれぞれの分子種に対応する。図1cに示す例では、サンプル100及び200中に3つの分子種が存在し、したがって3つの更なる質量スペクトル390-1、390-2、390-3について説明される。しかしながら、任意の数の分子種がサンプル100及び200中に存在し得ることが理解されるであろう。更なる質量スペクトル390-1、390-2、390-3は各々、それぞれの分子種のみを含むサンプルに対応する(又は表す)質量スペクトルである。換言すれば、更なる質量スペクトル390-1、390-2、390-3は各々、それぞれの分子種のみを含むサンプルに由来する質量分析計装置101及び201から得られる質量スペクトルである(又は表す)と考えられてもよい。そのような更なる質量スペクトル390-1、390-2、390-3は、質量分析計装置101及び201から得られ、それぞれのサンプルは完全に純粋でなくてもよいが、それぞれのサンプル中の他の分子種の存在は、更なる質量スペクトルに対する影響が無視できるレベルであることが理解されよう。いくつかの例では、更なる質量スペクトル390-1、390-2、390-3のうちの1つ以上(又は全て)は、シミュレーション(又は数値計算)によって生成されてもよい。
図1cに示すように、例示的な質量スペクトル390は、更なる質量スペクトル390-1、390-2、及び390-3の合計を含むものと考えることができる。言い換えれば、例示的な質量スペクトルは、サンプル100及び200中の各分子種に対応する更なる質量スペクトルの各々の寄与から(少なくとも部分的に)構成され得る。各更なる質量スペクトル390-1、390-2、390-3からの寄与は、サンプル100及び200中に存在する更なる質量スペクトルに対応するそれぞれの分子種の割合を表す(又は示す)対応するスケールファクタ(又は係数)によってスケーリングされる。更なる質量スペクトルは、典型的には、更なる質量スペクトルにおける各強度値に、その更なる質量スペクトルについてのスケール係数を掛けることによってスケーリングされる。
上述したように、質量分析データは、特定の質量電荷比(又は質量チャネル)における強度値のセットと考えることができる。したがって、例示的な質量分析データ390は、更なる質量スペクトル390-1、390-2、各更なる質量スペクトル390-1についての分子種の相対存在量に従ってスケーリングされた、各質量電荷比における390-3、サンプル100及び200中の390-2、390-3の強度値の合計を含む各質量電荷比(又は質量チャネル)における強度値を有すると考えることができる。
例示的な質量分析データ390は、質量分析計装置101及び201から得られ、例示的な質量分析データ390はまた、測定誤差及び/又はランダムノイズに対応する強度値への追加の寄与を含み得ることが理解されるであろう。
上記の質量分析データは、質量電荷比m/zの関数として強度Iを表す数学的関数に関して考えることができる。このようにして、例示的な質量スペクトル390、I(m/z)は、以下のように与えられ得る。
I(m/z)=c1I1(m/z)+c2I2(m/z)+c3I3(m/z)+η(m/z)
式中、In,n=1,2,3は、更なる質量分析データ390-1、390-2、390-3であり、cnは、各々の更なる質量分析データに対するスケール係数であり、η(m\z)は、質量分析計装置101及び201における測定誤差及び/又はランダムノイズを表す項であり、例示的な質量スペクトル390を生成するために使用される。
質量分析データの上記説明及び更なる質量分析データに対する寄与は、前述の質量分析ステージのいずれにも適用可能であることが理解されるであろう。例えば、MS1ステージ又は実験の場合、例示的な質量分析データ390は、サンプル100及び200中の分子種のイオンの強度を含む。更なる質量分析データ390-1、390-2、390-3は各々、サンプル100及び200中のそれぞれの分子種に対応する同位体パターンである(又はそれを表す)。分子種の同位体パターンは、その分子種の所与のサンプルから予想される各m/z比におけるイオンの相対強度を含む。言い換えれば、同位体パターンは、特定の分子種のいくつかの同位体の相対存在量のパターンとして理解される。したがって、同位体パターンは、特定の分子種の別の同位体に対する特定の分子種の1つの同位体の相対存在量の計算を可能にすることができる。したがって、分子種の同位体パターンは、いくつかの質量チャネルを含む(又は表す)ことができ、各質量チャネルは、分子種のそれぞれの同位体に対応する。同位体パターンは、同位体パターンの各質量チャネルに対するそれぞれの強度(又は存在量)を更に含む。
同位体パターンは、所与の分子種の全体濃度Cに対する所与のm/z比(又は質量チャネル)Mpでの予想強度に関連する強度スケール係数Spのセットによって表すことができる(又は含むことができる)。言い換えれば、強度スケール係数は、関係Mp∝SpCに従うことができる。強度スケール係数が合計して1になるように正則化される場合、より強い関係Mp=SpCに従うことになる。同位体パターンについての別の一般的な正則化は、Sj=1となるように強度スケール係数をスケーリングすることであり、ここで、Mjは、主又はレポーターm/z比(又は質量チャネル)である。様々な量に対して使用される単位及び/又は使用される正則化方式に応じて、そのような強度スケール係数を構成することができる数学的に等価な方法が多数あることが理解されよう。
このようにして、分子種の全体的な濃度が同位体パターンによってスケーリングされて、当該分子種の同位体の質量チャネルについての予想強度を含む予想質量分析データを得ることができることが理解されよう。したがって、同位体パターン自体は、質量スペクトルの表現であると考えることができる。
MS2ステージ(又はより高いMSnステージ、ここでn>2)の更なる例として、例示的な質量分析データ390は、サンプル100及び中の前駆体分子種のフラグメントイオンの強度を含む。更なる質量分析データ390-1、390-2、390-3のセットは各々、サンプル100及び200中のそれぞれの前駆体分子種に対応する(又はそれに由来する)フラグメント質量スペクトルである(又はそれを表す)。したがって、この例における更なる質量分析データ390-1、390-2、390-3は各々、所与の前駆体分子種のフラグメンテーションからの各予想フラグメントイオンの強度を含む。更なる質量分析データのセットは、所与の前駆体分子種のフラグメンテーションからの予想されるフラグメントイオンのサブセットの強度を含み得ることが理解されよう。上記のように、更なる質量分析データのそのようなセットは、所与の前駆体分子種に対するフラグメントイオンの相対存在量を提供し得る。したがって、前駆体分子種のフラグメント質量スペクトルは、いくつかの質量チャネルを含む(又は表す)ことができ、各質量チャネルは、前駆体分子種のフラグメンテーションによって生成されたそれぞれのフラグメントイオンに対応する。フラグメント質量スペクトルは、フラグメントイオン質量スペクトルの各質量チャネルに対するそれぞれの強度(又は存在量)を更に含む。
上記の説明から、MS1ステージによって生成された所与の実験質量スペクトル及びMS2(又はより高次の)ステージによって生成された所与の質量スペクトルについて、質量スペクトルが、前駆体分子種(MS2又はより高次の場合)と称され得る2つ以上の分子種(MS1の場合)からの寄与を含む類似の状況が生じ得ることが理解される。したがって、得られる質量スペクトルは、分子種の同位体パターン(MS1の場合)又はフラグメント質量スペクトル(MS2以上の場合)の線形結合を含むと考えることができる。両方の場合において、このような得られた質量スペクトルは、キメラ質量スペクトルであると考えられ得る。
図2は、本発明の実施形態において使用され得るコンピュータシステム1000の一例を概略的に示す。システム1000は、コンピュータ1020を備える。コンピュータ1020は、記憶媒体1040、メモリ1060、プロセッサ1080、インターフェース1100、ユーザ出力インターフェース1120、ユーザ入力インターフェース1140、及びネットワークインターフェース1160を備え、これらは、全て、1つ以上の通信バス1180を介して互いにリンクされている。
記憶媒体1040は、ハードディスクドライブ、磁気ディスク、光ディスク、ROMなどのうちの1つ以上などの任意の形態の不揮発性データ記憶デバイスとすることができる。記憶媒体1040は、コンピュータ1020が機能するために実行するプロセッサ1080用のオペレーティングシステムを記憶することができる。記憶媒体1040はまた、1つ以上のコンピュータプログラム(又はソフトウェア又は命令又はコード)を記憶することができる。
メモリ1060は、データ及び/又はコンピュータプログラム(又はソフトウェア又は命令又はコード)を記憶するのに適した任意のランダムアクセスメモリ(記憶ユニット又は揮発性記憶媒体)とすることができる。
プロセッサ1080は、1つ以上のコンピュータプログラム(記憶媒体1040及び/又はメモリ1060に記憶されたものなど)を実行するのに適した任意のデータ処理ユニットとすることができ、コンピュータプログラムのいくつかは、プロセッサ1080によって実行されると、プロセッサ1080に本発明の実施形態にかかる方法を実行させ、システム1000を本発明の実施形態にかかるシステムとして構成するコンピュータプログラムとすることができる。プロセッサ1080は、並列に、別々に、又は互いに協調して動作する単一のデータ処理ユニット又は複数のデータ処理ユニットを備えることができる。プロセッサ1080は、本発明の実施形態のためのデータ処理動作を実行する際に、記憶媒体1040及び/又はメモリ1060にデータを記憶し、及び/又は記憶媒体及び/又はメモリからデータを読み取ることができる。プロセッサ1080は、プロセッサ1080の他のデータ処理ユニットと協働して動作する1つ以上のグラフィックス処理ユニット(GPU)を備えることができる。
インターフェース1100は、コンピュータ1020の外部の、又はコンピュータから取り外し可能なデバイス1220へのインターフェースを提供するための任意のユニットとすることができる。デバイス1220は、データ記憶デバイス、例えば、光ディスク、磁気ディスク、ソリッドステート記憶デバイスなどのうちの1つ以上とすることができる。デバイス1220は、処理能力を有することができる-例えば、デバイスは、スマートカードとすることができる。したがって、インターフェース1100は、プロセッサ1080から受信する1つ以上のコマンドに従って、デバイス1220からデータにアクセスするか、デバイスにデータを提供するか、又はデバイスとインターフェースすることができる。
ユーザ入力インターフェース1140は、システム1000のユーザ又はオペレータからの入力を受信するように構成される。ユーザは、ユーザ入力インターフェース1140に接続されているか、又はそれと通信している、マウス(又は他のポインティングデバイス)1260及び/又はキーボード1240などのシステム1000の1つ以上の入力デバイスを介してこの入力を提供することができる。しかしながら、ユーザは、1つ以上の追加の又は代替の入力デバイス(タッチスクリーンなど)を介してコンピュータ1020に入力を提供することができることが理解されよう。コンピュータ1020は、ユーザ入力インターフェース1140を介して入力デバイスから受信した入力を、プロセッサ1080が後でアクセスして処理するためにメモリ1060に記憶することができるか、又はプロセッサ1080がそれに応じてユーザ入力に応答することができるように、それをプロセッサ1080に直接渡すことができる。
ユーザ出力インターフェース1120は、システム1000のユーザ又はオペレータにグラフィカル出力、視覚的出力及び/又はオーディオ出力を提供するように構成される。したがって、プロセッサ1080は、ユーザ出力インターフェース1120に、所望のグラフィック出力を表す画像/ビデオ信号を形成し、この信号をユーザ出力インターフェース1120に接続されているシステム1000のモニタ(又は画面又は表示ユニット)1200に提供するように指示するように構成されることができる。追加的又は代替的に、プロセッサ1080は、所望のオーディオ出力を表すオーディオ信号を形成し、この信号をユーザ出力インターフェース1120に接続されたシステム1000の1つ以上のスピーカ1210に提供するようにユーザ出力インターフェース1120に指示するように構成されてもよい。
最後に、ネットワークインターフェース1160は、コンピュータ1020が1つ以上のデータ通信ネットワークからデータをダウンロード及び/又はデータ通信ネットワークにデータをアップロードするための機能を提供する。
図2に示され、上で説明されたシステム1000のアーキテクチャは、単なる例示であり、異なるアーキテクチャを有する(例えば、図2に示されるよりも少ない構成要素を有するか、又は図2に示されるよりも追加及び/又は代替の構成要素を有する)他のコンピュータシステム1000が本発明の実施形態において使用されることができることが理解されよう。例として、コンピュータシステム1000は、パーソナルコンピュータ、サーバコンピュータ、携帯電話、タブレット、ラップトップ、テレビジョンセット、セットトップボックス、ゲームコンソール、他のモバイルデバイス又は家庭用電子機器、分散型(又はクラウド)コンピューティングシステムなどのうちの1つ以上を含み得る。
図3は、図1a~図1cに関連して上述した質量分析データ190、290、390などの質量分析データ390を分析するために使用され得る例示的な分析システム400の論理装置を概略的に示す。分析システム400は、受信機モジュール410、候補選択モジュール420、最適化モジュール430、及び指標モジュール440を備える。分析システム400は、図2に関連して上述した例示的なコンピュータシステム1000などの1つ以上のコンピュータシステム上に実装(又は具現化)され得る。
受信機モジュール410は、質量分析データ390を受信するように構成される。典型的には、受信機モジュール410は、質量分析計装置101、分析システム300に結合された(又は接続された)201から質量分析データ390を受信するように構成される。しかしながら、受信機モジュール410は、データ記憶デバイス、クラウドコンピューティングサービス、試験データ生成プログラムなどを含む任意の適切なソースから質量分析データ390を受信するように構成されてもよいことが理解されるであろう。質量分析計データ390は、前述のように質量スペクトルの形態で受信されてもよい。前述したように、質量分析データ390は、複数の質量チャネルを有し、各質量チャネルは、それぞれの強度(又は強度値)を有する(又はそれぞれの強度(又は強度値)で満たされる)。
候補選択モジュール420は、受信された質量分析データ190に対する候補質量分析データのセット490を取得するように構成される。候補質量分析データのセット490は、前述のように、候補質量スペクトルのセットの形態であってもよい。理解を容易にするために、以下の説明では候補質量スペクトルを使用するが、以下の考察は他の形態の候補質量分析データにも等しく適用できることが理解されるであろう。各候補質量スペクトルは、典型的には、それぞれの候補分子種に対応する。候補質量スペクトルは、質量スペクトルデータベース425から得ることができる。それに加えて、又はその代わりに、候補質量スペクトルの一部又は全部をオンデマンドで(又はオンザフライで)生成することができることが理解されよう。いくつかの実施形態では、候補選択モジュール420は、候補質量分析データのセットとして、質量スペクトルデータベース425において利用可能な全ての候補質量分析データを選択し得ることが理解される。
候補質量スペクトルは、対応する分子種に対する質量分析実験によって生成された質量スペクトルを含み得る。好ましくは、質量分析実験は、対応する分子種の純粋な(又は実質的に純粋な)サンプルからなるサンプルを有する。加えて、又は代わりに、候補質量スペクトルは、理論的(又は予測)質量スペクトルを含む。理論(又は計算若しくは予測)質量スペクトルは、典型的には、質量分析実験の理論モデルに基づいて生成された質量スペクトルである。特に、そのようなモデルは、適切なトレーニングデータに基づく機械学習を使用して生成され得る。理論的質量スペクトルの生成の例は、MSAID GmbHによるINFERYSシステムである。他の例としては、「Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning」(Gessulat,S.,Schmidt,T.,Zolg,D.P.ら,Nat Methods 16,509-518(2019),DOI:10.1038/s41592-019-0426-7)、「pDeep:Predicting MS/MS Spectra of Peptides with Deep Learning」(Zhouら,Analytical Chemistry 2017 89(23),12690-12697 DOI:10.1021/acs.analchem.7b02566)、及び「MS2PIP:a tool for MS/MS peak intensity prediction」(Sven Degroeve,Lennart Martens,Bioinformatics,29巻,24刷,2013年12月15日,3199-3203,DOI:10.1093/bioinformatics/btt544)に記載のものが挙げられる。理論的(又は計算された)同位元素パターンを生成する方法の例としては、「Poisson Model To Generate Isotope Distribution for Biomolecules」(Rovshan G.Sadygov,Journal of Proteome Research 2018 17(1),751-758 DOI:10.1021/acs.jproteome.7b00807)、「BRAIN:A Universal Tool for High-Throughput Calculations of the Isotopic Distribution for Mass Spectrometry」(Dittwaldら,Analytical Chemistry 201385(4),1991-1994 DOI:10.1021/ac303439m)、「BRAIN 2.0:Time and Memory Complexity Improvements in the Algorithm for Calculating the Isotope Distribution」(Dittwald,P.ら、J.Am.Soc.Mass Spectrom.25,588-594(2014)DOI:https: //doi.org/10.1007/s13361-013-0796-5)、「Accelerated Isotope Fine Structure Calculation Using Pruned Transition Trees」(Martin Loos et al.,Analytical Chemistry 2015 87(11),5738-5744 DOI:10.1021/acs.analchem.5b00941)、「IsoSpec:Hyperfast Fine Structure Calculator」(Mateusz K.Lackiら、Analytical Chemistry 2017 89(6)、3272-3277 DOI:10.1021/acs.analchem 6b01459)、「IsoSpec2:Ultrafast Fine Structure Calculator」(Mateusz K.Lackiら、Analytical Chemistry 2020 92(14)、9472-9475 DOI:10.1021/acs.analchem.0c00959、及び「Fast Exact Computation of the k Most Abundance Isotope Peaks with Layer-Ordered Heaps」(Patrick Kreitzbergら、Analytical Chemistry 2020 92(15)、10613-10619 DOI:10.1021/acs.analchem.0c01670)が挙げられる。特定の分子種に対応する理論質量スペクトルは純粋であると考えることができるので、本明細書に記載の発明における候補質量スペクトルとしての理論質量スペクトルの使用は特に有利であることが理解されるであろう。換言すれば、理論的質量スペクトルは、対応する分子種からの寄与のみを含む。逆に、実験的質量スペクトルライブラリから得られるものなどの実験的質量スペクトルは、実験的質量スペクトルを生成するために使用される初期サンプルを汚染した可能性がある、又は実験的アーチファクト、ノイズなどを含有し得る、他の分子種からの寄与を含み得る。以下の説明から明らかになるように、候補質量スペクトルにおけるそのような汚染は、受信された質量分析データ390の後続の同定における誤差を増加させ得る。
候補選択モジュール420は、受信した質量分析データ390に基づいて候補質量スペクトルのセット490の一部として1つ以上の候補質量スペクトルを選択するように構成されてもよい。例えば、受信された質量分析データ390は、所与の分離窓に対応し得る(又はそれを使用して生成され得る)。換言すれば、サンプル100及び200は、質量分析データを生成するために質量分析計装置において使用され、所与の質量対電荷範囲内のイオンのみが分析(又は検出)されるように、選択を受けていてもよい。そのようなシナリオでは、候補選択モジュール420は、所与の分離窓内にある(又は質量電荷比範囲内の質量電荷比を有する)候補分子種に対応する候補質量スペクトルを選択するように構成され得る。候補選択モジュール420は更に、所与の分離窓内にない(又は質量電荷比範囲外の質量電荷比を有する)候補分子種に対応する候補質量スペクトルを破棄する(又は選択しない)ように構成され得る。加えて、又は代替として、候補選択モジュール420は、受信された質量分析データ390との類似性に基づいて、候補質量スペクトルを選択するように構成されてもよい。特に、候補質量スペクトルは、受信された質量分析データ390内に存在する候補質量スペクトル内のピークの所定の閾値に基づいて選択され得る。例えば、候補選択モジュール420は、質量スペクトルが、受信された質量分析データ390内に存在するピークを有する質量チャネル内に存在するピークの閾値数未満を有する場合、質量スペクトルを候補質量スペクトルとして破棄する(又は選択しない)ように構成されてもよい。これは、ピーク存在スコアに基づいて候補質量スペクトルを選択することと考えることができる。
追加的又は代替的に、候補選択モジュール420は、以下の基準のうちの任意の1つ以上に基づいて候補質量スペクトルを選択するように構成されてもよい。
・候補分子種の物理化学的特性
所与の候補分子種が質量分析計において検出可能である所定の可能性
・受信した質量分析データ390の分離窓
・受け取った質量分析データ390に対応する保持時間
・前駆体分子種の電荷
・所与の候補分子種と比較した、受信された質量分析データ390におけるピークの存在及び/又は不在
・受信された質量分析データ390と候補分子種との間の共有ピークの数(例えば、最小数は2又は3以上であってもよい)
・候補スペクトルの強度を受信した質量分析データ390における強度と比較する類似性及び/又は非類似性基準
・正則化されたスペクトルコントラスト角(すなわち、コサイン類似性)、ピアソンの相関係数、スピアマン相関など
候補選択モジュールは、強度ベースの類似性/非類似性基準(例えば、候補スペクトルの強度を受信した質量分析データ390における強度と比較すること、コサイン類似性、ピアソン相関、スピアマン相関など)と、ピーク存在/非存在ベースの類似性/非類似性基準(例えば、受信した質量分析データ390と候補分子種との間で共有されるピークの数)との数学的組み合わせ(例えば、乗算、除算など)に基づいて候補質量スペクトルを選択するように構成されてもよい。
加えて、又は代替として、候補選択モジュール420は、受信された質量分析データ390内に存在するピークを有する質量チャネル内の質量スペクトル内に存在するピーク間の一致を加重してもよい。そのような重み付けは、例えば、受信された質量分析データ390におけるピークの強度に基づいてもよい。このようにして、受け取られた質量分析データ390内の最も豊富なピークに対する一致は、より大きな重み付けを与えられる。これは、ピーク強度スコアに基づいて候補質量スペクトルを選択することと考えることができる。強度ベースの類似性/非類似性基準をピーク存在/非存在ベースの類似性/非類似性基準と組み合わせることは、いずれかのクラスの基準が単独で使用される場合に有する弱点を軽減し得ることが理解される。
候補選択モジュール420はまた、機械学習アルゴリズム、例えば線形判別分析(LDA)に基づいて、受信された質量分析データ290に対して候補質量スペクトルをスコア付けするように構成されてもよい。特に、候補選択モジュール420は、LDAスコアに基づいて質量スペクトルを候補質量スペクトルとして選択(又は破棄)するように構成されてもよい。このような選択は、所定の閾値を超えるスコアを有する質量スペクトルを選択することを含み得る。あるいは、そのような選択は、当該LDAスコアによって質量スペクトルをランク付けすること、及び最高スコアを有する所定の数の質量スペクトルを候補質量スペクトルとして選択することを含んでもよい。
加えて、又は代替として、候補選択モジュールは、受信された質量分析データの更なるセットから得られる情報に基づいて、候補質量スペクトルを選択するように構成されてもよい。例えば、受信された質量分析データ390は、フラグメント化に全く対応しない(又はフラグメント化を使用して生成された)場合があり、一方、更なる受信された質量分析データは、フラグメント化に対応する(又はフラグメント化を使用して生成された)場合がある。換言すれば、質量分析データ390は、MS1スペクトルに対応してもよく、受信された質量分析データの更なるセットは、MS2スペクトルに対応してもよい。受信された質量分析データの2つのセットは、同じ(又は同様の)分離パラメータ値に対応し得る(又はそれを使用して生成され得る)ことが理解されるであろう。そのようなシナリオでは、候補選択モジュール420は、分離パラメータの所与の窓内にある、受信された質量分析データ390に対する候補分子種に対応する候補質量スペクトルを選択するように構成され得る。当業者は、候補分子種の分離を記述する古典的なピーク形状(例えば、レイリー分布、ガウス分布)が、この窓の決定のために考慮され得ることを理解する。
最適化モジュール430は、受信された質量スペクトルに基づいて、候補質量スペクトル490のセットに対する質量スペクトル係数432のセットを最適化するように構成される。質量スペクトル係数のセット432は、候補質量スペクトルの線形結合を定義(又は指定)すると考えることができる。各候補質量スペクトルには、質量スペクトル係数が割り当てられ得る(又は対応し得る)。最適化モジュール430は、通常、これらの係数が非負であることを要求(又は強制)するように構成される。候補質量スペクトルに対する質量スペクトル係数は、質量スペクトル係数の値によって候補質量スペクトルにおける各ピークの強度をスケーリングする。例えば、強度Ip,mのセットを含むP候補質量スペクトルを取り、式中p=1,2,...,Pは質量スペクトルにわたるインデックスであり、mは各候補質量スペクトルについての質量チャネルにわたるインデックスである。質量スペクトル係数βpのセット432は、対応する質量スペクトル係数によってスケーリングされた候補質量スペクトルの線形結合である更なる質量スペクトルを定義する。この更なる質量スペクトルは、強度のセットを有する。
更なる質量スペクトルに対する一定の強度オフセットを表し得る更なる係数β0も存在し得ることが理解されるであろう。言い換えれば
理解を容易にするために、これは以下の説明から省略される。しかしながら、一定のオフセットが望まれる場合、これが含まれてもよいことが理解されるであろう。
質量スペクトル係数のセットを最適化するために、最適化モジュール430は、典型的には、目的関数に基づいて質量スペクトル係数のそれぞれの値(又は質量スペクトル係数値)を変化させるように構成される。
目的関数は、質量スペクトル係数のセットによって(又はそれに従って)定義される候補質量スペクトルの線形結合を、受信された質量スペクトル390に関連付ける(又は関連付ける項を含む)。典型的には、目的関数は、質量スペクトルの線形結合と受信された質量スペクトル390との間の差の尺度を提供する。最適化モジュールは、目的関数の極値を得る目的で質量スペクトル係数のそれぞれの値を変化させるように構成されてもよい。特に、目的関数が、質量スペクトルの線形結合と受信された質量スペクトル390との間の差の尺度を提供する場合、質量スペクトル係数の値は、当該目的関数を最小化する目的で変更され得る。しかしながら、そのような最小化問題は、最大化として、又は目的関数の適切なリキャスティングによって目的関数の鞍点を得るとしてリキャストされ得ることが理解されるであろう。以下の説明から、係数βpを得るために数値最適化法を使用することができるので、得られた係数の値に感知できるほどの影響を及ぼさずに、強度が非線形である(多項式などの)実質的に無視できる項を目的関数に含めることが可能であることが理解されよう。そのような目的関数は、依然として、質量スペクトル係数のセットによって(又はそれに従って)定義されるような候補質量スペクトルの線形結合を、受信された質量スペクトル390に関連付けるものとして考えられ得る。
換言すれば、最適化モジュール430は、質量スペクトル係数βpの値のセットを取得するように構成されていると考えることができ、各質量チャネルmについて、
式中
は、質量チャネルmの受信質量スペクトルの強度値であり、εmは誤差項である。最適化の目的は、誤差項のセット{εm}(又はその関数)が実質的に最小化されるように、係数のセット432{βp}を得ることと考えることができる。このように、最適化は線形回帰最適化プロセスであってもよいことが理解されるであろう。特に、誤差項の二乗の和は、最適化によって最小化され得る(又は最小化されるように求められ得る)。
したがって、目的関数は、受け取られた質量スペクトル390の強度と、候補質量スペクトルの係数によってスケーリングされた各候補質量スペクトルのそれぞれの対応する強度との間のそれぞれの差の二乗の和を表す項を含むことができる。数学的には、この項は次のように表すことができる。
ここでMは、質量チャネルの数であり、Im=(I1,m,I2,m,I3,m,...,IP,m)質量チャネルmにおける候補質量スペクトルのセットの各候補質量スペクトルの強度のベクトル、及びβ=(β1,β2,β3,...,βP)質量スペクトル係数のベクトル。いくつかの実施形態では、上記の項の平方根が代わりに使用され得ることが理解されるであろう。
上述した誤差項の二乗和の代わりに、誤差項の他の処理を最小化に使用してもよいことが理解されよう。
例えば、平均絶対誤差を最小化することができる。したがって、目的関数は、受け取られた質量スペクトル390の強度と、候補質量スペクトルの係数によってスケーリングされた各候補質量スペクトルのそれぞれの対応する強度との間のそれぞれの絶対差の和を表す項を含むことができる。数学的には、この項は次のように表すことができる。
誤差項の他の処理は、事実上、1つ以上の既存の損失関数の形態をとる上記の項をもたらし得ることが理解されるであろう。そのような損失関数の例は、フーバー損失(又は平滑平均絶対誤差)、コサイン類似性(又はスペクトル角)、LogCosh損失、最尤導出損失関数(MLE)、クロスエントロピー、ヒンジ損失、LINEX損失などを含む。
最適化モジュール430はまた、正則化(又は制約)に従って当該変化を実行するように構成される。正則化は、通常、目的関数に正則化(又はペナルティ)項を含めることによって強制される。正則化は、非0質量スペクトル係数の数を制約する(又は減少させる、又はそうでなければ増加にペナルティを課す)ように構成される。正則化項は、非0係数の数の増加に応じて、目的関数を極値から離れるように移動させるように構成されてもよい。このようにして、正則化項は、非0係数の数に直接依存し得る。したがって、正則化項は、係数のベクトルにおけるスパース性を強制するように構成され得ることが理解されよう。追加又は代替として、正則化項は、非0係数の数に間接的に依存してもよい。特に、正則化項は、係数の大きさの和に比例してもよい。
例えば、LASSO(又は最小絶対収縮及び選択演算子)正則化が使用されてもよい。この場合、正則化項は以下の形式をとることができる。
式中、λは、正則化の強度、したがって、非0係数の数に対する制約の強度を変化させるために変化され得る。
LASSO正則化の場合、目的関数は、以下の形態をとり得る(又は項を含み得る)。
そのような例では、最適化は、最小化問題を解くことを含むと考えることができる。
係数βpが非負の値を有することを条件とする。このような最小化問題は、非負L1正則化回帰として知られている。
上記の正則化項のいずれかに加えて、更なる正則化項も目的関数に含まれ得ることが理解されるであろう。特に、L2正則化項を使用することができる。そのような項の一例は、いわゆる「リッジ回帰」において使用される正則化項である。上述のようにLASSO正則化と組み合わせると、これは「弾性ネット」回帰と呼ぶことができる。ここで、目的関数は、以下の形をとる(又は項を含む)ことができる。
ここで、αは、2つの正則化項の相対強度を制御する0と1の間のパラメータである。αの適切な値は、実験によって決定されてもよく、これらは、LASSO正則化項が係数のベクトルにおけるスパース性を強制することを確実にするように選択される。
正則化の強度(λの値など)は、例えば、所望の数の非0係数を得るための以前の試験に基づいて、予め決定されてもよい。追加的又は代替的に、最適化モジュール430は、正則化の強度を変化させながら複数の最適化を実行するように構成されてもよい。このようにして、非0係数の数は、係数の品質の尺度に関して最小化され得る。例えば、非0係数の数は、所定の閾値を超えない質量スペクトル係数及び受信された質量スペクトルに従って、質量スペクトルの線形結合の強度の絶対差に関して最小化され得る。λを選択するために、他のモデル選択基準又は方法が追加的又は代替的に使用され得ることも理解されるであろう。これらの例は、赤池情報基準(AIC)、
補正赤池情報量基準(AICc)、ベイズ情報量基準(BIC)、調整されたR二乗(R2adj)、交差検証(CV)、段階的回帰などのいずれかを含む。
最適化モジュール430は、多くの例が当技術分野で知られている数値最適化技法を使用して、目的関数に基づいて質量スペクトル係数の変更を実施するように構成され得ることが理解されよう。特に、変化させることは、反復方法(又は手順)を使用して実施されてもよい(又は反復方法(又は手順)を含んでもよい、又は反復方法(又は手順)に基づいてもよい)。したがって、上述した質量スペクトル係数の最適化は、実際には目的関数の極値を得ることができない。上述の最適化は、目的関数の極値(又は推定若しくは予測された極値)に適切に近い(又は適切に近いと推定される)目的関数の値が得られたときに完了(又は成功若しくは終了)し得る。変更が反復方法を使用して実施される場合、上述の最適化は、以下の条件のいずれかが満たされた場合に完了し得る。
(a)所定の反復回数が超過又は満たされていること
(b)前の反復に対する目的関数の値の変化が所定の閾値未満であること
(c)前の反復に対する1つ以上の質量スペクトル係数の値(又は複数の値)の変化が所定の閾値未満であること
(d)所定の時間量が経過したこと
(e)所定数のプロセッササイクルが経過したこと
(f)非0係数の所定の最大数が超過される(又は満たされる)こと
(g)説明された逸脱の所定の最大割合が超過される(又は満たされる)こと
(h)正則化項を含まない目的関数の値が、その極値の所定の閾値内にあることなど
通常、変化させることは、座標降下を使用して実装される。しかしながら、変化させることは、例えば、ニュートン法、準ニュートン法、共役勾配法、最急降下法、近位最小化、サブグラジエント法、近位勾配法、最小角度回帰(LARS)、二次計画法、凸プログラミングなどの有限差分法のいずれかを使用して、全体的に又は部分的に実施されてもよい。
最適化モジュール430は、最適化された質量スペクトル係数432のセットを指標モジュール440に提供するように構成される。
指標モジュール440は、候補分子種のうちの1つ以上について、最適化された質量スペクトル係数のセット432に少なくとも部分的に基づいて、受信された質量スペクトル390における一致のそれぞれの指示445を提供するように構成される。典型的には、指示445が、例えばユーザ出力インターフェース1120を介してユーザに提供される。追加又は代替として、指示445は、追加の処理のために更なるシステムに記憶及び/又は提供されてもよい。
最適化された質量スペクトル係数445のセットにおける非0質量スペクトル係数は、受信された質量スペクトル390における対応する候補質量スペクトルの存在を示すと考えられ得ることが理解される。結果として、非0質量スペクトル係数は、受信された質量分析データ390(又は受信された質量分析データ390に対応するサンプル)内の対応する候補分子種の存在を示すと見なされ得る。最適化された質量スペクトル係数のセット445内の質量スペクトル係数の大きさは、受信された質量分析データ390内の対応する候補分子種の存在量(又は相対存在量)に比例すると見なされ得ることも理解されるであろう。
それぞれの指示は、受信された質量分析データ390内の候補分子種の存在を示す(又はシグナリングする)フラグ(又は他のマーカー)、受信された質量分析データ390内の候補分子種の相対(又は絶対)存在量、それぞれの最適化された質量スペクトル係数、などのうちの1つ以上を含み得る。
指標モジュール440は、対応する質量スペクトル係数が所定の値を超える場合、分子種の存在を示すように構成されてもよい。このようにして、最も可能性の高い(又は最も豊富な)分子種を示す(又は同定する)ことができる。追加的に又は代替的に、指標モジュール440は、所定数の分子種、例えば、最大の質量スペクトル係数(又は受信された質量スペクトル390に対する最大の寄与)を有するもののみの存在を示すように構成されてもよい。
図4は、図3のシステム400によって実行され得るような、受け取られた質量分析データ390において表される1つ以上の分子種を同定する例示的な方法480を概略的に示すフロー図である。
候補選択モジュール420によって実行され得るステップ482において、受信された質量分析データ390に対する候補質量スペクトルのセット490が取得される。各候補質量スペクトルは、それぞれの候補分子種に対応する。1つ以上の候補質量スペクトルは、典型的には、受信された質量分析データ390に基づいて、候補質量スペクトルのセット490の一部として選択される。特に、候補質量スペクトルは、上記で説明されるように、受信された質量分析データとの類似性(又は1つ以上の類似性スコア)に基づいて選択されてもよい。MS2(又はMSn、ここでn>2)実験から生成された受信質量分析データ390について、受信質量分析データ390は、所与の分離窓に対応し得る(又はそれを使用して生成され得る)。この場合、ステップ482は、分離窓内に入るm/z値に対応する分子種の候補質量スペクトルを選択することを含むことができる。
ステップ484において、候補質量スペクトルのセット490に対する質量スペクトル係数のセット432が、質量スペクトルに基づいて最適化される。ステップ484は、最適化モジュール430によって実行することができる。
ステップ484は、ステップ486を含む。ステップ486において、質量スペクトル係数値は、目的関数に基づいて変更される。上述したように、目的関数は、質量スペクトル係数に従って、候補質量スペクトルの線形結合を、受信した質量分析データ390に関連付ける。ステップ486は、非0質量スペクトル係数値の数を制約する目的関数の正則化項に従って実行される。前述のように、正則化項は、係数の大きさの和に比例してもよい。
例えば、LASSO(又は最小絶対収縮及び選択演算子)正則化が使用されてもよい。そのような例では、最適化するステップ484は、最小化問題を解くことを含むものと考えることができる。
係数βpが非負の値を有することを条件とする。
ステップ488において、候補分子種のうちの1つ以上について、質量スペクトル係数の最適化されたセット432に少なくとも部分的に基づいて、質量分析データ390における一致のそれぞれの指標が提供される。それぞれの指示は、受信された質量分析データ390内の候補分子種の存在を示す(又はシグナリングする)フラグ(又は他のマーカー)、受信された質量分析データ390内の候補分子種の相対(又は絶対)存在量、それぞれの最適化された質量スペクトル係数、などのうちの1つ以上を含み得る。
図5は、図4に示す方法480の最適化するステップ484などの最適化するステップの更なる例を概略的に示すフロー図である。
更なる例では、正則化項は、LASSO正則化項に関連して上述したパラメータλなど、正則化度を指定するパラメータを含む。
ステップ510において、正則化度の初期値が取得される。通常、初期値は、使用される正則化項に基づいて決定される極値として選択される。特に、正則化度は、係数が分析的に0であるように選択され得る。0から離れた係数の任意の変化に対して、正則化項の変化が、目的関数の他の全ての項の変化よりも厳密に大きく、反対の符号である場合、係数は分析的に0と見なすことができることが理解されよう。LASSO正則化の場合、これは、λが適切に大きいときに達成され得る。しかしながら、最適以下の初期値は、以下に説明する収束に到達するための計算労力の増加につながる可能性があるが、正則化度の任意の初期値が選択されてもよいことが理解されよう。
ステップ520において、正則化度は、所定のステップ値だけ低減される。ステップ値のサイズは、所望の収束速度に基づいて選択され得ることが理解されよう。
ステップ486において、質量スペクトル係数値は、上述のように現在の正則化度を使用して目的関数に基づいて変更される。変化させるこのステップ486は、最適化された質量スペクトル係数のセットが、現在の正則化度について生成されることをもたらす。
ステップ520及びステップ486は、収束基準が満たされる(又は満たされる)まで反復される。このようにして、正則化度は、質量スペクトル係数の最適化されたセットの収束が得られる(又は他の停止基準が満たされる)まで変化する。
ステップ530において、1つ以上の収束基準がテストされる。収束(又は停止)基準は、加えて、又は代替として、事前定義された反復数を上回るか、又は満たされること、前の反復に対する1つ以上の質量スペクトル係数の値(又は複数の値)の変化が所定の閾値未満であること、所定の時間が経過したこと、所定数のプロセッササイクルが経過したこと、最小数の非0係数が発見されることなどのうちの1つ以上を含み得る。
反復プロセスは、変化させる次のステップ486における質量スペクトル係数のための開始値として、以前の反復において得られた質量スペクトル係数の値を使用することによって加速され得ることが理解されるであろう。
図6は、本発明の一実施形態による例示的な分析システム600を概略的に示す。システム600は、以下に説明する点を除いて、図3のシステム400と同じである。したがって、システム600及びシステム400に共通の特徴は、同じ参照番号を有し、再び説明されないものとする。
受信機モジュール410は、複数690の質量分析データ390(又は複数の質量スペクトル)の項目を受信するように構成されている。各受信質量スペクトル390は、質量スペクトル装置101、質量分析計装置101及び201に結合された分離デバイスから分離パラメータのそれぞれの値で溶出されたそれぞれのサンプルからのものである質量スペクトル装置201、前述の通りである質量スペクトル装置201によって生成された質量スペクトルである。例えば、複数の質量スペクトルは、ペプチド混合物(1つ以上のタンパク質の消化によって得られるものなど)を入力として有するクロマトグラフィー実験に対応し得る。この例では、ペプチドは、分離パラメータ(保持時間又は溶媒勾配など)の関数としてクロマトグラフィーデバイスから溶出し得る。ここで、各質量スペクトルは、保持時間又は溶媒勾配の特定の値で溶出されたペプチドに対応する。
最適化モジュール430及び候補選択モジュール420は、図4で説明した質量分析データ690に作用するのと同じ方法で質量分析データ390の各項目に作用するように構成されていることを除いて、実質的に前述したように構成されている。このようにして、最適化モジュールは、各々が質量分析データ390のそれぞれの項目に対応する最適化された質量スペクトル係数432の複数のセット632を生成するように構成され得ることが理解されるであろう。同様に、同定モジュール440は、質量分析データ390のそれぞれの項目に対応する指標445のセット645に対して構成され得る。
加えて、最適化モジュールは、分離パラメータの先行する(及び/又は後続の)値における受信された質量スペクトル390に対する質量スペクトル係数の最適化された値に基づいて、分離値の1つの値における受信された質量スペクトル390に対する質量スペクトル係数の値を更に制約するように構成されてもよい。一例では、各係数は、追加の情報又は基準に基づいてペナルティを課され得る。
一例では、分離パラメータシーケンス内の1つのポイントiにおける所与の候補質量スペクトルpの係数βp,iと、分離パラメータシーケンス内の隣接する(及び/又は近くのポイント)ポイント(j=i-1、又はj=i+1など)における同じ候補質量スペクトルpの係数βp,jとの間の差に比例するペナルティ項が含まれ得る。ここで、インデックスi=1,2,3,...は、分離パラメータの増加する値における受信された質量スペクトル390のシーケンスを列挙する。先に説明したLASSOアプローチと組み合わせると、目的関数は以下の形式をとり得ることが理解されるであろう。
ここでIm=(I1,m,I2,m,I3,m,...,IP,m)は、質量チャネルmにおける各候補質量スペクトルの強度のベクトルである。
ith受信質量スペクトルの質量チャネルmでの強度、β=(β1i,β2.i,β3i,...,βP,i)ith受信質量スペクトルについての質量スペクトル係数のベクトル、λ1は、正則化の強度であり(以前はλ)、λ2は、追加ペナルティ項の強度である。これは、融合LASSO正則化問題と等価であると考えられ得ることが理解されるであろう。上記の項は、前の点j=i-1に関連して説明されているが、この説明は、次の点j=i+1に同様に適用されることが理解されよう。
図7は、本発明の一実施形態によって計算された候補質量スペクトルの線形結合と共に例示的な実験質量スペクトル790を示す。
グラフ700上のx軸の下に示される強度ピークは、実験質量スペクトル790を表す。実験的質量スペクトル790は、細胞培養で増殖させた細胞からの消化されたヒトタンパク質のサンプルが供給されるMS2質量分析計装置によって生成される。実験質量スペクトル790は、保持時間48.96分で0.65Daの許容差(分離幅)を有する質量429.8997について取得された。より高いエネルギーのCトラップ解離(HCD)を使用して、28の正則化衝突エネルギーで分子種をフラグメント化した。実験質量スペクトルは、Orbitrap(商標)質量分析器を使用して得た。図6に示されるスペクトルは、予測されたスペクトルからのピークに一致する実験的ピークのみを含む(特定の許容差を有する)。比較を明確にするために、サンプル中に存在することが知られているが、候補質量スペクトルにおいて考慮されていないLYVDFPQHLR a2イオン、フェニルアラニンインモニウムイオン、及びチロシンインモニウムイオンに対応する強度ピークは省略される。表1に列挙されたペプチドに対応する質量スペクトルを含む29個の候補質量スペクトルのセットを選択し、前述の本発明のシステム及び方法に従って質量スペクトル係数のセットを生成した。
11個の非0係数が、最適化された質量スペクトル係数のセット内に存在し、そのうちの4つの最大のものが、表710の見出し「係数」の下に列挙されている。x軸の上に示された強度ピークは、4つの最大質量スペクトル係数に対するそれぞれの係数でスケーリングされた候補質量スペクトルの線形結合に対応する。ピークの組み合わせ強度の強度は、一致した実験ピークの強度によく似ている。線形結合のピーク720は、複数の候補質量スペクトルからの寄与を含み、実験質量スペクトルにおける対応するピークを再び厳密に再現することに留意されたい。
更なるグラフ750も図7に示されている。グラフ750は、候補質量スペクトルの線形結合が、非0質量スペクトル係数を有する11個の候補質量スペクトル全てを含むことを除いて、グラフ700と同一である。
上記のシステム及び方法を使用して計算された質量スペクトル係数は、キメラ質量スペクトルの分析を容易にし、更に、質量スペクトル中に存在する分子種を同定及び定量化するために、任意の数の方法で使用され得ることが理解される。例えば、質量スペクトル係数は、改善されたスペクトル類似性スコアの計算を可能にし得る。スペクトル類似性スコアは、多くの場合、2つの質量スペクトルがどの程度一致するかを測定するために使用されることが理解されるであろう。
スペクトル類似性スコアは、実験スペクトルと理論質量スペクトル、予測質量スペクトル又は以前に取得された質量スペクトルとの間で計算される。スペクトル類似性スコアの例は、計数ベースのスコア(又はピーク存在/不在ベースの類似性/非類似性スコア)である。そのようなスコアは、いくつのフラグメントイオンが2つのスペクトル間で一致するかを決定することを含み得る。スペクトル類似性スコアはまた、2つのスペクトルの強度間の正則化されたスペクトルコントラスト角(SA)の尺度を含み得る。SAなどのスペクトル類似性スコアの計算は、当業者に周知である(例えば、トプラクUHら「Conserved peptide fragmentation as a benchmarking tool for mass spectrometers and a discriminating feature for targeted proteomics」、(Mol & Cell Proteomics.2014年8月13(8): 2056-71.doi:10.1074/mcp.O113.036475)及びWan KXら「Comparing similar spectra: from similarity index to spectral contrast angle.」、(J. Am. Soc. Mass Spectrom.2002年1月; 13(1): 85-8.doi:10.1016/S1044-0305(01)00327-0))を参照されたく、本明細書ではこれ以上論じない。
しかしながら、実験スペクトルがキメラである場合、そのようなスコアは、実験スペクトルの基礎となる全ての分析物によって影響され、結果として得られるスコアにバイアスをかける。上記の計算された質量スペクトル係数は、改善されたスペクトル類似性スコアの計算を可能にする。例えば、更なる質量スペクトルは、所与の候補質量スペクトルを除いて、対応する質量スペクトル係数で各々スケーリングされた候補質量スペクトルの全ての寄与を減算することによって、実験質量スペクトルから生成され得る。換言すれば、候補の係数を使用して、所与の候補スペクトル以外の全ての比例強度を予測し、比例強度を互いに加算し、その後、実験スペクトルから当該合計を減算して、更なる質量スペクトルを計算することができる。この更なる質量スペクトルは、全ての干渉スペクトルの寄与が除去された実験スペクトルと考えることができる。実際、更なる質量スペクトルは、所与の候補質量スペクトルの前駆体分子種が質量スペクトル中の唯一の分析物である状況をシミュレートする。次いで、スペクトル類似性スコアが、更なる質量スペクトルと所与の候補質量スペクトルとの間で計算され得る。このようにして、存在する他の分析物から生じるバイアスが低減され得るので、得られるスペクトル類似性スコアが改善されることが理解されるであろう。
上記のシステムはまた、MS2/MSn不安定性同重体標識試薬(例えば、TMT)で誘導体化された分子種に使用され得ることが理解される。所与のサンプル100中の分子種は、フラグメント化時にレポーターイオンを生成するレポーター基を含むタグ付け試薬で標識することができる。次いで、異なるタグ化試薬で標識された複数のサンプルを組み合わせることができる。示差的に標識された同一の前駆体分子種を一緒に分離し、フラグメント化して、サンプル当たり(又はタグ化試薬当たり)1つの固有のレポーターイオンを含む実験的質量スペクトルを得ることができる。生成されたレポーターイオンは、サンプルをプールする前に組み合わされたサンプルの前駆体分子種の相対比を示し、定量化に使用することができる。
実験質量スペクトルがキメラである場合、このようなレポーターイオン強度は、実験質量スペクトルにおいて表される全ての分子種によって影響され得ることが理解される。したがって、所与の分子種の定量化は、同じレポーターイオンの強度に寄与するサンプル中の複数の分子種に起因してバイアスされる場合がある。上記の計算された質量スペクトル係数は、分子種についての改善された定量値の計算を可能にする。
例えば、最適化された質量スペクトル係数は、定量化のために考慮される質量スペクトルを選択/選択解除するためのキメラ性基準を導出するために使用され得る。
追加的又は代替的に、計算された質量スペクトル係数は、対応する質量スペクトル係数及び他の受信された質量スペクトルから得られた異なるサンプルについての混合比からなる連立一次方程式を解くことによって、キメラスペクトルへの寄与に従って実験的レポーターイオン強度を基礎となる分子種に分配するために使用され得る。このようにして、存在する他の分子種から生じるバイアスが低減され得るので、受け取られた質量スペクトルから得られる定量的情報が改善されることが理解されるであろう。
一例として、3つの実験スペクトルが存在するシナリオでは、ペプチドA及びペプチドBからそれぞれ生成された2つの純粋スペクトルと、ペプチドA、ペプチドB及びペプチドCから生成された1つのキメラスペクトルとがある。キメラスペクトルにおけるペプチドA及びBからのバイアスの存在下でペプチドCについてのレポーターイオン強度を計算するために、それらの対応する純粋なスペクトルからのペプチドA及びペプチドBのレポーターイオン強度に、上記の方法をキメラ質量スペクトルに適用することによって得られた対応する最適化された係数を掛けることが可能である。これらのスケーリングされたレポーターイオン強度をキメラスペクトルのレポーターイオン強度から減算することによって、ペプチドA及びBからのバイアスが実質的に除去された状態で、ペプチドCについてのレポーターイオン強度が生成される。
すぐ下に記載される別の例において、計算された質量スペクトル係数は、サンプルの混合物に関してサンプルのうちの1つに起因する特定のペプチドの分画存在量を決定するために使用され得る。
特に、それぞれの質量スペクトル(又は質量分析データの項目)が、所与の分離パラメータの複数の値の各々について生成される分離実験において、計算された質量スペクトル係数及びレポーターイオン強度が、質量分析データの各項目について得られ得る。言い換えれば、分離パラメータ(又はスキャン)の各値について、計算された質量スペクトル係数のセット及びレポーターイオン強度のセットが得られ得る。質量スペクトル係数は、所与のスキャンについて混合サンプル中の各ペプチドの存在量を示し、レポーターイオンは、存在する混合物中の各サンプルの相対割合を示すので、サンプルの1つに対応する混合サンプル中のペプチドの存在量の割合は、線形代数を使用して決定することができる。
これは、添付書類Aにおいて以下に概説される説明に沿って理解され得る。
上述のシステムは、当技術分野で知られている既存の標的デコイ技術と共に使用することもできることが理解されよう。このような技術は、多くの場合、実験的質量分析データにおいてフラグメント質量スペクトルを同定しようとする場合に、多数のデコイ質量スペクトルがフラグメント質量スペクトルと競合することを可能にすることを含む。デコイ質量スペクトルは、通常、強度ピークの質量チャネルが変更されている、適切にスクランブルされた候補質量スペクトルである。したがって、デコイ質量スペクトルは、「真の」前駆体分子種に対応せず、実験質量分析データとデコイ質量スペクトルとの間の任意の一致は、偽陽性(又は偽発見)を表さなければならない。そのようなものとして、そのようなデコイ一致の数は、所与の実験質量分析データ390に対する偽発見率を推定するために使用され得る。したがって、これを使用して、非デコイフラグメントスペクトルに対する任意の一致について偽陽性尤度(又は他の正確性スコア)を推定することができる。一般的な標的デコイ技術は、当業者に周知である(例えば、Elias,J.、Haas,W.、Faherty,B.ら「Comparative evaluation of mass spectrometry platforms used in large-scale proteomics investigations.」、(Nat Methods2,667-675(2005).DOI:10.1038/nmeth785)、Elias JE, Gygi SP.「Target-decoy search strategy for mass spectrometry-based proteomics.」(Methods Mol Biol.2010,604:55-71. doi: 10.1007/978-1-60761-444-9_5)、「Reverse and Random Decoy Methods for False Discovery Rate Estimation in High Mass Accuracy Peptide Spectral Library Searches」(Zheng Zhang, et al. Journal of Proteome Research 2018 17 (2), 846-857, DOI: 10.1021/acs.jproteome.7b00614)。
このようにして、システム400及び600の候補選択モジュール420は、候補質量スペクトルのセット内に1つ以上のデコイ質量スペクトルを含むように構成され得ることが理解されるであろう。デコイ質量スペクトルは、適切な質量スペクトルデータベース425から得ることができる。加えて、又は代替として、候補選択モジュール420は、1つ以上の既存の候補質量スペクトルに基づいて、1つ以上のデコイ質量スペクトルを生成するように構成されてもよい。これは、デコイ質量スペクトルを生成するための既存の既知の技法を使用して行われてもよい。上述のように候補質量スペクトルとして理論質量スペクトルを使用することは、現実的な強度分布を有するデコイ質量スペクトルをより容易に生成することができるので、特に有利である。
説明された方法は、特定の順序で実行される個々のステップとして示されていることが理解されよう。しかしながら、当業者は、これらのステップが、依然として所望の結果を達成しながら、異なる順序で組み合わされるか又は実行されることができることを理解するであろう。
本発明の実施形態は、様々な異なる情報処理システムを使用して実施されることができることが理解されるであろう。特に、図及びその説明は、例示的なコンピューティングシステム及び方法を提供するが、これらは、本発明の様々な態様を説明する際の有用な参照を提供するためにのみ提示されている。本発明の実施形態は、パーソナルコンピュータ、ラップトップ、携帯情報端末、携帯電話、セットトップボックス、テレビ、サーバコンピュータなどの任意の適切なデータ処理デバイス上で実行することができる。当然のことながら、システム及び方法の説明は説明の目的のために簡略化されており、それらは本発明の実施形態に使用することができる多くの異なるタイプのシステム及び方法のうちの1つにすぎない。論理ブロック間の境界は単なる例示であり、代替の実施形態は、論理ブロック若しくは要素をマージするか、又は様々な論理ブロック若しくは要素に機能の代替分解を課すことができることが理解されよう。
上記の機能は、ハードウェア及び/又はソフトウェアとして1つ以上の対応するモジュールとして実装することができることが理解されよう。例えば、上記の機能は、システムのプロセッサによって実行されるための1つ以上のソフトウェア構成要素として実装することができる。あるいは、上記の機能は、1つ以上のフィールドプログラマブルゲートアレイ(field-programmable-gate-array、FPGA)、及び/又は1つ以上の特定用途向け集積回路(application-specific-integrated-circuit、ASIC)、及び/又は1つ以上のデジタルシグナルプロセッサ(digital-signal-processor、DSP)、及び/又は他のハードウェア構成などのハードウェアとして実装することができる。本明細書に含まれるフローチャートに実装された、又は上述した方法ステップは、各々、対応するそれぞれのモジュールによって実装されてもよい。本明細書に含まれるフローチャートに実装された、又は上述した複数の方法ステップは、単一のモジュールによって一緒に実装されてもよい。
本発明の実施形態がコンピュータプログラムによって実装される限り、記憶媒体及びコンピュータプログラムを搬送する伝送媒体が本発明の態様を形成することが理解されよう。コンピュータプログラムは、1つ以上のプログラム命令、又はプログラムコードを有することができ、これらは、コンピュータによって実行されると、本発明の実施形態を実行する。本明細書で使用される「プログラム」という用語は、コンピュータシステム上で実行するために設計された一連の命令とすることができ、サブルーチン、関数、プロシージャ、モジュール、オブジェクトメソッド、オブジェクト実装形態、実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共有ライブラリ、動的リンクライブラリ、及び/又はコンピュータシステムで実行するために設計されたその他の一連の命令を含むことができる。記憶媒体は、磁気ディスク(ハードドライブ若しくはフロッピーディスクなど)、光ディスク(CD-ROM、DVD-ROM、若しくはBluRayディスクなど)、又はメモリ(ROM、RAM、EEPROM、EPROM、フラッシュメモリ若しくはポータブル/リムーバブルメモリデバイスなど)などであり得る。伝送媒体は、通信信号、データブロードキャスト、2台以上のコンピュータ間の通信リンクなどであり得る。
付録A
前述のように、同重体標識手順(タンデム質量タグ付け手順など)では、複数のサンプル(本明細書ではl=L,M,N,...として示される)は各々、フラグメント化の際にそれぞれのレポーターイオンを生成するそれぞれのレポーター基を含むそれぞれのタグ付け試薬でタグ付け(又は標識)することができる。
サンプルは各々、未知の割合で1つ以上のペプチド種を含む。ここで、ペプチドは、a=A,B,C,...として示される。本明細書中の説明は、適切なタグ化試薬で標識された任意のセットのペプチドを含む、任意のセットのサンプルに適用されることが理解される。
典型的には、サンプルは混合され、いくつかのMSnスキャンを受ける。ここで、スキャンは、i=1,2,3,...,Qによって示される。各スキャンiにおいて、各サンプルに対応するレポーターイオンの存在量が(例えば、それぞれのレポーターイオンのピーク強度として)測定される。スキャンiについてのレポーターイオン強度は、Rl,iとして示され、ここでlは、レポーターイオンに対応するサンプルの標識である。例えば、スキャンiにおいて3つのサンプルL,M,Nがあるシナリオをとると、強度RL,i,RM,i,RN,iが得られる。
更に、上記の方法を当該スキャンiに適用して、混合サンプル中に存在するペプチドの強度を計算(又は推定)する。特に、所与のスキャンにおける任意のペプチドaの強度は、そのスキャンについて、ペプチドaの候補質量スペクトルに対応する質量スペクトル係数βpから計算することができ、すなわち、指数pはaに等しい。スキャンiについてのペプチドのこれらの計算された強度は、Ia,iと示され、aはペプチドの標識である。例えば、スキャンiにおいて3つのペプチドA,B,Cが存在するシナリオをとると、強度IA,i,IB,i,IC,iが得られる。
本明細書で使用される表記を完全にするために、以下の通りである
・サンプルl中のペプチドaの絶対存在量は、Cl,aによって表される
・全サンプル内のサンプルlについてのペプチドaの存在量の割合は、
・1つのペプチドaのみに関連するスキャンiにおけるサンプルlのレポーターイオンの、通常未知の部分は、Rl,a,iによって示され、例えばRL,A,2は、ペプチドAのみに由来するスキャン2におけるサンプルLからのレポーターイオンの量である
以下に詳細に述べるように、各スキャンで混合サンプル中に存在するペプチドの強度を決定するために上記の方法を使用して、異なるサンプル間の固定ペプチドについてのペプチド存在量の比を計算することができる。言い換えれば、全てのサンプル内の当該ペプチドの総存在量に対する各サンプルが有する存在量の割合は、各スキャンにおける混合サンプル中に存在するペプチドの強度に基づいて決定され得る。
スキャンiは、1を除く全てのIa,iが0である場合に純粋であることが理解されよう。例えば、純粋スキャン2は、IA,2=0、IB,2=0.5、及びIC,2=0を有し得る。ここで、スキャン2は、ペプチドBのみを含み、したがって、全てのサンプル1について、R1,B,2=R1,2及びR1,A,2=R1,C,2=0である。一般に、特定のペプチドa及びスキャンiについてIa,i=0である場合、全てのサンプルlについてRl,a,i=0である。
不純なスキャンの場合、以下の式を使用することができる。特に、ここで、溶出プロファイルは、それが由来するサンプルとは無関係に、各ペプチドについて同じであることが理解される。したがって、以下の仮定を行うことができる。
1.特定のペプチド及びサンプルに関連するレポーターイオンの部分は、合計してそのサンプルのレポーターイオンのピーク強度になる。
2.所与のペプチド及び所与のサンプルに関連するレポーターイオンの、そのペプチドの強度に対する比は、ペプチドが同じ溶出プロファイルで溶出しているので、スキャンにわたって、i及びjの任意の値について一定である。
3.異なるサンプルLとMとの間の特定のペプチドAに関するレポーターイオンの比は、その比が、一定であるLとMとの間のペプチド存在量の比、及びLとMとの間で異ならないAについての溶出曲線の形状のみに依存するので、スキャンにわたって一定である。
又は、等価的に、l,m,i及びjの任意の値について、
4.ペプチドA及びBに属する1つのサンプルLについてのレポーターイオン間の比は、その比がサンプルL内のペプチドA対ペプチドBの絶対存在量にのみ依存するので、スキャンにわたって同じままである(すなわちCL,A:CL,B)
5.比
は、所与のペプチドaについて一定であるが、iは変動し得る。
式2から、rl,a=Rl,a,i/Ia,iと定義することができ、以下の式が導かれる。
又は行列形式で、
行列Iは典型的には二乗ではないので、連立一次方程式を解くには少なくとも2つのアプローチがある。
通常そうであるように、ペプチド(列)よりも多くのスキャン(行)が存在する場合、rを得るために以下の方程式を立てることができる。
換言すれば、解は最小にするrの値である
あるいは、スキャンより多くのペプチドが存在する場合、連立方程式は、制約
を用いて解くことができる。
を条件とする。
典型的には、両方の場合において、Iの擬似逆行列、すなわちI+は、既知の線形代数技法を使用して計算することができ、解は次のように与えられる。
追加的又は代替的に、共役勾配法を使用する方程式解法などの既知の数値技術が、
に対する解を得るために使用されてもよい。
所与のペプチドaについての何らかの定数αaについて、Cl,a=αarl,aであることが理解されよう。したがって、全サンプル内のサンプルlについてのペプチドaの存在量の割合は、以下の式によって与えられる。
このようにして、全てのサンプル内の当該ペプチドの総存在量に対する各サンプルが有する存在量の割合を決定することができる。
本発明のまた別の態様は、以下のとおりであってもよい。
〔1〕質量分析データにおいて表される1つ以上の分子種を同定する方法であって、
前記質量分析データについて、候補質量スペクトルであって、各候補質量スペクトルがそれぞれの候補分子種に対応する、候補質量スペクトルのセットを取得することと、
前記質量分析データに基づいて、前記候補質量スペクトルのセットに対する質量スペクトル係数のセットを最適化することであって、前記最適化することが、
目的関数であって、前記目的関数が、前記質量スペクトル係数に従って、前記候補質量スペクトルの線形結合を前記質量分析データに関連付ける、目的関数に基づいて、前記質量スペクトル係数値を変化させることを含む、最適化することと、
前記非0質量スペクトル係数値の数を制約する前記目的関数の正則化項に従うことと、
前記候補分子種のうちの1つ以上について、前記最適化された質量スペクトル係数のセットに少なくとも部分的に基づいて、前記質量スペクトルにおける一致のそれぞれの指示を提供することと、を含む、方法。
〔2〕前記1つ以上の分子種が、1つ以上の前駆体分子種であり、前記質量分析データが、前記1つ以上の前駆体分子種に由来するフラグメント質量スペクトルであり、各候補質量スペクトルが、それぞれの候補分子種に対応する候補フラグメント質量スペクトルである、前記〔1〕に記載の方法。
〔3〕前記提供するステップが、前記フラグメント質量スペクトル係数の最適化されたセットに基づいて、キメラ質量スペクトルにおいて表されるサンプル分子種として前記1つ以上の候補分子種を同定することを含む、前記〔2〕に記載の方法。
〔4〕1つ以上の候補フラグメント質量スペクトルにおいて表される前駆体分子種が、ペプチド又はペプチド前駆体である、前記〔2〕又は〔3〕に記載の方法。
〔5〕前記質量分析データが、前記1つ以上の分子種のMS1質量スペクトルであり、各候補質量スペクトルが、それぞれの候補分子種に対応する同位体パターンを含む、前記〔1〕に記載の方法。
〔6〕前記質量分析データがMS1質量スペクトルであり、前記候補質量スペクトルのうちの1つ以上が、前記MS1質量スペクトルに対応するMS2質量スペクトルに基づいて前記候補質量スペクトルのセットの一部として選択される、前記〔1〕又は〔5〕に記載の方法。
〔7〕所与の候補質量スペクトルについて、
スペクトル類似性スコアが、前記所与の候補質量スペクトルと更なる質量スペクトルとの間で計算され、前記更なる質量スペクトルが、質量スペクトル係数の前記最適化されたセットに従って、前記質量分析データから前記他の候補質量スペクトルの各々を減算することによって生成される、前記〔1〕~〔6〕のいずれか一項に記載の方法。
〔8〕それぞれの指標が、質量スペクトル中に存在する対応する候補分子種の量を含む、前記〔1〕~〔7〕のいずれかに記載の方法。
〔9〕質量スペクトル係数の前記最適化されたセットに基づいて、前記質量分析データをキメラ質量スペクトルとして同定することを更に含む、前記〔1〕~〔8〕のいずれか一項に記載の方法。
〔10〕前記1つ以上の分子種が、複数の同重体標識前駆体分子種であり、前記質量分析データが前記複数の同重体標識前駆体分子種に由来するフラグメント質量スペクトルであり、それぞれの候補質量スペクトルが各候補同重体標識分子種に対応する候補フラグメント質量スペクトルであり、
前記提供するステップが、候補質量スペクトルのうちの1つ以上についてのレポーターイオン強度を生成することと、前記質量分析データから生成された前記前駆体分子種についてのレポーターイオン強度と、前記対応する最適化質量スペクトル係数によってスケーリングされた前記1つ以上の候補質量スペクトルについての前記レポーターイオン強度との間の差に基づいて、前記前駆体分子種のうちの少なくとも1つについての補正されたレポーターイオン強度を生成することとを更に含む、前記〔1〕~〔4〕のいずれか一項に記載の方法。
〔11〕前記質量分析データが、分離パラメータについての一連の質量分析データの一部であり、前記一連の質量分析データが、複数の異なるように同重体標識されたサンプルを含む混合サンプルから生成され、
前記候補質量スペクトルのセットについて質量スペクトル係数のセットを最適化する前記ステップが、前記一連の質量分析データ内の質量分析データの各項目について繰り返されて、質量分析データの各項目について、前記質量分析データの項目に対応する前記分離パラメータの値について最適化された質量スペクトル係数のそれぞれのセットを生成し、
前記方法は、
質量分析データの各項目について、レポーターイオン強度のそれぞれのセットであって、前記セットの各レポーターイオン強度が、前記混合サンプルのそれぞれの同重体標識サンプルに対応する、レポーターイオン強度のそれぞれのセットを取得することと、
前記ペプチド前駆体のうちの少なくとも1つについて、前記レポーターイオン強度のセット及び前記最適化された質量スペクトル係数のセットに基づいて、前記サンプルのうちの1つに対応する前記混合サンプル中の前記ペプチドの存在量の割合を計算することとを更に含む、前記〔4〕に記載の方法。
〔12〕前記質量分析データが、分離パラメータについての一連の質量分析データの一部であり、前記正則化項が、所与の候補質量スペクトルについての前記質量スペクトル係数と、前記一連の更なる質量分析データについて決定された同じ候補質量スペクトルの質量スペクトル係数との間の関係を強制する制約を含む、前記〔1〕~〔11〕のいずれか一項に記載の方法。
〔13〕前記正則化項が、前記質量スペクトル係数値のL
1
ノルムを含み、任意選択で、前記正則化項が、前記質量スペクトル係数値のL
2
ノルムを含む、前記〔1〕~〔12〕のいずれか一項に記載の方法。
〔14〕前記最適化するステップが、前記正則化項の正則化度を指定するパラメータを変化させることを更に含む、前記〔1〕~〔13〕のいずれか一項に記載の方法。
〔15〕前記目的関数が、前記候補質量スペクトルの前記線形結合と前記質量分析データとの間の差の尺度を提供し、任意選択で、前記変化させるステップが、前記目的関数の極値を得る目的で実行される、前記〔1〕~〔14〕のいずれか一項に記載の方法。
〔16〕前記〔1〕~〔15〕のいずれか一項に記載の方法を実行するように構成された、システム。
〔17〕プロセッサによって実行されると、前記〔1〕~〔15〕のいずれか一項に記載の方法を前記プロセッサに実行させる、コンピュータプログラム。
〔18〕前記〔17〕に記載のコンピュータプログラムを記憶する、コンピュータ可読媒体。