JP4328532B2

JP4328532B2 - 化合物の性質最適化のための２ｄまたは３ｄ−化合物構造式の階層位相ツリーを発生させるための方法

Info

Publication number: JP4328532B2
Application number: JP2002572763A
Authority: JP
Inventors: アクセル・イェンゼン; シュテファン・ザイドラー
Original assignee: Bayer AG
Current assignee: Bayer AG
Priority date: 2001-03-15
Filing date: 2002-03-12
Publication date: 2009-09-09
Anticipated expiration: 2022-03-12
Also published as: CA2440819A1; WO2002074035A3; WO2002074035A2; US20070043511A1; GB0106441D0; AU2002256662A1; US20040088118A1; EP1405247A2; JP2004537085A

Description

本発明は、構造的に特徴のある化合物、特に薬物様分子のための２Ｄ-または３Ｄ-構造式の階層位相ツリーを自動的および動的に発生させるための新規方法に関する。それは、多くの用途、例えばコンピューターベース構造／性質分析、ファーマコフォア分析、大量化合物保存書庫における結果スクリーニングのためのテンプレート配向ベイズ統計または特許編集の構造分析における、構造ベース情報処理を支援する。

これまで、自動化動的手順は、化合物および薬物に対する位相特徴をベースとする絶対および標準化構造分析のために利用できていない（Bayada D.M., Hamersma H. および van Geerestein V.J., 化学データベースにおける分子の多様性および典型, J. Chem. Inf. Comput. Sci., 39, 1-10 (1999)）。

代りに、クラスタリングのような教師なし学習法（Bratchell N., クラスタ分析, Chemometrics and Intell. Lab. Systems, 6 (1989), 105-125; Linusson A. wold S. および Norden B., コンビナトリアルケミストリのための化合物のクラスタ分析についてのストラテジーにより導かれる６２７アルコールのファジークラスタリング, Chemometrics and Intelligent Lab. Systems, 44 (1998), 213-217）または様々な種類の Artificial Neutral Nets または構造類似性基準法、例えば最大共通構造分析（Holliday J.D. および Willett P., リガンドセット中における共通構造特徴を識別するための遺伝的アルゴリズムの使用, J. Mol. Graphics and Modelling, 15, 221-231, 1997）を介する教師なし学習が、類似化合物群を識別するために使用される。これらの方法のほとんどは、類似化合物は、同様に反応および挙動するだけでなく、類似の物理的および生物学的性質も有するというパラダイムを頼みにする。その結果、これらの技術は、化合物間の化学類似性のための尺度を必要とし（Basak S.C., Bertelsen S. および Grunwald G.D., 分子類似性および構造活性の関係の定量におけるグラフ理論パラメーターの適用, J. Chem. Inf. Comput. Sci., 1994, 34, 270-276; Basak S.C., Magnuson V.R., Niemi G.J. および Regal R.R., グラフ理論インデックスを使用する化合物の構造類似性の決定, Discrete Applied Mathematics, 19 (1998), 17-44）、これらは、各分子対間の化学的距離を、これら化合物の性質および活性の適切な差異に訳せるということを仮定して、化合物および化合物に類似する群での計算または測定化学的差異をスコア付けし、比較することを可能にする。

計算類似性は、しばしば構造要素の限定セット（例えば構造フィンガープリント)(Willet P., 化学類似性検索, J. Chem. Inf. Comput. Sci., 1998, 38, 983-996; Flower D.R., 化学類似性のビットストリングベース測定のプロパティについて, J. Chem. Inf. Comput. Sci., 1998, 38, 379-386; McGregor M.J. および Muskal S. M, ファーマコフォアフィンガープリンティング. ２. 一次ライブラリ設計への適用, J. Chem. Inf. Sci., 2000, 40, 117-125; Wild D.J. および Blankley C.J., ２Ｄフィンガープリントタイプおよび階層レベル選択の比較. ウォードクラスタリングを使用する構造グルーピング法, J. Chem. Inf. Comput. Sci., 2000, 40, 155-162) から、谷本係数（Tanimoto coefficient)(Goddeen J.W., Xiu L. および Bajorath J., コンビナトリアルプリファレンスは、バイナリーフィンガープリンティングおよび谷本係数を使用する分子類似性／多様性計算に作用する, J. Chem. Inf. Comput. Sci., 2000, 40, 163-166) に関して導かれる。原則として、あらゆる利用可能な類似性基準は、各分子がその最近接リストにおけるクラスタ中に全ての他の分子を有すること、およびその逆により、クラスタ中のあらゆる分子対が特徴づけられるように、同じクラスタに属する分子を見つけるために、各分子の類似性順位付け隣接リストを分析することにより、クラスタリングに役立ち得る。

類似性ベース手順の欠点は、構造のグルーピングのための絶対的基準が存在しないことであり、その代わり、データセット内の自己類似性試験が適用され、それについて各分子は、最近接物を見つけるために、全ての他のものと比較されなければならない。データ量が増加するにつれ（例えば１スクリーンあたり１００万を超える試験化合物）、分類のために費やされる努力は、分析すべき分子数に少なくとも二次的に依存し、これはしばしば、階層分類法（Mojena R., 階層グルーピング法および停止ルール: 評価, The Computer Journal, 20(4), 1975）の適用を、小さいデータセットに制限する。またコンビナトリアルケミストリのような新規技術により、化合物の実際の保存書庫は増加し、それらの化学的性質は高速で変更される。これは、実際のクラスタメンバーシップが薬物保存書庫の内容変化により変化するように、データセットにおける自己類似性のための相対尺度を基準とする化合物分類についてのあらゆる試みを不充分なアプローチにさせる。その上、最適クラスタの実数は前もって分からず、パラメーターの階層調節またはデータについてのアプリオリ（a priori）知識を必要とする。それにも関わらず、いくつかのクラスタの奇妙な母集団またはシングルトンの存在のいずれかに直面し、これについて、充分な類似化合物は存在しない。

教師あり学習法、例えば Artificial Neutral Nets (ＡＮＮ)は、トレーニング（過学習データの危険を有する）およびネットアーキテクチャの最適化を必要とする。それらは、しばしば「ブラックボックスシステム」として使用され、理解することが困難であり得る結果を供給する。そうしてデータからのリガンドおよび標的性質についての知識抽出は、制限され、引き続きのリガンド最適化プロセスにおける合理的活用のために使用することが困難となり得る。

既知の Maximum Common Substructure (ＭＣＳ) アルゴリズムは、大量データセットにおけるペア構造比較からの組合せ爆発に対処する必要があることを欠点にもち、おそらく細胞多重標的アッセイにおける矛盾するデータのために役立たないであろう。それらはまた、リガンド中の同種官能的または同種立体的置換により、構造的に多様なデータ中で下位構造間の一対一対応が見つからない場合、より大きな共通下位構造を識別し損ない得る。

テンプレート配向手順に関して、データ−ベースにおいて事前定義スカフォード分析（Glenn J. Myatt, Wayne P. Johnson, Kevin P. Cross, および Paul E. Blower, Jr.; リードスコープ(LeadScope): スクリーニングデータの大量セットを探索するためのソフトウェア, Gulsevin Roberts, J. Chem. Inf. and Computer Sci. (2000), 40, 1302; WO00049539a1）を、２７,０００の構造要素の事前定義階層に基づき、構造および／またはフラグメント分析のための総称自動的または動的ツールを使用せずに行う技術だけがこれまで公表されている。既知の特徴を用いる所定化合物プロフィルの検索のために、いくらかの進展が、類似性ベース特徴ツリー分析（Rarey M および Stahl M, ラージコンビナトリアルケミストリスペースにおける類似性検索, J. Computer-Aided Mol. Design, 15, 497-520 (2001)）または形態類似性分析（Andrew KM および Cramer RD, J. Med. Chem. 43, 1723 (2000)）により達成されている。

まだ、大規模薬物保存書庫についての分析および位相的観点を標準化するための、効率的なツールは存在しない。しかしながらこれは、化学駆動情報処理を容易にすることができ、官能および位相ギャップの系統的識別およびスコア付けを支援することができ、そうして、合成的考察により化学下位構造選択を優先付けることを可能にする。しばしばプロパティベース技術が適用され、これは、プロパティスペースのギャップ（Linusson A., Gottfries J., および Lindgren F. および Wold S., コンビナトリアルケミストリのための構成要素の統計分子設計, J. Med. Chem. 200, 43, 1320-1328; Pearlmann R.S. および Smith K.M., 計量確認およびレセプターに関連するサブスペース概念, J. Chem. Inf. Comput. Sci. 1999, 39, 28-35）またはある好都合なプロパティ領域（Leach A.R., Green D.V.S., Haan M.M., Judd D.B. および Good A.C., ギャップはどこにある？モノマーの収集および選択についての合理的アプローチ, J. Chem. Inf. Comput. Sci. 40 (5）[2000], 1362-1269）に落ち着く、新規化学的実体検索における利用可能化合物の計算または測定性質をクラスタリングするための、統計分析と組み合される。

しかしながらこれらの方法は、望ましいプロパティはその特定構造に矛盾するか、あるいは望ましいプロパティプロフィルは、プロパティ評価（Ward J.H. Jr., 目的関数を最適化するための階層グルーピング, American Statistical Ass. Journal, 1963, 236-244）のために使用される相関または不正確なパラメータにより実際の化合物とはずれることにより部分的に、ギャップのために望ましいプロパティを実際にこれらのギャップを満たす分析可能な化学に容易に翻訳することができないということを欠点としてもつ。さらに、プロパティベース法からのあらゆる化合物選択は、薬物標的相互作用および生体活性のために必要とされる適切な化学を確保するために、本質的なファーマコフォアデータの存在を考慮しなければならない。

化合物の２Ｄ構造は、新規薬物様化合物のために変換可能で関連があり得る既知の薬物の特徴的な構造的特徴を要約するために、位相鍵特徴、例えば環、リンカーおよび側鎖（Bemis GW; Murcko MA, 既知薬物の性質. １. 分子フレームワーク, J. Med. Chem, 39 (15) (1996), 2887-2893; Bemis GW; Murcko MA, 既知薬物の性質. ２. 側鎖, J. Med. Chem. 42 (25) (1999): 5095-5099）に関して分析できることは周知である。しかしながら位相鍵の定義は、薬物におけるそれらの度数分布を表示するために、既知の薬物の遡及データベース分析に対してだけ使用されている。分子構造中のそのような位相特徴を使用することにより、化合物を、これらの特徴の数および種類により、位相式インデックス（de Leut A., Hohenkamp J.J.J. および Wife R.L., 仮想および脱落／出現化学における薬物候補の発見, J. Heterocyclic Chem., 37, 669 [2000]）の種類に類別することができる。

定義
グラフ：ノード（頂点）から構成され、エッジにより接続される数学的構成物。本発明において私達は、グラフの２つの種類、分子グラフとツリーとを区別する。
ノード（頂点）：特定の（化学）対象を表すグラフまたはツリー中の１つまたはそれ以上のエッジの最終点、これは円（または別の記号）により、またはネームタグ（例えばラインコード、位相シーケンスコード（ＴＳＣ）またはモルコード）により視覚化され得る。グラフにより表される対象に応じて、ノードの物的解釈は変化し得る（即ち、分子グラフ中のノードは原子を表し、位相構造ツリー中のノードは、一般に化合物、（下位構造）テンプレートまたは分子グラフである。）。
リーフノード：ツリー中のエンドノード、本発明においてこれは、インプットデータストリーム中に存在する化学的実体（およびその分子グラフ）のために、充分に分解された構造ノードを表す。リーフノードは、ユニークな登録ＩＤによりラベル付けされる。
エッジ：分子グラフ中またはツリー（例えば位相構造ツリー（ＴＳＴ））中の２つのノードを連結し、分子グラフ中の単一または多重ラインおよびツリー中の単一ラインにより視覚化され得る。
分子グラフ：化合物の構造式のためのモデル、この中でノード（頂点）は原子を表し（種類、数および原子価により特徴付けられる）、エッジは化学結合を表す。各化合物は、無向水素欠乏分子グラフＧ(Ｖ,Ｅ)¹（この中でＶ(v₁,v₂,...) は頂点（ノード、原子）のセットであり、Ｅ(e₁,e₂,...) はエッジ（化学結合）のセットである。）として扱われる（視覚化され得る）。インプットデータからのあらゆる化合物ｉのために、このグラフは、Ｇ(i) と省略される。このグラフ中の頂点（原子）は、あらゆる共通の非水素原子であり得、その中で炭素は、薬物様化合物に対して仮想参照とみなされる。エッジ（化学結合）は、一重、二重、三重、部分二重／芳香族タイプであり得る。
テンプレート：基本位相コンポーネント（位相鍵特徴参照）、例えば環、リンカー、分子鎖、から構成される全炭素下位構造、これは、主として、現実の薬物分子の固定(rigid)および特徴的なコンポーネントであると仮定される。同義語は、フレームワークである。テンプレート（フレームワーク）は、その位相タイプのあらゆる化学誘導体を集めるための標識分子であるとみなされる、即ち、化学誘導体の様々なクラスを含む。これは、インプットデータストリーム中において、理論的に可能であるかまたは実際に存在し得る。
スカフォード：テンプレートに類似するが、化学的に（即ち、ヘテロ原子の存在により）修飾されている。即ち、それは、固定フレームだけでなく、リガンド標的相互作用のための特異な確定幾何学的配置の機能モチーフも表し得る。
コア：現実の薬物中に存在する最高順位の位相要素（全炭素下位構造）、これは、位相構造ツリー中のルートノードとして機能する。

モルコード：位相構造ツリー（ＴＳＴ）中に存在するあらゆる下位構造ノードのための特徴的なネームタグ。これは、２つのパーツからなる：（第１）分子グラフ中に存在する構成位相鍵特徴のために、事前定義ラベルから、階層組織化テキストストリング（即ち、ラインコード）として定義される、位相ネームタグ（そうしてこれは、元のテンプレート構造に容易に翻訳され得る）、および（第２）化学的に変換されている各下位構造要素のための化学変換の位置および種類を明記する、ラインコードに結び付けられている化学修飾ストリング。用語モルコードは、続いて、その構造が全炭素テンプレート（これは、特性評価のための位相データのみを必要とする）であるか、または化学誘導体であるということに関わらず、（下位）構造のあらゆるネームタグのために使用される。モルコードが、最大の全炭素下位構造（即ち位相クラスタ中心）に対して発生する場合、それは、含まれるあらゆる妥当な下位構造のための位相シーケンスコード（ＴＳＣ）としても解釈され得る。インプットストリームからの実際の化合物に対し、モルコードは割り当てられないが、元の登録番号を、代りにネームタグとして使用し得る。
ツリー：エッジリンクされたノードのアセンブリ、その中で円形パスは存在しない。ノード（頂点）およびエッジの意味は、ツリーにより表される対象に依存する（例えばＴＳＴは、さまざまな複雑なものの分子および下位構造テンプレートから構成される）。本発明において動的ツリーは、階層位相構造ツリーを構成するために、大量インプットストリームから on the fly で、および柔軟なユーザーコントロール下でツリーおよび化合物を視覚化して、使用される。
位相クラス：下位構造カテゴリー（またはクラス）、これは、所定化合物中に存在することができ、いくつかの原子が、環（Ｒ）、リンカー（Ｌ）、分子鎖（Ｃ）またはこれらの妥当な組み合わせを形成するという性質により特徴付けられ得る。定義により、参照位相クラスは、炭素のみのテンプレートであり、これは、定義により、固有特異の生体活性を示さないことが予想される。これらの種類に加えてこれらの位相クラスは、使用するあらゆる位相鍵特徴のためにルール定義された発見的基準により特徴付け（およびスコア付け）られる。各位相クラスは、サイズ（または長さ）、原子価（または飽和度、例えば芳香族、脂肪族など）または官能修飾の数および種類（例えばヘテロ原子の数、ドナー／アクセプター性、正／負電荷、酸性／塩基性基など）によりサブクラスに再分割され得る。
位相鍵特徴：分子中に存在する構造的（即ち、位相的）および化学的特徴、これは、位相クラス（即ち、環、リンカーまたは分子鎖）を定義付けするか、または化学修飾を全炭素位相参照テンプレートに導入する（例えば特定の下位構造要素の優先付けに影響を及ぼすヘテロ原子および／または置換基）。

位相鍵特徴のカテゴリー：
環（Ｒ）：各分子グラフＧ内で、存在するあらゆる環は、その下位構造に対するハミルトニアンパスの長さ（例えば環原子の数、または環サイズ、ｒ＝3,4,5,...）により特徴付けられる環式部分グラフを形成する。
リンカー（Ｌ）：分子グラフ中に存在する長さｌ（ｌ＝0,1,2,3,...、リンカー骨格中の結合数）の非環式の直鎖または分枝鎖、これは定義により、少なくとも２つの異なる環（分枝リンカーに対してはそれ以上）に属する頂点で開始し、終了する。
置換基（Ｓ）：全サイズｓ（ｓは、置換基中の原子数である）の非環式付着物、これは、分子グラフ中に存在する環、リンカーまたは分子鎖のいずれかに結合している化学官能基（例えばハロゲン、アミノ基、カルボキシル基、ヒドロキシ基、スルホアミド基、脂肪族鎖など）として知られている。置換基は、ヘテロ原子分子置換鎖に対する具体例として見ることができる。
分子鎖（Ｃ）：長さｃ（ｃは、分子鎖中の原子数である）の直鎖または分枝の非環式下位構造、これは、分子グラフ中のリンカーまたは単一環頂点のいずれにも加わらない。環またはリンカーに結合している非環式炭素骨格は、脂肪族置換基として扱われる。
ヘテロ原子（Ｈ）：分子グラフの環、リンカーまたは分子鎖に存在するあらゆる炭素置換物。しかしながらヘテロ原子は、位相（結合数および空間配置）だけでなく、電子特性（孤立電子対または電子ギャップ）においても炭素と異なり、そうして塩基性／酸性、水素結合、溶解性、化学反応性および生体活性（標的結合、薬動力学特性、毒性など）に影響を及ぼす。そうしてヘテロ原子は、その性質の化学反応に対して、異なるサブクラス（ＨＢドナー／アクセプター、酸性／塩基性、負／中性／正電荷原子など）に再分割され得、それぞれの位相サブクラスに個々に影響を及ぼす。

位相シーケンスコード（ＴＳＣ）：分子グラフ中に存在する位相鍵特徴から構成される階層組織化ラインコード。これは、特定位相、および元の化合物における下位構造要素の種類、優先度およびリンケージを標準的な形態で反映するその位相クラスタ中心（ＴＣＣ）のために、特徴的である。ＴＳＣは、存在する位相要素を優先付ける発見的エキスパートルールシステムを適用することにより、各化合物の位相クラスタ中心から組み立てられる。そうしてこれは、ＴＣＣのためにラインコードシーケンス（即ちモルコードまたはＴＳＣ）中に適切に反映される、分子中のトップ順位の中心コアフラグメントの周りで、成長下位構造サイズの優先シェルを創造することを可能にする。ＴＳＣの個々の優先シェルに対する下位構造は、それらが誘導された親化合物のために特徴的な、個々の標識テンプレートとして扱われ得る（ＴＳＰ参照）。ＴＳＣは、実際のモルコードストリングの位相部分である。
位相シーケンスパス（ＴＳＰ）：ＴＳＴ中の優先付けされた下位構造テンプレートの接続シーケンスパス、これは、ＴＳＴ中で追加の仮想参照分子（または独立標識テンプレート）として扱われる個々の下位構造シェルにＴＳＣを分割することによって、ＴＣＣから創造される。少なくとも１つのＴＣＣ中に共存することによって、これらの仮想ツリーノードは、インプットストリーム中に存在する現存化合物中でクローズネイバーシップ（close neighbourship）を反映するエッジにより接続される。
最大位相下位構造（ＬＴＳ）：分子の残りの部分、これは、分子中の全ての置換基を除去した後に残る。これは、ＴＳＴ中でＴＣＣを超えて配置される。実際の化合物の構造は、ＬＴＳまたはＴＣＣノードの特定の化学誘導体のために表示するツリーリーフノードとしてＬＴＳに結び付けられる。
位相クラスタ中心：最大位相下位構造（ＬＴＳ）に相当する全炭素。下位構造要素の優先度を変化させずに、分子グラフ中の全てのヘテロ原子ノードを炭素原子にモーフィングすることにより、ＬＴＳから発生する。

発明の一般的説明
本発明は、大量の化合物における自動コンピューターベース２Ｄ／３Ｄ構造分析のための新規グラフベース法を基礎とする。それは、表示（仮想）下位構造テンプレートを発生させるため、およびこれらを動的ツリーのコレクション（即ち、位相構造フォレスト（ＴＳＦ）および位相構造ツリー（ＴＳＴ）、以下を参照）に配置するために、位相鍵特徴（下位構造要素）を使用する。これは、誘導体をツリー中の適切な祖先ノードに付着させることにより、インプットデータセット中の下位構造タイプに存在する化学変換のあらゆる種類を監視する位相参照構造として、これらの標識テンプレートを使用することにより、達成される。そうして、表示構造を自己類似分析により見つけなければならない未知数のクラスタを有するという問題が、構成により回避される。

本発明は、特異位相クラスおよびテンプレートを動的ツリーのノード上にマッピングし、テンプレートのために階層的に優先付けされた位相ラインコードを発生させるためのルールベースシステムによりそれらの下位構造を類型化することによって、インプットデータのために分子グラフ中に存在するあらゆる位相的にユニークな化学テンプレートおよびそれらの誘導体を、自動的に発生、分析、グルーピングおよび視覚化するための方法に関する。使用するグラフ技術および位相クラスをスコア付けするための発見的ルールと組合された位相基準の定義により、化学的類型化、位相的類別およびプロパティ分類のために非常に有効なデータ処理を、大量のインプットデータ（即ち、ＨＴＳまたはＵＨＴＳからのもの）に対して達成し得る。これは、元の分子を特徴づけるために充分な全ての位相鍵特徴を含有する炭素のみの最大下位構造のための表示シンプルグラフに、分子の分子グラフを単純化するために、アルゴリズムを適用することにより実現される。この下位構造は、位相クラスタ中心（ＴＣＣ）と呼ばれる。それは、位相シーケンスコード（ＴＳＣ）により特徴および標識付けられ、これは、優先付けされたストリングを実際に符号化および結び付け、これは、元の分子中に存在する位相鍵特徴の優先度を減少させる際に、ＴＣＣ中に含まれるより小さい位相下位構造要素を、下位構造ラベルから据え付けられた簡単な階層位相ラインコードにより標識付ける。

いったんＴＣＣのためのＴＳＣが発生すれば、構成する位相サブセット（シェル）は、一般に位相シーケンスパス（ＴＳＰ）またはＴＳＴを形成する（成長）下位構造ノードのシーケンスにマッピングされる。優先シェルをＴＳＣ中に含まれるコア構造の周りの位相下位構造のために連続して爆発させることにより、位相シーケンスパス（ＴＳＰ）が発生し、そのコンポーネントは、単純接続されたサブツリーまたはツリーフラグメント中の新しい下位構造ノードの連続シーケンスとして視覚化される。それは、最高優先度の下位構造（ツリーのトップでのＴＳＰ-ルートノード）で始まり、ＴＣＣテンプレートで終わり、それを超えて元の化合物が、ツリーリーフノードとして配置され得る。ＴＳＰツリーノードは、正規の分子グラフ（即ち、分子）としての特異全炭素下位構造、および位相優先付けスキームから割り当てられた下位構造要素の階層順序に関する結合モルコード、の両方により特徴づけられる。これら全炭素原子フレームワークのそれぞれは、それ自体、（仮想）標識またはアンカーノードとして機能することができ、それらについて２種類の情報が結び付けられ得る‐最近接化学誘導体を、スカフォードノードまたは化合物リーフノードとしてリンクすることができ、一方、アッセイにおける活性についての標的情報および統計データを含む情報タグを、生物学的試験におけるテンプレート査定に対する活性またはプロパティプロフィルを監視するために結び付けることができる。

ＴＳＰ自体を、より大きな階層位相構造ツリー（ＴＳＴ）に生め込むことができ、これはＴＳＰから成長させられるか、そのようなツリーのフォレスト（位相構造フォレスト（ＴＳＦ））のメンバーであり得、これは、あらゆるインプット分子および分子から誘導されるあらゆる下位構造ノードに及ぶ。ツリーノード（構造）はエッジによりリンクされ、これは、ＴＳＴ中でトップダウンで移動する（またはその逆の）場合、対応するＴＳＴノード中の様々な下位構造サイズのパスを示す。

ツリーの枝分れが、化合物の存在により引き起こされ得、それは、それらのＴＳＰ中で位相特徴を共有し、一方リンクは、一般に、位相鍵特徴のクラス間およびクラス内優先付けのための発見的ルールベーススキームに従うＴＳＰに沿ったノード（下位構造）に対する位相順位付けを基礎とし得る。

ツリーの重要な特徴として、それぞれの無傷の分子構造が、（そのＬＴＳと一緒に）ＴＣＣノードを超えて結び付けられ、これは、化合物の最大全炭素下位構造を表す。こうして、ＴＳＰに沿ったＴＣＣおよびあらゆる標識テンプレートは動的に集まり、インプットデータ中に存在するあらゆる位相下位構造に対するあらゆる化学誘導体を表す。ＴＳＰのノードは、ツリーの枝分れも可能にするそれらの適切な下位構造中の化学修飾のために、追加の表示管理（または標識）分子として機能する。

階層位相構造ツリー（ＴＳＴ）の実際の発生は、環、リンカーおよび分子鎖から構成される構造位相クラス中の修飾（即ち、ヘテロ原子の数、置換基の数、サイズ、飽和度など）をスコア付けするために、連続的および再帰的に発見的ルールのセットを適用することにより制御される。下位構造要素間のクラス間優先付けは、ＴＣＣを創造する間にまず達成され、第２ステップで、さらにＴＣＣをより小さい表示下位構造（ＴＳＰに沿う）中に優先付けするためのシーケンスが見出される。処理された各化合物が、そのようなＴＣＣおよび対応ＴＳＰを発生するにつれ、位相下位構造がそれらのルートノードを超えてサブツリー中で共有されている場合、ラインコードをブール演算によりチェックするために使用し得る。コア（ルートノード）の一意性（uniqueness）および交差セットのためのデータに応じて、新しいＴＳＰが創造され得るか、または新しいノードが、存在するものに結び付けられ得、そうしてＴＳＰの新しい非重なり部分が、実ＴＳＰにリンクされる。

こうして、特定のアッセイからのプレフィルターをかけた（prefiltered）活性および不活性化合物のために、標準化ＴＳＴ／ＴＳＦを、同等のＴＳＰセットに基づきブール演算により発生させ、比較することができ、そうしてそれらは、標的活性／特異性についてのテンプレートおよびそれらの化学修飾の結果に対する、マシーンベース仮定を創造するための開始点として機能し得る。

また、ヘテロ原子置換基に対する、またはテンプレート、スカフォード、環、リンカーおよび／または分子鎖に存在する置換基に対する生体活性についての結果の監視を、リード最適化プロジェクトにおける合成計画のために実際に必要なフレームワークおよびフラグメントベース構造／性質および構造／活性関係を識別するために、グラフノードを適切に色付けすることにより支援することができる。

こうして大規模な量の化合物についての構造情報を、迅速に、並びに最大共通下位構造、接近可能な構造テンプレート、テンプレートのためのＲ群デコンボリューションおよびファーマコフォア認知の引き続きの分析のための位相的にユニークなあらゆるスカフォードを識別、視覚化およびグルーピングできるように、処理することができる。アルゴリズムの望ましいプロパティによりそれは、構造性質ベース化学情報処理に一般に含まれる多くの実際の側面および作業のために良く適しており、それらのいくつかを、以下で言及する。

アルゴリズムを、迅速標準化グラフフロントエンドとして実行させることができ、これは、一度にあらゆるテンプレートのための同時構造活性関係（Structure Activity Relationship、ＳＡＲ）に基づくリード構造識別、テンプレート優先付けのための構造関連ヒット確率の計算、化合物保存書庫に存在する非占有構造または官能化学スペースの識別中、または（ＨＴＳ-）ランのためのスクリーニングプールにおける、有機化合物に対するあらゆるタイプの構造-および性質-ベース情報処理に役立ち得る。

また分析に対する単一アッセイ結果を供給する代りに、活性化合物のスクリーニング履歴からの全ＨＴＳアーカイブまたは構造を、活性または特異性についてのテンプレート関連確度の評価が必要とされる特権付与または乱雑テンプレートの検索において、処理することができる。

位相クラスのそれぞれの全炭素テンプレートに対して、保存書庫中のあらゆる利用可能な化合物が自動的にＴＳＴ中に含められるように、位相ギャップまたは欠測化学誘導体の識別も可能である。ＴＳＴの底部でまだ特異リーフとして存在しない新しい化合物につながる、ＴＳＴ中のあらゆる祖先ノード中の位相鍵特徴におけるあらゆる可能な修飾から生ずる分子グラフは、位相および／または官能ギャップとして構成により識別される。

同様に処置が、あらゆる下位構造について同時Ｒ群デコンボリューションのために使用され得る。内因性物質（バイオエフェクタ）中および実スクリーニングヒット中に存在する位相鍵に関する利用できるデータベースの比較位相分類は、細胞ＨＴＳランによりアドレス指定される可能な生態学的標的についてのヒントを与え得る。

また、競合特許または刊行物からの構造および試験ベース情報を、ＳＡＲ分析およびフレームワーク優先付けのために使用することができる。これらの技術により分析される市販の物質およびシントンを、薬物保管所またはコンビナトリアルライブラリ中に存在する位相および電子ギャップを満たすために、ほとんどの可変性候補を識別するため使用することができる。

発明の詳細な説明
以下、図を参照する：
図１：２Ｄ-分子グラフから位相クラスタ中心（ＴＣＣ）を発生させるための、選択ステップおよび中間結果。
図２：ルートノード（コア）およびＴＣＣの間に位相シーケンスパス（ＴＳＰ）を発生させる例、および位相シーケンスコード（ＴＳＣ）のネームタグとしての使用。ＴＣＣ（および相互のＴＳＰノード）は、表示参照構造（たいてい、生態学的活性が欠けている仮想標識テンプレート）として、位相最近接の化学誘導体を収集およびグルーピングするために使用される。
図３：２Ｄ構造（文献から得られたドーパミンＤ１／Ｄ２アゴニスト）の小さなセットのためのインプットデータ（Sybyl Line Notation(表記法)、（ＳＬＮ））。このデータセットを、本明細書中に記載する本発明に基づく組織内コンピュータープログラムを用いて、図４を生じさせるために使用した。
図４：文献からのドーパミンＤ１／Ｄ２アゴニストのコンピューター発生ＴＳＴに対する例。該結果を、本明細書中に記載する本発明に基づく組織内コンピュータープログラムを使用することにより発生させた。

請求項に記載の方法は、分子のためのインプットデータに適用され、これは、基礎分子グラフを発生させるために必要なあらゆる関連情報を包含する（例えばインプットデータは、ＳｙｂｙｌＭｏｌ２ファイル、ＭＤＬＭｏｌファイル、スマイルフォーマットまたはＳＬＮなどとして供給されるべきである）。
インプットデータの適切な選択は、標的性質のために適切なプレフィルターを適用することにより達成され、これは、解釈を容易にし、特別な作業のための解決についての結果の焦点を合わせる。

以下のもののためのフィルターの選択：
・活性またはヒット統計に対する構造デターミナントに関するヒット分析のための特定スクリーニングアッセイにおける、活性物質。
・様々な下位構造クラス中の偽陽性および偽陰性の両方に対する候補およびそれらの確度評価を査定するための、特定スクリーニングアッセイにおける不活性物質。
・薬物保存書庫のバイオプロファイリングのためのスクリーニング履歴、および特権付与または乱雑テンプレートの検索における、あらゆる活性化合物。
・薬物保存書庫プロファイリング、ギャップ分析、テンプレート配向Ｒ群デコンボリューション、化合物合成および化合物購入のための、全薬物保存書庫またはそのサブセットの全化合物。
・特許ギャップおよび組織内知識探査を識別するための、競合（特許）構造／活性データ。
・間接標的分類のための、内因性（活性）化合物（バイオエフェクタ）または活性代謝生成物。
・異常スカフォード、ＳＡＲ分析およびテンプレート選択のための、天然（活性）薬物。

分子の構造表示：
各化合物（即ち、図１中の化合物１）は、無向水素欠乏分子グラフＧ(Ｖ,Ｅ)²（この中でＶ(v₁,v₂,...) は頂点（即ち、原子）のセットであり、Ｅ(e₁,e₂,...) はエッジ（即ち、化学結合）のセットである。）として扱われる。インプットデータからのあらゆる化合物 i のために、このグラフは、Ｇ(i) と省略される。各化合物のグラフは、部分グラフに分割され得、これは、環（Ｒ）、リンカー（Ｌ）、置換基（Ｓ）および分子鎖（Ｃ）のような位相テンプレートとして、または原子プロパティのためのモジュレーター、例えばヘテロ原子Ｈ＝｛vi＃炭素｝としてのそれらのコネクティビティプロパティにより位相クラスＴ＝｛Ｒ,Ｌ,Ｓ,Ｃ｝に関してそれぞれ定義され、これらは、物理的および化学的性質（例えば溶解性および反応性）、並びにそうして生物学的標的に対する化学親和性を介して、新しい薬物候補についてのテンプレートの重要度に影響を及ぼす。環およびリンカークラスを、あらゆる特定化合物中に存在する環およびリンカータイプのあらゆる有効およびユニークな組合せＲ_x Ｌ_y Ｒ_Z に対する化合物または下位構造の新しい位相クラスを創造するために使用し得る（即ち、Ｒ₅は五員環化合物のサブクラスであり、Ｒ₆-Ｌ₂-Ｒ₆は、２つの六員環に接合している長さ２のリンカーの存在により特徴づけられるサブセットであるなど）。同じ処置を、分子鎖クラス内で適用し得る。データ分析のより後のフェーズ中における作業、例えばファーマコフォア認知のために、いくつかのセット（Ｓ,Ｈ）は、標的および／または溶媒相互作用に対する官能性を特性評価することを可能にするさらなるサブセット中への分割（即ち、水素結合ドナーＤまたはアクセプターＡ中への分割による）、または分子中に存在するブレンステッド酸Ｉ_Aまたはブレンステッド塩基Ｉ_Bから生ずるイオン性基中への分割、または分極電荷基（即ち、正、中性または負電荷原子）中への分割、を要求する。化合物中の構造特徴のＱＳＡＲ、ＱＳＰＲまたは有意分析のために、それらのグラフは、同等のライングラフ（Estrada E., 繰り返しライングラフシーケンスの一般化スペクトルモーメント. ＱＳＰＲ研究への新規アプローチ, J. Chem. Inf. Comput. Sci., 39 (1), 90-95 (1999)）への変換を要求し得る。

鍵位相クラス要素の定義：
Ｇ内における、あらゆる存在する環は、その下位構造（例えば環の原子数または環サイズ、ｒ＝3,4,5,...）のために、ハミルトニアンパスの長さにより特徴づけられる環式部分グラフを形成する。その化合物のためのあらゆる環は、サブクラス（セット）Ｒ_rを形成し、これは、分子中に存在する環のサイズｒにより定義づけられるが、スコア付けスキームによる優先度において異なり得る（即ち、高度に置換された環は、同じサイズの単置換環よりも高く順位付けされる）。環の分類についてさらなる考察を必要とし得る特別な場合は、それぞれ、リンカー系に対しても特別な場合として分類され得るような、Ｒ_mＲ_nとして標識付けられるスピロ化合物、および輪状環系、Ｒ_m:Ｒ_nであり、しかしながらこれらは、同じ環系の同一の頂点（スピロｃｍｐｄｓについて）、または隣接する頂点（輪状環について）で開始および終了する（以下を参照）。

リンカーは、長さｌ（ｌ＝0,1,2,3,...、リンカー骨格中の結合数）の非環式の直鎖または分枝鎖であり、これは、定義により、少なくとも２つの異なる環またはそれ以上（分枝リンカーについて）に属する頂点で開始および終了する。あらゆるリンカータイプは、リンカーセットＬに集められ、その中のメンバーは、優先度が異なり得る（ヘテロ原子および置換基による置換度、付着される環の優先度およびリンカー長さによる置換度に従う）。リンカー長さｌ＝１は、接合される環に対する特別な場合であると考えられる（例えばビフェニルは、環の間に単結合を有するが、リンカー原子の数はゼロであり、ここでビフェニル下位構造のためのＴＳＣはＲ₆-Ｌ₁-Ｒ₆である）。

あらゆる置換基は、全サイズｓ（ｓは、置換基中の原子数である）の非環式付着物であり、これは、環、リンカーまたは分子鎖のいずれかに結合している化学官能基（例えばハロゲン、アミノ基、カルボキシル基、ヒドロキシ基、スルホアミド基、脂肪族鎖など）として知られている。あらゆる置換基は、置換基セットＳに集められ、これは、電荷、酸性ｐＫ_a、塩基性ｐＫ_b、サイズ（即ち、原子数）などについて計算または測定されるプロパティを用いる各セットメンバーのために、優先度が異なり得る。

分子鎖は、長さｃ（ｃは、分子鎖中の原子数である）の直鎖または分枝の非環式下位構造であり、これは、リンカーまたは単一環頂点のいずれにも加わらない。環またはリンカーに結合している非環式炭素骨格は、脂肪族置換基として扱われる。あらゆる分子鎖は、分子鎖セットに集められ、これは、置換度、サイズなどを基礎とする分子鎖の優先度により順序付けられる。

ヘテロ原子Ｈのセットは、分子の環、リンカーまたは分子鎖中のあらゆる炭素置換物により定義され、これはまた、それぞれの特定スカフォードに対する仮想の「位相クラスタ中心」（ＴＣＣ）とみなされる位相的に同等の全炭素フレームワークに関連するコネクティビティに違いを導入し得る。しかしながらヘテロ原子は、位相（結合数および空間配置）だけでなく、電子特性（孤立電子対または電子ギャップ）においても炭素と異なり、塩基性／酸性、水素結合、溶解性、化学反応性および生体活性（インビトロ活性、薬動力学特性、毒性など）に影響を及ぼす。そうしてヘテロ原子は、その性質により、異なるサブクラス（酸性／塩基性、負／中性／正電荷置換基など）に再分割され得、それぞれの位相サブクラスに個々に影響を及ぼす。それゆえそれらは、分析されるデータセットの位相表示中の環、リンカー、置換基および分子鎖の相対重要度を優先付けるために機能し得る。

これらの定義を使用することにより、化合物中のあらゆる構造要素を、系統的に分類することができる。こうして、あらゆる化合物を、あらゆるその位相鍵特徴のいずれかにより、位相クラスインデックス（ＴＣＩ）の形態に特徴づけることができ、これは、分子構造中において、またはより正確には、結合位相クラス要素のより容易に解釈できる優先付けられたシーケンス、例えば位相シーケンスコード（ＴＳＣ）として、存在する各タイプの位相鍵特徴の数をまとめる。定義によりこのＴＳＣは、実際の官能化化合物およびそれから誘導されるあらゆる下位構造に位相的に最近接の全炭素フレームワークのために、（仮想）位相クラスタ（クラス）中心（ＴＣＣ）を表示する。ＴＣＣは、このスカフォード中のあらゆる化学修飾に対する総称親（または祖先）ノードとして機能する。それはまた、あらゆる位相的に類似する化合物を構築するためおよび化学誘導体について入手できる位相サブスペースを定義するための参照構造として機能し、それから入手できる種を減算して、データセット中に実際に存在する位相および官能ギャップを生じさせることができる。

インプットデータから発生するあらゆるユニークなＴＣＣは、それらが分子構造中およびそうしてＴＳＣ中で位相鍵特徴を共有する場合には共通階層位相構造ツリーの一部か、またはＴＳＣ中の位相鍵特徴の交差セットが空である場合にはＴＳＴのコレクション（位相構造フォレスト（ＴＳＦ））とみなされ得る。

分子の入手できる位相鍵特徴を順位付け、位相シーケンスラインコード（ＴＳＣ）を割り当てることにより、各化合物に対するＴＣＣを発生させるために、ルールベーススコア付けスキームを適用する処置が記載される。次いでこのＴＳＣは、最高順位の位相クラス要素（フラグメント）（ＴＳＴルートノードまたはコア）から開始し、ＴＣＣで終了する、ＴＣＣからの成長下位構造部分のシーケンスを連続に構築するために使用される。これら下位構造のそれぞれは、それ自身の（フラグメント）ＴＳＣにより標識付けられ、これは、接続位相鍵特徴の優先化シーケンスであり、成長下位構造ノードの妥当なシーケンスを、ＴＳＴルートノードおよび末端ＴＣＣノードの間で形成し、これらを超えて、ＴＣＣのユニークな化学修飾を有する化学構造が、その化合物に対するあらゆる詳細な情報を有する末端ＴＳＴリーフとして配置され得る。そのようにして発生される下位構造ノードの完全接続シーケンスは、ＴＳＴを成長させるために、接続標識構造ノードの初期セットとして位相シーケンスパス（ＴＳＰ）を形成する。

あらゆる新規化合物に対して、その位相シーケンスパス（ＴＳＰ）が、他の化合物からのＴＳＰと或る特徴を共有する場合、それはチェックされる。適切なルートノードが化合物の構造分析の時点でまだ存在しない場合、それは、存在ＴＳＴとの交差部分が非重なり構造要素のリンケージのために別な方法で使用される間、前記と同じ完全位相パスを創造し得る。インプットデータから発生するＴＳＴの最終セット（フォレスト）は、様々なレベルの細部で下位構造要素をスコア付けするためにルールベースシステムに適用される位相基準に関して、大量のデータを分析することを可能にし、そうして標的モジュレーターにおける構造デターミナントとして要求される位相特徴の階層構造展開を反映および監視する。

ＴＳＴのための順序付けおよび順位付けが、両方とも厳格であるが、適用されるルールのシーケンスおよびコンテンツを通じて修正可能である場合、柔軟な構造ベースシステム（即ち、動的フォレスト）が創造され、そのためのレイアウトは、ユーザーが望む合成経路、利用できるシントンなどのための最も都合の良いテンプレートを検索する際にユーザーがＴＳＴを通じて容易にナビゲートできるような、ユーザーの要求に対してカスタマイズされ得る。

この戦略を演算可能にするために、以下の項目が必要である：
・全体の演算処置をコンピューターのサブパートのために記載するシーケンス
・分子中の位相鍵特徴を識別する技術
・相互に関連する異なる位相鍵特徴をスコア付け（クラス間スコア付け）するためのルール
・位相鍵特徴をクラス内スコア付けするためのルール
・ＴＣＣを創造するためのアルゴリズム
・位相シーケンスパス（ＴＳＰ）をＴＣＣから所定化合物のために創造するための技術
・ＴＳＴノードおよび（下位）構造を（フラグメント）位相シーケンスコード（ＴＳＣ）により標識付けるための技術
・ノード（位相シーケンスパス（ＴＳＰ））をＴＳＴ中に創造およびリンクさせるためのルール
・ＴＳＴの（標的インプットデータによる）統計的および生物学的構造分析のための技術
・位相的に分析したデータセットの記憶および回収のための技術
・ＴＣＣノードレベルを超えたサブツリースコア付けおよび構築のための技術

全体のデータ処理作業フロー：
大規模データセット（目下、包括的にインプットデータと呼ばれる。）の構造ベース分析のための全体の処置は、いくつかのステップで進行する（図１参照）：
I. プレフィルターをかけた分子構造の連続インプット、およびさらなる分析のためのその水素欠乏分子グラフの発生。
II. 分子グラフ中に存在する位相鍵特徴のクラスおよびサブクラスの識別および標識付け。
III. あらゆる位相クラスに対するクラス内優先付けの実行、および分子グラフ中の頂点の適切な標識付け。
IV. 分子グラフ中のあらゆる置換基の削除（ＬＴＳの創造）、および分子グラフ中に存在する位相サブクラスの官能度の評価。
V. 位相クラスタ中心（ＴＣＣ）フレームワークの発生、およびそれの位相シーケンスコード（ＴＳＣ）による標識付け。ＬＴＳのＴＣＣへのリンク。
VI. ＬＴＳへのインプット構造のための実際の分子グラフのリンク（例えばＴＣＣおよびあらゆるＴＳＰノードとの成長多様リンク付けリストの部分として）。

VII. 分子グラフ中の最高順位の位相下位構造（ＴＳＰルート）およびＴＣＣの間における位相シーケンスパス（ＴＳＰ）の確立、これは、インプットデータのための包括的位相構造ツリー（ＴＳＴ）の部分とみなされる。適当なＴＳＴの存在のチェック、利用できる場合には存在ＴＳＴへの化合物ＴＳＰのユニークパートの設置、そうでなければ存在データ構造中への新規ＴＳＰの挿入。
VIII. 実際のＴＣＣ（例えばＴＳＴ中の各化合物に対する祖先ノード）および各下位構造ノード（例えば結び付けられた子ノードの統計のため）に結び付けられる特別な記憶分野の更新（例えば統計的バイオプロフィルサブツリー母集団をスクリーニングするため）。
IX. ＴＣＣまたはＬＴＳを超える構造リーフ（例えば化合物）の数が、事前定義された臨界数を超える場合、細部のそのレベルでの水平順序付けを、適切なグラフの不変特徴を各化合物のために計算することにより達成することができる、これは、マハラノビス距離のような正確な距離を基準に構造を分類および順位付けするために使用することができる。
X. 次ぎの化合物のための I. を用いる処理（新規化合物が入手できる限り）。
XI. 統計分析、ヒット確認、ファーマコフォア認知のため、または化学誘導体中におけるフレームワークギャップおよび／またはギャップ検索における、選択（または全ての）ＴＣＣおよびあらゆるそれらのサブツリーに対する後処理の実行。
XII. 化合物リーフのために、入手できるＴＳＣデータの配置および処理に対する人工技術(art technique)の状態を使用して、化合物登録コード（例えばベイナンバー）による構造データを置き換える、ＴＳＴの得られたフォレストのディスク上への記憶。
続けて、いくつかのプロセスステップを、さらに詳細に記載する。

分子グラフ中の位相サブクラスの決定：
あらゆる化合物およびそれと結び付けられるグラフＧについて、環要素だけがグラフ中の自己回帰歩行のための開始および終了点であるということにより、位相クラス要素をアルゴリズム的に決定し得る（Bemis GW; Murcko MA, 既知薬物のプロパティ. 1. 分子フレームワーク, J. Med. Chem, 39 (15) (1996), 2887-2893）。分子グラフのあらゆるパスは分析され、訪問された(visited)頂点は、原子標識によりマークされ得る。Ｒ、Ｌ、Ｃからの位相クラスの各場合における置換基の数が計数され、スコア付けプロセスにおいて使用するために記憶される場合、環内で終わらないまたは環の部分ではないあらゆるパスは、切り取られ得る。

以下の記載におけるアルゴリズムは、形式的に、同等の数学オペレータを使用することによりまねられ、これは、アルゴリズムまたはプログラムが行うように、オペランド（適切なインプットデータ、即ち、グラフまたは下位構造）を要求結果（即ち、フォレスト、ツリー、下位構造、リスト、スコアなど）に変換する。

一般的な位相オペレータ：

は、オペレータのコレクション：

を表すものと定義され、各位相鍵特徴の１つは、再帰的にｋ回、分子グラフＧ(i)またはＧ(i)の部分グラフに適用される場合、適当な原子セットまたは部分グラフを、一般的な場合Ｔ_kと標識付けられた順位ｋの適切な位相クラス（ｋ＝1,2,...）のために発生させる。ｒの環およびｌのリンカーを有する所定化合物において、

のｒ重の繰返し（即ち：

）および

のｌ重の適用（即ち：

）は、環ＲおよびリンカーＬの完全なセットを発生させる。環またはリンカーが分子中に存在しない場合、空のセットが発生される。特にそれは保持する。

こうして、位相オペレータの再帰的および徹底的適用は、水素欠乏分子グラフのために、使用した位相クラス：環、リンカー、ヘテロ原子、置換基および分子鎖のあらゆるセット中に、妥当な分解を創造する。これらのクラスは、表示位相下位構造のセットを自動的に発生させるために使用され、それらは集められ、位相クラスに対する優先付けルールを基準とする動的階層ツリーを形成する。

相互に関連する位相鍵特徴のクラスのための可能な順位付け：
位相鍵特徴のクラスのために、発見的ルールベース優先付けスキームは、以下のスコア付けにより（重要度の順序の減少において）定義され、これは、連続的にトップダウンで適用され、あらゆる特定化合物のために必要とされる（図１参照）：
（１）環
（２）リンカー
（３）へテロ原子
（４）置換基
（５）分子鎖。

優先付けスキームのためのこの選択は、同じサイズのあらゆる位相クラス（環、リンカー、分子鎖）に対して化学修飾の特異タイプのために観察結果を解釈するための有意性についての評価を基礎とし、リガンドモデルのテンプレートおよび空間配座の配座柔軟性は、ある程度無視されていることを考慮する。
位相クラスのためのこの定義から、あらゆる所定分子に対する位相ルートノード（最高順位の位相クラス要素）は、環系、または厳格な非環式化合物の場合に分子鎖、のいずれかであり得ることが生ずる。リンカーの定義が、末端環の存在と連結される場合、リンカーに対するスコア付けも、環の優先度と連結される。

位相クラス内での可能な順位付け：
位相クラス、環、リンカーおよび分子鎖内における自然順位を、スコア付けルールの同じシーケンスを適用することにより（優先度順序の減少において(図１参照)）定めることができ、これは、以下の基準シーケンスにより説明される：
ａ）位相サブクラス／下位構造中の置換度（例えば環、リンカーまたは分子鎖中のヘテロ原子および置換基の数）。輪状環は、環置換の特別な場合であるとみなされ、これは、環下位構造のハミルトニアンパスに沿って頂点から開始する多重自己復帰歩行の存在により、または最小環の最小セット(smallest set of smallest ring)(ＳＳＳＲ、Petitjean J., Tao Fan B. および Doucet J-P, J. Chem. Inf. Comput.. Sci., 2000, 40, 1015-1017; および Lipkus AH, 単純な位相ディスクリプタスペース中での化学環の探査, J. Chem. Inf. Comput. Sci, 2001, 41, 430-438 も参照）の分析により識別され得る。
ｂ）位相サブクラスまたは部分グラフ中に存在する頂点（原子）の数。（分枝）リンカーのために優先度は、末端環の順位の減少（最高のものから開始）、置換度の減少およびパス長さの増加に対して厳密に、あらゆる可能なパスに連続的に割り当てられる。単結合によりつながれている環は、定義により１つのリンカー長さにより分類され得る（上記のビフェニルの例を参照）。最短パス／最小環サイズは、置換度に次いで、最高の優先度を有する。等しいリンカー長さに対する非ユニークスコア付けの場合、最高優先度の環につながっているリンカーが、順位付けにおいて有利である。これがまだ非ユニークである場合、より高度に置換されているリンカーが優先される。

ｃ）等しい置換度およびリンカー長さ／置換基サイズ／分子鎖長さに対して順位付けは、前記した置換基タイプの優先付けスキーム（１）〜（５）から導かれる：リンカーによる置換基は、ヘテロ原子および置換基よりも（優先度順序の減少において）優先度が高い。非ユニークなスコアが、なおこのレベルのカテゴリー分類で見出される場合、おそらく、局所化学的同一異性体または構造異性体は識別されており、その場合、環の最短パスセグメントに沿った置換基の位置へのパス距離の合計が、差異の検索において使用され得る。
ｄ）あらゆるポイントａ）〜ｃ）が等しい場合、位相サブクラス内の飽和度が考慮される：特に芳香環（完全飽和）は、最高の優先度を有し、環の標識ストリングに添え字「Ａｒ」を付けることにより特別に標識付けられ、または不飽和結合の数は、フラグメント（環、リンカーまたは分子鎖）のためのネームタグに追加され得る。部分または完全飽和環系は、より大きな空間複雑度およびキラル中心の可能な存在の故に、より低い優先度を有する。不飽和リンカーおよび分子鎖は、統一性のために、同様に扱われる。

ｅ）代りに、ＴＣＣサブツリーに対する最終分析フェーズにおいてトレーニングおよび試験データ選別のために、化合物が判別分析（または同等の分類法）を支援するように、いくつかの計算グラフ不変量（Todeschini R. および Consonni V. : Handbook of Molecular Descriptors 中, 医化学における方法および原理第11巻, Mannhold R., Kubinyi H. および Timmerman H. (編), Wiley-VCH, 2000、即ち、スペクトルモーメント）に基づき、より定量的な順位を達成することができる。
ルール（１）〜（５）およびａ）〜ｄ）をいくつかの任意分子グラフに適用する一般的関数により、位相スカフォードを発生および順位付けするプロセスを、実施例１（図１）で説明する。

位相クラスタ（クラス）中心（ＴＣＣ）の識別：
いったんあらゆる位相クラスが分子中で識別され、上記の優先付けスキームが各位相クラスタのために再帰的に適用されると、切り取られた分子グラフの各サブクラス中における頂点（原子）は、クラス、クラス内スコア付けおよび優先度情報により標識および特徴付けられる（例えばＲ₅(1)は、分子中に存在する全ての環中で最高(＃１)優先度の五員環を意味し、Ｌ₄(2)は、リンカー長さ４（即ち、４つの結合および３つの原子の長さ）および優先度２が存在することを示す、図１参照）。

切り取られた分子グラフが、環、リンカーおよび分子鎖中になおヘテロ原子を有する場合、これらは、必要なＴＣＣグラフを発生させるために炭素原子にモーフィングされ（図１参照）、これは、そのタイプのあらゆる誘導体のための参照位相として機能する。このプロセスのために私達は、炭素モーフィングオペレータ：

を、特別な場合として、一般的な化学原子（Ｖ_p）変換オペレータ：

のために定義し、これは、分子Ｇ(i)中の位相下位構造Ｔ_kに適用されて、あらゆるｐ位で、各へテロ原子を炭素にモーフィングし、要求されるように電荷を調節することにより、位相的に同等な炭素類似下位構造Ｔ_C,kを創造する。ＴＣＣの特定位相サブクラスＴ_k中でのモーフィングプロセスを含むあらゆる可能な修飾を、あらゆる特定頂点ｐを事前定義された新しい群Ｖ_pに変換するために、形式的にこのオペレータ：

を適用することにより発生させ得る。私達は、基本オペレータのセットに関して一般的な変換を定義し、そうして、未電荷のフラグメント（即ち：

、識別オペレータが適用される）を残すか、またはセットＶ_p中に含まれる原子に適用される原子モーフィングプロセス（

）を表示し、これも、モーフィングプロセスが「延長」原子価を有するモーフィング原子に対して特定の頂点位置Ｖ_pで原子価不足へテロ原子（

）および原子削除（

）に影響を及ぼす場合、原子の追加を意味し得る（デフォルトは水素原子であり、これは水素欠乏グラフ中で除かれる）。

炭素モーフィング処置の場合、創造される原子セットは、適切な原子価状態の単一炭素である。こうしてモーフィングオペレータは、２つのコンポーネント（オペレータ）を含まなければならず、その１つは、頂点：

で動作し、他のものは、

に付随するエッジＥ_pのセットで動作する。これらオペレータのそれぞれに対して、原子タイプのセットを、それらの原子価状態、および必要とされるようなハイブリッド形成を維持しながらモーフィングすることができる別の識別演算（

）が可能となる（例えば私達は、飽和系および（部分）不飽和下位構造要素中の修飾を区別する）。

〔式中、Ｔ_kおよびＴ_C,Kは、あらゆる位相クラスおよびそれらの炭素類似物のセットをそれぞれ表す。〕

こうしてＧ(i)に対するＴＣＣ(i)グラフを、Ｇ(i)からセットＳ(i)を除去することにより発生される、最大位相下位構造（ＬＴＳ）中のヘテロ原子セットに適用される炭素モーフィングプロセスの結果として定義することができる。置換基セットは、環およびリンカーの脂肪族置換基を含むことに注意されたい。

このＴＣＣグラフは、存在する位相サブクラスのリンケージおよびタイプを記載する位相シーケンスコード（ＴＳＣ）により標識付けられ得る（例えばＲ₆(Ｌ₂-Ｒ₆)-Ｌ₁-Ｒ₆は、中心六員環が二重結合リンカーおよび単結合リンカーにより２つの六員環系の両方と接続されている位相系を表す）。分類される実際の化合物は、そのＴＣＣの化学誘導体化のための特定の例として、そのＴＣＣとリンクされ得る。こうして各ＴＣＣ構造を超えて、インプットデータ中に存在するフレームワークのためのあらゆる存在化学誘導体が、優先付けられた構造ツリーリーフとして集められ得る（図２参照）。

ＴＣＣを超えた詳細な順位付け：
各ＴＣＣノードを超えて存在する構造を、構造ベースディスクリプタ（例えばグラフ不変量）により特徴付け、分類することができる。これらは、
・（仮想）クラスタ中心（ＴＣＣノード）または分類カテゴリ（即ち、活性または不活性）のための中心に対するあらゆる化合物の「化学的距離」（即ち、マハラノビス距離またはユークリッド距離）を測定するため、および
・その距離に基づき化学誘導体を分類するため、または
・同じＴＣＣ中の化学修飾を生体活性に関して区別するため、および最後に
・計算ディスクリプタと、物性および／または生体活性データのいずれかとを相関させるため
に使用することができる。

分類のため、および化合物内またはＴＳＴノード（リーフ）間の化学的距離を測定するために適用できる有用なディスクリプタとして、ライングラフのスペクトルモーメントまたはライングラフの繰返し系列が考慮され（ＩＬＳ）（Estrada E., 繰返しライングラフシーケンスの発生スペクトルモーメント. ＱＳＰＲ研究に対する新規アプローチ, J. Chem. Inf. Comput. Sci., 39 (1), 90-95 (1999), Estrada E., 分子グラフのエッジ近接マトリックスのスペクトルモーメント. 2. ヘテロ原子含有分子およびＱＳＡＲ適用, J. Chem. Inf. Comput. Sci., 1997, 37, 320-328））、これは、

によって、元のグラフＧ(i)に対してライングラフオペレータ：

のｋ重反復適用（即ち：

）により生ずる、元の分子グラフＧのｋ重繰返しライングラフに対するスクエアエッジ（結合-）近接マトリックスＡのｊ乗のトレースとして定義される。

これに関して使用されるオペレータ：

は、グラフ中でリンカーセットを創造し（上記参照）、他の作者に対する相互参照のためにここで保持されているオペレータとは異なることに注意されたい。これらの作者により、いくつかのデータセットのために、この処置は、構造性質分析のための線形独立ディスクリプタを発生させるだけでなく、線形判別分析処置を適用することによりバイオアッセイにおける活性または不活性に影響を及ぼす構造修飾を区別することも可能にすることが示されている（診断法に対して、Lachenbruch P. A., 判別診断法, Biometrics, 53, 1284-1292, (1997)参照）

インプットデータのための初期ＴＳＦ版上の後処理アクティビティの部分として、特異標的のための推定生体等配電子または等官能データを、計算マハラノビス距離（Mahalanobis P.C., 統計における発生距離について, Proc. Nat. Inst. Sci. India 2, 49-55, [1936]）を基礎に、異なるＴＳＴノードおよびそれらの部分母集団の間で、または活性化合物セットのためのプールの中心に対する距離を測定することにより、示すことができる。部分母集団内およびそれらのクラスタ中心の間での距離の比較が、ルールベース階層ツリー中で反映されるよりも強い近傍を示唆するか、または重なりパラメータースペースさえを示す場合、ＴＳＦ中の対応アドレスリンクは適切に修飾され得る。

存在ＴＳＴ中の化合物に対する位相シーケンスパス（ＴＳＰ）のインストールおよびマッチング：
分析されるあらゆる化合物に対するあらゆるＴＣＣサブツリーは、動的階層位相構造フォレストまたはツリー（ＴＳＦまたはＴＳＴ）中に集められ、これらは、下位構造要素中の化学修飾度を減少させるため、およびツリーノード中の下位構造サイズを増加させるためにトップダウンで組織され（Moen S, 動的ツリーの作図, IEEE Software, 1990年7月, 21-28 参照）、これは、最小だが最高スコアの下位構造Ｔ_m(i)（例えば環、または非環式化合物に対して分子鎖）から位相シーケンスパス（ＴＳＰ）に対する炭素モーフィングルートノードＴＳＰ_j(i)（即ち、ｊ＝１）として開始し、より低い優先度の残りのフラグメントを減少スコアの順序でＴＳＰ_jに接続することにより、妥当な接続パスを創造し、これは最終的に、化合物中の最大全炭素下位構造としてＴＣＣノードで終了する。

ここで max(score(),score()) は、ルール（１）〜（５）およびａ）〜ｄ）により最高順位を有する（下位）構造中の位相クラス（即ち、Ｔ_m(i)）を決定する関数である。化合物中の最高スコアのフラグメント（即ち、最高官能化最小環系）である（環が存在しない場合、分子鎖がトップの優先度を有する）ＴＳＴのトップ（ルート）ノードでの開始、および位相リンケージのさらなるシェル（即ち、ＴＳＰ_j+2, ｉ＝1,2,...）は、含まれるフラグメントのスコアを減少させながら、および炭素へのモーフィング処置を適切な炭素タイプおよび原子価に関してフラグメントのあらゆるｈのヘテロ原子のために充分に通過させた後に、連続的に追加され得る。

実施例１（図１）に、任意インプット構造の位相フラグメントのための優先付けプロセスが示され、該フラグメントは、それらのＴＳＣおよびクラス内優先度で標識付けられる。
実施例２（図２）では、Ｒ₆(1)と標識付けられた中心芳香族六員環は、インプット構造１のためのＴＳＰルートノードとして識別されている。位相リンケージの次ぎの領域は、（フラグメント）位相シーケンスコード（ＴＳＣ）Ｌ₃(1)-Ｒ₆(2)を有し、これは、まず新しいＴＳＴノードＲ₆-Ｌ₃-Ｒ₆（即ち、３つの結合リンカーによりつながれている２つの六員環芳香環）を構築するために使用され、最後にＴＳＣＬ₂(2)-Ｒ₆(3)を有する最終フラグメントは、Ｒ₆(1)-[Ｌ₃(1)-Ｒ₆(2)]-Ｌ₃(2)-Ｒ₆(3)と標識付けられたＴＣＣ下位構造ノードを発生させるために追加される。処理される各新規化合物のために、同じ処置を続け、こうしてＴＳＰルートフラグメントから連続的に位相リンケージ領域を追加することにより下位構造サイズを成長させ、それらのＴＳＣタグを有する新規ノードを、最後に分子のためのあらゆる位相クラスが作り上げられるまで創造し、充分な位相シーケンスパスが構築され、これは、ＴＣＣノードで終わり、これを超えて、実際の薬物が挿入され得る。中間モーフィングプロセスにより、化学修飾されたＴＳＴノードは識別され、適切な全炭素ＴＳＴノードに、そのテンプレートタイプのあらゆる修飾構造を表示する共通の位相クラスタ中心として正確に割り当てられる。

こうして、位相セット要素ＴＳＰ_jは、元のグラフのマッピングをＧ(i)の位相シーケンスパス（ＴＳＰ）上で定義することを可能にし、この中で位相下位構造間の関係（例えば下位構造のための優先度）は、エッジとして定義され、これは、ノード中の下位構造が成長するように、成長ＴＳＰノードを連結する。ＴＳＰ頂点をＴＳＰルートから構築させるための再帰的関係は、追加される残りのフラグメントのための優先付けスキームに続けて、あらゆる位相フラグメントシェルｆ上でループすることにより、これらノードを創造するプロセスのための簡略表記を与える。リンカーが次ぎの下位構造のために集められる場合、それは直ちに、リンカーがより高いスコアの環系との組合せにおいてのみ生じることが可能とされるように、最高優先度の次ぎの環と組み合され得ることに注意されたい。新規ノードタグは、同様に、リンクされる構造要素のＴＳＣラベルをつなぐことにより構造として集められ、こうして、ルートノードラベルで開始するＴＳＰ中における各ノードのためのユニークな位相識別タグ（ＴＳＣまたはもモルコード）を創造する。

私達は、異なるインプットデータに対してこれらのタグを、それらのＴＳＰまたは一般にＴＳＦ中の共通位相要素のための交差セットをチェックするために使用することができる。２つの分子 i、o は、それらが共通ＴＳＰルート構造（コア）を少なくとも共有する場合およびその場合のみ、非空交差セットＩ_i,oを有し得る。

交差セットＩ_i,oを、ＴＳＰノードタグの文字列大小比較(lexical comparison)により見出すことができる、即ちＲ₆-Ｌ₂-Ｒ₆およびＲ₆[Ｌ₁-Ｒ₆]-Ｌ₂-Ｒ₆は、明らかにＲ₆ルートノードおよび位相シーケンスＲ₆-Ｌ₂-Ｒ₆の両方を共有し、それゆえＴＳＴ中においてこれらの部分を共有し得、これは、枝分れリンクをルートノードＲ₆(1)で導入する。分析されるプールからの追加の化合物は、正確に同様に処理され得る。これは、新規ＴＳＴのために新規ルートノードの創造を導入する（次いで、位相構造ツリーのフォレストが創造され得、そこでは個々のツリーがルートノードのサイズに対して順序付けられ得る）か、またはそれは、前の分子のために創造されたノードのいくつかを共有し得る。次いでＴＳＴ中のサブノードへの追加リンクは、位相スコア付けの最高レベルで生じ得、そこでは、スコア付けおよびそれらの結び付けられた構造修飾における第１および最高順位付けされた差異が生ずる。極端な場合において差異は、ＴＣＣレベルでのみ見出され得、これは、同じテンプレートの異なる官能例（誘導体）は識別されており、このテンプレートのための前に存在するギャップは閉ざされていることを意味する。この挙動は、活性／不活性ヒットリストのためのＳＡＲ分析中において望まれる。
交差要素の検索における文字列大小比較の代りに、周知の他の技術、例えばクリーク検出、最大共通下位構造検索またはフィンガープリントスクリーニングが有用であり得る。

ＴＳＴノード中の分析データの記憶および管理：
追加の情報分野は、あらゆる試験系（バイオプロファイリング）に対する生体活性参照を含有し得、この中でそのようなテンプレートは、活性であると見出されている（特権付与テンプレートまたはスカフォードを参照）。これらの情報分野を、実際の分子グラフに結び付けることができ、これは、正規のＴＳＴノードまたはリーフノードとしてＴＣＣノードを超えて、濃縮因子を監視するため、決定ツリーに基づくプロセス管理に使用するため、または代りのデータ分割スキームを適用するためにリンクされる。これらの情報アレーに基づき、次ぎの作業を有効に処理し得る：
・活性／不活性Ｒ群デコンボリューションのための位相スカフォードに対するＳＡＲプロファイリング
・スカフォードに対するベイズ統計による生体活性のためのフレームワークベース確度分析
・インプットデータのために異なるフィルターから発生したＴＳＴに対してブール演算を適用することによる、推定偽陽性／偽陰性についてのチェック
・活性テンプレートクラス、スクリーニングプール、化合物保存書庫、ＨＴＳ履歴に対するバイオプロフィルにおける特権付与スカフォードおよび購入リスト選択のためのギャップ分析
・スペクトルモーメントのような構造に対する計算グラフ不変量に基づく生体活性または物性のための（正規化）判別分析
・マハラノビス距離を介するＴＳＴノード間の化学的距離の計算
・構造集束知識抽出のための特許構造およびＳＡＲの包含
・特異的だが構造的に異なった標的位相および官能プロトタイプ分子の３Ｄ配列のための選択、および薬物／標的相互作用の機械的分析（生体等配電子および等官能基の識別）
・活性スクリーニングヒットのためのバイオエフェクタデータベースおよび組織内分子フレームワークの比較分析（間接標的分析）
・逆合成計画および反応ライブラリ検索のためのスカフォードの使用。

活性および不活性ＴＳＴの比較：
特異試験系における活性および不活性化合物のための位相構造フォレスト中での化学的に意味のある位相シーケンスコード（ＴＳＣ）およびモルコードの使用により、両方のデータセットにおいて対応する母集団を、それらの同一ノードタグ（ＴＳＣまたはモルコード）により容易に識別することができる。こうして、アッセイ中の活性／不活性に対する化学修飾の結果は、同一位相フレームワークに対して認定され得、次ぎのファーマコフォア分析、ＳＡＲおよび構造性質分析を一般に支援する。さらなる分析を、計算化合物ディスクリプタを比較することにより、またはこれらの「クラスタ」中に存在する置換基およびヘテロ原子をさらにカテゴリー分類することにより（例えばＨＢドナーまたはアクセプター、イオン性酸性／塩基性基などに分類することにより）行い、両方の群（それぞれ活性／不活性）内で、共通位相フレームワークの他に化学特徴のほとんどを共有するこれらのパートナーを見出すことができる。

化合物のこのセットは、試験における偽陽性または偽陰性のための最も見込みのある候補を表示すると考えられ、これは、再試験が予定されるべき活性／不活性の個々の群における実際の確率分布に依存する。両方のセット中の全てのマッチングＴＣＣを分析することにより、再試験される化合物のセットは識別され、活性／不活性を引き起こす化学修飾のための仮定を、on the fly で発生させ得る。共通ファーマコフォア要素についての情報を発生させることができ、ＴＣＣのためのＲ群デコンボリューションを、置換パターンの検索において各ＴＣＣに結び付けられた化合物リストを処理することにより各テンプレートのために得ることができる。ファーマコフォア候補（生体活性フラグメント）のためのさらなる分析／証明は、（正規化）判別分析（Friedman J. H., 正規化判別分析, Journal of the American Statistical Ass., 1989, 84 (405), 165-175）に基づき、トレーニングサブセット（Estrada E., ＱＳＰＲ／ＱＳＡＲおよび薬物設計調査における位相下位構造分子設計(ＴＯＳＳ-Ｍｏｄｅ)について, SAR and QSAR in Environmental Research, 2000, 11, 55-73）中における活性／不活性カテゴリーに関係する個々の化合物および断片化スキームに対して計算されたスペクトルモーメントおよびマハラノビス距離を用いて達成され得る。断片化スキームを、サンプル試験サブセットを用いる Leave-one-out (ＬＯＯ) クロスバリデーションランおよび予測分析により評価し得る。
ファーマコフォア断片化の妥当性確認をするための代りの方法として、ＳＩＭＣＡ法（(Wold S および Sjostrom M "ケモメトリックス(Chemometrics): 理論および適用" 中, Kowalski, B.R. (編), ACS Washington, 1977）またはＨＱＳＡＲ法（米国特許第5751605号）を適用し得る。

位相フレームワークに対するギャップ分析：
あらゆるＴＣＣノードを超えて、化学誘導体のセットＤの各メンバーは、位相構造ツリー中に個々のリーフとして配置される。Ｄは、ＴＣＣノードより下で２つの部分群、実際に占有されている部分およびそのＴＣＣ中におけるあらゆる可能な変形物に対するその補数(complement)に、化学スペースを分割する。同じことが、ＴＣＣより上のあらゆるノードおよびその子ノード（サブツリー）に対してあてはまる。ＴＣＣの特定位相サブクラスＴ_kにおけるあらゆる可能な修飾を、あらゆる特定位置ｐを事前定義された新しい郡Ｖ_pに変換するために、形式的にオペレータ：

を適用することにより発生させ得る。そのようなオペレータを、ＴＣＣノードまたは実際の分子グラフ中のあらゆる特定クラスＴ_kに適用することにより、私達は、あらゆる新規化合物Ｇ'を形式的に列挙することができる。

ＴＣＣおよびサブセットＴ_kにより定義された仮想化学スペースは、Ｘ_Tkと呼ばれ、これはあらゆる化学的に可能な点変換を、位置ｐで所定テンプレート中において含む。

実際に占有されている化学スペースに対する未定義(missing)補数は、

（式中、Ｄ_Tkは、サブクラスＴ_k中に存在する誘導体の占有されている化学スペースである。）により定義されるような新規化合物Ｍ_Tkに関して、あらゆるギャップをその特定の位相化学スペース中において含む。合成、望ましい物性および要求されるファーマコフォアスペクトルの存在または反応性基の欠落についての化学実行可能性によるさらなるフィルターアクティビティは、当然、処置の有効性を上昇させるために実行されるべきである。

新規化合物のためにスキャンされる位置ｐおよび原子セットＶ_pのリストは、Ｄ中に存在するヘテロ原子Ｈおよび置換基Ｓの利用できるセットから、および／またはユーザー選択から誘導され得る。実際、これらの演算は、位相分析が行われるインプットデータのためのフィルターが適切に設定されている（即ち、それは「保存書庫分析」に設定されるべきである）場合にのみ意味をなす。構造およびタイプにおけるマシーンベース修飾に利用できる位相クラスのセットを、排除用フィルターリストにより、および適用される実際の化学修飾のための追加ルール（セット）により取り扱うことができる。モーフィング処置の実行を、ＴＣＣを文字列構造コード（例えばＳＬＮまたはスマイルなど）に変換することにより単純化し、実際の構造修飾を末端ユーザーのためにより容易に整えることができる。
より容易なギャップ充填は、活性および不活性化合物を比較するために同様に上記したように、存在する化学保存書庫に対するＴＳＴと実際の購入リストとを比較することにより達成され得る。

実施例１
図１は、化合物における位相分析のための選択ステップ、および例示のインプット構造１から、演算処置ステップ（I.〜VII.）、優先付けルール（１）〜（５）およびａ）〜ｄ）を、位相特徴に対する再帰的構造分割スキームにおいて適用することにより発生した中間結果を示す。Ｘは、任意のヘテロ原子を表す。

まず水素欠乏グラフ（２）を発生させ、次いで化合物の位相クラス（それらの原子タイプのためにコード化された色で示される）は連続的に処理され、最高優先度クラス、たとえば環（赤に着色、３）で開始し、リンカー（青）、ヘテロ原子（ペールグリーン）および置換基（または官能基、オレンジ４）を通じて進行する。白黒印刷における判読のために、環、リンカーおよび分子鎖メンバーシップを定義する適切な位相原子ラベルも、各下位構造要素のために与えられる。このプロセス中に、クラス内優先付けが、連続的に全てのクラスのために決定される。全フラグメント優先付けの最終結果は、位相サブクラスの頂点に頂点ラベル（５、６）として結び付けられる。最終ステップにおいて、（仮想）位相クラスタ中心（ＴＣＣ、緑７）の構造が創造され、これは、そのスカフォードのあらゆる化学修飾のための親ノードとして機能する。

実施例２
図１（Ｘ＝任意ヘテロ原子）に示されるように処理されている化合物１のための位相シーケンスパス（ＴＳＰ）の構築例。インプットデータ中に存在し得るが、まだ結び付けられていない近い位相隣接物に対する推定リンクは、双頭の破線矢印により示されており、これは、ＴＳＴ中における細部のあらゆる中間レベルで、可能なリンケージを示す。双頭矢印は、位相構造ツリー中の上下の移動を準備するポインター情報を示す。最低レベルの細部（ＴＳＴルート、赤８）は、一般的な六員環であり、これは、トップの優先度を有する。この中心フレームワークの周りの位相領域のこの拡張から、ルールベース優先付けスキームの後の細部レベルにより構造が拡張する。ＴＳＴノードに結び付けられる位相シーケンスコード（ＴＳＣ）ラベル（赤）を、大規模データセットを通じて、および非常に複雑な位相構造フォレスト（異なるルート構造を有する異なるＴＳＴのコレクション）を通じてナビゲートするために、グラフ（構造）の代りに使用することができる。ＴＳＴ中の各ノードにも分析分野を結び付けることができ、これは、サブツリー母集団、スクリーン（バイオプロフィル）のための生体データ（活性／不活性）などに対するブックキーピングアクティビティを準備する。各ノードを超えて化学変形物の実例が列挙され、これも、これらサブツリーの位相サブクラス中における実際に可能な変形物に対するそれらの可算補数により、位相ギャップおよび誘導体を定義する。ＴＣＣ構造（例えば７）は、逆合成の合成計画、反応ライブラリ検索のため、および異なるスカフォード間でＳＡＲを比較するために理想のツールであると考えることができる。

実施例３
文献（Wilcox R.E., Tseng T., Brusniak M.K., Ginsburg B., Pearlman R.S. Teeter M., Durand C., Starr S. および Neve K.A., 組換えＤ１対Ｄ２ドーパミンレセプターでのアゴニスト親和性のＣｏＭＦＡベース予測, J. Med. Chem., 1998, 41, 4385-4399）から得られたドーパミンＤ１およびＤ２アゴニストセットのためのインプットデータを、図３に示す。構造は、ＳＬＮ（Sybyl Line Notation, Tripos Inc. セントルイス）でコード化されているが、ＳｙｂｙｌＭｏｌ２ファイル、ＭＤＬＭｏｌファイル、スマイルフォーマットまたはＳＬＮを、一般に、本明細書中で記載した本発明に基づき、組織内コンピュータープログラムを使用して位相構造ツリーを創造するために使用することができる。

実施例４
図４は、本明細書中で記載した本発明に基づき、組織内コンピュータープログラムにより発生した自動製造ＴＳＦについての結果を示し、実施例３からのデータについてこの特許で記載した方法のいくつかを示す。

コンピュータープログラムを、それが
ａ）ユーザーが、合成作業のための最も有望なテンプレートの検索において、位相ツリーを通じて対話式にナビゲートすることを可能にする、
ｂ）生体活性（または所定の他の物性スペクトル）またはテンプレート若しくはスカフォードについて誘導された統計データのいずれかのためのノード、およびサブツリー中の誘導体のための化合物ノードのプロパティをカラーコード化する、並びに
ｃ）薬物候補ギャップの識別のために、各位相クラスタ中心に対するデータセット中に存在する利用可能な誘導体を列挙する
ようにプログラムすることができる。
ツリーリーフ（これらは、それらの化合物名または登録ＩＤによりタグ付けされる）を除いて、位相シーケンスコード（ノードラベル）は、各構造（ツリーノード）の上に配置される。

（原文に記載なし）

Claims

化合物のセット内で構造的、又は位相的及び／又は機能的ギャップについてのコンピュータによる自動的な識別のための方法であって、
ａ）化合物の２Ｄ-または３Ｄ-構造の分子グラフ（１）の入力を受け付けるステップ、
ｂ）水素欠乏分子グラフ（２）を生成するステップ、
ｃ）所定の優先順位付けのルールに逐次従って、分子グラフ内に存する位相鍵特徴と、分子グラフ（３、４、５、６）内の一致した頂点のラベル付けとの、所定のクラスとサブクラスを識別するステップ、
ｅ）（ｉ）分子グラフ内の全ての置換基を除去し、（ｉｉ）分子グラフ内の全てのヘテロ原子を炭素原子に変形することにより、最大の全炭素位相鍵グラフ（ＴＣＣ）を創造するステップと、
ｇ）最高順位の位相鍵特徴（８）を伴う全炭素位相鍵特徴グラフに到達するまで、最大の全炭素位相鍵グラフ（ＴＣＣ）（７）から、ステップｃ）で識別された夫々最も低い順位の位相鍵特徴を繰り返して除去し、このことにより、夫々が前よりもより少ない位相鍵特徴しか有さない全炭素位相鍵特徴グラフ（１０、９、８、７）の階層パス（ＴＳＰ）を創造するステップ、
ｈ）ステップｅ）の後またはステップｇ）の後、ステップａ）の分子グラフ（１）を最大の全炭素位相鍵特徴グラフ（ＴＣＣ）（７）とリンクするステップ、
ｉ）上記化合物のセットのうちの一つ又はそれ以上の更なる化合物の２Ｄ-または３Ｄ-構造の分子グラフ（１）に対して、上記ａ）からｈ）のステップを繰り返すステップ、
ｊ）更なる化合物についてのステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフに、前に分析された化合物についてのステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフを共有させることにより、ツリー状構造（ＴＳＴ）を創造するステップ、及び、
ｋ）更なる化合物が、前に分析された化合物についてのステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフと共通して、ステップｇ）の階層パス（ＴＳＰ）内に全炭素位相鍵特徴グラフを有さない場合に、更なるツリー状構造（ＴＳＴ）を創造することによって、フォレスト状構造（ＴＳＦ）を成長させるステップ
を含み、
Ｉ）ステップｇ）の階層パス（ＴＳＰ）内の任意の全炭素位相鍵特徴グラフ（１０、９、８）の位相鍵特徴を修正するステップ、及び、
ＩＩ）修正によって生じた化合物の分子グラフ（１、２）を、既存の分子グラフ（１、２）と比較することによって、位相的及び機能的ギャップを識別するステップ
を含む
方法。
ステップｅ）にて、分子グラフ内の全ての分子鎖を除去することを、更に含むことを特徴とする請求項１に記載の方法。
ステップｇ）の全炭素位相鍵特徴グラフ（１０、９、８）に従って、個々の分子グラフ（１）に対して位相鍵特徴から階層構造ラインコード（ＴＳＣ）を創造し、それを最大の全炭素位相鍵特徴グラフ（ＴＣＣ）（７）とリンクするステップを
更に含むことを特徴とする請求項１に記載の方法。
ステップｇ）の階層パス内の対応する全炭素位相鍵特徴グラフ（１０、９、８）に関して、若しくは、対応する階層構造ラインコード（ＴＳＣ）に対して、ブール演算を適用し、実際に共有する位相鍵特徴を様々な分子グラフ（１）内で識別するステップを含む、請求項１乃至３のいずれか一に記載の方法。
ツリー状構造（ＴＳＴ）及び／又はフォレスト状構造（ＴＳＦ）をグラフ的に視覚化するステップを、更に含むことを特徴とする請求項１乃至４のいずれか一に記載の方法。
ステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）を各々標識付ける表示ネームタグを、創造するステップを、更に含むことを特徴とする請求項１乃至５のいずれか一に記載の方法。
位相鍵特徴が、環、リンカー、ヘテロ原子、置換基および／または非環式鎖から本質的になる群から選ばれる１個または数個の位相クラスを含むことを特徴とする請求項１乃至６のいずれか一に記載の方法。
位相鍵特徴が、環のサイズ若しくは長さ、リンカー及び分子鎖、原子価、ヘテロ原子の数、ドナー／アクセプター性、正／負電荷、並びに、酸性／塩基性基を含む群から選択される一つ若しくはそれ以上の位相サブクラスを含むことを特徴とする請求項１乃至７に記載の方法。
ステップｃ）の位相鍵特徴クラスの順位付けを、発見的ルール：環＞リンカー＞ヘテロ原子＞置換基＞分子鎖、により優先度を減少させることで定義することを特徴とする請求項７又は８に記載の方法。
ステップｇ）の位相鍵特徴のクラス内およびクラス間順位付けが、
Ａ）位相鍵特徴のサブクラスの相対重要度(importance)を、置換度に関して順位付けするステップ、及び、
Ｂ）特異フラグメント中のあらゆる特定の化学修飾の有意度(significance)を評価するための基準を、フラグメントのために、空間３Ｄ-コンフォメーションにおけるフラグメントサイズおよび幾何柔軟度に関して導くステップ
を含むことを特徴とする請求項１〜９のいずれかに記載の方法。
ステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）の構造、及びそれらの表示ネームタグを、一種若しくはそれ以上の生物学的標的または測定若しくは計算されたプロパティ／ディスクリプタで生体活性試験をするための統計データにリンクするステップを、更に含むことを特徴とする請求項６乃至１０のいずれか一に記載の方法。
構造を色付け、及び／又は、
ツリー状構造内のステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）の構造を再配置し、及び／又は、
ステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）及びそれらの表示ネームタグの構造にリンクされる統計データ若しくはプロパティ／ディスクリプタに基づいて、構造、下位構造および／または分類データ群間のディスクリプタベース化学的距離を測定する
ステップを、更に含むことを特徴とする請求項１１に記載の方法。
ステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）のカラースペクトルをマッピングし、
ステップｇ）の階層パス（ＴＳＰ）内の全炭素位相鍵特徴グラフ（１０、９、８）及びそれらの表示ネームタグの構造にリンクされる統計データ若しくはプロパティ／ディスクリプタに基づいて、分子スカフォード、位相フラグメトおよび化学誘導体中に存在する標的配向可能性を定量する着色ツリー状構造（ＴＳＴ）及びフォレスト状構造（ＴＳＦ）を生成することを特徴とする請求項１２に記載の方法。
統計データが、度数分布、確率および／または濃縮係数であり得ることを特徴とする請求項１１乃至１３のいずれか一に記載の方法。