JP4328532B2 - 化合物の性質最適化のための2dまたは3d−化合物構造式の階層位相ツリーを発生させるための方法 - Google Patents

化合物の性質最適化のための2dまたは3d−化合物構造式の階層位相ツリーを発生させるための方法 Download PDF

Info

Publication number
JP4328532B2
JP4328532B2 JP2002572763A JP2002572763A JP4328532B2 JP 4328532 B2 JP4328532 B2 JP 4328532B2 JP 2002572763 A JP2002572763 A JP 2002572763A JP 2002572763 A JP2002572763 A JP 2002572763A JP 4328532 B2 JP4328532 B2 JP 4328532B2
Authority
JP
Japan
Prior art keywords
graph
topological
phase
molecular
tsp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002572763A
Other languages
English (en)
Other versions
JP2004537085A (ja
Inventor
アクセル・イェンゼン
シュテファン・ザイドラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayer AG
Original Assignee
Bayer AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayer AG filed Critical Bayer AG
Publication of JP2004537085A publication Critical patent/JP2004537085A/ja
Application granted granted Critical
Publication of JP4328532B2 publication Critical patent/JP4328532B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、構造的に特徴のある化合物、特に薬物様分子のための2D-または3D-構造式の階層位相ツリーを自動的および動的に発生させるための新規方法に関する。それは、多くの用途、例えばコンピューターベース構造/性質分析、ファーマコフォア分析、大量化合物保存書庫における結果スクリーニングのためのテンプレート配向ベイズ統計または特許編集の構造分析における、構造ベース情報処理を支援する。
これまで、自動化動的手順は、化合物および薬物に対する位相特徴をベースとする絶対および標準化構造分析のために利用できていない(Bayada D.M., Hamersma H. および van Geerestein V.J., 化学データベースにおける分子の多様性および典型, J. Chem. Inf. Comput. Sci., 39, 1-10 (1999))。
代りに、クラスタリングのような教師なし学習法(Bratchell N., クラスタ分析, Chemometrics and Intell. Lab. Systems, 6 (1989), 105-125; Linusson A. wold S. および Norden B., コンビナトリアルケミストリのための化合物のクラスタ分析についてのストラテジーにより導かれる627アルコールのファジークラスタリング, Chemometrics and Intelligent Lab. Systems, 44 (1998), 213-217)または様々な種類の Artificial Neutral Nets または構造類似性基準法、例えば最大共通構造分析(Holliday J.D. および Willett P., リガンドセット中における共通構造特徴を識別するための遺伝的アルゴリズムの使用, J. Mol. Graphics and Modelling, 15, 221-231, 1997)を介する教師なし学習が、類似化合物群を識別するために使用される。これらの方法のほとんどは、類似化合物は、同様に反応および挙動するだけでなく、類似の物理的および生物学的性質も有するというパラダイムを頼みにする。その結果、これらの技術は、化合物間の化学類似性のための尺度を必要とし(Basak S.C., Bertelsen S. および Grunwald G.D., 分子類似性および構造活性の関係の定量におけるグラフ理論パラメーターの適用, J. Chem. Inf. Comput. Sci., 1994, 34, 270-276; Basak S.C., Magnuson V.R., Niemi G.J. および Regal R.R., グラフ理論インデックスを使用する化合物の構造類似性の決定, Discrete Applied Mathematics, 19 (1998), 17-44)、これらは、各分子対間の化学的距離を、これら化合物の性質および活性の適切な差異に訳せるということを仮定して、化合物および化合物に類似する群での計算または測定化学的差異をスコア付けし、比較することを可能にする。
計算類似性は、しばしば構造要素の限定セット(例えば構造フィンガープリント)(Willet P., 化学類似性検索, J. Chem. Inf. Comput. Sci., 1998, 38, 983-996; Flower D.R., 化学類似性のビットストリングベース測定のプロパティについて, J. Chem. Inf. Comput. Sci., 1998, 38, 379-386; McGregor M.J. および Muskal S. M, ファーマコフォアフィンガープリンティング. 2. 一次ライブラリ設計への適用, J. Chem. Inf. Sci., 2000, 40, 117-125; Wild D.J. および Blankley C.J., 2Dフィンガープリントタイプおよび階層レベル選択の比較. ウォードクラスタリングを使用する構造グルーピング法, J. Chem. Inf. Comput. Sci., 2000, 40, 155-162) から、谷本係数(Tanimoto coefficient)(Goddeen J.W., Xiu L. および Bajorath J., コンビナトリアルプリファレンスは、バイナリーフィンガープリンティングおよび谷本係数を使用する分子類似性/多様性計算に作用する, J. Chem. Inf. Comput. Sci., 2000, 40, 163-166) に関して導かれる。原則として、あらゆる利用可能な類似性基準は、各分子がその最近接リストにおけるクラスタ中に全ての他の分子を有すること、およびその逆により、クラスタ中のあらゆる分子対が特徴づけられるように、同じクラスタに属する分子を見つけるために、各分子の類似性順位付け隣接リストを分析することにより、クラスタリングに役立ち得る。
類似性ベース手順の欠点は、構造のグルーピングのための絶対的基準が存在しないことであり、その代わり、データセット内の自己類似性試験が適用され、それについて各分子は、最近接物を見つけるために、全ての他のものと比較されなければならない。データ量が増加するにつれ(例えば1スクリーンあたり100万を超える試験化合物)、分類のために費やされる努力は、分析すべき分子数に少なくとも二次的に依存し、これはしばしば、階層分類法(Mojena R., 階層グルーピング法および停止ルール: 評価, The Computer Journal, 20(4), 1975)の適用を、小さいデータセットに制限する。またコンビナトリアルケミストリのような新規技術により、化合物の実際の保存書庫は増加し、それらの化学的性質は高速で変更される。これは、実際のクラスタメンバーシップが薬物保存書庫の内容変化により変化するように、データセットにおける自己類似性のための相対尺度を基準とする化合物分類についてのあらゆる試みを不充分なアプローチにさせる。その上、最適クラスタの実数は前もって分からず、パラメーターの階層調節またはデータについてのアプリオリ(a priori)知識を必要とする。それにも関わらず、いくつかのクラスタの奇妙な母集団またはシングルトンの存在のいずれかに直面し、これについて、充分な類似化合物は存在しない。
教師あり学習法、例えば Artificial Neutral Nets (ANN)は、トレーニング(過学習データの危険を有する)およびネットアーキテクチャの最適化を必要とする。それらは、しばしば「ブラックボックスシステム」として使用され、理解することが困難であり得る結果を供給する。そうしてデータからのリガンドおよび標的性質についての知識抽出は、制限され、引き続きのリガンド最適化プロセスにおける合理的活用のために使用することが困難となり得る。
既知の Maximum Common Substructure (MCS) アルゴリズムは、大量データセットにおけるペア構造比較からの組合せ爆発に対処する必要があることを欠点にもち、おそらく細胞多重標的アッセイにおける矛盾するデータのために役立たないであろう。それらはまた、リガンド中の同種官能的または同種立体的置換により、構造的に多様なデータ中で下位構造間の一対一対応が見つからない場合、より大きな共通下位構造を識別し損ない得る。
テンプレート配向手順に関して、データ−ベースにおいて事前定義スカフォード分析(Glenn J. Myatt, Wayne P. Johnson, Kevin P. Cross, および Paul E. Blower, Jr.; リードスコープ(LeadScope): スクリーニングデータの大量セットを探索するためのソフトウェア, Gulsevin Roberts, J. Chem. Inf. and Computer Sci. (2000), 40, 1302; WO00049539a1)を、27,000の構造要素の事前定義階層に基づき、構造および/またはフラグメント分析のための総称自動的または動的ツールを使用せずに行う技術だけがこれまで公表されている。既知の特徴を用いる所定化合物プロフィルの検索のために、いくらかの進展が、類似性ベース特徴ツリー分析(Rarey M および Stahl M, ラージコンビナトリアルケミストリスペースにおける類似性検索, J. Computer-Aided Mol. Design, 15, 497-520 (2001))または形態類似性分析(Andrew KM および Cramer RD, J. Med. Chem. 43, 1723 (2000))により達成されている。
まだ、大規模薬物保存書庫についての分析および位相的観点を標準化するための、効率的なツールは存在しない。しかしながらこれは、化学駆動情報処理を容易にすることができ、官能および位相ギャップの系統的識別およびスコア付けを支援することができ、そうして、合成的考察により化学下位構造選択を優先付けることを可能にする。しばしばプロパティベース技術が適用され、これは、プロパティスペースのギャップ(Linusson A., Gottfries J., および Lindgren F. および Wold S., コンビナトリアルケミストリのための構成要素の統計分子設計, J. Med. Chem. 200, 43, 1320-1328; Pearlmann R.S. および Smith K.M., 計量確認およびレセプターに関連するサブスペース概念, J. Chem. Inf. Comput. Sci. 1999, 39, 28-35)またはある好都合なプロパティ領域(Leach A.R., Green D.V.S., Haan M.M., Judd D.B. および Good A.C., ギャップはどこにある? モノマーの収集および選択についての合理的アプローチ, J. Chem. Inf. Comput. Sci. 40 (5)[2000], 1362-1269)に落ち着く、新規化学的実体検索における利用可能化合物の計算または測定性質をクラスタリングするための、統計分析と組み合される。
しかしながらこれらの方法は、望ましいプロパティはその特定構造に矛盾するか、あるいは望ましいプロパティプロフィルは、プロパティ評価(Ward J.H. Jr., 目的関数を最適化するための階層グルーピング, American Statistical Ass. Journal, 1963, 236-244)のために使用される相関または不正確なパラメータにより実際の化合物とはずれることにより部分的に、ギャップのために望ましいプロパティを実際にこれらのギャップを満たす分析可能な化学に容易に翻訳することができないということを欠点としてもつ。さらに、プロパティベース法からのあらゆる化合物選択は、薬物標的相互作用および生体活性のために必要とされる適切な化学を確保するために、本質的なファーマコフォアデータの存在を考慮しなければならない。
化合物の2D構造は、新規薬物様化合物のために変換可能で関連があり得る既知の薬物の特徴的な構造的特徴を要約するために、位相鍵特徴、例えば環、リンカーおよび側鎖(Bemis GW; Murcko MA, 既知薬物の性質. 1. 分子フレームワーク, J. Med. Chem, 39 (15) (1996), 2887-2893; Bemis GW; Murcko MA, 既知薬物の性質. 2. 側鎖, J. Med. Chem. 42 (25) (1999): 5095-5099)に関して分析できることは周知である。しかしながら位相鍵の定義は、薬物におけるそれらの度数分布を表示するために、既知の薬物の遡及データベース分析に対してだけ使用されている。分子構造中のそのような位相特徴を使用することにより、化合物を、これらの特徴の数および種類により、位相式インデックス(de Leut A., Hohenkamp J.J.J. および Wife R.L., 仮想および脱落/出現化学における薬物候補の発見, J. Heterocyclic Chem., 37, 669 [2000])の種類に類別することができる。
定義
グラフ:ノード(頂点)から構成され、エッジにより接続される数学的構成物。本発明において私達は、グラフの2つの種類、分子グラフとツリーとを区別する。
ノード(頂点):特定の(化学)対象を表すグラフまたはツリー中の1つまたはそれ以上のエッジの最終点、これは円(または別の記号)により、またはネームタグ(例えばラインコード、位相シーケンスコード(TSC)またはモルコード)により視覚化され得る。グラフにより表される対象に応じて、ノードの物的解釈は変化し得る(即ち、分子グラフ中のノードは原子を表し、位相構造ツリー中のノードは、一般に化合物、(下位構造)テンプレートまたは分子グラフである。)。
リーフノード:ツリー中のエンドノード、本発明においてこれは、インプットデータストリーム中に存在する化学的実体(およびその分子グラフ)のために、充分に分解された構造ノードを表す。リーフノードは、ユニークな登録IDによりラベル付けされる。
エッジ:分子グラフ中またはツリー(例えば位相構造ツリー(TST))中の2つのノードを連結し、分子グラフ中の単一または多重ラインおよびツリー中の単一ラインにより視覚化され得る。
分子グラフ:化合物の構造式のためのモデル、この中でノード(頂点)は原子を表し(種類、数および原子価により特徴付けられる)、エッジは化学結合を表す。各化合物は、無向水素欠乏分子グラフG(V,E)1(この中でV(v1,v2,...) は頂点(ノード、原子)のセットであり、E(e1,e2,...) はエッジ(化学結合)のセットである。)として扱われる(視覚化され得る)。インプットデータからのあらゆる化合物iのために、このグラフは、G(i) と省略される。このグラフ中の頂点(原子)は、あらゆる共通の非水素原子であり得、その中で炭素は、薬物様化合物に対して仮想参照とみなされる。エッジ(化学結合)は、一重、二重、三重、部分二重/芳香族タイプであり得る。
テンプレート:基本位相コンポーネント(位相鍵特徴参照)、例えば環、リンカー、分子鎖、から構成される全炭素下位構造、これは、主として、現実の薬物分子の固定(rigid)および特徴的なコンポーネントであると仮定される。同義語は、フレームワークである。テンプレート(フレームワーク)は、その位相タイプのあらゆる化学誘導体を集めるための標識分子であるとみなされる、即ち、化学誘導体の様々なクラスを含む。これは、インプットデータストリーム中において、理論的に可能であるかまたは実際に存在し得る。
スカフォード:テンプレートに類似するが、化学的に(即ち、ヘテロ原子の存在により)修飾されている。即ち、それは、固定フレームだけでなく、リガンド標的相互作用のための特異な確定幾何学的配置の機能モチーフも表し得る。
コア:現実の薬物中に存在する最高順位の位相要素(全炭素下位構造)、これは、位相構造ツリー中のルートノードとして機能する。
モルコード:位相構造ツリー(TST)中に存在するあらゆる下位構造ノードのための特徴的なネームタグ。これは、2つのパーツからなる:(第1)分子グラフ中に存在する構成位相鍵特徴のために、事前定義ラベルから、階層組織化テキストストリング(即ち、ラインコード)として定義される、位相ネームタグ(そうしてこれは、元のテンプレート構造に容易に翻訳され得る)、および(第2)化学的に変換されている各下位構造要素のための化学変換の位置および種類を明記する、ラインコードに結び付けられている化学修飾ストリング。用語モルコードは、続いて、その構造が全炭素テンプレート(これは、特性評価のための位相データのみを必要とする)であるか、または化学誘導体であるということに関わらず、(下位)構造のあらゆるネームタグのために使用される。モルコードが、最大の全炭素下位構造(即ち位相クラスタ中心)に対して発生する場合、それは、含まれるあらゆる妥当な下位構造のための位相シーケンスコード(TSC)としても解釈され得る。インプットストリームからの実際の化合物に対し、モルコードは割り当てられないが、元の登録番号を、代りにネームタグとして使用し得る。
ツリー:エッジリンクされたノードのアセンブリ、その中で円形パスは存在しない。ノード(頂点)およびエッジの意味は、ツリーにより表される対象に依存する(例えばTSTは、さまざまな複雑なものの分子および下位構造テンプレートから構成される)。本発明において動的ツリーは、階層位相構造ツリーを構成するために、大量インプットストリームから on the fly で、および柔軟なユーザーコントロール下でツリーおよび化合物を視覚化して、使用される。
位相クラス:下位構造カテゴリー(またはクラス)、これは、所定化合物中に存在することができ、いくつかの原子が、環(R)、リンカー(L)、分子鎖(C)またはこれらの妥当な組み合わせを形成するという性質により特徴付けられ得る。定義により、参照位相クラスは、炭素のみのテンプレートであり、これは、定義により、固有特異の生体活性を示さないことが予想される。これらの種類に加えてこれらの位相クラスは、使用するあらゆる位相鍵特徴のためにルール定義された発見的基準により特徴付け(およびスコア付け)られる。各位相クラスは、サイズ(または長さ)、原子価(または飽和度、例えば芳香族、脂肪族など)または官能修飾の数および種類(例えばヘテロ原子の数、ドナー/アクセプター性、正/負電荷、酸性/塩基性基など)によりサブクラスに再分割され得る。
位相鍵特徴:分子中に存在する構造的(即ち、位相的)および化学的特徴、これは、位相クラス(即ち、環、リンカーまたは分子鎖)を定義付けするか、または化学修飾を全炭素位相参照テンプレートに導入する(例えば特定の下位構造要素の優先付けに影響を及ぼすヘテロ原子および/または置換基)。
位相鍵特徴のカテゴリー
環(R):各分子グラフG内で、存在するあらゆる環は、その下位構造に対するハミルトニアンパスの長さ(例えば環原子の数、または環サイズ、r=3,4,5,...)により特徴付けられる環式部分グラフを形成する。
リンカー(L):分子グラフ中に存在する長さl(l=0,1,2,3,...、リンカー骨格中の結合数)の非環式の直鎖または分枝鎖、これは定義により、少なくとも2つの異なる環(分枝リンカーに対してはそれ以上)に属する頂点で開始し、終了する。
置換基(S):全サイズs(sは、置換基中の原子数である)の非環式付着物、これは、分子グラフ中に存在する環、リンカーまたは分子鎖のいずれかに結合している化学官能基(例えばハロゲン、アミノ基、カルボキシル基、ヒドロキシ基、スルホアミド基、脂肪族鎖など)として知られている。置換基は、ヘテロ原子分子置換鎖に対する具体例として見ることができる。
分子鎖(C):長さc(cは、分子鎖中の原子数である)の直鎖または分枝の非環式下位構造、これは、分子グラフ中のリンカーまたは単一環頂点のいずれにも加わらない。環またはリンカーに結合している非環式炭素骨格は、脂肪族置換基として扱われる。
ヘテロ原子(H):分子グラフの環、リンカーまたは分子鎖に存在するあらゆる炭素置換物。しかしながらヘテロ原子は、位相(結合数および空間配置)だけでなく、電子特性(孤立電子対または電子ギャップ)においても炭素と異なり、そうして塩基性/酸性、水素結合、溶解性、化学反応性および生体活性(標的結合、薬動力学特性、毒性など)に影響を及ぼす。そうしてヘテロ原子は、その性質の化学反応に対して、異なるサブクラス(HBドナー/アクセプター、酸性/塩基性、負/中性/正電荷原子など)に再分割され得、それぞれの位相サブクラスに個々に影響を及ぼす。
位相シーケンスコード(TSC):分子グラフ中に存在する位相鍵特徴から構成される階層組織化ラインコード。これは、特定位相、および元の化合物における下位構造要素の種類、優先度およびリンケージを標準的な形態で反映するその位相クラスタ中心(TCC)のために、特徴的である。TSCは、存在する位相要素を優先付ける発見的エキスパートルールシステムを適用することにより、各化合物の位相クラスタ中心から組み立てられる。そうしてこれは、TCCのためにラインコードシーケンス(即ちモルコードまたはTSC)中に適切に反映される、分子中のトップ順位の中心コアフラグメントの周りで、成長下位構造サイズの優先シェルを創造することを可能にする。TSCの個々の優先シェルに対する下位構造は、それらが誘導された親化合物のために特徴的な、個々の標識テンプレートとして扱われ得る(TSP参照)。TSCは、実際のモルコードストリングの位相部分である。
位相シーケンスパス(TSP):TST中の優先付けされた下位構造テンプレートの接続シーケンスパス、これは、TST中で追加の仮想参照分子(または独立標識テンプレート)として扱われる個々の下位構造シェルにTSCを分割することによって、TCCから創造される。少なくとも1つのTCC中に共存することによって、これらの仮想ツリーノードは、インプットストリーム中に存在する現存化合物中でクローズネイバーシップ(close neighbourship)を反映するエッジにより接続される。
最大位相下位構造(LTS):分子の残りの部分、これは、分子中の全ての置換基を除去した後に残る。これは、TST中でTCCを超えて配置される。実際の化合物の構造は、LTSまたはTCCノードの特定の化学誘導体のために表示するツリーリーフノードとしてLTSに結び付けられる。
位相クラスタ中心:最大位相下位構造(LTS)に相当する全炭素。下位構造要素の優先度を変化させずに、分子グラフ中の全てのヘテロ原子ノードを炭素原子にモーフィングすることにより、LTSから発生する。
発明の一般的説明
本発明は、大量の化合物における自動コンピューターベース2D/3D構造分析のための新規グラフベース法を基礎とする。それは、表示(仮想)下位構造テンプレートを発生させるため、およびこれらを動的ツリーのコレクション(即ち、位相構造フォレスト(TSF)および位相構造ツリー(TST)、以下を参照)に配置するために、位相鍵特徴(下位構造要素)を使用する。これは、誘導体をツリー中の適切な祖先ノードに付着させることにより、インプットデータセット中の下位構造タイプに存在する化学変換のあらゆる種類を監視する位相参照構造として、これらの標識テンプレートを使用することにより、達成される。そうして、表示構造を自己類似分析により見つけなければならない未知数のクラスタを有するという問題が、構成により回避される。
本発明は、特異位相クラスおよびテンプレートを動的ツリーのノード上にマッピングし、テンプレートのために階層的に優先付けされた位相ラインコードを発生させるためのルールベースシステムによりそれらの下位構造を類型化することによって、インプットデータのために分子グラフ中に存在するあらゆる位相的にユニークな化学テンプレートおよびそれらの誘導体を、自動的に発生、分析、グルーピングおよび視覚化するための方法に関する。使用するグラフ技術および位相クラスをスコア付けするための発見的ルールと組合された位相基準の定義により、化学的類型化、位相的類別およびプロパティ分類のために非常に有効なデータ処理を、大量のインプットデータ(即ち、HTSまたはUHTSからのもの)に対して達成し得る。これは、元の分子を特徴づけるために充分な全ての位相鍵特徴を含有する炭素のみの最大下位構造のための表示シンプルグラフに、分子の分子グラフを単純化するために、アルゴリズムを適用することにより実現される。この下位構造は、位相クラスタ中心(TCC)と呼ばれる。それは、位相シーケンスコード(TSC)により特徴および標識付けられ、これは、優先付けされたストリングを実際に符号化および結び付け、これは、元の分子中に存在する位相鍵特徴の優先度を減少させる際に、TCC中に含まれるより小さい位相下位構造要素を、下位構造ラベルから据え付けられた簡単な階層位相ラインコードにより標識付ける。
いったんTCCのためのTSCが発生すれば、構成する位相サブセット(シェル)は、一般に位相シーケンスパス(TSP)またはTSTを形成する(成長)下位構造ノードのシーケンスにマッピングされる。優先シェルをTSC中に含まれるコア構造の周りの位相下位構造のために連続して爆発させることにより、位相シーケンスパス(TSP)が発生し、そのコンポーネントは、単純接続されたサブツリーまたはツリーフラグメント中の新しい下位構造ノードの連続シーケンスとして視覚化される。それは、最高優先度の下位構造(ツリーのトップでのTSP-ルートノード)で始まり、TCCテンプレートで終わり、それを超えて元の化合物が、ツリーリーフノードとして配置され得る。TSPツリーノードは、正規の分子グラフ(即ち、分子)としての特異全炭素下位構造、および位相優先付けスキームから割り当てられた下位構造要素の階層順序に関する結合モルコード、の両方により特徴づけられる。これら全炭素原子フレームワークのそれぞれは、それ自体、(仮想)標識またはアンカーノードとして機能することができ、それらについて2種類の情報が結び付けられ得る‐最近接化学誘導体を、スカフォードノードまたは化合物リーフノードとしてリンクすることができ、一方、アッセイにおける活性についての標的情報および統計データを含む情報タグを、生物学的試験におけるテンプレート査定に対する活性またはプロパティプロフィルを監視するために結び付けることができる。
TSP自体を、より大きな階層位相構造ツリー(TST)に生め込むことができ、これはTSPから成長させられるか、そのようなツリーのフォレスト(位相構造フォレスト(TSF))のメンバーであり得、これは、あらゆるインプット分子および分子から誘導されるあらゆる下位構造ノードに及ぶ。ツリーノード(構造)はエッジによりリンクされ、これは、TST中でトップダウンで移動する(またはその逆の)場合、対応するTSTノード中の様々な下位構造サイズのパスを示す。
ツリーの枝分れが、化合物の存在により引き起こされ得、それは、それらのTSP中で位相特徴を共有し、一方リンクは、一般に、位相鍵特徴のクラス間およびクラス内優先付けのための発見的ルールベーススキームに従うTSPに沿ったノード(下位構造)に対する位相順位付けを基礎とし得る。
ツリーの重要な特徴として、それぞれの無傷の分子構造が、(そのLTSと一緒に)TCCノードを超えて結び付けられ、これは、化合物の最大全炭素下位構造を表す。こうして、TSPに沿ったTCCおよびあらゆる標識テンプレートは動的に集まり、インプットデータ中に存在するあらゆる位相下位構造に対するあらゆる化学誘導体を表す。TSPのノードは、ツリーの枝分れも可能にするそれらの適切な下位構造中の化学修飾のために、追加の表示管理(または標識)分子として機能する。
階層位相構造ツリー(TST)の実際の発生は、環、リンカーおよび分子鎖から構成される構造位相クラス中の修飾(即ち、ヘテロ原子の数、置換基の数、サイズ、飽和度など)をスコア付けするために、連続的および再帰的に発見的ルールのセットを適用することにより制御される。下位構造要素間のクラス間優先付けは、TCCを創造する間にまず達成され、第2ステップで、さらにTCCをより小さい表示下位構造(TSPに沿う)中に優先付けするためのシーケンスが見出される。処理された各化合物が、そのようなTCCおよび対応TSPを発生するにつれ、位相下位構造がそれらのルートノードを超えてサブツリー中で共有されている場合、ラインコードをブール演算によりチェックするために使用し得る。コア(ルートノード)の一意性(uniqueness)および交差セットのためのデータに応じて、新しいTSPが創造され得るか、または新しいノードが、存在するものに結び付けられ得、そうしてTSPの新しい非重なり部分が、実TSPにリンクされる。
こうして、特定のアッセイからのプレフィルターをかけた(prefiltered)活性および不活性化合物のために、標準化TST/TSFを、同等のTSPセットに基づきブール演算により発生させ、比較することができ、そうしてそれらは、標的活性/特異性についてのテンプレートおよびそれらの化学修飾の結果に対する、マシーンベース仮定を創造するための開始点として機能し得る。
また、ヘテロ原子置換基に対する、またはテンプレート、スカフォード、環、リンカーおよび/または分子鎖に存在する置換基に対する生体活性についての結果の監視を、リード最適化プロジェクトにおける合成計画のために実際に必要なフレームワークおよびフラグメントベース構造/性質および構造/活性関係を識別するために、グラフノードを適切に色付けすることにより支援することができる。
こうして大規模な量の化合物についての構造情報を、迅速に、並びに最大共通下位構造、接近可能な構造テンプレート、テンプレートのためのR群デコンボリューションおよびファーマコフォア認知の引き続きの分析のための位相的にユニークなあらゆるスカフォードを識別、視覚化およびグルーピングできるように、処理することができる。アルゴリズムの望ましいプロパティによりそれは、構造性質ベース化学情報処理に一般に含まれる多くの実際の側面および作業のために良く適しており、それらのいくつかを、以下で言及する。
アルゴリズムを、迅速標準化グラフフロントエンドとして実行させることができ、これは、一度にあらゆるテンプレートのための同時構造活性関係(Structure Activity Relationship、SAR)に基づくリード構造識別、テンプレート優先付けのための構造関連ヒット確率の計算、化合物保存書庫に存在する非占有構造または官能化学スペースの識別中、または(HTS-)ランのためのスクリーニングプールにおける、有機化合物に対するあらゆるタイプの構造-および性質-ベース情報処理に役立ち得る。
また分析に対する単一アッセイ結果を供給する代りに、活性化合物のスクリーニング履歴からの全HTSアーカイブまたは構造を、活性または特異性についてのテンプレート関連確度の評価が必要とされる特権付与または乱雑テンプレートの検索において、処理することができる。
位相クラスのそれぞれの全炭素テンプレートに対して、保存書庫中のあらゆる利用可能な化合物が自動的にTST中に含められるように、位相ギャップまたは欠測化学誘導体の識別も可能である。TSTの底部でまだ特異リーフとして存在しない新しい化合物につながる、TST中のあらゆる祖先ノード中の位相鍵特徴におけるあらゆる可能な修飾から生ずる分子グラフは、位相および/または官能ギャップとして構成により識別される。
同様に処置が、あらゆる下位構造について同時R群デコンボリューションのために使用され得る。内因性物質(バイオエフェクタ)中および実スクリーニングヒット中に存在する位相鍵に関する利用できるデータベースの比較位相分類は、細胞HTSランによりアドレス指定される可能な生態学的標的についてのヒントを与え得る。
また、競合特許または刊行物からの構造および試験ベース情報を、SAR分析およびフレームワーク優先付けのために使用することができる。これらの技術により分析される市販の物質およびシントンを、薬物保管所またはコンビナトリアルライブラリ中に存在する位相および電子ギャップを満たすために、ほとんどの可変性候補を識別するため使用することができる。
発明の詳細な説明
以下、図を参照する:
図1: 2D-分子グラフから位相クラスタ中心(TCC)を発生させるための、選択ステップおよび中間結果。
図2: ルートノード(コア)およびTCCの間に位相シーケンスパス(TSP)を発生させる例、および位相シーケンスコード(TSC)のネームタグとしての使用。TCC(および相互のTSPノード)は、表示参照構造(たいてい、生態学的活性が欠けている仮想標識テンプレート)として、位相最近接の化学誘導体を収集およびグルーピングするために使用される。
図3: 2D構造(文献から得られたドーパミンD1/D2アゴニスト)の小さなセットのためのインプットデータ(Sybyl Line Notation(表記法)、(SLN))。このデータセットを、本明細書中に記載する本発明に基づく組織内コンピュータープログラムを用いて、図4を生じさせるために使用した。
図4: 文献からのドーパミンD1/D2アゴニストのコンピューター発生TSTに対する例。該結果を、本明細書中に記載する本発明に基づく組織内コンピュータープログラムを使用することにより発生させた。
請求項に記載の方法は、分子のためのインプットデータに適用され、これは、基礎分子グラフを発生させるために必要なあらゆる関連情報を包含する(例えばインプットデータは、Sybyl Mol2ファイル、MDL Molファイル、スマイルフォーマットまたはSLNなどとして供給されるべきである)。
インプットデータの適切な選択は、標的性質のために適切なプレフィルターを適用することにより達成され、これは、解釈を容易にし、特別な作業のための解決についての結果の焦点を合わせる。
以下のもののためのフィルターの選択:
・活性またはヒット統計に対する構造デターミナントに関するヒット分析のための特定スクリーニングアッセイにおける、活性物質。
・様々な下位構造クラス中の偽陽性および偽陰性の両方に対する候補およびそれらの確度評価を査定するための、特定スクリーニングアッセイにおける不活性物質。
・薬物保存書庫のバイオプロファイリングのためのスクリーニング履歴、および特権付与または乱雑テンプレートの検索における、あらゆる活性化合物。
・薬物保存書庫プロファイリング、ギャップ分析、テンプレート配向R群デコンボリューション、化合物合成および化合物購入のための、全薬物保存書庫またはそのサブセットの全化合物。
・特許ギャップおよび組織内知識探査を識別するための、競合(特許)構造/活性データ。
・間接標的分類のための、内因性(活性)化合物(バイオエフェクタ)または活性代謝生成物。
・異常スカフォード、SAR分析およびテンプレート選択のための、天然(活性)薬物。
分子の構造表示
各化合物(即ち、図1中の化合物)は、無向水素欠乏分子グラフG(V,E)2(この中でV(v1,v2,...) は頂点(即ち、原子)のセットであり、E(e1,e2,...) はエッジ(即ち、化学結合)のセットである。)として扱われる。インプットデータからのあらゆる化合物 i のために、このグラフは、G(i) と省略される。各化合物のグラフは、部分グラフに分割され得、これは、環(R)、リンカー(L)、置換基(S)および分子鎖(C)のような位相テンプレートとして、または原子プロパティのためのモジュレーター、例えばヘテロ原子H={vi#炭素}としてのそれらのコネクティビティプロパティにより位相クラスT={R,L,S,C}に関してそれぞれ定義され、これらは、物理的および化学的性質(例えば溶解性および反応性)、並びにそうして生物学的標的に対する化学親和性を介して、新しい薬物候補についてのテンプレートの重要度に影響を及ぼす。環およびリンカークラスを、あらゆる特定化合物中に存在する環およびリンカータイプのあらゆる有効およびユニークな組合せRxyZ に対する化合物または下位構造の新しい位相クラスを創造するために使用し得る(即ち、R5は五員環化合物のサブクラスであり、R6-L2-R6は、2つの六員環に接合している長さ2のリンカーの存在により特徴づけられるサブセットであるなど)。同じ処置を、分子鎖クラス内で適用し得る。データ分析のより後のフェーズ中における作業、例えばファーマコフォア認知のために、いくつかのセット(S,H)は、標的および/または溶媒相互作用に対する官能性を特性評価することを可能にするさらなるサブセット中への分割(即ち、水素結合ドナーDまたはアクセプターA中への分割による)、または分子中に存在するブレンステッド酸IAまたはブレンステッド塩基IBから生ずるイオン性基中への分割、または分極電荷基(即ち、正、中性または負電荷原子)中への分割、を要求する。化合物中の構造特徴のQSAR、QSPRまたは有意分析のために、それらのグラフは、同等のライングラフ(Estrada E., 繰り返しライングラフシーケンスの一般化スペクトルモーメント. QSPR研究への新規アプローチ, J. Chem. Inf. Comput. Sci., 39 (1), 90-95 (1999))への変換を要求し得る。
鍵位相クラス要素の定義
G内における、あらゆる存在する環は、その下位構造(例えば環の原子数または環サイズ、r=3,4,5,...)のために、ハミルトニアンパスの長さにより特徴づけられる環式部分グラフを形成する。その化合物のためのあらゆる環は、サブクラス(セット)Rrを形成し、これは、分子中に存在する環のサイズrにより定義づけられるが、スコア付けスキームによる優先度において異なり得る(即ち、高度に置換された環は、同じサイズの単置換環よりも高く順位付けされる)。環の分類についてさらなる考察を必要とし得る特別な場合は、それぞれ、リンカー系に対しても特別な場合として分類され得るような、Rmnとして標識付けられるスピロ化合物、および輪状環系、Rm:Rnであり、しかしながらこれらは、同じ環系の同一の頂点(スピロcmpdsについて)、または隣接する頂点(輪状環について)で開始および終了する(以下を参照)。
リンカーは、長さl(l=0,1,2,3,...、リンカー骨格中の結合数)の非環式の直鎖または分枝鎖であり、これは、定義により、少なくとも2つの異なる環またはそれ以上(分枝リンカーについて)に属する頂点で開始および終了する。あらゆるリンカータイプは、リンカーセットLに集められ、その中のメンバーは、優先度が異なり得る(ヘテロ原子および置換基による置換度、付着される環の優先度およびリンカー長さによる置換度に従う)。リンカー長さl=1は、接合される環に対する特別な場合であると考えられる(例えばビフェニルは、環の間に単結合を有するが、リンカー原子の数はゼロであり、ここでビフェニル下位構造のためのTSCはR6-L1-R6である)。
あらゆる置換基は、全サイズs(sは、置換基中の原子数である)の非環式付着物であり、これは、環、リンカーまたは分子鎖のいずれかに結合している化学官能基(例えばハロゲン、アミノ基、カルボキシル基、ヒドロキシ基、スルホアミド基、脂肪族鎖など)として知られている。あらゆる置換基は、置換基セットSに集められ、これは、電荷、酸性pKa、塩基性pKb、サイズ(即ち、原子数)などについて計算または測定されるプロパティを用いる各セットメンバーのために、優先度が異なり得る。
分子鎖は、長さc(cは、分子鎖中の原子数である)の直鎖または分枝の非環式下位構造であり、これは、リンカーまたは単一環頂点のいずれにも加わらない。環またはリンカーに結合している非環式炭素骨格は、脂肪族置換基として扱われる。あらゆる分子鎖は、分子鎖セットに集められ、これは、置換度、サイズなどを基礎とする分子鎖の優先度により順序付けられる。
ヘテロ原子Hのセットは、分子の環、リンカーまたは分子鎖中のあらゆる炭素置換物により定義され、これはまた、それぞれの特定スカフォードに対する仮想の「位相クラスタ中心」(TCC)とみなされる位相的に同等の全炭素フレームワークに関連するコネクティビティに違いを導入し得る。しかしながらヘテロ原子は、位相(結合数および空間配置)だけでなく、電子特性(孤立電子対または電子ギャップ)においても炭素と異なり、塩基性/酸性、水素結合、溶解性、化学反応性および生体活性(インビトロ活性、薬動力学特性、毒性など)に影響を及ぼす。そうしてヘテロ原子は、その性質により、異なるサブクラス(酸性/塩基性、負/中性/正電荷置換基など)に再分割され得、それぞれの位相サブクラスに個々に影響を及ぼす。それゆえそれらは、分析されるデータセットの位相表示中の環、リンカー、置換基および分子鎖の相対重要度を優先付けるために機能し得る。
これらの定義を使用することにより、化合物中のあらゆる構造要素を、系統的に分類することができる。こうして、あらゆる化合物を、あらゆるその位相鍵特徴のいずれかにより、位相クラスインデックス(TCI)の形態に特徴づけることができ、これは、分子構造中において、またはより正確には、結合位相クラス要素のより容易に解釈できる優先付けられたシーケンス、例えば位相シーケンスコード(TSC)として、存在する各タイプの位相鍵特徴の数をまとめる。定義によりこのTSCは、実際の官能化化合物およびそれから誘導されるあらゆる下位構造に位相的に最近接の全炭素フレームワークのために、(仮想)位相クラスタ(クラス)中心(TCC)を表示する。TCCは、このスカフォード中のあらゆる化学修飾に対する総称親(または祖先)ノードとして機能する。それはまた、あらゆる位相的に類似する化合物を構築するためおよび化学誘導体について入手できる位相サブスペースを定義するための参照構造として機能し、それから入手できる種を減算して、データセット中に実際に存在する位相および官能ギャップを生じさせることができる。
インプットデータから発生するあらゆるユニークなTCCは、それらが分子構造中およびそうしてTSC中で位相鍵特徴を共有する場合には共通階層位相構造ツリーの一部か、またはTSC中の位相鍵特徴の交差セットが空である場合にはTSTのコレクション(位相構造フォレスト(TSF))とみなされ得る。
分子の入手できる位相鍵特徴を順位付け、位相シーケンスラインコード(TSC)を割り当てることにより、各化合物に対するTCCを発生させるために、ルールベーススコア付けスキームを適用する処置が記載される。次いでこのTSCは、最高順位の位相クラス要素(フラグメント)(TSTルートノードまたはコア)から開始し、TCCで終了する、TCCからの成長下位構造部分のシーケンスを連続に構築するために使用される。これら下位構造のそれぞれは、それ自身の(フラグメント)TSCにより標識付けられ、これは、接続位相鍵特徴の優先化シーケンスであり、成長下位構造ノードの妥当なシーケンスを、TSTルートノードおよび末端TCCノードの間で形成し、これらを超えて、TCCのユニークな化学修飾を有する化学構造が、その化合物に対するあらゆる詳細な情報を有する末端TSTリーフとして配置され得る。そのようにして発生される下位構造ノードの完全接続シーケンスは、TSTを成長させるために、接続標識構造ノードの初期セットとして位相シーケンスパス(TSP)を形成する。
あらゆる新規化合物に対して、その位相シーケンスパス(TSP)が、他の化合物からのTSPと或る特徴を共有する場合、それはチェックされる。適切なルートノードが化合物の構造分析の時点でまだ存在しない場合、それは、存在TSTとの交差部分が非重なり構造要素のリンケージのために別な方法で使用される間、前記と同じ完全位相パスを創造し得る。インプットデータから発生するTSTの最終セット(フォレスト)は、様々なレベルの細部で下位構造要素をスコア付けするためにルールベースシステムに適用される位相基準に関して、大量のデータを分析することを可能にし、そうして標的モジュレーターにおける構造デターミナントとして要求される位相特徴の階層構造展開を反映および監視する。
TSTのための順序付けおよび順位付けが、両方とも厳格であるが、適用されるルールのシーケンスおよびコンテンツを通じて修正可能である場合、柔軟な構造ベースシステム(即ち、動的フォレスト)が創造され、そのためのレイアウトは、ユーザーが望む合成経路、利用できるシントンなどのための最も都合の良いテンプレートを検索する際にユーザーがTSTを通じて容易にナビゲートできるような、ユーザーの要求に対してカスタマイズされ得る。
この戦略を演算可能にするために、以下の項目が必要である:
・全体の演算処置をコンピューターのサブパートのために記載するシーケンス
・分子中の位相鍵特徴を識別する技術
・相互に関連する異なる位相鍵特徴をスコア付け(クラス間スコア付け)するためのルール
・位相鍵特徴をクラス内スコア付けするためのルール
・TCCを創造するためのアルゴリズム
・位相シーケンスパス(TSP)をTCCから所定化合物のために創造するための技術
・TSTノードおよび(下位)構造を(フラグメント)位相シーケンスコード(TSC)により標識付けるための技術
・ノード(位相シーケンスパス(TSP))をTST中に創造およびリンクさせるためのルール
・TSTの(標的インプットデータによる)統計的および生物学的構造分析のための技術
・位相的に分析したデータセットの記憶および回収のための技術
・TCCノードレベルを超えたサブツリースコア付けおよび構築のための技術
全体のデータ処理作業フロー
大規模データセット(目下、包括的にインプットデータと呼ばれる。)の構造ベース分析のための全体の処置は、いくつかのステップで進行する(図1参照):
I. プレフィルターをかけた分子構造の連続インプット、およびさらなる分析のためのその水素欠乏分子グラフの発生。
II. 分子グラフ中に存在する位相鍵特徴のクラスおよびサブクラスの識別および標識付け。
III. あらゆる位相クラスに対するクラス内優先付けの実行、および分子グラフ中の頂点の適切な標識付け。
IV. 分子グラフ中のあらゆる置換基の削除(LTSの創造)、および分子グラフ中に存在する位相サブクラスの官能度の評価。
V. 位相クラスタ中心(TCC)フレームワークの発生、およびそれの位相シーケンスコード(TSC)による標識付け。LTSのTCCへのリンク。
VI. LTSへのインプット構造のための実際の分子グラフのリンク(例えばTCCおよびあらゆるTSPノードとの成長多様リンク付けリストの部分として)。
VII. 分子グラフ中の最高順位の位相下位構造(TSPルート)およびTCCの間における位相シーケンスパス(TSP)の確立、これは、インプットデータのための包括的位相構造ツリー(TST)の部分とみなされる。適当なTSTの存在のチェック、利用できる場合には存在TSTへの化合物TSPのユニークパートの設置、そうでなければ存在データ構造中への新規TSPの挿入。
VIII. 実際のTCC(例えばTST中の各化合物に対する祖先ノード)および各下位構造ノード(例えば結び付けられた子ノードの統計のため)に結び付けられる特別な記憶分野の更新(例えば統計的バイオプロフィルサブツリー母集団をスクリーニングするため)。
IX. TCCまたはLTSを超える構造リーフ(例えば化合物)の数が、事前定義された臨界数を超える場合、細部のそのレベルでの水平順序付けを、適切なグラフの不変特徴を各化合物のために計算することにより達成することができる、これは、マハラノビス距離のような正確な距離を基準に構造を分類および順位付けするために使用することができる。
X. 次ぎの化合物のための I. を用いる処理(新規化合物が入手できる限り)。
XI. 統計分析、ヒット確認、ファーマコフォア認知のため、または化学誘導体中におけるフレームワークギャップおよび/またはギャップ検索における、選択(または全ての)TCCおよびあらゆるそれらのサブツリーに対する後処理の実行。
XII. 化合物リーフのために、入手できるTSCデータの配置および処理に対する人工技術(art technique)の状態を使用して、化合物登録コード(例えばベイナンバー)による構造データを置き換える、TSTの得られたフォレストのディスク上への記憶。
続けて、いくつかのプロセスステップを、さらに詳細に記載する。
分子グラフ中の位相サブクラスの決定
あらゆる化合物およびそれと結び付けられるグラフGについて、環要素だけがグラフ中の自己回帰歩行のための開始および終了点であるということにより、位相クラス要素をアルゴリズム的に決定し得る(Bemis GW; Murcko MA, 既知薬物のプロパティ. 1. 分子フレームワーク, J. Med. Chem, 39 (15) (1996), 2887-2893)。分子グラフのあらゆるパスは分析され、訪問された(visited)頂点は、原子標識によりマークされ得る。R、L、Cからの位相クラスの各場合における置換基の数が計数され、スコア付けプロセスにおいて使用するために記憶される場合、環内で終わらないまたは環の部分ではないあらゆるパスは、切り取られ得る。
以下の記載におけるアルゴリズムは、形式的に、同等の数学オペレータを使用することによりまねられ、これは、アルゴリズムまたはプログラムが行うように、オペランド(適切なインプットデータ、即ち、グラフまたは下位構造)を要求結果(即ち、フォレスト、ツリー、下位構造、リスト、スコアなど)に変換する。
一般的な位相オペレータ:
Figure 0004328532
は、オペレータのコレクション:
Figure 0004328532
を表すものと定義され、各位相鍵特徴の1つは、再帰的にk回、分子グラフG(i)またはG(i)の部分グラフに適用される場合、適当な原子セットまたは部分グラフを、一般的な場合Tkと標識付けられた順位kの適切な位相クラス(k=1,2,...)のために発生させる。rの環およびlのリンカーを有する所定化合物において、
Figure 0004328532
のr重の繰返し(即ち:
Figure 0004328532
)および
Figure 0004328532
のl重の適用(即ち:
Figure 0004328532
)は、環RおよびリンカーLの完全なセットを発生させる。環またはリンカーが分子中に存在しない場合、空のセットが発生される。特にそれは保持する。
Figure 0004328532
こうして、位相オペレータの再帰的および徹底的適用は、水素欠乏分子グラフのために、使用した位相クラス:環、リンカー、ヘテロ原子、置換基および分子鎖のあらゆるセット中に、妥当な分解を創造する。これらのクラスは、表示位相下位構造のセットを自動的に発生させるために使用され、それらは集められ、位相クラスに対する優先付けルールを基準とする動的階層ツリーを形成する。
相互に関連する位相鍵特徴のクラスのための可能な順位付け
位相鍵特徴のクラスのために、発見的ルールベース優先付けスキームは、以下のスコア付けにより(重要度の順序の減少において)定義され、これは、連続的にトップダウンで適用され、あらゆる特定化合物のために必要とされる(図1参照):
(1)環
(2)リンカー
(3)へテロ原子
(4)置換基
(5)分子鎖。
優先付けスキームのためのこの選択は、同じサイズのあらゆる位相クラス(環、リンカー、分子鎖)に対して化学修飾の特異タイプのために観察結果を解釈するための有意性についての評価を基礎とし、リガンドモデルのテンプレートおよび空間配座の配座柔軟性は、ある程度無視されていることを考慮する。
位相クラスのためのこの定義から、あらゆる所定分子に対する位相ルートノード(最高順位の位相クラス要素)は、環系、または厳格な非環式化合物の場合に分子鎖、のいずれかであり得ることが生ずる。リンカーの定義が、末端環の存在と連結される場合、リンカーに対するスコア付けも、環の優先度と連結される。
位相クラス内での可能な順位付け
位相クラス、環、リンカーおよび分子鎖内における自然順位を、スコア付けルールの同じシーケンスを適用することにより(優先度順序の減少において(図1参照))定めることができ、これは、以下の基準シーケンスにより説明される:
a)位相サブクラス/下位構造中の置換度(例えば環、リンカーまたは分子鎖中のヘテロ原子および置換基の数)。輪状環は、環置換の特別な場合であるとみなされ、これは、環下位構造のハミルトニアンパスに沿って頂点から開始する多重自己復帰歩行の存在により、または最小環の最小セット(smallest set of smallest ring)(SSSR、Petitjean J., Tao Fan B. および Doucet J-P, J. Chem. Inf. Comput.. Sci., 2000, 40, 1015-1017; および Lipkus AH, 単純な位相ディスクリプタスペース中での化学環の探査, J. Chem. Inf. Comput. Sci, 2001, 41, 430-438 も参照)の分析により識別され得る。
b)位相サブクラスまたは部分グラフ中に存在する頂点(原子)の数。(分枝)リンカーのために優先度は、末端環の順位の減少(最高のものから開始)、置換度の減少およびパス長さの増加に対して厳密に、あらゆる可能なパスに連続的に割り当てられる。単結合によりつながれている環は、定義により1つのリンカー長さにより分類され得る(上記のビフェニルの例を参照)。最短パス/最小環サイズは、置換度に次いで、最高の優先度を有する。等しいリンカー長さに対する非ユニークスコア付けの場合、最高優先度の環につながっているリンカーが、順位付けにおいて有利である。これがまだ非ユニークである場合、より高度に置換されているリンカーが優先される。
c)等しい置換度およびリンカー長さ/置換基サイズ/分子鎖長さに対して順位付けは、前記した置換基タイプの優先付けスキーム(1)〜(5)から導かれる:リンカーによる置換基は、ヘテロ原子および置換基よりも(優先度順序の減少において)優先度が高い。非ユニークなスコアが、なおこのレベルのカテゴリー分類で見出される場合、おそらく、局所化学的同一異性体または構造異性体は識別されており、その場合、環の最短パスセグメントに沿った置換基の位置へのパス距離の合計が、差異の検索において使用され得る。
d)あらゆるポイントa)〜c)が等しい場合、位相サブクラス内の飽和度が考慮される:特に芳香環(完全飽和)は、最高の優先度を有し、環の標識ストリングに添え字「Ar」を付けることにより特別に標識付けられ、または不飽和結合の数は、フラグメント(環、リンカーまたは分子鎖)のためのネームタグに追加され得る。部分または完全飽和環系は、より大きな空間複雑度およびキラル中心の可能な存在の故に、より低い優先度を有する。不飽和リンカーおよび分子鎖は、統一性のために、同様に扱われる。
e)代りに、TCCサブツリーに対する最終分析フェーズにおいてトレーニングおよび試験データ選別のために、化合物が判別分析(または同等の分類法)を支援するように、いくつかの計算グラフ不変量(Todeschini R. および Consonni V. : Handbook of Molecular Descriptors 中, 医化学における方法および原理 第11巻, Mannhold R., Kubinyi H. および Timmerman H. (編), Wiley-VCH, 2000、即ち、スペクトルモーメント)に基づき、より定量的な順位を達成することができる。
ルール(1)〜(5)およびa)〜d)をいくつかの任意分子グラフに適用する一般的関数により、位相スカフォードを発生および順位付けするプロセスを、実施例1(図1)で説明する。
位相クラスタ(クラス)中心(TCC)の識別
いったんあらゆる位相クラスが分子中で識別され、上記の優先付けスキームが各位相クラスタのために再帰的に適用されると、切り取られた分子グラフの各サブクラス中における頂点(原子)は、クラス、クラス内スコア付けおよび優先度情報により標識および特徴付けられる(例えばR5(1)は、分子中に存在する全ての環中で最高(#1)優先度の五員環を意味し、L4(2)は、リンカー長さ4(即ち、4つの結合および3つの原子の長さ)および優先度2が存在することを示す、図1参照)。
切り取られた分子グラフが、環、リンカーおよび分子鎖中になおヘテロ原子を有する場合、これらは、必要なTCCグラフを発生させるために炭素原子にモーフィングされ(図1参照)、これは、そのタイプのあらゆる誘導体のための参照位相として機能する。このプロセスのために私達は、炭素モーフィングオペレータ:
Figure 0004328532
を、特別な場合として、一般的な化学原子(Vp)変換オペレータ:
Figure 0004328532
のために定義し、これは、分子G(i)中の位相下位構造Tkに適用されて、あらゆるp位で、各へテロ原子を炭素にモーフィングし、要求されるように電荷を調節することにより、位相的に同等な炭素類似下位構造TC,kを創造する。TCCの特定位相サブクラスTk中でのモーフィングプロセスを含むあらゆる可能な修飾を、あらゆる特定頂点pを事前定義された新しい群Vpに変換するために、形式的にこのオペレータ:
Figure 0004328532
を適用することにより発生させ得る。私達は、基本オペレータのセットに関して一般的な変換を定義し、そうして、未電荷のフラグメント(即ち:
Figure 0004328532
、識別オペレータが適用される)を残すか、またはセットVp中に含まれる原子に適用される原子モーフィングプロセス(
Figure 0004328532
)を表示し、これも、モーフィングプロセスが「延長」原子価を有するモーフィング原子に対して特定の頂点位置Vpで原子価不足へテロ原子(
Figure 0004328532
)および原子削除(
Figure 0004328532
)に影響を及ぼす場合、原子の追加を意味し得る(デフォルトは水素原子であり、これは水素欠乏グラフ中で除かれる)。
炭素モーフィング処置の場合、創造される原子セットは、適切な原子価状態の単一炭素である。こうしてモーフィングオペレータは、2つのコンポーネント(オペレータ)を含まなければならず、その1つは、頂点:
Figure 0004328532
で動作し、他のものは、
Figure 0004328532
に付随するエッジEpのセットで動作する。これらオペレータのそれぞれに対して、原子タイプのセットを、それらの原子価状態、および必要とされるようなハイブリッド形成を維持しながらモーフィングすることができる別の識別演算(
Figure 0004328532
)が可能となる(例えば私達は、飽和系および(部分)不飽和下位構造要素中の修飾を区別する)。
Figure 0004328532
〔式中、TkおよびTC,Kは、あらゆる位相クラスおよびそれらの炭素類似物のセットをそれぞれ表す。〕
こうしてG(i)に対するTCC(i)グラフを、G(i)からセットS(i)を除去することにより発生される、最大位相下位構造(LTS)中のヘテロ原子セットに適用される炭素モーフィングプロセスの結果として定義することができる。置換基セットは、環およびリンカーの脂肪族置換基を含むことに注意されたい。
Figure 0004328532
このTCCグラフは、存在する位相サブクラスのリンケージおよびタイプを記載する位相シーケンスコード(TSC)により標識付けられ得る(例えばR6(L2-R6)-L1-R6は、中心六員環が二重結合リンカーおよび単結合リンカーにより2つの六員環系の両方と接続されている位相系を表す)。分類される実際の化合物は、そのTCCの化学誘導体化のための特定の例として、そのTCCとリンクされ得る。こうして各TCC構造を超えて、インプットデータ中に存在するフレームワークのためのあらゆる存在化学誘導体が、優先付けられた構造ツリーリーフとして集められ得る(図2参照)。
TCCを超えた詳細な順位付け
各TCCノードを超えて存在する構造を、構造ベースディスクリプタ(例えばグラフ不変量)により特徴付け、分類することができる。これらは、
・(仮想)クラスタ中心(TCCノード)または分類カテゴリ(即ち、活性または不活性)のための中心に対するあらゆる化合物の「化学的距離」(即ち、マハラノビス距離またはユークリッド距離)を測定するため、および
・その距離に基づき化学誘導体を分類するため、または
・同じTCC中の化学修飾を生体活性に関して区別するため、および最後に
・計算ディスクリプタと、物性および/または生体活性データのいずれかとを相関させるため
に使用することができる。
分類のため、および化合物内またはTSTノード(リーフ)間の化学的距離を測定するために適用できる有用なディスクリプタとして、ライングラフのスペクトルモーメントまたはライングラフの繰返し系列が考慮され(ILS)(Estrada E., 繰返しライングラフシーケンスの発生スペクトルモーメント. QSPR研究に対する新規アプローチ, J. Chem. Inf. Comput. Sci., 39 (1), 90-95 (1999), Estrada E., 分子グラフのエッジ近接マトリックスのスペクトルモーメント. 2. ヘテロ原子含有分子およびQSAR適用, J. Chem. Inf. Comput. Sci., 1997, 37, 320-328))、これは、
Figure 0004328532
によって、元のグラフG(i)に対してライングラフオペレータ:
Figure 0004328532
のk重反復適用(即ち:
Figure 0004328532
)により生ずる、元の分子グラフGのk重繰返しライングラフに対するスクエアエッジ(結合-)近接マトリックスAのj乗のトレースとして定義される。
これに関して使用されるオペレータ:
Figure 0004328532
は、グラフ中でリンカーセットを創造し(上記参照)、他の作者に対する相互参照のためにここで保持されているオペレータとは異なることに注意されたい。これらの作者により、いくつかのデータセットのために、この処置は、構造性質分析のための線形独立ディスクリプタを発生させるだけでなく、線形判別分析処置を適用することによりバイオアッセイにおける活性または不活性に影響を及ぼす構造修飾を区別することも可能にすることが示されている(診断法に対して、Lachenbruch P. A., 判別診断法, Biometrics, 53, 1284-1292, (1997)参照)
インプットデータのための初期TSF版上の後処理アクティビティの部分として、特異標的のための推定生体等配電子または等官能データを、計算マハラノビス距離(Mahalanobis P.C., 統計における発生距離について, Proc. Nat. Inst. Sci. India 2, 49-55, [1936])を基礎に、異なるTSTノードおよびそれらの部分母集団の間で、または活性化合物セットのためのプールの中心に対する距離を測定することにより、示すことができる。部分母集団内およびそれらのクラスタ中心の間での距離の比較が、ルールベース階層ツリー中で反映されるよりも強い近傍を示唆するか、または重なりパラメータースペースさえを示す場合、TSF中の対応アドレスリンクは適切に修飾され得る。
存在TST中の化合物に対する位相シーケンスパス(TSP)のインストールおよびマッチング
分析されるあらゆる化合物に対するあらゆるTCCサブツリーは、動的階層位相構造フォレストまたはツリー(TSFまたはTST)中に集められ、これらは、下位構造要素中の化学修飾度を減少させるため、およびツリーノード中の下位構造サイズを増加させるためにトップダウンで組織され(Moen S, 動的ツリーの作図, IEEE Software, 1990年7月, 21-28 参照)、これは、最小だが最高スコアの下位構造Tm(i)(例えば環、または非環式化合物に対して分子鎖)から位相シーケンスパス(TSP)に対する炭素モーフィングルートノードTSPj(i)(即ち、j=1)として開始し、より低い優先度の残りのフラグメントを減少スコアの順序でTSPjに接続することにより、妥当な接続パスを創造し、これは最終的に、化合物中の最大全炭素下位構造としてTCCノードで終了する。
Figure 0004328532
ここで max(score(),score()) は、ルール(1)〜(5)およびa)〜d)により最高順位を有する(下位)構造中の位相クラス(即ち、Tm(i))を決定する関数である。化合物中の最高スコアのフラグメント(即ち、最高官能化最小環系)である(環が存在しない場合、分子鎖がトップの優先度を有する)TSTのトップ(ルート)ノードでの開始、および位相リンケージのさらなるシェル(即ち、TSPj+2, i=1,2,...)は、含まれるフラグメントのスコアを減少させながら、および炭素へのモーフィング処置を適切な炭素タイプおよび原子価に関してフラグメントのあらゆるhのヘテロ原子のために充分に通過させた後に、連続的に追加され得る。
実施例1(図1)に、任意インプット構造の位相フラグメントのための優先付けプロセスが示され、該フラグメントは、それらのTSCおよびクラス内優先度で標識付けられる。
実施例2(図2)では、R6(1)と標識付けられた中心芳香族六員環は、インプット構造のためのTSPルートノードとして識別されている。位相リンケージの次ぎの領域は、(フラグメント)位相シーケンスコード(TSC)L3(1)-R6(2)を有し、これは、まず新しいTSTノードR6-L3-R6(即ち、3つの結合リンカーによりつながれている2つの六員環芳香環)を構築するために使用され、最後にTSC L2(2)-R6(3)を有する最終フラグメントは、R6(1)-[L3(1)-R6(2)]-L3(2)-R6(3)と標識付けられたTCC下位構造ノードを発生させるために追加される。処理される各新規化合物のために、同じ処置を続け、こうしてTSPルートフラグメントから連続的に位相リンケージ領域を追加することにより下位構造サイズを成長させ、それらのTSCタグを有する新規ノードを、最後に分子のためのあらゆる位相クラスが作り上げられるまで創造し、充分な位相シーケンスパスが構築され、これは、TCCノードで終わり、これを超えて、実際の薬物が挿入され得る。中間モーフィングプロセスにより、化学修飾されたTSTノードは識別され、適切な全炭素TSTノードに、そのテンプレートタイプのあらゆる修飾構造を表示する共通の位相クラスタ中心として正確に割り当てられる。
Figure 0004328532
こうして、位相セット要素TSPjは、元のグラフのマッピングをG(i)の位相シーケンスパス(TSP)上で定義することを可能にし、この中で位相下位構造間の関係(例えば下位構造のための優先度)は、エッジとして定義され、これは、ノード中の下位構造が成長するように、成長TSPノードを連結する。TSP頂点をTSPルートから構築させるための再帰的関係は、追加される残りのフラグメントのための優先付けスキームに続けて、あらゆる位相フラグメントシェルf上でループすることにより、これらノードを創造するプロセスのための簡略表記を与える。リンカーが次ぎの下位構造のために集められる場合、それは直ちに、リンカーがより高いスコアの環系との組合せにおいてのみ生じることが可能とされるように、最高優先度の次ぎの環と組み合され得ることに注意されたい。新規ノードタグは、同様に、リンクされる構造要素のTSCラベルをつなぐことにより構造として集められ、こうして、ルートノードラベルで開始するTSP中における各ノードのためのユニークな位相識別タグ(TSCまたはもモルコード)を創造する。
私達は、異なるインプットデータに対してこれらのタグを、それらのTSPまたは一般にTSF中の共通位相要素のための交差セットをチェックするために使用することができる。2つの分子 i、o は、それらが共通TSPルート構造(コア)を少なくとも共有する場合およびその場合のみ、非空交差セットIi,oを有し得る。
Figure 0004328532
交差セットIi,oを、TSPノードタグの文字列大小比較(lexical comparison)により見出すことができる、即ちR6-L2-R6およびR6[L1-R6]-L2-R6は、明らかにR6ルートノードおよび位相シーケンスR6-L2-R6の両方を共有し、それゆえTST中においてこれらの部分を共有し得、これは、枝分れリンクをルートノードR6(1)で導入する。分析されるプールからの追加の化合物は、正確に同様に処理され得る。これは、新規TSTのために新規ルートノードの創造を導入する(次いで、位相構造ツリーのフォレストが創造され得、そこでは個々のツリーがルートノードのサイズに対して順序付けられ得る)か、またはそれは、前の分子のために創造されたノードのいくつかを共有し得る。次いでTST中のサブノードへの追加リンクは、位相スコア付けの最高レベルで生じ得、そこでは、スコア付けおよびそれらの結び付けられた構造修飾における第1および最高順位付けされた差異が生ずる。極端な場合において差異は、TCCレベルでのみ見出され得、これは、同じテンプレートの異なる官能例(誘導体)は識別されており、このテンプレートのための前に存在するギャップは閉ざされていることを意味する。この挙動は、活性/不活性ヒットリストのためのSAR分析中において望まれる。
交差要素の検索における文字列大小比較の代りに、周知の他の技術、例えばクリーク検出、最大共通下位構造検索またはフィンガープリントスクリーニングが有用であり得る。
TSTノード中の分析データの記憶および管理
追加の情報分野は、あらゆる試験系(バイオプロファイリング)に対する生体活性参照を含有し得、この中でそのようなテンプレートは、活性であると見出されている(特権付与テンプレートまたはスカフォードを参照)。これらの情報分野を、実際の分子グラフに結び付けることができ、これは、正規のTSTノードまたはリーフノードとしてTCCノードを超えて、濃縮因子を監視するため、決定ツリーに基づくプロセス管理に使用するため、または代りのデータ分割スキームを適用するためにリンクされる。これらの情報アレーに基づき、次ぎの作業を有効に処理し得る:
・活性/不活性R群デコンボリューションのための位相スカフォードに対するSARプロファイリング
・スカフォードに対するベイズ統計による生体活性のためのフレームワークベース確度分析
・インプットデータのために異なるフィルターから発生したTSTに対してブール演算を適用することによる、推定偽陽性/偽陰性についてのチェック
・活性テンプレートクラス、スクリーニングプール、化合物保存書庫、HTS履歴に対するバイオプロフィルにおける特権付与スカフォードおよび購入リスト選択のためのギャップ分析
・スペクトルモーメントのような構造に対する計算グラフ不変量に基づく生体活性または物性のための(正規化)判別分析
・マハラノビス距離を介するTSTノード間の化学的距離の計算
・構造集束知識抽出のための特許構造およびSARの包含
・特異的だが構造的に異なった標的位相および官能プロトタイプ分子の3D配列のための選択、および薬物/標的相互作用の機械的分析(生体等配電子および等官能基の識別)
・活性スクリーニングヒットのためのバイオエフェクタデータベースおよび組織内分子フレームワークの比較分析(間接標的分析)
・逆合成計画および反応ライブラリ検索のためのスカフォードの使用。
活性および不活性TSTの比較
特異試験系における活性および不活性化合物のための位相構造フォレスト中での化学的に意味のある位相シーケンスコード(TSC)およびモルコードの使用により、両方のデータセットにおいて対応する母集団を、それらの同一ノードタグ(TSCまたはモルコード)により容易に識別することができる。こうして、アッセイ中の活性/不活性に対する化学修飾の結果は、同一位相フレームワークに対して認定され得、次ぎのファーマコフォア分析、SARおよび構造性質分析を一般に支援する。さらなる分析を、計算化合物ディスクリプタを比較することにより、またはこれらの「クラスタ」中に存在する置換基およびヘテロ原子をさらにカテゴリー分類することにより(例えばHBドナーまたはアクセプター、イオン性酸性/塩基性基などに分類することにより)行い、両方の群(それぞれ活性/不活性)内で、共通位相フレームワークの他に化学特徴のほとんどを共有するこれらのパートナーを見出すことができる。
化合物のこのセットは、試験における偽陽性または偽陰性のための最も見込みのある候補を表示すると考えられ、これは、再試験が予定されるべき活性/不活性の個々の群における実際の確率分布に依存する。両方のセット中の全てのマッチングTCCを分析することにより、再試験される化合物のセットは識別され、活性/不活性を引き起こす化学修飾のための仮定を、on the fly で発生させ得る。共通ファーマコフォア要素についての情報を発生させることができ、TCCのためのR群デコンボリューションを、置換パターンの検索において各TCCに結び付けられた化合物リストを処理することにより各テンプレートのために得ることができる。ファーマコフォア候補(生体活性フラグメント)のためのさらなる分析/証明は、(正規化)判別分析(Friedman J. H., 正規化判別分析, Journal of the American Statistical Ass., 1989, 84 (405), 165-175)に基づき、トレーニングサブセット(Estrada E., QSPR/QSARおよび薬物設計調査における位相下位構造分子設計(TOSS-Mode)について, SAR and QSAR in Environmental Research, 2000, 11, 55-73)中における活性/不活性カテゴリーに関係する個々の化合物および断片化スキームに対して計算されたスペクトルモーメントおよびマハラノビス距離を用いて達成され得る。断片化スキームを、サンプル試験サブセットを用いる Leave-one-out (LOO) クロスバリデーションランおよび予測分析により評価し得る。
ファーマコフォア断片化の妥当性確認をするための代りの方法として、SIMCA法((Wold S および Sjostrom M "ケモメトリックス(Chemometrics): 理論および適用" 中, Kowalski, B.R. (編), ACS Washington, 1977)またはHQSAR法(米国特許第5751605号)を適用し得る。
位相フレームワークに対するギャップ分析
あらゆるTCCノードを超えて、化学誘導体のセットDの各メンバーは、位相構造ツリー中に個々のリーフとして配置される。Dは、TCCノードより下で2つの部分群、実際に占有されている部分およびそのTCC中におけるあらゆる可能な変形物に対するその補数(complement)に、化学スペースを分割する。同じことが、TCCより上のあらゆるノードおよびその子ノード(サブツリー)に対してあてはまる。TCCの特定位相サブクラスTkにおけるあらゆる可能な修飾を、あらゆる特定位置pを事前定義された新しい郡Vpに変換するために、形式的にオペレータ:
Figure 0004328532
を適用することにより発生させ得る。そのようなオペレータを、TCCノードまたは実際の分子グラフ中のあらゆる特定クラスTkに適用することにより、私達は、あらゆる新規化合物G'を形式的に列挙することができる。
Figure 0004328532
TCCおよびサブセットTkにより定義された仮想化学スペースは、XTkと呼ばれ、これはあらゆる化学的に可能な点変換を、位置pで所定テンプレート中において含む。
Figure 0004328532
実際に占有されている化学スペースに対する未定義(missing)補数は、
Figure 0004328532
(式中、DTkは、サブクラスTk中に存在する誘導体の占有されている化学スペースである。)により定義されるような新規化合物MTkに関して、あらゆるギャップをその特定の位相化学スペース中において含む。合成、望ましい物性および要求されるファーマコフォアスペクトルの存在または反応性基の欠落についての化学実行可能性によるさらなるフィルターアクティビティは、当然、処置の有効性を上昇させるために実行されるべきである。
新規化合物のためにスキャンされる位置pおよび原子セットVpのリストは、D中に存在するヘテロ原子Hおよび置換基Sの利用できるセットから、および/またはユーザー選択から誘導され得る。実際、これらの演算は、位相分析が行われるインプットデータのためのフィルターが適切に設定されている(即ち、それは「保存書庫分析」に設定されるべきである)場合にのみ意味をなす。構造およびタイプにおけるマシーンベース修飾に利用できる位相クラスのセットを、排除用フィルターリストにより、および適用される実際の化学修飾のための追加ルール(セット)により取り扱うことができる。モーフィング処置の実行を、TCCを文字列構造コード(例えばSLNまたはスマイルなど)に変換することにより単純化し、実際の構造修飾を末端ユーザーのためにより容易に整えることができる。
より容易なギャップ充填は、活性および不活性化合物を比較するために同様に上記したように、存在する化学保存書庫に対するTSTと実際の購入リストとを比較することにより達成され得る。
実施例1
図1は、化合物における位相分析のための選択ステップ、および例示のインプット構造1から、演算処置ステップ(I.〜VII.)、優先付けルール(1)〜(5)およびa)〜d)を、位相特徴に対する再帰的構造分割スキームにおいて適用することにより発生した中間結果を示す。Xは、任意のヘテロ原子を表す。
まず水素欠乏グラフ()を発生させ、次いで化合物の位相クラス(それらの原子タイプのためにコード化された色で示される)は連続的に処理され、最高優先度クラス、たとえば環(赤に着色、)で開始し、リンカー(青)、ヘテロ原子(ペールグリーン)および置換基(または官能基、オレンジ)を通じて進行する。白黒印刷における判読のために、環、リンカーおよび分子鎖メンバーシップを定義する適切な位相原子ラベルも、各下位構造要素のために与えられる。このプロセス中に、クラス内優先付けが、連続的に全てのクラスのために決定される。全フラグメント優先付けの最終結果は、位相サブクラスの頂点に頂点ラベル()として結び付けられる。最終ステップにおいて、(仮想)位相クラスタ中心(TCC、緑)の構造が創造され、これは、そのスカフォードのあらゆる化学修飾のための親ノードとして機能する。
実施例2
図1(X=任意ヘテロ原子)に示されるように処理されている化合物のための位相シーケンスパス(TSP)の構築例。インプットデータ中に存在し得るが、まだ結び付けられていない近い位相隣接物に対する推定リンクは、双頭の破線矢印により示されており、これは、TST中における細部のあらゆる中間レベルで、可能なリンケージを示す。双頭矢印は、位相構造ツリー中の上下の移動を準備するポインター情報を示す。最低レベルの細部(TSTルート、赤)は、一般的な六員環であり、これは、トップの優先度を有する。この中心フレームワークの周りの位相領域のこの拡張から、ルールベース優先付けスキームの後の細部レベルにより構造が拡張する。TSTノードに結び付けられる位相シーケンスコード(TSC)ラベル(赤)を、大規模データセットを通じて、および非常に複雑な位相構造フォレスト(異なるルート構造を有する異なるTSTのコレクション)を通じてナビゲートするために、グラフ(構造)の代りに使用することができる。TST中の各ノードにも分析分野を結び付けることができ、これは、サブツリー母集団、スクリーン(バイオプロフィル)のための生体データ(活性/不活性)などに対するブックキーピングアクティビティを準備する。各ノードを超えて化学変形物の実例が列挙され、これも、これらサブツリーの位相サブクラス中における実際に可能な変形物に対するそれらの可算補数により、位相ギャップおよび誘導体を定義する。TCC構造(例えば)は、逆合成の合成計画、反応ライブラリ検索のため、および異なるスカフォード間でSARを比較するために理想のツールであると考えることができる。
実施例3
文献(Wilcox R.E., Tseng T., Brusniak M.K., Ginsburg B., Pearlman R.S. Teeter M., Durand C., Starr S. および Neve K.A., 組換えD1対D2ドーパミンレセプターでのアゴニスト親和性のCoMFAベース予測, J. Med. Chem., 1998, 41, 4385-4399)から得られたドーパミンD1およびD2アゴニストセットのためのインプットデータを、図3に示す。構造は、SLN(Sybyl Line Notation, Tripos Inc. セントルイス)でコード化されているが、Sybyl Mol2ファイル、MDL Molファイル、スマイルフォーマットまたはSLNを、一般に、本明細書中で記載した本発明に基づき、組織内コンピュータープログラムを使用して位相構造ツリーを創造するために使用することができる。
実施例4
図4は、本明細書中で記載した本発明に基づき、組織内コンピュータープログラムにより発生した自動製造TSFについての結果を示し、実施例3からのデータについてこの特許で記載した方法のいくつかを示す。
コンピュータープログラムを、それが
a)ユーザーが、合成作業のための最も有望なテンプレートの検索において、位相ツリーを通じて対話式にナビゲートすることを可能にする、
b)生体活性(または所定の他の物性スペクトル)またはテンプレート若しくはスカフォードについて誘導された統計データのいずれかのためのノード、およびサブツリー中の誘導体のための化合物ノードのプロパティをカラーコード化する、並びに
c)薬物候補ギャップの識別のために、各位相クラスタ中心に対するデータセット中に存在する利用可能な誘導体を列挙する
ようにプログラムすることができる。
ツリーリーフ(これらは、それらの化合物名または登録IDによりタグ付けされる)を除いて、位相シーケンスコード(ノードラベル)は、各構造(ツリーノード)の上に配置される。
(原文に記載なし)

Claims (14)

  1. 化合物のセット内で構造的、又は位相的及び/又は機能的ギャップについてのコンピュータによる自動的な識別のための方法であって、
    a)化合物の2D-または3D-構造の分子グラフ(1)の入力を受け付けるステップ、
    b)水素欠乏分子グラフ(2)を生成するステップ、
    c)所定の優先順位付けのルールに逐次従って、分子グラフ内に存する位相鍵特徴と、分子グラフ(3、4、5、6)内の一致した頂点のラベル付けとの、所定のクラスとサブクラスを識別するステップ、
    e)(i)分子グラフ内の全ての置換基を除去し、(ii)分子グラフ内の全てのヘテロ原子を炭素原子に変形することにより、最大の全炭素位相鍵グラフ(TCC)を創造するステップと、
    g)最高順位の位相鍵特徴(8)を伴う全炭素位相鍵特徴グラフに到達するまで、最大の全炭素位相鍵グラフ(TCC)(7)から、ステップ)で識別された夫々最も低い順位の位相鍵特徴を繰り返して除去し、このことにより、夫々が前よりもより少ない位相鍵特徴しか有さない全炭素位相鍵特徴グラフ(10、9、8、7)の階層パス(TSP)を創造するステップ、
    h)ステップe)の後またはステップg)の後、ステップa)の分子グラフ(1)を最大の全炭素位相鍵特徴グラフ(TCC)(7)とリンクするステップ、
    i)上記化合物のセットのうちの一つ又はそれ以上の更なる化合物の2D-または3D-構造の分子グラフ(1)に対して、上記a)からh)のステップを繰り返すステップ、
    j)更なる化合物についてのステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフに、前に分析された化合物についてのステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフを共有させることにより、ツリー状構造(TST)を創造するステップ、及び、
    k)更なる化合物が、前に分析された化合物についてのステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフと共通して、ステップg)の階層パス(TSP)内に全炭素位相鍵特徴グラフを有さない場合に、更なるツリー状構造(TST)を創造することによって、フォレスト状構造(TSF)を成長させるステップ
    を含み、
    I)ステップg)の階層パス(TSP)内の任意の全炭素位相鍵特徴グラフ(10、9、8)の位相鍵特徴を修正するステップ、及び、
    II)修正によって生じた化合物の分子グラフ(1、2)を、既存の分子グラフ(1、2)と比較することによって、位相的及び機能的ギャップを識別するステップ
    を含む
    方法。
  2. ステップe)にて、分子グラフ内の全ての分子鎖を除去することを、更に含むことを特徴とする請求項1に記載の方法。
  3. ステップg)の全炭素位相鍵特徴グラフ(10、9、8)に従って、個々の分子グラフ(1)に対して位相鍵特徴から階層構造ラインコード(TSC)を創造し、それを最大の全炭素位相鍵特徴グラフ(TCC)(7)とリンクするステップを
    更に含むことを特徴とする請求項1に記載の方法。
  4. ステップg)の階層パス内の対応する全炭素位相鍵特徴グラフ(10、9、8)に関して、若しくは、対応する階層構造ラインコード(TSC)に対して、ブール演算を適用し、実際に共有する位相鍵特徴を様々な分子グラフ(1)内で識別するステップを含む、請求項1乃至3のいずれか一に記載の方法。
  5. ツリー状構造(TST)及び/又はフォレスト状構造(TSF)をグラフ的に視覚化するステップを、更に含むことを特徴とする請求項1乃至4のいずれか一に記載の方法。
  6. ステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)を各々標識付ける表示ネームタグを、創造するステップを、更に含むことを特徴とする請求項1乃至5のいずれか一に記載の方法。
  7. 位相鍵特徴が、環、リンカー、ヘテロ原子、置換基および/または非環式鎖から本質的になる群から選ばれる1個または数個の位相クラスを含むことを特徴とする請求項1乃至6のいずれか一に記載の方法。
  8. 位相鍵特徴が、環のサイズ若しくは長さ、リンカー及び分子鎖、原子価、ヘテロ原子の数、ドナー/アクセプター性、正/負電荷、並びに、酸性/塩基性基を含む群から選択される一つ若しくはそれ以上の位相サブクラスを含むことを特徴とする請求項1乃至7に記載の方法。
  9. ステップ)の位相鍵特徴クラスの順位付けを、発見的ルール:環>リンカー>ヘテロ原子>置換基>分子鎖、により優先度を減少させることで定義することを特徴とする請求項7又は8に記載の方法。
  10. ステップg)の位相鍵特徴のクラス内およびクラス間順位付けが、
    A)位相鍵特徴のサブクラスの相対重要度(importance)を、置換度に関して順位付けするステップ、及び、
    B)特異フラグメント中のあらゆる特定の化学修飾の有意度(significance)を評価するための基準を、フラグメントのために、空間3D-コンフォメーションにおけるフラグメントサイズおよび幾何柔軟度に関して導くステップ
    を含むことを特徴とする請求項1〜9のいずれかに記載の方法。
  11. ステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)の構造、及びそれらの表示ネームタグを、一種若しくはそれ以上の生物学的標的または測定若しくは計算されたプロパティ/ディスクリプタで生体活性試験をするための統計データにリンクするステップを、更に含むことを特徴とする請求項6乃至10のいずれか一に記載の方法。
  12. 構造を色付け、及び/又は、
    ツリー状構造内のステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)の構造を再配置し、及び/又は、
    ステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)及びそれらの表示ネームタグの構造にリンクされる統計データ若しくはプロパティ/ディスクリプタに基づいて、構造、下位構造および/または分類データ群間のディスクリプタベース化学的距離を測定する
    ステップを、更に含むことを特徴とする請求項11に記載の方法。
  13. ステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)のカラースペクトルをマッピングし、
    ステップg)の階層パス(TSP)内の全炭素位相鍵特徴グラフ(10、9、8)及びそれらの表示ネームタグの構造にリンクされる統計データ若しくはプロパティ/ディスクリプタに基づいて、分子スカフォード、位相フラグメトおよび化学誘導体中に存在する標的配向可能性を定量する着色ツリー状構造(TST)及びフォレスト状構造(TSF)を生成することを特徴とする請求項12に記載の方法。
  14. 統計データが、度数分布、確率および/または濃縮係数であり得ることを特徴とする請求項11乃至13のいずれか一に記載の方法。
JP2002572763A 2001-03-15 2002-03-12 化合物の性質最適化のための2dまたは3d−化合物構造式の階層位相ツリーを発生させるための方法 Expired - Fee Related JP4328532B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0106441.9A GB0106441D0 (en) 2001-03-15 2001-03-15 Method for generating a hierarchical topological tree of 2D or 3D-structural formulas of chemical compounds for property optimization of chemical compounds
PCT/EP2002/002685 WO2002074035A2 (en) 2001-03-15 2002-03-12 Method for generating a hierarchical topological tree of 2d or 3d-structural formulas of chemical compounds for property optimisation of chemical compounds

Publications (2)

Publication Number Publication Date
JP2004537085A JP2004537085A (ja) 2004-12-09
JP4328532B2 true JP4328532B2 (ja) 2009-09-09

Family

ID=9910770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002572763A Expired - Fee Related JP4328532B2 (ja) 2001-03-15 2002-03-12 化合物の性質最適化のための2dまたは3d−化合物構造式の階層位相ツリーを発生させるための方法

Country Status (7)

Country Link
US (2) US20040088118A1 (ja)
EP (1) EP1405247A2 (ja)
JP (1) JP4328532B2 (ja)
AU (1) AU2002256662A1 (ja)
CA (1) CA2440819A1 (ja)
GB (1) GB0106441D0 (ja)
WO (1) WO2002074035A2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801684B2 (en) * 2005-04-22 2010-09-21 Syngenta Participations Ag Methods, systems, and computer program products for producing theoretical mass spectral fragmentation patterns of chemical structures
WO2006124287A2 (en) * 2005-05-02 2006-11-23 Brown University Importance ranking for a hierarchical collection of objects
JP5075362B2 (ja) * 2005-07-05 2012-11-21 智久 石川 化合物の生理活性の定量的予測方法
EP1762954B1 (en) * 2005-08-01 2019-08-21 F.Hoffmann-La Roche Ag Automated generation of multi-dimensional structure activity and structure property relationships
EP2180435A4 (en) * 2007-08-22 2011-01-05 Fujitsu Ltd CONNECTIVE PROPERTY PREDICTIVE DEVICE, PROPERTY PRESENCE METHOD AND PROGRAM FOR CARRYING OUT THE METHOD
US8236849B2 (en) * 2008-10-15 2012-08-07 Ohio Northern University Model for glutamate racemase inhibitors and glutamate racemase antibacterial agents
US9123003B2 (en) * 2011-06-15 2015-09-01 Hewlett-Packard Development Company, L.P. Topologies corresponding to models for hierarchy of nodes
US9977876B2 (en) 2012-02-24 2018-05-22 Perkinelmer Informatics, Inc. Systems, methods, and apparatus for drawing chemical structures using touch and gestures
US10168885B2 (en) * 2012-03-21 2019-01-01 Zymeworks Inc. Systems and methods for making two dimensional graphs of complex molecules
US9535583B2 (en) * 2012-12-13 2017-01-03 Perkinelmer Informatics, Inc. Draw-ahead feature for chemical structure drawing applications
US8854361B1 (en) 2013-03-13 2014-10-07 Cambridgesoft Corporation Visually augmenting a graphical rendering of a chemical structure representation or biological sequence representation with multi-dimensional information
US9751294B2 (en) 2013-05-09 2017-09-05 Perkinelmer Informatics, Inc. Systems and methods for translating three dimensional graphic molecular models to computer aided design format
US10372713B1 (en) 2014-07-10 2019-08-06 Purdue Pharma L.P. Chemical formula extrapolation and query building to identify source documents referencing relevant chemical formula moieties
US20160092595A1 (en) * 2014-09-30 2016-03-31 Alcatel-Lucent Usa Inc. Systems And Methods For Processing Graphs
CN104392253B (zh) * 2014-12-12 2017-05-10 南京大学 一种草图数据集的交互式类别标注方法
US10192020B1 (en) 2016-09-30 2019-01-29 Cadence Design Systems, Inc. Methods, systems, and computer program product for implementing dynamic maneuvers within virtual hierarchies of an electronic design
US10210299B1 (en) 2016-09-30 2019-02-19 Cadence Design Systems, Inc. Methods, systems, and computer program product for dynamically abstracting virtual hierarchies for an electronic design
US10282505B1 (en) * 2016-09-30 2019-05-07 Cadence Design Systems, Inc. Methods, systems, and computer program product for implementing legal routing tracks across virtual hierarchies and legal placement patterns
EP3590056A1 (en) 2017-03-03 2020-01-08 Perkinelmer Informatics, Inc. Systems and methods for searching and indexing documents comprising chemical information
JP7006297B2 (ja) * 2018-01-19 2022-01-24 富士通株式会社 学習プログラム、学習方法および学習装置
US11093842B2 (en) 2018-02-13 2021-08-17 International Business Machines Corporation Combining chemical structure data with unstructured data for predictive analytics in a cognitive system
JP7133534B2 (ja) * 2019-11-14 2022-09-08 株式会社 ディー・エヌ・エー 化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法
US20210287765A1 (en) * 2020-03-13 2021-09-16 Collaborative Drug Discovery, Inc. Systems and methods for generating and searching a chemical compound database
CN111899807B (zh) * 2020-06-12 2024-05-28 中国石油天然气股份有限公司 一种分子结构生成方法、系统、设备及存储介质
US12597492B2 (en) * 2020-11-23 2026-04-07 International Business Machines Corporation Topology-driven completion of chemical data
US12511869B2 (en) 2020-12-16 2025-12-30 Ro5 Inc. System and method for pharmacophore-conditioned generation of molecules
CN112735540B (zh) * 2020-12-18 2024-01-05 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质
US12265562B1 (en) * 2021-03-12 2025-04-01 Accencio LLC System and method for evaluating data using and applying a virtual landscape
CN113434619B (zh) * 2021-06-25 2024-06-04 南京领航交通科技有限公司 一种4g的高速公路智能交通路况监控系统
CN116264106A (zh) * 2021-12-14 2023-06-16 中国科学院大连化学物理研究所 化学反应规则库的生成方法及生成化学反应网络的方法
CN114446413B (zh) * 2022-02-17 2024-05-28 北京百度网讯科技有限公司 一种分子性质预测方法、装置及电子设备
CN114722247B (zh) * 2022-04-11 2025-10-24 苏州创腾软件有限公司 基于化学编辑器的化合物名称生成方法及装置
US12587274B2 (en) 2023-03-28 2026-03-24 Quantum Generative Materials Llc Satellite optimization management system based on natural language input and artificial intelligence
US12368503B2 (en) 2023-12-27 2025-07-22 Quantum Generative Materials Llc Intent-based satellite transmit management based on preexisting historical location and machine learning
US12603701B2 (en) 2023-12-27 2026-04-14 Quantum Generative Materials Llc Distributed satellite constellation management and control system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4642762A (en) * 1984-05-25 1987-02-10 American Chemical Society Storage and retrieval of generic chemical structure representations

Also Published As

Publication number Publication date
CA2440819A1 (en) 2002-09-26
WO2002074035A3 (en) 2004-01-29
WO2002074035A2 (en) 2002-09-26
US20070043511A1 (en) 2007-02-22
GB0106441D0 (en) 2001-05-02
AU2002256662A1 (en) 2002-10-03
US20040088118A1 (en) 2004-05-06
EP1405247A2 (en) 2004-04-07
JP2004537085A (ja) 2004-12-09

Similar Documents

Publication Publication Date Title
JP4328532B2 (ja) 化合物の性質最適化のための2dまたは3d−化合物構造式の階層位相ツリーを発生させるための方法
US6904423B1 (en) Method and system for artificial intelligence directed lead discovery through multi-domain clustering
US6813615B1 (en) Method and system for interpreting and validating experimental data with automated reasoning
Deshpande et al. Frequent substructure-based approaches for classifying chemical compounds
Walters et al. Prediction of ‘drug-likeness’
US6768982B1 (en) Method and system for creating and using knowledge patterns
Wawer et al. Local structural changes, global data views: graphical substructure− activity relationship trailing
Harper et al. Methods for mining HTS data
US20050177280A1 (en) Methods and systems for discovery of chemical compounds and their syntheses
US20040117164A1 (en) Method and system for artificial intelligence directed lead discovery in high throughput screening data
Stumpfe et al. Methods for SAR visualization
Varin et al. Compound set enrichment: a novel approach to analysis of primary HTS data
Leland et al. Managing the combinatorial explosion
Kruger et al. Automated identification of chemical series: classifying like a medicinal chemist
Medina‐Franco et al. Consensus models of activity landscapes
Flower DISSIM: a program for the analysis of chemical diversity
Zhang et al. AnalogExplorer: A New Method for Graphical Analysis of Analog Series and Associated Structure–activity Relationship Information
Ertl et al. The scaffold tree: an efficient navigation in the scaffold universe
Klein et al. Scaffold hunter: facilitating drug discovery by visual analysis of chemical space
Kayastha et al. From bird’s eye views to molecular communities: two-layered visualization of structure–activity relationships in large compound data sets
WO2002021423A2 (en) Method and system for obtaining knowledge based recommendations
Jancura et al. Dividing protein interaction networks for modular network comparative analysis
Swanson The Entrance of Informatics into
Tandon Deep painting: cheminformatics approaches to connect the biological profiles of compounds with their structural information
Chen Substructure and maximal common substructure searching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080430

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090327

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees