JP7619443B2 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP7619443B2
JP7619443B2 JP2023515916A JP2023515916A JP7619443B2 JP 7619443 B2 JP7619443 B2 JP 7619443B2 JP 2023515916 A JP2023515916 A JP 2023515916A JP 2023515916 A JP2023515916 A JP 2023515916A JP 7619443 B2 JP7619443 B2 JP 7619443B2
Authority
JP
Japan
Prior art keywords
vector
vectors
genome
information processing
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023515916A
Other languages
English (en)
Other versions
JPWO2022224336A1 (ja
JPWO2022224336A5 (ja
Inventor
正弘 片岡
光人 和田
量 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2022224336A1 publication Critical patent/JPWO2022224336A1/ja
Publication of JPWO2022224336A5 publication Critical patent/JPWO2022224336A5/ja
Application granted granted Critical
Publication of JP7619443B2 publication Critical patent/JP7619443B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional [2D] or three-dimensional [3D] molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Communication Control (AREA)

Description

本発明は、情報処理プログラム等に関する。
遺伝子導入技術の進歩と免疫機構に関する理解の深まりにより、遺伝子ベクターを用いて、遺伝子組み替え操作が行われている。挿入する遺伝子断片の大きさや挿入目的によって、様々な特徴を付加した媒体が遺伝子ベクターとして使い分けられる。それらの操作には、大腸菌や酵母、宿主生物などを由来とする遺伝子ベクターが使用される。
たとえば、遺伝子改変T細胞を用いたがん免疫療法として、キメラ抗原受容体(Chimeric Antigen Receptor:CAR)導入T細胞治療法が注目されている。CARは、抗原を特異的に認識する抗体由来の部分と、TCR(T Cell Receptor)由来の細胞傷害性機能部分を結合させて人工的に作製された、がん抗原を特異的に認識し、攻撃できる受容体である。
国際公開第2020/230240号 国際公開第2007/102578号
遺伝子ベクターを用いて、遺伝子治療薬を開発することは非常に有望であるが、多種多様な遺伝子ベクターをそのまま用いて、遺伝子治療薬を合成することは、難しい。
そこで、多種多様な遺伝子ベクターを代用して、目的の遺伝子治療薬を合成することが考えられるが、代用可能な遺伝子ベクターをどのように探索し、効率よく遺伝子組み換えすることが、困難であるのが現状である。
1つの側面では、本発明は、目的とするゲノムに含まれるサブゲノムの代わりとなるゲノムを特定することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、ゲノムに対応するベクトルと、ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する。コンピュータは、分析対象のゲノムを受け付けた場合、分析対象のゲノムを学習モデルに入力することで、分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する。
目的とするゲノムに含まれるサブゲノムの代わりとなるゲノムを特定することができる。
図1は、ゲノムを説明するための図である。 図2は、アミノ酸と塩基、およびコドンとの関係を示す図である。 図3は、タンパク質の一次構造、二次構造、三次構造、高次構造を説明するための図である。 図4は、遺伝子ベクターの一例を示す図である。 図5は、本実施例に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。 図6は、本実施例に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。 図7は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。 図8は、塩基ファイルのデータ構造の一例を示す図である。 図9は、変換テーブルのデータ構造の一例を示す図である。 図10は、辞書テーブルのデータ構造の一例を示す図である。 図11は、タンパク質一次構造辞書のデータ構造の一例を示す図である。 図12は、二次構造辞書のデータ構造の一例を示す図である。 図13は、三次構造辞書のデータ構造の一例を示す図である。 図14は、高次構造辞書のデータ構造の一例を示す図である。 図15は、圧縮ファイルテーブルのデータ構造の一例を示す図である。 図16は、ベクトルテーブルのデータ構造の一例を示す図である。 図17は、タンパク質一次構造ベクトルテーブルのデータ構造の一例を示す図である。 図18は、二次構造ベクトルテーブルのデータ構造の一例を示す図である。 図19は、三次構造ベクトルテーブルのデータ構造の一例を示す図である。 図20は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。 図21は、転置インデックステーブルのデータ構造の一例を示す図である。 図22は、タンパク質一次構造転置インデックスのデータ構造の一例を示す図である。 図23は、二次構造転置インデックスのデータ構造の一例を示す図である。 図24は、三次構造転置インデックスのデータ構造の一例を示す図である。 図25は、高次構造転置インデックスのデータ構造の一例を示す図である。 図26は、ゲノム辞書のデータ構造の一例を示す図である。 図27は、本実施例に係る情報処理装置の処理手順を示すフローチャート(1)である。 図28は、本実施例に係る情報処理装置の処理手順を示すフローチャート(2)である。 図29は、本実施例2に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。 図30は、本実施例2に係る情報処理装置の処理を説明するための図である。 図31は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。 図32は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。 図33は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
本実施例の説明を行う前に、ゲノムについて説明する。図1は、ゲノムを説明するための図である。ゲノム1は、複数のアミノ酸が連結する順番を規定する遺伝子情報が含まれる。ここで、アミノ酸は、連続する3塩基、すなわちコドンによって決定される。また、ゲノム1には、タンパク質1aの情報が含まれる。タンパク質1aは、20種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質1aの構造は、タンパク質の一次構造、二次構造、三次構造、高次(四次)構造として捉えることができる。図1bは、タンパク質1aの高次構造を示している。以下の説明では、適宜、タンパク質の一次構造、タンパク質の二次構造、タンパク質の三次構造、タンパク質の高次構造を、それぞれ、一次構造、二次構造、三次構造、高次構造と表記する。
DNAおよびRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。図2は、アミノ酸と塩基、およびコドンとの関係を示す図である。3つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。
図2に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン(Ala)A」は、コドン「GCU」、「GCC」、「GCA」、または、「GCG」に対応付けられる。
また、塩基配列により、タンパク質が一意に決定される。タンパク質の一次構造は、複数のアミノ酸の配列である。二次構造には、αヘリックスやβシートなどがあり、局所的に見られる、対称的な副構造である。三次構造には、複数の二次構造が含まれる。また、高次構造には、複数の三次構造が含まれる。図3は、タンパク質の一次構造、二次構造、三次構造、高次構造を説明するための図である。たとえば、図3に示すように、高次構造Zには、三次構造Y,Y,Y等が含まれる。三次構造Yには、二次構造X,X,X等が含まれる。二次構造Xには、一次構造W,W,W等が含まれる。一次構造Wには、アミノ酸A,A,A等が含まれる。
本実施例で利用する遺伝子ベクターは、外来遺伝物質を別の細胞に人為的に運ぶために利用されるDNAまたはRNA分子である。遺伝子ベクターには、プラスミド、コスミド、ラムダファージ、人口染色体等が存在する。図4は、遺伝子ベクターの一例を示す図である。図4に示す遺伝子ベクターは、pBR322プラスミドであり、クローニングベクターとして広く使用される。遺伝子ベクター自体は、DNAおよびRNAの塩基配列であり、たとえば、図3で説明したタンパク質の高次構造に対応するものとして説明を行う。
また、遺伝子ベクターは、複数のサブベクターを合成することで生成される。サブベクターは、DNAおよびRNAの塩基配列であり、たとえば、図3で説明したタンパク質の二次構造に対応する。サブベクターには、大腸菌での維持に必要な要素を含む、いわゆる大腸菌ベクターや、酵母や植物、哺乳動物等に由来する細胞系で維持するためのベクターも含まれる。サブベクターは、その他のベクターであってもよい。
続いて、本実施例に係る情報処理装置の処理の一例について説明する。
図5は、本実施例に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図5に示すように、情報処理装置は、学習データ65を用いて、学習モデル70の機械学習を実行する。学習モデル70は、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等に対応する。
学習データ65は、目的ゲノム(治療薬)のベクトルと、この目的ゲノムに含まれる複数のサブゲノムのベクトルとの関係を定義する。たとえば、目的ゲノムのベクトルが、入力データに対応し、複数のサブゲノムが、その出力データの正解値となる。
情報処理装置は、目的ゲノムのベクトルを学習モデル70に入力した際の出力が、各サブゲノムのベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ65に含まれる目的ゲノムのベクトルと、複数のサブゲノムのベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル70のパラメータを調整する(機械学習を実行する)。
図6は、本実施例に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。情報処理装置は、分析フェーズにおいて、学習フェーズで学習した学習モデル70を用いて、次の処理を実行する。
情報処理装置は、目的ゲノム(治療薬)を指定した分析クエリ80を受け付けると、分析クエリ80の目的ゲノムをベクトルVob80に変換する。情報処理装置は、ベクトルVob80を、学習モデル70に入力することで、各サブゲノムに対応する複数のベクトル(Vsb80-1、Vsb80-2、Vsb80-3、・・・Vsb80-n)を算出し、サブゲノムテーブルT1に格納する。
情報処理装置は、代替遺伝子ベクターテーブルT2に格納された、各代替遺伝子ベクターに対応する複数のベクトル(Vt1、Vt2、Vt3、・・・Vtn)と、複数のベクトル(Vsb80-1、Vsb80-2、Vsb80-3、・・・Vsb80-n)との類似度を比較して、類似する代替遺伝子ベクターのベクトルを特定する。情報処理装置は、目的ゲノムのベクトルと、サブゲノムのベクトルと、類似する代替遺伝子ベクターのベクトルとを対応付けて、代替管理テーブル85に登録する。
上記のように、本実施例に係る情報処理装置は、目的ゲノムのベクトルと、各サブゲノムのベクトルとの関係を定義した学習データ65を基にして、学習モデル70の学習を実行しておく。情報処理装置は、学習済みの学習モデル70に分析クエリのベクトルを入力することで、分析クエリの目的ゲノムに対応する各サブゲノムのベクトルを算出する。学習モデル70から出力される各サブゲノムのベクトルを用いることで、目的ゲノムに含まれるサブゲノムに類似する遺伝子ベクターであって、代替可能な遺伝子ベクターを検出することを容易に実行することができる。
次に、本実施例1に係る情報処理装置の構成の一例について説明する。図7は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図7に示すように、この情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
記憶部140は、塩基ファイル50、変換テーブル51、辞書テーブル52、圧縮ファイルテーブル53、ベクトルテーブル54、転置インデックステーブル55を有する。また、記憶部140は、サブゲノムテーブルT1、代替遺伝子ベクターテーブルT2、ゲノム辞書D2、学習データ65、学習モデル70、分析クエリ80、代替管理テーブル85を有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
塩基ファイル50は、複数の塩基が配列された情報を保持するファイルである。図8は、塩基ファイルのデータ構造の一例を示す図である。図8に示すように、塩基ファイル50は、4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。
変換テーブル51は、コドンと、コドンの符号とを対応付けるテーブルである。3つの塩基配列のかたまりは「コドン」と呼ばれる。図9は、変換テーブルのデータ構造の一例を示す図である。図9に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。
辞書テーブル52は、各種の辞書を保持するテーブルである。図10は、辞書テーブルのデータ構造の一例を示す図である。図10に示すように、この辞書テーブル52は、タンパク質一次構造辞書D1-1、二次構造辞書D1-2、三次構造辞書D1-3、高次構造辞書D1-4を有する。
タンパク質一次構造辞書D1-1は、タンパク質の圧縮符号とタンパク質を構成するコドンの配列との関係を定義する辞書データである。図11は、タンパク質一次構造辞書のデータ構造の一例を示す図である。図11に示すように、タンパク質一次構造辞書D1-1は、圧縮符号と、名称と、コドン符号配列とを対応付ける。圧縮符号は、コドンの圧縮符号配列(またはアミノ酸の記号配列)である。名称は、タンパク質の名称である。コドン符号配列は、コドンの圧縮符号の配列である。なお、コドン符号配列の代わりに、アミノ酸の記号の配列を、タンパク質一次構造の圧縮符号と対応付けてもよい。
たとえば、タンパク質一次構造「1型コラーゲン」には、圧縮符号「C0008000h」が割り当てられる。圧縮符号「C0008000h」に対応するコドン符号配列は「02h63h78h・・・03h」となる。
二次構造辞書D1-2は、タンパク質一次構造の圧縮符号の配列と、二次構造の圧縮符号との関係を定義する辞書データである。図12は、二次構造辞書のデータ構造の一例を示す図である。図12に示すように、二次構造辞書D1-2は、圧縮符号と、名称と、タンパク質一次構造符号配列とを対応付ける。圧縮符号は、タンパク質の二次構造に割り当てられた圧縮符号である。名称は、二次構造の名称である。タンパク質一次構造符号配列は、二次構造に対応するタンパク質一次構造の圧縮符号の配列である。
たとえば、二次構造「α二次構造」には、圧縮符号「D0000000h」が割り当てられる。圧縮符号「D0000000h」に対応するタンパク質一次構造符号配列は「C0008001hC00・・・」となる。
三次構造辞書D1-3は、二次構造の圧縮符号の配列と、三次構造の圧縮符号との関係を定義する辞書データである。図13は、三次構造辞書のデータ構造の一例を示す図である。図13に示すように、三次構造辞書D1-3は、圧縮符号と、名称と、二次構造符号配列とを対応付ける。圧縮符号は、三次構造に割り当てられた圧縮符号である。名称は、三次構造の名称である。二次構造符号配列は、三次構造に対応する二次構造の圧縮符号の配列である。
たとえば、三次構造「αα三次構造」には、圧縮符号「E0000000h」が割り当てられる。圧縮符号「E0000000h」に対応する二次構造符号配列は「D0008031hD00・・・」となる。
高次構造辞書D1-4は、三次構造の圧縮符号の配列と、高次構造の圧縮符号との関係を定義する辞書データである。図14は、高次構造辞書のデータ構造の一例を示す図である。図14に示すように、高次構造辞書D1-4は、圧縮符号と、名称と、三次構造符号配列とを対応付ける。圧縮符号は、高次構造に割り当てられた圧縮符号である。名称は、高次構造の名称である。三次構造符号配列は、高次構造に対応する三次構造の圧縮符号の配列である。
たとえば、高次構造「ααα高次構造」には、圧縮符号「F0000000h」が割り当てられる。圧縮符号「F0000000h」に対応する三次構造符号配列は「E0000031hE00・・・」となる。
図7の説明に戻る。圧縮ファイルテーブル53は、各種の圧縮ファイルを保持するテーブルである。図15は、圧縮ファイルテーブルのデータ構造の一例を示す図である。図15に示すように、この圧縮ファイルテーブル53は、コドン圧縮ファイル53A、タンパク質一次構造圧縮ファイル53B、二次構造圧縮ファイル53C、三次構造圧縮ファイル53D、高次構造圧縮ファイル53Eを有する。
コドン圧縮ファイル53Aは、塩基ファイル50に含まれる塩基を、コドンの単位で圧縮したファイルである。
タンパク質一次構造圧縮ファイル53Bは、コドン圧縮ファイル53Aに含まれるコドンの圧縮符号の配列を、タンパク質一次構造の単位で符号化したファイルである。
二次構造圧縮ファイル53Cは、タンパク質一次構造圧縮ファイル53Bに含まれるタンパク質一次構造の圧縮符号の配列を、二次構造の単位で符号化したファイルである。
三次構造圧縮ファイル53Dは、二次構造圧縮ファイル53Cに含まれる二次構造の圧縮符号の配列を、三次構造の単位で符号化したファイルである。
高次構造圧縮ファイル53Eは、三次構造圧縮ファイル53Dに含まれる三次構造の圧縮符号の配列を、高次構造の単位で符号化したファイルである。
ベクトルテーブル54は、タンパク質一次構造、二次構造、三次構造、高次構造に対応するベクトルを保持するテーブルである。図16は、ベクトルテーブルのデータ構造の一例を示す図である。図16に示すように、このベクトルテーブル54は、タンパク質一次構造ベクトルテーブルVT1-1、二次構造ベクトルテーブルVT1-2、三次構造ベクトルテーブルVT1-3、高次構造ベクトルテーブルVT1-4を有する。
タンパク質一次構造ベクトルテーブルVT1-1は、タンパク質一次構造に対応するベクトルを保持するテーブルである。図17は、タンパク質一次構造ベクトルテーブルのデータ構造の一例を示す図である。図17に示すように、タンパク質一次構造ベクトルテーブルVT1-1は、タンパク質一次構造の圧縮符号と、このタンパク質一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。タンパク質一次構造のベクトルは、ポアンカレエンベッディングにより算出される。ポアンカレエンベッディングについては、後述する。
二次構造ベクトルテーブルVT1-2は、二次構造に対応するベクトルを保持するテーブルである。図18は、二次構造ベクトルテーブルのデータ構造の一例を示す図である。図18に示すように、二次構造ベクトルテーブルVT1-2は、二次構造の圧縮符号と、この二次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。二次構造のベクトルは、二次構造に含まれるタンパク質一次構造のベクトルを積算することにより算出される。
三次構造ベクトルテーブルVT1-3は、三次構造に対応するベクトルを保持するテーブルである。図19は、三次構造ベクトルテーブルのデータ構造の一例を示す図である。図19に示すように、三次構造ベクトルテーブルVT1-3は、三次構造の圧縮符号と、この三次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。三次構造のベクトルは、三次構造に含まれる二次構造のベクトルを積算することにより算出される。
高次構造ベクトルテーブルVT1-4は、高次構造に対応するベクトルを保持するテーブルである。図20は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図20に示すように、高次構造ベクトルテーブルVT1-4は、高次構造の圧縮符号と、この高次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。高次構造のベクトルは、高次構造に含まれる三次構造のベクトルを積算することにより算出される。
図7の説明に戻る。転置インデックステーブル55は、各種の転置インデックスを保持するテーブルである。図21は、転置インデックステーブルのデータ構造の一例を示す図である。図21に示すように、転置インデックステーブル55は、タンパク質一次構造転置インデックスIn1-1、二次構造転置インデックスIn1-2、三次構造転置インデックスIn1-3、高次構造転置インデックスIn1-4を有する。
図22は、タンパク質一次構造転置インデックスのデータ構造の一例を示す図である。タンパク質一次構造転置インデックスIn1-1の横軸は、オフセットに対応する軸である。タンパク質一次構造転置インデックスIn1-1の縦軸は、タンパク質一次構造の圧縮符号に対応する軸である。タンパク質一次構造転置インデックスIn1-1は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、タンパク質一次構造圧縮ファイル53Bの先頭のタンパク質一次構造の圧縮符号のオフセットを「0」とする。タンパク質一次構造圧縮ファイル53Bの先頭から8番目の位置に、タンパク質一次構造の符号「C0008000h(一型コラーゲン)」が含まれる場合、タンパク質転置インデックスIn1-1のオフセット「7」の列と、タンパク質の符号「C0008000h(一型コラーゲン)」の行とが交差する位置のビットが「1」となる。
図23は、二次構造転置インデックスのデータ構造の一例を示す図である。二次構造転置インデックスIn1-2の横軸は、オフセットに対応する軸である。二次構造転置インデックスIn1-2の縦軸は、二次構造の圧縮符号に対応する軸である。二次構造転置インデックスIn1-2は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、二次構造圧縮ファイル53Cの先頭の二次構造の圧縮符号のオフセットを「0」とする。二次構造圧縮ファイル53Cの先頭から8番目の位置に、二次構造の符号「D000000h(α二次構造)」が含まれる場合、二次構造転置インデックスIn1-2のオフセット「7」の列と、二次構造の圧縮符号「D0000000h(α二次構造)」の行とが交差する位置のビットが「1」となる。
図24は、三次構造転置インデックスのデータ構造の一例を示す図である。三次構造転置インデックスIn1-3の横軸は、オフセットに対応する軸である。三次構造転置インデックスIn1-3の縦軸は、三次構造の圧縮符号に対応する軸である。三次構造転置インデックスIn1-3は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、三次構造圧縮ファイル53Dの先頭の三次構造の圧縮符号のオフセットを「0」とする。三次構造圧縮ファイル53Dの先頭から11番目の位置に、三次構造の符号「E0000000h(αα三次構造)」が含まれる場合、三次構造転置インデックスIn1-3のオフセット「10」の列と、三次構造の圧縮符号「E0000000h(αα三次構造)」の行とが交差する位置のビットが「1」となる。
図25は、高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスIn1-4の横軸は、オフセットに対応する軸である。高次構造転置インデックスIn1-4の縦軸は、高次構造の圧縮符号に対応する軸である。高次構造転置インデックスIn1-4は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
たとえば、高次構造圧縮ファイル53Eの先頭の高次構造の圧縮符号のオフセットを「0」とする。高次構造圧縮ファイル53Eの先頭から11番目の位置に、高次構造の符号「F0000000h(ααα高次構造)」が含まれる場合、高次構造転置インデックスIn1-4のオフセット「10」の列と、高次構造の圧縮符号「F0000000h(ααα高次構造)」の行とが交差する位置のビットが「1」となる。
図7の説明に戻る。代替遺伝子ベクターテーブルT2は、複数の遺伝子ベクターのベクトルを保持する。遺伝子ベクターは、タンパク質の二次構造に対応する。たとえば、代替遺伝子ベクターテーブルT2に格納するベクトルは、二次元構造ベクトルテーブルVT1-2に登録されたベクトルであってもよい。代替遺伝子ベクターテーブルT2のデータ構造は、図6で説明したように、複数の代替遺伝子ベクターのベクトルが格納される。
ゲノム辞書D2は、目的ゲノムの名称と、この目的ゲノムに含まれるサブゲノムの名称との関係を定義する。図26は、ゲノム辞書のデータ構造の一例を示す図である。図26に示すように、このゲノム辞書D2は、目的ベクターの名称と、複数のサブゲノムの名称とを対応付ける。
学習データ65は、目的ゲノムのベクトルと、この目的ゲノムに含まれる複数のサブゲノムのベクトルとの関係を定義する。学習データ65のデータ構造は、図5で説明した学習データのデータ構造に対応する。
学習モデル70は、CNNやRNN等に対応するモデルであり、パラメータが設定される。
分析クエリ80は、分析対象となる目的ゲノム(治療薬)の情報を含む。たとえば、目的ゲノムの情報には、高次構造に対応する塩基配列の情報が含まれる。
代替管理テーブル85は、目的ゲノムに含まれるサブゲノムのベクトルと、このサブゲノムに類似する遺伝子ベクターであって、代替可能な遺伝子ベクターのベクトルとを対応付けて保持するテーブルである。
制御部150は、前処理部151、学習部152、算出部153、分析部154を有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実行されてもよい。
前処理部151は、下記の各種の処理を実行することで、目的ゲノム(治療薬)に相当する高次構造、または三次構造のベクトルと、サブゲノムに相当する二次構造のベクトル等を算出する。
まず、前処理部151は、コドン圧縮ファイル53Aを生成する処理、タンパク質一次構造圧縮ファイル53Bを生成する処理、タンパク質一次構造ベクトルテーブルVT1-1、タンパク質一次構造転置インデックスIn1-1を生成する処理を実行する。
前処理部151は、塩基ファイル50と、変換テーブル51とを比較して、塩基ファイル50の塩基配列を、コドンの単位で圧縮符号を割り当て、コドン圧縮ファイル53Aを生成する。
前処理部151は、コドン圧縮ファイル53Aと、タンパク質一次構造辞書D1-1とを比較して、コドン圧縮ファイル53Aに含まれるコドンの圧縮符号の配列を、タンパク質一次構造の単位で圧縮符号を割り当て、タンパク質圧縮ファイル53Bを生成する。
前処理部151は、タンパク質一次構造圧縮ファイル53Bを生成すると、タンパク質一次構造の圧縮符号を、ポアンカレ空間に埋め込むことで、タンパク質一次構造(タンパク質一次構造の圧縮符号)のベクトルを算出する。ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング(Poincare Embeddings)と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。
ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、類似の特徴を有する各基は、ポアンカレ空間において、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。図示を省略するが、前処理部151は、類似するタンパク質一次構造同士を定義したタンパク質一次構造類似テーブルを参照して、各タンパク質一次構造の圧縮符号をポアンカレ空間に埋め込み、各タンパク質一次構造の圧縮符号のベクトルを算出する。前処理部151は、タンパク質辞書一次構造D1-1に定義された各タンパク質一次構造の圧縮符号に対して、ポアンカレエンベッディングを事前に実行しておいてもよい。
前処理部151は、タンパク質一次構造(タンパク質一次構造の圧縮符号)と、タンパク質一次構造のベクトルとを対応付けることで、タンパク質一次構造ベクトルテーブルVT1-1を生成する。前処理部151は、タンパク質一次構造のベクトルと、タンパク質一次構造圧縮ファイル53Bにおけるタンパク質一次構造(タンパク質一次構造の圧縮符号)の位置との関係を基にして、タンパク質一次構造転置インデックスIn1-1を生成する。
続いて、前処理部151は、二次構造圧縮ファイル53Cを生成する処理、二次構造ベクトルテーブルVT1-2、二次構造転置インデックスIn1-2を生成する処理を実行する。
前処理部151は、タンパク質一次構造圧縮ファイル53Bと、二次構造辞書D1-2とを比較して、タンパク質一次構造圧縮ファイル53Bに含まれるタンパク質一次構造の圧縮符号の配列を、二次構造の単位で圧縮符号を割り当て、二次構造圧縮ファイル53Cを生成する。
前処理部151は、二次構造辞書D1-2を参照して、二次構造の圧縮符号に対応するタンパク質一次構造符号配列(タンパク質一次構造の圧縮符号の配列)を特定する。前処理部151は、特定した各タンパク質一次構造の圧縮符号のベクトルを、タンパク質一次構造ベクトルテーブルVT1-1から取得し、取得した各ベクトルを加算することで、二次構造の圧縮符号のベクトルを算出する。前処理部151は、上記処理を繰り返し実行することで、各二次構造のベクトルを算出する。
前処理部151は、二次構造(二次構造の圧縮符号)と、二次構造のベクトルとを対応付けることで、二次構造ベクトルテーブルVT1-2を生成する。前処理部151は、二次構造のベクトルと、二次構造圧縮ファイル53Cにおける二次構造(二次構造の圧縮符号)の位置との関係を基にして、二次構造転置インデックスIn1-2を生成する。
続いて、前処理部151は、三次構造圧縮ファイル53Dを生成する処理、三次構造ベクトルテーブルVT1-3、三次構造転置インデックスIn1-3を生成する処理を実行する。
前処理部151は、二次構造圧縮ファイル53Cと、三次構造辞書D1-3とを比較して、二次構造圧縮ファイル53Cに含まれる二次構造の圧縮符号の配列を、三次構造の単位で圧縮符号を割り当て、三次構造圧縮ファイル53Dを生成する。
前処理部151は、三次構造辞書D1-3を参照して、三次構造の圧縮符号に対応する二次構造符号配列(二次構造の圧縮符号の配列)を特定する。前処理部151は、特定した各二次構造の圧縮符号のベクトルを、二次構造ベクトルテーブルVT1-2から取得し、取得した各ベクトルを加算することで、三次構造の圧縮符号のベクトルを算出する。前処理部151は、上記処理を繰り返し実行することで、各三次構造のベクトルを算出する。
前処理部151は、三次構造(三次構造の圧縮符号)と、三次構造のベクトルとを対応付けることで、三次構造ベクトルテーブルVT1-3を生成する。前処理部151は、三次構造のベクトルと、三次構造圧縮ファイル53Dにおける三次構造(三次構造の圧縮符号)の位置との関係を基にして、三次構造転置インデックスIn1-3を生成する。
続いて、前処理部151は、高次構造圧縮ファイル53Eを生成する処理、高次構造ベクトルテーブルVT1-4、高次構造転置インデックスIn1-4を生成する処理を実行する。
前処理部151は、三次構造圧縮ファイル53Dと、高次構造辞書D1-4とを比較して、三次構造圧縮ファイル53Dに含まれる三次構造の圧縮符号の配列を、高次構造の単位で圧縮符号を割り当て、高次構造圧縮ファイル53Eを生成する。
前処理部151は、高次構造辞書D1-4を参照して、高次構造の圧縮符号に対応する三次構造符号配列(三次構造の圧縮符号の配列)を特定する。前処理部151は、特定した各三次構造の圧縮符号のベクトルを、三次構造ベクトルテーブルVT1-3から取得し、取得した各ベクトルを加算することで、高次構造の圧縮符号のベクトルを算出する。前処理部151は、上記処理を繰り返し実行することで、各高次構造のベクトルを算出する。
前処理部151は、高次構造(高次構造の圧縮符号)と、高次構造のベクトルとを対応付けることで、高次構造ベクトルテーブルVT1-4を生成する。前処理部151は、高次構造のベクトルと、高次構造圧縮ファイル53Eにおける高次構造(高次構造の圧縮符号)の位置との関係を基にして、高次構造転置インデックスIn1-4を生成する。
前処理部151が、代替遺伝子ベクターテーブルT2を生成する処理の一例について説明する。たとえば、前処理部151は、二次構造ベクトルテーブルVT1-2に含まれる三次構造のベクトルを、そのまま、代替遺伝子ベクターテーブルT2に設定する。なお、前処理部151は、入力部120を介してベクトルの指定を受け付けた場合には、指定されたベクトルを、代替遺伝子ゲノムテーブルT2に設定してもよい。
前処理部151が、学習データ65を生成する処理の一例について説明する。前処理部151は、ゲノム辞書D2を基にして、目的ゲノムの名称と、サブゲノムの名称との関係を特定する。前処理部151は、高次構造辞書D1-4と高次構造ベクトルテーブルVT1-4、または、三次構造辞書D1-4と三次構造ベクトルテーブルVT1-3、および目的ゲノムの名称とを基にして、目的ゲノムのベクトルを特定する。前処理部151は、二次構造辞書D1-2および二次構造ベクトルテーブルVT1-2と、サブゲノムの名称とを基にして、サブゲノムのベクトルを特定する。前処理部151は、かかる処理によって、目的ゲノムと、サブゲノムとの関係を特定し、学習データ65に登録する。
前処理部151は、上記処理を繰り返し実行することで、学習データ65を生成する。なお、情報処理装置100は、外部装置等から、作成済みの学習データ65を取得して利用してもよい。
図7の説明に戻る。学習部152は、学習データ65を用いて、学習モデル70の学習を実行する。学習部152の処理は、図5で説明した処理に対応する。学習部152は、学習データ65から、目的ゲノム(治療薬)のベクトルと、この目的ゲノムのベクトルに対応する各サブゲノムのベクトルとの組を取得する。学習部152は、目的ゲノムのベクトルを、学習モデル70に入力した場合の、学習モデル70の出力の値が、各サブゲノムのベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル70のパラメータを調整する。
学習部152は、学習データ65の目的ゲノムのベクトルと、各サブゲノムのベクトルとの組について、上記処理を繰り返し実行することで、学習モデル70の学習を実行する。
算出部153は、分析クエリ80の指定を受け付けた場合に、学習済みの学習モデル70を用いて、分析クエリ80の目的ゲノムに含まれる各サブゲノムのベクトルを算出する。算出部153の処理は、図6で説明した処理に対応する。算出部153は、分析クエリ80を、入力部120から受付けてもよいし、通信部110を介して、外部装置から受付けてもよい。
算出部153は、分析クエリ80に含まれる目的ゲノムの塩基配列を取得する。算出部153は、目的ゲノムの塩基配列と、変換テーブル51とを比較して、目的ゲノムの塩基配列に含まれるコドンを特定し、コドンの単位で、目的ゲノムの塩基配列をそれぞれ圧縮符号に変換する。また、算出部153は、コドンの単位で圧縮したコドン符号配列と、タンパク質一次構造辞書D1-1とを比較して、タンパク質一次構造の単位で、コドン符号配列をそれぞれ圧縮符号に変換する。
算出部153は、変換した各タンパク質一次構造の圧縮符号と、タンパク質一次構造ベクトルテーブルVT1-1とを比較して、各タンパク質一次構造の圧縮符号のベクトルを特定する。算出部153は、特定した各タンパク質一次構造の圧縮符号のベクトルを積算することで、分析クエリ80に含まれる目的ゲノムに対応するベクトルVob80を算出する。
なお、目的ゲノムが、複数のサブゲノムの二次構造によって指定されている場合には、算出部153は、次の処理を実行する。算出部153は、目的ゲノムのサブゲノムの各二次構造と、二次構造辞書D1-2および二次構造ベクトルテーブルVT1-2とを比較して、目的ゲノムに含まれるサブゲノムの二次構造のベクトルを特定する。算出部153は、特定したサブゲノムの二次構造のベクトルを積算することで、目的ゲノムのベクトルを算出する。
算出部153は、ベクトルVob80を、学習モデル70に入力することで、各サブゲノムに対応する複数のベクトルを算出する。算出部153は、算出した各サブゲノムのベクトルを、分析部154に出力する。以下の説明では、算出部153が算出した各サブゲノムのベクトルを、それぞれ「分析ベクトル」と表記する。算出部153は、各サブゲノムのベクトル(分析ベクトル)は、サブゲノムテーブルT1に格納する。
分析部154は、分析ベクトルを基にして、分析ベクトルに類似するベクトルを有する代替遺伝子ベクターの情報を検索する。分析部154は、検索結果を基にして、目的ゲノムに含まれる各サブゲノムのベクトルと類似した各代替遺伝子ベクターのベクトル(以下に示す類似ベクトル)とを対応付けて、代替管理テーブル85に登録する。
たとえば、分析部154は、分析ベクトルと、代替遺伝子ベクターテーブルT2に含まれる各ベクトルとの距離をそれぞれ算出し、分析ベクトルとの距離が閾値未満となるベクトルを特定する。代替遺伝子ベクターテーブルT2に含まれるベクトルであって、分析ベクトルとの距離が閾値未満となるベクトルが「類似ベクトル」となる。この類似ベクトルに対応する遺伝子ベクターが、代替可能な遺伝子ベクターとなる。
分析部154は、二次構造ベクトルテーブルVT1-2を基にして、類似ベクトルに対応する遺伝子ベクターの圧縮符号を特定し、特定した遺伝子ベクターの圧縮符号、二次構造辞書D1-2、タンパク質一次構造辞書D1-1を基にして遺伝子ベクターに含まれるタンパク質一次構造を特定してもよい。分析部154は、かかる処理を実行することで、類似ベクトルに対応する代替可能な遺伝子ベクターの特徴を検索し、代替管理テーブル85に登録する。代替可能な遺伝子ベクターの特徴は、遺伝子ベクターに含まれるタンパク質、タンパク質の一次構造となる。
分析部154は、各分析ベクトルについて、上記処理を繰り返し実行することで、分析ベクトル毎に、類似ベクトルに対応する遺伝子ベクターの特徴を検索し、代替管理テーブル85に登録してもよい。分析部154は、代替管理テーブル85を、表示部130に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図27は、本実施例に係る情報処理装置の処理手順を示すフローチャート(1)である。図27に示すように、情報処理装置100の前処理部151は、ポアンカレエンベッディングを実行することで、各タンパク質の圧縮符号のベクトルを算出する(ステップS101)。
前処理部151は、塩基ファイル50、変換テーブル51、辞書テーブル52を基にして、圧縮ファイルテーブル53、ベクトルテーブル54、転置インデックステーブル55を生成する(ステップS102)。
前処理部151は、学習データ65を生成する(ステップS103)。情報処理装置100の学習部152は、学習データ65を基にして、学習モデル70の学習を実行する(ステップS104)。
図28は、本実施例に係る情報処理装置の処理手順を示すフローチャート(2)である。情報処理装置100の算出部153は、分析クエリ80を受け付ける(ステップS201)。算出部153は、分析クエリ80(目的ゲノム)のベクトルを算出する(ステップS202)。
算出部153は、算出した分析クエリ80のベクトルを、学習済みの学習モデル70に入力することで、各サブゲノムのベクトルを算出する(ステップS203)。情報処理装置100の分析部154は、各サブゲノムのベクトルと代替遺伝子ベクターテーブルT2のベクトルとを比較する(ステップS204)。
分析部154は、各サブゲノムに対応する代替可能な遺伝子ベクターを検索する(ステップS205)。分析部154は、検索結果を、代替管理テーブル85に登録する(ステップS206)。
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、学習フェーズで、目的ゲノム(治療薬)のベクトルと、サブゲノムのベクトルとの関係を定義した学習データ65を基にして、学習モデル70の学習を実行しておく。情報処理装置100は、分析フェーズで、学習済みの学習モデル70に分析クエリのベクトルを入力することで、分析クエリ(目的ゲノム)に対応する各サブゲノムのベクトルを算出する。学習モデル70から出力される各サブゲノムのベクトルを用いることで、目的ゲノムに含まれるサブゲノムに類似する代替可能な遺伝子ベクターを検出することを容易に実行することができる。
たとえば、目的ゲノムに含まれるサブゲノムが、稀少なサブゲノムである場合には、情報処理装置100の処理を実行することで、かかるサブゲノムの代わりとなる安価な遺伝子ベクターを容易に探索することができる。
ところで、上述した実施例では、サブゲノム(二次構造)の粒度で比較を行い、代替可能な遺伝子ベクターを探索していたが、これに限定されるものではない。たとえば、情報処理装置100は、サブゲノムを構成する複数の一次構造の粒度で比較を行い、代替可能な一次構造を探索してもよい。
続いて、実施例2について説明する。図29は、本実施例2に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図29に示すように、情報処理装置は、学習データ90を用いて、学習モデル91の学習を実行する。学習モデル91は、CNNやRNN等に対応する。
学習データ90は、目的ゲノム(治療薬)を合成する複数のサブゲノムのベクトルと、遺伝子ベクターを基に遺伝子組み換えで保持される共通構造のベクトルとの関係を定義する。たとえば、サブゲノムのベクトルが、入力データに対応し、複数の共通構造のベクトルが正解値となる。
情報処理装置は、サブゲノムのベクトルを学習モデル91に入力した際の出力が、各共通構造のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ90に含まれるサブゲノムのベクトルと、共通構造のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル91のパラメータを調整する(機械学習を実行する)。
図30は、本実施例2に係る情報処理装置の処理を説明するための図である。実施例2に係る情報処理装置は、実施例1の情報処理装置100と同様にして、学習モデル90を学習しておいてもよい。また、情報処理装置は、図29で説明したように、学習モデル70とは別の、学習モデル91を学習する。学習モデル91は、分析クエリ(サブゲノム)92のベクトルが入力された場合に、共通構造のベクトルを出力する。
情報処理装置は、サブゲノムを指定した分析クエリ92を受け付けると、サブゲノムベクトルテーブルT1を用いて、分析クエリ92のサブゲノムをベクトルVsb92-1に変換する。情報処理装置は、サブゲノムのベクトルVsb92-1を、学習モデル91に入力することで、共通構造に対応するベクトルVcm92-1を算出する。
ここで、情報処理装置は、サブゲノムのベクトルVsb92-1と、代替遺伝子ベクターテーブルT2に含まれる複数の遺伝子ベクターのベクトルとを比較する。代替遺伝子ベクターベクトルテーブルT2は、実施例1で説明した代替遺伝子ベクターベクトルテーブルT2に対応する。
情報処理装置は、サブゲノムのベクトルVsb92-1について、類似する遺伝子ベクターのベクトルを特定する。たとえば、サブゲノムのベクトルVsb92-1と類似する遺伝子ベクターのベクトルをVt92-1とする。そうすると、ベクトルVsb92-1のサブゲノムと、ベクトルVt92-1の遺伝子ベクターとで共通する共通構造のベクトルが、学習モデル91から出力されるベクトルVcm92-1となることがわかる。また、遺伝子ベクターのベクトルVt92-1から、共通構造のベクトルVcm92-1を減算した結果が、類似する遺伝子ベクターとサブゲノムとで相違する「遺伝子組換構造」のベクトルとなる。
情報処理装置は、共通構造のベクトルと、遺伝子組換構造とのベクトルとの関係を、共通構造・遺伝子組換構造テーブル93に登録する。情報処理装置は、各サブゲノムのベクトルについて、上記処理を繰り返し実行することで、共通構造・遺伝子組換構造テーブル93を生成する。
上記のように、本実施例2に係る情報処理装置は、学習済みの学習モデル91に分析クエリ92のベクトルを入力し、分析クエリのサブゲノムに対応する各共通構造のベクトルを算出する。また、サブゲノムに類似する遺伝子ベクターの各ベクトルから、共通構造のベクトルを減算することで、類似するサブゲノムと、遺伝子ベクターとで相違する遺伝子組換構造のベクトルを算出する。上記の共通構造のベクトルや、遺伝子組換構造のベクトルを用いることで、目的ゲノムの合成や製造に使用可能なより良い遺伝子ベクターを容易に分析することができる。
次に、本実施例2に係る情報処理装置の構成の一例について説明する。図31は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。図31に示すように、この情報処理装置200は、通信部210、入力部220、表示部230、記憶部240、制御部250を有する。
通信部210、入力部220、表示部230に関する説明は、実施例1で説明した通信部110、入力部120、表示部130に関する説明と同様である。
記憶部240は、塩基ファイル50、変換テーブル51、辞書テーブル52、圧縮ファイルテーブル53、ベクトルテーブル54、転置インデックステーブル55を有する。また、記憶部240は、サブゲノムテーブルT1、代替遺伝子ベクターテーブルT2、ゲノム辞書D2、学習データ90、学習モデル91、分析クエリ92、共通構造・遺伝子組換構造テーブル93を有する。記憶部240は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
塩基ファイル50、変換テーブル51、辞書テーブル52、圧縮ファイルテーブル53、ベクトルテーブル54、転置インデックステーブル55、サブゲノムテーブルT1、代替遺伝子ベクターテーブルT2、ゲノム辞書D2に関する説明は、実施例1で説明した内容と同様である。学習データ90は、図29で説明した内容と同様である。学習モデル91、分析クエリ92に関する説明は、図30で説明した内容と同様である。
共通構造・遺伝子組換構造テーブル93は、図30で説明したように、共通構造ベクトルに類似した遺伝子ベクターからサブゲノムに遺伝子組み換えするための遺伝子組換構造ベクトルの情報が含まれる。図30では、たとえば、共通構造・遺伝子組換構造テーブル93には、Vcm92-1に対応した遺伝子組換構造ベクトルが含まれる。共通構造のベクトルと、遺伝子組換構造のベクトルとを積算したベクトルが、遺伝子ベクターのベクトルに対応するベクトルとなる。
図31に説明に戻る。制御部250は、前処理部251、学習部252、算出部253、分析部254を有する。制御部250は、例えば、CPUやMPUにより実現される。また、制御部250は、例えばASICやFPGA等の集積回路により実行されてもよい。
前処理部251に関する説明は、実施例1で説明した前処理部151に関する処理の説明と同様である。前処理部251によって、塩基ファイル50、変換テーブル51、辞書テーブル52、圧縮ファイルテーブル53、ベクトルテーブル54、転置インデックステーブル55、サブゲノムテーブルT1、代替遺伝子ベクターテーブルT2が生成される。前処理部251は、学習データ90を、外部装置から取得してもよいし、前処理部251が生成してもよい。
算出部253は、分析クエリ92の指定を受け付けた場合に、学習済みの学習モデル91を用いて、分析クエリ92のサブゲノムの合成経路で遺伝子組み換えさせる各共通構造のベクトルを算出する。算出部253は、算出した各共通構造のベクトルを、分析部254に出力する。
以下の説明では、算出部253が算出した各共通構造のベクトルを、それぞれ「共通構造ベクトル」と表記する。
分析部254は、分析クエリ92のサブゲノムのベクトルと、共通構造ベクトルと、遺伝子ベクターベクトルテーブルT2とを基にして、共通構造・遺伝子組換機構テーブル93を生成する。以下において、分析部254の処理の一例について説明する。
分析部254は、サブゲノムのベクトルと、代替遺伝子ベクターテーブルT2に含まれる各ベクトルとの距離をそれぞれ算出し、サブゲノムのベクトルとの距離が閾値未満となるベクトルを特定する。代替遺伝子ベクターテーブルT2に含まれるベクトルであって、サブゲノムのベクトルとの距離が閾値未満となるベクトルを「類似ベクトル」と表記する。
分析部254は、類似ベクトルから、共通構造ベクトルを減算することで、遺伝子組換構造のベクトルを算出し、共通構造ベクトルと、遺伝子組換構造のベクトルとの対応関係を特定する。分析部254は、共通構造ベクトルと、遺伝子組換構造のベクトルとを共通構造・遺伝子組換構造テーブル93に登録する。分析部245は、上記処理を繰り返し実行することで、共通構造・遺伝子組換構造テーブル93を生成する。分析部245は、共通構造・遺伝子組換構造テーブル93を、表示部230に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。
次に、本実施例2に係る情報処理装置200の処理手順の一例について説明する。図32は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置200の算出部253は、分析クエリ92を受け付ける(ステップS301)。
算出部253は、サブゲノムテーブルT1を基にして、分析クエリ92のサブゲノムをベクトルに変換する(ステップS302)。
算出部253は、サブゲノムのベクトルを、学習済みの学習モデル91に入力することで、共通構造のベクトルを算出する(ステップS303)。情報処理装置200の分析部254は、共通構造のベクトルと、代替遺伝子ベクターテーブルT2の各ベクトルとの距離を基にして、類似ベクトルを特定する(ステップS304)。
分析部254は、サブゲノムと類似する遺伝子ベクターの各ベクトルから共通構造のベクトルを減算することで、遺伝子組換構造のベクトルを算出する(ステップS305)。分析部254は、共通構造のベクトルと、遺伝子組換構造のベクトルとの関係を、共通構造・遺伝子組換構造テーブル93に登録する(ステップS306)。分析部254は、共通構造・遺伝子組換構造テーブルの情報を出力する(ステップS307)。
次に、本実施例2に係る情報処理装置200の効果について説明する。情報処理装置100は、学習済みの学習モデル91に分析クエリ92のベクトルを入力し、分析クエリのサブゲノムに対応する各共通構造のベクトルを算出する。また、サブゲノムに類似する遺伝子ベクターのベクトルから各、共通構造のベクトルを減算することで、類似するサブゲノムと、遺伝子ベクターとで相違する遺伝子組換構造のベクトルを算出する。上記の共通構造のベクトルや、遺伝子組換構造のベクトルを用いることで、目的ゲノムへの遺伝子組換や再合成や製造に活用可能な、より良い遺伝子ベクターを容易に分析することができる。
サブゲノムと遺伝子ベクターは、複数のタンパク質一次構造で構成される二次構造である。また、タンパク質一次構造の分散ベクトルを用いることで、あるタンパク質一次構造に隣接するタンパク質一次構造を推定することができ、各タンパク質一次構造の結合度や安定性の評価に応用することができる。実績のあるサブゲノムへ遺伝子ベクターからの遺伝子組み換えに関し、サブゲノムや遺伝子ベクターの二次構造を構成する複数のタンパク質次構造の分散ベクトルをもとに、機械学習を行うことで、遺伝子ベクターからの流用と、遺伝子組み換えと、再合成の分析精度を向上することができる。
次に、上記実施例に示した情報処理装置100(200)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図33は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図9に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
ハードディスク装置307は、前処理プログラム307a、学習プログラム307b、算出プログラム307c、分析プログラム307dを有する。また、CPU301は、各プログラム307a~307dを読み出してRAM306に展開する。
前処理プログラム307aは、前処理プロセス306aとして機能する。学習プログラム307bは、学習プロセス306bとして機能する。算出プログラム307cは、算出プロセス306cとして機能する。分析プログラム307dは、分析プロセス306dとして機能する。
前処理プロセス306aの処理は、前処理部151,251の処理に対応する。学習プロセス306bの処理は、学習部152,252の処理に対応する。算出プロセス306cの処理は、算出部153,253の処理に対応する。分析プロセス306dの処理は、分析部154の処理に対応する。
なお、各プログラム307a~307dについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307dを読み出して実行するようにしてもよい。
110,210 通信部
120,220 入力部
130,230 表示部
140,240 記憶部
150,250 制御部
151,251 前処理部
152,252 学習部
153,253 算出部
154,254 分析部

Claims (7)

  1. コンピュータに、
    ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
    分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する
    処理を実行させることを特徴とする情報処理プログラム。
  2. 前記算出する処理によって、算出された複数のサブゲノムのベクトルと、代替候補となる複数の代替遺伝子ベクターのベクトルとの類似度合いに基づき、前記サブゲノムと代替可能な代替遺伝子ベクターを検索する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
  3. 前記分析対象のゲノムは、タンパク質の二次構造を複数含み、前記分析対象のゲノムに含まる複数の二次構造のベクトルを積算することで、前記分析対象のゲノムのベクトルを算出する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
  4. コンピュータに、
    ゲノムを製造する際の合成経路に含まれる複数のサブゲノムのベクトルを入力データとし、サブゲノムの構造および遺伝子ベクターの構造のうち共通する構造を示す共通構造のベクトルを正解値とする学習データに基づき、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
    分析対象のサブゲノムの入力を受け付けた場合に、前記分析対象のサブゲノムのベクトルを前記学習モデルに入力することで、前記分析対象のサブゲノムに対応する共通構造のベクトルを算出する
    処理を実行させることを特徴とする情報処理プログラム。
  5. コンピュータが実行する情報処理方法であって、
    ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
    分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象の遺伝子ベクターに対応する複数のサブベクターのベクトルを算出する
    処理を実行することを特徴とする情報処理方法。
  6. コンピュータが実行する情報処理方法であって、
    ゲノムを製造する際の合成経路に含まれる複数のサブゲノムのベクトルを入力データとし、サブゲノムの構造および遺伝子ベクターの構造のうち共通する構造を示す共通構造のベクトルを正解値とする学習データに基づき、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
    分析対象のサブゲノムを受け付けた場合、前記分析対象のサブゲノムのベクトルを前記学習モデルに入力することで、前記分析対象のサブゲノムに対応する共通構造のベクトルを算出する
    処理を実行することを特徴とする情報処理方法。
  7. ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行する学習部と、
    分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する算出部と
    を有することを特徴とする情報処理装置。
JP2023515916A 2021-04-20 2021-04-20 情報処理プログラム、情報処理方法および情報処理装置 Active JP7619443B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015983 WO2022224336A1 (ja) 2021-04-20 2021-04-20 情報処理プログラム、情報処理方法および情報処理装置

Publications (3)

Publication Number Publication Date
JPWO2022224336A1 JPWO2022224336A1 (ja) 2022-10-27
JPWO2022224336A5 JPWO2022224336A5 (ja) 2024-01-04
JP7619443B2 true JP7619443B2 (ja) 2025-01-22

Family

ID=83723418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023515916A Active JP7619443B2 (ja) 2021-04-20 2021-04-20 情報処理プログラム、情報処理方法および情報処理装置

Country Status (6)

Country Link
US (1) US20240006028A1 (ja)
EP (1) EP4328921A4 (ja)
JP (1) JP7619443B2 (ja)
CN (1) CN117043868A (ja)
AU (1) AU2021441603A1 (ja)
WO (1) WO2022224336A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000507940A (ja) 1996-03-22 2000-06-27 ユニバーシティー オブ グエルフ 共通の機能特性を有する化学構造をコンピューターによって設計する方法
US20110131027A1 (en) 2004-05-18 2011-06-02 Solomon Research Llc Bioinformatics system
CN103189550A (zh) 2010-11-04 2013-07-03 先正达参股股份有限公司 高表达基因组合和其他生物组分组合的计算机模拟预测
JP2017504913A (ja) 2013-11-15 2017-02-09 インフィニットバイオInfinitebio 治療設計のためのコンピュータ支援モデル化
JP2020154442A (ja) 2019-03-18 2020-09-24 株式会社日立製作所 生物反応情報処理システムおよび生物反応情報処理方法
JP2020530918A (ja) 2017-10-16 2020-10-29 イルミナ インコーポレイテッド バリアントの分類のための深層畳み込みニューラルネットワーク

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047137B1 (en) * 2000-11-28 2006-05-16 Hewlett-Packard Development Company, L.P. Computer method and apparatus for uniform representation of genome sequences
WO2007102578A1 (ja) 2006-03-09 2007-09-13 Keio University 塩基配列設計方法
CN107025386B (zh) * 2017-03-22 2020-07-17 杭州电子科技大学 一种基于深度学习算法进行基因关联分析的方法
WO2018226900A2 (en) * 2017-06-06 2018-12-13 Zymergen Inc. A htp genomic engineering platform for improving fungal strains
US20200363414A1 (en) * 2017-09-05 2020-11-19 Gritstone Oncology, Inc. Neoantigen Identification for T-Cell Therapy
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
EP3759131A4 (en) * 2018-02-27 2021-12-01 Gritstone bio, Inc. NEOANTIGEN IDENTIFICATION WITH PAN ALLELE MODELS
JP2020181959A (ja) * 2019-04-26 2020-11-05 東京エレクトロン株式会社 学習方法、管理装置および管理プログラム
CN113811949A (zh) 2019-05-13 2021-12-17 富士通株式会社 评价方法、评价程序和评价装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000507940A (ja) 1996-03-22 2000-06-27 ユニバーシティー オブ グエルフ 共通の機能特性を有する化学構造をコンピューターによって設計する方法
US20110131027A1 (en) 2004-05-18 2011-06-02 Solomon Research Llc Bioinformatics system
CN103189550A (zh) 2010-11-04 2013-07-03 先正达参股股份有限公司 高表达基因组合和其他生物组分组合的计算机模拟预测
JP2017504913A (ja) 2013-11-15 2017-02-09 インフィニットバイオInfinitebio 治療設計のためのコンピュータ支援モデル化
JP2020530918A (ja) 2017-10-16 2020-10-29 イルミナ インコーポレイテッド バリアントの分類のための深層畳み込みニューラルネットワーク
JP2020154442A (ja) 2019-03-18 2020-09-24 株式会社日立製作所 生物反応情報処理システムおよび生物反応情報処理方法

Also Published As

Publication number Publication date
WO2022224336A1 (ja) 2022-10-27
CN117043868A (zh) 2023-11-10
US20240006028A1 (en) 2024-01-04
EP4328921A1 (en) 2024-02-28
JPWO2022224336A1 (ja) 2022-10-27
EP4328921A4 (en) 2024-06-26
AU2021441603A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
JP2021532439A (ja) コドン最適化
Kukic et al. Toward an accurate prediction of inter-residue distances in proteins using 2D recursive neural networks
US11851704B2 (en) Deepsimulator method and system for mimicking nanopore sequencing
Lupo et al. Pairing interacting protein sequences using masked language modeling
CN109360596B (zh) 一种基于差分进化局部扰动的蛋白质构象空间优化方法
Liu et al. Computational prediction of sigma-54 promoters in bacterial genomes by integrating motif finding and machine learning strategies
Xie et al. Multilevel attention network with semi-supervised domain adaptation for drug-target prediction
He et al. Predicting the sequence specificities of DNA-binding proteins by DNA fine-tuned language model with decaying learning rates
Zhang et al. Physics-aware graph neural network for accurate RNA 3D structure prediction
JP7619443B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Kaghed et al. Multiple sequence alignment based on developed genetic algorithm
Bi A Monte Carlo EM algorithm for de novo motif discovery in biomolecular sequences
Elsayed et al. Evolutionary behavior of dna sequences analysis using non-uniform probabilistic cellular automata model
Bi A genetic-based EM motif-finding algorithm for biological sequence analysis
Huang et al. Computation of conformational entropy from protein sequences using the machine‐learning method—Application to the study of the relationship between structural conservation and local structural stability
Ghanty et al. Prediction of protein secondary structure using probability based features and a hybrid system
Shen et al. DARE: Sequence-structure dual-aware encoder for RNA-protein binding prediction
Zhang et al. Predicting TF-DNA binding motifs from chip-seq datasets using the bag-based classifier combined with a multi-fold learning scheme
Nizam et al. Cyclic genetic algorithm for multiple sequence alignment
AU2013206364B2 (en) Methods for identifying sequence motifs, and applications thereof
Leiva et al. NN-PRED: A novel consensus secondary structure prediction program using neural networks
Dey et al. A survey on multiple sequence alignment using metaheuristics
Raja et al. Nature inspired algorithms for genome subsequence assembly in Hadoop
Prema et al. Predicting Forward and Reverse Mutations from Protein Sequences Using Embeddings and Deep Learning
KR102060874B1 (ko) 니렌버그 rna 표준 유전자 코드의 수학적 설계 및 블록 순환 자켓 행렬에 기초한 분석

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241223

R150 Certificate of patent or registration of utility model

Ref document number: 7619443

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150