JP7619443B2

JP7619443B2 - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: JP7619443B2
Application number: JP2023515916A
Authority: JP
Inventors: 正弘片岡; 光人和田; 量松村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2025-01-22
Anticipated expiration: 2041-04-20
Also published as: WO2022224336A1; CN117043868A; US20240006028A1; EP4328921A1; JPWO2022224336A1; EP4328921A4; AU2021441603A1

Description

本発明は、情報処理プログラム等に関する。

遺伝子導入技術の進歩と免疫機構に関する理解の深まりにより、遺伝子ベクターを用いて、遺伝子組み替え操作が行われている。挿入する遺伝子断片の大きさや挿入目的によって、様々な特徴を付加した媒体が遺伝子ベクターとして使い分けられる。それらの操作には、大腸菌や酵母、宿主生物などを由来とする遺伝子ベクターが使用される。

たとえば、遺伝子改変Ｔ細胞を用いたがん免疫療法として、キメラ抗原受容体（Chimeric Antigen Receptor：CAR）導入Ｔ細胞治療法が注目されている。ＣＡＲは、抗原を特異的に認識する抗体由来の部分と、ＴＣＲ（T Cell Receptor）由来の細胞傷害性機能部分を結合させて人工的に作製された、がん抗原を特異的に認識し、攻撃できる受容体である。

国際公開第２０２０／２３０２４０号国際公開第２００７／１０２５７８号

遺伝子ベクターを用いて、遺伝子治療薬を開発することは非常に有望であるが、多種多様な遺伝子ベクターをそのまま用いて、遺伝子治療薬を合成することは、難しい。

そこで、多種多様な遺伝子ベクターを代用して、目的の遺伝子治療薬を合成することが考えられるが、代用可能な遺伝子ベクターをどのように探索し、効率よく遺伝子組み換えすることが、困難であるのが現状である。

１つの側面では、本発明は、目的とするゲノムに含まれるサブゲノムの代わりとなるゲノムを特定することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、ゲノムに対応するベクトルと、ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する。コンピュータは、分析対象のゲノムを受け付けた場合、分析対象のゲノムを学習モデルに入力することで、分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する。

目的とするゲノムに含まれるサブゲノムの代わりとなるゲノムを特定することができる。

図１は、ゲノムを説明するための図である。図２は、アミノ酸と塩基、およびコドンとの関係を示す図である。図３は、タンパク質の一次構造、二次構造、三次構造、高次構造を説明するための図である。図４は、遺伝子ベクターの一例を示す図である。図５は、本実施例に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図６は、本実施例に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。図７は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図８は、塩基ファイルのデータ構造の一例を示す図である。図９は、変換テーブルのデータ構造の一例を示す図である。図１０は、辞書テーブルのデータ構造の一例を示す図である。図１１は、タンパク質一次構造辞書のデータ構造の一例を示す図である。図１２は、二次構造辞書のデータ構造の一例を示す図である。図１３は、三次構造辞書のデータ構造の一例を示す図である。図１４は、高次構造辞書のデータ構造の一例を示す図である。図１５は、圧縮ファイルテーブルのデータ構造の一例を示す図である。図１６は、ベクトルテーブルのデータ構造の一例を示す図である。図１７は、タンパク質一次構造ベクトルテーブルのデータ構造の一例を示す図である。図１８は、二次構造ベクトルテーブルのデータ構造の一例を示す図である。図１９は、三次構造ベクトルテーブルのデータ構造の一例を示す図である。図２０は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図２１は、転置インデックステーブルのデータ構造の一例を示す図である。図２２は、タンパク質一次構造転置インデックスのデータ構造の一例を示す図である。図２３は、二次構造転置インデックスのデータ構造の一例を示す図である。図２４は、三次構造転置インデックスのデータ構造の一例を示す図である。図２５は、高次構造転置インデックスのデータ構造の一例を示す図である。図２６は、ゲノム辞書のデータ構造の一例を示す図である。図２７は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。図２８は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。図２９は、本実施例２に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図３０は、本実施例２に係る情報処理装置の処理を説明するための図である。図３１は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３２は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図３３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例の説明を行う前に、ゲノムについて説明する。図１は、ゲノムを説明するための図である。ゲノム１は、複数のアミノ酸が連結する順番を規定する遺伝子情報が含まれる。ここで、アミノ酸は、連続する３塩基、すなわちコドンによって決定される。また、ゲノム１には、タンパク質１ａの情報が含まれる。タンパク質１ａは、２０種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質１ａの構造は、タンパク質の一次構造、二次構造、三次構造、高次（四次）構造として捉えることができる。図１ｂは、タンパク質１ａの高次構造を示している。以下の説明では、適宜、タンパク質の一次構造、タンパク質の二次構造、タンパク質の三次構造、タンパク質の高次構造を、それぞれ、一次構造、二次構造、三次構造、高次構造と表記する。

ＤＮＡおよびＲＮＡの塩基は４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。また、３つの塩基配列がひとかたまりで、２０種類のアミノ酸を決定する。それぞれのアミノ酸は、「Ａ」～「Ｙ」の記号で示される。図２は、アミノ酸と塩基、およびコドンとの関係を示す図である。３つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。

図２に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン（Ala）Ａ」は、コドン「ＧＣＵ」、「ＧＣＣ」、「ＧＣＡ」、または、「ＧＣＧ」に対応付けられる。

また、塩基配列により、タンパク質が一意に決定される。タンパク質の一次構造は、複数のアミノ酸の配列である。二次構造には、αヘリックスやβシートなどがあり、局所的に見られる、対称的な副構造である。三次構造には、複数の二次構造が含まれる。また、高次構造には、複数の三次構造が含まれる。図３は、タンパク質の一次構造、二次構造、三次構造、高次構造を説明するための図である。たとえば、図３に示すように、高次構造Ｚ_１には、三次構造Ｙ_１，Ｙ_２，Ｙ_３等が含まれる。三次構造Ｙ_１には、二次構造Ｘ_１，Ｘ_２，Ｘ_３等が含まれる。二次構造Ｘ_１には、一次構造Ｗ_１，Ｗ_２，Ｗ_３等が含まれる。一次構造Ｗ_１には、アミノ酸Ａ_１，Ａ_２，Ａ_３等が含まれる。

本実施例で利用する遺伝子ベクターは、外来遺伝物質を別の細胞に人為的に運ぶために利用されるＤＮＡまたはＲＮＡ分子である。遺伝子ベクターには、プラスミド、コスミド、ラムダファージ、人口染色体等が存在する。図４は、遺伝子ベクターの一例を示す図である。図４に示す遺伝子ベクターは、pBR322プラスミドであり、クローニングベクターとして広く使用される。遺伝子ベクター自体は、ＤＮＡおよびＲＮＡの塩基配列であり、たとえば、図３で説明したタンパク質の高次構造に対応するものとして説明を行う。

また、遺伝子ベクターは、複数のサブベクターを合成することで生成される。サブベクターは、ＤＮＡおよびＲＮＡの塩基配列であり、たとえば、図３で説明したタンパク質の二次構造に対応する。サブベクターには、大腸菌での維持に必要な要素を含む、いわゆる大腸菌ベクターや、酵母や植物、哺乳動物等に由来する細胞系で維持するためのベクターも含まれる。サブベクターは、その他のベクターであってもよい。

続いて、本実施例に係る情報処理装置の処理の一例について説明する。

図５は、本実施例に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図５に示すように、情報処理装置は、学習データ６５を用いて、学習モデル７０の機械学習を実行する。学習モデル７０は、ＣＮＮ（Convolutional Neural Network）やＲＮＮ（Recurrent Neural Network）等に対応する。

学習データ６５は、目的ゲノム（治療薬）のベクトルと、この目的ゲノムに含まれる複数のサブゲノムのベクトルとの関係を定義する。たとえば、目的ゲノムのベクトルが、入力データに対応し、複数のサブゲノムが、その出力データの正解値となる。

情報処理装置は、目的ゲノムのベクトルを学習モデル７０に入力した際の出力が、各サブゲノムのベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ６５に含まれる目的ゲノムのベクトルと、複数のサブゲノムのベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル７０のパラメータを調整する（機械学習を実行する）。

図６は、本実施例に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。情報処理装置は、分析フェーズにおいて、学習フェーズで学習した学習モデル７０を用いて、次の処理を実行する。

情報処理装置は、目的ゲノム（治療薬）を指定した分析クエリ８０を受け付けると、分析クエリ８０の目的ゲノムをベクトルＶｏｂ８０に変換する。情報処理装置は、ベクトルＶｏｂ８０を、学習モデル７０に入力することで、各サブゲノムに対応する複数のベクトル（Ｖｓｂ８０－１、Ｖｓｂ８０－２、Ｖｓｂ８０－３、・・・Ｖｓｂ８０－ｎ）を算出し、サブゲノムテーブルＴ１に格納する。

情報処理装置は、代替遺伝子ベクターテーブルＴ２に格納された、各代替遺伝子ベクターに対応する複数のベクトル（Ｖｔ１、Ｖｔ２、Ｖｔ３、・・・Ｖｔｎ）と、複数のベクトル（Ｖｓｂ８０－１、Ｖｓｂ８０－２、Ｖｓｂ８０－３、・・・Ｖｓｂ８０－ｎ）との類似度を比較して、類似する代替遺伝子ベクターのベクトルを特定する。情報処理装置は、目的ゲノムのベクトルと、サブゲノムのベクトルと、類似する代替遺伝子ベクターのベクトルとを対応付けて、代替管理テーブル８５に登録する。

上記のように、本実施例に係る情報処理装置は、目的ゲノムのベクトルと、各サブゲノムのベクトルとの関係を定義した学習データ６５を基にして、学習モデル７０の学習を実行しておく。情報処理装置は、学習済みの学習モデル７０に分析クエリのベクトルを入力することで、分析クエリの目的ゲノムに対応する各サブゲノムのベクトルを算出する。学習モデル７０から出力される各サブゲノムのベクトルを用いることで、目的ゲノムに含まれるサブゲノムに類似する遺伝子ベクターであって、代替可能な遺伝子ベクターを検出することを容易に実行することができる。

次に、本実施例１に係る情報処理装置の構成の一例について説明する。図７は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図７に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。

記憶部１４０は、塩基ファイル５０、変換テーブル５１、辞書テーブル５２、圧縮ファイルテーブル５３、ベクトルテーブル５４、転置インデックステーブル５５を有する。また、記憶部１４０は、サブゲノムテーブルＴ１、代替遺伝子ベクターテーブルＴ２、ゲノム辞書Ｄ２、学習データ６５、学習モデル７０、分析クエリ８０、代替管理テーブル８５を有する。記憶部１４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

塩基ファイル５０は、複数の塩基が配列された情報を保持するファイルである。図８は、塩基ファイルのデータ構造の一例を示す図である。図８に示すように、塩基ファイル５０は、４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。

変換テーブル５１は、コドンと、コドンの符号とを対応付けるテーブルである。３つの塩基配列のかたまりは「コドン」と呼ばれる。図９は、変換テーブルのデータ構造の一例を示す図である。図９に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「ＵＵＵ」の符号は「４０ｈ（０１００００００）」となる。「ｈ」は１６進数を示すものである。

辞書テーブル５２は、各種の辞書を保持するテーブルである。図１０は、辞書テーブルのデータ構造の一例を示す図である。図１０に示すように、この辞書テーブル５２は、タンパク質一次構造辞書Ｄ１－１、二次構造辞書Ｄ１－２、三次構造辞書Ｄ１－３、高次構造辞書Ｄ１－４を有する。

タンパク質一次構造辞書Ｄ１－１は、タンパク質の圧縮符号とタンパク質を構成するコドンの配列との関係を定義する辞書データである。図１１は、タンパク質一次構造辞書のデータ構造の一例を示す図である。図１１に示すように、タンパク質一次構造辞書Ｄ１－１は、圧縮符号と、名称と、コドン符号配列とを対応付ける。圧縮符号は、コドンの圧縮符号配列（またはアミノ酸の記号配列）である。名称は、タンパク質の名称である。コドン符号配列は、コドンの圧縮符号の配列である。なお、コドン符号配列の代わりに、アミノ酸の記号の配列を、タンパク質一次構造の圧縮符号と対応付けてもよい。

たとえば、タンパク質一次構造「１型コラーゲン」には、圧縮符号「Ｃ０００８０００ｈ」が割り当てられる。圧縮符号「Ｃ０００８０００ｈ」に対応するコドン符号配列は「02h63h78h・・・03h」となる。

二次構造辞書Ｄ１－２は、タンパク質一次構造の圧縮符号の配列と、二次構造の圧縮符号との関係を定義する辞書データである。図１２は、二次構造辞書のデータ構造の一例を示す図である。図１２に示すように、二次構造辞書Ｄ１－２は、圧縮符号と、名称と、タンパク質一次構造符号配列とを対応付ける。圧縮符号は、タンパク質の二次構造に割り当てられた圧縮符号である。名称は、二次構造の名称である。タンパク質一次構造符号配列は、二次構造に対応するタンパク質一次構造の圧縮符号の配列である。

たとえば、二次構造「α二次構造」には、圧縮符号「Ｄ０００００００ｈ」が割り当てられる。圧縮符号「Ｄ０００００００ｈ」に対応するタンパク質一次構造符号配列は「Ｃ０００８００１ｈＣ００・・・」となる。

三次構造辞書Ｄ１－３は、二次構造の圧縮符号の配列と、三次構造の圧縮符号との関係を定義する辞書データである。図１３は、三次構造辞書のデータ構造の一例を示す図である。図１３に示すように、三次構造辞書Ｄ１－３は、圧縮符号と、名称と、二次構造符号配列とを対応付ける。圧縮符号は、三次構造に割り当てられた圧縮符号である。名称は、三次構造の名称である。二次構造符号配列は、三次構造に対応する二次構造の圧縮符号の配列である。

たとえば、三次構造「αα三次構造」には、圧縮符号「Ｅ０００００００ｈ」が割り当てられる。圧縮符号「Ｅ０００００００ｈ」に対応する二次構造符号配列は「Ｄ０００８０３１ｈＤ００・・・」となる。

高次構造辞書Ｄ１－４は、三次構造の圧縮符号の配列と、高次構造の圧縮符号との関係を定義する辞書データである。図１４は、高次構造辞書のデータ構造の一例を示す図である。図１４に示すように、高次構造辞書Ｄ１－４は、圧縮符号と、名称と、三次構造符号配列とを対応付ける。圧縮符号は、高次構造に割り当てられた圧縮符号である。名称は、高次構造の名称である。三次構造符号配列は、高次構造に対応する三次構造の圧縮符号の配列である。

たとえば、高次構造「ααα高次構造」には、圧縮符号「Ｆ０００００００ｈ」が割り当てられる。圧縮符号「Ｆ０００００００ｈ」に対応する三次構造符号配列は「Ｅ０００００３１ｈＥ００・・・」となる。

図７の説明に戻る。圧縮ファイルテーブル５３は、各種の圧縮ファイルを保持するテーブルである。図１５は、圧縮ファイルテーブルのデータ構造の一例を示す図である。図１５に示すように、この圧縮ファイルテーブル５３は、コドン圧縮ファイル５３Ａ、タンパク質一次構造圧縮ファイル５３Ｂ、二次構造圧縮ファイル５３Ｃ、三次構造圧縮ファイル５３Ｄ、高次構造圧縮ファイル５３Ｅを有する。

コドン圧縮ファイル５３Ａは、塩基ファイル５０に含まれる塩基を、コドンの単位で圧縮したファイルである。

タンパク質一次構造圧縮ファイル５３Ｂは、コドン圧縮ファイル５３Ａに含まれるコドンの圧縮符号の配列を、タンパク質一次構造の単位で符号化したファイルである。

二次構造圧縮ファイル５３Ｃは、タンパク質一次構造圧縮ファイル５３Ｂに含まれるタンパク質一次構造の圧縮符号の配列を、二次構造の単位で符号化したファイルである。

三次構造圧縮ファイル５３Ｄは、二次構造圧縮ファイル５３Ｃに含まれる二次構造の圧縮符号の配列を、三次構造の単位で符号化したファイルである。

高次構造圧縮ファイル５３Ｅは、三次構造圧縮ファイル５３Ｄに含まれる三次構造の圧縮符号の配列を、高次構造の単位で符号化したファイルである。

ベクトルテーブル５４は、タンパク質一次構造、二次構造、三次構造、高次構造に対応するベクトルを保持するテーブルである。図１６は、ベクトルテーブルのデータ構造の一例を示す図である。図１６に示すように、このベクトルテーブル５４は、タンパク質一次構造ベクトルテーブルＶＴ１－１、二次構造ベクトルテーブルＶＴ１－２、三次構造ベクトルテーブルＶＴ１－３、高次構造ベクトルテーブルＶＴ１－４を有する。

タンパク質一次構造ベクトルテーブルＶＴ１－１は、タンパク質一次構造に対応するベクトルを保持するテーブルである。図１７は、タンパク質一次構造ベクトルテーブルのデータ構造の一例を示す図である。図１７に示すように、タンパク質一次構造ベクトルテーブルＶＴ１－１は、タンパク質一次構造の圧縮符号と、このタンパク質一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。タンパク質一次構造のベクトルは、ポアンカレエンベッディングにより算出される。ポアンカレエンベッディングについては、後述する。

二次構造ベクトルテーブルＶＴ１－２は、二次構造に対応するベクトルを保持するテーブルである。図１８は、二次構造ベクトルテーブルのデータ構造の一例を示す図である。図１８に示すように、二次構造ベクトルテーブルＶＴ１－２は、二次構造の圧縮符号と、この二次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。二次構造のベクトルは、二次構造に含まれるタンパク質一次構造のベクトルを積算することにより算出される。

三次構造ベクトルテーブルＶＴ１－３は、三次構造に対応するベクトルを保持するテーブルである。図１９は、三次構造ベクトルテーブルのデータ構造の一例を示す図である。図１９に示すように、三次構造ベクトルテーブルＶＴ１－３は、三次構造の圧縮符号と、この三次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。三次構造のベクトルは、三次構造に含まれる二次構造のベクトルを積算することにより算出される。

高次構造ベクトルテーブルＶＴ１－４は、高次構造に対応するベクトルを保持するテーブルである。図２０は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図２０に示すように、高次構造ベクトルテーブルＶＴ１－４は、高次構造の圧縮符号と、この高次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。高次構造のベクトルは、高次構造に含まれる三次構造のベクトルを積算することにより算出される。

図７の説明に戻る。転置インデックステーブル５５は、各種の転置インデックスを保持するテーブルである。図２１は、転置インデックステーブルのデータ構造の一例を示す図である。図２１に示すように、転置インデックステーブル５５は、タンパク質一次構造転置インデックスＩｎ１－１、二次構造転置インデックスＩｎ１－２、三次構造転置インデックスＩｎ１－３、高次構造転置インデックスＩｎ１－４を有する。

図２２は、タンパク質一次構造転置インデックスのデータ構造の一例を示す図である。タンパク質一次構造転置インデックスＩｎ１－１の横軸は、オフセットに対応する軸である。タンパク質一次構造転置インデックスＩｎ１－１の縦軸は、タンパク質一次構造の圧縮符号に対応する軸である。タンパク質一次構造転置インデックスＩｎ１－１は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、タンパク質一次構造圧縮ファイル５３Ｂの先頭のタンパク質一次構造の圧縮符号のオフセットを「０」とする。タンパク質一次構造圧縮ファイル５３Ｂの先頭から８番目の位置に、タンパク質一次構造の符号「Ｃ０００８０００ｈ（一型コラーゲン）」が含まれる場合、タンパク質転置インデックスＩｎ１－１のオフセット「７」の列と、タンパク質の符号「Ｃ０００８０００ｈ（一型コラーゲン）」の行とが交差する位置のビットが「１」となる。

図２３は、二次構造転置インデックスのデータ構造の一例を示す図である。二次構造転置インデックスＩｎ１－２の横軸は、オフセットに対応する軸である。二次構造転置インデックスＩｎ１－２の縦軸は、二次構造の圧縮符号に対応する軸である。二次構造転置インデックスＩｎ１－２は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、二次構造圧縮ファイル５３Ｃの先頭の二次構造の圧縮符号のオフセットを「０」とする。二次構造圧縮ファイル５３Ｃの先頭から８番目の位置に、二次構造の符号「Ｄ００００００ｈ（α二次構造）」が含まれる場合、二次構造転置インデックスＩｎ１－２のオフセット「７」の列と、二次構造の圧縮符号「Ｄ０００００００ｈ（α二次構造）」の行とが交差する位置のビットが「１」となる。

図２４は、三次構造転置インデックスのデータ構造の一例を示す図である。三次構造転置インデックスＩｎ１－３の横軸は、オフセットに対応する軸である。三次構造転置インデックスＩｎ１－３の縦軸は、三次構造の圧縮符号に対応する軸である。三次構造転置インデックスＩｎ１－３は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、三次構造圧縮ファイル５３Ｄの先頭の三次構造の圧縮符号のオフセットを「０」とする。三次構造圧縮ファイル５３Ｄの先頭から１１番目の位置に、三次構造の符号「Ｅ０００００００ｈ（αα三次構造）」が含まれる場合、三次構造転置インデックスＩｎ１－３のオフセット「１０」の列と、三次構造の圧縮符号「Ｅ０００００００ｈ（αα三次構造）」の行とが交差する位置のビットが「１」となる。

図２５は、高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスＩｎ１－４の横軸は、オフセットに対応する軸である。高次構造転置インデックスＩｎ１－４の縦軸は、高次構造の圧縮符号に対応する軸である。高次構造転置インデックスＩｎ１－４は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

たとえば、高次構造圧縮ファイル５３Ｅの先頭の高次構造の圧縮符号のオフセットを「０」とする。高次構造圧縮ファイル５３Ｅの先頭から１１番目の位置に、高次構造の符号「Ｆ０００００００ｈ（ααα高次構造）」が含まれる場合、高次構造転置インデックスＩｎ１－４のオフセット「１０」の列と、高次構造の圧縮符号「Ｆ０００００００ｈ（ααα高次構造）」の行とが交差する位置のビットが「１」となる。

図７の説明に戻る。代替遺伝子ベクターテーブルＴ２は、複数の遺伝子ベクターのベクトルを保持する。遺伝子ベクターは、タンパク質の二次構造に対応する。たとえば、代替遺伝子ベクターテーブルＴ２に格納するベクトルは、二次元構造ベクトルテーブルＶＴ１－２に登録されたベクトルであってもよい。代替遺伝子ベクターテーブルＴ２のデータ構造は、図６で説明したように、複数の代替遺伝子ベクターのベクトルが格納される。

ゲノム辞書Ｄ２は、目的ゲノムの名称と、この目的ゲノムに含まれるサブゲノムの名称との関係を定義する。図２６は、ゲノム辞書のデータ構造の一例を示す図である。図２６に示すように、このゲノム辞書Ｄ２は、目的ベクターの名称と、複数のサブゲノムの名称とを対応付ける。

学習データ６５は、目的ゲノムのベクトルと、この目的ゲノムに含まれる複数のサブゲノムのベクトルとの関係を定義する。学習データ６５のデータ構造は、図５で説明した学習データのデータ構造に対応する。

学習モデル７０は、ＣＮＮやＲＮＮ等に対応するモデルであり、パラメータが設定される。

分析クエリ８０は、分析対象となる目的ゲノム（治療薬）の情報を含む。たとえば、目的ゲノムの情報には、高次構造に対応する塩基配列の情報が含まれる。

代替管理テーブル８５は、目的ゲノムに含まれるサブゲノムのベクトルと、このサブゲノムに類似する遺伝子ベクターであって、代替可能な遺伝子ベクターのベクトルとを対応付けて保持するテーブルである。

制御部１５０は、前処理部１５１、学習部１５２、算出部１５３、分析部１５４を有する。制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実行されてもよい。

前処理部１５１は、下記の各種の処理を実行することで、目的ゲノム（治療薬）に相当する高次構造、または三次構造のベクトルと、サブゲノムに相当する二次構造のベクトル等を算出する。

まず、前処理部１５１は、コドン圧縮ファイル５３Ａを生成する処理、タンパク質一次構造圧縮ファイル５３Ｂを生成する処理、タンパク質一次構造ベクトルテーブルＶＴ１－１、タンパク質一次構造転置インデックスＩｎ１－１を生成する処理を実行する。

前処理部１５１は、塩基ファイル５０と、変換テーブル５１とを比較して、塩基ファイル５０の塩基配列を、コドンの単位で圧縮符号を割り当て、コドン圧縮ファイル５３Ａを生成する。

前処理部１５１は、コドン圧縮ファイル５３Ａと、タンパク質一次構造辞書Ｄ１－１とを比較して、コドン圧縮ファイル５３Ａに含まれるコドンの圧縮符号の配列を、タンパク質一次構造の単位で圧縮符号を割り当て、タンパク質圧縮ファイル５３Ｂを生成する。

前処理部１５１は、タンパク質一次構造圧縮ファイル５３Ｂを生成すると、タンパク質一次構造の圧縮符号を、ポアンカレ空間に埋め込むことで、タンパク質一次構造（タンパク質一次構造の圧縮符号）のベクトルを算出する。ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング（Poincare Embeddings）と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。

ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、類似の特徴を有する各基は、ポアンカレ空間において、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。図示を省略するが、前処理部１５１は、類似するタンパク質一次構造同士を定義したタンパク質一次構造類似テーブルを参照して、各タンパク質一次構造の圧縮符号をポアンカレ空間に埋め込み、各タンパク質一次構造の圧縮符号のベクトルを算出する。前処理部１５１は、タンパク質辞書一次構造Ｄ１－１に定義された各タンパク質一次構造の圧縮符号に対して、ポアンカレエンベッディングを事前に実行しておいてもよい。

前処理部１５１は、タンパク質一次構造（タンパク質一次構造の圧縮符号）と、タンパク質一次構造のベクトルとを対応付けることで、タンパク質一次構造ベクトルテーブルＶＴ１－１を生成する。前処理部１５１は、タンパク質一次構造のベクトルと、タンパク質一次構造圧縮ファイル５３Ｂにおけるタンパク質一次構造（タンパク質一次構造の圧縮符号）の位置との関係を基にして、タンパク質一次構造転置インデックスＩｎ１－１を生成する。

続いて、前処理部１５１は、二次構造圧縮ファイル５３Ｃを生成する処理、二次構造ベクトルテーブルＶＴ１－２、二次構造転置インデックスＩｎ１－２を生成する処理を実行する。

前処理部１５１は、タンパク質一次構造圧縮ファイル５３Ｂと、二次構造辞書Ｄ１－２とを比較して、タンパク質一次構造圧縮ファイル５３Ｂに含まれるタンパク質一次構造の圧縮符号の配列を、二次構造の単位で圧縮符号を割り当て、二次構造圧縮ファイル５３Ｃを生成する。

前処理部１５１は、二次構造辞書Ｄ１－２を参照して、二次構造の圧縮符号に対応するタンパク質一次構造符号配列（タンパク質一次構造の圧縮符号の配列）を特定する。前処理部１５１は、特定した各タンパク質一次構造の圧縮符号のベクトルを、タンパク質一次構造ベクトルテーブルＶＴ１－１から取得し、取得した各ベクトルを加算することで、二次構造の圧縮符号のベクトルを算出する。前処理部１５１は、上記処理を繰り返し実行することで、各二次構造のベクトルを算出する。

前処理部１５１は、二次構造（二次構造の圧縮符号）と、二次構造のベクトルとを対応付けることで、二次構造ベクトルテーブルＶＴ１－２を生成する。前処理部１５１は、二次構造のベクトルと、二次構造圧縮ファイル５３Ｃにおける二次構造（二次構造の圧縮符号）の位置との関係を基にして、二次構造転置インデックスＩｎ１－２を生成する。

続いて、前処理部１５１は、三次構造圧縮ファイル５３Ｄを生成する処理、三次構造ベクトルテーブルＶＴ１－３、三次構造転置インデックスＩｎ１－３を生成する処理を実行する。

前処理部１５１は、二次構造圧縮ファイル５３Ｃと、三次構造辞書Ｄ１－３とを比較して、二次構造圧縮ファイル５３Ｃに含まれる二次構造の圧縮符号の配列を、三次構造の単位で圧縮符号を割り当て、三次構造圧縮ファイル５３Ｄを生成する。

前処理部１５１は、三次構造辞書Ｄ１－３を参照して、三次構造の圧縮符号に対応する二次構造符号配列（二次構造の圧縮符号の配列）を特定する。前処理部１５１は、特定した各二次構造の圧縮符号のベクトルを、二次構造ベクトルテーブルＶＴ１－２から取得し、取得した各ベクトルを加算することで、三次構造の圧縮符号のベクトルを算出する。前処理部１５１は、上記処理を繰り返し実行することで、各三次構造のベクトルを算出する。

前処理部１５１は、三次構造（三次構造の圧縮符号）と、三次構造のベクトルとを対応付けることで、三次構造ベクトルテーブルＶＴ１－３を生成する。前処理部１５１は、三次構造のベクトルと、三次構造圧縮ファイル５３Ｄにおける三次構造（三次構造の圧縮符号）の位置との関係を基にして、三次構造転置インデックスＩｎ１－３を生成する。

続いて、前処理部１５１は、高次構造圧縮ファイル５３Ｅを生成する処理、高次構造ベクトルテーブルＶＴ１－４、高次構造転置インデックスＩｎ１－４を生成する処理を実行する。

前処理部１５１は、三次構造圧縮ファイル５３Ｄと、高次構造辞書Ｄ１－４とを比較して、三次構造圧縮ファイル５３Ｄに含まれる三次構造の圧縮符号の配列を、高次構造の単位で圧縮符号を割り当て、高次構造圧縮ファイル５３Ｅを生成する。

前処理部１５１は、高次構造辞書Ｄ１－４を参照して、高次構造の圧縮符号に対応する三次構造符号配列（三次構造の圧縮符号の配列）を特定する。前処理部１５１は、特定した各三次構造の圧縮符号のベクトルを、三次構造ベクトルテーブルＶＴ１－３から取得し、取得した各ベクトルを加算することで、高次構造の圧縮符号のベクトルを算出する。前処理部１５１は、上記処理を繰り返し実行することで、各高次構造のベクトルを算出する。

前処理部１５１は、高次構造（高次構造の圧縮符号）と、高次構造のベクトルとを対応付けることで、高次構造ベクトルテーブルＶＴ１－４を生成する。前処理部１５１は、高次構造のベクトルと、高次構造圧縮ファイル５３Ｅにおける高次構造（高次構造の圧縮符号）の位置との関係を基にして、高次構造転置インデックスＩｎ１－４を生成する。

前処理部１５１が、代替遺伝子ベクターテーブルＴ２を生成する処理の一例について説明する。たとえば、前処理部１５１は、二次構造ベクトルテーブルＶＴ１－２に含まれる三次構造のベクトルを、そのまま、代替遺伝子ベクターテーブルＴ２に設定する。なお、前処理部１５１は、入力部１２０を介してベクトルの指定を受け付けた場合には、指定されたベクトルを、代替遺伝子ゲノムテーブルＴ２に設定してもよい。

前処理部１５１が、学習データ６５を生成する処理の一例について説明する。前処理部１５１は、ゲノム辞書Ｄ２を基にして、目的ゲノムの名称と、サブゲノムの名称との関係を特定する。前処理部１５１は、高次構造辞書Ｄ１－４と高次構造ベクトルテーブルＶＴ１－４、または、三次構造辞書Ｄ１－４と三次構造ベクトルテーブルＶＴ１－３、および目的ゲノムの名称とを基にして、目的ゲノムのベクトルを特定する。前処理部１５１は、二次構造辞書Ｄ１－２および二次構造ベクトルテーブルＶＴ１－２と、サブゲノムの名称とを基にして、サブゲノムのベクトルを特定する。前処理部１５１は、かかる処理によって、目的ゲノムと、サブゲノムとの関係を特定し、学習データ６５に登録する。

前処理部１５１は、上記処理を繰り返し実行することで、学習データ６５を生成する。なお、情報処理装置１００は、外部装置等から、作成済みの学習データ６５を取得して利用してもよい。

図７の説明に戻る。学習部１５２は、学習データ６５を用いて、学習モデル７０の学習を実行する。学習部１５２の処理は、図５で説明した処理に対応する。学習部１５２は、学習データ６５から、目的ゲノム（治療薬）のベクトルと、この目的ゲノムのベクトルに対応する各サブゲノムのベクトルとの組を取得する。学習部１５２は、目的ゲノムのベクトルを、学習モデル７０に入力した場合の、学習モデル７０の出力の値が、各サブゲノムのベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル７０のパラメータを調整する。

学習部１５２は、学習データ６５の目的ゲノムのベクトルと、各サブゲノムのベクトルとの組について、上記処理を繰り返し実行することで、学習モデル７０の学習を実行する。

算出部１５３は、分析クエリ８０の指定を受け付けた場合に、学習済みの学習モデル７０を用いて、分析クエリ８０の目的ゲノムに含まれる各サブゲノムのベクトルを算出する。算出部１５３の処理は、図６で説明した処理に対応する。算出部１５３は、分析クエリ８０を、入力部１２０から受付けてもよいし、通信部１１０を介して、外部装置から受付けてもよい。

算出部１５３は、分析クエリ８０に含まれる目的ゲノムの塩基配列を取得する。算出部１５３は、目的ゲノムの塩基配列と、変換テーブル５１とを比較して、目的ゲノムの塩基配列に含まれるコドンを特定し、コドンの単位で、目的ゲノムの塩基配列をそれぞれ圧縮符号に変換する。また、算出部１５３は、コドンの単位で圧縮したコドン符号配列と、タンパク質一次構造辞書Ｄ１－１とを比較して、タンパク質一次構造の単位で、コドン符号配列をそれぞれ圧縮符号に変換する。

算出部１５３は、変換した各タンパク質一次構造の圧縮符号と、タンパク質一次構造ベクトルテーブルＶＴ１－１とを比較して、各タンパク質一次構造の圧縮符号のベクトルを特定する。算出部１５３は、特定した各タンパク質一次構造の圧縮符号のベクトルを積算することで、分析クエリ８０に含まれる目的ゲノムに対応するベクトルＶｏｂ８０を算出する。

なお、目的ゲノムが、複数のサブゲノムの二次構造によって指定されている場合には、算出部１５３は、次の処理を実行する。算出部１５３は、目的ゲノムのサブゲノムの各二次構造と、二次構造辞書Ｄ１－２および二次構造ベクトルテーブルＶＴ１－２とを比較して、目的ゲノムに含まれるサブゲノムの二次構造のベクトルを特定する。算出部１５３は、特定したサブゲノムの二次構造のベクトルを積算することで、目的ゲノムのベクトルを算出する。

算出部１５３は、ベクトルＶｏｂ８０を、学習モデル７０に入力することで、各サブゲノムに対応する複数のベクトルを算出する。算出部１５３は、算出した各サブゲノムのベクトルを、分析部１５４に出力する。以下の説明では、算出部１５３が算出した各サブゲノムのベクトルを、それぞれ「分析ベクトル」と表記する。算出部１５３は、各サブゲノムのベクトル（分析ベクトル）は、サブゲノムテーブルＴ１に格納する。

分析部１５４は、分析ベクトルを基にして、分析ベクトルに類似するベクトルを有する代替遺伝子ベクターの情報を検索する。分析部１５４は、検索結果を基にして、目的ゲノムに含まれる各サブゲノムのベクトルと類似した各代替遺伝子ベクターのベクトル（以下に示す類似ベクトル）とを対応付けて、代替管理テーブル８５に登録する。

たとえば、分析部１５４は、分析ベクトルと、代替遺伝子ベクターテーブルＴ２に含まれる各ベクトルとの距離をそれぞれ算出し、分析ベクトルとの距離が閾値未満となるベクトルを特定する。代替遺伝子ベクターテーブルＴ２に含まれるベクトルであって、分析ベクトルとの距離が閾値未満となるベクトルが「類似ベクトル」となる。この類似ベクトルに対応する遺伝子ベクターが、代替可能な遺伝子ベクターとなる。

分析部１５４は、二次構造ベクトルテーブルＶＴ１－２を基にして、類似ベクトルに対応する遺伝子ベクターの圧縮符号を特定し、特定した遺伝子ベクターの圧縮符号、二次構造辞書Ｄ１－２、タンパク質一次構造辞書Ｄ１－１を基にして遺伝子ベクターに含まれるタンパク質一次構造を特定してもよい。分析部１５４は、かかる処理を実行することで、類似ベクトルに対応する代替可能な遺伝子ベクターの特徴を検索し、代替管理テーブル８５に登録する。代替可能な遺伝子ベクターの特徴は、遺伝子ベクターに含まれるタンパク質、タンパク質の一次構造となる。

分析部１５４は、各分析ベクトルについて、上記処理を繰り返し実行することで、分析ベクトル毎に、類似ベクトルに対応する遺伝子ベクターの特徴を検索し、代替管理テーブル８５に登録してもよい。分析部１５４は、代替管理テーブル８５を、表示部１３０に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図２７は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。図２７に示すように、情報処理装置１００の前処理部１５１は、ポアンカレエンベッディングを実行することで、各タンパク質の圧縮符号のベクトルを算出する（ステップＳ１０１）。

前処理部１５１は、塩基ファイル５０、変換テーブル５１、辞書テーブル５２を基にして、圧縮ファイルテーブル５３、ベクトルテーブル５４、転置インデックステーブル５５を生成する（ステップＳ１０２）。

前処理部１５１は、学習データ６５を生成する（ステップＳ１０３）。情報処理装置１００の学習部１５２は、学習データ６５を基にして、学習モデル７０の学習を実行する（ステップＳ１０４）。

図２８は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。情報処理装置１００の算出部１５３は、分析クエリ８０を受け付ける（ステップＳ２０１）。算出部１５３は、分析クエリ８０（目的ゲノム）のベクトルを算出する（ステップＳ２０２）。

算出部１５３は、算出した分析クエリ８０のベクトルを、学習済みの学習モデル７０に入力することで、各サブゲノムのベクトルを算出する（ステップＳ２０３）。情報処理装置１００の分析部１５４は、各サブゲノムのベクトルと代替遺伝子ベクターテーブルＴ２のベクトルとを比較する（ステップＳ２０４）。

分析部１５４は、各サブゲノムに対応する代替可能な遺伝子ベクターを検索する（ステップＳ２０５）。分析部１５４は、検索結果を、代替管理テーブル８５に登録する（ステップＳ２０６）。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、学習フェーズで、目的ゲノム（治療薬）のベクトルと、サブゲノムのベクトルとの関係を定義した学習データ６５を基にして、学習モデル７０の学習を実行しておく。情報処理装置１００は、分析フェーズで、学習済みの学習モデル７０に分析クエリのベクトルを入力することで、分析クエリ（目的ゲノム）に対応する各サブゲノムのベクトルを算出する。学習モデル７０から出力される各サブゲノムのベクトルを用いることで、目的ゲノムに含まれるサブゲノムに類似する代替可能な遺伝子ベクターを検出することを容易に実行することができる。

たとえば、目的ゲノムに含まれるサブゲノムが、稀少なサブゲノムである場合には、情報処理装置１００の処理を実行することで、かかるサブゲノムの代わりとなる安価な遺伝子ベクターを容易に探索することができる。

ところで、上述した実施例では、サブゲノム（二次構造）の粒度で比較を行い、代替可能な遺伝子ベクターを探索していたが、これに限定されるものではない。たとえば、情報処理装置１００は、サブゲノムを構成する複数の一次構造の粒度で比較を行い、代替可能な一次構造を探索してもよい。

続いて、実施例２について説明する。図２９は、本実施例２に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図２９に示すように、情報処理装置は、学習データ９０を用いて、学習モデル９１の学習を実行する。学習モデル９１は、ＣＮＮやＲＮＮ等に対応する。

学習データ９０は、目的ゲノム（治療薬）を合成する複数のサブゲノムのベクトルと、遺伝子ベクターを基に遺伝子組み換えで保持される共通構造のベクトルとの関係を定義する。たとえば、サブゲノムのベクトルが、入力データに対応し、複数の共通構造のベクトルが正解値となる。

情報処理装置は、サブゲノムのベクトルを学習モデル９１に入力した際の出力が、各共通構造のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ９０に含まれるサブゲノムのベクトルと、共通構造のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル９１のパラメータを調整する（機械学習を実行する）。

図３０は、本実施例２に係る情報処理装置の処理を説明するための図である。実施例２に係る情報処理装置は、実施例１の情報処理装置１００と同様にして、学習モデル９０を学習しておいてもよい。また、情報処理装置は、図２９で説明したように、学習モデル７０とは別の、学習モデル９１を学習する。学習モデル９１は、分析クエリ（サブゲノム）９２のベクトルが入力された場合に、共通構造のベクトルを出力する。

情報処理装置は、サブゲノムを指定した分析クエリ９２を受け付けると、サブゲノムベクトルテーブルＴ１を用いて、分析クエリ９２のサブゲノムをベクトルＶｓｂ９２－１に変換する。情報処理装置は、サブゲノムのベクトルＶｓｂ９２－１を、学習モデル９１に入力することで、共通構造に対応するベクトルＶｃｍ９２－１を算出する。

ここで、情報処理装置は、サブゲノムのベクトルＶｓｂ９２－１と、代替遺伝子ベクターテーブルＴ２に含まれる複数の遺伝子ベクターのベクトルとを比較する。代替遺伝子ベクターベクトルテーブルＴ２は、実施例１で説明した代替遺伝子ベクターベクトルテーブルＴ２に対応する。

情報処理装置は、サブゲノムのベクトルＶｓｂ９２－１について、類似する遺伝子ベクターのベクトルを特定する。たとえば、サブゲノムのベクトルＶｓｂ９２－１と類似する遺伝子ベクターのベクトルをＶｔ９２－１とする。そうすると、ベクトルＶｓｂ９２－１のサブゲノムと、ベクトルＶｔ９２－１の遺伝子ベクターとで共通する共通構造のベクトルが、学習モデル９１から出力されるベクトルＶｃｍ９２－１となることがわかる。また、遺伝子ベクターのベクトルＶｔ９２－１から、共通構造のベクトルＶｃｍ９２－１を減算した結果が、類似する遺伝子ベクターとサブゲノムとで相違する「遺伝子組換構造」のベクトルとなる。

情報処理装置は、共通構造のベクトルと、遺伝子組換構造とのベクトルとの関係を、共通構造・遺伝子組換構造テーブル９３に登録する。情報処理装置は、各サブゲノムのベクトルについて、上記処理を繰り返し実行することで、共通構造・遺伝子組換構造テーブル９３を生成する。

上記のように、本実施例２に係る情報処理装置は、学習済みの学習モデル９１に分析クエリ９２のベクトルを入力し、分析クエリのサブゲノムに対応する各共通構造のベクトルを算出する。また、サブゲノムに類似する遺伝子ベクターの各ベクトルから、共通構造のベクトルを減算することで、類似するサブゲノムと、遺伝子ベクターとで相違する遺伝子組換構造のベクトルを算出する。上記の共通構造のベクトルや、遺伝子組換構造のベクトルを用いることで、目的ゲノムの合成や製造に使用可能なより良い遺伝子ベクターを容易に分析することができる。

次に、本実施例２に係る情報処理装置の構成の一例について説明する。図３１は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３１に示すように、この情報処理装置２００は、通信部２１０、入力部２２０、表示部２３０、記憶部２４０、制御部２５０を有する。

通信部２１０、入力部２２０、表示部２３０に関する説明は、実施例１で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

記憶部２４０は、塩基ファイル５０、変換テーブル５１、辞書テーブル５２、圧縮ファイルテーブル５３、ベクトルテーブル５４、転置インデックステーブル５５を有する。また、記憶部２４０は、サブゲノムテーブルＴ１、代替遺伝子ベクターテーブルＴ２、ゲノム辞書Ｄ２、学習データ９０、学習モデル９１、分析クエリ９２、共通構造・遺伝子組換構造テーブル９３を有する。記憶部２４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

塩基ファイル５０、変換テーブル５１、辞書テーブル５２、圧縮ファイルテーブル５３、ベクトルテーブル５４、転置インデックステーブル５５、サブゲノムテーブルＴ１、代替遺伝子ベクターテーブルＴ２、ゲノム辞書Ｄ２に関する説明は、実施例１で説明した内容と同様である。学習データ９０は、図２９で説明した内容と同様である。学習モデル９１、分析クエリ９２に関する説明は、図３０で説明した内容と同様である。

共通構造・遺伝子組換構造テーブル９３は、図３０で説明したように、共通構造ベクトルに類似した遺伝子ベクターからサブゲノムに遺伝子組み換えするための遺伝子組換構造ベクトルの情報が含まれる。図３０では、たとえば、共通構造・遺伝子組換構造テーブル９３には、Ｖｃｍ９２－１に対応した遺伝子組換構造ベクトルが含まれる。共通構造のベクトルと、遺伝子組換構造のベクトルとを積算したベクトルが、遺伝子ベクターのベクトルに対応するベクトルとなる。

図３１に説明に戻る。制御部２５０は、前処理部２５１、学習部２５２、算出部２５３、分析部２５４を有する。制御部２５０は、例えば、ＣＰＵやＭＰＵにより実現される。また、制御部２５０は、例えばＡＳＩＣやＦＰＧＡ等の集積回路により実行されてもよい。

前処理部２５１に関する説明は、実施例１で説明した前処理部１５１に関する処理の説明と同様である。前処理部２５１によって、塩基ファイル５０、変換テーブル５１、辞書テーブル５２、圧縮ファイルテーブル５３、ベクトルテーブル５４、転置インデックステーブル５５、サブゲノムテーブルＴ１、代替遺伝子ベクターテーブルＴ２が生成される。前処理部２５１は、学習データ９０を、外部装置から取得してもよいし、前処理部２５１が生成してもよい。

算出部２５３は、分析クエリ９２の指定を受け付けた場合に、学習済みの学習モデル９１を用いて、分析クエリ９２のサブゲノムの合成経路で遺伝子組み換えさせる各共通構造のベクトルを算出する。算出部２５３は、算出した各共通構造のベクトルを、分析部２５４に出力する。

以下の説明では、算出部２５３が算出した各共通構造のベクトルを、それぞれ「共通構造ベクトル」と表記する。

分析部２５４は、分析クエリ９２のサブゲノムのベクトルと、共通構造ベクトルと、遺伝子ベクターベクトルテーブルＴ２とを基にして、共通構造・遺伝子組換機構テーブル９３を生成する。以下において、分析部２５４の処理の一例について説明する。

分析部２５４は、サブゲノムのベクトルと、代替遺伝子ベクターテーブルＴ２に含まれる各ベクトルとの距離をそれぞれ算出し、サブゲノムのベクトルとの距離が閾値未満となるベクトルを特定する。代替遺伝子ベクターテーブルＴ２に含まれるベクトルであって、サブゲノムのベクトルとの距離が閾値未満となるベクトルを「類似ベクトル」と表記する。

分析部２５４は、類似ベクトルから、共通構造ベクトルを減算することで、遺伝子組換構造のベクトルを算出し、共通構造ベクトルと、遺伝子組換構造のベクトルとの対応関係を特定する。分析部２５４は、共通構造ベクトルと、遺伝子組換構造のベクトルとを共通構造・遺伝子組換構造テーブル９３に登録する。分析部２４５は、上記処理を繰り返し実行することで、共通構造・遺伝子組換構造テーブル９３を生成する。分析部２４５は、共通構造・遺伝子組換構造テーブル９３を、表示部２３０に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図３２は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置２００の算出部２５３は、分析クエリ９２を受け付ける（ステップＳ３０１）。

算出部２５３は、サブゲノムテーブルＴ１を基にして、分析クエリ９２のサブゲノムをベクトルに変換する（ステップＳ３０２）。

算出部２５３は、サブゲノムのベクトルを、学習済みの学習モデル９１に入力することで、共通構造のベクトルを算出する（ステップＳ３０３）。情報処理装置２００の分析部２５４は、共通構造のベクトルと、代替遺伝子ベクターテーブルＴ２の各ベクトルとの距離を基にして、類似ベクトルを特定する（ステップＳ３０４）。

分析部２５４は、サブゲノムと類似する遺伝子ベクターの各ベクトルから共通構造のベクトルを減算することで、遺伝子組換構造のベクトルを算出する（ステップＳ３０５）。分析部２５４は、共通構造のベクトルと、遺伝子組換構造のベクトルとの関係を、共通構造・遺伝子組換構造テーブル９３に登録する（ステップＳ３０６）。分析部２５４は、共通構造・遺伝子組換構造テーブルの情報を出力する（ステップＳ３０７）。

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置１００は、学習済みの学習モデル９１に分析クエリ９２のベクトルを入力し、分析クエリのサブゲノムに対応する各共通構造のベクトルを算出する。また、サブゲノムに類似する遺伝子ベクターのベクトルから各、共通構造のベクトルを減算することで、類似するサブゲノムと、遺伝子ベクターとで相違する遺伝子組換構造のベクトルを算出する。上記の共通構造のベクトルや、遺伝子組換構造のベクトルを用いることで、目的ゲノムへの遺伝子組換や再合成や製造に活用可能な、より良い遺伝子ベクターを容易に分析することができる。

サブゲノムと遺伝子ベクターは、複数のタンパク質一次構造で構成される二次構造である。また、タンパク質一次構造の分散ベクトルを用いることで、あるタンパク質一次構造に隣接するタンパク質一次構造を推定することができ、各タンパク質一次構造の結合度や安定性の評価に応用することができる。実績のあるサブゲノムへ遺伝子ベクターからの遺伝子組み換えに関し、サブゲノムや遺伝子ベクターの二次構造を構成する複数のタンパク質次構造の分散ベクトルをもとに、機械学習を行うことで、遺伝子ベクターからの流用と、遺伝子組み換えと、再合成の分析精度を向上することができる。

次に、上記実施例に示した情報処理装置１００（２００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図９に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

ハードディスク装置３０７は、前処理プログラム３０７ａ、学習プログラム３０７ｂ、算出プログラム３０７ｃ、分析プログラム３０７ｄを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｄを読み出してＲＡＭ３０６に展開する。

前処理プログラム３０７ａは、前処理プロセス３０６ａとして機能する。学習プログラム３０７ｂは、学習プロセス３０６ｂとして機能する。算出プログラム３０７ｃは、算出プロセス３０６ｃとして機能する。分析プログラム３０７ｄは、分析プロセス３０６ｄとして機能する。

前処理プロセス３０６ａの処理は、前処理部１５１，２５１の処理に対応する。学習プロセス３０６ｂの処理は、学習部１５２，２５２の処理に対応する。算出プロセス３０６ｃの処理は、算出部１５３，２５３の処理に対応する。分析プロセス３０６ｄの処理は、分析部１５４の処理に対応する。

なお、各プログラム３０７ａ～３０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｄを読み出して実行するようにしてもよい。

１１０，２１０通信部
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１５０，２５０制御部
１５１，２５１前処理部
１５２，２５２学習部
１５３，２５３算出部
１５４，２５４分析部

Claims

コンピュータに、
ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。
前記算出する処理によって、算出された複数のサブゲノムのベクトルと、代替候補となる複数の代替遺伝子ベクターのベクトルとの類似度合いに基づき、前記サブゲノムと代替可能な代替遺伝子ベクターを検索する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。
前記分析対象のゲノムは、タンパク質の二次構造を複数含み、前記分析対象のゲノムに含まる複数の二次構造のベクトルを積算することで、前記分析対象のゲノムのベクトルを算出する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。
コンピュータに、
ゲノムを製造する際の合成経路に含まれる複数のサブゲノムのベクトルを入力データとし、サブゲノムの構造および遺伝子ベクターの構造のうち共通する構造を示す共通構造のベクトルを正解値とする学習データに基づき、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
分析対象のサブゲノムの入力を受け付けた場合に、前記分析対象のサブゲノムのベクトルを前記学習モデルに入力することで、前記分析対象のサブゲノムに対応する共通構造のベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。
コンピュータが実行する情報処理方法であって、
ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象の遺伝子ベクターに対応する複数のサブベクターのベクトルを算出する
処理を実行することを特徴とする情報処理方法。
コンピュータが実行する情報処理方法であって、
ゲノムを製造する際の合成経路に含まれる複数のサブゲノムのベクトルを入力データとし、サブゲノムの構造および遺伝子ベクターの構造のうち共通する構造を示す共通構造のベクトルを正解値とする学習データに基づき、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行し、
分析対象のサブゲノムを受け付けた場合、前記分析対象のサブゲノムのベクトルを前記学習モデルに入力することで、前記分析対象のサブゲノムに対応する共通構造のベクトルを算出する
処理を実行することを特徴とする情報処理方法。
ゲノムに対応するベクトルを入力データとし、前記ゲノムを構成する複数のサブゲノムにそれぞれ対応するベクトルを正解値とする学習データを基にして、前記入力データを学習モデルに入力した際の出力が前記正解値に近づくように前記学習モデルのパラメータを調整する学習を実行する学習部と、
分析対象のゲノムを受け付けた場合、前記分析対象のゲノムを前記学習モデルに入力することで、前記分析対象のゲノムに対応する複数のサブゲノムのベクトルを算出する算出部と
を有することを特徴とする情報処理装置。