JP7568276B2 - 個体の形質情報を予測するためのシステムまたは方法 - Google Patents
個体の形質情報を予測するためのシステムまたは方法 Download PDFInfo
- Publication number
- JP7568276B2 JP7568276B2 JP2020562540A JP2020562540A JP7568276B2 JP 7568276 B2 JP7568276 B2 JP 7568276B2 JP 2020562540 A JP2020562540 A JP 2020562540A JP 2020562540 A JP2020562540 A JP 2020562540A JP 7568276 B2 JP7568276 B2 JP 7568276B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- genetic
- data
- trait
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Image Analysis (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Description
[項目A1]
個体の形質情報を予測するためのシステムであって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、少なくとも2種類の情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備える、システム。
[項目A2]
前記学習部が、前記複数の個体の遺伝情報を画像化して学習するように構成されている、前記項目に記載のシステム。
[項目A3]
前記学習部が、前記複数の個体の遺伝情報を分割して、部分遺伝情報と形質情報との関連を学習し、複数の部分遺伝情報と形質情報との関連を統合し、前記遺伝情報と形質情報との関連を学習するように構成されている、前記項目のいずれかに記載のシステム。
[項目A4]
前記遺伝情報が、遺伝因子の配列情報(例えば、変異情報)、発現情報、および修飾情報(例えば、メチル化情報)からなる群から選択される、前記項目のいずれかに記載のシステム。
[項目A5]
前記複数の個体の遺伝情報の画像化が、項目Bのいずれかに記載の画像化方法によって行われるように構成されている、前記項目のいずれかに記載のシステム。
[項目A6]
前記学習部が、項目Cのいずれかに記載のデータ構造を有するデータを学習に用いるように構成されている、前記項目のいずれかに記載のシステム。
[項目A7]
学習部が、項目Dのいずれかに記載の方法によって、前記遺伝情報と形質情報との関連を学習するように構成されている、前記項目のいずれかに記載のシステム。
[項目A8]
前記計算部において予測された形質情報から、前記個体の診断および/または個体に対する治療または予防を分析する、分析部と
を備える、前記項目のいずれかに記載のシステム。
[項目A9]
前記計算部において予測された形質情報を表示する、表示部をさらに備える、前記項目のいずれかに記載のシステム。
[項目A1-1]
個体の形質情報を予測するための方法であって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、方法。
[項目A2-1]
個体の形質情報を予測するための方法であって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と、
該予測された形質情報を表示する表示工程と
を含む、方法。
[項目A3-1]
前記項目のいずれかまたは複数に記載の特徴をさらに備える、前記項目のいずれかに記載の方法。
[項目A1-2]
個体の形質情報を予測するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、プログラム。
[項目A2-2]
前記方法は、前記予測された形質情報を表示する表示工程をさらに含む、前記項目に記載のプログラム。
[項目A3-2]
前記項目のいずれかまたは複数に記載の特徴をさらに備える前記項目のいずれかに記載のプログラム。
[項目A1-3]
個体の形質情報を予測するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、記録媒体。
[項目A2-3]
前記方法は、前記予測された形質情報を表示する表示工程をさらに含む、前記項目のいずれかに記載の記録媒体。
[項目A3-3]
前記項目のいずれかまたは複数に記載の特徴をさらに備える、前記項目のいずれかに記載の記録媒体。
[項目B1]
複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法であって、
該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、方法。
[項目B2]
前記複数の遺伝因子のそれぞれが、前記画像データ中の領域に対応付けられており、前記画像データを生成する工程が、
前記遺伝因子の発現量を、該遺伝因子に対応する領域内の一定領域における色情報および/または該領域中のある色を有する領域の面積の情報に変換する工程を含む、
前記項目に記載の方法。
[項目B2-1]
複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムであって、該方法は
該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、プログラム。
[項目B3]
遺伝情報を画像化する方法であって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
該工程は、該複数の遺伝因子のそれぞれを、前記画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
を含む、方法。
[項目B4]
前記画像データを生成する工程が、前記遺伝因子について必要な画像データ中の領域の面積を算出することをさらに含む、前記項目に記載の方法。
[項目B4-1]
遺伝情報を画像化する方法をコンピュータに実行させるプログラムであって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
該工程は、該複数の遺伝因子のそれぞれを、前記画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
を含む、プログラム。
[項目B5]
前記相関重みが、
遺伝因子間の相関解析から強い相関を有する遺伝因子の組み合わせを抽出し、
各遺伝因子についての強い相関遺伝因子を抽出し、
抽出された該遺伝因子を用いた変数選択重回帰を行い、
該変数選択重回帰の結果から相関重みを算出すること
によって算出される、前記項目のいずれかに記載の方法。
[項目B6]
前記遺伝因子集団の配列データが、親細胞から娘細胞に遺伝形質を伝搬するイベントに関わる因子の配列データを含む、前記項目のいずれかに記載の方法。
[項目B7]
前記遺伝因子集団の発現データが、当世代のみの情報伝達に関わる因子の発現データを含む、前記項目のいずれかに記載の方法。
[項目B8]
前記配列データおよび発現データが、同一の個体の遺伝因子のものである、前記項目のいずれかに記載の方法。
[項目B9]
前記複数の遺伝因子のそれぞれが、前記画像データ中の領域に対応付けられており、前記画像データを生成する工程が、
ある遺伝因子の配列における変異の位置および型の情報を、該遺伝因子に対応する領域内の位置および色情報に変換する工程
を含む、前記項目のいずれかに記載の方法。
[項目B10]
前記画像データを生成する工程が、
ある遺伝因子の配列における修飾の情報を、該遺伝因子に対応する領域内の位置および色情報に変換する工程
をさらに含む、前記項目のいずれかに記載の方法。
[項目B11]
前記遺伝因子集団の発現データが、転写ユニットの発現データを含む、前記項目のいずれかに記載の方法。
[項目B12]
前記遺伝因子集団の発現データが、mRNAの発現データを含む、前記項目のいずれかに記載の方法。
[項目B13]
前記mRNAの発現データが、mRNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含む、前記項目のいずれかに記載の方法。
[項目B14]
前記遺伝因子集団の発現データが、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現データを含む、前記項目のいずれかに記載の方法。
[項目B15]
前記遺伝因子集団の発現データが、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含む、前記項目のいずれかに記載の方法。
[項目B16]
個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法であって、
複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかのいずれか1項に記載の方法によって画像化し、画像データを提供する工程と、
該複数の個体の形質情報を提供する工程と、
該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、方法。
[項目B1-1]
複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムであって、該方法は、
該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、プログラム。
[項目B1-2]
複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、記録媒体。
[項目B1-3]
複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法を実行するシステムであって、該システムは、
該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する画像生成部であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、画像生成部と
該遺伝因子集団の配列データと、該遺伝因子集団の発現データと、該画像データを格納するデータ格納部と
を備える、システム。
[項目B16-1]
個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を項目B1~B15のいずれか1項に記載の方法によって画像化し、画像データを提供する工程と、
該複数の個体の形質情報を提供する工程と、
該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、プログラム。
[項目B16-2]
個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかに記載の方法によって画像化し、画像データを提供する工程と、
該複数の個体の形質情報を提供する工程と、
該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、記録媒体。
[項目B16-3]
個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法を実行するシステムであって、該システムは、
複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかに記載の方法によって画像化し、画像データを提供する画像生成部と、
該複数の個体の形質情報と、該画像データを格納するデータ格納部と、
該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する学習部と
を備える、システム。
[項目C1]
複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であって、
該画像データは、該複数の遺伝因子に対応付けられた複数の領域を有し、
遺伝因子の配列中の各位置が、該遺伝因子に対応付けられた該領域内の位置に対応付けられており、
該遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する位置における色情報として格納され、
該遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造。
[項目C2]
前記遺伝因子の配列中の各位置におけるエピジェネティクス修飾の情報が、該位置に対応する位置における色情報としてさらに格納される、前記項目に記載のデータ構造。
[項目C3]
前記複数の遺伝因子におけるmiRNAの配列中の各位置におけるメチル化が、該位置に対応する位置における色情報として格納される、前記項目のいずれかに記載のデータ構造。
[項目C4]
前記画像データが、行および列を有するマトリックスであり、前記各位置が、行および列の組み合わせとして格納される、前記項目のいずれかに記載のデータ構造。
[項目C5]
配列情報および発現情報を表す画像データのデータ構造であって、該画像データは、行および列を有するマトリックスであり、該画像データ中の各位置が、行および列の組み合わせとして格納され、
該配列情報は、ゲノム上の領域のDNA配列を含み、該ゲノム上の領域は、遺伝子、エクソン、イントロン、非発現領域、および/またはnon-coding RNAをコードする領域を含み、
該発現情報は、mRNA、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAからなる群から選択される転写ユニットの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾の情報を含み、
該画像データは、各ゲノム上の領域および/または転写ユニットに対応付けられた複数の領域を有し、
該ゲノム上の領域に対応付けられた領域は、該ゲノム上の領域の長さに依存した数の列および一定数の行からなり、
該ゲノム上の領域の配列中の各位置が、該ゲノム上の領域に対応付けられた該領域内の奇数列における位置に対応付けられており、
該ゲノム上の領域の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する奇数列における位置における色情報として格納され、該色情報は、変異が存在しないことを示す色情報、Aに置換されていることを示す色情報、Tに置換されていることを示す色情報、Gに置換されていることを示す色情報、Cに置換されていることを示す色情報、欠失していることを示す色情報、または該位置に隣接して挿入が存在することを示す色情報であり、
挿入される配列の情報が、挿入が存在することを示す色情報を有する位置に隣接する偶数列における位置を始点として、挿入される配列を示す色情報が格納され、
該ゲノム上の領域の配列中の各位置におけるエピジェネティック修飾の情報が、該位置に対応する奇数列における位置における色情報として格納され、該色情報は、エピジェネティック修飾が存在しないことを示す色情報、DNAメチル化されていることを示す色情報、ヒストンメチル化されていることを示す色情報、ヒストンアセチル化されていることを示す色情報、ヒストンユビキチン化されていることを示す色情報、またはヒストンリン酸化されていることを示す色情報を含み、
あるゲノム上の領域から転写される転写ユニットについて、該転写ユニットの発現量が、該ゲノム上の領域に対応する画像中の領域における色の濃淡として、および/または該領域中のある色を有する領域の面積の情報として格納され、
遺伝子であるゲノム上の領域について、該遺伝子に対応するmRNAの発現量が、該領域中のある領域における色の濃淡として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造。
[項目D1]
画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法であって、
複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、方法。
[項目D2]
前記統合する工程が、GPUを搭載したCPUマシンを用い、メモリ搭載量を含めたGPUスペックおよびCPUスペックを検出することを含む、前記項目に記載の方法。
[項目D3]
前記統合する工程が、HDD上でのRead-Writeファイルの利用、CPUメモリを最大限利用できるような非線形最適化処理アルゴリズムを最適化することを含む、前記項目のいずれかに記載の方法。
[項目D4]
前記非線形最適化処理アルゴリズムが、必要なデータを随時メモリに移して計算し、計算結果をHDDに戻すことによって、データサイズに非依存的に計算可能なアルゴリズムである、前記項目のいずれかに記載の方法。
[項目D5]
前記非線形最適化処理が、全判別パラメータを最適化することを含む、前記項目のいずれかに記載の方法。
[項目D6]
前記複数の分割学習データを得る工程において、各分割学習データの判別能力を検証し、判別力のある分割学習データを選択して統合に供することを特徴とする、前記項目のいずれかに記載の方法。
[項目D1-1]
画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、プログラム。
[項目D1-2]
画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、記録媒体。
[項目D1-2]
画像と、該画像に対応する情報との関連を予測するモデルを作成するシステムであって、該システムは、
複数の画像および該複数の画像に対応する複数の情報のセットを提供するデータ格納部と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得るデータ学習部と、
該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成するモデル生成部と
を備える、システム。
[項目E1]
個体の形質情報を予測するためのシステムであって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備え、
ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システム。
[項目E2]
個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法であって、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、方法。
[項目E3]
個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、プログラム。
[項目F1]
個体の形質情報を予測するためのシステムであって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝情報から、該個体の形質情報を予測する、計算部と
を備え、
ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択し、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、システム。
[項目F1-1]
前記発現情報に基づいて形質情報が予測可能かの判定が、
前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
前記複数の個体を形質情報に従って群に分割することと、
該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載のシステム。
[項目F1-2]
前記学習部が、発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定するように構成され、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定するように構成されている、前記項目のいずれかに記載のシステム。
[項目F1-3]
前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載のシステム。
[項目F2]
形質に関与する遺伝子の変異を同定するための方法であって、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、方法。
[項目F2-1]
前記発現情報に基づいて形質情報が予測可能かの判定が、
前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
前記複数の個体を形質情報に従って群に分割することと、
該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載の方法。
[項目F2-2]
発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定し、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定することをさらに含む、前記項目のいずれかに記載の方法。
[項目F2-3]
前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載の方法。
[項目F3]
形質に関与する遺伝子の変異を同定するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、プログラム。
[項目F3-1]
前記発現情報に基づいて形質情報が予測可能かの判定が、
前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
前記複数の個体を形質情報に従って群に分割することと、
該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載のプログラム。
[項目F3-2]
前記方法が、発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定し、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定することをさらに含む、前記項目のいずれかに記載のプログラム。
[項目F3-3]
前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載のプログラム。
本明細書において、「全判別パラメータ」とは、分割学習後に統合した画像全体を判別するための判別式におけるパラメータを指す。個別学習での判別分析式では、分割された画像上の部分データに重みを加えて判別しているため、それぞれ分割した画像間同士では、全く独立した判別式を採用しており、それぞれの相関はない。したがって、最終的な非線形最適化では、各部分学習において求められたパラメータによる判別式を元に、それらを統合した(分割前の画像全体に対する)新しい判別式を作成する。そのために、各部分学習のパラメータを初期値として、CPUを用いて全体を最適化する処理を実施する。
本開示の1つの局面は、個体の形質情報を予測するためのシステムである。システムは、複数の個体の遺伝情報と複数の個体の形質情報とを格納する格納部と、複数の個体の遺伝情報と複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、遺伝情報と形質情報との関連に基づき、個体の遺伝情報から個体の形質情報を予測する、計算部とを備え得る。1つの実施形態では、格納部に含まれる遺伝情報は、少なくとも2種類の情報を含み得る。必要に応じて、このシステムは計算部において予測された形質情報から、前記個体の診断および/または個体に対する治療または予防を分析する、分析部をさらに備えることができる。また、必要に応じて、このシステムは計算部において予測された形質情報を表示する、表示部をさらに備えることができる。
パラメトリックでは、訓練データ数と無関係に、ガウス分布の形状は平均・分散パラメータで決定され、ノンパラメトリックでは、ヒストグラムではビン数パラメータで滑らかさのみが決まり、パラメトリックより複雑であるとされる。
本開示の形質予測技術は、1つのシステム101または装置として、すべてを含む形で提供され得る(図1を参照)。あるいは、形質予測装置として、個体の遺伝情報の入力の受け取りおよび結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る(図2を参照)。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る。あるいは、形質予測装置が判別モデルを格納し、その場で判別を行うが、判別モデルの計算などの主要な計算は、サーバやクラウドで行う形態である半スタンドアローン型の形態も想定され得る(図2)。病院等の一部の実施場所では、送受信が常にできると限らないことから、遮蔽した場合でも使えるモデルを想定したものである。学習部までを備える判別モデル生成用システムも、あるいは得られた判別モデルを保存し計算部において利用する予測システムも、本開示の実施形態として挙げられる(図2)。このようなクラウドサービスとしては、おおむね、「Software as service (SaaS)」が該当する。また、患者データを画像化するプログラムを配布する事で、病院等の実施場所において画像化したデータのみを転送してもらい、それを受信して解析する受託サービス等を提供することも可能である。
本開示の1つの局面は、遺伝情報を画像化する方法である。1つの態様では、画像化は、それぞれが位置情報および色情報を含む複数のピクセルを有する画像データを生成する工程を含むものとして捉えることができる。この画像データは、遺伝情報のデータを格納しているものであり得る。本開示の画像化方法は、複数の遺伝因子を含む遺伝因子集団の配列データと、複数の遺伝因子を含む遺伝因子集団の発現データとを画像化することを1つの特徴とし得る。このような画像化は、配列情報と、発現情報とを同時に学習することを可能にする点で有利であり得る。加えて、近年の深層学習では従来の機械学習法と比較して、画像の認識性能が格段に向上している事は周知の事実であり、様々な分野に応用されていることから、画像化されたデータであれば、現行の深層学習法を効率的に使用する事が可能となると考えられる。
本開示の一部の局面は、画像化において、遺伝因子の配置の最適化を行うことに関する。画像上での遺伝因子の配置は、特に限定されず、例えば、データベースの記載順や、何らかの番号に従って並べてもよい。しかしながら、遺伝子配置を最適化することによって、画像を用いた機械学習効率のさらなる改善が期待できる。したがって、本開示の一部の局面に係る遺伝因子の配置の最適化は、このような改善を目的として応用され得る。とりわけ、外部相関寄与の多い遺伝因子を中心に配置し、相関の重みの大きい順に遺伝因子を周囲に配置していけば、画像を用いた機械学習効率を改善できると考えられる。
またはスピアマン相関係数:
を用いて行う。その後、強い相関遺伝子の組み合わせを抽出する。そして、各遺伝子から見た相関遺伝子を抽出する。この処理で抽出した遺伝子を用いた変数選択重回帰を行う。そして、重回帰の結果から、相関の重みβjiとp-valueを抽出する。相関の重みβjiは、
を満たす値として算出され得る。強い相関遺伝子の組み合わせの抽出結果から、最も相関の多い遺伝子を抽出する。そして、この処理で得られた遺伝子を中心に相関重みを抽出する。そして、中心遺伝子と強い相関遺伝子を抽出し、必要領域を計算する。その後、次に強い遺伝子と前出遺伝子との重みを考慮し配置する。全遺伝子を配置したかを判別し、完了していない場合には、上記処理を繰り返す。全遺伝子の配置が完了したところで配置最適化処理を終了する。
本開示の別の局面において、画像データの、特定のデータ構造に関する。本開示の実施形態において、例えば、複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であって、画像データは、複数の遺伝因子に対応付けられた複数の領域を有し、遺伝因子の配列中の各位置が、遺伝因子に対応付けられた該領域内の位置に対応付けられており、遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、位置に対応する位置における色情報として格納され、遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造が提供される。
本開示の別の局面において、画像と、当該画像に対応する情報との関連を予測するモデルを作成するための方法が提供される。方法は、画像を分割して学習することを1つの特徴とし得る。方法は、複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、複数の画像を分割し、複数の画像の部分と、当該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、複数の分割学習データを統合し、画像と、画像に対応する情報との関連を予測するモデルを生成する工程とを含み得る。
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備え、
ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システムとして提供され得る。
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、方法として提供され得る。
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、プログラムを提供する。
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝情報から、該個体の形質情報を予測する、計算部と
を備え、
ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択し、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、システムとして提供され得る。
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、方法として提供され得る。
その特定領域の画像をさらに細かく分割することで判別に重要となる遺伝子変異情報を抽出することが可能である。そこでも収束性があるにもかかわらず、遺伝子発現量情報のみでは分割できない領域を絞り込み、絞り込んだ領域に含まれる遺伝子変異情報を抽出する。
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、プログラムも提供する。
以上、本開示の1つまたは複数の態様に係る形質予測方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
(実施例1)DNAとRNAとを用いたAIによる解析
本実施例においては、以下:
(1)データ取得(トランスクリプトームデータ、ゲノム配列データ、変異データ、ゲノムエピジェネティクスデータ、miRNA発現データ、RNAメチル化データ);
(2)画像化;
(3)画像をGPUとCPUの両方を搭載したマシンで学習;
(4)別画像を用いて抗がん剤への感受性予測
の工程によるAI解析を実証する。
画像化には、以下の機器を使用した。当業者には明らかなことであるが、これと同等の機器であれば、同様に利用することができることが理解される。
画像化を行うため、縦および横方向に配列した2次元数値マトリックスに対して発現ユニットを割り当てた。具体的には、Ensembleに登録されている全遺伝子およびmiRNAをそれぞれ発現ユニットとした。数値マトリックスの1つの要素に対し1ピクセルを割り当てる。縦に125ピクセル(行)、横に2ピクセル(列)の長方形の領域(250ピクセル単位)を1つの単位として、発現ユニットの長さに応じて、横に隣接する複数の当該単位領域を割り当てた。各ピクセルには、256段階の色[モノクロの場合は明度](0~255)のいずれかが設定される。
(特徴抽出)
画像解析用のニューラルネットワークを用いた機械学習によって、判別パラメータを最適化する。その際に、部分画像から連続的な明度色彩のつながりから、特徴となる部分を抽出する事を行う。その後、判別パラメータ係数の最適化を実施する。それを用いた判別モデルを構築する。
実施した判別パラメータを用いた判別モデルに基づき、グループ分類を行う。
(相関解析)
登録されている全ての細胞株において、正規化した遺伝子発現情報を用いて、全ての遺伝子組について連動して変化する傾向の度合いの解析を実施する。その際に、ピアソンの相関係数とスピアマンの相関係数を共に算出し、その平均化数値を算出する。また、相関の強い組み合わせ上位(今回は100個)で抽出される遺伝子名をカウントする。
相関解析でカウントされた遺伝子の多い順で、その遺伝子が他の遺伝子発現量(正規化された値)を用いて、どのような係数を付与する事で記述できるか(線形結合で記述できるか)の決定を行う。
相関解析で抽出し、最もカウントされた遺伝子をアレイの中心に配置する。その後、対象とした遺伝子との相関組を抜き出し、ピアソンとスピアマンの相関係数の平均値を、配置すべき遺伝子領域(125行×○○列)間の相互作用係数とする。中心遺伝子からの初期配置を相互作用係数に反比例するように設定し、次に配置した遺伝子からも同様に配置を繰り返して初期配置を設置する。その後の最適化の時点では、遺伝子間領域間の相互作用は、平均化相互作用係数をばね定数的に考え、初期配置の横方向にのみ位置を最適化する。そのため、各部分行(125行単位)では遺伝子間でのズレは許していないが遺伝子の部分領域の上下の接する場所は、先のばね定数に応じた力によって左右にずれる事を許容する。その結果、最適な配置を探索するというアルゴリズムを採用する。
(マシンスペック検出)
今回の機械学習に用いるマシンは、Linux(登録商標)OSを想定してプログラムを作成する。その場合、
cat/proc/cpuinfo
と言うコマンドを用いると、CPUのスペックを知る事が出来る。
cat/proc/meminfo
GPUは、
lspci|grepVGA
NVIDIAドライバがインストールされている場合は、
nvidia-smi
にてマシンスペックを検出することができる。
画像の機械学習はGPUによる学習を想定しているため、GPU搭載メモリを考えて、学習データ数と検証データ数がメモリに乗る容量を考慮して、データ分割を実行する。
分割学習によって生成される各モデルの係数パラメータをニューラルネットワークの次元に応じた行列に格納する。分割分のパラメータ行列を一つの行列に格納する。そこで、この前パラメータを初期値とした新規の予測モデルを構築する。
統合した初期パラメータとした予測モデルの部分パラメータを変化させたときに予測効率に生じる変化率を観測し、非線形最適化を実施する事によって、最安定パラメータを探索する。このときの計算は、HDDを仮想メモリとしOn the flyでメモリとのやり取りを行い、CPUを使って最適化を実施する。
対象とする腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データを取得した。上記学習によって得られたモデルを適用し、当該腫瘍細胞株の5-FU耐性について予測する。当該腫瘍細胞株の5-FU耐性情報を取得し、モデルの妥当性を検証する。
実施例1の(データ取得)に記載されるように腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データを取得した。5-FUに対する感受性が特に高い10の細胞株(MV-4-11、NOMO-1、OCI-AML2、PSN1、RPMI-6666、SIG-M5、SLVL、SR、SUPおよびYT)と、5-FUに対する感受性が特に低い10の細胞株(CAS-1、FU-OV-1、HCC1143、NCI-H1693、NCI-H2291、OVKATE、Saos-2、SKG-IIIa、SW684およびSW111)とを含む20の腫瘍細胞株を訓練データとして用いた。
実施例4-1に記載される手法にしたがい、腫瘍細胞株の訓練データを取得した。実施例4-1に記載されるDNA変異データとRNA発現量データの両方を画像化したものに加えて、DNA変異データのみの情報を同様に画像化したものと、RNA発現量データのみの情報を同様に画像化したものを生成した。
実施例4-1に記載されるように、生成した画像を16×16に分割し、各領域ごとに、画像解析用のニューラルネットワークを用いた機械学習によって、判別パラメータを最適化し、各領域ごとにモデルを生成した。上記分割では、1領域ごとにおよそ100~200遺伝子の情報が格納されることとなる。領域ごとのモデルについて、Epochごとの検証精度の収束性を検証した(図11)。
対象判別グループが2つであり、各グループがそれぞれ同数を有するため、類似性に従って並び替えた各個体を中央で分離し、それぞれ分離したグループ内での同一性の割合を算出した。其々の同一性の割合が100%であれば、発現情報のみで完全に分離可能であることを示し、50%であれば、ランダムに分割されており発現情報のみでは分割できないことを意味する。本実施例では10個中1個~2個の異なり以下、つまり、80~90%以上の場合、発現量のみで判別可能と判定した。
複数の腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データ、DNA上のエピジェネティック修飾データ、RNA上のエピジェネティック修飾データを取得した。これらの情報をまとめ、上述のとおりの画像化を行う。この画像を用いて、当該腫瘍細胞株の薬剤耐性情報と、遺伝子情報との関係を上記のとおり学習する。学習によって生成したモデルを適用し、対象とする細胞株の薬剤耐性を予測する。対象とする細胞株からは、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データ、DNA上のエピジェネティック修飾データ、RNA上のエピジェネティック修飾データの全てまたは一部を取得し、モデルを適用することができる。
新薬をがん細胞に投与し、そこから得られたDNA/RNA情報を、上記のシステムで学習し、解析することで薬剤の作用機序を予測する。この予測された作用機序を、例えば、製薬企業に提供し得る。
以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願および文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
102:格納部
103:学習部
104:計算部
105:画像化部
106:表示部
107:取得部
108:データベース
109:測定部
Claims (13)
- 個体の形質情報を予測するためのシステムであって、
複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、少なくとも2種類の情報を含む、格納部と、
該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、
該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備える、システムであって、
ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システム。 - 前記学習部が、さらに、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、請求項1に記載のシステム。 - 前記発現情報に基づいて形質情報が予測可能かの判定が、
前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
前記複数の個体を形質情報に従って群に分割することと、
該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
該同一性が所定の閾値を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、
請求項2に記載のシステム。 - 前記学習部が、発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定するように構成され、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定するように構成されている、
請求項2または3に記載のシステム。 - コンピュータを用いて、形質に関与する遺伝子の変異を同定するための方法であって、該コンピュータに、複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該コンピュータが、該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該コンピュータが、形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該コンピュータが、該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該コンピュータが、該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、方法。 - 形質に関与する遺伝子の変異を同定するための方法をコンピュータに実行させるプログラムであって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、プログラム。 - 形質に関与する遺伝子の変異を同定するための方法をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体であって、該方法は、
複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、記録媒体。 - 前記複数の個体の遺伝情報の画像化が、以下の方法:
(A)
コンピュータを用いて、複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法であって、
該コンピュータが、該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、該遺伝因子の発現量を、該遺伝因子に対応する領域内の一定領域における色情報および/または該領域中のある色を有する領域の面積の情報に変換することを含む工程
を含む、画像化方法、または
(B)
コンピュータを用いて、遺伝情報を画像化する方法であって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
該コンピュータが、該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
該工程は、該複数の遺伝因子のそれぞれを、該画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
を含む、画像化方法
によって行われるように構成されている、請求項1~4のいずれか一項に記載のシステム。 - 前記学習部が、データ構造を有するデータを学習に用いるように構成されている、請求項1~4のいずれか一項に記載のシステムであって、該データ構造は、複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であり、
該画像データは、該複数の遺伝因子に対応付けられた複数の領域を有し、
遺伝因子の配列中の各位置が、該遺伝因子に対応付けられた該領域内の位置に対応付けられており、
該遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する位置における色情報として格納され、
該遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、システム。 - 学習部が、
(C)
コンピュータを用いて、画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法であって、
該コンピュータに、複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
該コンピュータが、該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
該コンピュータが、該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、方法によって、前記遺伝情報と形質情報との関連を学習するように構成されている、請求項1~4のいずれか一項に記載のシステム。 - 前記複数の分割学習データを得る工程において、各分割学習データの判別能力を検証し、判別力のある分割学習データを選択して統合に供することを特徴とする、請求項10に記載のシステム。
- 前記統合する工程が、HDD上でのRead-Writeファイルの利用、CPUメモリを最大限利用できるような非線形最適化処理アルゴリズムを最適化することを含む、請求項10または11に記載のシステム。
- 前記非線形最適化処理アルゴリズムが、必要なデータを随時メモリに移して計算し、計算結果をHDDに戻すことによって、データサイズに非依存的に計算可能なアルゴリズムである、請求項12に記載の方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018247959 | 2018-12-28 | ||
| JP2018247959 | 2018-12-28 | ||
| PCT/JP2019/051564 WO2020138479A1 (ja) | 2018-12-28 | 2019-12-27 | 個体の形質情報を予測するためのシステムまたは方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2020138479A1 JPWO2020138479A1 (ja) | 2020-07-02 |
| JP7568276B2 true JP7568276B2 (ja) | 2024-10-16 |
Family
ID=71128016
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020562540A Active JP7568276B2 (ja) | 2018-12-28 | 2019-12-27 | 個体の形質情報を予測するためのシステムまたは方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20220101147A1 (ja) |
| JP (1) | JP7568276B2 (ja) |
| WO (1) | WO2020138479A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023161401A (ja) * | 2022-04-25 | 2023-11-07 | 国立研究開発法人農業・食品産業技術総合研究機構 | 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7551483B2 (ja) | 2020-12-10 | 2024-09-17 | 株式会社東芝 | 形質予測モデル作成装置及び形質予測モデル作成方法 |
| US12412100B2 (en) * | 2021-01-22 | 2025-09-09 | International Business Machines Corporation | Cell state transition features from single cell data |
| JP7082239B1 (ja) * | 2021-06-09 | 2022-06-07 | 京セラ株式会社 | 認識装置、端末装置、認識器構築装置、認識器修正装置、構築方法、及び修正方法 |
| CN114219049B (zh) * | 2022-02-22 | 2022-05-10 | 天津大学 | 一种基于层级约束的细粒度笔石图像分类方法和装置 |
| CN115457361A (zh) * | 2022-09-19 | 2022-12-09 | 京东方科技集团股份有限公司 | 分类模型获取方法、表达类别确定方法、装置、设备及介质 |
| CN117274005B (zh) * | 2023-11-21 | 2024-02-09 | 西昌学院 | 基于数字教育的大数据推送方法及系统 |
| CN118262932B (zh) * | 2024-04-29 | 2024-12-31 | 广州医科大学附属第一医院(广州呼吸中心) | 预测alk融合基因阳性非小细胞肺癌早期耐药的方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016099901A (ja) | 2014-11-25 | 2016-05-30 | 学校法人 岩手医科大学 | 形質予測モデル作成方法および形質予測方法 |
| JP2018092453A (ja) | 2016-12-06 | 2018-06-14 | 日本電気通信システム株式会社 | 学習装置、学習方法およびプログラム |
| JP2021521536A (ja) | 2018-04-13 | 2021-08-26 | フリーノーム・ホールディングス・インコーポレイテッドFreenome Holdings, Inc. | 生体試料の多検体アッセイのための機械学習実装 |
| JP2021531098A (ja) | 2018-07-27 | 2021-11-18 | ユニバーシティー オブ マイアミUniversity Of Miami | Aiを利用した眼の状態判定のためのシステムおよび方法 |
-
2019
- 2019-12-27 JP JP2020562540A patent/JP7568276B2/ja active Active
- 2019-12-27 WO PCT/JP2019/051564 patent/WO2020138479A1/ja not_active Ceased
- 2019-12-27 US US17/418,168 patent/US20220101147A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016099901A (ja) | 2014-11-25 | 2016-05-30 | 学校法人 岩手医科大学 | 形質予測モデル作成方法および形質予測方法 |
| JP2018092453A (ja) | 2016-12-06 | 2018-06-14 | 日本電気通信システム株式会社 | 学習装置、学習方法およびプログラム |
| JP2021521536A (ja) | 2018-04-13 | 2021-08-26 | フリーノーム・ホールディングス・インコーポレイテッドFreenome Holdings, Inc. | 生体試料の多検体アッセイのための機械学習実装 |
| JP2021531098A (ja) | 2018-07-27 | 2021-11-18 | ユニバーシティー オブ マイアミUniversity Of Miami | Aiを利用した眼の状態判定のためのシステムおよび方法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023161401A (ja) * | 2022-04-25 | 2023-11-07 | 国立研究開発法人農業・食品産業技術総合研究機構 | 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20220101147A1 (en) | 2022-03-31 |
| JPWO2020138479A1 (ja) | 2020-07-02 |
| WO2020138479A1 (ja) | 2020-07-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7568276B2 (ja) | 個体の形質情報を予測するためのシステムまたは方法 | |
| US12242943B2 (en) | Generating machine learning models using genetic data | |
| JP7610620B2 (ja) | 複数の機械学習モデルに基づく臨床予測器 | |
| CN111933212B (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
| Elyasigomari et al. | Cancer classification using a novel gene selection approach by means of shuffling based on data clustering with optimization | |
| CN112470229B (zh) | 分析关于生物体的基因数据的计算机实现的方法 | |
| US20230056839A1 (en) | Cancer prognosis | |
| Engchuan et al. | Pathway activity transformation for multi-class classification of lung cancer datasets | |
| JP7041614B6 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
| CN112201346A (zh) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 | |
| KR20240046481A (ko) | 지문 분석을 이용하여 화합물을 생리학적 조건과 연관시키는 시스템 및 방법 | |
| US11954859B2 (en) | Methods of assessing diseases using image classifiers | |
| WO2022212337A1 (en) | Graph database techniques for machine learning | |
| US20230253115A1 (en) | Methods and systems for predicting in-vivo response to drug therapies | |
| Qiu et al. | Genomic processing for cancer classification and prediction-Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection | |
| CN118451511A (zh) | 协变量校正来自不同药物使用模式的表型测量的时间数据 | |
| US20220293212A1 (en) | Method for automatically predicting treatment management factor characteristics of disease and electronic apparatus | |
| Alves et al. | Multi-omic data integration applied to molecular tumor classification | |
| WO2022086684A1 (en) | Using machine learning to assess medical information based on a spatial cell organization analysis | |
| US20220292363A1 (en) | Method for automatically determining disease type and electronic apparatus | |
| Steyaert et al. | Variational autoencoders to predict DNA-methylation age and provide biological insights in age-related health and disease | |
| Aydin et al. | A New Era in Missense Variant Analysis: Statistical Insights and the Introduction of VAMPP-Score for Pathogenicity Assessment | |
| WO2011124758A1 (en) | A method, an arrangement and a computer program product for analysing a cancer tissue | |
| Chang | Immuno-informatic methods and applications in single-cell and spatial omics | |
| WO2025154472A1 (ja) | データ処理装置及び方法並びにプログラム及び記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221129 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230728 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230822 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240401 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240723 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240807 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240903 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240926 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7568276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |


