WO2024048079A1

WO2024048079A1 - 有用物質を産生するクローンの産生安定性を予測する方法、情報処理装置、プログラムおよび予測モデル生成方法

Info

Publication number: WO2024048079A1
Application number: PCT/JP2023/025263
Authority: WO
Inventors: 正夫梅川; 貴文鈴木; 政寛佐藤; 雅也長瀬; 達也松浦; 裕太村上
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2022-08-31
Filing date: 2023-07-07
Publication date: 2024-03-07
Anticipated expiration: 2025-02-28
Also published as: CN119731310A; EP4582536A1; US20250191688A1; EP4582536A4; JPWO2024048079A1

Abstract

有用物質を産生するクローンの産生安定性を高精度かつ低コストに予測できる方法、情報処理装置、プログラムおよび予測モデル生成方法を提供する。１つ以上のプロセッサが、有用物質を産生するクローンについて１種類以上のクローンの培養データを取得することと、培養データを解析して予測対象のクローンを限定することと、予測対象のクローンについて測定されたデータを用いて、予測対象のクローンによる有用物質の産生安定性を予測することと、を実行する。産生安定性は、培養開始時と所定期間培養後とにおける有用物質の産生量の変化の有無により定義されてよい。

Description

有用物質を産生するクローンの産生安定性を予測する方法、情報処理装置、プログラムおよび予測モデル生成方法

　本開示は、有用物質を産生するクローンの産生安定性を予測する情報処理技術および機械学習技術に関する。

　近年、従来の化学合成では作製が困難であった複雑な有用物質を細胞に作らせる製造法の産業利用が進んでいる。その一例がバイオ医薬品であり、世界の医薬品売り上げランキングＴＯＰ１０では半数以上の品目数で、約３分の２の売上額を占めている。バイオ医薬品は、従来の低分子医薬品に比べて、複雑なタンパク質等を活用したものであり、人工的に化学合成するのは非常に難しい。そのため、バイオ医薬品の一例である抗体医薬品は、例えばＣＨＯ細胞（Chinese Hamster Ovary cells）等に所望のヒトタンパク質に対応する遺伝子を挿入し、細胞機能によって所望タンパク質を産生させ、これを抽出および精製して抗体医薬品を製造する生産方法が広く普及している。

　上述の様な細胞への遺伝子の挿入は、細かい制御が不可能なため、大量の細胞に一斉に遺伝子を挿入するのが一般的である。その際、生成される個々の細胞は遺伝子の挿入位置がランダムであることを踏まえ、医薬品としての抗体を安定化し、品質保証するため、多くの規制当局から、遺伝子挿入後に抗体産生を担う細胞が単一細胞由来であり、継代培養によってその性質が変化しないこと、所謂モノクロナリティが求められている。

　そこで、遺伝子の挿入位置がランダムな個々の細胞から単一の細胞を抽出し、その単一細胞を増殖させて細胞クローン（以下、クローンという）を作成し、このクローンに抗体を産生させることによってモノクロナリティを担保している。本発明のクローンとは、遺伝子的に同一な細胞の集団、または、その集団を構成する細胞を意味する。

　一方で、産業化においては、良質な抗体産生能を持つクローンが求められている。ここで、良質な抗体産生能とは、現時点において高い抗体産生能力があること、および、長期の培養期間においても抗体産生能力が安定していることである。前述の様に、遺伝子の挿入位置がランダムな個々の細胞から作成されるクローンは抗体産生能力にばらつきがあり、クローン毎に良質な抗体産生能かを判別する必要がある。現時点で抗体産生能力が高い高産生クローンであるか否かは２週間の規格試験によって判別可能であるが、長期の培養期間において抗体産生能力が安定しているか否かの産生安定性の判別については、実際に数か月間程度の長期培養による実験的な検証（安定性試験）が必須となっている。

　このような背景の下、特許文献１では、現時点で得られるクローンの遺伝子発現データから数か月先のクローンの組換えタンパク質の産生安定性を予測する手法が提案されている。また、非特許文献１では、クローン開発の早期の段階において組換えタンパク質の安定発現を予測できるマーカー遺伝子を同定し、クローン開発の早期段階において組換えタンパク質の産生安定性を予測する方法が提案されている。

国際公開第２０１６／０７５２１６号

Uros Jamnikar, Petra Nikolic, Ales Belic, Marjanca Blas, Dominik Gaser, Andrej Francky, Holger Laux, Andrej Blejec, Spela Baebler and Kristina Gruden,"Transcriptome study and identification of potential marker genes related to the stable expression of recombinant proteins in CHO clones" BMC Biotechnology volume 15, Article number 98 (2015).

　しかし、特許文献１に記載の方法は、予測精度の点で十分とは言えない。また、多数のクローンに対する遺伝子解析などは一般に高額な費用を要するため、組換えタンパク質の産生安定性を予測することにより得られるコストダウン効果を、予測のための遺伝子解析などによるコストアップが減退させるという問題もあった。コスト抑制のために、産生安定性の予測対象のクローン数を絞り込むことが考えられるが、そうすると予測対象中の産生安定性の高いクローン数も減ることになり、結果的に得られる産生安定性の高いクローン数が少なくなってしまうことになり、単純に予測対象のクローン数を絞り込むことも難しかった。

　本開示が解決しようとする第１の課題は、高い精度でクローンにおける有用物質の産生安定性を予測する手段を提供することである。第２の課題は、クローンにおける有用物質の産生安定性の予測コストを低減する手段を提供することである。

　本開示はこのような事情を鑑みてなされたものであり、有用物質を産生するクローンの産生安定性を高精度かつ低コストに予測することができる方法、情報処理装置、プログラムおよび予測モデル生成方法を提供することを目的とする。

　本開示の第１態様に係る方法は、有用物質を産生するクローンの産生安定性を予測する方法であって、１つ以上のプロセッサが、１種類以上のクローンの培養データを取得することと、培養データを解析して予測対象のクローンを限定することと、予測対象のクローンについて測定されたデータを用いて、予測対象のクローンによる有用物質の産生安定性を予測することと、を実行する。

　第１態様によれば、培養データから得られる情報を基に予測対象を限定して産生安定性の予測を行うため、対象を限定しない場合と比較して、高い精度で産生安定性を予測することが可能になる。また、予測対象であるクローンに限定して予測に必要なデータの取得を行えばよいため、コスト抑制が可能である。

　予測する産生安定性は、実際には数か月間の長期培養によって実験的に検証されている産生安定性と同様に、数か月先の将来のクローンの状態を表すものであってよい。例えば、長期培養後も初期の産生量が維持されているか否かという観点から産生安定性が評価されてよい。第１態様によれば、長期培養が必要な安定性試験の結果を高精度かつ低コストで予測できる。

　本開示の第２態様に係る方法は、第１態様に係る方法において、産生安定性は、培養開始時と所定期間培養後とにおける有用物質の産生量の変化の有無により定義される構成であってもよい。

　本開示の第３態様に係る方法は、第１態様または第２態様に係る方法において、１つ以上のプロセッサが、培養データから得られる指標と、指標に関する閾値とを設定することとを含み、指標の値と閾値とに基づき予測対象を限定する構成であってもよい。

　本開示の第４態様に係る方法は、第３態様に係る方法において、閾値は、産生安定性の予測精度が予測対象を限定しない場合よりも高くなるように調整される構成であってもよい。

　本開示の第５態様に係る方法は、第３態様または第４態様に係る方法において、閾値は、指標の値についての順位を用いて定義される構成であってもよい。なお、「順位」は、複数のクローンについての指標の値を降順に並べた場合の順位と、昇順に並べた場合の順位とがあり得る。例えば、閾値は、複数のクローンを含む集団における相対順位の上位４０％などのように定義されてよい。

　本開示の第６態様に係る方法は、第３態様から第５態様のいずれか一態様に係る方法において、予測対象は、指標の値の上位集団であってもよい。

　本開示の第７態様に係る方法は、第３態様から第６態様のいずれか一態様に係る方法において、指標は、有用物質の産生量であってもよい。

　本開示の第８態様に係る方法は、第３態様から第６態様のいずれか一態様に係る方法において、指標は、積分生存細胞密度であってもよい。

　本開示の第９態様に係る方法は、第３態様から第６態様のいずれか一態様に係る方法において、指標は、乳酸濃度であってもよい。

　本開示の第１０態様に係る方法は、第１態様から第９態様のいずれか一態様に係る方法において、産生安定性の予測に用いるデータは、１つ以上の遺伝子発現レベルを含む構成であってもよい。

　本開示の第１１態様に係る方法は、第１態様から第１０態様のいずれか一態様に係る方法において、１つ以上のプロセッサが、予測対象のデータの入力を受けて、安定または不安定の２クラス分類を行うモデルを用いて産生安定性を予測する構成であってもよい。

　本開示の第１２態様に係る方法は、第１１態様に係る方法において、モデルは、予測対象のクローンと同様の限定をした訓練用のクローンについてのデータと正解の安定性ラベルとが関連付けされた複数の訓練データを用いた機械学習によって訓練されたモデルであってもよい。

　本開示の第１３態様に係る方法は、第１２態様に係る方法において、複数の訓練データは、産生する有用物質が異なる複数種類のクローンについての訓練データを含み、１つ以上のプロセッサが、モデルの訓練に使用された有用物質とは別の有用物質を産生するクローンについての産生安定性を予測する構成であってもよい。

　本開示の第１４態様に係る方法は、第１態様から第１３態様のいずれか一態様に係る方法において、有用物質は、医薬品原料であるタンパク質、ペプチド、およびウイルスのうちいずれかであってもよい。

　本開示の第１５態様に係る方法は、第１態様から第１４態様のいずれか一態様に係る方法において、有用物質は、抗体、または抗体様タンパク質であってもよい。

　本開示の第１６態様に係る方法は、第１態様から第１５態様のいずれか一態様に係る方法において、クローンは、脊椎動物由来細胞であってもよい。

　本開示の第１７態様に係る方法は、第１態様から第１５態様のいずれか一態様に係る方法において、クローンは、哺乳類由来細胞であってもよい。

　本開示の第１８に係る方法は、第１態様から第１５態様のいずれか一態様に係る方法において、クローンは、ＣＨＯ細胞またはＨＥＫ細胞（Human Embryonic Kidney cells）であってもよい。

　本開示の第１９態様に係る情報処理装置は、１つ以上のプロセッサと、１つ以上のプロセッサに実行させる命令が記憶される１つ以上の記憶装置と、を備え、１つ以上のプロセッサは、有用物質を産生するクローンについて１種類以上のクローンの培養データを取得し、培養データを解析して予測対象のクローンを限定し、予測対象のクローンについて測定されたデータを用いて、予測対象のクローンによる有用物質の産生安定性を予測する。

　第１９態様に係る情報処理装置について、第２態様から第１８態様のいずれか一態様の方法と同様の態様を含む構成とすることができる。

　本開示の第２０態様に係るプログラムは、コンピュータに、有用物質を産生するクローンについて１種類以上のクローンの培養データを取得する機能と、培養データを解析して予測対象のクローンを限定する機能と、予測対象のクローンについて測定されたデータを用いて、予測対象のクローンによる有用物質の産生安定性を予測する機能と、を実現させる。

　第２０態様に係るプログラムについて、第２態様から第１８態様のいずれか一態様の方法と同様の態様を含む構成とすることができる。

　本開示の第２１態様に係る予測モデル生成方法は、有用物質を産生するクローンの産生安定性を予測する機能をコンピュータに実現させる予測モデルを生成する予測モデル生成方法であって、１つ以上のプロセッサを含むシステムが、１種類以上のクローンの培養データを取得することと、培養データを解析して予測対象のクローンを限定することと、予測対象に該当するクローンについて測定されたデータと正解の安定性ラベルとが関連付けされた複数の訓練データを用いて機械学習を行い、データの入力に対する予測モデルの出力が正解の安定性ラベルに近づくように予測モデルを訓練することと、を含む。

　第２１態様に係る予測モデル生成方法について、第２態様から第１８態様のいずれか一態様の方法と同様の態様を含む構成とすることができる。

　本開示によれば、培養データを解析して得られる情報を基に予測対象が適切に限定され、有用物質を産生するクローンの産生安定性を高精度に予測することが可能になる。また、本開示によれば、予測対象が限定されることにより、産生安定性の予測コストを抑制でき、低コストで予測が可能である。

図１は、抗体医薬品の生産工程の概要を示す説明図である。図２は、クローンによる抗体産生量の変化の例を示すグラフである。図３は、本実施形態によって実現される安定性予測ＡＩ（Artificial Intelligence）の役割を概説する説明図である。図４は、遺伝子発現データを基に産生安定性を予測する機械学習モデルの概念図である。図５は、本実施形態に係るクローンの産生安定性予測方法の概要を示す説明図である。図６は、モデルの訓練および評価に用いるデータセットの例を示す図表である。図７は、培養データのある指標による対象の絞り込みの例を示すグラフである。図８は、評価サンプルとして用意した５種類の抗体産生ＣＨＯ細胞のクローン数と安定性ラベルの付与例を示す図表である。図９は、各抗体種において抗体生産量の値が相対順位の上位４０％に該当するクローン数と安定性ラベルの付与例を示す図表である。図１０は、各抗体種において積分生存細胞密度の値が相対順位の上位６０％に該当するクローン数と安定性ラベルの付与例を示す図表である。図１１は、各抗体種において乳酸濃度の値が相対順位の上位４０％に該当するクローン数と安定性ラベルの付与例を示す図表である。図１２は、実施形態に係る情報処理装置の機能的構成を示すブロック図である。図１３は、情報処理装置のハードウェア構成の例を示すブロック図である。図１４は、産生安定性予測モデルを生成するための機械学習の処理を実行する機械学習装置のハードウェア構成の例を示すブロック図である。図１５は、機械学習装置が実行する機械学習方法の例を示すフローチャートである。図１６は、実施形態に係る情報処理装置が実行する情報処理方法の例を示すフローチャートである。

　以下、添付図面に従って本発明の好ましい実施形態について詳細に説明する。

　《抗体医薬品の生産工程の概要》
　バイオ医薬品の中でも薬効面と安全面の両立性の高さから市場が拡大している抗体医薬品は、複雑な構造を持つタンパク質である抗体を安定的に産生できる動物細胞のクローンを用いて生産されている。以下では、有用物質として抗体を例にとり説明する。図１は、抗体医薬品の生産工程の概要を示す説明図である。抗体医薬品を生産するまでのプロセスは、［１］クローン作製フェーズと、［２］プロセス開発フェーズと、［３］ＧＭＰ（Good Manufacturing Practice）製造フェーズと、を含む。

　クローン作製フェーズは、抗体医薬品の生産に適した動物細胞に対して、ベクターを加えて遺伝子組み換えを行い、複数のクローンの候補を作製する工程と、これら複数の候補の中から、抗体の産生量、細胞増殖性、繰り返し増殖しても細胞特性が変化しない品質安定性などの点で優れたクローンをスクリーニングする工程と、を含む。

　プロセス開発フェーズは、スクリーニングしたクローンを用いて、ＧＭＰ製造に必要な生産プロセス（培養条件、精製条件など）を開発するフェーズである。

　ＧＭＰ製造フェーズでは、確立した生産プロセスのもと、クローンを培養して増殖させ、クローンに抗体を産生させる。さらに、その抗体を精製して製剤化することにより、抗体医薬品が出来上がる。

　抗体をクローンに産生させる場合、長期間にわたってその産生性が変化しないこと（安定であること）が求められている。そのため、なるべく多種類のクローンを作製しておき、そこから産生性が安定なクローンを選抜することが行われるが、従来は、数か月の連続培養を要する実験的な検証が必要なため、負荷が高くなっている。

　図２は、クローンによる抗体産生量の変化の例を示すグラフである。縦軸は抗体の産生性を表し、横軸は経過時間（タイムポイント）を表す。「抗体の産生性」は、クローンが産生する抗体の単位時間当たりの抗体産生量で表される。

　図２には、クローンが産生する抗体の量が長期間（２～３か月）にわたってどのくらい変化するかをプロットしたグラフが示されている。グラフＧ１は、産生性が安定しているクローンについての抗体産生量の変化を示すグラフである。グラフＧ２は産生性が不安定なクローンについての抗体産生量の変化を示すグラフである。グラフＧ１に示すように、産生性が安定しているクローンは、現時点から２～３か月経過しても産生性が概ね変わらず、現時点と概ね変わらない産生性を維持することができる。これに対し、グラフＧ２に示すように、産生性が不安定なクローンは２～３か月の間に次第に産生性が低下する。

　本発明では、「現時点」とは、２週間の規格試験時点、または、規格試験の終了した時点、すなわち、産生安定性を判別するための培養が開始される時点である。また、「現時点の抗体の産生性」とは、２週間の規格試験におけるクローンが産生する単位時間あたりの抗体産生量である。

　遺伝子導入により抗体を産生する細胞を作った場合に、図２に示すように、安定なクローンと不安定なクローンとの両方のものが作られてしまう。したがって、クローン作製フェーズにおいては、多種類のクローンを作製し、その中からグラフＧ１のような振る舞いを示す産生性が安定なクローンを選抜することが行われる。

　図２のような産生性の振る舞いは、クローンの種類によって様々であり、従来は、クローンに作らせる抗体の種類が変わる度に、図２と同じような実験を行ってそれぞれのクローンの産生安定性を評価しなければならなかった。

　これに対し、本開示の実施形態では、現時点におけるクローンから得られる情報を基に、数か月先の抗体の産生安定性を精度よく予測する仕組みを提案する。ここで、「現時点におけるクローンから得られる情報」とは、２週間の規格試験においてクローンから得られる情報である。予測の目的変数である抗体の産生安定性とは、現時点と数か月の期間培養後との抗体の産生量の変化の有無で定義することができる。ここでの「数か月」とは例えば２か月以上の期間であり、例示的には２～３か月であってよい。また、継代を所定の回数行うまでの期間としてもよい。期間の設定は、クローンの増殖能力に基づいて決めてもよいし、実際に抗体の製造を行う際のクローンの培養期間に基づいて決めてもよい。「現時点」は図２のグラフの左端に示す培養初期の時点、つまり、２週間の規格試験が終了した時点であり、抗体の産生安定性を判別するための培養が開始される時点である。産生性が「安定」であるとは、現時点と数か月先とで抗体の産生量の変化がないことである。「変化がない」とは、変化の量が許容範囲内であり、実質的に変化がないものと見なしうる場合を含む。産生性が「不安定」であるとは、現時点と数か月先とで抗体の産生量の変化があること、多くの場合は産生量が低下することである。産生性の変化があるとみなす閾値は、任意に設定できるが、例えば現時点の産生量に対して±３０％や±２０％であってよい。

　《未知クローンへの汎化性能について》
　図３は、本実施形態によって実現される安定性予測ＡＩ（Artificial Intelligence）の役割を説明する説明図である。図３に示すように、クローン作製フェーズでは、宿主細胞に対して、作りたい有用物質の遺伝子の設計図を導入する遺伝子導入が行われる。例えば、宿主細胞に対して有用物質Ａを作る設計図を遺伝子導入した場合は、有用物質Ａを産生する細胞が得られる。このような産生細胞は確率的にできるため、有用物質Ａを産生しない細胞や産生量が不十分な細胞も作られてしまう。このため、まずはこの段階で簡便な試験を行い、有用物質Ａを十分に産生し得る高産生なクローンを選抜することが行われる。

　その後、従来であれば、図２で説明したように、２～３か月間の安定性試験を行い、数か月にわたって有用物質Ａを作り続けられるかどうかを確認し、産生安定性のあるクローンを選抜する。

　本実施形態では、従来の安定性試験に代替する手段として、安定性予測ＡＩを構築し、現時点でのクローンの状態、つまり２週間の規格試験におけるクローンの状態を測定して得られるプロファイルを基に、安定性予測ＡＩによって２～３か月後の状態（産生性の変化）を予測する。

　細胞に産生させる有用物質（例えば抗体）の種類は、目的によって多種多様であることから、細胞が産生する有用物質の種類によらず、産生安定性を予測できるモデルを構築することが望まれる。すなわち、未知の抗体種に対してロバストに抗体産生安定性を予測するモデルが好ましい。

　安定性予測ＡＩに適用するモデルを学習する際には、対象とする有用物質を事前に知ることはできず、モデルの学習時に使用した有用物質の種類と、学習後にモデルに予測させる対象のクローンが産生する有用物質とは別の種類となり得る。つまり、未知の有用物質種に対してロバストに産生安定性を精度よく予測するモデルが好ましく、有用物質種をドメインとしたドメイン汎化性のある予測モデルを構築することが好ましい。

　《産生安定性を予測する機械学習モデルの概要》
　本実施形態では、クローン作製フェーズにおいて、現時点のクローンの情報から、２～３か月先の産生性の変化の有無を推定（予測）すること、すなわち、有用物質の産生安定性を予測することを可能とする安定性予測ＡＩを構築する。より具体的には、クローンの現時点（規格試験時）の遺伝子発現データの入力を受けて有用物質の産生安定性を示す安定性ラベルを出力するモデルを構築する。より詳しくは、クローンの一部を規格試験に用いるクローンとし、別の一部を遺伝子発現データの取得のための遺伝子解析にかけるクローンとすることで、規格試験に用いるクローンの遺伝子発現データを取得する。安安定性ラベルは、「安定」であることを示す値の「１」または「不安定」であることを示す値の「０」の２値で表すことができる。産生安定性を予測する予測モデルは、「安定」または「不安定」のクラス分類を行う２クラス分類モデルであってよい。

　遺伝子発現データは、１つ以上の遺伝子レベルを含む。本実施形態に用いる遺伝子発現データは、複数の遺伝子のそれぞれの遺伝子発現レベルを数値化したデータを含む。遺伝子発現データは、例えば、ＲＮＡ（ribonucleic acid）シーケンス解析によって得ることができる。遺伝子発現量を示す値は、例えば、正の整数をとるカウント値であり、対数変換して特徴量として用いることができる。

　図４は、遺伝子発現データを基に産生安定性を予測する機械学習モデルＭＬＭの概念図である。図４の矩形枠ＲＦ１の内側には、訓練データのデータセットの例が示されている。図４では、複数のクローンＡ～Ｎのそれぞれの現時点（規格試験時）の遺伝子発現データをヒートマップによって可視化した遺伝子発現パターンＧＥＰとして表している。遺伝子発現パターンＧＥＰの横軸は遺伝子の種類を表しており、複数の遺伝子のそれぞれの遺伝子発現レベルが２色のグラデーション（ヒートマップ）によって表現されている。遺伝子発現データに含まれる遺伝子ａ，ｂ，ｃ，ｄ・・・の種類数は、例えば安定なクローンと不安定なクローンについて全遺伝子発現データを取得し、安定なクローンと不安定なクローン間の２群の統計学的な有意確率を用いて選択した３００～４００種類が好ましい。さらに遺伝子の種類数を絞り込む場合は、選択した遺伝子を用いて遺伝子の種類数を増減させながら機械学習モデルＭＬＭを実際に訓練し、予測性能が高くなる種類数を探索して、例えば５０～１００種類の遺伝子に絞り込むことが好ましい。なお、ここでは全遺伝子発現データを取得したが、必ずしも全遺伝子発現データを取得する必要はなく、無作為に一部の遺伝子を選択し、その遺伝子発現データを取得してもよい。図示の制約上ヒートマップの色を表現できないため、代わりに、赤を「Ｒ」、青を「Ｂ」、白を「Ｗ」と表示している。赤（Ｒ）は、遺伝子発現レベルが相対的に高いことを表し、青（Ｂ）は遺伝子発現レベルが相対的に低いことを表す。白（Ｗ）は、遺伝子発現レベルが中間的な値であることを表す。

　複数のクローンＡ～Ｎのそれぞれは、規格試験後の数か月間の培養による実験的検証に基づき、「安定」または「不安定」であることが確認されており、各クローンＡ～Ｎに対して「安定」または「不安定」を示す安定性ラベル（正解ラベル）が付与されている。こうして、複数のクローンＡ～Ｎのそれぞれの現時点の遺伝子発現データと正解の安定性ラベルとが関連付け（紐付け）された複数の訓練データを含むデータセットが用意される。そして、複数の訓練データを用いて機械学習モデルＭＬＭを訓練し、機械学習モデルＭＬＭに安定または不安定の遺伝子パターンを学習させる。こうして訓練された学習済み（訓練済み）の機械学習モデルＭＬＭに対して、未知のクローンＸの現時点（規格試験時）の遺伝子発現データを入力すると、機械学習モデルＭＬＭは入力された遺伝子発現データから産生安定性を予測し、「安定」または「不安定」のラベルを予測結果として出力する。なお、図４では、未知のクローンＸに対して、機械学習モデルＭＬＭが「安定」であると予測した例が示されている。

　《実施形態の概要：予測対象を限定して有用物質の産生安定性を予測するモデルを構築する》
　有用物質を産生するクローンには様々な特性があるため、種類を問わず全てのクローンの産生安定性を高精度に予測することは難しい。本実施形態では、現時点（規格試験時）の各クローンの培養データから得られる指標に基づき予測対象を限定することにより、高精度な予測を実現する。ここで培養データとは、クローンについて培養装置あるいは細胞を含む培養液を一部サンプリングして専用装置を用いて測定できる一般的なデータである。

　図５は、本実施形態に係るクローンの有用物質の産生安定性予測方法の概要を示す説明図である。図５の左図Ｆ５Ａには予測対象を限定しない場合の比較例を示し、図５の右図Ｆ５Ｂに本実施形態による方法の概要を示す。

　左図Ｆ５Ａの予測対象を限定しない場合について説明する。左図Ｆ５Ａの矩形枠ＲＦ２内には、有用物質Ａ～Ｄを産生する複数種類のクローンの訓練データを含むデータセットＤＳｃが模式的に示されている。このデータセットＤＳｃは、各有用物質Ａ～Ｄについて５クローンずつ、計２０クローンの訓練データを含む。ここで訓練データは、２０クローンについて、それぞれの規格試験時の遺伝子発現データと正解の安定性ラベルとが関連付け（紐付け）されたデータである。図５の各クローンの下部に表示している「９」、「７」、「６」などの値は、規格試験時の各クローンのある培養データの測定値を表している。なお、測定値ではなく、測定値から取得できる各クローンにおける相対的なレベルを表してもよい。ここでは、左図Ｆ５Ａについて説明したが、右図Ｆ５Ｂについても同様である。

　左図Ｆ５Ａでは、訓練データを限定せずに、データセットＤＳｃの全ての訓練データを用いて機械学習モデルＭＬＭｃを訓練し、学習済み（訓練済み）のモデルを用いて未知の有用物質Ｘを産生する複数種類のクローンの産生安定性を予測することを示している。この場合、予測対象である未知の有用物質Ｘを産生する複数種類のクローンについても特に限定せず、矩形枠ＲＦ３内に示すように、未知の有用物質Ｘを産生する５種類のクローンのすべてを対象に産生安定性の予測を行う。産生安定性の予測は、未知の有用物質Ｘを産生する５種類のクローンのすべてに対して、現時点（規格試験時）の遺伝子発現データを取得し、学習済み（訓練済み）のモデルに入力することで行うが、その予測精度は低い。

　次に右図Ｆ５Ｂの本実施形態による方法について説明する。左図Ｆ５Ａの予測対象を限定しない方法に対し、右図Ｆ５Ｂに示す方法では、規格試験時のある培養データの値を指標にして予測対象を限定する。まず、ある培養データの値に注目して閾値を決め、データセットＤＳｄに含まれるクローンの集団をグループ分けする。例えば、指標とする培養データの値が閾値に対して相対的に大きいものと、小さいものとの２つのグループに分ける。ここでは閾値を「５」とし、指標とする培養データの値が「５」以上である集団を訓練の対象とし、培養データの値が「５」より小さい集団は対象外とする例を示している。この閾値処理により、矩形枠ＲＦ４内に示すように各有用物質Ａ～Ｄについて３クローンずつ、計１２クローンの訓練データを対象として残し、これら限定された集団の訓練データを含むデータセットＤＳｅを機械学習モデルＭＬＭｅの訓練に用いる。その一方、破線の矩形枠ＲＦ５内に示す８クローンの訓練データ、すなわち、閾値の条件を満たしていないクローンの訓練データは処理の対象外とする。

　こうして、対象が限定されたデータセットＤＳｅを用いて機械学習モデルＭＬＭｅを訓練する。そして、学習済みのモデルを用いて未知の有用物質Ｘを産生するクローンの産生安定性を予測する際にも、その予測対象のクローンは、モデルの訓練に用いたデータセットＤＳｅのクローンの集団と同じように、指標とする培養データの値について閾値を適用し、閾値による限定条件を満たすもの（指標の値が閾値より上位の集団）に限定して予測を行う。矩形枠ＲＦ６内に示す３種類のクローンは、予測対象に該当するクローンを表している。また、破線の矩形枠ＲＦ７内に示す２種類のクローンは、予測対象外のクローンを表している。このように予測対象を限定して予測を行うことにより、高い予測精度を実現できる。さらに、破線の矩形枠ＲＦ７内に示す予測対象外のクローンは、遺伝子発現データ取得が不要であることから、遺伝子解析のコストを抑制できる。

　《訓練および評価に用いるデータセットの例》
　図６に、モデルの訓練および評価に用いるデータセットの例を示す。図６の上段には、有用物質としての抗体Ａを産生するクローンについてのデータセットＤＳＡの例を示し、下段には有用物質としての抗体Ｂを産生するクローンについてのデータセットＤＳＢの例を示す。図示は省略するが、有用物質としての他種類の抗体を産生するクローンについてのデータセットも同様である。

　データセットＤＳＡは、複数のクローンＡＣＬｊのそれぞれについて測定された規格試験時の培養データと、規格試験時の遺伝子発現データと、安定性試験によって得られた正解の安定性ラベルとを含む。添字のｊは、クローンを識別するインデックス番号を表す。培養データは、例えば、抗体産生量、積分生存細胞密度（integral viable cell density：ＩＶＣＤ）、乳酸濃度、ｐＨなど１つ以上の項目を含んでよい。培養データは、培養装置あるいは細胞を含む培養液を一部サンプリングして専用装置を用いて測定できる一般的なデータであってよく、例えば、細胞総数、細胞分泌物質の量、細胞産生物質の量、細胞代謝物質の量および培地成分量のうち１つ以上を含んでいてもよい。図６に示す表の各セル内の文字記号（添字ｊを付した記号）は、対応するデータ項目の値を表している。

　データセットＤＳＢについても同様である。データセットＤＳＡに含まれるクローンＡＣＬｊの個数ｎａとデータセットＤＳＢに含まれるクローンＢＣＬｊの個数ｎｂは異なっていてよい。

　このように用意された複数のドメイン（有用物質種）のデータセットからある培養データの指標に注目して対象の絞り込み（限定）を行う。

　《予測対象の絞り込みの例》
　図７は、培養データのある指標による予測対象の絞り込みの例を示すグラフである。横軸に、複数の有用物質Ａ～Ｅのそれぞれを産生する複数種類のクローンが並んでいる。縦軸は、規格試験時の培養データより得られたある指標の値である。なお、図７に示すクローンは、モデルの訓練（学習）に用いるクローンである。

　図７に示すように、産生する有用物質種の異なるクローンによって、培養データより得られたある指標の分布範囲が異なることがある。この場合、図５で説明したように、指標の値に対して閾値を決め、その閾値との相対的な大小関係に基づいてクローンを２つの集団に分け、訓練に用いるクローンの集団と訓練の対象外とするクローンの集団とを決めたのでは、産生する有用物質種によって訓練の対象となるクローンの数にバラツキがでてしまう。例えば、指標の閾値を２．５とし、閾値以上の値のクローンの集団を訓練に用いるとした場合、有用物質Ｂを産生するクローンは訓練に使用しないことになってしまう。

　そこで、例えば、図７に示すように、各有用物質Ａ～Ｄを産生するクローンについて、培養データより得られるある指標の相対的上位Ｘ％（Ｔｏｐ－Ｘ％）に訓練対象を限定するとしてもよい。ここで相対的上位Ｘ％とは、各有用物質Ａ～Ｄのそれぞれを産生するクローンの集団において、培養データより得られるある指標について降順に並べたときの上位Ｘ％（Ｔｏｐ－Ｘ％）を意味する。限定条件となる閾値に相当する「Ｘ％」という基準は、各有用物質Ａ～Ｅからのサンプリングの数が概ね同じ位の数になるように調整されることが好ましい。相対的上位Ｘ％は本開示における「指標の値の順位を用いて定義される閾値」の一例である。

　このように訓練対象を限定しても、その中に産生性が安定なクローンと不安定なクローンとが存在し得る。そして、学習（訓練）済みモデルを用いて未知の有用物質Ｙを産生するクローンの産生安定性を予測する際にも、その予測対象のクローンは、モデルの訓練に用いたクローンと同じように、培養データより得られるある指標に関して上位Ｘ％のクローンに限定して予測を行う。

　ここでは、複数の有用物質Ａ～Ｅのそれぞれを産生する複数種類のクローンをモデルの訓練に用いたが、必ずしも異なる有用物質を産生するクローンを複数種類用いる必要はなく、例えば、有用物質Ａを産生するクローンのみを訓練に用いてもよい。この場合、訓練に用いるクローンの集団の限定方法は、規格試験時のある培養データの値に注目して閾値を設定し、閾値との相対的な大小関係に基づいて行ってもよいし、規格試験時の培養データより得られたある指標の値に関して上位Ｘ％としてもよい。また、相対的上位Ｘ％としたが、培養データより得られたある指標によっては、相対的下位Ｘ％としてもよい。

　予測対象を限定する際の培養データの指標と閾値は、用意されたデータセットから、試行錯誤的に仮説と検証とを繰り返す作業によって決定されてもよい。あるいはまた、予測対象を限定する際の培養データの指標と閾値は、用意されたデータセットから探索的な解析を行うことにより決定することができる。

　例えば、図７に示すような５つの有用物質Ａ～Ｅ（ドメイン）のデータセットが存在する場合、プロセッサを含む情報処理装置により、フィルタ法（Filter Method）などの特徴選択の手法を用いて、５つのドメインのそれぞれにおいて各特徴量と目的変数（安定性ラベル）との関連度をそれぞれ評価し、５ドメイン中例えば４ドメイン以上で関連度が高い特徴量をドメイン普遍性が高い特徴量とする。情報処理装置は、全データの中からある指標に着目して特定の条件を満たすデータをサブセットとして抽出し、抽出したサブセットについて、ドメイン普遍性が高い特徴量の個数を基にドメイン汎化性評価を行う。ドメイン普遍性が高い特徴量の個数が多い場合、ドメイン汎化性の高いサブセットと評価される。ドメイン汎化性の高いサブセットのデータを訓練データとして用いて予測モデルの学習（訓練）を行うことにより、学習済みのモデルは、学習時と同様の条件で対象を限定した集団（サブセット）に対しては、他のドメイン（有用物質種）に対してもロバストに産生安定性を予測可能である。

　抗体産生クローンの場合、予測対象の限定に有効な培養データの指標は、例えば、抗体産生量、積分生存細胞密度、乳酸濃度などであり、これらのいずれかの指標の値の上位集団を対象とすることで、高精度の産生安定性予測が可能であることが確認された。

　《有用物質の例》
　有用物質は、抗体に限らず、抗体様タンパク質であってもよい。有用物質は、医薬品原料であるタンパク質、ペプチド、およびウイルスのうちいずれかであってよい。

　《クローンの例》
　有用物質を産生するクローンは、脊椎動物由来細胞であってよい。クローンは、例えば、哺乳類由来細胞であってよい。クローンは、ＣＨＯ細胞またはＨＥＫ細胞であってもよい。

　《実施例》
　以下、本開示の技術を適用した実施例１～３を説明する。各実施例１～３に共通する構成は次の通りである。すなわち、有用物質を抗体とし、産生細胞をＣＨＯ細胞とする。評価サンプルとして５種類の抗体産生ＣＨＯ細胞のクローンについて、それぞれ複数種のクローンを用意し、ＲＮＡシーケンス（ＲＮＡ-Ｓｅｑ）解析にて２週間の規格試験にて測定した全遺伝子発現レベルから１００種類の遺伝子発現レベルを選択して説明変数とし、安定または不安定の２クラスに分類するロジステック回帰モデルを学習器とした、５分割クロスバリデーションを実施して予測モデルの訓練（学習）を行い、性能評価はＰＲＡＵＣ（Area Under the Precision-Recall Curve）を用いた例を示す。説明変数に用いる遺伝子発現レベルの種類数は、実施例１～３において、統計学的な有意確率を用いて選択した３００～４００種の遺伝子を用いて、種類数を増減させながら予測モデルの訓練（学習）を実際に行い、予測性能が高くなる種類数を探索することで１００種類とした。なお、規格試験は、クローン（ＣＨＯ細胞）の播種数は５×１０＾５cells/mL、４０mLのフラスコで浮遊培養で行った。

　５分割クロスバリデーションは、５種類の抗体種ごとに分割して、未学習の抗体種による性能を評価した。すなわち、４種類の抗体種のデータセットを訓練（学習）用のデータとして用い、残りの１種類の抗体種のデータセットを性能評価用のテストデータとして用いた。

　図８は、評価サンプルとして用意した５種類の抗体産生ＣＨＯ細胞のクローン数と安定性ラベルの付与例を示す図表である。評価サンプルとして５種類の抗体産生細胞を１８２クローン用意し、規格試験と同様の条件で２か月細胞培養することで、各クローンに対して安定性ラベル（「安定」または「不安定」）を付与した（図８参照）。例えば、抗体Ａを産生するクローンは計２４クローンあり、そのうち「安定」のラベルが付与されたものが７クローン、「不安定」のラベルが付与されたものが１７クローンである。また、１８２クローンのそれぞれについて、規格試験時に培養データと遺伝子発現データを取得し、クローン毎に遺伝子発現データと安定性ラベルとか紐付けされ、訓練データを構成している。

　［実施例１］
　実施例１では、予測対象を「相対的高産生なクローン」に限定した安定性予測を行う例を説明する。ここで、「相対的高産生なクローン」とは、有用物質の産生量が相対的に高いクローンを意味する。

　予測対象を「相対的高産生なクローン」に限定した安定性予測を行う際の、予測モデルの訓練に用いる訓練対象のクローンの限定方法について説明する。なお、訓練対象のクローンを限定することは、訓練において予測モデルに予測させる対象のクローンを限定すること、つまり予測モデルによる予測対象のクローンを限定することに相当する。

　訓練対象のクローンの限定方法は、全１８２クローンの規格試験時の培養データから「抗体産生量」に注目し、予測モデルでの予測性能が高くなるように閾値を探索して、各抗体種で相対順位の上位４０％のクローンに限定する方法とした。ここで、「抗体産生量」は、例えば規格試験における２週間（１４日間）の抗体産生量の積算量とすることができる。または、規格試験中のある期間、例えば期間、例えば１０日間の抗体産生量の積算量としてもよく、計測期間で除算して単位時間あたりの抗体産生量としてもよい。「上位４０％」は閾値の一例である。図９は、各抗体種において抗体生産量の値が相対順位の上位４０％に該当するクローン数と安定性ラベルの付与例を示す図表である。

　図９には、各抗体種において相対順位の上位４０％に該当する計７３クローンの例が示されている。図９に示す７３クローンの規格試験時の遺伝子発現データと安定性ラベルとが紐付けされた訓練データを含む抗体種ごとのデータセットを用いて５分割クロスバリデーションを実施した。このように訓練対象を限定した結果、学習済みの予測モデルの予測性能はＰＲＡＵＣの値が０.７４３となった。なお、学習済みの予測モデルを用いて未知の有用物質の産生安定性を予測する際の予測対象のクローンについても、訓練対象の限定と同様に規格試験時（現時点）の培養データを解析し、「抗体産生量」の上位４０％に限定して予測を行うこととする。

　［比較例］
　これに対し、訓練対象を限定せずに、図８に示す１８２クローンの全データを含むデータセットを用いて、同様の学習を行い、５分割クロスバリデーションを実施した場合に得られる比較例に係る予測モデルの予測性能はＰＲＡＵＣの値が０.５０３であった。なお、予測対象は、訓練対象と同様に対象を限定せずに行うこととする。実施例１によって予測対象を限定した予測モデルの性能は、比較例に係る予測モデルよりも高精度であることが確認された。

　この結果は、実施例１の方法により生成される予測モデルを用いて、未知の有用物質に対して高精度に予測可能であることを示すと同時に、相対的に高産生なクローンに限定することは有用物質の産生クローンの選抜工程において全く障害にならず、高精度で予測できる対象に限定することにおり低コストで実施可能なため、本開示による安定性予測は実用可能であると考えられる。

　［実施例２］
　実施例２では、予測対象を「相対的に細胞密度の高いクローン」に限定した安定性予測を行う例を説明する。まず、予測対象を「相対的に細胞密度の高いクローン」に限定した安定性予測を行う際の、予測モデルを訓練するための訓練対象のクローンの限定方法について説明する。実施例１と同様に、図８に示す全１８２クローンの規格試験時の培養データから「積分生存細胞密度（ＩＶＣＤ）」に着目し、予測モデルでの予測性能が高くなるように閾値を探索して、各抗体種で相対順位の上位６０％のクローンに限定する方法とした。ここで、「相対的に細胞密度の高いクローン」は、例えば規格試験における２週間（１４日間）の「積分生存細胞密度（ＩＶＣＤ）」に基づいて取得することができる。または、規格試験中のある期間、例えば１０日間の「積分生存細胞密度（ＩＶＣＤ）」に基づいて取得してもよい。「上位６０％」は閾値の一例である。図１０は、各抗体種において積分生存細胞密度の値が相対順位の上位６０％に該当するクローン数と安定性ラベルの付与例を示す図表である。

　図１０には、各抗体種において相対順位の上位６０％に該当する計１０９クローンの例が示されている。図１０に示す１０９クローンの規格試験時の遺伝子発現データと安定性ラベルとが紐付けされた訓練データを含む抗体種ごとのデータセットを用いて５分割クロスバリデーションを実施した。このように訓練対象を限定した結果、学習済みの予測モデルの予測性能はＰＲＡＵＣの値が０.６４７となった。すなわち、実施例２によって予測対象を限定した予測モデルの性能は、対象を限定しない比較例に係る予測モデルのＰＲＡＵＣ（０．５０３）よりも高精度であることが確認された。なお、学習済みの予測モデルを用いて未知の有用物質の産生安定性を予測する際の予測対象のクローンについても、訓練対象の限定と同様に規格試験時（現時点）の培養データを解析し、「積分生存細胞密度（ＩＶＣＤ）」の上位６０％に限定して予測を行うこととする。

　この結果は、実施例２の方法により生成される予測モデルを用いて未知の有用物質に対して高精度に予測可能であることを示すと同時に、相対的に生存細胞密度が高いクローンに限定することは有用物質の産生クローンの選抜工程において障害にならず、高精度で予測できる対象に限定することにより低コストで実施可能なため、本開示による安定性予測は実用可能であると考えられる。

　［実施例３］
　実施例３では、「相対的に乳酸濃度の高いクローン」に限定した安定性予測を行う例を説明する。まず、予測対象を「相対的に乳酸濃度の高いクローン」に限定した安定性予測を行う際の、予測モデルを訓練するための訓練対象のクローンの限定方法について説明する。実施例１と同様に、図８に示す全１８２クローンの２週間の規格試験の培養データからクローンを培養している培養液の「乳酸濃度」に着目し、２週間（１４日間）の内の各時点、例えば一日毎に測定された培養液の「乳酸濃度」の中央値を代表値として、各クローンの「乳酸濃度」を取得する。そして、予測モデルでの予測性能が高くなるように閾値を探索して、各抗体種で相対順位の上位４０％のクローンに限定する方法とした。「上位４０％」は閾値の一例である。図１１は、各抗体種において乳酸濃度の値が相対順位の上位４０％に該当するクローン数と安定性ラベルの付与例を示す図表である。

　図１１は、各抗体種において相対順位の上位４０％に該当する計７２クローンの例が示されている。なお、図９と比較してクローンの数が１クローン少ない理由は、乳酸濃度の測定において、１クローンのデータ欠損があったためである。

　図１１に示す７２クローンの規格試験時の遺伝子発現データと安定性ラベルとが紐付けされた訓練データを含む抗体種ごとのデータセットを用いて５分割クロスバリデーションを実施した。このように対象を限定した結果、学習済みの予測モデルの予測性能はＰＲＡＵＣの値が０.６１３となった。すなわち、実施例３によって予測対象を限定した予測モデルの性能は、対象を限定しない比較例に係る予測モデルのＰＲＡＵＣ（０．５０３）よりも高精度であることが確認された。なお、学習済みの予測モデルを用いて未知の有用物質の産生安定性を予測する際の予測対象のクローンについても、訓練対象の限定と同様に規格試験時（現時点）の培養データを解析し、「乳酸濃度」の上位４０％に限定して予測を行うこととする。

　この結果は、未知の有用物質に対して高精度に予測可能であることを示すと同時に、相対的に乳酸濃度が高いクローンに限定することは有用物質の産生クローンの選抜工程において障害にならず、高精度で予測できる対象に限定することにより低コストで実施可能なため、本開示による安定性予測は実用可能であると考えられる。

　《情報処理装置の構成例》
　図１２は、実施形態に係る情報処理装置１０の機能的構成を示すブロック図である。情報処理装置１０は、データ取得部１２と、予測対象限定部１４と、産生安定性予測モデル１６と、処理結果出力部１８と、を備える。情報処理装置１０の各種機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。情報処理装置１０の物理的形態は特に限定されず、サーバコンピュータであってもよいし、ワークステーションであってもよく、パーソナルコンピュータあるいはタブレット端末などであってもよい。

　データ取得部１２は、有用物質を産生するクローンについての１種類以上のクローンの培養データおよび遺伝子発現データを含む各種データを取得する。

　予測対象限定部１４は、培養データ解析部２０と、限定条件判定部２２とを含み、入力された１種類以上のクローンの培養データを解析して予測対象のクローンを限定する。培養データ解析部２０は、培養データの解析を行う。限定条件判定部２２は、培養データの解析結果を基に、閾値により対象を限定する。なお、説明の便宜上、培養データ解析部２０と限定条件判定部２２とを分けて記載しているが、限定条件判定部２２は培養データ解析部２０に含まれていてもよい。また、培養データ解析部２０が予測対象限定部１４として機能すると理解してもよい。

　培養データ解析部２０は、入力されたデータセットから予測対象を限定するための指標と閾値とを決定する処理を実行し得る。なお、予測対象の限定条件となる指標と閾値については、培養データ解析部２０による解析結果に基づいて設定されてもよいし、不図示の別の情報処理装置等を用いた探索処理の結果などによって事前に把握されている既知の情報として予測対象限定部１４に設定されてもよい。

　産生安定性予測モデル１６には、機械学習モデルが適用される。産生安定性予測モデル１６は、予測対象であるクローンの現時点の遺伝子発現データの入力を受け付けて、入力された遺伝子発現データを基にクローンの産生安定性を予測して安定性ラベルを出力する２クラス分類モデルであってよい。産生安定性予測モデル１６は、図５の右図Ｆ５Ｂにて説明した方法により対象を限定した訓練データを用いて訓練される。産生安定性予測モデル１６に入力される遺伝子発現データは、１つ以上の遺伝子発現レベルを含む。産生安定性予測モデル１６に入力される遺伝子発現データには、複数の遺伝子の発現レベルのデータが含まれていてもよい。説明変数として用いる特徴量は、公知の特徴量選択の手法により選択されてもよい。

　処理結果出力部１８は、産生安定性予測モデル１６の予測結果を含む処理結果を出力する。処理結果出力部１８は、例えば、処理結果を表示させる処理、処理結果をデータベース等に記録する処理、および処理結果を印刷させる処理のうち少なくとも１つの処理を行う構成であってよい。

　図１３は、情報処理装置１０のハードウェア構成の例を示すブロック図である。ここでは、１台のコンピュータを用いて情報処理装置１０の処理機能を実現する例を述べるが、情報処理装置１０の処理機能は、複数台のコンピュータを用いて構成されるコンピュータシステムによって実現してもよい。

　情報処理装置１０は、プロセッサ１０２と、非一時的な有体物であるコンピュータ可読媒体１０４と、通信インターフェース１０６と、入出力インターフェース１０８と、バス１１０と、を備える。プロセッサ１０２は、バス１１０を介してコンピュータ可読媒体１０４、通信インターフェース１０６および入出力インターフェース１０８と接続される。

　プロセッサ１０２はＣＰＵ（Central Processing Unit）を含む。プロセッサ１０２はＧＰＵ（Graphics Processing Unit）を含んでもよい。コンピュータ可読媒体１０４は、主記憶装置であるメモリ１１２および補助記憶装置であるストレージ１１４を含む。コンピュータ可読媒体１０４は、例えば、半導体メモリ、ハードディスク（Hard Disk Drive：ＨＤＤ）装置、もしくはソリッドステートドライブ（Solid State Drive：ＳＳＤ）装置またはこれらの複数の組み合わせであってよい。コンピュータ可読媒体１０４は本開示における「記憶装置」の一例である。

　コンピュータ可読媒体１０４は、１種類以上のクローンの培養データおよび遺伝子発現データなどの各種のデータを記憶するデータ記憶領域１２０を含む。また、コンピュータ可読媒体１０４には、予測対象限定プログラム１４０、産生安定性予測モデル１６、処理結果出力プログラム１８０および表示制御プログラム１９０を含む複数のプログラム、並びにデータ等が記憶される。「プログラム」という用語はプログラムモジュールの概念を含み、プログラムに準じる命令を含む。プロセッサ１０２は、コンピュータ可読媒体１０４に記憶されたプログラムの命令を実行することにより、各種の処理部として機能する。

　予測対象限定プログラム１４０は、培養データを解析して予測対象を限定する処理を実行させる命令を含む。予測対象限定プログラム１４０は、培養データ解析プログラム１４２と限定条件判定プログラム１４４とを含んで構成されてもよい。培養データ解析プログラム１４２は、１種類以上のクローンの培養データを解析する処理を実行させる命令を含む。培養データ解析プログラム１４２は、データセットから予測対象を絞り込むための指標と閾値を探索する処理を実行させる命令を含んでもよい。

　限定条件判定プログラム１４４は、培養データ解析プログラム１４２の解析結果を利用し、限定条件として定められた指標と閾値に基づいて予測対象を限定する処理を実行させる命令とを含む。

　産生安定性予測モデル１６は、限定条件を満たす予測対象に係るクローンの遺伝子発現データの入力を受け付けて、産生安定性を予測する処理を実行させる命令を含む。

　処理結果出力プログラム１８０は、産生安定性予測モデル１６によって予測された産生安定性を含む処理結果を出力する処理を実行させる命令を含む。表示制御プログラム１９０は、表示装置１５４への表示出力に必要な表示用信号を生成し、表示装置１５４の表示制御を実行させる命令を含む。

　通信インターフェース１０６は、有線または無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行う。情報処理装置１０は、通信インターフェース１０６を介して不図示の通信回線に接続される。通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよく、これらの組み合わせであってもよい。通信インターフェース１０６は、データの入力を受け付けるデータ取得部の役割を担うことができる。

　情報処理装置１０は、入力装置１５２と、表示装置１５４とを備えていてもよい。入力装置１５２は、例えば、キーボード、マウス、マルチタッチパネル、もしくはその他のポインティングデバイス、もしくは、音声入力装置、またはこれらの適宜の組み合わせによって構成される。表示装置１５４は、例えば、液晶ディスプレイ、有機ＥＬ（organic electro-luminescence:ＯＥＬ）ディスプレイ、もしくは、プロジェクタ、またはこれらの適宜の組み合わせによって構成される。入力装置１５２と表示装置１５４とは、入出力インターフェース１０８を介してプロセッサ１０２と接続される。なお、タッチパネルのように入力装置１５２と表示装置１５４とが一体的に構成されてもよく、タッチパネル式のタブレット端末のように、情報処理装置１０と入力装置１５２と表示装置１５４とが一体的に構成されてもよい。

　《機械学習装置の構成例》
　図１４は、産生安定性予測モデル１６を生成するための機械学習の処理を実行する機械学習装置３００のハードウェア構成の例を示すブロック図である。ここでは、１台のコンピュータを用いて機械学習装置３００の処理機能を実現する例を述べるが、機械学習装置３００の処理機能は、複数台のコンピュータを用いて構成されるコンピュータシステムによって実現してもよい。

　機械学習装置３００は、プロセッサ３０２と、非一時的な有体物であるコンピュータ可読媒体３０４と、通信インターフェース３０６と、入出力インターフェース３０８と、バス３１０と、を備える。コンピュータ可読媒体３０４は、メモリ３１２およびストレージ３１４を含む。プロセッサ３０２は、バス３１０を介してコンピュータ可読媒体３０４、通信インターフェース３０６および入出力インターフェース３０８と接続される。入力装置３５２および表示装置３５４は入出力インターフェース３０８を介してバス３１０に接続される。

　機械学習装置３００のハードウェア構成は、図６で説明した情報処理装置１０の対応する要素と同様であってよい。機械学習装置３００の形態は、サーバコンピュータであってもよいし、パーソナルコンピュータであってもよく、ワークステーションであってもよい。機械学習装置３００は本開示における「１つ以上のプロセッサを含むシステム」の一例である。

　機械学習装置３００は、通信インターフェース３０６を介して不図示の通信回線に接続され、データ保存部５５０などの外部装置と通信可能に接続される。データ保存部５５０は、複数の訓練データを含むデータセットが保存されているストレージを含む。データ保存部５５０には、図６に例示したような複数のドメインの全データを含むデータセットが保存されていてもよいし、予測対象として限定された対象のサンプルのみのデータを含むデータセットが保存されていてもよい。なお、データ保存部５５０は、機械学習装置３００内のストレージ３１４に構築されてもよい。

　コンピュータ可読媒体３０４には、予測対象限定プログラム３２０、学習処理プログラム３３０および表示制御プログラム３４０を含む複数のプログラム並びにデータ等が記憶される。予測対象限定プログラム３２０は、図１２で説明した予測対象限定プログラム１４０と同様であってよい。表示制御プログラム３４０は、図１２で説明した表示制御プログラム１９０と同様であってよい。

　コンピュータ可読媒体３０４は、予測対象データ記憶領域３２２を含む。予測対象データ記憶領域３２２には、限定された予測対象に該当する訓練データが記憶される。データ保存部５５０に保存されているデータセットから予測対象限定プログラム３２０によって該当する訓練データが適時にサンプリングされてもよいし、予め予測対象のみのデータセットがサブセットとして抽出されていてもよい。

　学習処理プログラム３３０は、データ取得プログラム４００と、機械学習モデルである予測モデル４１０と、損失算出プログラム４３０と、オプティマイザ４４０と、を含む。データ取得プログラム４００は、予測対象データ記憶領域３２２から訓練データを取得する処理を実行させる命令を含む。データ取得プログラム４００を介して取得された訓練データは予測モデル４１０に入力される。

　損失算出プログラム４３０は、予測モデル４１０から出力される安定性ラベルの予測値と、正解の安定性ラベルとの誤差を示す損失を算出する処理を実行させる命令を含む。オプティマイザ４４０は、算出された損失から予測モデル４１０のパラメータの更新量を算出し、予測モデル４１０のパラメータを更新する処理を実行させる命令を含む。オプティマイザ４４０は、例えば確率的勾配降下法（Stochastic Gradient Descent：ＳＧＤ）などの手法により、パラメータの最適化を行ってもよい。

　《機械学習方法のフローチャート》
　図１５は、機械学習装置３００が実行する機械学習方法の例を示すフローチャートである。ここでは、図６に例示したような、機械学習に用いるデータセットが用意されているものとして説明する。ステップＳ１０２において、プロセッサ３０２は、用意されたデータセットから培養データを取得する。

　ステップＳ１０４において、プロセッサ３０２は、培養データを解析し、訓練対象を限定する。プロセッサ３０２は、予め指定された培養データの指標と閾値に従い、限定条件を満たす対象サンプルのデータであるか、限定条件を満たさない対象外サンプルのデータであるかを選別してもよいし、培養データから限定条件とする指標と閾値を探索し、対象サンプルのデータと対象外サンプルのデータとを選別してもよい。

　ステップＳ１０６において、プロセッサ３０２は、限定条件を満たすクローンのデータのみを用いて機械学習を行い、予測モデル４１０を訓練する。すなわち、プロセッサ３０２は、限定条件を満たすサンプルの遺伝子発現データを予測モデル４１０に入力し、予測モデル４１０から出力される安定性ラベルの予測値と、正解の安定性ラベルとの誤差を示す損失を算出する。プロセッサ３０２は、算出された損失に基づき予測モデル４１０のパラメータの更新量を算出し、パラメータを更新する。こうして、プロセッサ３０２は、予測モデル４１０に入力したデータに対する予測モデル４１０からの出力（予測値）が正解の安定性ラベルに近づくように予測モデル４１０を訓練する。なお、予測モデル４１０のパラメータの更新はミニバッチの単位で実施されてもよい。

　ステップＳ１０８において、プロセッサ３０２は、学習を終了するか否かを判定する。学習の終了条件は、損失の値に基づいて定められていてもよいし、パラメータの更新回数に基づいて定められていてもよい。損失の値に基づく方法としては、例えば、損失が規定の範囲内に収束していることを学習終了条件としてよい。また、更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。あるいは、訓練データとは別にモデルの性能評価用のデータセットを用意しておき、評価用のデータを用いた評価値に基づいて学習終了の可否を判定してもよい。

　ステップＳ１０８の判定結果がＮｏ判定である場合、プロセッサ３０２はステップＳ１０６に戻り、学習処理を継続する。一方、ステップＳ１０８の判定結果がＹｅｓ判定である場合、プロセッサ３０２は図１２のフローチャートを終了する。

　学習済みの予測モデル４１０は、産生安定性予測モデル１６として情報処理装置１０に組み込まれる。機械学習装置３００が実行する機械学習方法は、産生安定性予測モデル１６を生成する方法と理解することができ、本開示における予測モデル生成方法の一例である。

　《産生安定性の予測を行う情報処理方法のフローチャート》
　図１６は、情報処理装置１０が実行する情報処理方法の例を示すフローチャートである。ステップＳ２０２において、プロセッサ１０２は、有用物質を産生するクローンについて測定された培養データを取得する。プロセッサ１０２は、不図示のデータ保存サーバなどからデータを自動的に取得してもよいし、ユーザインターフェースを介してデータの指定の入力を受け付け、指定されたクローンについてのデータを取得してもよい。

　ステップＳ２０４において、プロセッサ１０２は、培養データを解析し、予測対象を限定する。プロセッサ１０２は、産生安定性予測モデル１６を訓練した際に訓練対象を限定した条件と同じ限定条件を適用して予測対象を限定する。なお、このステップＳ２０４により、予測対象が限定された後に、予測対象に該当するクローンについて遺伝子発現データの計測を実施することにより、全クローンの遺伝子解析を実施する場合と比較して、作業負荷およびコストの低減が可能である。

　ステップＳ２０６において、プロセッサ１０２は、予測対象に該当するクローンの遺伝子発現データを産生安定性予測モデル１６に入力し、産生安定性予測モデル１６によって安定性を予測する。

　ステップＳ２０８において、プロセッサ１０２は、産生安定性予測モデル１６から出力された予測結果を出力する。この産生安定性の予測結果を基に、産生クローンの選抜を行うことができる。

　ステップＳ２０８の後、プロセッサ１０２は、図１６のフローチャートを終了する。

　《コンピュータを動作させるプログラムについて》
　実施形態に係る情報処理装置１０および機械学習装置３００の各装置における処理機能の一部または全部をコンピュータに実現させるプログラムを、光ディスク、磁気ディスク、もしくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。

　またこのような有体物たる非一時的なコンピュータ可読媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。

　さらに、上述の各装置における処理機能の一部または全部をクラウドコンピューティングによって実現してもよく、また、ＳａａＳ（Software as a Service）として提供することも可能である。

　《各処理部のハードウェア構成について》
　情報処理装置１０におけるデータ取得部１２、予測対象限定部１４、産生安定性予測モデル１６を含む安定性予測部、処理結果出力部１８、培養データ解析部２０、限定条件判定部２２、機械学習装置３００における予測モデル４１０を含む学習部、損失算出部、パラメータ更新量算出部、パラメータ更新部などの各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ（processor）である。

　各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ、ＧＰＵ、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種または異種の２つ以上のプロセッサで構成されてもよい。例えば、１つの処理部は、複数のＦＰＧＡ、あるいは、ＣＰＵとＦＰＧＡの組み合わせ、またはＣＰＵとＧＰＵの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

　《実施形態の利点》
　上述した実施形態に係る産生クローンの産生安定性を予測する方法およびその方法を実行する情報処理装置１０によれば、次のような効果が得られる。

　［１］現時点（規格試験時）の培養データの指標に基づき適切に予測対象のクローンが限定されるため、予測対象のクローンについて高い精度で産生安定性を予測することができる。

　［２］予測対象のクローンに限定して遺伝子解析（ＲＮＡ-Ｓｅｑ解析）を行えばよいため、全クローンについて遺伝子解析を行う場合と比較して、コスト抑制が可能である。

　［３］従来の安定性試験の代わりに、本実施形態に係る方法を適用することにより、産生細胞の開発工程の期間短縮および低コスト化を実現できる。

　《その他》
　本開示は上述した実施形態に限定されるものではなく、本開示の技術的思想の趣旨を逸脱しない範囲で種々の変形が可能である。

１０　情報処理装置
１２　データ取得部
１４　予測対象限定部
１６　産生安定性予測モデル
１８　処理結果出力部
２０　培養データ解析部
２２　限定条件判定部
１０２　プロセッサ
１０４　コンピュータ可読媒体
１０６　通信インターフェース
１０８　入出力インターフェース
１１０　バス
１１２　メモリ
１１４　ストレージ
１２０　データ記憶領域
１４０　予測対象限定プログラム
１４２　培養データ解析プログラム
１４４　限定条件判定プログラム
１５２　入力装置
１５４　表示装置
１８０　処理結果出力プログラム
１９０　表示制御プログラム
３００　機械学習装置
３０２　プロセッサ
３０４　コンピュータ可読媒体
３０６　通信インターフェース
３０８　入出力インターフェース
３１０　バス
３１２　メモリ
３１４　ストレージ
３２０　予測対象限定プログラム
３２２　予測対象データ記憶領域
３３０　学習処理プログラム
３４０　表示制御プログラム
３５２　入力装置
３５４　表示装置
４００　データ取得プログラム
４１０　予測モデル
４３０　損失算出プログラム
４４０　オプティマイザ
５５０　データ保存部
ＤＳＡ、ＤＳＢ　データセット
ＤＳｃ、ＤＳｄ、ＤＳｅ　データセット
Ｆ５Ａ　左図
Ｆ５Ｂ　右図
Ｇ１　グラフ
Ｇ２　グラフ
ＧＥＰ　遺伝子発現パターン
ＭＬＭ　機械学習モデル
ＭＬＭｃ、ＭＬＭｅ　機械学習モデル
ＲＦ１～ＲＦ７　矩形枠
Ｓ１０２～Ｓ１０８　機械学習方法のステップ
Ｓ２０２～Ｓ２０８　産生安定性を予測する情報処理方法のステップ

Claims

　有用物質を産生するクローンの産生安定性を予測する方法であって、
　１つ以上のプロセッサが、
　１種類以上の前記クローンの培養データを取得することと、
　前記培養データを解析して予測対象のクローンを限定することと、
　前記予測対象のクローンについて測定されたデータを用いて、前記予測対象のクローンによる前記有用物質の産生安定性を予測することと、
　を実行する、方法。
　前記産生安定性は、培養開始時と所定期間培養後とにおける前記有用物質の産生量の変化の有無により定義される、
　請求項１に記載の方法。
　前記１つ以上のプロセッサが、
　前記培養データから得られる指標と、前記指標に関する閾値とを設定し、
　前記指標の値と前記閾値とに基づき前記予測対象を限定する、
　請求項１に記載の方法。
　前記閾値は、前記産生安定性の予測精度が前記予測対象を限定しない場合よりも高くなるように調整される、
　請求項３に記載の方法。
　前記閾値は、前記指標の値についての順位を用いて定義される、
　請求項３に記載の方法。
　前記予測対象は、前記指標の値の上位集団である、
　請求項３に記載の方法。
　前記指標は、前記有用物質の産生量である、
　請求項３から６のいずれか一項に記載の方法。
　前記指標は、積分生存細胞密度である、
　請求項３から６のいずれか一項に記載の方法。
　前記指標は、乳酸濃度である、
　請求項３から６のいずれか一項に記載の方法。
　前記産生安定性の予測に用いる前記データは、１つ以上の遺伝子発現レベルを含む、
　請求項１から６のいずれか一項に記載の方法。
　前記１つ以上のプロセッサが、
　前記予測対象の前記データの入力を受けて、安定または不安定の２クラス分類を行うモデルを用いて前記産生安定性を予測する、
　請求項１から６のいずれか一項に記載の方法。
　前記モデルは、前記予測対象のクローンと同様の限定をした訓練用のクローンについての前記データと正解の安定性ラベルとが関連付けされた複数の訓練データを用いた機械学習によって訓練されたモデルである、
　請求項１１に記載の方法。
　前記複数の訓練データは、産生する有用物質が異なる複数種類のクローンについての前記訓練データを含み、
　前記１つ以上のプロセッサが、前記モデルの訓練に使用された有用物質とは別の有用物質を産生するクローンについての産生安定性を予測する、
　請求項１２に記載の方法。
　前記有用物質は、医薬品原料であるタンパク質、ペプチド、およびウイルスのうちいずれかである、
　請求項１から６のいずれか一項に記載の方法。
　前記有用物質は、抗体、または抗体様タンパク質である、
　請求項１から６のいずれか一項に記載の方法。
　前記クローンは、脊椎動物由来細胞である、
　請求項１から６のいずれか一項に記載の方法。
　前記クローンは、哺乳類由来細胞である、
　請求項１から６のいずれか一項に記載の方法。
　前記クローンは、ＣＨＯ細胞またはＨＥＫ細胞である、
　請求項１から６のいずれか一項に記載の方法。
　１つ以上のプロセッサと、
　前記１つ以上のプロセッサに実行させる命令が記憶される１つ以上の記憶装置と、を備え、
　前記１つ以上のプロセッサは、
　有用物質を産生するクローンについて１種類以上のクローンの培養データを取得し、
　前記培養データを解析して予測対象のクローンを限定し、
　前記予測対象のクローンについて測定されたデータを用いて、前記予測対象のクローンによる前記有用物質の産生安定性を予測する、
　情報処理装置。
　コンピュータに、
　有用物質を産生するクローンについて１種類以上のクローンの培養データを取得する機能と、
　前記培養データを解析して予測対象のクローンを限定する機能と、
　前記予測対象のクローンについて測定されたデータを用いて、前記予測対象のクローンによる前記有用物質の産生安定性を予測する機能と、
　を実現させるプログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、請求項２０に記載のプログラムが記録された記録媒体。
　有用物質を産生するクローンの産生安定性を予測する機能をコンピュータに実現させる予測モデルを生成する予測モデル生成方法であって、
　１つ以上のプロセッサを含むシステムが、
　１種類以上の前記クローンの培養データを取得することと、
　前記培養データを解析して予測対象のクローンを限定することと、
　前記予測対象に該当するクローンについて測定されたデータと正解の安定性ラベルとが関連付けされた複数の訓練データを用いて機械学習を行い、前記データの入力に対する前記予測モデルの出力が前記正解の安定性ラベルに近づくように前記予測モデルを訓練することと、
　を含む予測モデル生成方法。