JP2017120646A - 予め計算されたモデルの結果の検索 - Google Patents

予め計算されたモデルの結果の検索 Download PDF

Info

Publication number
JP2017120646A
JP2017120646A JP2016255145A JP2016255145A JP2017120646A JP 2017120646 A JP2017120646 A JP 2017120646A JP 2016255145 A JP2016255145 A JP 2016255145A JP 2016255145 A JP2016255145 A JP 2016255145A JP 2017120646 A JP2017120646 A JP 2017120646A
Authority
JP
Japan
Prior art keywords
model
observations
variables
models
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016255145A
Other languages
English (en)
Other versions
JP6940278B2 (ja
Inventor
グレアント シャビエル
Grehant Xavier
グレアント シャビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2017120646A publication Critical patent/JP2017120646A/ja
Application granted granted Critical
Publication of JP6940278B2 publication Critical patent/JP6940278B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、とりわけ、事象の進行中にモデル結果を検索するための、コンピュータ実施方法に関する。
【解決手段】方法は、同様の事象の観察の第1のセットの変数を提供するステップと、複数のモデルを提供するステップと、複数のモデルに観察の第1のセットの変数でインデックスを付けるステップと、1つまたは複数の変数に従ってモデルを問合せるステップと、問合せの結果としてモデルを返すステップとを含む。
【選択図】図1

Description

本発明は、コンピュータプログラムおよびシステムの分野に関し、より詳細には、事象の進行中にモデル結果を検索するための方法、システムおよびプログラムに関する。
推薦(recommendations)は、エンジニアリングにおける意思決定のために使用される。例えば衛星打上の進行中に、事件(例えば燃料タンクの温度、燃料消費、発射装置の速度、等々を制御すること)の危険の作用を最小化するためには、緊急アクションを推薦することが要求される。推薦は、デバイスの制御に限定されないが、それらはデバイスの構想中および製造中にも同じく使用されることが可能であり、例えばCADシステムは、設計されたデバイスがうまく作動しない危険が最小化されるよう、デバイスの設計のための推薦を提供することができる。
いくつかの知られているカテゴリの推薦システムが存在している。第1のカテゴリは、訪問者が、既に訪問された内容に基づいて内容提案を受け取るシステムである、いわゆるリコメンダシステムを含む。例えば探索エンジンは、訪問されたページの個人履歴に基づいて探索結果をランク付けする。このようなシステムの例は、非特許文献1の中で考察されており、または同じく非特許文献2の中で考察されている。
しかしながらこれらのリコメンダシステムは、極めて多数のユーザの履歴を集中化するアプリケーションで動作する。例えばGoogle(C)探索は、10億を超えるユーザを有している。会社のサーバ上でホストされるシステムは、学習すべき意思決定者のこのようなプールを有していない。意思決定者は、典型的には、同様の状況におけるそれらの同僚の蓄積された経験に基づくアドバイスのために、最良のビジネス実践または管理顧問会社を使用する。しかしながらビジネスの相対的な隔離、異なる会社からの操作上のデータおよび設備データは、コンピュータプログラムによるこの学習プロセスの自動化を困難にしている。したがってそれらの同僚からの決定の履歴を調べるよりもむしろ、意思決定者は、決定のためのニーズをトリガする状況を記述しているデータ(例えばそれらの独自の操作および設備を記述している変数)に基づいて状況を評価する。したがってこれらのリコメンダシステムは、これらの状況には適していない。
第2のカテゴリは、専門家によって作成され、かつ、自動的に適用される規則に基づいて、特定の問題に関連する意思決定を自動化するエキスパートシステムを含む。オプションの数が少なく、また、入力変数が人による管理が可能であるか、または処理されて識別的変数の管理可能なセットに要約される場合、専門家にとっては、ほとんどの場合に最適アクションをもたらすことになる規則を規定することが可能である。第1の手法は、「専門家規則のみ」と呼ばれ、規則は、システムが適用されることになる技術分野の専門家によって手で作成される。第2の手法は、「経験的なモデルと結合された専門家規則」と呼ばれ、経験的なモデルは、利用可能な入力を処理し、かつ、管理可能な数の入力を返すために機械学習に基づいて構築される。このようなモデルは、典型的には、予測された確率を返すことになる。人間によって作成された規則に提供される入力の複雑性が低減されるため、ヒューマンエラーに対する余地が低減される。
しかしながらこの第2のカテゴリは多くの欠点を抱えており、とりわけ第1の手法は、独立した要素の数およびオプションの数が人間の専門家によっては管理することができない問題をもたらす場合は動作しない。第2の手法には、経験的なモデルをトレーニングするためのかなりのハードウェア資源が必要である。実際には、決定のニーズは、典型的には新しいデータによってトリガされる。また、決定は、典型的には速やかになされなければならない。したがって利用可能な資源の量およびこれらのシステムが使用され得る事例の数をさらに制限している。
経験的なモデルの例として、Delmia OI(C)などの経験的な規則生成システムがある。これらのシステムは、このような現象を取り扱うために要求される複雑性を例証している。経験的な規則生成システムは、極めて多数の変数によって記述される現象をモデル化する。それらは、個々に再現度が低く、かつ、精度が低い、したがって潜在的に互いに矛盾する多くの規則を作成し、それらの異なる結果を投票で議決し、かつ、状況を記述するための新しい合成変数として使用される投票の結果を出力することによって動作する。これらのシステムは、典型的には、高い再現度および高い精度(それぞれ80%を超える)を同時に達成するが、そうするために、専門家によっては作成され得なかったであろう管理不可能な数の規則(数十の変数に対して数万から数百万程度に及ぶ)を作成する。
このようなシステムは、多くの入力パラメータおよび2つの決定代替を使用した事例では、手法「経験的なモデルと結合された専門家規則」に首尾よく使用され得る。
しかしながらこのような経験的なモデルは、システムをトレーニングし、また、専門家規則を作成する際に存在しなかったデータ、または考慮されなかったデータを意思決定者に考慮させない。さらに、経験的なモデルは、トレーニングするためのかなりのハードウェア資源を必要とし得る。実際には、決定のニーズは、典型的には新しいデータによってトリガされる。また、決定は、典型的には速やかになされなければならない。したがって利用可能な資源の量およびこれらのシステムが使用され得る事例の数をさらに制限している。
第3のカテゴリは、関連する情報を、意思決定者またはそれらの補助者による管理を可能にする形態で提供することによって意思決定を補助する、理解可能なモデル、表現および相互作用型インターフェイスを含む。例えばビジネスインテリジェンスツールは、変数を選択し、かつ、例えば散布図によってそれらの相互作用を視覚化するための手段を提供する。分析者は、関連する視覚化をひろい上げ、静的報告書を作成し、かつ、それらを意思決定者に送る。
いわゆる「ホワイトボックスモデル」は、変数間の関係の視覚化または説明を与える経験的な(トレーニングされた)モデルに頼っている。例えば決定ツリー(例えば非特許文献3の中で考察されている)、規則構築エンジン、またはベイジアンネットワーク(例えば非特許文献4の中で考察されている)をトレーニングした後、何らかの確率で、現象を記述している変数のうちのいくつかの前提命題に目標変数をリンクする規則を理解することが可能である。
入力データがグラフで表現され得ない場合、2Dマップ上の2つのエンティティ間の距離がグラフ内におけるそれらの接続性を表す方法でグラフを2次元図面にマップする技法が存在している。これらの技法により、状況を記述している要素間の相互作用の程度を定性的に表すことができる。これらの技法は、例えば非特許文献5の中で考察されているように、同様の観察(N個の寸法が近く、寸法は観察を記述している変数である)が最終的には2Dマップ上で互いに接近するよう、複雑な観察を2Dマップ上にマップするために同じく適用され得る。
クラスタ化技術は、非特許文献6の中で考察されており、これらのクラスタ化技術により、N個の寸法が類似している観察を管理可能な数のグループでまとめてグループ化することができる。
寸法低減技法は、非特許文献7の中で考察されており、それらにより、寸法または寸法の組合せであって、それらに沿ってデータが最も変化する寸法または寸法の組合せを見出すことができる。
所与の目標変数の値に対してどの寸法が最も強い影響力を有するか(記述変数)を見出すための他の技法が存在している。
しかしながら「ホワイトボックスモデル」は、いくつかの欠点を抱えている。とりわけこれらのシステムは、完全に自動化された決定を依然として提供しておらず、したがって重要な要因の遺漏、または考慮される要因の実際の影響力の不正確な予測などのヒューマンエラーによる次善の決定を許容している。
別の問題は、この第3のカテゴリには、トレーニングするためのかなりのハードウェア資源が必要であることである。実際には、決定のニーズは、典型的には新しいデータによってトリガされる。また、決定は、典型的には速やかになされなければならない。したがって利用可能な資源の量およびこれらのシステムが使用され得る事例の数をさらに制限している。
より詳細には、経験的なモデルの直接使用は、複雑なシステムを必要とする現実に即した事象をモデル化するために直接的に使用される場合、以下の性能問題を抱えている。
第1の性能問題は、メモリフットプリント問題に関連付けられる。関連するパラメータの数は、複雑なシステムを必要とする状況を記述するために典型的には多い。したがって状況をモデルの入力変数を使用してその全体を記述することは、入力変数が急増することになり、それは、事象が進行している間のモデルのトレーニングを非現実的にすることになる。
変数が急増すると、トレーニングデータに必要な観察の数が同じく急増する。手短に言えば、トレーニングデータの観察は、適切に実施するようにトレーニングされたモデルに対して実際に起こり得る変数のすべての可能な組合せを表していなければならない。
利用可能な機械学習方法のほとんどは、トレーニングデータがランダムアクセスメモリに適合することを仮定することによって設計されている。ランダムアクセスメモリの利用可能なサイズは、典型的には、状況を記述するために考慮され得るパラメータに制限を設けている。
第2の性能問題は、販売可能性の問題である。いくつかの精密な機械学習アルゴリズムはつり合いが取れない。例えばブースティング技法の場合がそうである。ブースティング技法は、再現度および精度に対して、現在、最も強力な機械学習技法のうちの1つであるが、それらは本質において逐次的である。これは、それらが複数のサーバにわたって分散され得ないことを意味している。1つのサーバは、計算を実行するとビジーになり、一方、他のサーバはアイドルを維持することになる。逐次アルゴリズムを走らせるための時間は、サーバの数が増えても短くならない。
事象が進行している間にモデルを再トレーニングする場合、同じメモリフットプリントおよび拡張可能性問題が当てはまる。
さらに、時間が限られているため、待ち時間が同じく問題になる。モデル、トレーニングデータのサイズおよび利用可能なハードウェア資源に応じて、モデルのトレーニングには数秒から数週間を要する。複雑なシステムを伴う現実に即した状況がモデル化されると、ほとんどの場合、モデルのトレーニングは、少なくとも数十秒を要するに違いない。したがって事象が進行している間にモデルをトレーニングする機会が少なくなることになる。
この文脈内では、事象の進行中にモデル結果を検索するための改善された方法に対するニーズが依然として存在している。
Balabanovic, Marko, and Yoav Shoham. "Fab: content−based, collaborative recommendation." Communications of the ACM 40.3 (1997): 66−72 Sarwar, Badrul, et al. "Item−based collaborative filtering recommendation algorithms." Proceedings of the 10th international conference on World Wide Web. ACM, 2001 Quinlan, J. Ross. "Induction of decision trees." Machine learning 1.1 (1986): 81−106. [1] Heckerman, David, Dan Geiger, and David M. Chickering. "Learning Bayesian networks: The combination of knowledge and statistical Data." Machine learning 20.3 (1995): 197−243 Balasubramanian, Mukund, and Eric L. Schwartz. "The isomap algorithm and topological stability." Science 295.5552 (2002): 7−7 Jain, Anil K., M. Narasimha Murty, and Patrick J. Flynn. "Data clustering: a review." ACM computing surveys (CSUR) 31.3 (1999): 264−323 Wall, Michael E., Andreas Rechtsteiner, and Luis M. Rocha. "Singular value decomposition and principal component analysis." A practical approach to microarray Data analysis. Springer US, 2003. 91−109
したがって、事象の進行中にモデル結果を検索するための、コンピュータ実施方法が提供される。方法は、
− 同様の事象の観察の第1のセットの変数を提供するステップと、
− 複数のモデルを提供するステップと、
− 複数のモデルに観察の第1のセットの変数でインデックスを付けるステップと、
− 1つまたは複数の変数に従ってモデルを問合せるステップと、
− 問合せの結果としてモデルを返すステップと
を含む。
方法は、以下のうちの1つまたは複数を含むことができる。
− 観察の第1のセットの変数に基づいて複数のモデルをトレーニングするステップと、複数のモデルに、各モデルをトレーニングするために使用される変数でインデックスを付けるステップ。
− 複数のモデルをトレーニングするステップは、観察の第1のセットの変数にフィルタリングを適用することによって第1のセットの観察のサブセットを計算するステップと、第1のセットの観察のサブセットのうちの1つのサブセットに関し複数のモデルの各モデルをトレーニングするステップと、複数のモデルの各モデルに、前記各モデルをトレーニングするために使用される観察の変数の値でインデックスを付けるステップとをさらに含む。
− 2つ以上のモデルが返されることを決定するステップと、返された2つ以上のモデルをランク付けするステップであって、ランク付けが返された2つ以上のモデルの変数に基づくステップ。
− 返された2つ以上のモデルは、返されたモデル毎に、モデルの変数の値と、問合せにおける対応する1つまたは複数の変数の値との間の近接測度に基づいて距離を計算するステップによってランク付けされる。
− 観察の第1のセットを構築するステップは、シミュレーションから少なくとも1つの観察の結果を生成するステップをさらに含む。
− 第1のセットの少なくとも1つの観察はランダムに生成される。
− 第1のセットの事象に類似している事象を表す観察の第2のセットを収集するステップであって、第2のセットの観察は、第1のセットの変数と少なくとも同じ変数を含み、また、モデルの問合せは、観察の第2のセットの1つまたは複数の変数に従って実行される。
− 1つまたは複数の観察を提供するステップであって、提供される1つまたは複数の観察の各変数が値によって設定されるステップと、1つまたは複数の観察の各々に対する結果を計算するステップであって、計算は、返されたモデルを、提供された1つまたは複数の観察の値を有する変数セットに適用することによって実行されるステップ。
− 少なくとも2つの観察が提供され、また、方法は、提供された1つまたは複数の観察に対して計算された結果をランク付けするステップと、提供された少なくとも2つの観察のうち、最も高いランキングを有する結果と関連付けられ1つを選択するステップとをさらに含む。
− モデルは、シミュレーションモデルであるか、または機械学習モデルである。
− モデルを問合せるための1つまたは複数の変数は、ゆっくり移動する変数である。
− 観察の第1のセットの1つまたは複数の変数は、確率変数発生器を使用して生成される。
− 観察の第1のセットの1つまたは複数の変数は、変数の定義の範囲上の離散値を選択することによって生成される。
− 返されたモデルの応答が数値である場合、提供された1つまたは複数の観察に対して計算される結果は、返されたモデルの各応答を平均することによって計算される。
− 提供された1つまたは複数の観察に対して計算される結果は、返されたモデルの応答に最も頻繁に見出される値を取ることによって計算される。
− 観察の第1のセットの変数にフィルタリングを適用することによって観察のサブセットを計算する際に、サブセットの観察は、観察の共通クラスタに属する。
− 返されたモデルは、モデルのメタデータと、問合せにおいて規定された値との間の厳密な一致を有する。
− 問合せに入力される変数の値は、第2のセットの観察の離散変数と一致する離散変数によって近似される。
− 問合せは、モデルのメタデータと、問合せにおいて規定された変数の値との間の近似一致に基づいてモデルの検索を許容する。
− 複数のモデルにインデックスを付けるステップは、複数のモデル毎に、前記各モデルをトレーニングするために使用されるすべての観察の値を前記複数の各モデルのメタデータに追加するステップをさらに含む。
− モデルにインデックスを付けるステップは、インデックスが付けられるべきモデルのメタデータに、それらの中心の座標などの、モデルをトレーニングするために使用される観察の作用を追加するステップをさらに含む。
上記方法を実行するための命令を含むコンピュータプログラムがさらに提供される。
コンピュータプログラムがその上に記録されたコンピュータ可読記憶媒体がさらに提供される。
コンピュータプログラムがその上に記録されたメモリに結合されたプロセッサを備えるシステムがさらに提供される。
サーバは、クライアントコンピュータと接続されることが可能であり、クライアントコンピュータに対してインデックスに関する問合せが生成される。
以下、本発明の実施形態が、非制限例として、添付の図面を参照して説明される。
モデルをトレーニングする例のフローチャートである。 観察のセットの例を示す図である。 コンピュータの例を示す図である。
図1のフローチャートを参照すると、事象の進行中にモデル結果を検索するための、コンピュータ実施方法が提案される。方法は、同様の事象の観察の第1のセットの変数を提供するステップを含む。方法は、複数のモデルを提供するステップをさらに含む。方法は、複数のモデルに観察の第1のセットの変数でインデックスを付けるステップを同じく含む。方法は、1つまたは複数の変数に従ってモデルを問合せるステップをさらに含む。問い合わされるモデルは、提供されるモデルのうちの1つである。さらに、方法は、問合せの結果としてモデルを返すステップを含む。
このような方法は、モデル結果が事象の進行中に検索される方法を改善する。実際、事前処理タスクは、残りの計算を事象中に扱いやすくするために実行される。これは、事象の時点における処理時間およびメモリフットプリントを、事象の前のより長い(しかしより安価で、かつ、より重大ではない)処理時間、追加(しかし安価な)記憶要求事項、およびメモリ上のより低いフットプリントにシフトすることによって実施される。このシフトは、予め計算された分析の結果を記憶し、かつ、後で事象中にそれらを問合せることによって可能にされる。分析は、データを使用してモデルを事前にトレーニングすることにあり、また、結果は事前にトレーニングされたモデルである。事前にトレーニングされたモデルは、それらが関連している条件と関連付けられる(関連する条件は、事前にトレーニングされたモデルのメタデータである)。これらの条件に基づく問合せは、直ちに使用して予測するための、事象が進行している間の適切なモデルの検索を許容する。
単一のモデルをトレーニングする場合、モデルは、それが使用されるべき事象のあらゆる可能な展開に適用しなければならない。本発明の場合のように複数のモデルを準備する場合、各々のモデルは、事象の展開上の特定の仮説に対応し得る。これらの仮説は、典型的には、事象を記述している変数の特定の値に変換することができる。これは、各々のモデルをトレーニングするために必要な観察の数の低減を可能にする。単一のモデルが使用される場合、事象の可能な展開に関するすべての仮説を表現するすべての観察がトレーニングデータの中に維持されなければならない。本発明の場合のように複数のモデルが準備される場合、各々のモデルに対応する特定の仮説と整合性のある事象に対応する観察のみがモデルをトレーニングするために維持されなければならない。これらの観察は、対応する仮説を記述している変数以外の変数に関し同じ値または同様の値を共有する。トレーニングデータは、モデルをトレーニングしている間、本質的にランダムアクセスメモリ上のフットプリントに責任を負うため、特定の仮説に対応する複数のモデルを準備することにより、各々のモデルをトレーニングするためのメモリ上のフットプリントを劇的に低減することができる。したがって本発明は、メモリフットプリント問題を解決する。
上記を実施することにより、1つの大きいモデルの代わりに、トレーニングするための多くのより小さいモデルが生成される。選択のモデルが逐次(非並列化可能)アルゴリズムを使用してトレーニングされる場合、それをこの方法で分解することにより、1つのプロセッサのみを取り上げ、他のプロセッサをアイドルにする1つの大きい計算の代わりに、多くのプロセッサを利用する複数のより小さい計算を実行することができる。したがって本発明は、拡張可能性問題を解決する。大型並列サーバまたはクラスタは、今日の最も一般的なスーパコンピューティングインフラストラクチャである。
最もあり得る(または最も革新的な)仮説に基づいて複数のモデルを事前トレーニングすることにより、その仮説が結局は真実であることが分かる1つのモデルとのゲーム中にモデルを更新することができる。これは、事象が進行している間における、使用されているモデルの挙動の、ゲーム中に浮かび出る新しいデータに基づく変更を可能にし、また、これは、モデルを再トレーニングする必要がなく、使用されているモデルの切換えによるのみである。したがって本発明は、事象が進行している間のモデルのトレーニングに関連付けられた待ち時間問題を解決する。事象の新しい変化に対応する値を入力することによるモデルの挙動の変更と比較すると、モデルの切換えは、事象の新しい変化を処理するように特別に設計されるモデルを、事象のこの新しい変化のために特別に準備され(かつ、トレーニングされた)ものとしての使用を可能にする。
この方法は、インクリメンタル学習アルゴリズムおよびオンライン学習アルゴリズムにも適用する。インクリメンタル学習アルゴリズムまたはオンライン学習アルゴリズムが選択されると、本発明は、事象の特定の展開のための複数のこのようなインクリメンタルアルゴリズムまたはオンラインアルゴリズムの準備を可能にする。インクリメンタルアルゴリズムまたはオンラインアルゴリズムが選択されると、事象展開としてそれを連続的にトレーニングすることが可能である。事象が進行している間に、選択されたオンラインアルゴリズムまたはインクリメンタルアルゴリズム、または将来の選択のために利用可能なすべてのオンラインアルゴリズムまたはインクリメンタルアルゴリズムを、たとえそれらが予測するために現在選択されていない場合であっても、連続的にトレーニングすることさえ可能である。選択されたこれらは、後にこの連続的なトレーニングから利益を得ることになる。
方法は、コンピュータによって実施される。これは、方法のステップ(または実質的にすべてのステップ)が少なくとも1つのコンピュータまたは同様の任意のシステムによって実行されることを意味している。したがって方法のステップは、コンピュータによって、恐らくは完全に自動的に、または半自動的に実行される。例では、方法のステップのうちの少なくともいくつかのトリガリングは、ユーザ−コンピュータ対話を介して実行され得る。要求されるユーザ−コンピュータ対話のレベルは、ユーザの希望を実現するための、予知され、かつ、平衡に置かれた必要性の自動性のレベルに依存し得る。例では、このレベルは、ユーザによって定義され、および/または予め定義され得る。
方法のコンピュータ実施の典型的な例は、この目的のために適合されたシステムを使用して方法を実施することである。システムは、方法を実行するための命令を含むコンピュータプログラムがその上に記録されたメモリに結合されたプロセッサを備えることができる。メモリは、データベースを同じく記憶することができる。メモリは、このような記憶のために適合された任意のハードウェアであり、恐らくはいくつかの全く異なる物理部分(例えばプログラムのための部分、および恐らくはデータベースのための部分)を備える。システムは、グラフィカルユーザインターフェイスを備えることができる。
「データベース」により、探索および検索のために編成されたデータ(すなわち情報)の任意の収集が意味される(例えば予め定められた、構造化された言語、例えばSQLに基づく、例えば関係データベース)。メモリ上に記憶される場合、データベースは、コンピュータによる速やかな探索および検索を可能にする。データベースは、実際、様々なデータ処理操作と関連してデータの記憶、検索、修正および削除を容易にするように構造化される。データベースは、記録に分解され得るファイルまたはファイルのセットからなることができ、記録の各々は、1つまたは複数の欄からなる。欄は、データ記憶の基本単位である。ユーザは、主として問合せを介してデータを検索することができる。キーワードおよびソーティングコマンドを使用して、ユーザは、多くの記録中の欄を速やかに探索し、並べ換え、グループ化し、かつ、選択することができ、それにより使用されているデータベース管理システムの規則に従って、データの特定の集合体上で報告書を検索し、または作成することができる。
方法は、一般に、観察のセットを操作する。観察は変数のセットであり、各々の変数は値と関連付けられる。変数は、システムの状態またはその一部の状態、もしくはシステムまたはその一部と関係があるか、もしくはシステムまたはその一部に対する影響力を有する要素の状態を表す。例えば自動車の観察の変数は、自動車の温度、オイル圧、瞬時燃料消費、競争中の平均燃料消費、タイヤの種類、空気の温度、天気(雨、晴れ、雪)、等々であってもよい。変数は、変数の状態を定量化する値と関連付けられる。観察は、所与の時点におけるシステムの状態を表す。観察のセットは、したがって異なる時点における変数の値である。実際には、システムは、航空宇宙、建築、建設、消費財、ハイテクデバイス、産業設備、輸送、海運および/または沖合オイル/ガス製造または輸送を始めとする様々な無制限の産業分野に属し得る。方法によって使用される観察のセットは、したがって、地球上の車両またはその一部のシステム(例えば自動車および軽トラック設備、競走用自動車、モータサイクル、トラックおよび電動機設備、トラックおよびバス、列車を含む)、航空機またはその一部のシステム(例えば機体設備、航空宇宙設備、推進設備、防衛製品、航空路設備、宇宙設備を含む)、船舶またはその一部のシステム(例えば海軍設備、商船、沖合設備、ヨットおよび作業船、海上設備を含む)、機械的システム全体または機械的システムの一部(例えば産業製造機械類、大型移動機械類または設備、設置された設備、産業設備製品、製造された金属製品、タイヤ製造製品を含む)、電気機械的システムもしくは電子システムまたはその一部(例えば消費者電子装置、安全保護および/または制御および/または計装製品、計算および通信設備、半導体、医療デバイスおよび設備を含む)、消費財(例えば家具、家庭および庭製品、余暇財、ファッション製品、耐久消費財小売業者用製品、非耐久消費財小売業者用製品を含む)、梱包(例えば食料および飲料ならびにタバコ、美容および個人医療、家庭用製品梱包を含む)などの任意の機械的システムであってもよい産業システムに関連する変数を含むことができる。
図2は、観察の例を示したものである。各々の線12は観察を表しており、各々の列14(分かり易くするために、図2には1つだけ点線で示されている)は変数に対応し、各々の長方形18は、観察に対する変数の値を表している。この例では、観察のセットは、行列10上に記憶される。各々の観察は、その値を使用して、《入力変数》として同じく知られているいわゆる《記述変数》上で記述されている(それらは、観察を記述するために、トレーニングされたモデルの入力として提供されるため)。興味深いことには、セットの各々の観察は、セットの他の観察の変数と同じ変数を含む。各々の観察に対して、1つまたは複数の変数は空であってもよく、すなわち値と関連付けられていなくてもよいことを理解されたい。各々の観察は、《出力変数》として同じく知られているいわゆる《目標変数》上で対応する値と関連付けられる。目標変数は、トレーニングされたモデルが新しい観察に対して評価しなければならない変数である。目標変数は、それらが、システムの挙動を理解し、および/または予測し、および/または反応するモデルのユーザを補助する情報を提供する、という意味でモデルのユーザにとっては有意義である。この例では、目標変数は、行列16の中に同じく記憶される。各々の観察の値および目標変数は、行列10および16を含む単一の行列の中に記憶され得ることを理解されたい。観察および目標変数は、タグが付けられたデータのセットを形成する(また、タグが付けられたデータのセットと呼ばれる)。各々の目標変数には、いわゆる目標値である値が付随することを理解されたい。
図3は、システムの例を示したもので、システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。
例のクライアントコンピュータは、内部通信バス1000に接続された中央処理装置(CPU)1010、同じくバスに接続されたランダムアクセスメモリ(RAM)1070を備えている。クライアントコンピュータは、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられるグラフィカルプロセッシングユニット(GPU)1110をさらに備えている。ビデオRAM1100は、当分野ではフレームバッファとして同じく知られている。大容量記憶デバイスコントローラ1020は、ハードドライブ1030などの大容量メモリデバイスへのアクセスを管理している。コンピュータプログラム命令およびデータを有形的に具体化するのに適した大容量メモリデバイスは、一例として、EPROM、EEPROMおよびフラッシュメモリデバイスなどの半導体メモリデバイス、内部ハードディスクおよび取外し可能ディスクなどの磁気ディスク、磁気光学的ディスクおよびCD−ROMディスク1040を含むあらゆる形態の不揮発性メモリを含む。上記はいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補足され、または特別に設計されたASIC(特定用途向け集積回路)に組み込まれ得る。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理している。クライアントコンピュータは、カーソル制御デバイス、キーボード、等々のハプティックデバイス1090を同じく含むことができる。カーソル制御デバイスは、クライアントコンピュータに使用され、ディスプレイ1080上の任意の所望の位置へのユーザによるカーソルの選択的位置決めを許容する。さらに、カーソル制御デバイスは、ユーザによる様々なコマンドおよび入力制御信号の選択を可能にする。カーソル制御デバイスは、システムへの入力制御信号のためのいくつかの信号発生デバイスを含む。典型的には、カーソル制御デバイスはマウスであってもよく、マウスのボタンを使用して信号が生成される。別法または追加として、クライアントコンピュータシステムは、感知可能なパッド、および/または感知可能なスクリーンを備えることも可能である。
コンピュータプログラムは、コンピュータによる実行が可能な命令を含むことができ、命令は、上記システムに方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体上に記録することができる。プログラムは、例えばデジタル電子回路の中、もしくはコンピュータハードウェア、ファームウェア、ソフトウェアの中、またはそれらの組合せの中で実施され得る。プログラムは、装置、例えばプログラマブルプロセッサによる実行のために機械可読記憶デバイスの中で有形的に具体化された製品として実施され得る。方法ステップは、命令のプログラムを実行して、入力データに関し動作し、かつ、出力を生成することによって方法の機能を実行するプログラマブルプロセッサによって実行され得る。プロセッサは、したがってプログラマブルであってもよく、また、データ記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受け取り、また、データ記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスにデータおよび命令を伝送するために結合され得る。アプリケーションプログラムは、必要に応じて、高水準手続き型プログラミング言語またはオブジェクト指向プログラミング言語で、もしくはアセンブリ言語または機械言語で実施され得る。いずれの場合においても、言語は、コンパイルされた、すなわち翻訳された言語であってもよい。プログラムは、フルインストレーションプログラムまたは更新プログラムであってもよい。システム上のプログラムのアプリケーションは、いずれの場合においても、命令が方法を実行することになる。
次に図1を参照すると、本発明の例が考察されている。
ステップS10で、同様の事象の観察のセットの変数を識別する。同様の事象とは、事象が共通の特性を有していることを意味している。実際には、各々の観察は、1つまたは複数の変数と関連付けられる。事象間の共通の特性は変数であってもよい。したがって、また、図2を参照すると、観察のセットの各々の観察は、2つの観察の間の変数は異なる値を有し得ることを除き、同じ変数と同じである事象を記述している。
観察のセットは、観察の自然セットであってもよい(S104)。自然とは、変数の値が現実の事象に関し測定されていること、すなわち現実の世界で生じた事象、例えばスペースシャトルのエンジンの温度であることを意味している。観察および各々のこのような観察の変数がしたがって収集される。
観察のセットは、観察の合成セットであってもよい(S102)。合成とは、変数の値が計算されていることを意味している。例えばそれらは生成されている。合成変数を生成するための複数の手法が存在している。以下、2つの手法を説明する。
いずれの手法も、観察のセットの変数によって取られ得る値の範囲を識別することで始まる。いくつかの変数は離散値のみを取ることができる。これらは離散変数である。他の変数は連続する値を取ることができる。これらは連続する変数である。
いずれの手法も、観察の各々の変数に関する値を生成すること、およびこれらの値を組み合わせて合成観察を形成することを含む。例えば変数Aが値[1、2、3]を取り、また、変数Bが値[1、2]を取る場合、組合せは、(1、1)、(1、2)、(2、1)、(2、2)、(3、1)、(3、2)である。すなわち|A|*|B|個の組合せである。この例では、6個の新しい観察が生成されることが可能であり、それぞれ変数AおよびBに関するその値によって定義され、また、AおよびBの可能な値の6個の組合せに対応する。
いずれの手法も、各々の観察に対する目標値を生成することを含むことができる。目標値は、観察に関連付けられた目標変数の値である。それは、典型的には、観察の変数が入力に与えられると、シミュレーションモデルによって生成される。目標変数は、それらのそれぞれの目標値と関連付けられた観察を使用してトレーニングされると、機械学習アルゴリズムが学習して生成する変数である。機械学習の技術水準で知られている学習のこのプロセスにより、機械学習アルゴリズムは、学習して、それがトレーニングされたこれらと同様の新しい観察に応答して、それがトレーニングされた観察のこれらと無矛盾の目標値を生成することになる。
2つの手法は、各々の変数に関する値を生成するために使用される方法によって異なっている。
第1の手法は、確率変数発生器を使用して、恐らくは分布の範囲上の一様な分布に従って、またはニーズに従った異なる確率分布に従って、変数の定義の範囲上で値を生成することにあり得る(例えばモデルを特定の変数に対して値Vと同様の値を取る観察のためにとりわけよくトレーニングされたものにしたい場合、Vの近辺を中心とする公称分布などの、その変数に対するVに近い有利な値であろう確率分布を使用することを決定することができる)。
第2の手法は、恐らくは、離散変数、すなわち離散値を取る変数を使用して変数を近似した後に、可能な値のその範囲上の変数に対する可能な値を列挙することにあり得る。この近似は、離散変数の最も近い離散値を使用して各々の値を近似することによって実施され得る。離散値は、例えば精度の規定されたレベルに丸められた値として定義され得る。実際には、物理的事象を表す変数は、定義の有界範囲上の値のみを取り、下限および上限が存在している。これらの限界は、典型的には、過去のデータを調べることによって見出され得る。離散変数は、定義の有界範囲上の有限数の値を取ることになる。これが達成を希望されているものである場合、これは、離散近似のすべての可能な値の列挙を可能にする。
観察のセットは、自然観察と合成観察の混合であってもよい。例えば自然観察の数が少なすぎて、したがって事象を十分に表していない場合、観察のセットは、モデルが使用されるべき可能な観察のセットを観察のセットが統計的に表すよう、合成観察を使用して完成され得る。
次に、ステップS20で、複数のモデルが、ステップS104で収集された観察、またはステップS102で生成された観察に基づいてトレーニングされる。
各々のモデルは、観察のサブセットに関しトレーニングされ得る。サブセットは、フィルタリングによって獲得され得る。フィルタリングは、観察の変数の値に基づかれる。フィルタリングを決定する値は、異なる手法を使用して選択され得る。
1つの手法は、観察の区分を獲得することであってもよく、各々の観察は、1つの、そしてただ1つのモデルをトレーニングするために使用される。この手法は、モデルが検索される本発明の後のステップで単一のモデルが検索される事例に関連していてもよい。その手法の特定の事例は、クラスタ内の観察をグループ化することであってもよく、観察がクラスタ内で可能な限り互いに接近し、また、可能な限り他のクラスタからの観察から遠ざかる(任意に定義される距離に関しては、ユーザのニーズによる)。例えば現況技術で知られているクラスタ化技法は、この手法の文脈においては、フィルタリングのための値を規定するために使用され得る。この手法は、結果の品質に関して、システムの資源消費の最小化を促進することができる。
異なる手法は、各々の新しい観察に対して冗長であるモデルをトレーニングするために観察のセットが重複することであり得る。この手法は、モデルが検索される本発明の後のステップで複数のモデルが検索され、かつ、新しい観察の結果が、複数のモデルによって生成される結果を平均することによって(または結果間で投票することによって)計算される事例に関連していてもよい。例えば各々のフィルタリングは、規定された変数上のその値が変数の中間の値より小さいか、または大きい観察を受け入れることによって観察の半分を受け入れることができる。この手法は、システムの資源消費の最小化に関して、結果の品質を促進することができる。
ステップS20の結果として、行列として記憶され、かつ、表される、ステップS102および/またはS104の観察のセットは、より小さいいくつかの行列を生成した。すべての観察が含まれていれば、また、すべての観察がモデルをトレーニングするように前もって定められたセットに使用されていれば、元の行列からの情報の損失はなかったであろう(これは、説明された両方のフィルタリング手法における事例である)。興味深いことには、機械学習モデルをトレーニングするために使用される場合、このセットの各々の行列は、メモリ上のより小さいフットプリントを有する(それがより小さいため)。さらに、行列のこのセット上での後続する独立した計算操作(モデルをトレーニングするための各々の行列の使用など)が並列化され得る。
次に、ステップS30で複数のモデルにインデックスが付けられる。各々のモデルをトレーニングするために使用される観察の変数には、モデルのメタデータの形態でインデックスが付けられる。これは、モデルが、それらをトレーニングするために使用される観察の変数の値に基づいて探索可能であることを意味している。インデックスが付けられたモデルのメタデータ中にリストされた値の選択には複数の手法が存在している。
1つの手法は、各々の変数がインデックスにおけるモデルの属性として参照され、また、モデルをトレーニングするために使用される観察に対応するその変数上の各々の値がその属性の値の中にリストされるよう、モデルをトレーニングするために使用されるすべての観察のすべての変数の値をモデルのメタデータに含めることにある。このようなインデックス構造は、典型的には、問合せにおいて規定された値に対して全く同じまたは同様の値を有する最大数の観察を使用してトレーニングされるモデルの検索を可能にする。インデックスに使用される逆リストの構造のため、このようなインデックスによって要求される記憶空間は、観察の行列のサイズに応じて直線的に増加するのみである。
モデルが、それらが同じクラスタに属することに基づいてフィルタされた観察に関しトレーニングされる事例にとりわけ関連するであろう別の手法は、各々のモデルのメタデータの中に観察の変数を追加することであってもよく、各々の変数はその変数上のクラスタの中心の座標と関連付けられる。いくつかの変数を規定する問合せは、その中心が規定された変数上の同じまたは同様の値を有する観察のクラスタに関しトレーニングされたモデルの検索をもたらすことになる。
変数の厳密な値に基づく探索を支援するために、モデルのインデックスは、変数に対する対(モデルID、モデル)のリストおよび逆リストを含む。
変数に対応する逆リストは、対(value、[モデルID1、…、モデルIDN])のリストであり、[モデルID1、…、モデルIDN]は、そのトレーニングセットが変数上の値valueによって特性化されるモデルに対応するトレーニングされたモデルidのリストである(これは、例えばその中心が変数上の座標値を有すること、またはその観察のうちの1つが変数上の値value、さもなければ手法に応じた値を有することを意味し得る)。この構造は、変数の値を規定する問合せに対して、より速いモデルの検索を可能にする。実際、逆リストは、分類された逆リスト中の規定された値の発見が、すべてのモデルを調べ、かつ、それらの対応する関連付けられた値をチェックするより速くなるように分類される。
インデックスにおける同様の値の探索を逆リストを使用して支援するために、1つの手法は、それらを逆リストに加える前に値を離散化し、かつ、問合せにおいて規定された値の距離内のすべての離散値を探索することである。この文脈においては、値を離散化することは、距離よりも低い精度レベルで丸められた値でそれらを近似することを意味している。
ステップS10からS30は、本発明の構築時間を形成する。構築時間は、事前処理タスクとも呼ばれている。事前処理タスクは上で説明されている。
次にステップS40からS80が説明され、それらは本発明の実行時間を形成する。
ステップS40で、観察の1つまたは複数の第2のセットに関連するデータが収集される。観察の第2のセットは、ステップS10の観察で記憶される事象と同様の事象を表す。第2のセットの観察は、ステップS10の観察のセットの変数と少なくとも同じ変数を含む。説明のために、同様の事象とは、事象が共通の特性を有していることを意味している。実際には、収集されるデータは同様の事象の観察であり、各々の観察は、1つまたは複数の変数と関連付けられる。事象間の共通の特性は変数であってもよい。したがって観察の第2のセットの各々の観察は、2つの観察の間の変数は異なる値を有し得ることを除き、同じ変数と同様である事象を記述している。
データの収集は、ステップS10の観察のセットに対する方法と同じ方法で実行されるが、値が測定されるだけであり、すなわち観察の第2のセットは、現実の事象に関し測定された変数の値のみを含む。測定された変数の測定された値は、方法を実行するシステムに実時間で伝送されることが好ましい。これは、データプロバイダまたはセンサからの任意の通信チャネルを介した通知を実時間プッシュするためのサブスクリプション、およびサブスクリプションまたはメッセージングプロトコルによって実施され得る。チャネルは、典型的には、データプロバイダまたはセンサによって提供されるインターフェイスに依存することを理解されたい。ここでは、実時間という用語は、収集されたデータを転送するための時間が時間の予め定められた期間であることを意味しており、転送のために要求される時間は、予め定められた期間を超えてはならない。
観察のセットは、過去の同様の事象上の観察を含むことができ、一方、観察の第2のセットは、現在の同様の事象上の観察を含む。
次に、ステップS50で、インデックスが付けられる少なくとも1つのトレーニングされたモデルが問い合わされる。問合せは、ステップS40で収集された1つまたは複数の変数に従って実行される。
問合せに含まれる変数は、典型的には、ゆっくり移動する変数、すなわちその値が連続する観察においてゆっくり変化する変数である。モデルは、それらが結果を予測するために適用されるすべての観察に対して関連していなければならない。それらは、それらが同様の観察に関しトレーニングされている場合は適切である。最近の観察がいくつかの変数上の同様の値を共有している場合、同じ変数上の同様の値を同じく共有する観察に関しトレーニングされたモデルを選択することが良好な着想である。例えば使用されているモデルが10分毎に変更され(問い合わされ)、かつ事象が毎秒収集される場合、600個の過去に収集された事象にわたって比較的安定した値を示した変数は、次のモデルに対する問合せに含まれるべき良好な候補である。
問合せの結果として、少なくとも1つのトレーニングされたモデルが返される。しかしながら複数のモデルが要求と一致し、したがって2つ以上のトレーニングされたモデルが返され得ることが可能である。したがってステップS60で、複数のトレーニングされたモデルが問合せと一致するかどうかが決定される。
トレーニングされたモデルが1つだけ返される場合、ステップS90で、トレーニングされたモデルを使用して結果が生成され、それは以下で説明される。2つ以上のトレーニングされたモデルが返される場合、結果が複数のモデルからどのように生成されるかが決定される。
維持されるべきトレーニングされたモデルの選択は、以下のように実行され得る。問合せに応答してモデルを選択する少なくとも2つの手法が存在している。第1の手法では、1つのモデルのみが選択される。ひろい上げられるモデルは、そのメタデータ内の変数の値と、問合せにおける対応する変数の値との間の近接測度に基づいて最も高いランキングである(S70)(典型的には問合せは現在の事象を表す)。
第2の手法では、複数のモデルが選択される。この手法においても、モデルは、それらのメタデータ内の変数の値と、問合せにおける対応する変数の値との間の近接測度に基づいて選択され得る(典型的には問合せは現在の事象を表す)。例えば上で説明した近接測度に基づくN個の最も高いランキングモデルが選択される。あるいは例えば、問合せに対する近接のその測度が特定の閾値未満であるか、または閾値を超えるモデルが選択される。
次に、ステップS80で、1つまたは複数の観察が選択されたモデルに入力される。各々の観察は、値を有する少なくとも1つの入力変数を含む。実際には、観察の入力変数は、収集された観察の第2のセットの選択された変数の観察された値である。
次に、ステップS90で、モデルに入力された観察に対する結果が計算される。各々の選択されたモデルは、同じく目標値と呼ばれる出力を返す。目標値は、典型的には、観察を評価するために使用される。例えば目標値は、観察が与えられる将来の事象上の予測であっても、または他の観察からの入力された観察を区別するための観察の分類であってもよい。それは、観察を記述するメトリックであってもよい。
ステップS60〜S70で1つのモデルのみが選択される場合、観察の結果は、入力における観察の受取りに応答したその出力の関数である。典型的には、観察の結果は、入力における観察の受取りに応答したモデルの出力である。
ステップS60で複数のモデルが選択される場合、観察の結果は、入力における観察の受取りに応答したモデルの出力の関数である。例えば各々のモデルの出力が種別である場合(モデルが観察の分類を提供する場合)、結果は、選択されたモデルの出力に最も表現されている種別であってもよく、すなわち結果は、モデルからの投票の結果である。各々の投票は、より関連するモデルが投票により寄与するよう、ステップS60で計算された、モデルと問合せの間の類似性測度の関数によって重み付けされ得る。各々のモデルの出力が数値である場合、結果は、モデルの出力されたメトリックの平均であり得る。同様に、平均は、ステップS60で計算されたモデルのそれぞれの関連性によって重み付けされ得る。
次に、衛星の打上げのための軌道船の操作の間に決断するミッション制御員および乗組員を補助する本発明の例が説明される。
これらの操作においては、ほとんどのアクションが自動化されたプログラムおよび計画された手順に従って実行されることは事実であり、指針および計画された事象のセットは、フライトデータファイル(Flight Data File)の中に存在している。フライトデータファイルは、クルーアクティビティプラン、ペイロードハンドブック、および精巧な飛行計画プロセスの間、一緒に置かれる他の文書を含む。問題のタイプは区分化され、また、アクションは、あらゆるタイプの問題を予想する目的で、前もって計画される。
しかしながらミッション制御員および乗組員には、常に決断することが依然として必要である。例えばNASAは、あらゆる中止モードの中でもとりわけabort−to−orbitは、可能である場合、好ましいモードであると明言しており、また、1つの理由は、それが、管制員および飛行乗組員に、状況を評価し、かつ、着水するか、または計画された通りに継続することを決定し、また、問題をどうやって解決するかを決定するための時間を与えることである。しかしながらこの時間は、ミッションが保留されるため貴重であり、資源は消費されっぱなしであり、また、問題がより一層悪化し得る。abort−to−orbitが可能ではない場合、決定の速さおよび質がより一層重要である。
いくつかの変数がスペースシャトルのために測定され、各々のエンジンのためのエンジンスロットル、各々のエンジンのための燃料レバー、キャビン圧力(減圧化の場合、問題)、軌道船冷却システムの状態(失われると問題)、高度、飛行経路角度、方向、重量、速度/範囲、宇宙船の表面の圧力、電気システム状態、現在の手順(カウントダウン/第1の段階/第2の段階/Return to Launch Site/Trans−Atlantic Abort Landing/Abort Once Around/Abort to Orbit/Contingency Abort /Extra−vehicular activity)、等々が測定され得る。さらにこの例では、アクション可能変数は、各々のエンジンシステムのためのエンジンスロットル、燃料レベル(燃料は投棄され得る)、重量(材料は投棄され得る)、操縦の選択(高度、姿勢、飛行角度、方向、等々を変更するため)、手順の選択および軌道の選択を含む。
この文脈においては、本発明は、衛星を正しい軌道に乗せる予測された機会、地球に戻る際の危険のない着水、例えば材料の損傷の最小化および乗組員メンバーの傷害または死亡の原因になりやすいキャビンの内部における事件の最小化によるミッションの総合コストの最小化などの事象の予測された結果の検索に適用され得る。いくつかの観察が生成または収集され、また、いくつかの機械学習アルゴリズムがこれらの観察のサブセットを使用してトレーニングされ、かつ、インデックスが付けられる。上で列挙したすべての変数は、機械学習アルゴリズムの入力変数を形成し、また、機械学習アルゴリズムの出力は、観察の結果を予測する。
インデックスにおける各々のモデルは、上で定義した変数およびそれらの値によって完全に記述される状況に対応する。インデックスからモデルを問合せるために、これらの変数およびそれらの値が対応するモデルに関連付けられたメタデータに追加される。例えば冷却システムの構成要素が、高度が60マイル(96.56キロメートル)で、かつ、シャトル速度が16,697mph(26,870kph)である飛行の8分後に故障する状況に適用するモデルには、これらの特性を使用してそのメタデータの中にインデックスが付けられることになる。これは、状況に応じて正しいモデルが問い合わされることを可能にする。この場合も、インデックスが付けられたモデルは、シミュレーションモデルまたは機械学習モデルであってもよい。機械学習モデルをシミュレーションによって評価されるオプションに関しトレーニングし、かつ、シミュレーションモデルにインデックスを付ける代わりに機械学習モデルにインデックスを付ける利点は、全シミュレーションと比較すると、機械学習モデルが一般により速く実行することである(可能オプションを評価するために)。機械学習モデルを事前に計算し、かつ、インデックスを付ける利点は、アクションの進行中にモデルをトレーニングする必要がない(したがって時間を節約する)ことである。
例えばこれは、複数の中止モードが可能である場合に、「どちらがAbort−to−Orbitモードのための好ましい軌道であるか?」、または「どちらが好ましい中止モードであるか?」などの質問に答えるために使用され得る。
例えば中止モードを評価するようにトレーニングされたモデルは、中止モードを特定する(1つの変数の中で)入力観察、およびそれが選択される(他の変数の中で)文脈を取り入れることになる。それは、中止モードを関連するもの、または関連しないものにする文脈であり、また、それらのそれぞれの文脈における各々の中止モードの関連性は、対応する観察を入力の中で受け取る際のモデルの結果によって評価される。この結果をもたらすための最も関連するモデルが、現在の状況(飛行段階、高度、速度、等々であり、すべてのこれらの変数は、問合せを可能にするためにインデックスのメタデータの中に存在する)を特定するインデックスに対する自動化された問合せに応答して選択されることになり、また、それらの結果を予測するために、それらの共通の文脈の中で中止モードの複数の選択を表す観察に関し実行されることになる。

Claims (15)

  1. 事象の進行中にモデル結果を検索するための、コンピュータ実施方法であって、
    − 同様の事象の観察の第1のセットの変数を提供するステップ(S102、S104)と、
    − 複数のモデルを提供するステップと、
    − 前記複数のモデルに観察の前記第1のセットの前記変数でインデックスを付けるステップ(S30)と、
    − 1つまたは複数の変数に従ってモデルを問合せるステップ(S50)と、
    − 前記問合せの結果としてモデルを返すステップ(S60、70)と
    を含むことを特徴とするコンピュータ実施方法。
  2. − 観察の前記第1のセットの前記変数に基づいて前記複数のモデルをトレーニングするステップ(S20)と、
    − 前記複数のモデルに、各モデルをトレーニングするために使用される前記変数でインデックスを付けるステップ(S30)と
    をさらに含むことを特徴とする請求項1に記載のコンピュータ実施方法。
  3. 前記複数のモデルをトレーニングするステップは、
    − 観察の前記第1のセットの前記変数にフィルタリングを適用することによって前記第1のセットの前記観察のサブセットを計算するステップと、
    − 前記第1のセットの前記観察の前記サブセットのうちの1つのサブセットに関し前記複数のモデルの各モデルをトレーニングするステップと、
    − 前記複数のモデルの各モデルに、前記各モデルをトレーニングするために使用される前記観察の前記変数の値でインデックスを付けるステップと
    をさらに含むことを特徴とする請求項2に記載のコンピュータ実施方法。
  4. − 2つ以上のモデルが返されることを決定するステップ(S60)と、
    − 前記返された2つ以上のモデルをランク付けするステップ(S70)であって、前記ランク付けするステップが前記返された2つ以上のモデルの前記変数に基づくステップ(S70)と
    をさらに含むことを特徴とする請求項1乃至3のいずれか一項に記載のコンピュータ実施方法。
  5. 前記返された2つ以上のモデルは、
    − 返されたモデル毎に、前記モデルの前記変数の値と、前記問合せにおける対応する1つまたは複数の変数の値との間の近接測度に基づいて距離を計算するステップ
    によってランク付けされることを特徴とする請求項1乃至4のいずれか一項に記載のコンピュータ実施方法。
  6. 観察の前記第1のセットを構築するステップは、
    − シミュレーションから少なくとも1つの観察の結果を生成するステップ(S102)
    をさらに含むことを特徴とする請求項1乃至5のいずれか一項に記載のコンピュータ実施方法。
  7. 前記第1のセットの少なくとも1つの観察はランダムに生成されることを特徴とする請求項6に記載のコンピュータ実施方法。
  8. − 前記第1のセットの前記事象に類似している事象を表す観察の第2のセットを収集するステップであって、前記第2のセットの前記観察は、少なくとも前記第1のセットの前記変数と同じ変数を含むステップ
    をさらに含み、
    モデルの前記問合せは、観察の第2のセットの1つまたは複数の変数に従って実行されることを特徴とする請求項1乃至7のいずれか一項に記載のコンピュータ実施方法。
  9. − 1つまたは複数の観察を提供するステップ(S80)であって、前記提供される1つまたは複数の観察の各変数は値を有するセットであるステップと、
    − 前記1つまたは複数の観察の各々に対する結果を計算するステップ(S90)であって、前記計算は、前記返されたモデルを、前記提供された1つまたは複数の観察の値を有する変数セットに適用することによって実行されるステップと
    をさらに含むことを特徴とする請求項8に記載のコンピュータ実施方法。
  10. 少なくとも2つの観察が提供され(S80)、
    − 前記提供された1つまたは複数の観察に対して計算された前記結果をランク付けするステップと、
    − 前記提供された少なくとも2つの観察のうち、最も高いランキングを有する結果と関連付けられる1つを選択するステップと
    をさらに含むことを特徴とする請求項9に記載のコンピュータ実施方法。
  11. 前記モデルはシミュレーションモデルであるか、または機械学習モデルであることを特徴とする請求項1乃至10のいずれか一項に記載のコンピュータ実施方法。
  12. 請求項1乃至11のいずれか一項に記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム。
  13. 請求項12に記載のコンピュータプログラムがその上に記録されたことを特徴とするコンピュータ可読記憶媒体。
  14. 請求項12に記載のコンピュータプログラムがその上に記録されたメモリに結合された処理回路を備えることを特徴とするサーバ。
  15. クライアントコンピュータに接続され、前記クライアントコンピュータに対して前記インデックスに関する前記問合せが生成されることを特徴とする請求項14に記載のサーバ。
JP2016255145A 2015-12-31 2016-12-28 予め計算されたモデルの結果の検索 Active JP6940278B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15307195.6 2015-12-31
EP15307195.6A EP3188040B1 (en) 2015-12-31 2015-12-31 Retrieval of outcomes of precomputed models

Publications (2)

Publication Number Publication Date
JP2017120646A true JP2017120646A (ja) 2017-07-06
JP6940278B2 JP6940278B2 (ja) 2021-09-22

Family

ID=55661023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016255145A Active JP6940278B2 (ja) 2015-12-31 2016-12-28 予め計算されたモデルの結果の検索

Country Status (4)

Country Link
US (1) US10949425B2 (ja)
EP (1) EP3188040B1 (ja)
JP (1) JP6940278B2 (ja)
CN (2) CN107092626A (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062229B1 (en) * 2016-02-18 2021-07-13 Deepmind Technologies Limited Training latent variable machine learning models using multi-sample objectives
US11016730B2 (en) * 2016-07-28 2021-05-25 International Business Machines Corporation Transforming a transactional data set to generate forecasting and prediction insights
US10817757B2 (en) * 2017-07-31 2020-10-27 Splunk Inc. Automated data preprocessing for machine learning
US20190066519A1 (en) * 2017-08-30 2019-02-28 The Boeing Company Aircraft flight planning apparatus and method
CN108520181B (zh) * 2018-03-26 2022-04-22 联想(北京)有限公司 数据模型训练方法和装置
CN108985380B (zh) * 2018-07-25 2021-08-03 西南交通大学 一种基于聚类集成的转辙机故障识别方法
JP7268402B2 (ja) * 2019-02-28 2023-05-08 富士通株式会社 抽出プログラム、抽出方法及び抽出装置
US11194845B2 (en) 2019-04-19 2021-12-07 Tableau Software, LLC Interactive lineage analyzer for data assets
US11651003B2 (en) 2019-09-27 2023-05-16 Tableau Software, LLC Interactive data visualization interface for data and graph models
CN112579767B (zh) * 2019-09-29 2024-05-03 北京搜狗科技发展有限公司 搜索处理方法、装置和用于搜索处理的装置
US11423217B2 (en) 2019-11-07 2022-08-23 Tableau Software, LLC Flexible table based visualizations
US11829421B2 (en) * 2019-11-08 2023-11-28 Tableau Software, LLC Dynamic graph generation for interactive data analysis
US11550948B2 (en) * 2020-05-14 2023-01-10 Wells Fargo Bank, N.A. Apparatuses and methods for data clearance traversal
US11422985B2 (en) 2020-07-30 2022-08-23 Tableau Software, LLC Interactive data modeling
CN114648345B (zh) * 2020-12-17 2024-08-02 支付宝(杭州)信息技术有限公司 训练表征模型及确定实体表征向量的方法及装置
US12229145B2 (en) 2021-06-01 2025-02-18 Tableau Software, LLC Metadata inheritance for data assets
US12423333B2 (en) 2021-07-08 2025-09-23 Tableau Software, LLC Data processing for visualizing hierarchical data
US11335203B1 (en) 2021-08-20 2022-05-17 Beta Air, Llc Methods and systems for voice recognition in autonomous flight of an electric aircraft
US20230059083A1 (en) 2021-08-23 2023-02-23 Tableau Software, LLC Generating shortcut paths between related data types
US12105742B2 (en) 2021-08-31 2024-10-01 Tableau Software, LLC Providing data flow directions for data objects
CN115203172B (zh) * 2022-06-30 2023-11-07 北京亚控科技发展有限公司 模型构建及模型数据订阅方法、装置、电子设备和介质
US12393903B2 (en) 2023-01-27 2025-08-19 Tableau Software, LLC Determining shortcut relationships in data models

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041950A (ja) * 2005-08-04 2007-02-15 Sharp Corp 生産シミュレーション管理装置
JP2008536220A (ja) * 2005-04-08 2008-09-04 キャタピラー インコーポレイテッド 製品設計の方法およびシステム
US8762299B1 (en) * 2011-06-27 2014-06-24 Google Inc. Customized predictive analytical model training
US20140188768A1 (en) * 2012-12-28 2014-07-03 General Electric Company System and Method For Creating Customized Model Ensembles On Demand
EP2940606A1 (en) * 2014-05-02 2015-11-04 Google, Inc. Searchable index

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002006953A1 (fr) 2000-07-06 2002-01-24 Yamatake Corporation Capteur logiciel et dispositif d'evaluation correspondant
US8290883B2 (en) * 2008-09-18 2012-10-16 Honda Motor Co., Ltd. Learning system and learning method comprising an event list database
US8533224B2 (en) 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8768866B2 (en) 2011-10-21 2014-07-01 Sas Institute Inc. Computer-implemented systems and methods for forecasting and estimation using grid regression
US20140046879A1 (en) 2012-08-13 2014-02-13 Predixion Software, Inc. Machine learning semantic model
US9524473B2 (en) * 2012-08-31 2016-12-20 Nutonian, Inc. System and method for auto-query generation
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
US9082084B2 (en) 2013-06-28 2015-07-14 Linkedin Corporation Facilitating machine learning in an online social network
CN104679771B (zh) * 2013-11-29 2018-09-18 阿里巴巴集团控股有限公司 一种个性化数据搜索方法和装置
EP3076855A1 (en) * 2013-12-06 2016-10-12 Cardiac Pacemakers, Inc. Heart failure event prediction using classifier fusion
US20150242760A1 (en) 2014-02-21 2015-08-27 Microsoft Corporation Personalized Machine Learning System
US10068008B2 (en) * 2014-08-28 2018-09-04 Microsoft Technologies Licensing, LLC Spelling correction of email queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536220A (ja) * 2005-04-08 2008-09-04 キャタピラー インコーポレイテッド 製品設計の方法およびシステム
JP2007041950A (ja) * 2005-08-04 2007-02-15 Sharp Corp 生産シミュレーション管理装置
US8762299B1 (en) * 2011-06-27 2014-06-24 Google Inc. Customized predictive analytical model training
US20140188768A1 (en) * 2012-12-28 2014-07-03 General Electric Company System and Method For Creating Customized Model Ensembles On Demand
EP2940606A1 (en) * 2014-05-02 2015-11-04 Google, Inc. Searchable index

Also Published As

Publication number Publication date
CN121636761A (zh) 2026-03-10
EP3188040B1 (en) 2021-05-05
US10949425B2 (en) 2021-03-16
JP6940278B2 (ja) 2021-09-22
US20170193049A1 (en) 2017-07-06
CN107092626A (zh) 2017-08-25
EP3188040A1 (en) 2017-07-05

Similar Documents

Publication Publication Date Title
JP6940278B2 (ja) 予め計算されたモデルの結果の検索
JP6898095B2 (ja) 機械学習システムの更新
JP6835575B2 (ja) 予測型モデルに基づく推薦
US11501042B2 (en) Decisions with big data
Alligier et al. Machine learning and mass estimation methods for ground-based aircraft climb prediction
Ullah et al. An approach for space launch vehicle conceptual design and multi-attribute evaluation
CN107016400A (zh) 训练集的评估
US20190197424A1 (en) Prediction of an event affecting a physical system
CN116561329B (zh) 一种知识图谱预测模型的训练方法、系统、设备及介质
US20190005169A1 (en) Dynamic Design of Complex System-of-Systems for Planning and Adaptation to Unplanned Scenarios
US20230267527A1 (en) Method and system for obtaining item-based recommendations
Swaminathan et al. Integrating mbse and mdo through an extended requirements-functional-logical-physical (rflp) framework
Sisson et al. Digital twin approach for component health-informed rotorcraft flight parameter optimization
CN117273018A (zh) 信息处理方法、信息处理装置、计算机设备及存储介质
CN120020928A (zh) 用于选择飞行器巡航阶段航路的方法
Celestini et al. Generalizable spacecraft trajectory generation via multimodal learning with transformers
WO2021156513A1 (en) Generating implicit plans for accomplishing goals in an environment using attention operations over planning embeddings
CN110378358A (zh) 一种配电网异构数据整合方法及系统
US20220383076A1 (en) Machine learning models for behavior understanding
Spatharis et al. Modelling flight trajectories with multi-modal generative adversarial imitation learning: C. Spatharis et al.
US12260683B2 (en) Smart system for rapid and accurate aircraft maintenance decision making
Walker et al. Machine Learning Opportunities in Flight Test: Preflight Checks
Steffens Trajectory-based launch vehicle performance analysis for design-space exploration in conceptual design
Gopsill et al. Modelling the evolution of computer aided design models: Investigating the potential for supporting engineering project management
CN114545978A (zh) 电力线路巡检无人机的航线申请方法、装置和计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210902

R150 Certificate of patent or registration of utility model

Ref document number: 6940278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250