JP6985441B2 - ワークロード自動化およびデータ系統分析 - Google Patents

ワークロード自動化およびデータ系統分析 Download PDF

Info

Publication number
JP6985441B2
JP6985441B2 JP2020039456A JP2020039456A JP6985441B2 JP 6985441 B2 JP6985441 B2 JP 6985441B2 JP 2020039456 A JP2020039456 A JP 2020039456A JP 2020039456 A JP2020039456 A JP 2020039456A JP 6985441 B2 JP6985441 B2 JP 6985441B2
Authority
JP
Japan
Prior art keywords
data
information
job
identifying
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020039456A
Other languages
English (en)
Other versions
JP2020126656A (ja
Inventor
マイケル ウォルフソン,ハリー
ゴウルド,ジョエル
イエラカリス,アンソニー
ウェイクリング,ティム
Original Assignee
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2020126656A publication Critical patent/JP2020126656A/ja
Application granted granted Critical
Publication of JP6985441B2 publication Critical patent/JP6985441B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

優先権出願
本出願は、2014年5月29日に出願された「WORKLOAD AUTOMATION AND DATA LINEAGE ANALYSIS」と題する米国仮特許出願第62/004,406号、および、2014年8月27日に出願された「WORKLOAD AUTOMATION AND DATA LINEAGE ANALYSIS」と題する米国特許出願第14/470,501号に基づき、優先権を主張する。両者の内容全体が、参照により本明細書に組み込まれる。
ワークロードの自動化は、概して、一般にジョブをセットアップするプロセスを指し、そのように人間との対話処理なしで完結するように実行されることができる。全ての入力パラメータが、スクリプト、コマンドライン引数、ワークフロー自動化システム、制御ファイル、またはジョブ制御言語によって事前定義されている。ジョブは、利用可能な処理リソースと、予め定義された依存性に基づいてスケジュールされる。
データ系統は、データの発生元、およびデータがどこに移動し、データが経時的にどのように変化するかを説明する。この用語は、多様なプロセスを通じて進むにつれて、データがどうなるかを説明することもできる。データ系統は、情報がどのように使用されるかを分析し、特定の目的に合った情報の主要ビットを追跡する取り組みに役立つことができる。
概略的な態様1では、方法は、ジョブ依存性情報を取得する動作を含み、ジョブ依存性情報が、複数のジョブの実行順序を指定する。方法は、データ記憶と変換との間の依存関係を識別するデータ系統情報を取得する動作も含み、少なくとも1つの変換が、第1のデータ記憶からデータを受け取り、第2のデータ記憶に対してデータを生じさせる。方法は、ジョブ依存性情報とデータ系統情報との間にリンクを生成する動作も含む。方法は、ジョブ依存性情報、生成されたリンク、およびデータ系統情報に基づいて、複数のアプリケーションのうちのアプリケーションの実行予定についての変更の影響を判断する動作も含む。
本態様の他の実施形態は、対応するコンピュータシステム、装置、および1つまたは複数のコンピュータ記憶装置に記録されたコンピュータプログラムを含み、それぞれが、方法の動作を実行するように構成される。1つまたは複数のコンピュータのシステムは、作動中にシステムに動作を実行させるシステムにインストールされた、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを有することによって、特定の動作を実行するように構成され得る。1つまたは複数のコンピュータプログラムは、データ処理装置による実行時に装置に動作を実行させる命令を含むことによって、特定の動作を実行するように構成され得る。
方法は、態様1による態様2を含み、態様2では、ジョブ依存性情報を取得することが、ワークロード自動化システムに関連付けられたワークロードリポジトリから、スケジューリング情報を取得することと、スケジューリング情報を変換することと、データ記憶にスケジューリング情報を記憶させることであって、データ記憶が、データ系統を記憶していることと、を含む。方法は、態様1または2による態様3を含み、態様3では、リンクを生成することが、データ系統情報およびジョブ依存性情報によって参照されるデータソースを識別することを含む。方法は、態様1、2または3による態様4を含み、態様4では、データソースを識別することが、データ系統情報およびジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む。方法は、態様1、2、3または4による態様5を含み、態様5では、データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む。方法は、態様1、2、3、4または5による態様6を含み、態様6では、データソースを識別することが、データベース、テーブルスペース、およびテーブル名を使用して、リレーショナルデータベーステーブルを識別することを含む。方法は、態様1、2、3、4、5または6による態様7を含み、態様7では、リンクを生成することが、ジョブ依存性情報およびデータ系統情報によって参照される実行可能プログラムを識別することを含む。方法は、態様1、2、3、4、5、6または7による態様8を含み、態様8では、実行可能プログラムを識別することが、実行可能プログラムに提供されるパラメータに少なくとも部分的に基づいて、実行可能プログラムを識別することを含む。方法は、態様1、2、3、4、5、6、7または8による態様9を含み、態様9では、実行可能プログラムを識別することが、永続的なデータ記憶上の実行可能プログラムの位置に基づいて、実行可能プログラムを識別することを含む。方法は、態様1、2、3、4、5、6、7、8または9による態様10を含み、態様10では、影響を判断することが、ジョブスケジューリングデータを識別するクエリを受信することと、ジョブスケジューリングデータとデータ系統情報との間のリンクを識別することと、スケジューリングデータに基づいて、データ系統情報への影響を識別することと、を含む。
本明細書に記載される主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実装可能である。データ処理システムの全体像を考察することができる。データ依存性を説明するデータ系統情報を、スケジューリング依存性を説明するワークフロー自動化情報と結合することができる。データ系統情報またはジョブスケジューリング情報のいずれかの変更の影響を判断することができる。これにより、技術プロセスの開発者や管理者が、ワークフローをより効率的かつ中断の少ない方法で監視し、調整することに役立てることができる。全体として、プロセス障害、リソース消費、およびデータ処理期間のそれぞれが、それによって減少され得る。
例示的なスケジューリング図である。 例示的なデータ系統図である。 スケジューリング情報とデータ系統情報を統合する、例示的なシステムである。 データ分析技術が使用され得るデータ処理システムの例を示す。 スケジューリング情報への変更の影響を識別する、例示的な処理のフローチャートである。 相互に関連付けられた、依存性情報およびデータ系統情報の例を示す。
ジョブ依存性情報およびデータ系統情報は、結合されて事業の状態の全体像を提供することができる。従来、ジョブ依存性情報およびデータ系統情報は、異なる情報システムおよびデータベースにまたがって細分化されている。ジョブ依存性情報は、異なるジョブまたはタスクの実行の間に確立されている順序を説明する。データ系統情報は、データソースおよびデータシンクが、事業全体にわたってどのように関係しているかを説明する。ユーザは、特定のジョブが遅延しそうかどうか、または、どの報告もしくはデータシンクが影響を受けそうか、などの疑問に答えたいと望むことがある。本明細書で説明するシステムは、これらの全く異なるデータソースを統合する。
ジョブ依存性情報は、ワークロード自動化プログラムまたはジョブスケジューリングプログラムから取得されることができる。ワークロード自動化プログラムまたはジョブスケジューリングプログラムは、複雑な依存性を伴うワークロードタイプの様々なセットを調整する。概して、ジョブ依存性情報は、異なるタスクが実行されるべき順序を定義する。アプリケーションのスケジューリングは、典型的には、データの依存性を考慮に入れておらず、それは、本来データを意識したものではない。アプリケーションのスケジューリングは、単に、異なるタスクが実行し得る順序を定めているにすぎない。この順序付けは、データ依存性に基づく可能性があるが、リソース割り当て、全体の実行時間、および他の効率の最適化に基づく可能性もある。ワークロード自動化システムにおけるタスクは、データフローグラフ、Javaプログラム、ファイル転送コマンド、ビジネススイートソフトウェア統合、ウェブサービスアクセス、メッセージング、または任意の他の実行可能なプロセスを含んでもよい。ユーザは、スケジュール変更の影響、例えば、ジョブが遅延するかどうか、を判断したい場合がある。ワークロード自動化システムは、システム内で定義されている詳細を見るように、その機能が制限されている。
一方、データ系統情報は、データがシステムによって処理される順序を識別する。概して、データ系統情報は、データの発生元、および、データ処理アプリケーションの間にデータがどこに移動するか、またはデータがどのように変換されるかを含む、データのライフサイクルを説明する。データ系統情報は、多様なプロセスによってデータが変換されるにつれて、データに何が起こるかを説明する。概して、データ系統情報の分析は、情報がどのように使用されるかを識別し、特定の目的に合った情報の主要部分を追跡するために使用される。ジョブ依存性情報をデータ系統リポジトリに統合することによって、プロセスおよびデータのより堅牢な視界を展開することができる。
ジョブ依存性情報をデータ系統リポジトリに統合することによって、プロセスおよびデータのより堅牢な視界を展開することができる。
ジョブ依存性情報は、ワークロード自動化ツールから抽出されることができ、データ系統情報は、データ系統ツールから抽出されることができる。情報は、共に結合され、以降のアクセスのために、共通のリポジトリに記憶されることができる。
図1は、ジョブ「Psi」についての例示的なスケジューリング図100である。スケジューリング図100は、ワークロード自動化システムにおける、スケジューリング動作の例である。スケジューリング図は、ジョブ間のジョブ依存性を示している。多くの実装において、コンポーネント間により大きな相互関係を有する、より複雑な図が存在する。現在のスケジューリング図100は、例示の目的で使用される。ジョブは、後続ジョブの開始前に、先行ジョブが完了している必要がある、階層的順序で定義される。この図では、ジョブは、有向矢印で接続されている。矢印は、先行ジョブから後続ジョブに向かっている。例えば、「スクリプト コマンド 1」ジョブ102は、「データベース」ジョブ106または「ファイル監視」ジョブ110が開始し得る前に完了しなければならない。同様に、「データベース」ジョブ106および「ファイル監視」ジョブ110は、「FTP」ジョブ112が開始し得る前に完了しなければならない。「実行」ジョブ114は、「ファイル監視」ジョブ110が完了した後で、開始し得る。最後に、「モニタ完了」ジョブ116は、「FTP」ジョブ112および「実行」ジョブ114が完了した後にのみ、実行することができる。
ワークロード自動化システムは、様々なジョブについての情報を収集する。例えば、「スクリプト コマンド 1」ジョブ102は、ジョブを定義し、説明する属性104を有する。この例では、属性104は、実行されるジョブの種類を示すジョブタイプと、ジョブの名前を示すジョブ名と、スクリプトの位置を定義するファイルパスと、実行されるスクリプトの名前を示すファイル名と、スクリプトを実行すべきユーザ名を示す実行者と、ジョブの現在の状態(例えば、保留中、実行中、完了済み、失敗)を示す状態と、現在のジョブが完了後にのみ実行できるジョブを示す後続と、実行されるステップを定義するスクリプトと、を含む。
他の種類のジョブは、異なる属性を含んでもよい。例えば、「データベース」ジョブ106は、属性108を有する。これらの属性は、SQLコマンド(ここでは、「select us.order, us.order_amount from ne_production」)、先行ジョブのリスト(ここでは、スクリプト コマンド 1)、および後続ジョブのリスト(ここでは、FTP)を含むが、限定はされない。
同様に、「実行」ジョブ114は、実行されるべきプログラムの名前、例えば、「TransformA.exe」を識別するパラメータ118を含んでもよい。「FTP」ジョブ112は、ファイルおよびファイル転送動作の宛先を識別するパラメータ120を含んでもよい。例えば、パラメータ120は、Brazil Feed.datファイルが、server.comに転送予定であることを識別する。本明細書において、識別されるパラメータは、単なる例示にすぎない。他のパラメータは、ジョブスケジューリング情報によって定義され、含まれ得る。
ワークロード自動化システムは、図示していない、他のジョブに関連してジョブPsiをスケジューリングしてもよい。例えば、ジョブPsiは、ジョブZeta(または、図示していない、何らかの他のジョブ)の後に行われるようにスケジューリングされてもよい。ワークロード自動化システムは、ジョブ間のスケジュールを、リソース管理、依存性の報告、利用可能時間、優先度、または他の制約に基づいて判断してもよい。
図2は、例示的なデータ系統図200である。データ系統は、概して、データの発生元、ならびにデータがどこへ移動するか、およびデータがどのように変換され処理されるかを含む、データライフサイクルとして定義される。この用語は、多様なプロセスを通じて進むにつれて、データがどうなるかを説明することもできる。データ系統は、情報がどのように使用されるかを分析し、特定の目的に合った情報の主要ビットを追跡する取り組みに役立つことができる。概して、データ系統図は、データソース、データシンクおよび変換の間の関係性を示す図である。各変換は、1つまたは複数のデータソース(例えば、入力データ)を含み、1つまたは複数のデータシンクにデータ(例えば、出力データ)を生じさせることができる。データ系統情報内のそれぞれのデータソース、データシンク、および変換は、本明細書では、まとめてデータ系統要素と呼ばれるものとする。
この例では、データソース「U.S.Feed」202は、「変換A」204の変換にデータを提供する。変換A204は、「U.S.Feed」202によって提供されたデータに対して動作を実行し、「中間データセット1」206のデータ記憶に結果を記憶させる。データソース「Mexico Feed」208および「Brazil Feed」214は、「変換C」210の変換にデータを提供する。「変換C」210の変換は、「Mexico Feed」208および「Brazil Feed」214によって提供されたデータに対して動作を実行し、「中間データセット2」212のデータ記憶に結果を記憶させる。データソースは、例えば、単層ファイル、リレーショナルデータベース、オブジェクトデータベース、または、コンピュータシステムにデータを記憶させるための任意の他の機構であってもよい。例えば、「Brazil Feed」214は、「Brazil Feed.dat」などのファイルであってもよい。変換は、データを操作することが可能な実行可能プログラムであってもよい。例えば、仮想マシン内で実行されるJavaプログラム、実行ファイル、データフローグラフなどであってもよい。例えば、「変換A」204の変換は、「TransformA.exe」という名前の実行ファイルであってもよい。
「中間データセット1」206のデータ記憶および「中間データセット2」212のデータ記憶は、「変換B」216の変換にデータを提供する。「変換B」216の変換は、「中間データセット1」206から提供されたデータを使用し、「中間データセット2」212は、「出力報告」218のデータ記憶に結果を記憶させる。
データ系統に記憶されている情報は、データの異なる部分が、データの他の部分にどのように影響を与えるかを識別することができる。例えば、「U.S.Feed」データソースは、注文、および注文毎の額を含んでもよい。「変換A」204は、地域に基づいて、例えば、ニューイングランド、東部諸州、南部、中西部、平原州で発生した注文などによって、データを集約してもよい。データ系統情報は、「U.S.Feed」202からの額のフィールドが、「中間データセット1」206の「地域合計」フィールドに集約されると識別してもよい。
スケジューリングデータをデータ系統データと結合することによってのみ得られる、いくつかの情報がある。例えば、図1の「データベース ジョブ」106が、図2の「U.S.Feed」202を生成する場合において、その後ジョブ106が遅延し、または実行に失敗する場合、出力報告218は、遅延するか、または不正確なものとなる。データ系統情報およびジョブスケジューリング情報の両方を検討することなしに、これらの関係性が生じることはない。上記の例を参照すると、「ジョブZeta」(ジョブPsiに先行するものとして上述された)が遅延する場合、出力報告218が遅延するか、または不正確なものとなる恐れがあるため、さらに関係性がより複雑になる可能性がある。
図3は、スケジューリング情報およびデータ系統情報を統合する例示的システムである。スケジューリングリポジトリ302a〜bからのデータは、データ系統リポジトリ306にインポートされることができる。スケジューリングリポジトリ302a〜bは、ワークロード自動化システム、例えば、CONTOL−M、TIVOLI、TWS AUTOSYS、CA−7などに関連付けられたデータリポジトリであってもよい。ワークロード自動化システムのそれぞれについてのデータは、異なるフォーマットで記憶されてもよい。変換コンポーネント304a〜bは、スケジューリングリポジトリ302a〜bに記憶されたデータを、結合されたリポジトリ306の記憶用の共通データフォーマットに変換するために使用され得る。いくつかの実装では、変換コンポーネントは、例えば、データフローグラフの計算環境で実行するデータフローグラフであってもよい。
データ系統リポジトリ314からのデータは、結合されたリポジトリに記憶されることもできる。データ系統情報は、リポジトリ内に挿入される前に、変換コンポーネント316によって変換されてもよい。例えば、データのデータタイプは、リポジトリの予定されるデータフォーマットに従うために、あるタイプから別のタイプに変換されてもよい。さらに、データ構造は、例えば、データをジョブスケジューリング情報と効率的に統合するために、データ系統データ構造を単純化することを含み、変更されてもよい。
ジョブスケジューリング情報は、収集され、結合されたリポジトリに統合されることができる。ジョブスケジューリング情報は、結合されたリポジトリで受け入れ可能なフォーマットに修正されることができる。例えば、データの特定のフィールドのフォーマットが、変更されてもよい。異なるデータオブジェクト間の関係性は、機能的に同一または異なる形式に変更されてもよい。ジョブスケジューリング情報を統合することは、以前の大量のワークロードスケジューリングデータから、古いまたは期限を経過した情報を識別すること、および上書きすること、または保管することを含むことができる。ジョブ依存性情報とデータ系統情報とが、共に結合されリンクされる。ジョブ依存性情報は、情報に関連付けられた属性またはパラメータに基づいて、データ系統情報にリンクされてもよい。例えば、ジョブおよびデータ系統要素は、同一の実行ファイル(例えば、上述の「TransformA.exe」)を参照してもよい。実行ファイルは、完全修飾識別子に基づいて識別されることができる。完全修飾識別子は、完全パスを含んでもよく、即ち、コンピュータ、およびハードドライブなどの永続的な記憶装置上の位置が、識別されてもよい。完全修飾識別子は、実行ファイルに提供される任意のパラメータを含んでもよい。同様に、ジョブおよびデータ系統要素は、同一のデータ記憶を参照してもよい。例えば、上記の図では、図1のFTPジョブ112およびBrazil Feedデータソース214は、「Brazil Feed.dat」ファイルを参照する。データソースは、完全修飾識別子に基づいて識別され得る。例えば、完全修飾識別子は、単層ファイルを識別する完全パスもしくはユニフォームリソースロケータ(URL)、または、サーバ、データベース、テーブルスペース、リレーショナルデータベース内のテーブル名を識別する情報であってもよい。これらの、または他の共通の要素が識別される時、プロセスは、ジョブ依存性情報とデータ系統情報との間にリンクを生成することができる。
いくつかの実装では、ジョブスケジューリング情報は、定期的に(例えば、週1回、1日1回、1時間1回、など)、結合されたリポジトリ306に統合されることができる。いくつかの実装では、ジョブスケジューリング情報に対する変更が、統合プロセスのトリガとなって、ほぼリアルタイムで情報を統合してもよい。例えば、データベースのトリガは、変更が検出された時に統合プロセスを開始してもよい。あるいは、ジョブスケジューリングシステムにおけるコールバック機構が、統合プロセスを開始させてもよい。
結合されたリポジトリ306は、グラフベースのアプリケーションの開発および実行、ならびにグラフベースのアプリケーションと他のシステム(例えば、他のオペレーティングシステム)との間のメタデータの交換を支援するように設計された、拡張性のあるオブジェクト指向データベースシステムであることが好ましい。結合されたリポジトリ306は、ドキュメンテーション、レコードフォーマット(例えば、テーブル内のレコードのフィールドおよびデータタイプ)、変換機能、グラフ、ジョブ、ならびにモニタリング情報を含む、あらゆる種類のメタデータのための記憶システムである。
結合されたリポジトリ306は、コンピューティングシステムによって処理されるべき実際のデータを表す、データオブジェクトを記憶することもできる。
結合されたリポジトリ306に記憶されたデータ系統情報およびジョブ依存性情報の結合は、そうでなければ利用できない、報告および情報を生成するために使用されることができる。これら2つのデータのソースを共に結合することによって、そうでなければ利用できない、ジョブの全体像を見ることが可能となる。例えば、データの結合は、「ジョブが遅延する場合に、任意の所与のデータセットに対して何を意味するか」という問いに対する答えを提供するために使用されることができる。ジョブは、データセット1に直接影響を与えないかもしれないが、ワークロード自動化システムにおけるスケジューリング指示子のために、間接的に影響を与えるかもしれない。
監査および報告システム308は、特定のデータセットが、影響を受けようとしている時に、警報を出すことができる。例えば、業務では、特定のデータセットが不正確になりそうな時に警報を出すことを望むかもしれない。
情報処理システム310は、ユーザ312にグラフィカルユーザインターフェースを提示することができ、ユーザが、上述のリンクに基づいて、ジョブスケジューリング情報とデータ系統情報との間をナビゲートすることを含み、スケジューリング情報および/またはデータ系統の詳細をドリルダウンし、検討することができるようにする。
図4は、データ分析技術が使用され得る、データ処理システム400の例を示す。システム400は、データソース402を含み、データソース402は、例えば、ワークロード自動化システムのデータリポジトリを含む、記憶装置、またはオンラインデータストリームへの接続などの1つまたは複数のデータのソースを含むことができる。各データ記憶は、様々なフォーマットのうちのいずれか(例えば、データベーステーブル、スプレッドシートファイル、単層テキストファイル、またはメインフレームによって使用されるネイティブフォーマット)で、データを記憶し、または提供することができる。実行環境404は、前処理モジュール406と、実行モジュール412とを含む。実行環境404は、UNIXオペレーティングシステムのあるバージョンなどの、適切なオペレーティングシステムの制御下で、例えば、1つまたは複数の汎用コンピュータ上に提供されてもよい。例えば、実行環境404は、局所的(例えば、対称型マルチプロセッシング(SMP)コンピュータなどの、マルチプロセッサシステム)、もしくは局所分散(例えば、クラスタとして連結された複数のプロセッサ、もしくは大規模並列処理(MPP)システム)のいずれか、またはリモートもしくはリモート分散(例えば、ローカルエリアネットワーク(LAN)および/または広域ネットワーク(WAN)を介して連結された複数のプロセッサ)、またはそれらの任意の組合せで、複数の中央処理装置(CPU)またはプロセッサコアを使用するコンピュータシステムの構成を含む、マルチノード並列コンピューティング環境を含むことができる。
変換モジュール406は、データソース402からデータを読み出し、データを正準形式に変換し、データ記憶416に情報を記憶させる。データソース402を提供する記憶装置は、実行環境404に対して局所的(例えば、実行環境404を提供するコンピュータに接続された記憶媒体(例えば、ハードドライブ408)に記憶されている)であってもよく、または、実行環境404に対してリモート(例えば、リモート接続(例えば、クラウドコンピューティングインフラストラクチャによって提供される)を介して、実行環境404を提供するコンピュータと通信関係にある、リモートシステム(例えば、メインフレーム410)上で提供されている)であってもよい。
分析モジュール412は、データ系統情報と結合された、変換モジュール406によって生成された、記憶された情報を使用して、結合されたデータの分析を、結合されていなければ可能ではない方法で実行する。例えば、ジョブのスケジュール変更は、ジョブによって直接影響を受けるもの以外のデータ記憶に強い影響を与える。ジョブは、他のジョブに影響を与える可能性があり、それらのジョブのそれぞれが、データソースに影響を与える可能性がある。いくつかのシナリオでは、データソースに対する変更は、同様に、追加のジョブに影響を与える可能性がある。記憶された情報は、データ記憶システム416に記憶されてもよい。データ記憶システム416は、ユーザ420と対話処理を行う分析システム418にもアクセス可能である。ユーザ420は、結合されたデータのドリルダウン分析を実行することが可能である。
分析システム418および実行環境404は、いくつかの実装において、有向リンク(作業要素、即ち、データの流れを表す)によって頂点間が接続された、頂点(データ処理コンポーネントまたはデータセットを表す)を含むデータフローグラフとして、計算アプリケーションを実行するシステムを使用して設計されている。例えば、そのような環境は、参照により本明細書に組み込まれる、「Managing Parameters for Graph−Based Applications」と題した米国特許出願公開第2007/0011668号に、より詳細に記載されている。そのようなグラフベースの計算を実行するシステムは、参照により本明細書に組み込まれる、「EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS」と題する米国特許第5,966,072号に記載されている。このシステムに従って作られるデータフローグラフは、グラフコンポーネントによって表される個々のプロセスに出入りする情報を取得し、プロセス間で情報を移動し、およびプロセスに対する実行順序を定義する方法を提供する。このシステムは、プロセス間の通信方法を任意の利用可能な方法(例えば、グラフのリンクに従う通信パスが、TCP/IPもしくはUNIXドメインソケットを使用することができ、共有メモリを使用して、プロセス間でデータを渡すことができる)から選択するアルゴリズムを含む。
変換モジュール406は、異なる形式のデータベースシステムを含む、データソース402を具体化し得る様々なタイプのシステムからデータを受信することができる。データは、空値を含む可能性がある、それぞれのフィールド(「属性」または「カラム」とも呼ばれる)についての値を有するレコードとして編成されてもよい。データソースからデータを読み出す時、変換モジュール406は、典型的には、そのデータソース内のレコードを説明する、いくつかの初期フォーマット情報で開始される。場合によっては、データソースのレコード構造は、最初は既知でなくてもよく、その代わりに、データソースまたはデータの分析後に判断されてもよい。レコードについての初期情報は、例えば、固有値を表すビットの数字、レコード内のフィールドの順序、および、ビットによって表される値の型(例えば、文字列、符号付き/符号なし整数)を含むことができる。
図5は、スケジューリング情報への変更の影響を識別する、例示的なプロセス500のフローチャートである。プロセスは、プロセスを実行するコンピュータシステムによって実行されてもよい。
データ系統情報が、取得502されることができる。データ系統情報は、上述したデータ記憶から取得されてもよい。データ系統情報は、データ記憶と変換との間の依存関係を識別することができる。変換は、1つのデータ記憶からデータを受け取り、別のデータ記憶にデータを生じさせることができる。
ジョブ依存性情報が、取得504されることができる。ジョブ依存性情報は、上記で論じたプロセスを通じて、取得され得る。ジョブ依存性情報は、複数のジョブの実行順序を指定することができる。
ジョブ依存性情報およびデータ系統情報の要素のうちの少なくもいくつかの間のリンクが、識別されることができる。リンクは、直接であってもよい(例えば、ジョブが、変換を実行506させてもよい)。リンクは、間接であってもよい(例えば、ジョブが、データフローグラフを実行させてもよく、その場合に、データフローグラフが変換を含む)。リンクは、ジョブスケジューリング情報およびデータ系統情報によって参照されるファイルおよびデータ記憶に基づいて、判断されてもよい。
データ記憶上の複数のアプリケーションのうちのアプリケーションの実行予定についての変更の影響が判断508され得る。影響は、ジョブ依存性情報、リンク、およびデータ系統情報に基づいて判断されてもよい。例えば、ユーザは、少なくとも1つのジョブ、実行可能プログラムまたはデータ記憶を識別するクエリを提示してもよい。例えば、特定のジョブ、実行可能プログラム、もしくはデータソースが利用可能でない場合、または特定のジョブが、失敗もしくは、時間通りに実行されない場合に、ユーザは、影響を判断することを希望してもよい。代替的に、または追加的に、ジョブが失敗したこと、または時間通りの完了に失敗したことを、ワークロード自動化システムが識別してもよい。例えば、ジョブ自体によってハンドリングできないエラーが処理中に発生する時に、ジョブが失敗することがある。例えば、期限が経過する時にも、ジョブが失敗することがある。
プロセスは、識別されたジョブ、実行可能プログラムまたはデータ記憶に従属しているジョブの全てを識別することができる。プロセスは、識別されたジョブと、従属関係にあるジョブとの間のリンク、およびデータ系統要素を識別することができる。データ系統要素は、データソース、データシンク、およびデータ変換の間の関係性、または関係性の一部を説明する、データ要素であってもよい。識別されたジョブおよび従属関係にあるジョブにリンクされているデータ系統要素は、ジョブに従属しているデータ系統要素を判断するために使用されることができる。即ち、データ系統要素に続いてアクセスされるデータ系統要素の全てが、リンクによって識別されることができる。
プロセスは、再帰的に適用されることができる。例えば、データ系統要素が一度識別されると、追加のリンクが、データ系統要素を再度追加のジョブに関係付ける。追加のジョブは、同様に、再度追加のデータ系統要素にリンクしてもよい。
例えば、図6は、ジョブ依存性情報およびデータ系統情報の結合に基づいて判断され得る依存性情報の単純化した例を示す。ジョブ600は、2つのサブジョブ、(1)生成daily sales.datジョブ602、および(2)FTP daily sales.datジョブ604を含む。daily sales file.datは、データ系統情報によって識別されるものとして、データフローグラフ606によって使用される。この例では、FTP daily sales.datジョブは、破線610で示されるように、daily sales.datデータソース608にリンクされている。input file.dat608は、集約変換612によって、図示されていない他のデータと集約される。集約変換612は、データソース、quarterly.dat614を生成する。別のジョブ616は、quarterly.datのファイルの生成を監視する、ファイル監視quarterly.datジョブ618を含む。この関係性に基づいて、quarterly.datのデータソースと、ファイル監視quarterly.datジョブ618とは、破線620で表すように、結合されたリポジトリにおいてリンクされる。生成10−K情報ジョブ622は、quarterly.datのファイルを使用して、SEC用の10−K情報を生成する。
結合されたスケジュール依存性情報およびデータ系統情報を使用すること、ならびに再度追加のスケジュール依存性情報にリンクすることによって、生成daily salesジョブと生成10−K情報ジョブがジョブ依存性情報によってリンクされていなくても、システムは、daily sales.datファイル生成の問題が、10−Kの生成に伴う遅延という結果を引き起こし得るということを判断することができる。
上述のデータ統合および分析アプローチは、適切なソフトウェアを実行するコンピューティングシステムを使用して実行され得る。例えば、ソフトウェアは、1つまたは複数のプログラムされた、またはプログラム可能なコンピューティングシステム(分散、クライアント/サーバ、もしくはグリッドなどの、様々なアーキテクチャのものであり得る)上で実行する、1つまたは複数のコンピュータプログラム内の手続きを含んでもよい。それぞれのコンピューティングシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性および/または不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つのユーザインターフェース(少なくとも1つの入力デバイスまたはポートを用いて入力を受信するための、および、少なくとも1つの出力デバイスまたはポートを用いて出力を提供するための)を含む。ソフトウェアは、例えば、データフローグラフの設計、構成、および実行に関するサービスを提供する、より大きなプログラムの1つまたは複数のモジュールを含んでもよい。プログラムのモジュール(例えば、データフローグラフの要素)は、データリポジトリ内に記憶されたデータモデルに従ったデータ構造または他の編成済みデータとして実装されてもよい。
ソフトウェアは、CD−ROMもしくは他のコンピュータ可読媒体(例えば、汎用もしくは専用コンピューティングシステムもしくはデバイスによって可読である)などの、有形の非一時的媒体において提供されてもよく、またはネットワークの通信媒体を介して、ソフトウェアが実行されるコンピューティングシステムの有形の非一時的媒体に(例えば、伝播信号において符号化されて)配信されてもよい。処理のいくつかもしくは全ては、専用コンピュータ上で実行されてもよく、または、コプロセッサもしくはフィールドプログラマブルゲートアレイ(FPGA)もしくは専用の特定用途向け集積回路(ASIC)などの、専用ハードウェアを使用してもよい。処理は、ソフトウェアによって指定された計算の異なる部分が、異なる計算要素によって実行される、分散方式で実装されてもよい。そのようなコンピュータプログラムのそれぞれは、記憶デバイス媒体が、本明細書で説明した処理を実行するためにコンピュータによって読み出される時にコンピュータを構成および動作させるための、汎用または専用プログラム可能なコンピュータによってアクセス可能な、記憶デバイスのコンピュータ可読記憶媒体(例えば、ソリッドステートメモリもしくは媒体、または磁気媒体もしくは光学式媒体)上に記憶され、またはダウンロードされるのが好ましい。本発明のシステムは、有形の非一時的媒体として実装され、そのように構成された媒体が、コンピュータを、特定の予め定義された方法で動作させて、本明細書で説明した1つまたは複数の処理ステップを実行させる、コンピュータプログラムで構成されるものと考えられてもよい。
いくつかの本発明の実施形態について説明した。それにも関わらず、前述の説明は、以下の特許請求の範囲によって定義される本発明の範囲を例証することを意図するものであり、限定することを意図するものではないと理解されるべきである。したがって、他の実施形態もまた、以下の特許請求の範囲内である。例えば、本発明の範囲から逸脱することなく、様々な修正が行われ得る。さらに、上述したステップのうちのいくつかは、独立した順序であってもよく、したがって、説明した順序とは異なる順序で実行されることができる。

Claims (24)

  1. コンピュータシステムによって、複数のジョブの実行順序を示すジョブ依存性情報と、データ系統情報との間のリンクを識別することにより、前記ジョブ依存性情報と前記データ系統情報との結合に基づく依存性情報を判断することと、
    前記依存性情報に基づいて、前記データ系統情報により指定されるデータソースにおける前記ジョブ依存性情報により指定されるジョブの実行予定についての変更の影響を判断することであって、
    前記ジョブ依存性情報により指定される、前記ジョブを識別することと、
    前記ジョブとデータ系統情報とを参照する前記リンクを識別することと、
    前記ジョブに基づいて、前記データ系統情報により指定される前記データソースへの影響を識別することと、
    前記識別された影響を表すデータを記憶することと、
    を含む、コンピュータにより実施される方法。
  2. 前記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項1に記載の方法。
  3. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項2に記載の方法。
  4. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項2に記載の方法。
  5. システムに関連づけられたリポジトリから、複数のジョブの実行順序を示すジョブ依存性情報を得ることと
    データ系統情報を記憶するデータ記憶の中に、前記ジョブ依存性情報を記憶することと、
    コンピュータシステムによって、前記複数のジョブの実行順序を示す前記ジョブ依存性情報と前記データ系統情報との結合に、前記データ記憶からアクセスすることに基づいて、依存性情報を決定することと、
    前記依存性情報に基づいて、データソースにおける前記ジョブの実行予定についての変更の影響を判断することと、
    前記判断された影響を表示するユーザインタフェースを提供することと、
    を含む、コンピュータにより実施される方法。
  6. 前記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項5に記載の方法。
  7. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項6に記載の方法。
  8. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項6に記載の方法。
  9. 1つまたは複数のコンピュータによる実行時に、前記1つまたは複数のコンピュータに動作を行わせるコンピュータプログラム命令を記憶した非一時的コンピュータ記憶媒体であって、前記動作が、
    複数のジョブの実行順序を示すジョブ依存性情報と、データ系統情報との間のリンクを識別することにより、前記ジョブ依存性情報と前記データ系統情報との結合に基づく依存性情報を判断することと、
    前記依存性情報に基づいて、前記データ系統情報により指定されるデータソースにおける前記ジョブ依存性情報により指定されるジョブの実行予定についての変更の影響を判断することであって、
    前記ジョブ依存性情報より指定される、前記ジョブを識別することと、
    前記ジョブとデータ系統情報とを参照する前記リンクを識別することと、
    前記ジョブに基づいて、前記データ系統情報により指定される前記データソースへの影響を識別することと、
    前記識別された影響を表すデータを記憶することと、
    を含む、非一時的コンピュータ記憶媒体。
  10. 前記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項9に記載の媒体。
  11. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項10に記載の媒体。
  12. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項10に記載の媒体。
  13. 1つまたは複数のコンピュータによる実行時に、前記1つまたは複数のコンピュータに動作を行わせるコンピュータプログラム命令を記憶した非一時的コンピュータ記憶媒体であって、前記動作が、
    システムに関連づけられたリポジトリから、複数のジョブの実行順序を示すジョブ依存性情報を得ることと
    データ系統情報を記憶するデータ記憶の中に、前記ジョブ依存性情報を記憶することと、
    前記複数のジョブの実行順序を示す前記ジョブ依存性情報と前記データ系統情報との結合に、前記データ記憶からアクセスすることに基づいて、依存性情報を決定することと、
    前記依存性情報に基づいて、データソースにおける前記ジョブの実行予定についての変更の影響を判断することと、
    前記判断された影響を表示するユーザインタフェースを提供することと、
    を含む、非一時的コンピュータ記憶媒体。
  14. 前記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項13に記載の媒体。
  15. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項14に記載の媒体。
  16. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項14に記載の媒体。
  17. 1つまたは複数のコンピュータと、
    前記1つまたは複数のコンピュータによる実行時に、前記1つまたは複数のコンピュータに動作を行わせるように実行可能な命令を記憶する、1つまたは複数の記憶装置と、を備えるシステムであって、前記動作が、
    複数のジョブの実行順序を示すジョブ依存性情報と、データ系統情報との間のリンクを識別することにより、前記ジョブ依存性情報と前記データ系統情報との結合に基づく依存性情報を判断することと、
    前記依存性情報に基づいて、前記データ系統情報により指定されるデータソースにおける前記ジョブ依存性情報により指定されるジョブの実行予定についての変更の影響を判断することであって、
    前記ジョブ依存性情報より指定される、前記ジョブを識別することと、
    前記ジョブとデータ系統情報とを参照する前記リンクを識別することと、
    前記ジョブに基づいて、前記データ系統情報により指定される前記データソースへの影響を識別することと、
    前記識別された影響を表すデータを記憶することと、
    を含む、システム。
  18. 記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項17に記載のシステム。
  19. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項18に記載のシステム。
  20. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項18に記載のシステム。
  21. 1つまたは複数のコンピュータと、
    前記1つまたは複数のコンピュータによる実行時に、前記1つまたは複数のコンピュータに動作を行わせるように実行可能な命令を記憶する、1つまたは複数の記憶装置と、を備えるシステムであって、前記動作が、
    システムに関連づけられたリポジトリから、複数のジョブの実行順序を示すジョブ依存性情報を得ることと
    データ系統情報を記憶するデータ記憶の中に、前記ジョブ依存性情報を記憶することと、
    前記複数のジョブの実行順序を示す前記ジョブ依存性情報と前記データ系統情報との結合に、前記データ記憶からアクセスすることに基づいて、依存性情報を決定することと、
    前記依存性情報に基づいて、データソースにおける前記ジョブの実行予定についての変更の影響を判断することと、
    前記判断された影響を表示するユーザインタフェースを提供することと、
    を含む、システム。
  22. 前記データ系統情報および前記ジョブ依存性情報によって参照されるデータソースを識別することにより、リンクを生成することを更に含む、請求項21に記載のシステム。
  23. 前記データソースを識別することが、前記データ系統情報および前記ジョブ依存性情報内の同一の名前によって参照されるデータソースを識別することを含む、請求項22に記載のシステム。
  24. 前記データソースを識別することが、ユニフォームリソースロケータを使用してデータソースを識別することを含む、請求項22に記載のシステム。
JP2020039456A 2014-05-29 2020-03-09 ワークロード自動化およびデータ系統分析 Active JP6985441B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462004406P 2014-05-29 2014-05-29
US62/004,406 2014-05-29
US14/470,501 US10705877B2 (en) 2014-05-29 2014-08-27 Workload automation and data lineage analysis
US14/470,501 2014-08-27
JP2016567355A JP6674904B2 (ja) 2014-05-29 2015-05-22 ワークロード自動化およびデータ系統分析

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016567355A Division JP6674904B2 (ja) 2014-05-29 2015-05-22 ワークロード自動化およびデータ系統分析

Publications (2)

Publication Number Publication Date
JP2020126656A JP2020126656A (ja) 2020-08-20
JP6985441B2 true JP6985441B2 (ja) 2021-12-22

Family

ID=53404861

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016567355A Active JP6674904B2 (ja) 2014-05-29 2015-05-22 ワークロード自動化およびデータ系統分析
JP2020039456A Active JP6985441B2 (ja) 2014-05-29 2020-03-09 ワークロード自動化およびデータ系統分析

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016567355A Active JP6674904B2 (ja) 2014-05-29 2015-05-22 ワークロード自動化およびデータ系統分析

Country Status (7)

Country Link
US (2) US10705877B2 (ja)
EP (1) EP3149581B1 (ja)
JP (2) JP6674904B2 (ja)
AU (3) AU2015267334B2 (ja)
CA (1) CA2949955C (ja)
SG (2) SG11201608958TA (ja)
WO (1) WO2015183738A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10705877B2 (en) 2014-05-29 2020-07-07 Ab Initio Technology Llc Workload automation and data lineage analysis
US11892913B2 (en) 2015-01-05 2024-02-06 Rubrik, Inc. Data lineage based multi-data store recovery
US10579627B2 (en) * 2016-01-08 2020-03-03 Microsoft Technology Licensing, Llc Database operation using metadata of data sources
CN108701257B (zh) 2016-08-22 2023-01-06 甲骨文国际公司 用于实时可视模拟内的动态、增量推荐的系统和方法
CA3045810A1 (en) 2016-12-01 2018-06-07 Ab Initio Technology Llc Generating, accessing, and displaying lineage metadata
US10514993B2 (en) 2017-02-14 2019-12-24 Google Llc Analyzing large-scale data processing jobs
US10431002B2 (en) * 2017-02-23 2019-10-01 International Business Machines Corporation Displaying data lineage using three dimensional virtual reality model
US10642801B2 (en) 2017-08-29 2020-05-05 Bank Of America Corporation System for determining the impact to databases, tables and views by batch processing
US10514948B2 (en) * 2017-11-09 2019-12-24 Cloudera, Inc. Information based on run-time artifacts in a distributed computing cluster
US10635700B2 (en) 2017-11-09 2020-04-28 Cloudera, Inc. Design-time information based on run-time artifacts in transient cloud-based distributed computing clusters
US10719744B2 (en) 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes
DE112018006630T5 (de) * 2017-12-28 2020-09-24 Intel Corporation Visual fog
US10936367B2 (en) * 2018-10-28 2021-03-02 Microsoft Technology Licensing, Llc Provenance driven job relevance assessment
US10445170B1 (en) 2018-11-21 2019-10-15 Fmr Llc Data lineage identification and change impact prediction in a distributed computing environment
US10719336B1 (en) * 2019-05-14 2020-07-21 Microsoft Technology Licensing, Llc Dependency version conflict auto-resolution
US11681721B2 (en) * 2020-05-08 2023-06-20 Jpmorgan Chase Bank, N.A. Systems and methods for spark lineage data capture
US11349957B2 (en) 2020-05-14 2022-05-31 Bank Of America Corporation Automatic knowledge management for data lineage tracking
US11520801B2 (en) 2020-11-10 2022-12-06 Bank Of America Corporation System and method for automatically obtaining data lineage in real time
US11789779B2 (en) * 2021-03-01 2023-10-17 Bank Of America Corporation Electronic system for monitoring and automatically controlling batch processing
US11797574B2 (en) 2021-07-30 2023-10-24 Bank Of America Corporation Hierarchic distributed ledger for data lineage
US12608234B2 (en) * 2022-10-16 2026-04-21 Oracle International Corporation Workload analyzer for monitoring and optimizing workload performance
CN118811354B (zh) * 2024-09-19 2024-11-19 联诚科技集团股份有限公司 一种实现模拟量模块烧写程序和自动校准的测试装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3181994B2 (ja) 1992-09-03 2001-07-03 株式会社日立製作所 ジョブフロー仕様書自動作成方法
US5966072A (en) 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
JP2000066931A (ja) 1998-08-19 2000-03-03 Sony Corp データベースシステム、データ変更方法およびデータベースプログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2001022695A (ja) 1999-07-12 2001-01-26 Nec Software Chubu Ltd システム構成要素間の対応関係管理・照会システムとその対応関係管理・照会方法および情報記録媒体
US7289964B1 (en) * 1999-08-31 2007-10-30 Accenture Llp System and method for transaction services patterns in a netcentric environment
JP4399127B2 (ja) 2001-05-14 2010-01-13 株式会社日立製作所 文書管理方法及び装置並びにその処理プログラム及びそれを格納した記憶媒体
US20060010425A1 (en) * 2001-10-29 2006-01-12 Willadsen Gloria J Methods and apparatus for automated mangement of software
US20050071842A1 (en) * 2003-08-04 2005-03-31 Totaletl, Inc. Method and system for managing data using parallel processing in a clustered network
US7366735B2 (en) 2004-04-09 2008-04-29 Oracle International Corporation Efficient extraction of XML content stored in a LOB
WO2005116830A1 (en) * 2004-05-27 2005-12-08 Koninklijke Philips Electronics N.V. Signal processing apparatus
JP4866844B2 (ja) 2004-06-16 2012-02-01 オラクル・インターナショナル・コーポレイション Lobに格納されたxml内容の効率的な抽出
JP2006120021A (ja) 2004-10-22 2006-05-11 Cannac:Kk 問題解決支援装置、問題解決支援方法、及び問題解決支援プログラム
JP2006268509A (ja) 2005-03-24 2006-10-05 Nomura Research Institute Ltd ジョブ設定装置およびジョブ設定方法
US7716630B2 (en) 2005-06-27 2010-05-11 Ab Initio Technology Llc Managing parameters for graph-based computations
JP2007241642A (ja) * 2006-03-08 2007-09-20 Kubota Systems Inc 解析方法、解析装置及びコンピュータプログラム
JP4476233B2 (ja) * 2006-03-24 2010-06-09 日本証券テクノロジー株式会社 バッチ系のシステムリソース管理方式
US20090024111A1 (en) * 2007-07-16 2009-01-22 German Borodulin Urethral catheter assembly for combining catheterization with injection of therapeutic liquid into the urethral channel
US8387066B1 (en) * 2007-09-28 2013-02-26 Emc Corporation Dependency-based task management using set of preconditions to generate scheduling data structure in storage area network
US20090165015A1 (en) * 2007-12-21 2009-06-25 Schlumberger Technology Corporation Managing dependencies among applications using satisfiability engine
JP2009163566A (ja) 2008-01-08 2009-07-23 Nomura Research Institute Ltd ジョブ解析支援装置
US8869165B2 (en) 2008-03-20 2014-10-21 International Business Machines Corporation Integrating flow orchestration and scheduling of jobs and data activities for a batch of workflows over multiple domains subject to constraints
US8261363B2 (en) 2008-04-29 2012-09-04 Ricoh Company, Ltd. Managing electronic data with identification data
US20110119680A1 (en) 2009-11-16 2011-05-19 Yahoo! Inc. Policy-driven schema and system for managing data system pipelines in multi-tenant model
US8510751B2 (en) * 2010-03-18 2013-08-13 International Business Machines Corporation Optimizing workflow engines
CN103069394B (zh) 2010-08-25 2016-06-22 起元技术有限责任公司 评估数据流图的特征
US8856291B2 (en) 2012-02-14 2014-10-07 Amazon Technologies, Inc. Providing configurable workflow capabilities
US10147063B2 (en) * 2012-07-16 2018-12-04 International Business Machines Corporation Transforming project management representations into business process representations
US8943505B2 (en) * 2012-08-24 2015-01-27 National Instruments Corporation Hardware assisted real-time scheduler using memory monitoring
US20140189703A1 (en) * 2012-12-28 2014-07-03 General Electric Company System and method for distributed computing using automated provisoning of heterogeneous computing resources
EP2973051A4 (en) * 2013-03-15 2016-11-16 Amazon Tech Inc SCALABLE ANALYSIS PLATFORM FOR SEMI-STRUCTURED DATA
US9477523B1 (en) * 2013-06-25 2016-10-25 Amazon Technologies, Inc. Scheduling data access jobs based on job priority and predicted execution time using historical execution data
US9304817B2 (en) * 2013-11-25 2016-04-05 Xerox Corporation Method and apparatus for a user-driven priority based job scheduling in a data processing platform
US10310903B2 (en) * 2014-01-17 2019-06-04 Red Hat, Inc. Resilient scheduling of broker jobs for asynchronous tasks in a multi-tenant platform-as-a-service (PaaS) system
US9805326B2 (en) * 2014-04-24 2017-10-31 International Business Machines Corporation Task management integrated design environment for complex data integration applications
US10705877B2 (en) 2014-05-29 2020-07-07 Ab Initio Technology Llc Workload automation and data lineage analysis

Also Published As

Publication number Publication date
AU2021200669A1 (en) 2021-03-04
AU2015267334A1 (en) 2016-11-17
AU2019283853B2 (en) 2020-11-19
EP3149581B1 (en) 2025-05-14
SG11201608958TA (en) 2016-11-29
AU2021200669B2 (en) 2022-11-17
WO2015183738A1 (en) 2015-12-03
AU2015267334B2 (en) 2019-10-03
AU2019283853A1 (en) 2020-01-23
US20200319932A1 (en) 2020-10-08
CA2949955A1 (en) 2015-12-03
JP2017522630A (ja) 2017-08-10
JP2020126656A (ja) 2020-08-20
US11748165B2 (en) 2023-09-05
SG10201807358YA (en) 2018-09-27
CA2949955C (en) 2022-12-06
JP6674904B2 (ja) 2020-04-01
EP3149581A1 (en) 2017-04-05
US20150347193A1 (en) 2015-12-03
US10705877B2 (en) 2020-07-07

Similar Documents

Publication Publication Date Title
JP6985441B2 (ja) ワークロード自動化およびデータ系統分析
JP6913168B2 (ja) 実行可能データフローグラフの差分
US10275221B2 (en) Systems and methods for generating data visualization applications
Crawl et al. A provenance-based fault tolerance mechanism for scientific workflows
JP6412924B2 (ja) Etlマップ設計のためのプロジェクタおよびセレクタコンポーネントタイプの使用
US10116512B2 (en) Service discovery and/or effort estimation in networked computing environments
Herodotou Automatic tuning of data-intensive analytical workloads
Nandakumar Workflow based orchestrations for serverless workloads with ephemeral statestore
Zhou et al. Study in usefulness of middleware-only provenance
Figueira A framework for dataflow orchestration in lambda architectures
HK1229921B (en) Workload automation and data lineage analysis
HK1229921A1 (en) Workload automation and data lineage analysis
de Oliveira Donas-Botto A Framework for Dataflow Orchestration in Lambda Architectures
Sundaravarathan MEWSE-multi engine workflow submission and execution on Apache yarn
Kroß Automatic Modeling and Simulating the Performance of Big Data Applications
Buchert Managing large-scale, distributed systems research experiments with control-flows
Iotov Advanced health monitor for automated driving functions
Iotov Performance analysis framework for a complex financial data warehouse
Pearl Creating a SQL Health Repository
US20180060407A1 (en) Data-dependency-driven flow execution
LENARTAVICIUS Re-engineering legacy data platforms with cloud-native technologies
Vallath Real Application Testing
Özcan Analysis and Design of Scalable Software as a Service Architecture
Krcmar Automatic Modeling and Simulating the Performance of Big Data Applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200407

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210611

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250