JP2020009410A - パラメータの多次元時系列を分類するためのシステムおよび方法 - Google Patents

パラメータの多次元時系列を分類するためのシステムおよび方法 Download PDF

Info

Publication number
JP2020009410A
JP2020009410A JP2019049465A JP2019049465A JP2020009410A JP 2020009410 A JP2020009410 A JP 2020009410A JP 2019049465 A JP2019049465 A JP 2019049465A JP 2019049465 A JP2019049465 A JP 2019049465A JP 2020009410 A JP2020009410 A JP 2020009410A
Authority
JP
Japan
Prior art keywords
time series
parameters
features
feature set
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019049465A
Other languages
English (en)
Other versions
JP6793774B2 (ja
Inventor
マルホトラ、パンカジュ
Malhotra Pankaj
グプタ、プリヤンカ
Gupta Priyanka
ロベケシュ、ヴィグ
Vig Lovekesh
シュロフ、ガウタム
Shroff Gautam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2020009410A publication Critical patent/JP2020009410A/ja
Application granted granted Critical
Publication of JP6793774B2 publication Critical patent/JP6793774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】伝統的なシステムおよび方法は、複雑さをもたらし、かつドメインの知識を必要とする、長さが変わる時系列からの、手作りの特徴抽出を実装していた。分類モデルの構築は、大規模な、ラベル付きデータを必要とし、計算コストが高い。
【解決手段】管理されていない符号器を介して、実体のパラメータから特徴を抽出することにより、多次元時系列を使って分類作業するための学習モデルを実装し、非一時的線形分類器モデルを構築する。固定次元特徴ベクトルは、既製の特徴抽出器の役割を果たす、事前にトレーニングされた管理されていない符号器を使用して出力される。抽出した特徴を連結して、非一時的線形分類モデルを学習し、クラスごとに妥当なパラメータを決定するのに役立つ重みを、学習中に抽出した特徴それぞれに割り当てる。線形モデルを制約して、多数の特徴のサブセットだけを使用しながら、パラメータから目標クラスへのマッピングを考慮する。
【選択図】図2

Description

(関連出願の相互参照)
本出願は、2018年7月9日にインドで提出された、「パラメータの多次元時系列を分類するためのシステムおよび方法」と題するインド特許出願公開第201821025603号完全明細書の優先権を主張する。
本明細書の本開示は、一般に時系列分析に関し、より詳細にはパラメータの多次元時系列を分類するためのシステムおよび方法に関する。
電子健康記録(Electronic Health Record、HER)から、さまざまな臨床的予測作業のために、医療診断のために、患者の将来の疾病を予測するために、退院後の予想外の再入院を予測するために、さらにまた機器/機械の健全性をモニタするなどのためにディープ・ラーニング・モデルを使用することに関心が高まっている。再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)は、ある期間にわたりデータベースに記録されているさまざまなパラメータを用いて、EHRデータの順次的面を、たとえば、診断、死亡率予測、ならびに入院期間の推定、および機械などから得られるセンサデータによる故障診断の順次的面をモデル化するための効果的方法となる可能性がある。しかしながら、RNNをトレーニングするには、任意の他のディープラーニングの取り組み方法のように、大量のラベル付きトレーニングデータを必要とし、計算の順次的性質のために、計算効率が悪くなる可能性がある。
インド特許出願公開第201821025603号完全明細書
Alistair EW Johnson,Tom J Pollard、Lu Shen、H Lehman Li−wei、Mengling Feng,Mohammad Ghassemi、Benjamin Moody、Peter Szolovits、Leo Anthony Celi、およびRoger G Mark、Mimic−iii、a freely accessible critical care database(Mimic−iii、自由にアクセス可能な救命治療データベース)、Scientific data、3:160035、2016年 https://github.com/yerevann/mimiC3−benchmarks Harutyunyan et al.、2017年−Hrayr Harutyunyan、Hrant Khachatrian、David C Kale、およびAram Galstyan、Multitask learning and benchmarking with clinical time series data(時系列データを用いたマルチタスク学習およびベンチマーキング).arXiv preprint arXiv:1703.07771、2017年 Song et al.、2017年−Huan Song Deepta Rajan、Jayaraman J Thiagarajan、およびAndresa Spanias、Attend and diagnose:Clinical time series analysis using attention models(注意および診断:注意モデルを使用する臨床時系列分析). arXiv preprint arXiv:1711.03905、2017年
本開示の実施形態は、従来のシステムで本発明者らが認識した、上述の技術的問題の1つまたは複数に対する解決手段として技術上の本改善を提示する。
たとえば、一様態では、パラメータの多次元時系列を分類するためのプロセッサ実装方法が提供される。方法は、1つまたは複数の実体の複数のパラメータに対応する複数の独特の時系列データを得るステップであって、独特の時系列データはそれぞれ、複数のパラメータの各パラメータに対応する1つまたは複数の時系列データを備え、独特の時系列データは、固定長データまたは可変長データであるステップと;深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、独特の時系列から1つまたは複数の特徴を自動的に抽出して、複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得るステップと;複数のパラメータの各々に関係する独特の特徴セットからの特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得るステップと;連結された特徴セットに基づき、非一時的線形分類モデルを学習するステップであって、非一時的線形分類モデルの学習中、連結された特徴セットからの各特徴に重みを割り当てて、重みは、LASSO−正規化損失関数(「最小絶対収縮および選択操作(Least Absolute Shrinkage Selection Operator)−正規化損失関数」とも呼ばれる)を使用して得られるステップと;連結された特徴セットからの各特徴の重みに基づき、複数のパラメータごとに妥当性スコアを生成して、学習した非一時的線形分類モデルを検証するステップとを備える。
一実施形態では、方法は、実体の複数のパラメータに対応する入力時系列を受信するステップと;入力時系列から1つまたは複数の特徴を自動的に抽出するステップと;抽出した1つまたは複数の特徴に基づき、検証され学習された分類モデルを入力時系列に適用して、実体の複数のパラメータに対応する入力時系列に関するクラスを得るステップとをさらに備えてもよい。
一様態では、パラメータの多次元時系列を分類するためのプロセッサ実装システムが提供される。システムは:命令を記憶するためのメモリと;1つまたは複数の通信インタフェースと;1つまたは複数の通信インタフェースを介してメモリに結合された1つまたは複数のハードウェアプロセッサとを備え、1つまたは複数のハードウェアプロセッサは、命令により:実体の複数のパラメータに対応する独特の時系列データを得て;システムにより実装された深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、独特の時系列から1つまたは複数の特徴を自動的に抽出して、複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得て;複数のパラメータの各々に関係する独特の特徴セットからの特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得て;連結された特徴セットに基づき、非一時的線形分類モデルを学習し、非一時的線形分類モデルの学習中に、LASSO−正規化損失関数(「最小絶対収縮および選択操作−正規化損失関数」とも呼ばれる)を使用して得られる重みを、連結された特徴セットからの各特徴に割り当てて;連結された特徴セットからの各特徴の重みに基づき、複数のパラメータごとに妥当性スコアを生成して、学習された非一時的線形分類モデルを検証するように構成される。
一実施形態では、1つまたは複数のハードウェアプロセッサは、実体の複数のパラメータに対応する入力時系列を受信し;入力時系列から1つまたは複数の特徴を自動的に抽出し;抽出した1つまたは複数の特徴に基づき、検証され学習された分類モデルを入力時系列に適用して、実体の複数のパラメータに対応する入力時系列に関するクラスを得るようにさらに構成される。
一実施形態では、入力時系列および独特の時系列データは、固定長データまたは可変長データである。
さらに別の様態では、1つまたは複数のハードウェアプロセッサにより実行されたとき、実体の複数のパラメータに対応する、固定長データまたは可変長データである独特の時系列データを得ることにより、パラメータの多次元時系列を分類するステップと;深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、独特の時系列から1つまたは複数の特徴を自動的に抽出して、複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得るステップと;複数のパラメータの各々に関係する独特の特徴セットからの特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得るステップと;連結された特徴セットに基づき、非一時的線形分類モデルを学習するステップであって、非一時的線形分類モデルの学習中、連結された特徴セットからの各特徴に重みが割り当てられ、重みは、LASSO−正規化損失関数(「最小絶対収縮および選択操作−正規化損失関数」とも呼ばれる)を使用して得られるステップと;連結された特徴セットからの各特徴の重みに基づき、複数のパラメータごとに妥当性スコアを生成して、学習された非一時的線形分類モデルを検証するステップとを引き起こす1つまたは複数の命令を備える1つまたは複数の非一時的機械可読情報記憶媒体が提供される。
一実施形態では、命令は、1つまたは複数のハードウェアプロセッサにより実行されたとき、実体の複数のパラメータに対応する入力時系列を受信するステップと;入力時系列から1つまたは複数の特徴を自動的に抽出するステップと;抽出した1つまたは複数の特徴に基づき、検証され学習された分類モデルを入力時系列に適用して、実体の複数のパラメータに対応する入力時系列に関するクラスを得るステップとをさらに引き起こしてもよい。
前述の一般的説明も以下の詳細な説明も、代表的なものであり、説明のためだけのものであり、特許請求される本発明を限定するものではないことを理解されたい。
本開示に組み込まれ、本開示の一部を構成する添付図面は、代表的実施形態を示し、本明細書と共に、開示する原理を説明するのに役立つ。
本開示の一実施形態による、実体のパラメータの多次元時系列を分類するためのシステムの代表的構成図を示す。 本開示の一実施形態による図1のシステムを使用して、パラメータの多次元時系列を分類するための方法を示す代表的流れ図を示す。 本開示の例示的実施形態による図1のシステムにより実装された3つの隠れゲート付き再帰型ユニット(Gated Recurrent Unit、GRU)層を伴うRNN符号器−復号器を介してトレーニングされたTimeNetを示す。 本開示の例示的一実施形態による図1のシステムにより実装されるような、TimeNetに基づく特徴抽出を示す。 本開示の例示的一実施形態による図1のシステムを使用して、未加工入力パラメータに関する妥当性スコアを生成することを示す。 本開示の一実施形態による、合併症を伴う表現型糖尿病に関するグルコース濃度(パラメータ1)に関して得られた最高の妥当性スコアを示すグラフ表示である。 本開示の一実施形態による、表現型本態性高血圧症に関する収縮期血圧(パラメータ20)に関して得られた最高の妥当性スコアを示すグラフ表示である。
添付図面を参照して、代表的実施形態について説明する。図では、参照番号の1つまたは複数の左端の数字は、参照番号が最初に出現する図を識別する。好都合なときはいつでも、同じまたは類似する部分を指すために、図面全体を通して同じ参照番号を使用する。開示する原理の例および特徴について本明細書で説明するが、開示する実施形態の精神および範囲を逸脱することなく、修正形態、適応形態、および他の実装形態が可能である。以下の詳細な説明は、ただ単に代表的であると考えられ、真の範囲および精神は、以下の特許請求の範囲により示されることが意図される。
多様な実例に対して深層ネットワークをトレーニングすることにより、今まで見たことがない実例に関する一般的特徴を、たとえば、画像に関するVGGNetを提供することができる。また、転移学習を用いて事前にトレーニングされたネットワークを微調整することは、多くの場合、新しいネットワークを最初から構築し、トレーニングするよりも時間がかからず、容易である。そのような手法で学習する利点は、事前にトレーニングされたネットワークが、広範な他の類似の作業に後で適用することができる、豊富な1組の特徴をすでに学習していることである。
本開示では、実施形態およびシステム、ならびにそれらに関連する方法が、TimeNetを介して汎用特徴を活用することにより、臨床上の時系列に関する予測モデルを学習するための効率的方法を提供する。TimeNetは、容易にトレーニングできる非一時的線形分類モデルを介して、分類(たとえば、患者の表現型検査、およびMIMIC−IIIデータベース上での院内死亡率予測作業)のために実質的に使用される固定次元特徴ベクトルに可変長時系列(たとえば、臨床上の時系列)をマッピングする。TimeNetに基づく特徴を使用して、非常にわずかなトレーニング努力でそのような分類モデルを構築することができ、その一方で、手作りの特徴に、または注意深くトレーニングされたドメイン特有RNNを伴うモデルに匹敵する性能を生み出すことが本開示により観察された。本開示は、線形分類モデルの重みを活用して、未加工入力パラメータそれぞれの妥当性への洞察を提供することをさらに提案する。
次に、類似する参照文字が一貫して図全体を通して、対応する特徴を示す図面を参照すると、より詳細には図1〜図4Bを参照すると、好ましい実施形態が示されており、これらの実施形態について、以下の代表的なシステムおよび/または方法に関連して説明する。
図1は、本開示の一実施形態による、実体のパラメータの多次元時系列を分類するためのシステム100の代表的構成図を示す。一実施形態では、システム100はまた、「分類システム」とも呼ばれる場合があり、本明細書で以後、交換可能に使用される場合がある。一実施形態では、システム100は、1つまたは複数のプロセッサ104と、1つもしくは複数の通信インタフェース機器または1つもしくは複数の入出力(I/O)インタフェース106と、1つまたは複数のプロセッサ104に動作可能に結合された1つもしくは複数のデータ記憶装置またはメモリ102とを備える。メモリ102は、データベース108を備える。ハードウェアプロセッサである1つまたは複数のプロセッサ104を、1つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル・シグナル・プロセッサ、中央処理装置、状態機械、論理回路、および/または動作命令に基づき信号を操作する任意の機器として実装することができる。他の機能の中でも、1つまたは複数のプロセッサは、メモリに記憶されたコンピュータ可読命令を取り出して、実行するように構成される。一実施形態では、システム100を、ラップトップコンピュータ、ノートブック、ハンドヘルド機器、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどのような、さまざまなコンピューティングシステムの形で実装することができる。
1つまたは複数のI/Oインタフェース106は、さまざまなソフトウェアインタフェースおよびハードウェアインタフェースを、たとえば、ウェブインタフェース、グラフィカル・ユーザ・インタフェースなどを含むことができ、有線ネットワーク、たとえばLAN、ケーブルなど、およびWLAN、携帯電話、または衛星などの無線ネットワークを含む、多種多様のネットワークN/Wおよびプロトコルのタイプの範囲で多重通信を容易にすることができる。一実施形態では、1つまたは複数のI/Oインタフェース機器は、いくつかの機器を互いに、または別のサーバに接続するための、1つまたは複数のポートを含むことができる。
メモリ102は、たとえば、スタティック・ランダム・アクセス・メモリ(static random access memory、SRAM)およびダイナミック・ランダム・アクセス・メモリ(dynamic random access memory、DRAM)などの揮発性メモリ、ならびに/または読出し専用メモリ(read only memory、ROM)、消去可能プログラム可能ROM、フラッシュメモリ、ハードディスク、光ディスク、および磁気テープなどの不揮発性メモリを含む、当技術分野で公知の任意のコンピュータ可読媒体を含んでもよい。
データベース108は、1つまたは複数のセンサから得た、実体(たとえば、ユーザ、機械など)に特有の複数のパラメータに限定されることなく、情報を記憶してもよい。パラメータは、1人もしくは複数のユーザ、および/または1つもしくは複数の機械に接続されたセンサを通して取り込んだセンサデータを備えてもよい。さらにデータベース108は、本明細書で説明する方法論に特有の、システム100に供給される入力、および/または(たとえば、各ステージで)システムにより生成される出力に関係する情報を記憶する。より詳細には、データベース108は、提案する方法論の各ステップで処理されている情報を記憶する。
図1を参照すると、図2は、本開示の一実施形態による図1のシステム100を使用して、パラメータの多次元時系列を分類するための方法を示す代表的流れ図を示す。一実施形態では、システム100は、1つまたは複数のハードウェアプロセッサ104に動作可能に結合され、かつ1つまたは複数のプロセッサ104により方法のステップを実行するための命令を記憶するように構成された1つまたは複数のデータ記憶装置またはメモリ102を備える。TimeNetは、たとえば、60のゲート付き再帰型ユニット(GRU)をそれぞれ有する3つの再帰層を伴う単変量時系列のための、事前にトレーニングされた既製の特徴抽出器である。TimeNetは、図3Aに示すように、シーケンスごとの学習フレームワークを使用して同時にトレーニングされた、符号器RNNおよび復号器RNNから構成される自動符号器を介してトレーニングされたRNNである。より詳細には、図1および図2を参照すると、図3Aには、本開示の例示的一実施形態による図1のシステム100により実装された、3つの隠れGRU層を伴うRNN符号器−復号器を介してトレーニングされたTimeNetを示す。RNN自動符号器は、入力
Figure 2020009410
に関して、目標の出力時系列xT…1=xT,xT-1,…,x1が入力の逆になるように、再構築作業を介して符号器RNNfEのパラメータWEを得るようにトレーニングされる。RNN符号器fEは、多変量入力時系列から固定次元ベクトル表現
Figure 2020009410
への非線形マッピングを提供し、次に、zTから多変量時系列
Figure 2020009410
への、RNN復号器fDに基づく非線形マッピングが続き、式中、WEおよびWDは、それぞれ符号器および復号器のパラメータである。平均2乗再構築誤差を最小にするように、モデルをトレーニングする。いくつかの多様なデータセットで同時にトレーニングすることにより、ロバストな時系列特徴がzTに取り込まれることとなり、復号器は、時系列を再構築するための唯一の入力としてzTに依存し、符号器に、時系列内のすべての妥当な情報を固定次元ベクトルzTの中に取り込ませる。このベクトルzTは、入力x1…Tに関する特徴ベクトルとして使用される。次いで、この特徴ベクトルを使用して、最後の作業のために、より簡単な分類器(たとえば、サポート・ベクター・マシン(Support Vector Machine、SVM))をトレーニングする。TimeNetは、多変量入力時系列を180次元特徴ベクトルにマッピングし、各次元は、3つの再帰層内にある60のGRUの1つの最終出力に対応する。
次に、図1に示すようなシステム100の構成要素および図2の流れ図を参照して、本開示の方法のステップについて説明する。本開示の一実施形態では、ステップ202で、1つまたは複数のハードウェアプロセッサ104は、1つまたは複数の実体(たとえばこの場合、実体はユーザ、機械などとすることができる)の複数のパラメータに対応する独特の時系列データを得る。一実施形態では、1つまたは複数のセンサから、たとえば、温度センサ、動きセンサ、1つまたは複数の健康モニタセンサなどから、複数のパラメータを得る。一実施形態では、1つまたは複数の実体はまた、「複数の実体」と呼ぶことができ、本明細書では以後、交換可能に使用される。独特の時系列データはそれぞれ、複数のパラメータの各パラメータに対応する1つまたは複数の時系列データを備える。1つまたは複数の時系列データは、特徴抽出を遂行する前にシステムへの入力として得られる独特の時系列データを累積的に構成する。したがって、システム100への入力として供給される、複数の独特の時系列データ(UTSD1、UTSD2、UTSD3など)が存在する可能性があり、複数の独特の時系列データの各々はそれぞれ、対応するパラメータおよび実体に特有なものである。たとえば、UTSD1は、たとえば実体E1のパラメータ(たとえば、P1、P2、P3など)に対応する1つまたは複数の時系列データ(たとえば、TSD1、TSD2、TSD3など)を備える。同様に、別の独特の時系列データ(たとえば、UTSD2)は、たとえば別の実体E2のパラメータ(たとえばP1、P2、P3など)に対応する1つまたは複数の時系列データ(たとえば、TSD11、TSD12、TSD13など)を備える。本開示の一実施形態では、ステップ204で、1つまたは複数のハードウェアプロセッサ104は、深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、独特の時系列から1つまたは複数の特徴を自動的に抽出して、複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得る。
Figure 2020009410
である多変量時系列x=x12…xTについては、システム100は、nの未加工入力パラメータ(たとえば、グルコース濃度、心拍数などの生理学的パラメータ)ごとに時系列を独立に考慮して、単変量時系列xj=xj1j2…xjT、j=1,…,nを得る。システムは、xjに関するベクトル表現
Figure 2020009410
をさらに得て、式中
Figure 2020009410
であり、(後の節で説明するように)c=180を用いてfEとしてTimeNetを使用する。一般に、時系列長Tもまた、たとえば、入院の長さに基づきiに依存する。システム100は、事前/事後に0を適切に埋め込むことにより、等しい長さTを有するように各時系列をさらに変換する。換言すれば、独特の特徴セットは、固定次元特徴ベクトルを備える。
本開示の一実施形態では、ステップ206で、1つまたは複数のハードウェアプロセッサ104は、複数のパラメータの各々に関係する独特の特徴セットからの特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得る。換言すれば、システム100は、各未加工入力パラメータjに関するTimeNet−特徴zjTを連結して、固定次元の、連結された特徴ベクトルでもある時系列xに関する最終特徴ベクトル
Figure 2020009410
を獲得し、図3Bに示すように、
Figure 2020009410
、m=n×cである。より詳細には、図1〜図3Aを参照すると、図3Bは、本開示の例示的一実施形態による図1のシステム100により実装されるような、TimeNetに基づく特徴抽出を示す。
本開示の一実施形態では、ステップ208で、1つまたは複数のハードウェアプロセッサ104は、連結された特徴セットに基づき、非一時的線形分類モデルを学習し、非一時的線形分類モデルの学習中、連結された特徴セットからの各特徴に重みを割り当てる。換言すれば、最終的な連結された特徴ベクトルzTは、分類作業(たとえば、生理学的パラメータの場合、表現型検査および死亡率予測など)に関する入力として使用される。上記で論じたように、c=180は大きいので、zTは、多数の特徴m≧180を有する。入力TimeNet特徴zTから目標ラベルyへのマッピングは、推定値が
Figure 2020009410
になるように考慮され、式中、
Figure 2020009410
である。システム100は、重みwを用いて非一時的線形分類モデルを制約して、これらの多数の特徴のうち少しだけを使用する。一実施形態では、重みは、以下の例によって表現されるLASSO−正規化損失関数(「最小絶対収縮および選択操作−正規化損失関数」とも呼ばれる)を使用して得られる。
Figure 2020009410
式中y(i)=∈{0,1}であり、
Figure 2020009410
は、L1−ノルムであり、wjkは、j番目の未加工入力パラメータに関するk番目のTimeNet特徴に割り当てられた重みを表し、αは、疎の程度を制御し、より高いαは、より疎であることを意味し、すなわち、最終分類器のために、より少ないTimeNet特徴が選択される。
本開示の一実施形態では、ステップ210で、1つまたは複数のハードウェアプロセッサ104は、連結された特徴セットからの各特徴の重みに基づき、複数のパラメータごとに妥当性スコアを生成して、学習した非一時的線形分類モデルを検証する。本開示の一実施形態では、学習した非一時的線形分類モデルの検証は、(i)入力された時系列を検証するステップ、(ii)特徴抽出、およびその関連出力を検証するステップ、(iii)連結する処理、およびその生成された出力を検証し、それにより、学習した非一時的線形分類モデル自体を検証するステップを含む。
上記の妥当性スコア生成について、以下で例によって記述する。
所与の表現型に関するnの未加工入力パラメータの妥当性を決定することは、得られる分類モデルへの洞察を得るのに、場合によっては有用である。疎重みwは、解釈が容易であり、分類作業のための妥当なパラメータへの興味深い洞察をもたらす。本開示では、システム100は、図3Cに示すように、対応するTimeNet特徴zjTに割り当てられた重みwjkの絶対値の合計として、j番目の未加工入力パラメータに関する妥当性スコア、たとえばrjを生成する。より詳細には、図1〜図3Bを参照すると、図3Cは、本開示の例示的実施形態による図1のシステム100を使用して未加工入力パラメータに関する妥当性スコアを生成することを示す。ここで、Tは、時系列長であり、nは、未加工入力パラメータの数である。妥当性スコアは、以下の例示的表現によって生成される。
Figure 2020009410
さらに、rjは、
Figure 2020009410
となるように、min−max正規化を使用して正規化され、rminは、{r1、…,rn}の最小値であり、かつrmaxは、{r1、…,rn}の最大値である。実際には、未加工入力パラメータに関してこの種の妥当性スコアを生成することは、上述のように、学習した非一時的線形分類モデルを解釈し、検証するのに役立つ。たとえば、糖尿病表現型を検出するためのモデルを学習するとき、高い妥当性スコアを有するグルコース濃度特徴が期待される。
(検証後に)総合的に解釈可能な、学習された分類モデルを得ると、システム100は、試験入力データに対してこの解釈可能な分類モデルをさらに実装し、実体の複数のパラメータに対応する入力時系列を受信し、入力時系列から1つまたは複数の特徴を自動的に抽出する。次いで、システム100は、抽出した1つまたは複数の特徴に基づき、検証され学習された分類モデルを入力時系列に適用して、実体の複数のパラメータに対応する入力時系列に関するクラスを得る。本開示の一実施形態では、トレーニング段階中(または分類モデルの学習中)も試験段階中も、システム100が受信する入力時系列は、固定長データであっても、可変長データであってもよい。
実験的評価:
本開示では、40,000人の救命治療患者にわたり60,000を超えるICU滞在から構成されるMIMIC−III(v1.4)臨床データベースを使用した(たとえば、「Alistair EW Johnson,Tom J Pollard、Lu Shen、H Lehman Li−wei、Mengling Feng,Mohammad Ghassemi、Benjamin Moody、Peter Szolovits、Leo Anthony Celi、およびRoger G Mark、Mimic−iii、a freely accessible critical care database(Mimic−iii、自由にアクセス可能な救命治療データベース)、Scientific data、3:160035、2016年」を参照のこと)。1時間間隔でサンプリングされた、12の実数値および5つのカテゴリ時系列を伴う17の生理学的時系列に基づき、一定数の分割、列、検証、および試験データセット(たとえば、「https://github.com/yerevann/mimiC3−benchmarks」を参照のこと)を用いて実験的セットアップを実装した。最終多変量時系列が、n=76の未加工入力パラメータ(59の実パラメータ、および欠測値を示す17のマスキングパラメータ)を有するように、カテゴリ変数を(one−hot)ベクトルに変換した。
表現型検査作業については、成人のICUで一般的な25の表現型を分類することが目的であった。院内死亡率の作業については、患者が生き残るか、最大48時間まで時系列観察をもたらさないかどうかを予測することが目的であった。本開示のシステムおよび方法により遂行したすべての実験では、時系列データのトレーニングは、ICU滞在の最大で最初の48時間までに制限され、その結果、表現型検査作業用分類器をトレーニングするために時系列全体を使用する従来の研究(または技法)(たとえば、従来の方法1−「Harutyunyan et al.、2017年−Hrayr Harutyunyan、Hrant Khachatrian、David C Kale、およびAram Galstyan、Multitask learning and benchmarking with clinical time series data(時系列データを用いたマルチタスク学習およびベンチマーキング).arXiv preprint arXiv:1703.07771、2017年」、および従来の方法2−「Song et al.、2017年−Huan Song Deepta Rajan、Jayaraman J Thiagarajan、およびAndresa Spanias、Attend and diagnose:Clinical time series analysis using attention models(注意および診断:注意モデルを使用する臨床時系列分析). arXiv preprint arXiv:1711.03905、2017年」を参照のこと)と異なり、T=48時間であるが、すべてのモデルをトレーニングして、早期予測が重要な実際の発症を模倣する。
評価:
本開示は、n=76の未加工入力パラメータを有し、その結果、入院ごとに、m=13,680次元(m=76×180)のTimeNet特徴ベクトルがもたらされた。本開示のシステムおよび方法は、表現型分類に関してはα=0.0001、院内死亡率に関してはα=0.0003を使用した(ホールドアウト検証セットに基づきαを選んだ)。以下の表1は、結果を要約し、既存の/伝統的なベンチマークとの比較を提供する。表2は、表現型に関する結果を詳細に記述している。
Figure 2020009410
上記の表1では、LRは、ロジスティック回帰(Logistic regression)を指し、LSTM−マルチは、LSTMに基づくマルチタスクモデルを指し、SAnD(Simply Attend and Diagnose)は、完全に注意に基づくモデルを指し、SAnD−マルチは、SAnDに基づくマルチタスクモデルを指す(注:*表現型検査については、本開示、ならびにそれに関連するシステムおよび方法は、実際の発症に、より適用可能であるので、TimeNet−全−Epsについて既存の/従来の、または伝統的なベンチマークとTimeNet−48−Epsを比較する。**TimeNet−48の変形形態だけが、院内死亡率の作業のために適用可能である)。
Figure 2020009410
Figure 2020009410
上記の表(表1および表2)で理解することができるように、本開示では、表現型検査の作業のために、分類モデルの2つの変形形態について、すなわち、i)現在の発症からのデータを使用するTimeNet−x、ii)これまでの発症で表現型の存在または欠如に関係がある追加の入力特徴を介して、(利用できるときはいつでも)患者のこれまでの発症からのデータを同様に使用するTimeNet−x−Epsについて考慮した。ICU入院後の、最大で最初の48時間までのデータを使用して、各分類器をトレーニングした。しかしながら、試験時に目標のクラスを推定するために使用した何時間ものデータxに応じて、2つの分類器変形形態について考慮した。x=48については、表現型を決定するために、入院後、最大で最初の48時間までのデータを使用した。x=全については、患者のICU滞在期間全体にわたり(24時間の移動で重なる)すべての48時間窓に、学習した分類器を適用し、窓全体にわたる平均表現型確率を目標クラスの最終推定値として使用した。TimeNet−x−Epsでは、追加の特徴は、これまでの発症中に表現型が存在する(1)、または欠如する(0)に関係づけられる。この特徴に関するグランドトルース(ground−truth)値を、トレーニング時間中に使用し、(LASSOに基づく分類器(「最小絶対収縮および選択操作−正規化損失関数」とも呼ばれる)を介して与えられるような)これまでの発症中の表現型の存在確率を、試験時に使用した。
表3は、以下のように、ユーザに関係する入力パラメータ(この場合、生理学的パラメータ)のリストを示す。
Figure 2020009410
Figure 2020009410
Figure 2020009410
1つまたは複数の所見:
1つまたは複数の分類作業:
表現型検査作業について、表1から以下の所見が得られた。
TimeNet−48対LR:TimeNetに基づく特徴は、発症データ全体を使用するLR(ロジスティック回帰)の取り組み方法と異なり、最初の48時間のデータだけを使用しているが、LRで使用するような手作りの特徴よりも著しく良好に作動する。これは、MIMIC−IIIデータに関するTimeNet特徴の有効性を証明している。さらに、TimeNet特徴は、いくつかの隠れユニット、層、学習速度などを調整するステップを伴う、LSTMのような他の取り組み手法(たとえば、従来の方法1を参照のこと)と異なり、LASSOに関する単一のハイパーパラメータを調節するステップを必要とするだけである。
TimeNet−x対TimeNet−x−Eps:患者に関するこれまでの発症の時系列データを活用することにより、分類性能が著しく改善される。
TimeNet−48−Epsは、既存の/従来の(または伝統的な)ベンチマークよりも良好に作動し、その一方で、現在の発症全体ではなくむしろ患者の現在の発症の最大48時間までだけに目を向けるので、依然として事実上、より実現可能である。院内死亡率の作業については、上記の表2に示すように、既存のベンチマークと比較したとき、同等の性能が観察された。
線形モデルのトレーニングは、著しく高速であり、2.7GHzのクアッドCore i7プロセッサを伴う32GB RAMの機械で、α∈[10-5〜10-3]の間で調整しながら、2値分類器のいずれかを得るためにほぼ30分かかった。LASSOは、表現型分類ごとに(13,680の特徴の中から)ほぼ550の有用な特徴につながる分類器すべてに関して、91.2±0.8%の疎(すなわち、重みのパーセンテージwjk≒0)につながることが観察された。
未加工入力パラメータに関する妥当性スコア:
さまざまなTimeNet特徴に割り当てられた重みを使用して、未加工入力パラメータの妥当性に関する直感的解釈が観察された(式(2)を参照のこと)。たとえば、図4Aおよび図4Bに示すように、合併症を伴う糖尿病(図4A)および本態性高血圧症(図4B)それぞれに関するグルコース濃度(パラメータ1)および収縮期血圧(パラメータ20)に関して、最高の妥当性スコアが得られた。より具体的には、図1〜図3Cを参照すると、図4Aは、本開示の一実施形態による、合併症を伴う表現型糖尿病に関してグルコース濃度(パラメータ1)で得られた最高の妥当性スコアを示すグラフ表示である。図1〜図4Aを参照すると、図4Bは、本開示の一実施形態による、表現型本態性高血圧症に関して収縮期血圧(パラメータ20)で得られた最高の妥当性スコアを示すグラフ表示である。上記の実験結果から理解することができるように、TimeNet符号器は、UCR時系列アーカイブから取得したさまざまなドメインからの時系列に対して事前にトレーニングされていたので、未加工入力パラメータの時系列から意味のある汎用特徴を提供し、LASSOは、ラベル付きデータを使用することにより、最後の作業のために最も妥当なスコアを選択するのに役立つ。さらに、多変量時系列を考慮するのではなくむしろ、未加工入力パラメータそれぞれの時系列に関する深層再帰型ニューラル・ネットワーク・モデルを使用して特徴を抽出することにより、最終的に入力ドメイン内の未加工入力パラメータに妥当性スコアを容易に割り当てることができるようになり、ドメインエキスパートによる高水準の基本モデル検証が可能になる。伝統的なシステムの従来技術では、分類判断および分類モデルが、本開示の実施形態および提案するシステムおよび方法によりどれが克服されるかを解釈できず、検証することが困難であることを、再帰型ニューラルネットワークでの非線形変換が意味することに留意されたい。本開示は、1人または複数のユーザの電子健康記録に関係する例示的発症について記述しているが、そのような例が、本開示の範囲を分類作業に限定していると解釈してはならないことを当業者は理解されたい。
記載した説明は、任意の当業者が実施形態を作成し、使用することができるようにする、本明細書の主題について説明している。主題の実施形態の範囲は、特許請求の範囲により規定され、当業者が思いつく他の修正形態を含んでもよい。そのような他の修正形態は、特許請求の範囲の文言と異ならない類似の要素を有する場合、または特許請求の範囲の文言とわずかな差を有する均等の要素を含む場合、特許請求の範囲に入ることが意図される。
保護の範囲は、そのようなプログラムに、さらには中にメッセージを有するコンピュータ可読手段に拡張され、そのようなコンピュータ可読記憶手段は、プログラムがサーバもしくは移動体機器、または任意の適切なプログラム可能機器上で走るとき、方法の1つまたは複数のステップを実装するためのプログラムコード手段を含有することを理解されたい。ハードウェア機器は、たとえば、サーバもしくはパーソナルコンピュータなど、またはそれらの任意の組合せのような任意の種類のコンピュータを含む、プログラムすることができる任意の種類の機器とすることができる。機器はまた、たとえば、特定用途向け集積回路(application−specific integrated circuit、ASIC)、フィールド・プログラマブル・ゲート・アレイ(field−programmable gate array、FPGA)などのようなハードウェア手段、またはたとえば、ASICおよびFPGA、もしくは少なくとも1つのマイクロプロセッサおよび中にソフトウェアモジュールが配置された少なくとも1つのメモリなどのハードウェアとソフトウェアの組合せとすることができる手段を含んでもよい。したがって、手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書で説明する方法の実施形態を、ハードウェアおよびソフトウェアの形で実装することができる。機器はまた、ソフトウェア手段を含んでもよい。あるいは、たとえば複数のCPUを使用して、異なるハードウェア機器上に実施形態を実装してもよい。
本明細書の実施形態は、ハードウェア要素およびソフトウェア要素を備えることができる。ソフトウェアの形で実装された実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、それらに限定されない。本明細書で説明するさまざまなモジュールが遂行する機能を、他のモジュールで、または他のモジュールを組み合わせて実装してもよい。本明細書が意図するところでは、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、もしくは機器により、またはそれらと共に使用するためのプログラムを備える、記憶する、伝達する、伝播する、または移送することができる任意の装置とすることができる。
例示するステップは、示されている代表的実施形態を説明するために提示され、進展している技術開発により、特定の機能を遂行する手法が変わることを認識されたい。これらの例は、例示のために本明細書に提示され、限定するために提示されているわけではない。さらに、説明の便宜上、機能構成要素の境界について、本明細書で任意に規定してきた。指定された機能およびそれらの関係が適切に遂行される限り、代わりの境界を規定することができる。代替形態(本明細書で説明する実施形態の均等形態、拡張形態、変形形態、偏向形態などを含む)は、本明細書に包含される教示に基づき、1つまたは複数の関連技術分野の当業者に明らかであろう。そのような代替形態は、開示する実施形態の範囲および精神に入る。また、用語「comprising(備える)」、「having(有する)」、「containing(含有する)」、および「including(含む)」、ならびに他の類似の形態は、意味が同等であることが意図され、これらの用語の任意の1つに続く1つまたは複数の項目が、そのような1つまたは複数の項目の網羅的な列挙であることを意味することも、列挙した1つまたは複数の項目だけに限定されることを意味することもないという点で、オープンエンド形式であることが意図される。また、本明細書および添付の特許請求の範囲で使用するとき、単数形「a」、「an」、および「the」は、前後関係が他の方法で明確に規定しない限り、複数の参照を含むことを留意しなければならない。
さらに、本開示と矛盾しない実施形態を実装する際、1つまたは複数のコンピュータ可読記憶媒体を利用してもよい。コンピュータ可読記憶媒体は、プロセッサにより可読の情報またはデータを記憶してもよい、任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、本明細書で説明する実施形態と矛盾しないステップまたはステージを1つまたは複数のプロセッサに遂行させるための命令を含む、1つまたは複数のプロセッサにより実行するための命令を記憶してもよい。用語「コンピュータ可読媒体」は、有形の項目を含み、かつ搬送波および過渡信号を除外する、すなわち、非一時的であることを理解されたい。例には、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュディスク、ディスク、および任意の他の公知の物理的記憶媒体が含まれる。
本開示および例はただ単に代表的であると考えられ、かつ開示する実施形態の真の範囲および精神は、以下の特許請求の範囲により示されることが意図される。

Claims (12)

  1. プロセッサ実装方法であって、
    1つまたは複数のハードウェアプロセッサを介して、1つまたは複数の実体の複数のパラメータに対応する独特の時系列データを得るステップ(202)と、
    前記1つまたは複数のハードウェアプロセッサにより実行される深層再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)の中に一体化された管理されていない符号器を使用して、前記独特の時系列データから1つまたは複数の特徴を自動的に抽出して、前記複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得るステップ(204)と、
    前記複数のパラメータの各々に関係する前記独特の特徴セットからの前記抽出した1つまたは複数の特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得るステップ(206)と、
    前記連結された特徴セットに基づき、非一時的線形分類モデルを学習するステップであって、前記非一時的線形分類モデルの前記学習中、前記連結された特徴セットからの各特徴に重みを割り当てるステップ(208)と、
    前記連結された特徴セットからの各特徴の前記重みに基づき、前記複数のパラメータごとに妥当性スコアを生成して、前記学習された非一時的線形分類モデルを検証するステップ(210)と
    を備えるプロセッサ実装方法。
  2. 前記実体の前記複数のパラメータに対応する入力時系列を受信するステップ(212)と、
    前記入力時系列から1つまたは複数の特徴を自動的に抽出するステップ(214)と、
    前記抽出した1つまたは複数の特徴に基づき、前記検証され学習された分類モデルを前記入力時系列に適用して、前記実体の前記複数のパラメータに対応する前記入力時系列に関するクラスを得るステップ(216)と
    をさらに備える、請求項1に記載のプロセッサ実装方法。
  3. 前記入力時系列および前記独特の時系列データは、固定長データまたは可変長データである、請求項2に記載のプロセッサ実装方法。
  4. 前記重みは、LASSO(Least Absolute Shrinkage and Selection Operator、最小絶対収縮および選択操作)−正規化損失関数を使用して得られる、請求項1に記載のプロセッサ実装方法。
  5. システムであって、
    命令を記憶するメモリ(102)と、
    1つまたは複数の通信インタフェース(106)と、
    前記1つまたは複数の通信インタフェース(106)を介して前記メモリ(102)に結合された1つまたは複数のハードウェアプロセッサ(104)とを備え、前記1つまたは複数のハードウェアプロセッサ(104)は、前記命令により、
    1つまたは複数の実体の複数のパラメータに対応する独特の時系列データを得て、
    前記システム100により実行される深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、前記独特の時系列データから1つまたは複数の特徴を自動的に抽出して、前記複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得て、
    前記複数のパラメータの各々に関係する前記独特の特徴セットからの前記抽出した1つまたは複数の特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得て、
    前記連結された特徴セットに基づき、非一時的線形分類モデルを学習し、前記非一時的線形分類モデルの前記学習中、前記連結された特徴セットからの各特徴に重みを割り当てて、
    前記連結された特徴セットからの各特徴の前記重みに基づき、前記複数のパラメータごとに妥当性スコアを生成して、前記学習された非一時的線形分類モデルを検証する
    ように構成されるシステム。
  6. 前記1つまたは複数のハードウェアプロセッサは、
    前記実体の前記複数のパラメータに対応する入力時系列を受信し、
    前記入力時系列から1つまたは複数の特徴を自動的に抽出し、
    前記抽出した1つまたは複数の特徴に基づき、前記検証され学習された分類モデルを前記入力時系列に適用して、前記実体の前記複数のパラメータに対応する前記入力時系列に関するクラスを得る
    ようにさらに構成される、請求項5に記載のシステム。
  7. 前記入力時系列および前記独特の時系列データは、固定長データまたは可変長データである、請求項5に記載のシステム。
  8. 前記重みは、LASSO−正規化損失関数を使用して得られる、請求項5に記載のシステム。
  9. 1つまたは複数の命令を備える1つまたは複数の非一時的機械可読情報記憶媒体であって、前記命令は、1つまたは複数のハードウェアプロセッサにより実行されたとき、
    前記1つまたは複数のハードウェアプロセッサを介して、1つまたは複数の実体の複数のパラメータに対応する独特の時系列データを得て、
    前記1つまたは複数のハードウェアプロセッサにより実行される深層再帰型ニューラルネットワーク(RNN)の中に一体化された管理されていない符号器を使用して、前記独特の時系列データから1つまたは複数の特徴を自動的に抽出して、前記複数のパラメータごとに、固定次元特徴ベクトルを備える独特の特徴セットを得て、
    前記複数のパラメータの各々に関係する前記独特の特徴セットからの前記抽出した1つまたは複数の特徴を連結して、固定次元の、連結された特徴ベクトルを備える、連結された特徴セットを得て、
    前記連結された特徴セットに基づき、非一時的線形分類モデルを学習して、前記非一時的線形分類モデルの前記学習中、前記連結された特徴セットからの各特徴に重みを割り当てて、
    前記連結された特徴セットからの各特徴の前記重みに基づき、前記複数のパラメータごとに妥当性スコアを生成して、前記学習された非一時的線形分類モデルを検証する
    ことにより、パラメータの多次元時系列を分類するステップを引き起こす1つまたは複数の非一時的機械可読情報記憶媒体。
  10. 前記命令は、前記1つまたは複数のハードウェアプロセッサにより実行されたとき、
    前記実体の前記複数のパラメータに対応する入力時系列を受信するステップと、
    前記入力時系列から1つまたは複数の特徴を自動的に抽出するステップと、
    前記抽出した1つまたは複数の特徴に基づき、前記検証され学習された分類モデルを前記入力時系列に適用して、前記実体の前記複数のパラメータに対応する前記入力時系列に関するクラスを得るステップと
    をさらに引き起こす、請求項9に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
  11. 前記入力時系列および前記独特の時系列データは、固定長データまたは可変長データである、請求項10に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
  12. 前記重みは、LASSO−正規化損失関数を使用して得られる、請求項9に記載の1つまたは複数の非一時的機械可読情報記憶媒体。

JP2019049465A 2018-07-09 2019-03-18 パラメータの多次元時系列を分類するためのシステムおよび方法 Active JP6793774B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821025603 2018-07-09
IN201821025603 2018-07-09

Publications (2)

Publication Number Publication Date
JP2020009410A true JP2020009410A (ja) 2020-01-16
JP6793774B2 JP6793774B2 (ja) 2020-12-02

Family

ID=65817835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019049465A Active JP6793774B2 (ja) 2018-07-09 2019-03-18 パラメータの多次元時系列を分類するためのシステムおよび方法

Country Status (6)

Country Link
US (1) US11379717B2 (ja)
EP (1) EP3594861B1 (ja)
JP (1) JP6793774B2 (ja)
AU (1) AU2019201881B2 (ja)
CA (1) CA3043825A1 (ja)
MX (1) MX2019003211A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026767A1 (en) * 2018-07-17 2020-01-23 Fuji Xerox Co., Ltd. System and method for generating titles for summarizing conversational documents
EP3770822B1 (en) * 2019-07-26 2025-04-30 Nokia Technologies Oy Method and apparatus for processing sensor data
WO2021097178A1 (en) * 2019-11-14 2021-05-20 University Of Virginia Patent Foundation System, method and computer readable medium for compressing continuous glucose monitor data
CN111275113B (zh) * 2020-01-20 2023-04-07 西安理工大学 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN111860542B (zh) * 2020-07-22 2024-06-28 海尔优家智能科技(北京)有限公司 用于识别物品类别的方法及装置、电子设备
US11301352B2 (en) 2020-08-26 2022-04-12 International Business Machines Corporation Selecting metrics for system monitoring
CN112017776B (zh) * 2020-10-27 2021-01-15 平安科技(深圳)有限公司 基于动态图和医学知识图谱的疾病预测方法及相关设备
EP4060677A1 (en) 2021-03-18 2022-09-21 Craft.Ai Devices and processes for data sample selection for therapy-directed tasks
CN113792825B (zh) * 2021-11-17 2022-08-02 国网江苏省电力有限公司营销服务中心 一种用电信息采集设备故障分类模型训练方法及装置
US11431472B1 (en) 2021-11-22 2022-08-30 Morgan Stanley Services Group Inc. Automated domain language parsing and data extraction
CN114491952B (zh) * 2021-12-27 2025-07-29 宁波力斗智能技术有限公司 一种基于长短时记忆网络的锂电池剩余使用寿命预测方法
CN114757630B (zh) * 2022-06-16 2022-10-14 阿里健康科技(杭州)有限公司 仓储管理模型确定方法、装置及计算机设备
CN115145221B (zh) * 2022-07-05 2024-07-19 湖南大学 一种基于机器人铣边误差追溯的工件与刀具位姿标定方法
CN117077871B (zh) * 2023-10-17 2024-02-02 山东理工昊明新能源有限公司 基于大数据的能源需求预测模型的构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0674876A (ja) * 1992-08-28 1994-03-18 Kawasaki Steel Corp 設備診断方法及び装置
US20170286826A1 (en) * 2016-03-30 2017-10-05 Nec Laboratories America, Inc. Real-time deep learning for danger prediction using heterogeneous time-series sensor data
JP2018097616A (ja) * 2016-12-13 2018-06-21 ファナック株式会社 数値制御装置及び機械学習装置
JP2018097418A (ja) * 2016-12-08 2018-06-21 株式会社Preferred Networks 情報処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6063028A (en) 1997-03-20 2000-05-16 Luciano; Joanne Sylvia Automated treatment selection method
US8781989B2 (en) * 2008-01-14 2014-07-15 Aptima, Inc. Method and system to predict a data value
US9149719B2 (en) 2008-12-19 2015-10-06 Agency For Science, Technology And Research Device and method for generating a representation of a subject's attention level
WO2011115576A2 (en) 2010-03-15 2011-09-22 Singapore Health Services Pte Ltd Method of predicting the survivability of a patient
US10616253B2 (en) * 2017-11-13 2020-04-07 International Business Machines Corporation Anomaly detection using cognitive computing
US11157782B2 (en) * 2017-11-16 2021-10-26 International Business Machines Corporation Anomaly detection in multidimensional time series data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0674876A (ja) * 1992-08-28 1994-03-18 Kawasaki Steel Corp 設備診断方法及び装置
US20170286826A1 (en) * 2016-03-30 2017-10-05 Nec Laboratories America, Inc. Real-time deep learning for danger prediction using heterogeneous time-series sensor data
JP2018097418A (ja) * 2016-12-08 2018-06-21 株式会社Preferred Networks 情報処理装置
JP2018097616A (ja) * 2016-12-13 2018-06-21 ファナック株式会社 数値制御装置及び機械学習装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LINCHAO ZHU, ZHONGWEN XU, YI YANG: "Bidirectional Multirate Reconstruction for Temporal Modeling in Videos", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6020024866, 2017, ISSN: 0004305084 *

Also Published As

Publication number Publication date
US11379717B2 (en) 2022-07-05
BR102019005486A2 (pt) 2020-02-04
JP6793774B2 (ja) 2020-12-02
EP3594861A1 (en) 2020-01-15
CA3043825A1 (en) 2020-01-09
US20200012938A1 (en) 2020-01-09
AU2019201881A1 (en) 2020-01-23
EP3594861B1 (en) 2024-04-03
MX2019003211A (es) 2020-01-10
EP3594861C0 (en) 2024-04-03
AU2019201881B2 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
JP2020009410A (ja) パラメータの多次元時系列を分類するためのシステムおよび方法
Michau et al. Fully learnable deep wavelet transform for unsupervised monitoring of high-frequency time series
Krittanawong et al. Machine learning and deep learning to predict mortality in patients with spontaneous coronary artery dissection
JP6688821B2 (ja) 特徴抽出およびその解釈のための、信号分析システムおよび方法
Bashir et al. BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting
CN109326353B (zh) 预测疾病终点事件的方法、装置及电子设备
Kachuee et al. Dynamic feature acquisition using denoising autoencoders
CN107169573A (zh) 利用复合机器学习模型来执行预测的方法及系统
Ma et al. Deep wavelet sequence-based gated recurrent units for the prognosis of rotating machinery
WO2019160003A1 (ja) モデル学習装置、モデル学習方法、プログラム
US12541724B2 (en) Systems and methods for time-series forecasting
Gupta et al. Using Features From Pre-trained TimeNET For Clinical Predictions.
CN113611427B (zh) 用户画像生成方法、装置、设备及存储介质
EP4371130A1 (en) Method of evaluating text similarity for diagnosis or monitoring of a health condition
Marelli et al. Machine learning informed diagnosis for congenital heart disease in large claims data source
Mansoor et al. Development of an efficient novel method for coronary artery disease prediction using machine learning and deep learning techniques
EP4503051A1 (en) Apparatus and method for determining a patient survival profile using artificial intelligence-enabled electrocardiogram (ecg)
Cabrera et al. Echo state network and variational autoencoder for efficient one-class learning on dynamical systems
Loganayagi et al. Assessing the Efficacy of ML Techniques for Forecasting Healthcare Consumer Readmission: A Comparative Analysis of Risk Factors and Healthcare Interventions
Buskirk et al. Why machines matter for survey and social science researchers: Exploring applications of machine learning methods for design, data collection, and analysis
Mehta et al. An ensemble voting classification approach for software defects prediction
Mirza et al. Human heart disease prediction using data mining techniques
US12147428B2 (en) System and method for searching time series data
Zahidi et al. Analyzing Classification Models: Random Forest vs. Neural Networks in Health Prediction
Liu et al. Augmenting small tabular health data for training prognostic ensemble machine learning models using generative models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201110

R150 Certificate of patent or registration of utility model

Ref document number: 6793774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250