WO2017090475A1 - 情報処理システム、関数作成方法および関数作成プログラム - Google Patents
情報処理システム、関数作成方法および関数作成プログラム Download PDFInfo
- Publication number
- WO2017090475A1 WO2017090475A1 PCT/JP2016/083680 JP2016083680W WO2017090475A1 WO 2017090475 A1 WO2017090475 A1 WO 2017090475A1 JP 2016083680 W JP2016083680 W JP 2016083680W WO 2017090475 A1 WO2017090475 A1 WO 2017090475A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- function
- feature quantity
- aggregation method
- function creation
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Definitions
- the present invention relates to an information processing system, a function creation method, and a function creation program for generating feature quantities used for learning and prediction.
- Data mining is a technology for finding useful knowledge that has been unknown so far from a large amount of information.
- the process of applying data mining to a specific example can be roughly divided into the following three stages.
- the first stage (process) is a “pretreatment stage”.
- the attribute (feature) input to a device or the like that operates according to the data mining algorithm is processed to make the attribute a new attribute. This is the stage to convert.
- the second stage is the “analysis process stage”.
- the “analysis processing stage” is a stage in which attributes are input to a device or the like that operates according to the data mining algorithm, and an analysis result that is an output of the device or the like that operates according to the data mining algorithm is obtained.
- the third stage is the “post-processing stage”.
- the “post-processing stage” is a stage in which the analysis result is converted into an easy-to-read graph, a control signal for inputting to another device, or the like.
- the “pre-processing stage” needs to be appropriately performed.
- the work of designing what procedure the “preprocessing stage” should be performed on depends on the knowledge of a skilled technician (data scientist) of the analysis technology.
- the design process in the preprocessing stage is not sufficiently supported by the information processing technology, and still depends heavily on trial and error by the manual work of skilled engineers.
- Patent Document 1 describes a method for generating a plurality of attributes.
- a plurality of attributes are selected from one data set in which attributes such as height, weight, and annual consumption value of beer are associated with identifiers of a plurality of persons, and new attributes are selected. Generate.
- a plurality of attribute candidates are generated using one table data represented by the exemplified data set.
- the present inventor considered that it is preferable to use not only one table data but also a plurality of table data in order to generate many attribute candidates. This is because more attribute candidates can be generated by using various table data.
- the attribute may be referred to as a feature amount.
- an object of the present invention is to provide an information processing system, a function creation method, and a function creation program that can efficiently generate a large number of feature quantity candidates using a plurality of table data.
- An information processing system includes a table storage unit that stores a first table that includes an objective variable and a second table that includes data different in granularity from the data included in the first table, A function creation unit that creates a feature quantity generation function for generating a feature quantity that is a variable that can affect the objective variable from the data and the data in the second table.
- the function creation method is a variable that can affect the objective variable from the first table including the objective variable and the second table including data different in granularity from the data included in the first table.
- a feature quantity generating function is created by generating a combination of aggregation method elements representing an aggregation method for aggregating data included in the table for each objective variable.
- the function creation program provides a computer with a variable that can affect a target variable from a first table that includes an objective variable and a second table that includes data different in granularity from the data included in the first table.
- a function creation process for creating a feature quantity generation function for generating a feature quantity is executed, and in the function creation process, a correspondence condition element representing a correspondence condition between rows of the first table and the second table, and It is characterized in that a plurality of feature quantity generation functions are created by generating a combination of aggregation method elements representing an aggregation method for aggregating data included in the second table for each objective variable.
- FIG. FIG. 1 is a block diagram showing a configuration example of a first embodiment of an information processing system according to the present invention.
- the information processing system of this embodiment includes a storage unit 11, an input unit 12, and a function creation unit 13.
- the storage unit 11 includes a table (hereinafter sometimes referred to as a first table) including columns of prediction targets (that is, objective variables), and a set of data included in the first table (hereinafter referred to as the first table). It may be written as tabular data).
- the first table is referred to as a target table.
- the storage unit 11 includes a table having a different granularity from the first table (hereinafter sometimes referred to as a second table), and a set of data included in the second table (hereinafter referred to as second table data). May be noted.)
- this second table is referred to as a source table.
- the first table and the second table are defined by combinations of columns representing data attributes. Each table includes one or more rows in which data indicating the values of the respective attributes are combined.
- the table having a different granularity from the target table means a table in which the rows do not correspond one-to-one with respect to each row of the target table. Note that when generating a feature value generation function described later, the storage unit 11 may not store the first table data and the second table data.
- the input unit 12 inputs various information necessary for the function creation unit 13 described later to create a feature quantity generation function.
- the input unit 12 may input information received via a communication network (not shown), or may read and input information from a storage device (not shown) that stores the information. Further, the storage unit 11 may also function as the storage device. The contents input by the input unit 12 will be described according to the function of the function creation unit 13.
- the function creation unit 13 uses the information input to the input unit 12 to generate a feature quantity generation function.
- the feature quantity generation function is a function used to generate a feature quantity that is a variable that can affect the target variable from the first table data and the second table data.
- the number of source tables is not limited to one and may be two or more.
- the generated feature amount becomes a candidate for an explanatory variable when a model is generated using machine learning. In other words, by using the feature value generation function generated in this embodiment, it is possible to automatically generate candidate explanatory variables when generating a model using machine learning.
- the function creation unit 13 creates a plurality of feature quantity generation functions by generating a combination of three elements.
- the first element is an element representing a row extraction condition included in the second table.
- the first element may be referred to as an extraction condition element.
- the extraction condition indicated by the first element is defined as a conditional expression for the source table (second table).
- filter the process of extracting rows from the second table based on the first element
- list of conditional expressions may be described as “F list”.
- the extraction condition is arbitrary, and for example, a condition for determining whether or not it is the same (larger or smaller) as the value of the specified column.
- the second element is an element representing the corresponding condition of the rows of the first table data and the second table data.
- the second element may be referred to as a corresponding condition element.
- the second element is defined as a pair of columns that associates a column of the target table (first table) with a column of the source table (second table).
- map the process of associating the columns of each table based on the second element
- M list the list of pairs in this column.
- the third element is an element representing an aggregation method for aggregating the data of each column included in the second table for each objective variable.
- the third element may be referred to as an aggregation method element.
- the third element is defined as an aggregate function for the columns of the source table (second table).
- the process of aggregating the data of each column by the method indicated by the third element may be described as “reduce”.
- the list of aggregate functions may be described as “R list”.
- “aggregate for each objective variable” is extracted based on the first element (that is, the extraction condition element) out of the columns included in the second table, and the second This means that data associated with the same column in the first table is aggregated based on the elements (that is, corresponding condition elements).
- the aggregation method is arbitrary, and examples include the total number of columns, maximum value, minimum value, average value, median value, and variance.
- the total number of columns may be calculated from one of the viewpoints of excluding duplicate data or not excluding duplicate data.
- FIG. 2 is an explanatory diagram illustrating an example of processing indicated by each element.
- there is one target table T and one source table S and the key column is a column that associates both tables.
- the target variable is included in the Y column of the target table.
- S 1 in FIG. 2 is a subset of the set of columns in the source table S.
- Filter can be said to be a process of selecting a subset of a set of columns in the source table S.
- Map is a process for obtaining the correspondence between the row of the target table T and the row of the source table S.
- Reduce uses a row set value selected by filter among the columns of the source table S associated with each row of the target table T by map to perform one aggregation operation to obtain one value. This is a derivation process, and an arbitrary aggregate function is used for the derivation.
- the feature quantity generation function using these three elements as parameters is defined as a function that generates a feature quantity based on the following processing. First, one or more rows are extracted from the source table based on the extraction condition of the source table specified by the first element (filter).
- the target table and the source table are associated with each other through the correspondence condition specified in the second element (Map IV).
- the target table and the source table are associated with each other, they may be associated not only with the rows in which the column values indicated by the corresponding conditions are completely matched, but also with the specified similarity.
- an example is that not only between lines where the date and time are completely matched, but also when the difference between the dates and times of two lines is within a predetermined range (for example, within 6 hours). Can be mentioned.
- each of the target table and the source table has columns of longitude and latitude, and when the correspondence conditions are described using these, the distance between the two points is based on a distance within a predetermined range (for example, within 5 km). An example of performing association is also given.
- the rows associated with map are aggregated (reduce).
- a vector including a value obtained for each row of the target table is used as a feature amount.
- the function creation unit 13 may generate a plurality of feature amounts by using the generated feature amount generation function. That is, the function creation unit 13 may function as a feature amount generation unit that generates a feature amount.
- the storage unit 11 is realized by, for example, a magnetic disk device.
- the input unit 12 and the function creation unit 13 are realized by a CPU of a computer that operates according to a program (function creation program).
- the program may be stored in the storage unit 11, and the CPU may read the program and operate as the input unit 12 and the function creation unit 13 according to the program.
- the function of the information processing system may be provided in SaaS (Software as a Service) format.
- the input unit 12 and the function creation unit 13 may each be realized by dedicated hardware.
- Each of the input unit 12 and the function creation unit 13 may be realized by a general-purpose or dedicated circuit (circuitry).
- the general-purpose or dedicated circuit may be configured by a single chip or may be configured by a plurality of chips connected via a bus.
- the plurality of information processing devices and circuits may be arranged in a concentrated manner or distributedly arranged. May be.
- the information processing apparatus, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system and a cloud computing system.
- FIG. 3 is a flowchart showing an operation example of the information processing system of the present embodiment.
- the input unit 12 inputs three elements necessary for creating the feature quantity generation function (step S11).
- the function creation unit 13 creates a feature quantity generation function from the input three elements (step S12).
- the columns of the target table (first table) and / or the source table (second table) stored in the storage unit 11 are designated as the three input elements.
- FIG. 4 is an explanatory diagram illustrating an example of information used to create a feature quantity generation function.
- the prediction target variable (object variable) is a variable indicating whether or not the customer has been canceled
- the target table (T) includes a customer ID that identifies the customer and a variable that indicates whether or not the cancellation has occurred.
- the source table (S) is a table including customer call records (specifically, call time, call direction, call type, and call time).
- the F list used in filter includes 18 conditional expression candidates. Further, it is assumed that the M list used in map IV includes one condition for associating the target table and the source table with the customer ID. In addition, it is assumed that the R list used in reduce includes six aggregate functions related to call time or time.
- F list, M list, and R list may be automatically created by a machine or manually by a human.
- F list, M list, and R list illustrated in FIG. 4 are created in advance.
- FIG. 5 is a flowchart showing an operation example in which the function creation unit 13 of the present embodiment creates a feature quantity generation function.
- the function creation unit 13 selects one element from each of the F list, M list, and R list, and generates a combination of each element (step S22).
- the F list includes 18 conditional expressions
- the M list includes one corresponding condition
- the R list includes six aggregation methods. Therefore, 108 combinations are generated from the elements of these lists.
- the function creation unit 13 creates a feature quantity generation function based on the generated combination (step S23). Specifically, the function creation unit 13 converts the conditions and aggregation methods included in the generated combination into a query language format for performing manipulation and definition of table data. For example, the function creation unit 13 may use SQL as a query language.
- the function creation unit 13 may create the feature quantity generation function by applying the extraction condition, the corresponding condition, and the aggregation method to the template for generating the SQL sentence. Specifically, a template for generating an SQL statement by applying conditions and an aggregation method is prepared in advance, and the function creation unit 13 sequentially applies the conditions and the aggregation method included in the generated combination to the template. Then, an SQL sentence may be created.
- the feature quantity generation function is defined as an SQL statement, and three elements selected from the F list, the M list, and the R list correspond to parameters for generating the SQL statement.
- FIG. 6 is an explanatory diagram showing an example of processing for generating an SQL sentence by applying to a template.
- a template Temp is prepared in advance.
- the function creation unit 13 applies the conditions and the aggregation method included in the generated combination to the part indicated by the underline of the template Temp. As a result, a feature quantity generation function for the number of combinations is generated.
- this combination is applied to the template Temp, a query sentence Q1 illustrated in FIG. 6 is generated.
- the feature amount created by this inquiry sentence Q1 represents the total number of incoming calls or received messages.
- the selected combination is generated.
- a query sentence Q2 illustrated in FIG. 6 is generated.
- the feature amount created by this query sentence Q2 represents the latest value of the time when the voice call is made.
- the feature value created by this combination represents the degree of variation in call time in an incoming call.
- the function creation unit 13 generates a feature amount from the target table (first table) and the source table (second table) by generating a combination of three elements.
- a feature quantity generation function is generated for this purpose. That is, in this embodiment, a function for generating a feature value from the source table and the target table is defined by a combination of three elements, filter, map, and reduce. If a feature quantity generation function is defined by a combination of these three elements, many types of feature quantity generation functions can be expressed as simple element combinations. Therefore, a large number of feature quantity candidates can be efficiently generated using a plurality of table data. For example, in the case of the example shown in FIG.
- FIG. 4 illustrates a case where 18 conditional expressions are prepared in the F list.
- a method for efficiently creating a large number of conditional expressions indicated by the first element will be described.
- FIG. 7 is a block diagram showing a configuration example of the second embodiment of the information processing system according to the present invention.
- symbol same as FIG. 1 is attached
- subjected and description is abbreviate
- the information processing system of this embodiment includes a storage unit 11, an input unit 12, a function creation unit 13, and a parameter generation unit 14. That is, the information processing system of this embodiment is different from the first embodiment in that it further includes a parameter generation unit 14.
- the parameter generation unit 14 generates a plurality of conditional expressions by combining conditional expressions (hereinafter referred to as atomic conditional expressions) included in the extraction condition indicated by the first element.
- the number of conditional expressions to be combined is predetermined.
- the maximum number of atomic conditional expressions connected by AND may be referred to as “maximum length of conditional expression”.
- the atomic conditional expression may be represented by a single logical expression, or may be represented by a logical expression obtained by combining a plurality of logical expressions with an operator.
- FIG. 8 is an explanatory diagram showing an example of processing for generating a plurality of conditional expressions.
- the F list includes six atomic conditional expressions, and the maximum length of the conditional expression is 2.
- the function creation unit 13 generates a plurality of new conditional expressions by combining a number of atomic conditional expressions equal to or less than the “maximum length of the conditional expression” among the atomic conditional expressions included in the F list.
- FIG. 8 shows that a total of 18 conditional expressions are generated from the F list.
- the parameter generation unit 14 generates a new conditional expression by combining atomic conditional expressions. Combinations of conditional expressions are essentially possible up to the number of atomic conditional expressions, but long conditional expressions that are all connected together are difficult to understand for the user and are often impractical.
- the function creating unit 13 may exclude conflicting conditions from among conditional expressions for the same attribute. For example, among the conditional expressions illustrated in FIG. 8, the conditions where the call direction is IN and OUT are not compatible. In this case, the function creation part 13 should just exclude the combination containing such conditions.
- the input unit 12, the function creation unit 13, and the parameter generation unit 14 are realized by a CPU of a computer that operates according to a program (function creation program). Further, the input unit 12, the function creation unit 13, and the parameter generation unit 14 may be realized by dedicated or general-purpose hardware or circuits, respectively.
- FIG. 9 is a flowchart illustrating an operation example in which the function creation unit 13 of the present embodiment creates a feature quantity generation function.
- the function creation unit 13 generates a new conditional expression that combines the conditional expressions included in the F list (step S21).
- the process of creating the feature quantity generation function based on each element is the same as the process shown from step S22 to step S23 in FIG.
- Embodiment 3 a third embodiment of the information processing system according to the present invention will be described.
- a feature amount is generated from a target table (first table) and a source table (second table) by generating a combination of three elements (filter, map, reduce).
- a method for generating a feature quantity generation function has been described.
- a method of generating a feature quantity generation function without performing a process of extracting a row from the second table (source table) that is, filter
- the configuration of the third embodiment is the same as the configuration of the first embodiment.
- the method by which the function creation unit 13 generates the feature quantity generation function is different from that in the first embodiment.
- the function creation unit 13 generates a feature amount generation function using information input to the input unit 12.
- the function creation unit 13 has two elements (the second condition element (that is, the corresponding condition element) described in the first embodiment and the third element (that is, the aggregation method element) ( Create multiple feature generation functions by generating a combination of map and reduce).
- the function creation unit 13 of the present embodiment uses a corresponding condition element (second element of the first embodiment) representing the corresponding condition of the rows of the first table (target table) and the second table (source table). And a combination of aggregation method elements (corresponding to the third element of the first embodiment) representing an aggregation method for aggregating the data of each column included in the second table for each objective variable.
- a plurality of feature quantity generation functions are created.
- aggregate for each objective variable means that, among the columns included in the second table, the data associated with the same column in the first table based on the corresponding condition element. It means to aggregate.
- the method in which the function creation unit 13 generates a combination of each element, the contents of each element, and the contents of the feature value generation function are the first implementations except that the element does not include the first element (that is, the extraction condition element). It is the same as the form.
- the function creation unit 13 creates a plurality of feature quantity generation functions by generating a combination of corresponding condition elements and aggregation method elements. Therefore, similarly to the effect of the first embodiment, a large number of feature quantity candidates can be efficiently generated using a plurality of table data. For example, when all of the second table data is used to generate the feature amount, it is not necessary to use a subset of the second table data. Therefore, even if the extraction amount element is not included in the feature amount generation function, each table data It is possible to generate a feature quantity from
- FIG. 10 is a block diagram showing an outline of an information processing system according to the present invention.
- the information processing system according to the present invention includes a table storage unit 81 (for storing a first table including an objective variable (for example, a target table) and a second table (for example, a source table) having a granularity different from that of the first table.
- a table storage unit 81 for storing a first table including an objective variable (for example, a target table) and a second table (for example, a source table) having a granularity different from that of the first table.
- the storage unit 11 and a function creation unit 82 that creates a feature quantity generation function for generating a feature quantity that can affect the target variable from the first table and the second table (for example, the function Creating section 13).
- the function creation unit 82 sets the corresponding condition element (for example, the second element) indicating the corresponding condition of the rows of the first table and the second table, and the data of each column included in the second table as the objective variable.
- a plurality of feature quantity generation functions are created by generating a combination of aggregation method elements (for example, third elements) representing an aggregation method to be aggregated for each.
- the function creation unit 82 also includes an extraction condition element (for example, a first element) including a conditional expression representing a row extraction condition included in the second table, and correspondence between the first table and the second table row.
- an extraction condition element for example, a first element
- Corresponding condition element for example, second element
- an aggregation method element for example, third element
- a plurality of feature quantity generation functions may be created by generating a combination of
- the information processing system also includes an extraction condition generation unit (for example, parameter generation unit 14) that generates a plurality of conditional expressions by combining atomic conditional expressions that are one conditional expression included in the extraction conditions indicated by the extraction condition elements. You may have.
- the extraction condition generation unit generates a plurality of conditional expressions combining atomic conditional expressions up to the number indicated by the specified maximum length, and the function creation unit 82 uses the generated conditional expressions as extraction condition elements.
- a feature quantity generation function may be created.
- the function creation unit 82 performs processing for extracting one or more lines based on the extraction condition specified by the extraction condition element, and the processing condition specified by the corresponding condition indicated by the corresponding condition element.
- a feature quantity generation function is generated that performs a process of associating the first table with the second table and a process of aggregating the rows of the second table based on the aggregation method specified by the aggregation method element.
- the function creation unit 82 selects the extraction condition indicated by the extraction condition element, the corresponding condition indicated by the corresponding condition element, and the aggregation method indicated by the aggregation method element one by one, and the selected conditional expression, corresponding condition and aggregation method are selected.
- a plurality of feature quantity generation functions are created by generating a combination of
- the extraction condition element is represented by a conditional expression for the column of the second table and the maximum length of the conditional expression
- the corresponding condition element is a column that associates the column of the first table with the column of the second table.
- the aggregation method element is represented by the aggregation method performed on the columns of the second table.
- the feature quantity generation function may be defined by an SQL statement that extracts data from the first table and the second table.
- the function creation unit 82 may create the feature quantity generation function by applying the extraction condition, the correspondence condition, and the aggregation method to the template for generating the SQL sentence.
- FIG. 11 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
- the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
- the information processing system described above is mounted on the computer 1000.
- the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (function creation program).
- the CPU 1001 reads out the program from the auxiliary storage device 1003, expands it in the main storage device 1002, and executes the above processing according to the program.
- the auxiliary storage device 1003 is an example of a tangible medium that is not temporary.
- Other examples of the non-temporary tangible medium include a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, and a semiconductor memory connected via the interface 1004.
- this program is distributed to the computer 1000 via a communication line, the computer 1000 that has received the distribution may develop the program in the main storage device 1002 and execute the above processing.
- the program may be for realizing a part of the functions described above. Further, the program may be a so-called difference file (difference program) that realizes the above-described function in combination with another program already stored in the auxiliary storage device 1003.
- difference file difference program
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
表記憶部81は、目的変数を含む第一の表およびその第一の表と粒度の異なる第二の表を記憶する。関数作成部82は、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する。関数作成部82は、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する。
Description
本発明は、学習や予測に用いる特徴量を生成するための情報処理システム、関数作成方法および関数作成プログラムに関する。
データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。データマイニングを具体例に適用するプロセスは、下記に示す3つの段階に大別できる。
1つ目の段階(工程)は、「前処理段階」である。「前処理段階」は、データマイニングアルゴリズムが効果的に機能するようにするために、データマイニングアルゴリズムに従って動作する装置などに入力する属性(feature )を加工することにより、その属性を新たな属性に変換する段階である。
2つ目の段階は、「分析処理段階」である。「分析処理段階」は、データマイニングアルゴリズムに従って動作する装置などに属性を入力し、係るデータマイニングアルゴリズムに従って動作する装置などの出力である分析結果を得る段階である。
3つめの段階は、「後処理段階」である。「後処理段階」は、分析結果を、見やすいグラフや他の機器に入力するための制御信号等に変換する段階である。
このようにデータマイニングにより有用な知見を得るためには、「前処理段階」が適切に行われる必要がある。「前処理段階」をどのような手順で実行すべきかを設計する作業は、分析技術の熟練技術者(データサイエンティスト)の知識に依存する。前処理段階の設計作業は、情報処理技術によって十分には支援されておらず、未だ熟練技術者の手作業による試行錯誤に依存する部分が大きい。
未知である有用な知見を見つけるためには、より多くの属性の候補を生成することが重要である。具体的には、予測対象である変数(目的変数)に影響を及ぼし得る多くの属性(説明変数)の候補を生成することが重要である。このような多くの候補を生成することにより、予測に役立つ属性がこの候補の中に含まれる可能性を高めることができるからである。
例えば、特許文献1には、複数の属性を生成する方法が記載されている。特許文献1に記載された方法では、身長や体重、ビールの年間消費量の値などの属性を複数人の識別子と対応付けた1つのデータセットから、複数の属性を選択して新たな属性を生成する。
特許文献1に記載されている方法では、例示するデータセットに代表される1つの表データを利用して複数の属性の候補が生成される。一方、本発明者は、多くの属性の候補を生成するためには、1つの表データだけでなく、複数の表データを利用することが好ましいと考えた。様々な表データを利用することで、より多くの属性の候補を生成できるからである。なお、属性は、特徴量ということもある。
しかし、1つの予測対象に対し、全ての表データの粒度が同一になることは稀である。すなわち、各表データは、収集されるデータの性質に応じてその内容が異なるため、予測対象ごとに複数の対応する行を有する表データや、予測対象との対応関係が自明でない表データも存在する。
そのため、複数の表データを単純に利用して特徴量を生成することは容易ではない。また、熟練技術者が、生成しようとする特徴量ごとに加工方法を定義しようとした場合、非常に手間がかかってしまうという技術的課題がある。このような状況に鑑みると、複数の表データを利用する場合でも、効率よく多数の特徴量の候補を生成できることが望まれる。
そこで、本発明は、複数の表データを利用して効率よく多数の特徴量の候補を生成できる情報処理システム、関数作成方法および関数作成プログラムを提供することを目的とする。
本発明による情報処理システムは、目的変数を含む第一の表およびその第一の表に含まれるデータと粒度の異なるデータを含む第二の表を記憶する表記憶部と、第一の表のデータおよび第二の表のデータから目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、関数作成部が、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成することを特徴とする。
本発明による関数作成方法は、目的変数を含む第一の表およびその第一の表に含まれるデータと粒度の異なるデータを含む第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成し、前記特徴量生成関数の作成において、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれるデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する
ことを特徴とする。
ことを特徴とする。
本発明による関数作成プログラムは、コンピュータに、目的変数を含む第一の表およびその第一の表に含まれるデータと粒度の異なるデータを含む第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、関数作成処理で、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させることを特徴とする。
本発明によれば、上述した技術的手段により、複数の表データを利用して効率よく多数の特徴量の候補を生成できるという技術的効果を奏する。
以下、本発明の実施形態を図面を参照して説明する。以下の説明では、単にデータと記載した場合、表に含まれる各セルの内容を表わし、表データと記載した場合、表に含まれるデータ全体を表わす。
実施形態1.
図1は、本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。本実施形態の情報処理システムは、記憶部11と、入力部12と、関数作成部13とを備えている。
図1は、本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。本実施形態の情報処理システムは、記憶部11と、入力部12と、関数作成部13とを備えている。
記憶部11は、予測対象(すなわち、目的変数)の列を含む表(以下、第一の表と記すこともある。)、および、第一の表に含まれるデータの集合(以下、第一表データと記すこともある。)を記憶する。以下の説明では、第一の表をターゲットテーブルと記す。また、記憶部11は、第一の表と粒度の異なる表(以下、第二の表と記すことある。)、および、第二の表に含まれるデータの集合(以下、第二表データと記すこともある。)を記憶する。以下の説明では、この第二の表をソーステーブルと記す。
第一の表および第二の表は、データの属性を表わす列の組合せにより定義される。また、各表は、各属性の値を示すデータを組み合わせた1つ以上の行を含む。ここで、ターゲットテーブル(第一の表)と粒度が異なる表とは、ターゲットテーブルの各行に対して、行が1対1に対応していない表を意味する。なお、後述する特徴量生成関数を生成する際、記憶部11は、第一表データおよび第二表データを記憶していなくてもよい。
入力部12は、後述する関数作成部13が特徴量生成関数を作成するために必要な各種情報を入力する。入力部12は、通信ネットワーク(図示せず)を介して受信する情報を入力してもよく、これらの情報を記憶する記憶装置(図示せず)から情報を読み取って入力してもよい。また、この記憶装置の機能を記憶部11が兼ねていてもよい。なお、入力部12が入力する内容を、関数作成部13の機能に則して説明する。
関数作成部13は、入力部12に入力された情報を用いて特徴量生成関数を生成する。特徴量生成関数は、第一表データおよび第二表データから目的変数に影響を及ぼし得る変数である特徴量を生成するために用いられる関数である。なお、ソーステーブルの数は1つに限られず、2つ以上であってもよい。生成された特徴量は、機械学習を用いてモデルを生成する際の説明変数の候補になる。言い換えると、本実施形態で生成される特徴量生成関数を用いることで、機械学習を用いてモデルを生成する際の説明変数の候補を自動的に生成することが可能になる。
関数作成部13は、3つの要素の組合せを生成することで、複数の特徴量生成関数を作成する。第一の要素は、第二の表に含まれる行の抽出条件を表わす要素である。以下の説明では、第一の要素を抽出条件要素と記すこともある。具体的には、第一の要素が示す抽出条件は、ソーステーブル(第二の表)に対する条件式として定義される。以下、第一の要素に基づいて第二の表から行を抽出する処理を「filter」と記載する場合がある。また、この条件式のリストを「Fリスト」と記載する場合がある。
抽出条件は任意であり、例えば、指定された列の値と同じ(大きいまたは小さい)か否か判断する条件が挙げられる。
第二の要素は、第一表データと第二表データの行の対応条件を表わす要素である。以下の説明では、第二の要素を対応条件要素と記すこともある。具体的には、第二の要素は、ターゲットテーブル(第一の表)の列とソーステーブル(第二の表)の列を対応付ける列のペアとして定義される。以下、第二の要素に基づいて各テーブルの列を対応付ける処理を「map 」と記載する場合がある。また、この列のペアのリストを「Mリスト」と記載する場合がある。また、map による各表の列の対応付けは、対応付けられた列で複数の表を1つの表に結合(join)することとも言える。
第三の要素は、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす要素である。以下の説明では、第三の要素を集約方法要素と記すこともある。具体的には、第三の要素は、ソーステーブル(第二の表)の列に対する集約関数として定義される。以下、第三の要素が示す方法により各列のデータを集約する処理を「reduce」と記載する場合がある。また、この集約関数のリストを「Rリスト」と記載する場合がある。第1の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、第一の要素(すなわち、抽出条件要素)に基づいて抽出され、かつ、第二の要素(すなわち、対応条件要素)に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。
集約方法は任意であり、例えば、列の総数、最大値、最小値、平均値、中央値、分散などが挙げられる。また、列の総数の集計は、重複データを除外する、または、重複データを除外しない、のいずれかの観点で行われてもよい。
図2は、各要素が示す処理の例を示す説明図である。図2に示す例では、ターゲットテーブルTとソーステーブルSがそれぞれ1つずつ存在し、key列が両テーブルを対応付ける列である。また、ターゲットテーブルのY列に目的変数が含まれる。図2におけるS1は、ソーステーブルS内の列の集合のサブセットである。
filterは、ソーステーブルS内の列の集合のサブセットを選び出す処理と言える。map は、ターゲットテーブルTの行とソーステーブルSの行との対応関係をとる処理である。reduceは、ターゲットテーブルTの各行に対してmap により対応付けられたソーステーブルSの列のうちfilterによって選び出された行の集合の値を用いて、なんらかの集約演算を行うことにより1つの値を導出する処理であり、その導出には任意の集約関数が用いられる。
また、この3つの要素をパラメータとする特徴量生成関数は、以下の処理に基づいて特徴量を生成する関数として定義される。まず、第一の要素で指定されたソーステーブルの抽出条件に基づき、ソーステーブルから1つ以上の行が抽出される(filter)。
次に、第二の要素で指定された対応条件を介して、ターゲットテーブルとソーステーブルとが対応付けられる(Map )。ターゲットテーブルとソーステーブルとを対応付ける際、対応条件で示す列の値が完全一致する行同士だけでなく、指定された類似度により対応付けられてもよい。例えば、日時データで対応を取る際に、日時が完全に一致する行同士だけでなく、二つの行の日時の差が所定の範囲内(例えば、6時間以内)であれば対応付ける、という例が挙げられる。また、ターゲットテーブルとソーステーブルにそれぞれ、経度・緯度の列があり、これらを用いて対応条件を記載する際に、2地点の距離が所定の範囲内(例えば、5Km以内)、といった距離に基づく対応付けを行う例も挙げられる。
次に、第三の要素で指定された集約方法に基づいて、ターゲットテーブルの各行に対してfilterによって選び出された行のうち、map により対応付けられた行を集約する(reduce)。この集約により、ターゲットテーブルの各行に対して得られた値を含むベクトルが特徴量とされる。
関数作成部13は、生成した特徴量生成関数を利用して、複数の特徴量を生成してもよい。すなわち、関数作成部13が、特徴量を生成する特徴量生成部として機能してもよい。
記憶部11は、例えば、磁気ディスク装置により実現される。また、入力部12と、関数作成部13とは、プログラム(関数作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部11に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、入力部12および関数作成部13として動作してもよい。また、本情報処理システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
また、入力部12と、関数作成部13とは、それぞれが専用のハードウェアで実現されていてもよい。入力部12と、関数作成部13とは、それぞれが汎用または専用の回路(circuitry )により実現されていてもよい。ここで、汎用または専用の回路(circuitry )は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、 集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の情報処理システムの動作を説明する。図3は、本実施形態の情報処理システムの動作例を示すフローチャートである。入力部12は、特徴量生成関数の作成に必要な3つの要素を入力する(ステップS11)。そして、関数作成部13は、入力された3つの要素から特徴量生成関数を作成する(ステップS12)。なお、入力される3つの要素には、記憶部11に記憶されたターゲットテーブル(第一の表)または/およびソーステーブル(第二の表)の列が指定される。
ここで、関数作成部13が特徴量生成関数を作成する手順を具体的に説明する。図4は、特徴量生成関数の作成に用いる情報の例を示す説明図である。図4に示す例では、予測対象の変数(目的変数)が顧客の解約の有無を示す変数であり、ターゲットテーブル(T)が顧客を識別する顧客IDと解約の有無を示す変数とを含む表とする。また、ソーステーブル(S)は、顧客の通話記録(具体的には、通話時刻、通話方向、通話タイプおよび通話時間)を含む表とする。
filterで利用するFリストは、18の条件式の候補を含むとする。また、map で利用するMリストは、ターゲットテーブルとソーステーブルを顧客IDで対応付ける1つの条件を含むとする。また、reduceで利用するRリストは、通話時間または時刻に関する6つの集約関数を含むとする。
なお、Fリスト、MリストおよびRリストは、機械で自動的に作成されてもよく、人間によって手動で作成されてもよい。ここでは、図4に例示するFリスト、MリストおよびRリストが予め作成されているものとする。
図5は、本実施形態の関数作成部13が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部13は、Fリスト、MリストおよびRリストから、それぞれ1つずつ要素を選択し、各要素の組合せを生成する(ステップS22)。図4に示す例では、Fリストに18通りの条件式、Mリストに1通りの対応条件、および、Rリストに6通りの集約方法が含まれる。そのため、これらの各リストの要素から108通りの組合せが生成される。
次に、関数作成部13は、生成された組合せに基づいて特徴量生成関数を作成する(ステップS23)。具体的には、関数作成部13は、生成された組合せに含まれる条件や集約方法を、表データの操作や定義を行う問合せ言語の形式に変換する。関数作成部13は、例えば、問合せ言語としてSQLを用いてもよい。
このとき、関数作成部13は、SQL文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。具体的には、条件や集約方法を当て嵌めてSQL文を生成するためのテンプレートを予め用意しておき、関数作成部13は、生成された組合せに含まれる条件や集約方法を順次テンプレートに適用してSQL文を作成してもよい。この場合、特徴量生成関数は、SQL文として定義され、Fリスト、MリストおよびRリストからそれぞれ選択される3つの要素が、SQL文を生成するためのパラメータに対応する。
図6は、テンプレートにあてはめてSQL文を生成する処理の例を示す説明図である。図6に示す例では、テンプレートTempが予め用意される。関数作成部13は、テンプレートTempの下線で示す部分に、生成された組合せに含まれる条件および集約方法を適用する。その結果、組合せ数の特徴量生成関数が生成される。
例えば、Fリストから「通話方向=IN」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の列をカウント」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートTempに適用すると、図6に例示する問合せ文Q1が生成される。この問合せ文Q1によって作成される特徴量は、かかって来た通話または届いたメッセージの総数を表わす。
他にも、例えば、Fリストから「通話方向=OUT AND タイプ=call」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「時刻が最大」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートTempに適用すると、図6に例示する問合せ文Q2が生成される。この問合せ文Q2によって作成される特徴量は、音声通話をかけた時刻の最新値を表わす。
上記に例示する以外にも、様々な特徴量を生成することが可能である。例えば、Fリストから「タイプ=call AND 通話方向=OUT AND HOUR(時刻)<7」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の平均」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、7時前にかけられた音声通話の平均時間を表わす。
また、Fリストから「タイプ=call AND 通話方向=IN」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の分散」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、かかって来た通話における通話時間のばらつき度合いを表わす。
以上のように、本実施形態では、関数作成部13が、3つの要素の組合せを生成することで、ターゲットテーブル(第一の表)およびソーステーブル(第二の表)から特徴量を生成するための特徴量生成関数を生成する。すなわち、本実施形態では、ソーステーブルおよびターゲットテーブルから特徴量生成する関数を、filter、map 、reduceという3つの要素の組み合わせで定義する。この3つの要素の組み合わせで特徴量生成関数を定義すると、たくさんの種類の特徴量生成関数を単純な要素の組み合わせとして表現することができる。よって、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、図4に示す例の場合、18の条件式、1つの対応条件、および、6つの集約方法を定義するだけで、108種類の特徴量生成関数を容易に生成することが可能になる。また、一度作成したfilter、map 、およびreduceの定義は再利用できるため、特徴量生成関数を生成する工数自体も削減できるという効果も得られる。
実施形態2.
次に、本発明による情報処理システムの第2の実施形態を説明する。第1の実施形態では、予め第一の要素が示す条件式を全て用意しておく場合について説明した。例えば、図4では、18の条件式をFリストに用意しておく場合を例示した。本実施形態では、第一の要素が示す条件式を効率的に多数作成する方法を説明する。
次に、本発明による情報処理システムの第2の実施形態を説明する。第1の実施形態では、予め第一の要素が示す条件式を全て用意しておく場合について説明した。例えば、図4では、18の条件式をFリストに用意しておく場合を例示した。本実施形態では、第一の要素が示す条件式を効率的に多数作成する方法を説明する。
図7は、本発明による情報処理システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の情報処理システムは、記憶部11と、入力部12と、関数作成部13と、パラメータ生成部14とを備えている。すなわち、本実施形態の情報処理システムは、パラメータ生成部14をさらに備えている点において、第1の実施形態と異なる。
パラメータ生成部14は、第一の要素が示す抽出条件に含まれる条件式(以下、原子条件式と記す。)を組み合わせて、複数の条件式を生成する。組み合わせる条件式の数は、予め定められる。以下、ANDで繋ぐ原子条件式の最大数のことを「条件式の最大長」と記すこともある。なお、原子条件式は、単一の論理式で表されていてもよく、複数の論理式を演算子で結合させた論理式で表されていてもよい。
図8は、複数の条件式を生成する処理の例を示す説明図である。図8に示す例では、Fリストが6つの原子条件式を含むものとし、条件式の最大長は2であるとする。関数作成部13は、Fリストに含まれる原子条件式の中から「条件式の最大長」以下の個数の原子条件式を組み合わせて、複数の新たな条件式を生成する。図8では、Fリストから全部で18通りの条件式が生成されたことを示す。
本実施形態では、パラメータ生成部14が原子条件式を組み合わせることで新しい条件式を生成する。条件式の組み合わせは本質的には、原子条件式の数の長さまで可能であるが、すべてを連結したような長い条件式はユーザにとってその意味を理解しづらく、実用的でないことが多い。一方、本実施形態では、ユーザが特徴量の意味を理解できるような範囲(例えば、条件式の最大長=2)で条件式の最大長を設定することで、生成される特徴量の複雑さを抑えることが可能である。すなわち、条件式の最大長を指定することで、ユーザが理解しやすい条件式に絞って特徴量を生成できる。
なお、新たな条件式を生成する際、関数作成部13は、同じ属性に対する条件式のうち、矛盾する条件を除外するようにしてもよい。例えば、図8に例示する条件式のうち、通話方向がINとOUTの条件が両立することはない。この場合、関数作成部13は、そのような条件を含む組合せを除外すればよい。
なお、入力部12と、関数作成部13と、パラメータ生成部14とは、プログラム(関数作成プログラム)に従って動作するコンピュータのCPUによって実現される。また、入力部12と、関数作成部13と、パラメータ生成部14とは、それぞれが専用または汎用のハードウェアや回路で実現されていてもよい。
図9は、本実施形態の関数作成部13が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部13は、Fリストに含まれる条件式を組み合わせた新たな条件式を生成する(ステップS21)。以降、各要素に基づいて特徴量生成関数を作成する処理は、図5のステップS22からステップS23に示す処理と同様である。
以上のように、本実施形態によれば、パラメータ生成部14が、指定される最大長が示す数までの原子条件式を組み合わせて複数の条件式を生成する。そして、関数作成部13が、生成された各条件式を第一の要素として特徴量生成関数を作成する。よって、第1の実施形態の効果に加え、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。例えば、6つの条件式とその条件式の最大長(例えば、最大長=2)、1つの対応条件、および、6つの集約方法を定義するだけで、108種類の特徴量生成関数を容易に生成することが可能になる。
実施形態3.
次に、本発明による情報処理システムの第3の実施形態を説明する。第1の実施形態では、3つの要素(filter、map 、reduce)の組合せを生成することで、ターゲットテーブル(第一の表)およびソーステーブル(第二の表)から特徴量を生成するための特徴量生成関数を生成する方法を説明した。第3の実施形態では、第二の表(ソーステーブル)から行を抽出する処理(すなわち、filter)を行わずに特徴量生成関数を生成する方法を説明する。
次に、本発明による情報処理システムの第3の実施形態を説明する。第1の実施形態では、3つの要素(filter、map 、reduce)の組合せを生成することで、ターゲットテーブル(第一の表)およびソーステーブル(第二の表)から特徴量を生成するための特徴量生成関数を生成する方法を説明した。第3の実施形態では、第二の表(ソーステーブル)から行を抽出する処理(すなわち、filter)を行わずに特徴量生成関数を生成する方法を説明する。
第3の実施形態の構成は、第1の実施形態の構成と同様である。ただし、関数作成部13が特徴量生成関数を生成する方法が、第1の実施形態と異なる。関数作成部13は、第1の実施形態と同様、入力部12に入力された情報を用いて特徴量生成関数を生成する。ただし、本実施形態では、関数作成部13は、第一の実施形態で説明した第二の要素(すなわち、対応条件要素)と、第三の要素(すなわち、集約方法要素)の2つの要素(map 、reduce)の組合せを生成することで、複数の特徴量生成関数を作成する。
すなわち、本実施形態の関数作成部13は、第一の表(ターゲットテーブル)と第二の表(ソーステーブル)の行の対応条件を表わす対応条件要素(第1の実施形態の第二の要素に対応)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(第1の実施形態の第三の要素に対応)の組合せを生成することで、複数の特徴量生成関数を作成する。
第3の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、対応条件要素に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。
関数作成部13が各要素の組合せを生成する方法や、各要素の内容、特徴量生成関数の内容は、要素として第一の要素(すなわち、抽出条件要素)を含まない以外、第1の実施形態と同様である。
以上のように、本実施形態では、関数作成部13が、対応条件要素および集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する。そのため、第1の実施形態の効果と同様、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、特徴量の生成に第二の表データを全て使用する場合、第二の表データのサブセットを使用する必要がないため、特徴量生成関数に抽出条件要素を含まなくても、各表データから特徴量を生成することが可能である。
次に、本発明による情報処理システムの概要を説明する。図10は、本発明による情報処理システムの概要を示すブロック図である。本発明による情報処理システムは、目的変数を含む第一の表(例えば、ターゲットテーブル)およびその第一の表と粒度の異なる第二の表(例えば、ソーステーブル)を記憶する表記憶部81(例えば、記憶部11)と、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部82(例えば、関数作成部13)とを備えている。
関数作成部82は、第一の表と第二の表の行の対応条件を表わす対応条件要素(例えば、第二の要素)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(例えば、第三の要素)の組合せを生成することで、複数の特徴量生成関数を作成する。
そのような構成により、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。
また、関数作成部82は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素(例えば、第一の要素)、第一の表と第二の表の行の対応条件を表わす対応条件要素(例えば、第二の要素)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(例えば、第三の要素)の組合せを生成することで、複数の特徴量生成関数を作成してもよい。
また、情報処理システムは、抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部(例えば、パラメータ生成部14)を備えていてもよい。このとき、抽出条件生成部は、指定される最大長が示す数までの原子条件式を組み合わせた複数の条件式を生成し、関数作成部82は、生成された各条件式を抽出条件要素として特徴量生成関数を作成してもよい。
そのような構成により、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。
具体的には、関数作成部82は、抽出条件要素で指定される抽出条件に基づいて1つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を生成する。
そして、関数作成部82は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ1つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する。
例えば、抽出条件要素は、第二の表の列に対する条件式およびその条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される。
また、特徴量生成関数は、第一の表および第二の表からデータを抽出するSQL文で定義されてもよい。このとき、関数作成部82は、SQL文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。
図11は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の情報処理システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(関数作成プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2015年11月25日に出願された米国仮出願第62/259,896号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
11 記憶部
12 入力部
13 関数作成部
14 パラメータ生成部
12 入力部
13 関数作成部
14 パラメータ生成部
Claims (12)
- 目的変数を含む第一の表および当該第一の表と粒度の異なる第二の表を記憶する表記憶部と、
前記第一の表および前記第二の表から前記目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、
前記関数作成部は、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する
ことを特徴とする情報処理システム。 - 関数作成部は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する
請求項1記載の情報処理システム。 - 抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部を備え、
前記抽出条件生成部は、指定される最大長が示す数までの前記原子条件式を組み合わせた複数の条件式を生成し、
関数作成部は、生成された各条件式を抽出条件要素として特徴量生成関数を作成する
請求項2記載の情報処理システム。 - 関数作成部は、抽出条件要素で指定される抽出条件に基づいて1つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を作成する
請求項2または請求項3記載の情報処理システム。 - 関数作成部は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ1つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する
請求項2から請求項4のうちのいずれか1項に記載の情報処理システム。 - 抽出条件要素は、第二の表の列に対する条件式および当該条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される
請求項2から請求項5のうちのいずれか1項に記載の情報処理システム。 - 特徴量生成関数は、第一の表および第二の表からデータを抽出するSQL文で定義される
請求項1から請求項6のうちのいずれか1項に記載の情報処理システム。 - 関数作成部は、SQL文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成する
請求項7記載の情報処理システム。 - 目的変数を含む第一の表および当該第一の表と粒度の異なる第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成し、
前記特徴量生成関数の作成において、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する
ことを特徴とする関数作成方法。 - 第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する
請求項9記載の関数作成方法。 - コンピュータに、
目的変数を含む第一の表および当該第一の表と粒度の異なる第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、
前記関数作成処理で、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させる
ための関数作成プログラム。 - コンピュータに、
関数作成処理で、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させる
請求項11記載の関数作成プログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP16868423.1A EP3382572A4 (en) | 2015-11-25 | 2016-11-14 | INFORMATION PROCESSING SYSTEM, FUNCTION GENERATION PROCESS AND FUNCTION GENERATION PROGRAM |
| CN201680069167.0A CN108369584B (zh) | 2015-11-25 | 2016-11-14 | 信息处理系统、描述符创建方法和描述符创建程序 |
| JP2017552365A JP7098327B2 (ja) | 2015-11-25 | 2016-11-14 | 情報処理システム、関数作成方法および関数作成プログラム |
| US15/774,645 US10885011B2 (en) | 2015-11-25 | 2016-11-14 | Information processing system, descriptor creation method, and descriptor creation program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201562259896P | 2015-11-25 | 2015-11-25 | |
| US62/259896 | 2015-11-25 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2017090475A1 true WO2017090475A1 (ja) | 2017-06-01 |
Family
ID=58763182
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2016/083680 Ceased WO2017090475A1 (ja) | 2015-11-25 | 2016-11-14 | 情報処理システム、関数作成方法および関数作成プログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10885011B2 (ja) |
| EP (1) | EP3382572A4 (ja) |
| JP (1) | JP7098327B2 (ja) |
| CN (1) | CN108369584B (ja) |
| WO (1) | WO2017090475A1 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019069507A1 (ja) | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
| WO2019069505A1 (ja) * | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
| WO2019069506A1 (ja) * | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
| JP2020135066A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社キーエンス | データ分析装置 |
| US10885011B2 (en) | 2015-11-25 | 2021-01-05 | Dotdata, Inc. | Information processing system, descriptor creation method, and descriptor creation program |
| US11727203B2 (en) | 2017-03-30 | 2023-08-15 | Dotdata, Inc. | Information processing system, feature description method and feature description program |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002007435A (ja) * | 2000-06-20 | 2002-01-11 | Nec Corp | 対話的分析データベースシステム及び対話的分析プログラムを記録した記録媒体 |
| JP2011242851A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム |
| WO2015045318A1 (ja) * | 2013-09-27 | 2015-04-02 | 日本電気株式会社 | 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体 |
| JP2015075970A (ja) * | 2013-10-09 | 2015-04-20 | 前田建設工業株式会社 | 表形式データ処理プログラム、方法、及び装置 |
Family Cites Families (40)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3517345B2 (ja) | 1998-02-03 | 2004-04-12 | 日本電信電話株式会社 | 住所情報による異種データの結合処理方法および装置 |
| US6721754B1 (en) | 1999-04-28 | 2004-04-13 | Arena Pharmaceuticals, Inc. | System and method for database similarity join |
| JP2002109150A (ja) | 2000-09-28 | 2002-04-12 | Fuji Electric Co Ltd | 時系列データの適応的予測方法 |
| US6820089B2 (en) | 2001-04-05 | 2004-11-16 | International Business Machines Corporation | Method and system for simplifying the use of data mining in domain-specific analytic applications by packaging predefined data mining models |
| US6973459B1 (en) * | 2002-05-10 | 2005-12-06 | Oracle International Corporation | Adaptive Bayes Network data mining modeling |
| US20050102303A1 (en) | 2003-11-12 | 2005-05-12 | International Business Machines Corporation | Computer-implemented method, system and program product for mapping a user data schema to a mining model schema |
| US7225200B2 (en) | 2004-04-14 | 2007-05-29 | Microsoft Corporation | Automatic data perspective generation for a target variable |
| US20060218132A1 (en) * | 2005-03-25 | 2006-09-28 | Oracle International Corporation | Predictive data mining SQL functions (operators) |
| US20070203893A1 (en) * | 2006-02-27 | 2007-08-30 | Business Objects, S.A. | Apparatus and method for federated querying of unstructured data |
| DE102006017824B4 (de) * | 2006-04-13 | 2018-10-11 | Dspace Digital Signal Processing And Control Engineering Gmbh | Methode zum Konstruieren einer Diagnosefunktion |
| JP2008102736A (ja) | 2006-10-19 | 2008-05-01 | Toshiba Corp | 検索装置および検索方法 |
| US8521689B2 (en) * | 2007-04-20 | 2013-08-27 | International Business Machines Corporation | Generation of a set of pre-filters from a set of event subscriptions to more efficiently select events of interest |
| WO2011086956A1 (ja) * | 2010-01-18 | 2011-07-21 | 日本電気株式会社 | 情報端末機器、情報端末機器による操作方法及びプログラム |
| JP5527027B2 (ja) | 2010-06-04 | 2014-06-18 | 富士通株式会社 | スキーマ定義生成装置、スキーマ定義生成方法およびスキーマ定義生成プログラム |
| CA2712028C (en) | 2010-08-25 | 2011-12-20 | Ibm Canada Limited - Ibm Canada Limitee | Geospatial database integration using business models |
| JP5457316B2 (ja) | 2010-09-13 | 2014-04-02 | 株式会社富士通マーケティング | レポート作成装置およびそのプログラム |
| US8731881B2 (en) | 2011-03-18 | 2014-05-20 | Nec Corporation | Multivariate data mixture model estimation device, mixture model estimation method, and mixture model estimation program |
| JP5794160B2 (ja) | 2012-01-26 | 2015-10-14 | 富士通株式会社 | 説明変数の決定のための情報処理装置、情報処理方法及びプログラム |
| JP5520330B2 (ja) | 2012-02-10 | 2014-06-11 | 日本電信電話株式会社 | 情報取引システム |
| JP5752621B2 (ja) | 2012-03-02 | 2015-07-22 | 株式会社日立ソリューションズ東日本 | 需要予測装置、需要予測プログラムおよび需要予測方法 |
| US9075616B2 (en) * | 2012-03-19 | 2015-07-07 | Enterpriseweb Llc | Declarative software application meta-model and system for self-modification |
| US9128991B2 (en) * | 2012-04-03 | 2015-09-08 | Sas Institute, Inc. | Techniques to perform in-database computational programming |
| US9201936B2 (en) * | 2012-11-13 | 2015-12-01 | International Business Machines Corporation | Rapid provisioning of information for business analytics |
| US9858600B2 (en) * | 2013-03-15 | 2018-01-02 | Turn Inc. | Universal tag for page analytics and campaign creation |
| US9146984B1 (en) * | 2013-03-15 | 2015-09-29 | Google Inc. | Enhancing queries for data tables with nested fields |
| WO2014208205A1 (ja) | 2013-06-26 | 2014-12-31 | 前田建設工業株式会社 | 表形式データ処理プログラム、方法及び装置 |
| US10452632B1 (en) * | 2013-06-29 | 2019-10-22 | Teradata Us, Inc. | Multi-input SQL-MR |
| CN104699717B (zh) * | 2013-12-10 | 2019-01-18 | 中国银联股份有限公司 | 数据挖掘方法 |
| US10353923B2 (en) * | 2014-04-24 | 2019-07-16 | Ebay Inc. | Hadoop OLAP engine |
| JP6500896B2 (ja) | 2014-06-03 | 2019-04-17 | 日本電気株式会社 | 属性列挙システム、属性列挙方法および属性列挙プログラム |
| US9672474B2 (en) * | 2014-06-30 | 2017-06-06 | Amazon Technologies, Inc. | Concurrent binning of machine learning data |
| EP3176744A4 (en) | 2014-07-31 | 2018-01-17 | Nec Corporation | Behavioral feature prediction system, behavioral feature prediction device, method and program |
| US9130832B1 (en) * | 2014-10-09 | 2015-09-08 | Splunk, Inc. | Creating entity definition from a file |
| CN104408149B (zh) * | 2014-12-04 | 2017-12-12 | 威海北洋电气集团股份有限公司 | 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统 |
| CN104881424B (zh) * | 2015-03-13 | 2018-11-23 | 华中电网有限公司 | 一种基于正则表达式的电力大数据采集、存储及分析方法 |
| US10452664B2 (en) * | 2015-05-21 | 2019-10-22 | Oracle International Corporation | Declarative MapReduce using regular expressions |
| US10885011B2 (en) | 2015-11-25 | 2021-01-05 | Dotdata, Inc. | Information processing system, descriptor creation method, and descriptor creation program |
| US20200057948A1 (en) | 2016-10-31 | 2020-02-20 | Nec Corporation | Automatic prediction system, automatic prediction method and automatic prediction program |
| EP3696686A4 (en) | 2017-10-05 | 2021-07-07 | dotData, Inc. | CHARACTERISTIC VALUE GENERATION DEVICE, CHARACTERISTIC VALUE GENERATION PROCESS AND CHARACTERISTIC VALUE GENERATION PROGRAM |
| WO2019069505A1 (ja) | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
-
2016
- 2016-11-14 US US15/774,645 patent/US10885011B2/en active Active
- 2016-11-14 JP JP2017552365A patent/JP7098327B2/ja active Active
- 2016-11-14 WO PCT/JP2016/083680 patent/WO2017090475A1/ja not_active Ceased
- 2016-11-14 CN CN201680069167.0A patent/CN108369584B/zh active Active
- 2016-11-14 EP EP16868423.1A patent/EP3382572A4/en not_active Withdrawn
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002007435A (ja) * | 2000-06-20 | 2002-01-11 | Nec Corp | 対話的分析データベースシステム及び対話的分析プログラムを記録した記録媒体 |
| JP2011242851A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム |
| WO2015045318A1 (ja) * | 2013-09-27 | 2015-04-02 | 日本電気株式会社 | 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体 |
| JP2015075970A (ja) * | 2013-10-09 | 2015-04-20 | 前田建設工業株式会社 | 表形式データ処理プログラム、方法、及び装置 |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP3382572A4 * |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10885011B2 (en) | 2015-11-25 | 2021-01-05 | Dotdata, Inc. | Information processing system, descriptor creation method, and descriptor creation program |
| US11727203B2 (en) | 2017-03-30 | 2023-08-15 | Dotdata, Inc. | Information processing system, feature description method and feature description program |
| WO2019069507A1 (ja) | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
| WO2019069505A1 (ja) * | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
| WO2019069506A1 (ja) * | 2017-10-05 | 2019-04-11 | 日本電気株式会社 | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
| JPWO2019069505A1 (ja) * | 2017-10-05 | 2020-11-05 | ドットデータ インコーポレイテッド | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
| JPWO2019069507A1 (ja) * | 2017-10-05 | 2020-11-05 | ドットデータ インコーポレイテッド | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
| EP3696686A4 (en) * | 2017-10-05 | 2021-07-07 | dotData, Inc. | CHARACTERISTIC VALUE GENERATION DEVICE, CHARACTERISTIC VALUE GENERATION PROCESS AND CHARACTERISTIC VALUE GENERATION PROGRAM |
| US11514062B2 (en) | 2017-10-05 | 2022-11-29 | Dotdata, Inc. | Feature value generation device, feature value generation method, and feature value generation program |
| JP2020135066A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社キーエンス | データ分析装置 |
| JP7257168B2 (ja) | 2019-02-13 | 2023-04-13 | 株式会社キーエンス | データ分析装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN108369584B (zh) | 2022-07-08 |
| EP3382572A4 (en) | 2019-07-31 |
| JP7098327B2 (ja) | 2022-07-11 |
| JPWO2017090475A1 (ja) | 2018-09-20 |
| US20180373764A1 (en) | 2018-12-27 |
| CN108369584A (zh) | 2018-08-03 |
| EP3382572A1 (en) | 2018-10-03 |
| US10885011B2 (en) | 2021-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11727203B2 (en) | Information processing system, feature description method and feature description program | |
| WO2017090475A1 (ja) | 情報処理システム、関数作成方法および関数作成プログラム | |
| MY195917A (en) | Blockchain-Based Data Processing Method And Device | |
| CN106886535A (zh) | 一种适配多种数据源的数据抽取方法和装置 | |
| US11037096B2 (en) | Delivery prediction with degree of delivery reliability | |
| US9659072B2 (en) | Creation of change-based data integration jobs | |
| CN107784026A (zh) | 一种etl数据处理方法及装置 | |
| CN113010489A (zh) | 一种数据迁移方法及系统 | |
| JP5725014B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
| US20200387505A1 (en) | Information processing system, feature description method and feature description program | |
| JP2016009344A (ja) | テストケース生成プログラム、テストケース生成方法、及びテストケース生成装置 | |
| CN107871055A (zh) | 一种数据分析方法和装置 | |
| CN115186738A (zh) | 模型训练方法、装置和存储介质 | |
| CN113268371A (zh) | 一种时序数据的异常检测方法、装置、电子设备和介质 | |
| CN114880242A (zh) | 测试用例的提取方法、装置、设备和介质 | |
| JP6305944B2 (ja) | 仕様抽出装置、仕様抽出方法およびプログラム | |
| JP6239438B2 (ja) | 仕様抽出装置、仕様抽出方法およびプログラム | |
| CN114416775A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
| JP2017199253A (ja) | 実行時間推定装置、実行時間推定方法、及びプログラム | |
| KR101638048B1 (ko) | 맵리듀스를 이용한 sql 질의처리방법 | |
| CN109783162B (zh) | 方法函数管理方法、装置、计算机设备及存储介质 | |
| CN119940505A (zh) | 一种机械知识图谱构建方法、装置、设备及存储介质 | |
| CN117002583A (zh) | 列车虚拟编组关键技术测试需求提取方法以及装置 | |
| CN121233868A (zh) | 一种页面类型识别方法、装置、电子设备和存储介质 | |
| CN117633088A (zh) | 文件数据导入方法、装置、设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16868423 Country of ref document: EP Kind code of ref document: A1 |
|
| DPE2 | Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101) | ||
| ENP | Entry into the national phase |
Ref document number: 2017552365 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2016868423 Country of ref document: EP |