WO2019015641A1 - 模型的训练方法、数据相似度的确定方法、装置及设备 - Google Patents

模型的训练方法、数据相似度的确定方法、装置及设备 Download PDF

Info

Publication number
WO2019015641A1
WO2019015641A1 PCT/CN2018/096252 CN2018096252W WO2019015641A1 WO 2019015641 A1 WO2019015641 A1 WO 2019015641A1 CN 2018096252 W CN2018096252 W CN 2018096252W WO 2019015641 A1 WO2019015641 A1 WO 2019015641A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
user data
similarity
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2018/096252
Other languages
English (en)
French (fr)
Inventor
江南
赵宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to SG11201907257SA priority Critical patent/SG11201907257SA/en
Priority to JP2019543107A priority patent/JP6883661B2/ja
Priority to PH1/2019/501851A priority patent/PH12019501851B1/en
Priority to MYPI2019004569A priority patent/MY201891A/en
Priority to KR1020197023923A priority patent/KR102349908B1/ko
Priority to EP18836065.5A priority patent/EP3611657B1/en
Publication of WO2019015641A1 publication Critical patent/WO2019015641A1/zh
Priority to US16/577,100 priority patent/US20200012969A1/en
Anticipated expiration legal-status Critical
Priority to US16/777,659 priority patent/US11288599B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present application relates to the field of computer technology, and in particular, to a training method for a model, a method, device, and device for determining data similarity.
  • twins As a new type of identity verification method, face recognition has created new risks while providing convenience to users. For multiple users with very similar looks (such as twins), it is difficult to effectively distinguish different users through face recognition, which is very likely to cause risk of account misregistration due to inability to correctly identify accounts and misappropriation of account funds. Twins, especially identical twins, are very similar to the known looks, and because they are closely related to one another, it is very easy to produce the above risk behavior. How to determine the user data of twins from a large amount of data has become an important issue to be solved.
  • the supervisory-based machine learning method constructs a recognition model using pre-selected sample data.
  • the investigator conducts a social survey through questionnaires, prize-winning questions or manual observations, collects user data, and manually observes or The investigator asks about the relationship between the users obtained by the other methods or the twin relationship.
  • the identification model is constructed using the corresponding user data as sample data by manually labeling associations or twin relationships.
  • the above-mentioned identification model constructed by the supervised machine learning method requires manual labeling of the sample data, and the manual labeling process consumes a large amount of human resources, and also consumes a large amount of time for labeling, thereby making the model training inefficient. And the resource consumption is large.
  • the purpose of the embodiments of the present application is to provide a training method for a model, a method, a device, and a device for determining data similarity, so as to achieve rapid completion of model training, improve model training efficiency, and reduce resource consumption.
  • a training method for a model provided by an embodiment of the present application includes:
  • the classification model is trained based on the sample data to obtain a similarity classification model.
  • the acquiring the similarity of the user corresponding to each user data pair includes:
  • the first user data pair is any user data pair of the plurality of user data pairs
  • the biometric features a facial image feature
  • determining the similarity of the user corresponding to the first user data pair according to the biometric characteristics of the user corresponding to the first user data including:
  • the biometric features a voice feature
  • determining the similarity of the user corresponding to the first user data pair according to the biometric characteristics of the user corresponding to the first user data including:
  • the determining the sample data for training the classification model according to the corresponding user similarity and the multiple user data pairs of each user data pair including:
  • the determining, according to the associated user feature between the two sets of user data in each user data pair and the corresponding user similarity of each user data pair determining a sample for training the classification model Data, including:
  • the positive sample feature and the negative sample feature are used as sample data for training the classification model.
  • the number of features included in the positive sample feature and the negative sample feature is the same.
  • the method further includes:
  • the user data to be tested is determined to be a twin.
  • a training device for a model provided by the embodiment of the present application includes:
  • a sample data determining module configured to determine sample data for training a preset classification model according to the corresponding user similarity and the plurality of user data pairs of each user data pair;
  • the model training module is configured to train the classification model based on the sample data to obtain a similarity classification model.
  • the similarity obtaining module includes:
  • a biometric acquisition unit configured to acquire a biometric feature of the user corresponding to the first user data pair, wherein the first user data pair is any user data pair of the plurality of user data pairs;
  • the similarity obtaining unit is configured to determine, according to the first user data, a similarity of the user corresponding to the first user data pair.
  • the biometric features a facial image feature
  • the biometric acquiring unit is configured to acquire a facial image of the user corresponding to the first user data pair, and perform feature extraction on the facial image to obtain a facial image feature;
  • the similarity obtaining unit is configured to determine a similarity of the user corresponding to the first user data pair according to the facial image feature of the corresponding user according to the first user data.
  • the biometric features a voice feature
  • the biometric acquiring unit is configured to acquire voice data of a user corresponding to the first user data pair, and perform feature extraction on the voice data to obtain a voice feature.
  • the similarity obtaining unit is configured to determine a similarity of the user corresponding to the first user data pair according to the voice feature of the corresponding user according to the first user data.
  • the sample data determining module includes:
  • a feature extraction unit configured to perform feature extraction on each of the plurality of user data pairs, to obtain an associated user feature between two sets of user data in each user data pair;
  • a sample data determining unit configured to determine, according to an associated user feature between the two sets of user data in each user data pair and a corresponding user similarity of each user data pair, to determine a training classification model sample.
  • the sample data determining unit is configured to select a positive sample feature from the corresponding user features of the plurality of user data pairs according to the corresponding user similarity and the predetermined similarity threshold for each user data pair. And negative sample features; the positive sample features and negative sample features are used as sample data for training the classification model.
  • the user feature includes a household registration dimension feature, a name dimension feature, a social feature, and a hobby feature; the household registration dimension feature includes a feature of user identity information, and the name dimension feature includes a feature of the user name information and a user last name.
  • a feature of the degree of scarcity, the social features including characteristics of the user's social relationship information.
  • the number of features included in the positive sample feature and the negative sample feature is the same.
  • the similarity classification model is a two-classifier model.
  • An embodiment of the present application further provides a device for determining data similarity, the device comprising:
  • the data acquisition module to be tested is used to obtain a pair of user data to be tested
  • a feature extraction module configured to perform feature extraction on each group of user data to be tested in the user data pair to be tested, to obtain a user feature to be tested;
  • a similarity determining module configured to determine, according to the user feature to be tested and the pre-trained similarity classification model, a similarity between users corresponding to two groups of user data to be tested in the pair of user data to be tested.
  • the device further includes:
  • a similarity classification module configured to determine, if the similarity between the users corresponding to the two groups of user data to be tested in the pair of user data to be tested is greater than a predetermined similarity classification threshold, determine the corresponding user data pair to be tested
  • the users to be tested are twins.
  • a training device for a model provided by the embodiment of the present application includes:
  • a memory arranged to store computer executable instructions that, when executed, cause the processor to perform the following operations:
  • a memory arranged to store computer executable instructions that, when executed, cause the processor to perform the following operations:
  • the association relationship between the users corresponding to the user data is obtained, and the sample data for training the preset classification model is obtained, and the sample data can be obtained without manual labeling, which can realize the rapid completion of the model training and improve the training efficiency of the model. Reduce resource consumption.
  • 1 is an embodiment of a training method for a model of the present application
  • FIG. 3 is a schematic diagram of an interface of a detection application according to the present application.
  • FIG. 5 is a schematic diagram of processing of a process for determining data similarity according to the present application.
  • FIG. 6 is an embodiment of a training device for a model of the present application
  • FIG. 7 is a schematic diagram of an apparatus for determining data similarity according to the present application.
  • FIG. 9 is a schematic diagram of an apparatus for determining data similarity according to the present application.
  • the embodiment of the present application provides a training method for a model, a method, device, and device for determining data similarity.
  • the embodiment of the present application provides a training method for a model.
  • the execution body of the method may be a terminal device or a server, where the terminal device may be a personal computer, etc., and the server may be an independent server.
  • a server cluster consisting of multiple servers.
  • the execution body of the method is described in detail by taking a server as an example. The method may specifically include the following steps:
  • step S102 a plurality of user data pairs are acquired, wherein the data fields of the two sets of user data in each user data pair have the same portion.
  • Each user data pair may include user data of a plurality of different users.
  • the plurality of user data pairs include a user data pair A and a user data pair B, wherein the user data pair A includes the user data 1 and the user.
  • Data 2 user data pair B includes user data 3 and user data 4, and the like.
  • the user data may be data related to a certain user, for example, the user's name, age, height, address, ID card number, social security card (ie, social security card) number and other identity information, and may also include the user's interests, purchases of goods. , tourism and other information.
  • the data field may be a field or character capable of characterizing a user corresponding to two different sets of user data in the user data pair, and a relationship between the user, for example, a predetermined number of digits in the last name and the ID number (eg, The first 14 digits of the ID number), the social security card number or other ID number that can determine the identity or information of the user.
  • a predetermined number of digits in the last name and the ID number eg, The first 14 digits of the ID number
  • the social security card number or other ID number that can determine the identity or information of the user.
  • the user data can be obtained in various ways, for example, the user data can be purchased from different users by means of purchase, or the information filled in when the user registers a website or an application, such as when the Alipay is registered.
  • the information and the like, or the user data that the user actively uploads, and the like, in which the user data is obtained in a specific manner the embodiment of the present application does not limit this.
  • the data fields included in the obtained user data may be compared, and the user data whose data fields have the same part is found, and the user data having the same part in the data field may be grouped into one group.
  • a user data pair is obtained. In the above manner, multiple sets of user data pairs can be obtained, and each user data pair contains the same part of the data field.
  • the data field can be set to the ID number and the last name, and the user's ID number and name can be found in the user data, considering A digit or multiple digits of the ID number can be used to characterize the relationship between two users, for example, the first 14 digits of the ID number.
  • the first 14 digits of the ID number are used as the basis for determining whether the data field has the same part. Specifically, the first 14 digits and the last name of each user's ID number can be obtained and compared. The first 14 digits and last name of the ID number of the different user.
  • Two sets of user data having the same last name and the same first 14 digits of the identity card number can be divided into the same user data pair.
  • the user data pair may be stored in the form of a user pair, for example, ⁇ user 1 ID number, user 2 ID number, user 1 name, user 2 name, user 1 other data, user 2 other data ⁇ , and the like.
  • the data fields of the two sets of user data have the same part, which can be understood as a part of the content in the data field, such as the first 14 digits of the 18-digit ID number in the above content, and can also be understood as a data field.
  • the entire contents are the same.
  • step S104 the user similarity corresponding to each user data pair is obtained, and the user similarity is the similarity between the users corresponding to the two sets of user data in each user data pair.
  • the similarity threshold may be preset, such as 80% or 70%, and then, the user similarity of each user data pair may be compared with the similarity threshold respectively, and the user similarity may be greater than the similarity.
  • the user data pairs of the threshold are divided into a group, and the user data pairs whose user similarity is less than the similarity threshold may be divided into a group, and a predetermined number (such as 40,000 or 50,000, etc.) of user data may be selected from each of the two groups. Right, and the selected user data pair is used as sample data for training the preset classification model.
  • step S108 the classification model is trained based on the sample data to obtain a similarity classification model.
  • the similarity classification model can be obtained by the above method, and the use of the similarity classification model can be referred to the following related content:
  • the embodiment of the present application provides a method for determining a similarity.
  • the execution entity of the method may be a terminal device or a server, where the terminal device may be a personal computer, etc., and the server may be an independent server. It can be a server cluster consisting of multiple servers.
  • the method may specifically include the following steps:
  • step S202 a pair of user data to be tested is acquired.
  • the user data pair to be tested may be a user data pair composed of user data of two users to be detected.
  • the detection application may include a button for uploading data.
  • the button for uploading data may be clicked, and the detection application may pop up data.
  • the data uploader can input the data of the user data pair to be tested in the prompt box.
  • the confirmation button in the prompt box can be clicked, and the detection application can obtain the user to be tested input by the data uploader.
  • the detection application may be installed on the terminal device or may be installed on the server.
  • step S204 feature extraction is performed on each group of user data to be tested in the user data pair to be tested, to obtain a user feature to be tested.
  • step S206 the similarity between the users corresponding to the two groups of user data to be tested in the pair of user data to be tested is determined according to the user characteristics to be tested and the pre-trained similarity classification model.
  • the direct output result of the similarity classification model can be expressed in a percentage manner, for example, 90% or 40%, etc., in order to make the output result more intuitive to the user, the similarity can be similar according to the actual situation.
  • the direct output of the degree classification model is further set, for example, to distinguish between identical twins and non-identical twins, or to distinguish between identical twins and fraternal twins.
  • the classification threshold can be set if the result is directly output. If the threshold is greater than the classification threshold, it is determined that the users corresponding to the two groups of user data to be tested in the pair of user data to be tested are identical twins, and otherwise are non-identical twins or fraternal twins. In this way, through the pre-trained similarity classification model, the similarity between the users corresponding to the two groups of user data to be tested in the user data pair to be tested can be quickly determined, and the efficiency of determining the similarity between users is improved.
  • the embodiment of the present application provides a method for determining data similarity.
  • the execution body of the method may be a server or the method may be implemented by a terminal device and a server, where the terminal device may be a personal computer or the like.
  • the server can be a standalone server or a server cluster consisting of multiple servers.
  • the execution body of the method is described in detail by using a server as an example.
  • the terminal device and the server are jointly implemented, refer to the following related content, and details are not described herein again.
  • the method specifically includes the following contents:
  • one user data pair (ie, the first user data pair) may be arbitrarily selected from the plurality of user data pairs.
  • the user may upload one or more biometrics including the user to the server, and the server may store the biometric with the identifier of the user, where the identifier of the user may be the user.
  • the user name or the user's name, etc., which are filled in at the time of registration, and the above-mentioned information stored in the server can be as shown in Table 1.
  • the similarity calculation may be performed on the obtained biometrics respectively, thereby determining the degree of similarity between the corresponding two users (ie, the user The degree of similarity), wherein the similarity calculation may include multiple implementations, such as the implementation of the Euclidean distance between the feature vectors, etc., which is not limited by the embodiment of the present application.
  • the foregoing processing procedure may be performed on other user data pairs of the plurality of user data pairs except the first user data, thereby obtaining the user similarity corresponding to each user data pair of the plurality of user data pairs.
  • the obtained facial image may be separately extracted to obtain corresponding facial image features, and based on the extracted features of each facial image.
  • the corresponding feature vector is obtained, and then the Euclidean distance between the feature vectors of any two of the face images can be calculated, and the degree of similarity between the corresponding two users can be determined by the magnitude of the Euclidean distance between the feature vectors ( That is, the user similarity), wherein the larger the value of the Euclidean distance between the feature vectors, the lower the user similarity; the smaller the value of the Euclidean distance between the feature vectors, the higher the user similarity.
  • one user data pair may be arbitrarily selected from the plurality of user data pairs.
  • a user logs in to the server through his terminal device, he or she can upload to the server a predetermined duration (such as 3 seconds or 5 seconds, etc.) and/or predetermined voice content (such as one or more words of voice or a sentence of voice, etc.).
  • the server can store the voice data corresponding to the identifier of the user.
  • the server After the server selects the first user data pair, the identifier of the user included in the first user data pair may be separately extracted, and then the corresponding voice data may be obtained through the identifier of the user, thereby obtaining the corresponding second user data pair. User's voice data.
  • Step 2 Perform feature extraction on the voice data to obtain a voice feature, and determine a similarity of the user corresponding to the first user data pair according to the voice feature of the corresponding user according to the first user data.
  • step S408 feature extraction is performed on each of the plurality of user data pairs to obtain an associated user feature between the two sets of user data in each user data pair.
  • the name dimension feature includes features of the user's name information and characteristics of the user's last name's scarcity.
  • name dimension feature based on NLP (Nature Language Processing) theory and social experience, usually, if two people's names look more like Zhang Jinlong and Zhang Jinhu, or have some semantic relationship, such as Zhang Meimei and Zhang Lili , think that there should be some connection between the two.
  • a dictionary may be introduced to evaluate the relationship between two users in the name, and the user's registered personal information and demographic data are used to count the scarcity of the surname as a feature. In this way, the association between different users is determined by the user data whether the corresponding surnames of different users are consistent, the length of the name is consistent, the degree of synonym of the name, the combination of the name is the word and the degree of scarcity of the surname.
  • the user features may also include multi-dimensional features such as e-commerce, travel, entertainment, etc.
  • multi-dimensional features such as e-commerce, travel, entertainment, etc.
  • e-commerce, tourism Relevant data of multi-dimensional features such as entertainment and entertainment can be obtained from a predetermined database or a website.
  • the user data is used to determine the number of intersections of the corresponding shopping records between different users, whether there is a simultaneous travel, whether the hotel has been stayed at the same time, the similarity of the shopping tendency, and whether the delivery address is the same. The association.
  • a threshold may be preset, and a user data pair whose user similarity is greater than the threshold may be selected from a plurality of user data pairs, and the user associated with the two sets of user data in the selected user data pair may be associated.
  • the feature is used as the user feature of the training classification model, and the user similarity of the selected user feature and the selected user data pair may be determined as sample data for training the classification model.
  • Step 1 Select a positive sample feature and a negative sample feature from the corresponding user features of the plurality of user data pairs according to the corresponding user similarity and the predetermined similarity threshold for each user data pair.
  • the user similarity is calculated by the facial images of the two users. Therefore, it is determined whether the two users are identical twins.
  • the similarity threshold may be preset, such as 80% or 70%, etc., and the user data pairs whose user similarity is greater than the similarity threshold may be determined as user data of identical twins. Yes, user data pairs whose user similarity is less than the similarity threshold can be determined as user data pairs of non-identical twins.
  • the user data of the identical twins can be used as the positive sample feature of the similarity classification model.
  • User data pairs for non-identical twins are used as negative sample features of the similarity classification model.
  • the negative sample feature does not mean that the features contained therein are all user characteristics of fraternal twins. In practical applications, the user characteristics of fraternal twins may also have a very small proportion in the negative sample features, and may also The negative sample feature contains a small number of positive sample features, and this does not affect the training of the classification model, but will help to improve the robustness of the similarity classification model.
  • step two the positive sample feature and the negative sample feature are used as sample data for training the classification model.
  • the user characteristics and the corresponding user similarity data may be combined, and the combined data may be used as sample data for training the classification model.
  • the positive sample feature can be separately input into the classification model for calculation, and the obtained calculation result can be compared with the user similarity corresponding to the positive sample feature. If the two match, the next positive sample feature or Negative sample features are input into the classification model for calculation. The obtained calculation result continues to match the user similarity matching corresponding to the positive sample feature. If the two do not match, the value of the relevant parameter in the classification model can be adjusted, and then the positive sample feature is input into the classification model for calculation, and the obtained calculation result is matched with the user similarity corresponding to the positive sample feature. , that is, repeat the above process until the two match. In the above manner, all the positive sample features and the negative sample features can be input into the classification model for calculation, thereby achieving the purpose of training the classification model, and the classification model obtained by the final training can be used as the similarity classification model.
  • the similarity classification model can be used in the face recognition scenario.
  • the similarity classification model can be used for individual risk control.
  • step S414 a pair of user data to be tested is acquired.
  • the content of the step S414 is the same as the content of the step S202 in the first embodiment.
  • step S416 feature extraction is performed on each group of user data to be tested in the user data pair to be tested, to obtain a user feature to be tested.
  • step S4108 according to the user characteristics to be tested and the pre-trained similarity classification model, the similarity between the users corresponding to the two groups of user data to be tested in the pair of user data to be tested is determined.
  • the similarity classification threshold for example, 95% is used as a similarity classification threshold or 97% as a similarity classification threshold or the like.
  • the trained similarity classification model is used to predict the user characteristics and output the score.
  • the scoring process is to calculate the probability that the corresponding user data is a pair of users corresponding to the user data, for example, the probability is 80%, the score is 80 points, the probability is 90%, the score is 90 points, and the higher the score, the user The higher the probability that the data pair is a twin for the corresponding user.
  • An embodiment of the present application provides a method for determining data similarity by using multiple user data pairs obtained, and the data fields of two sets of user data in each user data pair have the same part, and each user data acquired. Determining sample data for training the preset classification model for the corresponding user similarity, and then training the classification model based on the sample data to obtain a similarity classification model, so that the user to be tested can be determined by the similarity classification model. The similarity between the users corresponding to the two groups of user data to be tested in the data pair, so that multiple user data pairs are obtained only through the same data field, and two groups of users in each user data pair are determined by user similarity. The association relationship between the users corresponding to the data, the sample data for training the preset classification model is obtained, and the sample data can be obtained without manual labeling, which can realize the rapid completion of the model training, improve the model training efficiency and reduce the resources. Consumption.
  • the training device of the model may be disposed in a server, and the device includes: a data acquisition module 601, a similarity acquisition module 602, a sample data determination module 603, and a model training module 604, wherein:
  • the data obtaining module 601 is configured to acquire a plurality of user data pairs, wherein the data fields of the two sets of user data in each user data pair have the same part;
  • the model training module 604 is configured to train the classification model based on the sample data to obtain a similarity classification model.
  • the similarity obtaining module 602 includes:
  • a biometric acquisition unit configured to acquire a biometric feature of the user corresponding to the first user data pair, wherein the first user data pair is any user data pair of the plurality of user data pairs;
  • the similarity obtaining unit is configured to determine, according to the first user data, a similarity of the user corresponding to the first user data pair.
  • the biometric feature includes a facial image feature.
  • the biometric acquiring unit is configured to acquire a facial image of the user corresponding to the first user data pair, and perform feature extraction on the facial image to obtain a facial image feature;
  • the similarity obtaining unit is configured to determine a similarity of the user corresponding to the first user data pair according to the facial image feature of the corresponding user according to the first user data.
  • the biometric feature includes a voice feature.
  • the similarity obtaining unit is configured to determine a similarity of the user corresponding to the first user data pair according to the voice feature of the corresponding user according to the first user data.
  • the sample data determining module 603 includes:
  • a feature extraction unit configured to perform feature extraction on each of the plurality of user data pairs, to obtain an associated user feature between two sets of user data in each user data pair;
  • a sample data determining unit configured to determine, according to an associated user feature between the two sets of user data in each user data pair and a corresponding user similarity of each user data pair, to determine a training classification model sample.
  • the user feature includes a household registration dimension feature, a name dimension feature, a social feature, and a hobby feature; the household registration dimension feature includes a feature of user identity information, and the name dimension feature includes a feature of the user name information.
  • the number of features included in the positive sample feature and the negative sample feature is the same.
  • the similarity classification model is a two-classifier model.
  • the embodiment of the present application provides a model training device, which acquires multiple user data pairs, and the data fields of the two sets of user data in each user data pair have the same part, and each user data pair obtained is obtained.
  • Corresponding user similarity determining sample data for training the preset classification model, and then training the classification model based on the sample data to obtain a similarity classification model, so that the user data pair to be tested can be determined by the similarity classification model
  • the similarity between the two groups of user data to be tested, so that multiple user data pairs are obtained only through the same data field, and the two sets of user data in each user data pair are determined by the user similarity.
  • the relationship between the users is obtained, and the sample data for training the preset classification model is obtained, and the sample data can be obtained without manual labeling, which can realize the rapid completion of the model training, improve the model training efficiency and reduce the resource consumption.
  • the embodiment of the present application further provides a device for determining data similarity, as shown in FIG. 7 .
  • the determining device for data similarity includes: a data to be tested module 701, a feature extraction module 702, and a similarity determining module 703, wherein:
  • the data to be tested module 701 is configured to acquire a pair of user data to be tested.
  • the feature extraction module 702 is configured to perform feature extraction on each group of user data to be tested in the user data pair to be tested, to obtain a user feature to be tested;
  • the similarity determining module 703 is configured to determine, according to the user feature to be tested and the pre-trained similarity classification model, a similarity between users corresponding to two groups of user data to be tested in the pair of user data to be tested.
  • the device further includes:
  • a similarity classification module configured to determine, if the similarity between the users corresponding to the two groups of user data to be tested in the pair of user data to be tested is greater than a predetermined similarity classification threshold, determine the corresponding user data pair to be tested
  • the users to be tested are twins.
  • the embodiment of the present application provides a data similarity determining apparatus, which acquires multiple user data pairs, and the data fields of the two sets of user data in each user data pair have the same part, and each user data acquired Determining sample data for training the preset classification model for the corresponding user similarity, and then training the classification model based on the sample data to obtain a similarity classification model, so that the user to be tested can be determined by the similarity classification model
  • the similarity between the users corresponding to the two groups of user data to be tested in the data pair so that multiple user data pairs are obtained only through the same data field, and two groups of users in each user data pair are determined by user similarity.
  • the association relationship between the users corresponding to the data, the sample data for training the preset classification model is obtained, and the sample data can be obtained without manual labeling, which can realize the rapid completion of the model training, improve the model training efficiency and reduce the resources. Consumption.
  • the embodiment of the present application further provides a model training device, as shown in FIG. 8.
  • the training device of the model may be the server or the like provided by the above embodiment.
  • the training device of the model may vary considerably depending on configuration or performance, and may include one or more processors 801 and memory 802 in which one or more storage applications or data may be stored.
  • the memory 802 can be short-lived or persistent.
  • An application stored in memory 802 may include one or more modules (not shown), each of which may include a series of computer executable instructions in a training device for the model.
  • the processor 801 can be configured to communicate with the memory 802 to execute a series of computer executable instructions in the memory 802 on the training device of the model.
  • the model training device may also include one or more power sources 803, one or more wired or wireless network interfaces 804, one or more input and output interfaces 805, one or more keyboards 806.
  • the training device of the model includes a memory, and one or more programs, wherein one or more programs are stored in the memory, and one or more programs may include one or more modules, and each The modules can include a series of computer executable instructions in a training device of the model, and are configured to be executed by one or more processors.
  • the one or more programs are included for performing the following computer executable instructions:
  • the classification model is trained based on the sample data to obtain a similarity classification model.
  • executable instructions when executed, may also cause the processor to:
  • executable instructions when executed, may also cause the processor to:
  • Feature extraction is performed on each of the plurality of user data pairs to obtain an associated user feature between the two sets of user data in each user data pair;
  • the positive sample feature and the negative sample feature are used as sample data for training the classification model.
  • the user feature includes a household registration dimension feature, a name dimension feature, a social feature, and a hobby feature; the household registration dimension feature includes a feature of user identity information, and the name dimension feature includes a feature of the user name information and a user last name.
  • a feature of the degree of scarcity, the social features including characteristics of the user's social relationship information.
  • the similarity classification model is a two-classifier model.
  • the user data to be tested is determined to be a twin.
  • the embodiment of the present application provides a data similarity determining device, which acquires multiple user data pairs, and the data fields of the two sets of user data in each user data pair have the same part, and each user data acquired Determining sample data for training the preset classification model for the corresponding user similarity, and then training the classification model based on the sample data to obtain a similarity classification model, so that the user to be tested can be determined by the similarity classification model
  • the similarity between the users corresponding to the two groups of user data to be tested in the data pair so that multiple user data pairs are obtained only through the same data field, and two groups of users in each user data pair are determined by user similarity.
  • the association relationship between the users corresponding to the data, the sample data for training the preset classification model is obtained, and the sample data can be obtained without manual labeling, which can realize the rapid completion of the model training, improve the model training efficiency and reduce the resources. Consumption.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.
  • a computing device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • processors CPUs
  • input/output interfaces network interfaces
  • memory volatile and non-volatile memory
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory.
  • RAM random access memory
  • ROM read only memory
  • Memory is an example of a computer readable medium.
  • Computer readable media includes both permanent and non-persistent, removable and non-removable media.
  • Information storage can be implemented by any method or technology.
  • the information can be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read only memory. (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, compact disk read only memory (CD-ROM), digital versatile disk (DVD) or other optical storage, Magnetic tape cartridges, magnetic tape storage or other magnetic storage devices or any other non-transportable media can be used to store information that can be accessed by a computing device.
  • computer readable media does not include temporary storage of computer readable media, such as modulated data signals and carrier waves.
  • the application can be described in the general context of computer-executable instructions executed by a computer, such as a program module.
  • program modules include routines, programs, objects, components, data structures, and the like that perform particular tasks or implement particular abstract data types.
  • the present application can also be practiced in distributed computing environments where tasks are performed by remote processing devices that are connected through a communication network.
  • program modules can be located in both local and remote computer storage media including storage devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本申请实施例公开了一种模型的训练方法、数据相似度的确定方法、装置及设备,该模型的训练方法包括:获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。利用本申请实施例,可以实现模型的快速训练,提高模型训练效率并减少资源消耗。

Description

模型的训练方法、数据相似度的确定方法、装置及设备 技术领域
本申请涉及计算机技术领域,尤其涉及一种模型的训练方法、数据相似度的确定方法、装置及设备。
背景技术
人脸识别作为一种新型的身份核实方式,在为用户提供便利的同时也产生了新的风险点。对于长相极为相似的多个用户(如双胞胎),通过人脸识别将很难有效区分不同用户,从而极易造成因为无法正确识别导致的账户误登录,以及账户资金被盗用等风险。双胞胎特别是同卵双胞胎作为已知的长相极为相似的最典型情况,因为两者彼此关系亲密,非常容易产生上述风险行为。如何从大量数据中确定双胞胎的用户数据成为需要解决的重要问题。
通常,基于监督式的机器学习方法利用预先选取的样本数据构造识别模型,具体地,调查人员通过问卷调查、有奖问答或人工观察等方式进行社会调查,收集用户数据,并通过人工观察或向调查者询问等方式得到的用户之间的关联关系或双胞胎关系进行标注。通过人工标注的关联关系或双胞胎关系,使用相应的用户数据作为样本数据构造识别模型。
然而,上述通过监督式机器学习方法构造的识别模型,其样本数据需要进行人工标注,而人工标注的过程会消耗大量的人力资源,而且还会消耗大量的时间进行标注,从而使得模型训练效率低下,且资源消耗较大。
发明内容
本申请实施例的目的是提供一种模型的训练方法、数据相似度的确定方法、装置及设备,以实现模型训练的快速完成,提高模型训练效率并减少资源消耗。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供的一种模型的训练方法,所述方法包括:
获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数 据对中的两组用户数据对应的用户之间的相似度;
根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
可选地,所述获取每个用户数据对所对应的用户相似度,包括:
获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述生物特征包括面部图像特征,
所述获取第一用户数据对所对应的用户的生物特征,包括:
获取第一用户数据对所对应的用户的面部图像;
对所述面部图像进行特征提取,得到面部图像特征;
相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述生物特征包括语音特征,
所述获取第一用户数据对所对应的用户的生物特征,包括:
获取第一用户数据对所对应的用户的语音数据;
对所述语音数据进行特征提取,得到语音特征;
相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练分类模型的样本数据,包括:
对所述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
根据所述每个用户数据对中用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
可选地,所述根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据,包括:
根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;
将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
可选地,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
可选地,所述正样本特征和负样本特征中包含的特征数目相同。
可选地,所述相似度分类模型为二分类器模型。
本申请实施例还提供的一种数据相似度的确定方法,所述方法包括:
获取待测用户数据对;
对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
可选地,所述方法还包括:
如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
本申请实施例提供的一种模型的训练装置,所述装置包括:
数据获取模块,用于获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
相似度获取模块,用于获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
样本数据确定模块,用于根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
模型训练模块,用于基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
可选地,所述相似度获取模块,包括:
生物特征获取单元,用于获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
相似度获取单元,用于根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述生物特征包括面部图像特征,
所述生物特征获取单元,用于获取第一用户数据对所对应的用户的面部图像;对所述面部图像进行特征提取,得到面部图像特征;
相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述生物特征包括语音特征,
所述生物特征获取单元,用于获取第一用户数据对所对应的用户的语音数据;对所述语音数据进行特征提取,得到语音特征;
相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述样本数据确定模块,包括:
特征提取单元,用于对所述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
样本数据确定单元,用于根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
可选地,所述样本数据确定单元,用于根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
可选地,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
可选地,所述正样本特征和负样本特征中包含的特征数目相同。
可选地,所述相似度分类模型为二分类器模型。
本申请实施例还提供的一种数据相似度的确定装置,所述装置包括:
待测数据获取模块,用于获取待测用户数据对;
特征提取模块,用于对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
相似度确定模块,用于根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
可选地,所述装置还包括:
相似度分类模块,用于如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
本申请实施例提供的一种模型的训练设备,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
本申请实施例提供的一种数据相似度的确定设备,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待测用户数据对;
对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
由以上本申请实施例提供的技术方案可见,本申请实施例通过获取的多个 用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种模型的训练方法实施例;
图2为本申请一种数据相似度的确定方法实施例;
图3为本申请一种检测应用程序的界面示意图;
图4为本申请一种数据相似度的确定方法实施例;
图5为本申请一种数据相似度的确定过程的处理逻辑示意图;
图6为本申请一种模型的训练装置实施例;
图7为本申请一种数据相似度的确定装置实施例;
图8为本申请一种模型的训练设备实施例;
图9为本申请一种数据相似度的确定设备实施例。
具体实施方式
本申请实施例提供一种模型的训练方法、数据相似度的确定方法、装置及设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基 于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例一
如图1所示,本申请实施例提供一种模型的训练方法,该方法的执行主体可以为终端设备或服务器,其中的终端设备可以是个人计算机等,服务器可以是独立的一个服务器,也可以是由多个服务器组成的服务器集群。本申请实施例中为了提高模型训练的效率,该方法的执行主体以服务器为例进行详细说明。该方法具体可以包括以下步骤:
在步骤S102中,获取多个用户数据对,其中,每个用户数据对中的两组用户数据的数据字段有相同的部分。
其中,每个用户数据对中可以包含多个不同用户的用户数据,例如,多个用户数据对中包括用户数据对A和用户数据对B,其中,用户数据对A中包括用户数据1和用户数据2,用户数据对B中包括用户数据3和用户数据4等。用户数据可以是与某用户相关的数据,例如,用户的姓名、年龄、身高、住址、身份证号码、社会保障卡(即社保卡)号码等身份信息,还可以包括用户的兴趣爱好、购买商品、旅游等信息。数据字段可以是能够表征用户数据对中的两组不同用户数据对应的用户的身份,以及用户之间的关联关系的字段或字符,例如,姓氏、身份证号码中的预定位数的数值(如身份证号码的前14位数字)、社会保障卡号码或其它能够确定用户身份或信息的证件号码等。
在实施中,可以通过多种方式获取用户数据,例如,可以通过购买的方式从不同的用户处购买其用户数据,或者,用户注册某网站或应用程序时填写的信息,如注册支付宝时填写的信息等,或者,用户主动上传的用户数据等,其中,具体通过何种方式获取用户数据,本申请实施例对此不做限定。获取到用户数据后,可以将获取的用户数据中包含的数据字段进行对比,从中查找出其数据字段有相同的部分的用户数据,并可以将数据字段中有相同的部分的用户数据组成一组,得到一个用户数据对,通过上述方式,可以得到多组用户数据对,且每个用户数据对中都包含有数据字段的相同部分。
例如,在实际应用中,为了尽可能的减少运算量、提高处理效率,可以设定数据字段为身份证号码和姓氏,则可以在用户数据中查找用户的身份证号码和姓名等信息,考虑到身份证号码的某一位数字或多位数字可以表征两个用户之间的关系,例如,身份证号码的前14位数字等。本申请实施例中以身份证 号码的前14位数字作为判定数据字段中是否具有相同部分的依据为例,具体地,可以获取每个用户的身份证号码的前14位数字和姓氏,并比较不同用户的身份证号码的前14位数字和姓氏。可以将具有相同姓氏且身份证号码的前14位数字相同的两组用户数据划分到同一个用户数据对中。具体可以通过用户对的形式存储用户数据对,例如,{用户1身份证号码,用户2身份证号码,用户1姓名,用户2姓名,用户1其它数据,用户2其它数据}等。
需要说明的是,上述两组用户数据的数据字段有相同的部分可以理解为数据字段中的一部分内容相同,如上述内容中18位身份证号码的前14位数字等,也可以理解为数据字段的全部内容相同等。
在步骤S104中,获取每个用户数据对所对应的用户相似度,用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度。
其中,用户相似度可以用于表征多个用户之间的相似程度,例如99%或50%等,在实际应用中,用户相似度还可以通过其它方式表示,例如用户相似度还可以以双胞胎和非双胞胎,或者同卵双胞胎和异卵双胞胎来表示等。
在实施中,本实施例的主要目的是训练分类模型,这样就需要训练分类模型的样本数据,以及该样本数据对应的用户相似度,用户相似度可以预先存储于服务器或终端设备中。用户相似度的确定可以包括多种方式,以下提供一种可选的处理方式,具体可以参见以下内容:可以预先获取用户的图像,该图像可以是用户注册应用程序或网站的过程中用户上传的,其中的用户可以是每个用户数据对中包含的两组用户数据对应的用户。可以将每个用户数据对中的图像进行对比,通过图像的对比,可以计算该用户数据对中的两组用户数据对应的用户之间的相似度。在进行图像对比的过程中,可以使用如图像预处理、图像特征提取、图像特征对比等处理方式,本申请实施例对此不做限定。
在步骤S106中,根据每个用户数据对所对应的用户相似度和上述多个用户数据对,确定用于训练预设的分类模型的样本数据。
其中,分类模型可以是任意分类模型,如朴素贝叶斯分类模型、Logistic回归分类模型、决策树分类模型或支持向量机分类模型等,本申请实施例中考虑到分类模型仅用于判断两个不同用户之间是否相似,因此,该分类模型可以选用二分类模型。样本数据可以是用于训练分类模型的数据,该样本数据可以是用户数据对中的两组用户数据,也可以是上述用户数据经过某种处理后得到的数据等,如对上述用户数据进行特征提取,得到相应的用户特征,该用户特 征的数据可以作为样本数据。
在实施中,可以预先设置相似度阈值,如80%或70%等,然后,可以将每个用户数据对所对应的用户相似度分别与相似度阈值相比较,可以将用户相似度大于相似度阈值的用户数据对划分为一组,可以将用户相似度小于相似度阈值的用户数据对划分为一组,可以从上述两组中各选取预定数目(如4万或5万等)的用户数据对,并将选取的用户数据对作为用于训练预设的分类模型的样本数据。
需要说明的是,选取用于训练预设的分类模型的样本数据的方式除了上述方式外,还可以包括多种,例如,提取每个用户数据对中包含的两组用户数据的特征,得到相应的用户特征,然后,可以通过每个用户数据对所对应的用户相似度和相似度阈值,将用户特征划分为如上述的两组,可以将两组用户特征的数据作为用于训练预设的分类模型的样本数据。
在步骤S108中,基于上述样本数据对分类模型进行训练,得到相似度分类模型。
其中,相似度分类模型可以是用于确定不同用户之间的相似程度的模型。
在实施中,基于上述选取的用户数据对作为用于训练预设的分类模型的样本数据的情况,可以对选取的用户数据对中的两组用户数据进行特征提取,得到相应的用户特征,然后,可以将样本数据中每个用户数据对的用户特征输入到分类模型中进行计算,计算完成后,可以输出计算结果。可以将该计算结果与相应的用户数据对所对应的用户相似度进行比较,确定两者是否相同,如果两者不同,则可以修改分类模型的相关参数,然后,再将该用户数据对的用户特征输入到修改后的分类模型中进行计算,并判断计算结果与用户相似度是否相同,直到两者相同为止。如果两者相同,则可以选取下一个用户数据对执行上述处理过程,最终每个用户数据对的用户特征输入到分类模型后得到的计算结果与相应的用户数据对所对应的用户相似度均相同,则得到的分类模型即为相似度分类模型。
通过上述方式可以得到相似度分类模型,该相似度分类模型的使用可以参见下述相关内容:
如图2所示,本申请实施例提供一种相似度的确定方法,该方法的执行主体可以为终端设备或服务器,其中的终端设备可以是个人计算机等,服务器可以是独立的一个服务器,也可以是由多个服务器组成的服务器集群。该方法具 体可以包括以下步骤:
在步骤S202中,获取待测用户数据对。
其中,待测用户数据对可以是待检测的两个用户的用户数据所组成的用户数据对。
在实施中,为了检测出两个不同用户之间的相似度,可以设置相应的检测应用程序。如图3所示,该检测应用程序中可以包括用于上传数据的按键,当需要对两个不同用户进行相似度检测时,可以点击上述用于上传数据的按键,该检测应用程序可以弹出数据上传的提示框,数据上传者可以在提示框中输入待测用户数据对的数据,输入完成后,可以点击该提示框中的确定按键,该检测应用程序可以获取数据上传者输入的待测用户数据对。上述检测应用程序可以安装在终端设备上,也可以安装在服务器上,本申请实施例提供的相似度的确定方法的执行主体若为服务器,且如果检测应用程序安装在终端设备上,则检测应用程序获取到待测用户数据对后,可以将该待测用户数据对发送给服务器,从而服务器可以获取到待测用户数据对。如果检测应用程序安装在服务器上,则服务器通过检测应用程序可以直接获取到待测用户数据对。
在步骤S204中,对上述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征。
其中,待测用户特征可以是待检测的用户的用户数据的特征。
在实施中,可以获取上述待测用户数据对中每组待测用户数据,针对其中的任意一组待测用户数据,可以使用预先设置的特征提取算法,从该待测用户数据中提取相应的特征,可以将提取的特征作为该待测用户数据对应的待测用户特征。通过上述方式可以得到待测用户数据对中每组待测用户数据对应的待测用户特征。
需要说明的是,特征提取算法可以是能够从用户数据中提取预定特征的任意算法,具体可以根据实际情况进行设定。
在步骤S206中,根据上述待测用户特征和预先训练的相似度分类模型,确定上述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
在实施中,可以将通过上述步骤S204得到的待测用户特征输入到通过上述步骤S102~步骤S108得到的相似度分类模型中进行计算,相似度分类模型输出的结果即可以为上述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
需要说明的是,在实际应用中,相似度分类模型的直接输出结果可以以百分比的方式展现,例如90%或40%等,为了使得输出结果对用户来说更加直观,可以根据实际情况对相似度分类模型的直接输出结果进一步设定,例如,需要区分同卵双胞胎和非同卵双胞胎,或者,需要区分同卵双胞胎和异卵双胞胎等,对于上述情况,可以设置分类阈值,如果直接输出结果大于该分类阈值,则确定上述待测用户数据对中的两组待测用户数据对应的用户之间为同卵双胞胎,否则为非同卵双胞胎或异卵双胞胎等。这样,通过预先训练的相似度分类模型,可以快速判断出待测用户数据对中的两组待测用户数据对应的用户之间的相似度,提高了用户之间相似度的判定效率。
需要说明的是,上述用户数据对和待测用户数据对均是以包含两组用户数据来说明,在实际应用中,本申请提供的模型的训练方法和相似度的确定方法还可以应用于包含两组以上的用户数据的用户数据组合和待测用户数据组合,具体处理可以参见本申请实施例中的相关内容,在此不再赘述。
本申请实施例提供一种模型的训练方法和相似度的确定方法,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
实施例二
如图4所示,本申请实施例提供了一种数据相似度的确定方法,该方法的执行主体可以为服务器或者该方法可以由终端设备和服务器共同实现,其中的终端设备可以是个人计算机等,服务器可以是独立的一个服务器,也可以是由多个服务器组成的服务器集群。本申请实施例中为了提高模型训练的效率,该方法的执行主体以服务器为例进行详细说明,对于由终端设备和服务器共同实现的按情况,可以参见下述相关内容,在此不再赘述。该方法具体包括如下内 容:
目前人脸识别作为一种用户核实身份的新型方式,在为用户提供便利的同时也产生了新的风险点,目前的人脸识别技术都是利用现场采集的用户图像与该用户在人脸识别系统的数据库中留存的用户图像进行比较,只要比对数值达到预定阈值,则认为该用户为留存的用户图像所对应的用户,以达到核实用户身份的目的。然而,针对长相极为相似的脸,上述方式将很难对用户的身份进行有效核实,从而极易造成因为无法进行身份核实导致的账户误登录以及后续的资金盗用等。
双胞胎特别是同卵双胞胎作为已知的相似脸的最典型情况,因为彼此关系亲密,这样就更容易产生有关负面舆情。如果可以掌握尽可能多的双胞胎用户名单,就可以针对这部分用户群体有单独的人脸识别应对策略以预防上述风险。为此可以构造有效识别双胞胎的模型,在保证高准确率的前提下输出双胞胎名单用于监控这些用户的人脸识别行为以起到风险控制的作用。其中,构造有效识别双胞胎的模型的处理可以参见下述步骤S402~步骤S412提供的模型的训练方法,具体内容如下:
在步骤S402中,获取多个用户数据对,其中,每个用户数据对中的两组用户数据的数据字段有相同的部分。
在实施中,考虑到双胞胎通常是姓氏相同且身份证号码的前14位数字相同,因此,可以将姓氏和身份证号码的前14位数字作为数据字段来选取用户数据对,上述步骤S402的具体处理过程可以参见上述实施例一中步骤S102的相关内容,在此不再赘述。
需要说明的是,上述选取用户数据对的处理是通过姓氏和身份证号码的前14位数字来实现的,在本申请的另一实施例中,选取用户数据对的处理还可以通过其它信息来实现,例如,通过姓氏和社会保障卡号码来实现,或者,通过身份证号码的前14位数字和社会保障卡号码来实现等,本申请实施例对此不做限定。
考虑到在对模型进行训练时,需要确定用户数据对中的两组用户数据对应的用户之间的相似程度,以下提供一种相关的处理方式,具体可以参见以下步骤S404和步骤S406。
在步骤S404中,获取第一用户数据对所对应的用户的生物特征,其中,第一用户数据对为上述多个用户数据对中的任意用户数据对。
其中,生物特征可以是人体的生理特征和行为特征等,如指纹特征、虹膜特征、面部特征、DNA等生理特征,再如声纹特征、笔迹特征和击键习惯特征等行为特征。
在实施中,通过上述步骤S402的处理获取到多个用户数据对后,可以从多个用户数据对中任意选择一个用户数据对(即第一用户数据对)。用户通过其终端设备登录服务器进行注册时,可以向服务器上传包含该用户上述某一项或多项生物特征,服务器可以将该生物特征与该用户的标识对应存储,其中,用户的标识可以是用户注册时填写的用户名或用户的姓名等,服务器中对应存储的上述信息可以如表1所示。
表1
用户的标识 生物特征
用户1 生物特征A
用户2 生物特征B
用户3 生物特征C
当服务器选取第一用户数据对后,可以从第一用户数据对中分别提取其中包含的用户的标识,然后,通过用户的标识可以获取相应的生物特征,从而得到第一用户数据对所对应的用户的生物特征。例如,第一用户数据对中包含的用户的标识为用户2和用户3,则通过查找如上述表格的对应关系,可以确定用户2对应的生物特征为生物特征B,用户3对应的生物特征为生物特征C,即第一用户数据对所对应的用户的生物特征为生物特征B和生物特征C。
在步骤S406中,根据第一用户数据对所对应的用户的生物特征,确定第一用户数据对所对应的用户相似度。
在实施中,通过上述步骤S404得到第一用户数据对所对应的用户的生物特征后,可以分别对得到的生物特征进行相似度计算,从而确定相应的两个用户之间的相似程度(即用户相似度),其中,相似度计算可以包括多种实现方式,例如通过特征向量之间的欧氏距离来实现等,本申请实施例对此不做限定。
需要说明的是,可以通过设置阈值来进行相似与否的判断,例如设置阈值为70,当两个生物特征对应的用户相似度大于70时,确定第一用户数据对中的两组用户数据对应的用户相似;当两个生物特征对应的用户相似度小于70时,确定第一用户数据对中的两组用户数据对应的用户不相似。
通过上述方式可以对多个用户数据对中除第一用户数据对外的其它用户 数据对执行上述处理过程,从而得到多个用户数据对中每个用户数据对所对应的用户相似度。
上述步骤S404和步骤S406是通过用户的生物特征确定用户相似度的,在实际应用中,确定用户相似度具体可以通过多种实现方式实现,以下以生物特征为面部特征为例对上述步骤S404和步骤S406进行具体说明,具体可以参见以下步骤一和步骤二。
步骤一,获取第一用户数据对所对应的用户的面部图像,其中,第一用户数据对为上述多个用户数据对中的任意用户数据对。
在实施中,通过上述步骤S402的处理获取到多个用户数据对后,可以从多个用户数据对中任意选择一个用户数据对(即第一用户数据对)。用户通过其终端设备登录服务器进行注册时,可以向服务器上传包含该用户面部的图像,服务器可以将该图像与该用户的标识对应存储,其中,用户的标识可以是用户注册时填写的用户名或用户的姓名等,服务器中对应存储的上述信息可以如表2所示。
表2
用户的标识 包含用户面部的图像
用户1 图像A
用户2 图像B
用户3 图像C
当服务器选取第一用户数据对后,可以从第一用户数据对中分别提取其中包含的用户的标识,然后,通过用户的标识可以获取相应的图像,从而得到第一用户数据对所对应的用户的面部图像。例如,第一用户数据对中包含的用户的标识为用户2和用户3,则通过查找如上述表格的对应关系,可以确定用户2对应的包含用户面部的图像为图像B,用户3对应的包含用户面部的图像为图像C,即第一用户数据对所对应的用户的面部图像为图像B和图像C。
步骤二,对上述面部图像进行特征提取,得到面部图像特征,并根据第一用户数据对所对应的用户的面部特征,确定第一用户数据对所对应的用户相似度。
在实施中,通过上述步骤一得到第一用户数据对所对应的用户的面部图像后,可以分别对得到的面部图像进行特征提取,得到相应的面部图像特征,并基于每个面部图像的提取特征得到相应的特征向量,然后,可以计算其中任意 两个面部图像的特征向量之间的欧式距离,通过特征向量之间的欧式距离的数值大小,可以确定相应的两个用户之间的相似程度(即用户相似度),其中,特征向量之间的欧式距离的数值越大,用户相似度越低;特征向量之间的欧式距离的数值越小,用户相似度越高。
需要说明的是,对于面部图像而言,两个面部图像只有相似和非相似的区别,为此,可以通过设置阈值来进行相似与否的判断,例如设置阈值为70,当两个面部图像对应的用户相似度大于70时,确定第一用户数据对中的两组用户数据对应的用户相似;当两个面部图像对应的用户相似度小于70时,确定第一用户数据对中的两组用户数据对应的用户不相似。
例如,基于上述步骤一的示例,分别对图像B和图像C进行特征提取,通过提取的特征分别构建相应的特征向量,得到图像B的特征向量和图像C的特征向量。计算图像B的特征向量和图像C的特征向量之间的欧式距离,通过得到的欧式距离的数值确定用户2和用户3之间的用户相似度。
通过上述方式可以对多个用户数据对中除第一用户数据对外的其它用户数据对执行上述处理过程,从而得到多个用户数据对中每个用户数据对所对应的用户相似度。
此外,对于上述步骤S404和步骤S406的处理,以下再提供一种可选的处理方式,具体可以参见以下步骤一和步骤二。
步骤一,获取第一用户数据对所对应的用户的语音数据,其中,第一用户数据对为多个用户数据对中的任意用户数据对。
在实施中,通过上述步骤S402的处理获取到多个用户数据对后,可以从多个用户数据对中任意选择一个用户数据对(即第一用户数据对)。用户通过其终端设备登录服务器进行注册时,可以向服务器上传包含预定时长(如3秒或5秒等)和/或预定语音内容(如一个或多个词的语音或一句话的语音等)的语音数据,服务器可以将该语音数据与该用户的标识对应存储。当服务器选取第一用户数据对后,可以从第一用户数据对中分别提取其中包含的用户的标识,然后,通过用户的标识可以获取相应的语音数据,从而得到第二用户数据对所对应的用户的语音数据。
步骤二,对上述语音数据进行特征提取,得到语音特征,并根据第一用户数据对所对应的用户的语音特征,确定第一用户数据对所对应的用户相似度。
在实施中,通过上述步骤一得到第一用户数据对所对应的用户的语音数据 后,可以分别对得到的语音数据进行特征提取,并基于每个语音数据的提取特征确定相应的两个用户之间的相似程度(即用户相似度),具体处理过程可以参见上述步骤S406中的相关内容,或者,可以通过特征的逐一比对的方式确定用户相似度,又或者,可以对任意两个语音数据进行语音频谱分析,以确定用户相似度等。通过上述方式可以对多个用户数据对中除第一用户数据对外的其它用户数据对执行上述处理过程,从而得到多个用户数据对中每个用户数据对所对应的用户相似度。
在步骤S408中,对上述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征。
在实施中,可以从多个用户数据对中任意选取一个用户数据对(可以称为第三用户数据对),可以对第三用户数据对中的两组不同的用户数据分别进行特征提取,例如,第三用户数据对中包括用户数据1和用户数据2,可以对用户数据1进行特征提取,并对用户数据2进行特征提取。然后,可以对比在不同的用户数据中提取的特征,从而得到第三用户数据对中的两组用户数据之间相关联的用户特征。通过上述方式可以对多个用户数据对中除第三用户数据对外的其它用户数据对执行上述处理过程,从而得到每个用户数据对中的两组用户数据之间相关联的用户特征。
在实际应用中,用户特征可以包含但不限于户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征等特征。其中,户籍维度特征可以包括用户身份信息的特征。户籍维度特征主要是基于中国的户籍管理制度,户籍中包含的身份证信息中包括出生日期和户籍申报地,同时户籍中具有父母姓名和公民住址,然而由于历史和其它原因,部分公民登记的信息并不与实际情况一样,存在如提前申报生日、双方分别随父母姓,甚至父母离异导致户籍分离等情况,所以户籍维度特征对于判定两个用户是否为双胞胎起到一定的参考作用。这样,通过用户数据对所对应的不同用户之间的出生日期是否一致、户籍申报地是否一致、是否有共同父母、现住址的一致程度等特征确定不同用户之间的关联。
姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征。对于姓名维度特征,基于NLP(Nature Language Processing,自然语言处理)理论和社会经验,通常,如果两个人的名字看起来比较像,比如张金龙和张金虎,或者具有某种语义关联,如张美美和张丽丽,则认为两者之间应该具有某种关联。在本申请实施例中,可以引入词典来评估两个用户在名字上的关系,同时 利用用户注册的个人信息和人口统计数据统计姓氏的稀缺程度作为特征。这样,通过用户数据对所对应的不同用户之间的姓氏是否一致、姓名长度是否一致、名字近义词程度、名字组合是否为词和姓氏稀缺程度等特征确定不同用户之间的关联。
社交特征包括用户的社会关系信息的特征。对于社交特征,可以是基于大数据对用户数据对的社会关系进行提炼而成,通常,双胞胎应该具有较多的互动和重复性较高的社会关系,如共同的亲戚,甚至同学等。在本申请实施例中,基于服务器中存储的用户的个人信息构成的关系网络、通讯录等已有数据对用户数据对进行关联,以得到相应的特征。这样,通过用户数据对所对应的不同用户之间的社交应用是否互相关注、是否有资金往来、通讯录中是否包含对方的联系方式、通讯录标注是否有称谓和通讯录的交集数量等特征确定不同用户之间的关联。
此外,考虑到双胞胎具有较多的共同爱好、购物兴趣,以及可能会共同出游等,用户特征还可以包括如电商、旅游、文娱等多维度特征,在本申请实施例中,电商、旅游、文娱等多维度特征的相关数据可以从预定的数据库或某网站中获取得到。这样,通过用户数据对所对应的不同用户之间的购物记录的交集数量、是否有过同时出游、是否同时入住过酒店、购物倾向的相似度和收货地址是否一样等特征确定不同用户之间的关联。
需要说明的是,上述确定用户相似度的处理(即包括步骤S404和步骤S406)和特征提取的处理(即步骤S408)是按照先后顺序执行的,在实际应用中,确定用户相似度的处理和特征提取的处理可以同时执行,也可以先执行特征提取的处理,然后再执行确定用户相似度的处理,本申请实施例对此不做限定。
在步骤S410中,根据每个用户数据对中的两组用户数据之间相关联的用户特征和每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
在实施中,可以预先设置阈值,通过阈值可以从多个用户数据对中选取用户相似度大于该阈值的用户数据对,可以将选取的用户数据对中的两组用户数据之间相关联的用户特征作为训练分类模型的用户特征,可以将选取的用户特征和选取的用户数据对所对应的用户相似度确定为用于训练分类模型的样本数据。
上述步骤S410的处理除了可以采用上述方式外,还可以采用多种方式处 理,以下还提供一种可选的处理方式,具体可以包括以下步骤一和步骤二:
步骤一,根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从多个用户数据对所对应的用户特征中选取正样本特征和负样本特征。
在实施中,基于同卵双胞胎长相高度相似这一常识,以及双胞胎出生日期、出生地等相同,且通常情况下双胞胎的姓氏也相同的社会常识,通过两个用户的面部图像计算用户相似度,从而确定两个用户是否为同卵双胞胎,具体地,可以预先设置相似度阈值,如80%或70%等,可以将用户相似度大于相似度阈值的用户数据对确定为同卵双胞胎的用户数据对,可以将用户相似度小于相似度阈值的用户数据对确定为非同卵双胞胎的用户数据对。同时,由于同卵双胞胎和异卵双胞胎除了在长相上有所差异外,其它特征基本一致,所以,可以将同卵双胞胎的用户数据对所对应的用户特征作为相似度分类模型的正样本特征,而非同卵双胞胎(包括异卵双胞胎和非双胞胎)的用户数据对所对应的用户特征则作为相似度分类模型的负样本特征。
需要说明的是,负样本特征并不是指其中包含的特征全部都是异卵双胞胎的用户特征,在实际应用中,异卵双胞胎的用户特征也可能在负样本特征中的比例极少,还可能在负样本特征中包含有少量的正样本特征,而这样并不会影响分类模型的训练,反而会有助于提升相似度分类模型的鲁棒性。
此外,正样本特征和负样本特征中包含的特征数目可以相同。例如,从多个用户数据对中选取用户相似度小于10%的10000个用户数据对,从多个用户数据对中选取用户相似度大于10%且小于20%的10000个用户数据对,从多个用户数据对中选取用户相似度大于20%且小于30%的10000个用户数据对,从多个用户数据对中选取用户相似度大于30%且小于40%的10000个用户数据对,从多个用户数据对中选取用户相似度大于40%且小于50%的10000个用户数据对,将上述50000个用户数据对的用户特征作为负样本特征。从多个用户数据对中选取用户相似度大于80%且小于90%的40000个用户数据对,从多个用户数据对中选取用户相似度大于90%且小于100%的10000个用户数据对,将上述50000个用户数据对的用户特征作为正样本特征。
步骤二,将正样本特征和负样本特征作为用于训练分类模型的样本数据。
在实施中,可以将用户特征和相应的用户相似度的数据组合,可以将组合后的数据作为用于训练分类模型的样本数据。
在步骤S412中,基于样本数据对分类模型进行训练,得到相似度分类模 型。
其中,由于分类模型的主要目的是识别出双胞胎,因此,为了使得本申请实施例简化可行,相似度分类模型可以为二分类器模型,具体如GBDT(Gradient Boosting Decision Tree,迭代决策树)二分类器模型。
在实施中,可以分别将正样本特征输入到分类模型中进行计算,得到的计算结果可以与该正样本特征相应的用户相似度对比,如果两者相匹配,则可以选择下一个正样本特征或负样本特征输入到分类模型中进行计算。得到的计算结果继续与该正样本特征相应的用户相似度匹配对比。如果两者不匹配,则可以调整分类模型中的相关参数的数值,然后再将该正样本特征输入到分类模型中进行计算,得到的计算结果再与该正样本特征相应的用户相似度匹配对比,即重复上述过程,直到两者相匹配为止。通过上述方式,可以将所有的正样本特征和负样本特征输入到分类模型中进行计算,从而达到对分类模型进行训练的目的,可以将最终训练得到的分类模型作为相似度分类模型。
通过上述处理过程得到了相似度分类模型,该相似度分类模型可以用于人脸识别场景中,对于具有风险的双胞胎用户,通过该相似度分类模型可以进行单独的风险控制。
得到相似度分类模型后,可以应用相似度分类模型来判定待测用户数据对所对应的待测用户是否为双胞胎,如图5所示,其中的具体处理可以参见以下步骤S414~步骤S420的内容。
在步骤S414中,获取待测用户数据对。
上述步骤S414的步骤内容与上述实施例一中步骤S202的步骤内容相同,步骤S414的具体处理可以参见步骤S202的相关内容,在此不再赘述。
在步骤S416中,对待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征。
其中上述步骤S416中对待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征的处理过程,可以参见上述步骤S408的相关内容,即从待测用户数据中提取的特征包括但不限于籍维度特征、姓名维度特征、社交特征和兴趣爱好特征等,参见上述步骤S408的相关内容,在此不再赘述。
在步骤S418中,根据待测用户特征和预先训练的相似度分类模型,确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
上述步骤S418的步骤内容与上述实施例一中步骤S206的步骤内容相同, 步骤S418的具体处理可以参见步骤S206的相关内容,在此不再赘述。
在步骤S420中,如果待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定待测用户数据对所对应的待测用户为双胞胎。
在实施中,由于输出的双胞胎名单会影响目标用户的人脸识别功能的使用,因此,使用的过程中需要追求相似度分类模型的高准确度,在实际应用中可以设置一个较大的数值作为相似度分类阈值,例如,95%作为相似度分类阈值或97%作为相似度分类阈值等。利用训练好的相似度分类模型对待测用户特征进行预测并输出评分。其中,评分过程是计算相应的用户数据对所对应的用户为双胞胎的概率,比如概率为80%,则评分为80分,概率为90%,则评分为90分,得到的分数越高,用户数据对所对应的用户为双胞胎的概率越高。
本申请实施例提供一种数据相似度的确定方法,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
实施例三
以上为本申请实施例提供的数据相似度的确定方法,基于同样的思路,本申请实施例还提供一种模型的训练装置,如图6所示。
所述模型的训练装置可以设置在服务器中,该装置包括:数据获取模块601、相似度获取模块602、样本数据确定模块603和模型训练模块604,其中:
数据获取模块601,用于获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
相似度获取模块602,用于获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
样本数据确定模块603,用于根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
模型训练模块604,用于基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
本申请实施例中,所述相似度获取模块602,包括:
生物特征获取单元,用于获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
相似度获取单元,用于根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
本申请实施例中,所述生物特征包括面部图像特征,
所述生物特征获取单元,用于获取第一用户数据对所对应的用户的面部图像;对所述面部图像进行特征提取,得到面部图像特征;
相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
本申请实施例中,所述生物特征包括语音特征,
所述生物特征获取单元,用于获取第一用户数据对所对应的用户的语音数据;对所述语音数据进行特征提取,得到语音特征;
相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
本申请实施例中,所述样本数据确定模块603,包括:
特征提取单元,用于对所述多个用户数据对中的每组用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
样本数据确定单元,用于根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
本申请实施例中,所述样本数据确定单元,用于根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
本申请实施例中,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名 维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
本申请实施例中,所述正样本特征和负样本特征中包含的特征数目相同。
本申请实施例中,所述相似度分类模型为二分类器模型。
本申请实施例提供一种模型的训练装置,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
实施例四
以上为本申请实施例提供的模型的训练装置,基于同样的思路,本申请实施例还提供一种数据相似度的确定装置,如图7所示。
所述数据相似度的确定装置包括:待测数据获取模块701、特征提取模块702和相似度确定模块703,其中:
待测数据获取模块701,用于获取待测用户数据对;
特征提取模块702,用于对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
相似度确定模块703,用于根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
本申请实施例中,所述装置还包括:
相似度分类模块,用于如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
本申请实施例提供一种数据相似度的确定装置,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取 的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
实施例五
基于同样的思路,本申请实施例还提供一种模型的训练设备,如图8所示。
该模型的训练设备可以为上述实施例提供的服务器等。
模型的训练设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型的训练设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在模型的训练设备上执行存储器802中的一系列计算机可执行指令。模型的训练设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,模型的训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型的训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确 定用于训练预设的分类模型的样本数据;
基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
所述生物特征包括面部图像特征,
所述获取第一用户数据对所对应的用户的生物特征,包括:
获取第一用户数据对所对应的用户的面部图像;
对所述面部图像进行特征提取,得到面部图像特征;
相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
所述生物特征包括语音特征,
所述获取第一用户数据对所对应的用户的生物特征,包括:
获取第一用户数据对所对应的用户的语音数据;
对所述语音数据进行特征提取,得到语音特征;
相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
对所述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;
将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
可选地,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
可选地,所述正样本特征和负样本特征中包含的特征数目相同。
可选地,所述相似度分类模型为二分类器模型。
本申请实施例提供一种模型的训练设备,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
实施例六
基于同样的思路,本申请实施例还提供一种数据相似度的确定设备,如图9所示。
该数据相似度的确定设备可以为上述实施例提供的服务器或终端设备等。
数据相似度的确定设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据相似度的确定设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在数据相似度的确定设备上执行存储器902中的一系列计算机可执行指令。数据相似度的确定设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904, 一个或一个以上输入输出接口905,一个或一个以上键盘906。
具体在本实施例中,数据相似度的确定设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据相似度的确定设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待测用户数据对;
对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
可选地,所述可执行指令在被执行时,还可以使所述处理器:
如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
本申请实施例提供一种数据相似度的确定设备,通过获取的多个用户数据对,且每个用户数据对中的两组用户数据的数据字段有相同的部分,以及获取的每个用户数据对所对应的用户相似度,确定用于训练预设的分类模型的样本数据,然后,基于样本数据对分类模型进行训练,得到相似度分类模型,以便后续可以通过相似度分类模型确定待测用户数据对中的两组待测用户数据对应的用户之间的相似度,这样,仅通过相同的数据字段得到多个用户数据对,并通过用户相似度确定每个用户数据对中的两组用户数据对应的用户之间的关联关系,得到用于训练预设的分类模型的样本数据,而不需要人工标注即可得到样本数据,可以实现模型训练的快速完成,提高了模型训练效率并减少资源消耗。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改 进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包 括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输 出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (24)

  1. 一种模型的训练方法,其特征在于,所述方法包括:
    获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
    获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
    根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
    基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
  2. 根据权利要求1所述的方法,其特征在于,所述获取每个用户数据对所对应的用户相似度,包括:
    获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
    根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
  3. 根据权利要求2所述的方法,其特征在于,所述生物特征包括面部图像特征,
    所述获取第一用户数据对所对应的用户的生物特征,包括:
    获取第一用户数据对所对应的用户的面部图像;
    对所述面部图像进行特征提取,得到面部图像特征;
    相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
    根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
  4. 根据权利要求2所述的方法,其特征在于,所述生物特征包括语音特征,
    所述获取第一用户数据对所对应的用户的生物特征,包括:
    获取第一用户数据对所对应的用户的语音数据;
    对所述语音数据进行特征提取,得到语音特征;
    相应的,所述根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度,包括:
    根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
  5. 根据权利要求1所述的方法,其特征在于,所述根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练分类模型的样本数据,包括:
    对所述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
    根据所述每个用户数据对中用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
  6. 根据权利要求5所述的方法,其特征在于,所述根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据,包括:
    根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;
    将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
  7. 根据权利要求6所述的方法,其特征在于,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
  8. 根据权利要求6所述的方法,其特征在于,所述正样本特征和负样本特征中包含的特征数目相同。
  9. 根据权利要求1-8中任一项所述的方法,其特征在于,所述相似度分类模型为二分类器模型。
  10. 一种数据相似度的确定方法,其特征在于,所述方法包括:
    获取待测用户数据对;
    对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
    根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
  11. 根据权利要求10所述的方法,其特征在于,所述方法还包括:
    如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
  12. 一种模型的训练装置,其特征在于,所述装置包括:
    数据获取模块,用于获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
    相似度获取模块,用于获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
    样本数据确定模块,用于根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
    模型训练模块,用于基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
  13. 根据权利要求12所述的装置,其特征在于,所述相似度获取模块,包括:
    生物特征获取单元,用于获取第一用户数据对所对应的用户的生物特征,其中,所述第一用户数据对为所述多个用户数据对中的任意用户数据对;
    相似度获取单元,用于根据所述第一用户数据对所对应的用户的生物特征,确定所述第一用户数据对所对应的用户相似度。
  14. 根据权利要求13所述的装置,其特征在于,所述生物特征包括面部 图像特征,
    所述生物特征获取单元,用于获取第一用户数据对所对应的用户的面部图像;对所述面部图像进行特征提取,得到面部图像特征;
    相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的面部图像特征,确定所述第一用户数据对所对应的用户相似度。
  15. 根据权利要求13所述的装置,其特征在于,所述生物特征包括语音特征,
    所述生物特征获取单元,用于获取第一用户数据对所对应的用户的语音数据;对所述语音数据进行特征提取,得到语音特征;
    相应的,所述相似度获取单元,用于根据所述第一用户数据对所对应的用户的语音特征,确定所述第一用户数据对所对应的用户相似度。
  16. 根据权利要求12所述的装置,其特征在于,所述样本数据确定模块,包括:
    特征提取单元,用于对所述多个用户数据对中的每个用户数据对进行特征提取,得到每个用户数据对中的两组用户数据之间相关联的用户特征;
    样本数据确定单元,用于根据所述每个用户数据对中的两组用户数据之间相关联的用户特征和所述每个用户数据对所对应的用户相似度,确定用于训练分类模型的样本数据。
  17. 根据权利要求16所述的装置,其特征在于,所述样本数据确定单元,用于根据每个用户数据对所对应的用户相似度和预定的相似度阈值,从所述多个用户数据对所对应的用户特征中选取正样本特征和负样本特征;将所述正样本特征和负样本特征作为用于训练分类模型的样本数据。
  18. 根据权利要求17所述的装置,其特征在于,所述用户特征包括户籍维度特征、姓名维度特征、社交特征和兴趣爱好特征;所述户籍维度特征包括用户身份信息的特征,所述姓名维度特征包括用户姓名信息的特征和用户姓氏的稀缺程度的特征,所述社交特征包括用户的社会关系信息的特征。
  19. 根据权利要求17所述的装置,其特征在于,所述正样本特征和负样本特征中包含的特征数目相同。
  20. 根据权利要求12-19中任一项所述的装置,其特征在于,所述相似度分类模型为二分类器模型。
  21. 一种数据相似度的确定装置,其特征在于,所述装置包括:
    待测数据获取模块,用于获取待测用户数据对;
    特征提取模块,用于对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
    相似度确定模块,用于根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
  22. 根据权利要求21所述的装置,其特征在于,所述装置还包括:
    相似度分类模块,用于如果所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度大于预定相似度分类阈值,则确定所述待测用户数据对所对应的待测用户为双胞胎。
  23. 一种模型的训练设备,所述设备包括:
    处理器;以及
    被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
    获取多个用户数据对,其中,所述每个用户数据对中的两组用户数据的数据字段有相同的部分;
    获取每个用户数据对所对应的用户相似度,所述用户相似度为每个用户数据对中的两组用户数据对应的用户之间的相似度;
    根据所述每个用户数据对所对应的用户相似度和所述多个用户数据对,确定用于训练预设的分类模型的样本数据;
    基于所述样本数据对所述分类模型进行训练,得到相似度分类模型。
  24. 一种数据相似度的确定设备,所述设备包括:
    处理器;以及
    被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
    获取待测用户数据对;
    对所述待测用户数据对中每组待测用户数据进行特征提取,得到待测用户特征;
    根据所述待测用户特征和预先训练的相似度分类模型,确定所述待测用户数据对中的两组待测用户数据对应的用户之间的相似度。
PCT/CN2018/096252 2017-07-19 2018-07-19 模型的训练方法、数据相似度的确定方法、装置及设备 Ceased WO2019015641A1 (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
SG11201907257SA SG11201907257SA (en) 2017-07-19 2018-07-19 Model training method, apparatus, and device, and data similarity determining method, apparatus, and device
JP2019543107A JP6883661B2 (ja) 2017-07-19 2018-07-19 モデル訓練方法、装置及びデバイス並びにデータ類似性決定方法、装置及びデバイス
PH1/2019/501851A PH12019501851B1 (en) 2017-07-19 2018-07-19 Model training method, apparatus, and device, and data similarity determining method, apparatus, and device
MYPI2019004569A MY201891A (en) 2017-07-19 2018-07-19 Model training method, apparatus, and device, and data similarity determining method, apparatus and device
KR1020197023923A KR102349908B1 (ko) 2017-07-19 2018-07-19 모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스
EP18836065.5A EP3611657B1 (en) 2017-07-19 2018-07-19 Model training method and method, apparatus, and device for determining data similarity
US16/577,100 US20200012969A1 (en) 2017-07-19 2019-09-20 Model training method, apparatus, and device, and data similarity determining method, apparatus, and device
US16/777,659 US11288599B2 (en) 2017-07-19 2020-01-30 Model training method, apparatus, and device, and data similarity determining method, apparatus, and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710592780.7A CN107609461A (zh) 2017-07-19 2017-07-19 模型的训练方法、数据相似度的确定方法、装置及设备
CN201710592780.7 2017-07-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/577,100 Continuation US20200012969A1 (en) 2017-07-19 2019-09-20 Model training method, apparatus, and device, and data similarity determining method, apparatus, and device

Publications (1)

Publication Number Publication Date
WO2019015641A1 true WO2019015641A1 (zh) 2019-01-24

Family

ID=61059789

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/096252 Ceased WO2019015641A1 (zh) 2017-07-19 2018-07-19 模型的训练方法、数据相似度的确定方法、装置及设备

Country Status (10)

Country Link
US (2) US20200012969A1 (zh)
EP (1) EP3611657B1 (zh)
JP (1) JP6883661B2 (zh)
KR (1) KR102349908B1 (zh)
CN (1) CN107609461A (zh)
MY (1) MY201891A (zh)
PH (1) PH12019501851B1 (zh)
SG (1) SG11201907257SA (zh)
TW (1) TWI735782B (zh)
WO (1) WO2019015641A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163655A (zh) * 2019-04-15 2019-08-23 中国平安人寿保险股份有限公司 基于梯度提升树的坐席分配方法、装置、设备及存储介质
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN113516165A (zh) * 2021-05-07 2021-10-19 北京惠朗时代科技有限公司 一种基于图像金字塔匹配后验的客户满意度判别方法
CN115497633A (zh) * 2022-10-19 2022-12-20 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115604027A (zh) * 2022-11-28 2023-01-13 中南大学(Cn) 网络指纹识别模型训练方法、识别方法、设备及存储介质
CN116302784A (zh) * 2022-12-15 2023-06-23 蓝卓数字科技有限公司 一种工业app运维监控方法及系统

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
CN108399389B (zh) * 2018-03-01 2020-05-08 路志宏 机器视觉的多机监管系统、方法及客户机、服务器、存储介质
CN108427767B (zh) * 2018-03-28 2020-09-29 广州市创新互联网教育研究院 一种知识主题和资源文件的关联方法
US20210019553A1 (en) * 2018-03-30 2021-01-21 Nec Corporation Information processing apparatus, control method, and program
CN108732559B (zh) * 2018-03-30 2021-09-24 北京邮电大学 一种定位方法、装置、电子设备及可读存储介质
CN111027994B (zh) * 2018-10-09 2023-08-01 百度在线网络技术(北京)有限公司 相似对象确定方法、装置、设备和介质
CN111274811B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN111325228B (zh) * 2018-12-17 2021-04-06 上海游昆信息技术有限公司 一种模型训练方法及装置
CN109934275B (zh) * 2019-03-05 2021-12-14 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111797878B (zh) * 2019-04-09 2024-06-07 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN111797869A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN110543636B (zh) * 2019-09-06 2023-05-23 出门问问创新科技有限公司 一种对话系统的训练数据选择方法
CN112488140B (zh) * 2019-09-12 2024-08-02 北京国双科技有限公司 一种数据关联方法及装置
CN112541515B (zh) * 2019-09-23 2024-12-03 北京京东乾石科技有限公司 模型训练方法、驾驶数据处理方法、装置、介质和设备
CN110717484B (zh) * 2019-10-11 2021-07-27 支付宝(杭州)信息技术有限公司 一种图像处理方法和系统
CN110852881B (zh) * 2019-10-14 2021-04-27 支付宝(杭州)信息技术有限公司 风险账户识别方法、装置、电子设备及介质
CN110837869A (zh) * 2019-11-11 2020-02-25 深圳市商汤科技有限公司 图像分类模型训练方法、图像处理方法及装置
CN111046910A (zh) * 2019-11-12 2020-04-21 北京三快在线科技有限公司 图像分类、关系网络模型训练、图像标注方法及装置
CN110742595A (zh) * 2019-11-12 2020-02-04 中润普达(十堰)大数据中心有限公司 基于认知云系统的异常血压监护系统
CN111739517B (zh) * 2020-07-01 2024-01-30 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及介质
US11526552B2 (en) * 2020-08-18 2022-12-13 Lyqness Inc. Systems and methods of optimizing the use of user questions to identify similarities among a large network of users
KR102859761B1 (ko) 2020-08-21 2025-09-16 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2022076855A1 (en) * 2020-10-09 2022-04-14 AquaSys LLC Anonymous training of a learning model
CN112015749B (zh) * 2020-10-27 2021-02-19 支付宝(杭州)信息技术有限公司 基于隐私保护更新业务模型的方法、装置及系统
CN114429560A (zh) * 2020-10-29 2022-05-03 中国移动通信有限公司研究院 一种人员结构识别方法及相关设备
CN112347320B (zh) * 2020-11-05 2024-08-06 杭州数梦工场科技有限公司 数据表字段的关联字段推荐方法及装置
CN112269937B (zh) * 2020-11-16 2024-02-02 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
CN112988845B (zh) * 2021-04-01 2021-11-16 湖南机械之家信息科技有限公司 在大数据业务场景下的数据信息处理方法及信息服务平台
CN115206346B (zh) * 2021-04-14 2025-05-09 阿呆科技(北京)有限公司 抑郁情绪状态数据获取装置、系统、方法和存储介质
EP4099142B1 (en) 2021-04-19 2026-01-21 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
CN113408208B (zh) * 2021-06-25 2023-06-09 成都欧珀通信科技有限公司 模型训练方法、信息提取方法、相关装置及存储介质
CN114756677B (zh) * 2022-03-21 2023-07-25 马上消费金融股份有限公司 样本生成方法、文本分类模型的训练方法及文本分类方法
CN118469284B (zh) * 2024-05-09 2024-11-26 杭州蛙云网络科技有限公司 一种用于智慧矿山的人工智能模型的训练方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129574A (zh) * 2011-03-18 2011-07-20 北京中星微电子有限公司 一种人脸认证方法及系统
CN103745242A (zh) * 2014-01-30 2014-04-23 中国科学院自动化研究所 一种跨设备生物特征识别方法
CN105488463A (zh) * 2015-11-25 2016-04-13 康佳集团股份有限公司 基于人脸生物特征的直系亲属关系识别方法及系统
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7308581B1 (en) * 2003-03-07 2007-12-11 Traffic101.Com Systems and methods for online identity verification
US20060117021A1 (en) * 2004-11-29 2006-06-01 Epic Systems Corporation Shared account information method and apparatus
KR20070105826A (ko) * 2006-04-27 2007-10-31 삼성전자주식회사 공개키 인증시스템 및 그 인증방법
KR20090031771A (ko) * 2006-07-12 2009-03-27 아비트론 인코포레이티드 휴대용 조사 장치의 사용자에 의한 사용을 모니터링하기 위한 방법 및 시스템
US20080106370A1 (en) * 2006-11-02 2008-05-08 Viking Access Systems, Llc System and method for speech-recognition facilitated communication to monitor and control access to premises
US7696427B2 (en) * 2006-12-01 2010-04-13 Oracle America, Inc. Method and system for recommending music
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US20170330029A1 (en) * 2010-06-07 2017-11-16 Affectiva, Inc. Computer based convolutional processing for image analysis
TWI437501B (zh) * 2010-11-26 2014-05-11 Egis Technology Inc 基於生物特徵之身分驗證裝置及其方法
US20120142428A1 (en) * 2010-12-01 2012-06-07 Taktak Labs, Llc Systems and methods for online, real-time, social gaming
US9489567B2 (en) * 2011-04-11 2016-11-08 Intel Corporation Tracking and recognition of faces using selected region classification
CN102663370B (zh) * 2012-04-23 2013-10-09 苏州大学 一种人脸识别的方法及系统
US20140063237A1 (en) * 2012-09-03 2014-03-06 Transportation Security Enterprises, Inc.(TSE), a Delaware corporation System and method for anonymous object identifier generation and usage for tracking
US20140250523A1 (en) * 2012-10-11 2014-09-04 Carnegie Mellon University Continuous Authentication, and Methods, Systems, and Software Therefor
JP5284530B2 (ja) * 2012-11-22 2013-09-11 キヤノン株式会社 情報処理方法、情報処理装置
US10249306B2 (en) * 2013-01-17 2019-04-02 Nec Corporation Speaker identification device, speaker identification method, and recording medium
US9036876B2 (en) * 2013-05-01 2015-05-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for authenticating biometric data
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US20150177842A1 (en) * 2013-12-23 2015-06-25 Yuliya Rudenko 3D Gesture Based User Authorization and Device Control Methods
WO2015153480A1 (en) * 2014-03-31 2015-10-08 Ebay Inc. Image-based retrieval and searching
US9846885B1 (en) * 2014-04-30 2017-12-19 Intuit Inc. Method and system for comparing commercial entities based on purchase patterns
US10305863B2 (en) * 2015-08-05 2019-05-28 Cronvo Llc Systems and methods for managing telecommunications
US10235589B2 (en) * 2015-09-08 2019-03-19 The Johns Hopkins University Small maritime target detector
CN105224623B (zh) * 2015-09-22 2019-06-18 北京百度网讯科技有限公司 数据模型的训练方法及装置
US10027888B1 (en) * 2015-09-28 2018-07-17 Amazon Technologies, Inc. Determining area of interest in a panoramic video or photo
CN105306495B (zh) * 2015-11-30 2018-06-19 百度在线网络技术(北京)有限公司 用户识别方法和装置
US10990658B2 (en) * 2016-07-11 2021-04-27 Samsung Electronics Co., Ltd. Method and apparatus for verifying user using multiple biometric verifiers
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129574A (zh) * 2011-03-18 2011-07-20 北京中星微电子有限公司 一种人脸认证方法及系统
CN103745242A (zh) * 2014-01-30 2014-04-23 中国科学院自动化研究所 一种跨设备生物特征识别方法
CN105488463A (zh) * 2015-11-25 2016-04-13 康佳集团股份有限公司 基于人脸生物特征的直系亲属关系识别方法及系统
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3611657A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163655A (zh) * 2019-04-15 2019-08-23 中国平安人寿保险股份有限公司 基于梯度提升树的坐席分配方法、装置、设备及存储介质
CN110163655B (zh) * 2019-04-15 2024-03-05 中国平安人寿保险股份有限公司 基于梯度提升树的坐席分配方法、装置、设备及存储介质
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN113516165A (zh) * 2021-05-07 2021-10-19 北京惠朗时代科技有限公司 一种基于图像金字塔匹配后验的客户满意度判别方法
CN113516165B (zh) * 2021-05-07 2023-10-10 北京惠朗时代科技有限公司 一种基于图像金字塔匹配后验的客户满意度判别方法
CN115497633A (zh) * 2022-10-19 2022-12-20 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115497633B (zh) * 2022-10-19 2024-01-30 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115604027A (zh) * 2022-11-28 2023-01-13 中南大学(Cn) 网络指纹识别模型训练方法、识别方法、设备及存储介质
CN115604027B (zh) * 2022-11-28 2023-03-14 中南大学 网络指纹识别模型训练方法、识别方法、设备及存储介质
CN116302784A (zh) * 2022-12-15 2023-06-23 蓝卓数字科技有限公司 一种工业app运维监控方法及系统

Also Published As

Publication number Publication date
TW201909005A (zh) 2019-03-01
JP2020524315A (ja) 2020-08-13
JP6883661B2 (ja) 2021-06-09
US11288599B2 (en) 2022-03-29
US20200167693A1 (en) 2020-05-28
EP3611657B1 (en) 2024-08-21
TWI735782B (zh) 2021-08-11
MY201891A (en) 2024-03-22
PH12019501851A1 (en) 2020-06-29
US20200012969A1 (en) 2020-01-09
EP3611657A1 (en) 2020-02-19
PH12019501851B1 (en) 2024-02-28
CN107609461A (zh) 2018-01-19
KR102349908B1 (ko) 2022-01-12
KR20200014723A (ko) 2020-02-11
SG11201907257SA (en) 2019-09-27
EP3611657A4 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
WO2019015641A1 (zh) 模型的训练方法、数据相似度的确定方法、装置及设备
US12175504B2 (en) Unsupervised embeddings disentanglement using a gan for merchant recommendations
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
WO2018072071A1 (zh) 知识图谱构建系统及方法
CN113722583A (zh) 推荐方法、推荐模型训练方法及相关产品
WO2019128527A1 (zh) 一种社交内容风险识别方法、装置以及设备
CN112015994B (zh) 药物推荐方法、装置、设备及介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN109947903B (zh) 一种成语查询方法及装置
US11182605B2 (en) Search device, search method, search program, and recording medium
CN109615009B (zh) 一种学习内容推荐方法及电子设备
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
WO2017000341A1 (zh) 一种信息处理方法、装置以及终端
CN117373698A (zh) 基于会话交互的导医信息获取方法、装置和设备
CN116468096A (zh) 一种模型训练方法、装置、设备及可读存储介质
CN116956896A (zh) 基于人工智能的文本分析方法、系统、电子设备及介质
HK1249238A1 (zh) 模型的训练方法、数据相似度的确定方法、装置及设备
CN114638613A (zh) 基于身份识别的菜品结算处理方法及装置
CN115238193A (zh) 金融产品推荐方法和装置、计算设备以及计算机存储介质
CN115408599A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN112364146A (zh) 查询文档排序方法、装置及电子设备
CN117033767A (zh) 文本推荐方法、装置、计算机设备和存储介质
HK40043795A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
HK40040600B (zh) 药物推荐方法、装置、设备及介质
CN119312905A (zh) 基于多模态的家庭人员关系自主学习方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18836065

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019543107

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20197023923

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2018836065

Country of ref document: EP

Effective date: 20191111

NENP Non-entry into the national phase

Ref country code: DE