WO2020008711A1 - 学習装置、学習システム、及び学習方法 - Google Patents
学習装置、学習システム、及び学習方法 Download PDFInfo
- Publication number
- WO2020008711A1 WO2020008711A1 PCT/JP2019/017237 JP2019017237W WO2020008711A1 WO 2020008711 A1 WO2020008711 A1 WO 2020008711A1 JP 2019017237 W JP2019017237 W JP 2019017237W WO 2020008711 A1 WO2020008711 A1 WO 2020008711A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- learning
- label
- candidate
- image
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
Definitions
- the present disclosure relates to a learning device, a learning system, and a learning method for generating learning data used for image recognition.
- image recognition technology for recognizing an object from an image captured by a camera or the like has been rapidly developed by machine learning using deep learning (deep learning) or the like.
- image recognition using machine learning more data of a captured image in which an object (recognition target) is a subject is collected as learning data, and the learning device learns the data, so that an object in an unknown captured image can be obtained. It is possible to improve the recognition accuracy of the trained model.
- a plurality of shooting conditions including camera settings, lighting settings, and placement of the object
- Time-consuming work such as taking a picture by taking a picture.
- a learning data generating apparatus changes each shooting condition while changing at least the shooting condition including information on the position of the camera with respect to the subject.
- a photographing processing unit for associating the photographing environment information including information indicating photographing conditions at the time of photographing with each of the photographed object images generated below, and extracting an object region that is a region where the object is captured from each photographed object image
- Object region extracting means for performing the first object photographing using a second object photographed image having a different photographing condition from the first object photographed image from which the object region is extracted.
- a technique for extracting an object region from an image is known (see Patent Document 1).
- Patent Literature 1 Although a captured image corresponding to a change in the direction of a target object can be obtained, the work load of attaching a label to such a captured image is considered. Did not.
- the present disclosure has been devised in view of such a problem of the related art, and reduces the load on a person who applies a label to a captured image in generating learning data used for image recognition.
- the main object of the present invention is to provide a learning device, a learning system, and a learning method that can perform learning.
- a learning device is a learning device that generates learning data used for image recognition from a captured image generated by a capturing device that captures an object, and a processor that performs a process of generating the learning data.
- a display device for displaying information based on control by the processor, wherein the processor acquires the captured image from the imaging device, and the object included in the captured image is recognized based on an identification model. Acquiring one or more object candidates, and displaying information on the object candidates on the display device as corresponding label candidates of the captured image.
- a learning system includes one or more learning devices and one or more photographing devices.
- a learning method is a learning method using a learning device that generates learning data used for image recognition from a captured image generated by a capturing device that captures an object, and acquires the captured image from the capturing device.
- a display device that obtains one or more object candidates recognized based on an identification model with respect to the target object included in the captured image, and uses the information on the object candidates as a label candidate of the corresponding captured image; Is displayed.
- the learning device the learning system, and the learning method of the present disclosure, it is possible to reduce a load on a person who applies a label to a captured image in generating learning data used for image recognition.
- a learning apparatus that generates learning data used for image recognition from a captured image generated by an imaging apparatus that captures an object.
- a processor that executes a process of generating, and a display device that displays information based on control by the processor, wherein the processor acquires the photographed image from the photographing device and includes the object included in the photographed image.
- the method is characterized in that one or more object candidates recognized based on the identification model are acquired, and information on the object candidates is displayed on the display device as a corresponding label candidate of the captured image.
- information about one or more object candidates recognized based on a predetermined identification model for an object is used as a candidate for a label of learning data for a corresponding captured image. Since the display is performed, the load on the person who applies the label to the captured image can be reduced.
- the second invention relates to the learning device, wherein the processor assigns any of the label candidates selected by a user as a label of the corresponding photographed image.
- a third invention relates to the learning device, wherein the processor displays on the display device an input screen for a user to input a label of the learning data, together with the label candidate.
- a fourth invention relates to the learning device, wherein, when a label different from the label candidate is input to the input screen by the user, the processor identifies the label candidate with respect to the target object. It is characterized in that the object is excluded from the object candidates recognized based on a model.
- a fifth aspect of the present invention relates to the learning device, wherein the processor acquires the set of the captured images obtained by simultaneously capturing the object from different directions from the capturing device, and obtains each captured image of the set of the captured images.
- the candidate for one or more objects recognized based on the identification model and obtain a score representing the likelihood of recognition, respectively, based on each score, based on the information about the candidate for each object , And are displayed on the display device as corresponding label candidates of the photographed image.
- the label candidate is determined based on the scores regarding the object photographed from a plurality of directions, the label candidate is appropriately determined based on the photographed image photographed from a more suitable direction (that is, a direction in which the object can be more easily recognized). Label candidates can be determined.
- the sixth invention relates to the learning device, wherein the processor determines an arrangement of the label candidates on the display device based on the scores corresponding to the label candidates.
- the user can easily recognize a more suitable label candidate (that is, a candidate having a high score indicating the certainty of recognition) based on the arrangement of the label candidates on the display device.
- a seventh invention relates to the learning device, wherein the processor acquires a plurality of photographed images of the object taken from different directions from the photographing device, and acquires the photographed image for each of the photographed directions. Acquiring the one or more candidates recognized based on the identification model with respect to the object included in the display device, and displaying, on the display device, information on the candidate of the object for each of the photographed directions and displaying the candidate of the label. It is characterized by the following.
- the learning device can display the label candidates for each direction in which the object is photographed. Therefore, even if the target object is likely to be erroneously recognized in a specific direction, a more accurate label candidate can be proposed.
- An eighth invention is a learning system including one or more of the learning devices and one or more of the photographing devices according to any of the first to seventh inventions.
- information about one or more object candidates recognized based on a predetermined identification model for an object is used as a candidate for a label of learning data for a corresponding captured image. Since the display is performed, the load on the person who applies the label to the captured image can be reduced.
- the ninth invention relates to the learning system, further comprising a server device that calculates the score, wherein the processor acquires the score calculated by the server device.
- the efficiency of the entire system can be improved by consolidating the processing for calculating the score in the server device.
- a tenth invention is a learning method by a learning device that generates learning data used for image recognition from a captured image generated by a capturing device that captures an object, wherein the learning device includes: Acquiring, for the object included in the captured image, acquiring one or more object candidates recognized based on an identification model, and displaying information on the object candidate as a label candidate corresponding to the captured image. The information is displayed on a device.
- an eleventh invention relates to the learning method, wherein one of the label candidates selected by a user is assigned as a label of the corresponding photographed image.
- the twelfth invention relates to the learning method, wherein an input screen for a user to input a label of the learning data is displayed on the display device together with the label candidate.
- the thirteenth invention relates to the learning method, wherein, when a label different from the label candidate is input to the input screen by the user, the label candidate is recognized with respect to the object based on the identification model. The object is excluded from the candidates for the object.
- a fourteenth invention relates to the learning method, wherein the set of captured images obtained by simultaneously capturing the object from different directions is acquired from the capturing device, and the set of captured images is included in each captured image of the set of captured images.
- the target object one or more object candidates recognized based on the identification model, and a score representing the likelihood of recognition are obtained, and based on each score, information on the candidate for each object is obtained,
- Each of the captured image labels is displayed on the display device as a candidate.
- the fifteenth invention relates to the learning method, wherein the arrangement of the label candidates on the display device is determined based on the scores corresponding to the label candidates.
- a sixteenth aspect of the present invention relates to the learning method, wherein a plurality of captured images of the object taken from different directions are acquired from the image capturing device, and an object included in the captured image is obtained for each of the captured directions. For an object, acquiring the one or more candidates recognized based on the identification model, and displaying, on the display device, information on the object candidate for the label for each of the photographed directions. I do.
- FIG. 1 is a schematic configuration diagram of a learning system 1 according to the first embodiment of the present disclosure.
- the learning system 1 includes a plurality of photographing devices 2 used by a user for photographing a target object, and a process of generating learning data used for image recognition from photographed images generated by the corresponding photographing devices 2 (hereinafter, “learning data”).
- learning data used for image recognition from photographed images generated by the corresponding photographing devices 2
- object recognition process a process of recognizing an object included in a captured image generated by the plurality of learning devices 3 that execute the “generation process”
- object recognition process the captured image generated by the image capturing device 2 based on the identification model
- server device 4 that executes the above.
- the imaging device 2 has a plurality of cameras 5A-5C that can simultaneously capture an object from different directions.
- the reason why the cameras with different orientations are provided is that the characteristics of the external appearance of the target object can be fully captured so that the identification can be correctly performed even if the posture of the target object changes.
- Each of the cameras 5A to 5C is a video camera having a known photographing function, and generates a photographed image (moving image or still image) having the object 6 (see FIG. 2) as a subject.
- the photographing device 2 has a known communication function, and sequentially transmits the generated photographed images to the learning device 3.
- the photographing device 2 can be directly connected to the learning device 3 by a known communication cable or wireless communication, but is not limited to this, and is connected to the learning device 3 via a known communication network 10 (LAN, Internet, etc.). Is also good.
- the target imaged by the imaging device 2 is not limited to the one shown in the present disclosure, but is any object that can be an image recognition target.
- the captured images generated by the cameras 5A to 5C may be of any format as long as they can be used for image recognition (identification of an object).
- the cameras 5A to 5C may use an RGB-D sensor.
- An RGB image and a distance image may be generated as captured images.
- the photographing devices 2 are arranged corresponding to each of the learning devices 3, but the present invention is not limited to this, and one photographing device 2 generates photographed images for a plurality of learning devices 3 and Is also good.
- the image acquisition unit 11 sequentially acquires the captured images generated by the imaging device 2.
- the object identification information acquisition unit 12 obtains one or more object candidates recognized by the server device 4 from the obtained captured image and a score corresponding to the candidate (evaluation value indicating the likelihood of recognition based on a predetermined identification model). To get.
- the object identification information acquisition unit 12 transmits the captured image to the server device 4, and thereby obtains one or more object candidates obtained as a result of the target object recognition processing by the server device 4 and the corresponding score.
- the label candidate setting unit 13 displays information on one or more object candidates (for example, the name of the object) on the display unit 14 as a label candidate of a corresponding captured image based on the obtained score.
- the learning device 3 includes a storage unit 22 that stores various information and data used in a learning data generation process, and an input unit 23 that allows a user (for example, a photographer) to perform an input operation on the learning device 3. Is further provided.
- the display unit 14 can appropriately display information necessary for the user regarding the learning data generation process, in addition to the above-described label candidates.
- the server device 4 includes an image acquisition unit 24 that sequentially acquires captured images transmitted from the learning device 3 and a storage unit 26 that stores an identification model (learned model) 25 used for image recognition (identification of an unknown object). And an image identification unit 27 that identifies an object in the captured image as an unknown object by the identification model 25.
- the image identification unit 27 can identify an object using the identification model 25 by a known method.
- a learned model obtained by learning based on learning data including captured images obtained from a plurality of learning devices 3 can be used as the identification model 25.
- the object identification information acquisition unit 12 of the learning device 3 extracts a feature amount of a target object (foreground region) included in the captured image, and transmits information on the extracted feature amount to the server device 4.
- the image identification unit 27 of the server device 4 can identify the object by the identification model 25 based on the information of the feature amount from the learning device 3.
- FIG. 2 is an explanatory diagram showing a configuration example of the photographing device 2 shown in FIG.
- the imaging device 2 includes a substantially flat base portion 31 placed on a floor surface, a desk top surface, or the like, a substantially flat first arm portion 32 extending from one end of the base portion 31 in a substantially vertical direction.
- a substantially flat second arm 33 extending obliquely upward from the upper end of the first arm 32 toward the other end of the base 31, and the base 31 from the upper end of the second arm 33;
- a third arm 34 extending substantially horizontally toward the other end of the arm.
- the imaging device 2 includes a built-in battery (or a power cable), a wireless communication unit (or a communication cable) for performing communication with the learning device 3, and the like.
- the base portion 31 has a turntable 41 provided rotatably about a vertical axis.
- the user places the object (in this case, a beverage container) 6 on the turntable 41 and rotates the turntable 41 at a desired rotation angle in this state, so that the direction of the object 6 with respect to the cameras 5A-5C ( That is, the arrangement of the object 6 with respect to the cameras 5A-5C can be changed.
- a planar view camera 5A is arranged on the lower surface side of the third arm unit 34.
- the photographing direction of the planar view camera 5A is directed to the lower rotating table 41, and can photograph a photographed image 46 substantially corresponding to the plan view of the object 6.
- a perspective camera 5B is arranged on the lower surface side (inner surface side) of the second arm portion 33.
- the photographing direction of the camera 5B is directed to the turntable 41 obliquely downward, and can photograph a photographed image 47 substantially corresponding to a perspective view from above the object 6.
- a side view camera 5C is disposed on the inner side of the first arm 32 (the other end of the base 31).
- the shooting direction of the camera 5C is oriented substantially in the horizontal direction (above the turntable 41), and can shoot a shot image 48 substantially corresponding to the side view of the object 6.
- the configuration of the photographing device 2 (for example, the number of cameras, the photographing direction) is not limited to that shown in FIG.
- the imaging device 2 may have at least one camera.
- FIG. 3 is an explanatory diagram showing the hardware configuration of the learning device 3 shown in FIG.
- the learning device 3 includes a computer having a known hardware configuration, and a processor 51 that collectively executes learning data collection processing (including object recognition processing as necessary) based on a predetermined control program.
- a RAM 52 which is a volatile memory functioning as a work area for the CPU 51;
- a ROM 53 which is a nonvolatile memory for storing control programs and data executed by the processor 51;
- a storage device 54 such as an HDD or a flash memory;
- the display device 55 includes a display device 55, an input device 56 including input devices such as a keyboard, a mouse, and a touch panel, a communication module 57 for executing communication with other devices, and the like.
- the functions of the display unit 14, the storage unit 22, and the input unit 23 in the learning device 3 illustrated in FIG. 1 can be realized by the display device 55, the storage device 54, and the input device 56 illustrated in FIG. 2, respectively. At least a part of the functions of the image acquisition unit 11, the object identification information acquisition unit 12, and the label candidate setting unit 13 in the learning device 3 can be realized by the processor 51 executing the control program. Note that the learning device 3 is not necessarily limited to the configuration illustrated in FIG. 3, and at least a part of the functions of the learning device 3 illustrated in FIG. 1 may be replaced by processing by another known hardware. Good.
- the server device 4 can be configured by a computer having a known configuration similar to the learning device 3 described above.
- the storage unit 26 can be realized by a device similar to the storage device 54, and at least some of the functions of the image acquisition unit 24 and the image identification unit 27 are realized by the processor executing a control program. It is possible.
- FIG. 4 is a flowchart showing the flow of processing (learning data generation processing of the learning device 3 and target object recognition processing of the server device 4) in the learning system 1, and FIG.
- FIG. 6 is an explanatory diagram showing an example of an operation screen
- FIG. 6 is an explanatory diagram showing an example of a score calculated in step ST204 in FIG. 4
- FIG. 7 is a user operation screen in step ST106 in FIG. 8 to 11 are first to fourth examples of the user's operation screen in step ST107 in FIG. 4, respectively.
- the learning device 3 acquires the photographed image and the related information (the photographing of the cameras 5A-5C).
- the photographing data including the condition is acquired from the photographing device 2 (ST102).
- a plurality of (three) pieces of photographed data (captured images) are acquired by each of the cameras 5A to 5C.
- the learning system 1 only needs to acquire at least one photographed image.
- step ST101 the display device 55 displays, for example, a shooting screen 61 as shown in FIG.
- the shooting button 62 By clicking (pressing) the shooting button 62 on the shooting screen 61, the user can execute shooting with the cameras 5A-5C.
- the user operates the camera selection button 63 (presses any one of the cameras 1-3) to take a photographed image displayed in the image display area 64 with the corresponding one of the cameras 5A-5C. Can be changed to an image.
- step ST103 the learning device 3 transmits the photographed image acquired from the photographing device 2 to the server device 4 (ST103).
- step ST103 as described above, a configuration in which the information on the feature amount of the target object extracted by the learning device 3 is transmitted to the server device 4 is also possible.
- the server device 4 When receiving the captured image from the learning device 3 (ST201: Yes), the server device 4 extracts the foreground area of the captured image as an object (object) (ST202), and extracts a feature amount from the foreground area (ST203). . At this time, the server device 4 can extract the feature amount based on a method such as HOG (Histograms of Oriented Gradients) or SURF (Speeded-Up Robust Features), or a method using deep learning. Further, the server device 4 performs recognition of the object using the identification model 25, and calculates a candidate representing the recognized object and a score representing the certainty of the recognition based on the identification model 25 (ST204).
- HOG Heistograms of Oriented Gradients
- SURF Speeded-Up Robust Features
- the server device 4 calculates, as the object recognition result, a candidate for the recognized object (here, a label used in the identification model 25) as shown in FIG. 6 and a score corresponding to the candidate.
- the score is a value set in a range of, for example, 0 to 100, and a higher value indicates a higher probability of recognition. A value in another range may be used as long as the value indicates the level of certainty of recognition.
- the server device 4 transmits information relating to the recognition result of the object in Step ST204 (including the candidate (label) and the score of the recognized object) to the learning device 3 (ST205).
- the score included in the recognition result is a score having a value equal to or greater than a preset threshold (that is, the certainty of the recognition). It is determined whether or not there is a candidate for the object having a high level (ST105).
- step ST105 If there is no score with a value equal to or greater than the threshold value in step ST105 (No), the learning device 3 executes a process for prompting the user to input a label (label of learning data) for the captured image (ST106).
- the learning device 3 displays an input screen 71 for the user to input a label in the shooting screen 61, for example, as shown in FIG.
- the user can input a label (here, “object a”) corresponding to the captured image (that is, the target object) on the input screen 71.
- object a a label corresponding to the captured image (that is, the target object) on the input screen 71.
- the user can input an appropriate label to give an appropriate label.
- step ST105 if there is a score with a value equal to or greater than the threshold for one or more object candidates (Yes), the learning device 3 sets the candidate for the object having a score equal to or greater than the threshold as a label candidate 55 is displayed (ST107). Therefore, when the user approves the label candidate (any one) displayed on the display device 55 (ST108: Yes), the learning device 3 sets the candidate object as a label corresponding to the captured image. Automatic input (recorded as a label of learning data) (ST109). In step ST108, the user can select (ie, approve) one of the candidate objects displayed on the display device 55 by operating the input device 56, for example. As described above, since the label candidate selected by the user is assigned as the label of the captured image, it is possible to effectively reduce the load of the user (label assigner) assigning the label to the captured image. it can.
- step ST108 the learning device 3 executes a process of prompting the user to input a label corresponding to the captured image as in the above-described case (ST106). ).
- the learning device 3 determines whether the label candidate for which the user's approval has not been obtained from the server device from the next time on. A command for excluding (deleting corresponding data) from object candidates recognized by 4 can be transmitted to the server device 4.
- the learning device 3 can display a recognition result screen 75 as shown in FIG. FIG. 8 shows an example in which one object candidate (object a) having the highest score is displayed together with its image.
- the user can press the registration button 77 as an approval operation in step ST108. If the user determines that the object a does not correspond to the target, the user performs an operation related to the above-described step ST106 in the label input box 78 displayed on the recognition result screen 75 in accordance with the captured image (that is, the target). (Here, the name of an object other than the object a) can be input.
- the learning device 3 can display a recognition result screen 75 as shown in FIG.
- FIG. 9 illustrates an example in which a plurality of object candidates (objects a, c, and g) having a score of a value equal to or larger than the threshold are arranged in order from the highest score along with the images. If the user determines that any one of the objects a, c, and g corresponds to the target, the user selects (clicks) an image of the corresponding one object on the recognition result screen 75 as an approval operation in step ST108. After that, the registration button 77 can be pressed.
- the user determines that none of the objects a, c, and g correspond to the target, the user performs an operation relating to the step ST106 in the label input box 78 displayed on the recognition result screen 75 (that is, the captured image (that is, the captured image)).
- An object here, names of objects other than the objects a, c, and g
- the learning device 3 can display a recognition result screen 75 as shown in FIG. 10, for example.
- a recognition result screen 75 As another example, in step ST107, the learning device 3 can display a recognition result screen 75 as shown in FIG. 10, for example.
- the user selects (clicks) an image of the corresponding one object on the recognition result screen 75 as an approval operation in step ST108. After that, the registration button 77 can be pressed.
- the user determines that none of the objects m, c, and x corresponds to the target, the user performs an operation related to the above-described step ST106 in the label input box 78 displayed on the recognition result screen 75 (that is, the captured image (that is, the captured image)).
- An object here, names of objects other than the objects m, c, and x
- the photographing apparatus 2 includes the cameras 5A to 5C in a fixed direction, but the same photographed image can be obtained by making one camera movable. That is, the example shown in FIG. 10 showing candidates for each camera is an example of displaying candidates for each shooting direction. In this way, even when learning an object that is likely to be erroneously recognized in a specific orientation, candidates viewed from another direction can be displayed, so that there is a possibility that a more accurate label can be proposed. Increase.
- the learning device 3 can display a recognition result screen 75 as shown in FIG. 11, for example.
- FIG. 11 shows an example in which an object a having a score equal to or greater than the threshold value and its image, and a corresponding captured image are arranged as comparison targets.
- the user can press the registration button 77 as the approval operation in step ST108. If the user determines that the object a does not correspond to the target, the user performs an operation related to the above-described step ST106 in the label input box 78 displayed on the recognition result screen 75 in accordance with the captured image (that is, the target). (Here, the name of an object other than the object a) can be input.
- the learning system 1 in generating learning data used for image recognition, information on one or more object candidates recognized on the target object 6 based on the predetermined identification model is learned on the corresponding captured image. Since the data is displayed on the display device 55 as a label candidate, it is possible to reduce the load on the person who applies the label to the captured image.
- the candidate of the object and the score recognized by the server device 4 are transmitted to the learning device 3, and the learning device 3 determines whether or not there is a candidate whose score is equal to or larger than the threshold. It is not limited to this.
- the server device 4 may determine whether or not there is a candidate whose score is equal to or greater than the threshold, and transmit only the candidate whose score is equal to or greater than the threshold to the learning device 3. In this case, if the server device 4 can narrow down the candidates, the score need not be transmitted to the learning device 3.
- FIG. 12 is a schematic configuration diagram of the learning system 1 according to the second embodiment of the present disclosure. 12, the same components as those shown in FIG. 1 are denoted by the same reference numerals. Regarding the learning system 1 according to the second embodiment, items that are not particularly mentioned below are the same as those in the above-described first embodiment.
- the learning device 3 stores the identification model (learned model) 25 in the storage unit 26.
- the image identification unit 27 the object recognition processing can be executed instead of the server device 4.
- the learning data generation process can be completed only by the learning device 3.
- the present disclosure has been described above based on specific embodiments, these embodiments are merely examples, and the present disclosure is not limited to these embodiments. Further, the learning device, the learning system, and the learning method according to the present disclosure described in the above embodiments are not necessarily all indispensable, and those skilled in the art will appropriately select at least as long as they do not deviate from the scope of the present disclosure. It is possible.
- a learned model obtained by learning based on learning data including captured images obtained from a plurality of learning devices 3 is used as the identification model 25, but the present invention is not limited to this.
- a standard learned model prepared in advance may be prepared and used as the identification model 25.
- the learning device, the learning system, and the learning method according to the present disclosure can reduce the load on a person who applies a label to a captured image in generating learning data used for image recognition,
- the present invention is useful as a learning data collection device, a learning data collection system, and a learning data collection method for generating learning data to be used.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
【課題】画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減する。【解決手段】学習装置が、学習データを生成する処理を実行するプロセッサと、表示装置と、を備え、プロセッサが、撮影画像を撮影装置から取得し、その撮影画像に含まれる対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示する構成とする。
Description
本開示は、画像認識に利用される学習データを生成する学習装置、学習システム、及び学習方法に関する。
近年、カメラの撮影画像などから対象物を認識する画像認識の技術が、ディープラーニング(深層学習)などを用いた機械学習により急速に発展している。機械学習を利用した画像認識では、対象物(認識対象)を被写体とする撮影画像のデータを学習データとしてより多く収集し、これを学習器に学習させることで、未知の撮影画像における対象物を学習済モデルで認識する精度を向上させることが可能となる。
そのような学習データの収集において、対象物の画像を含む撮影画像を網羅的に収集するためには、複数の撮影条件(カメラ設定、照明設定、対象物の配置などを含む)を適切に設定して撮影を行うなどの手間の掛かる作業が生じる。
そこで、そのような学習データを簡易に生成するための技術が開発されており、例えば、学習データ生成装置が、被写体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第1の物体撮影画像とは撮影条件が異なる第2の物体撮影画像を用いて、第1の物体撮影画像から物体領域を抽出するようにした技術が知られている(特許文献1参照)。
ところで、いわゆる教師あり学習では、学習データに正解ラベルを付与する必要があるが、上記のように学習データとしてより多くの撮影画像が取得された場合には、ラベルの入力に長い時間がかかり、その作業者には大きな負荷がかかる。
しかしながら、上記特許文献1に記載されたような従来技術では、対象物の向きの変化に対応した撮影画像が得られるものの、そのような撮影画像へのラベルの付与の作業負荷については考慮されていなかった。
本開示は、このような従来技術の課題を鑑みて案出されたものであり、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することができる学習装置、学習システム、及び学習方法を提供することを主目的とする。
本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサと、前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする。
本開示の学習システムは、1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする。
本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする。
本開示の学習装置、学習システム、及び学習方法によれば、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することが可能となる。
上記課題を解決するためになされた第1の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサと、前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする。
これによると、画像認識に利用される学習データの生成において、対象物に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
また、第2の発明は、前記学習装置に関し、前記プロセッサは、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
これによると、表示装置に表示され、かつユーザによって選択されたラベルの候補を撮影画像のラベルとして付与するため、ユーザ(ラベルを付与する者)が撮影画像に対してラベルを付与する負荷をより効果的に軽減することができる。
また、第3の発明は、前記学習装置に関し、前記プロセッサは、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
これによると、表示装置に表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。
また、第4の発明は、前記学習装置に関し、前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。
これによると、不適切なラベルの候補が表示装置に繰り返し表示されることを回避することが可能となる。
また、第5の発明は、前記学習装置に関し、前記プロセッサは、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。
これによると、複数の方向から撮影した対象物に関するスコアに基づきラベルの候補が決定されるため、より適した方向(すなわち、対象物をより認識し易い方向)から撮影された撮影画像に基づき適切なラベルの候補を決定することができる。
また、第6の発明は、前記学習装置に関し、前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。
これによると、ユーザは、表示装置における各ラベルの候補の配置に基づき、より適した(すなわち、認識の確からしさを表すスコアの高い)ラベル候補を容易に認識することが可能となる。
また、第7の発明は、前記学習装置に関し、前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。
これによると、学習装置は、対象物を撮影した向きごとにラベル候補を表示させることができる。そのため、対象物が、特定の向きでは誤認識されやすいものであったとしても、より正確なラベル候補を提案することができる。
また、第8の発明は、上記第1から第7の発明のいずれかに係る1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする学習システムである。
これによると、画像認識に利用される学習データの生成において、対象物に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
また、第9の発明は、前記学習システムに関し、前記スコアを算出するサーバ装置を更に備え、前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする。
これによると、学習システム内に複数の学習装置を設けた場合でも、スコアを算出する処理をサーバ装置に集約することにより、システム全体の効率を向上させることが可能となる。
また、第10の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする。
また、第11の発明は、前記学習方法に関し、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
また、第12の発明は、前記学習方法に関し、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
また、第13の発明は、前記学習方法に関し、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。
また、第14の発明は、前記学習方法に関し、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。
また、第15の発明は、前記学習方法に関し、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。
また、第16の発明は、前記学習方法に関し、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。
以下、本開示の実施形態について、図面を参照しながら説明する。
(第1実施形態)
図1は、本開示の第1実施形態に係る学習システム1の概略構成図である。
図1は、本開示の第1実施形態に係る学習システム1の概略構成図である。
学習システム1は、ユーザが対象物の撮影に用いる複数の撮影装置2と、対応する撮影装置2によって生成された撮影画像から画像認識に利用される学習データを生成する処理(以下、「学習データ生成処理」という。)を実行する複数の学習装置3と、撮影装置2によって生成された撮影画像に含まれる対象物を、識別モデルに基づき認識する処理(以下、「対象物認識処理」という。)を実行するサーバ装置4と、を主として備える。
なお、図1に示した複数の撮影装置2は、同様の構成を有しているため、以下では、特に必要のない限りそれらを区別することなく説明する。また、複数の学習装置3についても同様である。
撮影装置2は、対象物を互いに異なる向きから同時に撮影可能な複数のカメラ5A-5Cを有する。異なる向きカメラを設けている理由は、対象物外観の特徴を全体的に捉え、対象物の姿勢が変わっても識別を正しく実施できるようにするためである。カメラ5A-5Cは、それぞれ公知の撮影機能を有するビデオカメラであり、対象物6(図2参照)を被写体とする撮影画像(動画または静止画)を生成する。また、撮影装置2は、公知の通信機能を有し、生成した撮影画像を学習装置3に対して順次送信する。撮影装置2は、公知の通信ケーブルや無線通信により学習装置3に直接接続可能であるが、これに限らず、公知の通信ネットワーク10(LAN、インターネット等)を介して学習装置3に接続されてもよい。
なお、撮影装置2によって撮影される対象物は、本開示に示すものに限定されず、画像認識の対象となり得る任意の物体である。また、カメラ5A-5Cによって生成される撮影画像としては、画像認識(対象物の識別)に利用可能な限りにおいて任意の形式を採用することができ、例えば、カメラ5A-5CがRGB-Dセンサを備えることにより、撮影画像としてRGB 画像および距離画像が生成されてもよい。また、本開示では、学習装置3の各々に対応して撮影装置2が配置されているが、これに限らず、1つの撮影装置2が複数の学習装置3のために撮影画像を生成してもよい。
学習装置3において、画像取得部11は、撮影装置2によって生成された撮影画像を順次取得する。また、物体識別情報取得部12は、得られた撮影画像からサーバ装置4によって認識された1以上の物体の候補及びそれに対応するスコア(所定の識別モデルに基づく認識の確からしさを表す評価値)を取得する。本実施形態では、物体識別情報取得部12は、撮影画像をサーバ装置4に送信することにより、サーバ装置4による対象物認識処理の結果として得られた1以上の物体の候補及びそれに対応するスコアを取得する。また、ラベル候補設定部13は、得られたスコアに基づき、1以上の物体の候補に関する情報(例えば、物体の名称)を、対応する撮影画像のラベルの候補として表示部14に表示する。
また、学習装置3は、学習データ生成処理に用いられる各種情報やデータを記憶する記憶部22と、ユーザ(例えば、撮影者)が学習装置3に対して入力操作を行うための入力部23と、を更に備える。なお、表示部14は、上述のラベルの候補以外にも、学習データ生成処理に関してユーザに必要な情報を適宜表示することができる。
サーバ装置4は、学習装置3から送信された撮影画像を順次取得する画像取得部24と、画像認識(未知の物体の識別)に用いられる識別モデル(学習済みモデル)25を記憶する記憶部26と、撮影画像における対象物を、識別モデル25により未知の物体として識別する画像識別部27と、を備える。画像識別部27は、公知の手法により、識別モデル25により物体の識別を行うことができる。
なお、識別モデル25としては、複数の学習装置3から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いることができる。また、学習システム1では、学習装置3の物体識別情報取得部12が撮影画像に含まれる対象物(前景領域)の特徴量を抽出し、その抽出した特徴量の情報をサーバ装置4に送信する構成も可能である。その場合、サーバ装置4の画像識別部27は、学習装置3からの特徴量の情報に基づき、識別モデル25により物体の識別を行うことができる。
図2は、図1に示した撮影装置2の構成例を示す説明図である。
撮影装置2は、床面や机上面等に載置される略平板状のベース部31と、ベース部31の一端側から略鉛直方向に延出する略平板状の第1のアーム部32と、第1のアーム部32の上端からベース部31の他端側に向けて斜め上方に延出する略平板状の第2のアーム部33と、第2のアーム部33の上端からベース部31の他端側に向けて略水平に延出する第3のアーム部34と、を有する。なお、図2では、図示を省略するが、撮影装置2は、内蔵バッテリ(または電源ケーブル)や、学習装置3との通信を行うための無線通信部(または通信ケーブル)等を備える。
ベース部31は、鉛直方向の軸周りに回転自在に設けられた回転台41を有している。ユーザは、対象物(ここでは、飲料容器)6を回転台41上に配置し、その状態で回転台41を所望の回転角度で回転させることにより、カメラ5A-5Cに対する対象物6の方向(すなわち、カメラ5A-5Cに対する対象物6の配置)を変更することができる。
第3のアーム部34の下面側には、平面視カメラ5Aが配置されている。平面視カメラ5Aの撮影方向は、下方の回転台41に向けられており、対象物6の平面図に概ね相当する撮影画像46を撮影可能である。
また、第2のアーム部33の下面側(内面側)には、斜視カメラ5Bが配置されている。カメラ5Bの撮影方向は、斜め下方の回転台41に向けられており、対象物6の上側からの斜視図に概ね相当する撮影画像47を撮影可能である。
また、第1のアーム部32の内面側(ベース部31の他端側)には、側面視カメラ5Cが配置されている。カメラ5Cの撮影方向は、略水平方向(回転台41の上方)に向けられており、対象物6の側面図に概ね相当する撮影画像48を撮影可能である。
なお、撮影装置2の構成(例えば、カメラの数、撮影方向)は、図2に示したものに限らず種々の変更が可能である。撮影装置2は、少なくとも1つのカメラを有するものであればよい。
図3は、図1に示した学習装置3のハードウェア構成を示す説明図である。
学習装置3は、公知のハードウェア構成を有するコンピュータからなり、所定の制御プログラムに基づき、学習データの収集処理(必要に応じて物体認識処理を含む)を統括的に実行するプロセッサ51、このプロセッサ51のワークエリア等として機能する揮発性メモリであるRAM52、プロセッサ51が実行する制御プログラムやデータを格納する不揮発性メモリであるROM53、HDDやフラッシュメモリ等からなる記憶装置54、液晶モニタ等からなる表示装置55、キーボード、マウス、及びタッチパネル等の入力デバイスからなる入力装置56、他の装置との通信を実行する通信モジュール57等を有している。
図1に示した学習装置3における表示部14、記憶部22、及び入力部23の機能は、それぞれ図2に示した表示装置55、記憶装置54、及び入力装置56によって実現可能である。また、学習装置3における画像取得部11、物体識別情報取得部12、及びラベル候補設定部13の機能の少なくとも一部は、プロセッサ51が制御プログラムを実行することによって実現可能である。なお、学習装置3は、必ずしも図3に示した構成に限定される必要はなく、図1に示した学習装置3の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。
なお、サーバ装置4のハードウェア構成については、説明を省略するが、サーバ装置4は、上記学習装置3と同様の公知の構成を有するコンピュータから構成することができる。その場合、記憶部26は、記憶装置54と同様の装置によって実現可能であり、また、画像取得部24及び画像識別部27の機能の少なくとも一部は、プロセッサが制御プログラムを実行することによって実現可能である。
図4は、学習システム1における処理(学習装置3の学習データ生成処理、サーバ装置4の対象物認識処理)の流れを示すフロー図であり、図5は、図4中のステップST101におけるユーザの操作画面の例を示す説明図であり、図6は、図4中のステップST204において算出されるスコアの一例を示す説明図であり、図7は、図4中のステップST106におけるユーザの操作画面の例を示す説明図であり、図8-図11は、それぞれ図4中のステップST107におけるユーザの操作画面の第1-第4の例を示す説明図である。
図4に示すように、学習装置3は、撮影装置2おいてユーザが対象物を撮影する操作が実行されると(ST101:Yes)、その撮影画像およびその関連情報(カメラ5A-5Cの撮影条件等)を含む撮影データを撮影装置2から取得する(ST102)。なお、本開示では、各カメラ5A-5Cにより複数(3つ)の撮影データ(撮影画像)が取得されるが、学習システム1では、少なくとも1つの撮影画像が得られればよい。
上記ステップST101では、表示装置55には、例えば図5に示すような撮影画面61が表示される。ユーザは、撮影画面61において、撮影ボタン62をクリック(押下)することにより、カメラ5A-5Cによる撮影を実行することができる。また、ユーザは、カメラ選択ボタン63を操作(カメラ1-3のいずれかのボタン押下)することにより、画像表示エリア64に表示中の撮影画像を、対応するカメラ5A-5Cのいずれかの撮影画像に変更することができる。
次に、学習装置3は、撮影装置2から取得した撮影画像をサーバ装置4に対して送信する(ST103)。なお、ステップST103では、上述のように、学習装置3で抽出した対象物の特徴量の情報をサーバ装置4に送信する構成も可能である。
サーバ装置4は、学習装置3から撮影画像を受信すると(ST201:Yes)、撮影画像の前景領域を物体(対象物)として抽出し(ST202)、その前景領域から特徴量を抽出する(ST203)。このとき、サーバ装置4は、例えば、HOG(Histograms of Oriented Gradients)やSURF (Speeded-Up Robust Features)などの手法や、ディープラーニングを用いた手法に基づき特徴量を抽出することができる。さらに、サーバ装置4は、識別モデル25により物体の認識を行うことにより、識別モデル25に基づき、認識した物体の候補およびその認識の確からしさを表すスコアを算出する(ST204)。
上記ステップST204では、サーバ装置4は、物体の認識結果として、例えば図6に示すような認識した物体の候補(ここでは、識別モデル25で用いられるラベル)およびそれに対応するスコアを算出する。ここでは、スコアは、例えば0~100の範囲で設定される値であり、より高い値ほど認識の確からしさが高いことを示す。認識の確からしさの高さを示す値であれば、他の範囲の値であってもよい。
その後、サーバ装置4は、ステップST204における物体の認識結果に関する情報(認識した物体の候補(ラベル)およびスコアを含む)を学習装置3に対して送信する(ST205)。
学習装置3は、サーバ装置4から物体の認識結果に関する情報を受信すると(ST104:Yes)、その認識結果に含まれるスコアについて、予め設定された閾値以上の値のスコア(すなわち、認識の確からしさの高い物体の候補)が存在するか否かを判定する(ST105)。
ステップST105において閾値以上の値のスコアが存在しない場合(No)、学習装置3は、ユーザに撮影画像に対するラベル(学習データのラベル)を入力させるための処理を実行する(ST106)。
上記ステップST106では、学習装置3は、例えば図7に示すように、ユーザがラベル入力するための入力画面71を撮影画面61中に表示する。ユーザは、入力画面71において、撮影画像(すなわち、対象物)に対応するラベル(ここでは、「物体a」)を入力することができる。このように、表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。
一方、ステップST105において、1以上の物体の候補について閾値以上の値のスコアが存在する場合(Yes)、学習装置3は、閾値以上の値のスコアを有する物体の候補をラベルの候補として表示装置55に表示する(ST107)。そこで、学習装置3は、表示装置55に表示されたラベルの候補(いずれか1つ)に対してユーザの承認を得ると(ST108:Yes)、その物体の候補を撮影画像に対応するラベルとして自動入力(学習データのラベルとして記録)する(ST109)。ステップST108では、ユーザは、例えば入力装置56の操作により、表示装置55に表示された物体の候補の1つを選択(すなわち、承認)することができる。このように、ユーザによって選択されたラベルの候補が撮影画像のラベルとして付与されるため、ユーザ(ラベルを付与する者)が撮影画像に対してラベルを付与する負荷を効果的に軽減することができる。
また、学習装置3は、ステップST108において、ユーザの承認を得られなかった場合(No)には、上述の場合と同様に、撮影画像に対応するラベルをユーザに入力させる処理を実行する(ST106)。このとき、表示装置55に表示されたラベルの候補とは異なるラベルがユーザによって入力された場合には、学習装置3は、ユーザの承認を得られなかったラベルの候補について、次回以降にサーバ装置4が認識する物体の候補から除外(対応するデータを削除)させるための命令をサーバ装置4に送信することができる。
上記ステップST107では、学習装置3は、例えば図8に示すような認識結果画面75を撮影画面61中に表示することができる。図8では、最も高いスコアを有する1つの物体の候補(物体a)がその画像と共に表示される例を示している。ユーザは、物体aが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、登録ボタン77を押下することができる。また、ユーザは、物体aが対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a以外の物体の名称)を入力することができる。
また、別の例として、上記ステップST107では、学習装置3は、例えば図9に示すような認識結果画面75を撮影画面61中に表示することができる。図9では、閾値以上の値のスコアを有する複数の物体の候補(物体a、c、g)がそれらの画像と共にスコアの高い順に上から順に配置される例を示している。ユーザは、物体a、c、gのいずれかが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、認識結果画面75において、該当する1つの物体の画像を選択(クリック)した後に、登録ボタン77を押下することができる。また、ユーザは、物体a、c、gのいずれも対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a、c、g以外の物体の名称)を入力することができる。
また、別の例として、上記ステップST107では、学習装置3は、例えば図10に示すような認識結果画面75を表示することができる。図10では、各カメラ5A-5Cの撮影画像(対象物)に関し、閾値以上の値のスコアを有する複数の物体の候補(物体m、c、x)がそれらの画像と共にスコアの高い順に左から順に配置される例を示している。ユーザは、物体m、c、xのいずれかが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、認識結果画面75において、該当する1つの物体の画像を選択(クリック)した後に、登録ボタン77を押下することができる。また、ユーザは、物体m、c、xのいずれも対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体m、c、x以外の物体の名称)を入力することができる。
なお、本実施の形態では、撮影装置2は、各カメラ5A-5Cを固定的した向きで備えているが、1つのカメラを可動式にすることで同様の撮影画像を得ることもできる。すなわち、図10に記載のカメラごとに候補を示す例は、撮影した向きごとに候補を表示する一例である。このようにすることで、特定の向きでは誤認識が発生しやすい対象物を学習させる場合であっても、別の向きから見た候補を表示できるため、より正確なラベルを提案できる可能性が高まる。
また、別の例として、上記ステップST107では、学習装置3は、例えば図11に示すような認識結果画面75を表示することができる。図11では、閾値以上の値のスコアを有する物体aおよびその画像と共に、対応する撮影画像が比較対象として配置される例を示している。ユーザは、物体aが撮影画像に含まれる対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、登録ボタン77を押下することができる。また、ユーザは、物体aが対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a以外の物体の名称)を入力することができる。
このように、学習システム1では、画像認識に利用される学習データの生成において、対象物6に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示装置55に表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
なお、本実施形態では、サーバ装置4が認識した物体の候補およびスコアを学習装置3に送信し、学習装置3にてスコアが閾値以上の候補が存在するか否かを判定していたが、これに限られるものではない。サーバ装置4にてスコアが閾値以上の候補が存在するか否かを判定し、スコアが閾値以上の候補のみを学習装置3に送信するものとしてもよい。この場合、サーバ装置4にて候補が絞り込めるのであれば、スコアを学習装置3に送信しなくともよい。
(第2実施形態)
図12は、本開示の第2実施形態に係る学習システム1の概略構成図である。図12では、図1に示したものと同様の構成要素について同一の符号が付されている。また、第2実施形態に係る学習システム1に関し、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図12は、本開示の第2実施形態に係る学習システム1の概略構成図である。図12では、図1に示したものと同様の構成要素について同一の符号が付されている。また、第2実施形態に係る学習システム1に関し、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
上述の第1実施形態では、サーバ装置4が対象物認識処理を実行する例を示したが、第2実施形態では、学習装置3が、識別モデル(学習済みモデル)25を記憶する記憶部26と、画像識別部27とを備えることにより、サーバ装置4の代わりに対象物認識処理を実行することができる。
このような構成により、第2実施形態に係る学習システム1では、学習装置3のみで学習データ生成処理を完結させることができる。
以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。また、上記実施形態に示した本開示に係る学習装置、学習システム、及び学習方法は、必ずしも全てが必須ではなく、当業者であれば、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。
上記の実施の形態では、識別モデル25として、複数の学習装置3から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いていたが、これに限られるものではない。複数の学習装置3の間で学習結果を共有できない場合などに備え、予め用意された標準的な学習済みモデルを用意し識別モデル25として用いてもよい。
本開示に係る学習装置、学習システム、及び学習方法は、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することを可能とし、画像認識に利用される学習データを生成する学習データ収集装置、学習データ収集システム、及び学習データ収集方法などとして有用である。
1 :学習システム
1-3 :カメラ
2 :撮影装置
3 :学習装置
4 :サーバ装置
5A-5C:カメラ
6 :対象物
10 :通信ネットワーク
11 :画像取得部
12 :物体識別情報取得部
13 :ラベル候補設定部
24 :画像取得部
25 :識別モデル
26 :記憶部
27 :画像識別部
41 :回転台
46-48:撮影画像
51 :プロセッサ
54 :記憶装置
55 :表示装置
56 :入力装置
57 :通信モジュール
61 :撮影画面
62 :撮影ボタン
63 :カメラ選択ボタン
64 :画像表示エリア
71 :入力画面
75 :認識結果画面
77 :登録ボタン
78 :ラベル入力欄
1-3 :カメラ
2 :撮影装置
3 :学習装置
4 :サーバ装置
5A-5C:カメラ
6 :対象物
10 :通信ネットワーク
11 :画像取得部
12 :物体識別情報取得部
13 :ラベル候補設定部
24 :画像取得部
25 :識別モデル
26 :記憶部
27 :画像識別部
41 :回転台
46-48:撮影画像
51 :プロセッサ
54 :記憶装置
55 :表示装置
56 :入力装置
57 :通信モジュール
61 :撮影画面
62 :撮影ボタン
63 :カメラ選択ボタン
64 :画像表示エリア
71 :入力画面
75 :認識結果画面
77 :登録ボタン
78 :ラベル入力欄
Claims (16)
- 対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、
前記学習データを生成する処理を実行するプロセッサと、
前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、
前記プロセッサは、
前記撮影画像を前記撮影装置から取得し、
前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、
前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする学習装置。 - 前記プロセッサは、
ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする請求項1に記載の学習装置。 - 前記プロセッサは、
前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする請求項1に記載の学習装置。 - 前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする請求項3に記載の学習装置。
- 前記プロセッサは、
前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、
前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする請求項1から請求項4のいずれかに記載の学習装置。 - 前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項5に記載の学習装置。
- 前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、
前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする請求項1に記載の学習装置。 - 請求項1から請求項7のいずれかに記載の1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする学習システム。
- 前記識別モデルに基づき認識された1以上の物体について、認識の確からしさを表すスコアを算出するサーバ装置を更に備え、
前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする請求項8に記載の学習システム。 - 対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、
前記撮影画像を前記撮影装置から取得し、
前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、
前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする学習方法。 - ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする請求項10に記載の学習方法。
- 前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする請求項10に記載の学習方法。
- 前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする請求項12に記載の学習方法。
- 前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、
前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする請求項10から請求項13のいずれかに記載の学習方法。 - 前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項14に記載の学習方法。
- 前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、
前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする請求項10に記載の学習方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201980043630.8A CN112368724A (zh) | 2018-07-02 | 2019-04-23 | 学习装置、学习系统以及学习方法 |
| EP19831343.9A EP3819865A4 (en) | 2018-07-02 | 2019-04-23 | LEARNING DEVICE, LEARNING SYSTEM AND LEARNING PROCESS |
| US17/256,829 US11436439B2 (en) | 2018-07-02 | 2019-04-23 | System and method for generating label candidates related to recognition target for selection and learning |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018-126400 | 2018-07-02 | ||
| JP2018126400A JP7308421B2 (ja) | 2018-07-02 | 2018-07-02 | 学習装置、学習システム、及び学習方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2020008711A1 true WO2020008711A1 (ja) | 2020-01-09 |
Family
ID=69060632
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2019/017237 Ceased WO2020008711A1 (ja) | 2018-07-02 | 2019-04-23 | 学習装置、学習システム、及び学習方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US11436439B2 (ja) |
| EP (1) | EP3819865A4 (ja) |
| JP (1) | JP7308421B2 (ja) |
| CN (1) | CN112368724A (ja) |
| WO (1) | WO2020008711A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021181643A1 (ja) * | 2020-03-13 | 2021-09-16 |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7367382B2 (ja) * | 2019-08-21 | 2023-10-24 | ブラザー工業株式会社 | プログラム |
| EP4099263B1 (en) * | 2020-03-04 | 2025-03-19 | Mitsubishi Electric Corporation | Labeling device and learning device |
| JP7681975B2 (ja) * | 2021-01-05 | 2025-05-23 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
| JP7836800B2 (ja) * | 2021-04-01 | 2026-03-27 | 富士フイルム株式会社 | 学習データ生成装置、学習データ生成方法及びプログラム、及び学習装置 |
| WO2023047530A1 (ja) * | 2021-09-24 | 2023-03-30 | 富士通株式会社 | データ収集プログラム,データ収集装置及びデータ収集方法 |
| JP7650002B2 (ja) * | 2022-03-30 | 2025-03-24 | パナソニックIpマネジメント株式会社 | 判定システム、判定方法及びプログラム |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11344450A (ja) * | 1998-06-03 | 1999-12-14 | Hitachi Ltd | 教示用データ作成方法並びに欠陥分類方法およびその装置 |
| JP2014178957A (ja) | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
| WO2014208575A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム |
| JP2017111731A (ja) * | 2015-12-18 | 2017-06-22 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、情報処理方法、プログラム |
| JP2017117139A (ja) * | 2015-12-24 | 2017-06-29 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001045471A (ja) * | 1999-07-30 | 2001-02-16 | Toshiba Corp | 居所管理装置 |
| JP4767595B2 (ja) * | 2005-06-15 | 2011-09-07 | パナソニック株式会社 | 対象物検出装置及びその学習装置 |
| KR100796044B1 (ko) | 2007-02-08 | 2008-01-21 | (주)올라웍스 | 인물 이미지에 대한 태깅 방법 |
| JP5333080B2 (ja) * | 2009-09-07 | 2013-11-06 | 株式会社日本自動車部品総合研究所 | 画像認識システム |
| JP6123975B2 (ja) * | 2011-07-29 | 2017-05-10 | パナソニックIpマネジメント株式会社 | 特徴量抽出装置及び特徴量抽出方法 |
| US9087381B2 (en) * | 2013-11-13 | 2015-07-21 | Thomas Tsao | Method and apparatus for building surface representations of 3D objects from stereo images |
| JP5988225B2 (ja) * | 2015-02-25 | 2016-09-07 | パナソニックIpマネジメント株式会社 | モニタリング装置およびモニタリング方法 |
| JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
| JP6946081B2 (ja) * | 2016-12-22 | 2021-10-06 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
| CN108197658B (zh) * | 2018-01-11 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 图像标注信息处理方法、装置、服务器及系统 |
-
2018
- 2018-07-02 JP JP2018126400A patent/JP7308421B2/ja active Active
-
2019
- 2019-04-23 EP EP19831343.9A patent/EP3819865A4/en not_active Withdrawn
- 2019-04-23 CN CN201980043630.8A patent/CN112368724A/zh active Pending
- 2019-04-23 US US17/256,829 patent/US11436439B2/en active Active
- 2019-04-23 WO PCT/JP2019/017237 patent/WO2020008711A1/ja not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11344450A (ja) * | 1998-06-03 | 1999-12-14 | Hitachi Ltd | 教示用データ作成方法並びに欠陥分類方法およびその装置 |
| JP2014178957A (ja) | 2013-03-15 | 2014-09-25 | Nec Corp | 学習データ生成装置、学習データ作成システム、方法およびプログラム |
| WO2014208575A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム |
| JP2017111731A (ja) * | 2015-12-18 | 2017-06-22 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、情報処理方法、プログラム |
| JP2017117139A (ja) * | 2015-12-24 | 2017-06-29 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP3819865A4 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021181643A1 (ja) * | 2020-03-13 | 2021-09-16 | ||
| WO2021181643A1 (ja) * | 2020-03-13 | 2021-09-16 | 日本電気株式会社 | 学習データ生成装置、学習データ生成方法、学習モデル生成方法、プログラム記録媒体 |
| JP7420214B2 (ja) | 2020-03-13 | 2024-01-23 | 日本電気株式会社 | 学習データ生成装置、学習データ生成方法、学習モデル生成方法、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7308421B2 (ja) | 2023-07-14 |
| JP2020008905A (ja) | 2020-01-16 |
| EP3819865A1 (en) | 2021-05-12 |
| US20210158101A1 (en) | 2021-05-27 |
| US11436439B2 (en) | 2022-09-06 |
| EP3819865A4 (en) | 2021-08-25 |
| CN112368724A (zh) | 2021-02-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020008711A1 (ja) | 学習装置、学習システム、及び学習方法 | |
| JP7122625B2 (ja) | 学習データ収集装置、学習データ収集システム、及び学習データ収集方法 | |
| GB2529943B (en) | Tracking processing device and tracking processing system provided with same, and tracking processing method | |
| JP6428266B2 (ja) | 色補正装置、色補正方法および色補正用プログラム | |
| US8666145B2 (en) | System and method for identifying a region of interest in a digital image | |
| CN108600610A (zh) | 拍摄辅助方法和装置 | |
| TWI586160B (zh) | 利用行動電話及雲端可視化搜尋引擎之即時物體掃描 | |
| JP6669390B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| JP6567638B2 (ja) | 鼻紋照合システム、鼻紋照合方法及び鼻紋照合プログラム | |
| JP2015022631A (ja) | 情報処理装置、情報処理システム及びプログラム | |
| US11836182B2 (en) | System and method for using an image to obtain search results | |
| JP5149744B2 (ja) | 画像検索装置、画像検索システム、画像検索方法およびプログラム | |
| CN104966060A (zh) | 一种运动物体的目标识别方法和装置 | |
| JP2013246149A (ja) | ワーク位置検出装置、及びワーク位置検出方法 | |
| JPWO2021229717A5 (ja) | ||
| CN112073676A (zh) | 一种点名系统 | |
| JP5845960B2 (ja) | 画像処理装置および画像処理方法並びに画像処理プログラム | |
| JP2013156909A (ja) | 形状モデル生成装置及び作業前後対応画像判定システム | |
| JP2009205498A (ja) | 情報提示装置、情報提示方法、情報提示プログラムおよびそのプログラムを記録した記録媒体 | |
| JP6712861B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| JP2022007681A (ja) | 指示値読取システムおよび方法並びにプログラム | |
| WO2012114464A1 (ja) | 撮像装置、プログラム及び撮像支援方法 | |
| JP5445648B2 (ja) | 画像表示装置、画像表示方法、およびそのプログラム。 | |
| JP2016066901A (ja) | 撮像部特定システム、方法及びプログラム | |
| CN116503272A (zh) | 图像处理方法、装置、设备和介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19831343 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| ENP | Entry into the national phase |
Ref document number: 2019831343 Country of ref document: EP Effective date: 20210202 |