WO2021090587A1 - 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 - Google Patents

教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 Download PDF

Info

Publication number
WO2021090587A1
WO2021090587A1 PCT/JP2020/035212 JP2020035212W WO2021090587A1 WO 2021090587 A1 WO2021090587 A1 WO 2021090587A1 JP 2020035212 W JP2020035212 W JP 2020035212W WO 2021090587 A1 WO2021090587 A1 WO 2021090587A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
normal
abnormal
abnormality
inspection target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2020/035212
Other languages
English (en)
French (fr)
Inventor
暁冬 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leader Electronics Corp
Leader Electronics Inc
Original Assignee
Leader Electronics Corp
Leader Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leader Electronics Corp, Leader Electronics Inc filed Critical Leader Electronics Corp
Priority to EP20884205.4A priority Critical patent/EP4057191A4/en
Priority to US17/755,778 priority patent/US12361529B2/en
Publication of WO2021090587A1 publication Critical patent/WO2021090587A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • This disclosure relates to a teacher data generation method, a method of generating a trained model, a device, a recording medium, a program, and an information processing device.
  • Content providers, etc. are obliged to deliver high-quality content to consumers.
  • the above-mentioned method of inspecting an abnormality in a content image has a problem that the mental and physical burden on the person in charge is heavy and that there is an individual difference in the detection of an abnormality in the image.
  • detection software in order to detect anomalies, it is necessary to use detection software to set threshold values for each of a plurality of parameters used for detection, and there is a problem that anomaly detection differs depending on how these threshold values are set. ..
  • the first learning unit for discriminating normal data, the abnormal candidate selected by the user as the correct answer data, and the abnormal candidate not selected as the non-correct answer data, the correct answer data and the non-correct answer data.
  • a machine learning method is used that includes a second learning unit that identifies the data.
  • one aspect of the present disclosure is a teacher data generation method for generating teacher data used for generating a trained model for determining whether or not there is an abnormality in the inspection target, and relates to the inspection target. It is a teacher data generation method that receives a normal content and an abnormal content generated from the normal content, and generates teacher data based on the normal content and one or more sets of the abnormal content.
  • another aspect of the present disclosure is a generation method for generating a trained model for determining whether the content is normal or abnormal, and the trained model is the normal content and the above-mentioned.
  • another aspect of the present disclosure is a generator that generates a trained model for determining whether the content is normal or abnormal, and is a memory for recording instructions and a memory recorded in the memory.
  • the processor includes a processor that executes the instruction, and the processor receives normal content and abnormal content generated from the normal content by executing the instruction, and receives the normal content and one or more of the above. It is a trained model generation device that machine-learns a set with anomalous content and information indicating normality or abnormality of the content as teacher data.
  • another aspect of the present disclosure is a non-temporary recording medium in which a program executed by a processor is recorded, and the processor executes a program recorded in the recording medium to be normal.
  • another aspect of the present disclosure is a program executed by a processor, and when the processor executes the program, it receives normal contents and abnormal contents generated from the normal contents, and the above-mentioned. It is a program that machine-learns a set of normal contents, one or more of the abnormal contents, and information indicating normality or abnormality of the contents as teacher data.
  • another aspect of the present disclosure is a method of determining whether or not the inspection target content to be inspected has an abnormality, and is for determining whether the inspection target content is normal or abnormal.
  • the test is performed on a trained model generated as teacher data of a pair of the normal content, one or more abnormal contents generated from the normal content, and information indicating the normality or abnormality of the content.
  • This is a method in which the target content is given as input data, and information indicating normality / abnormality of the inspection target content is acquired from the trained model to which the inspection target content is given.
  • another aspect of the present disclosure is an information processing device for determining whether or not there is an abnormality in the content to be inspected to be inspected, the memory for recording the instruction and the instruction recorded in the memory.
  • a processor for executing is provided, and the processor executes the instruction from the normal content and the normal content in order to determine whether the content to be inspected is normal or abnormal.
  • the inspection target content is given as input data to a trained model generated as teacher data of a set of one or more generated abnormal contents and information indicating normality or abnormality of the contents, and the inspection target content is used. It is an information processing device that acquires information indicating normality / abnormality of the content to be inspected from the given trained model.
  • another aspect of the present disclosure is a non-temporary recording medium in which a program executed by a processor is recorded, and the inspection is performed by executing the program recorded on the recording medium by the processor.
  • a set of the normal content, one or more abnormal contents generated from the normal content, and information indicating the normality or abnormality of the content In order to determine whether the target content is normal or abnormal, a set of the normal content, one or more abnormal contents generated from the normal content, and information indicating the normality or abnormality of the content.
  • the content to be inspected is given as input data to the trained model generated as teacher data, and information indicating normality / abnormality of the content to be inspected is acquired from the trained model to which the content to be inspected is given. It is a non-temporary recording medium.
  • another aspect of the present disclosure is a program executed by a processor, and the processor executes the program to determine whether the content to be inspected is normal or abnormal.
  • the content to be inspected is added to a trained model generated as teacher data of a pair of the normal content, one or more abnormal contents generated from the normal content, and information indicating the normality or abnormality of the content. Is given as input data, and information indicating normality / abnormality of the inspection target content is acquired from the trained model to which the inspection target content is given.
  • a teacher data generation method for generating teacher data used to generate a trained model for determining whether or not there is an abnormality in the inspection target, which includes normal contents related to the inspection target and normal contents.
  • a teacher data generation method that receives abnormal content generated from the normal content and generates teacher data based on the normal content and one or more pairs of the abnormal content.
  • (Item 2) A method of generating a trained model using the teacher data generated by the teacher data generation method described in item 1.
  • a generation method for generating a trained model for determining whether the content is normal or abnormal is a normal content and an abnormality generated from the normal content.
  • the learned content is generated by machine learning the learning model using the normal content, one or more sets of the abnormal content, and information indicating the normality or abnormality of the content as teacher data. How to generate a model.
  • (Item 4) The method according to any one of items 1 to 3, wherein the abnormal content is produced by a person using an arbitrary application, manually by a person, or using an arbitrary application. Is a content in which an abnormality is manually added to the normal content.
  • the digital noise is at least one selected from the group consisting of block noise, shift, line noise, afterimage noise, image distortion, and manually added digital noise added using any of the above applications. One, the way.
  • the method according to item 4 wherein the content is audio content, and the abnormal content is the normal content plus digital noise, and is digital.
  • the noise is at least one selected from the group consisting of clipping noise, impulse noise, continuous sine waves, mute, and manually added digital noise added using any of the above applications.
  • a generator that generates a trained model for determining whether the content is normal or abnormal, and has a memory for recording instructions and a processor for executing the instructions recorded in the memory. By executing the instruction, the processor receives the normal content and the abnormal content generated from the normal content, and the normal content and one or more pairs of the abnormal content.
  • a trained model generator that machine-learns information indicating normality or abnormality of the content as teacher data.
  • the inspection target content is given as input data to a trained model generated as teacher data of a pair of one or more abnormal contents generated from the normal contents and information indicating normality or abnormality of the contents.
  • An information processing device that determines whether or not there is an abnormality in the content to be inspected to be inspected, and includes a memory for recording instructions and a processor for executing the instructions recorded in the memory. In order to determine whether the content to be inspected is normal or abnormal by executing the instruction, the processor has the normal content and one or more abnormalities generated from the normal content.
  • the trained model in which the content to be inspected is given as input data to a trained model generated as teacher data of a set with the content and information indicating normality or abnormality of the content, and the trained model to which the content to be inspected is given.
  • An information processing device that acquires information indicating normality / abnormality of the content to be inspected from.
  • the information processing device according to item 13, further including an input unit that receives input of the inspection target content and a display that displays information indicating normality / abnormality of the inspection target content. apparatus.
  • the information processing apparatus according to item 13, further comprising a communication unit for transmitting and receiving information to and from a user terminal, and the processor by executing an instruction stored in the memory.
  • the inspection target content transmitted from the user terminal is received via the communication unit, and information indicating normality / abnormality of the inspection target content acquired from the trained model is transmitted to the user terminal by the communication unit.
  • Information processing equipment Information processing equipment.
  • (Item 16) Is the non-temporary recording medium on which the program executed by the processor is recorded, and whether the content to be inspected is normal by executing the program recorded on the recording medium by the processor.
  • a pair of the normal content, one or more abnormal contents generated from the normal content, and information indicating the normality or abnormality of the content are generated as teacher data.
  • the content to be inspected is given as input data to a trained model generated as teacher data of a pair of one or more abnormal contents generated from normal contents and information indicating normality or abnormality of the contents.
  • FIG. 1 is a diagram showing an outline of a content abnormality inspection method for determining whether or not there is an abnormality in the content according to the embodiment of the present disclosure. It is a block diagram which shows the example of the hardware composition of the trained model generation apparatus which concerns on one Embodiment of this disclosure for carrying out the learning phase in the content abnormality inspection method of FIG. It is a block diagram which shows the functional structure of the trained model generator shown in FIG. It is a flowchart which shows the operation of the trained model generator shown in FIG. It is a block diagram which shows the structure of the inference system which concerns on one Embodiment of this disclosure for carrying out the inference phase in the content abnormality inspection method of FIG.
  • FIG. 10A to 10D are diagrams showing some examples of pairs of normal content and abnormal content when the normal content is a still image.
  • 10A to 10D are diagrams showing some examples of pairs of normal content and abnormal content when the normal content is a still image.
  • 10A to 10D are diagrams showing some examples of pairs of normal content and abnormal content when the normal content is a still image.
  • 10A to 10D are diagrams showing some examples of pairs of normal content and abnormal content when the normal content is a still image.
  • 10A to 10D are diagrams showing some examples of pairs of normal content and abnormal content when the normal content is a still image.
  • 11A and 11B show a frequency spectrum obtained by Fourier transforming the normal audio content of the first predetermined period and Fourier transform the normal audio content of the first predetermined period with an abnormality added. The obtained frequency spectrum is shown.
  • 11A and 11B show a frequency spectrum obtained by Fourier transforming the normal audio content of the first predetermined period and Fourier transform the normal audio content of the first predetermined period with an abnormality added. The obtained frequency spectrum is shown.
  • the abnormality may include anything that is not normal. Further, this abnormality may include a normal state with artificial changes added, for example, a normal state with noise added, or a normal state that cannot be perceived as normal by a person. Further, the inspection target can be not only the one that changes with time but also the one that does not change with time. Further, the inspection target includes, for example, video content and audio content, but is not limited to these. The inspection target may be any device (for example, a driving device, a processing machine), a signal generated from these devices, or the like.
  • the contents used for the inspection include contents such as signals output from the equipment to be inspected, signals output from the sensor attached to the equipment to be inspected (for example, acceleration signal output from the acceleration sensor, angular velocity). It may be an angular velocity signal output from the sensor).
  • the inspection target is video content or audio content broadcast from a broadcasting station.
  • FIG. 1 shows an outline of a content abnormality inspection method for determining whether or not there is an abnormality in the content to be inspected using machine learning.
  • Machine learning includes deep learning, SVM (Support Vector Machine) convolutional neural networks (CNN), and the like.
  • FIG. 1A illustrates a learning phase in a content abnormality inspection method in which normal content and abnormal content generated from the normal content are learned as teacher data.
  • the abnormal content is content in which an abnormality is added to the normal content, and can be artificially generated based on the normal content.
  • a label indicating normality, for example, "0" is given to normal content
  • a label indicating abnormality, for example, "1" is given to abnormal content.
  • a large number of labeled normal content and abnormal content pairs are trained, and the model is automatically optimized so that the output when the training data is input is close to the correct answer, and the trained model is created. Generate.
  • the model is trained to output "0" when normal content is input and "1" when abnormal content is input.
  • a convolutional neural network a large number of pairs of labeled normal content and labeled abnormal content are learned, features are automatically extracted, and the relationship between the nodes of the neural network is weighted. To adjust. This adjustment is repeated so that the output value gradually becomes the correct value.
  • FIG. 1B illustrates an inference phase in a content anomaly inspection method in which the presence or absence of anomalies included in an inspection target is inferred using the generated trained model 236.
  • the inspection target content 106 without a label from the inspection target.
  • the inspection target is not in a form that can be input to the trained model 236, the inspection target content 106 may be prepared by performing conversion processing into the input form.
  • the inspection target content 106 is input to the trained model 236.
  • the trained model 236 outputs information indicating whether or not the inspection target content 106 contains an abnormality. For example, when 0 is output, there is no abnormality in the inspection target content 106, and when 1 is output, it can be predicted that there is an abnormality.
  • FIG. 2 shows an example of the hardware configuration of the trained model generator 200 as the information processing device that executes the learning phase (a) shown in FIG.
  • the trained model generator 200 is a terminal used to perform machine learning and is composed of, for example, a personal computer, a workstation, or any other information processing device.
  • the trained model generator 200 includes a processor 202, a memory 204, a user input interface (IF) 206, and a display 208 as main hardware elements. Each of these elements is communicably connected to each other via a bus (not shown).
  • the operating system is a computer program for controlling the overall operation of the trained model generator 200.
  • the trained model generation program is a computer program for the trained model generation device 200 to realize each process included in the trained model generation process described later.
  • the memory 204 can also temporarily or permanently store the data generated by the operation of the trained model generator 200. Specific examples of the memory 204 are a ROM (ReadOnlyMemory), a RAM (RandomAccessMemory), a hard disk, a flash memory, an optical disk, and any other storage device.
  • the processor 202 is configured to read a program stored in the memory 204 and execute processing according to the program. When the processor 202 executes the trained model generation program stored in the memory 204, each process of the trained model generation process described later is realized.
  • the processor 202 includes a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the user input interface 206 is configured to receive input from the user for operating the trained model generator 200.
  • Specific examples of the user input interface 206 are a keyboard, a mouse, a touch pad, and the like.
  • the display 208 is configured to provide visual information to the user of the trained model generator 200.
  • the display 208 displays a plurality of icons for launching various applications on the home screen or desktop screen of the operating system of the trained model generator 200 stored in the memory 204.
  • a liquid crystal display or an organic EL display can be used for the display 208.
  • FIG. 3 is a block diagram showing a functional configuration of the trained model generator 200 shown in FIG.
  • the trained model generator 200 has a processing unit 210 and a storage unit 230.
  • the processing unit 210 further includes a normal content acquisition unit 212, an abnormal content generation unit 214, a teacher data generation unit 216, and a learning unit 218.
  • the storage unit 230 corresponds to the memory 204 shown in FIG.
  • Each unit 212 to 216 included in the processing unit 210 and the processing unit 210 is realized by the processor 202 shown in FIG. 2 reading and executing the trained model generation program in the memory 204. It represents the function realized by the model generation process.
  • the storage unit 230 stores the original content 232 that does not include an abnormality and the teacher data 234.
  • Teacher data is generated based on normal content and abnormal content.
  • the original content may be data acquired from the Internet, a public database, or the like, data that does not include anomalies recorded by the user, or may be composed of a large amount of data.
  • the original content is video content when the inspection target is video, and audio content when the inspection target is audio.
  • the normal content acquisition unit 212 acquires normal content from the original content that does not include an abnormality.
  • the content may be transformed into a form suitable for inputting the learning model.
  • the original content when the original content is video content, it is extracted every S seconds (for example, 4 seconds) in the first predetermined period, and the extracted video content is further divided into frames to obtain a still image. , Let this be normal content. Further, when the original content is a still image, it can be regarded as normal content as it is without such conversion processing.
  • the content extracted every S seconds (for example, 4 seconds) in the first predetermined period is regarded as normal content.
  • the abnormal content generation unit 214 adds an abnormality to the normal content obtained in step 402 to generate abnormal content.
  • any application may be used to automatically add anomalies to the normal content, or a person may manually add anomalies. Anomalies may be added in both cases, both application and manual.
  • the method of generating abnormal content differs depending on whether the original content is video content or audio content. Hereinafter, methods for generating abnormal content when the original content is moving image and when the original content is audio will be described.
  • the abnormal content is generated by adding an abnormality to the normal content (here, a normal still image). That is, an abnormality is intentionally added to a normal still image to obtain abnormal content.
  • a normal still image is an image that humans perceive as natural.
  • An abnormal still image is an image that humans perceive as unnatural, such as a part / whole image that is distorted, a part of the image that is broken, or a part of the image that is misaligned. Including those with scratches on a part of the image.
  • Anomalous still images can be generated, for example, by randomly adding digital noise to a normal image or by adding default noise.
  • Digital noise is at least selected from the group consisting of various noises added using any application (eg block noise, line noise, afterimage noise, image distortion), and digital noise manually added by humans. It is one. Further, the abnormality added to one abnormal content is not limited to one type, and a plurality of types of abnormalities may be added.
  • FIGS. 10A to 10D exemplify normal content and abnormal content when the normal content is a still image.
  • the upper images of FIGS. 10A to 10D are normal contents, and the lower images are abnormal contents.
  • FIG. 10A shows normal content (upper side) and abnormal content (lower side) in which block noise is added to normal content
  • FIG. 10B shows normal content (upper side) and abnormal content in which deviation (Glitch) is added to the normal content.
  • FIG. 10C shows normal content (upper side) and abnormal content (lower side) in which line noise is added to the normal content
  • FIG. 10D shows normal content (upper side). Indicates the abnormal content (lower side) that has been created. As shown in the figure, an abnormal image is perceived by humans as unnatural.
  • the anomalies can be added to the content, and the anomalies include afterimage noise, image distortion, and the like, and are not limited to those illustrated in FIGS. 10A to 10D.
  • an abnormality is added to the normal content (here, the original content is extracted every S seconds for the first predetermined period) to generate the abnormal content.
  • a frequency component for example, a high or low frequency component
  • a level that should not originally exist is added to the normal content.
  • Normal voice is voice that is natural for humans to hear.
  • Anomalous speech is speech that humans hear and perceive as unnatural, and can be generated, for example, by randomly adding digital noise to normal speech or by adding default noise.
  • Digital noise includes various noises added using any application (eg clipping noise, impulse noise, continuous sine wave (pure tone), mute (silence)), and manually added by humans. It is at least one selected from the group consisting of digital noise.
  • the teacher data generation unit 216 indicates that the normal content is normal (“0” in this example) and the abnormal content is abnormal (“0” in this example). 1 ”) is attached.
  • Teacher data 234 is generated based on a set of one labeled normal content and one or more labeled abnormal contents, and is stored in the storage unit 230 (FIG. 3). In order to avoid so-called overfitting, which reduces the accuracy of unknown data, it is preferable to pair 1 abnormal content with 1 normal content. That is, when a plurality of abnormal contents are generated from one normal content, it is preferable to generate teacher data 234 by pairing the one normal content and one abnormal content among the plurality of abnormal contents.
  • the method of generating the teacher data 234 differs depending on whether the original content is video content or audio content.
  • the pair of the normal content acquired in step 402 and the abnormal content acquired in step 404 can be labeled and used as teacher data 234 as it is.
  • the normal content and abnormal content acquired in steps 402 and 404 cannot be used as teacher data 234 as they are.
  • the acquired normal content (abnormal content) is subjected to Fourier transform or the like to obtain a frequency spectrum, and the frequency spectrum labeled is used as teacher data 234 corresponding to the normal content (abnormal content).
  • 11A and 11B show a frequency spectrum (Fig. Left (a)) obtained by Fourier transforming normal audio content for a first predetermined period (here, 1 second), and a first predetermined period (1 second in this case), respectively.
  • a frequency spectrum Fig. Right (b) obtained by Fourier transforming a normal audio content (1 second) with an abnormality added.
  • the right side figure (b) of FIG. 11A exemplifies the frequency spectrum when click noise is added as an abnormality
  • the right side figure (b) of FIG. 11B exemplifies the frequency spectrum when a continuous sine wave is added as an abnormality.
  • the Fourier transform for example, fast Fourier transform, short-time Fourier transform
  • low-frequency blocking of the extracted audio content or some other appropriate type of filter is applied to facilitate the extraction of the characteristics of the audio content. It may be used for filtering processing.
  • MFCC mel frequency cepstrum
  • the learning unit 218 performs learning using the teacher data 234 stored in the storage unit 230.
  • the expected label is compared with the output result calculated by the training model, and the training model is modified so that the output result is close to the label. That is, the learning model is modified so that, for example, when a normal still image is input, a label 1 indicating that it is normal is output, and when an abnormal still image is input, a label 0 indicating that it is abnormal is output.
  • the trained model 236 is completed.
  • the final trained model 236 is completed, it is stored in the storage unit 230.
  • the labeling work by humans is complicated.
  • the labeling work can be shortened, reduced in cost, or both.
  • the smaller the number of labels the higher the accuracy of the trained model.
  • there are two labels indicating normal and abnormal and it is possible to obtain a judgment result of normal / abnormal with high accuracy.
  • the abnormal content is generated based on the original data that does not include the abnormality, a large number of abnormal contents can be easily prepared for one normal content.
  • a large number of abnormal data can be prepared without preparing an abnormal product as a thing, and as a result, a large number of combinations of normal contents and corresponding abnormal contents can be prepared. .. Therefore, the number of teacher data increases as compared with the case of learning using a single combination. As a result, it is possible to improve the accuracy and efficiency of learning.
  • the number of pairs is large, learning can be performed with high accuracy, so that the number of original contents that do not contain anomalies can be significantly reduced.
  • FIG. 5 shows the configuration of the inference system 50 for carrying out the inference phase (b) in the content abnormality inspection method of FIG.
  • the inference system 50 includes a user terminal 500 and a server 600, each of which can be executed by an arbitrary information processing device.
  • the user terminal 500 is a terminal for the user to upload the inspection target to the server 600 or to confirm whether the inspection target has an abnormality on the application screen that displays based on the inference result received from the server 600.
  • the server 600 is a computer that infers whether or not there is an abnormality in the inspection target.
  • the user terminal 500 and the server 600 are connected to each other so as to be able to communicate with each other via the communication network (NW) 51.
  • NW communication network
  • the communication network 51 may be any type of network such as the Internet or a LAN (Local Area Network). Although only one user terminal 500 is shown in FIG. 5, the inference system 50 may include any number of user terminals, each of which is used by a separate user. Further, although one server 600 is shown in FIG. 5, the server 600 may be configured by a plurality of servers or may be configured by a cloud.
  • the user terminal 500 includes a processor 502, a memory 504, a display 506, a user input interface (user input IF) 508, and a communication interface (communication IF) 510 as main hardware elements. Each of these elements is communicably connected to each other via a bus (not shown).
  • the user terminal 500 can be realized by, for example, a smartphone, a tablet terminal, a personal computer, or the like. Hereinafter, detailed description of the same elements as those already described may be omitted.
  • Memory 504 stores at least an operating system and a terminal-side program for executing an inference program.
  • the terminal-side program is a computer program for realizing a function of receiving an input from a user, uploading the inspection target content 106 to the server 600, receiving an inference result for the inspection target, and the like.
  • the memory 504 may also store the content 106 to be inspected.
  • a part of the memory 504 may be provided separately outside the main body of the user terminal 500.
  • the inspection target content 106 is stored in a separate external memory (not shown).
  • the user terminal 500 can access the external memory and upload the inspection target content 106 from the external memory to the server 600 via the communication network 51 according to the instruction from the user terminal 500. Therefore, it is not necessary to store the inspection target content 106 in the memory in the user terminal 500.
  • the display 506 is configured to provide visual information to the user of the user terminal 500. For example, the display 506 displays a plurality of icons for launching various applications on the home screen or desktop screen of the operating system of the user terminal 500 stored in the memory 504. The display 506 further displays a result image generated as a result of the inference process on the execution screen of the client program.
  • the user input interface 508 is configured to receive input from the user for operating the user terminal 500.
  • Specific examples of the user input interface 508 are a touch pad, a mouse, a keyboard, and the like.
  • the display 506 and the user input interface 508 may be integrally configured as a touch panel. Further, when the user terminal 500 is realized as a personal computer, the display 506 and the user input interface 508 may be provided separately outside the main body of the user terminal 500.
  • the communication interface 510 is a network interface for communicating with the server 600 via the communication network 51.
  • the communication interface 510 may be configured to send and receive data to and from the server 600 according to a predetermined communication protocol including, for example, TCP / IP (Transmission Control Protocol / Internet Protocol).
  • TCP / IP Transmission Control Protocol / Internet Protocol
  • FIG. 5 further shows a hardware configuration diagram of the server 600.
  • the server 600 includes a processor 602, a memory 604, and a communication interface (IF) 606 as main hardware elements. Each of these elements is communicably connected to each other via a bus (not shown).
  • a bus not shown.
  • the memory 604 stores a server program in addition to an operating system that controls the overall operation of the server 600.
  • the server program is a computer program for causing the server 600 to execute each process on the server side related to the execution of the inference process.
  • the communication interface 606 is a network interface for communicating with the user terminal 500 (s) via the communication network 51.
  • FIG. 6 is a block diagram showing a functional configuration of the server 600 that constitutes a part of the inference system of FIG.
  • the server 600 includes a processing unit 610 and a storage unit 630.
  • the processing unit 610 includes an inspection target acquisition unit 612, an inference unit 614, a determination unit 616, a preview content generation unit 618, and an output unit 620.
  • the storage unit 630 corresponds to the memory 604 shown in FIG.
  • the storage unit 630 includes the content 106 to be inspected, the trained model 236, the inference result 632 by the trained model 236, the preview content 634 including the portion inferred to be abnormal, and the thumbnail 636 of the preview content 634.
  • Each unit 612 to 620 included in the processing unit 610 and the processing unit 610 represents a function of inference processing according to the present disclosure, which is realized by the processor 602 shown in FIG. 5 reading and executing a program in the memory 604.
  • the operation flow 700 of the server 600 in FIG. 6 will be described with reference to FIG. 7 when the inspection target is video content or audio content.
  • the trained model 236 is stored in the storage unit 630 in advance.
  • step 702 the inspection target acquisition unit 612 acquires the unlabeled inspection target content 106 uploaded to the server 600 by the user terminal 500.
  • the inspection target acquisition unit 612 converts the acquired inspection target content 106 into a form suitable for input to the trained model 236.
  • content for a first predetermined period of S seconds for example, 4 seconds
  • the extracted content is divided into frames to form a plurality of still image contents.
  • content for a first predetermined period of S seconds is extracted, and the extracted audio content is subjected to Fourier transform or the like to obtain content representing the frequency spectrum of the audio content.
  • step 708 the inference unit 614 inputs the content converted in step 704 into the trained model 236, obtains an inference result 632 (here, a value from 0 to 1), and stores each of them. It is stored in the unit 630.
  • the determination unit 616 acquires the inference result 632 from the storage unit 630, arranges the inference result 632 in time series, and determines whether or not the inference result 632 is less than a predetermined threshold value, for example, 0.99. .. When the output result is less than a predetermined threshold value, the determination unit 616 determines that it is normal. On the other hand, if it is not less than a predetermined threshold value, it is determined that the inspection target content 106 has an abnormality.
  • a predetermined threshold value for example 0.99. ..
  • the preview content generation unit 618 searches for the operation center point of the preview content from the aligned inference results 632.
  • the preview content generation unit 618 previews a part of the content inferred to be abnormal so that it can be confirmed whether or not there is an abnormality in the inspection target content 106 without checking the entire inspection target content 106. Extract as 634.
  • the preview content generation unit 618 generates the preview content 634 for each of the abnormal parts.
  • the preview content generation unit 618 searches for the operation center point of the preview content is as follows.
  • the preview content generation unit 618 first acquires the inference result of the aligned first predetermined period S seconds. Next, the following processes 1 to 5 are performed on the acquired inference result. 1. 1. First, among the inference results for the first predetermined period S seconds, a value or 1 that is equal to or greater than the threshold value and is closest to 1 is searched for. 2. If there is no 1 in the inference result, the frame associated with the value closest to 1 is set as the operation center point. 3. 3. If there is 1 in the inference result, the frame to which 1 is associated is set as the operation center point. 4.
  • the center frame of the corresponding consecutive frames is set as the operation center point. 5.
  • the frontmost center is set as the operation center point.
  • the preview content generation unit 618 extracts the operation center point searched by the above steps 1 to 5 and the content over the second predetermined period T seconds (for example, 3 seconds) before and after the operation center point from the inspection target content 106. It is stored in the storage unit 630 as the preview content 634.
  • the user first visually recognizes the content inferred to be normal for a second predetermined period of T seconds, then visually recognizes the content inferred to be abnormal, and then the second. You may visually recognize the content inferred that there is no abnormality for a predetermined period of T seconds. By doing so, the user can easily compare the abnormal part with the normal part when checking the preview content 634.
  • the content may be extracted from the content to be inspected 106 for a second predetermined period T seconds before and after this continuous period.
  • the content conversion process (step 704), the inference process (step 706, step 708), the determination process (step 710), and the preview content generation process (step 712) are repeatedly performed.
  • the process proceeds to step 714.
  • step 714 the output unit 620 transmits the occurrence time of the abnormal portion, the preview content 634, and the inference result associated with the preview content 634 to the user terminal 500 via the communication interface 606.
  • the user terminal 500 displays the received preview content 634 and the like on the display 506.
  • the display screen 800 is a number assigned to a plurality of locations inferred to have an abnormality extracted from one inspection target content 106. In this embodiment, it is determined that there is an abnormality in three places (abnormal part 1, abnormal part 2, and abnormal part 3).
  • the display screen 800 may be configured to display abnormal parts related to a plurality of inspection target contents 106 at a time.
  • the 804 indicates the time of occurrence of the location where it is determined that there is an abnormality. For example, it is inferred that the abnormal portion 1 occurs 1 minute and 36 seconds after the start of reproduction of the inspection target content 106.
  • the 806 represents the thumbnail 636 of the preview content 634.
  • the user terminal 500 receives a click or tap of the thumbnail 636 by the user, the user terminal 500 pops up a screen (not shown) on the display 506.
  • the user can play the preview content 634 including the abnormal part on the pop-up screen.
  • the preview content 634 is played, the part inferred to be abnormal is played after the normal part is played for a second predetermined period T seconds (for example, 3 seconds), and further, the second predetermined period T is played.
  • the normal part is reproduced for a second.
  • the reliability 808 is the probability that the part inferred to be abnormal is actually abnormal, and this is referred to as confidence.
  • the reliability is the inference result from the trained model 236 acquired by the inference unit 614 in step 706 (accurately, the inference result is multiplied by 100).
  • the inference result 632 indicates the probability that the content to be inspected contains an abnormality. For example, when the inference result is 1, the frame corresponding to the inference result is 100% abnormal, and when the inference result is 0.1, the probability that the frame corresponding to the inference result is abnormal is 10%.
  • the inference result associated with the frame specified as the operation center point described above is defined as the reliability.
  • the probability that the abnormal portion 1 includes the abnormality, that is, the reliability is 99.31%.
  • a reliability of 99% value obtained by multiplying the threshold value 0.99 by 100 or more is determined to be abnormal.
  • FIG. 9 also inputs all 120 frames into the trained model 236 and shows the inference results obtained for each frame.
  • the inference result a is 0.2 in frame 1, 0.21 in frame 2, 0.99 in frame N-1, 1.0 in frame N, and 0.998 in frame N + 1.
  • the determination unit 616 determines that there is an abnormality in the frames N-1, the frame N, and the frame N + 1 because they are not less than the threshold value.
  • the preview content generation unit 618 extracts the content over the second predetermined period T (3 seconds) before and after the time of the frame N as the preview content 634, centering on the frame N determined to have an abnormality, and this preview content 634 The time when it is determined that there is an abnormality and the inference result are stored in the storage unit 630. Further, the preview content generation unit 618 generates a thumbnail 636 from the extracted preview content 634 and stores it in the storage unit 630.
  • the threshold value is adjusted (in the present disclosure, the threshold value is set to 0.99) so as to avoid inferring that there is no abnormality by mistake even though the content is inferred to have no abnormality.
  • the threshold value is adjusted so as not to make an erroneous detection of overlooked content containing an abnormality.
  • the embodiments of the present disclosure have been described above, the embodiments of the invention described above are for facilitating the understanding of the present invention and do not limit the present invention.
  • the inspection target is video content and audio content as a broadcast signal from a broadcasting station
  • a network such as the Internet as well as a broadcast signal.
  • Content can also be inspected.
  • any device or signals related to these devices can be targeted for inspection, image contents such as moving images and still images related to those devices, sounds generated from the devices, etc. Audio content can also be used as an inspection target.
  • the inspection target may be a signal obtained from a sensor or the like attached to the device.
  • the original content containing no abnormality is obtained from, for example, various sensors (accelerometer, angular velocity sensor, temperature sensor, pressure sensor, flow rate sensor, brightness sensor, etc.) that monitor the state of various devices operating normally. It is a signal to be received. Normal content and abnormal content are generated from this original content.
  • the processing in the learning phase and the processing in the inference phase of the signal obtained from the sensor or the like are the same as the processing in the case of audio content.
  • the operating machine breaks down, it is possible to detect a machine abnormality that has occurred in the past from the recorded machine sound.
  • the operating sound of the machine during normal operation is recorded, and normal content is generated from this.
  • Teacher data is generated based on this normal content and abnormal content in which an abnormality is added to the normal content.
  • the operating machine breaks down, it is possible to detect an abnormality of the machine that has occurred in the past from the recorded data from various sensors.
  • Data from various sensors during normal operation is recorded, and normal content is generated from this.
  • Teacher data is generated based on this normal content and abnormal content in which an abnormality is added to the normal content.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Image Analysis (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

正常なコンテンツと、正常なコンテンツから生成した異常なコンテンツとに基づいて教師データを生成する。 検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、検査対象に関する正常なコンテンツと、正常なコンテンツから生成した異常なコンテンツを受け、正常なコンテンツと、1以上の異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。

Description

教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
 本開示は、教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置に関する。
 コンテンツの提供業者等にとっては、高品質のコンテンツを需要者に届ける義務がある。コンテンツの提供者、例えば放送局では、動画コンテンツを提供する前に、動画コンテンツの品質に異常があるかどうか検査する必要がある。そこで、従来は、モニタ装置にコンテンツ画像を映し出し、検査を行う専門の担当者がこの映し出されたコンテンツ画像を注意深く監視して、画像の品質異常の有無を検査する必要があった。
 しかしながら、前述のコンテンツ画像の異常の検査の仕方では、担当者にかかる精神的、肉体的負担が大きく、また画像の異常の検出に個人差が出るという問題があった。一方で、人を使わずに、機械的に品質異常を検出する方法が存在する。しかしながら、異常の検出には検出ソフトウェアを使用して、検出に用いる複数のパラメータのそれぞれに閾値を設定する必要があり、これら閾値の設定の仕方で異常の検出に差が出るという問題があった。
 近年では、画像の異常検出を行うために機械学習のアルゴリズムが利用されている。特許文献1に記載のシステムでは、正常データを判別する第1の学習部と、ユーザにより選択された異常候補を正解データ、選択されなかった異常候補を非正解データとして、正解データと非正解データを識別する第2の学習部とを備える機械学習法を用いる。
特開2018-120300号公報
 しかしながら、前述の機械学習法では、ユーザが異常候補の選択を行う必要があり、この選択に多大な時間とコストを要するという問題があった。
 そこで、本開示の一態様は、検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法である。
 また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法である。
 また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置である。
 また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体である。
 また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラムである。
 また、本開示の他の一態様は、検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、方法である。
 また、本開示の他の一態様は、検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、情報処理装置である。
 また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、非一時的な記録媒体である。
 
 また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、プログラムである。
 以下に述べる種々の側面および実施形態は、装置、回路、方法に関して記述し説明するが、これらは、単なる一例であって説明のためのものであり、したがって範囲限定を意味するものではない。種々の実施形態においては、上記の問題の1つまたはそれ以上が軽減または除去されるが、他の改良のために向けた他の実施形態もある。
[本開示の実施形態の説明]
 最初に、本開示の実施形態の内容を列記して説明する。本開示の一実施形態は、以下のような構成を備える。
(項目1) 検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。
(項目2) 項目1記載の教師データ生成方法で生成された前記教師データを使用して学習済みモデルを生成する方法。
(項目3) コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法。
(項目4) 項目1から3のいずれか1項に記載の方法であって、前記異常なコンテンツは、任意のアプリケーションを使用して、あるいは人が手動で、あるいは任意のアプリケーションを使用すると共に人が手動で、前記正常なコンテンツに異常を付加したコンテンツである、方法。
(項目5) 項目4に記載の方法であって、前記コンテンツは、動画あるいは静止画のコンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、ブロックノイズ、ずれ、ラインノイズ、残像ノイズ、画像乱れ、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
(項目6) 項目4項に記載の方法であって、前記コンテンツは音声コンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、クリッピングノイズ、インパルスノイズ、連続正弦波、ミュート、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
(項目7) コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置。
(項目8) プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体。
(項目9) プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラム。
(項目10) 検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、方法。
(項目11)項目10に記載の方法であって、前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、前記検査対象コンテンツの異常の確率を含む、方法。
(項目12)項目11に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。
(項目13) 検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、情報処理装置。
(項目14) 項目13に記載の情報処理装置であって、前記検査対象コンテンツの入力を受ける入力部と、前記検査対象コンテンツの正常/異常を示す情報を表示するディスプレイをさらに備えた、情報処理装置。
(項目15) 項目13に記載の情報処理装置であって、ユーザ端末に対して情報の送受信を行う通信部をさらに備え、前記プロセッサは、前記メモリに記憶された指示を実行することにより、前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを受け、前記学習済みモデルから取得した前記検査対象コンテンツの正常/異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。
(項目16) プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから前記検査対象コンテンツの正常/異常を示す情報を取得する、非一時的な記録媒体。
(項目17) プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、プログラム。
 上記の例示的な実施形態および側面に加え、別の実施形態および側面も、図面を参照しまた以下の説明を検討することにより当業者には明らかとなる。
図1は、本開示の一実施形態に係る、コンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す図である。 図1のコンテンツ異常検査方法における学習フェーズを実施するための、本開示の一実施形態に係る学習済みモデル生成装置のハードウェア構成の例を示すブロック図である。 図2に示す学習済みモデル生成装置の機能的な構成を示すブロック図である。 図2に示した学習済みモデル生成装置の動作を示すフローチャートである。 図1のコンテンツ異常検査方法における推論フェーズを実施するための、本開示の一実施形態に係る推論システムの構成を示すブロック図である。 図5に示した推論システムに含まれるサーバの機能的な構成を示すブロック図である。 図6に示したサーバの動作を示すフローチャートである。 図5に示した推論システムに含まれるユーザ端末のディスプレイに表示される表示画面の例を示す。 第1の所定期間ごとに取得した動画コンテンツをM個のフレームに分割した様子を示す。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。 図11A及び図11Bは、第1の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第1の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。 図11A及び図11Bは、第1の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第1の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。
 以下、本開示の実施形態について図面を参照して説明する。図面において、同一または類似の要素には同一または類似の参照符号が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。しかし、本開示の実施形態は、必ずしもこのような態様に限定されない。本開示の実施形態が、特許請求の範囲において規定される範囲に含まれる様々な態様を取り得ることは、当業者にとって明らかであろう。
 以下、本開示の一実施形態として、学習済みモデル生成装置や、検査対象に異常があるか否かを判別するための異常検査方法等について図面を参照しながら説明する。本開示においては、異常とは、正常でないあらゆるものを含むものとしても良い。また、この異常は、正常な状態のものに人為的に変更を付加したもの、例えば正常な状態のものにノイズを付加したものや、人が正常とは知覚できないものを含んでも良い。さらに、検査対象は、経時変化するものだけでなく、経時変化しないものも対象とすることができる。また、検査対象として、例えば、動画コンテンツや音声コンテンツがあるが、これらには限られない。検査対象として、任意の機器(例えば、駆動装置、加工機械)、あるいはこれら機器から発生する信号等を対象にしてもよい。その場合、検査に使用するコンテンツとしては、それら検査対象の機器から出力される信号等のコンテンツ、検査対象の機器に取り付けたセンサから出力される信号(例えば加速度センサから出力される加速度信号、角速度センサから出力される角速度信号)としてもよい。
 なお、以下に説明する実施形態では、検査対象が、放送局から放送される動画コンテンツ、音声コンテンツである場合の例を説明する。
 図1は機械学習を用いて検査対象であるコンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す。機械学習は、ディープラーニング、SVM(サポートベクトルマシン)畳み込みニューラルネットワーク(CNN)などを含む。図1(a)は正常なコンテンツと、正常なコンテンツから生成された異常なコンテンツを教師データとして学習する、コンテンツ異常検査方法における学習フェーズを例示する。
 (1)まず、正常なコンテンツを取得し、取得した正常なコンテンツと、正常なコンテンツに対応する異常なコンテンツを大量に用意する。異常なコンテンツは、正常なコンテンツに異常を加えたコンテンツであり、正常なコンテンツに基づいて作為的に生成することができる。正常なコンテンツには、正常であることを示すラベル、例えば「0」、異常なコンテンツには、異常であることを示すラベル、例えば「1」を付与する。
 (2)ラベル付けされた正常なコンテンツと異常なコンテンツのペアを大量に学習させ、学習データを入力したときの出力が正答に近い値になるよう、モデルを自動で最適化し、学習済みモデルを生成する。本実施形態では、正常なコンテンツを入力したときに「0」、異常なコンテンツを入力したときに「1」を出力するようモデルに学習させる。例えば畳み込みニューラルネットワークを採用する場合、ラベル付きの正常なコンテンツと、ラベル付きの異常なコンテンツのペアを大量に学習し、特徴量を自動的に抽出し、ニューラルネットワークのノード間の関係の重み付け等を調整する。この調整を繰り返し行って次第に出力値が正解の値となるようにする。
 図1(b)は、生成された学習済みモデル236を用いて検査対象に含まれる異常の有無を推論する、コンテンツ異常検査方法における推論フェーズを例示する。
 (3)検査対象からラベルなしの検査対象コンテンツ106を用意する。その際、検査対象が学習済みモデル236に入力できる形態にない場合には、その入力できる形態への変換処理を行って検査対象コンテンツ106を用意してもよい。
 (4)検査対象コンテンツ106を、学習済みモデル236に入力する。学習済みモデル236は、検査対象コンテンツ106に異常が含まれているか否かを示す情報を出力する。例えば、0が出力された場合、検査対象コンテンツ106には異常がなく、1が出力された場合、異常があると予測できる。
 このように本開示によると、正常コンテンツと、正常コンテンツに基づいて生成された異常コンテンツとを用いて、検査対象に含まれる異常の有無を判別することができる。以下、図2及び図3を参照して、学習フェーズについて詳細に説明する。
 図2は、図1に示す学習フェーズ(a)を実行する情報処理装置としての学習済みモデル生成装置200のハードウェア構成の一例を示す。学習済みモデル生成装置200は、機械学習を行うために使用する端末であり、例えばパーソナルコンピュータ、ワークステーション、またはその他の任意の情報処理装置で構成される。図示するように、学習済みモデル生成装置200は主たるハードウェア要素として、プロセッサ202と、メモリ204と、ユーザ入力インターフェイス(IF)206と、ディスプレイ208とを備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。
 メモリ204には、少なくともオペレーティングシステムと学習モデル生成プログラムとが格納されている。オペレーティングシステムは、学習済みモデル生成装置200の全体的な動作を制御するためのコンピュータプログラムである。学習済みモデル生成プログラムは、学習済みモデル生成装置200が後述する学習済みモデル生成処理に含まれる各処理を実現するためのコンピュータプログラムである。メモリ204はまた、学習済みモデル生成装置200の動作によって生成されるデータを一時的又は永続的に記憶することもできる。メモリ204の具体例は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク、フラッシュメモリ、光ディスク、その他の任意の記憶装置である。
 プロセッサ202は、メモリ204に格納されているプログラムを読み出して、それに従った処理を実行するように構成される。プロセッサ202がメモリ204に格納された学習済みモデル生成プログラムを実行することによって、後述する学習済みモデル生成処理の各処理が実現される。プロセッサ202は、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)を含む。
 ユーザ入力インターフェイス206は、ユーザから学習済みモデル生成装置200を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス206の具体例は、キーボード、マウス、タッチパッド等である。 
 ディスプレイ208は、学習済みモデル生成装置200のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ208は、メモリ204に格納された学習済みモデル生成装置200のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。一例として、液晶ディスプレイや有機ELディスプレイをディスプレイ208に用いることが可能である。
 図3は、図2に示した学習済みモデル生成装置200の機能的な構成を示すブロック図である。学習済みモデル生成装置200は、処理部210及び記憶部230を有する。処理部210はさらに、正常コンテンツ取得部212と、異常コンテンツ生成部214と、教師データ生成部216と、学習部218とを含む。記憶部230は、図2に示したメモリ204に対応する。処理部210及び処理部210に含まれる各部212から216は、図2に示したプロセッサ202がメモリ204内の学習済みモデル生成プログラムを読み出して実行することによって実現される、本開示に係る学習済みモデル生成処理が実現する機能を表している。
 記憶部230は、異常を含まない元のコンテンツ232と、教師データ234を記憶する。教師データは、正常なコンテンツと、異常なコンテンツに基づいて生成される。元のコンテンツは、インターネット上から、あるいは公開されているデータベース等から取得したデータ、またはユーザが記録した異常を含まないデータでもよく、また大量のデータで構成されるものでもよい。元のコンテンツは、検査対象が動画の場合は動画コンテンツ、音声の場合は音声コンテンツである。
 以下、図4を参照して、元のコンテンツが動画コンテンツあるいは音声コンテンツである場合の、図2に示した学習済みモデル生成装置200の動作フロー400を説明する。
 ステップ402において、正常コンテンツ取得部212は、異常を含まない元のコンテンツから、正常コンテンツを取得する。学習モデルに入力データを渡す際には、コンテンツを学習モデルの入力に適した形に変換してもよい。
 一例として、元のコンテンツが、動画コンテンツの場合、これを第1の所定期間S秒(例えば4秒)毎に抽出し、抽出した動画コンテンツをさらに1フレームずつに分割し、静止画像を得て、これを正常コンテンツとする。また、元のコンテンツが静止画像の場合は、このような変換処理をせずに、そのまま正常コンテンツとすることができる。
 他の例として、元のコンテンツが、音声コンテンツの場合、これを第1の所定期間S秒(例えば4秒)毎に抽出したものを正常コンテンツとする。
 次に、ステップ404において、異常コンテンツ生成部214は、ステップ402で得られた正常なコンテンツに異常を加えて異常コンテンツを生成する。正常コンテンツから異常コンテンツを生成する際に、任意のアプリケーションを使用して、正常なコンテンツに自動的に異常を付加してもよいし、あるいは人が手動で異常を付加してもよいし、またこの両方、すなわちアプリケーションと手動の両方で異常を付加してもよい。異常コンテンツの生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。以下、元のコンテンツが動画の場合と、音声の場合の異常コンテンツの生成方法をそれぞれ説明する。
 まず、元のコンテンツが動画コンテンツの場合、正常なコンテンツ(ここでは、正常な静止画像)に異常を加えて異常コンテンツを生成する。すなわち、正常な静止画像に作為的に異常を加えて異常コンテンツとする。正常な静止画像とは、人間が見て自然と認識する画像である。異常な静止画像とは、人間が見て不自然と認識する画像であり、画像の一部/全体が乱れたもの、画像の一部が壊れたものや、画像の一部がずれたもの、画像の一部に傷があるものなどを含む。異常な静止画像は、例えば、正常な画像にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ(例えば、ブロックノイズ、ラインノイズ、残像ノイズ、画像乱れ)、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。また、1つの異常コンテンツに加える異常は一種類に限らず、複数種類の異常を加えてもよい。
 図10Aから図10Dは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとを例示する。図10Aから図10Dの上側の画像は正常コンテンツ、下側の画像は異常コンテンツである。図10Aは正常コンテンツ(上側)と、正常コンテンツにブロックノイズが加えられた異常コンテンツ(下側)、図10Bは正常コンテンツ(上側)と、該正常コンテンツにずれ(Glitch)が加えられた異常コンテンツ(下側)、図10Cは正常コンテンツ(上側)と、該正常コンテンツにラインノイズが加えられた異常コンテンツ(下側)、図10Dは正常コンテンツ(上側)と、該正常コンテンツに画像乱れが加えられた異常コンテンツ(下側)を示す。図示したように異常画像は人間が見て不自然と認識するものである。当業者であれば、コンテンツには様々な異常を付加することができ、異常は残像ノイズ、画像乱れなども含み、図10Aから図10Dに例示したものに限られないことは理解されよう。
 一方、元のコンテンツが音声コンテンツの場合、正常なコンテンツ(ここでは、元のコンテンツを第1の所定期間S秒毎に抽出したもの)に異常を加えて異常コンテンツを生成する。具体的には、正常なコンテンツに対し、本来存在するべきではない周波数成分(例えば高いあるいは低い周波数成分)、またはレベル等の少なくとも1つを付加する。正常な音声とは、人間が聞いて自然な音声である。異常な音声とは、人間が聴いて不自然と認識する音声であり、例えば、正常な音声にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ(例えば、クリッピングノイズや、インパルスノイズや、連続正弦波(ピュアトーン)や、ミュート(無音))、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。
 図4に戻り、ステップ406において、教師データ生成部216は、正常コンテンツに正常であることを示すラベル(この例では「0」)、異常コンテンツに異常であることを示すラベル(この例では「1」)を付す。ラベル付けされた1つの正常コンテンツと、ラベル付けられた1以上の異常コンテンツの組に基づいて教師データ234を生成し、記憶部230(図3)に保存する。なお、未知のデータに対する精度が下がってしまう、いわゆる過学習を避けるため、1の正常コンテンツに対し1の異常コンテンツをペアとすることが好ましい。すなわち、1の正常コンテンツから複数の異常コンテンツを生成した場合、1の正常コンテンツと、複数の異常コンテンツのうち1つの異常コンテンツをペアとして、教師データ234を生成することが好ましい。
 教師データ234の生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。
 元のコンテンツが動画コンテンツの場合は、ステップ402において取得した正常コンテンツと、ステップ404において取得した異常コンテンツのペアにラベルを付してそのまま教師データ234とすることができる。
 一方、元のコンテンツが音声コンテンツの場合は、ステップ402及びステップ404で取得した正常コンテンツ、異常コンテンツをそのまま教師データ234とすることができない。取得した正常コンテンツ(異常コンテンツ)をフーリエ変換等して、周波数スペクトルを得て、この周波数スペクトルにラベルを付したものを正常コンテンツ(異常コンテンツ)に対応する教師データ234とする。図11A及び図11Bは、それぞれ、第1の所定期間(ここでは1秒)の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトル(図左(a))と、第1の所定期間(ここでは1秒)の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトル(図右(b))とを例示する。図11Aの右側図(b)は異常としてクリックノイズを加えた時の周波数スペクトル、図11Bの右側図(b)は、異常として連続正弦波を加えたときの周波数スペクトルを例示する。なお、音声コンテンツの特徴を抽出しやすくするためにフーリエ変換(例えば、高速フーリエ変換、短時間フーリエ変換)前に、例えば抽出した音声コンテンツを低周波遮断、または他の何らかの適切な種類のフィルタを用いてフィルタリング処理してもよい。また、例えば、公知のMFCC(メル周波数ケプストラム)分析等を行って音声コンテンツの特徴を求めてもよい。これらの処理の結果得られたものにラベルを付したものを正常コンテンツ(異常コンテンツ)に対応する教師データ234としてもよい。
 次に、ステップ408において、学習部218は、記憶部230に保存された教師データ234を使用して学習を行う。期待されるラベルと、学習モデルが計算した出力結果を比較し、出力結果がラベルに近くなるよう学習モデルを修正する。すなわち、学習モデルは、例えば正常な静止画像を入力すると、正常であることを示すラベル1を、異常な静止画像を入力すると、異常であることを示すラベル0を出力するよう修正される。修正を繰り返した後に、出力値が、正解の値になってくると、学習済みモデル236が完成する。最終的な学習済みモデル236が完成すると、これを記憶部230に保存する。
 一般的に、機械学習を行うには大量のラベル付きデータが必要であるが、人によるラベル付け作業は繁雑である。本開示によると、異常を含まない元のコンテンツに基づいて、作為的に不自然な値を加えた異常なコンテンツを生成し、この生成した異常コンテンツに対し自動的にラベル付けを行うことができ、その結果、ラベル付け作業を、短時間化または低コスト化またはその両方を実現することができる。また、一般的には、ラベル数は少ない方が、学習済みモデルの精度が高くなることが知られている。本開示によると、ラベルは正常、異常を示す2つであり、高い精度で正常・異常の判定結果を得ることができる。
 さらに、本開示によると、異常を含まない元のデータに基づいて異常コンテンツを生成するため、1の正常コンテンツに対し、多数の異常コンテンツを容易に用意することができる。本開示では、物としての正常品に対して、物としての異常品を用意し、これらを撮像した画像を取得する必要はない。本開示によると、物としての異常品を用意することなく、多数の異常データを用意することができ、その結果、正常なコンテンツと、これに対応する異常コンテンツの組み合わせを多数用意することができる。このため、単一の組み合わせを用いて学習する場合よりも教師データの数が増大する。これにより、学習の高精度化、効率化を図ることができる。また、ペアの数が多ければ学習を高精度に行えるので、異常を含まない元のコンテンツの数を大幅に減らすことが可能である。
 図5は、図1のコンテンツ異常検査方法における推論フェーズ(b)を実施するための推論システム50の構成を示す。推論システム50は、それぞれ任意の情報処理装置で実施できるユーザ端末500とサーバ600とを備える。ユーザ端末500は、ユーザが、検査対象をサーバ600にアップロードしたり、サーバ600から受け取った推論結果に基づく表示を行うアプリケーション画面で検査対象に異常があるかを確認したりする端末である。サーバ600は、検査対象に異常があるか否かを推論するコンピュータである。ユーザ端末500とサーバ600は、通信ネットワーク(NW)51を介して相互に通信可能に接続されている。通信ネットワーク51は、例えばインターネットやLAN(Local Area Network)などの任意のタイプのネットワークであってよい。図5には1台のユーザ端末500のみが示されているが、推論システム50は、それぞれが別個のユーザによって使用される任意の数のユーザ端末を含んでもよい。また、図5には1台のサーバ600が示されているが、サーバ600は、複数台で構成されてもよいし、クラウドで構成されてもよい。
 図示するように、ユーザ端末500は、主たるハードウェア要素として、プロセッサ502、メモリ504、ディスプレイ506、ユーザ入力インターフェイス(ユーザ入力IF)508、及び通信インターフェイス(通信IF)510を備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。ユーザ端末500は、例えば、スマートフォン、タブレット端末、又はパーソナルコンピュータ等で実現することが可能である。以下、既に説明した要素と同様の要素についての詳細な説明は省略することがある。
 メモリ504には、少なくともオペレーティングシステムと推論プログラムを実行するための端末側プログラムとが格納されている。端末側プログラムは、ユーザからの入力を受け取り、サーバ600へ検査対象コンテンツ106をアップロードする処理や、検査対象に対する推論結果を受信等する処理の機能を実現するためのコンピュータプログラムである。メモリ504はまた、検査対象コンテンツ106を記憶してもよい。
 メモリ504は、その一部がユーザ端末500本体の外部に別体として備えられてもよい。この場合、別体の外部メモリ(不図示)に検査対象コンテンツ106を格納する。ユーザ端末500は外部メモリにアクセスして、ユーザ端末500からの指示に従って該外部メモリから通信ネットワーク51を介してサーバ600へ検査対象コンテンツ106をアップロードすることができる。このため、ユーザ端末500内のメモリに検査対象コンテンツ106を格納しなくてもよい。
 ディスプレイ506は、ユーザ端末500のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ506は、メモリ504に格納されたユーザ端末500のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。ディスプレイ506はさらに、クライアントプログラムの実行画面に、推論処理の結果として生成された結果画像を表示する。
 ユーザ入力インターフェイス508は、ユーザからユーザ端末500を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス508の具体例は、タッチパッド、マウス、キーボード等である。
 なお、ユーザ端末500がスマートフォン又はタブレット端末として実現される場合には、ディスプレイ506とユーザ入力インターフェイス508をタッチパネルとして一体的に構成することとしてもよい。また、ユーザ端末500がパーソナルコンピュータとして実現される場合には、ディスプレイ506とユーザ入力インターフェイス508がユーザ端末500本体の外部に別体として備えられるのであってもよい。
 通信インターフェイス510は、通信ネットワーク51を介してサーバ600と通信するためのネットワークインターフェイスである。通信インターフェイス510は、例えばTCP/IP(Transmission Control Protocol / Internet Protocol)を含む所定の通信プロトコルに従ってデータをサーバ600との間で送受信するように構成してもよい。
 図5にはさらに、サーバ600のハードウェア構成図が示されている。サーバ600は、主たるハードウェア要素として、プロセッサ602、メモリ604、及び通信インターフェイス(IF)606を備える。これら各要素は、バス(不図示)を介して相互に通信可能に接続されている。以下、既に説明した要素と同様の要素についての詳細な説明は省略する。
 メモリ604には、サーバ600の全体的な動作を制御するオペレーティングシステムに加えて、サーバプログラムが格納されている。サーバプログラムは、推論処理の実行に関連するサーバ側の各処理をサーバ600に実行させるためのコンピュータプログラムである。プロセッサ602がメモリ604に格納された推論プログラムを実行することによって、後述するサーバ側の各機能が実現される。
 通信インターフェイス606は、通信ネットワーク51を介して(1又は複数の)ユーザ端末500と通信するためのネットワークインターフェイスである。
 図6は、図5の推論システムの一部を構成するサーバ600の機能的な構成を示すブロック図である。サーバ600は、処理部610と、記憶部630を備える。処理部610は、検査対象取得部612と、推論部614と、判定部616と、プレビューコンテンツ生成部618と、出力部620とを備える。記憶部630は、図5に示すメモリ604に対応する。記憶部630は、検査対象コンテンツ106と、学習済みモデル236と、学習済みモデル236による推論結果632と、異常と推論された箇所を含むプレビューコンテンツ634と、プレビューコンテンツ634のサムネイル636とを備える。処理部610及び処理部610に含まれる各部612から620は、図5に示すプロセッサ602がメモリ604内のプログラムを読み出して実行することによって実現される、本開示に係る推論処理の機能を表す。
 以下、図7を参照して、検査対象が動画コンテンツ、あるいは音声コンテンツである場合の、図6のサーバ600の動作フロー700を説明する。図7に示す動作フロー700の処理の実行に先立ち、記憶部630には、学習済みモデル236が予め格納されている。
 ステップ702において、検査対象取得部612は、ユーザ端末500によってサーバ600にアップロードされたラベルのない検査対象コンテンツ106を取得する。
 次に、ステップ704において、検査対象取得部612は、取得した検査対象コンテンツ106を学習済みモデル236への入力に適した形に変換する。動画コンテンツの場合、検査対象コンテンツ106から第1の所定期間S秒(例えば4秒)のコンテンツを抽出し、抽出したコンテンツを1フレームずつに分割し、複数の静止画像コンテンツとする。音声コンテンツの場合、第1の所定期間S秒のコンテンツを抽出し、該抽出した音声コンテンツをフーリエ変換等して、音声コンテンツの周波数スペクトルを表すコンテンツを得る。
 次に、ステップ708において、推論部614は、ステップ704にて変換されたコンテンツを学習済みモデル236へ入力し、推論結果632(ここでは、0から1の値)を得て、これをそれぞれ記憶部630に格納する。
 次にステップ710において、判定部616は記憶部630から推論結果632を取得し、これを時系列に整列し、推論結果632が所定の閾値未満、例えば0.99であるか否かを判定する。判定部616は出力結果が所定の閾値未満の場合、正常であると判定する。一方、所定の閾値未満ではない場合、検査対象コンテンツ106には異常があると判定する。
 次にステップ712において、プレビューコンテンツ生成部618は、整列された推論結果632から、プレビューコンテンツの動作中心点を探す。プレビューコンテンツ生成部618は、検査対象コンテンツ106の全体を確認しなくとも、検査対象コンテンツ106に異常があるか否かの確認できるように、異常があると推論されたコンテンツの一部をプレビューコンテンツ634として抽出する。なお、1つの検査対象コンテンツ106に、異常有りとの推論結果が断続的に複数存在する場合、プレビューコンテンツ生成部618は、異常箇所それぞれに対し、プレビューコンテンツ634を生成する。
 プレビューコンテンツ生成部618がプレビューコンテンツの動作中心点を探す手順の例は、以下のとおりである。プレビューコンテンツ生成部618は、まず、整列された第1の所定期間S秒の推論結果を取得する。次に、取得した推論結果について、以下の1から5の処理を行う。
1. まず、第1の所定期間S秒の推論結果のうち、閾値以上であり、かつ、最も1に近い値あるいは1を探す。
2. 推論結果に1がない場合、最も1に近い値が対応付けられたフレームを動作中心点とする。
3. 推論結果に1がある場合、1が対応付けられたフレームを動作中心点にする。
4. 異常を示す推論結果、すなわち所定の閾値以上の推論結果が連続して出現した場合、対応する連続するフレームのうち、中央のフレームを動作中心点にする。
5. 第1の所定期間S秒内の推論結果に複数の中心がある場合、最前方の中心を動作中心点とする。
 プレビューコンテンツ生成部618は、上記1から5の手順により探した動作中心点と、動作中心点前後の第2の所定期間T秒(例えば3秒)に亘るコンテンツを検査対象コンテンツ106から抽出し、プレビューコンテンツ634として、記憶部630に格納する。プレビューコンテンツ634を再生すると、ユーザは、まず異常がないと推論されたコンテンツが第2の所定期間T秒に亘り視認した後に、異常があると推論されたコンテンツを視認し、その後、第2の所定期間T秒に亘り異常がないと推論されたコンテンツを視認してもよい。こうすることにより、ユーザは、プレビューコンテンツ634を確認する際に、異常な部分と、正常な部分とを比較しやすくなる。なお、異常有りとの推論結果が連続して出現した場合、この連続する期間の前後の第2の所定期間T秒に亘って、コンテンツを検査対象コンテンツ106から抽出してもよい。
 検査対象コンテンツ106全体について、コンテンツの変換処理(ステップ704)、推論処理(ステップ706、ステップ708)、判定処理(ステップ710)、プレビューコンテンツ生成処理(ステップ712)を繰り返し行う。検査対象コンテンツ106全体の処理が終わると、ステップ714に進む。
 ステップ714において、出力部620は、異常箇所の発生時刻と、プレビューコンテンツ634と、プレビューコンテンツ634に対応付けられた推論結果とを通信インターフェイス606を介してユーザ端末500に送信する。
 図8を参照して、ユーザ端末500のディスプレイ506に表示される画面800の例について説明する。ユーザ端末500は、受信したプレビューコンテンツ634等をディスプレイ506に表示する。
 802は、1つの検査対象コンテンツ106から抽出された複数の異常有りと推論された箇所に割り当てられた番号である。本実施例では、3つの箇所(異常箇所1、異常箇所2、異常箇所3)に異常があると判定されている。表示画面800は、複数の検査対象コンテンツ106に関する異常箇所を一度に表示するよう構成してもよい。
 804は、異常があると判定された箇所の発生時刻を示す。例えば、異常箇所1は、検査対象コンテンツ106の再生開始から1分36秒後に発生すると推論されている。
 806は、プレビューコンテンツ634のサムネイル636を表す。ユーザ端末500は、ユーザによる、サムネイル636のクリックないしタップを受け付けると、ディスプレイ506に画面(不図示)をポップアップさせる。ユーザはポップアップされた画面で、異常箇所を含むプレビューコンテンツ634を再生することができる。プレビューコンテンツ634が再生されると、第2の所定期間T秒(例えば3秒)に亘り正常な箇所が再生された後に異常であると推論された箇所が再生され、さらに第2の所定期間T秒に亘り正常な箇所が再生される。
 808は、異常であると推論された箇所が、実際に異常である確率であり、これを信頼度(Confidence)と称する。信頼度は、ステップ706において推論部614が取得した学習済みモデル236からの推論結果(正確には推論結果に100をかけたもの)である。推論結果632は、検査対象となるコンテンツが異常を含む確率を示す。例えば、推論結果が1の場合、この推論結果に対応するフレームは100%異常であり、0.1の場合、この推論結果に対応するフレームが異常である確率は10%である。上述した動作中心点に指定されたフレームに対応付けられる推論結果を信頼度とする。なお、本実施形態では、異常箇所1が異常を含む確率、すなわち信頼度は99.31%である。本開示では、信頼度が99%(閾値0.99に100をかけた値)以上を異常と判定する。
 次に、図9を参照して、検査対象コンテンツ106が動画コンテンツである場合の、推論結果aと、各フレームと、閾値との関係を説明する。
 図9は、第1の所定期間S秒(4秒)ごとに取得したS秒間の動画コンテンツをM個のフレームに分割した様子を示す。例えば、第1の所定期間Sが4秒であり、フレームレートが30fpsの場合、120(=M)のフレームが生成される。
 図9はまた、120フレーム全てを学習済みモデル236へ入力し、各フレームに対して得られた推論結果を示す。図9において、推論結果aは、フレーム1では、0.2、フレーム2では0.21、フレームN-1では0.99、フレームNでは1.0、フレームN+1では0.998である。ここで、閾値が0.99とすると、判定部616は、フレームN-1、フレームN、フレームN+1は閾値未満ではないので、これらのフレームは異常有りと判定する。
 プレビューコンテンツ生成部618は、異常有りと判定されたフレームNを中心として、フレームNの時刻の前後第2の所定期間T(3秒)に亘るコンテンツをプレビューコンテンツ634として抽出し、このプレビューコンテンツ634と、異常ありと判定した時刻と、推論結果とを記憶部630に格納する。また、プレビューコンテンツ生成部618は、抽出したプレビューコンテンツ634からサムネイル636を生成し、記憶部630に格納する。
 本開示によると、異常が含まれる検査対象コンテンツを検出できる確率を高く、すなわち100%にすることが好ましい。したがって、異常がないと推論したコンテンツについて、本当は異常が含まれているのに誤って異常なしと推論することを回避するよう閾値を調整(本開示では閾値は0.99に設定)する。これにより正常なコンテンツも異常が含まれていると判断する確率は高くなるが、異常が含まれているコンテンツを確実に検出することができる。すなわち、本開示によると、異常が含まれているコンテンツの見落としになる誤検出をしないように閾値を調整する。
 以上、本開示の実施形態について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。上記した実施形態では、検査対象が、放送局からの放送信号としての動画コンテンツおよび音声コンテンツである場合の例を説明したが、放送信号だけでなく、インターネットなどのネットワークを介して配信される任意のコンテンツも検査対象にすることができる。また、前述したように、検査対象として、任意の機器あるいはこれら機器に関連する信号等を対象とすることができるため、それら機器に関する動画、静止画などの画像コンテンツ、機器から発生する音などの音声コンテンツを検査対象に使用することもできる。その場合、検査対象は、機器に取り付けたセンサ等から得られる信号でもよい。
 一例として、異常を含まない元のコンテンツは、例えば、正常運転している各種機器の状態を監視する各種センサ(加速度センサ、角速度センサ、温度センサ、気圧センサ、流量センサ、輝度センサ等)から得られる信号である。この元のコンテンツから、正常コンテンツ、異常コンテンツを生成する。センサ等から得られる信号の学習フェーズにおける処理、推論フェーズにおける処理は、音声コンテンツの場合の処理と同様である。
 本開示によると、運転している機械が故障したときに、記録した機械音から過去に生じた機械の異常を検出することもできる。正常運転時の機械の運転音を記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。
 あるいは、他の例として、運転している機械が故障したときに、記録した各種センサからのデータから、過去に生じた機械の異常を検出することもできる。正常運転時の各種センサからのデータを記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。
 以上、種々の例示的な側面および実施形態について詳述したが、当業者には、種々の変更、置換、追加、サブコンビネーションが認識される。したがって、添付の請求の範囲に記載した請求項および将来請求の範囲に含めることのある請求項の解釈は、真の範囲内にあるものとしてのあらゆるそのような変更、置換、追加、サブコンビネーション等もそれら請求項が包含するもの、としてなされるよう意図している。
  50…推論システム
  51…通信ネットワーク
  106…検査対象コンテンツ
  200…情報処理装置
  210…処理部
  212…正常コンテンツ取得部
  214…異常コンテンツ生成部
  216…教師データ生成部
  218…学習部
  230…記憶部
  232…元のコンテンツ
  234…教師データ
  236…学習済みモデル
  500…ユーザ端末
  510…通信インターフェイス
  600…サーバ
  612…検査対象取得部
  614…推論部
  616…判定部
  618…プレビューコンテンツ生成部
  620…出力部
  630…記憶部
  632…推論結果
  634…プレビューコンテンツ
  636…サムネイル

Claims (17)

  1.  検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、
     前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
     前記正常なコンテンツと、1以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。
  2.  請求項1記載の教師データ生成方法で生成された前記教師データを使用して学習済みモデルを生成する方法。
  3.  コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、
     正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
     前記正常なコンテンツと、1以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させる
    ことによって生成される、学習済みモデルの生成方法。
  4.  請求項1から3のいずれか1項に記載の方法であって、前記異常なコンテンツは、任意のアプリケーションを使用して、あるいは人が手動で、あるいは任意のアプリケーションを使用すると共に人が手動で、前記正常なコンテンツに異常を付加したコンテンツである、方法。
  5.  請求項4に記載の方法であって、前記コンテンツは、動画あるいは静止画のコンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えた、ブロックノイズ、ずれ、ラインノイズ、残像ノイズ、画像乱れ、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
  6.  請求項4項に記載の方法であって、前記コンテンツは音声コンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的な前記任意のアプリケーションを使用して加えた、クリッピングノイズ、インパルスノイズ、連続正弦波、ミュート、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
  7.  コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、
     命令を記録するメモリと、
     メモリに記録された前記命令を実行するプロセッサと
    を備え、前記プロセッサは、前記命令を実行することにより、
     正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
     前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、
    学習済みモデルの生成装置。
  8.  プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、
     正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
     前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、
    非一時的な記録媒体。
  9.  プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、
     正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
     前記正常なコンテンツと、1以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する
    プログラム。
  10.  検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、
     前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
     前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、方法。
  11.  請求項10に記載の方法であって、前記検査対象コンテンツの正常/異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、前記検査対象コンテンツの異常の確率を含む、方法。
  12.  請求項11に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、
     前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。
  13.  検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、
     命令を記録するメモリと、
     メモリに記録された前記命令を実行するプロセッサと、
    を備え、前記プロセッサは、前記命令を実行することにより、
     前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
     前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、情報処理装置。
  14.  請求項13に記載の情報処理装置であって、
     前記検査対象コンテンツの入力を受ける入力部と、
     前記検査対象コンテンツの正常/異常を示す情報を表示するディスプレイと、
    をさらに備えた、情報処理装置。
  15.  請求項13に記載の情報処理装置であって、
     ユーザ端末に対して情報の送受信を行う通信部をさらに備え、
     前記プロセッサは、前記メモリに記憶された指示を実行することにより、
     前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを受け、
     前記学習済みモデルから取得した前記検査対象コンテンツの正常/異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。
  16.  プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、
     前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
     前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、
    非一時的な記録媒体。
  17.  プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、
     前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した1以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
     前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常/異常を示す情報を取得する、
    プログラム。
PCT/JP2020/035212 2019-11-08 2020-09-17 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 Ceased WO2021090587A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20884205.4A EP4057191A4 (en) 2019-11-08 2020-09-17 Teacher data generation method, trained model generation method, device, recording medium, program, and information processing device
US17/755,778 US12361529B2 (en) 2019-11-08 2020-09-17 Training data generation method, method and device for generating learned model, recording medium, program, and information processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-202889 2019-11-08
JP2019202889A JP6843450B1 (ja) 2019-11-08 2019-11-08 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

Publications (1)

Publication Number Publication Date
WO2021090587A1 true WO2021090587A1 (ja) 2021-05-14

Family

ID=74860807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/035212 Ceased WO2021090587A1 (ja) 2019-11-08 2020-09-17 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

Country Status (4)

Country Link
US (1) US12361529B2 (ja)
EP (1) EP4057191A4 (ja)
JP (1) JP6843450B1 (ja)
WO (1) WO2021090587A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022181204A (ja) * 2021-05-25 2022-12-07 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラルネットワークをトレーニングするためのコンピュータプログラムおよびコンピュータで実装される方法(混合された拡張済みデータセットを用いる音声異常検出)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220155263A1 (en) * 2020-11-19 2022-05-19 International Business Machines Corporation Sound anomaly detection using data augmentation
JP7282122B2 (ja) * 2021-04-14 2023-05-26 Heroz株式会社 プログラム、方法、情報処理装置
JP7747205B2 (ja) * 2022-06-14 2025-10-01 Ntt株式会社 データ生成装置、データ生成方法、プログラム、および機械学習システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320251A (ja) * 1995-05-25 1996-12-03 Fuji Facom Corp 設備における音響および振動の診断方法
JP2018120300A (ja) 2017-01-23 2018-08-02 株式会社リコー 情報処理装置、情報処理方法およびプログラム
JP2018124937A (ja) * 2017-02-03 2018-08-09 株式会社東芝 異常検出装置、異常検出方法およびプログラム
JP2018206262A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797886B2 (en) 2018-03-29 2023-10-24 Nec Corporation Image processing device, image processing method, and image processing program
US12511735B2 (en) * 2021-07-14 2025-12-30 Stryker Corporation Methods and systems for characterizing tissue of a subject
US12315242B2 (en) * 2022-03-01 2025-05-27 Mitsubishi Electric Research Laboratories, Inc. Method and system for zero-shot cross domain video anomaly detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320251A (ja) * 1995-05-25 1996-12-03 Fuji Facom Corp 設備における音響および振動の診断方法
JP2018120300A (ja) 2017-01-23 2018-08-02 株式会社リコー 情報処理装置、情報処理方法およびプログラム
JP2018124937A (ja) * 2017-02-03 2018-08-09 株式会社東芝 異常検出装置、異常検出方法およびプログラム
JP2018206262A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAISUKELAB: "Defect discovery! Deep Metric Learning application to MVTec anomaly detection datasets", QIITA, 17 September 2019 (2019-09-17), XP055823554, Retrieved from the Internet <URL:https://qiita.com/daisukelab/items/e0ff429bd58b2befbb1b> [retrieved on 20210704] *
See also references of EP4057191A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022181204A (ja) * 2021-05-25 2022-12-07 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラルネットワークをトレーニングするためのコンピュータプログラムおよびコンピュータで実装される方法(混合された拡張済みデータセットを用いる音声異常検出)
JP7845789B2 (ja) 2021-05-25 2026-04-14 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラルネットワークをトレーニングするためのコンピュータプログラムおよびコンピュータで実装される方法(混合された拡張済みデータセットを用いる音声異常検出)

Also Published As

Publication number Publication date
JP2021077058A (ja) 2021-05-20
US12361529B2 (en) 2025-07-15
JP6843450B1 (ja) 2021-03-17
US20220394200A1 (en) 2022-12-08
EP4057191A1 (en) 2022-09-14
EP4057191A4 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
JP6843450B1 (ja) 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
US11514925B2 (en) Using a predictive model to automatically enhance audio having various audio quality issues
CN110473525B (zh) 获取语音训练样本的方法和装置
EP4042706B1 (en) Fake video detection using block chain
US20210117690A1 (en) Fake video detection using video sequencing
US10334242B1 (en) Test system and test method for audio-video device
CN110502665A (zh) 视频处理方法和装置
CN114155852A (zh) 语音处理方法、装置、电子设备及存储介质
JP6367748B2 (ja) 認識装置、映像コンテンツ提示システム
JP2025041866A (ja) フェイクビデオの検出
EP4466701A1 (en) Data augmentation system and method for multi-microphone systems
EP4643255A1 (en) System and method for detecting and preventing model inversion attacks
CN113436644A (zh) 音质评估方法、装置、电子设备及存储介质
CN110415318B (zh) 图像处理方法和装置
US20240379107A1 (en) Real-time ai screening and auto-moderation of audio comments in a livestream
US20210056957A1 (en) Ability Classification
CN113591515A (zh) 专注度处理方法、装置及存储介质
WO2023141564A1 (en) Data augmentation system and method for multi-microphone systems
JP6890867B1 (ja) 評価プログラム、及び評価システム
Nik Khah et al. Unsupervised Bayesian Surprise Detection in Spatial Audio with Convolutional Variational Autoencoder and LSTM Model
US12586560B2 (en) Electronic apparatus, terminal apparatus and controlling method thereof
US12424239B2 (en) System and method for acoustic channel identification-based data verification
JP7499459B2 (ja) 制御装置、制御方法、および、プログラム
CN112383722B (zh) 用于生成视频的方法和装置
EP4529678B1 (en) Using audio classification to enhance audio in videos

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20884205

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020884205

Country of ref document: EP

Effective date: 20220608

WWG Wipo information: grant in national office

Ref document number: 17755778

Country of ref document: US