WO2021090587A1

WO2021090587A1 - 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

Info

Publication number: WO2021090587A1
Application number: PCT/JP2020/035212
Authority: WO
Inventors: 暁冬王
Original assignee: Leader Electronics Corp; Leader Electronics Inc
Current assignee: Leader Electronics Corp; Leader Electronics Inc
Priority date: 2019-11-08
Filing date: 2020-09-17
Publication date: 2021-05-14
Anticipated expiration: 2022-05-08
Also published as: JP2021077058A; US12361529B2; JP6843450B1; US20220394200A1; EP4057191A1; EP4057191A4

Abstract

正常なコンテンツと、正常なコンテンツから生成した異常なコンテンツとに基づいて教師データを生成する。　検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、検査対象に関する正常なコンテンツと、正常なコンテンツから生成した異常なコンテンツを受け、正常なコンテンツと、１以上の異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。

Description

教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置

　本開示は、教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置に関する。

　コンテンツの提供業者等にとっては、高品質のコンテンツを需要者に届ける義務がある。コンテンツの提供者、例えば放送局では、動画コンテンツを提供する前に、動画コンテンツの品質に異常があるかどうか検査する必要がある。そこで、従来は、モニタ装置にコンテンツ画像を映し出し、検査を行う専門の担当者がこの映し出されたコンテンツ画像を注意深く監視して、画像の品質異常の有無を検査する必要があった。

　しかしながら、前述のコンテンツ画像の異常の検査の仕方では、担当者にかかる精神的、肉体的負担が大きく、また画像の異常の検出に個人差が出るという問題があった。一方で、人を使わずに、機械的に品質異常を検出する方法が存在する。しかしながら、異常の検出には検出ソフトウェアを使用して、検出に用いる複数のパラメータのそれぞれに閾値を設定する必要があり、これら閾値の設定の仕方で異常の検出に差が出るという問題があった。

　近年では、画像の異常検出を行うために機械学習のアルゴリズムが利用されている。特許文献１に記載のシステムでは、正常データを判別する第１の学習部と、ユーザにより選択された異常候補を正解データ、選択されなかった異常候補を非正解データとして、正解データと非正解データを識別する第２の学習部とを備える機械学習法を用いる。

特開２０１８－１２０３００号公報

　しかしながら、前述の機械学習法では、ユーザが異常候補の選択を行う必要があり、この選択に多大な時間とコストを要するという問題があった。

　そこで、本開示の一態様は、検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法である。

　また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法である。

　また、本開示の他の一態様は、コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置である。

　また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体である。

　また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラムである。

　また、本開示の他の一態様は、検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、方法である。

　また、本開示の他の一態様は、検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、情報処理装置である。

　また、本開示の他の一態様は、プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、非一時的な記録媒体である。

　また、本開示の他の一態様は、プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、プログラムである。

　以下に述べる種々の側面および実施形態は、装置、回路、方法に関して記述し説明するが、これらは、単なる一例であって説明のためのものであり、したがって範囲限定を意味するものではない。種々の実施形態においては、上記の問題の１つまたはそれ以上が軽減または除去されるが、他の改良のために向けた他の実施形態もある。
［本開示の実施形態の説明］
　最初に、本開示の実施形態の内容を列記して説明する。本開示の一実施形態は、以下のような構成を備える。

（項目１）　検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。

（項目２）　項目１記載の教師データ生成方法で生成された前記教師データを使用して学習済みモデルを生成する方法。

（項目３）　コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させることによって生成される、学習済みモデルの生成方法。

（項目４）　項目１から３のいずれか１項に記載の方法であって、前記異常なコンテンツは、任意のアプリケーションを使用して、あるいは人が手動で、あるいは任意のアプリケーションを使用すると共に人が手動で、前記正常なコンテンツに異常を付加したコンテンツである、方法。

（項目５）　項目４に記載の方法であって、前記コンテンツは、動画あるいは静止画のコンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、ブロックノイズ、ずれ、ラインノイズ、残像ノイズ、画像乱れ、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。

（項目６）　項目４項に記載の方法であって、前記コンテンツは音声コンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えられた、クリッピングノイズ、インパルスノイズ、連続正弦波、ミュート、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。

（項目７）　コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサとを備え、前記プロセッサは、前記命令を実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、学習済みモデルの生成装置。

（項目８）　プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、非一時的な記録媒体。

（項目９）　プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、プログラム。

（項目１０）　検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、方法。

（項目１１）項目１０に記載の方法であって、前記検査対象コンテンツの正常／異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、前記検査対象コンテンツの異常の確率を含む、方法。

（項目１２）項目１１に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。

（項目１３）　検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、命令を記録するメモリと、メモリに記録された前記命令を実行するプロセッサと、を備え、前記プロセッサは、前記命令を実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、情報処理装置。

（項目１４）　項目１３に記載の情報処理装置であって、前記検査対象コンテンツの入力を受ける入力部と、前記検査対象コンテンツの正常／異常を示す情報を表示するディスプレイをさらに備えた、情報処理装置。

（項目１５）　項目１３に記載の情報処理装置であって、ユーザ端末に対して情報の送受信を行う通信部をさらに備え、前記プロセッサは、前記メモリに記憶された指示を実行することにより、前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを受け、前記学習済みモデルから取得した前記検査対象コンテンツの正常／異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。

（項目１６）　プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから前記検査対象コンテンツの正常／異常を示す情報を取得する、非一時的な記録媒体。

（項目１７）　プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、プログラム。

　上記の例示的な実施形態および側面に加え、別の実施形態および側面も、図面を参照しまた以下の説明を検討することにより当業者には明らかとなる。

図１は、本開示の一実施形態に係る、コンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す図である。図１のコンテンツ異常検査方法における学習フェーズを実施するための、本開示の一実施形態に係る学習済みモデル生成装置のハードウェア構成の例を示すブロック図である。図２に示す学習済みモデル生成装置の機能的な構成を示すブロック図である。図２に示した学習済みモデル生成装置の動作を示すフローチャートである。図１のコンテンツ異常検査方法における推論フェーズを実施するための、本開示の一実施形態に係る推論システムの構成を示すブロック図である。図５に示した推論システムに含まれるサーバの機能的な構成を示すブロック図である。図６に示したサーバの動作を示すフローチャートである。図５に示した推論システムに含まれるユーザ端末のディスプレイに表示される表示画面の例を示す。第１の所定期間ごとに取得した動画コンテンツをＭ個のフレームに分割した様子を示す。図１０Ａから図１０Ｄは、正常コンテンツが静止画像の場合の、正常コンテンツと異常コンテンツとのペアのいくつかの例を示す図である。図１０Ａから図１０Ｄは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。図１０Ａから図１０Ｄは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。図１０Ａから図１０Ｄは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとのペアのいくつかの例を示す図である。図１１Ａ及び図１１Ｂは、第１の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第１の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。図１１Ａ及び図１１Ｂは、第１の所定期間の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトルと、第１の所定期間の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトルを示す。

　以下、本開示の実施形態について図面を参照して説明する。図面において、同一または類似の要素には同一または類似の参照符号が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。しかし、本開示の実施形態は、必ずしもこのような態様に限定されない。本開示の実施形態が、特許請求の範囲において規定される範囲に含まれる様々な態様を取り得ることは、当業者にとって明らかであろう。

　以下、本開示の一実施形態として、学習済みモデル生成装置や、検査対象に異常があるか否かを判別するための異常検査方法等について図面を参照しながら説明する。本開示においては、異常とは、正常でないあらゆるものを含むものとしても良い。また、この異常は、正常な状態のものに人為的に変更を付加したもの、例えば正常な状態のものにノイズを付加したものや、人が正常とは知覚できないものを含んでも良い。さらに、検査対象は、経時変化するものだけでなく、経時変化しないものも対象とすることができる。また、検査対象として、例えば、動画コンテンツや音声コンテンツがあるが、これらには限られない。検査対象として、任意の機器（例えば、駆動装置、加工機械）、あるいはこれら機器から発生する信号等を対象にしてもよい。その場合、検査に使用するコンテンツとしては、それら検査対象の機器から出力される信号等のコンテンツ、検査対象の機器に取り付けたセンサから出力される信号（例えば加速度センサから出力される加速度信号、角速度センサから出力される角速度信号）としてもよい。

　なお、以下に説明する実施形態では、検査対象が、放送局から放送される動画コンテンツ、音声コンテンツである場合の例を説明する。

　図１は機械学習を用いて検査対象であるコンテンツに異常があるか否かを判別するためのコンテンツ異常検査方法の概要を示す。機械学習は、ディープラーニング、ＳＶＭ（サポートベクトルマシン）畳み込みニューラルネットワーク（ＣＮＮ）などを含む。図１（ａ）は正常なコンテンツと、正常なコンテンツから生成された異常なコンテンツを教師データとして学習する、コンテンツ異常検査方法における学習フェーズを例示する。

　（１）まず、正常なコンテンツを取得し、取得した正常なコンテンツと、正常なコンテンツに対応する異常なコンテンツを大量に用意する。異常なコンテンツは、正常なコンテンツに異常を加えたコンテンツであり、正常なコンテンツに基づいて作為的に生成することができる。正常なコンテンツには、正常であることを示すラベル、例えば「０」、異常なコンテンツには、異常であることを示すラベル、例えば「１」を付与する。

　（２）ラベル付けされた正常なコンテンツと異常なコンテンツのペアを大量に学習させ、学習データを入力したときの出力が正答に近い値になるよう、モデルを自動で最適化し、学習済みモデルを生成する。本実施形態では、正常なコンテンツを入力したときに「０」、異常なコンテンツを入力したときに「１」を出力するようモデルに学習させる。例えば畳み込みニューラルネットワークを採用する場合、ラベル付きの正常なコンテンツと、ラベル付きの異常なコンテンツのペアを大量に学習し、特徴量を自動的に抽出し、ニューラルネットワークのノード間の関係の重み付け等を調整する。この調整を繰り返し行って次第に出力値が正解の値となるようにする。

　図１（ｂ）は、生成された学習済みモデル２３６を用いて検査対象に含まれる異常の有無を推論する、コンテンツ異常検査方法における推論フェーズを例示する。

　（３）検査対象からラベルなしの検査対象コンテンツ１０６を用意する。その際、検査対象が学習済みモデル２３６に入力できる形態にない場合には、その入力できる形態への変換処理を行って検査対象コンテンツ１０６を用意してもよい。
　（４）検査対象コンテンツ１０６を、学習済みモデル２３６に入力する。学習済みモデル２３６は、検査対象コンテンツ１０６に異常が含まれているか否かを示す情報を出力する。例えば、０が出力された場合、検査対象コンテンツ１０６には異常がなく、１が出力された場合、異常があると予測できる。

　このように本開示によると、正常コンテンツと、正常コンテンツに基づいて生成された異常コンテンツとを用いて、検査対象に含まれる異常の有無を判別することができる。以下、図２及び図３を参照して、学習フェーズについて詳細に説明する。

　図２は、図１に示す学習フェーズ（ａ）を実行する情報処理装置としての学習済みモデル生成装置２００のハードウェア構成の一例を示す。学習済みモデル生成装置２００は、機械学習を行うために使用する端末であり、例えばパーソナルコンピュータ、ワークステーション、またはその他の任意の情報処理装置で構成される。図示するように、学習済みモデル生成装置２００は主たるハードウェア要素として、プロセッサ２０２と、メモリ２０４と、ユーザ入力インターフェイス（ＩＦ）２０６と、ディスプレイ２０８とを備える。これら各要素は、バス（不図示）を介して相互に通信可能に接続されている。

　メモリ２０４には、少なくともオペレーティングシステムと学習モデル生成プログラムとが格納されている。オペレーティングシステムは、学習済みモデル生成装置２００の全体的な動作を制御するためのコンピュータプログラムである。学習済みモデル生成プログラムは、学習済みモデル生成装置２００が後述する学習済みモデル生成処理に含まれる各処理を実現するためのコンピュータプログラムである。メモリ２０４はまた、学習済みモデル生成装置２００の動作によって生成されるデータを一時的又は永続的に記憶することもできる。メモリ２０４の具体例は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスク、フラッシュメモリ、光ディスク、その他の任意の記憶装置である。

　プロセッサ２０２は、メモリ２０４に格納されているプログラムを読み出して、それに従った処理を実行するように構成される。プロセッサ２０２がメモリ２０４に格納された学習済みモデル生成プログラムを実行することによって、後述する学習済みモデル生成処理の各処理が実現される。プロセッサ２０２は、ＣＰＵ（Central Processing Unit）及びＧＰＵ（Graphics Processing Unit）を含む。

　ユーザ入力インターフェイス２０６は、ユーザから学習済みモデル生成装置２００を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス２０６の具体例は、キーボード、マウス、タッチパッド等である。

　ディスプレイ２０８は、学習済みモデル生成装置２００のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ２０８は、メモリ２０４に格納された学習済みモデル生成装置２００のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。一例として、液晶ディスプレイや有機ＥＬディスプレイをディスプレイ２０８に用いることが可能である。

　図３は、図２に示した学習済みモデル生成装置２００の機能的な構成を示すブロック図である。学習済みモデル生成装置２００は、処理部２１０及び記憶部２３０を有する。処理部２１０はさらに、正常コンテンツ取得部２１２と、異常コンテンツ生成部２１４と、教師データ生成部２１６と、学習部２１８とを含む。記憶部２３０は、図２に示したメモリ２０４に対応する。処理部２１０及び処理部２１０に含まれる各部２１２から２１６は、図２に示したプロセッサ２０２がメモリ２０４内の学習済みモデル生成プログラムを読み出して実行することによって実現される、本開示に係る学習済みモデル生成処理が実現する機能を表している。

　記憶部２３０は、異常を含まない元のコンテンツ２３２と、教師データ２３４を記憶する。教師データは、正常なコンテンツと、異常なコンテンツに基づいて生成される。元のコンテンツは、インターネット上から、あるいは公開されているデータベース等から取得したデータ、またはユーザが記録した異常を含まないデータでもよく、また大量のデータで構成されるものでもよい。元のコンテンツは、検査対象が動画の場合は動画コンテンツ、音声の場合は音声コンテンツである。

　以下、図４を参照して、元のコンテンツが動画コンテンツあるいは音声コンテンツである場合の、図２に示した学習済みモデル生成装置２００の動作フロー４００を説明する。

　ステップ４０２において、正常コンテンツ取得部２１２は、異常を含まない元のコンテンツから、正常コンテンツを取得する。学習モデルに入力データを渡す際には、コンテンツを学習モデルの入力に適した形に変換してもよい。

　一例として、元のコンテンツが、動画コンテンツの場合、これを第１の所定期間Ｓ秒（例えば４秒）毎に抽出し、抽出した動画コンテンツをさらに１フレームずつに分割し、静止画像を得て、これを正常コンテンツとする。また、元のコンテンツが静止画像の場合は、このような変換処理をせずに、そのまま正常コンテンツとすることができる。

　他の例として、元のコンテンツが、音声コンテンツの場合、これを第１の所定期間Ｓ秒（例えば４秒）毎に抽出したものを正常コンテンツとする。

　次に、ステップ４０４において、異常コンテンツ生成部２１４は、ステップ４０２で得られた正常なコンテンツに異常を加えて異常コンテンツを生成する。正常コンテンツから異常コンテンツを生成する際に、任意のアプリケーションを使用して、正常なコンテンツに自動的に異常を付加してもよいし、あるいは人が手動で異常を付加してもよいし、またこの両方、すなわちアプリケーションと手動の両方で異常を付加してもよい。異常コンテンツの生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。以下、元のコンテンツが動画の場合と、音声の場合の異常コンテンツの生成方法をそれぞれ説明する。

　まず、元のコンテンツが動画コンテンツの場合、正常なコンテンツ（ここでは、正常な静止画像）に異常を加えて異常コンテンツを生成する。すなわち、正常な静止画像に作為的に異常を加えて異常コンテンツとする。正常な静止画像とは、人間が見て自然と認識する画像である。異常な静止画像とは、人間が見て不自然と認識する画像であり、画像の一部／全体が乱れたもの、画像の一部が壊れたものや、画像の一部がずれたもの、画像の一部に傷があるものなどを含む。異常な静止画像は、例えば、正常な画像にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ（例えば、ブロックノイズ、ラインノイズ、残像ノイズ、画像乱れ）、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。また、１つの異常コンテンツに加える異常は一種類に限らず、複数種類の異常を加えてもよい。

　図１０Ａから図１０Ｄは、正常コンテンツが静止画像の場合の、正常コンテンツと、異常コンテンツとを例示する。図１０Ａから図１０Ｄの上側の画像は正常コンテンツ、下側の画像は異常コンテンツである。図１０Ａは正常コンテンツ（上側）と、正常コンテンツにブロックノイズが加えられた異常コンテンツ（下側）、図１０Ｂは正常コンテンツ（上側）と、該正常コンテンツにずれ（Ｇｌｉｔｃｈ）が加えられた異常コンテンツ（下側）、図１０Ｃは正常コンテンツ（上側）と、該正常コンテンツにラインノイズが加えられた異常コンテンツ（下側）、図１０Ｄは正常コンテンツ（上側）と、該正常コンテンツに画像乱れが加えられた異常コンテンツ（下側）を示す。図示したように異常画像は人間が見て不自然と認識するものである。当業者であれば、コンテンツには様々な異常を付加することができ、異常は残像ノイズ、画像乱れなども含み、図１０Ａから図１０Ｄに例示したものに限られないことは理解されよう。

　一方、元のコンテンツが音声コンテンツの場合、正常なコンテンツ（ここでは、元のコンテンツを第１の所定期間Ｓ秒毎に抽出したもの）に異常を加えて異常コンテンツを生成する。具体的には、正常なコンテンツに対し、本来存在するべきではない周波数成分（例えば高いあるいは低い周波数成分）、またはレベル等の少なくとも１つを付加する。正常な音声とは、人間が聞いて自然な音声である。異常な音声とは、人間が聴いて不自然と認識する音声であり、例えば、正常な音声にデジタル的なノイズをランダムに加えて、あるいは既定のノイズを加えて生成することができる。デジタル的なノイズは、任意のアプリケーションを使用して加えられた各種ノイズ（例えば、クリッピングノイズや、インパルスノイズや、連続正弦波（ピュアトーン）や、ミュート（無音））、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである。

　図４に戻り、ステップ４０６において、教師データ生成部２１６は、正常コンテンツに正常であることを示すラベル（この例では「０」）、異常コンテンツに異常であることを示すラベル（この例では「１」）を付す。ラベル付けされた１つの正常コンテンツと、ラベル付けられた１以上の異常コンテンツの組に基づいて教師データ２３４を生成し、記憶部２３０（図３）に保存する。なお、未知のデータに対する精度が下がってしまう、いわゆる過学習を避けるため、１の正常コンテンツに対し１の異常コンテンツをペアとすることが好ましい。すなわち、１の正常コンテンツから複数の異常コンテンツを生成した場合、１の正常コンテンツと、複数の異常コンテンツのうち１つの異常コンテンツをペアとして、教師データ２３４を生成することが好ましい。

　教師データ２３４の生成方法は、元のコンテンツが動画コンテンツである場合と、音声コンテンツである場合とで異なる。

　元のコンテンツが動画コンテンツの場合は、ステップ４０２において取得した正常コンテンツと、ステップ４０４において取得した異常コンテンツのペアにラベルを付してそのまま教師データ２３４とすることができる。

　一方、元のコンテンツが音声コンテンツの場合は、ステップ４０２及びステップ４０４で取得した正常コンテンツ、異常コンテンツをそのまま教師データ２３４とすることができない。取得した正常コンテンツ（異常コンテンツ）をフーリエ変換等して、周波数スペクトルを得て、この周波数スペクトルにラベルを付したものを正常コンテンツ（異常コンテンツ）に対応する教師データ２３４とする。図１１Ａ及び図１１Ｂは、それぞれ、第１の所定期間（ここでは１秒）の正常な音声コンテンツをフーリエ変換して得られた周波数スペクトル（図左(ａ)）と、第１の所定期間（ここでは１秒）の正常な音声コンテンツに異常を加えたものをフーリエ変換して得られた周波数スペクトル（図右(ｂ)）とを例示する。図１１Ａの右側図（ｂ）は異常としてクリックノイズを加えた時の周波数スペクトル、図１１Ｂの右側図（ｂ）は、異常として連続正弦波を加えたときの周波数スペクトルを例示する。なお、音声コンテンツの特徴を抽出しやすくするためにフーリエ変換（例えば、高速フーリエ変換、短時間フーリエ変換）前に、例えば抽出した音声コンテンツを低周波遮断、または他の何らかの適切な種類のフィルタを用いてフィルタリング処理してもよい。また、例えば、公知のＭＦＣＣ（メル周波数ケプストラム）分析等を行って音声コンテンツの特徴を求めてもよい。これらの処理の結果得られたものにラベルを付したものを正常コンテンツ（異常コンテンツ）に対応する教師データ２３４としてもよい。

　次に、ステップ４０８において、学習部２１８は、記憶部２３０に保存された教師データ２３４を使用して学習を行う。期待されるラベルと、学習モデルが計算した出力結果を比較し、出力結果がラベルに近くなるよう学習モデルを修正する。すなわち、学習モデルは、例えば正常な静止画像を入力すると、正常であることを示すラベル１を、異常な静止画像を入力すると、異常であることを示すラベル０を出力するよう修正される。修正を繰り返した後に、出力値が、正解の値になってくると、学習済みモデル２３６が完成する。最終的な学習済みモデル２３６が完成すると、これを記憶部２３０に保存する。

　一般的に、機械学習を行うには大量のラベル付きデータが必要であるが、人によるラベル付け作業は繁雑である。本開示によると、異常を含まない元のコンテンツに基づいて、作為的に不自然な値を加えた異常なコンテンツを生成し、この生成した異常コンテンツに対し自動的にラベル付けを行うことができ、その結果、ラベル付け作業を、短時間化または低コスト化またはその両方を実現することができる。また、一般的には、ラベル数は少ない方が、学習済みモデルの精度が高くなることが知られている。本開示によると、ラベルは正常、異常を示す２つであり、高い精度で正常・異常の判定結果を得ることができる。

　さらに、本開示によると、異常を含まない元のデータに基づいて異常コンテンツを生成するため、１の正常コンテンツに対し、多数の異常コンテンツを容易に用意することができる。本開示では、物としての正常品に対して、物としての異常品を用意し、これらを撮像した画像を取得する必要はない。本開示によると、物としての異常品を用意することなく、多数の異常データを用意することができ、その結果、正常なコンテンツと、これに対応する異常コンテンツの組み合わせを多数用意することができる。このため、単一の組み合わせを用いて学習する場合よりも教師データの数が増大する。これにより、学習の高精度化、効率化を図ることができる。また、ペアの数が多ければ学習を高精度に行えるので、異常を含まない元のコンテンツの数を大幅に減らすことが可能である。

　図５は、図１のコンテンツ異常検査方法における推論フェーズ（ｂ）を実施するための推論システム５０の構成を示す。推論システム５０は、それぞれ任意の情報処理装置で実施できるユーザ端末５００とサーバ６００とを備える。ユーザ端末５００は、ユーザが、検査対象をサーバ６００にアップロードしたり、サーバ６００から受け取った推論結果に基づく表示を行うアプリケーション画面で検査対象に異常があるかを確認したりする端末である。サーバ６００は、検査対象に異常があるか否かを推論するコンピュータである。ユーザ端末５００とサーバ６００は、通信ネットワーク（ＮＷ）５１を介して相互に通信可能に接続されている。通信ネットワーク５１は、例えばインターネットやＬＡＮ（Local Area Network）などの任意のタイプのネットワークであってよい。図５には１台のユーザ端末５００のみが示されているが、推論システム５０は、それぞれが別個のユーザによって使用される任意の数のユーザ端末を含んでもよい。また、図５には１台のサーバ６００が示されているが、サーバ６００は、複数台で構成されてもよいし、クラウドで構成されてもよい。

　図示するように、ユーザ端末５００は、主たるハードウェア要素として、プロセッサ５０２、メモリ５０４、ディスプレイ５０６、ユーザ入力インターフェイス（ユーザ入力ＩＦ）５０８、及び通信インターフェイス（通信ＩＦ）５１０を備える。これら各要素は、バス（不図示）を介して相互に通信可能に接続されている。ユーザ端末５００は、例えば、スマートフォン、タブレット端末、又はパーソナルコンピュータ等で実現することが可能である。以下、既に説明した要素と同様の要素についての詳細な説明は省略することがある。

　メモリ５０４には、少なくともオペレーティングシステムと推論プログラムを実行するための端末側プログラムとが格納されている。端末側プログラムは、ユーザからの入力を受け取り、サーバ６００へ検査対象コンテンツ１０６をアップロードする処理や、検査対象に対する推論結果を受信等する処理の機能を実現するためのコンピュータプログラムである。メモリ５０４はまた、検査対象コンテンツ１０６を記憶してもよい。

　メモリ５０４は、その一部がユーザ端末５００本体の外部に別体として備えられてもよい。この場合、別体の外部メモリ（不図示）に検査対象コンテンツ１０６を格納する。ユーザ端末５００は外部メモリにアクセスして、ユーザ端末５００からの指示に従って該外部メモリから通信ネットワーク５１を介してサーバ６００へ検査対象コンテンツ１０６をアップロードすることができる。このため、ユーザ端末５００内のメモリに検査対象コンテンツ１０６を格納しなくてもよい。

　ディスプレイ５０６は、ユーザ端末５００のユーザに対して視覚的な情報を提供するように構成される。例えば、ディスプレイ５０６は、メモリ５０４に格納されたユーザ端末５００のオペレーティングシステムのホーム画面やデスクトップ画面に、様々なアプリケーションを起動するための複数のアイコンを表示する。ディスプレイ５０６はさらに、クライアントプログラムの実行画面に、推論処理の結果として生成された結果画像を表示する。

　ユーザ入力インターフェイス５０８は、ユーザからユーザ端末５００を操作するための入力を受け取るように構成される。ユーザ入力インターフェイス５０８の具体例は、タッチパッド、マウス、キーボード等である。

　なお、ユーザ端末５００がスマートフォン又はタブレット端末として実現される場合には、ディスプレイ５０６とユーザ入力インターフェイス５０８をタッチパネルとして一体的に構成することとしてもよい。また、ユーザ端末５００がパーソナルコンピュータとして実現される場合には、ディスプレイ５０６とユーザ入力インターフェイス５０８がユーザ端末５００本体の外部に別体として備えられるのであってもよい。

　通信インターフェイス５１０は、通信ネットワーク５１を介してサーバ６００と通信するためのネットワークインターフェイスである。通信インターフェイス５１０は、例えばＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）を含む所定の通信プロトコルに従ってデータをサーバ６００との間で送受信するように構成してもよい。

　図５にはさらに、サーバ６００のハードウェア構成図が示されている。サーバ６００は、主たるハードウェア要素として、プロセッサ６０２、メモリ６０４、及び通信インターフェイス（ＩＦ）６０６を備える。これら各要素は、バス（不図示）を介して相互に通信可能に接続されている。以下、既に説明した要素と同様の要素についての詳細な説明は省略する。

　メモリ６０４には、サーバ６００の全体的な動作を制御するオペレーティングシステムに加えて、サーバプログラムが格納されている。サーバプログラムは、推論処理の実行に関連するサーバ側の各処理をサーバ６００に実行させるためのコンピュータプログラムである。プロセッサ６０２がメモリ６０４に格納された推論プログラムを実行することによって、後述するサーバ側の各機能が実現される。

　通信インターフェイス６０６は、通信ネットワーク５１を介して（１又は複数の）ユーザ端末５００と通信するためのネットワークインターフェイスである。

　図６は、図５の推論システムの一部を構成するサーバ６００の機能的な構成を示すブロック図である。サーバ６００は、処理部６１０と、記憶部６３０を備える。処理部６１０は、検査対象取得部６１２と、推論部６１４と、判定部６１６と、プレビューコンテンツ生成部６１８と、出力部６２０とを備える。記憶部６３０は、図５に示すメモリ６０４に対応する。記憶部６３０は、検査対象コンテンツ１０６と、学習済みモデル２３６と、学習済みモデル２３６による推論結果６３２と、異常と推論された箇所を含むプレビューコンテンツ６３４と、プレビューコンテンツ６３４のサムネイル６３６とを備える。処理部６１０及び処理部６１０に含まれる各部６１２から６２０は、図５に示すプロセッサ６０２がメモリ６０４内のプログラムを読み出して実行することによって実現される、本開示に係る推論処理の機能を表す。

　以下、図７を参照して、検査対象が動画コンテンツ、あるいは音声コンテンツである場合の、図６のサーバ６００の動作フロー７００を説明する。図７に示す動作フロー７００の処理の実行に先立ち、記憶部６３０には、学習済みモデル２３６が予め格納されている。

　ステップ７０２において、検査対象取得部６１２は、ユーザ端末５００によってサーバ６００にアップロードされたラベルのない検査対象コンテンツ１０６を取得する。

　次に、ステップ７０４において、検査対象取得部６１２は、取得した検査対象コンテンツ１０６を学習済みモデル２３６への入力に適した形に変換する。動画コンテンツの場合、検査対象コンテンツ１０６から第１の所定期間Ｓ秒（例えば４秒）のコンテンツを抽出し、抽出したコンテンツを１フレームずつに分割し、複数の静止画像コンテンツとする。音声コンテンツの場合、第１の所定期間Ｓ秒のコンテンツを抽出し、該抽出した音声コンテンツをフーリエ変換等して、音声コンテンツの周波数スペクトルを表すコンテンツを得る。

　次に、ステップ７０８において、推論部６１４は、ステップ７０４にて変換されたコンテンツを学習済みモデル２３６へ入力し、推論結果６３２（ここでは、０から１の値）を得て、これをそれぞれ記憶部６３０に格納する。

　次にステップ７１０において、判定部６１６は記憶部６３０から推論結果６３２を取得し、これを時系列に整列し、推論結果６３２が所定の閾値未満、例えば０．９９であるか否かを判定する。判定部６１６は出力結果が所定の閾値未満の場合、正常であると判定する。一方、所定の閾値未満ではない場合、検査対象コンテンツ１０６には異常があると判定する。

　次にステップ７１２において、プレビューコンテンツ生成部６１８は、整列された推論結果６３２から、プレビューコンテンツの動作中心点を探す。プレビューコンテンツ生成部６１８は、検査対象コンテンツ１０６の全体を確認しなくとも、検査対象コンテンツ１０６に異常があるか否かの確認できるように、異常があると推論されたコンテンツの一部をプレビューコンテンツ６３４として抽出する。なお、１つの検査対象コンテンツ１０６に、異常有りとの推論結果が断続的に複数存在する場合、プレビューコンテンツ生成部６１８は、異常箇所それぞれに対し、プレビューコンテンツ６３４を生成する。

　プレビューコンテンツ生成部６１８がプレビューコンテンツの動作中心点を探す手順の例は、以下のとおりである。プレビューコンテンツ生成部６１８は、まず、整列された第１の所定期間Ｓ秒の推論結果を取得する。次に、取得した推論結果について、以下の１から５の処理を行う。
１．　まず、第１の所定期間Ｓ秒の推論結果のうち、閾値以上であり、かつ、最も１に近い値あるいは１を探す。
２．　推論結果に１がない場合、最も１に近い値が対応付けられたフレームを動作中心点とする。
３．　推論結果に１がある場合、１が対応付けられたフレームを動作中心点にする。
４．　異常を示す推論結果、すなわち所定の閾値以上の推論結果が連続して出現した場合、対応する連続するフレームのうち、中央のフレームを動作中心点にする。
５．　第１の所定期間Ｓ秒内の推論結果に複数の中心がある場合、最前方の中心を動作中心点とする。

　プレビューコンテンツ生成部６１８は、上記１から５の手順により探した動作中心点と、動作中心点前後の第２の所定期間Ｔ秒（例えば３秒）に亘るコンテンツを検査対象コンテンツ１０６から抽出し、プレビューコンテンツ６３４として、記憶部６３０に格納する。プレビューコンテンツ６３４を再生すると、ユーザは、まず異常がないと推論されたコンテンツが第２の所定期間Ｔ秒に亘り視認した後に、異常があると推論されたコンテンツを視認し、その後、第２の所定期間Ｔ秒に亘り異常がないと推論されたコンテンツを視認してもよい。こうすることにより、ユーザは、プレビューコンテンツ６３４を確認する際に、異常な部分と、正常な部分とを比較しやすくなる。なお、異常有りとの推論結果が連続して出現した場合、この連続する期間の前後の第２の所定期間Ｔ秒に亘って、コンテンツを検査対象コンテンツ１０６から抽出してもよい。

　検査対象コンテンツ１０６全体について、コンテンツの変換処理（ステップ７０４）、推論処理（ステップ７０６、ステップ７０８）、判定処理（ステップ７１０）、プレビューコンテンツ生成処理（ステップ７１２）を繰り返し行う。検査対象コンテンツ１０６全体の処理が終わると、ステップ７１４に進む。

　ステップ７１４において、出力部６２０は、異常箇所の発生時刻と、プレビューコンテンツ６３４と、プレビューコンテンツ６３４に対応付けられた推論結果とを通信インターフェイス６０６を介してユーザ端末５００に送信する。

　図８を参照して、ユーザ端末５００のディスプレイ５０６に表示される画面８００の例について説明する。ユーザ端末５００は、受信したプレビューコンテンツ６３４等をディスプレイ５０６に表示する。

　８０２は、１つの検査対象コンテンツ１０６から抽出された複数の異常有りと推論された箇所に割り当てられた番号である。本実施例では、３つの箇所（異常箇所１、異常箇所２、異常箇所３）に異常があると判定されている。表示画面８００は、複数の検査対象コンテンツ１０６に関する異常箇所を一度に表示するよう構成してもよい。

　８０４は、異常があると判定された箇所の発生時刻を示す。例えば、異常箇所１は、検査対象コンテンツ１０６の再生開始から１分３６秒後に発生すると推論されている。

　８０６は、プレビューコンテンツ６３４のサムネイル６３６を表す。ユーザ端末５００は、ユーザによる、サムネイル６３６のクリックないしタップを受け付けると、ディスプレイ５０６に画面（不図示）をポップアップさせる。ユーザはポップアップされた画面で、異常箇所を含むプレビューコンテンツ６３４を再生することができる。プレビューコンテンツ６３４が再生されると、第２の所定期間Ｔ秒（例えば３秒）に亘り正常な箇所が再生された後に異常であると推論された箇所が再生され、さらに第２の所定期間Ｔ秒に亘り正常な箇所が再生される。

　８０８は、異常であると推論された箇所が、実際に異常である確率であり、これを信頼度（Ｃｏｎｆｉｄｅｎｃｅ）と称する。信頼度は、ステップ７０６において推論部６１４が取得した学習済みモデル２３６からの推論結果（正確には推論結果に１００をかけたもの）である。推論結果６３２は、検査対象となるコンテンツが異常を含む確率を示す。例えば、推論結果が１の場合、この推論結果に対応するフレームは１００％異常であり、０．１の場合、この推論結果に対応するフレームが異常である確率は１０％である。上述した動作中心点に指定されたフレームに対応付けられる推論結果を信頼度とする。なお、本実施形態では、異常箇所１が異常を含む確率、すなわち信頼度は９９．３１％である。本開示では、信頼度が９９％（閾値０．９９に１００をかけた値）以上を異常と判定する。

　次に、図９を参照して、検査対象コンテンツ１０６が動画コンテンツである場合の、推論結果ａと、各フレームと、閾値との関係を説明する。

　図９は、第１の所定期間Ｓ秒（４秒）ごとに取得したＳ秒間の動画コンテンツをＭ個のフレームに分割した様子を示す。例えば、第１の所定期間Ｓが４秒であり、フレームレートが３０ｆｐｓの場合、１２０（＝Ｍ）のフレームが生成される。

　図９はまた、１２０フレーム全てを学習済みモデル２３６へ入力し、各フレームに対して得られた推論結果を示す。図９において、推論結果ａは、フレーム１では、０．２、フレーム２では０．２１、フレームＮ－１では０．９９、フレームＮでは１．０、フレームＮ＋１では０．９９８である。ここで、閾値が０．９９とすると、判定部６１６は、フレームＮ－１、フレームＮ、フレームＮ＋１は閾値未満ではないので、これらのフレームは異常有りと判定する。

　プレビューコンテンツ生成部６１８は、異常有りと判定されたフレームＮを中心として、フレームＮの時刻の前後第２の所定期間Ｔ（３秒）に亘るコンテンツをプレビューコンテンツ６３４として抽出し、このプレビューコンテンツ６３４と、異常ありと判定した時刻と、推論結果とを記憶部６３０に格納する。また、プレビューコンテンツ生成部６１８は、抽出したプレビューコンテンツ６３４からサムネイル６３６を生成し、記憶部６３０に格納する。

　本開示によると、異常が含まれる検査対象コンテンツを検出できる確率を高く、すなわち１００％にすることが好ましい。したがって、異常がないと推論したコンテンツについて、本当は異常が含まれているのに誤って異常なしと推論することを回避するよう閾値を調整（本開示では閾値は０．９９に設定）する。これにより正常なコンテンツも異常が含まれていると判断する確率は高くなるが、異常が含まれているコンテンツを確実に検出することができる。すなわち、本開示によると、異常が含まれているコンテンツの見落としになる誤検出をしないように閾値を調整する。

　以上、本開示の実施形態について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。上記した実施形態では、検査対象が、放送局からの放送信号としての動画コンテンツおよび音声コンテンツである場合の例を説明したが、放送信号だけでなく、インターネットなどのネットワークを介して配信される任意のコンテンツも検査対象にすることができる。また、前述したように、検査対象として、任意の機器あるいはこれら機器に関連する信号等を対象とすることができるため、それら機器に関する動画、静止画などの画像コンテンツ、機器から発生する音などの音声コンテンツを検査対象に使用することもできる。その場合、検査対象は、機器に取り付けたセンサ等から得られる信号でもよい。

　一例として、異常を含まない元のコンテンツは、例えば、正常運転している各種機器の状態を監視する各種センサ（加速度センサ、角速度センサ、温度センサ、気圧センサ、流量センサ、輝度センサ等）から得られる信号である。この元のコンテンツから、正常コンテンツ、異常コンテンツを生成する。センサ等から得られる信号の学習フェーズにおける処理、推論フェーズにおける処理は、音声コンテンツの場合の処理と同様である。

　本開示によると、運転している機械が故障したときに、記録した機械音から過去に生じた機械の異常を検出することもできる。正常運転時の機械の運転音を記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。

　あるいは、他の例として、運転している機械が故障したときに、記録した各種センサからのデータから、過去に生じた機械の異常を検出することもできる。正常運転時の各種センサからのデータを記録し、これから正常コンテンツを生成する。この正常コンテンツと、正常なコンテンツに異常を付加した異常コンテンツとに基づいて教師データを生成する。生成された教師データから学習済みモデルを生成する。この学習済みモデルを用いて過去に生じた機械の異常を検出する。

　以上、種々の例示的な側面および実施形態について詳述したが、当業者には、種々の変更、置換、追加、サブコンビネーションが認識される。したがって、添付の請求の範囲に記載した請求項および将来請求の範囲に含めることのある請求項の解釈は、真の範囲内にあるものとしてのあらゆるそのような変更、置換、追加、サブコンビネーション等もそれら請求項が包含するもの、としてなされるよう意図している。

　　５０…推論システム
　　５１…通信ネットワーク
　　１０６…検査対象コンテンツ
　　２００…情報処理装置
　　２１０…処理部
　　２１２…正常コンテンツ取得部
　　２１４…異常コンテンツ生成部
　　２１６…教師データ生成部
　　２１８…学習部
　　２３０…記憶部
　　２３２…元のコンテンツ
　　２３４…教師データ
　　２３６…学習済みモデル
　　５００…ユーザ端末
　　５１０…通信インターフェイス
　　６００…サーバ
　　６１２…検査対象取得部
　　６１４…推論部
　　６１６…判定部
　　６１８…プレビューコンテンツ生成部
　　６２０…出力部
　　６３０…記憶部
　　６３２…推論結果
　　６３４…プレビューコンテンツ
　　６３６…サムネイル

Claims

　検査対象に異常があるか否かを判別するための学習済みモデルを生成するために使用する教師データを生成する教師データ生成方法であって、
　前記検査対象に関する正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
　前記正常なコンテンツと、１以上の前記異常なコンテンツの組に基づいて教師データを生成する、教師データ生成方法。
　請求項１記載の教師データ生成方法で生成された前記教師データを使用して学習済みモデルを生成する方法。
　コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成方法であって、前記学習済みモデルは、
　正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
　前記正常なコンテンツと、１以上の前記異常なコンテンツの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして学習モデルを機械学習させる
ことによって生成される、学習済みモデルの生成方法。
　請求項１から３のいずれか１項に記載の方法であって、前記異常なコンテンツは、任意のアプリケーションを使用して、あるいは人が手動で、あるいは任意のアプリケーションを使用すると共に人が手動で、前記正常なコンテンツに異常を付加したコンテンツである、方法。
　請求項４に記載の方法であって、前記コンテンツは、動画あるいは静止画のコンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的なノイズは、前記任意のアプリケーションを使用して加えた、ブロックノイズ、ずれ、ラインノイズ、残像ノイズ、画像乱れ、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
　請求項４項に記載の方法であって、前記コンテンツは音声コンテンツであり、前記異常なコンテンツは、前記正常なコンテンツに、デジタル的なノイズを加えたものであり、前記デジタル的な前記任意のアプリケーションを使用して加えた、クリッピングノイズ、インパルスノイズ、連続正弦波、ミュート、及び人が手動で加えたデジタルノイズからなる群より選ばれる少なくとも一つである、方法。
　コンテンツが正常であるか異常であるかを判別するための学習済みモデルを生成する生成装置であって、
　命令を記録するメモリと、
　メモリに記録された前記命令を実行するプロセッサと
を備え、前記プロセッサは、前記命令を実行することにより、
　正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
　前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、
学習済みモデルの生成装置。
　プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、
　正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
　前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する、
非一時的な記録媒体。
　プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、
　正常なコンテンツと、前記正常なコンテンツから生成した異常なコンテンツを受け、
　前記正常なコンテンツと、１以上の前記異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして機械学習する
プログラム。
　検査対象である検査対象コンテンツに異常があるか否かを判別する方法であって、
　前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
　前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、方法。
　請求項１０に記載の方法であって、前記検査対象コンテンツの正常／異常を示す情報は、前記検査対象コンテンツにおけるノイズの生じた時間、前記検査対象コンテンツの異常の確率を含む、方法。
　請求項１１に記載の方法であって、さらに、前記検査対象コンテンツの異常の確率が、閾値以上の場合に、前記検査対象は異常を含むと判定し、
　前記閾値は、検査対象コンテンツに異常が含まれているのに、誤って異常なしと判定しないように調整される方法。
　検査対象となる検査対象コンテンツに異常があるか否かを判別する情報処理装置であって、
　命令を記録するメモリと、
　メモリに記録された前記命令を実行するプロセッサと、
を備え、前記プロセッサは、前記命令を実行することにより、
　前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
　前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記検査対象コンテンツの入力を受ける入力部と、
　前記検査対象コンテンツの正常／異常を示す情報を表示するディスプレイと、
をさらに備えた、情報処理装置。
　請求項１３に記載の情報処理装置であって、
　ユーザ端末に対して情報の送受信を行う通信部をさらに備え、
　前記プロセッサは、前記メモリに記憶された指示を実行することにより、
　前記通信部を介して、前記ユーザ端末から送信された前記検査対象コンテンツを受け、
　前記学習済みモデルから取得した前記検査対象コンテンツの正常／異常を示す情報を前記通信部により、前記ユーザ端末に送信する、情報処理装置。
　プロセッサにより実行されるプログラムが記録された非一時的な記録媒体であって、前記プロセッサが記録媒体に記録されているプログラムを実行することによって、
　前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
　前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、
非一時的な記録媒体。
　プロセッサによって実行されるプログラムであって、前記プロセッサがプログラムを実行することにより、
　前記検査対象コンテンツが正常であるか異常であるかを判別するために、前記正常なコンテンツと、前記正常なコンテンツから生成した１以上の異常なコンテンツとの組と、前記コンテンツの正常又は異常を示す情報とを教師データとして生成された学習済みモデルに、前記検査対象コンテンツを入力データとして与え、
　前記検査対象コンテンツが与えられた前記学習済みモデルから、前記検査対象コンテンツの正常／異常を示す情報を取得する、
プログラム。