WO2024252834A1

WO2024252834A1 - 情報処理方法、情報処理装置、及び情報処理プログラム

Info

Publication number: WO2024252834A1
Application number: PCT/JP2024/017113
Authority: WO
Inventors: 翔太大西; 育規石井; 晃浩野田; 和紀小塚
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2023-06-06
Filing date: 2024-05-08
Publication date: 2024-12-12
Anticipated expiration: 2025-12-06

Abstract

情報処理装置は、アノテータによるアノテーションの作業履歴を取得し、アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、作業履歴に基づいてアノテーションを評価する評価値を算出し、評価値に応じた育成メニューであって、アノテーションのスキルを向上させるための育成メニューを生成し、育成メニューをアノテータのディスプレイに出力する。

Description

情報処理方法、情報処理装置、及び情報処理プログラム

　本開示は、画像にアノテーションを付与する技術に関するものである。

　特許文献１には、学習用データを作成するためのアノテーションを受け付け、受け付けたアノテーションが付与された学習データの学習への貢献に基づいて、アノテーションを評価する技術が開示されている。

　特許文献２には、映像コンテンツに対してユーザが入力したアノテーションの履歴を保持し、アノテーションの種別及び頻度に基づく重みづけにより、アノテーションに対するユーザの貢献ポイントを算出する技術が開示されている。

　このように、従来技術は、アノテーションを評価することが開示されているに過ぎず、アノテータによるアノテーションのスキルを向上させることは考慮されていない。そのため、従来技術は、アノテータのスキルを効率よく向上させることはできない。

特開２０２１－１６８０５５号公報特開２０１８－６８２０号公報

　本開示は、このような課題を解決するためになされたものであり、アノテータのスキルを効率良く向上させる技術を提供することを目的とする。

　本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、前記育成メニューを前記アノテータのディスプレイに出力する。

　本開示によれば、アノテータのスキルを効率良く向上させることができる。

実施の形態における情報処理システムの全体構成の一例を示すブロック図である。実施の形態における情報処理装置の処理の一例を示すフローチャートである。図２の続きのフローチャートである。正確性の育成メニューの第１例の表示画面を示す図である。正確性の育成メニューの第２例の表示画面を示す図である。正確性の育成メニューの第３例の表示画面を示す図である。正確性の育成メニューの第４例の表示画面を示す図である。正確性の育成メニューの第５例の表示画面を示す図である。正確性の育成メニューの第６例の表示画面を示す図である。時間効率性の育成メニューの第１例の表示画面を示す図である。時間効率性の育成メニューの第２例の表示画面を示す図である。時間効率性の育成メニューの第３例の表示画面を示す図である。正確性のアノテーションテストを説明する図である。時間効率性のアノテーションテストを説明する図である。閾値が設定される様子を説明する図である。正確性評価値の第４例の説明図である。正確性評価値の第５例の説明図である。正確性評価値の第７例の説明図である。

　（本開示の一態様に至る知見）
　様々なデータで学習された汎用性の高い機械学習モデルをそのまま使うのではなく、現場独自のデータを用いて機械学習モデルを追加学習し、その現場に特化した高性能な機械学習モデルを獲得したいというニーズがある。例えば、ある工場の製造ラインにおいて機械学習モデルを用いて物体認識を行うような場合である。

　追加学習を行う場合、現場で収集された独自データに正解を示すアノテーションが付与された学習データを大量に準備する必要がある。このような学習データは、アノテータが大量の独自データに対して正解となるアノテーションを付与することにより生成される。高性能の機械学習モデルを生成するには、正確にアノテーションが付与された学習データを大量に準備する必要がある。そのためには、信頼性の高いアノテーションを高速に付与できるアノテータの育成が不可欠である。

　従来技術においては、アノテーションに対するモチベーションが高まるようにアノテーションを評価することや、アノテーションの貢献度に応じてアノテーションを評価するが行われているに過ぎない。そのため、従来技術は、アノテータのスキルを効率よく向上させることはできない。

　本開示は、このような課題を解決するためになされたものである。

　（１）本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、前記育成メニューを前記アノテータのディスプレイに出力する。

　この構成によれば、アノテーションに対する評価値に応じた育成メニューの表示画面がアノテータのディスプレイに表示される。そのため、アノテータは、育成メニューを通じて自身が苦手とするアノテーションを克服できる。これによって、アノテータのスキルを効率よく高めることができる。また、未熟なアノテータが望ましくないアノテーションを付与した学習データが量産されることを防止できる。

　（２）上記（１）記載の情報処理方法において、前記評価値は、複数の評価基準のそれぞれについて算出され、前記育成メニューは、算出された前記評価値が基準条件を満たしていない評価基準に応じた育成メニュー内容を含んでもよい。

　この構成によれば、評価値が基準条件を満たしていない評価基準に応じた育成メニュー内容がアノテータに提示されるので、アノテータが苦手とする評価基準に対するアノテーションのスキルを効率よく向上させることができる。

　（３）上記（２）記載の情報処理方法において、前記複数の評価基準は、前記アノテーションの正確さを評価する正確性の評価基準及び前記アノテーションの作業時間を評価する時間効率性の評価基準を含んでもよい。

　この構成によれば、正確性及び時間効率性に関してアノテータのスキルを効率よく向上させることができる。

　（４）上記（２）又は（３）記載の情報処理方法において、前記アノテーションは複数のアノテーション項目に分類され、前記評価値は、前記複数の評価基準のそれぞれについてアノテーション項目ごとに算出され、前記育成メニューは、算出された前記評価値が前記基準条件を満たしていない評価基準及びアノテーション項目に応じた育成メニュー内容を含んでもよい。

　この構成によれば、評価値が基準条件を満たしていない評価基準及びアノテーション項目に応じた育成メニューがアノテータに提示されるので、アノテータが苦手とする評価基準及びアノテーション項目又はアノテータに作業が要求される評価基準及びアノテーション項目に対するアノテーションのスキルを効率よく向上させることができる。

　（５）上記（４）記載の情報処理方法において、前記複数のアノテーション項目は、画像に含まれるオブジェクトにクラスラベルを付与する種別と、前記オブジェクトにバウンディングボックスを付与する種別と、時系列画像について時間区分ラベルを付与する種別との少なくとも１つであってもよい。

　この構成によれば、クラスラベルの付与、バウンディングボックスの付与、及び時間区分ラベルの付与の少なくとも１つに関してアノテータのスキルを効率よく向上させることができる。

　（６）上記（１）～（５）のいずれか１つに記載の情報処理方法において、前記育成メニューは、優良アノテータが行った前記アノテーションを示す優良アノテーションサンプル又は正解アノテーションが付与された正解アノテーションサンプルと、不良アノテータが行った前記アノテーションを示す不良アノテーションサンプルとのうち少なくとも前記不良アノテーションサンプルを含む表示画面で構成されてもよい。

　この構成によれば、良いアノテーション及び悪いアノテーションのうち少なくとも悪いアノテーションをアノテータに具体的に理解させることができる。

　（７）上記（６）記載の情報処理方法において、前記優良アノテーションサンプル及び前記不良アノテーションサンプルは、前記優良アノテータ及び前記不良アノテータによる前記アノテーションの結果を示す画像であってもよい。

　この構成によれば、良いアノテーションの結果及び悪いアノテーションの結果のうち少なくとも悪いアノテーションの結果をアノテータに具体的に理解させることができる。

　（８）上記（６）記載の情報処理方法において、前記優良アノテーションサンプル及び前記不良アノテーションサンプルは、前記優良アノテータ及び不良アノテータにより前記アノテーションが付与される過程を示す動画像であってもよい。

　この構成によれば、どのような手順でアノテーションを付与すれば正確なアノテーションを付与できるのかをアノテータに具体的に理解させることができる。

　（９）上記（１）～（８）のいずれか１つに記載の情報処理方法において、前記育成メニューは、前記評価値に応じたテスト内容を有するアノテーションテストであって、テスト画像に対して前記アノテーションを付与する作業を前記アノテータに課す前記アノテーションテストを含んでもよい。

　この構成によれば、アノテータが苦手とするアノテーションのスキルを確実に向上させることができる。

　（１０）上記（９）記載の情報処理方法において、前記アノテーションテストは、前記アノテーションテストの結果から前記アノテーションテストのテストスコアを算出することと、前記テストスコアから前記アノテーションテストの合否を判定することと、前記アノテータが前記アノテーションテストに合格したと判定された場合、前記アノテーションの作業を再開させることと、を含んでもよい。

　この構成によれば、苦手なアノテーションを克服したアノテータによりアノテーション作業が行われるので、正確にアノテーションが付与された学習データが得られる。

　（１１）上記（１０）記載の情報処理方法において、前記育成メニューは、前記アノテータが前記アノテーションテストに不合格であると判定された場合、アノテーションサンプルを前記ディスプレイに出力することを含んでもよい。

　この構成によれば、苦手なアノテーションを克服できなかったアノテータにはアノテーションサンプルが提示されるので、苦手とするアノテーションをアノテータに確実に理解させることができる。

　（１２）上記（１）～（１１）のいずれか１つに記載の情報処理方法において、さらに、前記評価値を評価するための閾値の設定画面を前記ディスプレイに表示することを含んでもよい。

　この構成によれば、閾値を任意に設定できるので、例えばアノテーションの依頼者の要求を満たすアノテーションを付与できるアノテータを育成できる。さらに、閾値を適切に設定することで、低品質なアノテーションが付与された学習データが量産されることを防止できる。また、閾値を適切に設定することで、過剰に正確なアノテーションを多大な時間をかけて付与するアノテータが育成されることを防止できる。

　（１３）上記（１２）記載の情報処理方法において、前記閾値は、前記アノテーションの正確性を評価する第１閾値を含み、前記設定画面は、前記第１閾値を設定するための第１設定画面を含み、前記第１設定画面は、前記第１閾値を調整するため調整部と、前記第１閾値に応じたアノテーションサンプルを表示する表示欄と、を含んでもよい。

　この構成によれば、第１閾値に応じたアノテーションサンプルを閲覧しながら閾値を調整できるので、要求されるアノテーションの基準を満たすように第１閾値を設定することが容易になる。

　（１４）上記（１２）又は（１３）記載の情報処理方法において、前記閾値は、前記アノテーションの正確性を評価する第２閾値を含み、前記設定画面は、前記第２閾値を設定するための第２設定画面を含み、前記第２設定画面は、前記第２閾値を調整するための調整部と、前記第２閾値に応じた１サンプルあたりの前記アノテーションの作業時間を表示する表示欄とを含んでもよい。

　この構成によれば、第２閾値に応じた１サンプルあたりの作業時間を確認しながら閾値を調整できるので、第２閾値の設定が容易になる。

　（１５）上記（１２）～（１４）のいずれか１つに記載の情報処理方法において、前記アノテーションは、複数のアノテーション項目を含み、前記設定画面の表示は、前記複数のアノテーション項目のうち、１のアノテーション項目の選択指示を受け付けることと、前記１のアノテーション項目に関する前記閾値を設定するための設定画面を表示することと、を含んでもよい。

　この構成によれば、アノテーション項目別に閾値を設定することが可能となる。

　（１６）上記（１）～（１５）のいずれか１つに記載の情報処理方法において、前記評価値の算出は、前記アノテータが画像に含まれる人物に対して付与した前記アノテーションを、前記人物の上半身に対応する上半身領域と、前記人物の下半身に対応する下半身領域とに分けることと、前記上半身領域のＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び前記下半身領域のＩＯＵを算出することと、前記上半身領域のＩＯＵの重み値が前記下半身のＩＯＵ領域の重み値よりも高くなるように、前記上半身のＩＯＵと前記下半身のＩＯＵとを重みづけ平均した値に基づいて前記評価値を算出することと、を含んでもよい。

　上半身は顔などの人物の特徴を多く含むので、人物に対するアノテーションは上半身が下半身よりも正確性が重視される傾向がある。この構成によれば、上半身のＩＯＵが下半身のＩＯＵよりも重み値が高くなるように、両ＩＯＵが重み付け平均された値に基づいて評価値が算出されるので、上半身について正確にアノテーションが付与されているアノテーションを高く評価することができる。

　（１７）上記（１）～（１６）のいずれか１つに記載の情報処理方法において、前記評価値の算出は、正解アノテーションに対する前記アノテータが画像に付与したアノテーションの割合である正解包含割合を算出することと、前記アノテーションのＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び前記正解包含割合に基づいて前記評価値を算出することと、を含んでもよい。

　異常検知のための学習データは、異常部分が全て含まれるようにアノテーションを付与することが要求される傾向がある。異常部分の一部にしかアノテーションが付与されていない学習データを学習した機械学習モデルは、異常を見落とす可能性が高まるからである。本構成では、正解包含割合に基づいてアノテーションが評価されるので、異常検知を正確に行うように機械学習モデルを学習させる学習データを得ることが可能となる。

　（１８）上記（１）～（１７）のいずれか１つに記載の情報処理方法において、前記評価値は、前記アノテータが前記アノテーションを行うデータセットに含まれる評価用データに対して前記アノテータが付与したアノテーション結果に基づいて算出され、前記評価用データは非表示の正解アノテーションを持つ前記原学習データであってもよい。

　この構成によれば、評価値を算出するために専用のアノテーションの作業をアノテータに課すことなく、実際のアノテーション作業を通じてアノテータを評価できる。

　（１９）本開示の別の一態様における情報処理装置は、プロセッサを含む情報処理装置であって、前記プロセッサは、アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、前記育成メニューを前記アノテータのディスプレイに出力する、処理を実行する。

　この構成によれば、アノテータのスキルを効率よく高める情報処理装置を提供できる。

　（２０）本開示のさらに別の一態様における情報処理プログラムは、コンピュータに、アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、前記育成メニューを前記アノテータのディスプレイに出力する、処理を実行させる。

　この構成によれば、アノテータのスキルを効率よく高める情報処理プログラムを提供できる。

　本開示は、このような情報処理プログラムによって動作する情報処理システムとして実現することもできる。また、このようなコンピュータプログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態）
　図１は、実施の形態における情報処理システムの全体構成の一例を示すブロック図である。情報処理システムは、情報処理装置１及び端末装置２を含む。情報処理装置１及び端末装置２はネットワークＮＴを介して相互に通信可能に接続されている。ネットワークＮＴの一例はインターネット及び携帯電話通信網を含む広域通信網である。

　情報処理装置１は、例えばクラウドサーバなどのコンピュータで構成される。但し、これは一例であり、情報処理装置１はエッジコンピュータで構成されてもよい。

　端末装置２は、タブレット端末及びスマートフォンなどの携帯型コンピュータ又は据え置き型コンピュータで構成される。端末装置２は、中央演算処理装置（ＣＰＵ）、メモリ、ディスプレイ、操作部、及び通信回路を含む。端末装置２は、アノテータにより使用される端末である。図１では、説明の便宜上１台の端末装置２を示したが、これは一例であり、端末装置２の数は複数であってもよい。

　情報処理装置１は、プロセッサ１０、メモリ２０、及び通信部３０を含む。プロセッサ１０は、中央演算処理装置（ＣＰＵ）で構成され、取得部１１、評価部１２、生成部１３、出力部１４、及び設定部１５を含む。取得部１１～設定部１５は、例えば、プロセッサ１０が情報処理プログラムを実行することで実現される。但し、これは一例であり、取得部１１～設定部１５は、専用のハードウェア回路で構成されてもよい。また、取得部１１～設定部１５は、複数台のコンピュータに分散配置されてもよいし、一部の機能が端末装置２に実装されていてもよい。

　取得部１１は、アノテータによるアノテーションの作業履歴を取得する。作業履歴は、アノテーションが付与された学習データ、学習データごとのアノテーションに要した作業時間、アノテータの識別子、学習データの識別子、及び学習データが属するデータセットの識別子等を含む。アノテータがアノテーションを行う原学習データの中には、正解アノテーションが既に定まっている評価用データが含まれている。アノテーションの評価はこの評価用データに対してアノテータが付与したアノテーションに基づいて行われる。なお、アノテータに提示される評価用データには正解アノテーションが付与されていないので、アノテータは正解アノテーションを認識できない。

　アノテータとは、原学習データに対してアノテーションを付与する人物である。本実施の形態では、アノテータは端末装置２を用いて原学習データに対してアノテーションを付与する。そのため、取得部１１は、端末装置２から送信されたアノテーションの結果を作業履歴として通信部３０を用いて取得し、取得した作業履歴をメモリ２０の作業履歴データベースに保存する。原学習データとは、アノテーションが付与される前のデータである。例えば、原学習データとしては、認識対象となるオブジェクトを含む静止画像及び動画像が採用される。アノテーションの結果には、アノテーションが付された学習データ、学習データごとのアノテーションに要した作業時間、アノテータの識別子、学習データの識別子、及び学習データが属するデータセットの識別子等が含まれる。

　アノテーションは、画像に含まれるオブジェクトに付されるクラスラベル、オブジェクトに付されるバウンディングボックスなどが該当する。また、アノテーションは、動画像の中から所定条件満たす時間区分を示す時間区分ラベルであってもよい。これらのアノテーションを区別する用語をアノテーション項目と呼ぶ。

　オブジェクトは、機械学習モデルが認識対象とする物体である。所定条件を満たす時間区分とは、動画像の全期間のうちあるオブジェクトが特定の状態にある区間を指す。例えば、人物の歩行している区間、火事が発生している区間などが所定条件を満たす時間区分に該当する。クラスラベルとは、犬、猫、などというようにオブジェクトの種類を示す文字データである。バウンディングボックスは、画像内において、オブジェクトが存在する位置を示すためにオブジェクトを取り囲むように付与された枠である。枠の形状は例えば四角形である。

　機械学習モデルは、教師有り学習を行う機械学習モデルであればどのような機械学習モデルが採用されてもよい。例えば、機械学習モデルは、ディープニューラルネットワーク、畳み込みニューラルネットワーク、ランダムフォレスト、決定木、サポートベクトルマシンなどである。機械学習モデルは予め汎用のデータセットを用いて機械学習されていてもよい。この場合、機械学習モデルは、本開示の育成メニューを通じて育成されたアノテータが作成した学習データを追加学習すればよい。

　評価部１２は、作業履歴に基づいてアノテーションを評価する評価値を算出する。評価値は、複数の評価基準のそれぞれについて算出される。複数の評価基準には、アノテーションの正確さを評価する正確性の評価基準及びアノテーションの作業時間を評価する時間効率性の評価基準を含む。以下、正確性の評価基準に対する評価値を正確性評価値と呼び、時間効率性の評価基準に対する評価値を時間評価値と呼ぶ。

　正確性評価値は、アノテーション項目ごとに定義された誤差により表される。正確性の評価基準はこの誤差が小さいほど評価が高くなる。そのため、正確性評価値は値が小さいほど評価が高いことを示す。

　１つの学習データに対してアノテーション対象となる複数のオブジェクトが存在する場合、誤差はオブジェクトごとに算出されるオブジェクトレベル誤差と、１つの学習データに対して算出されるデータレベル誤差とが含まれてもよい。データレベル誤差は、例えば、１つの学習データにおけるオブジェクトレベル誤差の平均値で表される。

　誤差は、正解アノテーションとアノテータが付与したアノテーションとのずれを示す。例えば、アノテーションがクラスラベル又は時間区分ラベルの場合の誤差は、付与されたクラスラベルが正しければ「０」、誤っている場合は「１」となる。例えば、アノテーションがバウンディングボックスの場合の誤差は１－ＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）で表される。ＩＯＵは、正解バウンディングボックスと付与されたバウンディングボックスとの論理和が示す面積に対する、正解バウンディングボックスと付与されたバウンディングボックスとの論理積が示す面積の割合である。誤差の詳細は後述する。

　時間評価値は、学習データあたりのアノテーションに要した作業時間で表される。時間効率性の評価基準は、この作業時間が短いほど評価が高くなる。したがって、時間評価値は、値が小さいほど評価が高いことを示す。

　但し、これは一例であり、複数の評価基準には、品質のばらつきの評価基準、及び金銭的コストの評価基準が含まれていてもよい。この場合、評価部１２は、品質ばらつきが小さいほど、評価値を減少させ、アノテータの評価を上げればよい。また、評価部１２は、金銭的コストが小さいほど、評価値を減少させ、アノテータの評価を下げればよい。

　評価部１２は、正確性評価値及び時間評価値のそれぞれをアノテーション項目ごとに算出してもよい。さらに、評価部１２は、正確性評価値及び時間評価値のそれぞれをアノテーション項目とデータセットとの組み合わせごとに算出してもよい。データセットとは、種類別に纏められた１群の学習データのことを指す。例えば、ある現場で撮影された１群の画像が１つのデータセットとなる。現場の一例は、工場、建築現場などである。したがって、データセットは、工場αのデータセット、工場βのデータセット、建築現場γのデータセット、建築現場δのデータセットというように分類される。

　生成部１３は、評価値に応じた育成メニューであって、アノテーションのスキルを向上させるための育成メニューを生成する。育成メニューは、評価部１２により算出された評価値が基準条件を満たしていない評価基準に応じた育成メニュー内容を含んでもよい。例えば、正確性評価値が基準条件を満たしていない場合、アノテーションの正確性を高めるための育成メニューが生成される。例えば、時間評価値が基準条件を満たしていない場合、アノテーションの作業時間を短くするための育成メニューが生成される。例えば、正確性評価値及び時間評価値の両方が基準条件を満たしていない場合、両方の育成メニューが生成される。

　評価値がアノテーション項目ごとに算出される場合、生成部１３は、評価値が基準条件を満たしていないアノテーション項目についてアノテーションのスキルを向上させる育成メニューを生成すればよい。評価値がアノテーション項目とデータセットとの組ごとに算出された場合、生成部１３は、評価値が基準条件を満たしていない組についてアノテーションのスキルを向上させる育成メニューを生成すればよい。

　評価基準としては閾値が採用される。評価値は上述したように値が小さいほどアノテーションの評価が高いことを示す。したがって、生成部１３は、評価値が閾値より小さい場合、基準条件を満たしていると判定し、評価値が閾値より大きい場合、基準条件を満たしていないと判定すればよい。閾値としては、アノテーションを行った全アノテータにおける順位が下位Ｘ％に相当する評価値の平均値が採用できる。Ｘは１０、２０、３０などの適宜の値が採用できる。例えば、評価値が学習データＤ１～Ｄｎについて算出された場合において、学習データＤ１～Ｄｎのそれぞれについて下位Ｘ％に相当する評価値がＶ１～Ｖｎであったとする。この場合、閾値は、評価値Ｖ１～Ｖｎの平均値となる。

　育成メニューは、優良アノテータが行ったアノテーションを示す優良アノテーションサンプル又は正解アノテーションが付与された正解アノテーションサンプルと、不良アノテータが行ったアノテーションを示す不良アノテーションサンプルとのうち少なくとも不良アノテーションサンプルを含む表示画面で構成されてもよい。優良アノテータとは、熟練アノテータであってもよいし、全アノテータのうち評価値が上位Ｙ％に入るアノテータであってもよい。Ｙは、例えば、１０、２０、３０などの適宜の値が採用できる。不良アノテータとは、全アノテータのうち評価値が下位Ｘ％に入るアノテータであってもよい。以下、優良アノテーションサンプルと不良アノテーションサンプルとを総称する場合、アノテーションサンプルと呼ぶ。

　優良アノテーションサンプル及び不良アノテーションサンプルは、優良アノテータ及び不良アノテータによるアノテーションの結果を示す画像であってもよい。

　優良アノテーションサンプル及び不良アノテーションサンプルは、優良アノテータ及び不良アノテータによりアノテーションが付与される過程を示す動画像であってもよい。

　育成メニューは、評価値に応じたテスト内容を有するアノテーションテストであって、テスト画像に対してアノテーションを付与する作業をアノテータに課すアノテーションテストを含んでもよい。

　アノテーションテストにおいて、生成部１３は、アノテーションテストの結果からアノテーションテストのテストスコアを算出する処理と、テストスコアからアノテーションテストの合否を判定する処理と、アノテータがアノテーションテストに合格したと判定された場合、アノテーション作業を再開させる処理と、を実行してもよい。

　出力部１４は、生成部１３により生成された育成メニューをアノテータのディスプレイに出力する。例えば、出力部１４は、育成メニューの表示画面をディスプレイに表示するための表示データを生成し、生成した表示データを通信部３０を用いて端末装置２に送信すればよい。

　設定部１５は、上述の閾値の設定画面をアノテータのディスプレイに表示する。この場合、設定部１５は、設定画面の表示データを通信部３０を用いて端末装置２に送信すればよい。

　設定部１５は、複数のアノテーション項目のうち、１のアノテーション項目の選択指示を受け付ける処理と、１のアノテーション項目に関する閾値を設定するための設定画面を表示する処理と、を含む。設定部１５は、設定画面を通じて設定された閾値をメモリ２０に記憶する。

　設定画面は、正確性評価値を評価するための第１閾値を設定するための第１設定画面を含む。第１設定画面は、第１閾値を調整するため調整部と、第１閾値に応じたアノテーションサンプルを表示する表示欄と、を含む。

　設定画面は、時間評価値を評価するための第２閾値を設定するための第２設定画面を含んでもよい。第２設定画面は、第２閾値を調整するための調整部と、第２閾値に応じた１サンプルあたりの前記アノテーションの作業時間を表示する表示欄とを含む。

　メモリ２０は、ソリッドステートドライブ、ハードディスクドライブなどの書き換え可能な不揮発性の記憶装置で構成され、作業履歴データベース及び閾値を記憶する。作業履歴データベースは、取得部１１が取得した作業履歴を記憶する。

　通信部３０は、情報処理装置１をネットワークＮＴに接続するための通信回路である。通信部３０は、育成メニューの表示データを端末装置２に送信したり、設定画面の表示データを端末装置２に送信したりする。通信部３０は、端末装置２から送信されたアノテーションの結果を受信する。

　図２は、実施の形態における情報処理装置１の処理の一例を示すフローチャートである。図３は、図２の続きのフローチャートである。ステップＳ１において、評価部１２は、評価対象となるアノテータ（以下、対象アノテータと呼ぶ。）が新規アノテータであるか否かを判定する。新規アノテータとは、今回、情報処理装置１により初めてアノテーションが評価されるアノテータである。例えば、評価部１２は、端末装置２から送信されるアノテータ情報に基づいて新規アノテータか否かを判定すればよい。メモリ２０には、アノテーションが評価済であるアノテータのアノテータ情報が記憶されている。したがって、評価部１２は、端末装置２から送信されたアノテータ情報が評価済のアノテータ情報としてメモリ２０に記憶されていなければ、対象アノテータは新規アノテータであると判定し、送信されたアノテータ情報が評価済のアノテータ情報としてメモリ２０に記憶されている場合、対象アノテータは新規アノテータでないと判定すればよい。

　対象アノテータが新規アノテータであると判定された場合（ステップＳ１でＹＥＳ）、処理はステップＳ２に進み、対象アノテータが新規アノテータでないと判定された場合（ステップＳ１でＮＯ）、処理はステップＳ３に進む。

　次に、ステップＳ２において、生成部１３は、新規アノテータ用の育成メニューを生成し、出力部１４は、生成された新規アノテータ用の育成メニューの表示データを通信部３０を介して端末装置２に送信する。これにより、端末装置２のディスプレイは、新規アノテータ用の育成メニューの表示画面を表示する。新規アノテータ用の育成メニューは、新規アノテータにアノテーションの基本をマスターさせるための情報を含む。例えば、新規アノテータ用の育成メニューは、既存のアノテータが行った育成メニューの閲覧履歴をもとに決定される高頻度で提示された育成メニューの内容を含んでいてもよい。これにより、新規アノテータを効率よく教育できる。

　次に、ステップＳ３において、取得部１１は、アノテーションの作業依頼を通信部３０を用いて端末装置２に送信する。作業依頼は、アノテーションの作業対象となる原学習データを含むデータセットが含まれる。以下、この作業依頼に含まれるデータセットを対象データセットと呼ぶ。また、作業依頼には複数のアノテーション項目についての作業指示が含まれる。端末装置２のディスプレイには、データセットに含まれる原学習データが順次表示され、対象アノテータは、各原学習データについてアノテーションを付与していく。対象アノテータが各原学習データに付与したアノテーションの結果は、端末装置２から情報処理装置１に送信される。

　次に、ステップＳ４において、取得部１１は、端末装置２から送信されたアノテーションの結果を作業履歴として取得する。取得した作業履歴は作業履歴データベースに保存される。

　以下、ステップＳ５、Ｓ６からなる処理と、ステップＳ７、Ｓ８からなる処理とが並行して行われる。

　ステップＳ５において、評価部１２は、対象アノテータの対象データセットについての作業履歴を作業履歴データベースから読み出し、読み出した作業履歴から、アノテーション項目ごとに正確性評価値の平均値を算出する。例えば、アノテーション項目として、クラスラベルの付与と、バウンディングボックスの付与とが含まれる場合、クラスラベルの付与とバウンディングボックスの付与とのそれぞれについて正確性評価値の平均値が算出される。

　次に、ステップＳ６において、生成部１３は、基準条件を満たしていないアノテーション項目を抽出する。この場合、生成部１３は、正確性評価値の平均値が第１閾値より大きいアノテーション項目を、基準条件を満たしていないアノテーション項目として抽出すればよい。

　ステップＳ７において、評価部１２は、対象アノテータの対象データセットについての作業履歴を作業履歴データベースから読み出し、読み出した作業履歴から、アノテーション項目ごとに時間評価値の平均値を算出する。例えば、アノテーション項目として、クラスラベルの付与と、バウンディングボックスの付与とが含まれる場合、クラスラベルの付与とバウンディングボックスの付与とのそれぞれについて時間評価値の平均値が算出される。

　次に、ステップＳ８において、生成部１３は、基準条件を満たしていないアノテーション項目を抽出する。この場合、生成部１３は、時間評価値の平均値が第２閾値より大きいアノテーション項目を、基準条件を満たしていないアノテーション項目として抽出すればよい。

　次に、ステップＳ９において、生成部１３は、ステップＳ６又はステップＳ８の抽出結果から、基準条件を満たしていないアノテーション項目が有るか否かを判定する。基準条件を満たしていないアノテーション項目がないと判定された場合（ステップＳ９でＮＯ）、処理はステップＳ３に戻る。この場合、次の対象データセットに対するアノテーションの作業依頼が端末装置２に送信され、アノテータは次の対象データセットに対するアノテーション作業を行う。なお、ステップＳ９でＮＯの場合、処理は終了されてもよい。

　基準条件を満たすアノテーション項目があると判定された場合（ステップＳ９でＹＥＳ）、処理はステップＳ１０に進む。

　次に、ステップＳ１０において、生成部１３は、基準条件を満たしていないアノテーション項目についてアノテータのスキルを向上させるための育成メニューを生成する。

　次に、ステップＳ１１において、出力部１４は、生成した育成メニューの表示データを通信部３０を用いて端末装置２に送信する。

　次に、ステップＳ１２において、出力部１４は、アノテーションテストの実行依頼を端末装置２に通信部３０を用いて送信する。これにより、対象アノテータは端末装置２を用いてアノテーションテストを実行する。

　次に、ステップＳ１３において、生成部１３は、対象アノテータによるアノテーションテストの解答を通信部３０を用いて取得する。

　次に、ステップＳ１４において、生成部１３は、アノテーションテストの解答からテストスコアを算出し、算出したテストスコアから対象アノテータがアノテーションテストに合格したか否かを判定する。対象アノテータがアノテーションテストに合格した場合、処理はステップＳ１５に進む。対象アノテータがアノテーションテストに不合格の場合、処理はステップＳ１０に戻る。この場合、再度、対象アノテータは同じ育成メニューを確認することになる。

　次に、ステップＳ１５において、生成部１３は、ステップＳ９で基準条件を満たしていないと判定されたアノテーション項目についての評価値（正確性評価値又は時間評価値）をリセットする。ステップＳ１５が終了すると、処理はステップＳ３に戻る。この場合、対象アノテータは再度、対象データセットに対してアノテーションを付与する。

　図４は、正確性の育成メニューの第１例の表示画面Ｇ１１を示す図である。正確性の育成メニューとは、対象アノテータの正確性評価値が基準条件を満たしていないと判定された場合に生成される育成メニューである。

　表示画面Ｇ１１は、ＮＧサンプル欄４０１、正解欄４０２、及びテストボタン４０３を含む。ＮＧサンプル欄４０１は、データＡ、Ｂ、Ｃのそれぞれについての不良アノテーションサンプル４１０を表示する。ＮＧとは不良を意味する。正解欄４０２は、データＡ、Ｂ、Ｃのそれぞれの正解アノテーションサンプル４２０を表示する。データＡ、Ｂ、Ｃは、対象アノテーション項目に係るアノテーションが付与された対象データセットに含まれる評価用データの中からランダムに選ばれた３つの評価用データである。対象アノテーション項目とは、対象アノテータが基準条件を満たしていないと判定されたアノテーション項目である。ＮＧサンプル欄４０１に表示される３つの不良アノテーションサンプル４１０は、データＡ、Ｂ、Ｃのそれぞれにおける不良アノテーションサンプルの中からランダムに選ばれた不良アノテーションサンプルである。

　正解欄４０２に表示される正解アノテーションサンプル４２０は、データＡ、Ｂ、Ｃに対して正解アノテーションが付与されたアノテーションサンプルである。

　ＮＧサンプル欄４０１に表示される不良アノテーションサンプル４１０は対象アノテータの不良アノテーションサンプルが含まれていてもよい。

　テストボタン４０３は、対象アノテータがアノテーションテストを実施する場合に押されるボタンである。対象アノテータは、不良アノテーションサンプル４１０及び正解アノテーションサンプル４２０を見比べて、アノテーションの注意点を確認した後、テストボタン４０３を押す。

　なお、対象データセットに含まれる原学習データが動画像の場合、不良アノテーションサンプル４１０及び正解アノテーションサンプル４２０は、動画像で構成される。この場合、対象アノテータがＮＧサンプル欄４０１及び正解欄４０２に表示された全ての動画像を再生し終えたことを条件に、対象アノテータはテストボタン４０３を押すことが可能になる。動画像の内容は、どの期間にどのような時間区分ラベルが付されたかを示す内容となる。

　表示画面Ｇ１１を閲覧した対象アノテータは、不良アノテーションサンプル４１０と、正解アノテーションサンプル４２０とを見比べることで、基準条件を満たさないと判定された原因を確認できる。これにより、対象アノテータのアノテーションの正確性が向上する。さらに、表示画面Ｇ１１には、他のアノテータの不良アノテーションサンプル４１０が表示されるので、対象アノテータは今後起こり得るアノテーションのミスを事前に確認できる。これにより、今後起こり得るアノテーションのミスが未然に防止される。

　表示画面Ｇ１１は、３つのデータＡ～Ｃについてのアノテーションサンプルを表示するが、これは一例であり、４つ以上のデータについてのアノテーションサンプルを表示してもよいし、２つ以下のデータについてのアノテーションサンプルを表示してもよい。また、３つのデータＡ～Ｃは、データセットを問わず、対象アノテーションが付与された原学習データからランダムに選ばれた３つの原学習データであってもよい。

　図５は、正確性の育成メニューの第２例の表示画面Ｇ１２を示す図である。表示画面Ｇ１２は、各不良アノテーションサンプル４１０について、対象アノテータに再度アノテーションを入力させ、再アノテーションの入力後に正解アノテーションサンプル４２０を表示する点が表示画面Ｇ１１と相違する。表示画面Ｇ１２において表示画面Ｇ１１と同一の構成要素は同一の符号を付し説明を省略する。

　対象アノテータは、データＡ～Ｃの中から１のデータに対応する再アノテーションボタン５０１を押す操作を入力する。すると、生成部１３は、１のデータに対する再アノテーション画面Ｇ１３をディスプレイに表示する。再アノテーション画面Ｇ１３は、作業欄５０２を含む。作業欄５０２は、１のデータに対応する原学習データを表示する。図５の例では、データＣの原学習データが表示されている。

　対象アノテータは、この原学習データに対して再アノテーションを入力し、判定ボタン５０３を押す操作を入力する。すると、生成部１３は、表示画面Ｇ１２をディスプレイに再表示させる。再表示された表示画面Ｇ１２は、正解欄４０２に前記１のデータに対応する正解アノテーションサンプル４２０を表示するとともに、ＮＧサンプル欄４０１に再アノテーションに対する合否の判定結果を表示する。生成部１３は、再アノテーションの正確性評価値が閾値より小さい場合、合格と判定し、再アノテーションの正確性評価値が閾値より大きい場合、不合格と判定する。閾値が例えば、下位Ｘ％に相当する正確性評価値であるとすると、再アノテーションの正確性評価値が、下位Ｘ％に相当する正確性評価値より小さければ、合格と判定される。

　図５の例では、データＡの再アノテーションは合格しているため、データＡの判定結果として「ＯＫ」が表示されている。一方、データＢの再アノテーションは合格していないので、データＢの判定結果として「ＮＧ」が表示されている。そのため、対象アノテータは、合格するまでデータＢの再アノテーションを行う必要がある。

　対象アノテータは、データＡ～Ｃの全てについて再アノテーション画面Ｇ１３を表示して再アノテーションを入力する。そして、データＡ～Ｃの再アノテーションが全て合格した場合、対象アノテータはテストボタン４０３を押す操作を入力してアノテーションテストに進むことができる。

　表示画面Ｇ１２は、表示画面Ｇ１１の効果に加え、以下の効果が得られる。対象アノテータは実際に再アノテーションを入力し、合否が判定されることで、良いアノテーションを身に着けることができる。また、一度目の再アノテーションを行うまで正解アノテーションサンプル４２０が表示されないので、対象アノテータは、自分のアノテーションと正解アノテーションとの差の認識が容易になる。

　図６は、正確性の育成メニューの第３例の表示画面Ｇ１４を示す図である。表示画面Ｇ１４は、再アノテーションの合否ではなく、再アノテーションの点数を表示する点が表示画面Ｇ１２と相違する。表示画面Ｇ１４のＮＧサンプル欄４０１には、データＡ～Ｃのそれぞれに対する再アノテーションの点数を表示する点数表示欄６０１を含む。

　点数は、正確性評価値を１～５の５段階で数値化したものである。例えば、正確性評価値の順位が、全アノテータの上位８０％までは５点、全アノテータの上位８０％から６０％までは４点、・・・というように、点数は決定される。生成部１３は、例えば、点数が３点以上であれば、再アノテーションは合格と判定すればよい。点数表示欄６０１には、３点以上で合格、というように合格基準を表示する。

　表示画面Ｇ１４は表示画面Ｇ１１、Ｇ１２の効果に加えて以下の効果が得られる。表示画面Ｇ１４では、再アノテーションの評価が５段階の点数で表示され、この点数は順位に基づいて決定されるので、再アノテーションの評価を相対化することができる。その結果、対象アノテータは自身の再アノテーションの良否をさらに容易に理解できる。

　図７は、正確性の育成メニューの第４例の表示画面Ｇ２１を示す図である。表示画面Ｇ２１は、データＡ～Ｃごとに優良アノテーションサンプル４３０と不良アノテーションサンプル４１０とを表示する点が表示画面Ｇ１１、Ｇ１２、Ｇ１４と相違する。また、表示画面Ｇ２１は、正解アノテーションサンプル４２０ではなく優良アノテーションサンプル４３０を表示する点が表示画面Ｇ１１、Ｇ１２、Ｇ１４と相違する。図７では、データＡについての表示画面Ｇ２１が例示されている。

　表示画面Ｇ２１は、ＯＫサンプル欄７０１、ＮＧサンプル欄７０２、ゲージ７０３、及び進むボタン７０４を含む。表示画面Ｇ２１は左側にＯＫサンプル欄７０１を配置し、右側にＮＧサンプル欄７０２を配置する。表示画面Ｇ２１においては、正解アノテーションサンプルが表示されないので、データＡ～Ｃは評価用データに限らず、対象アノテーション項目に係るアノテーションが付与された対象データセットの中からランダムに選ばれた３つの原学習データが採用可能である。また、データＡ～Ｃは、データセットを問わず、対象アノテーション項目に係るアノテーションが付与された原学習データの中からランダムに選ばれた３つの原学習データであってもよい。

　ＯＫサンプル欄７０１は、データＡにおける優良アノテーションサンプルの中からランダムに選ばれた３つの優良アノテーションサンプル４３０を正確性評価値が高い順に左側から横一列で表示する。ＮＧサンプル欄７０２は、データＡにおける不良アノテーションサンプルの中からランダムに選ばれた３つの不良アノテーションサンプルを正確性評価値が高い順に左側から横一列で表示する。ＮＧサンプル欄７０２は対象アノテータの不良アノテーションサンプルを含んでいてもよい。

　ゲージ７０３は、横方向に長い左向きの矢印形状の画像であり、左側に配置されたアノテーションサンプルほど優良なアノテーションサンプルであることを示す。

　進むボタン７０４は、対象アノテータが次のデータについての優良アノテーションサンプル等を表示させる場合に押されるボタンである。進むボタン７０４が押された場合、生成部１３は、データＢの表示画面Ｇ２１をディスプレイに表示させる。

　なお、対象データセットが動画像の場合、不良アノテーションサンプル４１０及び優良アノテーションサンプル４３０は動画像で構成される。この場合、対象アノテータがＯＫサンプル欄７０１及びＮＧサンプル欄７０２に表示された全ての動画像を再生し終えたことを条件に、対象アノテータは、進むボタン７０４を押すことが可能となる。

　なお、データＣの表示画面Ｇ２１は、進むボタン７０４に代えて、テストボタン４０３（図４参照）を表示する。テストボタン４０３を押すことで対象アノテータはアノテーションテストを受けることが可能となる。

　表示画面Ｇ２１を閲覧した対象アノテータは、優良アノテーションサンプル４３０と不良アノテーションサンプル４１０とを見比べることで、どれくらいの精度でアノテーションを行えば良いかが分かり、アノテーションの正確性を高めることができる。また、表示画面Ｇ２１は、他のアノテータの不良アノテーションサンプルを表示することが可能であるので、対象アノテータは今後起こり得るアノテーションのミスを事前に確認できる。これにより、今後起こり得るアノテーションのミスが未然に防止される。ＯＫサンプル欄７０１及びＮＧサンプル欄７０２はそれぞれ優良アノテーションサンプル及び不良アノテーションサンプルを正確性評価値が高い順番に表示するので、対象アノテータはどのようなアノテーションを行えば基準条件を満たすのかを感覚的に理解できる。

　図８は、正確性の育成メニューの第５例の表示画面Ｇ２２を示す図である。表示画面Ｇ２２は、ＮＧサンプル欄７０２に対象アノテータの不良アノテーションサンプル７０５を必ず混ぜて表示する点が表示画面Ｇ２１と相違する。これ以外、表示画面Ｇ２２の構成は表示画面Ｇ２１と同じであるので詳細な説明は省略する。

　表示画面Ｇ２２は表示画面Ｇ２１に加えてさらに以下の効果が得られる。表示画面Ｇ２１では対象アノテータの不良アノテーションサンプル７０５が明示されるので、対象アノテータは自身の正確性におけるアノテーションのレベルを確認できる。

　図９は、正確性の育成メニューの第６例の表示画面Ｇ２３を示す図である。表示画面Ｇ２３は、対象アノテータの不良アノテーションサンプル７０５を対象アノテータに再アノテーションさせる点が表示画面Ｇ２２と相違する。

　表示画面Ｇ２３において、ＮＧサンプル欄７０２は対象アノテータの不良アノテーションサンプル７０５を表示する。対象アノテータは、再アノテーションボタン７０６を押す操作を入力する。すると、生成部１３は、再アノテーション画面Ｇ１３をディスプレイに表示する。再アノテーション画面Ｇ１３は、作業欄５０２に不良アノテーションサンプル７０５の原学習データを表示する。作業欄５０２において再アノテーションを入力した対象アノテータは判定ボタン５０３を押す操作を入力する。すると、生成部１３は、再アノテーションの合否を判定する。再アノテーションが合格した場合、生成部１３は、ディスプレイに表示画面Ｇ２５を表示する。表示画面Ｇ２５は再アノテーションが合格した場合に表示される。この例では、再アノテーションが合格であるので、表示画面Ｇ２５において、ＯＫサンプル欄７０１は、再アノテーションが付与された原学習データを優良アノテーションサンプル４１１として追加されている。また、再アノテーションが合格であるので、表示画面Ｇ２５には進むボタン７０４が表示されている。対象アノテータが進むボタン７０４を押す操作を入力すると、生成部１３は、次のデータであるデータＢの優良アノテーションサンプル４３０などを表示する表示画面Ｇ２３をディスプレイに表示する。

　一方、再アノテーションが不合格の場合、ディスプレイには表示画面Ｇ２３が表示される。この場合、対象アノテータは再度、再アノテーションボタン７０６を押す操作を入力し、再アノテーションを行う。すなわち、表示画面Ｇ２３は、再アノテーションに合格しなければ、次のデータを閲覧できないように構成されている。

　図１０は、時間効率性の育成メニューの第１例の表示画面Ｇ３１を示す図である。時間効率性の育成メニューとは、対象アノテータの時間評価値が基準条件を満たしていないと判定された場合に生成される育成メニューである。

　表示画面Ｇ３１は、ＯＫサンプル欄８０１、ＮＧサンプル欄８０２、及びテストボタン８０４を含む。ＮＧサンプル欄８０２は、データＡ、Ｂ、Ｃのそれぞれについて、不良アノテーションサンプル８１０を表示する。不良アノテーションサンプル８１０は、データＡ、Ｂ、Ｃのそれぞれについて、不良アノテーションサンプルの中からランダムに選ばれた不良アノテーションサンプルである。ＮＧサンプル欄８０２は対象アノテータの不良アノテーションサンプルを含んでいてもよい。

　ＯＫサンプル欄８０１は、データＡ、Ｂ、Ｃのそれぞれについて、優良アノテーションサンプル８２０を表示する。優良アノテーションサンプル８２０は、データＡ、Ｂ、Ｃのそれぞれについて、優良アノテーションサンプルの中からランダムに選ばれた優良アノテーションサンプルである。

　表示画面Ｇ３１において、データＡ～Ｃは評価用データに限らず、対象アノテーション項目に係るアノテーションが付与された対象データセットの中からランダムに選ばれた３つのデータが採用可能である。また、データＡ～Ｃは、データセットを問わず、対象アノテーション項目に係るアノテーションが付与された原学習データの中からランダムに選ばれた３つの原学習データであってもよい。

　不良アノテーションサンプル８１０及び優良アノテーションサンプル８２０は、動画像である。この動画像は、不良アノテータ及び優良アノテータが原学習データに対してアノテーションを付与する過程を示す動画像である。これにより、対象アノテータは、時間評価値を上げるにはどのような手順でアノテーションを付与すればよいかが確認できる。

　対象アノテータは、アノテーションサンプルに設けられた再生ボタン８０３を押す操作を入力することで、アノテーションサンプルを再生できる。対象アノテータは、全てのアノテーションサンプルの再生が終了すると、テストボタン８０４を押すことが可能になる。テストボタン８０４を押すと対象アノテータはアノテーションテストを受けることが可能となる。

　表示画面Ｇ３１を閲覧した対象アノテータは、不良アノテーションサンプル８１０と、優良アノテーションサンプル８２０とを見比べることで、基準条件を満たさないと判定された原因を確認でき、アノテーションの正確性を向上させることができる。また、対象アノテータは、優良アノテーションサンプル８２０と不良アノテーションサンプル８１０とを見比べることで、どのような手順及び速度でアノテーションをすればよいかが分かり、アノテーションの作業時間を短縮できる。さらに、表示画面Ｇ３１には、他のアノテータの不良アノテーションサンプル８１０が表示されるので、対象アノテータは今後起こり得るアノテーションのミスを事前に確認できる。これにより、今後起こり得るアノテーションのミスが未然に防止される。

　図１１は、時間効率性の育成メニューの第２例の表示画面Ｇ３２を示す図である。表示画面Ｇ３２は、データＡ～Ｃごとに優良アノテーションサンプル８２０と不良アノテーションサンプル８１０とを表示する点が表示画面Ｇ３１と相違する。図１１では、データＡについての表示画面Ｇ３２が例示されている。データＡ～Ｃの選定基準は表示画面Ｇ３１と同じである。

　表示画面Ｇ３２は、ＯＫサンプル欄８０１、ＮＧサンプル欄８０２、ゲージ８０５、及び進むボタン８０７を含む。表示画面Ｇ３２は左側にＯＫサンプル欄８０１を配置し、右側にＮＧサンプル欄８０２を配置する。

　ＯＫサンプル欄８０１は、データＡにおける優良アノテーションサンプルの中からランダムに選ばれた３つの優良アノテーションサンプル８２０を時間評価値が高い順に左側から横一列で表示する。ＮＧサンプル欄８０２は、データＡにおける不良アノテーションサンプルの中からランダムに選ばれた３つの不良アノテーションサンプルを時間評価値が高い順に左側から横一列で表示する。ＮＧサンプル欄８０２は対象アノテータの不良アノテーションサンプルを含んでいてもよい。

　ゲージ８０５は、横方向に長い左向きの矢印形状の画像であり、左側に配置されたアノテーションサンプルほど優良なアノテーションサンプルであることを示す。

　進むボタン８０７は、対象アノテータが次のデータについての優良アノテーションサンプル等を表示させる場合に押されるボタンである。進むボタン８０７が押された場合、生成部１３は、データＢの表示画面Ｇ３２をディスプレイに表示させる。

　表示画面Ｇ３２は表示画面Ｇ３１に加えて以下の効果が得られる。ＯＫサンプル欄８０１及びＮＧサンプル欄８０２はそれぞれ優良アノテーションサンプル８２０及び不良アノテーションサンプル８１０を時間評価値が高い順番に表示するので、対象アノテータはどのようなアノテーションを行えば基準条件を満たすのかを感覚的に理解できる。

　図１２は、時間効率性の育成メニューの第３例の表示画面Ｇ３３を示す図である。表示画面Ｇ３３は、ＮＧサンプル欄８０２に対象アノテータの不良アノテーションサンプル８０６を必ず混ぜて表示する点が表示画面Ｇ３２と相違する。これ以外、表示画面Ｇ３３の構成は表示画面Ｇ３２と同じであるので詳細な説明は省略する。

　表示画面Ｇ３３は表示画面Ｇ３２に加えてさらに以下の効果が得られる。表示画面Ｇ３３では対象アノテータの不良アノテーションサンプル８０６が明示されるので、対象アノテータは自身のアノテーションの時間効率性のレベルを確認できる。

　次に、アノテーションテストについて説明する。図１３は、正確性のアノテーションテストを説明する図である。正確性のアノテーションテストは、対象アノテータの正確性評価値が基準条件を満たしていないと判定されたアノテーション項目について実施される。

　テスト画面Ｇ４１は、アノテーションテストを受ける対象アノテータがアノテーションを入力するための画面である。生成部１３は、対象アノテータが前述したテストボタン４０３、８０４を押す操作を入力した場合、テスト画面Ｇ４１を表示する。

　テスト画面Ｇ４１は、テスト画像９０１及び進むボタン９０２を含む。テスト画像９０１は、例えば、対象アノテータが基準条件を満たしていないと判定された対象データセットに含まれる評価用データの中からランダムに選ばれる。この例では、対象アノテータはバウンディングボックス９０３を付与するアノテーションを実施している。これは、対象データセットに対してバウンディングボックスを付与するアノテーションの正確性評価値が基準条件を満たしていないと判定されたからである。クラスラベルを付与するアノテーションの正確性評価値が基準条件を満たしていないと判定された場合、対象アノテータはクラスラベルを付与するアノテーションテストが課される。

　テスト画像９０１に対するアノテーションが終了した対象アノテータは、進むボタン９０２を押す操作を入力する。すると、生成部１３は、次のテスト画面Ｇ４１をディスプレイに表示する。そして、全てのテスト画面Ｇ４１についてアノテーションを付与する作業が終了すると、生成部１３は、アノテーションテストの合否を判定する。

　生成部１３は、各テスト画像９０１について正解アノテーションと対象アノテータのアノテーションとを比較して正確性評価値を算出する。生成部１３は、各テスト画像９０１について算出した正確性評価値の平均値を算出する。この平均値はテストスコアの一例である。生成部１３は、算出した正確性評価値の平均値がテスト用の第１閾値より小さい場合、アノテーションテストは合格と判定する。テスト用の第１閾値としては、各テスト画像９０１において例えば下位Ｘ％に相当する正確性評価値の平均値が採用される。

　生成部１３は、アノテーションテストが合格と判定した場合、合格画面Ｇ４３をディスプレイに表示する。合格画面Ｇ４３は、合格した旨のメッセージと、戻るボタン９０４を含む。生成部１３は、戻るボタン９０４が押す操作が入力された場合、図２のステップＳ３に処理を戻す。これにより、対象アノテータは、対象データセットに対してアノテーションを付与する作業を再開する。

　一方、生成部１３は、アノテーションテストが不合格と判定した場合、不合格画面Ｇ４４をディスプレイに表示する。不合格画面Ｇ４４は、不合格である旨のメッセージと、テスト結果画像９０５と、戻るボタン９０６とを含む。テスト結果画像９０５は、対象アノテータによるアノテーション済みのテスト画像９０１であって、正確性評価基準が基準条件を満たしていないテスト画像９０１である。対象アノテータは、テスト結果画像９０５に含まれるバウンディングボックス９０３を見て、自身が付与したアノテーションの悪い点を確認する。

　この確認が終了すると、対象アノテータは戻るボタン９０６を押す。戻るボタン９０６を押す操作が入力されると、生成部１３は、再度、テスト画面Ｇ４１をディスプレイに表示し、アノテーションテストを再開させる。

　このように、正確なアノテーションが苦手な対象アノテータは正確性のアノテーションテストに合格しなければ、アノテーション作業を再開できない。そのため、アノテーションの正確性のレベルが基準を満たしていないアノテータによりアノテーション作業が行われることが防止され、質の悪い学習データが生成されることを防止できる。

　図１４は、時間効率性のアノテーションテストを説明する図である。時間効率性のアノテーションテストは、対象アノテータの時間評価値が基準条件を満たしていないと判定されたアノテーション項目について実施される。

　テスト画面Ｇ５１は、アノテーションテストを受ける対象アノテータがアノテーションを入力するための画面である。生成部１３は、対象アノテータが前述のテストボタン４０３、８０４を押す操作を入力した場合、テスト画面Ｇ４１を表示する。

　テスト画面Ｇ５１は、進むボタン９０２に代えて判定ボタン９０８を有する点がテスト画面Ｇ４１と相違する。対象アノテータは、テスト画面Ｇ４１と同様、テスト画像９０１に対してアノテーションを付与する。ここでは、バウンディングボックス９０３を付与するアノテーションが実施されている。テスト画面Ｇ５１を表示すると生成部１３は、アノテーションの作業時間の計測を開始する。

　テスト画像９０１に対するアノテーションが終了した対象アノテータは、判定ボタン９０８を押す操作を入力する。すると、生成部１３は、テスト画像９０１に付与されたアノテーションの正確性評価値を算出し、算出した正確性評価値が第１閾値よりも小さい、すなわち、アノテーションの結果が不良アノテーションサンプルに該当していなければ、次のテスト画像９０１を有するテスト画面Ｇ５１をディスプレイに表示する。一方、生成部１３は、算出した正確性評価値が第１閾値よりも大きい、すなわち、アノテーションの結果が不良アノテーションサンプルに該当していれば、再度、同じテスト画像９０１を有するテスト画面Ｇ５１をディスプレイに表示する。このように、テスト画面Ｇ５１は、正確性の基準条件を満たすアノテーションが行われるまで、次のテスト画像９０１に対してアノテーションが行えない構成になっている。これにより、対象アノテータは、早いだけで雑なアノテーションを行った場合、次のテスト画像９０１に進めず、アノテーションテストに合格することが困難になる。次のテスト画像９０１に進んだ場合、生成部１３は、前のテスト画像９０１についてのアノテーションの作業時間の計測を停止し、前のテスト画像９０１の作業時間を取得する。この作業時間は前のテスト画像９０１の時間評価値となる。

　全てのテスト画面Ｇ５１についてアノテーションを付与する作業が終了すると、生成部１３はアノテーションの合否を判定する。

　生成部１３は、各テスト画像９０１の時間評価値の平均値を算出し、算出した時間評価値の平均値がテスト用の第２閾値より小さい場合、アノテーションテストは合格と判定する。テスト用の第２閾値としては、各テスト画像９０１において例えば下位Ｘ％に相当する時間評価値の平均値が採用される。

　生成部１３は、アノテーションテストが合格と判定した場合、合格画面Ｇ５３をディスプレイに表示する。合格画面Ｇ５３は、合格画面Ｇ４３と同じである。

　一方、生成部１３は、アノテーションテストが不合格と判定した場合、不合格画面Ｇ５４をディスプレイに表示する。不合格画面Ｇ５４は、テスト結果欄９０７を含む点が不合格画面Ｇ４４と相違する。テスト結果欄９０７は、アノテーションテストにおける対象アノテータの１枚のテスト画像９０１当たりの作業時間の平均値、すなわち、時間評価値の平均値を表示する。さらに、テスト結果欄９０７は、合格タイムを表示する。合格タイムは、上述した、テスト用の第２閾値である。

　効率の良いアノテーションが苦手な対象アノテータは時間効率性のアノテーションテストに合格しなければ、アノテーション作業を再開できない。そのため、アノテーションの時間効率性のレベルが基準を満たしていないアノテータによりアノテーション作業が行われることが防止され、大量の学習データが効率よく生成される。

　次に、閾値の設定について説明する。図１５は、閾値が設定される様子を説明する図である。まず、設定部１５は、アノテーション項目を選択する選択画面１００１をディスプレイに表示する。アノテータは、選択画面１００１から目的とするアノテーション項目を選択する操作を入力する。この例では、選択されるアノテーション項目としては、「領域を矩形で囲う」、「領域を分類」、及び「時間区分を選択」がある。「領域を矩形で囲う」はバウンディングボックスを付与するアノテーション項目である。「領域を分類」はクラスラベルを付すアノテーション項目である。「時間区分を選択」は時間区分ラベルを付与するアノテーション項目である。アノテータはこれらのアノテーション項目の中から閾値の設定を希望するアノテーション項目を選択する。

　アノテーション項目を選択する操作が入力されると、設定部１５は、第１設定画面１００２及び第２設定画面１００３をディスプレイに表示する。

　第１設定画面１００２は、第１閾値、すなわち、正確性評価値を評価するための閾値の設定画面である。第１設定画面１００２は、調整部１０１１、ゲージ１０１２、及びサンプル欄１０１３を含む。調整部１０１１は、調整つまみのＧＵＩ部品で構成されている。ゲージ１０１２は、調整部１０１１の調整範囲を１～１０の１０段階で示す。調整部１０１１は、ゲージ１０１２に沿って上下方向にスライド可能に構成されており、１～１０の１０段階で第１閾値が調整可能に構成されている。例えば、段階「１０」は、全アノテータの上位１０％に相当する正確性評価値が該当し、段階「９」は、全アノテータの上位２０％に相当する正確性評価値が該当する、というように段階「１」～「１０」にはそれぞれ順位に相当する正確性評価値が割り付けられている。

　サンプル欄１０１３は、調整部１０１１が示す段階に相当する正確性評価値を満たす複数のアノテーションサンプルを表示する。これにより、アノテータは、段階に応じたアノテーションのレベルを確認することができる。ここでは、６枚のアノテーションサンプルが表示されているが、これは一例である。

　第２設定画面１００３は、第２閾値、すなわち、時間評価値を評価するための閾値の設定画面である。第２設定画面１００３は、サンプル欄１０１３に代えて基準時間欄１０１４を有している点が第１設定画面１００２と相違する。

　第２設定画面１００３においては、段階「１０」は、全アノテータの上位１０％に相当する時間評価値が該当し、段階「９」は、時間評価値の順位が全アノテータの上位２０％に相当する時間評価値が該当する、というように段階「１」～「１０」にはそれぞれ順位に相当する時間評価値が割り付けられている。

　基準時間欄１０１４は、調整部１０１１が示す段階に相当する１サンプルあたりの作業時間を表示する。１サンプルあたりの作業時間とは、１枚の原学習データに対して費やすことができるアノテーションの作業時間であり、各段階に割り付けられた時間評価値である。

　なお、正確性と時間効率性とはトレードオフの関係にある。そのため、設定部１５は、第１設定画面１００２及び第２設定画面１００３のうちいずれか一方において閾値が決定された場合、他方の閾値を自動的決定してもよい。例えば、設定部１５は、第１設定画面１００２において第１閾値が段階「９」に設定された場合、第２閾値を段階「１」に自動的に設定し、第１設定画面１００２において第１閾値が段階「８」に設定された場合、第２閾値を段階「２」に自動的に設定すればよい。

　次に、正確性評価値の詳細な算出方法について説明する。

　上述したように、正確性評価値は、正解アノテーションとアノテータが付与したアノテーションとの誤差によって定義される。

　正確性評価値の第１例は、アノテーション項目がクラスラベルの付与又は時間区分ラベルを付与する場合に適用される。この場合、上述したように、アノテータが付与したクラスラベルが正解の場合、誤差は「０」なので、正確性評価値は「０」となる。一方、アノテータが付与したクラスラベルが誤っている場合、誤差は「１」なので正確性評価値は「１」となる。

　正確性評価値の第２例は、アノテーション項目が原学習データについて複数のクラスラベル又は複数の時間区分ラベルを付与する場合に適用される。この場合の誤差、すなわち正確性評価値は以下のように定義される。

　正確性評価値＝（不足するクラスラベル数＋誤って付与されたクラスラベル数）／総クラス数　　（１）
　総クラス数は、原学習データに対して付与するべきクラスラベルの総数である。例えば、ある原学習データについて付与対象となるクラスラベルが３つの場合、総クラス数は３となる。不足するクラスラベル数は、総クラス数に対するアノテータが付与したクラスラベルの不足数である。例えば、総クラス数が３の原学習データに対して、２つのクラスラベルしか付与されていない場合、不足するクラスラベル数は１となる。誤って付与されたクラスラベル数は、例えば、ある原学習データについてアノテータが誤って付与したクラスラベルの数である。例えば、犬のオブジェクトに対して猫のクラスラベルが付与された場合、誤って付与したクラスラベル数は１となる。

　正確性評価値の第３例は、アノテーション項目がバウンディングボックスの付与の場合に適用される。この場合、上述したように、正確性評価値は、１－ＩＯＵで定義される。

　正確性評価値の第４例は、アノテーション項目がバウンディングボックスの付与であり、原学習データが人物のオブジェクトを含む場合に適用される。人物照合又は属性推定などの人物推定では、下半身よりも上半身の方が有用な情報となる。そこで、評価部１２は、下半身が切れているバウンディングボックスよりも上半身が切れているバウンディングボックスの方が誤差が大きくなるように正確性評価値を算出する。

　評価部１２は、人物に対して付与したバウンディングボックスを、人物の上半身に対応する上半身領域と、人物の下半身に対応する下半身領域とに分ける。評価部１２は、上半身領域のＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び下半身領域のＩＯＵを算出する。評価部１２は、上半身領域のＩＯＵの重み値が下半身のＩＯＵ領域の重み値よりも高くなるように、上半身領域のＩＯＵと下半身領域のＩＯＵとを重みづけ平均した値を正確性評価値として算出する。正確性評価値は以下のように定義される。

　正確性評価値＝１－（０．８×上ＩＯＵ＋０．２×下ＩＯＵ）　　（２）
　０．８は、上ＩＯＵの重み値である。０．２は下ＩＯＵの重み値である。上ＩＯＵは、上半身領域のＩＯＵである。下ＩＯＵは下半身領域のＩＯＵである。なお、上式の重み値は一例であり、両重み値の和が１との制約の下、上ＩＯＵの重み値が、下ＩＯＵの重み値よりも大きければ、どのような値が採用されてもよい。

　図１６は、正確性評価値の第４例の説明図である。画像１２１０は、人物１２４０について正解バウンディングボックス１２１１が付与された画像である。画像１２２０は人物１２４０について下半身が切れたバウンディングボックス１２２１が付与された画像である。画像１２３０は人物１２４０について上半身が切れたバウンディングボックス１２３１が付与された画像である。以下、バウンディングボックス１２２１、１２３１を総称する場合、対象バウンディングボックスと呼ぶ。評価部１２は、対象バウンディングボックスを境界線１６００で上下に分ける。境界線１６００は、正解バウンディングボックス１２１１を上下に２等分する直線である。

　これにより、バウンディングボックス１２２１、１２３１はそれぞれ上半身領域及び下半身領域に分けられる。評価部１２は、対象バウンディングボックスの上ＩＯＵ及び下ＩＯＵを算出する。

　上ＩＯＵは、正解バウンディングボックスの上半身領域と対象バウンディングボックスの上半身領域との論理和が示す面積に対する、正解バウンディングボックスの上半身領域と対象バウンディングボックスの上半身領域との論理積が示す面積の割合で示される。

　下ＩＯＵは、正解バウンディングボックスの下半身領域と対象バウンディングボックスの下半身領域との論理和が示す面積に対する、正解バウンディングボックスの下半身領域と対象バウンディングボックスの下半身領域との論理積が示す面積の割合で示される。

　そして、評価部１２は、上ＩＯＵ及び下ＩＯＵを上述の式（２）に代入して正確性評価値を算出する。

　図１６の例では、バウンディングボックス１２２１は下半身が切れているが上半身は全て含まれている。一方、バウンディングボックス１２３１は、下半身は全て含まれているが、上半身が切れている。そのため、バウンディングボックス１２２１の方がバウンディングボックス１２３１よりも正確性評価値は小さくなる。その結果、バウンディングボックス１２２１の方がバウンディングボックス１２３１よりも正確性の評価が高くなる。

　正確性評価値の第５例は、アノテーション項目がバウンディングボックスの付与であり、原学習データが異常部分のオブジェクトを含む場合に適用される。異常部分とは、傷や危険部分を示す領域である。異常部分を検出する場合、異常がある問題部部分の見落としを防ぐことが重要である。そこで、評価部１２は、異常部分を全て含んでいないバウンディングボックスについて誤差が大きくなるように正確性評価値を算出する。

　具体的には、評価部１２は、正解バウンディングボックスに対する対象バウンディングボックスの割合である正解包含割合を算出する。評価部１２は、対象バウンディングボックスのＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び正解包含割合に基づいて正確性評価値を算出する。正確性評価値は以下のように定義される。

　正確性評価値＝１－（０．５×ＩＯＵ＋０．５×正解包含割合）　　（３）
　０．５は、ＩＯＵと正解包含割合との重み値である。なお、重み値の値は一例であり、適宜の値が採用できる。

　正解包含割合は、正解バウンディングボックスの面積に対する、正解バウンディングボックスと対象バウンディングボックスとの論理積が示す面積の割合で示される。

　図１７は、正確性評価値の第５例の説明図である。画像１３１０はオブジェクト１３１２に対して正解バウンディングボックス１３１１が付与された画像１３１０であり、画像１３２０は正解包含割合が１．０の場合のバウンディングボックス１３２１が付与された画像であり、画像１３３０は正解包含割合が０．７のバウンディングボックス１３３１が付与された画像である。

　バウンディングボックス１３２１は正解バウンディングボックス１３１１を全て含んでいる。一方、バウンディングボックス１３３１は、正解バウンディングボックス１３１１を全て含んでいない。そのため、バウンディングボックス１３２１の方がバウンディングボックス１３３１よりも正確性評価値が小さくなり、評価が高くなる。

　正確性評価値の第６例は、アノテーション項目が時間区分ラベルの付与の場合に適用される。この場合、正確性評価値は以下の式で定義される。

　正確性評価値＝１－ＩＯＵ　　（４）
　この場合、ＩＯＵは、正解区間と時間区分ラベルが付与された対象区間との論理和が示す時間に対する、正解区間と対象区間との論理積が示す時間の割合で表される。

　正確性評価値の第７例は、アノテーション項目が時間区分ラベルの付与であり、原学習データが異常区間のオブジェクトを含む場合に適用される。すなわち、正確性評価値の第７例は、動画像の全区間のうち、異常区間にラベルを付与するアノテーションを評価する場合に適用される。

　図１８は、正確性評価値の第７例の説明図である。グラフ１４００は、動画像からなる原学習データの再生区間のうち正解区分ラベルが付与された正解区間１４０１を示す。グラフ１４１０は、動画像からなる原学習データの再生区間のうち、正解包含割合が１．０である対象区間１４１１を示す。グラフ１４２０は、動画像からなる原画像データの全区間のうち、正解包含割合が０．８である対象区間１４２１を示す。

　第７例において、正確性評価値は上述の式（３）で算出される。

　但し、この場合の正解包含割合は、正解区間１４０１に対する、正解区間１４０１と対象区間（１４１１、１４２１）との論理積が示す時間の割合で表される。グラフ１４１０のケースでは、対象区間１４１１は正解区間１４０１を全て含むので、正解包含割合は１である。グラフ１４２０のケースでは、対象区間１４２１は正解区間１４０１の全てを含んでいないので、正解包含割合は１より小さい値になる。

　したがって、グラフ１４１０のケースがグラフ１４２０のケースよりも正確性評価値は小さく算出され、評価が高くなる。

　危険状態が発生している異常区間を検出する場合、異常区間を全て検出することが重要である。そこで、評価部１２は、異常区間が全て含まれていない場合、異常区間を全て含んでいる場合に比べて誤差が大きくなるように正確性評価値を算出する。これにより、異常区間の漏れに対してより慎重なアノテーションが行われることになる。

　以上説明したように、本実施の形態によれば、アノテーションに対する評価値に応じた育成メニューの表示画面がアノテータのディスプレイに表示される。そのため、アノテータは、育成メニューを通じて自身が苦手とするアノテーションを克服できる。これによって、アノテータのスキルを効率よく高めることができる。

　本開示は、学習データを生成する技術分野において有用となる。

Claims

　コンピュータにおける情報処理方法であって、
　アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、
　前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、
　前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、
　前記育成メニューを前記アノテータのディスプレイに出力する、
　情報処理方法。
　前記評価値は、複数の評価基準のそれぞれについて算出され、
　前記育成メニューは、算出された前記評価値が基準条件を満たしていない評価基準に応じた育成メニュー内容を含む、
　請求項１記載の情報処理方法。
　前記複数の評価基準は、前記アノテーションの正確さを評価する正確性の評価基準及び前記アノテーションの作業時間を評価する時間効率性の評価基準を含む、
　請求項２記載の情報処理方法。
　前記アノテーションは複数のアノテーション項目に分類され、
　前記評価値は、前記複数の評価基準のそれぞれについてアノテーション項目ごとに算出され、
　前記育成メニューは、算出された前記評価値が前記基準条件を満たしていない評価基準及びアノテーション項目に応じた育成メニュー内容を含む、
　請求項２又は３記載の情報処理方法。
　前記複数のアノテーション項目は、画像に含まれるオブジェクトにクラスラベルを付与する種別と、前記オブジェクトにバウンディングボックスを付与する種別と、時系列画像について時間区分ラベルを付与する種別との少なくとも１つである、
　請求項４記載の情報処理方法。
　前記育成メニューは、優良アノテータが行った前記アノテーションを示す優良アノテーションサンプル又は正解アノテーションが付与された正解アノテーションサンプルと、不良アノテータが行った前記アノテーションを示す不良アノテーションサンプルとのうち少なくとも前記不良アノテーションサンプルを含む表示画面で構成される、
　請求項１又は２記載の情報処理方法。
　前記優良アノテーションサンプル及び前記不良アノテーションサンプルは、前記優良アノテータ及び前記不良アノテータによる前記アノテーションの結果を示す画像である、
　請求項６記載の情報処理方法。
　前記優良アノテーションサンプル及び前記不良アノテーションサンプルは、前記優良アノテータ及び不良アノテータにより前記アノテーションが付与される過程を示す動画像である、
　請求項６記載の情報処理方法。
　前記育成メニューは、前記評価値に応じたテスト内容を有するアノテーションテストであって、テスト画像に対して前記アノテーションを付与する作業を前記アノテータに課す前記アノテーションテストを含む、
　請求項１又は２記載の情報処理方法。
　前記アノテーションテストは、
　　前記アノテーションテストの結果から前記アノテーションテストのテストスコアを算出することと、
　　前記テストスコアから前記アノテーションテストの合否を判定することと、
　　前記アノテータが前記アノテーションテストに合格したと判定された場合、前記アノテーションの作業を再開させることと、を含む、
　請求項９記載の情報処理方法。
　前記育成メニューは、前記アノテータが前記アノテーションテストに不合格であると判定された場合、アノテーションサンプルを前記ディスプレイに出力することを含む、
　請求項１０記載の情報処理方法。
　さらに、前記評価値を評価するための閾値の設定画面を前記ディスプレイに表示することを含む、
　請求項１又は２記載の情報処理方法。
　前記閾値は、前記アノテーションの正確性を評価する第１閾値を含み、
　前記設定画面は、前記第１閾値を設定するための第１設定画面を含み、
　前記第１設定画面は、
　　前記第１閾値を調整するため調整部と、
　　前記第１閾値に応じたアノテーションサンプルを表示する表示欄と、を含む、
　請求項１２記載の情報処理方法。
　前記閾値は、前記アノテーションの正確性を評価する第２閾値を含み、
　前記設定画面は、
　　前記第２閾値を設定するための第２設定画面を含み、
　　前記第２設定画面は、
　　前記第２閾値を調整するための調整部と、
　　前記第２閾値に応じた１サンプルあたりの前記アノテーションの作業時間を表示する表示欄と、を含む、
　請求項１２記載の情報処理方法。
　前記アノテーションは、複数のアノテーション項目を含み、
　前記設定画面の表示は、
　　前記複数のアノテーション項目のうち、１のアノテーション項目の選択指示を受け付けることと、
　　前記１のアノテーション項目に関する前記閾値を設定するための設定画面を表示することと、を含む、
　　請求項１２記載の情報処理方法。
　前記評価値の算出は、
　　前記アノテータが画像に含まれる人物に対して付与した前記アノテーションを、前記人物の上半身に対応する上半身領域と、前記人物の下半身に対応する下半身領域とに分けることと、
　　前記上半身領域のＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び前記下半身領域のＩＯＵを算出することと、
　　前記上半身領域のＩＯＵの重み値が前記下半身のＩＯＵ領域の重み値よりも高くなるように、前記上半身のＩＯＵと前記下半身のＩＯＵとを重みづけ平均した値に基づいて前記評価値を算出することと、を含む、
　請求項１又は２記載の情報処理方法。
　前記評価値の算出は、
　　正解アノテーションに対する前記アノテータが画像に付与したアノテーションの割合である正解包含割合を算出することと、
　　前記アノテーションのＩＯＵ（Ｉｎｔｅｒａｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）及び前記正解包含割合に基づいて前記評価値を算出することと、を含む、
　請求項１又は２記載の情報処理方法。
　前記評価値は、前記アノテータが前記アノテーションを行うデータセットに含まれる評価用データに対して前記アノテータが付与したアノテーション結果に基づいて算出され、
　前記評価用データは、非表示の正解アノテーションを持つ前記原学習データである、
　請求項１又は２記載の情報処理方法。
　プロセッサを含む情報処理装置であって、
　前記プロセッサは、
　アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、
　前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、
　前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、
　前記育成メニューを前記アノテータのディスプレイに出力する、処理を実行する、
　情報処理装置。
　コンピュータに、
　アノテータによるアノテーションの作業履歴を取得し、前記アノテーションは、機械学習モデルの学習データを生成するために原学習データに対して付与され、
　前記作業履歴に基づいて前記アノテーションを評価する評価値を算出し、
　前記評価値に応じた育成メニューであって、前記アノテーションのスキルを向上させるための前記育成メニューを生成し、
　前記育成メニューを前記アノテータのディスプレイに出力する、処理を実行させる、
　情報処理プログラム。