WO2022201826A1

WO2022201826A1 - 情報処理システム、情報処理方法、及び、情報処理装置

Info

Publication number: WO2022201826A1
Application number: PCT/JP2022/002504
Authority: WO
Inventors: 大資田原; 浩二神谷; 元宏中筋
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-03-26
Filing date: 2022-01-25
Publication date: 2022-09-29
Anticipated expiration: 2023-09-26
Also published as: EP4319131A1; JPWO2022201826A1; US20240171853A1; CN117015974A; EP4319131A4; JP7835217B2

Abstract

本技術は、撮像装置の制御を行う情報処理装置による撮像画像に対する認識処理の結果を有効に利用することができるようにする情報処理システム、情報処理方法、及び、情報処理装置に関する。情報処理システムは、撮像画像の撮像を行う撮像装置と、前記撮像装置の制御を行う情報処理装置とを備え、前記情報処理装置は、前記撮像画像に対して認識処理を行う認識部と、前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、前記認識メタデータを前記撮像装置に出力する出力部とを備える。本技術は、例えば、カメラとＣＣＵ（Camera Control Unit）を備えるシステムに適用できる。

Description

情報処理システム、情報処理方法、及び、情報処理装置

　本技術は、情報処理システム、情報処理方法、及び、情報処理装置に関し、特に、撮像装置の制御を行う情報処理装置が撮像画像に対して認識処理を行う場合に用いて好適な情報処理システム、情報処理方法、及び、情報処理装置に関する。

　従来、カメラにより撮像された画像に対して認識処理を行うＣＣＵ（Camera Control Unit）を備えるシステムが提案されている（例えば、特許文献１、２参照）。

特開２０２０－１４１９４６号公報特開２０２０－１５６８６０号公報

　しかしながら、特許文献１及び２に記載の発明では、ＣＣＵ内で認識処理の結果が利用されるが、ＣＣＵの外部で認識処理の結果を利用することは検討されていない。

　本技術は、このような状況に鑑みてなされたものであり、撮像装置の制御を行う情報処理装置による撮像画像に対する認識処理の結果を有効に利用できるようにするものである。

　本技術の第１の側面の情報処理システムは、撮像画像の撮像を行う撮像装置と、前記撮像装置の制御を行う情報処理装置とを備え、前記情報処理装置は、前記撮像画像に対して認識処理を行う認識部と、前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、前記認識メタデータを前記撮像装置に出力する出力部とを備える。

　本技術の第１の側面においては、撮像画像に対して認識処理が行われ、前記認識処理の結果に基づくデータを含む認識メタデータが生成され、前記認識メタデータが撮像装置に出力される。

　本技術の第２の側面の情報処理方法は、撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、前記撮像画像に対して認識処理を行い、前記認識処理の結果に基づくデータを含む認識メタデータを生成し、前記認識メタデータを前記撮像装置に出力する。

　本技術の第２の側面においては、撮像画像に対して認識処理が行われ、前記認識処理の結果に基づくデータを含む認識メタデータが生成され、前記認識メタデータが前記撮像装置に出力される。

　本技術の第３の側面の情報処理システムは、撮像画像の撮像を行う撮像装置と、前記撮像装置の制御を行う情報処理装置とを備え、前記情報処理装置は、前記撮像画像に対して認識処理を行う認識部と、前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、前記認識メタデータを後段の装置に出力する出力部とを備える。

　本技術の第３の側面においては、撮像画像に対して認識処理が行われ、前記認識処理の結果に基づくデータを含む認識メタデータが生成され、前記認識メタデータが後段の装置に出力される。

　本技術の第４の側面の情報処理方法は、撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、前記撮像画像に対して認識処理を行い、前記認識処理の結果に基づくデータを含む認識メタデータを生成し、前記認識メタデータを後段の装置に出力する。

　本技術の第４の側面においては、撮像画像に対して認識処理が行われ、前記認識処理の結果に基づくデータを含む認識メタデータが生成され、前記認識メタデータが後段の装置に出力される。

　本技術の第５の側面の情報処理装置は、撮像装置により撮像された撮像画像に対して認識処理を行う認識部と、前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、前記認識メタデータを出力する出力部とを備える。

　本技術の第５の側面においては、撮像装置により撮像された撮像画像に対して認識処理が行われ、前記認識処理の結果に基づくデータを含む認識メタデータが生成され、前記認識メタデータが出力される。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。カメラのＣＰＵの機能構成例を示すブロック図である。ＣＣＵのＣＰＵの機能構成例を示すブロック図である。ＣＣＵの情報処理部の機能構成例を示すブロック図である。合焦指標表示処理を説明するためのフローチャートである。合焦指標表示の例を示す図である。ピーキング強調表示処理を説明するためのフローチャートである。ピーキング強調表示の例を示す図である。映像マスク処理を説明するためのフローチャートである。映像フレームの例を示す図である。領域認識の例を示す図である。マスク処理を説明するための図である。マスク処理前の映像フレームの輝度波形及びベクタースコープの表示例を示す図である。第１の方法のマスク処理後の映像フレームの輝度波形及びベクタースコープの表示例を示す図である。第２の方法のマスク処理後の映像フレームの輝度波形及びベクタースコープの表示例を示す図である。第３の方法のマスク処理後の映像フレームの輝度波形及びベクタースコープの表示例を示す図である。基準方向補正処理を説明するためのフローチャートである。特徴点マップの例を示す図である。特徴点に基づく撮像方向の検出方法を説明するための図である。特徴点に基づく撮像方向の検出方法を説明するための図である。被写体認識・埋め込み処理を説明するためのフローチャートである。被写体認識の結果を示す情報を重畳した映像の例を示す図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．その他

　＜＜１．実施の形態＞＞
　図１乃至図２２を参照して、本技術の実施の形態について説明する。

　　＜情報処理システム１の構成例＞
　図１は、本技術を適用した情報処理システム１の一実施の形態を示すブロック図である。

　情報処理システム１は、カメラ１１、三脚１２、雲台１３、カメラケーブル１４、カメラ１１の制御を行うＣＣＵ（Camera Control Unit）１５、操作パネル１６、及び、モニタ１７を備える。カメラ１１は、三脚１２に取り付けられた雲台１３の上に、パン方向、チルト方向、及び、ロール方向に回転できるように設置されている。カメラ１１とＣＣＵ１５とは、カメラケーブル１４により接続されている。

　カメラ１１は、本体部２１、レンズ２２、及び、ビューファインダ２３を備える。レンズ２２及びビューファインダ２３は、本体部２１に装着されている。本体部２１は、信号処理部３１、モーションセンサ３２、及び、ＣＰＵ３３を備える。

　レンズ２２は、レンズ２２に関するレンズ情報をＣＰＵ３３に供給する。レンズ情報は、例えば、レンズ２２の焦点距離、合焦距離、及び、アイリス値等のレンズの制御値や仕様等を含む。

　信号処理部３１は、ＣＣＵ１５の信号処理部５１と映像信号処理を分担して行う。例えば、信号処理部３１は、イメージセンサ（不図示）がレンズ２２を介して被写体を撮像することにより得られる映像信号に対して所定の信号処理を行い、イメージセンサにより撮像された撮像画像からなる映像フレームを生成する。信号処理部３１は、映像フレームをビューファインダ２３に供給するととともに、カメラケーブル１４を介して、ＣＣＵ１５の信号処理部５１に出力する。

　モーションセンサ３２は、例えば、角速度センサ及び加速度センサを備え、カメラ１１の角速度及び加速度を検出する。モーションセンサ３２は、カメラ１１の角速度及び加速度の検出結果を示すデータをＣＰＵ３３に供給する。

　ＣＰＵ３３は、カメラ１１の各部の処理を制御する。例えば、ＣＰＵ３３は、ＣＣＵ１５から入力される制御信号に基づいて、カメラ１１の制御値を変更したり、制御値に関する情報をビューファインダ２３に表示させたりする。

　ＣＰＵ３３は、カメラ１１の角速度の検出結果に基づいて、カメラ１１の姿勢（パン角、チルト角、ロール角）、すなわち、カメラ１１の撮像方向を検出する。例えば、ＣＰＵ３３は、事前に基準方向を設定し、基準方向を基準にして、カメラ１１の向きの変化量を累積計算（積算）することにより、カメラ１１の撮像方向（姿勢）を検出する。なお、ＣＰＵ３３は、カメラ１１の撮像方向の検出に、カメラ１１の加速度の検出結果を用いる場合もある。

　ここで、カメラ１１の基準方向とは、カメラ１１のパン角、チルト角、及び、ロール角を０度とする方向である。ＣＰＵ３３は、ＣＣＵ１５から入力される認識メタデータに含まれる補正データに基づいて、内部に保持している基準方向を補正する。

　ＣＰＵ３３は、シャッタスピード、カラーバランス等の本体部２１の制御情報を取得する。ＣＰＵ３３は、カメラ１１の撮像方向情報、制御情報、及び、レンズ情報を含むカメラメタデータを生成する。ＣＰＵ３３は、カメラケーブル１４を介して、カメラメタデータをＣＣＵ１５のＣＰＵ５２に出力する。

　ＣＰＵ３３は、ビューファインダ２３に表示されるスルー画（ライブビュー）の表示を制御する。また、ＣＰＵ３３は、ＣＣＵ１５から入力される認識メタデータや制御信号に基づいて、スルー画に重畳する情報の表示を制御する。

　ビューファインダ２３は、ＣＰＵ３３の制御の下に、信号処理部３１から供給される映像フレームに基づいて、スルー画を表示したり、スルー画に重畳される各種の情報を表示したりする。

　ＣＣＵ１５は、信号処理部５１、ＣＰＵ５２、情報処理部５３、出力部５４、及び、マスク処理部５５を備える。

　信号処理部５１は、カメラ１１の信号処理部３１により生成された映像フレームに対して、所定の映像信号処理を行う。信号処理部５１は、映像信号処理後の映像フレームを、情報処理部５３、出力部５４、及び、マスク処理部５５に供給する。

　ＣＰＵ５２は、ＣＣＵ１５の各部の処理を制御する。また、ＣＰＵ５２は、操作パネル１６と通信を行い、操作パネル１６から入力される制御信号を取得する。ＣＰＵ５２は、取得した制御信号を、必要に応じて、カメラケーブル１４を介してカメラ１１に出力したり、マスク処理部５５に供給したりする。

　ＣＰＵ５２は、カメラ１１から入力されるカメラメタデータを情報処理部５３及びマスク処理部５５に供給する。ＣＰＵ５２は、情報処理部５３から供給される認識メタデータを、カメラケーブル１４を介してカメラ１１に出力したり、操作パネル１６に出力したり、マスク処理部５５に供給したりする。ＣＰＵ５２は、カメラメタデータ及び認識メタデータに基づいて付帯メタデータを生成し、出力部５４に供給する。

　情報処理部５３は、映像フレームに対して、コンピュータビジョン、ＡＩ（Artificial Intelligence）、機械学習等を用いた各種の認識処理を行う。例えば、情報処理部５３は、映像フレーム内の被写体認識及び領域認識等を行う。より具体的には、例えば、情報処理部５３は、特徴点の抽出、マッチング、及び、トラッキングに基づくカメラ１１の撮像方向の検出（姿勢検出）、機械学習による骨格検出、顔検出、顔識別、瞳検出、オブジェクト検出、アクション認識、セマンティックセグメンテーション等を行う。また、情報処理部５３は、映像フレームに基づいて、カメラ１１により検出された撮像方向のズレを検出する。情報処理部５３は、認識処理の結果に基づくデータを含む認識メタデータを生成する。情報処理部５３は、認識メタデータをＣＰＵ５２に供給する。

　出力部５４は、所定の形式の出力信号（例えば、ＳＤＩ（Serial Digital Interface）信号）に、映像フレーム及び付帯メタデータを配置（付加）して、後段のモニタ１７に出力する。

　マスク処理部５５は、ＣＰＵ５２から供給される制御信号及び認識メタデータに基づいて、映像フレームのマスク処理を行う。マスク処理は、後述するように、映像フレームの所定の種別の被写体の領域以外の領域（以下、マスク領域と称する）をマスクする処理である。出力部５４は、所定の形式の出力信号（例えば、ＳＤＩ信号）に、マスク処理後の映像フレームを配置（付加）して、後段のモニタ１７に出力する。

　操作パネル１６は、例えば、ＭＳＵ（Master Setup Unit）、ＲＣＰ（Remote Control Panel）等により構成される。操作パネル１６は、ＶＥ（Video Engineer）等のユーザにより用いられ、ユーザ操作に基づいて制御信号を生成し、ＣＰＵ５２に出力する。

　モニタ１７は、例えば、ＶＥ等のユーザがカメラ１１により撮像されている映像を確認するのに用いられる。例えば、モニタ１７は、出力部５４からの出力信号に基づいて、映像を表示する。モニタ１７は、マスク処理部５５からの出力信号に基づいて、マスク処理された映像を表示する。モニタ１７は、マスク処理された映像フレームの輝度波形及びベクタースコープ等を表示する。

　なお、以下、カメラ１１とＣＣＵ１５との間の信号やデータの伝送処理において、カメラケーブル１４の記載を適宜省略する。例えば、カメラ１１が、カメラケーブル１４を介して、映像フレームをＣＣＵ１５に出力する場合、カメラケーブル１４の記載を省略して、単にカメラ１１が映像フレームをＣＣＵ１５に出力すると記載する場合がある。

　　＜ＣＰＵ３３の機能構成例＞
　図２は、カメラ１１のＣＰＵ３３により実現される機能の構成例を示している。例えば、ＣＰＵ３３が所定の制御プログラムを実行することにより、制御部７１、撮像方向検出部７２、カメラメタデータ生成部７３、及び、表示制御部７４を含む機能が実現される。

　制御部７１は、カメラ１１の各部の処理の制御を行う。

　撮像方向検出部７２は、カメラ１１の角速度の検出結果に基づいて、カメラ１１の撮像方向を検出する。なお、撮像方向検出部７２は、カメラ１１の撮像方向の検出に、カメラ１１の加速度の検出結果を用いる場合もある。また、撮像方向検出部７２は、ＣＣＵ１５から入力される認識メタデータに基づいて、カメラ１１の基準方向を補正する。

　カメラメタデータ生成部７３は、カメラ１１の撮像方向情報、制御情報、及び、レンズ情報を含むカメラメタデータを生成する。カメラメタデータ生成部７３は、カメラメタデータをＣＣＵ１５のＣＰＵ５２に出力する。

　表示制御部７４は、ビューファインダ２３によるスルー画の表示を制御する。また、表示制御部７４は、ＣＣＵ１５から入力される認識メタデータに基づいて、ビューファインダ２３によるスルー画に重畳する情報の表示を制御する。

　　＜ＣＰＵ５２の機能構成例＞
　図３は、ＣＣＵ１５のＣＰＵ５２により実現される機能の構成例を示している。例えば、ＣＰＵ５２が所定の制御プログラムを実行することにより、制御部１０１及びメタデータ出力部１０２を含む機能が実現される。

　制御部１０１は、ＣＣＵ１５の各部の処理の制御を行う。

　メタデータ出力部１０２は、カメラ１１から入力されるカメラメタデータを情報処理部５３及びマスク処理部５５に供給する。メタデータ出力部１０２は、情報処理部５３から供給される認識メタデータを、カメラ１１に出力したり、操作パネル１６に出力したり、マスク処理部５５に供給したりする。メタデータ出力部１０２は、カメラメタデータ、及び、情報処理部５３から供給される認識メタデータに基づいて付帯メタデータを生成し、出力部５４に供給する。

　　＜情報処理部５３の構成例＞
　図４は、ＣＣＵ１５の情報処理部５３の構成例を示している。情報処理部５３は、認識部１３１及び認識メタデータ生成部１３２を備える。

　認識部１３１は、映像フレームに対して各種の認識処理を行う。

　認識メタデータ生成部１３２は、認識部１３１による認識処理に基づくデータを含む認識メタデータを生成する。認識メタデータ生成部１３２は、認識メタデータをＣＰＵ５２に供給する。

　　＜情報処理システム１の処理＞
　次に、情報処理システム１の処理について説明する。

　　　＜合焦指標表示処理＞
　まず、図５のフローチャートを参照して、情報処理システム１により実行される合焦指標表示処理について説明する。

　この処理は、例えば、ユーザが操作パネル１６を用いて、合焦指標値の表示の開始の指示を入力したとき開始され、合焦指標値の表示の停止の指示を入力したとき終了する。

　ステップＳ１において、情報処理システム１は、撮像処理を行う。

　具体的には、イメージセンサ（不図示）は、被写体の撮像を行い、得られた映像信号を信号処理部３１に供給する。信号処理部３１は、イメージセンサから供給される映像信号に対して所定の映像信号処理を行い、映像フレームを生成する。信号処理部３１は、映像フレームをビューファインダ２３に供給するとともに、ＣＣＵ１５の信号処理部５１に出力する。ビューファインダ２３は、表示制御部７４の制御の下に、映像フレームに基づいて、スルー画を表示する。

　レンズ２２は、レンズ２２に関するレンズ情報をＣＰＵ３３に供給する。モーションセンサ３２は、カメラ１１の角速度及び加速度を検出し、検出結果を示すデータをＣＰＵ３３に供給する。

　撮像方向検出部７２は、カメラ１１の角速度及び加速度の検出結果に基づいて、カメラ１１の撮像方向を検出する。例えば、撮像方向検出部７２は、事前に設定した基準方向を基準にして、モーションセンサ３２により検出される角速度に基づいて、カメラ１１の向き（角度）の変化量を累積計算（積算）することにより、カメラ１１の撮像方向（姿勢）を検出する。

　カメラメタデータ生成部７３は、カメラ１１の撮像方向情報、レンズ情報、及び、制御情報を含むカメラメタデータを生成する。カメラメタデータ生成部７３は、信号処理部３１による映像フレームの出力に同期して、当該映像フレームに対応するカメラメタデータを、ＣＣＵ１５のＣＰＵ５２に出力する。これにより、映像フレームと、映像フレームの撮像時刻付近のカメラ１１の撮像方向情報、制御情報、及び、レンズ情報を含むカメラメタデータとが対応付けられる。

　ＣＣＵ１５の信号処理部５１は、カメラ１１から取得した映像フレームに対して所定の映像信号処理を行い、映像信号処理を行った映像フレームを、情報処理部５３、出力部５４、及び、マスク処理部５５に供給する。

　ＣＣＵ１５のメタデータ出力部１０２は、カメラ１１から取得したカメラメタデータを情報処理部５３及びマスク処理部５５に供給する。

　ステップＳ２において、ＣＣＵ１５の認識部１３１は、被写体認識を行う。例えば、認識部１３１は、骨格検出、顔検出、瞳検出、オブジェクト検出等を用いて、映像フレーム内の合焦指標値の表示対象となる種別の被写体を認識する。なお、認識部１３１は、映像フレーム内に合焦指標値の表示対象となる種別の被写体が複数存在する場合、各被写体を個別に認識する。

　ステップＳ３において、ＣＣＵ１５の認識部１３１は、合焦指標値を算出する。具体的には、認識部１３１は、認識した各被写体を含む領域における合焦指標値を算出する。

　なお、合焦指標値の計算方法は、特に限定されない。例えば、合焦指標値の計算方法として、フーリエ変換を用いた周波数解析、ケプストラム解析、ＤｆＤ（Depth from Defocus)技術等が用いられる。

　ステップＳ４において、ＣＣＵ１５は、認識メタデータを生成する。具体的には、認識メタデータ生成部１３２は、認識部１３１により認識された各被写体の位置及び合焦指標値を含む認識メタデータを生成し、ＣＰＵ５２に供給する。メタデータ出力部１０２は、カメラ１１のＣＰＵ３３に認識メタデータを出力する。

　ステップＳ５において、カメラ１１のビューファインダ２３は、表示制御部７４の制御の下に、合焦指標表示を行う。

　図６は、合焦指標表示の例を模式的に示している。図６のＡは、合焦指標表示前にビューファインダ２３に表示されるスルー画の例を示している。図６のＢは、合焦指標表示後にビューファインダ２３に表示されるスルー画の例を示している。

　この例では、スルー画に人２０１ａ乃至人２０１ｃが写っている。人２０１ａがカメラ１１から最も近い位置におり、人２０１ｃがカメラ１１から最も遠い位置にいる。カメラ１１のフォーカスは、人２０１ａに合っている。

　この例では、人２０１ａ乃至人２０１ｃの右目が合焦指標値の表示対象に設定されている。そして、図６のＢに示されるように、人２０１ａの右目の位置を示す円形の画像であるインジケータ２０２ａが、人２０１ａの右目の周りに表示されている。人２０１ｂの右目の位置を示す円形の画像であるインジケータ２０２ｂが、人２０１ｂの右目の周りに表示されている。人２０１ｃの右目の位置を示す円形の画像であるインジケータ２０２ｃが、人２０１ｃの右目の周りに表示されている。

　また、人２０１ａ乃至人２０１ｃの右目に対する合焦指標値を示すバー２０３ａ乃至バー２０３ｃが、スルー画の下方に表示されている。バー２０３ａは、人２０１ａの右目に対する合焦指標値を示している。バー２０３ｂは、人２０１ｂの右目に対する合焦指標値を示している。バー２０３ｃは、人２０１ｃの右目に対する合焦指標値を示している。バー２０３ａ乃至バー２０３ｃの長さは、合焦指標値の値を示している。

　バー２０３ａ乃至バー２０３ｃは、それぞれ異なる表示態様（例えば、異なる色）に設定される。一方、インジケータ２０２ａとバー２０３ａは、同じ表示態様（例えば、同じ色）に設定される。インジケータ２０２ｂとバー２０３ｂは、同じ表示態様（例えば、同じ色）に設定される。インジケータ２０２ｃとバー２０３ｃは、同じ表示態様（例えば、同じ色）に設定される。これにより、ユーザ（例えば、カメラマン）は、各被写体と合焦指標値との対応関係を容易に把握することが可能になる。

　ここで、例えば、合焦指標値の表示対象となる領域がビューファインダ２３の中央等に固定されている場合、フォーカスを合わせたい被写体が当該領域から外れてしまうと、合焦指標値が使用できなくなる。

　これに対して、本技術では、所望の種別の被写体が自動的に追尾され、当該被写体の合焦指標値が表示される。また、合焦指標値の表示対象となる被写体が複数存在する場合、個別に合焦指標値が表示される。さらに、被写体毎に異なる表示態様で、被写体と合焦指標値が対応付けられる。

　これにより、ユーザ（例えば、カメラマン）は、所望の被写体に対するフォーカス調整を容易に実施することが可能になる。

　その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

　　　＜ピーキング強調表示処理＞
　次に、図７のフローチャートを参照して、情報処理システム１により実行されるピーキング強調表示処理について説明する。

　この処理は、例えば、ユーザが操作パネル１６を用いて、ピーキング強調表示の開始の指示を入力したとき開始され、ピーキング強調表示の停止の指示を入力したとき終了する。

　ここで、ピーキング強調表示とは、映像フレーム内の高周波成分を強調表示する機能であり、ディテール強調表示とも呼ばれる。ピーキング強調表示は、例えば、マニュアルフォーカス操作のアシストに用いられる。

　ステップＳ２１において、図５のステップＳ１の処理と同様に、撮像処理が行われる。

　ステップＳ２２において、ＣＣＵ１５の認識部１３１は、被写体認識を行う。例えば、認識部１３１は、オブジェクト検出、セマンティックセグメンテーション等を用いて、映像フレーム内の各被写体の領域及び種別を認識する。

　ステップＳ２３において、ＣＣＵ１５は、認識メタデータを生成する。具体的には、認識メタデータ生成部１３２は、認識部１３１により認識された各被写体の位置及び種別を含む認識メタデータを生成し、ＣＰＵ５２に供給する。メタデータ出力部１０２は、カメラ１１のＣＰＵ３３に認識メタデータを出力する。

　ステップＳ２４において、カメラ１１のビューファインダ２３は、表示制御部７４の制御の下に、認識メタデータに基づいて、領域を限定して、ピーキング強調表示を行う。

　図８は、ゴルフのティーショットのシーンに対するピーキング強調表示の例を模式的に示している。図８のＡは、ピーキング強調表示前にビューファインダ２３に表示されるスルー画の例を示している。図８のＢは、ピーキング強調表示後にビューファインダ２３に表示されるスルー画の例を示し、強調表示される領域が斜線で示されている。

　例えば、スルー画全体を対象にしてピーキング強調表示が行われた場合、背景の高周波成分まで強調表示されるため、視認性が低下するおそれがある。

　一方、本技術では、ピーキング強調表示の対象となる被写体を限定することができる。例えば、図８のＢに示されるように、ピーキング強調表示の対象となる被写体を、斜線で示される人が写っている領域に限定することができる。この場合、実際のスルー画では、斜線で示される領域のエッジ等の高周波成分が補助線等を用いて強調表示される。

　これにより、ピーキング強調表示の視認性が向上し、ユーザ（例えば、カメラマン）は、例えば、所望の被写体にマニュアルでフォーカスを合わせやすくなる。

　その後、処理はステップＳ２１に戻り、ステップＳ２１以降の処理が実行される。

　　　＜映像マスク処理＞
　次に、図９のフローチャートを参照して、情報処理システム１により実行される映像マスク処理について説明する。

　この処理は、例えば、ユーザが操作パネル１６を用いて、映像マスク処理の開始の指示を入力したとき開始され、映像マスク処理の停止の指示を入力したとき終了する。

　ステップＳ４１において、図５のステップＳ１の処理と同様に、撮像処理が行われる。

　ステップＳ４２において、ＣＣＵ１５の認識部１３１は、領域認識を行う。例えば、認識部１３１は、映像フレームに対してセマンティックセグメンテーションを行うことにより、映像フレームを被写体の種別毎に複数の領域に分割する。

　ステップＳ４３において、ＣＣＵ１５は、認識メタデータを生成する。具体的には、認識メタデータ生成部１３２は、認識部１３１により認識された映像フレーム内の領域及びその種別を含む認識メタデータを生成し、ＣＰＵ５２に供給する。メタデータ出力部１０２は、認識メタデータをマスク処理部５５に供給する。

　ステップＳ４４において、マスク処理部５５は、マスク処理を行う。

　例えば、ユーザは、操作パネル１６を用いて、マスクせずにそのまま残したい被写体の種別を選択する。制御部１０１は、ユーザにより選択された被写体の種別を示すデータをマスク処理部５５に供給する。

　マスク処理部５５は、映像フレームのユーザにより選択された種別以外の被写体の領域（マスク領域）に対してマスク処理を行う。

　なお、以下、ユーザにより選択された種別の被写体の領域を認識ターゲット領域と称する。

　ここで、図１０乃至図１２を参照してマスク処理の具体例について説明する。

　図１０は、ゴルフのティーショットを撮像した映像フレームの例を模式的に示している。

　図１１は、図１０の映像フレームに対して領域認識を行った結果の例を示している。この例では、映像フレームが領域２５１乃至領域２５５に分割され、各領域が、それぞれ異なるパターンで示されている。領域２５１は、人物が写っている領域（以下、人物領域と称する）である。領域２５２は、地面が写っている領域である。領域２５３は、林が写っている領域である。領域２５４は、空が写っている領域である。領域２５５は、ティーマーカが写っている領域である。

　図１２は、図１０の映像フレームに対して認識ターゲット領域とマスク領域を設定した例を模式的に示している。この例では、斜線で示されている領域（図１１の領域２５２乃至領域２５５に相当する領域）がマスク領域に設定されている。また、斜線が描かれていない領域（図１１の領域２５１に相当する領域）が認識ターゲット領域に設定されている。

　なお、複数の種別の被写体の領域を認識ターゲット領域に設定することも可能である。

　ここで、３種類のマスク処理の方法について説明する。

　第１の方法のマスク処理では、マスク領域の画素信号が黒信号に置き換えられる。すなわち、マスク領域が黒く塗り潰される。一方、認識ターゲット領域の画素信号は特に変更されない。

　第２の方法のマスク処理では、マスク領域の画素信号のクロマ成分が低減される。例えば、マスク領域の画素信号のクロマ成分のＵ成分及びＶ成分が０に設定される。一方、マスク領域の画素信号の輝度成分は特に変更されない。また、認識ターゲット領域の画素信号は特に変更されない。

　第３の方法のマスク処理では、第２の方法のマスク処理と同様に、マスク領域の画素信号のクロマ成分が低減される。例えば、マスク領域の画素信号のクロマ成分のＵ成分及びＶ成分が０に設定される。また、マスク領域の輝度成分が低減される。例えば、マスク領域の輝度成分が次式（１）により変換され、マスク領域の輝度成分のコントラストが圧縮される。一方、認識ターゲット領域の画素信号は特に変更されない。

Ｙｏｕｔ＝Ｙｉｎ×ｇａｉｎ＋ｏｆｆｓｅｔ　・・・（１）

　なお、Ｙｉｎは、マスク処理前の輝度成分を示している。Ｙｏｕｔは、マスク処理後の輝度成分を示している。ｇａｉｎは、所定のゲインを示し、１．０未満の値に設定される。ｏｆｆｓｅｔは、オフセット値を示している。

　マスク処理部５５は、所定の形式の出力信号に、マスク処理した映像フレームを配置（付加）し、出力信号をモニタ１７に出力する。

　ステップＳ４５において、モニタ１７は、マスク処理した映像及び波形を表示する。具体的には、モニタ１７は、マスク処理部５５から取得した出力信号に基づいて、マスク処理した映像フレームに基づく映像を表示する。また、モニタ１７は、明るさ調整用にマスク処理した映像フレームの輝度波形を表示する。さらに、モニタ１７は、色合い調整用にマスク処理した映像フレームのベクタースコープを表示する。

　ここで、図１３乃至図１６を参照して、上述した第１乃至第３の方法のマスク処理を比較する。

　図１３乃至図１６は、図１０の映像フレームの輝度波形及びベクタースコープの表示例を示している。

　図１３のＡは、マスク処理前の映像フレームの輝度波形の表示例を示し、図１３のＢは、マスク処理前の映像フレームのベクタースコープの表示例を示している。

　なお、輝度波形の横軸は、映像フレームの水平方向の位置を示し、縦軸は輝度の振幅を示している。ベクタースコープの円周方向は、色相を示し、半径方向は彩度を示している。これは、図１４乃至図１６も同様である。

　マスク処理前の輝度波形では、映像フレーム全体の輝度の波形が表示される。同様に、マスク処理前のベクタースコープでは、映像フレーム全体の色相及び彩度の波形が表示される。

　マスク処理前の輝度波形やベクタースコープでは、認識ターゲット領域以外の領域の輝度成分やクロマ成分が雑音となる。また、例えば、複数のカメラの間でカラーバランスを合わせる場合、同じ被写体でも順光か逆光かにより、その被写体の領域に対する輝度波形やベクタースコープの波形が大きく異なる。従って、マスク処理前の輝度波形やベクタースコープを見ながら、認識ターゲット領域の明るさや色合いを調整するのは、特に経験が浅いユーザにとっては難しい。

　図１４のＡは、第１の方法のマスク処理後の映像フレームの輝度波形の表示例を示し、図１４のＢは、第１の方法のマスク処理後の映像フレームのベクタースコープの表示例を示している。

　第１の方法のマスク処理後の輝度波形では、認識ターゲット領域である人物領域のみの輝度の波形が表示される。従って、例えば、人物のみを対象にした明るさの調整が容易になる。

　第１の方法のマスク処理後のベクタースコープでは、認識ターゲット領域である人物領域のみの色相及び彩度の波形が表示される。従って、例えば、人物のみを対象にした色合いの調整が容易になる。

　ただし、第１の方法のマスク処理後の映像フレームでは、マスク領域が黒塗りされてしまうため、映像フレームの視認性が低下する。すなわち、ユーザは、認識ターゲット領域以外の映像を確認することができなくなる。

　図１５のＡは、第２の方法のマスク処理後の映像フレームの輝度波形の表示例を示し、図１５のＢは、第２の方法のマスク処理後の映像フレームのベクタースコープの表示例を示している。

　第２の方法のマスク処理後の輝度波形は、図１３のＡのマスク処理前の輝度波形と同様になる。従って、例えば、人物のみを対象にした明るさの調整が困難になる。

　第２の方法のマスク処理後のベクタースコープの波形は、図１４のＢの第１の方法のマスク処理後のベクタースコープの波形と同様になる。従って、例えば、人物のみを対象にした色合いの調整が容易になる。

　なお、第２の方法のマスク処理後の映像フレームは、マスク領域の輝度成分がそのまま残っているため、第１の方法のマスク処理後の映像フレームと比較して、視認性が向上する。

　図１６のＡは、第３の方法のマスク処理後の映像フレームの輝度波形の表示例を示し、図１６のＢは、第３の方法のマスク処理後の映像フレームのベクタースコープの表示例を示している。

　第３の方法のマスク処理後の輝度波形では、マスク領域のコントラストが圧縮されることにより、認識ターゲット領域である人物領域の波形が浮かび上がって見える。従って、例えば、人物のみを対象にした明るさの調整が容易になる。

　第３の方法のマスク処理後のベクタースコープの波形は、図１４のＢの第１の方法のマスク処理後のベクタースコープの波形と同様になる。従って、例えば、人物のみを対象にした色合いの調整が容易になる。

　なお、第３の方法のマスク処理後の映像フレームは、マスク領域の輝度成分が、コントラストが圧縮されつつも残っているため、第１の方法のマスク処理後の映像フレームと比較して、視認性が向上する。

　このように、第３の方法のマスク処理によれば、映像フレームのマスク領域の視認性を確保しつつ、認識ターゲット領域の明るさ及び色合いの調整を容易にすることができる。

　なお、例えば、映像フレームの輝度を、パレード表示、ヒストグラム等の他の方法により表示するようにしてもよい。この場合も、第１又は第３の方法のマスク処理を用いることにより、認識ターゲット領域の明るさの調整が容易になる。

　その後、処理は、ステップＳ４１に戻り、ステップＳ４１以降の処理が実行される。

　このようにして、映像フレームの視認性を維持しつつ、所望の被写体の明るさや色合いの調整を容易にすることができる。また、モニタ１７は、特別な処理を行う必要がないため、既存のモニタをモニタ１７に用いることが可能である。

　なお、例えば、ステップＳ４３において、メタデータ出力部１０２は、認識メタデータをカメラ１１にも出力するようにしてもよい。そして、カメラ１１において、領域認識の結果が、オートアイリスやホワイトバランスの調整機能の検波領域の選択等に用いられるようにしてもよい。

　　　＜基準方向補正処理＞
　次に、図１７のフローチャートを参照して、情報処理システム１により実行される基準方向補正処理について説明する。

　この処理は、例えば、カメラ１１の撮像が開始されたとき開始され、カメラ１１の撮像が終了したとき終了する。

　ステップＳ６１において、情報処理システム１は、撮像処理を開始する。すなわち、上述した図５のステップＳ１と同様の撮像処理が開始される。

　ステップＳ６２において、ＣＣＵ１５は、出力信号に映像フレーム及びメタデータを埋め込み、出力する処理を開始する。具体的には、メタデータ出力部１０２は、カメラ１１から取得したカメラメタデータを整理して付帯メタデータを生成し、出力部５４に供給する処理を開始する。出力部５４は、所定の形式の出力信号に、映像フレーム及び付帯メタデータを配置（付加）し、モニタ１７に出力する処理を開始する。

　ステップＳ６３において、ＣＣＵ１５の認識部１３１は、特徴点マップの更新を開始する。具体的には、認識部１３１は、映像フレームの特徴点を検出し、検出結果に基づいて、カメラ１１の周囲の特徴点の分布を示す特徴点マップを更新する処理を開始する。

　図１８は、特徴点マップの例を示している。図内のバツ印は、特徴点の位置を示している。

　例えば、認識部１３１は、カメラ１１の周囲を撮像した映像フレームの特徴点の検出結果を繋ぎ合わせることにより、カメラ１１の周囲のシーンの特徴点の位置及び特徴量ベクトルを示す特徴点マップを生成及び更新する。この特徴点マップでは、特徴点の位置が、例えば、カメラ１１の基準方向を基準とする方向、及び、奥行方向の距離により表される。

　ステップＳ６４において、ＣＣＵ１５の認識部１３１は、撮像方向のズレを検出する。具体的には、認識部１３１は、映像フレームから検出された特徴点と、特徴点マップとのマッチングを行うことにより、カメラ１１の撮像方向を検出する。

　例えば、図１９は、カメラ１１が基準方向を向いている場合の映像フレームの例を示している。図２０は、カメラ１１が基準方向からパン方向に－７度（反時計回りに７度）の方向を向いている場合の映像フレームの例を示している。

　例えば、認識部１３１は、図１８の特徴点マップの特徴点と図１９又は図２０の映像フレームの特徴点とのマッチングを行うことにより、カメラ１１の撮像方向を検出する。

　そして、認識部１３１は、映像フレームに基づいて検出した撮像方向と、カメラ１１がモーションセンサ３２を用いて検出した撮像方向との差を、撮像方向のズレとして検出する。すなわち、検出したズレは、カメラ１１の撮像方向検出部７２が、モーションセンサ３２により検出された角速度を累積計算することより生じる累積誤差に相当する。

　ステップＳ６５において、ＣＣＵ１５は、認識メタデータを生成する。具体的には、認識メタデータ生成部１３２は、検出した撮像方向のズレに基づくデータを含む認識メタデータを生成する。例えば、認識メタデータ生成部１３２は、検出した撮像方向のズレに基づいて、基準方向の補正値を算出し、基準方向の補正値を含む認識メタデータを生成する。認識メタデータ生成部１３２は、生成した認識メタデータをＣＰＵ５２に供給する。

　メタデータ出力部１０２は、認識メタデータをカメラ１１に出力する。

　ステップＳ６６において、カメラ１１の撮像方向検出部７２は、認識メタデータに含まれる基準方向の補正値に基づいて、基準方向を補正する。このとき、撮像方向検出部７２は、例えば、αブレンド（ＩＩＲ（Infinite impulse response）処理）を用いて、複数回に分けて連続的に基準方向を補正する。これにより、基準方向が徐々に滑らかに変化するようになる。

　その後、処理はステップＳ６４に戻り、ステップＳ６４以降の処理が実行される。

　このようにして、カメラ１１の基準方向が適宜補正されることにより、カメラ１１による撮像方向の検出精度が向上する。

　また、カメラ１１が、ＣＣＵ１５による映像フレームの認識処理の結果に基づいて、基準方向を補正する。これにより、ＣＣＵ１５が処理時間を要する認識処理を用いて直接撮像方向を補正する場合と比較して、カメラ１１の撮像方向のズレの補正の遅延が短縮される。

　　　＜被写体認識・メタデータ埋め込み処理＞
　次に、図２１のフローチャートを参照して、情報処理システム１により実行される被写体認識・メタデータ埋め込み処理について説明する。

　この処理は、例えば、ユーザが操作パネル１６を用いて、被写体認識・埋め込み処理の開始の指示を入力したとき開始され、被写体認識・埋め込み処理の停止の指示を入力したとき終了する。

　ステップＳ８１において、図５のステップＳ１の処理と同様に、撮像処理が行われる。

　ステップＳ８２において、ＣＣＵ１５の認識部１３１は、被写体認識を行う。例えば、認識部１３１は、映像フレームに対してオブジェクト認識及びアクション認識を行うことにより、映像フレーム内の各オブジェクトの位置、種別、及び、アクションを認識する。

　ステップＳ８３において、ＣＣＵ１５は、認識メタデータを生成する。具体的には、認識メタデータ生成部１３２は、認識部１３１により認識された各オブジェクトの位置、種別、及び、アクションを含む認識メタデータを生成し、ＣＰＵ５２に供給する。

　メタデータ出力部１０２は、カメラ１１から取得したカメラメタデータ、及び、認識メタデータ生成部１３２から取得した認識メタデータに基づいて、付帯メタデータを生成する。付帯メタデータは、例えば、カメラ１１の撮像方向情報、レンズ情報、及び、制御情報、並びに、映像フレーム内の各オブジェクトの位置、種別、及び、アクションの認識結果を含む。メタデータ出力部１０２は、付帯メタデータを出力部５４に供給する。

　ステップＳ８４において、出力部５４は、出力信号に映像フレーム及びメタデータを埋め込み、出力する。具体的には、出力部５４は、所定の形式の出力信号に、映像フレーム及び付帯メタデータを配置（付加）し、モニタ１７に出力する。

　モニタ１７は、例えば、出力信号に基づいて、図２２の映像を表示する。図２２の映像は、図１０の映像に、付帯メタデータに含まれるオブジェクトの位置、種別、及び、アクションの認識結果を示す情報を重畳したものである。

　この例では、映像内の人物、ゴルフクラブ、ボール、及び、山の位置が表示されている。また、人物のアクションとして、ティーショットを行っていることが示されている。

　その後、処理はステップＳ８１に戻り、ステップＳ８１以降の処理が実行される。

　このようにして、人手を介さずに、映像フレームに対する被写体認識の結果を含むメタデータをリアルタイムに出力信号に埋め込むことができる。これにより、例えば、図２２に示されるように、迅速に被写体認識の結果を提示することが可能になる。

　また、後段の装置において、映像フレームの認識処理や解析処理を行い、メタデータを付加する処理を省略することが可能になる。

　　＜本技術の効果のまとめ＞
　以上のようにして、ＣＣＵ１５が、カメラ１１の撮像中に映像フレームに対する認識処理を行い、ＣＣＵ１５の外部のカメラ１１及びモニタ１７が、認識処理の結果をリアルタイムに利用することが可能になる。

　例えば、カメラ１１のビューファインダ２３が、認識処理の結果に基づく情報をスルー画にリアルタイムに重畳して表示することが可能になる。モニタ１７が、認識処理の結果に基づく情報を映像フレームに基づく映像に重畳してリアルタイムに表示したり、マスク処理が施された映像をリアルタイムに表示したりすることが可能になる。これにより、カメラマンやＶＥ等のユーザの操作性が向上する。

　また、カメラ１１が、認識処理により得られる基準方向の補正値に基づいて、撮像方向の検出結果をリアルタイムに補正することが可能になる。これにより、撮像方向の検出精度が向上する。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　　＜処理の分担に関する変形例＞
　例えば、カメラ１１とＣＣＵ１５の処理の分担を変更することが可能である。例えば、カメラ１１が、ＣＣＵ１５の情報処理部５３の処理の一部又は全部を実行するようにしてもよい。

　ただし、例えば、情報処理部５３の処理の全部をカメラ１１が実行するようにした場合、カメラ１１の処理負荷が増大し、カメラ１１の筐体が大型化したり、カメラ１１の消費電力及び発熱が増大したりする。カメラ１１の筐体の大型化や発熱の増大は、カメラ１１のケーブルの取り回し等の障害になるため、望ましくない。また、例えば、情報処理システム１が、４Ｋ／８Ｋ撮影やハイフレームレート撮影等により、Baseband Processing Unitによる信号処理を行う場合、カメラ１１が、情報処理部５３のように映像フレーム全体を現像して、認識処理を実行することは困難である。

　また、例えば、ＰＣ（Personal Computer）やサーバ等のＣＣＵ１５の後段の装置が、情報処理部５３の処理を実行するようにすることも可能である。この場合、ＣＣＵ１５は、映像フレーム及びカメラメタデータを後段の装置に出力し、後段の装置は、上述した認識処理等を行い、認識メタデータを生成し、ＣＣＵ１５に出力する必要がある。そのため、処理の遅延やＣＣＵ１５と後段の装置との間の伝送帯域の確保が課題となる。特に、フォーカス操作のようにカメラ１１の操作に関わる処理の遅延が課題となる。

　従って、出力信号へのメタデータの付加、カメラ１１への認識メタデータの出力、ビューファインダ２３やモニタ１７における認識処理の結果の表示等を考慮すると、上述したように情報処理部５３をＣＣＵ１５に設けるのが最適である。

　　＜その他の変形例＞
　例えば、出力部５４が、付帯メタデータを出力信号に埋め込まずに、出力信号と対応付けて出力するようにしてもよい。

　例えば、ＣＣＵ１５の認識メタデータ生成部１３２は、基準方向の補正に用いるデータとして、基準方向の補正値の代わりに撮像方向のズレの検出値を含む認識メタデータを生成するようにしてもよい。そして、カメラ１１の撮像方向検出部７２は、撮像方向のズレの検出値に基づいて、基準方向を補正するようにしてもよい。

　＜＜３．その他＞＞
　　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１，ROM（Read Only Memory）１００２，RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記録部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　撮像画像の撮像を行う撮像装置と、
　前記撮像装置の制御を行う情報処理装置と
　を備え、
　前記情報処理装置は、
　　前記撮像画像に対して認識処理を行う認識部と、
　　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　　前記認識メタデータを前記撮像装置に出力する出力部と
　を備える情報処理システム。
（２）
　前記認識部は、前記撮像画像内の被写体認識及び領域認識のうち少なくとも１つを行い、
　前記認識メタデータは、前記被写体認識の結果及び前記領域認識の結果のうち少なくとも１つを含む
　前記（１）に記載の情報処理システム。
（３）
　前記撮像装置は、
　　スルー画を表示する表示部と、
　　前記認識メタデータに基づいて、前記スルー画の表示を制御する表示制御部と
　を備える前記（２）に記載の情報処理システム。
（４）
　前記認識部は、前記被写体認識により認識した所定の種別の被写体に対する合焦指標値を算出し、
　前記認識メタデータは、前記合焦指標値をさらに含み
　前記表示制御部は、前記被写体の位置を示す画像及び前記被写体に対する前記合焦指標値を前記スルー画に重畳させる
　前記（３）に記載の情報処理システム。
（５）
　前記表示制御部は、前記被写体の位置を示す画像及び前記合焦指標値を前記被写体毎に異なる表示態様で前記スルー画に重畳させる
　前記（４）に記載の情報処理システム。
（６）
　前記表示制御部は、前記認識メタデータに基づいて、所定の種別の被写体の領域に限定して前記スルー画のピーキング強調表示を行う
　前記（３）乃至（５）のいずれかに記載の情報処理システム。
（７）
　前記撮像装置は、
　　所定の基準方向を基準とする前記撮像装置の撮像方向を検出する撮像方向検出部と、
　　検出された前記撮像方向を含むカメラメタデータを生成し、前記情報処理装置に出力するカメラメタデータ生成部と
　を備え、
　前記認識部は、前記撮像画像に基づいて、前記カメラメタデータに含まれる前記撮像方向のズレを検出し、
　前記認識メタデータは、検出された前記撮像方向のズレに基づくデータを含む
　前記（１）乃至（６）のいずれかに記載の情報処理システム。
（８）
　前記認識メタデータ生成部は、検出された前記撮像方向のズレに基づいて、前記基準方向の補正に用いるデータを含む前記認識メタデータを生成し、
　前記撮像方向検出部は、前記認識メタデータに基づいて、前記基準方向を補正する
　前記（７）に記載の情報処理システム。
（９）
　撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、
　前記撮像画像に対して認識処理を行い、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成し、
　前記認識メタデータを前記撮像装置に出力する
　情報処理方法。
（１０）
　撮像画像の撮像を行う撮像装置と、
　前記撮像装置の制御を行う情報処理装置と
　を備え、
　前記情報処理装置は、
　　前記撮像画像に対して認識処理を行う認識部と、
　　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　　前記認識メタデータを後段の装置に出力する出力部と
　を備える情報処理システム。
（１１）
　前記認識部は、前記撮像画像内の被写体認識及び領域認識のうち少なくとも１つを行い、
　前記認識メタデータは、前記被写体認識の結果及び前記領域認識の結果のうち少なくとも１つを含む
　前記（１０）に記載の情報処理システム。
（１２）
　前記撮像画像の所定の種別の被写体の領域以外の領域であるマスク領域に対してマスク処理を行い、前記マスク処理後の前記撮像画像を前記後段の装置に出力するマスク処理部を
　さらに備える前記（１１）に記載の情報処理システム。
（１３）
　前記マスク処理部は、前記マスク領域のクロマ成分を低減し、前記マスク領域の輝度成分のコントラストを圧縮する
　前記（１２）に記載の情報処理システム。
（１４）
　前記出力部は、前記撮像画像を含む出力信号に前記認識メタデータの少なくとも一部を付加して、前記出力信号を前記後段の装置に出力する
　前記（１０）乃至（１３）のいずれかに記載の情報処理システム。
（１５）
　前記撮像装置は、
　　前記撮像装置の撮像方向の検出結果を含むカメラメタデータを生成し、前記情報処理装置に出力するカメラメタデータ生成部を
　備え、
　前記出力部は、前記カメラメタデータの少なくとも一部をさらに前記出力信号に付加する
　前記（１４）に記載の情報処理システム。
（１６）
　前記カメラメタデータは、前記撮像装置の制御情報及び前記撮像装置のレンズに関するレンズ情報のうち少なくとも１つをさらに含む
　前記（１５）に記載の情報処理システム。
（１７）
　撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、
　前記撮像画像に対して認識処理を行い、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成し、
　前記認識メタデータを後段の装置に出力する
　情報処理方法。
（１８）
　撮像装置により撮像された撮像画像に対して認識処理を行う認識部と、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　前記認識メタデータを出力する出力部と
　を備える情報処理装置。
（１９）
　前記出力部は、前記撮像装置に前記認識メタデータを出力する
　前記（１８）に記載の情報処理装置。
（２０）
　前記出力部は、後段の装置に前記認識メタデータを出力する
　前記（１８）又は（１９）に記載の情報処理装置。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１　情報処理システム，　１１　カメラ，　１５　ＣＣＵ，　１６　操作パネル，　１７　モニタ，　２１　本体部，　２２　レンズ，　２３　ビューファインダ，　３１　信号処理部，　３２　モーションセンサ，　３３　ＣＰＵ，　５１　信号処理部，　５２　ＣＰＵ，　５３　情報処理部，　５４　出力部，　５５　マスク処理部，　７１　制御部，　７２　撮像方向検出部，　７３　カメラメタデータ生成部，　７４　表示制御部，　１０１　制御部，　１０２　メタデータ出力部，　１３１　認識部，　１３２　認識メタデータ生成部

Claims

　撮像画像の撮像を行う撮像装置と、
　前記撮像装置の制御を行う情報処理装置と
　を備え、
　前記情報処理装置は、
　　前記撮像画像に対して認識処理を行う認識部と、
　　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　　前記認識メタデータを前記撮像装置に出力する出力部と
　を備える情報処理システム。
　前記認識部は、前記撮像画像内の被写体認識及び領域認識のうち少なくとも１つを行い、
　前記認識メタデータは、前記被写体認識の結果及び前記領域認識の結果のうち少なくとも１つを含む
　請求項１に記載の情報処理システム。
　前記撮像装置は、
　　スルー画を表示する表示部と、
　　前記認識メタデータに基づいて、前記スルー画の表示を制御する表示制御部と
　を備える請求項２に記載の情報処理システム。
　前記認識部は、前記被写体認識により認識した所定の種別の被写体に対する合焦指標値を算出し、
　前記認識メタデータは、前記合焦指標値をさらに含み
　前記表示制御部は、前記被写体の位置を示す画像及び前記被写体に対する前記合焦指標値を前記スルー画に重畳させる
　請求項３に記載の情報処理システム。
　前記表示制御部は、前記被写体の位置を示す画像及び前記合焦指標値を前記被写体毎に異なる表示態様で前記スルー画に重畳させる
　請求項４に記載の情報処理システム。
　前記表示制御部は、前記認識メタデータに基づいて、所定の種別の被写体の領域に限定して前記スルー画のピーキング強調表示を行う
　請求項３に記載の情報処理システム。
　前記撮像装置は、
　　所定の基準方向を基準とする前記撮像装置の撮像方向を検出する撮像方向検出部と、
　　検出された前記撮像方向を含むカメラメタデータを生成し、前記情報処理装置に出力するカメラメタデータ生成部と
　を備え、
　前記認識部は、前記撮像画像に基づいて、前記カメラメタデータに含まれる前記撮像方向のズレを検出し、
　前記認識メタデータは、検出された前記撮像方向のズレに基づくデータを含む
　請求項１に記載の情報処理システム。
　前記認識メタデータ生成部は、検出された前記撮像方向のズレに基づいて、前記基準方向の補正に用いるデータを含む前記認識メタデータを生成し、
　前記撮像方向検出部は、前記認識メタデータに基づいて、前記基準方向を補正する
　請求項７に記載の情報処理システム。
　撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、
　前記撮像画像に対して認識処理を行い、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成し、
　前記認識メタデータを前記撮像装置に出力する
　情報処理方法。
　撮像画像の撮像を行う撮像装置と、
　前記撮像装置の制御を行う情報処理装置と
　を備え、
　前記情報処理装置は、
　　前記撮像画像に対して認識処理を行う認識部と、
　　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　　前記認識メタデータを後段の装置に出力する出力部と
　を備える情報処理システム。
　前記認識部は、前記撮像画像内の被写体認識及び領域認識のうち少なくとも１つを行い、
　前記認識メタデータは、前記被写体認識の結果及び前記領域認識の結果のうち少なくとも１つを含む
　請求項１０に記載の情報処理システム。
　前記撮像画像の所定の種別の被写体の領域以外の領域であるマスク領域に対してマスク処理を行い、前記マスク処理後の前記撮像画像を前記後段の装置に出力するマスク処理部を
　さらに備える請求項１１に記載の情報処理システム。
　前記マスク処理部は、前記マスク領域のクロマ成分を低減し、前記マスク領域の輝度成分のコントラストを圧縮する
　請求項１２に記載の情報処理システム。
　前記出力部は、前記撮像画像を含む出力信号に前記認識メタデータの少なくとも一部を付加して、前記出力信号を前記後段の装置に出力する
　請求項１０に記載の情報処理システム。
　前記撮像装置は、
　　前記撮像装置の撮像方向の検出結果を含むカメラメタデータを生成し、前記情報処理装置に出力するカメラメタデータ生成部を
　備え、
　前記出力部は、前記カメラメタデータの少なくとも一部をさらに前記出力信号に付加する
　請求項１４に記載の情報処理システム。
　前記カメラメタデータは、前記撮像装置の制御情報及び前記撮像装置のレンズに関するレンズ情報のうち少なくとも１つをさらに含む
　請求項１５に記載の情報処理システム。
　撮像画像の撮像を行う撮像装置の制御を行う情報処理装置が、
　前記撮像画像に対して認識処理を行い、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成し、
　前記認識メタデータを後段の装置に出力する
　情報処理方法。
　撮像装置により撮像された撮像画像に対して認識処理を行う認識部と、
　前記認識処理の結果に基づくデータを含む認識メタデータを生成する認識メタデータ生成部と、
　前記認識メタデータを出力する出力部と
　を備える情報処理装置。
　前記出力部は、前記撮像装置に前記認識メタデータを出力する
　請求項１８に記載の情報処理装置。
　前記出力部は、後段の装置に前記認識メタデータを出力する
　請求項１８に記載の情報処理装置。