WO2014034463A1

WO2014034463A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2014034463A1
Application number: PCT/JP2013/072088
Authority: WO
Inventors: 塚越　郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-08-27
Filing date: 2013-08-19
Publication date: 2014-03-06
Anticipated expiration: 2015-02-27
Also published as: JP6397855B2; JP6567747B2; CN104584562A; JP2016220217A; JP6004132B1; JP6004133B1; JP2016220218A; US9525895B2; EP2890139A4; JP6003992B2; CN104584562B; JP2018186583A; US20150195587A1; BR112015003707A2; JP2016195449A; JPWO2014034463A1; RU2015105986A; EP2890139A1

Abstract

　受信側において、配信内容の動的な変化に的確に対応し、正しいストリーム受信を行い得るようにする。　第１の送信モードでは、スケーラブル符号化画像データを構成する、最下位階層の画像データを含む基本ビデオストリームおよび最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する。第２の送信モードでは、基本画像データを含む基本ビデオストリームのみを送信する。第１のモードおよび第２のモードを識別するための識別情報を、ビデオストリームに挿入する。受信側では、送信モードを容易に把握でき、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことが可能となる。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、従来画像の画像データと、空間的あるいは時間的な超高解像度画像の画像データとを時分割的に送信する送信装置等に関する。

　従来、有効画素数が１９２０×１０８０であるＨＤ画像の他に、有効画素数が水平、垂直にそれぞれ２倍、４倍である４Ｋ、８Ｋ等の空間的な超高解像度画像のサービスが考えられている（例えば、特許文献１参照）。また、フレーム周波数が６０Ｈｚである６０ｆｐｓの画像の他に、フレーム周波数が１２０Ｈｚ、２４０Ｈｚ等の時間的な超高解像度画像のサービスが考えられている。

特開２０１１―０５７０６９号公報

　例えば、放送やネットのサービスにおいて、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データと、空間的あるいは時間的な超高解像度画像の画像データ（スケーラブル符号化画像データ）とを、時分割的に送信することが考えられる。その際、受信側の超高解像度画像対応の受信機では、画像データの切り替えに同期して、処理の切り替えを行うことが必要となる。

　本技術の目的は、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行い得るようにすることにある。

　本技術の概念は、
　１つまたは複数のビデオストリームを送信する送信部と、
　スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードと、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードとを識別するための識別情報を、上記ビデオストリームに挿入する識別情報挿入部とを備える
　送信装置にある。

　本技術において、送信部により、１つまたは複数のビデオストリームが送信される。第１の送信モードでは、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームと、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームとが送信される。また、第２の送信モードでは、基本画像データを含む基本ビデオストリームのみが送信される。

　例えば、第１の送信モードでは、基本ビデオストリームと所定数の拡張ビデオストリームが、１つまたは複数のビデオエレメンタリストリームに挿入されて送信される。基本ビデオストリームと所定数の拡張ビデオストリームが１つのビデオエレメンタリストリームに挿入されて送信される場合、各ビデオストリームの間にストリーム境界を示す情報が配置される、ようにされてもよい。これにより、各ビデオストリームのピクチャの先頭データに瞬時にアクセスすることが可能となる。

　識別情報挿入部により、第１の送信モードと第２の送信モードとを識別するための識別情報がビデオストリームに挿入される。例えば、識別情報挿入部は、識別情報を、少なくとも、番組単位、シーン単位、ピクチャグループ単位、あるいはピクチャ単位で挿入する、ようにされてもよい。

　例えば、識別情報挿入部は、第１の送信モードでは、ビデオストリームに、この第１の送信モードであることを示す識別情報を挿入し、第２の送信モードでは、ビデオストリームに、この第２の送信モードであることを示す識別情報を挿入する、ようにされてもよい。また、例えば、識別情報挿入部は、第１の送信モードでは、ビデオストリームに、この第１の送信モードであることを示す識別情報を挿入し、第２の送信モードでは、ビデオストリームに、識別情報を挿入しない、ようにされてもよい。また、例えば、識別情報挿入部は、第１の送信モードでは、ビデオストリームに、識別情報を挿入せず、第２の送信モードでは、ビデオストリームに、この第２の送信モードであることを示す識別情報を挿入する、ようにされてもよい。

　例えば、識別情報には、第１の送信モードを示す場合、拡張ビデオストリームの個数を示す情報が含まれていてもよい。また、例えば、識別情報には、第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が含まれていてもよい。また、例えば、識別情報には、第１の送信モードを示す場合、スケーラビリティ拡張における上位階層との合成の際のスケーリング比の情報が含まれていてもよい。

　このように本技術においては、第１の送信モードでは、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよびスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信し、第２の送信モードでは、基本画像データを含む基本ビデオストリームのみを送信するものである。そして、第１のモードおよび第２のモードを識別するための識別情報をビデオストリームに挿入するものである。

　そのため、受信側では、この識別情報に基づいて、第１の送信モードであるか第２の送信モードであるかを容易に把握でき、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことが可能となる。つまり、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データと、空間的あるいは時間的な超高解像度画像の画像データ（スケーラブル符号化画像データ）とが時分割的に送信される場合に、受信側において、処理の切り替えを良好に行い得る。

　なお、本技術において、例えば、送信部は、１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、このコンテナのレイヤに、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。このようにコンテナのレイヤに識別情報が挿入されることで、受信側において、フレキシブルな動作が可能となる。

　例えば、識別情報には、第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が付加されていてもよい。また、例えば、識別情報には、１つまたは複数のビデオストリームが１つのビデオエレメンタリストリームで供給されるか否かを示す情報が付加されていてもよい。また、例えば、識別情報には、第１の送信モードを示す場合、拡張ビデオストリームの個数を示す情報が付加されていてもよい。

　また、本技術において、送信部は、１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、コンテナのレイヤに、１つまたは複数のビデオストリームを挿入するビデオエレメンタリストリームの個数を識別するための識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。

　また、本技術の他の概念は、
　１つまたは複数のビデオストリームを受信する受信部と、
　上記ビデオストリームに挿入されている識別情報に基づいて、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードであるか、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードであるかを識別する送信モード識別部と、
　上記受信されたビデオストリームに対して、上記モード識別結果に基づき、各モードに応じた処理を行って、画像表示のための画像データを得る処理部とを備える
　受信装置にある。

　本技術において、受信部により、１つまたは複数のビデオストリームが受信される。第１の送信モードの場合には、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよびスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームが受信される。また、第２の送信モードの場合には、基本画像データを含む基本ビデオストリームのみが受信される。

　送信モード識別部により、ビデオストリームに挿入されている識別情報に基づいて、第１の送信モードであるか第２の送信モードであるかが識別される。処理部により、モード識別結果に基づき、受信されたビデオストリームに対して、各モードに応じた処理が行われて、画像表示のための画像データが得られる。

　このように本技術においては、第１の送信モードでは、スケーラブル符号化画像データを構成する、最下位階層の画像データを含む基本ビデオストリームおよび最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを受信し、第２の送信モードでは、基本画像データを含む基本ビデオストリームのみを受信するものである。そして、ビデオストリームに挿入されている識別情報に基づいて、第１の送信モードであるか第２の送信モードであるかを識別するものである。

　そして、受信されたビデオストリームに対して、識別されたモードに応じた処理を行って、画像表示のための画像データを取得するものである。第１の送信モードであるか第２の送信モードであるかを容易に把握でき、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことが可能となる。つまり、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データと、空間的あるいは時間的な超高解像度画像の画像データ（スケーラブル符号化画像データ）とが時分割的に送信される場合に、処理の切り替えを良好に行い得る。

　なお、本技術において、例えば、受信部は、ビデオストリームを含む所定フォーマットのコンテナを受信し、コンテナのレイヤには、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報が挿入されており、送信モード識別部は、コンテナのレイヤに挿入されている識別情報およびビデオストリームに挿入されている識別情報に基づいて、第１の送信モードにあるか第２の送信モードにあるかを識別する、ようにされてもよい。

　本技術によれば、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことが可能となる。

実施の形態としての画像送受信システムの構成例を示すブロック図である。空間解像度が異なる画像データ例を示す図である。時間解像度が異なる画像データ例を示す図である。空間解像度スケーラビリティの一例を示す図である。空間解像度スケーラビリティにおける受信側(デコード側)の具体的な構成例を示す図である。空間解像度スケーラビリティのデコーディングプロセスの一例を示す図である。時間解像度スケーラビリティの一例を示す図である。基本ビデオストリームおよび第１の拡張ビデオストリームが送られる場合におけるデコード例を示す図である。時間解像度スケーラビリティにおける受信側(デコード側)の具体的な構成例を示す図である。時間解像度スケーラビリティのデコーディングプロセスの一例を示す図である。複数のビデオストリーム（サブストリーム）のピクチャの符号化データを含むビデオエレメンタリストリームの一例を示す図である。第１の送信モードと、第２の送信モードが交互に連続する場合であって、モード識別のための識別情報（シグナリング）がない例を示す図である。識別情報をビデオストリームに「方法１」により挿入する例を説明するための図である。識別情報をビデオストリームに「方法２」により挿入する例を説明するための図である。識別情報をビデオストリームに「方法３」により挿入する例を説明するための図である。放送局においてトランスポートストリームを生成する送信データ生成部の構成例を示すブロック図である。基本ビデオストリームおよび所定数の拡張ビデオストリームが１つのビデオエレメンタリストリームに挿入される場合（Single PID）におけるストリーム内の符号化パケット順を示す図である。基本ビデオストリームおよび所定数の拡張ビデオストリームの各ビデオストリームがそれぞれ１つのビデオエレメンタリストリームに挿入される場合（Multiple PID）における各ストリーム内の符号化パケット順を示す図である。ＧＯＰ（Group Of Pictures）の先頭のアクセスユニットおよびその先頭以外のアクセスユニットの構成例を示す図である。ＳＥＩメッセージ「Enhancement scalability SEI message」の構造例を示す図である。エンハンスメント・スケーラビリティ・データ（enhancement_scalability_data()）の構造例を示す図である。エンハンスメント・スケーラビリティ・データ（enhancement_scalability_data()）の構造例における主要な情報の内容を示す図である。スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の構造例を示す図である。スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の構造例の主要な情報の内容を示す図である。マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）の構造例を示す図である。ビデオストリーム（サブストリーム）が挿入されるビデオエレメンタリストリームが１つである場合（Single PID）のＴＳ構成例を示す図である。ビデオストリーム（サブストリーム）が挿入されるビデオエレメンタリストリームが複数である場合（Multiple PID）のＴＳ構成例を示す図である。画像送受信システムを構成する受信機の構成例を示すブロック図である。高精細番組と従来番組の切り替え時の受信処理の切り替え制御を説明するための図である。高精細番組と従来番組の切り替え時の受信処理の切り替え制御を説明するための図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［画像送受信システム］
　図１は、実施の形態としての画像送受信システム１０の構成例を示している。この画像送受信システム１０は、放送局１００および受信機２００により構成されている。放送局１００は、コンテナとしてのトランスポートストリームＴＳを放送波に載せて送信する。

　第１の送信モードにある場合、すなわち、空間的あるいは時間的な超高解像度画像の表示を可能とするためのスケーラブル符号化画像データの送信時には、トランスポートストリームＴＳに、複数のビデオストリーム（ビデオサブストリーム）が含まれる。この場合、トランスポートストリームＴＳに、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームと、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームが含まれる。

　また、第２の送信モードにある場合、すなわち、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データの送信時には、トランスポートストリームＴＳに、１つのビデオストリーム（ビデオサブストリーム）が含まれる。この場合、トランスポートストリームＴＳに、従来画像の画像データを基本画像データとして含む基本ビデオストリームのみが含まれる。

　図２（ａ）は、従来画像の画像データとして、有効画素数が１９２０＊１０８０であるＨＤ画像の画像データを示している。図２（ｂ）は、空間的に超高解像度の画像データとして、ＨＤ（High-Definition）に対して有効画素数が水平、垂直にそれぞれ２倍の４Ｋの画像データを示している。図２（ｃ）は、空間的に超高解像度の画像データとして、ＨＤに対して有効画素数が水平、垂直にそれぞれ４倍の８Ｋの画像データを示している。

　図３（ａ）は、従来画像の画像データとして、フレーム周波数が６０Ｈｚである６０ｆｐｓの画像データを示している。図３（ｂ）は、時間的に超高解像度の画像データとして、フレーム周波数が１２０Ｈｚである１２０ｆｐｓの画像データを示している。図３（ｃ）は、時間的に超高解像度の画像データとして、フレーム周波数が２４０Ｈｚである２４０ｆｐｓの画像データを示している。

　図４は、空間解像度スケーラビリティの一例を示している。この例は、空間的に超高解像度の画像データとして、例えば、８Ｋの画像データS-8Kを取り扱う例である。最初に送信側（エンコード側）について説明する。画像データS-8Kに対して、ダウンサンプリング部３０１で１／β倍、ここでは１／２倍のダウンサンプリング処理が施されて、４Ｋの画像データS-4Kが生成される。また、この画像データS-4Kに対して、ダウンサンプリング部３０２で１／α倍、ここでは１／２倍のダウンサンプリング処理が施されて、ＨＤの画像データS-HDが生成される。

　また、画像データS-HDに対して、アップサンプリング部３０３でα倍、ここでは２倍のアップサンプリング処理が施されて、４Ｋの画像データS-4K_Lが生成される。この４Ｋの画像データS-4K_Lは、画像データS-4Kに対して、ダウンサンプリング処理およびアップサンプリング処理が施されたものであり、４Ｋレベルの高周波成分が欠如したものとなる。減算器３０４において、画像データS-4Kから画像データS-4K_Lが減算されて、４Ｋレベルの高周波成分S-4K_Hが生成される。

　また、画像データS-4Kに対して、アップサンプリング部３０５でβ倍、ここでは２倍のアップサンプリング処理が施されて、８Ｋの画像データS-8K_Lが生成される。この８Ｋの画像データS-8K_Lは、画像データS-8Kに対して、ダウンサンプリング処理およびアップサンプリング処理が施されたものであり、８Ｋレベルの高周波成分が欠如したものとなる。減算器３０６において、画像データS-8Kから画像データS-8K_Lが減算されて、８Ｋレベルの高周波成分S-8K_Hが生成される。

　画像データS-HDは、第１階層（最下位階層）の画像データを構成する。この画像データS-HDがビデオエンコーダ３０７において符号化されることで、基本ビデオストリームSt1が得られる。この基本ビデオストリームSt1は、エンコードバッファ３０８に、一時的に蓄積される。また、４Ｋレベルの高周波成分S-4K_Hは、第２階層の画像データを構成する。この高周波成分S-4K_Hがビデオエンコーダ３０９において符号化されることで、第１の拡張ビデオストリームSt2が得られる。この第１の拡張ビデオストリームSt2は、エンコードバッファ３１０に、一時的に蓄積される。

　また、８Ｋレベルの高周波成分S-8K_Hは、第３階層の画像データを構成する。この高周波成分S-8K_Hがビデオエンコーダ３１１において符号化されることで、第２の拡張ビデオストリームSt3が得られる。この第２の拡張ビデオストリームSt3は、エンコードバッファ３１２に、一時的に蓄積される。基本ビデオストリームSt1、第１の拡張ビデオストリームSt2および第２拡張ビデオストリームSt3は、マルチプレクサ３１３で合成され、合成ストリームが受信側に送信される。

　次に、受信側（デコード側）について説明する。デマルチプレクサ３５１で、合成ストリームから、基本ビデオストリームSt1、第１の拡張ビデオストリームSt2および第２拡張ビデオストリームSt3が分離される。基本ビデオストリームSt1は、デコードバッファ３５２に、一時的に蓄積される。そして、この基本ビデオストリームSt1がデコーダ３５３で復号化されることで、第１階層（最下位階層）の画像データとして、ＨＤの画像データS-HDが得られる。この画像データS-HDにより、ＨＤ画像の表示が可能となる。

　また、第１の拡張ビデオストリームSt2は、デコードバッファ３５４に、一時的に蓄積される。そして、この第１の拡張ビデオストリームSt2がデコーダ３５５で復号化されることで、第２階層の画像データとしての４Ｋレベルの高周波成分S-4K_Hが得られる。また、画像データS-HDに対して、アップサンプリング部３５６でα倍、ここでは２倍のアップサンプリング処理が施されて、４Ｋの画像データS-4K_Lが生成される。加算器３５７において、４Ｋの画像データS-4K_Lに４Ｋレベルの高周波成分S-4K_Hが加算されて、４Ｋの画像データS-4Kが得られる。この画像データS-4Kにより、４Ｋ画像の表示が可能となる。

　また、第２の拡張ビデオストリームSt3は、デコードバッファ３５８に、一時的に蓄積される。そして、この第２の拡張ビデオストリームSt3がデコーダ３５９で復号化されることで、第３階層の画像データとしての８Ｋレベルの高周波成分S-8K_Hが得られる。また、画像データS-4Kに対して、アップサンプリング部３６０でβ倍、ここでは２倍のアップサンプリング処理が施されて、８Ｋの画像データS-8K_Lが生成される。加算器３６１において、８Ｋの画像データS-8K_Lに８Ｋレベルの高周波成分S-8K_Hが加算されて、８Ｋの画像データS-4Kが得られる。この画像データS-8Kにより、８Ｋ画像の表示が可能となる。

　図５は、上述した空間解像度スケーラビリティにおける受信側(デコード側)の具体的な構成例を示している。なお、この構成例は２レイヤ（第１階層、第２階層）の場合を示している。基本ビデオストリームSt1は、エントロピーデコーディング部３５３ａでエントロピーデコード処理が行われ、クオンタイズィングデコーディング部３５３ｂで逆量子化処理が行われる。さらに、逆量子化処理後のデータは、フリクェンシーコンバージョンデコーダ３５３ｃで、周波数軸データから時間軸データに戻されて、データD1(n)が得られる。

　加算器３５３ｆにおいて、このフリクェンシーコンバージョンデコード後のデータD1(n)に、フレームバッファ３５３ｄから得られる１フレーム前の画像データS-HD(n-1)がモーションコンペンセーション部３５３ｅで動き補償処理された後に加算される。そして、この加算器３５３ｆから、現在フレームのＨＤの画像データS-HD(n)が得られる。

　また、第１拡張ビデオストリームSt2は、エントロピーデコーディング部３５５ａでエントロピーデコード処理が行われ、クオンタイズィングデコーディング部３５５ｂで逆量子化処理が行われる。さらに、逆量子化処理後のデータは、フリクェンシーコンバージョンデコーダ３５５ｃで、周波数軸データから時間軸データに戻されて、データD2(n)が得られる。

　加算器３５５ｆにおいて、このフリクェンシーコンバージョンデコード後のデータD2(n)に、フレームバッファ３５５ｄから得られる１フレーム前の高周波成分S-4K_H(n-1)がモーションコンペンセーション部３５５ｅで動き補償処理された後に加算される。この加算器３５５ｆから、現在フレームの４Ｋレベルの高周波成分S-4K_H(n)が得られる。また、画像データS-HD(n)に対して、アップサンプリング部３５６でα倍、ここでは２倍のアップサンプリング処理が施されて、４Ｋの画像データS-4K_L(n)が生成される。加算器３５７において、４Ｋの画像データS-4K_L(n)に４Ｋレベルの高周波成分S-4K_H(n)が加算されて、現在フレームの４Ｋの画像データS-4K(n)が得られる。

　図６は、空間解像度スケーラビリティのデコーディングプロセスの一例を示している。この例では、第１階層（最下位階層）の画像データを含む基本ビデオストリーム（Base stream）が存在する。また、この例では、第２の階層の画像データ（高周波成分）を含む第１の拡張ビデオストリーム（1st enhancement stream）および第３の階層の画像データ（高周波成分）を含む第２の拡張ビデオストリーム（2nd enhancement stream）が存在する。そして、この例は、基本ビデオストリームの空間解像度を、第１の拡張ビデオストリームにより、‘Up scaling ratio 1’倍とし、第２の拡張ビデオストリームにより、さらに‘Up scaling ratio 2’倍とする例である。

　基本ビデオストリームがデコードされて第１階層の画像データＶ１が得られる。この画像データＶ１がアップサンプリングされることで、水平、垂直の解像度がそれぞれ‘Up scaling ratio 1’倍された画像データＶ2Lが得られる。また、第１の拡張ビデオストリームがデコードされて第２階層の画像データＶ2Hが得られる。画像データＶ2L，Ｖ2Hが加算されて、画像データＶ１に対して、水平、垂直の解像度がそれぞれ‘Up scaling ratio 1’倍された画像データＶ２が得られる。

　また、画像データＶ２がアップサンプリングされることで、水平、垂直の解像度がそれぞれ‘Up scaling ratio 2’倍された画像データＶ3Lが得られる。また、第２の拡張ビデオストリームがデコードされて第３階層の画像データＶ3Hが得られる。画像データＶ3L，Ｖ3Hが加算されて、画像データＶ２に対して、水平、垂直の解像度がそれぞれ‘Up scaling ratio 2’倍された表示用の画像データＶ３が得られる。

　図７は、時間解像度スケーラビリティの一例を示している。この例は、時間的に超高解像度の画像データとして、図７（ａ）に示すように、１２０ｆｐｓの画像データS-120を取り扱う例である。この画像データS-120は、第１階層（最下位階層）と第２階層の２階層に分離される。

　第１階層の画像データ（偶数フレームの画像データ）は、例えば、図７（ｂ）に示すように、符号化されて、基本ビデオストリームSt1が生成される。この基本ビデオストリームSt1は、Ｉピクチャ(Intra picture)、Ｐピクチャ(Predictive picture)およびＢピクチャ(Bi-directional predictive picture)で構成される。Ｉピクチャは他ピクチャを参照せず、ＰピクチャおよびＢピクチャは、この基本ビデオストリームSt1内のＩピクチャまたはＰピクチャしか参照しない。そのため、この基本ビデオストリームSt1は、このストリームだけでデコード可能となる。

　また、第２階層の画像データ（奇数フレームの画像データ）は、例えば、図７（ｃ）に示すように、符号化されて、第１の拡張ビデオストリームSt2が生成される。この第１の拡張ビデオストリームSt2は、ＰピクチャおよびＢピクチャで構成される。ＰピクチャおよびＢピクチャは、この第１の拡張ビデオストリームSt2内のＰピクチャだけでなく、基本ビデオストリームSt1内のＩピクチャ、Ｐピクチャ、さらにはＢピクチャも参照する。そのため、この第１の拡張ビデオストリームSt2は、このストリームだけでなく、基本ビデオストリームSt1のデコード結果が必要となる。

　なお、図７（ｃ）に示す第１の拡張ビデオストリームSt2のＢピクチャは「Ｂ」で示されるのに対して、図７（ｂ）に示す基本ビデオストリームSt1のＢピクチャは「Ｂｒ」で示されている。「Ｂ」は他のピクチャから参照されないＢピクチャであることを表し、「Ｂｒ」は他のピクチャから参照されるＢピクチャであることを表している。

　送信側（エンコード側）から受信側（デコード側）には、上述した基本ビデオストリームSt1および第１の拡張ビデオストリームSt2が送られる。受信側では、基本ビデオストリームSt1を復号化することで、６０ｆｐｓの画像データS-60を得ることができる。また、受信側では、基本ビデオストリームSt1および第１の拡張ビデオストリームSt2の双方を復号化して合成することで、１２０ｆｐｓの画像データS-120を得ることができる。

　図８は、上述した基本ビデオストリームSt1および第１の拡張ビデオストリームSt2が送られる場合におけるデコード例を示している。基本ビデオストリームのSt1に関しては、第０フレームのＩピクチャ（I_0）、第６フレームのＰピクチャ（P_6）、第２フレームのＢピクチャ（Br_2）、第４フレームのＢピクチャ（Br_4）、・・・の順にデコード処理が行われる。なお、図中の矢印は、ピクチャの参照関係を示している。このように基本ビデオストリームSt1のデコードが行われることで、６０ｆｐｓの画像データS-60が得られる。

　また、第１の拡張ビデオストリームSt2に関しては、第１フレームのＰピクチャ（P_1）、第７フレームのＰピクチャ（P_7）、第３フレームのＢピクチャ（B_3）、第５フレームのＢピクチャ（B_5）、・・・の順にデコード処理が行われる。なお、図中の矢印は、ピクチャの参照関係を示している。上述の基本ビデオストリームSt1のデコードの他に、このように第１の拡張ビデオストリームSt2のデコードが行われることで、１２０ｆｐｓの画像データS-120が得られる。

　図９は、上述した時間解像度スケーラビリティにおける受信側(デコード側)の具体的な構成例を示している。なお、この構成例は２レイヤ（第１階層、第２階層）の場合を示している。基本ビデオストリームSt1は、エントロピーデコーディング部４０３ａでエントロピーデコード処理が行われ、クオンタイズィングデコーディング部４０３ｂで逆量子化処理が行われる。さらに、逆量子化処理後のデータは、フリクェンシーコンバージョンデコーダ４０３ｃで、周波数軸データから時間軸データに戻されて、現在フレームのデコードデータD1(n)が得られる。

　加算器４０３ｆにおいて、このデコードデータD1(n)に、フレームバッファ４０３ｄから得られる参照ピクチャの画像データがモーションコンペンセーション部４０３ｅ部で動き補償処理された後に加算される。そして、この加算器４０３ｆから、現在フレームの６０ｆｐｓの画像データS-60(n)が得られる。

　また、第１拡張ビデオストリームSt2は、エントロピーデコーディング部４０５ａでエントロピーデコード処理が行われ、クオンタイズィングデコーディング部４０５ｂで逆量子化処理が行われる。さらに、逆量子化処理後のデータは、フリクェンシーコンバージョンデコーダ４０５ｃで、周波数軸データから時間軸データに戻されて、現在フレームのデコードデータD2(n)が得られる。

　加算器４０５ｆにおいて、このデコードデータD2(n)に、フレームバッファ４０３ｄやフレームバッファ４０５ｄから得られる参照ピクチャの画像データがモーションコンペンセーション部４０５ｅ部で動き補償処理された後に加算される。この加算器４０５ｆから、現在フレームの６０ｆｐｓの画像データS-60(n)′が得られる。そして、合成部４０６において、上述の６０ｆｐｓの画像データS-60(n)に、この６０ｆｐｓの画像データS-60(n)′が合成されて、１２０ｆｐｓの画像データS-120が得られる。

　１つまたは複数のビデオストリーム（ビデオサブストリーム）は、１つまたは複数のビデオエレメンタリストリームに挿入して送信される。すなわち、トランスポートストリームＴＳには、１つまたは複数のビデオエレメンタリストリームが含まれる。基本ビデオストリームおよび所定数の拡張ビデオストリームを１つのビデオエレメンタリストリームに挿入して送信する場合、１アクセスユニット（access unit）の中に、全てのストリームのピクチャが含まれる

　図１０は、時間解像度スケーラビリティのデコーディングプロセスの一例を示している。なお、図中の矢印は、ピクチャの被参照方向を示している。この例では、第１階層（最下位階層）の画像データを含む基本ビデオストリーム（Base stream）が存在する。また、この例では、第２の階層の画像データを含む第１の拡張ビデオストリーム（1st enhancement stream）および第３の階層の画像データを含む第２の拡張ビデオストリーム（2nd enhancement stream）が存在する。そして、この例は、基本ビデオストリームのフレーム表示周波数を、第１の拡張ビデオストリームにより、２倍とし、第２の拡張ビデオストリームにより、さらに２倍とする例である。

　そして、この例は、基本ビデオストリームと第１の拡張ビデオストリームとの間で、拡張層（Enhanced layer）のピクチャ挿入が１ピクチャであり、また、第１の拡張ビデオストリームと第２の拡張ビデオストリームとの間で、拡張層（Enhanced layer）のピクチャ挿入が１ピクチャである。

　基本ビデオストリームの各ピクチャは、この基本ビデオストリーム内のピクチャのみが参照されてデコードされる。第１の拡張ビデオストリームの各ピクチャは、基本ビデオストリーム内のピクチャが参照されてデコードされる。また、第２の拡張ビデオストリームの各ピクチャは、基本ビデオストリーム内および第１の拡張ビデオストリーム内のピクチャが参照されてデコードされる。

　このように、基本ビデオストリーム、第１の拡張ビデオストリームおよび第２の拡張ビデオストリームがデコードされることで、最終的に、基本ビデオストリームのフレーム表示周波数に対して４倍の表示周波数を有する画像データが得られる。

　図１１（ａ），（ｂ）は、複数のビデオストリーム（サブストリーム）のピクチャの符号化データを含むビデオエレメンタリストリームの一例を示している。各アクセスユニットに、各サブストリームのピクチャの符号化データが順次配置される。この場合、最初のサブストリームのピクチャの符号化データは、“SPS ～ Coded Slice”で構成され、２番目以降のサブストリームのピクチャの符号化データは、“Subset SPS ～ Coded Slice”で構成される。なお、この例は、ＭＰＥＧ４－ＡＶＣの符号化がされている例であるが、他の符号化方式でも適用可能である。なお、図中の１６進数字は「 NAL unit type 」を示している。

　各サブストリームのピクチャの符号化データが１つのビデオエレメンタリストリームに共存する場合、各ピクチャの境界が瞬時に識別可能なことが要求される。しかし、ＡＵＤ(access unit delimiter)は、一つのアクセスユニットの先頭にのみ付すことが可能である。そこで、図１１（ｂ）に示すように、各サブストリームのピクチャの符号化データの間に、「Substream Separation Marker」という境界を示す新たな“NAL unit”を定義して配置することが考えられる。

　これにより、各サブストリームのピクチャの先頭データに瞬時にアクセスすることが可能となる。なお、図１１（ａ）は、各サブストリームのピクチャの符号化データの間に、「Substream Separation Marker」が配置されていない例を示している。

　図１２は、第１の送信モードと、第２の送信モードが交互に連続する場合であって、モード識別のための識別情報（シグナリング）がない例を示している。期間Ａ、期間Ｃは第１の送信モードにある期間を示し、期間Ｂは第２の送信モードにある期間を示している。各期間は、例えば、番組単位、あるいはシーン単位を表す。

　第１の送信モードの期間には、基本ビデオストリームと共に、空間的あるいは時間的な超高解像度化のための拡張ビデオストリームが存在する。第２の送信モードの期間には、基本ビデオストリームのみが存在する。なお、基本ビデオストリームは、ＳＰＳを先頭として、所定数のアクセスユニット（ＡＵ）が続く構成となっている。また、拡張ビデオストリームは、サブセットＳＰＳ（ＳＳＳＰＳ）を先頭として、所定数のアクセスユニット（ＡＵ）が続く構成となっている。また、アクセスユニット（ＡＵ）は、“PPS, Substream SEIs, Coded Slice”で構成されている。

　期間Ａから期間Ｂへの切換えタイミングにおいて、受信機の受信バッファへの拡張ビデオストリームの供給がなくなった際に、エンコーダあるいは伝送路の都合で到着に余計な時間がかかっているのか、あるいは拡張ビデオストリームのエンコードが途絶えて、基本ビデオストリームのみになったのかは、受信機としては不明である。その場合、受信機側のバッファは必要以上に待ちが生じることがあり、結果としてアンダーフロー（underflow）になる可能性がある。

　そうなった場合は、受信機の判断で、例えば、予め設定したタイムアウト（timeout）時間との比較を行うことにより、超高解像度画像から基本画像（従来画像）の表示モードへ変更する、など行う。しかし、このような判断を受信機が行う場合、そのための処理時間がかかり、瞬時に判断することは困難である。つまり、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことができなくなる。

　そのような状態に陥ることを回避するには、送信モードの切り替えに同期したモード識別情報（シグナリング）を供給し、受信機がその信号を検出することで、送信モードの切り替え時点を瞬時に判断できるようにすることが必要となる。この実施の形態においては、ビデオストリームに、第１の送信モードと第２の送信モードとを識別するための識別情報が挿入される。

　識別情報の挿入は、例えば、以下の「方法１」、「方法２」あるいは「方法３」により行われる。「方法１」は、図１３に示すように、ビデオストリームに第１の送信モードであることを示す識別情報「ＥＨＦ」あるいは第２の送信モードであること（拡張ビデオストリームが存在しないこと）を示す識別情報「ＢＣＦ」の挿入を行う。すなわち、第１の送信モードでは、ビデオストリームに識別情報「ＥＨＦ」を挿入し、第２の送信モードではビデオストリームに識別情報「ＢＣＦ」を挿入する、というものである。

　「方法２」は、図１４に示すように、ビデオストリームに第１の送信モードであること（拡張ビデオストリームが存在すること）を示す識別情報「ＥＨＦ」の挿入を行う。すなわち、第１の送信モードでは、ビデオストリームに識別情報「ＥＨＦ」を挿入し、第２の送信モードでは、ビデオストリームに、識別情報を挿入しない、というものである。

　「方法３」は、図１５に示すように、ビデオストリームに第２の送信モードであることを示す識別情報「ＢＣＦ」の挿入を行う。すなわち、第１の送信モードでは、ビデオストリームに、識別情報を挿入することをせず、第２の送信モードでは、ビデオストリームに識別情報「ＢＣＦ」を挿入する、というものである。

　この識別情報には、第１の送信モードを示す場合、つまり識別情報「ＥＨＦ」の場合には、拡張ビデオストリームの個数を示す情報、スケーラビリティ拡張のタイプを示す情報、スケーラビリティ拡張における上位階層との合成の際のスケーリング比の情報等が含まれている。

　この識別情報は、例えば、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入される。この識別情報は、少なくとも、番組単位、シーン単位、ピクチャグループ単位、あるいはピクチャ単位で挿入される。なお、上述の図１３、図１４、図１５に示す例は、ピクチャ単位で挿入される例を示している。

　上述したようにビデオストリームに送信モードの識別情報を挿入することで、受信側では、送信モードの切り替えに応じて、超高解像度画像の表示処理または従来画像の表示処理を適切に切り替えることができる。なお、従来画像の表示処理を行う際には解像度アップ処理が施される。この識別情報（「ＥＨＦ」、「ＢＣＦ」）の詳細については後述する。

　また、トランスポートストリームＴＳのレイヤに、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報が挿入される。この識別情報は、イベント単位あるいは時間的に静的または動的なユースケースにおいて、最適な位置に配置される。例えば、この識別情報は、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ：Program Map Table）のビデオエレメンタリ・ループ（Video ES loop）の配下に挿入される。この識別情報により、受信側では、第１の送信モードにあるか第２の送信モードにあるかを、ビデオストリームをデコードすることなく、大まかに把握することが可能となる。

　第１の送信モードを示す場合、拡張ビデオストリームの個数を示す情報、スケーラビリティ拡張のタイプを示す情報、所定数の拡張ビデオストリームが１つのビデオエレメンタリストリームで供給されるか否かを示す情報等が含まれている。この識別情報の詳細については後述する。

　また、トランスポートストリームＴＳのレイヤに、１つまたは複数のビデオストリーム（サブストリーム）を挿入するビデオエレメンタリストリームの個数を識別するための識別情報が挿入される。この識別情報は、イベント単位あるいは時間的に静的または動的なユースケースにおいて、最適な位置に配置される。例えば、この識別情報は、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ：Program Map Table）のプログラム・ループ（Program_loop）の配下に挿入される。この識別情報により、受信側では、デコードすべきビデオエレメンタリストリームの個数を把握することが可能となる。この識別情報の詳細については後述する。

　受信機２００は、放送局１００から放送波に載せて送られてくるトランスポートストリームＴＳを受信する。また、受信機２００は、第１の送信モードの期間は、このトランスポートストリームＴＳに含まれるビデオストリーム（基本ビデオストリーム、所定数の拡張ビデオストリーム）をデコードして、超高解像度画像の表示画像データを取得する。また、受信機２００は、第２の送信モードの期間は、このトランスポートストリームＴＳに含まれるビデオストリーム（基本ビデオストリーム）をデコードして、従来画像の表示画像データを取得する。

　「送信データ生成部の構成例」
　図１６は、放送局１００において、上述したトランスポートストリームＴＳを生成する送信データ生成部１１０の構成例を示している。この送信データ生成部１１０は、画像データ出力部１１１と、ビデオエンコーダ１１２と、グラフィクスデータ出力部１１３と、グラフィクスエンコーダ１１４と、音声データ出力部１１５と、オーディオエンコーダ１１６と、マルチプレクサ１１７を有している。

　最初に、第１の送信モードにある場合について説明する。画像データ出力部１１１は、空間的あるいは時間的な超高解像度画像の画像データを出力する。この画像データ出力部１１１は、例えば、被写体を撮像して画像データを出力するカメラ、あるいは記憶媒体から画像データを読み出して出力する画像データ読み出し部などにより構成される。この画像データとしては、例えば、空間的な超高解像度画像を表示する、４Ｋの画像データ、８Ｋの画像データ等が該当する。また、この画像データとしては、例えば、時間的な超高解像度画像を表示する、１２０ｆｐｓの画像データ、２４０ｆｐｓの画像データ等が該当する。

　ビデオエンコーダ１１２は、画像データ出力部１１１から出力される画像データに対してスケーラブル符号化の処理を行って、最下位階層の画像データを含む基本ビデオストリーム（サブストリーム）と、最下位層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリーム（サブストリーム）を生成する。各ビデオストリーム（サブストリーム）には、例えば、ＭＰＥＧ４－ＡＶＣ、ＭＰＥＧ２ｖｉｄｅｏ等の符号化が施される。そして、ビデオエンコーダ１１２は、後段に備えるストリームフォーマッタ（図示せず）により、基本ビデオストリームおよび所定数の拡張ビデオストリームが挿入された１つまたは複数のビデオエレメンタリストリームを生成する。

　ビデオエンコーダ１１２は、上述の「方法１」、あるいは「方法２」を採用する場合には、基本ビデオストリームに、第１の送信モードであることを示す識別情報「ＥＨＦ」を挿入する。この識別情報「ＥＨＦ」には、拡張ビデオストリームの個数を示す情報、スケーラビリティ拡張のタイプを示す情報、スケーラビリティ拡張における上位階層との合成の際のスケーリング比の情報等が含まれている。

　図１７は、基本ビデオストリームおよび所定数の拡張ビデオストリームが１つのビデオエレメンタリストリームに挿入される場合（Single PID）におけるストリーム内の符号化パケット順を示している。この例は、拡張ビデオストリームが１つである場合を示している。なお、詳細は後述するが、識別情報「ＥＨＦ」は、基本ビデオストリームに、ＳＥＩメッセージとして挿入される。

　図１８は、基本ビデオストリームおよび所定数の拡張ビデオストリームの各ビデオストリームがそれぞれ１つのビデオエレメンタリストリームに挿入される場合（Multiple PID）における各ストリーム内の符号化パケット順を示している。この例は、拡張ビデオストリームが１つである場合を示している。

　図１６に戻って、グラフィクスデータ出力部１１３は、画像に重畳するグラフィクス（字幕としてのサブタイトルも含む）のデータを出力する。グラフィクスエンコーダ１１４は、グラフィクスデータ出力部１１３から出力されたグラフィクスデータを含むグラフィクスストリーム（グラフィクスエレメンタリストリーム）を生成する。ここで、グラフィクスは、重畳情報を構成し、例えば、ロゴ、字幕などである。

　グラフィクスデータは、主にはビットマップデータである。このグラフィクスデータには、画像上の重畳位置を示すオフセット情報が付加されている。このオフセット情報は、例えば、画像の左上の原点から、グラフィクスの重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、字幕データをビットマップデータとして伝送する規格は、例えば、ヨーロッパのデジタル放送規格であるＤＶＢで「DVB_Subtitling」として規格化され、運用されている。

　音声データ出力部１１５は、画像データに対応した音声データを出力する。この音声データ出力部１１５は、例えば、マイクロホン、あるいは記憶媒体から音声データを読み出して出力する音声データ読み出し部などにより構成される。オーディオエンコーダ１１６は、音声データ出力部１１５から出力される音声データに対して、ＭＰＥＧ－２Ａｕｄｉｏ、ＡＡＣ等の符号化を施し、オーディオストリーム（オーディオエレメンタリストリーム）を生成する。

　マルチプレクサ１１７は、ビデオエンコーダ１１２、グラフィクスエンコーダ１１４およびオーディオエンコーダ１１６で生成された各エレメンタリストリームをパケット化して多重し、トランスポートストリームＴＳを生成する。この場合、それぞれのＰＥＳ(Packetized Elementary Stream)のヘッダには、受信側における同期再生のために、ＰＴＳ（Presentation Time Stamp）が挿入される。

　マルチプレクサ１１７は、トランスポートストリームＴＳのレイヤに、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報を挿入する。ここでは、この識別情報は、第１の送信モードであることを示す。この識別情報は、例えば、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ）のビデオエレメンタリ・ループ（Video ES loop）の配下に挿入される。

　また、マルチプレクサ１１７は、トランスポートストリームＴＳのレイヤに、１つまたは複数のビデオストリーム（サブストリーム）を挿入するビデオエレメンタリストリームの個数を識別するための識別情報を挿入する。ここでは、この識別情報は、「１」または「拡張ビデオストリームの個数＋１」を示す。この識別情報は、例えば、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ）のプログラム・ループ（Program_loop）の配下に挿入される。

　次に、第２の送信モードにある場合について説明する。画像データ出力部１１１は、従来画像、例えばＨＤ画像の画像データを出力する。ビデオエンコーダ１１２は、画像データ出力部１１１から出力される画像データに対して、ＭＰＥＧ４－ＡＶＣ、ＭＰＥＧ２ｖｉｄｅｏ等の符号化を施し、基本ビデオストリーム（サブストリーム）を生成する。そして、ビデオエンコーダ１１２は、後段に備えるストリームフォーマッタ（図示せず）により、基本ビデオストリームが挿入された１つのビデオエレメンタリストリームを生成する。

　ビデオエンコーダ１１２は、上述の「方法１」、あるいは「方法３」を採用する場合には、基本ビデオストリームに、第２の送信モードであることを示す識別情報「ＢＣＦ」を挿入する。

　詳細説明は省略するが、グラフィクスデータ出力部１１３、グラフィクスエンコーダ１１４、音声データ出力部１１５およびオーディオエンコーダ１１６に関しては、第１の送信モードにある場合と同様である。

　マルチプレクサ１１７は、トランスポートストリームＴＳのレイヤに、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報を挿入する。ここでは、この識別情報は、第２の送信モードであることを示す。この識別情報は、例えば、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ）のビデオエレメンタリ・ループ（Video ES loop）の配下に挿入される。

　また、マルチプレクサ１１７は、トランスポートストリームＴＳのレイヤに、１つまたは複数のビデオストリーム（サブストリーム）を挿入するビデオエレメンタリストリームの個数を識別するための識別情報を挿入する。ここでは、この識別情報は、「１」を示す。この識別情報は、例えば、トランスポートストリームＴＳに含まれるプログラム・マップ・テーブル（ＰＭＴ）のプログラム・ループ（Program_loop）の配下に挿入される。

　図１６に示す送信データ生成部１１０の動作を簡単に説明する。最初に、第１の送信モードにある場合について説明する。画像データ出力部１１１から出力される、空間的あるいは時間的な超高解像度画像の画像データは、ビデオエンコーダ１１２に供給される。

　このビデオエンコーダ１１２では、その画像データに対してスケーラブル符号化の処理が施され、最下位階層の画像データを含む基本ビデオストリーム（サブストリーム）と、最下位層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリーム（サブストリーム）が生成される。そして、ビデオエンコーダ１１２では、基本ビデオストリームおよび所定数の拡張ビデオストリームが挿入された１つまたは複数のビデオエレメンタリストリームが生成される。このビデオエレメンタリストリームは、マルチプレクサ１１７に供給される。また、このビデオエンコーダ１１２では、上述の「方法１」、あるいは「方法２」を採用する場合には、基本ビデオストリームに、第１の送信モードであることを示す識別情報「ＥＨＦ」が挿入される（図１３、図１４参照）。

　また、グラフィクスデータ出力部１１３から出力されるグラフィクスデータ（サブタイトルデータも含む）は、グラフィクスエンコーダ１１４に供給される。このグラフィクスエンコーダ１１４では、グラフィクスデータを含むグラフィクスストリーム（グラフィクスエレメンタリストリーム）が生成される。このグラフィクスストリームは、マルチプレクサ１１５に供給される。

　また、音声データ出力部１１５から出力される音声データは、オーディオエンコーダ１１６に供給される。このオーディオエンコーダ１１６では、音声データに対して、ＭＰＥＧ－２Ａｕｄｉｏ、ＡＡＣ等の符号化が施され、オーディオストリーム（オーディオエレメンタリストリーム）が生成される。このオーディオストリームは、マルチプレクサ１１７に供給される。

　マルチプレクサ１１７では、各エンコーダから供給されるエレメンタリストリームがパケット化されて多重され、トランスポートストリームＴＳが生成される。この場合、それぞれのＰＥＳヘッダには、受信側における同期再生のために、ＰＴＳが挿入される。また、マルチプレクサ１１７では、ＰＭＴのビデオエレメンタリ・ループ（Video ES loop）の配下に、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報が挿入される。また、マルチプレクサ１１７では、ＰＭＴのプログラム・ループの配下に、ビデオエレメンタリストリームの個数を識別するための識別情報が挿入される。

　次に、第２の送信モードにある場合について説明する。画像データ出力部１１１から出力される、従来画像、例えばＨＤ画像の画像データは、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、その画像データに対して、ＭＰＥＧ４－ＡＶＣ、ＭＰＥＧ２ｖｉｄｅｏ等の符号化が施され、基本ビデオストリーム（サブストリーム）が生成される。そして、このビデオエンコーダ１１２では、基本ビデオストリームが挿入された１つのビデオエレメンタリストリームが生成される。また、このビデオエンコーダ１１２では、上述の「方法１」、あるいは「方法３」を採用する場合には、基本ビデオストリームに、第２の送信モードであることを示す識別情報「ＢＣＦ」が挿入される（図１３、図１５参照）。

　マルチプレクサ１１７では、ビデオエンコーダ１１２、グラフィクスエンコーダ１１４およびオーディオエンコーダ１１６で生成された各エレメンタリストリームがパケット化されて多重され、トランスポートストリームＴＳが生成される。この場合、それぞれのＰＥＳヘッダには、受信側における同期再生のために、ＰＴＳが挿入される。また、マルチプレクサ１１７では、例えば、ＰＭＴのビデオエレメンタリ・ループ（Video ES loop）の配下に、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報が挿入される。また、マルチプレクサ１１７では、例えば、ＰＭＴのプログラム・ループの配下に、ビデオエレメンタリストリームの個数を識別するための識別情報が挿入される。

　［各識別情報の構造とＴＳ構成］
　上述したように、ビデオストリームに、第１の送信モードと第２の送信モードとを識別するための識別情報（「ＥＨＦ」、「ＢＣＦ」）が挿入される。例えば、符号化方式がＭＰＥＧ４－ＡＶＣである場合、または、ＨＥＶＣのような、ＮＡＬパケットなどの符号化構造が似通っている符号化方式である場合にも、この識別情報は、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、ＳＥＩメッセージ（Enhancement scalability SEI message）として挿入される。

　図１９（ａ）は、ＧＯＰ（Group Of Pictures）の先頭のアクセスユニットを示しており、図１９（ｂ）は、ＧＯＰの先頭以外のアクセスユニットを示している。識別情報（「ＥＨＦ」、「ＢＣＦ」）がＧＯＰ単位で挿入される場合、ＧＯＰの先頭のアクセスユニットにのみ「Enhancement scalability SEI message」が挿入される。なお、この図において、「Enhancement scalability SEI message」以外のＳＥＩメッセージは、上述の図１７、図１８において、「従来ＳＥＩ」と記載されている部分に相当する。

　図２０（ａ）は、「Enhancement scalability SEI message」の構造例(Syntax)を示している。「uuid_iso_iec_11578」は、“ISO/IEC 11578:1996 AnnexA.”で示されるＵＵＩＤ値をもつ。「user_data_payload_byte」のフィールドに、「userdata_for_enhancement_scalability_data()」が挿入される。図２０（ｂ）は、「userdata_for_enhancement_scalability_data()」の構造例(Syntax)を示している。この中に、エンハンスメント・スケーラビリティ・データ（enhancement_scalability_data()）が挿入される。「userdata_id」は、符号なし１６ビットで示されるエンハンスメント・スケーラビリティ・データの識別子である。

　図２１は、エンハンスメント・スケーラビリティ・データ（enhancement_scalability_data()）の構造例（Syntax）を示している。また、図２２は、その構造例における主要な情報の内容（Semantics）を示している。

　「enhancement_scalability_type」の２ビットフィールドは、スケーラビリティ拡張のタイプを示す。例えば、“００”はスケーラビリティでないことを示し、“０１”は空間解像度スケーラビリティであることを示し、“１０”は時間解像度スケーラビリティであることを示す。第１の送信モードであることを示す識別情報「ＥＨＦ」の場合、この２ビットフィールドは、例えば、“０１”あるいは“１０”となる。また、第２の送信モードであることを示す識別情報「ＢＣＦ」の場合、この２ビットフィールドは“００”となる。そのため、この２ビットフィールドにより、第１の送信モードにあるか第２の送信モードにあるかを識別することが可能となる。

　「number_of_enhanced_streams」の３ビットフィールドは、拡張ビデオストリームの数（個数）を示す。例えば、“０００”は０ストリームを示し、“００１”は１ストリームを示し、“０１０”は２ストリームを示し、“０１１”は３ストリームを示す。第１の送信モードであることを示す識別情報「ＥＨＦ」の場合、この３ビットフィールドは１ストリーム以上を示すものとなる。一方、第２の送信モードであることを示す識別情報「ＢＣＦ」の場合、この３ビットフィールドは０ストリームを示すものとなる。

　「enhancement_scalability_type」の２ビットフィールドが空間解像度スケーラビリティを示すとき、拡張ビデオストリームの数（個数）分だけ、「spatial_scaling_ratio」の３ビットフィールドが存在する。この３ビットフィールドは、一段上の拡張レイヤ（enhancement layer）のデコード後のピクチャ（画像）との合成を行う際の、空間的スケーリング比を示すもので、ローワーレーヤー（lower layer）のデコード後のピクチャをスケーリングする水平画素比率、そして垂直画素比率の組み合わせを表す（図６参照）。

　例えば、“０００”はスケーリングしないことを示す。“００１”は水平・垂直共に、アップスケーリング比が５０％（３／２倍にする）であることを示す。“０１０”は水平・垂直共に、アップスケーリング比が１００％（２倍にする）であることを示す。さらに、“０１１”は水平・垂直共に、アップスケーリング比が１５０％（５／２倍にする）であることを示す。

　また、「enhancement_scalability_type」の２ビットフィールドが時間解像度スケーラビリティを示すとき、拡張ビデオストリームの数（個数）分だけ、「temporal_scaling_ratio」の３ビットフィールドが存在する。この３ビットフィールドは、一段上の拡張層（enhancement layer）のデコード後のピクチャとの合成を行う際の、時間的スケーリング比を示すもので、ローワーレーヤー（lower layer）のデコード後のピクチャ（画像）の間に表示させる拡張層（enhanced layer）のピクチャの数を示す（図１０参照）。

　例えば、“０００”は拡張層のピクチャ挿入がないことを示す。“００１”は拡張層のピクチャ挿入が１ピクチャであることを示し、“０１０”は拡張層のピクチャ挿入が２ピクチャであることを示し、“０１１”は拡張層のピクチャ挿入が３ピクチャであることを示す。

　また、上述したように、例えば、トランスポートストリームＴＳのプログラム・マップ・テーブル（ＰＭＴ）のビデオエレメンタリ・ループ（Video ES loop）の配下に、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報が挿入される。図２３は、この識別情報としてのスケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の構造例（Syntax）を示している。また、図２４は、その構造例における主要な情報の内容（Semantics）を示している。

　このスケーラブル・エンハンスメント・デスクリプタは、例えば、第１の送信モードにある場合にのみ挿入される。そのため、このデスクリプタの存在により、トランスポートストリームＴＳのレイヤにおいて第１の送信モードあることの識別が可能となり、逆に、このデスクリプタの非存在により、トランスポートストリームＴＳのレイヤにおいて第２の送信モードあることの識別が可能となる。

　「scalable_enhancement_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、スケーラブル・エンハンスメント・デスクリプタであることを示す。「scalable_enhancement_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「Scalable_enhancement_type」の２ビットフィールドは、スケーラビリティ拡張のタイプを示す。例えば、“０１”は空間解像度スケーラビリティであることを示し、“１０”は時間解像度スケーラビリティであることを示す。

　「stream_delivery_type」の１ビットフィールドは、基本、拡張のビデオストリームが供給されるビデオエレメンタリストリーム構成を示す。“１”は各ビデオストリームが１つのビデオエレメンタリストリームで供給されることを示し、“０”は各ビデオストリームが複数のビデオエレメンタリストリームで供給されることを示す。

　「number_of_enhanced_streams」の３ビットフィールドは、拡張ビデオストリームの数（個数）を示す。例えば、“０００”は０ストリームを示し、“００１”は１ストリームを示し、“０１０”は２ストリームを示し、“０１１”は３ストリームを示す。

　また、上述したように、例えば、トランスポートストリームＴＳのプログラム・マップ・テーブル（ＰＭＴ）のプログラム・ループ（Program_loop）の配下に、１つまたは複数のビデオストリーム（サブストリーム）を挿入するビデオエレメンタリストリームの個数を識別するための識別情報が挿入される。図２５（ａ）は、この識別情報としてのマルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）の構造例（Syntax）を示している。

　「multiple_stream_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、マルチプル・ストリーム・デスクリプタであることを示す。「multiple_stream_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「number_of_video_streams」の３ビットフィールドは、ビデオエレメンタリストリームの個数を示す。例えば、図２５（ｂ）に示すように、“００１”は１ストリームを示し、“０１０”は２ストリームを示し、“０１１”は３ストリームを示し、“１００”は４ストリームを示す。第１の送信モードである場合、この３ビットフィールドは１ストリーム以上を示すものとなる。一方、第２の送信モードである場合、この３ビットフィールドは１ストリームのみを示すものとなる。

　図２６は、トランスポートストリームＴＳの構成例を示している。この例は、図面の簡単化のために、オーディオおよびグラフィクスに関する部分については、その図示を省略している。この例は、基本ビデオストリームのみ、あるいは基本ビデオストリームおよび所定数の拡張ビデオストリームが１つのビデオエレメンタリストリームに挿入されて送信される場合（Single PID）の例を示している。すなわち、この１つのビデオエレメントストリームには、第１の送信モードの場合には基本ビデオストリームと所定数の拡張ビデオストリームが挿入されており、第２の送信モードの場合には基本ビデオストリームのみが挿入されている。

　トランスポートストリームＴＳには、１つのビデオエレメンタリストリームのＰＥＳパケット「PID1:video PES1」が含まれている。このビデオエレメンタリストリームに挿入される基本ビデオストリーム（サブストリーム）に、第１の送信モードと第２の送信モードとを識別するための識別情報（「ＥＨＦ」、「ＢＣＦ」）が、ＳＥＩメッセージ（Enhancement scalability SEI message）として挿入されている（図２１参照）。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。

　ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ（Video ES loop）が存在する。このビデオエレメンタリ・ループには、上述の１つのビデオエレメンタリストリームに対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。

　このＰＭＴのビデオエレメンタリ・ループ（Video ES loop）の配下に、上述の１つのビデオエレメンタリストリームに関連して、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）が挿入される（図２３参照）。また、ＰＭＴのプログラム・ループ（Program loop）の配下に、マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）が挿入される（図２５参照）。なお、スケーラブル・エンハンスメント・デスクリプタは、上述したように、例えば、第１の送信モードにある場合のみ挿入されるものである。

　図２７も、トランスポートストリームＴＳの構成例を示している。この例も、図面の簡単化のために、オーディオおよびグラフィクスに関する部分については、その図示を省略している。この例は、基本ビデオストリームおよび所定数の拡張ビデオストリームがそれぞれ別個のビデオエレメンタリストリームに挿入されて送信される場合（Multiple PID）の例を示している。なお、この例は、拡張ビデオストリームが２個の場合の例を示している。

　この構成例では、基本ビデオストリーム（サブストリーム）が挿入されたビデオエレメンタリストリームのＰＥＳパケット「PID1:video PES1」が含まれている。この基本ビデオストリームに、第１の送信モードと第２の送信モードとを識別するための識別情報（「ＥＨＦ」、「ＢＣＦ」）が、ＳＥＩメッセージ（Enhancement scalability SEI message）として挿入されている（図２１参照）。

　また、この構成例では、第１の拡張ビデオストリーム（サブストリーム）が挿入されたビデオエレメンタリストリームのＰＥＳパケット「PID2:video PES2」と、第２の拡張ビデオストリーム（サブストリーム）が挿入されたビデオエレメンタリストリームのＰＥＳパケット「PID3:video PES3」が含まれている。

　ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ（Video ES loop）が存在する。このビデオエレメンタリ・ループには、ビデオエレメンタリストリーム毎に、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。

　このＰＭＴのビデオエレメンタリ・ループ（Video ES loop）の配下に、上述の各ビデオエレメンタリストリームにそれぞれ関連して、同一内容のスケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）が挿入される（図２３参照）。なお、基本ビデオストリームが挿入されるビデオエレメンタリストリームに関連してのみ、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）が挿入されてもよい。また、ＰＭＴのプログラム・ループ（Program loop）の配下に、マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）が挿入される（図２５参照）。なお、スケーラブル・エンハンスメント・デスクリプタは、上述したように、例えば、第１の送信モードにある場合のみ挿入されるものである。

　「受信機の構成例」
　図２８は、受信機２００の構成例を示している。この受信機２００は、ＣＰＵ２０１と、フラッシュＲＯＭ２０２と、ＤＲＡＭ２０３と、内部バス２０４と、リモートコントロール受信部（ＲＣ受信部）２０５と、リモートコントロール送信機（ＲＣ送信機）２０６を有している。また、この受信機２００は、アンテナ端子２１１と、デジタルチューナ２１２と、トランスポートストリームバッファ（ＴＳバッファ）２１３と、デマルチプレクサ２１４を有している。

　また、この受信機２００は、コーデッドバッファ２１５と、ビデオデコーダ２１６と、基本ストリームデコーデッドバッファ２１７と、拡張ストリームデコーデッドバッファ２１８と、合成処理部２１９と、ビデオＲＡＭ２２０と、解像度アップ処理部２２１と、重畳部２２２２を有している。また、この受信機２００は、コーデッドバッファ２３１と、グラフィクスデコーダ２３２と、ピクセルバッファ２３３と、スケーラ２３４と、コーデッドバッファ２４１と、オーディオデコーダ２４２と、チャネルミキシング部２４３を有している。

　ＣＰＵ２０１は、受信機２００の各部の動作を制御する。フラッシュＲＯＭ２０２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２０３は、ＣＰＵ２０１のワークエリアを構成する。ＣＰＵ２０１は、フラッシュＲＯＭ２０２から読み出したソフトウェアやデータをＤＲＡＭ２０３上に展開してソフトウェアを起動させ、受信機２００の各部を制御する。ＲＣ受信部２０５は、ＲＣ送信機２０６から送信されたリモーコントロール信号（リモコンコード）を受信し、ＣＰＵ２０１に供給する。ＣＰＵ２０１は、このリモコンコードに基づいて、受信機２００の各部を制御する。ＣＰＵ２０１、フラッシュＲＯＭ２０２およびＤＲＡＭ２０３は、内部バス２０４に接続されている。

　アンテナ端子２１１は、受信アンテナ（図示せず）で受信されたテレビ放送信号を入力する端子である。デジタルチューナ２１２は、アンテナ端子２１１に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のトランスポートストリーム（ビットストリームデータ）ＴＳを出力する。トランスポートストリームバッファ（ＴＳバッファ）２１３は、デジタルチューナ２１２から出力されたトランスポートストリームＴＳを一時的に蓄積する。

　このトランスポートストリームＴＳには、１つまたは複数のビデオエレメンタリストリームと、グラフィクスエレメンタリストリームと、オーディオエレメンタリストリームが含まれている。そして、この１つまたは複数のビデオエレメンタリストリームには、第１の送信モードにある場合および第２の送信モードにある場合において、以下のサブストリームが挿入されている。

　すなわち、第１の送信モードにある場合には、基本ビデオストリームと、所定数の拡張ビデオストリームが挿入されている。この場合、基本ビデオストリームには、スケーラブル符号化画像データ（空間的あるいは時間的な超高解像度画像の画像データ）を構成する最下位階層の画像データが含まれている。また、所定数の拡張ビデオストリームには、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データがそれぞれ含まれている。また、このトランスポートストリームＴＳには、第２の送信モードにある場合、基本ビデオストリームのみが挿入されている。この場合、基本ビデオストリームには、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データが基本画像データとして含まれている。

　また、基本ビデオストリームには、第１の送信モードと第２の送信モードとを識別するための識別情報（「ＥＨＦ」、「ＢＣＦ」）としてのＳＥＩメッセージ（Enhancement scalability SEI message）が挿入されている（図２１参照）。また、トランスポートストリームＴＳのレイヤに、第１の送信モードにあるか第２の送信モードにあるかを識別するための識別情報として、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）が挿入されている（図２３参照）。さらに、トランスポートストリームＴＳのレイヤに、ビデオエレメンタリストリームの個数を識別するための識別情報として、マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）が挿入されている（図２５参照）。

　デマルチプレクサ２１４は、ＴＳバッファ２１３に一時的に蓄積されたトランスポートストリームＴＳから、ビデオ、グラフィクスおよびオーディオの各エレメンタリストリームを抽出する。また、デマルチプレクサ２１４は、このトランスポートストリームＴＳから、上述したスケーラブル・エンハンスメント・デスクリプタと、マルチプル・ストリーム・デスクリプタとを抽出し、ＣＰＵ２０１に送る。

　ＣＰＵ２０１は、これらのデスクリプタに含まれる情報に基づいて、受信機２００におけるデコード等の処理を制御する。例えば、マルチプル・ストリーム・デスクリプタに含まれるビデオエレメンタリストリームの個数だけ、ビデオエレメンタリ・ループ（Video ES loop）の配下のスケーラブル・エンハンスメント・デスクリプタと、それに関連付けられるビデオエレメンタリストリーム（ＰＥＳストリーム）をデコードするように制御する。

　コーデッドバッファ２１５は、デマルチプレクサ２１４で抽出される１つまたは複数のビデオエレメンタリストリームを一時的に蓄積する。ビデオデコーダ２１６は、ＣＰＵ２０１の制御のもと、コーデッドバッファ２１５に記憶されているビデオエレメンタリストリームに挿入されている１つまたは複数のビデオストリーム（サブストリーム）を取り出してデコードする。

　第１の送信モードにある場合には、基本ビデオストリームと、所定数の拡張ビデオストリームが取り出されてデコードされる。この場合、基本ビデオストリームがデコードされることで、スケーラブル符号化画像データを構成する最下位階層の画像データ（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像などの画像データ）が得られる。また、所定数の拡張ビデオストリームがそれぞれデコードされることでスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データが得られる。また、第２の送信モードにある場合には、基本ビデオストリームのみが取り出されてデコードされる。この場合、基本ビデオストリームがデコードされることで、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データが得られる。

　また、ビデオデコーダ２１６は、基本ビデオストリームに挿入されているＳＥＩメッセージ（Enhancement scalability SEI message）を抽出し、ＣＰＵ２０１に送る。ＣＰＵ２０１は、上述のスケーラブル・エンハンスメント・デスクリプタ存在、非存在の他に、このＳＥＩメッセージ内のモード情報により、第１の送信モードにあるか第２の送信モードにあるかを識別し、各モードに応じた処理が行われるように、受信機２００の各部を制御する。例えば、スケーラブル・エンハンスメント・デスクリプタの存在、非存在によりトランスポートストリームＴＳのレイヤでモード切り替わりが識別された場合、その後のＳＥＩメッセージ内のモード情報でそのモード切り替わりが識別された時点で、処理の切り替えが行われる。

　基本ストリームデコーデッドバッファ２１７は、ビデオデコーダ２１６で基本ビデオストリームがデコードされて得られた画像データを一時的に蓄積する。この画像データは、第１の送信モードにある場合にはスケーラブル符号化画像データを構成する最下位階層の画像データであり、第２の送信モードにある場合には従来画像の画像データである。拡張ストリームデコーデッドバッファ２１８は、ビデオデコーダ２１６で所定数の拡張ビデオストリームがデコードされて得られた各画像データを一時的に蓄積する。この各画像データは、第１の送信モードにある場合のみ得られ、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データである。

　合成処理部２１９は、第１の送信モードにある場合のみ処理を行う。この合成処理部２１９は、基本ストリームデコーデッドバッファ２１７に記憶されている最下位階層の画像データと、拡張ストリームデコーデッドバッファ２１８に記憶されている最下位階層以外の階層の画像データとの合成処理を行って、超高解像度画像の表示用画像データＶａを生成する（図６、図１０参照）。この場合、合成処理部２１９では、スケーラビリティ拡張のタイプに応じて、ＳＥＩメッセージ（Enhancement scalability SEI message）に含まれるスケーリング比などの情報を参照して、空間解像度スケーラビリティあるいは時間解像度スケーラビリティの合成処理を行う。

　解像度アップ処理部２２１は、第２の送信モードにある場合のみ処理を行う。この解像度アップ処理部２２１は、基本ストリームデコーデッドバッファ２１７に記憶されている従来画像の画像データに対して、解像度アップ処理を行って、上述の超高解像度画像の表示用画像データＶａの解像度と同等の解像度を持つ表示用画像データＶｂを生成する。ここで、空間解像度スケーラビリティの場合には空間解像度のアップ処理が行われ、時間解像度スケーラビリティの場合にはフレーム周波数のアップ処理が行われる。

　ビデオＲＡＭ２２０は、第１の送信モードにある場合には、合成処理部２１９で生成された画像データＶａを一時的に蓄積する。また、ビデオＲＡＭ２２０は、第２の送信モードにある場合には、解像度アップ処理部２２１で生成された画像データＶｂを一時的に蓄積する。

　コーデッドバッファ２３１は、デマルチプレクサ２１４で抽出されるグラフィクスストリームを一時的に蓄積する。グラフィクスデコーダ２３２は、上述の送信データ生成部１１０のグラフィクスエンコーダ１１４（図１６参照）とは逆の処理を行う。すなわち、グラフィクスデコーダ２３２は、コーデッドバッファ２３１に記憶されているグラフィクスストリームの復号化処理を行って、復号化されたグラフィクスデータ（サブタイトルデータを含む）を得る。また、グラフィクスデコーダ２３２は、このグラフィクスデータに基づいて、画像データに重畳するグラフィクスのビットマップデータを発生する。

　ピクセルバッファ２３３は、グラフィクスデコーダ２３２で発生されるグラフィクスのビットマップデータを一時的に蓄積する。スケーラ２３４は、ピクセルバッファ２３３に蓄積されているグラフィクスのビットマップデータのサイズを、表示用画像データのサイズに対応するように調整する。重畳部２２２は、ビデオＲＡＭ２２０で記憶されている表示用画像データＶａ，Ｖｂに、スケーリング後のグラフィクスのビットマップデータを重畳して、最終的な表示用画像データを得る。

　コーデッドバッファ２４１は、デマルチプレクサ２１４で抽出されるオーディオストリームを一時的に蓄積する。オーディオデコーダ２４２は、上述の送信データ生成部１１０のオーディオエンコーダ１１６（図１６参照）とは逆の処理を行う。すなわち、オーディオデコーダ２４２は、コーデッドバッファ２４１に記憶されているオーディオスストリームの復号化処理を行って、復号化された音声データを得る。チャネルミキシング部２４３は、オーディオデコーダ２４２で得られる音声データに対して、例えば５．１chサラウンド等を実現するための各チャネルの音声データを得る。

　なお、基本ストリームデコーデッドバッファ２１７および拡張ビデオストリームデコーデッドバッファ２１８からの画像データの読み出しと、ピクセルバッファ２３３からのグラフィクスのビットマップデータの読み出しとは、ＰＴＳに基づいて行われ、転送同期が取られる。

　受信機２００の動作を説明する。最初に、第１の送信モードにある場合について説明する。アンテナ端子２１１に入力されたテレビ放送信号はデジタルチューナ２１２に供給される。このデジタルチューナ２１２では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のトランスポートストリームＴＳが出力される。このトランスポートストリームＴＳは、ＴＳバッファ２１３に一時的に蓄積される。

　このトランスポートストリームＴＳには、１つまたは複数のビデオエレメンタリストリームと、グラフィクスエレメンタリストリームと、オーディオエレメンタリストリームが含まれている。そして、この１つまたは複数のビデオエレメンタリストリームには、基本ビデオストリームと、所定数の拡張ビデオストリームが挿入されている。

　デマルチプレクサ２１４では、ＴＳバッファ２１３に一時的に蓄積されたトランスポートストリームＴＳから、ビデオ、グラフィクスおよびオーディオの各エレメンタリストリームが抽出される。また、デマルチプレクサ２１４では、このトランスポートストリームＴＳから、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）と、マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）とが抽出され、ＣＰＵ２０１に送られる。ＣＰＵ２０１では、これらのデスクリプタに含まれる情報に基づいて、受信機２００におけるデコード等の処理を制御することが行われる。

　デマルチプレクサ２１４で抽出される１つまたは複数のビデオエレメンタリストリームは、コーデッドバッファ２１５に供給されて一時的に蓄積される。ビデオデコーダ２１６では、ＣＰＵ２０１の制御のもと、コーデッドバッファ２１５に記憶されているビデオエレメンタリストリームに挿入されている１つまたは複数のビデオストリーム（サブストリーム）が取り出されてデコードされる。

　この場合、基本ビデオストリームと、所定数の拡張ビデオストリームが取り出されてデコードされる。基本ビデオストリームがデコードされることで、スケーラブル符号化画像データを構成する最下位階層の画像データ（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）が得られる。また、所定数の拡張ビデオストリームがそれぞれデコードされることでスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データが得られる。

　また、ビデオデコーダ２１６では、基本ビデオストリームに挿入されているＳＥＩメッセージ（Enhancement scalability SEI message）が抽出され、ＣＰＵ２０１に送られる。ＣＰＵ２０１では、上述のスケーラブル・エンハンスメント・デスクリプタの存在の他に、このＳＥＩメッセージ内のモード情報により、第１の送信モードにあるか第２の送信モードにあるかが識別される。そして、この場合においては第１の送信モードであることが識別され、この第１の送信モードに応じた処理が行われるように受信機２００の各部を制御することが行われる。

　ビデオデコーダ２１６で得られたスケーラブル符号化画像データを構成する最下位階層の画像データは、基本ストリームデコーデッドバッファ２１７に一時的に蓄積される。また、ビデオデコーダ２１６で得られたスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データは、拡張ストリームデコーデッドバッファ２１８に一時的に蓄積される。

　合成処理部２１９では、基本ストリームデコーデッドバッファ２１７に記憶されている最下位階層の画像データと、拡張ストリームデコーデッドバッファ２１８に記憶されている最下位階層以外の階層の画像データとの合成処理が行われる。そして、この合成処理部２１９では、超高解像度画像の表示用画像データＶａが生成される。この表示用画像データＶａは、ビデオＲＡＭ２２０に一時的に蓄積される。

　また、デマルチプレクサ２１４で抽出されるグラフィクスストリームは、コーデッドバッファ２３１に供給されて一時的に蓄積される。グラフィクスデコーダ２３２では、コーデッドバッファ２３１に記憶されているグラフィクスストリームの復号化処理が行われて、復号化されたグラフィクスデータ（サブタイトルデータを含む）が得られる。また、このグラフィクスデコーダ２３２では、このグラフィクスデータに基づいて、画像データに重畳するグラフィクスのビットマップデータが発生される。

　グラフィクスデコーダ２３２で発生されるグラフィクスのビットマップデータは、ピクセルバッファ２３３に供給されて一時的に蓄積される。スケーラ２３４では、ピクセルバッファ２３３に蓄積されているグラフィクスのビットマップデータのサイズが、表示用画像データＶａのサイズに対応するように調整される。重畳部２２２では、ビデオＲＡＭ２２０で記憶されている表示用画像データＶａに、スケーリング後のグラフィクスのビットマップデータが重畳されて、最終的な表示用画像データが得られる。この表示用画像データがディスプレイに供給されることで、空間的あるいは時間的な超高解像度画像の表示が行われる。

　また、デマルチプレクサ２１４で抽出されるオーディオストリームは、コーデッドバッファ２４１に供給されて一時的に蓄積される。オーディオデコーダ２４２では、コーデッドバッファ２４１に記憶されているオーディオストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部２４３に供給される。チャネルミキシング部２４３では、音声データに対して、例えば５．１chサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。

　次に、第２の送信モードにある場合について説明する。アンテナ端子２１１に入力されたテレビ放送信号はデジタルチューナ２１２に供給される。このデジタルチューナ２１２では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のトランスポートストリームＴＳが出力される。このトランスポートストリームＴＳは、ＴＳバッファ２１３に一時的に蓄積される。

　このトランスポートストリームＴＳには、１つのビデオエレメンタリストリームと、グラフィクスエレメンタリストリームと、オーディオエレメンタリストリームが含まれている。そして、この１つのビデオエレメンタリストリームには、基本ビデオストリームが挿入されている。

　デマルチプレクサ２１４では、ＴＳバッファ２１３に一時的に蓄積されたトランスポートストリームＴＳから、ビデオ、グラフィクスおよびオーディオの各エレメンタリストリームが抽出される。また、デマルチプレクサ２１４では、このトランスポートストリームＴＳから、マルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）が抽出され、ＣＰＵ２０１に送られる。ＣＰＵ２０１では、このデスクリプタに含まれる情報に基づいて、受信機２００におけるデコード等の処理を制御することが行われる。

　デマルチプレクサ２１４で抽出される１つのビデオエレメンタリストリームは、コーデッドバッファ２１５に供給されて一時的に蓄積される。ビデオデコーダ２１６では、ＣＰＵ２０１の制御のもと、コーデッドバッファ２１５に記憶されているビデオエレメンタリストリームに挿入されている基本ビデオストリーム（サブストリーム）が取り出されてデコードされる。このデコードにより、従来画像（例えば、ＨＤ解像度、２５ｆｐｓ、３０ｆｐｓ画像など）の画像データが得られる。この画像データは、基本ストリームデコーデッドバッファ２１７に一時的に蓄積される。

　また、ビデオデコーダ２１６では、基本ビデオストリームに挿入されているＳＥＩメッセージ（Enhancement scalability SEI message）が抽出され、ＣＰＵ２０１に送られる。ＣＰＵ２０１では、上述のスケーラブル・エンハンスメント・デスクリプタの非存在の他に、このＳＥＩメッセージ内のモード情報により、第１の送信モードにあるか第２の送信モードにあるかが識別される。そして、この場合においては第２の送信モードであることが識別され、この第２の送信モードに応じた処理が行われるように受信機２００の各部を制御することが行われる。

　解像度アップ処理部２２１では、基本ストリームデコーデッドバッファ２１７に記憶されている従来画像の画像データに対して、解像度アップ処理が行われ、上述の超高解像度画像の表示用画像データＶａの解像度と同等の解像度を持つ表示用画像データＶｂが生成される。ここで、空間解像度スケーラビリティの場合には空間解像度のアップ処理が行われ、時間解像度スケーラビリティの場合にはフレーム周波数のアップ処理が行われる。

　グラフィクスデコーダ２３２で発生されるグラフィクスのビットマップデータは、ピクセルバッファ２３３に供給されて一時的に蓄積される。スケーラ２３４では、ピクセルバッファ２３３に蓄積されているグラフィクスのビットマップデータのサイズが、表示用画像データＶｂのサイズに対応するように調整される。重畳部２２２では、ビデオＲＡＭ２２０で記憶されている表示用画像データＶｂに、スケーリング後のグラフィクスのビットマップデータが重畳されて、最終的な表示用画像データが得られる。この表示用画像データがディスプレイに供給されることで、従来画像に解像度アップ処理が施された画像の表示が行われる。

　なお、音声系の動作に関しては、第１の送信モードにある場合と同様であるので、その説明は省略する。

　［高精細番組と従来番組の切り替え時の受信処理の切り替え制御］
　ここで、受信機２００における高精細番組と従来番組の切り替え時における受信処理の切り替えについて説明する。ここで、高精細番組は第１の送信モードで送られてくるが、従来番組は第２の送信モードで送られてくる。

　図２９は、受信処理の切り替え制御の一例を示している。この例は、第１の送信モードにおいては、基本ビデオストリームと所定数の拡張ビデオストリームとが１つのビデオエレメンタリストリームに挿入されて供給されるものである。この場合、基本ビデオストリームには最下位階層（第１階層）の画像データ（ＨＤ画像データ）が含まれており、所定数の拡張ビデオストリームには最下位階層以外の階層（enhanced layer）の画像データが含まれている。なお、第２の送信モードにおいては、基本ビデオストリームが挿入された１つのビデオストリームが供給されるものである。

　トランスポートストリームＴＳのレイヤに挿入されているマルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）の「number_of_video_streams」は、高精細番組（第１の送信モード）の期間および従来番組（第２の送信モード）の期間の双方で“００１”とされ、いずれの期間でもビデオエレメンタリストリームの個数が１つであることが示される。

　また、高精細番組（第１の送信モード）でトランスポートストリームＴＳのレイヤに挿入されるスケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の「scalable_enhancement_type」は、“０１”とされ、空間解像度スケーラビリティあることが示される。また、このデスクリプタの「stream_delivery_type」は、“１”とされ、基本および拡張のビデオストリームが１つのビデオエレメンタリストリームで供給されることが示される。

　基本ストリームには、ＳＥＩメッセージ（Enhancement scalability SEI message）が挿入されている。高精細番組（第１の送信モード）の期間、このＳＥＩメッセージに含まれる「enhancement_scalability_type」は空間解像度スケーラビリティあることを示す“０１”であり、高精細番組（第１の送信モード）であることの識別も可能とされる。一方、従来番組（第２の送信モード）の期間、「enhancement_scalability_type」は“００”であり、従来番組（第２の送信モード）の期間であることが識別可能とされる。

　受信機２００における受信処理の切り替え制御は、例えば、以下のように行われる。従来番組（第２の送信モード）から高精細番組（第１の送信モード）への受信処理の切り替えの場合、まず、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の存在によりトランスポートストリームＴＳのレイヤで高精細番組（第２の送信モード）への切り替えが識別される。その後、基本ストリームに挿入されているＳＥＩメッセージ（Enhancement scalability SEI message）の「enhancement_scalability_type」が“０１”となってビデオレイヤで高精細番組（第２の送信モード）への切り替えが識別される。この識別タイミング（「Ｔａ」で図示）で、従来番組（第２の送信モード）から高精細番組（第１の送信モード）に受信処理が切り替えられる。

　一方、高精細番組（第１の送信モード）から従来番組（第２の送信モード）への受信処理の切り替えの場合、まず、スケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の非存在によりトランスポートストリームＴＳのレイヤで従来番組（第２の送信モード）への切り替えが識別される。その後、基本ストリームに挿入されているＳＥＩメッセージ（Enhancement scalability SEI message）の「enhancement_scalability_type」が“００”となってビデオレイヤで従来番組（第２の送信モード）への切り替えが識別される。この識別タイミング（「Ｔｂ」で図示）で、高精細番組（第１の送信モード）から従来番組（第２の送信モード）に受信処理が切り替えられる。

　図３０は、受信処理の切り替え制御の一例を示している。この例は、第１の送信モードにおいては、基本ビデオストリームと２つの拡張ビデオストリームとが３つのビデオエレメンタリストリームに挿入されて供給されるものである。この場合、基本ビデオストリームには最下位階層（第１階層）の画像データ（ＨＤ画像データ）が含まれている。また、第１の拡張ビデオストリームには第２階層の画像データ（高周波成分）が含まれており、第２の拡張ビデオストリームには第３階層の画像データ（高周波成分）が含まれている。なお、第２の送信モードにおいては、基本ビデオストリームが挿入された１つのビデオストリームが供給されるものである。

　トランスポートストリームＴＳのレイヤに挿入されているマルチプル・ストリーム・デスクリプタ（Multiple_stream_descriptor）の「number_of_video_streams」は、高精細番組（第１の送信モード）の期間では“０１１”とされ、ビデオエレメンタリストリームの個数が３つであることが示される。一方、この「number_of_video_streams」は、従来番組（第２の送信モード）の期間では“００１”とされ、ビデオエレメンタリストリームの個数が１つであることが示される。

　また、高精細番組（第１の送信モード）でトランスポートストリームＴＳのレイヤに挿入されるスケーラブル・エンハンスメント・デスクリプタ（Scalable_enhancement_descriptor）の「scalable_enhancement_type」は、“０１”とされ、空間解像度スケーラビリティあることが示される。また、このデスクリプタの「stream_delivery_type」は、“０”とされ、基本および拡張のデオストリームが複数のビデオエレメンタリストリームで供給されることが示される。

　詳細説明は、省略するが、この図３０に示す例においても、上述の図２９に示す例と同様に、トランスポートストリームＴＳのレイヤでの番組切り替えの識別と、その後のビデオレイヤでの番組切り替わり識別に基づいて、受信機２００における受信処理の切り替え制御が行われる。

　上述したように、図１に示す画像送受信システム１０においては、第１の送信モードでは、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよびスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信し、第２の送信モードでは、基本画像データを含む基本ビデオストリームのみを送信するものである。そして、第１のモードおよび第２のモードを識別するための識別情報（「ＥＨＦ」、「ＢＣＦ」）をビデオストリームに挿入するものである。

　そのため、受信側では、この識別情報に基づいて、第１の送信モードであるか第２の送信モードであるかを容易に把握でき、ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことが可能となる。つまり、従来画像の画像データと、空間的あるいは時間的な超高解像度画像の画像データ（スケーラブル符号化画像データ）とが時分割的に送信される場合に、受信側において、処理の切り替えを良好に行うことができる。

　＜２．変形例＞
　なお、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、ＭＰ４やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）、インターネット配信で使用されているＭＰ４などの種々のフォーマットのコンテナが該当する。

　また、本技術は、以下のような構成を取ることもできる。
　（１）１つまたは複数のビデオストリームを送信する送信部と、
　スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードと、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードとを識別するための識別情報を、上記ビデオストリームに挿入する識別情報挿入部とを備える
　送信装置。
　（２）上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、該第１の送信モードであることを示す識別情報を挿入し、上記第２の送信モードでは、上記ビデオストリームに、上記識別情報を挿入しない
　前記（１）に記載の送信装置。
　（３）上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、該第１の送信モードであることを示す識別情報を挿入し、上記第２の送信モードでは、上記ビデオストリームに、該第２の送信モードであることを示す識別情報を挿入する
　前記（１）に記載の送信装置。
　（４）上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、上記識別情報を挿入せず、上記第２の送信モードでは、上記ビデオストリームに、該第２の送信モードであることを示す識別情報を挿入する
　前記（１）に記載の送信装置。
　（５）上記識別情報挿入部は、
　上記基本ビデオストリームに、上記識別情報を、少なくとも、番組単位、シーン単位、ピクチャグループ単位、あるいはピクチャ単位で挿入する
　前記（１）から（４）のいずれかに記載の送信装置。
　（６）上記送信部は、
　上記第１の送信モードでは、上記基本ビデオストリームと上記所定数の拡張ビデオストリームを、１つまたは複数のビデオエレメンタリストリームに挿入して送信する
　前記（１）から（５）のいずれかに記載の送信装置。
　（７）上記基本ビデオストリームと上記所定数の拡張ビデオストリームを１つのビデオエレメンタリストリームに挿入して送信する場合、各ビデオストリームの間にストリーム境界を示す情報が配置される
　前記（６）に記載の送信装置。
　（８）上記識別情報には、上記第１の送信モードを示す場合、上記拡張ビデオストリームの個数を示す情報が含まれている
　前記（１）から（７）のいずれかに記載の送信装置。
　（９）上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が含まれている
　前記（１）から（８）のいずれかに記載の送信装置。
　（１０）上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張における上位階層との合成の際のスケーリング比の情報が含まれている
　前記（１）から（９）のいずれかに記載の送信装置。
　（１１）上記送信部は、上記１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、
　上記コンテナのレイヤに、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別するための識別情報を挿入する識別情報挿入部をさらに備える
　前記（１）から（１０）のいずれかに記載の送信装置。
　（１２）上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が付加されている
　前記（１１）に記載の送信装置。
　（１３）上記識別情報には、上記１つまたは複数のビデオストリームが１つのビデオエレメンタリストリームで供給されるか否かを示す情報が付加されている
　前記（１１）または（１２）に記載の送信装置。
　（１４）上記識別情報には、上記第１の送信モードを示す場合、上記拡張ビデオストリームの個数を示す情報が付加されている
　前記（１１）から（１３）のいずれかに記載の送信装置。
　（１５）上記送信部は、上記１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、
　上記コンテナのレイヤに、上記１つまたは複数のビデオストリームを挿入するビデオエレメンタリストリームの個数を識別するための識別情報を挿入する識別情報挿入部をさらに備える
　前記（１）から（１４）のいずれかに記載の送信装置。
　（１６）１つまたは複数のビデオストリームを送信するステップと、
　スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードと、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードとを識別するための識別情報を、上記基本ビデオストリームに挿入するステップとを備える
　送信方法。
　（１７）１つまたは複数のビデオストリームを受信する受信部と、
　上記ビデオストリームに挿入されている識別情報に基づいて、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードであるか、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードであるかを識別する送信モード識別部と、
　上記受信されたビデオストリームに対して、上記モード識別結果に基づき、各モードに応じた処理を行って、画像表示のための画像データを得る処理部とを備える
　受信装置。
　（１８）上記受信部は、上記ビデオストリームを含む所定フォーマットのコンテナを受信し、
　上記コンテナのレイヤには、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別するための識別情報が挿入されており、
　上記送信モード識別部は、上記コンテナのレイヤに挿入されている識別情報および上記ビデオストリームに挿入されている識別情報に基づいて、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別する
　前記（１７）に記載の受信装置。
　（１９）１つまたは複数のビデオストリームを受信するステップと、
　上記ビデオストリームに挿入されている識別情報に基づいて、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードであるか、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードであるかを識別するステップと、
　上記受信されたビデオストリームに対して、上記モード識別結果に基づき、各モードに応じた処理を行って、画像表示のための画像データを得るステップとを備える
　受信方法。

　本技術の主な特徴は、超高解像度画像（基本ストリームと拡張ストリーム）と従来画像（基本ストリーム）とを時分割的に送信する際に、ビデオストリームに送信モード識別情報（ＥＨＦ，ＢＣＦ）を挿入することで、受信側で，ストリーム構成の変化、つまり、配信内容の動的な変化に的確に対応でき、正しいストリーム受信を行うことを可能にしたことである（図１３参照）。

　１０・・・画像送受信システム
　１００・・・放送局
　１１０・・・送信データ生成部
　１１１・・・画像データ出力部
　１１２・・・ビデオエンコーダ
　１１３・・・グラフィクスデータ出力部
　１１４・・・グラフィクスエンコーダ
　１１５・・・音声データ出力部
　１１６・・・オーディオエンコーダ
　１１７・・・マルチプレクサ
　２００・・・受信機
　２０１・・・ＣＰＵ
　２１１・・・アンテナ端子
　２１２・・・デジタルチューナ
　２１３・・・トランスポートストリームバッファ（ＴＳバッファ）
　２１４・・・デマルチプレクサ
　２１５・・・コーデッドバッファ
　２１６・・・ビデオデコーダ
　２１７・・・基本ストリームデコーデッドバッファ
　２１８・・・拡張ストリームデコーデッドバッファ
　２１９・・・合成処理部
　２２０・・・ビデオＲＡＭ
　２２１・・・解像度アップ処理部
　２２２・・・重畳部
　２３１・・・コーデッドバッファ
　２３２・・・グラフィクスデコーダ
　２３３・・・ピクセルバッファ
　２３４・・・スケーラ
　２４１・・・コーデッドバッファ
　２４２・・・オーディオデコーダ
　２４３・・・チャネルミキシング部

Claims

　１つまたは複数のビデオストリームを送信する送信部と、
　スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードと、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードとを識別するための識別情報を、上記ビデオストリームに挿入する識別情報挿入部とを備える
　送信装置。
　上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、該第１の送信モードであることを示す識別情報を挿入し、上記第２の送信モードでは、上記ビデオストリームに、上記識別情報を挿入しない
　請求項１に記載の送信装置。
　上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、該第１の送信モードであることを示す識別情報を挿入し、上記第２の送信モードでは、上記ビデオストリームに、該第２の送信モードであることを示す識別情報を挿入する
　請求項１に記載の送信装置。
　上記識別情報挿入部は、
　上記第１の送信モードでは、上記ビデオストリームに、上記識別情報を挿入せず、上記第２の送信モードでは、上記ビデオストリームに、該第２の送信モードであることを示す識別情報を挿入する
　請求項１に記載の送信装置。
　上記識別情報挿入部は、
　上記基本ビデオストリームに、上記識別情報を、少なくとも、番組単位、シーン単位、ピクチャグループ単位、あるいはピクチャ単位で挿入する
　請求項１に記載の送信装置。
　上記送信部は、
　上記第１の送信モードでは、上記基本ビデオストリームと上記所定数の拡張ビデオストリームを、１つまたは複数のビデオエレメンタリストリームに挿入して送信する
　請求項１に記載の送信装置。
　上記基本ビデオストリームと上記所定数の拡張ビデオストリームを１つのビデオエレメンタリストリームに挿入して送信する場合、各ビデオストリームの間にストリーム境界を示す情報が配置される
　請求項６に記載の送信装置。
　上記識別情報には、上記第１の送信モードを示す場合、上記拡張ビデオストリームの個数を示す情報が含まれている
　請求項１に記載の送信装置。
　上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が含まれている
　請求項１に記載の送信装置。
　上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張における上位階層との合成の際のスケーリング比の情報が含まれている
　請求項１に記載の送信装置。
　上記送信部は、上記１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、
　上記コンテナのレイヤに、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別するための識別情報を挿入する識別情報挿入部をさらに備える
　請求項１に記載の送信装置。
　上記識別情報には、上記第１の送信モードを示す場合、スケーラビリティ拡張のタイプを示す情報が付加されている
　請求項１１に記載の送信装置。
　上記識別情報には、上記１つまたは複数のビデオストリームが１つのビデオエレメンタリストリームで供給されるか否かを示す情報が付加されている
　請求項１１に記載の送信装置。
　上記識別情報には、上記第１の送信モードを示す場合、上記拡張ビデオストリームの個数を示す情報が付加されている
　請求項１１に記載の送信装置。
　上記送信部は、上記１つまたは複数のビデオストリームを含む所定フォーマットのコンテナを送信し、
　上記コンテナのレイヤに、上記１つまたは複数のビデオストリームを挿入するビデオエレメンタリストリームの個数を識別するための識別情報を挿入する識別情報挿入部をさらに備える
　請求項１に記載の送信装置。
　１つまたは複数のビデオストリームを送信するステップと、
　スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードと、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードとを識別するための識別情報を、上記基本ビデオストリームに挿入するステップとを備える
　送信方法。
　１つまたは複数のビデオストリームを受信する受信部と、
　上記ビデオストリームに挿入されている識別情報に基づいて、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードであるか、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードであるかを識別する送信モード識別部と、
　上記受信されたビデオストリームに対して、上記モード識別結果に基づき、各モードに応じた処理を行って、画像表示のための画像データを得る処理部とを備える
　受信装置。
　上記受信部は、上記ビデオストリームを含む所定フォーマットのコンテナを受信し、
　上記コンテナのレイヤには、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別するための識別情報が挿入されており、
　上記送信モード識別部は、上記コンテナのレイヤに挿入されている識別情報および上記ビデオストリームに挿入されている識別情報に基づいて、上記第１の送信モードにあるか上記第２の送信モードにあるかを識別する
　請求項１７に記載の受信装置。
　１つまたは複数のビデオストリームを受信するステップと、
　上記ビデオストリームに挿入されている識別情報に基づいて、スケーラブル符号化画像データを構成する最下位階層の画像データを含む基本ビデオストリームおよび上記スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データをそれぞれ含む所定数の拡張ビデオストリームを送信する第１の送信モードであるか、基本画像データを含む基本ビデオストリームのみを送信する第２の送信モードであるかを識別するステップと、
　上記受信されたビデオストリームに対して、上記モード識別結果に基づき、各モードに応じた処理を行って、画像表示のための画像データを得るステップとを備える
　受信方法。