以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、オブジェクトオーディオに代表されるマルチチャンネル・オーディオの高音質化を行う場合に、メタデータ等を用いて、各オーディオ信号に対して行われる処理を差異化することで、少ない処理量でも高音質な信号を得ることができるようにするものである。
例えば本技術では、オーディオ信号ごとに、メタデータ等に基づいて、オーディオ信号に対して行われる高音質化処理が選択される。換言すれば、高音質化処理を施すオーディオ信号が選択される。
このようにすることで、全体として高音質化のための処理の処理量を低減させ、ポータブル端末等の処理能力の低いプラットフォームでも高音質な信号を得ることができる。
近年、オブジェクトオーディオに代表されるマルチチャンネル・オーディオの配信が計画されている。そのようなオーディオ配信では、例えばMPEG(Moving Picture Experts Group)-Hフォーマットを採用することができる。
例えば、MPEG-Hフォーマットの圧縮信号(オーディオ信号)に対する高音質化処理として、ダイナミックレンジ拡張処理や帯域拡張処理を行うことが考えられる。
ここで、ダイナミックレンジ拡張処理とは、オーディオ信号のダイナミックレンジ、すなわちオーディオ信号の1サンプルのサンプル値のビット数(量子化ビット数)を拡張する処理である。また、帯域拡張処理とは、オーディオ信号に対して、そのオーディオ信号には含まれていない高域成分を付加する処理である。
ところで、複数の全てのオーディオ信号に対して、処理負荷が高く、より音質が改善される高音質化処理を行うことは現実的ではない。
そこで本技術では、例えばオーディオ信号のメタデータ等に基づいて、重要なオーディオ信号に対しては処理負荷が高くてもより音質改善効果の高い高音質化処理を行い、重要度の低いオーディオ信号に対してはより処理負荷の低い高音質化処理を行うことで、より適切な音質改善を行うことができるようにした。すなわち、少ない処理量でも十分に高音質な信号を得ることができるようにした。
なお、高音質化の対象となるオーディオ信号は、どのようなものであってもよいが、以下では、所定のコンテンツを構成する複数のオーディオ信号が高音質化の対象とされるものとして説明を行う。
また、高音質化の対象のコンテンツを構成する複数のオーディオ信号には、RやLなどの各チャンネルのオーディオ信号と、ボーカル音声等の各オーディオオブジェクト(以下、単にオブジェクトと称する)のオーディオ信号とが含まれているものとする。
さらに、各オーディオ信号にはメタデータが付加されており、そのメタデータには種別情報と優先度情報が含まれているとする。また、オブジェクトのオーディオ信号のメタデータには、そのオブジェクトの位置を示す位置情報も含まれているものとする。
種別情報は、オーディオ信号の種別、すなわち、例えばLやRなどのオーディオ信号のチャンネル名や、ボーカル、ギターなどのオブジェクトの種別、より詳細にはオブジェクトの音源の種別を示す情報である。
優先度情報は、オーディオ信号の優先度(プライオリティ)を示す情報であり、ここでは1から10までの数値により優先度が表されているものとする。具体的には、優先度を表す数値が小さいほど、優先度が高いものとする。したがって、この例では優先度「1」が最も優先度が高く、優先度「10」が最も優先度が低くなっている。
さらに、以下において説明する例では、高音質化処理として高負荷高音質化処理、中負荷高音質化処理、および低負荷高音質化処理といった、互いに異なる3つの高音質化処理が予め用意されている。そして、メタデータに基づいて、それらの高音質化処理のなかからオーディオ信号に対して施される高音質化処理が選択される。
高負荷高音質化処理は、3つの高音質化処理のなかで最も処理負荷が高いが、最も音質改善効果が高い高音質化処理であり、特に優先度が高いオーディオ信号や重要な種別のオーディオ信号に対する高音質化の処理として有用である。
高負荷高音質化処理の具体的な例としては、例えば予め機械学習により得られたDNN(Deep Neural Network)等に基づくダイナミックレンジ拡張処理や帯域拡張処理を組み合わせて行うことが考えられる。
低負荷高音質化処理とは、3つの高音質化処理のなかで最も処理負荷が低く、最も音質改善効果も低い高音質化処理であり、特に優先度や種別の重要度が低いオーディオ信号に対する高音質化の処理として有用である。
低負荷高音質化処理の具体的な例としては、例えば予め定められた係数や符号化側で指定された係数を用いた帯域拡張処理、オーディオ信号に対してホワイトノイズ等の信号を高域成分として付加する簡易的な帯域拡張処理、予め定められた係数を用いたフィルタリングによるダイナミックレンジ拡張処理などの極めて低負荷な処理を組み合わせて行うことが考えられる。
中負荷高音質化処理とは、3つの高音質化処理のなかで2番目に処理負荷が高く、音質改善効果も2番目に高い高音質化処理であり、特に優先度や種別の重要度が中程度であるオーディオ信号に対する高音質化の処理として有用である。
中負荷高音質化処理の具体的な例としては、例えば線形予測により高域成分を生成する帯域拡張処理や、予め定められた係数を用いたフィルタリングによるダイナミックレンジ拡張処理などを組み合わせて行うことが考えられる。
なお、以下では互いに異なる高音質化処理として3つの処理がある例について説明するが、互いに異なる高音質化処理は2以上の任意の数であってもよい。また、高音質化処理は、ダイナミックレンジ拡張処理や帯域拡張処理に限らず、他の処理であってもよいし、ダイナミックレンジ拡張処理と帯域拡張処理の何れか一方のみが行われてもよい。
ここで、具体的な例について説明する。例えば、高音質化の対象となるオーディオ信号として、8個のオブジェクトOB1乃至オブジェクトOB7のオーディオ信号があるとする。
また、各オブジェクトの種別と優先度を(種別,優先度)と記すこととする。
いま、オブジェクトOB1乃至オブジェクトOB7の各オブジェクトのメタデータにより表される種別および優先度が、それぞれ(ボーカル,1)、(ドラム,1)、(ギター,2)、(ベース,3)、(リバーブ,9)、(オーディエンス,10)、および(環境音,10)であるとする。
このとき、例えば一般的な処理能力を有するプラットフォームにおいては、優先度が最も高い「1」であるオブジェクトOB1およびオブジェクトOB2のオーディオ信号に対しては高負荷高音質化処理が行われる。また、優先度が「2」または「3」であるオブジェクトOB3およびオブジェクトOB4のオーディオ信号に対しては中負荷高音質化処理が行われ、それ以外の優先度の低いオブジェクトOB5乃至オブジェクトOB7のオーディオ信号に対しては低負荷高音質化処理が行われる。
これに対して、処理能力が高く、より多くの処理を音質改善に行うことができる再生機器(プラットフォーム)においては、前述の例よりも、より多くのオブジェクトのオーディオ信号に対して高負荷高音質化処理が行われる。
例えばオブジェクトOB1乃至オブジェクトOB7の各オブジェクトのメタデータにより表される種別および優先度が、それぞれ(ボーカル,1)、(ドラム,2)、(ギター,2)、(ベース,3)、(リバーブ,9)、(オーディエンス,10)、および(環境音,10)であるとする。
このとき、優先度が高い「1」または「2」のオブジェクトOB1乃至オブジェクトOB3のオーディオ信号に対しては高負荷高音質化処理が行われ、優先度が「3」乃至「9」までのオブジェクトOB4およびオブジェクトOB5のオーディオ信号に対しては中負荷高音質化処理が行われる。そして、優先度が最も低い「10」であるオブジェクトOB6およびオブジェクトOB7のオーディオ信号に対してのみ低負荷高音質化処理が行われる。
また、一般的な処理能力よりも低い処理能力を有するプラットフォームにおいては、前述の2つの例よりも高負荷高音質化処理が行われるオーディオ信号は少なくされ、より効率よく高音質化が行われる。
例えばオブジェクトOB1乃至オブジェクトOB7の各オブジェクトのメタデータにより表される種別および優先度が、それぞれ(ボーカル,1)、(ドラム,2)、(ギター,2)、(ベース,3)、(リバーブ,9)、(オーディエンス,10)、および(環境音,10)であるとする。
このとき、優先度が最も高い「1」のオブジェクトOB1のオーディオ信号に対してのみ高負荷高音質化処理が行われ、優先度が「2」のオブジェクトOB2およびオブジェクトOB3のオーディオ信号に対して中負荷高音質化処理が行われる。そして、優先度が「3」以下であるオブジェクトOB4乃至オブジェクトOB7のオーディオ信号に対して低負荷高音質化処理が行われる。
以上のように、本技術ではメタデータに含まれている優先度情報と種別情報の少なくとも何れか一方に基づいて、各オーディオ信号に対して行われる高音質化処理が選択される。このようにすることで、例えば再生機器(プラットフォーム)の処理能力に合わせて、実行される高音質化時の全体の処理負荷を設定することができ、どのような再生機器でも高音質化、すなわち音質改善を行うことができる。
〈信号処理装置の構成例〉
次に、以上において説明した本技術のより具体的な実施の形態について説明する。
図1は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
図1に示す信号処理装置11は、例えばスマートホンやポータブルプレーヤ、サウンドアンプ、パーソナルコンピュータ、タブレットなどからなる。
信号処理装置11は、復号部21、オーディオ選択部22、高音質化処理部23、レンダラ24、および再生信号生成部25を有している。
復号部21には、例えば複数のオーディオ信号や、それらのオーディオ信号のメタデータを符号化して得られた符号化データが供給される。例えば符号化データは、MPEG-H等の所定の符号化フォーマットのビットストリームなどとされる。
復号部21は、供給された符号化データに対する復号処理を行い、その結果得られた各オーディオ信号と、それらのオーディオ信号のメタデータとをオーディオ選択部22に供給する。
オーディオ選択部22は、復号部21から供給された複数のオーディオ信号ごとに、復号部21から供給されたメタデータに基づいて、オーディオ信号に対して行う高音質化処理を選択し、その選択結果に応じてオーディオ信号を高音質化処理部23に供給する。
換言すればオーディオ選択部22は、復号部21から複数のオーディオ信号の供給を受けるとともに、メタデータに基づいて、高負荷高音質化処理等の高音質化処理を施すオーディオ信号を選択する。
オーディオ選択部22は、選択部31-1乃至選択部31-mを有しており、それらの各選択部31-1乃至選択部31-mには、1つのオーディオ信号と、そのオーディオ信号のメタデータが供給される。
特に、この例では符号化データには、高音質化の対象となるオーディオ信号として、n個の各オブジェクトのオーディオ信号と、(m-n)個の各チャンネルのオーディオ信号とが含まれている。そして、選択部31-1乃至選択部31-nにはオブジェクトのオーディオ信号とそのメタデータが供給され、選択部31-(n+1)乃至選択部31-mにはチャンネルのオーディオ信号とそのメタデータが供給される。
選択部31-1乃至選択部31-mは、復号部21から供給されたメタデータに基づいて、復号部21から供給されたオーディオ信号に対して行う高音質化処理、すなわちオーディオ信号の出力先のブロックを選択し、その選択結果に応じた高音質化処理部23のブロックにオーディオ信号を供給する。
また、選択部31-1乃至選択部31-nは、復号部21から供給されたオブジェクトのオーディオ信号のメタデータを、高音質化処理部23を介してレンダラ24に供給する。
なお、以下、選択部31-1乃至選択部31-mを特に区別する必要のない場合、単に選択部31とも称することとする。
高音質化処理部23は、オーディオ選択部22から供給された各オーディオ信号に対して、予め定められた3種類の高音質化処理のうちの何れかを施し、その結果得られたオーディオ信号を高音質化信号として出力する。ここでいう3種類の高音質化処理とは、上述した高負荷高音質化処理、中負荷高音質化処理、および低負荷高音質化処理である。
高音質化処理部23は、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-m、中負荷高音質化処理部33-1乃至中負荷高音質化処理部33-m、および低負荷高音質化処理部34-1乃至低負荷高音質化処理部34-mを有している。
高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-mは、選択部31-1乃至選択部31-mからオーディオ信号が供給された場合、供給されたオーディオ信号に対して高負荷高音質化処理を行い、高音質化信号を生成する。
高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-nは、高負荷高音質化処理により得られた各オブジェクトの高音質化信号をレンダラ24に供給する。
また、高負荷高音質化処理部32-(n+1)乃至高負荷高音質化処理部32-mは、高負荷高音質化処理により得られた各チャンネルの高音質化信号を再生信号生成部25に供給する。
なお、以下、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-mを特に区別する必要のない場合、単に高負荷高音質化処理部32とも称することとする。
中負荷高音質化処理部33-1乃至中負荷高音質化処理部33-mは、選択部31-1乃至選択部31-mからオーディオ信号が供給された場合、供給されたオーディオ信号に対して中負荷高音質化処理を行い、高音質化信号を生成する。
中負荷高音質化処理部33-1乃至中負荷高音質化処理部33-nは、中負荷高音質化処理により得られた各オブジェクトの高音質化信号をレンダラ24に供給する。
また、中負荷高音質化処理部33-(n+1)乃至中負荷高音質化処理部33-mは、中負荷高音質化処理により得られた各チャンネルの高音質化信号を再生信号生成部25に供給する。
なお、以下、中負荷高音質化処理部33-1乃至中負荷高音質化処理部33-mを特に区別する必要のない場合、単に中負荷高音質化処理部33とも称することとする。
低負荷高音質化処理部34-1乃至低負荷高音質化処理部34-mは、選択部31-1乃至選択部31-mからオーディオ信号が供給された場合、供給されたオーディオ信号に対して低負荷高音質化処理を行い、高音質化信号を生成する。
低負荷高音質化処理部34-1乃至低負荷高音質化処理部34-nは、低負荷高音質化処理により得られた各オブジェクトの高音質化信号をレンダラ24に供給する。
また、低負荷高音質化処理部34-(n+1)乃至低負荷高音質化処理部34-mは、低負荷高音質化処理により得られた各チャンネルの高音質化信号を再生信号生成部25に供給する。
なお、以下、低負荷高音質化処理部34-1乃至低負荷高音質化処理部34-mを特に区別する必要のない場合、単に低負荷高音質化処理部34とも称することとする。
レンダラ24は、高音質化処理部23から供給されたメタデータに基づいて、高負荷高音質化処理部32や中負荷高音質化処理部33、低負荷高音質化処理部34から供給された各オブジェクトの高音質化信号に対して、後段のスピーカ等の再生機器に合わせたレンダリング処理を行う。
例えばレンダラ24では、レンダリング処理としてVBAP(Vector Based Amplitude Panning)が行われ、各オブジェクトの音が、それらのオブジェクトのメタデータに含まれている位置情報により示される位置に定位するオブジェクト再生信号が得られる。このオブジェクト再生信号は、(m-n)個の各チャンネルのオーディオ信号からなる、マルチチャンネルのオーディオ信号である。
レンダラ24は、レンダリング処理により得られたオブジェクト再生信号を再生信号生成部25に供給する。
再生信号生成部25は、レンダラ24から供給されたオブジェクト再生信号と、高負荷高音質化処理部32や中負荷高音質化処理部33、低負荷高音質化処理部34から供給された各チャンネルの高音質化信号とを合成する合成処理を行う。
例えば合成処理では、同じチャンネルのオブジェクト再生信号と高音質化信号が加算(合成)され、(m-n)チャンネルの再生信号が生成される。この再生信号を(m-n)個のスピーカにより再生すると、各チャンネルの音や各オブジェクトの音、すなわちコンテンツの音が再生される。
再生信号生成部25は、合成処理により得られた再生信号を後段に出力する。
〈高音質化処理部の構成例〉
続いて、高負荷高音質化処理部32、中負荷高音質化処理部33、および低負荷高音質化処理部34の構成例について説明する。
例えば、それらの高負荷高音質化処理部32、中負荷高音質化処理部33、および低負荷高音質化処理部34は、図2に示すように構成される。なお、図2では、高負荷高音質化処理部32乃至低負荷高音質化処理部34の後段にレンダラ24が設けられている例が示されている。
図2に示す例では、高負荷高音質化処理部32は、ダイナミックレンジ拡張部61および帯域拡張部62を有している。
ダイナミックレンジ拡張部61は、選択部31から供給されたオーディオ信号に対して、予め機械学習されたDNNに基づくダイナミックレンジ拡張処理を行い、その結果得られたオーディオ信号を帯域拡張部62に供給する。
帯域拡張部62は、ダイナミックレンジ拡張部61から供給されたオーディオ信号に対して、予め機械学習されたDNNに基づく帯域拡張処理を行い、その結果得られた高音質化信号をレンダラ24に供給する。
中負荷高音質化処理部33は、ダイナミックレンジ拡張部71および帯域拡張部72を有している。
ダイナミックレンジ拡張部71は、選択部31から供給されたオーディオ信号に対して、多段のオールパスフィルタによるダイナミックレンジ拡張処理を行い、その結果得られたオーディオ信号を帯域拡張部72に供給する。
帯域拡張部72は、ダイナミックレンジ拡張部71から供給されたオーディオ信号に対して、線形予測を利用した帯域拡張処理を行い、その結果得られた高音質化信号をレンダラ24に供給する。
さらに、低負荷高音質化処理部34は、ダイナミックレンジ拡張部81および帯域拡張部82を有している。
ダイナミックレンジ拡張部81は、選択部31から供給されたオーディオ信号に対して、ダイナミックレンジ拡張部71における場合と同様のダイナミックレンジ拡張処理を行い、その結果得られたオーディオ信号を帯域拡張部82に供給する。
帯域拡張部82は、ダイナミックレンジ拡張部81から供給されたオーディオ信号に対して、符号化側で指定された係数を用いた帯域拡張処理を行い、その結果得られた高音質化信号をレンダラ24に供給する。
〈ダイナミックレンジ拡張部の構成例〉
さらに、以下、図2に示したダイナミックレンジ拡張部61や帯域拡張部62などの構成例について説明する。
図3は、ダイナミックレンジ拡張部61のより詳細な構成例を示す図である。
図3に示すダイナミックレンジ拡張部61は、FFT(Fast Fourier Transform)処理部111、ゲイン算出部112、差分信号生成部113、IFFT(Inverse Fast Fourier Transform)処理部114、および合成部115を有している。
ダイナミックレンジ拡張部61では、復号部21での復号により得られたオーディオ信号と、そのオーディオ信号の符号化前の原音信号との差分である差分信号がDNNを用いた予測演算により予測され、その差分信号とオーディオ信号とが合成される。このようにすることで、より原音信号に近い高音質なオーディオ信号を得ることができる。
FFT処理部111は、選択部31から供給されたオーディオ信号に対してFFTを行い、その結果得られた信号をゲイン算出部112および差分信号生成部113に供給する。
ゲイン算出部112は、予め機械学習により得られたDNNにより構成される。すなわち、ゲイン算出部112は予め機械学習により得られた、DNNでの演算に用いられる予測係数を保持しており、差分信号の周波数特性のエンベロープを予測する予測器として機能する。
ゲイン算出部112は、保持している予測係数、およびFFT処理部111から供給された信号に基づいて、オーディオ信号に対応する差分信号を生成するためのパラメータとしてのゲイン値を算出し、差分信号生成部113に供給する。すなわち、差分信号を生成するためのパラメータとして、差分信号の周波数エンベロープのゲインが算出される。
差分信号生成部113は、FFT処理部111から供給された信号と、ゲイン算出部112から供給されたゲイン値とに基づいて差分信号を生成し、IFFT処理部114に供給する。IFFT処理部114は、差分信号生成部113から供給された差分信号に対してIFFTを行い、その結果得られた時間領域の差分信号を合成部115に供給する。
合成部115は、選択部31から供給されたオーディオ信号と、IFFT処理部114から供給された差分信号とを合成し、その結果得られたオーディオ信号を帯域拡張部62に供給する。
〈帯域拡張部の構成例〉
また、図2に示した帯域拡張部62は、例えば図4に示すように構成される。
図4に示す帯域拡張部62は、ポリフェーズ構成低域通過フィルタ141、遅延回路142、低域抽出帯域通過フィルタ143、特徴量算出回路144、高域サブバンドパワー推定回路145、帯域通過フィルタ算出回路146、加算部147、高域通過フィルタ148、平坦化回路149、ダウンサンプリング部150、ポリフェーズ構成レベル調整フィルタ151、および加算部152を有している。
ポリフェーズ構成低域通過フィルタ141は、ダイナミックレンジ拡張部61の合成部115から供給されたオーディオ信号に対して、ポリフェーズ構成の低域通過フィルタによりフィルタリングを行い、その結果得られた低域信号を遅延回路142に供給する。
ポリフェーズ構成低域通過フィルタ141では、ポリフェーズ構成の低域通過フィルタによるフィルタリングによって、信号のアップサンプリングおよび低域成分の抽出が行われ、低域信号が得られる。
遅延回路142は、ポリフェーズ構成低域通過フィルタ141から供給された低域信号を一定の遅延時間だけ遅延させて加算部152に供給する。
低域抽出帯域通過フィルタ143は、それぞれ異なる通過帯域を持つ帯域通過フィルタ161-1乃至帯域通過フィルタ161-Kから構成される。
帯域通過フィルタ161-k(但し、1≦k≦K)は、合成部115から供給されたオーディオ信号のうちの低域側の所定通過帯域であるサブバンドの信号を通過させ、その結果得られた所定帯域の信号を低域サブバンド信号として特徴量算出回路144および平坦化回路149に供給する。したがって、低域抽出帯域通過フィルタ143では、低域に含まれるK個のサブバンドの低域サブバンド信号が得られることになる。
なお、以下、帯域通過フィルタ161-1乃至帯域通過フィルタ161-Kを特に区別する必要のない場合、単に帯域通過フィルタ161とも称する。
特徴量算出回路144は、帯域通過フィルタ161から供給された複数の各低域サブバンド信号、または合成部115から供給されたオーディオ信号に基づいて特徴量を算出し、高域サブバンドパワー推定回路145に供給する。
高域サブバンドパワー推定回路145は、予め機械学習により得られたDNNにより構成される。すなわち、高域サブバンドパワー推定回路145は予め機械学習により得られた、DNNでの演算に用いられる予測係数を保持している。
高域サブバンドパワー推定回路145は、保持している予測係数と、特徴量算出回路144から供給された特徴量とに基づいて、高域サブバンド信号のパワーである高域サブバンドパワーの推定値を高域のサブバンドごとに算出し、帯域通過フィルタ算出回路146に供給する。以下、高域サブバンドパワーの推定値を疑似高域サブバンドパワーとも称することとする。
帯域通過フィルタ算出回路146は、高域サブバンドパワー推定回路145から供給された複数の各高域サブバンドの疑似高域サブバンドパワーに基づいて、高域サブバンドのそれぞれの帯域を通過帯域とする帯域通過フィルタの帯域通過フィルタ係数を算出し、加算部147に供給する。
加算部147は、帯域通過フィルタ算出回路146から供給された帯域通過フィルタ係数を加算して1つのフィルタ係数とし、高域通過フィルタ148に供給する。
高域通過フィルタ148は、加算部147から供給されたフィルタ係数を、高域通過フィルタを用いてフィルタリングすることでフィルタ係数から低域成分を除去し、その結果得られたフィルタ係数をポリフェーズ構成レベル調整フィルタ151に供給する。すなわち、高域通過フィルタ148は、フィルタ係数の高域成分のみを通過させる。
平坦化回路149は、帯域通過フィルタ161から供給された複数の各低域サブバンドの低域サブバンド信号を平坦化して加算することで平坦化信号を生成し、ダウンサンプリング部150に供給する。
ダウンサンプリング部150は、平坦化回路149から供給された平坦化信号に対してダウンサンプリングを行い、ダウンサンプリングされた平坦化信号をポリフェーズ構成レベル調整フィルタ151に供給する。
ポリフェーズ構成レベル調整フィルタ151は、ダウンサンプリング部150から供給された平坦化信号に対して、高域通過フィルタ148から供給されたフィルタ係数を用いたフィルタリングを行うことで高域信号を生成し、加算部152に供給する。
加算部152は、遅延回路142から供給された低域信号と、ポリフェーズ構成レベル調整フィルタ151から供給された高域信号とを加算して高音質化信号とし、レンダラ24または再生信号生成部25に供給する。
ポリフェーズ構成レベル調整フィルタ151で得られる高域信号は、もとのオーディオ信号には含まれていない高域成分の信号、すなわち、例えばオーディオ信号の符号化時に欠落してしまった高域成分の信号である。したがって、このような高域信号を、もとのオーディオ信号の低域成分である低域信号に合成することで、より広い周波数帯域の成分が含まれる信号、すなわち、より高音質な高音質化信号を得ることができる。
〈ダイナミックレンジ拡張部の構成例〉
また、図2に示した中負荷高音質化処理部33のダイナミックレンジ拡張部71は、例えば図5に示すように構成される。
図5に示すダイナミックレンジ拡張部71は、オールパスフィルタ191-1乃至オールパスフィルタ191-3、ゲイン調整部192、および加算部193を有している。この例では、3つのオールパスフィルタ191-1乃至オールパスフィルタ191-3がカスケード接続されている。
オールパスフィルタ191-1は、選択部31から供給されたオーディオ信号に対してフィルタリングを行い、その結果得られたオーディオ信号を後段のオールパスフィルタ191-2に供給する。
オールパスフィルタ191-2は、オールパスフィルタ191-1から供給されたオーディオ信号に対してフィルタリングを行い、その結果得られたオーディオ信号を後段のオールパスフィルタ191-3に供給する。
オールパスフィルタ191-3は、オールパスフィルタ191-2から供給されたオーディオ信号に対してフィルタリングを行い、その結果得られたオーディオ信号をゲイン調整部192に供給する。
なお、以下、オールパスフィルタ191-1乃至オールパスフィルタ191-3を特に区別する必要のない場合、単にオールパスフィルタ191とも称することとする。
ゲイン調整部192は、オールパスフィルタ191-3から供給されたオーディオ信号に対してゲイン調整を行い、ゲイン調整後のオーディオ信号を加算部193に供給する。
加算部193は、ゲイン調整部192から供給されたオーディオ信号と、選択部31から供給されたオーディオ信号とを加算することで、高音質化された、すなわちダイナミックレンジが拡張されたオーディオ信号を生成し、帯域拡張部72に供給する。
ダイナミックレンジ拡張部71において行われる処理は、フィルタリングやゲイン調整であるので、図3に示したダイナミックレンジ拡張部61で行われるようなDNNでの演算処理よりも少ない(低い)処理負荷で実現することができる。
〈帯域拡張部の構成例〉
さらに、図2に示した帯域拡張部72は、例えば図6に示すように構成される。
図6に示す帯域拡張部72は、ポリフェーズ構成低域通過フィルタ221、遅延回路222、低域抽出帯域通過フィルタ223、特徴量算出回路224、高域サブバンドパワー推定回路225、帯域通過フィルタ算出回路226、加算部227、高域通過フィルタ228、平坦化回路229、ダウンサンプリング部230、ポリフェーズ構成レベル調整フィルタ231、および加算部232を有している。
また、低域抽出帯域通過フィルタ223は、帯域通過フィルタ241-1乃至帯域通過フィルタ241-Kを有している。
なお、ポリフェーズ構成低域通過フィルタ221乃至特徴量算出回路224、および帯域通過フィルタ算出回路226乃至加算部232は、図4に示した帯域拡張部62のポリフェーズ構成低域通過フィルタ141乃至特徴量算出回路144、および帯域通過フィルタ算出回路146乃至加算部152と同じ構成を有し、同じ動作を行うので、その説明は省略する。
また、帯域通過フィルタ241-1乃至帯域通過フィルタ241-Kも、図4に示した帯域拡張部62の帯域通過フィルタ161-1乃至帯域通過フィルタ161-Kと同じ構成を有し、同じ動作を行うので、その説明は省略する。
なお、以下、帯域通過フィルタ241-1乃至帯域通過フィルタ241-Kを特に区別する必要のない場合、単に帯域通過フィルタ241とも称する。
図6に示す帯域拡張部72は、図4に示した帯域拡張部62とは高域サブバンドパワー推定回路225における動作のみ異なっており、その他の点では帯域拡張部62と同じ構成および動作となっている。
高域サブバンドパワー推定回路225は、予め統計学習により得られた係数を保持しており、保持している係数と、特徴量算出回路224から供給された特徴量とに基づいて疑似高域サブバンドパワーを算出し、帯域通過フィルタ算出回路226に供給する。例えば高域サブバンドパワー推定回路225では、保持している係数を用いた線形予測により、高域成分、より詳細には疑似高域サブバンドパワーが算出される。
高域サブバンドパワー推定回路225での線形予測は、高域サブバンドパワー推定回路145におけるDNNでの演算による予測と比較して、より少ない処理負荷で実現することができる。
〈帯域拡張部の構成例〉
また、図2に示した低負荷高音質化処理部34のダイナミックレンジ拡張部81は、例えば図5に示したダイナミックレンジ拡張部71と同じ構成とされる。なお、低負荷高音質化処理部34では、特にダイナミックレンジ拡張部81が設けられないようにしてもよい。
さらに、図2に示した低負荷高音質化処理部34の帯域拡張部82は、例えば図7に示すように構成される。
図7に示す帯域拡張部82は、サブバンド分割回路271、特徴量算出回路272、高域復号回路273、復号高域サブバンドパワー算出回路274、復号高域信号生成回路275、および合成回路276を有している。
なお、帯域拡張部82が図7に示す構成とされる場合には、復号部21に供給される符号化データには、高域符号化データが含まれており、その高域符号化データが高域復号回路273に供給される。高域符号化データは、後述する高域サブバンドパワー推定係数を得るためのインデックスを符号化して得られるデータである。
サブバンド分割回路271は、ダイナミックレンジ拡張部81から供給されたオーディオ信号を、所定の帯域幅を持つ複数の低域サブバンド信号に等分割し、特徴量算出回路272および復号高域信号生成回路275に供給する。
特徴量算出回路272は、サブバンド分割回路271から供給された低域サブバンド信号に基づいて特徴量を算出し、復号高域サブバンドパワー算出回路274に供給する。
高域復号回路273は、供給された高域符号化データを復号し、その結果得られたインデックスに対応する高域サブバンドパワー推定係数を復号高域サブバンドパワー算出回路274に供給する。
高域復号回路273では、複数のインデックスごとに、それらのインデックスに対応付けられて高域サブバンドパワー推定係数が記録されている。
この場合、オーディオ信号の符号化側において、帯域拡張部82での帯域拡張処理に最も適した高域サブバンドパワー推定係数を示すインデックスが選択され、選択されたインデックスが符号化される。そして、符号化により得られた高域符号化データがビットストリームに格納されて信号処理装置11へと供給される。
したがって、高域復号回路273は、予め記録している複数の高域サブバンドパワー推定係数のなかから、高域符号化データの復号により得られたインデックスにより示されるものを選択し、復号高域サブバンドパワー算出回路274に供給する。
復号高域サブバンドパワー算出回路274は、特徴量算出回路272から供給された特徴量と、高域復号回路273から供給された高域サブバンドパワー推定係数とに基づいて、高域サブバンドパワーを算出し、復号高域信号生成回路275に供給する。
復号高域信号生成回路275は、サブバンド分割回路271から供給された低域サブバンド信号と、復号高域サブバンドパワー算出回路274から供給された高域サブバンドパワーとに基づいて高域信号を生成し、合成回路276に供給する。
合成回路276は、ダイナミックレンジ拡張部81から供給されたオーディオ信号と、復号高域信号生成回路275から供給された高域信号とを合成し、その結果得られた高音質化信号をレンダラ24または再生信号生成部25に供給する。
復号高域信号生成回路275で得られる高域信号は、もとのオーディオ信号には含まれていない高域成分の信号である。したがって、このような高域信号を、もとのオーディオ信号に合成することで、より広い周波数帯域の成分が含まれる、より高音質な高音質化信号を得ることができる。
以上のような帯域拡張部82による帯域拡張処理では、供給されたインデックスにより示される高域サブバンドパワー推定係数を用いて高域信号を予測しているので、図6に示した帯域拡張部72における場合よりも、さらに少ない処理負荷で実現することができる。
〈再生信号生成処理の説明〉
次に、信号処理装置11の動作について説明する。
すなわち、以下、図8のフローチャートを参照して、信号処理装置11による再生信号生成処理について説明する。この再生信号生成処理は、復号部21が供給された符号化データを復号し、復号により得られたオーディオ信号およびメタデータを選択部31に供給すると開始される。
ステップS11において選択部31は、復号部21から供給されたメタデータに基づいて、復号部21から供給されたオーディオ信号に対して行う高音質化の処理を選択する。
すなわち、例えば選択部31は、供給されたメタデータに含まれている優先度情報および種別情報に基づいて、高負荷高音質化処理、中負荷高音質化処理、および低負荷高音質化処理のうちの何れかの処理を高音質化の処理として選択する。
具体的には、例えばステップS11では、優先度情報により示される優先度が所定値以下である場合や、種別情報により示される種別が、センターチャンネルやボーカルなどの特定の種別である場合に高負荷高音質化処理が選択される。
なお、高音質化処理の選択には、優先度情報と種別情報の少なくとも何れか一方が用いられるが、その他、信号処理装置11の処理能力を示す情報なども用いられて高音質化処理が選択されるようにしてもよい。
具体的には、例えば処理能力を示す情報により示される処理能力が所定値以上である場合には、高負荷高音質化処理が選択されるオーディオ信号の数が多くなるように、高負荷高音質化処理が選択される優先度の値などが変更される。
ステップS12において選択部31は、高負荷高音質化処理を行うか否かを判定する。
例えばステップS11での選択の結果として、高負荷高音質化処理が選択された場合、ステップS12では高負荷高音質化処理を行うと判定される。
ステップS12において高負荷高音質化処理を行うと判定された場合、選択部31は、復号部21から供給されたオーディオ信号を高負荷高音質化処理部32に供給し、その後、処理はステップS13へと進む。
ステップS13において高負荷高音質化処理部32は、選択部31から供給されたオーディオ信号に対して高負荷高音質化処理を行い、その結果得られた高音質化信号を出力する。なお、高負荷高音質化処理の詳細は後述する。
例えば高音質化されたオーディオ信号がオブジェクトの信号である場合、高負荷高音質化処理部32は、得られた高音質化信号をレンダラ24に供給する。この場合、選択部31は、復号部21から供給されたメタデータに含まれている位置情報を、高音質化処理部23を介してレンダラ24に供給する。
これに対して、高音質化されたオーディオ信号がチャンネルの信号である場合、高負荷高音質化処理部32は、得られた高音質化信号を再生信号生成部25に供給する。
高負荷高音質化処理が行われて高音質化信号が生成されると、その後、処理はステップS17へと進む。
また、ステップS12において高負荷高音質化処理を行わないと判定された場合、ステップS14において選択部31は、中負荷高音質化処理を行うか否かを判定する。
例えばステップS11での選択の結果として、中負荷高音質化処理が選択された場合、ステップS14では中負荷高音質化処理を行うと判定される。
ステップS14において中負荷高音質化処理を行うと判定された場合、選択部31は、復号部21から供給されたオーディオ信号を中負荷高音質化処理部33に供給し、その後、処理はステップS15へと進む。
ステップS15において中負荷高音質化処理部33は、選択部31から供給されたオーディオ信号に対して中負荷高音質化処理を行い、その結果得られた高音質化信号を出力する。なお、中負荷高音質化処理の詳細は後述する。
例えば高音質化されたオーディオ信号がオブジェクトの信号である場合、中負荷高音質化処理部33は、得られた高音質化信号をレンダラ24に供給する。この場合、選択部31は、復号部21から供給されたメタデータに含まれている位置情報を、高音質化処理部23を介してレンダラ24に供給する。
これに対して、高音質化されたオーディオ信号がチャンネルの信号である場合、中負荷高音質化処理部33は、得られた高音質化信号を再生信号生成部25に供給する。
中負荷高音質化処理が行われて高音質化信号が生成されると、その後、処理はステップS17へと進む。
また、ステップS14において中負荷高音質化処理を行わないと判定された場合、すなわち低負荷高音質化処理が行われる場合、処理はステップS16へと進む。この場合、選択部31は、復号部21から供給されたオーディオ信号を低負荷高音質化処理部34に供給する。
ステップS16において低負荷高音質化処理部34は、選択部31から供給されたオーディオ信号に対して低負荷高音質化処理を行い、その結果得られた高音質化信号を出力する。なお、低負荷高音質化処理の詳細は後述する。
例えば高音質化されたオーディオ信号がオブジェクトの信号である場合、低負荷高音質化処理部34は、得られた高音質化信号をレンダラ24に供給する。この場合、選択部31は、復号部21から供給されたメタデータに含まれている位置情報を、高音質化処理部23を介してレンダラ24に供給する。
これに対して、高音質化されたオーディオ信号がチャンネルの信号である場合、低負荷高音質化処理部34は、得られた高音質化信号を再生信号生成部25に供給する。
低負荷高音質化処理が行われて高音質化信号が生成されると、その後、処理はステップS17へと進む。
ステップS13、ステップS15、またはステップS16の処理が行われると、その後、ステップS17の処理が行われる。
ステップS17においてオーディオ選択部22は、復号部21から供給された全てのオーディオ信号を処理したか否かを判定する。
例えばステップS17では、選択部31-1乃至選択部31-mにおいて、供給されたオーディオ信号に対する高音質化処理の選択が行われ、その選択結果に応じて高音質化処理部23で高音質化処理が行われた場合、全てのオーディオ信号を処理したと判定される。この場合、全てのオーディオ信号に対応する高音質化信号が生成されたことになる。
ステップS17において、まだ全てのオーディオ信号を処理していないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
例えば、選択部31-nにおいて、まだステップS11の処理が行われていない場合には、選択部31-nに供給されたオーディオ信号に対して、上述のステップS11乃至ステップS16の処理が行われる。なお、より詳細には、オーディオ選択部22では、各選択部31で並列してステップS11乃至ステップS16の処理が行われる。
これに対して、ステップS17において全てのオーディオ信号を処理したと判定された場合、その後、処理はステップS18へと進む。
ステップS18においてレンダラ24は、高音質化処理部23の高負荷高音質化処理部32や中負荷高音質化処理部33、低負荷高音質化処理部34から供給された合計n個の高音質化信号に対してレンダリング処理を行う。
例えばレンダラ24は、高音質化処理部23から供給された各オブジェクトの位置情報と高音質化信号とに基づいてVBAPを行うことでオブジェクト再生信号を生成し、再生信号生成部25に供給する。
ステップS19において再生信号生成部25は、レンダラ24から供給されたオブジェクト再生信号と、高負荷高音質化処理部32や中負荷高音質化処理部33、低負荷高音質化処理部34から供給された各チャンネルの高音質化信号とを合成し、再生信号を生成する。
再生信号生成部25は、得られた再生信号を後段に出力し、その後、再生信号生成処理は終了する。
以上のようにして信号処理装置11は、メタデータに含まれる優先度情報や種別情報に基づいて、互いに処理負荷が異なる複数の高音質化処理のなかから、各オーディオ信号に対して行う高音質化処理を選択し、その選択結果に応じて高音質化処理を行う。このようにすることで、全体として処理負荷を低減させ、少ない処理負荷、すなわち少ない処理量でも十分に高音質な再生信号を得ることができる。
〈高負荷高音質化処理の説明〉
ここで、図8を参照して説明したステップS13における高負荷高音質化処理、ステップS15における中負荷高音質化処理、およびステップS16における低負荷高音質化処理について、より詳細に説明する。
まず、図9のフローチャートを参照して、高負荷高音質化処理部32により行われる、図8のステップS13の処理に対応する高負荷高音質化処理について説明する。
ステップS41においてFFT処理部111は、選択部31から供給されたオーディオ信号に対してFFTを行い、その結果得られた信号をゲイン算出部112および差分信号生成部113に供給する。
ステップS42においてゲイン算出部112は、保持している予測係数と、FFT処理部111から供給された信号とに基づいて、差分信号を生成するためのゲイン値を算出し、差分信号生成部113に供給する。ステップS42では、予測係数と、FFT処理部111から供給された信号とに基づいてDNNでの演算が行われ、差分信号の周波数エンベロープのゲイン値が算出される。
ステップS43において差分信号生成部113は、FFT処理部111から供給された信号と、ゲイン算出部112から供給されたゲイン値とに基づいて差分信号を生成し、IFFT処理部114に供給する。例えばステップS43では、FFT処理部111から供給された信号に対して、ゲイン値に基づきゲイン調整を行うことで差分信号が生成される。
ステップS44においてIFFT処理部114は、差分信号生成部113から供給された差分信号に対してIFFTを行い、その結果得られた差分信号を合成部115に供給する。
ステップS45において合成部115は、選択部31から供給されたオーディオ信号と、IFFT処理部114から供給された差分信号とを合成し、その結果得られたオーディオ信号を帯域拡張部62のポリフェーズ構成低域通過フィルタ141、特徴量算出回路144、および帯域通過フィルタ161に供給する。
ステップS46においてポリフェーズ構成低域通過フィルタ141は、合成部115から供給されたオーディオ信号に対して、ポリフェーズ構成の低域通過フィルタによりフィルタリングを行い、その結果得られた低域信号を遅延回路142に供給する。
また、遅延回路142は、ポリフェーズ構成低域通過フィルタ141から供給された低域信号を一定の遅延時間だけ遅延させた後、加算部152に供給する。
ステップS47において各帯域通過フィルタ161は、合成部115から供給されたオーディオ信号の低域側のサブバンドの信号を通過させることで、オーディオ信号を複数の低域サブバンド信号に分割し、特徴量算出回路144および平坦化回路149に供給する。
ステップS48において特徴量算出回路144は、帯域通過フィルタ161から供給された複数の各低域サブバンド信号、または合成部115から供給されたオーディオ信号の少なくとも何れか一方に基づいて特徴量を算出し、高域サブバンドパワー推定回路145に供給する。
ステップS49において高域サブバンドパワー推定回路145は、予め保持している予測係数と、特徴量算出回路144から供給された特徴量とに基づいて、高域のサブバンドごとに疑似高域サブバンドパワーを算出し、帯域通過フィルタ算出回路146に供給する。
ステップS50において帯域通過フィルタ算出回路146は、高域サブバンドパワー推定回路145から供給された複数の各高域サブバンドの疑似高域サブバンドパワーに基づいて帯域通過フィルタ係数を算出し、加算部147に供給する。
また、加算部147は、帯域通過フィルタ算出回路146から供給された帯域通過フィルタ係数を加算して1つのフィルタ係数とし、高域通過フィルタ148に供給する。
ステップS51において高域通過フィルタ148は、加算部147から供給されたフィルタ係数を、高域通過フィルタを用いてフィルタリングし、その結果得られたフィルタ係数をポリフェーズ構成レベル調整フィルタ151に供給する。
ステップS52において平坦化回路149は、帯域通過フィルタ161から供給された複数の各低域サブバンドの低域サブバンド信号を平坦化して加算することで平坦化信号を生成し、ダウンサンプリング部150に供給する。
ステップS53においてダウンサンプリング部150は、平坦化回路149から供給された平坦化信号に対してダウンサンプリングを行い、ダウンサンプリングされた平坦化信号をポリフェーズ構成レベル調整フィルタ151に供給する。
ステップS54においてポリフェーズ構成レベル調整フィルタ151は、ダウンサンプリング部150から供給された平坦化信号に対して、高域通過フィルタ148から供給されたフィルタ係数を用いたフィルタリングを行うことで高域信号を生成し、加算部152に供給する。
ステップS55において加算部152は、遅延回路142から供給された低域信号と、ポリフェーズ構成レベル調整フィルタ151から供給された高域信号とを加算することで高音質化信号を生成し、出力する。このようにして高音質化信号が生成されると、高負荷高音質化処理は終了し、その後、処理は図8のステップS17へと進む。
以上のようにして高負荷高音質化処理部32は、高負荷でもより高音質な信号を得ることができるダイナミックレンジ拡張処理と帯域拡張処理を組み合わせて、より高音質な高音質化信号を生成する。このようにすることで、優先度が高いなど、重要なオーディオ信号について高音質な信号を得ることができる。
〈中負荷高音質化処理の説明〉
次に、図10のフローチャートを参照して、中負荷高音質化処理部33により行われる、図8のステップS15に対応する中負荷高音質化処理について説明する。
ステップS81においてオールパスフィルタ191は、選択部31から供給されたオーディオ信号に対して多段のオールパスフィルタによるフィルタリングを行い、その結果得られたオーディオ信号をゲイン調整部192に供給する。
すなわち、ステップS81では、オールパスフィルタ191-1乃至オールパスフィルタ191-3において、フィルタリングが行われる。
ステップS82においてゲイン調整部192は、オールパスフィルタ191-3から供給されたオーディオ信号に対してゲイン調整を行い、ゲイン調整後のオーディオ信号を加算部193に供給する。
ステップS83において加算部193は、ゲイン調整部192から供給されたオーディオ信号と、選択部31から供給されたオーディオ信号とを加算し、その結果得られたオーディオ信号を帯域拡張部72のポリフェーズ構成低域通過フィルタ221、特徴量算出回路224、および帯域通過フィルタ241に供給する。
ステップS83の処理が行われると、その後、ポリフェーズ構成低域通過フィルタ221、帯域通過フィルタ241、および特徴量算出回路224によりステップS84乃至ステップS86の処理が行われる。なお、これらの処理は図9のステップS46乃至ステップS48の処理と同様であるので、その説明は省略する。
ステップS87において高域サブバンドパワー推定回路225は、保持している係数と、特徴量算出回路224から供給された特徴量とに基づいて線形予測により疑似高域サブバンドパワーを算出し、帯域通過フィルタ算出回路226に供給する。
ステップS87の処理が行われると、その後、帯域通過フィルタ算出回路226乃至加算部232によりステップS88乃至ステップS93の処理が行われて中負荷高音質化処理は終了する。なお、これらの処理は図9のステップS50乃至ステップS55の処理と同様であるので、その説明は省略する。中負荷高音質化処理が終了すると、その後、処理は図8のステップS17へと進む。
以上のようにして中負荷高音質化処理部33は、中程度の負荷で、それなりに高音質な信号を得ることができるダイナミックレンジ拡張処理と帯域拡張処理を組み合わせて、オブジェクトやチャンネルのオーディオ信号を高音質化する。このようにすることで、ある程度、優先度が高い等のオーディオ信号については、中程度の負荷で、それなりに高音質な信号を得ることができる。
〈低負荷高音質化処理の説明〉
さらに、図11のフローチャートを参照して、低負荷高音質化処理部34により行われる、図8のステップS16に対応する低負荷高音質化処理について説明する。
なお、ステップS121乃至ステップS123の処理は、図10のステップS81乃至ステップS83の処理と同様であるので、その説明は省略する。
ステップS123の処理が行われると、そのステップS123の処理により得られたオーディオ信号が、ダイナミックレンジ拡張部81から帯域拡張部82のサブバンド分割回路271および合成回路276に供給され、ステップS124の処理が行われる。
ステップS124においてサブバンド分割回路271は、ダイナミックレンジ拡張部81から供給されたオーディオ信号を複数の低域サブバンド信号に分割し、特徴量算出回路272および復号高域信号生成回路275に供給する。
ステップS125において特徴量算出回路272は、サブバンド分割回路271から供給された低域サブバンド信号に基づいて特徴量を算出し、復号高域サブバンドパワー算出回路274に供給する。
ステップS126において高域復号回路273は、供給された高域符号化データを復号し、その結果得られたインデックスに対応する高域サブバンドパワー推定係数を復号高域サブバンドパワー算出回路274に出力(供給)する。
ステップS127において復号高域サブバンドパワー算出回路274は、特徴量算出回路272から供給された特徴量と、高域復号回路273から供給された高域サブバンドパワー推定係数とに基づいて高域サブバンドパワーを算出し、復号高域信号生成回路275に供給する。例えばステップS127では、高域サブバンドパワー推定係数が乗算された特徴量の和を求めることで、高域サブバンドパワーが算出される。
ステップS128において復号高域信号生成回路275は、サブバンド分割回路271から供給された低域サブバンド信号と、復号高域サブバンドパワー算出回路274から供給された高域サブバンドパワーとに基づいて高域信号を生成し、合成回路276に供給する。例えばステップS128では、低域サブバンド信号と高域サブバンドパワーに基づいて、低域サブバンド信号に対する周波数変調およびゲイン調整が行われて、高域信号が生成される。
ステップS129において合成回路276は、ダイナミックレンジ拡張部81から供給されたオーディオ信号と、復号高域信号生成回路275から供給された高域信号とを合成し、その結果得られた高音質化信号を出力する。このようにして高音質化信号が生成されると、低負荷高音質化処理は終了し、その後、処理は図8のステップS17へと進む。
以上のようにして低負荷高音質化処理部34は、低負荷で高音質化を実現できるダイナミックレンジ拡張処理と帯域拡張処理を組み合わせて、オブジェクトやチャンネルのオーディオ信号を高音質化する。このようにすることで、優先度が低いなど、あまり重要でないオーディオ信号については、低負荷で高音質化を行い、全体の処理負荷を低減させることができる。
〈第2の実施の形態〉
〈信号処理装置の構成例〉
上述したように、高負荷高音質化処理部32では、予め機械学習により得られたDNNでの演算に用いられる予測係数が用いられ、周波数エンベロープのゲインや疑似高域サブバンドパワーが推定(予測)される。
このとき、オーディオ信号の種別を特定することが可能であれば、その種別ごとに予測係数を学習しておくこともできる。そうすることで、オーディオ信号の種別に応じた予測係数を用いて、より精度よく、かつより少ない処理負荷で周波数エンベロープのゲインや疑似高域サブバンドパワーを予測することができる。
特に、オーディオ信号の種別ごとに予測係数、すなわちDNNを機械学習すれば、より小さい規模のDNNにより精度よくゲイン値や疑似高域サブバンドパワーを予測することができ、処理負荷を低減させることができる。
一方で、処理負荷に問題がなければ、オーディオ信号の種別によらず、同一のDNN、すなわち同一の予測係数を用いるようにしてもよい。そのような場合には、例えば完全パッケージなどとも呼ばれる、様々な音源の一般的なステレオのオーディオコンテンツを予測係数の機械学習に用いればよい。
以下では、完全パッケージなど、様々な音源の音を含むオーディオコンテンツを用いた機械学習により生成された、全種別で共通に用いられる予測係数を特にジェネラルな予測係数とも称することとする。
上述の第1の実施の形態では、各オーディオ信号のメタデータに、オーディオ信号の種別を示す種別情報が含まれているため、オーディオ信号の種別を特定することが可能である。そこで、例えば図12に示すように、種別情報に応じた予測係数を選択し、高音質化を行うようにしてもよい。なお、図12において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図12に示す信号処理装置11は、復号部21、オーディオ選択部22、高音質化処理部23、レンダラ24、および再生信号生成部25を有している。
また、オーディオ選択部22は、選択部31-1乃至選択部31-mを有している。
さらに、高音質化処理部23は、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-m、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-m、および係数選択部301-1乃至係数選択部301-mを有している。
したがって、図12に示す信号処理装置11は、図1に示した信号処理装置11とは高音質化処理部23の構成のみが異なり、その他の構成は同じとなっている。
係数選択部301-1乃至係数選択部301-mは、オーディオ信号の種別ごとに機械学習された、DNNでの演算に用いられる予測係数を予め保持しており、これらの係数選択部301-1乃至係数選択部301-mには、復号部21からメタデータが供給される。
ここでいう予測係数とは、高負荷高音質化処理部32、より詳細にはダイナミックレンジ拡張部61のゲイン算出部112での処理、および帯域拡張部62の高域サブバンドパワー推定回路145での処理に用いられる予測係数である。
係数選択部301-1乃至係数選択部301-mは、予め保持している複数の種別ごとの予測係数のなかから、復号部21から供給されたメタデータに含まれる種別情報により示される種別の予測係数を選択し、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-mに供給する。すなわち、オーディオ信号ごとに、それらのオーディオ信号に対して行われる高負荷高音質化処理に用いる予測係数が選択される。
なお、以下、係数選択部301-1乃至係数選択部301-mを特に区別する必要のない場合、単に係数選択部301とも称することとする。
ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-mは、基本的には高負荷高音質化処理部32と同様の構成を有している。
但し、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-mにおいては、ゲイン算出部112および高域サブバンドパワー推定回路145に対応するブロックの構成、すなわちDNN構成は高負荷高音質化処理部32と異なっており、それらのブロックには上述したジェネラルな予測係数が保持されている。
その他、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-mでは、例えば入力されるオーディオ信号がオブジェクトのものであるか、チャンネルのものであるかなどに応じて、DNN構成等が異なるようにしてもよい。
ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-mは、選択部31-1乃至選択部31-mからオーディオ信号が供給されると、それらのオーディオ信号と、予め保持しているジェネラルな予測係数とに基づいて高音質化処理を行い、その結果得られた高音質化信号をレンダラ24または再生信号生成部25に供給する。
なお、以下、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-mを特に区別する必要のない場合、単にジェネラル高音質化処理部302とも称する。また、以下、ジェネラル高音質化処理部302において行われる高音質化処理を、特にジェネラル高音質化処理とも称することとする。
このように図12に示す例では、各選択部31は、メタデータに含まれる優先度情報および種別情報に基づいて、オーディオ信号の供給先として、ジェネラル高音質化処理部302と高負荷高音質化処理部32の何れか一方を選択する。
〈再生信号生成処理の説明〉
次に、図13のフローチャートを参照して、図12に示した信号処理装置11により行われる再生信号生成処理について説明する。
ステップS161において選択部31は、復号部21から供給されたメタデータに基づいて、復号部21から供給されたオーディオ信号に対して行う高音質化の処理を選択する。
例えば選択部31は、メタデータに含まれている種別情報により示される種別が、係数選択部301において予測係数が予め保持されている種別である場合、高負荷高音質化処理を選択する。これに対して、例えば種別情報により示される種別が、係数選択部301に予測係数が保持されていない種別である場合、ジェネラル高音質化処理が選択される。
ステップS162において選択部31は、ステップS161で高負荷高音質化処理が選択されたか否か、すなわち高負荷高音質化処理を行うか否かを判定する。
ステップS162において高負荷高音質化処理を行うと判定された場合、選択部31は、復号部21から供給されたオーディオ信号を高負荷高音質化処理部32に供給し、その後、処理はステップS163へと進む。
ステップS163において係数選択部301は、予め保持している複数の種別ごとの予測係数のなかから、復号部21から供給されたメタデータに含まれる種別情報により示される種別の予測係数を選択し、高負荷高音質化処理部32に供給する。
ここでは、予め種別ごとに機械学習により生成された、ゲイン算出部112および高域サブバンドパワー推定回路145のそれぞれで用いられる予測係数が選択され、それらのゲイン算出部112および高域サブバンドパワー推定回路145に予測係数が供給される。
予測係数が選択されると、その後、ステップS164の処理が行われる。すなわち、ステップS164では、図9を参照して説明した高負荷高音質化処理が行われる。
但し、ステップS42ではゲイン算出部112は、係数選択部301から供給された予測係数と、FFT処理部111から供給された信号とに基づいて、差分信号を生成するためのゲイン値を算出する。また、ステップS49では、高域サブバンドパワー推定回路145は、係数選択部301から供給された予測係数と、特徴量算出回路144から供給された特徴量とに基づいて疑似高域サブバンドパワーを算出する。
また、ステップS162において高負荷高音質化処理を行わないと判定された場合、すなわちジェネラル高音質化処理が行われると判定された場合、選択部31は、復号部21から供給されたオーディオ信号をジェネラル高音質化処理部302に供給し、その後、処理はステップS165へと進む。
ステップS165においてジェネラル高音質化処理部302は、選択部31から供給されたオーディオ信号に対してジェネラル高音質化処理を行い、その結果得られた高音質化信号をレンダラ24または再生信号生成部25に供給する。
ジェネラル高音質化処理では、基本的には図9を参照して説明した高負荷高音質化処理と同様の処理が行われて高音質化信号が生成される。
但し、ジェネラル高音質化処理において、例えば図9のステップS42に対応する処理では、予め保持されているジェネラルな予測係数が用いられて、差分信号を生成するためのゲイン値が算出される。また、図9のステップS49に対応する処理では、予め保持されているジェネラルな予測係数が用いられて、疑似高域サブバンドパワーが算出される。
以上のようにしてステップS164またはステップS165の処理が行われると、その後、ステップS166乃至ステップS168の処理が行われて再生信号生成処理は終了するが、これらの処理は図8のステップS17乃至ステップS19の処理と同様であるので、その説明は省略する。
以上のようにして信号処理装置11は、メタデータに含まれる優先度情報や種別情報に基づいて、ジェネラル高音質化処理または高負荷高音質化処理を選択的に行い、再生信号を生成する。このようにすることで、少ない処理負荷、すなわち少ない処理量でも十分に高音質な再生信号を得ることができる。特にこの例では、オーディオ信号の種別ごとに予測係数を用意することで、少ない処理負荷でも高音質な再生信号を得ることができる。
〈第2の実施の形態の変形例1〉
〈信号処理装置の構成例〉
なお、図12では、高音質化処理として、高負荷高音質化処理またはジェネラル高音質化処理が選択される例について説明した。しかし、これに限らず、高負荷高音質化処理、中負荷高音質化処理、低負荷高音質化処理、およびジェネラル高音質化処理のうちの任意の2以上のもののなかから選択が行われるようにしてもよい。
例えば高音質化処理として、高負荷高音質化処理、中負荷高音質化処理、低負荷高音質化処理、およびジェネラル高音質化処理のうちの何れかが選択される場合、信号処理装置11は、図14に示すように構成される。なお、図14において図1または図12における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図14に示す信号処理装置11は、復号部21、オーディオ選択部22、高音質化処理部23、レンダラ24、および再生信号生成部25を有している。
また、オーディオ選択部22は、選択部31-1乃至選択部31-mを有している。
さらに、高音質化処理部23は、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-m、中負荷高音質化処理部33-1乃至中負荷高音質化処理部33-m、低負荷高音質化処理部34-1乃至低負荷高音質化処理部34-m、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-m、および係数選択部301-1乃至係数選択部301-mを有している。
したがって、図14に示す信号処理装置11は、図1や図12に示した信号処理装置11とは高音質化処理部23の構成のみが異なり、その他の構成は同じとなっている。
この例では、選択部31は、復号部21から供給されたメタデータに基づいて、復号部21から供給されたオーディオ信号に対して行われる高音質化処理を選択する。
すなわち、選択部31は、高負荷高音質化処理、中負荷高音質化処理、低負荷高音質化処理、またはジェネラル高音質化処理を選択し、その選択結果に応じてオーディオ信号を、高負荷高音質化処理部32、中負荷高音質化処理部33、低負荷高音質化処理部34、またはジェネラル高音質化処理部302へと供給する。
〈第3の実施の形態〉
〈信号処理装置の構成例〉
さらに、高音質化処理部23に係数選択部301が設けられる場合、メタデータに種別情報が含まれていないなど、オーディオ信号の種別を特定できないときには、係数選択部301において予測係数を選択できず、高負荷高音質化処理を行うことができなくなる。
そこで、例えばオーディオ信号に基づいて、メタデータを生成するメタデータ生成部を設けるようにしてもよい。以下では、特に、オーディオ信号に基づいて、そのオーディオ信号の種別を特定し、その特定結果を示す種別情報をメタデータとして生成する例について説明する。
そのような場合、信号処理装置11は、例えば図15に示すように構成される。なお、図15において図12における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図15に示す信号処理装置11は、復号部21、オーディオ選択部22、高音質化処理部23、レンダラ24、および再生信号生成部25を有している。
また、オーディオ選択部22は、選択部31-1乃至選択部31-m、およびメタデータ生成部341-1乃至メタデータ生成部341-mを有している。
さらに、高音質化処理部23は、ジェネラル高音質化処理部302-1乃至ジェネラル高音質化処理部302-m、高負荷高音質化処理部32-1乃至高負荷高音質化処理部32-m、および係数選択部301-1乃至係数選択部301-mを有している。
したがって、図15に示す信号処理装置11は、図12に示した信号処理装置11とはオーディオ選択部22の構成のみが異なり、その他の構成は同じとなっている。
メタデータ生成部341-1乃至メタデータ生成部341-mは、例えば予め機械学習等により生成されたDNN等の種別分類器であり、その種別分類器を実現するための種別予測係数を予め保持している。すなわち、機械学習等により種別予測係数を学習することにより、DNN等の種別分類器が得られる。
メタデータ生成部341-1乃至メタデータ生成部341-mは、予め保持している種別予測係数と、復号部21から供給されたオーディオ信号とに基づいて種別分類器による演算を行うことで、オーディオ信号の種別を特定(推定)する。例えば種別分類器では、オーディオ信号の周波数特性などに基づいて種別の特定が行われる。
メタデータ生成部341-1乃至メタデータ生成部341-mは、種別の特定結果を示す種別情報、すなわちメタデータを生成し、選択部31-1乃至選択部31-m、および係数選択部301-1乃至係数選択部301-mに供給する。
なお、以下、メタデータ生成部341-1乃至メタデータ生成部341-mを特に区別する必要のない場合、単にメタデータ生成部341とも称する。
また、メタデータ生成部341を構成する種別分類器は、入力されたオーディオ信号に対して、そのオーディオ信号の種別が複数の種別のなかの何れであるかを出力するものであってもよいし、入力されたオーディオ信号が特定種別のものであるか否かを出力する種別ごとの種別分類器が複数用意されてもよい。例えば種別ごとに種別分類器が用意される場合、それらの各種別分類器にオーディオ信号が入力され、それらの各種別分類器の出力に基づいて、種別情報が生成される。
また、ここでは高音質化処理部23に、ジェネラル高音質化処理部302と高負荷高音質化処理部32が設けられる例について説明したが、中負荷高音質化処理部33や低負荷高音質化処理部34も設けられるようにしてもよい。
〈再生信号生成処理の説明〉
次に、図16のフローチャートを参照して、図15に示した信号処理装置11により行われる再生信号生成処理について説明する。
ステップS201においてメタデータ生成部341は、予め保持している種別予測係数と、復号部21から供給されたオーディオ信号とに基づいてオーディオ信号の種別を特定し、その特定結果を示す種別情報を生成する。メタデータ生成部341は、生成した種別情報を選択部31および係数選択部301に供給する。
なお、より詳細には、メタデータ生成部341においては、復号部21で得られたメタデータに種別情報が含まれていない場合にのみ、ステップS201の処理が行われる。ここではメタデータには種別情報が含まれていないものとして説明を続ける。
ステップS202において選択部31は、復号部21から供給されたメタデータに含まれる優先度情報、およびメタデータ生成部341から供給された種別情報に基づいて、復号部21から供給されたオーディオ信号に対して行う高音質化の処理を選択する。ここでは、高音質化処理として、高負荷高音質化処理またはジェネラル高音質化処理が選択される。
高音質化処理が選択されると、その後、ステップS203乃至ステップS209の処理が行われて再生信号生成処理は終了するが、これらの処理は図13のステップS162乃至ステップS168の処理と同様であるので、その説明は省略する。但し、ステップS204では、係数選択部301は、メタデータ生成部341から供給された種別情報に基づいて、予測係数を選択する。
以上のようにして信号処理装置11は、オーディオ信号に基づいて種別情報を生成し、その種別情報や優先度情報に基づいて高音質化処理を選択する。このようにすることで、メタデータに種別情報が含まれていない場合でも、種別情報を生成し、高音質化処理や予測係数の選択を行うことができる。これにより、少ない処理負荷でも高音質な再生信号を得ることができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
複数のオーディオ信号の供給を受け、高音質化処理を施す前記オーディオ信号を選択する選択部と、
前記選択部により選択された前記オーディオ信号に対して、前記高音質化処理を行う高音質化処理部と
を備える信号処理装置。
(2)
前記選択部は、前記オーディオ信号のメタデータに基づいて、前記高音質化処理を施す前記オーディオ信号を選択する
(1)に記載の信号処理装置。
(3)
前記メタデータには、前記オーディオ信号の優先度を示す優先度情報が含まれている
(2)に記載の信号処理装置。
(4)
前記メタデータには、前記オーディオ信号の種別を示す種別情報が含まれている
(2)または(3)に記載の信号処理装置。
(5)
前記オーディオ信号に基づいて、前記メタデータを生成するメタデータ生成部をさらに備える
(2)乃至(4)の何れか一項に記載の信号処理装置。
(6)
前記選択部は、前記オーディオ信号ごとに、互いに異なる複数の前記高音質化処理のなかから、前記オーディオ信号に対して行う前記高音質化処理を選択する
(1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
前記高音質化処理は、ダイナミックレンジ拡張処理または帯域拡張処理である
(6)に記載の信号処理装置。
(8)
前記高音質化処理は、機械学習により得られた予測係数と、前記オーディオ信号とに基づく、ダイナミックレンジ拡張処理または帯域拡張処理である
(6)に記載の信号処理装置。
(9)
前記オーディオ信号の種別ごとに前記予測係数を保持し、前記オーディオ信号の種別を示す種別情報に基づいて、保持している複数の前記予測係数のなかから、前記高音質化処理に用いる前記予測係数を選択する係数選択部をさらに備える
(8)に記載の信号処理装置。
(10)
前記高音質化処理は、前記オーディオ信号に基づく線形予測により高域成分を生成する帯域拡張処理である
(6)に記載の信号処理装置。
(11)
前記高音質化処理は、前記オーディオ信号に対してホワイトノイズを付加する帯域拡張処理である
(6)に記載の信号処理装置。
(12)
前記オーディオ信号は、チャンネルのオーディオ信号、またはオーディオオブジェクトのオーディオ信号である
(1)乃至(11)の何れか一項に記載の信号処理装置。
(13)
信号処理装置が、
複数のオーディオ信号の供給を受け、高音質化処理を施す前記オーディオ信号を選択し、
選択された前記オーディオ信号に対して、前記高音質化処理を行う
信号処理方法。
(14)
複数のオーディオ信号の供給を受け、高音質化処理を施す前記オーディオ信号を選択し、
選択された前記オーディオ信号に対して、前記高音質化処理を行う
ステップを含む処理をコンピュータに実行させるプログラム。