JP2022017880A

JP2022017880A - 信号処理装置および方法、並びにプログラム

Info

Publication number: JP2022017880A
Application number: JP2020120707A
Authority: JP
Inventors: 優樹山本; Yuki Yamamoto
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-01-26
Also published as: US12363494B2; KR20230038426A; US20230254655A1; WO2022014326A1

Abstract

【課題】臨場感のあるオーディオ再生を行う。【解決手段】信号処理装置は、複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の音源信号を抽出する音源分離部と、音源分離の結果に基づいて、抽出された音源信号の位置情報を生成する位置情報生成部と、抽出された音源信号と位置情報をオーディオオブジェクトのデータとして出力する出力部とを備える。本技術は信号処理装置に適用することができる。【選択図】図１

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、臨場感のあるオーディオ再生を行うことができるようにした信号処理装置および方法、並びにプログラムに関する。

従来、MPEG（Moving Picture Experts Group）-H 3D Audio規格が知られている（例えば、非特許文献１および非特許文献２参照）。

MPEG-H 3D Audio規格等で扱われる3D Audioでは、３次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。

ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2

しかしながら3D Audioでの再生においては、音源ごと、すなわちオブジェクトごとにオーディオ信号が分離されており、かつそれらのオブジェクトに対して位置情報が付与されている必要があった。

そのため、例えばユーザが既に所有しているステレオ音源など、オブジェクトごとに分離されていないオーディオ信号や、位置情報のないオーディオ信号は3D Audioで再生することができなかった。すなわち、臨場感のあるオーディオ再生を行うことができなかった。

本技術は、このような状況に鑑みてなされたものであり、臨場感のあるオーディオ再生を行うことができるようにするものである。

本技術の一側面の信号処理装置は、複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出する音源分離部と、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部とを備える。

本技術の一側面の信号処理方法またはプログラムは、複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出し、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力するステップを含む。

本技術の一側面においては、複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号が抽出され、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報が生成され、抽出された前記音源信号と前記位置情報がオーディオオブジェクトのデータとして出力される。

信号処理装置の構成例を示す図である。音源分離について説明する図である。３次元空間における音源配置例を示す図である。オブジェクトデータ生成処理を説明するフローチャートである。３次元空間における音源配置例を示す図である。３次元空間における音源配置例を示す図である。３次元空間における音源配置例を示す図である。信号処理装置の構成例を示す図である。オブジェクトデータ生成処理を説明するフローチャートである。信号処理装置の構成例を示す図である。信号処理装置の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈信号処理装置の構成例〉
本技術は、１または複数の音源が混合したオーディオ信号を音源分離により音源（オブジェクト）ごとのオーディオ信号に分離させ、音源分離結果に基づいて位置情報を付与することで3D Audioでの再生を行うことができるようにするものである。これにより、より臨場感のあるオーディオ再生を行うことができる。

特に本技術では、音源分離技術と３次元自動配置技術とを組み合わせて用いることで、臨場感のあるオーディオ再生を実現できるようにした。

音源分離技術とは、複数の音源が混合されたオーディオ信号を、音源ごとのオーディオ信号に分離する技術である。また、３次元自動配置技術とは、音源ごとのオーディオ信号に対して自動的に位置情報を付与する技術である。

以下では、ユーザが既に所有しているステレオ音源、つまり左右の２チャネルのオーディオ信号を入力とする場合について具体的に説明する。しかし、これに限らず、入力とするオーディオ信号は、モノラルのオーディオ信号であってもよいし、３以上のマルチチャネルのオーディオ信号であってもよい。

図１は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

図１に示す信号処理装置１１は、音源分離処理部２１、位置情報生成部２２、および出力部２３を有している。

音源分離処理部２１には、１または複数の音源の音、すなわち１または複数の音源のオーディオ信号が混合されたステレオ等のオーディオ信号が入力オーディオ信号として供給される。この入力オーディオ信号は、所定のオーディオのコンテンツ等を再生するための信号である。

音源分離処理部２１は、供給された入力オーディオ信号に対して音源分離を行い、その音源分離結果を位置情報生成部２２に供給する。

例えば音源分離を行うことで、入力オーディオ信号から複数の音源ごとのオーディオ信号が抽出（分離）されるとともに、それらのオーディオ信号に含まれる音の音源種別を示す楽器情報と、オーディオ信号のチャネルを示すチャネル情報が得られる。

音源分離処理部２１は、このようにして得られた音源ごとのオーディオ信号、楽器情報、およびチャネル情報を音源分離結果として位置情報生成部２２に供給する。なお、以下、音源分離により得られた音源ごとのオーディオ信号を音源信号とも称する。

位置情報生成部２２は、音源分離処理部２１から供給された音源分離結果に基づいて、各音源信号に対して位置情報を付与し、音源信号および位置情報を出力部２３に供給する。なお、各音源信号の楽器情報やチャネル情報も位置情報生成部２２から出力部２３に供給されるようにしてもよい。

位置情報生成部２２では、３次元自動配置技術が用いられて、音源分離結果としての音源信号や楽器情報、チャネル情報から各音源信号の位置情報が生成される。

ここで、音源信号の位置情報は、３次元空間における音源の位置、すなわち音源の音の音像定位位置を示す情報である。この位置情報は、例えば基準となる位置から音源までの距離を示す半径、音源の水平方向の位置を示す水平角度、および音源の垂直方向の位置を示す垂直角度からなる。

出力部２３は、位置情報生成部２２から供給された音源信号および位置情報に基づいて、オーディオオブジェクトのデータであるオブジェクトデータを生成し、出力する。

例えば出力部２３は、１つの音源信号を、１つのオブジェクト（オーディオオブジェクト）のオーディオ信号とするとともに、少なくとも音源信号の位置情報を含むデータをメタデータとして生成する。

出力部２３は、このようにしてオブジェクトごとに得られた音源信号とメタデータとからなるデータをオブジェクトデータとして出力する。換言すれば、各オブジェクトの音源信号とメタデータがオブジェクトデータとして出力される。

なお、メタデータには、位置情報だけでなく、楽器情報やチャネル情報が含まれるようにしてもよい。

（音源分離技術について）
次に、音源分離処理部２１で用いられる音源分離技術と、位置情報生成部２２で用いられる３次元自動配置技術について説明する。

まず、音源分離技術について説明する。

例えばステレオ音源、すなわちＬチャネルとＲチャネルの２チャネルのオーディオ信号に音源分離技術を適用すると、音源ごとに分離された複数の２チャネルのオーディオ信号を出力として得ることができる。

音源分離により抽出される音源信号の音源種別と数は、音源分離技術によってさまざまであるが、ここでは４種類の音源種別で、各音源種別についてＬとＲの２チャネル（ステレオ）の音源信号が抽出されるものとする。

具体的には、以下では、例えば図２に示すように、音源分離によって「vocal」、「drums」、「bass」、および「others」の４種類の音源種別の音の音源信号への分離が行われるとする。

なお、音源種別「others」とは、「vocal」、「drums」、および「bass」以外の音源であり、例えば「guitar」や「piano」などの音源である。音源種別「others」を示す楽器情報が付与される音源信号には、「vocal」、「drums」、および「bass」以外の１または複数の音源の音の成分が含まれている。

図２に示す例では、図中、左側に示すように音源分離処理部２１には、複数の音源の成分が混合した２チャネル（ステレオ）の入力オーディオ信号が供給され、その入力オーディオ信号に対して音源分離が行われる。

例えば音源分離は、予め学習により生成されたニューラルネットワーク、すなわちニューラルネットワークを実現する係数等のパラメータなどに基づいて行われる。

具体的には、音源分離処理部２１はニューラルネットワークのパラメータと入力オーディオ信号に基づいて所定の演算を行うことで、入力オーディオ信号から、予め定められた「vocal」、「drums」、「bass」、および「others」の４種類の音源種別の各チャネルのオーディオ信号を音源信号として抽出する。

これにより、例えば図２中、右側に示すように８個の音源信号が得られる。

具体的には、音源種別「vocal」のＬチャネルとＲチャネルの音源信号、音源種別「drums」のＬチャネルとＲチャネルの音源信号、音源種別「bass」のＬチャネルとＲチャネルの音源信号、および音源種別「others」のＬチャネルとＲチャネルの音源信号が得られている。

ここで、音源分離処理部２１における音源分離では、音源分離後の全ての音源信号を加算すると、入力オーディオ信号が復元される、つまり入力オーディオ信号と全く同じ信号が得られるものとする。

また、ここではステレオの入力オーディオ信号を音源分離の入力とし、各音源のステレオの音源信号が出力として得られる場合について説明した。

しかし、これに限らず、モノラルやマルチチャネルの入力オーディオ信号を音源分離の入力とし、モノラルやステレオ、マルチチャネル等の任意のチャネル構成の音源信号を出力とする音源分離が行われるようにしてもよい。

（３次元自動配置技術について）
次に、３次元自動配置技術について説明する。

例えば音源分離により複数の音源種別の２チャネルの音源信号が得られるが、位置情報生成部２２では、これらの各音源種別のチャネルごとの音源信号のそれぞれを１つのオブジェクトの信号とみなし、３次元自動配置技術が適用される。

ここで、オブジェクトとみなされる各音源信号には、音源分離処理部２１での音源分離によって、音源種別「vocal」や「drums」などを示す楽器情報と、ＬやＲなどのチャネルを示すチャネル情報とが付与されている。

このように楽器情報とチャネル情報が付与されたオブジェクト（音源信号）に対して、３次元自動配置技術を適用すると、３次元空間における各オブジェクトの位置を示す水平角度と垂直角度が自動的に決定（付与）される。

なお、３次元自動配置技術では、オブジェクトの位置を示す半径として、予め定められた値の半径が付与されるようにしてもよいし、オブジェクトごとに異なる半径が付与されるようにしてもよい。

３次元自動配置技術の適用方法として、主に２つの適用方法が考えられる。以下、それらの適用方法について説明する。

（３次元自動配置技術の適用方法M1）
まず、１つ目の適用方法M1では、音源分離結果として得られる楽器情報とチャネル情報に基づいて、予め学習により得られた決定木モデルにより、各オブジェクト（音源信号）の位置情報を構成する水平角度と垂直角度が決定される。

特に、ここでは決定木モデルの入力とされる楽器情報は「vocal」、「drums」、「bass」、および「others」の４種類に限定して学習が行われる。

決定木モデルの学習時には、予め複数の3D Audioコンテンツについて収集した、オブジェクトごとの楽器情報およびチャネル情報と、位置情報としての水平角度および垂直角度とが学習用のデータ（学習データ）とされる。

そして楽器情報およびチャネル情報を入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルの学習が行われる。

このようにして得られた決定木モデルを用いれば、各音源（オブジェクト）の位置情報を簡単に決定（予測）することができる。

例えば決定木モデルによる位置情報の決定時には、楽器情報が「vocal」であるかなど、楽器情報やチャネル情報といった各情報に基づく判定処理の結果に応じて、その決定木の終端まで連続的に判定が行われていき、最終的な水平角度と垂直角度が決定される。

このような決定木モデルを用いれば、楽器情報やチャネル情報などの音源（オブジェクト）ごとに付与される情報から、音源ごとにメタデータを構成する水平角度と垂直角度を決定することが可能である。

なお、適用方法M1では、音源信号全体で楽器情報やチャネル情報は変化しないので、各音源（オブジェクト）について決定される位置情報は、音源信号の全体で変化しない。

（３次元自動配置技術の適用方法M2）
また、３次元自動配置技術の適用方法M1とは異なる適用方法M2では、音源分離で付与された楽器情報やチャネル情報以外の情報を予測によって求め、それらの情報も入力として用いられて水平角度と垂直角度が決定される。

例えば楽器情報やチャネル情報以外の音源（オブジェクト）に関する情報として、残響情報や音響情報、優先度情報などが考えられる。

残響情報とは、音源信号に施されたエフェクト等の音響効果のうち、「dry」や「short reverb」などといった音響効果としての残響効果、すなわち残響特性を示す情報である。

また、音響情報とは、音源信号に施されたエフェクト等の音響効果のうち、「natural」や「dist」などといった、残響効果以外の音響効果を示す情報である。

さらに、優先度情報とはオブジェクトの優先度を示す情報である。

これらの残響情報や音響情報、優先度情報をオブジェクト（音源信号）ごとに予測する方法としてはさまざまな方法が考えられる。

ここでは一例として、音源信号を入力とし、その音源信号についての残響情報、音響情報、および優先度情報の識別結果を出力するニューラルネットワークが予め学習により生成され、そのニューラルネットワークが用いられるものとする。

また、ニューラルネットワークの出力である残響情報、音響情報、および優先度情報と、楽器情報およびチャネル情報とを入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルも予め学習される。

なお、決定木モデルの入力は、残響情報、音響情報、および優先度情報だけとされてもよい。

このような適用方法M2では、ニューラルネットワークの入力となる音源信号に対して、その音源信号の1024サンプルなどの時間区間の単位、つまりフレーム単位で残響情報、音響情報、および優先度情報が決定される。

そのため、フレーム単位で変化する残響情報や音響情報を入力として、決定木モデルによりフレーム単位で位置情報を得ることができる。すなわち、決定木モデルから出力される水平角度や垂直角度からなる位置情報が時間とともに変化し得るので、動的なオブジェクトのオブジェクトデータを得ることができる。

以上のような適用方法M1や適用方法M2により位置情報を生成すると、例えば図３に示すように３次元空間上に各オブジェクト（音源）が配置される。

図３は、図２に示した入力オーディオ信号に対して、上述した音源分離および位置情報の予測を行い、その結果得られた位置情報により示される位置にオブジェクトを配置した例を示している。

特に、図３において奥行き方向は入力オーディオ信号に基づく音を受聴する受聴者（ユーザ）の正面方向を示しており、図中の上下左右方向は受聴者から見た上下左右方向となっている。

特に、ここでは受聴者から見て左方向、つまり図中、左方向が水平角度の正の方向を示しており、受聴者から見て右方向が水平角度の負の方向を示している。また、受聴者から見て上方向が垂直角度の正の方向を示しており、受聴者から見て下方向が垂直角度の負の方向を示している。

この例では、例えば８個の音源信号のオブジェクトOB11乃至オブジェクトOB18が３次元空間上に配置されている。特に、ここでは各楽器情報の１つのチャネルの音源信号が１つのオブジェクトの信号として扱われている。

オブジェクトOB11およびオブジェクトOB12は、楽器情報「drums」のＬチャネルおよびＲチャネルのオブジェクトを表しており、オブジェクトOB13およびオブジェクトOB14は、楽器情報「vocal」のＬチャネルおよびＲチャネルのオブジェクトを表している。

また、オブジェクトOB15およびオブジェクトOB16は、楽器情報「others」のＬチャネルおよびＲチャネルのオブジェクトを表しており、オブジェクトOB17およびオブジェクトOB18は、楽器情報「bass」のＬチャネルおよびＲチャネルのオブジェクトを表している。

これらのオブジェクトOB11乃至オブジェクトOB18のうち、Ｌチャネルのオブジェクトは受聴者から見て左側に配置されており、Ｒチャネルのオブジェクトは受聴者から見て右側に配置されている。また、同じ楽器情報のオブジェクトは、同じ垂直角度で受聴者から見て左右対称に配置されていることが分かる。

以上のように適用方法M2では、適用方法M1と比較して音源信号の変化に応じた適切な水平角度と垂直角度の決定が可能となる。

なお、楽器情報「others」が付与されたオブジェクト（音源）については、より詳細な楽器情報を予測によって求め、その楽器情報を決定木モデルの入力として用いるようにしてもよい。

この場合、例えば音源信号を入力とし、楽器情報（音源種別）を出力とするニューラルネットワーク等を予め学習しておけばよい。また、この場合、予測により得られた残響情報、音響情報、優先度情報なども楽器情報の予測に用いてもよい。

このように楽器情報が「others」であるオブジェクトについて、より詳細な楽器情報を予測する方が、楽器情報「others」をそのまま用いる場合と比較して、音源信号の特徴に応じた適切な水平角度と垂直角度を決定することができる。

また、例えば音源信号を入力とし、残響情報、音響情報、および優先度情報の識別結果を出力するニューラルネットワークや、残響情報等を入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルは、音源信号の音源種別ごと、すなわち楽器情報ごとに学習されるようにしてもよい。

さらに、音源種別ごとに異なる方法で位置情報を生成するようにしてもよい。例えば、楽器情報等に応じて、以上において説明した適用方法M1と適用方法M2を切り替えるようにしてもよい。

例えば一般的なコンテンツの主な音源成分であり、音源位置が移動しない方が安定すると考えられる楽器情報が「vocal」や「drums」、「bass」である音源信号については適用方法M1により位置情報を生成し、楽器情報「others」の音源信号については適用方法M2により位置情報を生成するようにしてもよい。

その他、音源信号自体、または音源信号と楽器情報やチャネル情報を入力とし、音源信号に対応する音源（オブジェクト）の水平角度と垂直角度を出力とするニューラルネットワークなどを、位置情報の生成に用いるようにしてもよい。

以上のように、音源分離技術と３次元自動配置技術を組み合わせて用いることで、ステレオ音源などの入力オーディオ信号から、3D Audioで再生可能なオブジェクトデータを得ることができる。換言すれば、ユーザ等が既に有しているステレオ音源でも3D Audio再生を行い、より臨場感のあるオーディオ再生を実現することができる。

上述したように、入力オーディオ信号は、ステレオ音源のものに限らず、5.1chや7.1ch等のマルチチャネル音源、モノ音源などのオーディオ信号であってもよい。

〈オブジェクトデータ生成処理の説明〉
続いて、図１に示した信号処理装置１１の動作について説明する。すなわち、以下、図４のフローチャートを参照して、信号処理装置１１によるオブジェクトデータ生成処理について説明する。

ステップＳ１１において音源分離処理部２１は、供給された入力オーディオ信号に対して音源分離を行い、その音源分離結果を位置情報生成部２２に供給する。

例えばステップＳ１１では、予め学習により得られたニューラルネットワークに入力オーディオ信号が入力されて演算が行われ、音源分離の結果として音源（オブジェクト）ごとの音源信号、楽器情報、およびチャネル情報が得られる。

ステップＳ１２において位置情報生成部２２は、音源分離処理部２１から供給された音源分離結果に基づいて自動配置処理を行う。

例えばステップＳ１２では、自動配置処理として、予め学習により得られている決定木やニューラルネットワークが用いられて上述した適用方法M1や適用方法M2の処理が行われ、各オブジェクト（音源信号）の位置情報が生成される。

具体的には、例えば位置情報生成部２２は、音源信号と、予め学習により得られたニューラルネットワークとに基づいて、音源信号についての残響情報、音響情報、および優先度情報を予測により求める。そして位置情報生成部２２は、音源信号について得られた楽器情報、チャネル情報、残響情報、音響情報、および優先度情報と、予め学習により得られた決定木モデルとに基づいて音源（オブジェクト）の位置情報を得る。

位置情報生成部２２は、自動配置処理により得られた音源信号および位置情報を出力部２３に供給する。このとき、位置情報生成部２２は、必要に応じて楽器情報やチャネル情報なども出力部２３に供給する。

ステップＳ１３において出力部２３は、位置情報生成部２２から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。

例えば出力部２３は、楽器情報「vocal」のＬチャネルの音源信号など、１つの音源信号を１つのオブジェクトの信号とし、各オブジェクトの音源信号と、少なくとも位置情報が含まれる各オブジェクトのメタデータとからなるデータをオブジェクトデータとして生成する。このとき、例えばメタデータに位置情報だけでなくチャネル情報や楽器情報などが含まれるようにしてもよい。

このようにしてオブジェクトデータが生成されると、出力部２３は後段にオブジェクトデータを出力し、オブジェクトデータ生成処理は終了する。

以上のようにして信号処理装置１１は、音源分離と自動配置処理を組み合わせて行うことで、ステレオ音源等のそのままでは3D Audio再生ができないオーディオ信号から、3D Audio再生が可能なオブジェクトデータを生成して出力する。このようにすることで、より臨場感のあるオーディオ再生を行うことができる。

〈第２の実施の形態〉
〈その他の技術の適用〉
ところで、第１の実施の形態において説明したように、音源分離技術と３次元自動配置技術とを適用することで、ステレオ音源等の入力オーディオ信号を3D Audioで再生することが可能となる。

これに加えて、以下において説明する技術（処理）を適用すれば、3D Audio再生時における音質を向上させることができる。

そのような音質を向上させるための技術（処理）は、例えば人工的なノイズの低減処理と、音像を広げる処理である。

（人工的なノイズの低減処理）
まず、これらの処理のうち、人工的なノイズの低減処理について説明する。この人工的なノイズの低減処理は、オブジェクト（音源）の３次元自動配置によって、音源分離により生じる人工的なノイズを知覚させにくくする技術である。

音源分離を行うと、その結果として得られるオーディオ信号には、ミュージカルノイズなどの人工的なノイズ（以下、人工ノイズとも称する）が発生することがあり、このノイズには、以下のような２つの特徴F1および特徴F2がある。

（特徴F1）
入力されるオーディオ信号に含まれる音源の数が少ないほど、分離後のノイズが目立つ

（特徴F2）
分離された全ての音源の配置位置を近づけるほどノイズが目立たなくなる

例えば人工ノイズが特徴F1を有するのは、音源の数が少ないほど人間はノイズを知覚しやすいためである。

また、本技術の音源分離では、音源分離後の複数のオーディオ信号を全て加算すると、音源分離の入力となったもとのオーディオ信号が復元されるため、人工ノイズは特徴F2を有している。

そこで、これらの特徴を利用して、以下において説明する処理を人工ノイズの低減処理として行うことで、人工的なノイズを知覚させにくくすることができる。

人工ノイズの低減処理では、まず、以下の式（１）により分離後の複数の各音源信号の音圧level(i_obj)が計算される。

式（１）においてi_objは音源分離後の音源のインデックスを示しており、i_sampleは音源信号のサンプルのインデックスを示している。

また、pcm(i_obj, i_sample)は、インデックスがi_objである音源の音源信号のi_sample番目のサンプルのサンプル値を示している。さらに、n_sampleは、音源信号の全サンプル数を示している。

次に、各音源信号の音圧level(i_obj)に対して、所定の閾値thre1に基づく閾値処理が行われ、音圧level(i_obj)が閾値thre1以上である音源（音源信号）の数（以下、有効音源数とも称する）がカウントされる。

ここでは、閾値thre1は例えば-70dBなどとされる。この例においては、音圧level(i_obj)が閾値thre1以上である音源信号が、実質的に音源成分が含まれている信号であるとされ、入力オーディオ信号に実質的に含まれている音源成分の数を示す有効音源数が求められる。

このようにして有効音源数が得られると、その有効音源数が全音源数で除算され、その除算結果の値が音源比ratioとして求められる。

ここで、全音源数とは、音源分離を行うにあたり、入力オーディオ信号に含まれているとされる音源の数である。

具体的には、上述の例では、入力オーディオ信号から「vocal」、「drums」、「bass」、および「others」の各音源種別について、ステレオのチャネルごとの音源信号が音源分離により抽出されるため、そのような例では全音源数は８となる。

音源比ratioは、有効音源数と全音源数の比であるから、有効音源数が多いほど、入力音源信号には、より多くの音源成分が含まれていることになる。

人工ノイズの低減処理では、このようにして求めた音源比ratioと、予め定められた所定の閾値thre2とが比較される。ここでは、例えば閾値thre2は0.5などとされる。

そして、音源比ratioが閾値thre2より大きい場合には、入力オーディオ信号に含まれている音源数は十分に多いため、音源信号の人工ノイズは目立たないと考えられるので、特に人工ノイズを低減させるための処理は行われない。

これに対して、例えば音源比ratioが閾値thre2以下である場合には、上述の特徴F2を利用して人工ノイズを低減させるために、音源比ratioに応じて以下の式（２）乃至式（５）により、音源分離後の全ての音源の水平角度と垂直角度が修正される。

すなわち、インデックスがi_objである音源（音源信号）の位置情報により示される水平角度azimuth(i_obj)が０度以上である場合、式（２）に示すように水平角度が修正される。また、水平角度azimuth(i_obj)が０度未満である場合には、式（３）に示すように水平角度が修正される。

なお、式（２）および式（３）において、azimuth(i_obj)は、インデックスがi_objである音源の修正前の水平角度、つまり位置情報生成部２２において３次元自動配置技術により生成された位置情報を構成する水平角度を示している。

また、azimuth_new(i_obj)は、インデックスがi_objである音源の修正後の水平角度、つまり水平角度azimuth(i_obj)を修正することにより得られた水平角度を示している。

さらに、式（２）および式（３）において、azimuth_refは、例えば30度などの予め定められた水平角度である。

水平角度と同様に、インデックスがi_objである音源（音源信号）の位置情報により示される垂直角度elevation(i_obj)が０度以上である場合、式（４）に示すように垂直角度が修正される。また、垂直角度elevation(i_obj)が０度未満である場合には、式（５）に示すように垂直角度が修正される。

なお、式（４）および式（５）において、elevation(i_obj)は、インデックスがi_objである音源の修正前の垂直角度、つまり位置情報生成部２２において３次元自動配置技術により生成された位置情報を構成する垂直角度を示している。

また、elevation_new(i_obj)は、インデックスがi_objである音源の修正後の垂直角度、つまり垂直角度elevation(i_obj)を修正することにより得られた垂直角度を示している。

さらに、式（４）および式（５）において、elevation_refは、例えば０度などの予め定められた垂直角度である。

音源比ratioについては、その音源比ratioの値が小さいほど、入力オーディオ信号に含まれる音源成分の数が少ないことを意味しており、上述の特徴F1から、音源比ratioが小さいほど、音源信号に含まれる人工ノイズが目立ってしまう。

そこで式（２）や式（３）に示す位置情報の水平角度の修正では、特徴F2が利用されて、音源比ratioが小さいほど音源分離後の全ての音源（オブジェクト）の水平角度がazimuth_refまたは-azimuth_refに近くなるように修正される。

同様に、式（４）や式（５）に示す位置情報の垂直角度の修正では、音源比ratioが小さいほど音源分離後の全ての音源（オブジェクト）の垂直角度がelevation_refまたは-elevation_refに近くなるように修正される。

特に、式（２）乃至式（５）においては、音源比ratioと閾値thre2の比であるratio/thre2は、音源の位置をどれだけazimuth_refや-azimuth_ref、elevation_ref、-elevation_refに近づけるかを示している。

このようにして各音源（オブジェクト）の位置情報を修正すれば、結果として音源分離後の各音源が３次元空間上のより近い位置に配置されるようになる。これにより、音源分離により生じてしまう人工的なノイズが知覚されにくくなる。換言すれば、人工的なノイズが低減されることになる。

例えば音源分離により得られた８個の音源信号について、位置情報生成部２２において３次元自動配置技術により位置情報を生成した結果、各音源が図３に示した位置に配置されたとする。

そして、それらの８個の音源信号の位置情報に対して、式（２）乃至式（５）による修正を行うと、例えば図５に示すように各音源（オブジェクト）の配置位置が修正される。なお、図５において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図５に示す例では、図３における場合と同様に、８個の音源信号のオブジェクトOB11乃至オブジェクトOB18が３次元空間上に配置されている。

図３における例と、図５における例とを比較すると、図５における例では、各オブジェクト間の距離が図３における場合よりも短く、人工的なノイズが知覚されにくくなっていることが分かる。

具体的には、図３において受聴者から見て左側に位置しているオブジェクト、つまり位置情報を構成する水平角度が０度以上であるオブジェクトは、水平角度および垂直角度が（azimuth_ref,elevation_ref）＝（30,0）である位置に近づくように位置の修正が行われる。

その結果、図５ではオブジェクトOB11、オブジェクトOB13、オブジェクトOB15、およびオブジェクトOB17は、所定の基準となる位置（azimuth_ref,elevation_ref）＝（30,0）に寄せられており、人工的なノイズが低減されることが分かる。

同様に、図３において受聴者から見て右側に位置しているオブジェクト、つまり位置情報を構成する水平角度が０度未満であるオブジェクトは、水平角度および垂直角度が（-azimuth_ref,elevation_ref）＝（-30,0）である位置に近づくように位置の修正が行われる。

その結果、図５ではオブジェクトOB12、オブジェクトOB14、オブジェクトOB16、およびオブジェクトOB18は、所定の基準となる位置（-azimuth_ref,elevation_ref）＝（-30,0）に寄せられており、人工的なノイズが低減されることが分かる。

（音像を広げる処理）
続いて、音質を向上させるための処理である音像を広げる処理について説明する。

通常、同じ空間で複数の音源が鳴る場合、すなわち複数の音源から音が出力される場合、それらの音源からの音は空間内に存在する壁や天井で反射するため、その空間内にいる人間（受聴者）は前後左右上下の様々な方向から到来する音を知覚する。

一方で、信号処理装置１１での処理、すなわち例えばステレオ音源の入力オーディオ信号を3D Audio再生のための各音源の音源信号へと変換する処理では、それらの音源信号に基づき各音源の音を再生しても、各音源の音はそれらの音源が配置された方向からしか聞こえない。つまり、受聴者には各音源の直接音しか聞こえず、残響音（反射音）は聞こえないことになる。

したがって、各音源信号に基づきコンテンツを再生しても、受聴者には同じ空間で音源からの音が出力されているようには聞こえず、臨場感のない不自然な聞こえ方になってしまうことがある。すなわち、場合によっては十分な臨場感を得ることができず、音質が劣化してしまうことがある。

そこで、このような音質の劣化を抑制することを目的として音像を広げる処理が行われる。特に、ここでは音像を広げる処理の例として、２つの処理について説明する。

（サラウンドリバーブ処理）
まず、音像を広げる処理の１つ目の例としてサラウンドリバーブ処理を説明する。

サラウンドリバーブ処理を行うにあたっては、予めインパルス応答を準備しておく必要がある。

例えば予め定められた所定の３次元空間で、予め定められた複数の再生位置からインパルスやTSP（Time Stretched Pulse）信号等の測定用信号を再生し、その測定用信号を複数のインパルス応答測定位置で録音（収音）することでインパルス応答が求められる。

この場合、インパルス応答の測定が行われる３次元空間は、コンテンツにおける各音源が存在していると想定される空間である。

例えばインパルス応答測定時の測定用信号の再生位置がＭ箇所であり、インパルス応答測定位置がＮ箇所であるとすると、１つの３次元空間について（M×N）個のインパルス応答が得られることになる。なお、インパルス応答を準備する３次元空間は１つであってもよいし、複数の３次元空間ごとにインパルス応答を準備するようにしてもよい。

ここで、音源（オブジェクト）の配置位置が所定の再生位置にあり、インパルス応答測定位置を音源からの音の反射位置に対応する仮想スピーカの位置であるとみなして、インパルス応答と音源信号に基づいてフィルタリング処理を行えば、疑似的なリバーブ（残響）成分の信号を得ることができる。

３次元空間ごとに（M×N）個のインパルス応答が用意されると、それらのインパルス応答が用いられてサラウンドリバーブ処理が行われる。

すなわち、例えば処理対象となる１つの音源信号が選択されると、Ｍ個の再生位置のなかから、処理対象の音源信号の位置情報により示される位置に最も近い再生位置が探索される。

そして、探索結果として得られた再生位置について準備されたＮ個のインパルス応答が読み出され、それらのインパルス応答をフィルタ係数として、処理対象の音源信号とフィルタ係数とに基づきフィルタリング処理が行われる。

フィルタリング処理は、Ｎ個のインパルス応答ごとに行われるため、その処理結果として、Ｎ個のオーディオ信号が得られることになる。

このようにして得られたＮ個の各オーディオ信号は、リバーブ成分に対応するリバーブオブジェクトの音源信号とされ、それらの音源信号の位置情報として、対応するインパルス応答のインパルス応答測定位置を示す情報が生成される。

これにより、１つのオブジェクト（音源）の音源信号に対して、Ｎ個のリバーブオブジェクトの音源信号とその位置情報が新たに生成されたことになる。

サラウンドリバーブ処理では、以上の処理が音源（音源信号）ごとに行われる。そして、それらのもとの音源の音源信号だけでなく、それらの音源ごとに生成されたリバーブオブジェクトの音源信号も追加で生成されたオブジェクトの音源信号として後段に出力される。

したがって、例えばもとの音源（オブジェクト）の音源信号が８個であったとすると、サラウンドリバーブ処理により、基本的には合計8(N+1)個のオブジェクトの音源信号と位置情報が得られることになる。

なお、より詳細にはサラウンドリバーブ処理で生成されたリバーブオブジェクトの音源信号は、所定のゲイン値によりゲイン調整（ゲイン補正）が行われて最終的なリバーブオブジェクトの音源信号とされる。これは、リバーブオブジェクトの音源信号に基づく音を、もとの音源の音源信号に基づく音よりも小さくすることで、より自然な音の聞こえ方になるためである。

また、もとの音源は異なるが位置情報により示される位置、つまりインパルス応答測定位置が同じであるリバーブオブジェクトが複数ある場合、それらの複数のリバーブオブジェクトの音源信号が足し合わせられて１つのリバーブオブジェクトの音源信号とされる。

以上のようなサラウンドリバーブ処理を行うことで、受聴者には、１つの音源について複数の異なる方向から音が到来しているように聞こえ、上述の不自然な音の聞こえ方を解消し、音質を向上させることができる。換言すれば、より高い臨場感を得ることができる。

しかも、このようなサラウンドリバーブ処理を行ってコンテンツの音にリバーブ成分を付加することで、上述した人工的なノイズも目立たなくなり、さらに音質を向上させることができる。

なお、サラウンドリバーブ処理を行うためには、３次元空間について予め用意した（M×N）個のインパルス応答をメモリに保持しておく必要があるが、再生位置の数Ｍやインパルス応答測定位置の数Ｎは、どのようにして定めてもよい。

例えば再生位置の数Ｍやインパルス応答測定位置の数Ｎが多くなると、インパルス応答を保持しておくために必要となるメモリサイズが大きくなる。また、例えばインパルス応答測定位置の数Ｎが多くなると、その分だけリバーブオブジェクトの数が増えるので、サラウンドリバーブ処理やその後段での処理量が多くなる。

また、リバーブオブジェクトの音源信号のゲイン値は、大きいほどリバーブ効果は高くなる。このゲイン値は、例えば0.05など、全てのオブジェクト（音源）で固定の値としてもよいし、オブジェクトごとに異なる値としてもよい。

さらに、オブジェクト（音源）の楽器情報に応じて、サラウンドリバーブ処理を行うか否かを切り替えることができるようにしてもよい。

例えば、コンテンツの主たる音源成分である楽器情報「vocal」の音源の音源信号に対してのみサラウンドリバーブ処理を行うようにすれば、全体として音質を向上させつつ処理量も少なく抑えることができる。

この場合、例えば図３に示した音源配置の各音源信号のうち、楽器情報「vocal」の音源信号に対してのみサラウンドリバーブ処理を行うと、例えば図６に示すように新たなリバーブオブジェクトが生成される。なお、図６において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図６の例では、もとからあるオブジェクトOB11乃至オブジェクトOB18の配置位置は、図３に示した例と同じとなっている。

図６では、これらのもとからあるオブジェクトに加えて、リバーブオブジェクトであるオブジェクトOB21乃至オブジェクトOB24がさらに生成されている。

すなわち、楽器情報「vocal」のＬチャネルのオブジェクトOB13、および楽器情報「vocal」のＲチャネルのオブジェクトOB14に対して、リバーブオブジェクトであるオブジェクトOB21乃至オブジェクトOB24が生成されている。

特に、オブジェクトOB21乃至オブジェクトOB24のそれぞれには、オブジェクトOB13に対応する音源信号の成分と、オブジェクトOB14に対応する音源信号の成分とが含まれている。

このように、オブジェクトOB13やオブジェクトOB14といった１つのオブジェクトに対して、リバーブオブジェクトであるオブジェクトOB21やオブジェクトOB22などが生成される。

このようにすれば、もとの音源からの音が複数方向から受聴者に到来することになり、結果として音源からの音の音像が広がったことになる。すなわち、サラウンドリバーブ処理は音像を広げる処理であるということができる。

以上のようなサラウンドリバーブ処理により、もとの音源の音像を広げ、音質を向上させることができる。

（スプレッド処理）
次に、音像を広げる処理の２つ目の例として、スプレッド処理について説明する。

以下において説明するスプレッド処理は、サラウンドリバーブ処理を行う場合よりも、より少ない処理量で音質を向上させることができる。

スプレッド処理は、spreadと呼ばれるパラメータ（情報）を用いてスプレッド成分の位置情報を生成し、その位置情報により示される位置にも音像が定位するようにVBAP(Vector Base Amplitude Panning)等のレンダリング処理を行うことで、音像を広げる処理である。

なお、スプレッド処理については、例えば「ISO/IEC 23008-3, MPEG-H 3D Audio」や「ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2」などに詳細に記載されている。

このようなスプレッド処理を行えば、各音源の音像を広げることができ、上述の不自然な音の聞こえ方を解消し、音質を向上させることができる。換言すれば、より高い臨場感を得ることができる。しかも、上述した人工的なノイズを目立たなくすることができ、さらに音質を向上させることができる。

ここで、スプレッド処理について説明する。

音像の広がり度合いを示すspreadは、例えば０度から１８０度までの任意の角度を示す角度情報とされ、このようなspreadが用いられてレンダリング処理が行われる。

例えば、１つの音源信号に対してspreadが与えられると、その音源信号の位置情報により示される位置を中心とする円や楕円などの領域（以下、音像領域とも称する）が定まる。ここで、受聴者の位置から音像領域の中心までのベクトルと、受聴者の位置から音像領域の端までのベクトルとのなす角度がspreadにより示される角度となるようにされる。

次に、受聴者の位置から音像領域の中心までのベクトルを含む、受聴者の位置から音像領域内の所定の複数の各位置までのベクトルがspreadベクトルとされる。

また、このようにして得られた複数の各spreadベクトルについて、spreadベクトルにより示される位置に音像が定位するような複数の各スピーカのゲイン値、すなわちVBAPゲインがVBAPにより算出される。

そして、同じスピーカについて算出された、複数のspreadベクトルにより示される位置ごとのVBAPゲインが加算され、加算後のVBAPゲインが正規化されて、最終的なVBAPゲインとされる。

スピーカごとにVBAPゲインが求められると、スピーカについて求められたVBAPゲインがオブジェクトのオーディオ信号、すなわちここではオブジェクト（音源）の音源信号に乗算され、その結果得られたオーディオ信号がスピーカに対応するチャネルのオーディオ信号とされる。

このようにして得られた各スピーカのオーディオ信号に基づき、それらのスピーカから音を出力すれば、オブジェクト（音源）の音が上述の音像領域全体に定位するように、オブジェクトの音が再生される。つまり、オブジェクトの音が音像領域全体に広がって定位する。

以上のようなスプレッド処理では、spreadの値が大きいほど、スプレッド効果、つまり音像の広がり度合いは大きくなる。

信号処理装置１１の後段でスプレッド処理を行う場合には、例えば信号処理装置１１において自動的にspreadを付与すればよい。

この場合、各オブジェクト（音源信号）に対して付与されるspreadの値は、例えば30度など、全オブジェクトで固定の値としてもよいし、オブジェクトごとに異なる値とされてもよい。

例えばオブジェクトごとに異なるspreadが付与される場合、spreadの値は、楽器情報により示される音源種別に対して予め定められた値とされるなど、楽器情報や音源信号の音圧、優先度情報、残響情報、音響情報などに基づいて決定されてもよい。

また、楽器情報などに基づいて、オブジェクト（音源）ごとにスプレッド処理を行うか否かを切り替えられるようにしてもよい。

さらに、スプレッド処理は、以上において説明した処理に限らず、単純にオブジェクトをコピー（複製）して追加する処理などであってもよい。

ここで、一例として楽器情報「others」のオブジェクト（音源）について、そのオブジェクトをコピーして音像を広げる処理について説明する。

そのような場合、楽器情報が「others」以外であるオブジェクトに対しては、音像を広げるための新たなオブジェクトは生成されない。

これに対して、楽器情報が「others」であるオブジェクトについては、そのオブジェクト（音源）の音源信号を、そのまま１または複数の新たなオブジェクトの音源信号とするとともに、それらの新たなオブジェクトに対して位置情報が付与される。

このとき、新たなオブジェクトの位置情報は、例えばもとの楽器情報「others」のオブジェクトの位置情報の水平角度や垂直角度に対して、所定値を加算して得られるものなどとされる。

なお、新たに生成された、音像を広げるためのオブジェクトの音源信号は、もとの楽器情報「others」のオブジェクトの音源信号そのものであってもよいし、その楽器情報「others」のオブジェクトの音源信号をゲイン調整したものであってもよい。

また、図３に示した音源配置の各音源信号のうち、楽器情報「others」の音源信号に対してのみオブジェクトをコピーして音像を広げる処理を行った場合、例えば図７に示すように新たな追加のオブジェクトが生成される。なお、図７において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７の例では、もとからあるオブジェクトOB11乃至オブジェクトOB18の配置位置は、図３に示した例と同じとなっている。

図７では、これらのもとからあるオブジェクトに加えて、音像を広げるための新たなオブジェクトOB31およびオブジェクトOB32がさらに生成されている。

すなわち、楽器情報「others」のＬチャネルのオブジェクトOB15に対してオブジェクトOB31が生成されており、同様に楽器情報「others」のＲチャネルのオブジェクトOB16に対してオブジェクトOB32が生成されている。

この例では、オブジェクトOB31はオブジェクトOB15の近傍に配置されており、受聴者にとっては、オブジェクトOB15の音が、オブジェクトOB15の配置位置およびオブジェクトOB31の配置位置から聞こえてくることになる。つまり、オブジェクトOB15の音の音像が広がって聞こえることになる。

オブジェクトOB31における場合と同様に、オブジェクトOB32もオブジェクトOB16の近傍に配置されており、これによりオブジェクトOB16の音の音像が広がって聞こえることになる。

例えば表面積が広い音源やバイオリンなどの楽器の音源に対しては、音像を広げる処理を行うと、より高い臨場感を得ることができるので、そのような特定の音源の音源信号に対して選択的に音像を広げる処理を行うと、全体として処理量を抑えつつ音質を向上させることができる。

〈信号処理装置の構成例〉
なお、以上において説明した人工ノイズの低減処理や、サラウンドリバーブ処理、スプレッド処理を組み合わせて行うようにしてもよい。

例えば人工ノイズの低減処理、サラウンドリバーブ処理、およびスプレッド処理のうちの任意の２以上の処理を組み合わせて行うようにすることができる。

ここで、人工ノイズの低減処理と音像を広げる処理を信号処理装置１１において組み合わせて行う場合について、具体的に説明する。

そのような場合、信号処理装置１１は、例えば図８に示すように構成される。なお、図８において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図８に示す信号処理装置１１は、音源分離処理部２１、位置情報生成部２２、位置情報修正部５１、信号処理部５２、および出力部２３を有している。

図８に示す信号処理装置１１の構成は、位置情報生成部２２と出力部２３の間に、新たに位置情報修正部５１および信号処理部５２が設けられている点で図１の信号処理装置１１と異なり、その他の点では図１の信号処理装置１１と同じ構成となっている。

位置情報修正部５１は、位置情報生成部２２から供給された各音源（オブジェクト）についての音源信号および位置情報に基づいて上述の人工ノイズの低減処理を行い、必要に応じて各音源の位置情報を修正する。

位置情報修正部５１は、必要に応じて修正した各音源の位置情報と、音源信号とを信号処理部５２に供給する。

信号処理部５２は、位置情報修正部５１から供給された各音源の音源信号および位置情報に基づいて上述の音像を広げる処理を行い、その結果得られた各音源の音源信号および位置情報を出力部２３に供給する。

例えば信号処理部５２では、音像を広げる処理として上述したサラウンドリバーブ処理とスプレッド処理のためのspreadを生成する処理の少なくとも何れかが行われる。

例えばサラウンドリバーブ処理が行われる場合には、リバーブオブジェクトに対応する新たなオブジェクト（音源）の音源信号および位置情報が生成され、spreadを生成する処理が行われる場合には、各音源の位置情報に生成されたspreadが付加される。

出力部２３は、信号処理部５２から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。

〈オブジェクトデータ生成処理の説明〉
次に、信号処理装置１１が図８に示した構成とされる場合におけるオブジェクトデータ生成処理について説明する。

すなわち、以下、図９のフローチャートを参照して、図８に示した信号処理装置１１によるオブジェクトデータ生成処理について説明する。

なお、ステップＳ５１およびステップＳ５２の処理は図４のステップＳ１１およびステップＳ１２の処理と同様であるので、その説明は省略する。但し、ステップＳ５２では、位置情報生成部２２は、自動配置処理により得られた各音源の音源信号および位置情報を位置情報修正部５１に供給する。

ステップＳ５３において位置情報修正部５１は、位置情報生成部２２から供給された各音源の音源信号および位置情報に基づいて、人工ノイズの低減処理を行う。

すなわち、位置情報修正部５１は、上述の式（１）を計算して各音源信号の音圧level(i_obj)を算出するとともに、各音源信号の音圧level(i_obj)と閾値thre1とを比較し、その比較結果に基づいて音源比ratioを求める。

そして、位置情報修正部５１は、音源比ratioが閾値thre2より大きい場合には位置情報の修正を行わず、音源比ratioが閾値thre2以下である場合には、上述の式（２）乃至式（５）により、各音源の位置情報における水平角度と垂直角度を修正する。

位置情報修正部５１は、必要に応じて各音源の位置情報を修正すると、それらの各音源の音源信号と位置情報を信号処理部５２に供給する。

ステップＳ５４において信号処理部５２は、位置情報修正部５１から供給された各音源の音源信号および位置情報に基づいて音像を広げる処理を行い、その結果得られた各音源の音源信号および位置情報を出力部２３に供給する。

例えば音像を広げる処理としてサラウンドリバーブ処理を行う場合、信号処理部５２は各音源を順番に処理対象の音源として選択する。

そして、信号処理部５２は処理対象の音源の位置情報に基づいてＭ個の再生位置のなかから、処理対象の音源の位置情報により示される位置に最も近い再生位置を探索し、その探索結果として得られた再生位置に関するＮ個のインパルス応答をメモリから読み出す。

さらに信号処理部５２は、処理対象の音源の音源信号と、読み出したＮ個のインパルス応答とのそれぞれに基づいて、Ｎ個のインパルス応答ごとにフィルタリング処理とゲイン調整を行うことで、Ｎ個の新たな音源の音源信号と位置情報を生成する。

信号処理部５２は、全ての音源を処理対象の音源とし、新たな音源の音源信号と位置情報を生成すると、それらの新たな音源のうち、位置情報が同じであるものの音源信号を加算して１つの音源の音源信号とする。

このようなサラウンドリバーブ処理により、もとの音源の音源信号と位置情報に加えて、リバーブオブジェクトに対応する新たな音源の音源信号と位置情報が得られる。

また、音像を広げる処理としてspreadを生成する処理が行われる場合、信号処理部５２は、必要に応じて音源信号や位置情報を用いて、各音源のspreadを生成し、生成したspreadを音源信号や位置情報とともに出力部２３に供給する。

ステップＳ５５において出力部２３は、信号処理部５２から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。ステップＳ５５では、図４のステップＳ１３と同様の処理が行われる。

なお、出力部２３は信号処理部５２から各音源のspreadが供給されたときには、各音源のspreadと位置情報を含むメタデータを生成する。また、メタデータには楽器情報やチャネル情報などが含まれるようにしてもよい。

出力部２３は、このようにしてオブジェクトデータを生成すると、生成したオブジェクトデータを後段に出力し、オブジェクトデータ生成処理は終了する。

以上のようにして信号処理装置１１は、オブジェクトデータを生成する場合に、適宜、人工ノイズの低減処理や音像を広げる処理を行う。このようにすることで、人工的なノイズを低減させたり、音像を広げたりして、さらに音質を向上させることができる。

〈第２の実施の形態の変形例〉
〈信号処理装置の構成例〉
さらに、以上において説明した信号処理装置１１は、符号化装置として機能するサーバなどの符号化側の装置であってもよいし、ヘッドホンやパーソナルコンピュータ、ポータブルプレーヤ、スマートホンなどの復号側の装置であってもよい。

例えば信号処理装置１１が符号化側の装置である場合、信号処理装置１１は図１０に示す構成とされる。なお、図１０において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０に示す信号処理装置１１は、音源分離処理部２１、位置情報生成部２２、位置情報修正部５１、信号処理部５２、出力部２３、および符号化部８１を有している。

図１０に示す信号処理装置１１の構成は、出力部２３の後段に新たに符号化部８１が設けられている点で図８の信号処理装置１１と異なり、その他の点では図８の信号処理装置１１と同じ構成となっている。

符号化部８１は、出力部２３から供給されたオブジェクトデータを符号化して符号化ビットストリームを生成し、クライアント等の装置に符号化ビットストリームを送信する。

例えば符号化ビットストリームには、オブジェクトデータを構成する各オブジェクトの音源信号を符号化して得られた符号化オーディオデータと、オブジェクトデータを構成する各オブジェクトのメタデータを符号化して得られた符号化メタデータとが含まれている。

また、信号処理装置１１が復号側の装置である場合、信号処理装置１１は、例えば図１１に示す構成とされる。なお、図１１において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１１に示す信号処理装置１１は、音源分離処理部２１、位置情報生成部２２、位置情報修正部５１、信号処理部５２、出力部２３、およびレンダリング処理部１１１を有している。

図１１に示す信号処理装置１１の構成は、出力部２３の後段に新たにレンダリング処理部１１１が設けられている点で図８の信号処理装置１１と異なり、その他の点では図８の信号処理装置１１と同じ構成となっている。

レンダリング処理部１１１は、出力部２３から供給されたオブジェクトデータとしての各オブジェクトの音源信号とメタデータとに基づいてVBAP等のレンダリング処理を行い、コンテンツの音、すなわち各オブジェクトの音を再生するためのステレオまたはマルチチャネルの再生オーディオ信号を生成する。

ここで、例えばオブジェクトのメタデータにspreadが含まれている場合には、レンダリング処理部１１１は、レンダリング処理として上述のスプレッド処理を行い、再生オーディオ信号を生成する。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出する音源分離部と、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部と
を備える信号処理装置。
（２）
前記位置情報生成部は、前記音源分離により得られた前記音源信号の音源種別に基づいて、前記位置情報を生成する
（１）に記載の信号処理装置。
（３）
前記位置情報生成部は、前記音源分離により得られた前記音源信号のチャネル情報に基づいて、前記位置情報を生成する
（１）または（２）に記載の信号処理装置。
（４）
前記位置情報生成部は、前記音源分離により得られた前記音源信号に基づいて前記位置情報を生成する
（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
前記位置情報生成部は、決定木モデルまたはニューラルネットワークに基づいて前記位置情報を生成する
（１）乃至（４）の何れか一項に記載の信号処理装置。
（６）
前記位置情報生成部は、音源種別ごとに学習された前記決定木モデルまたは前記ニューラルネットワークに基づいて前記位置情報を生成する
（５）に記載の信号処理装置。
（７）
前記入力オーディオ信号から抽出された前記音源信号の数、および前記音源信号の音圧に基づいて、前記位置情報を修正する位置情報修正部をさらに備える
（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
前記音源信号および前記位置情報に基づいてサラウンドリバーブ処理を行うことで、新たな前記音源信号および前記位置情報を生成する信号処理部をさらに備える
（１）乃至（７）の何れか一項に記載の信号処理装置。
（９）
前記音源分離により得られた前記音源信号に対して、スプレッド処理のためのパラメータを生成する信号処理部をさらに備える
（１）乃至（８）の何れか一項に記載の信号処理装置。
（１０）
前記音源信号は、ステレオのオーディオ信号であり、
前記出力部は、前記音源分離により得られたステレオのＬチャネルの前記音源信号およびＲチャネルの前記音源信号のそれぞれを、１つのオブジェクトの前記音源信号とする
（１）乃至（９）の何れか一項に記載の信号処理装置。
（１１）
前記データを符号化する符号化部をさらに備える
（１）乃至（１０）の何れか一項に記載の信号処理装置。
（１２）
前記データに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
（１）乃至（１０）の何れか一項に記載の信号処理装置。
（１３）
前記位置情報生成部は、音源種別ごとに異なる方法で前記位置情報を生成する
（１）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
信号処理装置が、
複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出し、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
信号処理方法。
（１５）
複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出し、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
ステップを含む処理をコンピュータに実行させるプログラム。

１１信号処理装置，２１音源分離処理部，２２位置情報生成部，２３出力部，５１位置情報修正部，５２信号処理部，８１符号化部，１１１レンダリング処理部

Claims

複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出する音源分離部と、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部と
を備える信号処理装置。
前記位置情報生成部は、前記音源分離により得られた前記音源信号の音源種別に基づいて、前記位置情報を生成する
請求項１に記載の信号処理装置。
前記位置情報生成部は、前記音源分離により得られた前記音源信号のチャネル情報に基づいて、前記位置情報を生成する
請求項１に記載の信号処理装置。
前記位置情報生成部は、前記音源分離により得られた前記音源信号に基づいて前記位置情報を生成する
請求項１に記載の信号処理装置。
前記位置情報生成部は、決定木モデルまたはニューラルネットワークに基づいて前記位置情報を生成する
請求項１に記載の信号処理装置。
前記位置情報生成部は、音源種別ごとに学習された前記決定木モデルまたは前記ニューラルネットワークに基づいて前記位置情報を生成する
請求項５に記載の信号処理装置。
前記入力オーディオ信号から抽出された前記音源信号の数、および前記音源信号の音圧に基づいて、前記位置情報を修正する位置情報修正部をさらに備える
請求項１に記載の信号処理装置。
前記音源信号および前記位置情報に基づいてサラウンドリバーブ処理を行うことで、新たな前記音源信号および前記位置情報を生成する信号処理部をさらに備える
請求項１に記載の信号処理装置。
前記音源分離により得られた前記音源信号に対して、スプレッド処理のためのパラメータを生成する信号処理部をさらに備える
請求項１に記載の信号処理装置。
前記音源信号は、ステレオのオーディオ信号であり、
前記出力部は、前記音源分離により得られたステレオのＬチャネルの前記音源信号およびＲチャネルの前記音源信号のそれぞれを、１つのオブジェクトの前記音源信号とする
請求項１に記載の信号処理装置。
前記データを符号化する符号化部をさらに備える
請求項１に記載の信号処理装置。
前記データに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
請求項１に記載の信号処理装置。
前記位置情報生成部は、音源種別ごとに異なる方法で前記位置情報を生成する
請求項１に記載の信号処理装置。
信号処理装置が、
複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出し、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
信号処理方法。
複数の音源信号が含まれている入力オーディオ信号から、音源分離により１または複数の前記音源信号を抽出し、
前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
ステップを含む処理をコンピュータに実行させるプログラム。