WO2011114932A1

WO2011114932A1 - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: WO2011114932A1
Application number: PCT/JP2011/055293
Authority: WO
Inventors: 戸栗　康裕; 鈴木　志朗; 松本　淳; 前田　祐児; 松村　祐樹
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-17
Filing date: 2011-03-08
Publication date: 2011-09-22
Anticipated expiration: 2012-09-17
Also published as: CN102792369A; BR112012022784A2; EP2525352A1; EP2525352B1; JP2011197105A; US20130006618A1; CN102792369B; JP5299327B2; EP2525352A4; US8977541B2

Abstract

　本発明は、マルチチャンネルのオーディオ信号がダウンミックスされて符号化されている場合に、そのオーディオ信号の復号時の遅延や演算量の増加を抑制することができる音声処理装置、音声処理方法、およびプログラムに関する。　逆多重化部１０１は、ＢＣパラメータが多重化された符号化データを取得する。無相関周波数時間変換部１０２は、その符号化データから得られるモノラル信号Ｘ_Ｍの周波数スペクトル係数をIMDCT変換するとともにIMDST変換し、時間領域信号であるモノラル信号Ｘ_Ｍと、そのモノラル信号Ｘ_Ｍと略無相関な信号Ｘ_Ｄ´を生成する。ステレオ合成部１０３は、ＢＣパラメータを用いてモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´を合成することにより、ステレオ信号を生成する。本発明は、例えば、ダウンミックスされて符号化されているステレオ信号を復号する音声処理装置に適用することができる。

Description

音声処理装置、音声処理方法、およびプログラム

　本発明は、音声処理装置、音声処理方法、およびプログラムに関し、特に、マルチチャンネルのオーディオ信号がダウンミックスされて符号化されている場合に、そのオーディオ信号の復号時の遅延や演算量の増加を抑制することができるようにした音声処理装置、音声処理方法、およびプログラムに関する。

　マルチチャンネルのオーディオ信号を符号化する符号化装置は、チャンネル間の関係を利用した符号化を行うことで効率の高い符号化を行うことができる。このような符号化としては、例えば、インテンシティ符号化、M/Sステレオ符号化、空間符号化などがある。空間符号化を行う符号化装置は、ｎチャンネルのオーディオ信号をｍチャンネル（ｍ＜ｎ）のオーディオ信号にダウンミックスして符号化し、そのダウンミックスの際にチャンネル間の関係を表す空間パラメータを求め、その空間パラメータを符号化データとともに伝送する。空間パラメータと符号化データを受信する復号装置は、符号化データを復号し、空間パラメータを用いて、復号の結果得られるｍチャンネルのオーディオ信号から元のｎチャンネルのオーディオ信号を復元する。

　このような空間符号化は、バイノーラルキュー符号化(Binaural cue coding)として知られている。空間パラメータ（以下、BCパラメータという）としては、ILD (Inter-channel Level Difference)（チャンネル間レベル差)、IPD(Inter-channel Phase Difference)（チャンネル間位相差）、ICC(Inter-channel Correlation)（チャンネル間相関)などが用いられる。ILDは、チャンネル間の信号の大きさの比率を示すパラメータである。IPDは、チャンネル間の位相差を示すパラメータであり、ICCは、チャンネル間の相関性を示すパラメータである。

　図１は、空間符号化を行う符号化装置の構成例を示すブロック図である。

　なお、以下では、説明を簡単にするため、ｎ＝２、ｍ＝１とする。即ち、符号化対象のオーディオ信号はステレオのオーディオ信号（以下、ステレオ信号という）であり、符号化の結果得られる符号化データはモノラルのオーディオ信号（以下、モノラル信号という）の符号化データである。

　図１の符号化装置１０は、チャンネルダウンミックス部１１、空間パラメータ検出部１２、オーディオ信号符号化部１３、および多重化部１４により構成される。符号化装置１０には、左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒからなるステレオ信号が符号化対象として入力され、符号化装置１０は、モノラル信号の符号化データを出力する。

　具体的には、符号化装置１０のチャンネルダウンミックス部１１は、符号化対象として入力されたステレオ信号をモノラル信号Ｘ_Ｍにダウンミックスする。そして、チャンネルダウンミックス部１１は、モノラル信号を空間パラメータ検出部１２とオーディオ信号符号化部１３に供給する。

　空間パラメータ検出部１２は、チャンネルダウンミックス部１１から供給されるモノラル信号Ｘ_Ｍと、符号化対象として入力されたステレオ信号とに基づいて、ＢＣパラメータを検出し、多重化部１４に供給する。

　オーディオ信号符号化部１３は、チャンネルダウンミックス部１１から供給されるモノラル信号を符号化し、その結果得られる符号化データを多重化部１４に供給する。

　多重化部１４は、オーディオ信号符号化部１３から供給される符号化データと、空間パラメータ検出部１２から供給されるＢＣパラメータを多重化して出力する。

　図２は、図１のオーディオ信号符号化部１３の構成例を示すブロック図である。

　なお、図２のオーディオ信号符号化部１３の構成は、オーディオ信号符号化部１３が例えばMPEG-2 AAC LC (Moving Picture Experts Group phase 2 Advanced Audio Coding Low Complexity）プロファイル方式で符号化を行う場合の構成である。但し、説明を簡単にするため、図２では構成を簡略化して記載している。

　図２のオーディオ信号符号化部１３は、MDCT（Modified Discrete Cosine Transform）（修正コサイン変換）部２１、スペクトル量子化部２２、エントロピー符号化部２３、および多重化部２４により構成される。

　MDCT部２１は、チャンネルダウンミックス部１１から供給されるモノラル信号に対してMDCTを行い、時間領域信号であるモノラル信号を周波数領域の係数であるMDCT係数に変換する。MDCT部２１は、変換の結果得られるMDCT係数を周波数スペクトル係数としてスペクトル量子化部２２に供給する。

　スペクトル量子化部２２は、MDCT部２１から供給される周波数スペクトル係数を量子化し、エントロピー符号化部２３に供給する。また、スペクトル量子化部２２は、この量子化に関する情報である量子化情報を多重化部２４に供給する。量子化情報としては、スケールファクタ、量子化ビット情報などがある。

　エントロピー符号化部２３は、スペクトル量子化部２２から供給される量子化された周波数スペクトル係数に対して、ハフマン符号化、算術符号化などのエントロピー符号化を行い、可逆圧縮する。エントロピー符号化部２３は、エントロピー符号化の結果得られるデータを多重化部２４に供給する。

　多重化部２４は、エントロピー符号化部２３から供給されるデータと、スペクトル量子化部２２から供給される量子化情報とを多重化し、その結果得られるデータを符号化データとして多重化部１４（図１）に供給する。

　図３は、図１のオーディオ信号符号化部１３の他の構成例を示すブロック図である。

　なお、図３のオーディオ信号符号化部１３の構成は、例えばMPEG-2 AAC SSR（Scalable Sample Rate）プロファイルや、MP3(MPEG Audio Layer-3)などの方式で符号化を行う場合の構成である。但し、説明を簡単にするため、図３では構成を簡略化して記載している。

　図３のオーディオ信号符号化部１３は、分析フィルタバンク３１、MDCT部３２－１乃至３２－Ｎ（Ｎは任意の整数）、スペクトル量子化部３３、エントロピー符号化部３４、および多重化部３５により構成される。

　分析フィルタバンク３１は、QMF（Quadrature Mirror Filterbank）バンクや、PQF（Poly-phase Quadrature Filter）バンクなどにより構成される。分析フィルタバンク３１は、チャンネルダウンミックス部１１から供給されるモノラル信号を周波数によってＮ個のグループに分割する。分析フィルタバンク３１は、分割の結果得られるＮ個のサブバンド信号をMDCT部３２－１乃至３２－Ｎにそれぞれ供給する。

　MDCT部３２－１乃至３２－Ｎは、それぞれ、分析フィルタバンク３１から供給されるサブバンド信号に対してMDCTを行い、時間領域信号であるサブバンド信号を周波数領域の係数であるMDCT係数に変換する。そして、MDCT部３２－１乃至３２－Ｎは、それぞれ、各サブバンド信号のMDCT係数を周波数スペクトル係数として、スペクトル量子化部３３に供給する。

　スペクトル量子化部３３は、MDCT部３２－１乃至３２－Ｎから供給されるＮ個の周波数スペクトル係数を、それぞれ、量子化し、エントロピー符号化部３４に供給する。また、スペクトル量子化部３３は、この量子化の量子化情報を多重化部３５に供給する。

　エントロピー符号化部３４は、スペクトル量子化部３３から供給されるＮ個の量子化された周波数スペクトル係数のそれぞれに対して、ハフマン符号化や算術符号化などのエントロピー符号化を行い、可逆圧縮する。エントロピー符号化部３４は、エントロピー符号化の結果得られるＮ個のデータを多重化部３５に供給する。

　多重化部３５は、エントロピー符号化部３４から供給されるＮ個のデータと、スペクトル量子化部３３から供給される量子化情報とを多重化し、その結果得られるデータを符号化データとして多重化部１４（図１）に供給する。

　図４は、図１の符号化装置１０により空間符号化された符号化データを復号する復号装置の構成例を示すブロック図である。

　図４の復号装置４０は、逆多重化部４１、オーディオ信号復号部４２、生成パラメータ計算部４３、およびステレオ信号生成部４４により構成される。復号装置４０は、図１の符号化装置から供給される符号化データを復号し、ステレオ信号を生成する。

　具体的には、復号装置４０の逆多重化部４１は、図１の符号化装置１０から供給される多重化された符号化データに対して逆多重化を行い、符号化データとＢＣパラメータを得る。逆多重化部４１は、符号化データをオーディオ信号復号部４２に供給し、ＢＣパラメータを生成パラメータ計算部４３に供給する。

　オーディオ信号復号部４２は、逆多重化部４１から供給される符号化データを復号し、その結果得られる時間領域信号であるモノラル信号Ｘ_Ｍをステレオ信号生成部４４に供給する。

　生成パラメータ計算部４３は、逆多重化部４１から供給されるＢＣパラメータを用いて、それとともに多重化された符号化データの復号結果であるモノラル信号からステレオ信号を生成するためのパラメータである生成パラメータを計算する。生成パラメータ計算部４３は、その生成パラメータをステレオ信号生成部４４に供給する。

　ステレオ信号生成部４４は、生成パラメータ計算部４３から供給される生成パラメータを用いて、オーディオ信号復号部４２から供給されるモノラル信号Ｘ_Ｍから、左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒを生成する。ステレオ信号生成部４４は、その左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒをステレオ信号として出力する。

　図５は、図４のオーディオ信号復号部４２の構成例を示すブロック図である。

　なお、図５のオーディオ信号復号部４２の構成は、例えばMPEG-2 AAC LCプロファイル方式で符号化された符号化データが復号装置４０に入力される場合の構成である。即ち、図５のオーディオ信号復号部４２は、図２のオーディオ信号符号化部１３で符号化された符号化データを復号するものである。

　図５のオーディオ信号復号部４２は、逆多重化部５１、エントロピー復号部５２、スペクトル逆量子化部５３、およびIMDCT部５４により構成される。

　逆多重化部５１は、図４の逆多重化部４１から供給される符号化データに対して逆多重化を行い、量子化され、エントロピー符号化された周波数スペクトル係数と量子化情報を得る。逆多重化部５１は、量子化され、エントロピー符号化された周波数スペクトル係数をエントロピー復号部５２に供給し、量子化情報をスペクトル逆量子化部５３に供給する。

　エントロピー復号部５２は、逆多重化部５１から供給される周波数スペクトル係数に対して、ハフマン復号や算術復号などのエントロピー復号を行い、量子化された周波数スペクトル係数を復元する。エントロピー復号部５２は、その周波数スペクトル係数をスペクトル逆量子化部５３に供給する。

　スペクトル逆量子化部５３は、逆多重化部５１から供給される量子化情報に基づいて、エントロピー復号部５２から供給される量子化された周波数スペクトル係数を逆量子化し、周波数スペクトル係数を復元する。そして、スペクトル逆量子化部５３は、その周波数スペクトル係数をIMDCT（Inverse MDCT）（逆修正コサイン変換）部５４に供給する。

　IMDCT部５４は、スペクトル逆量子化部５３から供給される周波数スペクトル係数に対してIMDCTを行い、周波数スペクトル係数を時間領域信号であるモノラル信号Ｘ_Ｍに変換する。IMDCT部５４は、そのモノラル信号Ｘ_Ｍをステレオ信号生成部４４（図４）に供給する。

　図６は、図４のオーディオ信号復号部４２の他の構成例を示すブロック図である。

　なお、図６のオーディオ信号復号部４２の構成は、例えばMPEG-2 AAC SSRプロファイルや、MP3などの方式で符号化された符号化データが復号装置４０に入力される場合の構成である。即ち、図６のオーディオ信号復号部４２は、図３のオーディオ信号符号化部１３で符号化された符号化データを復号するものである。

　図６のオーディオ信号復号部４２は、逆多重化部６１、エントロピー復号部６２、スペクトル逆量子化部６３、IMDCT部６４－１乃至６４－Ｎ、および合成フィルタバンク６５により構成される。

　逆多重化部６１は、図４の逆多重化部４１から供給される符号化データに対して逆多重化を行い、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数と量子化情報を得る。逆多重化部６１は、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数をエントロピー復号部６２に供給し、量子化情報をスペクトル逆量子化部６３に供給する。

　エントロピー復号部６２は、逆多重化部６１から供給されるＮ個のサブバンド信号の周波数スペクトル係数のそれぞれに対してハフマン復号や算術復号などのエントロピー復号を行い、スペクトル逆量子化部６３に供給する。

　スペクトル逆量子化部６３は、逆多重化部６１から供給される量子化情報に基づいて、エントロピー復号部６２から供給されるエントロピー復号の結果得られたＮ個のサブバンド信号の周波数スペクトル係数をそれぞれ逆量子化する。これにより、Ｎ個のサブバンド信号の周波数スペクトル係数が復元される。スペクトル逆量子化部６３は、復元されたＮ個のサブバンド信号の周波数スペクトル係数をIMDCT部６４－１乃至６４－Ｎに１つずつ供給する。

　IMDCT部６４－１乃至６４－Ｎは、それぞれ、スペクトル逆量子化部６３から供給される周波数スペクトル係数に対してIMDCTを行い、周波数スペクトル係数を時間領域信号であるサブバンド信号に変換する。IMDCT部６４－１乃至６４－Ｎは、変換の結果得られるサブバンド信号を、それぞれ合成フィルタバンク６５に供給する。

　合成フィルタバンク６５は、逆PQFや逆QMFなどにより構成される。合成フィルタバンク６５は、IMDCT部６４－１乃至６４－Ｎから供給されるＮ個のサブバンド信号を合成し、その結果得られる信号をモノラル信号Ｘ_Ｍとしてステレオ信号生成部４４（図４）に供給する。

　図７は、図４のステレオ信号生成部４４の構成例を示すブロック図である。

　図７のステレオ信号生成部４４は、残響信号生成部７１とステレオ合成部７２により構成される。

　残響信号生成部７１は、図４のオーディオ信号復号部４２から供給されるモノラル信号Ｘ_Ｍを用いて、このモノラル信号Ｘ_Ｍとは無相関な信号Ｘ_Ｄを生成する。残響信号生成部７１としては、一般的に、コムフィルタやオールパスフィルタなどが用いられる。この場合、残響信号生成部７１は、モノラル信号Ｘ_Ｍの残響(リバーブ）信号を信号Ｘ_Ｄとして生成する。

　なお、残響信号生成部７１としては、フィードバック遅延ネットワーク（Feedback Delay Network（FDN））が用いられることもある（例えば、特許文献１参照）。

　残響信号生成部７１は、生成された信号Ｘ_Ｄをステレオ合成部７２に供給する。

　ステレオ合成部７２は、図４の生成パラメータ計算部４３から供給される生成パラメータを用いて、図４のオーディオ信号復号部４２から供給されるモノラル信号Ｘ_Ｍと、残響信号生成部７１から供給される信号Ｘ_Ｄとを合成する。そして、ステレオ合成部７２は、合成の結果得られる左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒをステレオ信号として出力する。

　図８は、図４のステレオ信号生成部４４の他の構成例を示すブロック図である。

　図８のステレオ信号生成部４４は、分析フィルタバンク８１、サブバンドステレオ信号生成部８２－１乃至８２－Ｐ（Ｐは任意の数）、および合成フィルタバンク８３により構成される。

　なお、図４のステレオ信号生成部４４の構成が図８に示す構成である場合、図１の符号化装置１０の空間パラメータ検出部１２では、サブバンド信号ごとにＢＣパラメータが検出される。

　具体的には、例えば、空間パラメータ検出部１２は、２つの分析フィルタバンクを有する。そして、空間パラメータ検出部１２は、一方の分析フィルタバンクでステレオ信号を周波数によって分割し、他方の分析フィルタバンクでチャンネルダウンミックス部１１からのモノラル信号を周波数によって分割する。空間パラメータ検出部１２は、分割の結果得られるステレオ信号のサブバンド信号とモノラル信号のサブバンド信号に基づいて、サブバンド信号ごとにＢＣパラメータを検出する。そして、図４の生成パラメータ計算部４３には、逆多重化部４１から各サブバンド信号のＢＣパラメータが供給され、生成パラメータ計算部４３は、サブバンド信号ごとに生成パラメータを生成する。

　分析フィルタバンク８１は、QMF（Quadrature Mirror Filter）バンクなどにより構成される。分析フィルタバンク８１は、図４のオーディオ信号復号部４２から供給されるモノラル信号Ｘ_Ｍを周波数によってＰ個のグループに分割する。分析フィルタバンク８１は、分割の結果得られるＰ個のサブバンド信号を、サブバンドステレオ信号生成部８２－１乃至８２－Ｐにそれぞれ供給する。

　サブバンドステレオ信号生成部８２－１乃至８２－Ｐは、それぞれ、残響信号生成部とステレオ合成部により構成される。各サブバンドステレオ信号生成部８２－１乃至８２－Ｐの構成は同一であるので、ここでは、サブバンドステレオ信号生成部８２－Ｂについてのみ説明する。

　サブバンドステレオ信号生成部８２－Ｂは、残響信号生成部９１とステレオ合成部９２により構成される。残響信号生成部９１は、分析フィルタバンク８１から供給されるモノラル信号のサブバンド信号Ｘ_ｍ ^Ｂを用いて、このサブバンド信号Ｘ_ｍ ^Ｂとは無関係な信号Ｘ_Ｄ ^Ｂを生成し、信号Ｘ_Ｄ ^Ｂをステレオ合成部９２に供給する。

　ステレオ合成部９２は、図４の生成パラメータ計算部４３から供給されるサブバンド信号Ｘ_ｍ ^Ｂの生成パラメータを用いて、分析フィルタバンク８１から供給されるサブバンド信号Ｘ_ｍ ^Ｂと、残響信号生成部９１から供給される信号Ｘ_Ｄ ^Ｂとを合成する。そして、ステレオ合成部９２は、合成の結果得られる左用のオーディオ信号Ｘ_Ｌ ^Ｂと右用のオーディオ信号Ｘ_Ｒ ^Ｂを、ステレオ信号のサブバンド信号として合成フィルタバンク８３に供給する。

　合成フィルタバンク８３は、サブバンドステレオ信号生成部８２－１乃至８２－Ｐから供給される各サブバンド信号のステレオ信号を左用および右用ごとに合成する。合成フィルタバンク８３は、その結果得られる左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒをステレオ信号として出力する。

　なお、図８のステレオ信号生成部４４の構成は、例えば、特許文献２に記載されている。

　また、インテンシティ符号化を行う符号化装置は、入力されたステレオ信号の所定の周波数帯域以上の周波数の各チャンネルの周波数スペクトル係数をミックスし、モノラル信号の周波数スペクトル係数を生成する。そして、符号化装置は、このモノラル信号の周波数スペクトル係数、および、チャンネル間の周波数スペクトル係数のレベル比を符号化結果として出力する。

　具体的には、インテンシティ符号化を行う符号化装置は、ステレオ信号に対してMDCT変換を行い、その結果得られる各チャンネルの周波数スペクトル係数のうち、所定の周波数帯域以上の周波数の各チャンネルの周波数スペクトル係数をミックスして共通化する。そして、インテンシティ符号化を行う符号化装置は、共通化された周波数スペクトル係数を量子化してエントロピー符号化を行い、その結果得られるデータを量子化情報と多重化して符号化データとする。また、インテンシティ符号化を行う符号化装置は、チャンネル間の周波数スペクトル係数のレベル比を求め、そのレベル比を符号化データと多重化して出力する。

　また、インテンシティ復号を行う復号装置は、チャンネル間の周波数スペクトル係数のレベル比が多重化された符号化データに対して逆多重化を行い、その結果得られる符号化データをエントロピー復号し、量子化情報に基づいて逆量子化する。また、インテンシティ復号を行う復号装置は、逆量子化の結果得られた周波数スペクトル係数と、符号化データに多重化されたチャンネル間の周波数スペクトル係数のレベル比とに基づいて、各チャンネルの周波数スペクトル係数を復元する。そして、インテンシティ復号を行う復号装置は、復元された各チャンネルの周波数スペクトル係数に対してIMDCTを行い、所定の周波数帯域以上の周波数のステレオ信号を得る。

　このようなインテンシティ符号化は、符号化効率を向上させるためによく用いられるが、ステレオ信号の高域の周波数スペクトル係数をモノラル化してチャンネル間のレベル差のみで表現しているので、本来のステレオ感がやや失われる。

特開２００６－３２５１６２号公報特表２００６－５２４８３２号公報

　上述したように、従来の空間符号化された符号化データを復号する復号装置４０は、ステレオ信号の生成の際に用いられるモノラル信号Ｘ_Ｍと無関係な信号Ｘ_Ｄや信号Ｘ_Ｄ ^１乃至Ｘ_Ｄ ^Ｐを、時間領域信号であるモノラル信号Ｘ_Ｍを用いて生成する。

　従って、信号Ｘ_Ｄを生成する残響信号生成部７１や、信号Ｘ_Ｄ ^１乃至Ｘ_Ｄ ^Ｐを生成する分析フィルタバンク８１とサブバンドステレオ信号生成部８２－１乃至８２－Ｐの残響信号生成部９１によって遅延が発生し、復号装置４０のアルゴリズム遅延が増大する。このことは、例えば、復号装置４０に即時の応答特性が要求される場合や復号装置４０がリアルタイム通信に用いられる場合などの低遅延特性が重要になる場合に問題となる。

　また、残響信号生成部７１や、分析フィルタバンク８１とサブバンドステレオ信号生成部８２－１乃至８２－Ｐの残響信号生成部９１におけるフィルタ演算などにより、演算量が増大し、必要なバッファ容量も増大する。

　本発明は、このような状況に鑑みてなされたものであり、マルチチャンネルのオーディオ信号がダウンミックスされて符号化されている場合に、そのオーディオ信号の復号時の遅延や演算量の増加を抑制することができるようにするものである。

　本発明の一側面の音声処理装置は、複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得手段と、前記取得手段により取得された前記周波数領域の係数を、第１の時間領域信号に変換する第１の変換手段と、前記取得手段により取得された前記周波数領域の係数を、第２の時間領域信号に変換する第２の変換手段と、前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成手段とを備え、前記第１の変換手段による変換における基底と前記第２の変換手段による変換における基底は直交する音声処理装置である。

　本発明の一側面の音声処理方法およびプログラムは、本発明の一側面の音声処理装置に対応する。

　本発明の一側面においては、複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとが取得され、取得された前記周波数領域の係数が、第１の時間領域信号に変換され、取得された前記周波数領域の係数が、第２の時間領域信号に変換され、前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号が合成されることにより、前記複数チャンネルの音声信号が生成される。なお、第１の時間領域信号への変換における基底と第２の時間領域信号への変換における基底は直交する。

　本発明の一側面の音声処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　本発明の一側面によれば、マルチチャンネルのオーディオ信号がダウンミックスされて符号化されている場合に、そのオーディオ信号の復号時の遅延や演算量の増加を抑制することができる。

空間符号化を行う符号化装置の構成例を示すブロック図である。図１のオーディオ信号符号化部の構成例を示すブロック図である。図１のオーディオ信号符号化部の他の構成例を示すブロック図である。空間符号化された符号化データを復号する復号装置の構成例を示すブロック図である。図４のオーディオ信号復号部の構成例を示すブロック図である。図４のオーディオ信号復号部の他の構成例を示すブロック図である。図４のステレオ信号生成部の構成例を示すブロック図である。図４のステレオ信号生成部の他の構成例を示すブロック図である。本発明を適用した音声処理装置の第１実施の形態の構成例を示すブロック図である。図９の無相関周波数時間変換部の詳細構成例を示すブロック図である。図９の無相関周波数時間変換部の他の詳細構成例を示すブロック図である。図９のステレオ合成部の詳細構成例を示すブロック図である。各信号のベクトルを表す図である。図９の音声処理装置による復号処理を説明するフローチャートである。本発明を適用した音声処理装置の第２実施の形態の構成例を示すブロック図である。図１５の音声処理装置による復号処理を説明するフローチャートである。本発明を適用した音声処理装置の第３実施の形態の構成例を示すブロック図である。図１７の音声処理装置による復号処理を説明するフローチャートである。本発明を適用した音声処理装置の第４実施の形態の構成例を示すブロック図である。図１９の音声処理装置による復号処理を説明するフローチャートである。コンピュータの一実施の形態の構成例を示す図である。

＜第１実施の形態＞
［音声処理装置の第１実施の形態の構成例］
　図９は、本発明を適用した音声処理装置の第１実施の形態の構成例を示すブロック図である。

　図９に示す構成のうち、図４および図５の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図９の音声処理装置１００の構成は、主に、逆多重化部４１および逆多重化部５１の代わりに逆多重化部１０１が設けられている点、IMDCT部５４および残響信号生成部７１の代わりに無相関周波数時間変換部１０２が設けられている点、および、ステレオ合成部７２、生成パラメータ計算部４３の代わりに、ステレオ合成部１０３、生成パラメータ計算部１０４が設けられている点が、図５のオーディオ信号復号部４２と図７のステレオ信号生成部４４を備える図４の復号装置４０の構成と異なる。

　音声処理装置１００は、例えば、図２のオーディオ信号符号化部１３を備える図１の符号化装置１０により空間符号化された符号化データを復号する。このとき、音声処理装置１００は、ステレオ信号の生成の際に用いられるモノラル信号Ｘ_Ｍと無関係な信号Ｘ_Ｄ´を、モノラル信号Ｘ_Ｍの周波数スペクトル係数を用いて生成する。

　具体的には、音声処理装置１００の逆多重化部１０１（取得手段）は、図４の逆多重化部４１と図５の逆多重化部５１に対応する。即ち、逆多重化部１０１は、図１の符号化装置１０から供給される多重化された符号化データに対して逆多重化を行い、符号化データとＢＣパラメータを取得する。なお、符号化データに多重化されるＢＣパラメータは、全てのフレームについてのＢＣパラメータであってもよいし、所定のフレームについてのＢＣパラメータであってもよいが、ここでは、所定のフレームについてのＢＣパラメータであるものとする。

　また、逆多重化部１０１は、符号化データに対して逆多重化を行い、量子化され、エントロピー符号化された周波数スペクトル係数と量子化情報を得る。そして、逆多重化部１０１は、量子化され、エントロピー符号化された周波数スペクトル係数をエントロピー復号部５２に供給し、量子化情報をスペクトル逆量子化部５３に供給する。また、逆多重化部１０１は、ＢＣパラメータを生成パラメータ計算部１０４に供給する。

　無相関周波数時間変換部１０２は、スペクトル逆量子化部５３による逆量子化の結果得られるモノラル信号Ｘ_Ｍの周波数スペクトル係数から、互いに無相関な２つの時間領域信号であるモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´を生成する。そして、無相関周波数時間変換部１０２は、モノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´をステレオ合成部１０３に供給する。この無相関周波数時間変換部１０２の詳細は、後述する図１０や図１１を参照して説明する。

　ステレオ合成部１０３（合成手段）は、生成パラメータ計算部１０４から供給される生成パラメータを用いて、無相関周波数時間変換部１０２から供給されるモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´とを合成する。そして、ステレオ合成部１０３は、合成の結果得られる左用のオーディオ信号Ｘ_Ｌと右用のオーディオ信号Ｘ_Ｒをステレオ信号として出力する。このステレオ合成部１０３の詳細は、後述する図１２を参照して説明する。

　生成パラメータ計算部１０４は、逆多重化部１０１から供給される所定のフレームについてのＢＣパラメータを補間し、各フレームのＢＣパラメータを計算する。生成パラメータ計算部１０４は、現在の処理対象のフレームのＢＣパラメータを用いて生成パラメータを生成し、ステレオ合成部１０３に供給する。

［無相関周波数時間変換部の詳細構成例］
　図１０は、図９の無相関周波数時間変換部１０２の詳細構成例を示すブロック図である。

　図１０の無相関周波数時間変換部１０２は、IMDCT部５４とIMDST部１１１により構成される。

　図１０のIMDCT部５４（第１の変換手段）は、図５のIMDCT部５４と同一のものであり、スペクトル逆量子化部５３から供給されるモノラル信号Ｘ_Ｍの周波数スペクトル係数に対してIMDCTを行う。そして、IMDCT部５４は、その結果得られる時間領域信号であるモノラル信号Ｘ_Ｍ（第１の時間領域信号）をステレオ合成部１０３（図９）に供給する。

　IMDST（Inverse Modified Discrete Sine Transform）部１１１（第２の変換手段）は、ペクトル逆量子化部５３から供給されるモノラル信号Ｘ_Ｍの周波数スペクトル係数に対してIMDSTを行う。そして、IMDST部１１１は、その結果得られる時間領域信号である信号Ｘ_Ｄ´（第２の時間領域信号）をステレオ合成部１０３（図９）に供給する。

　以上のように、IMDCT部５４による変換はコサインの逆変換であり、IMDST部１１１による変換はサインの逆変換であり、IMDCT部５４による変換における基底とIMDST部１１１による変換における基底は直交している。従って、モノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´は、互いに略無相関な信号とみなすことができる。

　なお、MDCT，IMDCT、およびIMDSTは、それぞれ、以下の式（１）乃至（３）で定義される。

　式（１）乃至（３）において、x(n)は時間領域信号であり、w(n)は変換窓であり、w'(n)は逆変換窓であり、y(n)は逆変換後の信号である。また、Xc(k)はMDCT係数であり、Xs(k)はMDST係数である。

［無相関周波数時間変換部の詳細構成例］
　図１１は、図９の無相関周波数時間変換部１０２の他の詳細構成例を示すブロック図である。

　図１１に示す構成のうち、図１０の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図１１の無相関周波数時間変換部１０２の構成は、主に、IMDST部１１１の代わりにスペクトル反転部１２１、IMDCT部１２２、および符号反転部１２３が設けられている点が図１０の構成と異なる。

　図１１の無相関周波数時間変換部１０２のスペクトル反転部１２１は、スペクトル逆量子化部５３から供給される周波数スペクトル係数を、周波数が逆順になるように反転し、IMDCT部１２２に供給する。

　IMDCT部１２２は、スペクトル反転部１２１から供給される周波数スペクトル係数に対してIMDCTを行い、時間領域信号を得る。IMDCT部１２２は、その時間領域信号を符号反転部１２３に供給する。

　符号反転部１２３は、IMDCT部１２２から供給される時間領域信号の奇数サンプルの符号を反転し、信号Ｘ_Ｄ´を得る。

　ここで、IMDSTを定義する上述した式（３）において、Xs(k)をXs(N-k-1)に置き換えると、Nが一般的な4の倍数とすれば、式（３）は、以下の式（４）に変形することができる。

　従って、スペクトル逆量子化部５３からの周波数スペクトル係数に対してIMDSTを行った結果得られる信号と、その周波数スペクトル係数を周波数が逆順になるように反転してIMDSTを行い、奇数サンプルの符号を反転した結果得られる信号は、同一の信号Ｘ_Ｄ´となる。即ち、図１０のIMDST部１１１と、図１１のスペクトル反転部１２１、IMDCT部１２２、および符号反転部１２３とは、等価である。

　符号反転部１２３は、得られた信号Ｘ_Ｄ´を図９のステレオ合成部１０３に供給する。

　以上のように、図１１の無相関周波数時間変換部１０２は、時間領域信号を周波数スペクトル係数に変換するためにIMDCT部だけを設ければよいので、図９のIMDCT部とIMDST部を設ける必要がある場合に比べて、製造コストを削減することができる。

［ステレオ合成部の詳細構成例］
　図１２は、図９のステレオ合成部１０３の詳細構成例を示すブロック図である。

　図１２のステレオ合成部１０３は、乗算器１４１乃至１４４並びに加算器１４５および加算器１４６により構成される。

　乗算器１４１は、無相関周波数時間変換部１０２から供給されるモノラル信号Ｘ_Ｍに対して、生成パラメータ計算部１０４から供給される生成パラメータの１つである係数ｈ_１１を乗算する。乗算器１４１は、その結果得られる乗算値ｈ_１１×Ｘ_Ｍを加算器１４５に供給する。

　乗算器１４２は、無相関周波数時間変換部１０２から供給されるモノラル信号Ｘ_Ｍに対して、生成パラメータ計算部１０４から供給される生成パラメータの１つである係数ｈ_２１を乗算する。乗算器１４１は、その結果得られる乗算値ｈ_２１×Ｘ_Ｍを加算器１４６に供給する。

　乗算器１４３は、無相関周波数時間変換部１０２から供給される信号Ｘ_Ｄ´に対して、生成パラメータ計算部１０４から供給される生成パラメータの１つである係数ｈ_１２を乗算する。乗算器１４１は、その結果得られる乗算値ｈ_１２×Ｘ_Ｄ´を加算器１４５に供給する。

　乗算器１４４は、無相関周波数時間変換部１０２から供給される信号Ｘ_Ｄ´に対して、生成パラメータ計算部１０４から供給される生成パラメータの１つである係数ｈ_２２を乗算する。乗算器１４１は、その結果得られる乗算値ｈ_２２×Ｘ_Ｄ´を加算器１４６に供給する。

　加算器１４５は、乗算器１４１から供給される乗算値ｈ_１１×Ｘ_Ｍと、乗算器１４３から供給される乗算値ｈ_１２×Ｘ_Ｄ´を加算し、その結果得られる加算値を左用のオーディオ信号Ｘ_Ｌとして出力する。

　加算器１４６は、乗算器１４２から供給される乗算値ｈ_２１×Ｘ_Ｍと、乗算器１４３から供給される乗算値ｈ_２２×Ｘ_Ｄ´を加算し、その結果得られる加算値を右用のオーディオ信号Ｘ_Ｒとして出力する。

　以上のように、ステレオ合成部１０３では、図１３に示すように、モノラル信号Ｘ_Ｍ、信号Ｘ_Ｄ´、左用のオーディオ信号Ｘ_Ｌ、および右用のオーディオ信号Ｘ_Ｒをベクトルとして、以下の式（５）に示すように、生成パラメータを用いた重み付け加算が行われる。

　なお、係数ｈ_１１，ｈ_１２，ｈ_２１、およびｈ_２２は、以下の式（６）で表される。

　但し、

　式（６）において、角度θ_Ｌは、左用のオーディオ信号Ｘ_Ｌのベクトルとモノラル信号Ｘ_Ｍのベクトルがなす角度であり、角度θ_Ｒは、右用のオーディオ信号Ｘ_Ｒのベクトルとモノラル信号Ｘ_Ｍのベクトルがなす角度である。

　ここで、係数ｈ_１１，ｈ_１２，ｈ_２１、およびｈ_２２は、生成パラメータ計算部１０４により生成パラメータとして計算される。具体的には、生成パラメータ計算部１０４は、ＢＣパラメータからｇ_Ｌ，ｇ_Ｒ，θ_Ｌ、およびθ_Ｒを計算し、そのｇ_Ｌ，ｇ_Ｒ，θ_Ｌ、およびθ_Ｒから係数ｈ_１１，ｈ_１２，ｈ_２１、およびｈ_２２を計算して生成パラメータとする。なお、ＢＣパラメータからｇ_Ｌ，ｇ_Ｒ，θ_Ｌ、およびθ_Ｒを計算する方法の詳細は、例えば、特開２００６－３２５１６２号公報などに記載されている。

　なお、ＢＣパラメータとしては、ｇ_Ｌ，ｇ_Ｒ，θ_Ｌ、およびθ_Ｒを用いることもできるし、ｇ_Ｌ，ｇ_Ｒ，θ_Ｌ、およびθ_Ｒを圧縮符号化したものを用いることもできる。また、ＢＣパラメータとしては、係数ｈ_１１，ｈ_１２，ｈ_２１、およびｈ_２２を直接、または圧縮符号化して用いることもできる。

［音声処理装置の処理の説明］
　図１４は、図９の音声処理装置１００による復号処理を説明するフローチャートである。この復号処理は、図１の符号化装置１０から供給される多重化された符号化データが音声処理装置１００に入力されたとき、開始される。

　図１４のステップＳ１１において、逆多重化部１０１は、図１の符号化装置１０から供給される多重化された符号化データに対して逆多重化を行い、符号化データとＢＣパラメータを取得する。また、逆多重化部１０１は、その符号化データに対してさらに逆多重化を行い、量子化され、エントロピー符号化された周波数スペクトル係数と量子化情報を取得する。そして、逆多重化部１０１は、量子化され、エントロピー符号化された周波数スペクトル係数をエントロピー復号部５２に供給し、量子化情報をスペクトル逆量子化部５３に供給する。また、逆多重化部１０１は、ＢＣパラメータを生成パラメータ計算部１０４に供給する。

　ステップＳ１２において、エントロピー復号部５２は、逆多重化部１０１から供給される周波数スペクトル係数に対して、ハフマン復号や算術復号などのエントロピー復号を行い、量子化された周波数スペクトル係数を復元する。エントロピー復号部５２は、その周波数スペクトル係数をスペクトル逆量子化部５３に供給する。

　ステップＳ１３において、スペクトル逆量子化部５３は、逆多重化部１０１から供給される量子化情報に基づいて、エントロピー復号部５２から供給される量子化された周波数スペクトル係数に対して逆量子化を行い、周波数スペクトル係数を復元する。そして、スペクトル逆量子化部５３は、その周波数スペクトル係数を無相関周波数時間変換部１０２に供給する。

　ステップＳ１４において、無相関周波数時間変換部１０２は、スペクトル逆量子化部５３による逆量子化の結果得られるモノラル信号Ｘ_Ｍの周波数スペクトル係数から、互いに無相関な２つの時間領域信号であるモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´を生成する。そして、無相関周波数時間変換部１０２は、モノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´をステレオ合成部１０３に供給する。

　ステップＳ１５において、ステレオ合成部１０３は、生成パラメータ計算部１０４から供給される生成パラメータを用いて、無相関周波数時間変換部１０２から供給されるモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´とを合成する。

　ステップＳ１６において、生成パラメータ計算部１０４は、逆多重化部１０１から供給される所定のフレームについてのＢＣパラメータを補間し、各フレームについてのＢＣパラメータを計算する。

　ステップＳ１７において、生成パラメータ計算部１０４は、現在の処理対象のフレームのＢＣパラメータを用いて係数ｈ_１１，ｈ_１２，ｈ_２１、およびｈ_２２を生成パラメータとして生成し、ステレオ合成部１０３に供給する。

　ステップＳ１８において、ステレオ合成部１０３は、生成パラメータ計算部１０４から供給される生成パラメータを用いて、無相関周波数時間変換部１０２から供給されるモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´を合成し、ステレオ信号を生成する。そして、ステレオ合成部１０３はステレオ信号を出力し、処理は終了する。

　以上のように、音声処理装置１００は、モノラル信号Ｘ_Ｍの周波数スペクトル係数に対して基底が直交する２つの変換を行うことによりモノラル信号Ｘ_Ｍと信号Ｘ_Ｄ´を生成する。即ち、音声処理装置１００では、モノラル信号Ｘ_Ｍの周波数スペクトル係数を用いて信号Ｘ_Ｄ´を生成することができる。従って、音声処理装置１００では、従来の図５のオーディオ信号復号部４２と図７のステレオ信号生成部４４を備える図４の復号装置４０に比べて、図７の残響信号生成部７１による遅延、演算量やバッファなどのリソースの増加を抑制することができる。

　また、従来の復号装置４０のIMDCT部５４を無相関周波数時間変換部１０２の一部に再利用することができるので、新たな機能の追加が最小限で済み、回路規模や必要なリソースの増加を抑制することができる。

＜第２実施の形態＞
［音声処理装置の第２実施の形態の構成例］
　図１５は、本発明を適用した音声処理装置の第２実施の形態の構成例を示すブロック図である。

　図１５に示す構成のうち、図９の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図１５の音声処理装置２００の構成は、主に、新たに帯域分割部２０１、IMDCT部２０２、加算器２０３、および加算器２０４が設けられている点が図９の構成と異なる。

　音声処理装置２００は、例えば、図２のオーディオ信号符号化部１３を備える図１の符号化装置１０と同様の空間符号化が行われ、高域についてのＢＣパラメータが多重化された符号化データを復号し、高域のモノラル信号Ｘ_Ｍのみをステレオ化する。

　具体的には、音声処理装置２００の帯域分割部２０１（分割手段）は、スペクトル逆量子化部５３により得られる周波数スペクトル係数を、周波数によって高域の周波数スペクトル係数と低域の周波数スペクトル係数の２つのグループに分割する。そして、帯域分割部２０１は、低域の周波数スペクトル係数をIMDCT部２０２に供給し、高域の周波数スペクトル係数を無相関周波数時間変換部１０２に供給する。

　IMDCT部２０２（第３の変換手段）は、帯域分割部２０１から供給される低域の周波数スペクトル係数に対してIMDCTを行い、低域の時間領域信号であるモノラル信号Ｘ_Ｍ ^ｌｏｗ（第３の時間領域信号）を得る。IMDCT部２０２は、低域のモノラル信号Ｘ_Ｍ ^ｌｏｗを低域の左用のオーディオ信号として加算器２０３に供給するとともに、低域の右用のオーディオ信号として加算器２０４に供給する。

　加算器２０３には、帯域分割部２０１から出力された高域の周波数スペクトル係数に対して、無相関周波数時間変換部１０２およびステレオ合成部１０３による処理が行われた結果得られる高域の左用のオーディオ信号Ｘ_Ｌ ^Ｈｉｇｈが入力される。加算器２０３は、その高域の左用のオーディオ信号Ｘ_Ｌ ^Ｈｉｇｈと、IMDCT部２０２から低域の左用のオーディオ信号として供給される低域のモノラル信号Ｘ_Ｍ ^ｌｏｗとを加算して、全周波数帯域の左用のオーディオ信号Ｘ_Ｌを生成する。

　加算器２０４には、帯域分割部２０１から出力された高域の周波数スペクトル係数に対して、無相関周波数時間変換部１０２およびステレオ合成部１０３による処理が行われた結果得られる高域の右用のオーディオ信号Ｘ_Ｒ ^Ｈｉｇｈが入力される。加算器２０４は、その高域の右用のオーディオ信号Ｘ_Ｒ ^Ｈｉｇｈと、IMDCT部２０２から低域の右用のオーディオ信号として供給される低域のモノラル信号Ｘ_Ｍ ^ｌｏｗとを加算して、全周波数帯域の右用のオーディオ信号Ｘ_Ｒを出力する。

［音声処理装置の処理の説明］
　図１６は、図１５の音声処理装置２００による復号処理を説明するフローチャートである。この復号処理は、図２のオーディオ信号符号化部１３を備える図１の符号化装置１０と同様の空間符号化が行われ、高域についてのＢＣパラメータが多重化された符号化データが、音声処理装置２００に入力されたとき、開始される。

　図１６のステップＳ３１乃至Ｓ３３は、図１４のステップＳ１１乃至Ｓ１３の処理と同様であるので、説明は繰り返しになるので省略する。

　ステップＳ３４において、帯域分割部２０１は、スペクトル逆量子化部５３により得られる周波数スペクトル係数を、周波数によって高域の周波数スペクトル係数と低域の周波数スペクトル係数の２つのグループに分割する。そして、帯域分割部２０１は、低域の周波数スペクトル係数をIMDCT部２０２に供給し、高域の周波数スペクトル係数を無相関周波数時間変換部１０２に供給する。

　ステップＳ３５において、IMDCT部２０２は、帯域分割部２０１から供給される低域の周波数スペクトル係数に対してIMDCTを行い、低域の時間領域信号であるモノラル信号Ｘ_Ｍ ^ｌｏｗを得る。IMDCT部２０２は、低域のモノラル信号Ｘ_Ｍ ^ｌｏｗを低域の左用のオーディオ信号として加算器２０３に供給するとともに、低域の右用のオーディオ信号として加算器２０４に供給する。

　ステップＳ３６において、無相関周波数時間変換部１０２、ステレオ合成部１０３、および生成パラメータ計算部１０４は、帯域分割部２０１から供給される高域の周波数スペクトル係数に対してステレオ信号生成処理を行う。具体的には、無相関周波数時間変換部１０２、ステレオ合成部１０３、および生成パラメータ計算部１０４は、図１４のステップＳ１４乃至Ｓ１８の処理行う。その結果得られる高域の左用のオーディオ信号Ｘ_Ｌ ^Ｈｉｇｈは加算器２０３に入力され、高域の右用のオーディオ信号Ｘ_Ｒ ^Ｈｉｇｈは加算器２０４に入力される。

　ステップＳ３７において、加算器２０３は、IMDCT部２０２から低域の左用のオーディオ信号として供給される低域のモノラル信号Ｘ_Ｍ ^ｌｏｗと、無相関周波数時間変換部１０２から供給される高域の左用のオーディオ信号Ｘ_Ｌ ^Ｈｉｇｈとを加算して、全周波数帯域の左用のオーディオ信号Ｘ_Ｌを生成する。そして、加算器２０３は、その全周波数帯域の左用のオーディオ信号Ｘ_Ｌを出力する。

　ステップＳ３８において、加算器２０４は、IMDCT部２０２から低域の右用のオーディオ信号として供給される低域のモノラル信号Ｘ_Ｍ ^ｌｏｗと、無相関周波数時間変換部１０２から供給される高域の右用のオーディオ信号Ｘ_Ｒ ^Ｈｉｇｈとを加算して、全周波数帯域の右用のオーディオ信号Ｘ_Ｒを生成する。そして、加算器２０４は、その全周波数帯域の右用のオーディオ信号Ｘ_Ｒを出力する。

　以上のように、音声処理装置２００は、全周波数帯域のモノラル信号Ｘ_Ｍの符号化データを復号し、高域についてのみステレオ化する。これにより、低域のモノラル信号Ｘ_Ｍのステレオ化によって、音声が不自然になることを防止することができる。

　なお、音声処理装置２００では、帯域分割部２０１が、高域の周波数スペクトル係数と低域の周波数スペクトル係数に分割したが、所定の周波数帯域の周波数スペクトル係数と、それ以外の周波数帯域の周波数スペクトル係数に分割するようにしてもよい。即ち、ステレオ化の有無が、低域であるか、高域であるかによって選択されるのではなく、所定の周波数帯域であるか、それ以外の周波数帯域であるかによって選択されるようにしてもよい。

＜第３実施の形態＞
［音声処理装置の第３実施の形態の構成例］
　図１７は、本発明を適用した音声処理装置の第３実施の形態の構成例を示すブロック図である。

　図１７に示す構成のうち、図４、図６、および図９の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図１７の音声処理装置３００の構成は、主に、逆多重化部４１と逆多重化部６１の代わりに逆多重化部３０１が設けられている点、IMDCT部６４－１乃至IMDCT部６４－（Ｎ－１）の代わりにIMDCT部３０４－１乃至３０４－（Ｎ－１）が設けられている点、IMDCT部６４－Ｎおよびステレオ信号生成部４４の代わりにステレオ化部３０５が設けられている点、生成パラメータ計算部４３、合成フィルタバンク６５の代わりに生成パラメータ計算部１０４、合成フィルタバンク３０６が設けられている点が、図６のオーディオ信号復号部４２と図７のステレオ信号生成部４４を備える図４の復号装置４０の構成と異なる。

　図１７の音声処理装置３００は、例えば図３のオーディオ信号符号化部１３を備える図１の符号化装置１０と同様の空間符号化が行われ、所定のサブバンド信号のＢＣパラメータが多重化された符号化データを復号する。

　具体的には、音声処理装置３００の逆多重化部３０１は、図４の逆多重化部４１と図６の逆多重化部６１に対応する。即ち、逆多重化部３０１には、図３のオーディオ信号符号化部１３を備える図１の符号化装置１０と同様の空間符号化が行われ、所定のサブバンド信号のＢＣパラメータが多重化された符号化データが入力される。逆多重化部３０１は、入力された符号化データに対して逆多重化を行い、符号化データと所定のサブバンド信号のＢＣパラメータを得る。そして、逆多重化部３０１は、所定のサブバンド信号のＢＣパラメータを生成パラメータ計算部１０４に供給する。

　また、逆多重化部３０１は、符号化データに対して逆多重化を行い、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数と量子化情報を得る。逆多重化部３０１は、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数をエントロピー復号部６２に供給し、量子化情報をスペクトル逆量子化部６３に供給する。

　IMDCT部３０４－１乃至３０４－（Ｎ－１）（第３の変換手段）およびステレオ化部３０５には、スペクトル逆量子化部６３により復元されたＮ個のサブバンド信号の周波数スペクトル係数が、１つずつ入力される。

　IMDCT部３０４－１乃至３０４－（Ｎ－１）は、それぞれ、入力された周波数スペクトル係数に対してIMDCTを行い、周波数スペクトル係数を時間領域信号であるモノラル信号Ｘ_Ｍのサブバンド信号Ｘ_Ｍ ^ｉ（ｉ=１，２，・・・，Ｎ－１）に変換する。IMDCT部３０４－１乃至３０４－（Ｎ－１）は、それぞれ、サブバンド信号Ｘ_Ｍ ^ｉを、左用のオーディオ信号Ｘ_Ｌ ^ｉと右用のオーディオ信号Ｘ_Ｒ ^ｉとして合成フィルタバンク３０６に供給する。

　ステレオ化部３０５は、図９の無相関周波数時間変換部１０２とステレオ合成部１０３により構成される。ステレオ化部３０５は、生成パラメータ計算部１０４により生成された生成パラメータを用いて、スペクトル逆量子化部６３から入力された所定のサブバンド信号の周波数スペクトル係数から、時間領域信号である左用のオーディオ信号のサブバンド信号Ｘ_Ｌ ^Ａと右用のオーディオ信号のサブバンド信号Ｘ_Ｒ ^Ａを生成する。そして、ステレオ化部３０５は、左用のサブバンド信号Ｘ_Ｌ ^Ａと右用のサブバンド信号Ｘ_Ｒ ^Ａを合成フィルタバンク３０６に供給する。

　合成フィルタバンク３０６（加算手段）は、左用のオーディオ信号のサブバンド信号を合成するための左用合成フィルタバンクと、右用のオーディオ信号のサブバンド信号を合成するための右用合成フィルタバンクにより構成される。合成フィルタバンク３０６の左用合成フィルタバンクは、IMDCT部３０４－１乃至３０４－（Ｎ－１）からの左用のサブバンド信号Ｘ_Ｌ ^１乃至Ｘ_Ｌ ^Ｎ－１と、ステレオ化部３０５からの左用のサブバンド信号Ｘ_Ｌ ^Ａを合成する。そして、左用合成フィルタバンクは、合成の結果得られる全周波数帯域の左用のオーディオ信号Ｘ_Ｌを出力する。

　また、合成フィルタバンク３０６の右用合成フィルタバンクは、IMDCT部３０４－１乃至３０４－（Ｎ－１）からの右用のサブバンド信号Ｘ_Ｒ ^１乃至Ｘ_Ｒ ^Ｎ－１と、ステレオ化部３０５からの右用のサブバンド信号Ｘ_Ｒ ^Ａを合成する。そして、右用合成フィルタバンクは、合成の結果得られる全周波数帯域の右用のオーディオ信号Ｘ_Ｒを出力する。

　なお、図１７の音声処理装置３００では、１つのサブバンド信号についてのみステレオ化が行われるようにしたが、複数のサブバンド信号についてステレオ化が行われるようにすることもできる。また、ステレオ化が行われるサブバンド信号は、予め設定されるのではなく、符号化側で動的に設定されるようにしてもよい。この場合、例えば、ＢＣパラメータにステレオ化の対象となるサブバンド信号を特定する情報が含められる。

［音声処理装置の処理の説明］
　図１８は、図１７の音声処理装置３００による復号処理を説明するフローチャートである。この復号処理は、例えば、図３のオーディオ信号符号化部１３を備える図１の符号化装置１０と同様の空間符号化が行われ、所定のサブバンド信号のＢＣパラメータが多重化された符号化データが音声処理装置３００に入力されたとき、開始される。

　図１８のステップＳ５１において、逆多重化部３０１は、入力された多重化された符号化データに対して逆多重化を行い、符号化データと所定のサブバンド信号のＢＣパラメータを得る。そして、逆多重化部３０１は、所定のサブバンド信号のＢＣパラメータを生成パラメータ計算部１０４に供給する。また、逆多重化部３０１は、符号化データに対して逆多重化を行い、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数と量子化情報を得る。逆多重化部３０１は、量子化され、エントロピー符号化されたＮ個のサブバンド信号の周波数スペクトル係数をエントロピー復号部６２に供給し、量子化情報をスペクトル逆量子化部６３に供給する。

　ステップＳ５２において、エントロピー復号部６２は、逆多重化部１０１から供給されるＮ個のサブバンド信号の周波数スペクトル係数に対してエントロピー復号を行い、スペクトル逆量子化部６３に供給する。

　ステップＳ５３において、スペクトル逆量子化部６３は、逆多重化部３０１から供給される量子化情報に基づいて、エントロピー復号部６２から供給されるエントロピー復号の結果得られたＮ個のサブバンド信号の周波数スペクトル係数それぞれに対して逆量子化を行う。そして、スペクトル逆量子化部６３は、その結果復元されたＮ個のサブバンド信号の周波数スペクトル係数を、IMDCT部３０４－１乃至３０４－（Ｎ－１）およびステレオ化部３０５に１つずつ供給する。

　ステップＳ５４において、IMDCT部３０４－１乃至３０４－（Ｎ－１）は、それぞれ、スペクトル逆量子化部６３から供給される周波数スペクトル係数に対してIMDCTを行う。そして、IMDCT部３０４－１乃至３０４－（Ｎ－１）は、それぞれ、その結果得られるモノラル信号のサブバンド信号Ｘ_Ｍ ^ｉ（ｉ=１，２，・・・，Ｎ－１）を、左用のオーディオ信号のサブバンド信号Ｘ_Ｌ ^ｉと右用のオーディオ信号のサブバンド信号Ｘ_Ｌ ^ｉとして合成フィルタバンク３０６に供給する。

　ステップＳ５５において、ステレオ化部３０５は、生成パラメータ計算部１０４から供給される生成パラメータを用いて、スペクトル逆量子化部６３から供給される所定のサブバンド信号の周波数スペクトル係数に対して、ステレオ信号生成処理を行う。そして、ステレオ化部３０５は、その結果得られる時間領域信号である左用のオーディオ信号のサブバンド信号Ｘ_Ｌ ^Ａと右用のオーディオ信号のサブバンド信号Ｘ_Ｒ ^Ａを合成フィルタバンク３０６に供給する。

　ステップＳ５６において、合成フィルタバンク３０６の左用合成フィルタバンクは、IMDCT部３０４－１乃至３０４－（Ｎ－１）とステレオ化部３０５からそれぞれ供給される左用のオーディオ信号の全サブバンド信号を合成して、全周波数帯域の左用のオーディオ信号Ｘ_Ｌを生成する。そして、左用合成フィルタバンクは、その全周波数帯域の左用のオーディオ信号Ｘ_Ｌを出力する。

　ステップＳ５７において、合成フィルタバンク３０６の右用合成フィルタバンクは、IMDCT部３０４－１乃至３０４－（Ｎ－１）とステレオ化部３０５からそれぞれ供給される右用のオーディオ信号の全サブバンド信号を合成して、全周波数帯域の右用のオーディオ信号Ｘ_Ｒを生成する。そして、右用合成フィルタバンクは、その全周波数帯域の右用のオーディオ信号Ｘ_Ｒを出力する。

＜第４実施の形態＞
［音声処理装置の第４実施の形態の構成例］
　図１９は、本発明を適用した音声処理装置の第４実施の形態の構成例を示すブロック図である。

　図１９に示す構成のうち、図１５の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図１９の音声処理装置４００の構成は、主に、帯域分割部２０１の代わりにスペクトル分離部４０１が設けられ、IMDCT部２０２の代わりにIMDCT４０２および４０３が設けられ、加算器２０３、加算器２０４の代わりに加算器４０４、加算器４０５が設けられている点が、図１５の構成と異なる。

　音声処理装置４００は、インテンシティ符号化された符号化データであって、従来のチャンネル間の周波数スペクトル係数のレベル比の代わりにインテンシティ開始周波数Fis以上の周波数のＢＣパラメータが多重化された符号化データを復号する。

　即ち、音声処理装置４００によって復号される符号化データは、例えば、符号化対象のステレオ信号をモノラル信号Ｘ_Ｍにダウンミックスし、その結果得られるモノラル信号Ｘ_Ｍと符号化対象のステレオ信号のインテンシティ開始周波数Fis以上の周波数の成分をハイパスフィルタ等によって抽出してＢＣパラメータを検出する符号化装置により生成される。

　音声処理装置４００のスペクトル分離部４０１（分離手段）は、スペクトル逆量子化部５３により復元された周波数スペクトル係数を得る。スペクトル分離部４０１は、その周波数スペクトル係数を、インテンシティ開始周波数Fisより低い周波数のステレオ信号の周波数スペクトル係数と、インテンシティ開始周波数Fis以上の周波数のモノラル信号Ｘ_Ｍ ^ｈｉｇｈの周波数スペクトル係数に分離する。スペクトル分離部４０１は、インテンシティ開始周波数Fisより低い周波数のステレオ信号の左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗの周波数スペクトル係数をIMDCT部４０２に供給し、右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗの周波数スペクトル係数をIMDCT部４０３に供給する。また、スペクトル分離部４０１は、モノラル信号Ｘ_Ｍ ^ｈｉｇｈの周波数スペクトル係数を無相関周波数時間変換部１０２に供給する。

　IMDCT部４０２（第３の変換手段）は、スペクトル分離部４０１から供給される左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗの周波数スペクトル係数に対してIMDCTを行い、その結果得られる左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗを加算器４０４に供給する。

　IMDCT部４０３（第３の変換手段）は、スペクトル分離部４０１から供給される右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗの周波数スペクトル係数に対してIMDCTを行い、その結果得られる右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗを加算器４０５に供給する。

　加算器４０４（加算手段）は、ステレオ合成部１０３により生成されるインテンシティ開始周波数Fis以上の周波数の時間領域信号である左用のオーディオ信号Ｘ_Ｌ ^ｈｉｇｈと、IMDCT部４０２から供給される左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗとを加算する。加算器４０４は、その結果得られるオーディオ信号を全周波数帯域の左用のオーディオ信号Ｘ_Ｌとして出力する。

　加算器４０５（加算手段）は、ステレオ合成部１０３により生成されるインテンシティ開始周波数Fis以上の周波数の時間領域信号である右用のオーディオ信号Ｘ_Ｒ ^ｈｉｇｈと、IMDCT部４０２から供給される右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗとを加算する。加算器４０５は、その結果得られるオーディオ信号を全周波数帯域の右用のオーディオ信号Ｘ_Ｒとして出力する。

　以上のように、音声処理装置４００は、インテンシティ符号化された符号化データに多重化されたＢＣパラメータを用いて、インテンシティ符号化によってモノラル化されたインテンシティ開始周波数Fis以上の周波数の成分をステレオ化する。これにより、従来のチャンネル間の周波数スペクトル係数のレベル比を用いてステレオ化を行うインテンシィティ復号装置に比べて、インテンシティ開始周波数Fis以上の周波数の成分のステレオ感を復元することができる。

［音声処理装置の処理の説明］
　図２０は、図１９の音声処理装置４００による復号処理を説明するフローチャートである。この復号処理は、例えば、インテンシティ符号化され、インテンシティ開始周波数Fis以上の周波数のＢＣパラメータが多重化された符号化データが入力されたとき、開始される。

　図２０のステップＳ７１乃至Ｓ７３の処理は、図１６のステップＳ３１乃至Ｓ３３の処理と同様であるので、説明は省略する。

　ステップＳ７４において、スペクトル分離部４０１は、スペクトル逆量子化部５３により復元された周波数スペクトル係数を、インテンシティ開始周波数Fisより低い周波数のステレオ信号の周波数スペクトル係数と、インテンシティ開始周波数Fis以上の周波数のモノラル信号Ｘ_Ｍ ^ｈｉｇｈの周波数スペクトル係数に分離する。スペクトル分離部４０１は、インテンシティ開始周波数Fisより低い周波数のステレオ信号の左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗの周波数スペクトル係数をIMDCT部４０２に供給し、右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗの周波数スペクトル係数をIMDCT部４０３に供給する。また、スペクトル分離部４０１は、モノラル信号Ｘ_Ｍ ^ｈｉｇｈの周波数スペクトル係数を無相関周波数時間変換部１０２に供給する。

　ステップＳ７５において、IMDCT部４０２は、スペクトル分離部４０１から供給される左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗの周波数スペクトル係数に対してIMDCTを行う。そして、IMDCT部４０２は、その結果得られる左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗを加算器４０４に供給する。

　ステップＳ７６において、IMDCT部４０３は、スペクトル分離部４０１から供給される右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗの周波数スペクトル係数に対してIMDCTを行う。そして、IMDCT部４０３は、その結果得られる右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗを加算器４０５に供給する。

　ステップＳ７７において、無相関周波数時間変換部１０２、ステレオ合成部１０３、および生成パラメータ計算部１０４は、スペクトル分離部４０１からのモノラル信号Ｘ_Ｍ ^ｈｉｇｈの周波数スペクトル係数に対してステレオ信号生成処理を行う。その結果得られる時間領域信号である左用のオーディオ信号Ｘ_Ｌ ^ｈｉｇｈは、加算器４０４に供給され、右用のオーディオ信号Ｘ_Ｒ ^ｈｉｇｈは、加算器４０５に供給される。

　ステップＳ７８において、加算器４０４は、IMDCT部４０２からのインテンシティ開始周波数Fisより低い周波数の左用のオーディオ信号Ｘ_Ｌ ^ｌｏｗとステレオ合成部１０３からのインテンシティ開始周波数Fis以上の周波数の左用のオーディオ信号Ｘ_Ｌ ^ｈｉｇｈとを加算して、全周波数帯域の左用のオーディオ信号Ｘ_Ｌを生成する。そして、加算器４０４は、その左用のオーディオ信号Ｘ_Ｌを出力する。

　ステップＳ７９において、加算器４０５は、IMDCT部４０３からのインテンシティ開始周波数Fisより低い周波数の右用のオーディオ信号Ｘ_Ｒ ^ｌｏｗと、ステレオ合成部１０３からのインテンシティ開始周波数Fis以上の周波数の右用のオーディオ信号Ｘ_Ｒ ^ｈｉｇｈとを加算して、全周波数帯域の右用のオーディオ信号Ｘ_Ｒを生成する。そして、加算器４０５は、その右用のオーディオ信号Ｘ_Ｒを出力する。

　なお、上述した説明では、音声処理装置１００（２００，３００，４００）が、MDCTによって時間周波数変換された符号化データを復号するようにしたので、周波数時間変換時にIMDCTが行われたが、MDSTによって時間周波数変換された符号化データを復号する場合には、周波数時間変換時にIMDSTが行われる。

　また、上述した説明では、無相関時間周波数変換部１０２において、基底が互いに直交する変換としてIMDCT変換とIMDST変換が用いられたが、サイン変換とコサイン変換等の他の重複直交変換が用いられてもよい。

[本発明を適用したコンピュータの説明]
　次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

　そこで、図２１は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

　プログラムは、コンピュータに内蔵されている記録媒体としての記憶部５０８やROM（Read Only Memory）５０２に予め記録しておくことができる。

　あるいはまた、プログラムは、リムーバブルメディア５１１に格納（記録）しておくことができる。このようなリムーバブルメディア５１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア５１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

　なお、プログラムは、上述したようなリムーバブルメディア５１１からドライブ５１０を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部５０８にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

　コンピュータは、CPU(Central Processing Unit)５０１を内蔵しており、CPU５０１には、バス５０４を介して、入出力インタフェース５０５が接続されている。

　CPU５０１は、入出力インタフェース５０５を介して、ユーザによって、入力部５０６が操作等されることにより指令が入力されると、それに従って、ROM５０２に格納されているプログラムを実行する。あるいは、CPU５０１は、記憶部５０８に格納されたプログラムを、RAM(Random Access Memory)５０３にロードして実行する。

　これにより、CPU５０１は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU５０１は、その処理結果を、必要に応じて、例えば、入出力インタフェース５０５を介して、出力部５０７から出力、あるいは、通信部５０９から送信、さらには、記憶部５０８に記録等させる。

　なお、入力部５０６は、キーボードや、マウス、マイク等で構成される。また、出力部５０７は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　本発明は、オーディオ信号の擬似ステレオ化技術に適用することができる。

　本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

　５４　IMDCT部，　１００　音声処理装置，　１０１　逆多重化部，　１０３　ステレオ合成部，　１１１　IMDST部，　１２１　スペクトル反転部，　１２２　IMDCT部，　１２３　符号反転部，　２００　音声処理装置，　２０１　帯域分割部，　２０２　IMDCT部，　２０３，２０４　加算器，　３００　音声処理装置，　３０１　逆多重化部，　３０４－１乃至３０４－Ｎ　IMDCT部，　３０５　ステレオ化部，　３０６　合成フィルタバンク，　４００　音声処理装置，　４０１　スペクトル分離部，　４０２，４０３　IMDCT部，　４０４，４０５　加算器

Claims

　複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得手段と、
　前記取得手段により取得された前記周波数領域の係数を、第１の時間領域信号に変換する第１の変換手段と、
　前記取得手段により取得された前記周波数領域の係数を、第２の時間領域信号に変換する第２の変換手段と、
　前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成手段と
　を備え、
　前記第１の変換手段による変換における基底と前記第２の変換手段による変換における基底は直交する
　音声処理装置。
　前記取得手段により取得された前記周波数領域の係数を、周波数によって複数のグループに分割する分割手段と、
　前記複数のグループのうちの第１のグループに分割された前記周波数領域の係数を、第３の時間領域信号に変換する第３の変換手段と、
　前記第３の時間領域信号を前記第１のグループの周波数帯域の各チャンネルの音声信号とし、その第３の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
　をさらに備え、
　前記取得手段は、前記周波数領域の係数と前記第１のグループ以外のグループである第２のグループの周波数帯域の前記パラメータを取得し、
　前記第１の変換手段は、前記第２のグループに分割された前記周波数領域の係数を、前記第１の時間領域信号に変換し、
　前記第２の変換手段は、前記第２のグループに分割された前記周波数領域の係数を、前記第２の時間領域信号に変換し、
　前記合成手段は、前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記第２のグループの周波数帯域の前記複数チャンネルの音声信号を生成する
　請求項１に記載の音声処理装置。
　前記取得手段により取得される周波数により複数のグループに分割された前記周波数領域の係数のうちの第１のグループの周波数領域の係数を、第３の時間領域信号に変換する第３の変換手段と、
　前記第３の時間領域信号を前記第１のグループの周波数帯域の各チャンネルの音声信号とし、その第３の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
　をさらに備え、
　前記取得手段は、各グループの前記周波数領域の係数と、前記複数のグループのうちの前記第１のグループ以外のグループである第２のグループの周波数帯域の前記パラメータを取得し、
　前記第１の変換手段は、前記第２のグループに分割された前記周波数領域の係数を、前記第１の時間領域信号に変換し、
　前記第２の変換手段は、前記第２のグループに分割された前記周波数領域の係数を、前記第２の時間領域信号に変換し、
　前記合成手段は、前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記第２のグループの周波数帯域の前記複数チャンネルの音声信号を生成する
　請求項１に記載の音声処理装置。
　前記周波数領域の係数は、前記複数チャンネルの音声信号の周波数領域の係数から生成される
　請求項１に記載の音声処理装置。
　前記取得手段により取得された所定の周波数帯域の前記周波数領域の係数と、その周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号の周波数領域の係数を分離する分離手段と、
　前記分離手段により分離された前記複数チャンネルの音声信号の周波数領域の係数を、前記複数チャンネルの第３の時間領域信号に変換する第３の変換手段と、
　前記複数チャンネルの第３の時間領域信号を前記所定の周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号とし、その第３の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
　をさらに備え、
　前記取得手段は、前記所定の周波数帯域の前記周波数領域の係数、前記所定の周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号の周波数領域の係数、および、前記所定の周波数帯域の前記パラメータを取得し、
　前記第１の変換手段は、前記分離手段により分離された前記所定の周波数帯域の前記周波数領域の係数を、前記第１の時間領域信号に変換し、
　前記第２の変換手段は、前記分離手段により分離された前記所定の周波数帯域の前記周波数領域の係数を、前記第２の時間領域信号に変換し、
　前記合成手段は、前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記所定の周波数帯域の前記複数チャンネルの音声信号を生成する
　請求項４に記載の音声処理装置。
　前記周波数領域の係数は、MDCT（Modified Discrete Cosine Transform）係数であり、
　前記第１の変換手段による変換は、IMDCT（Inverse Modified Discrete Cosine Transform）であり、
　前記第２の変換手段による変換は、IMDST（Inverse Modified Discrete Sine Transform）である
　請求項１乃至５のいずれかに記載の音声処理装置。
　前記第２の変換手段は、
　　前記周波数領域の係数を周波数が逆順になるように反転するスペクトル反転手段と
　　前記スペクトル反転手段による反転の結果得られる周波数領域の係数にIMDCT（Inverse Modified Discrete Cosine Transform）を行い、時間領域信号を得るIMDCT手段と、
　前記IMDCT手段により得られた時間領域信号の各サンプルの符号を１つ置きに反転する符号反転手段と
　を備え、
　前記周波数領域の係数は、MDCT（Modified Discrete Cosine Transform）係数であり、
　前記第１の変換手段による変換は、IMDCTである
　請求項１乃至５のいずれかに記載の音声処理装置。
　音声処理装置が、
　複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得ステップと、
　前記取得ステップの処理により取得された前記周波数領域の係数を、第１の時間領域信号に変換する第１の変換ステップと、
　前記取得ステップの処理により取得された前記周波数領域の係数を、第２の時間領域信号に変換する第２の変換ステップと、
　前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成ステップと
　を含み、
　前記第１の変換ステップの処理による変換における基底と前記第２の変換ステップの処理による変換における基底は直交する
　音声信号処理方法。
　コンピュータに、
　複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得ステップと、
　前記取得ステップの処理により取得された前記周波数領域の係数を、第１の時間領域信号に変換する第１の変換ステップと、
　前記取得ステップの処理により取得された前記周波数領域の係数を、第２の時間領域信号に変換する第２の変換ステップと、
　前記パラメータを用いて前記第１の時間領域信号と前記第２の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成ステップと
　を含み、
　前記第１の変換ステップの処理による変換における基底と前記第２の変換ステップの処理による変換における基底は直交する
　処理を実行させるためのプログラム。