WO2013136846A1

WO2013136846A1 - 音響信号処理装置および音響信号処理方法

Info

Publication number: WO2013136846A1
Application number: PCT/JP2013/051273
Authority: WO
Inventors: 橋本　武志; 哲生渡邉
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2012-03-12
Filing date: 2013-01-23
Publication date: 2013-09-19
Anticipated expiration: 2014-09-12
Also published as: US20150030171A1; CN104185870A; US9280986B2; JP2013190470A; CN104185870B; EP2827330B1; EP2827330A4; EP2827330A1; JP5898534B2

Description

音響信号処理装置および音響信号処理方法

　本発明は、音響信号処理装置および音響信号処理方法に関し、より詳細には、入力されるオーディオ信号におけるアタック音や余韻の強調・低減処理や、ノイズ低減処理などを行うことが可能な音響信号処理装置および音響信号処理方法に関する。

　今日では、データの圧縮が行われたデジタル音声信号を用いて音楽の生成が行われることが多い。データ圧縮されたデジタル音声信号の１つとして、ＭＰ３（MPEG Audio Layer-3）がよく知られている。ＭＰ３は、デジタル技術によって音響データを扱うための圧縮技術の１つであり、今日では、携帯型音楽プレーヤーなどで多く用いられている。

　ところで、一般的なＭＰ３などのデジタル音声信号では、伸長されたデジタル音声信号をそのままアナログ変換して出力するとアタック音（アタック成分）の劣化により、音質が損なわれてしまうという問題があった。このため、アタック音の信号出力を増幅させるデジタル信号処理装置が提案されている（例えば、特許文献１参照）。

　このデジタル信号処理装置では、帯域分割フィルタを介して抽出された所定周波数帯域の信号レベルと、予め設定されたスレッショルドレベルとを比較し、スレッショルド以上のデジタル信号を検出することによってアタック音を検出する。そして、デジタル信号処理装置は、検出されたアタック音を増幅し、増幅されたアタック音を帯域分割前のデジタル信号に合成することによって、アタック音を強調させる。

　このように、信号レベルに応じて、所定の周波数帯域に含まれるアタック音を増幅して強調することができるので、例えば、低域アタック音を増幅する場合には、ドラムなどの迫力ある音の躍動感を増加させることができる。また、高域アタック音を増幅する場合には、シンバルなどの音をより透明感のあるクリアな音にすることができる。

　このように、信号レベルに応じてアタック音を増幅して強調することにより、総じてメリハリのある表現を出力音に発現させることが可能となる。このため、アタック音の劣化が激しいＭＰ３などの圧縮された音声信号の高音質化に高い効果を発揮することができる。

特開２００７－３６７１０号公報

　上述したデジタル信号処理装置では、音源に含まれるアタック音を、所定のスレッショルドに基づいて検出している。しかしながら、音源はあらゆる振幅レベルで収録されているので、スレッショルドだけで十分にアタック音を検出することが困難であった。

　また、楽器音と音声とが含まれている音源においては、双方が合成されて音源の振幅が示されるため、スレッショルドにより楽器音のアタック音と音声の信号レベルとを識別することが困難であり、楽器音のアタック音だけでなく音声信号まで増幅されてしまうおそれがあった。

　さらに、楽器音等は、波形の立ち上がり時のアタック音とその後に持続する余韻（余韻成分）によって形成されるが、上述したデジタル信号処理装置では、アタック音の制御のみを行うことを特徴としており、余韻において特に制御は行われていない。このため、アタック音の増幅によりメリハリのある出力音を実現することは可能であるが、メリハリ感のみが余韻に比べて強く強調されすぎてしまうおそれがあった。

　また、上述したデジタル信号処理装置では、所定の周波数帯域を一様に増幅する従来のイコライザなどの増幅方式に比べて、Ｓ／Ｎ比（信号とノイズの比）を下げずに出力音を強調することが可能である。しかしながら、音源の収録環境においてノイズが常に存在する場合、特に、アタック音の抽出帯域において定常的なノイズが含まれる場合には、ノイズが含まれたアタック音をブーストして合成してしまうおそれがあるので、Ｓ／Ｎ比が大きく低下するおそれがあった。

　さらに、音楽の聴取において、聴取者にとっての良好な音は嗜好によるものが大きい。このため、メリハリのある音を好む聴取者もいれば、メリハリのある音を耳障りと感じる聴取者も存在する。余韻においても余韻の多く含まれる音を好む聴取者もいれば、好まない聴取者も存在する。また、音源そのものに含まれる定常的な信号成分（響き）や音源の収録環境に含まれる定常的なノイズ成分を含めた音を、臨場感のある音として好む聴取者もいれば、クリアな音を好む聴取者も存在する。このため、上述したデジタル信号処理装置を用いて、単にアタック音の増幅によりメリハリのある音を実現するだけは、多様な聴取者の嗜好（要望）を必ずしも満たすことが容易ではないという問題があった。

　本発明は、上記問題に鑑みてなされたものであり、楽器音等の音源に含まれるアタック音と、その後に持続する余韻と、収録環境の定常的なノイズ成分や音源に含まれる定常的な信号成分とを調節することにより、聴取者の嗜好にあった出力音を作り出すことが可能な音響信号処理装置および音響信号処理方法を提供することを課題とする。

　本発明に係る音響信号処理装置は、入力されたオーディオ信号に対して、フーリエ変換長とオーバーラップ長との差分時間ずつ時間シフトしながら短時間フーリエ変換を行うことにより、差分時間ずつ時間が異なる複数の振幅スペクトルを求め、求められた各振幅スペクトルの周波数毎の時間変動を求めることにより、前記入力されたオーディオ信号を時間領域から周波数領域に変換して周波数スペクトル信号を求め、さらに、該周波数スペクトル信号に基づいて、第１振幅スペクトル信号と位相スペクトル信号とを生成するＦＦＴ部と、該ＦＦＴ部により生成された前記第１振幅スペクトル信号のアタック成分を制御して第２振幅スペクトル信号を生成するアタック成分制御部と、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号の余韻成分を制御して第３振幅スペクトル信号を生成する余韻成分制御部と、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号と、前記アタック成分制御部により生成された前記第２振幅スペクトル信号と、前記余韻成分制御部により生成された前記第３振幅スペクトル信号とを合成して第４振幅スペクトル信号を生成する第１加算部と、該第１加算部により生成された前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて周波数スペクトル信号を求め、求められた該周波数スペクトル信号に短時間逆フーリエ変換処理とオーバーラップ加算とを行うことによって、周波数領域から時間領域に変換されたオーディオ信号を生成するＩＦＦＴ部とを備え、前記アタック成分制御部は、予め設定された第１カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第１ＨＰＦ部と、該第１ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号のアタック成分を検出する第１リミッタ部と、予め設定された第１重み付け量に基づいて、前記第１リミッタ部により検出された振幅スペクトル信号のアタック成分に対して重み付け処理を行う第１ゲイン部とを有し、前記余韻成分制御部は、予め設定された第２カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第２ＨＰＦ部と、該第２ＨＰＦ部においてハイパスフィルタ処理された振幅スペクトル信号に－１を乗算して振幅の反転を行う振幅反転部と、該振幅反転部により振幅の反転が行われた振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号の余韻成分を検出する第２リミッタ部と、予め設定された第２重み付け量に基づいて、前記第２リミッタ部により検出された振幅スペクトル信号の余韻成分に対して重み付け処理を行う第２ゲイン部とを有することを特徴とする。

　また、本発明に係る音響信号処理方法は、入力されたオーディオ信号を時間領域から周波数領域に変換して周波数スペクトル信号を求めて、第１振幅スペクトル信号と位相スペクトル信号とを生成するＦＦＴ部と、該ＦＦＴ部により生成された前記第１振幅スペクトル信号のアタック成分を制御して第２振幅スペクトル信号を生成するアタック成分制御部と、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号の余韻成分を制御して第３振幅スペクトル信号を生成する余韻成分制御部と、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号と、前記アタック成分制御部により生成された前記第２振幅スペクトル信号と、前記余韻成分制御部により生成された前記第３振幅スペクトル信号とを合成して第４振幅スペクトル信号を生成する第１加算部と、該第１加算部により生成された前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換されたオーディオ信号を生成するＩＦＦＴ部とを備え、前記アタック成分制御部は、第１ＨＰＦ部と、第１リミッタ部と、第１ゲイン部とを有し、前記余韻成分制御部は、第２ＨＰＦ部と、振幅反転部と、第２リミッタ部と、第２ゲイン部とを有し、前記入力されたオーディオ信号に対してアタック成分制御と余韻成分制御とを行う音響信号処理装置の音響信号処理方法であって、前記ＦＦＴ部は、前記入力されたオーディオ信号に対して、フーリエ変換長とオーバーラップ長との差分時間ずつ時間シフトしながら短時間フーリエ変換を行うことにより、差分時間ずつ時間が異なる複数の振幅スペクトルを求め、求められた各振幅スペクトルの周波数毎の時間変動を求めることにより前記周波数スペクトル信号を求め、さらに、当該周波数スペクトル信号に基づいて、前記第１振幅スペクトル信号と前記位相スペクトル信号とを生成し、前記アタック成分制御部において、前記第１ＨＰＦ部は、予め設定された第１カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、前記第１リミッタ部は、前記第１ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号のアタック成分を検出し、前記第１ゲイン部は、予め設定された第１重み付け量に基づいて、前記第１リミッタ部により検出された振幅スペクトル信号のアタック成分に対して重み付け処理を行い、前記余韻成分制御部において、前記第２ＨＰＦ部は、予め設定された第２カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、前記振幅反転部は、前記第２ＨＰＦ部においてハイパスフィルタ処理された振幅スペクトル信号に－１を乗算して振幅の反転を行い、前記第２リミッタ部は、前記振幅反転部により振幅の反転が行われた振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号の余韻成分を検出し、前記第２ゲイン部は、予め設定された第２重み付け量に基づいて、前記第２リミッタ部により検出された振幅スペクトル信号の余韻成分に対して重み付け処理を行い、前記第１加算部は、前記第１振幅スペクトル信号と、前記第１ゲイン部によりアタック成分に対して重み付け処理が行われた前記第２振幅スペクトル信号と、前記第２ゲイン部により余韻成分に対して重み付け処理が行われた前記第３振幅スペクトル信号とを合成して前記第４振幅スペクトル信号を生成し、前記ＩＦＦＴ部は、前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数スペクトル信号を求め、求められた該周波数スペクトル信号に短時間逆フーリエ変換処理とオーバーラップ加算とを行うことによって、周波数領域から時間領域に変換された前記オーディオ信号を生成することを特徴とする。

　本発明に係る音響信号処理装置および音響信号処理方法では、アタック成分制御部における第１ゲイン部の第１重み付け量を調整することにより、オーディオ信号のアタック成分（アタック音）の増強・低減を行うことができる。さらに、第１ＨＰＦ部において、第１カットオフ周波数を調整することにより、アタック成分の制御時間（増強時間、低減時間）を変化させることができる。このため、アタック成分を信号レベルに応じて増幅して強調することにより、総じてメリハリのある表現を出力音に発現させることが可能となる。また、一般的なＭＰ３などのデジタル音声信号において劣化するおそれのあるアタック成分を制御することにより、デジタル音声信号の音質向上を図ることが可能となる。

　また、本発明に係る音響信号処理装置および音響信号処理方法では、余韻成分制御部における第２ゲイン部の第２重み付け量を調整することにより、オーディオ信号の余韻成分（余韻）の増強・低減を行うことができる。さらに、第２ＨＰＦ部において、第２カットオフ周波数を調整することにより、余韻の制御時間（増強時間、低減時間）を変化させることができる。このため、聴取者の好みに応じ、余韻を強調させたり低減させたりすることが可能となる。

　さらに、アタック成分制御部によるアタック成分の制御処理および余韻成分制御部による余韻成分の制御処理は、周波数領域の振幅スペクトル毎の変化量に基づいて行われる。このため、従来技術のようなスレッショルドを用いてアタック音などを識別する場合のように、音源の振幅レベルによって検出状態が大きく左右されてしまうことがない。

　また、アタック成分制御部および余韻成分制御部におけるカットオフ周波数（第１カットオフ周波数および第２カットオフ周波数）の設定や重み付け量（第１重み付け量および第２重み付け量）の設定は、振幅スペクトル毎に個別に設定することもできるので、周波数帯域を複数の帯域に分けて、それぞれ設定することも可能である。

　例えば、入力されるオーディオ信号を低域、中域、高域の３つの帯域に分ける場合、低域では、アタック成分を増強して余韻を低減することで、ドラム等の迫力と応答性のある音を再現することができる。中域では余韻成分を増強して音声の響きを強調し、高域ではアタック成分を増強することで、シンバルなどの音がより透明感のあるクリアな音にすることが可能となる。

　また、上述した音響信号処理装置は、前記第１加算部により生成された前記第４振幅スペクトル信号のノイズ制御を行って第５振幅スペクトル信号を生成するノイズ制御部を備え、前記ＩＦＦＴ部は、前記ノイズ制御部により生成された前記第５振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換された前記オーディオ信号を生成し、前記ノイズ制御部は、予め設定された第３カットオフ周波数に基づいて、前記第１加算部により生成された前記第４振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第３ＨＰＦ部と、該第３ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定する第３リミッタ部と、予め設定された０以上１以下の値からなる第３重み付け量に基づいて、前記第３リミッタ部によりマイナス側の振幅が制限された振幅スペクトル信号の重み付け処理を行う第３ゲイン部と、値１から前記第３重み付け量の値を減じた重み付け量に基づいて、前記第１加算部において生成された前記第４振幅スペクトル信号の重み付け処理を行う第４ゲイン部と、前記第３ゲイン部により重み付け処理が行われた振幅スペクトル信号と、前記第４ゲイン部により重み付け処理が行われた振幅スペクトル信号とを合成して前記第５振幅スペクトル信号を生成する第２加算部とを有するものであってもよい。

　さらに、上述した音響信号処理方法は、前記第１加算部により生成された前記第４振幅スペクトル信号のノイズ制御を行って第５振幅スペクトル信号を生成するノイズ制御部を備え、前記ノイズ制御部は、第３ＨＰＦ部と、第３リミッタ部と、第３ゲイン部と、第４ゲイン部と、第２加算部とを有し、前記ＩＦＦＴ部は、前記ノイズ制御部により生成された前記第５振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換された前記オーディオ信号を生成し、前記ノイズ制御部において、前記第３ＨＰＦ部は、予め設定された第３カットオフ周波数に基づいて、前記第１加算部により生成された前記第４振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、前記第３リミッタ部は、前記第３ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定し、前記第３ゲイン部は、予め設定された０以上１以下の値からなる第３重み付け量に基づいて、前記第３リミッタ部によりマイナス側の振幅が制限された振幅スペクトル信号の重み付け処理を行い、前記第４ゲイン部は、値１から前記第３重み付け量の値を減じた重み付け量に基づいて、前記第１加算部において生成された前記第４振幅スペクトル信号の重み付け処理を行い、前記第２加算部は、前記第３ゲイン部により重み付け処理が行われた振幅スペクトル信号と、前記第４ゲイン部により重み付け処理が行われた振幅スペクトル信号とを合成して前記第５振幅スペクトル信号を生成するものであってもよい。

　本発明に係る音響信号処理装置および音響信号処理方法では、ノイズ制御部において第３ゲイン部および第４ゲイン部の重み付け量を調整することにより、ノイズ低減量の調整を行うことができる。さらに、第３ＨＰＦ部において、第３カットオフ周波数を調整することにより、ノイズのＤＣ成分を抑圧（抑制）することができる。このため、音源の収録環境や音源そのものに含まれる定常的なノイズを調節することが可能となる。

　また、ノイズ制御部によるノイズ低減処理は、周波数領域の振幅スペクトル毎の変化量に基づいて行われるため、従来技術のようなスレッショルドを用いてアタック音などを識別する場合のように、音源の振幅レベルによって検出状態が大きく左右されてしまうことがない。

　さらに、音源そのものに含まれる定常的な信号成分や音源の収録環境に含まれる定常的なノイズ成分が含まれるオーディオ信号を再生した場合は、ノイズ等が収録環境の臨場感となって聴取される場合があるが、その一方で、楽器音や音声の鮮明感が低下してしまう傾向がある。この場合において、本発明に係る音響信号処理装置および音響信号処理方法を用いることによって、ノイズ制御部でノイズ制御を行ってノイズ量の低減調節を行うことができるので、臨場感をある程度維持したまま、楽器音や音声の音響成分をクリアな音で出力することが可能となる。

　本発明に係る音響信号処理装置および音響信号処理方法では、楽器音等の音源に含まれるアタック成分（アタック音）とその後に持続する余韻成分（余韻）、収録環境の定常的なノイズ成分や音源に含まれる定常的な信号成分を調節することができるので、多様な聴取者の嗜好に対応することが可能となる。

実施の形態に係る音響信号処理装置の概略構成を示したブロック図である。実施の形態に係るＦＦＴ部へ入力されるオーディオ信号と、このオーディオ信号に対して短時間フーリエ変換処理を行う場合のフーリエ変換長Ｎとオーバーラップ長Ｍとを示した図である。実施の形態に係るＦＦＴ部における時間シフト毎の振幅スペクトルを示した図である。実施の形態に係るＦＦＴ部における振幅スペクトルの時間変動を示した図である。実施の形態に係る周波数スペクトル領域フィルタ部の概略構成を示したブロック図である。実施の形態に係る音響信号処理装置の処理が、周波数毎に実行される状態を説明するための図である。（ａ）は、第１ゲイン部および第２ゲイン部で設定される重み付け量に対応する増強量・低減量の関係を示した図である。（ｂ）は、第１ＨＰＦ部および第２ＨＰＦ部において設定されるカットオフ周波数と、設定されたカットオフ周波数に応じて変化するアタック音または余韻の制御時間との関係を示した図である。（ａ）は、ノイズ制御部の第３ゲイン部における重み付け量とノイズ低減量との関係を示した図である。（ｂ）は、音響信号処理に用いられる入力されたオーディオ信号の信号状態の一例を示した図である。（ａ）は、アタック音制御部の第１ＨＰＦ部と第１リミッタ部のみを動作させたときの出力信号を示した図である。（ｂ）は、第１ＨＰＦ部と第１リミッタ部を動作させ、第１ゲイン部の重み付け量の値を１に設定したオーディオ信号と周波数スペクトル領域フィルタ部に入力されたオーディオ信号とを合成した信号を示した図である。（ａ）は、アタック音制御部の第１ＨＰＦ部と第１リミッタ部を動作させ、第１ゲイン部の重み付け量の値を－１に設定したオーディオ信号と、周波数スペクトル領域フィルタ部に入力されたオーディオ信号とを合成した信号を示した図である。（ｂ）は、図９（ｂ）に示す信号の設定条件おいて、第１ＨＰＦ部のカットオフ周波数を２．５Ｈｚから１．２５Ｈｚへと変更した場合の合成された信号を示した図である。（ａ）は、余韻制御部の第２ＨＰＦ部、振幅反転部および第２リミッタ部のみを動作させたときの出力信号を示した図である。（ｂ）は、図９（ｂ）に示す信号と、第２ＨＰＦ部、振幅反転部および第２リミッタ部を動作させ、第２ゲイン部の重み付け量の値を－１に設定したオーディオ信号と、周波数スペクトル領域フィルタ部に入力されたオーディオ信号とを合成した信号を示した図である。アタック音制御部でアタック音の低減が行われた図１０（ａ）に示すオーディオ信号と、余韻制御部において第２ＨＰＦ部、振幅反転部および第２リミッタ部を動作させ、第２ゲイン部の重み付け量の値を１に設定したオーディオ信号と、周波数スペクトル領域フィルタ部に入力されたオーディオ信号とを合成した信号を示した図である。（ａ）は、入力されたオーディオ信号にノイズとして定常性のある１．２ｋＨｚの正弦波を加えた入力信号を示した図である。（ｂ）は、ノイズ制御部で（ａ）に示す信号に対してノイズ制御処理を行った信号を示した図である。

　以下、本発明に係る音響信号処理装置の一例を示して、詳細に説明を行う。図１は、音響信号処理装置の概略構成を示したブロック図である。音響信号処理装置１は、図１に示すように、ＦＦＴ（Fast Fourier Transform：高速フーリエ変換）部２と、周波数スペクトル領域フィルタ部３と、ＩＦＦＴ（Inverse Fast Fourier Transform：逆高速フーリエ変換）部４とを有している。図示を省略したオーディオ信号再生装置によって再生されたオーディオ信号は、音響信号処理装置１のＦＦＴ部２へと入力され、音響信号処理装置１において、音響処理が行われた信号は、ＩＦＦＴ部４より出力されて、図示を省略したスピーカより出力される。

　［ＦＦＴ部］
　ＦＦＴ部２は、入力されたオーディオ信号に対して、オーバーラップ処理と窓関数により重み付けを行った後、短時間フーリエ変換処理により、時間領域から周波数領域に変換して、実数と虚数の周波数スペクトルを求める。また、ＦＦＴ部２は、求められた周波数スペクトルを振幅スペクトル信号（第１振幅スペクトル信号）と位相スペクトル信号に変換する。ＦＦＴ部２は、振幅スペクトル信号（第１振幅スペクトル信号）を、周波数スペクトル領域フィルタ部３に出力し、位相スペクトル信号をＩＦＦＴ部４に出力する。

　図２は、入力されるオーディオ信号と、このオーディオ信号に対して短時間フーリエ変換処理を行う場合のフーリエ変換長Ｎとオーバーラップ長Ｍとを示した図である。ＦＦＴ部２は、図２に示すように、フーリエ変換長Ｎとオーバーラップ長Ｍとの差分時間ずつ時間シフトしながら短時間フーリエ変換を行う。具体的には、図２に示すように、フーリエ変換長Ｎとオーバーラップ長Ｍとの差分時間ずつ時間をシフト（時間ｔ１,ｔ２,ｔ３,ｔ４,ｔ５, ・・・・・）したｔｎ（ｎ＝１，２，・・・ｎ）個の周波数スペクトルを求める。

　図３は、時間シフト毎の振幅スペクトルを示した図である。具体的に、図３には、時間ｔ１の振幅スペクトルと、時間ｔ２の振幅スペクトルと、時間ｔ３の振幅スペクトルとが示されており、周波数毎（ｆ１，ｆ２，ｆ３，ｆ４，ｆ５，ｆ６，ｆ７，ｆ８，・・・，ｆｎ-１，ｆｎ）の振幅が示されている。音楽等の非定常的な信号がオーディオ信号としてＦＦＴ部２に入力された場合には、図３に示すように、時間シフト毎にそれぞれの振幅スペクトルが変動することになる。フーリエ変換長Ｎの場合には、振幅スペクトルの総数はＮ個となる。

　図４は、振幅スペクトルの時間変動を示した図である。具体的に、図４には、周波数ｆ１の振幅スペクトルの時間変動と、周波数ｆ２の振幅スペクトルの時間変動と、周波数ｆ３の振幅スペクトルの時間変動とが示されており、時間変動毎（ｔ１，ｔ２，ｔ３，ｔ４，ｔ５，・・・，ｔｋ）の振幅が示されている。時間のシフト間隔は、周波数スペクトルのサンプリング周波数となる。

　［周波数スペクトル領域フィルタ部］
　図５は、周波数スペクトル領域フィルタ部３の概略構成を示したブロック図である。周波数スペクトル領域フィルタ部３は、図５に示すように、アタック音制御部（アタック成分制御部）１０と、余韻制御部（余韻成分制御部）２０と、ノイズ制御部３０と、第１加算部４０と、第４リミッタ部４１とを有している。

　ＦＦＴ部２から周波数スペクトル領域フィルタ部３に向けて出力された振幅スペクトル信号（第１振幅スペクトル信号）の一部は、アタック音制御部１０と、余韻制御部２０とにそれぞれ入力される。アタック音制御部１０および余韻制御部２０において処理された各振幅スペクトル信号（第２振幅スペクトル信号、第３振幅スペクトル信号）は、第１加算部４０へそれぞれ出力される。また、ＦＦＴ部２から周波数スペクトル領域フィルタ部３へ出力された振幅スペクトル信号（第１振幅スペクトル信号）の残りは、直接に第１加算部４０へと出力される。

　ここで、周波数スペクトル領域フィルタ部３は、ＦＦＴ部２から入力されたオーディオ信号（第１振幅スペクトル信号）を振幅スペクトル毎に、フィルタ処理や振幅制限処理、振幅重み付け処理を行うものであり、入力されたオーディオ信号の位相スペクトルについては、図１に示すように、処理を行わない。

　［アタック音制御部］
　アタック音制御部１０は、第１ＨＰＦ（High-pass filter：ハイパスフィルタ）部１１と、第１リミッタ部１２と、第１ゲイン部１３とを有している。

　第１ＨＰＦ部１１は、入力された振幅スペクトル信号（第１振幅スペクトル信号）に対して、スペクトル毎にハイパスフィルタ処理、すなわち微分処理を行う。第１リミッタ部１２は、ハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して、０に設定する。このようにマイナス側の振幅を０に設定することによって、スペクトル毎の信号の立ち上がり成分、すなわちアタック成分（アタック音）を検出することが可能となる。

　なお、第１ＨＰＦ部１１において設定されるカットオフ周波数（第１カットオフ周波数）の値が大きくなるほど、アタック音の制御時間は短くなり、小さくなると制御時間が長くなる。カットオフ周波数は、図１に示すようにパラメータとして設定することが可能となっている。

　第１ゲイン部１３は、第１リミッタ部１２により検出された振幅スペクトル信号のアタック成分に対して重み付け（乗算）を行う。第１ゲイン部１３により重み付けが行われた信号（第２振幅スペクトル信号）は、第１加算部４０へと出力される。第１加算部４０において、もとの振幅スペクトル信号（アタック音制御部１０および余韻制御部２０において音響処理されていない振幅スペクトル信号：第１振幅スペクトル信号）に対して、アタック音制御部１０でアタック成分の音響処理が行われた振幅スペクトル信号（第２振幅スペクトル信号）が合成されることによって、重み付け量（第１重み付け量）がプラスの値の場合には、もとの振幅スペクトル信号（第１振幅スペクトル信号）に対してアタック音の増強が行われ、マイナスの値の場合にはアタック音の低減が行われる。

　さらに、重み付け量のプラスまたはマイナスの値が大きくなるほど、アタック音の増強または低減の度合いが大きくなる。この重み付け量（第１重み付け量）は、図１に示すようにパラメータとして設定することが可能となっている。本実施の形態では、後述するように－１以上１以下の値が設定される。

　［余韻制御部］
　余韻制御部２０は、第２ＨＰＦ部２１と、振幅反転部２２と、第２リミッタ部２３と、第２ゲイン部２４とを有している。

　第２ＨＰＦ部２１は、入力された振幅スペクトル信号（第１振幅スペクトル信号）に対して、スペクトル毎にハイパスフィルタ処理、すなわち微分処理を行う。振幅反転部２２は、第２ＨＰＦ部２１においてハイパスフィルタ処理された振幅スペクトル信号に－１を乗算して、振幅の反転を行う。

　第２リミッタ部２３は、振幅の反転が行われた振幅スペクトル信号のマイナス側の振幅を制限して、０に設定する。このようにマイナス側の振幅を０に設定することによって、スペクトル毎の信号の立ち下がり成分、すなわち余韻成分を検出することが可能となる。

　なお、第２ＨＰＦ部２１において設定されるカットオフ周波数（第２カットオフ周波数）の値が大きくなるほど、余韻の制御時間は短くなり、小さくなると制御時間が長くなる。カットオフ周波数は、図１に示すようにパラメータとして設定することが可能となっている。

　第２ゲイン部２４は、第２リミッタ部２３により検出された振幅スペクトル信号の余韻成分に対して重み付け（乗算）を行う。第２ゲイン部２４により重み付けが行われた信号（第３振幅スペクトル信号）は、第１加算部４０へと出力される。第１加算部４０において、もとの振幅スペクトル信号（アタック音制御部１０および余韻制御部２０において音響処理されていない振幅スペクトル信号：第１振幅スペクトル信号）に対して、余韻制御部２０で余韻成分の音響処理が行われた振幅スペクトル信号（第３振幅スペクトル信号）が合成されることによって、重み付け量（第２重み付け量）がプラスの値の場合にはもとの振幅スペクトル信号（第１振幅スペクトル信号）に対して余韻の増強が行われ、マイナスの値の場合には余韻の低減が行われる。

　さらに、重み付け量のプラスまたはマイナスの値が大きくなるほど、余韻の増強または低減の度合いが大きくなる。この重み付け量（第２重み付け量）は、図１に示すようにパラメータとして設定することが可能となっている。本実施の形態では、後述するように－１以上１以下の値が設定される。

　［第１加算部］
　第１加算部４０は、アタック音制御部１０においてアタック音に対する音響処理が行われた振幅スペクトル信号（第２振幅スペクトル信号）と、余韻制御部２０において余韻に対する音響処理が行われた振幅スペクトル信号（第３振幅スペクトル信号）と、ＦＦＴ部２より入力されたもとの振幅スペクトル信号（第１振幅スペクトル信号）とを合成する役割を有している。第１加算部４０において合成された振幅スペクトル信号（第４振幅スペクトル信号）は、もとの振幅スペクトル信号（第１振幅スペクトル信号）に対して、アタック音および余韻の増強あるいは低減がなされた状態となって、ノイズ制御部３０へ出力される。

　［ノイズ制御部］
　ノイズ制御部３０は、Ｓ／Ｎ比を向上させる役割を有している。ノイズ制御部３０は、第３ＨＰＦ部３１と、第３リミッタ部３２と、第３ゲイン部３３と、第４ゲイン部３４と、第２加算部３５とを有している。第１加算部４０において合成された振幅スペクトル信号（第４振幅スペクトル信号）は、第３ＨＰＦ部３１と第４ゲイン部３４とにそれぞれ出力される。

　第３ＨＰＦ部３１は、第１加算部４０において合成（生成）された振幅スペクトル信号（第４振幅スペクトル信号）に対して、スペクトル毎にハイパスフィルタ処理、すなわち微分処理を行う。第３リミッタ部３２は、ハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して、０に設定する。

　第３ＨＰＦ部３１および第３リミッタ部３２によって、同一周波数の振幅スペクトルにおいて、ＣＷ（Constant Wave）等の定常的に存在する信号をノイズと判断し、微分処理により定常成分すなわちＤＣ（Direct Current）成分を抑圧することが可能となる。一般に、ハイパスフィルタのカットオフ周波数（第３カットオフ周波数）が小さくなるほど、ＤＣ近傍を抑圧することになるため、より定常性のある信号を抑圧（抑制）することが可能となる。

　第３ＨＰＦ部３１では、後述するように、第１ＨＰＦ部１１および第２ＨＰＦ部２１において設定されるカットオフ周波数（第１カットオフ周波数、第２カットオフ周波数）よりも低い周波数がカットオフ周波数（第３カットオフ周波数）として設定される。カットオフ周波数は、図１に示すようにパラメータとして設定することが可能となっている。

　定常成分を抑圧された信号は、第３ゲイン部３３で重み付けを行い、第２加算部３５へ出力される。一方で、第４ゲイン部３４には、第３ＨＰＦ部３１とは別に、第１加算部４０において合成（生成）された振幅スペクトル信号（第４振幅スペクトル信号）が入力される。第４ゲイン部３４では、入力された振幅スペクトル信号に対して重み付けを行った後に、第２加算部３５へ信号を出力する。

　第２加算部３５は、第３ゲイン部３３において重み付けされた振幅スペクトル信号と、第４ゲイン部３４において重み付けされた振幅スペクトル信号とを合成する処理を行う。第２加算部３５において合成された信号は、第３ゲイン部３３と第４ゲイン部３４とで重み付け処理がされているので、ノイズ低減量の調整が行われた信号（第５振幅スペクトル信号）となる。

　第３ゲイン部３３の重み付け量（第３重み付け量）と、第４ゲイン部３４の重み付け量とを、図１に示すようにパラメータとして設定することが可能となっている。本実施の形態では、第３ゲイン部３３の重み付け量（第３重み付け量）として０以上１以下の値が設定され、第４ゲイン部３４の重み付け量として、値１から第３ゲイン部３３で設定される重み付け量（第３重み付け量）を減算した値が設定される。

　Ｓ／Ｎ比を大きく向上させる場合には、例えば、第３ゲイン部３３の重み付け量を１に設定し、第４ゲイン部３４の重み付け量を０（１－１＝０）に設定する。また、Ｓ／Ｎ比をやや向上させる場合には、例えば、第３ゲイン部３３の重み付け量を０．５に設定し、第４ゲイン部３４の重み付け量を０．５（１－０．５＝０．５）に設定する。

　［第４リミッタ部］
　第４リミッタ部４１は、第２加算部３５において合成処理が行われた信号（第５振幅スペクトル信号）の振幅が、マイナスの値にならないように調整を行う役割を有している。より詳細には、アタック音制御部１０によりアタック音の調整が行われ、余韻制御部２０により余韻の調整が行われ、ノイズ制御部３０によりノイズ低減量の調整が行われた信号の振幅が、マイナスの値にならないように調整を行う役割を有している。第４リミッタ部４１は、マイナス側の振幅を制限して、０に設定する。

　上述したアタック音制御部１０、余韻制御部２０、第１加算部４０、ノイズ制御部３０および第４リミッタ部４１による音響処理は、振幅スペクトル毎に行われる。従って、図６のように、周波数スペクトル信号が、周波数毎（ｆ１，ｆ２，・・・ｆｎ）に、アタック音制御部１０、余韻制御部２０、第１加算部４０、ノイズ制御部３０および第４リミッタ部４１により、アタック音の調整、余韻の調整、ノイズ低減量の調整および振幅の調整がそれぞれになされて、周波数毎に出力される（ｆ１'，ｆ２'，・・・ｆｎ'）ことになる。フーリエ変換長Ｎが１，０２４の場合には、周波数毎の数ｆｎが１，０２４となり、１，０２４個の周波数スペクトル信号が処理されることになる。

　第４リミッタ部４１において振幅調整が行われた周波数スペクトル信号は、ＩＦＦＴ部４へ出力される。

　［ＩＦＦＴ部］
　ＩＦＦＴ部４は、周波数スペクトル領域フィルタ部３においてフィルタ処理された振幅スペクトル信号と、ＦＦＴ部２より出力される位相スペクトル信号とに基づいて、取得した信号を実数と虚数との周波数スペクトルに変換する。取得した信号を周波数スペクトルに変換した後、ＩＦＦＴ部４は、窓関数により重み付けを行い、短時間逆フーリエ変換処理とオーバーラップ加算とを行うことによって、周波数領域から時間領域に信号を変換する。このようにして周波数領域から時間領域へと変換されたオーディオ信号は、図示を省略したスピーカによって出力される。音響信号処理装置１により音響処理が行われたオーディオ信号は、楽器音等の音源に含まれるアタック音とその後に持続する余韻とが制御され、さらにＳ／Ｎ比が向上された信号として、スピーカより出力されることになる。

　［設定値調整］
　図７（ａ）は、アタック音制御部１０の第１ゲイン部１３および余韻制御部２０の第２ゲイン部２４で設定される重み付け量（第１重み付け量および第２重み付け量）の値と、重み付け量に対応する増強量・低減量の関係を示した図である。図７（ａ）に示すように、第１ゲイン部１３および第２ゲイン部２４で設定される重み付け量は、－１から１までの間のいずれかの値となる。図７（ａ）に示すように、重み付け量がプラスの場合（重み付け量の設定値が０より大きい場合）には、重み付け量の値の増加量に比例するようにして、第１ゲイン部１３でアタック音の増強が行われ、第２ゲイン部２４で余韻の増強が行われる。また、図７（ａ）に示すように、重み付け量がマイナスの場合（重み付け量の設定値が０より小さい場合）には、重み付け量の値の低減量に比例するようにして、第１ゲイン部１３でアタック音の低減が行われ、第２ゲイン部２４で余韻の低減が行われる。

　一方で、図７（ｂ）は、アタック音制御部１０の第１ＨＰＦ部１１および余韻制御部２０の第２ＨＰＦ部２１において設定されるカットオフ周波数（フィルタカットオフ周波数：第１カットオフ周波数）の値と、設定されるカットオフ周波数の値に応じて変化するアタック音または余韻の制御時間との関係を示した図である。

　図７（ｂ）に示すように、カットオフ周波数が大きくなるほど、アタック音の制御時間および余韻の制御時間が短くなり、小さくなるほど制御時間が長くなる。つまり、カットオフ周波数が大きくなるほど、アタック音・余韻が増強あるいは低減される時間が短くなり、カットオフ周波数が小さくなるほど、アタック音・余韻が増強あるいは低減される時間が長くなる。なお、カットオフ周波数の逆数がほぼ制御時間となる。本実施の形態では、カットオフ周波数の範囲を０．５Ｈｚ～１０Ｈｚ（制御時間：２秒～０．１秒）とする。

　図８（ａ）は、ノイズ制御部３０の第３ゲイン部３３における、重み付け量（第３重み付け量）とノイズ低減量との関係を示した図である。ノイズ制御部３０の第３ＨＰＦ部３１では、前述したように、定常成分すなわちＤＣ成分を抑圧するため、０．０３１Ｈｚ（制御時間：３２秒）のような、非常に小さい値がカットオフ周波数（フィルタカットオフ周波数：第３カットオフ周波数）として設定される。

　その後に、第３ゲイン部３３において設定される重み付け量の値に比例するようにして、ノイズ制御部３０において低減されるノイズの低減量が変動する。ここで、第３ゲイン部３３における重み付け量の値は、０以上１以下の値が設定され、重み付け量の値が０から１へと変化するのに対応して、ノイズ低減量が小量から大量へと変化する。なお、第４ゲイン部３４の重み付け量の値は、値１から第３ゲイン部３３で設定される重み付け量（０以上１以下の値）を減算した値に設定される。

　このように、第１ゲイン部１３および第２ゲイン部２４において設定される重み付け量（第１重み付け量、第２重み付け量）の値を調整することにより、アタック音と余韻とをそれぞれ増強あるいは低減することができる。また、第１ＨＰＦ部１１と第２ＨＰＦ部２１とにおいて設定されるカットオフ周波数（第１カットオフ周波数、第２カットオフ周波数）の値を調整することにより、アタック音および余韻の制御時間の長短調整を行うことができる。さらに、第３ゲイン部３３および第４ゲイン部３４において設定される重み付け量（第３重み付け量など）の値を調整することにより、ノイズの低減量の調整を行うことができる。このように各重み付け量および各カットオフ周波数を適宜調整することによって、楽器音等の音源に含まれるアタック音とその後に持続する余韻、収録環境の定常的なノイズ成分や音源に含まれる定常的な信号成分を調節することができ、オーディオ信号を聴取者の嗜好に合うように調整することが可能となる。

　［音響信号処理例］
　次に、本実施の形態に係る音響信号処理装置１に対して、図８（ｂ）に示すようなオーディオ信号が入力された場合に、周波数スペクトル領域フィルタ部３で、重み付け量やカットオフ周波数などのパラメータを調節したときの出力信号の一例について説明を行う。

　ここで、入力されるオーディオ信号のサンプリング周波数は、４４．１ｋＨｚとする。また、入力されるオーディオ信号は、図８（ｂ）に示すように、アタック音と余韻によって構成され、周波数成分は１ｋＨｚである。

　また、ＦＦＴ部２のフーリエ変換長Ｎは、４，０９６ｓａｍｐｌｅ、オーバーラップ長Ｍは、フーリエ変換長Ｎの１５／１６倍となる３，８４０ｓａｍｐｌｅ、窓関数はブラックマン、振幅スペクトルのサンプリング周波数は、それぞれ１７２Ｈｚ（４４，１００／（４，０９６－３，８４０）≒１７２）とする。

　さらに、第１ＨＰＦ部１１、第２ＨＰＦ部２１および第３ＨＰＦ部３１は、一次のバタワースハイパスフィルタであり、カットオフ周波数は、第１ＨＰＦ部１１が２．５Ｈｚ、第２ＨＰＦ部２１が１．２５Ｈｚ、第３ＨＰＦ部３１が０．０３１Ｈｚとする。また、第１ゲイン部１３、第２ゲイン部２４、第３ゲイン部３３および第４ゲイン部３４の重み付け量は、－１，０，１のいずれかを、ゲイン部毎に個別に設定する。

　図９（ａ）は、周波数スペクトル領域フィルタ部３において、アタック音制御部１０の第１ＨＰＦ部１１と第１リミッタ部１２のみを動作させたときの出力信号を示した図である。ここで、第１ＨＰＦ部１１のカットオフ周波数は、２．５Ｈｚである。

　アタック音制御部１０の第１ＨＰＦ部１１と第１リミッタ部１２のみを動作させた場合には、図９（ａ）に示すように、入力されたオーディオ信号の立ち上がり成分、すなわち、アタック音（アタック成分）が検出される。

　さらに、アタック音制御部１０の第１ＨＰＦ部１１と第１リミッタ部１２を動作させ、第１ゲイン部１３の重み付け量の値を１に設定することによりアタック音が強調されたオーディオ信号と、周波数スペクトル領域フィルタ部３に入力されたオーディオ信号（図８（ｂ）に示される信号）とを合成した信号を、図９（ｂ）に実線で示す。図９（ｂ）において、破線で示される信号は、図８（ｂ）に示した入力されたオーディオ信号の状態を示している。図９（ｂ）に実線で示すように、合成された信号は、図８（ｂ）に示したオーディオ信号に対してアタック音（アタック成分）が増強された状態となる。

　一方で、アタック音制御部１０の第１ＨＰＦ部１１と第１リミッタ部１２を動作させ、第１ゲイン部１３の重み付け量の値を－１に設定することによりアタック音が低減されたオーディオ信号と、周波数スペクトル領域フィルタ部３に入力されたオーディオ信号（図８（ｂ）に示される信号）とを合成した信号を、図１０（ａ）に実線で示す。図１０（ａ）において、破線で示される信号は、図８（ｂ）に示した入力されたオーディオ信号の状態を示している。図１０（ａ）に実線で示すように、合成された信号は、図８（ｂ）に示したオーディオ信号に対してアタック音（アタック成分）が低減された状態となる。

　また、図９（ｂ）に示した条件に対して、第１ＨＰＦ部１１のカットオフ周波数を２．５Ｈｚから１．２５Ｈｚへと変更した場合の合成された信号を、図１０（ｂ）に実線で示す。図１０（ｂ）において、破線で示される信号は、図８（ｂ）に示した入力されたオーディオ信号の状態を示している。カットオフ周波数を２．５Ｈｚから１．２５Ｈｚへと変更することにより、制御時間が大きくなるので（図７（ｂ）参照）、合成された信号は、図８（ｂ）に示したオーディオ信号に対して、アタック音が増強されているだけでなく、アタック時間も増大していることがわかる。

　図１１（ａ）は、周波数スペクトル領域フィルタ部３において、余韻制御部２０の第２ＨＰＦ部２１、振幅反転部２２および第２リミッタ部２３のみを動作させたときの出力信号を示した図である。ここで、第２ＨＰＦ部２１のカットオフ周波数は、２．５Ｈｚである。

　余韻制御部２０の第２ＨＰＦ部２１、振幅反転部２２および第２リミッタ部２３のみを動作させた場合には、図１１（ａ）に示すように、入力されたオーディオ信号の立ち下がり成分、すなわち、余韻（余韻成分）が検出される。

　さらに、図９（ｂ）に示したようにアタック音制御部１０でアタック音が強調されたオーディオ信号と、余韻制御部２０の第２ＨＰＦ部２１、振幅反転部２２および第２リミッタ部２３を動作させ、第２ゲイン部２４の重み付け量の値を－１に設定することにより余韻の低減が行われるオーディオ信号と、周波数スペクトル領域フィルタ部３に入力されたオーディオ信号（図８（ｂ）に示される信号）とを合成した信号を、図１１（ｂ）に実線で示す。図１１（ｂ）において、破線で示される信号は、図８（ｂ）に示した入力されたオーディオ信号の状態を示している。図１１（ｂ）に実線で示す合成された信号を、図８（ｂ）に示す入力されたオーディオ信号と比較すると、図８（ｂ）に比べてアタック音が増強されるが、余韻は減少した状態となる。また、図１１（ｂ）に実線で示すように、合成された信号は、図９（ｂ）に実線で示したオーディオ信号と比較して余韻（余韻成分）が低減された状態となる。

　さらに、図１０（ａ）に示したようにアタック音制御部１０でアタック音の低減が行われたオーディオ信号と、余韻制御部２０の第２ＨＰＦ部２１、振幅反転部２２および第２リミッタ部２３を動作させ、第２ゲイン部２４の重み付け量の値を１に設定することにより余韻の増強が行われたオーディオ信号と、周波数スペクトル領域フィルタ部３に入力されたオーディオ信号（図８（ｂ）に示される信号）とを合成した信号を、図１２に実線で示す。図１２において、破線で示される信号は、図８（ｂ）に示した信号の状態を示している。

　図１２に示す合成された信号を、図８（ｂ）に示す入力されたオーディオ信号と比較すると、図８（ｂ）に比べてアタック音が低減されるが、余韻が増大した状態となる。また、図１２に実線で示すように、合成された信号は、図１０（ａ）に実線で示したオーディオ信号と比較して余韻（余韻成分）が増大された状態となる。

　図１３（ａ）は、入力されたオーディオ信号（図８（ｂ）に示す信号）にノイズとして定常性のある１．２ｋＨｚの正弦波を加えた入力信号に対して、アタック音制御部１０の第１ＨＰＦ部１１のカットオフ周波数を２．５Ｈｚに設定し、第１ゲイン部１３の重み付け量を１に設定した場合の出力信号の状態を示している。図１３（ａ）に示す信号は、ノイズが付加されたオーディオ信号に対して、アタック音制御部１０でアタック音制御処理が行われるため、アタック音が増強された状態となる。

　一方で、図１３（ｂ）は、図１３（ａ）に示す信号に対して、ノイズ制御部３０の第３ＨＰＦ部３１のカットオフ周波数を０．０３１Ｈｚに設定し、第３ゲイン部３３の重み付け量を１、第４ゲイン部３４の重み付け量を０に設定することにより、ノイズ制御部３０でノイズ制御処理を行った信号を示している。図１３（ｂ）に示すように、第３ＨＰＦ部３１のカットオフ周波数を低い値（０．０３１Ｈｚ）に設定することにより、ＤＣ近傍を抑圧（抑制）することができるので、アタック音の増強を維持したまま定常性のあるノイズのみを低減することが可能となる。

　以上、説明したように、本実施の形態に係る音響信号処理装置１では、アタック音制御部１０の第１ゲイン部１３の重み付け量を調整することにより、オーディオ信号のアタック音の増強・低減を行うことができる。さらに、第１ＨＰＦ部１１において、カットオフ周波数を調整することにより、アタック音の制御時間（増強時間、低減時間）を変化させることができる。このため、アタック音を信号レベルに応じて増幅して強調することにより、総じてメリハリのある表現を出力音に発現させることが可能となる。また、一般的なＭＰ３などのデジタル音声信号において劣化するおそれのあるアタック音の制御を行うことにより、デジタル音声信号の音質向上を図ることが可能となる。

　さらに、本実施の形態に係る音響信号処理装置１では、余韻制御部２０の第２ゲイン部２４の重み付け量を調整することにより、オーディオ信号の余韻の増強・低減を行うことができる。さらに、第２ＨＰＦ部２１において、カットオフ周波数を調整することにより、余韻の制御時間（増強時間、低減時間）を変化させることができる。このため、聴取者の好みに応じ、余韻を強調させたり低減させたりすることが可能となる。

　また、本実施の形態に係る音響信号処理装置１では、ノイズ制御部３０の第３ゲイン部３３および第４ゲイン部３４の重み付け量を調整することにより、ノイズ低減量の調整を行うことができる。さらに、第３ＨＰＦ部３１において、カットオフ周波数を調整することにより、ノイズのＤＣ成分を抑圧することができる。このため、音源の収録環境や音源そのものに含まれる定常的なノイズを調節することが可能となる。

　さらに、上述したアタック音制御処理、余韻制御処理およびノイズ低減処理は、周波数領域の振幅スペクトル毎の変化量に基づいて行われることを特徴とする。このため、従来技術のようなスレッショルドを用いてアタック音などを識別する場合のように、音源の振幅レベルによって検出状態が大きく左右されてしまうことがない（音源の振幅レベル依存性は存在しない）。

　例えば、楽器音と音声とが含まれているオーディオ信号においては、楽器音のアタック音の立ち上がり時間に対して、音声の立ち上がり時間が遅く、振幅スペクトル毎の変化量も音声の方が小さいため、アタック音制御部１０における第１ＨＰＦ部１１のカットオフ周波数の設定により、楽器音のみにアタック音を付加することができる。このようにして楽器音のアタック音のみを増強することによって、音声の抑揚感を維持したまま楽器音のメリハリ感を強調することが可能となる。

　また、アタック音制御部１０、余韻制御部２０およびノイズ制御部３０におけるカットオフ周波数の設定や重み付け量の設定は、振幅スペクトル毎に個別に設定することもできるので、周波数帯域を複数の帯域に分けて、それぞれ設定することも可能である。

　例えば、入力されるオーディオ信号を低域、中域、高域の３つの帯域に分ける場合、低域では、アタック音を増強して余韻を低減することで、ドラム等の迫力と応答性のある音を再現することができる。中域では余韻を増強して音声の響きを強調し、高域ではアタック音を増強することで、シンバルなどの音をより透明感のあるクリアな音にすることが可能となる。

　また、音源そのものに含まれる定常的な信号成分や音源の収録環境に含まれる定常的なノイズ成分が含まれるオーディオ信号を再生した場合は、ノイズ等が収録環境の臨場感となって聴取される場合があるが、その一方で、楽器音や音声の鮮明感が低下してしまう傾向がある。この場合には、ノイズ制御部３０でノイズ制御を行ってノイズ量を僅かに低減させることにより、臨場感をある程度維持したまま、楽器音や音声の音響成分をクリアな音で出力することが可能となる。

　このように、本実施の形態に係る音響信号処理装置１を用いることにより、楽器音等の音源に含まれるアタック音とその後に持続する余韻、収録環境の定常的なノイズ成分や音源に含まれる定常的な信号成分を調節することができるので、多様な聴取者の嗜好に対応することができる。

　以上、本発明に係る音響信号処理装置について、音響信号処理装置１を一例として示して詳細に説明を行ったが、本発明に係る音響信号処理装置および音響信号処理方法は、上述した実施の形態に示した内容には限定されない。当業者であれば、請求の範囲に記載された範疇内において、各種の変更例または修正例に想到しうることは明らかである。

１     …音響信号処理装置
２     …ＦＦＴ部
３     …周波数スペクトル領域フィルタ部
４     …ＩＦＦＴ部
１０   …アタック音制御部（アタック成分制御部）
１１   …（アタック音制御部の）第１ＨＰＦ部
１２   …（アタック音制御部の）第１リミッタ部
１３   …（アタック音制御部の）第１ゲイン部
２０   …余韻制御部（余韻成分制御部）
２１   …（余韻制御部の）第２ＨＰＦ部
２２   …（余韻制御部の）振幅反転部
２３   …（余韻制御部の）第２リミッタ部
２４   …（余韻制御部の）第２ゲイン部
３０   …ノイズ制御部
３１   …（ノイズ制御部の）第３ＨＰＦ部
３２   …（ノイズ制御部の）第３リミッタ部
３３   …（ノイズ制御部の）第３ゲイン部
３４   …（ノイズ制御部の）第４ゲイン部
３５   …（ノイズ制御部の）第２加算部
４０   …第１加算部
４１   …第４リミッタ部

Claims

　入力されたオーディオ信号に対して、フーリエ変換長とオーバーラップ長との差分時間ずつ時間シフトしながら短時間フーリエ変換を行うことにより、差分時間ずつ時間が異なる複数の振幅スペクトルを求め、求められた各振幅スペクトルの周波数毎の時間変動を求めることにより、前記入力されたオーディオ信号を時間領域から周波数領域に変換して周波数スペクトル信号を求め、さらに、該周波数スペクトル信号に基づいて、第１振幅スペクトル信号と位相スペクトル信号とを生成するＦＦＴ部と、
　該ＦＦＴ部により生成された前記第１振幅スペクトル信号のアタック成分を制御して第２振幅スペクトル信号を生成するアタック成分制御部と、
　前記ＦＦＴ部により生成された前記第１振幅スペクトル信号の余韻成分を制御して第３振幅スペクトル信号を生成する余韻成分制御部と、
　前記ＦＦＴ部により生成された前記第１振幅スペクトル信号と、前記アタック成分制御部により生成された前記第２振幅スペクトル信号と、前記余韻成分制御部により生成された前記第３振幅スペクトル信号とを合成して第４振幅スペクトル信号を生成する第１加算部と、
　該第１加算部により生成された前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて周波数スペクトル信号を求め、求められた該周波数スペクトル信号に短時間逆フーリエ変換処理とオーバーラップ加算とを行うことによって、周波数領域から時間領域に変換されたオーディオ信号を生成するＩＦＦＴ部と
を備え、
　前記アタック成分制御部は、
　予め設定された第１カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第１ＨＰＦ部と、
　該第１ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号のアタック成分を検出する第１リミッタ部と、
　予め設定された第１重み付け量に基づいて、前記第１リミッタ部により検出された振幅スペクトル信号のアタック成分に対して重み付け処理を行う第１ゲイン部とを有し、
　前記余韻成分制御部は、
　予め設定された第２カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第２ＨＰＦ部と、
　該第２ＨＰＦ部においてハイパスフィルタ処理された振幅スペクトル信号に－１を乗算して振幅の反転を行う振幅反転部と、
　該振幅反転部により振幅の反転が行われた振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号の余韻成分を検出する第２リミッタ部と、
　予め設定された第２重み付け量に基づいて、前記第２リミッタ部により検出された振幅スペクトル信号の余韻成分に対して重み付け処理を行う第２ゲイン部とを有すること
　を特徴とする音響信号処理装置。
　前記第１加算部により生成された前記第４振幅スペクトル信号のノイズ制御を行って第５振幅スペクトル信号を生成するノイズ制御部を備え、
　前記ＩＦＦＴ部は、前記ノイズ制御部により生成された前記第５振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換された前記オーディオ信号を生成し、
　前記ノイズ制御部は、
　予め設定された第３カットオフ周波数に基づいて、前記第１加算部により生成された前記第４振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行う第３ＨＰＦ部と、
　該第３ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定する第３リミッタ部と、
　予め設定された０以上１以下の値からなる第３重み付け量に基づいて、前記第３リミッタ部によりマイナス側の振幅が制限された振幅スペクトル信号の重み付け処理を行う第３ゲイン部と、
　値１から前記第３重み付け量の値を減じた重み付け量に基づいて、前記第１加算部において生成された前記第４振幅スペクトル信号の重み付け処理を行う第４ゲイン部と、
　前記第３ゲイン部により重み付け処理が行われた振幅スペクトル信号と、前記第４ゲイン部により重み付け処理が行われた振幅スペクトル信号とを合成して前記第５振幅スペクトル信号を生成する第２加算部とを有すること
　を特徴とする請求項１に記載の音響信号処理装置。
　入力されたオーディオ信号を時間領域から周波数領域に変換して周波数スペクトル信号を求めて、第１振幅スペクトル信号と位相スペクトル信号とを生成するＦＦＴ部と、
　該ＦＦＴ部により生成された前記第１振幅スペクトル信号のアタック成分を制御して第２振幅スペクトル信号を生成するアタック成分制御部と、
　前記ＦＦＴ部により生成された前記第１振幅スペクトル信号の余韻成分を制御して第３振幅スペクトル信号を生成する余韻成分制御部と、
　前記ＦＦＴ部により生成された前記第１振幅スペクトル信号と、前記アタック成分制御部により生成された前記第２振幅スペクトル信号と、前記余韻成分制御部により生成された前記第３振幅スペクトル信号とを合成して第４振幅スペクトル信号を生成する第１加算部と、
　該第１加算部により生成された前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換されたオーディオ信号を生成するＩＦＦＴ部と
を備え、
　前記アタック成分制御部は、第１ＨＰＦ部と、第１リミッタ部と、第１ゲイン部とを有し、
　前記余韻成分制御部は、第２ＨＰＦ部と、振幅反転部と、第２リミッタ部と、第２ゲイン部とを有し、
　前記入力されたオーディオ信号に対してアタック成分制御と余韻成分制御とを行う音響信号処理装置の音響信号処理方法であって、
　前記ＦＦＴ部は、前記入力されたオーディオ信号に対して、フーリエ変換長とオーバーラップ長との差分時間ずつ時間シフトしながら短時間フーリエ変換を行うことにより、差分時間ずつ時間が異なる複数の振幅スペクトルを求め、求められた各振幅スペクトルの周波数毎の時間変動を求めることにより前記周波数スペクトル信号を求め、さらに、当該周波数スペクトル信号に基づいて、前記第１振幅スペクトル信号と前記位相スペクトル信号とを生成し、
　前記アタック成分制御部において、
　前記第１ＨＰＦ部は、予め設定された第１カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、
　前記第１リミッタ部は、前記第１ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号のアタック成分を検出し、
　前記第１ゲイン部は、予め設定された第１重み付け量に基づいて、前記第１リミッタ部により検出された振幅スペクトル信号のアタック成分に対して重み付け処理を行い、
　前記余韻成分制御部において、
　前記第２ＨＰＦ部は、予め設定された第２カットオフ周波数に基づいて、前記ＦＦＴ部により生成された前記第１振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、
　前記振幅反転部は、前記第２ＨＰＦ部においてハイパスフィルタ処理された振幅スペクトル信号に－１を乗算して振幅の反転を行い、
　前記第２リミッタ部は、前記振幅反転部により振幅の反転が行われた振幅スペクトル信号のマイナス側の振幅を制限して０に設定することによって、スペクトル毎に振幅スペクトル信号の余韻成分を検出し、
　前記第２ゲイン部は、予め設定された第２重み付け量に基づいて、前記第２リミッタ部により検出された振幅スペクトル信号の余韻成分に対して重み付け処理を行い、
　前記第１加算部は、前記第１振幅スペクトル信号と、前記第１ゲイン部によりアタック成分に対して重み付け処理が行われた前記第２振幅スペクトル信号と、前記第２ゲイン部により余韻成分に対して重み付け処理が行われた前記第３振幅スペクトル信号とを合成して前記第４振幅スペクトル信号を生成し、
　前記ＩＦＦＴ部は、前記第４振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数スペクトル信号を求め、求められた該周波数スペクトル信号に短時間逆フーリエ変換処理とオーバーラップ加算とを行うことによって、周波数領域から時間領域に変換された前記オーディオ信号を生成すること
　を特徴とする音響信号処理装置の音響信号処理方法。
　前記第１加算部により生成された前記第４振幅スペクトル信号のノイズ制御を行って第５振幅スペクトル信号を生成するノイズ制御部を備え、
　前記ノイズ制御部は、第３ＨＰＦ部と、第３リミッタ部と、第３ゲイン部と、第４ゲイン部と、第２加算部とを有し、
　前記ＩＦＦＴ部は、前記ノイズ制御部により生成された前記第５振幅スペクトル信号と、前記ＦＦＴ部により生成された前記位相スペクトル信号とに基づいて、周波数領域から時間領域に変換された前記オーディオ信号を生成し、
　前記ノイズ制御部において、
　前記第３ＨＰＦ部は、予め設定された第３カットオフ周波数に基づいて、前記第１加算部により生成された前記第４振幅スペクトル信号に対して、スペクトル毎にハイパスフィルタ処理を行い、
　前記第３リミッタ部は、前記第３ＨＰＦ部によりハイパスフィルタ処理された振幅スペクトル信号のマイナス側の振幅を制限して０に設定し、
　前記第３ゲイン部は、予め設定された０以上１以下の値からなる第３重み付け量に基づいて、前記第３リミッタ部によりマイナス側の振幅が制限された振幅スペクトル信号の重み付け処理を行い、
　前記第４ゲイン部は、値１から前記第３重み付け量の値を減じた重み付け量に基づいて、前記第１加算部において生成された前記第４振幅スペクトル信号の重み付け処理を行い、
　前記第２加算部は、前記第３ゲイン部により重み付け処理が行われた振幅スペクトル信号と、前記第４ゲイン部により重み付け処理が行われた振幅スペクトル信号とを合成して前記第５振幅スペクトル信号を生成すること
　を特徴とする請求項３に記載の音響信号処理装置の音響信号処理方法。