JP5302190B2

JP5302190B2 - オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路

Info

Publication number: JP5302190B2
Application number: JP2009516175A
Authority: JP
Inventors: 耕司郎小野; 武志則松; 良明高木; 崇片山
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-05-24
Filing date: 2008-05-20
Publication date: 2013-10-02
Anticipated expiration: 2028-05-20
Also published as: EP2112653A4; EP2112653A1; US20090326934A1; US8428953B2; WO2008146466A1; JPWO2008146466A1

Description

本発明は、オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路に関し、特に、互いに重複する区間を含む複数のフレーム区間に分割された時間信号が、それぞれ符号化された複数のフレームデータを含むオーディオストリームを復号するオーディオ復号装置に関する。

近年、マルチチャンネルオーディオの再生装置が整備されつつあり、マルチチャンネルに対するニーズが高まっている。そのため、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）オーディオ規格において、ＭＰＥＧＳｕｒｒｏｕｎｄと呼ばれるマルチチャンネル信号の符号化技術が規格化された。ＭＰＥＧＳｕｒｒｏｕｎｄはマルチチャンネル信号の臨場感を維持したまま、マルチチャンネル信号をモノラル又はステレオの信号に符号化する。当該モノラル又はステレオの信号は、従来の放送又は配信によりオーディオ復号装置を備える再生装置に放送又は配信される。オーディオ復号装置は、当該モノラル又はステレオの信号をマルチチャンネル信号に復号する（例えば、非特許文献１参照）。

このＭＰＥＧＳｕｒｒｏｕｎｄは、従来のマルチチャンネル符号化技術であるＡＣ３（ＤｏｌｂｙＤｉｇｉｔａｌ、ＡｕｄｉｏＣｏｄｅｎｕｍｂｅｒ３）及びＤＴＳ（ＤｉｇｉｔａｌＴｈｅａｔｅｒＳｙｓｔｅｍｓ）よりもビットレートが低く、かつ従来のＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）及びＡＡＣ＋ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）といった符号化技術と互換性を保っているため、デジタルラジオ又はワンセグ放送などの移動体放送に用いられることが予想される。

ここで、一般的なオーディオ復号装置を、図１を用いて説明する。

図１に示す従来のオーディオ復号装置１０は、ストリーム１００を復号することで出力波形１０６を生成する。

ストリーム１００は、オーディオ符号化装置によってオーディオ信号が符号化されたビットストリームであり、一般に複数のアクセス単位によって構成される。このストリームのアクセス単位を以後フレームと呼ぶことにする。また、フレームに含まれる符号化されたオーディオ信号をフレームデータと呼ぶことにする。フレームデータは、原音（符号化前のオーディオ信号）が所定の区間ごとに符号化されたデータであり、当該所定の区間をフレーム区間と呼ぶことにする。

オーディオ復号装置１０は、デコード部１０１と、直交変換部１０３と、出力部１０５とを備える。

デコード部１０１は、ストリーム１００の文法解析を行い、フレーム単位で、ハフマン符号の復号及び逆量子化を行うことで、スペクトル係数１０２を生成するオーディオデコーダである。

直交変換部１０３は、フレーム単位で、スペクトル係数１０２をデコード部１０１で決められた変換アルゴリズムに基づいて時間信号１０４に変換する。

出力部１０５は、時間信号１０４から出力波形１０６を生成する。

また、従来のオーディオ復号装置１０では、デコード部１０１でエラーが発生した際には、エラーが発生したフレーム（以下、エラーフレームと呼ぶ）の時間信号１０４を０でクリアするミュート処理、又は過去の時間信号１０４を繰り返し用いるリピート処理が行われる。

また、エラーが発生したフレーム区間（以下、エラーフレーム区間と呼ぶ）の前後の時間信号からエラーフレーム区間の時間信号を補間することで、連続性を維持した補間を行うオーディオ復号装置も知られている（例えば、特許文献１参照）。
１１８ｔｈＡＥＳｃｏｎｖｅｒｔｉｏｎ、Ｂａｒｃｅｌｏｎａ、Ｓｐａｉｎ、２００５、ＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ６４４７特開２００２−４１０８８号公報

しかしながら、デジタルテレビなどに対する非移動体放送と比べ、移動体放送ではエラーが頻繁に発生することが予想される。エラーが頻繁に発生すると、従来のオーディオ復号装置１０では、ミュート処理又はリピート処理が頻繁に繰り返される。これにより、ユーザーが不快に感じる可能性が高くなる。

また、特許文献１記載のオーディオ復号装置のように、前後のフレームからエラーフレーム区間を合成した場合にもリピート処理の様に信号の位相が合わず、ノイズを知覚する可能性がある。これにより、ユーザーが不快に感じる可能性が高くなる。

本発明は、このような従来の問題点を補うため、前後フレームとの連続性を維持したままエラーフレームを補間することで、ユーザーの不快感を低減できるオーディオ復号装置、オーディオ復号方法、プログラム及び集積回路を提供することを目的とする。

上記の課題を解決するため、本発明に係るオーディオ復号装置は、隣接するフレーム区間の間で互いに重複する区間を含む複数のフレーム区間に分割された時間信号がそれぞれ符号化された複数のフレームデータを含むオーディオストリームを復号するオーディオ復号装置であって、前記オーディオストリームを前記フレームデータ単位でスペクトル係数に復号し、当該フレームデータを復号できない場合にエラー情報を出力するデコード手段と、前記スペクトル係数を前記フレーム区間単位の時間信号に変換する直交変換手段と、前記デコード手段により前記エラー情報が出力された場合、当該エラー情報が出力されたフレーム区間と当該フレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号を生成する補正手段と、前記補正時間信号を前記エラー情報が出力されたフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号を合成することで、出力波形を生成する出力手段とを備える。

この構成によれば、本発明に係るオーディオ復号装置は、エラーが発生したフレーム区間に残っている時間信号を参照することで、エラーが発生したフレームの時間信号の波形に近い補正時間信号を生成し、生成した補正時間信号を出力波形に合成できる。これにより、本発明に係るオーディオ復号装置は、前後フレームとの連続性を維持したままエラーフレームを補間することで、ユーザーの不快感を低減できる。

さらに、本発明に係るオーディオ復号装置は、エラーが発生したフレーム区間の時間信号のうち、隣接するフレーム区間の中央部分の時間信号を用いて、補正時間信号を生成する。ここで、各フレーム区間の中央部分の時間信号は、両端部分の時間信号に比べて、原音（符号化前かつ分割前の時間信号）の情報を多く含んでいる。よって、本発明に係るオーディオ復号装置は、エラーが発生したフレーム区間の時間信号の波形により近い波形の補正時間信号を生成できる。

また、前記補正手段は、前記基準区間の時間信号と、前記出力手段により既に生成された前記出力波形との相関値を算出し、算出した相関値が最も大きい前記出力波形を切り出すことで前記補正時間信号を生成してもよい。

この構成によれば、本発明に係るオーディオ復号装置は、基準区間の時間信号に類似する補正時間信号を生成できる。

また、前記各フレーム区間は、それぞれ同じ時間長の第１区間、第２区間、第３区間及び第４区間からなり、前記隣接するフレーム区間の中央部分の区間は、前記隣接するフレーム区間の前記第２区間又は前記第３区間であってもよい。

また、前記補正手段は、前記算出した相関のうち最も強い相関値が予め定められた第１の値より大きいか否かを判定し、当該相関値が前記第１の値より大きい場合、前記補正時間信号を生成し、当該相関値が前記第１の値より小さい場合、前記補正時間信号を生成しなくてもよい。

この構成によれば、本発明に係るオーディオ復号装置は、基準区間の時間信号と、出力波形との相関値が第１の値より小さい場合には、エラーが発生した時間信号の補正を行わない。これにより、本発明に係るオーディオ復号装置は、時間信号にアタック成分が含まれている場合、つまり補正を行うことで逆に音質が劣化する場合には補正を中止できる。

また、前記補正手段は、前記基準区間の出力波形のスペクトルを算出し、算出したスペクトルにおいて、高域のエネルギーの低域のエネルギーに対する比が予め定められた第２の値より大きいか否かを判定し、当該比が前記第２の値より小さい場合、前記補正時間信号を生成し、当該比が前記第２の値より大きい場合、前記補正時間信号を生成しなくてもよい。

この構成によれば、本発明に係るオーディオ復号装置は、基準区間の時間信号のスペクトルにおいて、高域のエネルギーが低域のエネルギーに比べて高い場合には、エラーが発生した時間信号の補正を行わない。これにより、本発明に係るオーディオ復号装置は、時間信号にアタック成分が含まれる場合、つまり補正を行うことで逆に音質が劣化する場合には補正を中止できる。

また、前記補正手段は、前記相関値が最も大きい出力波形のスペクトルを算出し、算出したスペクトルにおいて、高域のエネルギーの低域のエネルギーに対する比が予め定められた第２の値より大きいか否かを判定し、当該比が前記第２の値より小さい場合、当該出力波形を切り出すことで前記補正時間信号を生成し、当該比が前記第２の値より大きい場合、前記補正時間信号を生成しなくてもよい。

この構成によれば、本発明に係るオーディオ復号装置は、補正時間信号に用いる出力波形のスペクトルにおいて、高域のエネルギーが低域のエネルギーに比べて高い場合には、エラーが発生した時間信号の補正を行わない。これにより、本発明に係るオーディオ復号装置は、時間信号にアタック成分が含まれる場合、つまり補正を行うことで逆に音質が劣化する場合には補正を中止できる。

なお、本発明は、このようなオーディオ復号装置として実現できるだけでなく、オーディオ復号装置に含まれる特徴的な手段をステップとするオーディオ方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

また、本発明は、このようなオーディオ復号装置の機能の一部又は全てを実現する集積回路としても実現できる。

以上より、本発明は、前後フレームとの連続性を維持したままエラーフレームを補間することで、ユーザーの不快感を低減できるオーディオ復号装置、オーディオ復号方法、プログラム及び集積回路を提供できる。

以下、本発明に係るオーディオ復号装置の実施の形態を、図面を参照しながら説明する。

（実施の形態１）
本発明の実施の形態１に係るオーディオ復号装置は、エラーフレーム区間に含まれる出力波形（時間信号）を用いて、エラーフレームの時間信号の波形に近い補正時間信号を生成し、生成した補正時間信号を出力波形に合成する。さらに、本発明に係るオーディオ復号装置は、エラーフレーム区間の時間信号のうち、原音の情報を多く含む、隣接するフレーム区間の中央部分の時間信号（出力波形）を用いて、補正時間信号を生成する。

これにより、本発明に係るオーディオ復号装置は、前後フレームとの連続性を維持したままエラーフレームを補間することで、ユーザーの不快感を低減できる。

まず、本発明の実施の形態１に係るオーディオ復号装置の構成を説明する。

図２は、本実施の形態１に係るオーディオ復号装置の構成を示す図である。

図２に示すオーディオ復号装置２０は、ストリーム２００を復号することで、復号したオーディオ信号である出力波形２０６を生成する。

ストリーム２００は、オーディオ符号化装置によってオーディオ信号が符号化されたオーディオビットストリームである。ストリーム２００は、複数のフレームを含む。各フレームは、複数のフレーム区間に分割されたオーディオ信号が符号化されたフレームデータを含む。

オーディオ復号装置２０は、デコード部２０１と、直交変換部２０３と、出力部２０５と、補正部２０８とを備える。

オーディオ復号装置２０は、デコード部２０１でエラーが発生した場合に、デコード部２０１から得られるストリーム情報２０７と、エラーフレーム区間に含まれる出力波形２０６とに基づいてエラーフレームを復元する。

デコード部２０１は、ストリーム２００の文法解析を行ったうえで、フレーム単位で、ハフマン符号の復号及び逆量子化を行うことで、スペクトルデータであるスペクトル係数２０２を生成する。

また、デコード部２０１は、ストリーム情報２０７を出力する。

ストリーム情報２０７は、デコード結果と、ストリームの特性とを含む情報である。ここで、デコード結果とは、デコード時にエラーが発生したか否かを示すエラーフラグの情報である。つまり、デコード部２０１は、フレームデータを復号できない場合に、エラーフラグを含むストリーム情報２０７を出力する。

また、ストリームの特性とは、ＭＰＥＧ−２ＡＡＣデコーダにおける、ストリーム長及びブロック長などの情報である。

直交変換部２０３は、デコード部２０１で決められた変換アルゴリズムに基づいて、フレーム単位で、スペクトル係数２０２を時間データである時間信号２０４に変換する。

出力部２０５は、直交変換部２０３で決められた変換アルゴリズムに基づいて、複数のフレームの時間信号２０４を合成することで、最終的な出力波形２０６を生成する。

補正部２０８は、ストリーム情報２０７にエラーフラグが含まれている場合に、出力波形２０６のエラーフレーム区間と過去又は未来の出力波形２０６に基づいてエラーフレームを補正するための時間信号である補正時間信号２０９を生成する。

また、出力部２０５は、補正部２０８により生成された補正時間信号２０９をエラーフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号２０４を合成することで、出力波形２０６を生成する。

以上のように構成されたオーディオ復号装置２０の動作について説明する。

まず、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）によるオーディオ符号化について説明する。

図３は、ＭＤＣＴによるオーディオ符号化を説明するための図である。

図３に示すように、ＭＤＣＴによる符号化では、元のオーディオ時間信号３０１は、複数のフレーム区間の時間信号３０１〜３０５に分割される。例えば、期間ｔ１及びｔ２を合わした期間が１つのフレーム区間に対応し、期間ｔ２及び期間ｔ３を合わした期間が１つのフレーム区間に対応する。

つまり、１つのフレーム区間は、隣接するフレーム区間に対して、互いに重複する区間を含む。例えば、時間信号３０１のフレーム区間と時間信号３０２のフレーム区間とは期間ｔ２が重複する。

つまり、ＭＤＣＴによる符号化では、期間ｔ２の時間信号３００は、時間信号３０１と時間信号３０２に分割され、期間ｔ３の時間信号３００は、時間信号３０２と時間信号３０３とに分割される。具体的には、期間ｔ１及びｔ２の時間信号３００に窓関数を掛けることで時間信号３０１が生成され、期間ｔ２及びｔ３の時間信号３００に窓関数を掛けることで時間信号３０２が生成される。

次に、分割された時間信号３０１〜３０５は、それぞれ１つのフレームデータに符号化される。当該複数のフレームデータを含むストリーム２００がオーディオ復号装置２０に入力される。

図４は、オーディオ復号装置２０の動作の流れを示すフローチャートである。

はじめに、デコード部２０１は、ストリーム２００の文法解析を行ったうえで、フレーム毎に、ハフマン符号の復号及び逆量子化を行うことで、スペクトル係数２０２を生成する（Ｓ１０１）。

次に、直交変換部２０３は、オーディオコーデックで決められた変換アルゴリズムに基づいてスペクトル係数２０２を時間信号２０４に変換する（Ｓ１０２）。

具体的には、ＭＰＥＧ−２ＡＡＣデコーダでは、２０４８点の振幅データを出力するＩＭＤＣＴ（逆ＭＤＣＴ：ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）が直交変換に用いられる。

図５は、ＩＭＤＣＴを説明するための図である。なお、ここでは、正弦波に対して、ＭＤＣＴ及びＩＭＤＣＴを行った場合の時間信号を例に示す。

図５において、時間信号３１０は、符号化前の１フレームに対応する時間信号である。つまり、時間信号３１０は、図３に示す時間信号３０１〜３０５に対応する。

ここで、１フレームの時間信号３１０は、それぞれ同じ時間長の４つの区間ａ〜ｄの信号からなる。

直交変換部２０３は、スペクトル係数２０２にＩＭＤＣＴを行うことで、時間信号３１１を生成する。符号化及び復号化の影響を無視すると、ＩＭＤＣＴの出力である時間信号３１１は、ＭＤＣＴの入力である時間信号３０１〜３０５と下記の式（１）の関係が成立する。

Ｙｎ＝ＩＭＤＣＴ（ＭＤＣＴ（ａ、ｂ、ｃ、ｄ））
＝（ａ−ｂＲ、ｂ−ａＲ、ｃ−ｄＲ、ｄ−ｃＲ）・・・式（１）

ここで、ａ、ｂ、ｃ、ｄは、それぞれ区間ａ〜ｄの信号であり、ａＲ、ｂＲ、ｃＲ、ｄＲは、それぞれ区間ａ、ｂ、ｃ、ｄの信号を時間軸で反転させた信号である。時間信号３０１〜３０５に対して式（１）を適用して得られる信号を時間信号３０１'〜３０５'とする。

次に、直交変換部２０３は、時間信号３１１に窓関数を掛けることで時間信号２０４を生成する。

デコード部２０１で当該フレームにエラーが発生していない場合（Ｓ１０３でＮｏ）、つまりストリーム情報２０７にエラーフラグが含まれない場合、次に、出力部２０５は、直交変換のアルゴリズムに基づいて複数のフレームに対応する複数の時間信号２０４から出力波形２０６を生成する。具体的には、出力部２０５は、ＭＰＥＧ−２ＡＡＣデコーダでは、各時間信号２０４に含まれる２０４８点の振幅データを、それぞれ直前及び直後の時間データに含まれる振幅データと、１０２４点ずつ重ね合わせて合成することで、出力波形２０６を生成する（Ｓ１０５）。

つまり、出力部２０５は、図３に示す複数の時間信号３０１〜３０５に対して式（１）を適用した信号を加算することで、時間信号を復元する。例えば、出力部２０５は、時間信号３０１'の後半と、時間信号３０２'の前半を加算することで、期間ｔ２の時間信号を生成し、時間信号３０２'の後半と、時間信号３０３'の前半を加算することで期間ｔ３の時間信号を生成する。

一方、デコード部２０１で当該フレームにエラーが発生した場合（Ｓ１０３でＹｅｓ）、つまりストリーム情報２０７にエラーフラグが含まれる場合に、補正部２０８は、出力波形２０６のエラーフレーム区間とバッファリングされた出力波形２０６とに基づいてエラーフレームを補正する（Ｓ１０４）。

一般に、オーディオ符号化技術で用いられているＭＤＣＴ及びＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒｓ）といった直交変換では、連続したフレームのうちの１つのフレームでエラーが発生した場合においても、出力波形２０６のエラーフレーム区間に情報が含まれる。

図６は、エラーが発生した場合の時間信号２０４及び出力波形２０６のエンベロープ（包絡線）を示す図である。ここで、エンベロープとは、時間信号２０４及び出力波形２０６の概形を示す線である。

図６に示すように、連続するフレームのうち１つのフレームでエラーが発生した場合、当該エラーが発生したフレームに対応する時間信号２０４ａの振幅値は０でクリアされる。しかしながら、上述したようにエラーフレーム区間ｔ１０の出力波形２０６は、エラーフレームの時間信号２０４ａと、エラーフレームに隣接するフレームの時間信号２０４ｂの後半分及び時間信号２０４ｃの前半分を加算したものなので、エラーフレーム区間ｔ１０の出力波形２０６の振幅値は０にならない。つまり、エラーフレーム区間ｔ１０の出力波形２０６は、時間信号２０４ｂの後半分及び時間信号２０４ｃの前半分となる。

よって、補正部２０８は、エラーフレーム区間ｔ１０に含まれている情報、すなわち時間信号２０４ｂの後半分及び時間信号２０４ｃの前半分の振幅値のデータと似ている波形をバッファリングされた出力波形２０６から捜し出し、補正時間信号２０９を生成することが可能となる。

以下、補正部２０８による補正処理（Ｓ１０４）を詳細に説明する。

図７は、補正部２０８による補正処理（Ｓ１０４）の流れを示すフローチャートである。

補正部２０８は、エラーフレーム区間と、エラーフレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号２０９を生成する。

具体的には、補正部２０８は、基準区間の時間信号と、既に出力部２０５により生成された出力波形２０６との相関値を算出し、算出した相関値が最も大きい出力波形２０６を切り出すことで補正時間信号２０９を生成する。

始めに、補正部２０８は、直前のフレーム区間から類似する波形の基準とする時間信号の波形である基準波形を抽出する（Ｓ５０１）。

ここで、エラーのために復元されなかった時間信号２０４ａは、直前のフレームの時間信号２０４ｂの後半分と重複する区間の信号である。つまり、復元すべき時間信号２０４ａの波形の前半分は、直前のフレームの時間信号２０４ｂの後半分の波形と似ていることが予想される。同様に、復元すべき時間信号２０４ａの波形の後半分は、直後のフレームの時間信号２０４ｃの前半分の波形と似ていることが予想される。

また、図５に示すように、符号化前の時間信号３１０に含まれる４つの区間ａ〜ｄの時間信号のうち、区間ｂ及びｃの時間信号は、窓関数の中央部分に位置するため原音（時間信号３００）の情報を多く含む。区間ａ及びｄの時間信号は、窓関数の両端部分に近いため原音（時間信号３００）の情報が少ない。

さらに、時間信号２０４を生成する際には、式（１）に示すように、区間ａ及びｄの時間信号は、情報量が多い区間ｂ及びｃの時間信号を時間軸で反転させた信号であるｂＲ及びｃＲで減算される。さらに、直交変換部２０３により、ＩＭＤＣＴ後の時間信号３１１に窓関数が掛けられる。よって、時間信号２０４に含まれる区間ｂ及びｃの時間信号は、原音（時間信号３００）の情報を多く含み、区間ａ及びｄの時間信号は、原音（時間信号３００）の情報が少ない。

そこで、補正部２０８は、基準波形として、原音の情報を多く含む区間ｂ又はｃの時間信号を基準波形として抽出する。

図８〜図１１は、補正部２０８による補正処理を説明するための図である。

図８に示すように、補正部２０８は、エラーフレーム区間ｔ１０に含まれる出力波形２０６のうち、直前のフレームの区間ｃに対応する基準区間３２０の出力波形２０６を基準波形として抽出する。なお、補正部２０８は、直後のフレームの区間ｂに対応する基準区間３２１の出力波形２０６を基準波形として抽出してもよい。

なお、補正部２０８は、基準区間３２０及び３２１の一部の区間に含まれる出力波形２０６を基準波形として抽出してもよい。

また、基準区間３２０より前（図８における左側）の区間及び基準区間３２１より後（図８における右側）の区間では、出力波形２０６は完全に復元されているので、補正部２０８は、当該区間を含む区間の出力波形２０６を基準波形として抽出してもよい。

次に、補正部２０８は、基準波形を用いて、補正時間信号２０９の候補となる時間信号を含む対象区間３２３を探索する（Ｓ５０２）。

補正部２０８は、図９に示すように、基準波形３２２と、バッファに蓄積された正常な出力波形２０６との相関をとり、相関の強い波形を含む対象区間３２３を探す。具体的には、補正部２０８は、出力波形２０６の各期間における相関度を算出することで、相関関数を算出する。補正部２０８は、算出した相関関数を用いて、相関度が最も高い対象区間３２３を探索する。つまり、補正部２０８は、算出した相関関数のピークを抽出する。ここで、相関度とは、波形（位相）の類似度合いである。つまり、対象区間３２３は、エラーにより消失した時間信号２０４ａと、類似する音を含む区間である。

次に、補正部２０８は、補正時間信号２０９を切り出す（Ｓ５０３）。具体的には、図１０に示すように、対象区間３２３を含む１フレーム区間分の区間である切り出し区間３２４の出力波形２０６を切り出す。ここで、切り出し区間３２４は、基準区間３２０に対するエラーフレーム区間の相対位置に対応する、対象区間３２３に対する１フレーム区間である。ここでは、基準区間３２０は、エラーフレーム区間ｔ１０の先頭の区間なので、切り出し区間３２４は、対象区間３２３を先頭とする１フレーム区間である。

次に、補正部２０８は、切り出した出力波形２０６に、ＭＤＣＴと同様の窓関数を掛けることで、補正時間信号２０９を生成する。

最後に、補正部２０８は、補正時間信号２０９を出力部２０５に転送する（Ｓ５０４）。

次に、出力部２０５は、エラーによって失われた時間信号２０４の代わりに補正時間信号２０９を用いて、複数のフレームの時間信号２０４及び補正時間信号２０９を合成することで、出力波形２０６の補間を行う（Ｓ１０５）。

このように、本発明の実施の形態１に係るオーディオ復号装置２０は、エラーが発生した時間信号２０４ａとの相関が高い補正時間信号２０９で、出力波形２０６を補間する。これにより、出力波形２０６が連続的につながれるだけでなく、エラーフレームの位相が再現する可能性も高くなり、より高音質な補間が実現される。つまり、本発明の実施の形態１に係るオーディオ復号装置２０は、前後フレームとの連続性を維持したままエラーフレームを補間できるので、ユーザーの不快感を低減できる。

なお、実施の形態１ではデコード時にエラーが発生した場合に常に補正を行う例を示したが、オーディオ復号装置２０は、補正を行うか否かの判別を行ってもよい。

図１２は、出力波形２０６から補正を行うか否かを判断するオーディオ復号装置２１の構成を示す図である。図１２に示すオーディオ復号装置２１は、図２に示すオーディオ復号装置２０の構成に加え、さらに、補正制御部２１０を備える。なお、図２と同様の要素には同一の符号を付している。

補正制御部２１０は、エラーフレーム区間の出力波形２０６に基づき補正の実行の有無を判別する。

図１３は、補正制御部２１０の動作の流れを示すフローチャートである。

始めに、補正制御部２１０は、エラーフレーム区間の出力波形２０６に対してスペクトル変換を行うことで、スペクトルを生成する（Ｓ１１０１）。

次に、補正制御部２１０は、生成したスペクトルの高域の低域に対するエネルギー比を算出する。補正制御部２１０、算出したエネルギー比と閾値を比較する（Ｓ１１０２）。

エネルギー比が高い、すなわち、高域のエネルギーが低域と比べて高い場合には時間信号が定常的ではない可能性がある。このような場合は、エラーフレーム区間にアタック成分が含まれていることが考えられ、前のフレームの波形を用いて補間を行っても逆に音質が劣化する可能性がある。そのため、補正制御部２１０は、エネルギー比が閾値以上の場合（Ｓ１１０２でＹｅｓ）には、補正を中止するように補正部２０８に指示する（Ｓ１１０４）。

一方、エネルギー比が閾値以下の場合（Ｓ１１０２でＮｏ）には、補正制御部２１０は、定常的な波形と判断し、補正部２０８に補正を継続させる（Ｓ１１０３）。

なお、補正制御部２１０は、アタック成分が含まれているかの判定を、エラーフレーム区間に対してだけでなく、対象区間３２３、又は切り出し区間３２４に対し行ってもよい。

また、定常性の判断を、補正部２０８がステップＳ５０２で算出する相関関数から判断してもよい。

図１４は、本発明の実施の形態１の変形例における、補正部２０８によるステップＳ５０２の動作の流れを示すフローチャートである。

上述したように、始めに、補正部２０８は、エラーフレーム区間の基準波形３２２とバッファに蓄積された出力波形２０６との相関関数を算出し（Ｓ１２０１）、ピークを抽出する（Ｓ１２０２）。このとき、相関関数に強いピークが出現しているときはエラーフレーム区間の基準波形３２２と似ている信号が得られるが、ピークが弱い場合は、相関関数を算出する範囲の出力波形２０６にアタック成分が含まれていると考えられる。

そのため、補正部２０８は、ピークの値が閾値以下か否かを判定する（Ｓ１２０３）。補正部２０８は、ピークの値が閾値以下の場合（Ｓ１２０３でＹｅｓ）には、相関が弱いと判断し、補正を中止する（Ｓ１２０４）。一方、ピークの値が閾値以上の場合（Ｓ１２０３でＮｏ）には、補正部２０８は補間を継続する。

また、上記実施の形態１ではエラーが発生したか否かを判断する情報としてストリーム情報２０７に含まれるエラーフラグを用いているが、ストリーム情報２０７に含まれるストリームのパラメータを用いてもよい。

図１５は、ストリームのパラメータを用いて補間を行うか否かを判断するオーディオ復号装置２２の構成を示す図である。図１５に示すオーディオ復号装置２２は、図２に示すオーディオ復号装置２０の構成に加え、さらに、補正制御部２１１を備える。なお、図２と同様の要素には同一の符号を付している。

補正制御部２１１は、ストリーム情報２０７に含まれるストリームのパラメータを用いて補正の実行の有無を判別する。

例えば、ＭＰＥＧ−２ＡＡＣでは、ＭＤＣＴの長さに２０４８点と２５６点の２つが用いられており、当該情報はストリーム２００内に記述されている。２０４８点の場合には、エンコード時に信号が定常的であると判断された可能性が高く、２５６点の場合には、信号にアタック成分が含まれている可能性が高い。

デコード部２０１は、当該情報を含むストリーム情報２０７を出力する。

補正制御部２１１は、ストリーム情報２０７を参照し、ＭＤＣＴの長さが２０４８点の場合には、補正部２０８に補正を行わせる。また、補正制御部２１１は、ＭＤＣＴの長さが２５６点の場合には、補正部２０８に補正を行わせない。

また、上記説明において補正部２０８は、補間に用いる補正時間信号２０９を、過去の出力波形２０６から切り出されているが、出力波形２０６がバッファリングされている場合は、補正部２０８は、未来に相当する出力波形２０６から補正時間信号２０９を切り出してもよい。

また、補正部２０８は、波形を切り出すのではなく、ピッチ波形のみを切り出し、ピッチ波形を重ね合わせることでエラーフレームを復元してもよい。

また、補正部２０８は、波形を切り出すのではなく、切り出し区間のＬＰＣ（線形予測符号）分析を行い、エラーフレームにおいてＬＰＣ合成を行うことでエラーフレームを復元してもよい。

また、上記説明において、補正部２０８は、出力部２０５により合成された出力波形２０６を用いて補正時間信号２０９を生成するとしたが、合成前の時間信号２０４を用いて同様の処理を行ってもよい。同様に、補正制御部２１０も、合成前の時間信号２０４を用いて補正を行うか否かの判定を行ってもよい。

（実施の形態２）
本発明の実施の形態２では、音声符号化方式にＭＰＥＧサラウンドを用いたデジタル放送受信機を例に説明する。

図１６は、本発明の実施の形態２に係るデジタル放送受信機が備えるオーディオ復号装置の構成を示した図である。

図１６に示すオーディオ復号装置３０は、受信したビットストリーム信号１４００を復号し、音声信号１４０３を出力する。オーディオ復号装置３０は、デコード部１３０１と、バッファ部１３０２と、話速変換部１３０３と、エラー検出部１３０４と、出力速度設定部１３０５とを備える。

デコード部１３０１は、ビットストリーム信号１４００を復号することで、ビットストリーム信号１４００を音声信号１４０１に変換する。バッファ部１３０２はデコード部１３０１で変換された音声信号１４０１を蓄積し、蓄積する音声信号１４０２を出力する。エラー検出部１３０４はデコード部１３０１でエラーが発生したか否かを検出する。

話速変換部１３０３は、エラーが発生した場合、エラーが存在するフレームの音声信号１４０２を削除し、残りのフレームの音声信号１４０２を伸張し、伸張した音声信号１４０３を出力する。

出力速度設定部１３０５は、話速変換部１３０３により伸張された時間長の総計が１フレームの長さを上回る場合、当該時間長の総計が１フレームの長さと合致するよう、伸張する最後のフレームの話速を調整する。また、出力速度設定部１３０５は、当該最後のフレーム以降は次にエラーが検出されるまで話速変換を行わない。

図１７は、オーディオ復号装置３０におけるデータの流れを示す図である。なお、図１６と同様の要素には同一の符号を付している。

図１７に示す個々のブロックはフレームを構成する時間領域の音声データを表し、番号が小さいものほど古いフレームを意味し、番号が大きいほど新しいフレームを意味するものとする。また、バッファ部１３０２の遅延時間を４フレームと仮定する。

ここで第６フレームのデータをデコードする際にエラーが検出された場合、話速変換部１３０３は、第３フレーム以降の音声信号を伸張させ、第５フレームの次に第７フレームの音声信号を出力する。また第１０フレームにおいて、第３フレームから第９フレームまでと同等の出力速度で音声信号を出力した場合には第１０フレームの終了タイミングが、エラーの発生しない場合より遅くなるという課題が発生する。そこで、出力速度設定部１３０５は、第１０フレームの終了タイミングがエラーの発生しなかった場合と同等になるように、第１０フレームの出力速度を微調整する。

なお、話速変換部１３０３は、再生速度を伸張する他に、新たに同じピッチの音声信号を挿入することで話速を変換してもよい。

図１８は、話速変換の前後における音声信号の例を示す図である。図１８において、横軸は時間、縦軸は振幅を表している。

また、図１８に示す音声信号１５０１は話速変換前の音声信号の波形の例を示し、音声信号１５０２は音声信号１５０１を時間軸方向に伸張した音声信号の波形を示し、音声信号１５０３は音声信号１５０１に同じピッチの音声信号を挿入した音声信号の波形を示す。

図１８に示すように、伸張した音声信号１５０２のピッチは、元の音声信号１５０１に比べてピッチがさがってしまう。

一方、話速変換前の音声信号１５０１と同じピッチの音声信号を挿入することで、話速変換前の音声信号１５０１からピッチを変化させること無く話速を伸張できる。また、挿入する音声信号と、削除した音声信号と位相を揃えることで、音声信号の挿入に伴うノイズの発生を軽減できる。

（実施の形態３）
本発明の実施の形態３に係るオーディオ復号装置は、実施の形態２に係るオーディオ復号装置３０の変形例である。

図１９は、本発明の実施の形態３に係るオーディオ復号装置の構成を示す図である。なお、図１６と同一の要素には同一の符号を付しており、説明は省略する。

図１９に示すオーディオ復号装置３１は、実施の形態２に係るオーディオ復号装置３０の構成に加えて、さらに、エラー長計測部１６０５を備える。また、出力速度設定部１６０６の構成が異なる。

エラー長計測部１６０５は、エラーが複数フレームにわたって継続する場合、エラーが継続する継続フレーム数を計測する。

出力速度設定部１６０６は、エラー長計測部１６０５により計測された継続フレーム数に応じた変換比を決定する。出力速度設定部１６０６は、話速変換部１３０３により伸張した時間長の総計がフレームの長さを上回るとき、当該時間長の総計がフレーム長と合致するよう、伸張する最後のフレームの話速を調整する。また、出力速度設定部１６０６は、当該最後のフレーム以降は次にエラーが検出されるまで話速変換を行わない。

図２０は、オーディオ復号装置３１におけるデータの流れを示す図である。なお、図１９と同一の要素には同一の符号を付している。

図２０に示す個々のブロックはフレームを構成する時間領域の音声データを表し、番号が小さいものほど古いフレームを意味し、番号が大きいほど新しいフレームを意味するものとする。また、バッファ部１３０２の遅延時間を４フレームと仮定する。

ここで第６フレームのデータをデコードする際にエラーが検出された場合、出力速度設定部１６０６は、決定した変換比を話速変換部１３０３に通知することで、話速変換部１３０３に第３フレーム以降のデータの出力を当該変換比で伸張させる。さらに第７フレームをデコードする際にエラーが検出された場合、出力速度設定部１６０６は、前記変換比より大きな変換比を話速変換部１３０３に通知することで、話速変換部１３０３に第４フレーム以降のデータの出力をさらに遅い速度で再生するよう伸張させる。また、第５フレームの次には第８フレームの信号が出力される。

なお、出力速度設定部１６０６は、変換比に上限を設けてもよい。これにより、エラーが多発することで再生速度が遅くなりすぎることを防止できる。よって、受聴者の違和感を低減できる。

また、出力速度設定部１６０６は、所定のエラー率を超えてエラーが発生する場合には、話速変換を停止したうえで、ミュートによるエラー処理に切り替えてもよい。これにより、受聴者に違和感を与えることを防止できる。

（実施の形態４）
本発明の実施の形態４に係るオーディオ復号装置は、実施の形態２に係るオーディオ復号装置３０の変形例である。

図２１は、本発明の実施の形態４に係るオーディオ復号装置の構成を示す図である。なお、図１６と同一の要素には同一の符号を付しており、説明は省略する。

図２１に示すオーディオ復号装置３２は、実施の形態２に係るオーディオ復号装置３０の構成に加えて、さらに、ジャンル識別部１８０５を備える。また、出力速度設定部１８０６の構成が異なる。

ジャンル識別部１８０５は、デコード部１３０１によりデコードされた音声信号１４０１のジャンルを識別する。

出力速度設定部１８０６は、ジャンル識別部１８０５により識別されたジャンルに応じて変換比を決定する。

ジャンル識別部１８０５は、音声信号１４０１のリズム、テンポ、スペクトル、及び音圧レベルなどから音声信号１４０１のジャンルを識別する。例えば、ジャンル識別部１８０５は、音声信号１４０１を、音楽、音声、雑音、及び無音に分類する。この場合、出力速度設定部１８０６は、音楽の場合の変換比を最も小さくし、音声、雑音、無音の順に大きな変換比を決定する。これにより、出力速度設定部１８０６は、聴感上違和感を与えない最大の変換比を設定できる。

なお、本発明の実施の形態１〜４において、オーディオ復号装置を構成する各機能ブロックは、典型的には、ＣＰＵ及びメモリを要した情報機器がプログラムを実行することで実現されるが、その機能の一部又は全部を集積回路であるＬＳＩとして実現してもよい。これらのＬＳＩは、個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。また、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続及び設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本発明は、オーディオ復号装置に適用でき、特に、エラーが発生しやすい移動体放送向けのオーディオ復号装置、及び電波状態が変化しやすい車載オーディオ機器に適用できる。

図１は、従来のオーディオ復号装置の構成を示す図である。図２は、本発明の実施の形態１に係るオーディオ復号装置の構成を示す図である。図３は、ＭＤＣＴによるオーディオ符号化を説明するための図である。図４は、本発明の実施の形態１に係るオーディオ復号装置の動作の流れを示すフローチャートである。図５は、ＩＭＤＣＴを説明するための図である。図６は、本発明の実施の形態１に係るオーディオ復号装置において、エラーが発生した場合の時間信号及び出力波形のエンベロープを示す図である。図７は、本発明の実施の形態１に係る補正部による補正処理の流れを示すフローチャートである。図８は、本発明の実施の形態１に係るオーディオ復号装置における、基準波形の抽出処理を説明するための図である。図９は、本発明の実施の形態１に係るオーディオ復号装置における、対象区間の探索処理を説明するための図である。図１０は、本発明の実施の形態１に係るオーディオ復号装置における、補正時間信号の切り出し処理を説明するための図である。図１１は、本発明の実施の形態１に係るオーディオ復号装置における、合成処理を説明するための図である。図１２は、本発明の実施の形態１におけるオーディオ復号装置の変形例の構成を示す図である。図１３は、本発明の実施の形態１に係る補正制御部の動作の流れを示すフローチャートである。図１４は、本発明の実施の形態１に係るオーディオ復号装置の変形例における、補正部の動作の流れを示すフローチャートである。図１５は、本発明の実施の形態１におけるオーディオ復号装置の変形例の構成を示す図である。図１６は、本発明の実施の形態２に係るオーディオ復号装置の構成を示す図である。図１７は、本発明の実施の形態２に係るオーディオ復号装置におけるデータの流れを示す図である。図１８は、本発明の実施の形態２に係るオーディオ復号装置における話速変換の前後における音声信号の例を示す図である。図１９は、本発明の実施の形態３に係るオーディオ復号装置の構成を示す図である。図２０は、本発明の実施の形態３に係るオーディオ復号装置におけるデータの流れを示す図である。図２１は、本発明の実施の形態４に係るオーディオ復号装置の構成を示す図である。

符号の説明

１０、２０、２１、２２、３０、３１、３２オーディオ復号装置
１００、２００ストリーム
１０１、２０１デコード部
１０２、２０２スペクトル係数
１０３、２０３直交変換部
１０４、２０４、２０４ａ、２０４ｂ、２０４ｃ、３００、３０１、３０２、３０３、３０４、３０５、３１０、３１１時間信号
１０５、２０５出力部
１０６、２０６出力波形
２０７ストリーム情報
２０８補正部
２０９補正時間信号
２１０、２１１補正制御部
３２０、３２１基準区間
３２２基準波形
３２３対象区間
１３０１デコード部
１３０２バッファ部
１３０３話速変換部
１３０４エラー検出部
１３０５、１６０６、１８０６出力速度設定部
１４００ビットストリーム信号
１４０１、１４０２、１４０３、１５０１、１５０２、１５０３音声信号
１６０５エラー長計測部
１８０５ジャンル識別部

Claims

隣接するフレーム区間の間で互いに重複する区間を含む複数のフレーム区間に分割された時間信号がそれぞれ符号化された複数のフレームデータを含むオーディオストリームを復号するオーディオ復号装置であって、
前記オーディオストリームを前記フレームデータ単位でスペクトル係数に復号し、当該フレームデータを復号できない場合にエラー情報を出力するデコード手段と、
前記スペクトル係数を前記フレーム区間単位の時間信号に変換する直交変換手段と、
前記デコード手段により前記エラー情報が出力された場合、当該エラー情報が出力されたフレーム区間と当該フレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号を生成する補正手段と、
前記補正時間信号を前記エラー情報が出力されたフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号を合成することで、出力波形を生成する出力手段とを備える
ことを特徴とするオーディオ復号装置。
前記補正手段は、前記基準区間の時間信号と、前記出力手段により既に生成された前記出力波形との相関値を算出し、算出した相関値が最も大きい前記出力波形を切り出すことで前記補正時間信号を生成する
ことを特徴とする請求項１記載のオーディオ復号装置。
前記各フレーム区間は、それぞれ同じ時間長の第１区間、第２区間、第３区間及び第４区間からなり、
前記隣接するフレーム区間の中央部分の区間は、前記隣接するフレーム区間の前記第２区間又は前記第３区間である
ことを特徴とする請求項１記載のオーディオ復号装置。
前記補正手段は、前記算出した相関のうち最も強い相関値が予め定められた第１の値より大きいか否かを判定し、当該相関値が前記第１の値より大きい場合、前記補正時間信号を生成し、当該相関値が前記第１の値より小さい場合、前記補正時間信号を生成しない
ことを特徴とする請求項２記載のオーディオ復号装置。
前記補正手段は、前記基準区間の出力波形のスペクトルを算出し、算出したスペクトルにおいて、高域のエネルギーの低域のエネルギーに対する比が予め定められた第２の値より大きいか否かを判定し、当該比が前記第２の値より小さい場合、前記補正時間信号を生成し、当該比が前記第２の値より大きい場合、前記補正時間信号を生成しない
ことを特徴とする請求項１記載のオーディオ復号装置。
前記補正手段は、前記相関値が最も大きい出力波形のスペクトルを算出し、算出したスペクトルにおいて、高域のエネルギーの低域のエネルギーに対する比が予め定められた第２の値より大きいか否かを判定し、当該比が前記第２の値より小さい場合、当該出力波形を切り出すことで前記補正時間信号を生成し、当該比が前記第２の値より大きい場合、前記補正時間信号を生成しない
ことを特徴とする請求項１記載のオーディオ復号装置。
隣接するフレーム区間の間で互いに重複する区間を含む複数のフレーム区間に分割された時間信号がそれぞれ符号化された複数のフレームデータを含むオーディオストリームを復号するオーディオ復号装置におけるオーディオ復号方法であって、
前記オーディオストリームを前記フレームデータ単位でスペクトル係数に復号し、当該フレームデータを復号できない場合にエラー情報を出力するデコードステップと、
前記スペクトル係数を前記フレーム区間単位の時間信号に変換する直交変換ステップと、
前記デコードステップにより前記エラー情報が出力された場合、当該エラー情報が出力されたフレーム区間と当該フレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号を生成する補正ステップと、
前記補正時間信号を前記エラー情報が出力されたフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号を合成することで、出力波形を生成する出力ステップとを含む
ことを特徴とするオーディオ復号方法。
隣接するフレーム区間の間で互いに重複する区間を含む複数のフレーム区間に分割された時間信号がそれぞれ符号化された複数のフレームデータを含むオーディオストリームを復号するオーディオ復号方法のプログラムであって、
前記オーディオストリームを前記フレームデータ単位でスペクトル係数に復号し、当該フレームデータを復号できない場合にエラー情報を出力するデコードステップと、
前記スペクトル係数を前記フレーム区間単位の時間信号に変換する直交変換ステップと、
前記デコードステップにより前記エラー情報が出力された場合、当該エラー情報が出力されたフレーム区間と当該フレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号を生成する補正ステップと、
前記補正時間信号を前記エラー情報が出力されたフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号を合成することで、出力波形を生成する出力ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
隣接するフレーム区間の間で互いに重複する区間を含む複数のフレーム区間に分割された時間信号がそれぞれ符号化された複数のフレームデータを含むオーディオストリームを復号する集積回路であって、
前記オーディオストリームを前記フレームデータ単位でスペクトル係数に復号し、当該フレームデータを復号できない場合にエラー情報を出力するデコード手段と、
前記スペクトル係数を前記フレーム区間単位の時間信号に変換する直交変換手段と、
前記デコード手段により前記エラー情報が出力された場合、当該エラー情報が出力されたフレーム区間と当該フレーム区間に隣接するフレーム区間とが重複する区間内であり、かつ当該隣接するフレーム区間の中央部分の区間である基準区間の時間信号に基づき補正時間信号を生成する補正手段と、
前記補正時間信号を前記エラー情報が出力されたフレーム区間の時間信号として用いたうえで、複数のフレーム区間の時間信号を合成することで、出力波形を生成する出力手段とを備える
ことを特徴とする集積回路。