JP7681699B2

JP7681699B2 - オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体

Info

Publication number: JP7681699B2
Application number: JP2023532254A
Authority: JP
Inventors: 陳陽振; 叶利剣
Original assignee: AAC Technologies Holdings Nanjing Co Ltd
Current assignee: AAC Technologies Holdings Nanjing Co Ltd
Priority date: 2022-12-21
Filing date: 2023-03-16
Publication date: 2025-05-22
Anticipated expiration: 2043-03-16
Also published as: US20240214730A1; US12413906B2; JP2025503345A

Description

本発明は、オーディオ処理技術分野に関し、特に、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体に関する。

ますます豊かになる国内外のゲームが世間の注目を集め、電子機器を用いてゲームすることは大衆文化の一つとなっている。ゲームの音声は、携帯電話等の電子機器に内蔵されたマイクロスピーカにより再生されるが、その出力が弱いため、ゲーム中の微弱なオーディオ信号、例えば足音の再生効果が良くない。従来技術では、ゲームにおける微弱なオーディオ信号を増強するため、固定利得のイコライザ（ＥＱ、Ｅｑｕａｌｉｓｅｒ）またはダイナミックレンジコントロール（ＤＲＣ：ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ）が一般的に使用されていたが、これにより、銃声やプロペラ音などの他のオーディオ信号を圧縮したり、足音をチューニングする際に、他のオーディオ信号の音色に影響を与えたりする。

本発明は、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体を提供し、従来技術においてターゲットの微弱なオーディオ信号を増強するとき他のオーディオ信号の効果に影響を与える問題を少なくとも解決することを目的とする。

本発明の第１実施形態によれば、オーディオ信号増強方法が提供される。このオーディオ信号増強方法は、
実際オーディオ信号に対応する第１オーディオ特徴を取得するステップと、
前記第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備える。

本発明の第２実施形態によれば、オーディオ信号増強装置が提供される。このオーディオ信号増強装置は、
前記取得モジュールは、実際オーディオ信号に対応する第１オーディオ特徴を取得する取得モジュールと、
分類モジュールは、前記第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記増強モジュールは、前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールと、を備える。

本発明の第３実施形態によれば、電子機器が提供される。この電子機器は、メモリと、プロセッサとを備え、前記メモリは、プログラム指示を含む情報を記録し、前記プロセッサは、前記メモリに記録されたプログラムを実行し、前記プロセッサは前記プログラムを実行すると、本発明の第１実施形態に記載のオーディオ信号増強方法における各ステップを実行する。

本発明の第４実施形態によれば、プログラムが記録されたコンピュータ読み取り可能な記録媒体を提供する。前記プログラムがプロセッサによって実行されると、本発明の第１実施形態に記載のオーディオ信号増強方法における各ステップを実行する。

上記のとおり、本発明が提供するオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体によれば、実際オーディオ信号に対応する第１オーディオ特徴を取得し、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。

本発明の第１実施形態に係るオーディオ信号増強方法の基本的な流れを示す概要図である。本発明の第１実施形態によって提供されるフレーミング処理を示す概要図である。本発明の第１実施形態によって提供される入力オーディオを示す波形図である。本発明の第１実施形態によって提供される出力オーディオを示す波形図である。本発明の第２実施形態によって提供されるオーディオ信号増強方法の詳細フローを示す概要図である。本発明の第３実施形態によって提供されるオーディオ信号増強装置のプログラムモジュールを示す概要図である。本発明の第４実施形態によって提供される電子機器の構成を示す概要図である。

本発明の目的、特徴および利点をより明確かつ理解しやすくするため、以下、本発明の実施形態における添付図面と併せ、本発明の実施形態における技術的解決策を明確かつ詳細に説明する。もちろん、下記説明する実施形態は、本発明の実施形態の一部に過ぎず、それに限定されてはない。本発明における実施形態に基づいて、当業者によって創造的な作業を行わずに得られる他のすべての実施形態は、本発明の保護範囲に含まれる。

ターゲットとなる微弱なオーディオ信号を増強させる際に他のオーディオ信号の効果に影響を与えるという関連技術における問題を解決するため、本発明の第１実施形態では、オーディオ信号増強方法を提供する。図１は、本実施形態に係るオーディオ信号増強方法の基本フローチャートである。このオーディオ信号増強方法は、以下のステップを含む。

ステップ１０１では、実際オーディオ信号に対応する第１オーディオ特徴を取得する。

具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号、例えば、ゲームにおけるキャラクターの足音、銃声またはプロペラ音のオーディオ信号であってもよい。

本実施形態に係るいくつかの態様において、実際オーディオ信号に対応する第１オーディオ特徴を取得するステップの前に、以下のステップをさらに含む：フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第２フレーム信号を取得するステップ、各第２フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第２オーディオ特徴の組み合わせを取得するステップ、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、および、第２オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第１オーディオ特徴を取得するステップ、または、実際オーディオ信号および過去オーディオ信号の第２オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第１オーディオ特徴を取得するステップ、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。

具体的に説明すると、本実施形態では、フレーミング指標として、データフレームの単位長さと、隣接するデータフレームのオーバーラップ長さ（すなわち、フレームシフト）とを含む。図２に示されるように、本実施形態において、好ましくは、オーバーラップフレーミングを用いてフレーミングが行われる。オーバーラップフレーミングによって、連続性を維持するように、フレーム間の遷移をスムーズにすることができる。単位フレーム長さは２０ｍｓであり、フレームのオーバーラップ長さは単位フレーム長さの１／２であり、すなわち、１０ｍｓである。本実施形態において単位フレーム長さおよびフレームオーバーラップ長さの具体的な値は、典型的な例に過ぎず、本実施形態に対する固有の限定を構成しないことを理解すべきである。フレーム信号を得た後、各フレーム信号からオーディオ特徴を抽出する。ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよく、例えば、周波数領域特徴は、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＬＰＣＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）であってもよい。また、抽出されたオーディオ特徴を組み合わせてオーディオ特徴の組み合わせを得る。そして、オーディオ特徴の頑健性を向上させるため、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行する。例えば、オーディオ特徴としてＭＦＣＣを使用する場合、１秒ごとに４０次元のＭＦＣＣ係数のセットを抽出し、さらに平均演算および分散演算を実行することで、１秒ごとに８０次元の特徴ベクトルを得られ、オーディオ特徴の頑健性を有効に向上させることができる。また、計算量を減らすため、平均演算および分散演算に使用される隣接フレームの数を適切に減らすことができ、リアルタイム検出が実施されるシナリオでは、現在収集されたオーディオ信号および過去に収集されたオーディオ信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行してもよい。

ステップ１０２では、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。

具体的に説明すると、本実施形態では、オーディオ特徴を取得した後、トレーニングされた分類器を用いてオーディオ特徴を分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを出力する。また、本実施形態では、０および１を用いてオーディオタイプを表してもよく、ここで、１は足音などのターゲットオーディオ信号を表し、０は非足音などの非ターゲットオーディオ信号を表してもよい。

本実施形態のいくつかの態様において、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別するステップの前に、所定のオーディオ信号サンプルセットを取得するステップと、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第２オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するステップと、をさらに備える。

具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット（例えば、足音オーディオデータセット）と非ターゲットオーディオ信号セット（例えば、非足音オーディオデータセット）を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号（例えば、足音）と非ターゲットオーディオ信号（例えば、非足音）をそれぞれ含み、これら２つの信号セットが分類器を得るために使用されるため、２つの信号セットは等しいサイズである。例えば、足音オーディオデータセットは１時間であり、非足音オーディオデータセットも１時間であり、できるだけ多くのシーンのオーディオ信号を含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、分類方法としては、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：ＳＶＭ）、ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：ＧＭＭ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）モデルなど、一般的な機械学習の分類方法を用いてもよい。

また、本実施形態のいくつかの態様において、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第２オーディオ特徴をそれぞれ取得するステップの前に、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第１フレーム信号を取得するステップと、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第１フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第１オーディオ特徴の組み合わせを取得するステップと、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、第１オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第２オーディオ特徴を取得するステップと、をさらに備える。

具体的には、本実施形態において、オーディオ特徴サンプルセットにおけるオーディオ特徴の抽出および次元は、実際オーディオ信号におけるオーディオ特徴の抽出および次元と同じであるが、オーディオ特徴サンプルセットにおけるオーディオ特徴の組み合わせに対して演算を実行する際に用いられる隣接フレーム信号の数はより多くなる。また、所定のフレーミング指標は、データフレームの単位長さ、データフレームのオーバーラップ長さを含み、さらに、オーバーラップフレーミングによってフレーミングを実行する。単位フレーム長さは１０ｍｓ～２０ｍｓであり、フレームのオーバーラップ長さは単位フレーム長さの１／２である。フレーム信号を取得した後、各フレーム信号からオーディオ特徴を抽出する。オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよい。また、抽出されたオーディオ特徴を組み合わせ、オーディオ特徴の組み合わせを得る。また、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、オーディオ特徴サンプルセットにおけるオーディオ特徴を取得する。

ステップ１０３では、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。

具体的には、本実施形態では、分類器の識別出力の結果を参照することで、実際オーディオ信号におけるターゲットオーディオタイプと合致するターゲットオーディオ信号のみに対して増強処理を実行することができ、増強オーディオ信号を取得する。

また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップは、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む。

具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ０／１信号を出力した後、メディアンフィルタによって０／１信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは１回または２回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは３である。オーディオタイプ表徴データが１の場合、ＥＱ／ＤＲＣによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが０の場合、ＥＱ／ＤＲＣによる増強処理を行わない。ここで、ＥＱは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。ＤＲＣは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。

また、本実施形態のいくつかの態様において、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行するステップは、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および／または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む。

具体的には、本実施形態では、ターゲットオーディオ信号のみに対して増強処理を実行し、非ターゲットオーディオ信号に対して増強処理を実行しないため、増強と非増強とを切り替えるハードな増強方式では、音が大きくなったり小さくなったり、またＰＯＰ音（レベルジャンプ）になる可能性もあるため、フェードイン時間とフェードアウト時間とを設置してＥＱの利得を調整することで、足音などのターゲットオーディオ信号に対して増強処理を実行し、または、ＤＲＣの時間パラメータを調整することで足音などのターゲットオーディオ信号に対してダイナミックレンジ増強を実行してもよい。このようなソフトな増強方式によれば、足音と非足音の間でパラメータをスムーズに切り替えることができ、実際のシーンにおける足音音源などのターゲットオーディオ信号の全体的な再生効果を向上させることができる。

また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップの後に、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを含む。

具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。入力オーディオ信号の波形は図３に示され、増強処理およびリミッタ処理された出力オーディオ信号の波形は図４に示される。図３および図４に示される波形の横軸は時間を表し、単位はｓであり、縦軸はオーディオ信号の音の強さ、つまり音圧を表し、単位はＶである。

本発明の実施形態に係る上記技術的解決策によれば、実際オーディオ信号に対応する第１オーディオ特徴を取得し、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。

図５に示される方法は、本発明の第２実施形態に係る詳細化されたオーディオ信号増強方法である。このオーディオ信号増強方法は、以下のステップを含む。

ステップ５０１では、実際オーディオ信号に対応する第１オーディオ特徴を取得する。

具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号であってよく、例えば、ゲームにおけるキャラクターの足音、銃声、プロペラ音などのオーディオ信号が挙げられる。

ステップ５０２では、オーディオ特徴サンプルセットに基づいて、所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得する。

具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット（例えば、足音オーディオデータセット）と非ターゲットオーディオ信号セット（例えば、非足音オーディオデータセット）を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号（例えば、足音）と非ターゲットオーディオ信号（例えば、非足音）をそれぞれ含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：ＳＶＭ）、ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：ＧＭＭ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）モデルなど、一般的な機械学習の分類方法を用いて、分類器モデルをトレーニングしてもよい。

ステップ５０３では、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。

ステップ５０４では、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得する。

具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ０／１信号を出力した後、メディアンフィルタによって０／１信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは１回または２回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは３である。

ステップ５０５では、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する。

オーディオタイプ表徴データが１の場合、ＥＱ／ＤＲＣによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが０の場合、ＥＱ／ＤＲＣによる増強処理を行わない。ここで、ＥＱは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。ＤＲＣは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。

ステップ５０６では、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。

具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。

なお、本実施形態における各ステップにおける符号の大きさは、ステップの実行順序を意味するものではなく、各ステップの実行順序は、その機能および内在論理によって決定されるべきであり、本発明の実施形態の実施プロセスに対する固有の制限を構成するものではない。

本発明の実施形態は、オーディオ信号増強方法を提供し、実際オーディオ信号に対応する第１オーディオ特徴を取得し、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。

図６は、本発明の第３実施形態によって提供されるオーディオ信号増強装置を示す図である。このオーディオ信号増強装置によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。図６に示されるように、このオーディオ信号増強装置は、以下のように構成される。

取得モジュール６０１は、実際オーディオ信号に対応する第１オーディオ特徴を取得する。
分類モジュール６０２は、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
増強モジュール６０３は、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。

また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第１演算モジュールをさらに備える。第１演算モジュールは、フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第２フレーム信号を取得し、各第２フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第２オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、第２オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第１オーディオ特徴を取得し、または、実際オーディオ信号および過去オーディオ信号の第２オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第１オーディオ特徴を取得し、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。

また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、トレーニングモジュールをさらに備える。トレーニングモジュールは、所定のオーディオ信号サンプルセットを取得し、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第２オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するように用いられる。

また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第２演算モジュールをさらに備える。第２演算モジュールは、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第１フレーム信号を取得し、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第１フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第１オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、第１オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第２オーディオ特徴を取得する。

また、本実施形態のいくつかの態様において、具体的に説明すると、増強モジュール６０３は、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するように用いられる。

また、本実施形態のいくつかの態様において、増強モジュール６０３は、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および／または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するように用いられる。

また、本実施形態のいくつかの態様において、オーディオ信号増強装置は、クリッピングモジュールをさらに備える。クリッピングモジュールは、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するように用いられる。

なお、第１実施形態および第２実施形態におけるオーディオ信号増強方法は、いずれも本実施形態で提供されるオーディオ信号増強装置に基づいて実施することができ、当業者はそれを明確に理解することができる。また、説明の便宜と簡潔さのため、本実施形態におけるオーディオ信号増強装置の具体的な作業プロセスは、前記方法の実施形態における対応するプロセスを参照することができるため、詳細な説明はここでは繰り返さない。

本実施形態によって提供されるオーディオ信号増強装置によれば、実際オーディオ信号に対応する第１オーディオ特徴を取得し、第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。

図７を参照すると、図７は、本発明の第４実施形態によって提供される電子機器を示す図である。この電子機器によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。図７に示されるように、この電子機器は、メモリ７０１と、プロセッサ７０２と、メモリ７０１に記録されてプロセッサ７０２によって実行されるプログラム７０３とを備える。プログラム７０３がプロセッサ７０２によって実行されると、前記実施形態におけるオーディオ信号増強方法を実現することができる。ここで、プロセッサの数は１つであってもよく、複数であってもよい。

メモリ７０１は、高速ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）メモリであってもよく、ディスクメモリなどの不揮発性メモリ（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙ）であってもよい。メモリ７０１は実行可能なプログラムコードを格納するために使用され、プロセッサ７０２はメモリ７０１と結合される。

また、本発明の実施形態は、コンピュータ読み取り可能な記録媒体を提供する。このコンピュータ読み取り可能な記録媒体は、前記各実施形態における電子機器に設けられてもよい。また、このコンピュータ読み取り可能な記録媒体は、前記図７に示めされる実施形態におけるメモリであってもよい。

このコンピュータ読み取り可能な記録媒体は、プロセッサによって実行されると、前記実施形態のオーディオ信号増強方法を実施する。また、このコンピュータ読み取り可能な記録媒体は、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、ディスク、ＣＤ－ＲＯＭなど、プログラムコードを格納することができるさまざまな記録媒体であってもよい。

なお、本発明によって提供されるいくつかの実施形態において、開示される装置および方法は他の形態で実施されてもよい。例えば、上記装置の実施形態は、単に概略的なものであり、例えば、論理的な機能分けに過ぎないモジュール分けは、実際に実施する際には他の形態で分けることができ、例えば、複数のモジュールまたは構成要素を組み合わせることができ、または別のシステムに統合することができ、あるいは一部の特徴を無視し、または実施しないことができる。また、図示または議論された相互結合、直接結合または通信接続は、電気的、機械的またはその他の方法であり得る何らかのインターフェース、デバイスまたはモジュールを介した間接結合または通信接続であってもよい。

分離構成要素として説明されたモジュールは、物理的に分離されていてもいなくてもよく、モジュールとして表示された構成要素は、物理的なモジュールであってもなくてもよく、すなわち、一箇所に配置されてもよく、複数のネットワークモジュールに分散されてもよい。これらのモジュールの一部または全部は、本実施形態の目的を達成するために実用的な必要性に応じて選択することができる。

また、本発明の各実施形態における各機能モジュールは、１つの処理モジュールに統合されてもよく、各モジュールが物理的に別々に存在してもよく、２つ以上のモジュールが１つのモジュールに統合されてもよい。上記統合されたモジュールは、ハードウェアの形態で実現されてもよく、ソフトウェア機能モジュールの形態で実現されてもよい。

統合モジュールは、ソフトウェア機能モジュールとして実現され、独立の製品として販売または使用される場合、コンピュータ読み取り可能な記録媒体に格納されることができる。この理解に基づいて、本発明における技術的解決策は、本質的に、先行技術に寄与する部分、または技術的解決策の全部または一部を、ソフトウェア製品の形態で具現化することができる。このコンピュータソフトウェア製品は、読み取り可能な記録媒体に格納され、コンピュータデバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい）が本発明の各実施形態におけるステップのすべてまたは一部を実行させるためのいくつかの指示を含む。

なお、上記各実施形態は、簡潔な説明をするために一連の動作として記載されているが、当業者は、本発明によればいくつかのステップを他のシーケンスで、または同時に実行することができるため、本発明に説明された動作のシーケンスによって制限されないことを理解すべきである。また、当業者は、本明細書に記載された実施形態は好ましい実施形態であり、本発明に係る動作やモジュールは、本発明に必ずしも必要ではないことも理解すべきである。

上記実施形態において、各実施形態の説明はそれぞれ焦点が当てられ、ある実施形態で詳細に説明されていないことは、他の実施形態の関連する記載を参照することができる。

以上、本発明によって提供されるオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体について説明したが、当業者にとっては、本願の実施形態のアイデアに基づいて、具体的な実装および適用範囲に変更がある可能性があり、一般に、本明細書の内容は、本発明を限定するものとして解釈すべきでないことを理解されたい。

Claims

オーディオ信号増強方法であって、
実際オーディオ信号に対応する第１オーディオ特徴を取得するステップと、
前記第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備え、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップは、
前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、
前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む、
ことを特徴とするオーディオ信号増強方法。
前記第１オーディオ特徴をトレーニング済み分類器に入力して分類識別する前記ステップの前に、
所定のオーディオ信号サンプルセットを取得するステップと、
前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第２オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、
前記オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの前記分類器を取得するステップと、をさらに備える、
ことを特徴とする請求項１に記載のオーディオ信号増強方法。
前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第２オーディオ特徴をそれぞれ取得する前記ステップの前に、
所定のフレーミング指標によって、前記オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第１フレーム信号を取得するステップと、
ここで、前記フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、
各前記第１フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第１オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、
前記第１オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第２オーディオ特徴を取得するステップと、をさらに備える、
ことを特徴とする請求項２に記載のオーディオ信号増強方法。
前記実際オーディオ信号に対応する第１オーディオ特徴を取得する前記ステップの前に、
前記フレーミング指標によって、前記実際オーディオ信号に対してフレーミング処理を実行し、第２フレーム信号を取得するステップと、
各前記第２フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第２オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも１つを含み、
前記第２オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第１オーディオ特徴を取得するステップと、
または、前記実際オーディオ信号および過去オーディオ信号の前記第２オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、前記第１オーディオ特徴を取得するステップと、
ここで、前記過去オーディオ信号の信号収集時点は、前記実際オーディオ信号より前である、
をさらに備える、
ことを特徴とする請求項３に記載のオーディオ信号増強方法。
前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行する前記ステップは、
前記実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および／または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む、
ことを特徴とする請求項１に記載のオーディオ信号増強方法。
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップの後に、
前記増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを備える、
ことを特徴とする請求項１に記載のオーディオ信号増強方法。
オーディオ信号増強装置であって、
実際オーディオ信号に対応する第１オーディオ特徴を取得する取得モジュールと、
前記第１オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールであって、前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および／またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する増強モジュールと、を備える、
ことを特徴とするオーディオ信号増強装置。
電子機器であって、
メモリと、プロセッサとを備え、
前記メモリは、プログラム指示を含む情報を記録し、
前記プロセッサは、前記メモリに記録されたプログラムを実行し、
前記プロセッサは前記プログラムを実行すると、請求項１～請求項６のいずれか１項に記載の前記方法におけるステップを実行する、
ことを特徴とする電子機器。
プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１～請求項６のいずれか１項に記載の前記方法におけるステップを実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。