JP7681699B2 - オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 - Google Patents

オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 Download PDF

Info

Publication number
JP7681699B2
JP7681699B2 JP2023532254A JP2023532254A JP7681699B2 JP 7681699 B2 JP7681699 B2 JP 7681699B2 JP 2023532254 A JP2023532254 A JP 2023532254A JP 2023532254 A JP2023532254 A JP 2023532254A JP 7681699 B2 JP7681699 B2 JP 7681699B2
Authority
JP
Japan
Prior art keywords
audio signal
audio
target
signal
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023532254A
Other languages
English (en)
Other versions
JP2025503345A (ja
Inventor
陳陽振
叶利剣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AAC Technologies Holdings Nanjing Co Ltd
Original Assignee
AAC Technologies Holdings Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202211649357.3A external-priority patent/CN116030822A/zh
Application filed by AAC Technologies Holdings Nanjing Co Ltd filed Critical AAC Technologies Holdings Nanjing Co Ltd
Publication of JP2025503345A publication Critical patent/JP2025503345A/ja
Application granted granted Critical
Publication of JP7681699B2 publication Critical patent/JP7681699B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/04Circuits for transducers for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本発明は、オーディオ処理技術分野に関し、特に、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体に関する。
ますます豊かになる国内外のゲームが世間の注目を集め、電子機器を用いてゲームすることは大衆文化の一つとなっている。ゲームの音声は、携帯電話等の電子機器に内蔵されたマイクロスピーカにより再生されるが、その出力が弱いため、ゲーム中の微弱なオーディオ信号、例えば足音の再生効果が良くない。従来技術では、ゲームにおける微弱なオーディオ信号を増強するため、固定利得のイコライザ(EQ、Equaliser)またはダイナミックレンジコントロール(DRC:Dynamic Range Control)が一般的に使用されていたが、これにより、銃声やプロペラ音などの他のオーディオ信号を圧縮したり、足音をチューニングする際に、他のオーディオ信号の音色に影響を与えたりする。
本発明は、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体を提供し、従来技術においてターゲットの微弱なオーディオ信号を増強するとき他のオーディオ信号の効果に影響を与える問題を少なくとも解決することを目的とする。
本発明の第1実施形態によれば、オーディオ信号増強方法が提供される。このオーディオ信号増強方法は、
実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備える。
本発明の第2実施形態によれば、オーディオ信号増強装置が提供される。このオーディオ信号増強装置は、
前記取得モジュールは、実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
分類モジュールは、前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記増強モジュールは、前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールと、を備える。
本発明の第3実施形態によれば、電子機器が提供される。この電子機器は、メモリと、プロセッサとを備え、前記メモリは、プログラム指示を含む情報を記録し、前記プロセッサは、前記メモリに記録されたプログラムを実行し、前記プロセッサは前記プログラムを実行すると、本発明の第1実施形態に記載のオーディオ信号増強方法における各ステップを実行する。
本発明の第4実施形態によれば、プログラムが記録されたコンピュータ読み取り可能な記録媒体を提供する。前記プログラムがプロセッサによって実行されると、本発明の第1実施形態に記載のオーディオ信号増強方法における各ステップを実行する。
上記のとおり、本発明が提供するオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
本発明の第1実施形態に係るオーディオ信号増強方法の基本的な流れを示す概要図である。 本発明の第1実施形態によって提供されるフレーミング処理を示す概要図である。 本発明の第1実施形態によって提供される入力オーディオを示す波形図である。 本発明の第1実施形態によって提供される出力オーディオを示す波形図である。 本発明の第2実施形態によって提供されるオーディオ信号増強方法の詳細フローを示す概要図である。 本発明の第3実施形態によって提供されるオーディオ信号増強装置のプログラムモジュールを示す概要図である。 本発明の第4実施形態によって提供される電子機器の構成を示す概要図である。
本発明の目的、特徴および利点をより明確かつ理解しやすくするため、以下、本発明の実施形態における添付図面と併せ、本発明の実施形態における技術的解決策を明確かつ詳細に説明する。もちろん、下記説明する実施形態は、本発明の実施形態の一部に過ぎず、それに限定されてはない。本発明における実施形態に基づいて、当業者によって創造的な作業を行わずに得られる他のすべての実施形態は、本発明の保護範囲に含まれる。
ターゲットとなる微弱なオーディオ信号を増強させる際に他のオーディオ信号の効果に影響を与えるという関連技術における問題を解決するため、本発明の第1実施形態では、オーディオ信号増強方法を提供する。図1は、本実施形態に係るオーディオ信号増強方法の基本フローチャートである。このオーディオ信号増強方法は、以下のステップを含む。
ステップ101では、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号、例えば、ゲームにおけるキャラクターの足音、銃声またはプロペラ音のオーディオ信号であってもよい。
本実施形態に係るいくつかの態様において、実際オーディオ信号に対応する第1オーディオ特徴を取得するステップの前に、以下のステップをさらに含む:フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得するステップ、各第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得するステップ、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、および、第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第1オーディオ特徴を取得するステップ、または、実際オーディオ信号および過去オーディオ信号の第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第1オーディオ特徴を取得するステップ、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。
具体的に説明すると、本実施形態では、フレーミング指標として、データフレームの単位長さと、隣接するデータフレームのオーバーラップ長さ(すなわち、フレームシフト)とを含む。図2に示されるように、本実施形態において、好ましくは、オーバーラップフレーミングを用いてフレーミングが行われる。オーバーラップフレーミングによって、連続性を維持するように、フレーム間の遷移をスムーズにすることができる。単位フレーム長さは20msであり、フレームのオーバーラップ長さは単位フレーム長さの1/2であり、すなわち、10msである。本実施形態において単位フレーム長さおよびフレームオーバーラップ長さの具体的な値は、典型的な例に過ぎず、本実施形態に対する固有の限定を構成しないことを理解すべきである。フレーム信号を得た後、各フレーム信号からオーディオ特徴を抽出する。ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよく、例えば、周波数領域特徴は、MFCC(Mel Frequency Cepstrum Coefficient)、LPCC(Linear Prediction Cepstral Coefficient)であってもよい。また、抽出されたオーディオ特徴を組み合わせてオーディオ特徴の組み合わせを得る。そして、オーディオ特徴の頑健性を向上させるため、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行する。例えば、オーディオ特徴としてMFCCを使用する場合、1秒ごとに40次元のMFCC係数のセットを抽出し、さらに平均演算および分散演算を実行することで、1秒ごとに80次元の特徴ベクトルを得られ、オーディオ特徴の頑健性を有効に向上させることができる。また、計算量を減らすため、平均演算および分散演算に使用される隣接フレームの数を適切に減らすことができ、リアルタイム検出が実施されるシナリオでは、現在収集されたオーディオ信号および過去に収集されたオーディオ信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行してもよい。
ステップ102では、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
具体的に説明すると、本実施形態では、オーディオ特徴を取得した後、トレーニングされた分類器を用いてオーディオ特徴を分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを出力する。また、本実施形態では、0および1を用いてオーディオタイプを表してもよく、ここで、1は足音などのターゲットオーディオ信号を表し、0は非足音などの非ターゲットオーディオ信号を表してもよい。
本実施形態のいくつかの態様において、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別するステップの前に、所定のオーディオ信号サンプルセットを取得するステップと、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するステップと、をさらに備える。
具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット(例えば、足音オーディオデータセット)と非ターゲットオーディオ信号セット(例えば、非足音オーディオデータセット)を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号(例えば、足音)と非ターゲットオーディオ信号(例えば、非足音)をそれぞれ含み、これら2つの信号セットが分類器を得るために使用されるため、2つの信号セットは等しいサイズである。例えば、足音オーディオデータセットは1時間であり、非足音オーディオデータセットも1時間であり、できるだけ多くのシーンのオーディオ信号を含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、分類方法としては、サポートベクターマシン(Support Vector Machine:SVM)、ガウス混合モデル(Gaussian Mixture Model:GMM)、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)モデルなど、一般的な機械学習の分類方法を用いてもよい。
また、本実施形態のいくつかの態様において、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得するステップの前に、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得するステップと、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得するステップと、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第2オーディオ特徴を取得するステップと、をさらに備える。
具体的には、本実施形態において、オーディオ特徴サンプルセットにおけるオーディオ特徴の抽出および次元は、実際オーディオ信号におけるオーディオ特徴の抽出および次元と同じであるが、オーディオ特徴サンプルセットにおけるオーディオ特徴の組み合わせに対して演算を実行する際に用いられる隣接フレーム信号の数はより多くなる。また、所定のフレーミング指標は、データフレームの単位長さ、データフレームのオーバーラップ長さを含み、さらに、オーバーラップフレーミングによってフレーミングを実行する。単位フレーム長さは10ms~20msであり、フレームのオーバーラップ長さは単位フレーム長さの1/2である。フレーム信号を取得した後、各フレーム信号からオーディオ特徴を抽出する。オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよい。また、抽出されたオーディオ特徴を組み合わせ、オーディオ特徴の組み合わせを得る。また、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、オーディオ特徴サンプルセットにおけるオーディオ特徴を取得する。
ステップ103では、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。
具体的には、本実施形態では、分類器の識別出力の結果を参照することで、実際オーディオ信号におけるターゲットオーディオタイプと合致するターゲットオーディオ信号のみに対して増強処理を実行することができ、増強オーディオ信号を取得する。
また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップは、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む。
具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ0/1信号を出力した後、メディアンフィルタによって0/1信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは1回または2回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは3である。オーディオタイプ表徴データが1の場合、EQ/DRCによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが0の場合、EQ/DRCによる増強処理を行わない。ここで、EQは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。DRCは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。
また、本実施形態のいくつかの態様において、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行するステップは、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む。
具体的には、本実施形態では、ターゲットオーディオ信号のみに対して増強処理を実行し、非ターゲットオーディオ信号に対して増強処理を実行しないため、増強と非増強とを切り替えるハードな増強方式では、音が大きくなったり小さくなったり、またPOP音(レベルジャンプ)になる可能性もあるため、フェードイン時間とフェードアウト時間とを設置してEQの利得を調整することで、足音などのターゲットオーディオ信号に対して増強処理を実行し、または、DRCの時間パラメータを調整することで足音などのターゲットオーディオ信号に対してダイナミックレンジ増強を実行してもよい。このようなソフトな増強方式によれば、足音と非足音の間でパラメータをスムーズに切り替えることができ、実際のシーンにおける足音音源などのターゲットオーディオ信号の全体的な再生効果を向上させることができる。
また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップの後に、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを含む。
具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。入力オーディオ信号の波形は図3に示され、増強処理およびリミッタ処理された出力オーディオ信号の波形は図4に示される。図3および図4に示される波形の横軸は時間を表し、単位はsであり、縦軸はオーディオ信号の音の強さ、つまり音圧を表し、単位はVである。
本発明の実施形態に係る上記技術的解決策によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
図5に示される方法は、本発明の第2実施形態に係る詳細化されたオーディオ信号増強方法である。このオーディオ信号増強方法は、以下のステップを含む。
ステップ501では、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号であってよく、例えば、ゲームにおけるキャラクターの足音、銃声、プロペラ音などのオーディオ信号が挙げられる。
ステップ502では、オーディオ特徴サンプルセットに基づいて、所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得する。
具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット(例えば、足音オーディオデータセット)と非ターゲットオーディオ信号セット(例えば、非足音オーディオデータセット)を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号(例えば、足音)と非ターゲットオーディオ信号(例えば、非足音)をそれぞれ含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、サポートベクターマシン(Support Vector Machine:SVM)、ガウス混合モデル(Gaussian Mixture Model:GMM)、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)モデルなど、一般的な機械学習の分類方法を用いて、分類器モデルをトレーニングしてもよい。
ステップ503では、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
具体的に説明すると、本実施形態では、オーディオ特徴を取得した後、トレーニングされた分類器を用いてオーディオ特徴を分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを出力する。また、本実施形態では、0および1を用いてオーディオタイプを表してもよく、ここで、1は足音などのターゲットオーディオ信号を表し、0は非足音などの非ターゲットオーディオ信号を表してもよい。
ステップ504では、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得する。
具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ0/1信号を出力した後、メディアンフィルタによって0/1信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは1回または2回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは3である。
ステップ505では、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する。
オーディオタイプ表徴データが1の場合、EQ/DRCによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが0の場合、EQ/DRCによる増強処理を行わない。ここで、EQは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。DRCは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。
ステップ506では、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。
具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。
なお、本実施形態における各ステップにおける符号の大きさは、ステップの実行順序を意味するものではなく、各ステップの実行順序は、その機能および内在論理によって決定されるべきであり、本発明の実施形態の実施プロセスに対する固有の制限を構成するものではない。
本発明の実施形態は、オーディオ信号増強方法を提供し、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
図6は、本発明の第3実施形態によって提供されるオーディオ信号増強装置を示す図である。このオーディオ信号増強装置によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。図6に示されるように、このオーディオ信号増強装置は、以下のように構成される。
取得モジュール601は、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
分類モジュール602は、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
増強モジュール603は、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第1演算モジュールをさらに備える。第1演算モジュールは、フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得し、各第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第1オーディオ特徴を取得し、または、実際オーディオ信号および過去オーディオ信号の第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第1オーディオ特徴を取得し、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、トレーニングモジュールをさらに備える。トレーニングモジュールは、所定のオーディオ信号サンプルセットを取得し、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するように用いられる。
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第2演算モジュールをさらに備える。第2演算モジュールは、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得し、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第2オーディオ特徴を取得する。
また、本実施形態のいくつかの態様において、具体的に説明すると、増強モジュール603は、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するように用いられる。
また、本実施形態のいくつかの態様において、増強モジュール603は、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するように用いられる。
また、本実施形態のいくつかの態様において、オーディオ信号増強装置は、クリッピングモジュールをさらに備える。クリッピングモジュールは、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するように用いられる。
なお、第1実施形態および第2実施形態におけるオーディオ信号増強方法は、いずれも本実施形態で提供されるオーディオ信号増強装置に基づいて実施することができ、当業者はそれを明確に理解することができる。また、説明の便宜と簡潔さのため、本実施形態におけるオーディオ信号増強装置の具体的な作業プロセスは、前記方法の実施形態における対応するプロセスを参照することができるため、詳細な説明はここでは繰り返さない。
本実施形態によって提供されるオーディオ信号増強装置によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
図7を参照すると、図7は、本発明の第4実施形態によって提供される電子機器を示す図である。この電子機器によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。図7に示されるように、この電子機器は、メモリ701と、プロセッサ702と、メモリ701に記録されてプロセッサ702によって実行されるプログラム703とを備える。プログラム703がプロセッサ702によって実行されると、前記実施形態におけるオーディオ信号増強方法を実現することができる。ここで、プロセッサの数は1つであってもよく、複数であってもよい。
メモリ701は、高速ランダムアクセスメモリ(Random Access Memory:RAM)メモリであってもよく、ディスクメモリなどの不揮発性メモリ(Non-Volatile Memory)であってもよい。メモリ701は実行可能なプログラムコードを格納するために使用され、プロセッサ702はメモリ701と結合される。
また、本発明の実施形態は、コンピュータ読み取り可能な記録媒体を提供する。このコンピュータ読み取り可能な記録媒体は、前記各実施形態における電子機器に設けられてもよい。また、このコンピュータ読み取り可能な記録媒体は、前記図7に示めされる実施形態におけるメモリであってもよい。
このコンピュータ読み取り可能な記録媒体は、プロセッサによって実行されると、前記実施形態のオーディオ信号増強方法を実施する。また、このコンピュータ読み取り可能な記録媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(Read-Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、ディスク、CD-ROMなど、プログラムコードを格納することができるさまざまな記録媒体であってもよい。
なお、本発明によって提供されるいくつかの実施形態において、開示される装置および方法は他の形態で実施されてもよい。例えば、上記装置の実施形態は、単に概略的なものであり、例えば、論理的な機能分けに過ぎないモジュール分けは、実際に実施する際には他の形態で分けることができ、例えば、複数のモジュールまたは構成要素を組み合わせることができ、または別のシステムに統合することができ、あるいは一部の特徴を無視し、または実施しないことができる。また、図示または議論された相互結合、直接結合または通信接続は、電気的、機械的またはその他の方法であり得る何らかのインターフェース、デバイスまたはモジュールを介した間接結合または通信接続であってもよい。
分離構成要素として説明されたモジュールは、物理的に分離されていてもいなくてもよく、モジュールとして表示された構成要素は、物理的なモジュールであってもなくてもよく、すなわち、一箇所に配置されてもよく、複数のネットワークモジュールに分散されてもよい。これらのモジュールの一部または全部は、本実施形態の目的を達成するために実用的な必要性に応じて選択することができる。
また、本発明の各実施形態における各機能モジュールは、1つの処理モジュールに統合されてもよく、各モジュールが物理的に別々に存在してもよく、2つ以上のモジュールが1つのモジュールに統合されてもよい。上記統合されたモジュールは、ハードウェアの形態で実現されてもよく、ソフトウェア機能モジュールの形態で実現されてもよい。
統合モジュールは、ソフトウェア機能モジュールとして実現され、独立の製品として販売または使用される場合、コンピュータ読み取り可能な記録媒体に格納されることができる。この理解に基づいて、本発明における技術的解決策は、本質的に、先行技術に寄与する部分、または技術的解決策の全部または一部を、ソフトウェア製品の形態で具現化することができる。このコンピュータソフトウェア製品は、読み取り可能な記録媒体に格納され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)が本発明の各実施形態におけるステップのすべてまたは一部を実行させるためのいくつかの指示を含む。
なお、上記各実施形態は、簡潔な説明をするために一連の動作として記載されているが、当業者は、本発明によればいくつかのステップを他のシーケンスで、または同時に実行することができるため、本発明に説明された動作のシーケンスによって制限されないことを理解すべきである。また、当業者は、本明細書に記載された実施形態は好ましい実施形態であり、本発明に係る動作やモジュールは、本発明に必ずしも必要ではないことも理解すべきである。
上記実施形態において、各実施形態の説明はそれぞれ焦点が当てられ、ある実施形態で詳細に説明されていないことは、他の実施形態の関連する記載を参照することができる。
以上、本発明によって提供されるオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体について説明したが、当業者にとっては、本願の実施形態のアイデアに基づいて、具体的な実装および適用範囲に変更がある可能性があり、一般に、本明細書の内容は、本発明を限定するものとして解釈すべきでないことを理解されたい。

Claims (9)

  1. オーディオ信号増強方法であって、
    実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
    前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
    前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備え
    前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップは、
    前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、
    前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む、
    ことを特徴とするオーディオ信号増強方法。
  2. 前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別する前記ステップの前に、
    所定のオーディオ信号サンプルセットを取得するステップと、
    前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、
    前記オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの前記分類器を取得するステップと、をさらに備える、
    ことを特徴とする請求項1に記載のオーディオ信号増強方法。
  3. 前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得する前記ステップの前に、
    所定のフレーミング指標によって、前記オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得するステップと、
    ここで、前記フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、
    各前記第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得するステップと、
    ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
    前記第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第2オーディオ特徴を取得するステップと、をさらに備える、
    ことを特徴とする請求項2に記載のオーディオ信号増強方法。
  4. 前記実際オーディオ信号に対応する第1オーディオ特徴を取得する前記ステップの前に、
    前記フレーミング指標によって、前記実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得するステップと、
    各前記第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得するステップと、
    ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
    前記第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
    または、前記実際オーディオ信号および過去オーディオ信号の前記第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
    ここで、前記過去オーディオ信号の信号収集時点は、前記実際オーディオ信号より前である、
    をさらに備える、
    ことを特徴とする請求項3に記載のオーディオ信号増強方法。
  5. 前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する前記ステップは、
    前記実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む、
    ことを特徴とする請求項1に記載のオーディオ信号増強方法。
  6. 前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップの後に、
    前記増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを備える、
    ことを特徴とする請求項1に記載のオーディオ信号増強方法。
  7. オーディオ信号増強装置であって、
    実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
    前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを 取得する分類モジュールと、
    前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールであって、前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する増強モジュールと、を備える、
    ことを特徴とするオーディオ信号増強装置。
  8. 電子機器であって、
    メモリと、プロセッサとを備え、
    前記メモリは、プログラム指示を含む情報を記録し、
    前記プロセッサは、前記メモリに記録されたプログラムを実行し、
    前記プロセッサは前記プログラムを実行すると、請求項1~請求項6のいずれか1項に記載の前記方法におけるステップを実行する、
    ことを特徴とする電子機器。
  9. プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
    前記プログラムがプロセッサによって実行されると、請求項1~請求項6のいずれか1項に記載の前記方法におけるステップを実行する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2023532254A 2022-12-21 2023-03-16 オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体 Active JP7681699B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202211649357.3A CN116030822A (zh) 2022-12-21 2022-12-21 一种音频信号增强方法、装置、设备及可读存储介质
CN202211649357.3 2022-12-21
PCT/CN2023/081940 WO2024130865A1 (zh) 2022-12-21 2023-03-16 一种音频信号增强方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2025503345A JP2025503345A (ja) 2025-02-04
JP7681699B2 true JP7681699B2 (ja) 2025-05-22

Family

ID=91583090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023532254A Active JP7681699B2 (ja) 2022-12-21 2023-03-16 オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US12413906B2 (ja)
JP (1) JP7681699B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016530765A (ja) 2014-01-30 2016-09-29 ホアウェイ・テクノロジーズ・カンパニー・リミテッド オーディオ信号を圧縮するためのデジタルコンプレッサ
US20190392852A1 (en) 2018-06-22 2019-12-26 Babblelabs, Inc. Data driven audio enhancement
CN111369982A (zh) 2020-03-13 2020-07-03 北京远鉴信息技术有限公司 音频分类模型的训练方法、音频分类方法、装置及设备
US20210065733A1 (en) 2019-08-29 2021-03-04 Mentor Graphics Corporation Audio data augmentation for machine learning object classification
CN113593603A (zh) 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置
JP2021536705A (ja) 2018-09-07 2021-12-27 グレースノート インコーポレイテッド オーディオ分類を介した動的な音量調整のための方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3075738C (en) * 2017-09-12 2021-06-29 Whisper. Ai Inc. Low latency audio enhancement
US20200344545A1 (en) * 2019-04-25 2020-10-29 Cisco Technology, Inc. Audio signal adjustment
US11763832B2 (en) * 2019-05-01 2023-09-19 Synaptics Incorporated Audio enhancement through supervised latent variable representation of target speech and noise

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016530765A (ja) 2014-01-30 2016-09-29 ホアウェイ・テクノロジーズ・カンパニー・リミテッド オーディオ信号を圧縮するためのデジタルコンプレッサ
US20190392852A1 (en) 2018-06-22 2019-12-26 Babblelabs, Inc. Data driven audio enhancement
JP2021536705A (ja) 2018-09-07 2021-12-27 グレースノート インコーポレイテッド オーディオ分類を介した動的な音量調整のための方法及び装置
US20210065733A1 (en) 2019-08-29 2021-03-04 Mentor Graphics Corporation Audio data augmentation for machine learning object classification
CN111369982A (zh) 2020-03-13 2020-07-03 北京远鉴信息技术有限公司 音频分类模型的训练方法、音频分类方法、装置及设备
CN113593603A (zh) 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置

Also Published As

Publication number Publication date
US20240214730A1 (en) 2024-06-27
US12413906B2 (en) 2025-09-09
JP2025503345A (ja) 2025-02-04

Similar Documents

Publication Publication Date Title
US10511908B1 (en) Audio denoising and normalization using image transforming neural network
JP4797342B2 (ja) オーディオデータを自動的に認識する方法及び装置
CN114203163A (zh) 音频信号处理方法及装置
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
Elminshawi et al. New insights on target speaker extraction
CN115273826B (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
US12033660B2 (en) Data processing device and data processing method
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
CN118918913A (zh) 场景感知的视听语音增强方法、装置、介质及程序产品
CN112885318B (zh) 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN118136034A (zh) 语音增广方法及相关方法、装置、设备和存储介质
CN107464563B (zh) 一种语音交互玩具
JP2020134887A (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
CN120359567A (zh) 基于音频内容类型识别的音频场景分析
CN109741761B (zh) 声音处理方法和装置
JP7681699B2 (ja) オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体
CN116312606A (zh) 高频噪声的抑制方法、装置、终端设备及存储介质
US11935552B2 (en) Electronic device, method and computer program
CN116744203A (zh) 一种基于语音身份识别的助听方法、装置及设备
WO2024130865A1 (zh) 一种音频信号增强方法、装置、设备及可读存储介质
TWI906748B (zh) 評估聲紋辨識演算法的方法及評估裝置
CN112309419B (zh) 多路音频的降噪、输出方法及其系统
CN117528328A (zh) 一种耳麦音频降噪处理方法及系统
CN115440237A (zh) 一种快速获取智能设备回采时延的方法及装置
CN118038888A (zh) 对白清晰度的确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230525

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250512

R150 Certificate of patent or registration of utility model

Ref document number: 7681699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150