JP2022062876A - 音信号処理方法および音信号処理装置 - Google Patents

音信号処理方法および音信号処理装置 Download PDF

Info

Publication number
JP2022062876A
JP2022062876A JP2020171052A JP2020171052A JP2022062876A JP 2022062876 A JP2022062876 A JP 2022062876A JP 2020171052 A JP2020171052 A JP 2020171052A JP 2020171052 A JP2020171052 A JP 2020171052A JP 2022062876 A JP2022062876 A JP 2022062876A
Authority
JP
Japan
Prior art keywords
sound signal
speaker
signal processing
filter
correction filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020171052A
Other languages
English (en)
Other versions
JP7567345B2 (ja
Inventor
訓史 鵜飼
Norifumi Ukai
良 田中
Makoto Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2020171052A priority Critical patent/JP7567345B2/ja
Priority to CN202111133047.1A priority patent/CN114420144B/zh
Priority to US17/492,914 priority patent/US11956606B2/en
Priority to EP21201420.3A priority patent/EP3982363B1/en
Publication of JP2022062876A publication Critical patent/JP2022062876A/ja
Application granted granted Critical
Publication of JP7567345B2 publication Critical patent/JP7567345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/04Circuits for transducers for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Figure 2022062876000001
【課題】話者の姿勢に応じて適切に話者の音声を取得できる音信号処理方法および音信号処理装置を提供する。
【解決手段】音信号処理方法は、話者の音声に係る音信号を入力し、話者画像を取得し、前記話者画像から前記話者の姿勢情報を推定し、推定した前記姿勢情報に応じた補正フィルタを生成し、前記補正フィルタに係るフィルタ処理を前記音信号に施し、前記フィルタ処理を施した後の音信号を出力する。
【選択図】図10

Description

本発明の一実施形態は、音源の位置に基づいてマイクで取得した音信号を処理する音信号処理方法および音信号処理装置に関する。
特許文献1には、カメラで撮影した映像から話者の位置情報を検出し、検出した位置情報に基づいて、話者の音声が増強されるような処理を行なう音処理システムが開示されている。
特開2012-29209号公報
話者の音声は、話者の姿勢に応じて変化する。しかし、特許文献1の音処理システムは、話者の姿勢を考慮していない。
そこで、本発明の一実施形態の目的は、話者の姿勢に応じて適切に話者の音声を取得できる音信号処理方法および音信号処理装置を提供することにある。
音信号処理方法は、音信号処理方法は、話者の音声に係る音信号を入力し、話者画像を取得し、前記話者画像から前記話者の姿勢情報を推定し、推定した前記姿勢情報に応じた補正フィルタを生成し、前記補正フィルタに係るフィルタ処理を前記音信号に施し、前記フィルタ処理を施した後の音信号を出力する。
本発明の一実施形態によれば、話者の姿勢に応じて適切に話者の音声を取得できる。
音信号処理装置の構成を示すブロック図である。 音信号処理方法の動作を示すフローチャートである。 音信号処理装置の機能的構成を示すブロック図である。 カメラ11が撮影した画像の一例を示す図である。 話者の位置情報の一例を示す図である。 音信号処理部51の機能的構成を示すブロック図である。 残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。 机Tの認識結果に応じて補正フィルタを生成する場合の例を示す図である。 姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理方法の動作を示すフローチャートである。 音信号処理装置の機能的構成を示すブロック図である。 姿勢情報の一例を示す図である。 音信号処理部51の機能的構成を示すブロック図である。 残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。
(第1実施形態)
図1は、音信号処理装置1の構成を示すブロック図である。図2は、音信号処理方法の動作を示すフローチャートである。
音信号処理装置1は、カメラ11、CPU12、DSP13、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信部19を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器(不図示)の上または下に配置される。カメラ11は、表示器(不図示)の前に居る利用者の画像を取得する。マイク18A~18Fは、表示器(不図示)の前に居る利用者の音声を取得する。スピーカ17は、表示器(不図示)の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。DSP13は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
CPU12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、音信号処理装置1の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ14に記憶しておく必要はない。CPU12は、例えばサーバ等から都度ダウンロードしてRAM15に読み出してもよい。
DSP13は、CPU12の制御に従って、映像信号および音信号をそれぞれ処理する信号処理部である。DSP13は、例えば映像信号から話者の画像を切り出すフレーミング処理を行なう画像処理部として機能する。また、DSP13は、例えば話者の音声の減衰を補償するための補正フィルタ処理を行うフィルタ処理部としても機能する。
通信部19は、DSP13により処理された後の映像信号および音信号を、他の装置に送信する。また、通信部19は、他の装置から映像信号および音信号を受信する。通信部19は、受信した映像信号を表示器(不図示)に出力する。通信部19は、受信した音信号をスピーカ17に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ17は、他の装置のマイクで取得した話者の音声を出力する。他の装置は、例えば遠隔地に設置された音信号処理装置である。これにより、音信号処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
図3は、音信号処理装置1の機能的ブロック図である。これら機能的構成は、CPU12およびDSP13により実現される。図3に示す様に、音信号処理装置1は、機能的に、音信号入力部50、音信号処理部51、出力部52、画像取得部100、位置推定部101、およびフィルタ生成部102を備えている。
音信号入力部50は、マイク18A~18Fから音信号を入力する(S11)。また、画像取得部100は、カメラ11から話者画像を含む画像を取得する(S12)。位置推定部101は、取得した話者画像から話者の位置情報を推定する(S13)。
位置情報の推定は、人物の顔認識処理を含む。人物の顔認識処理は、例えばニューラルネットワーク等の所定のアルゴリズムにより、カメラ11が撮影した画像から複数の人物の顔の位置を認識する処理である。以下、本実施形態において話者とは、会議に参加しかつ現在会話している人を意味し、利用者とは会議に参加している人を意味し、話者を含む。非利用者とは、会議に参加していない人を意味し、人物とは、カメラ11に映る全ての人を意味する。
図4は、カメラ11が撮影した画像の一例を示す図である。図4の例では、カメラ11は、机Tの長手方向(奥行き方向)に沿って居る複数の人物の顔画像を撮影している。
机Tは、平面視して長方形状である。カメラ11は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る非利用者を撮影している。
位置推定部101は、この様なカメラ11の撮影した画像から人物の顔を認識する。図4の例では、画像の左下に居る利用者A1が発話している。位置推定部101は、複数フレームの画像に基づいて、発話中の利用者A1の顔を、話者の顔として認識する。なお、他の人物A2~A5は、顔認識されているが、話者ではない。したがって、位置推定部101は、利用者A1の顔を、話者の顔として認識する。
位置推定部101は、認識した話者の顔の位置に図中の四角で示す様な境界ボックス(Bounding Box)を設定する。位置推定部101は、境界ボックスの大きさに基づいて話者との距離を求める。フラッシュメモリ14には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。位置推定部101は、設定した境界ボックスの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、話者との距離を求める。
位置推定部101は、設定した境界ボックスの2次元座標(X,Y座標)および話者との距離を、話者の位置情報として求める。図5は、話者の位置情報の一例を示す図である。話者の位置情報は、話者を示すラベル名、2次元座標、および距離を含む。2次元座標は、カメラ11の撮影した画像の所定位置(例えば左下)を原点としたX,Y座標(直交座標)である。距離は、例えばメートル等で示す値である。位置推定部101は、フィルタ生成部102に、話者の位置情報を出力する。なお、位置推定部101は、複数の話者の顔を認識した場合、複数の話者の位置情報を出力する。
なお、位置推定部101は、カメラ11で撮影した画像だけでなく、さらにマイク18A~18Fで取得した音信号に基づいて人物の位置情報を推定してもよい。この場合、位置推定部101は、マイク18A~18Fで取得した音信号を音信号入力部50から入力する。例えば、位置推定部101は、複数のマイクで取得した音信号の相互相関を求めることにより、人物の音声がマイクに到達したタイミングを求めることができる。位置推定部101は、各マイクの位置関係および音声の到達タイミングに基づいて、人物の音声の到来方向を求めることができる。この場合、位置推定部101は、カメラ11の撮影した画像から、顔認識を行なうだけでもよい。例えば図4の例では、位置推定部101は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る非利用者の顔画像を認識する。そして、位置推定部101は、これらの顔画像から、話者の音声の到来方向に一致する顔画像を話者の位置情報として推定する。
また、位置推定部101は、カメラ11の撮影した画像から人物の身体を推定し、人物の位置情報を推定してもよい。位置推定部101は、ニューラルネットワーク等の所定のアルゴリズムにより、カメラ11の撮影した画像から人の骨格(ボーン)を求める。ボーンは、目、鼻、首、肩、および手足等を含む。フラッシュメモリ14には、予めボーンの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。位置推定部101は、認識したボーンの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、人物との距離を求める。
次に、フィルタ生成部102は、話者の位置情報に応じて、補正フィルタを生成する(S14)。補正フィルタは、音声の減衰を補償するためのフィルタを含む。補正フィルタは、例えばゲイン補正、イコライザ、およびビームフォーミングを含む。話者の音声は、遠い距離ほど減衰する。また、話者の音声の高域成分は、話者の音声の低域成分に比べて、遠い距離ほど減衰する。したがって、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成する。また、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど高域のレベルを高くする様なイコライザのフィルタを生成してもよい。また、フィルタ生成部102は、話者の座標に指向性を向けるビームフォーミング処理を行なう補正フィルタを生成してもよい。
音信号処理部51は、フィルタ生成部102で生成された補正フィルタに係るフィルタ処理を音信号に施す(S15)。出力部52は、フィルタ処理後の音信号を通信部19に出力する(S16)。音信号処理部51は、例えばデジタルフィルタからなる。音信号処理部51は、音信号を周波数軸上の信号に変換して、各周波数の信号のレベルを変更することにより、各種のフィルタ処理を行なう。
図6は、音信号処理部51の機能的構成を示すブロック図である。音信号処理部51は、ビームフォーミング処理部501、ゲイン補正部502、およびイコライザ503を構成する。ビームフォーミング処理部501は、マイク18A~18Fで取得した音信号に、それぞれフィルタ処理を施して合成することによりビームフォーミングを行う。ビームフォーミングに係る信号処理は、遅延和(Delay Sum)方式、Griffiths Jim型、Sidelobe Canceller型、あるいはFrost型Adaptive Beamformer等、どの様な手法であってもよい。
ゲイン補正部502は、ビームフォーミング処理後の音信号のゲインを補正する。イコライザ503は、ゲイン補正後の音信号の周波数特性を調整する。ビームフォーミング処理のフィルタ、ゲイン補正部502のフィルタ、およびイコライザ503のフィルタは、全て補正フィルタに対応する。フィルタ生成部102は、話者の位置情報に応じて、補正フィルタを生成する。
フィルタ生成部102は、話者の位置に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。これにより、音信号処理装置1は、話者の音声を高い精度で取得することができる。
また、フィルタ生成部102は、話者の位置情報に基づいて、ゲイン補正部502のゲインを設定する。上述した様に、話者の音声は、遠い距離ほど減衰する。したがって、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。これにより、音信号処理装置1は、話者との距離に関わらず、安定したレベルで話者の音声を取得することができる。
また、フィルタ生成部102は、話者の位置情報に基づいて、イコライザ503の周波数特性を設定する。上述した様に、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど高域のレベルを高くする様なイコライザのフィルタを生成する。これにより、音信号処理装置1は、話者との距離に関わらず、安定した音質で話者の音声を取得することができる。
また、フィルタ生成部102は、ビームフォーミング処理部501から音声の到来方向の情報を取得してもよい。上述の様に、音声の到来方向は、複数のマイクの音信号に基づいて求めることができる。フィルタ生成部102は、人物の位置情報と、音声の到来方向の情報と、を対比して、ゲイン補正部502のゲインを設定してもよい。例えば、フィルタ生成部102は、話者の位置情報の示す話者の位置と、音声の到来方向との差(離角)が大きくなるほどゲインの値を小さく設定する。つまり、フィルタ生成部102は、離角に反比例するようなゲインを設定する。あるいは、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。あるいは、フィルタ生成部102は、離角が所定の閾値以上となった場合にゲインが0になるような設定を行なってもよい。これにより、音信号処理装置1は、話者の音声をさらに高い精度で取得することができる。
また、フィルタ生成部102は、室内の残響特性を取得し、取得した残響特性に応じて補正フィルタを生成してもよい。図7は、残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。図7に示す音信号処理部51は、さらに適応エコーキャンセラ(AEC)701を備えている。
AEC701は、スピーカ17から出力された音のうちマイク18A~18Fに帰還する成分(エコー成分)を推定し、推定したエコー成分をキャンセルする。エコー成分は、スピーカ17に出力する信号に適応フィルタ処理を施すことで生成する。適応フィルタは、所定の適応アルゴリズムにより、室内の残響特性を模擬したFIRフィルタを構成する。適応フィルタは、当該FIRフィルタでスピーカ17に出力する信号をフィルタ処理することによりエコー成分を生成する。
フィルタ生成部102は、AEC701の適応フィルタで模擬された残響特性(残響情報)を取得する。フィルタ生成部102は、取得した残響情報に応じて補正フィルタを生成する。例えば、フィルタ生成部102は、残響特性のパワーを求める。フィルタ生成部102は、残響特性のパワーに応じてゲイン補正部502のゲインを設定する。上述した様に、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。また、フィルタ生成部102は、残響特性のパワーがより大きくなるほど減衰指数をよりゆっくり減衰するように設定してもよい。これらの場合、フィルタ生成部102は、残響特性のパワーが大きくなるほど閾値を大きく設定する。当該閾値を大きくすると、ビームフォーミング処理部501で生成されるビームの指向性が鈍化する。すなわち、フィルタ生成部102は、残響成分が大きい場合には、指向性を鈍化させる。残響成分が大きい場合、実際の話者の方向以外からも音声が到来するため、到来方向の推定精度が低下する。つまり、推定した到来方向以外に人物が存在する可能性があり、上記離角の値が大きくなる場合がある。したがって、フィルタ生成部102は、残響成分が大きい場合には指向性を鈍化させて、話者音声を取得できないことを防止する。
なお、フィルタ生成部102は、人物の位置情報に加えて、さらに、フレーミング処理の結果を補正フィルタに反映してもよい。利用者A1は、ユーザI/F16を用いてカメラ11の撮影した画像の中から特定の領域を切り出す操作を行なう。DSP13は、指定された領域を切り出すフレーミング処理を行なう。フィルタ生成部102は、切り出した領域の境界角度と、音声の到来方向応じてゲイン補正部502のゲインを設定する。フィルタ生成部102は、音声の到来方向が、切り出した領域の境界角度を超えて、切り出した領域から出た場合にゲインを0にする。あるいは、フィルタ生成部102は、音声の到来方向が、切り出した領域の境界角度を超えて、切り出した領域から出た場合に、切り出した領域の境界角度を大きく超えれば超えるほどより0に近づくようなゲインを与えてもよい。また、境界角度は、左右両方に設けてもよいし、左右上下4方向に設けてもよい。これにより、音信号処理装置1は、利用者の指定した領域の話者の音声を高い精度で取得することができる。
また、フィルタ生成部102は、特定のオブジェクトの認識結果に応じて補正フィルタを生成してもよい。例えば、位置推定部101は、特定のオブジェクトとして机Tを認識してもよい。図8は、机Tの認識結果に応じて補正フィルタを生成する場合の例を示す図である。位置推定部101は、ニューラルネットワーク等の所定のアルゴリズムにより、机Tを特定のオブジェクトとして認識する。位置推定部101は、机Tの位置情報をフィルタ生成部102に出力する。
フィルタ生成部102は、机Tの位置情報に応じて補正フィルタを生成する。例えば、図8に示す様に、机Tの位置より上で、かつ机Tを短手方向に挟んで左側および右側の領域S1および領域S2に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。あるいは、フィルタ生成部102は、領域S1および領域S2の位置と、音声の到来方向との差(離角)に応じてゲイン補正部502のゲインを設定してもよい。フィルタ生成部102は、離角が大きくなるほどゲインの値を小さく設定する。あるいは、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。あるいは、フィルタ生成部102は、離角が所定の閾値以上となった場合にゲインが0になるような設定を行なってもよい。あるいは、フィルタ生成部102は、人物の位置が領域S1および領域S2の内部に存在するか外部に存在するかを判定して、人物の位置が外部に存在する場合にゲインが0になるようにゲイン補正部502のゲインを設定してもよい。
これにより、音信号処理装置1は、机の位置より上でかつ机Tを短手方向に挟んで左側および右側の領域S1および領域S2の音声を高い精度で取得することができる。例えば、図8の例で あれば、音信号処理装置1は、利用者A3の音声を取得せず、利用者A1,A2,A4,A5の音声のみ取得することができる。
また、フィルタ生成部102は、人物と机との距離が所定値以上である場合に、対応する人物の音声をカットする補正フィルタを生成してもよい。例えば、図8の例で、利用者A3が発話した場合、位置推定部101は、利用者A3の位置を話者の位置情報として推定する。しかし、フィルタ生成部102は、人物との距離が所定値以上であるとして、利用者A3の音声をカットする補正フィルタを生成する。
なお、所定値は、特定のオブジェクトの認識結果に基づいて求めてもよい。例えば図8の例では、フィルタ生成部102は、机Tよりも遠い位置の音声をカットする補正フィルタを生成する。
(第2実施形態)
次に、図9は、姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理方法の動作を示すフローチャートである。図10は、姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理装置1の機能的構成を示すブロック図である。この例の音信号処理装置1は、位置推定部101に代えて、姿勢推定部201を備える。ハードウェア構成は、図1に示した構成と同一である。
図9の例では、位置推定部101の位置推定処理(S13)に代えて、姿勢推定部201は、取得した話者画像から話者の姿勢情報を推定する(S23)。その他の処理は、図2に示したフローチャートと同様である。
姿勢情報の推定は、話者の顔認識処理を含む。話者の顔認識処理は、位置情報の推定と同様であり、例えばニューラルネットワーク等の所定のアルゴリズムにより、カメラ11が撮影した画像から話者の顔の位置を認識する処理である。姿勢推定部201は、カメラ11の撮影した画像から話者の顔を認識する。また、姿勢推定部201は、認識した顔のうち目の位置、口の位置、および鼻の位置等から、話者の向いている方向を推定する。例えば、フラッシュメモリ14には、顔に対する目の位置、口の位置、および鼻の位置のずれ(オフセット)と、姿勢情報とを対応付けたテーブルまたは関数等を記憶している。姿勢推定部201は、顔に対する目の位置、口の位置、および鼻の位置のオフセットと、フラッシュメモリ14に記憶されているテーブルとを比較し、話者の姿勢を求める。なお、姿勢推定部201は、顔の位置を認識しても目、口、および鼻を認識できない場合、後ろ向きの姿勢であると推定する。
図11は、姿勢情報の一例を示す図である。話者の姿勢は、顔の左右の向き(角度)を示す情報である。例えば、姿勢推定部201は、利用者A1の姿勢を15度と認識している。この例では、姿勢推定部201は、向かって正面に向いている場合を0度とし、向かって右側に向いている場合を正の角度、向かって左側に向いている場合を負の角度、真後ろを向いている場合を180度(または-180度)と認識する。
なお、姿勢推定部201は、カメラ11の撮影した画像から話者の身体を推定し、姿勢情報を推定してもよい。姿勢推定部201は、ニューラルネットワーク等の所定のアルゴリズムにより、カメラ11の撮影した画像から鼻のボーンと、身体(首、肩、および手足等)のボーンを認識する。フラッシュメモリ14には、予め鼻のボーンと、身体のボーンのずれ(オフセット)と、姿勢情報とを対応付けたテーブルまたは関数等を記憶している。姿勢推定部201は、身体のボーンに対する鼻のボーンのオフセットと、フラッシュメモリ14に記憶されているテーブルとを比較し、話者の姿勢を求めてもよい。
フィルタ生成部102は、姿勢情報に応じて、補正フィルタを生成する。補正フィルタは、顔の向きに応じて減衰するレベルを補償するためのフィルタを含む。補正フィルタは、例えばゲイン補正、イコライザ、およびビームフォーミングを含む。
図12は、音信号処理部51の機能的構成を示すブロック図である。図12に示すブロック図は、フィルタ生成部102が姿勢情報を入力する点以外は、図6に示したブロック図と同一の構成である。
話者の音声は、真正面を向いている場合に最も高いレベルを示し、左右の向きが大きくなるほど減衰する。また、左右の向きが大きくなるほど高域が低域に比べてより減衰する。したがって、フィルタ生成部102は、左右の向き(角度)が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。また、フィルタ生成部102は、左右の向き(角度)が大きいほど高域のレベルを高くする、あるいは低域のレベルを低くする様なイコライザのフィルタを生成し、イコライザ503に設定してもよい。
これにより、音信号処理装置1は、話者の姿勢に関わらず、安定したレベル、安定した音質で話者の音声を取得することができる。
また、フィルタ生成部102は、姿勢情報に基づいてビームフォーミング処理部501の指向性を制御してもよい。残響成分は、話者が真正面を向いている場合に最も低いレベルを示し、左右の向きが大きくなるほど大きくなる。したがって、フィルタ生成部102は、左右の向き(角度)が大きい場合には、残響成分が大きいと判断して、指向性を鈍化させてもよい。これにより、音信号処理装置1は、話者の音声を高い精度で取得することができる。
また、図13に示す様に、フィルタ生成部102は、残響情報を取得してもよい。図13の構成は、図7の例と同様である。フィルタ生成部102は、AEC701から残響情報を取得する。フィルタ生成部102は、取得した残響情報に応じて補正フィルタを生成する。例えば、フィルタ生成部102は、残響特性のパワーを求める。フィルタ生成部102は、残響特性のパワーに応じてゲイン補正部502のゲインを設定してもよい。
第1実施形態の音信号処理装置1は、位置情報に基づいて補正フィルタを生成する例を示し、第2実施形態の音信号処理装置1は、姿勢情報に基づいて補正フィルタを生成した。無論、音信号処理装置1は、位置情報および姿勢情報の両方に基づいて補正フィルタを生成してもよい。ただし、位置情報の推定速度と、姿勢情報の推定速度は、異なる場合がある。第1実施形態の音信号処理装置1における位置情報の推定速度は、第2実施形態の姿勢情報の推定速度よりも速い。この場合、フィルタ生成部102は、位置推定部101が位置情報を推定した時、および姿勢推定部201が姿勢情報を推定した時、のそれぞれのタイミングで補正フィルタを生成すればよい。
第1実施形態および第2実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
1…音信号処理装置
11…カメラ
12…CPU
13…DSP
14…フラッシュメモリ
15…RAM
16…ユーザI/F
17…スピーカ
18A~18F…マイク
19…通信部
50…音信号入力部
51…音信号処理部
52…出力部
100…画像取得部
101…位置推定部
102…フィルタ生成部
201…姿勢推定部
501…ビームフォーミング処理部
502…ゲイン補正部
503…イコライザ
701…AEC

Claims (14)

  1. 話者の音声に係る音信号を入力し、
    話者画像を取得し、
    前記話者画像から前記話者の姿勢情報を推定し、
    推定した前記姿勢情報に応じた補正フィルタを生成し、
    前記補正フィルタに係るフィルタ処理を前記音信号に施し、
    前記フィルタ処理を施した後の音信号を出力する、
    音信号処理方法。
  2. 前記姿勢情報は、前記話者の顔の向きを含み、
    前記補正フィルタは、前記顔の向きに応じて減衰するレベルを補償する処理を含む、
    請求項1に記載の音信号処理方法。
  3. 前記補正フィルタは、イコライザを含む、
    請求項1または請求項2に記載の音信号処理方法。
  4. 前記姿勢情報は、顔の左右の向きを示す情報を含み、
    前記顔の左右の向きに応じて前記補正フィルタを生成する、
    請求項1乃至請求項3のいずれか1項に記載の音信号処理方法。
  5. 前記補正フィルタは、前記顔の左右の向きが大きいほど高域のレベルを高くする、または低域のレベルを低くする処理を含む、
    請求項4に記載の音信号処理方法。
  6. 前記姿勢情報は、後ろ向きの姿勢の情報を含む、
    請求項1乃至請求項5のいずれか1項に記載の音信号処理方法。
  7. 前記話者画像から前記話者の位置情報を推定し、
    前記位置情報に基づいて前記補正フィルタを生成し、
    前記位置情報の推定速度は、前記姿勢情報の推定速度よりも速く、
    前記補正フィルタは、前記位置情報を推定した時、および前記姿勢情報を推定した時、のそれぞれのタイミングで生成される、
    請求項1乃至請求項6のいずれか1項に記載の音信号処理方法。
  8. 話者の音声に係る音信号を入力する音信号入力部と、
    話者画像を取得する画像取得部と、
    前記話者画像から前記話者の姿勢情報を推定する位置推定部と、
    推定した前記姿勢情報に応じた補正フィルタを生成するフィルタ生成部と、
    前記補正フィルタに係るフィルタ処理を前記音信号に施す音信号処理部と、
    前記フィルタ処理を施した後の音信号を出力する出力部と、
    備えた音信号処理装置。
  9. 前記姿勢情報は、前記話者の顔の向きを含み、
    前記補正フィルタは、前記顔の向きに応じて減衰するレベルを補償する処理を含む、
    請求項8に記載の音信号処理装置。
  10. 前記補正フィルタは、イコライザを含む、
    請求項8または請求項9に記載の音信号処理装置。
  11. 前記姿勢情報は、顔の左右の向きを示す情報を含み、
    前記フィルタ生成部は、前記顔の左右の向きに応じて前記補正フィルタを生成する、
    請求項8乃至請求項10のいずれか1項に記載の音信号処理装置。
  12. 前記補正フィルタは、前記顔の左右の向きが大きいほど高域のレベルを高くする、または低域のレベルを低くする処理を含む、
    請求項11に記載の音信号処理装置。
  13. 前記姿勢情報は、後ろ向きの姿勢の情報を含む、
    請求項8乃至請求項12のいずれか1項に記載の音信号処理装置。
  14. 前記話者画像から前記話者の位置情報を推定する位置推定部を備え、
    前記フィルタ生成部は、前記位置情報に基づいて前記補正フィルタを生成し、
    前記位置情報の推定速度は、前記姿勢情報の推定速度よりも速く、
    前記補正フィルタは、前記位置情報を推定した時、および前記姿勢情報を推定した時、のそれぞれのタイミングで生成される、
    請求項8乃至請求項13のいずれか1項に記載の音信号処理装置。
JP2020171052A 2020-10-09 2020-10-09 音信号処理方法および音信号処理装置 Active JP7567345B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020171052A JP7567345B2 (ja) 2020-10-09 2020-10-09 音信号処理方法および音信号処理装置
CN202111133047.1A CN114420144B (zh) 2020-10-09 2021-09-27 声音信号处理方法及声音信号处理装置
US17/492,914 US11956606B2 (en) 2020-10-09 2021-10-04 Audio signal processing method and audio signal processing apparatus that process an audio signal based on posture information
EP21201420.3A EP3982363B1 (en) 2020-10-09 2021-10-07 Audio signal processing method and audio signal processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020171052A JP7567345B2 (ja) 2020-10-09 2020-10-09 音信号処理方法および音信号処理装置

Publications (2)

Publication Number Publication Date
JP2022062876A true JP2022062876A (ja) 2022-04-21
JP7567345B2 JP7567345B2 (ja) 2024-10-16

Family

ID=78085846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020171052A Active JP7567345B2 (ja) 2020-10-09 2020-10-09 音信号処理方法および音信号処理装置

Country Status (4)

Country Link
US (1) US11956606B2 (ja)
EP (1) EP3982363B1 (ja)
JP (1) JP7567345B2 (ja)
CN (1) CN114420144B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7567344B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
WO2010146857A1 (ja) * 2009-06-17 2010-12-23 パナソニック株式会社 補聴装置
JP2014216787A (ja) * 2013-04-24 2014-11-17 パナソニック株式会社 会議端末装置及び増幅率登録方法
JP2015082734A (ja) * 2013-10-22 2015-04-27 パナソニックIpマネジメント株式会社 音声処理装置、音声処理システム、及び音声処理方法
JP2019103009A (ja) * 2017-12-05 2019-06-24 パナソニックIpマネジメント株式会社 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム
JP2020092358A (ja) * 2018-12-06 2020-06-11 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010055399A1 (en) * 1998-10-30 2001-12-27 Kenneth A. Ullrich Assistive listening system and method for television, radio and music systems
US5940118A (en) 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US7130705B2 (en) * 2001-01-08 2006-10-31 International Business Machines Corporation System and method for microphone gain adjust based on speaker orientation
US9445193B2 (en) 2008-07-31 2016-09-13 Nokia Technologies Oy Electronic device directional audio capture
JP2010206451A (ja) * 2009-03-03 2010-09-16 Panasonic Corp カメラ付きスピーカ、信号処理装置、およびavシステム
JP2012029209A (ja) * 2010-07-27 2012-02-09 Hitachi Ltd 音処理システム
WO2013058728A1 (en) * 2011-10-17 2013-04-25 Nuance Communications, Inc. Speech signal enhancement using visual information
US8185387B1 (en) * 2011-11-14 2012-05-22 Google Inc. Automatic gain control
DE102012214081A1 (de) * 2012-06-06 2013-12-12 Siemens Medical Instruments Pte. Ltd. Verfahren zum Fokussieren eines Hörinstruments-Beamformers
US9338551B2 (en) 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
US9124990B2 (en) 2013-07-10 2015-09-01 Starkey Laboratories, Inc. Method and apparatus for hearing assistance in multiple-talker settings
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
EP3147898A1 (en) 2015-09-23 2017-03-29 Politechnika Gdanska Method and system for improving the quality of speech signals in speech recognition systems
US10387108B2 (en) 2016-09-12 2019-08-20 Nureva, Inc. Method, apparatus and computer-readable media utilizing positional information to derive AGC output parameters
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备
EP3901740A1 (en) 2018-10-15 2021-10-27 Orcam Technologies Ltd. Hearing aid systems and methods
JP7567344B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
WO2010146857A1 (ja) * 2009-06-17 2010-12-23 パナソニック株式会社 補聴装置
JP2014216787A (ja) * 2013-04-24 2014-11-17 パナソニック株式会社 会議端末装置及び増幅率登録方法
JP2015082734A (ja) * 2013-10-22 2015-04-27 パナソニックIpマネジメント株式会社 音声処理装置、音声処理システム、及び音声処理方法
JP2019103009A (ja) * 2017-12-05 2019-06-24 パナソニックIpマネジメント株式会社 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム
JP2020092358A (ja) * 2018-12-06 2020-06-11 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理方法

Also Published As

Publication number Publication date
CN114420144A (zh) 2022-04-29
EP3982363A1 (en) 2022-04-13
JP7567345B2 (ja) 2024-10-16
US20220116703A1 (en) 2022-04-14
CN114420144B (zh) 2025-10-17
US11956606B2 (en) 2024-04-09
EP3982363B1 (en) 2025-09-03

Similar Documents

Publication Publication Date Title
CN114333873B (zh) 声音信号处理方法及声音信号处理装置
US10582117B1 (en) Automatic camera control in a video conference system
CN107534725B (zh) 一种语音信号处理方法及装置
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
US10939202B2 (en) Controlling the direction of a microphone array beam in a video conferencing system
CN108091344A (zh) 一种降噪方法、装置及系统
US11398220B2 (en) Speech processing device, teleconferencing device, speech processing system, and speech processing method
CN111078185A (zh) 录制声音的方法及设备
JP7577960B2 (ja) 話者予測方法、話者予測装置、およびコミュニケーションシステム
US12039993B2 (en) Speech processing device and speech processing method
US11683634B1 (en) Joint suppression of interferences in audio signal
CN114420144B (zh) 声音信号处理方法及声音信号处理装置
CN115482828A (zh) 声音信号处理方法及装置、计算机可读存储介质
US12309557B2 (en) Selective sound modification for video communication
WO2023149254A1 (ja) 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム
WO2023054047A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US12581038B2 (en) Audio processing in video conferencing system using multimodal features
EP4187926B1 (en) Method and system for providing hearing assistance
JP2021135311A (ja) 音声処理装置および音声処理方法
Fu Visually-guided beamforming for a circular microphone array
EP4462769A1 (en) Generation of an audiovisual signal
EP4475560A1 (en) Microphone assembly and method for providing hearing assistance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240916

R150 Certificate of patent or registration of utility model

Ref document number: 7567345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150