JP6464449B2 - 音源分離装置、及び音源分離方法 - Google Patents

音源分離装置、及び音源分離方法 Download PDF

Info

Publication number
JP6464449B2
JP6464449B2 JP2014176518A JP2014176518A JP6464449B2 JP 6464449 B2 JP6464449 B2 JP 6464449B2 JP 2014176518 A JP2014176518 A JP 2014176518A JP 2014176518 A JP2014176518 A JP 2014176518A JP 6464449 B2 JP6464449 B2 JP 6464449B2
Authority
JP
Japan
Prior art keywords
image
sound source
unit
acoustic signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014176518A
Other languages
English (en)
Other versions
JP2016051081A (ja
Inventor
武志 水本
武志 水本
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2014176518A priority Critical patent/JP6464449B2/ja
Priority to US14/833,615 priority patent/US9595259B2/en
Publication of JP2016051081A publication Critical patent/JP2016051081A/ja
Application granted granted Critical
Publication of JP6464449B2 publication Critical patent/JP6464449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源分離装置、及び音源分離方法に関する。
会議における出席者の音声を集音し、出席者の映像を撮像する装置が提案されている。例えば、テレビ会議では、会議を行う地点毎にテレビ会議装置を設置し、これらのテレビ会議装置をネットワークで接続し、各テレビ会議装置が収録した音声信号と撮像した映像信号とを通信している。
例えば、特許文献1に記載のテレビ会議装置では、マイクアレイと、会議室全体を撮像する全体撮像手段と、各会議者をそれぞれ個別に撮像して各会議者に関連付けされた個別画像を生成する複数の特定会議者撮像手段と、マイクアレイの収音信号に基づいて話者方向を検出して話者方向データを生成する話者方向検出手段と、検出された話者方向に応じて話者音声信号を生成する話者音声信号生成手段と、全体画像、各個別画像、話者音声信号、および話者方向データを送信する送信手段と、を備えることが提案されている。
特開2007−274462号公報
しかしながら、特許文献1に記載の技術では、音声信号を収音する環境の雑音が大きい場合、話者に対する音源定位の精度が低下する。また、特許文献1に記載の技術では、この音源定位させた話者方向データに対応する個別画像を選択していたので、音源定位の精度が落ちた場合、正しい個別画像を選択できない場合があった。
本発明は上記の点に鑑みてなされたものであり、雑音が多い環境下であっても音源の方向を推定する精度を向上することができる音源分離装置、及び音源分離方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収録する収音部と、画像を撮像する撮像部と、前記収録された音響信号を評価する音響信号評価部と、前記撮像された画像信号を評価する画像信号評価部と、前記音響信号評価部と前記画像信号評価部とによって評価された結果に基づいて、音源方向推定部によって前記収録された音響信号に基づいて音源方向の推定を行うか、人位置推定部によって前記撮像された画像に対する音源方向の推定を行うか、を判定する判定部と、前記判定部が判定した結果に基づいて、前記収録された音響信号に基づいて推定された音源方向を示す情報を用いて、前記画像から音源の方向を示す情報を推定する人位置推定部と、前記判定部が判定した結果に基づいて、前記撮像された画像に基づいて推定された音源方向を示す情報を用いて、前記音響信号に対して音源の方向を推定する音源方向推定部と、前記人位置推定部によって推定された前記音源の方向を示す情報、または、前記音源方向推定部によって推定された前記音源の方向を示す情報に基づいて、前記音源の方向に対応する音響信号を前記音響信号から抽出する音源分離部と、を備える。
(2)また、本発明の一態様に係る音源分離装置であって、前記推定された音源方向に対応する領域の画像を、前記撮像された画像から抽出する画像抽出部と、前記抽出された画像以外の領域の画像を変更し、前記変更した画像と前記抽出した画像とを合成する画像合成部と、を備えるようにしてもよい。
(3)また、本発明の一態様に係る音源分離装置であって、前記画像合成部は、前記抽出された画像以外の領域の画像の解像度を、前記抽出された画像の解像度より低くするように変更するようにしてもよい。
(4)また、本発明の一態様に係る音源分離装置であって、前記画像信号評価部は、前記撮像された画像のヒストグラムを算出し、算出した前記ヒストグラムにおいて、ピクセル数が所定の値以上の輝度の輝度範囲を算出し、算出した前記輝度範囲が所定の範囲以上の場合に画像の信頼性が高いと評価し、算出した前記輝度範囲が所定の範囲未満の場合に画像の信頼性が低いと評価するようにしてもよい。
(5)また、本発明の一態様に係る音源分離装置であって、前記画像信号評価部は、前記撮像された画像のヒストグラムを算出し、算出した前記ヒストグラムにおいて、ピクセルが所定値以上ある輝度の数をカウントし、前記画像の総ピクセル数を前記カウントした値で除算して判定値を算出し、算出した判定値に基づいて画像の信頼性を評価するようにしてもよい。
(6)また、本発明の一態様に係る音源分離装置であって、前記音響信号評価部は、前記音響信号の雑音成分の大きさを、前記音響信号に対して雑音抑圧処理を行った結果に基づいて算出し、前記算出した雑音成分の大きさに基づいて前記音響信号の信頼性を評価するようにしてもよい。
(7)また、本発明の一態様に係る音源分離装置であって、前記音響信号及び前記画像信号のうち、少なくとも一方の信号に基づいて、発話区間を検出する発話区間検出部と、発話区間ごとに、前記推定された音源方向に対応する音響信号を、前記収録された音響信号から抽出する音源分離部と、発話区間ごとに、前記画像信号から抽出された話者の顔を含む領域の画像と、抽出された音響信号とを関連付ける関連付け部と、を備え、前記音源分離部は、発話区間ごとに、前記推定された音源方向に対応する音響信号を、前記収録された音響信号から抽出するようにしてもよい。
(8)また、本発明の一態様に係る音源分離装置であって、発話区間ごとに、前記画像信号から抽出された話者の顔を含む領域の画像と、抽出された音響信号とが関連付けられた情報を送信する送信部、を備えるようにしてもよい。
(9)また、本発明の一態様に係る音源分離装置であって、前記音源分離部は、前記音響信号を用いて音源の方向を推定し、または、前記人位置推定部によって推定された話者の方向を示す情報に基づいて音源の方向を推定し、前記音源の方向の推定結果を用いて、前記音響信号を音源毎に分離することで抽出し、前記音源分離部によって分離した音源毎の音響信号の特徴量を算出する特徴量算出部と、前記音響信号の特徴量に基づいて発話内容を認識してテキスト情報に変換する音声認識部、を備えるようにしてもよい。
(10)上記目的を達成するため、本発明の一態様に係る音源分離方法は、収音部が、音響信号を収録する収音手順と、撮像部が、画像を撮像する撮像手順と、音響信号評価部が、前記収音手順によって収録された音響信号を評価する音響信号評価手順と、画像信号評価部が、前記撮像手順によって撮像された画像信号を評価する画像評価手順と、選択部が、前記音響信号評価手順と前記画像評価手順とによって評価された結果に基づいて、音源方向推定手順によって前記収録された音響信号に基づいて音源方向の推定を行うか、人位置推定手順によって前記撮像された画像に対する音源方向の推定を行うかを判定する判定手順と、人位置推定部が、前記判定手順が判定した結果に基づいて、前記収音手順によって収録された音響信号に基づいて推定された音源方向を示す情報を用いて、前記画像から音源の方向を示す情報を推定する人位置推定手順と、音源方向推定部は、前記判定手順が判定した結果に基づいて、前記撮像手順によって撮像された画像に基づいて推定された音源方向を示す情報を用いて、前記音響信号に対して音源の方向を推定する音源方向推定手順と、音源分離部が、前記人位置推定手順によって推定された前記音源の方向を示す情報、または、前記音源方向推定手順によって推定された前記音源の方向を示す情報に基づいて、前記音源の方向に対応する音響信号を前記音響信号から抽出する音源分離手順と、を含む。
上述した(1)または(10)の構成によれば、撮像した画像と収録した音響信号の評価結果に応じて、少なくとも一方に基づいて音源の方向を推定することができる。このため、本構成によれば、画像信号の信頼性が低い場合には、音響信号を用いて音源の方向を推定することができ、音響信号の信頼性が低い場合には、画像信号に基づいて音源の方向を推定することができる。そして、本構成によれば、推定した結果に基づいて、発話された音声信号を分離することができる。このように、本構成によれば、音響信号と画像信号とを相互補完して音源分離を行うことができる。
上述した(2)の構成によれば、音源の方向の画像以外の領域の画像を変更し、音源の方向の画像と変更した画像とを合成するようにしたので、画像情報の容量を軽減することができる。
上述した(3)の構成によれば、音源の方向の画像以外の領域の画像の解像度を、音源の方向の画像の解像度より低く変更し、音源の方向の画像と変更した画像とを合成するようにしたので、画像情報の容量を軽減することができる。
上述した(4)の構成によれば、画像信号をヒストグラムにおいて、ピクセル数が所定の数以上ある輝度領域の幅に基づいて、画像信号の信頼性を評価するようにしたので、画像信号を定量的に且つ簡便に評価することができる。
上述した(5)の構成によれば、画像信号をヒストグラムにおいて、ピクセルがある輝度の数をカウントして、画像の総ピクセル数をカウントした値で除算した判定値に基づいて画像信号の信頼性を評価するようにしたので、画像信号を定量的に且つ簡便に評価することができる。
上述した(6)の構成によれば、音響信号の雑音成分の大きさを、残響抑圧処理の結果に基づいて算出された値に基づいて音響信号の信頼性を評価するようにしたので、音響信号を定量的に且つ簡便に評価することができる。
上述した(7)の構成によれば、画像信号または音響信号のうち、少なくとも一方の音源の方向の推定結果に基づいて、画像信号または音響信号から発話区間を抽出することができるので、画像信号または音響信号のいずれか一方の信頼性が低い場合であっても、精度良く発話区間を検出することができる。この結果、この構成によれば、発話区間毎に発話された音響信号を精度良く分離することができる。
上述した(8)の構成によれば、発話区間毎に、画像信号または音響信号のうち、少なくとも一方の音源の方向の推定結果に基づいて分離された音響信号と抽出された話者の顔を含む画像とを関連付けて、他の装置へ送信することができる。この結果、本構成の音源分離装置をテレビ会議等に用いる場合、画像信号または音響信号のいずれか一方の信頼性が低い場合であっても、分離された音響信号と抽出された話者の顔を含む画像とを関連付けて、他の装置へ送信することができる。
上述した(9)の構成によれば、画像信号または音響信号のうち、少なくとも一方の音源の方向の推定結果に基づいて分離された音響信号に対して音声認識を行いテキスト化することができる。この結果、本構成によれば、画像信号または音響信号のいずれか一方の信頼性が低い場合であっても、議事録におけるテキスト認識率の精度を向上させることができる。
第1実施形態に係る音源分離装置の構成を示すブロック図である。 撮像部によって撮像された画像の一例を説明する図である。 図2に示した画像Ph1において顔認識を行った結果の一例を説明する図である。 図2及び図4の画像のヒストグラムを説明する図である。 第1実施形態に係る信頼性判定部による判定結果の一例を説明する図である。 関連付部によって関連付けられた議事録情報の一例を説明する図である。 暗すぎる画像Ph2の一例である。 明るすぎる画像Ph3の一例である。 図2、図7、及び図8の各画像のヒストグラムを説明する図である。 コントラストが低すぎる画像Ph21の一例である。 コントラストが高すぎる画像Ph22の一例である。 図10及び図11の画像のヒストグラムを説明する図である。 第1実施形態に係る画像信号評価部の処理手順のフローチャートである。 雑音が少ない音響信号の一例を示す図である。 雑音が多い音響信号の一例を示す図である。 第1実施形態に係る音響信号評価部の処理手順のフローチャートである。 第1実施形態に係る音源分離装置が行う処理手順の一例を説明するフローチャートである。 第1実施形態に係る人位置推定の推定結果を優先する処理手順のフローチャートである。 第1実施形態に係る音源定位の推定結果を優先する処理手順のフローチャートである。 第2実施形態に係る音源分離装置の構成を示すブロック図である。
まず、本発明の概要を説明する。
本実施形態の音源分離装置1は、例えば会議室に設置されている。音源分離装置1は、収音部と撮像部とを備え、会議中の話者音響信号と画像信号とを取得する。音源分離装置1は、取得した音響信号を評価し、また取得した画像信号を評価する。ここで、音響信号の評価対象は、例えば雑音の大きさ、話者の発話に対応する音声信号に対する雑音信号の比(S/N比)等である。また、画像信号の評価対象は、画像における輝度、コントラスト等である。そして、音源分離装置1は、評価結果に応じて、音響信号に基づいて音源定位を行うか、画像信号に基づいて話者の位置を推定するかを決定する。さらに、音源分離装置1は、話者が発話している区間、発話している話者の顔を含む領域のみ解像度を落とさず、他の領域の解像度を落とす。また、音源分離装置1は、発話されている音声のみを抽出する。
以下、図面を参照しながら本発明の実施形態について説明する。
<第1実施形態>
図1は、本実施形態に係る音源分離装置1の構成を示すブロック図である。図1に示すように、音源分離装置1は、撮像部10、画像信号処理部20、収音部30、音響信号処理部40、信頼性判定部50(選択部)を含んで構成される。また、音源分離装置1には、議事録作成部60が接続されている。なお、音源分離装置1は、議事録作成部60を含むようにしてもよい。
撮像部10は、所定の間隔毎に画像を撮像し、撮像した画像信号を画像信号処理部20に送信する。撮像部10は、撮像された画像信号を無線で送信してもよいし、有線で送信してもよい。撮像部10が複数台の場合には、送信の際にチャネル間で画像信号が同期していればよい。なお、画像は静止画であってもよく、動画であってもよい。また、撮像部10は、会議室全体を撮像できる位置に取り付けられていてもよい。または、撮像部10は、会議に参加している人が、例えば並列に配置されたテーブルに着席している場合、それぞれのテーブルに着席している参加者の少なくとも口元が撮像できる位置に複数台、取り付けられていてもよい。
図2は、撮像部10によって撮像された画像の一例を説明する図である。図2に示すように、画像Ph1は、画像全体が十分な輝度成分を有しているため、後述するように画像Ph1を画像認識させることで、話者数、各話者の位置、話者が発話しているか否かを推定することができる。なお、図2において、符号A1〜A4に示す領域の画像は、話者Sp1〜Sp4に対応する画像である。なお、以下において、話者Sp1〜Sp4のうち、特定しない場合は単に話者Spという。
図1に戻って、音源分離装置1の構成の説明を続ける。
画像信号処理部20は、画像信号取得部21、画像信号評価部22、画像信号の事前情報生成部23、人位置推定部24、唇検出部25(人位置推定部)、発話区間検出部26(人位置推定部)、及び画像処理部27を含んで構成される。
画像信号取得部21は、撮像部10が送信した画像信号を取得し、取得した画像信号をアナログ信号からデジタル信号に変換する。画像信号取得部21は、デジタル信号に変換した画像信号を、画像信号評価部22、画像信号の事前情報生成部23、人位置推定部24、及び画像処理部27に出力する。
画像信号評価部22は、画像信号取得部21から入力された画像信号を評価する。例えば、画像信号評価部22は、入力された画像信号のヒストグラムを算出し、算出したヒストグラムに基づいて、画像信号の輝度が所定の値以上であるか否かを判別することで、映像信号を評価する。画像信号評価部22は、評価した評価結果を信頼性判定部50に出力する。なお、画像信号評価部22が行う評価方法については、後述する。
画像信号の事前情報生成部23には、画像信号取得部21から画像信号が入力され、信頼性判定部50から判定結果が入力される。また、画像信号の事前情報生成部23には、音響信号処理部40の音源方向推定部44から音源方向の推定結果が入力され、発話区間検出部48から発話区間を示す情報が入力される。画像信号の事前情報生成部23は、判定結果に基づいて、画像信号の事前情報を生成するか否かを決定する。ここで、画像信号の事前情報とは、発話を行っている話者の位置を示す情報である。なお、音源方向推定部44から入力される情報は、世界座標系の座標に基づくものとする。このため、画像信号の事前情報生成部23は、画像信号に基づく画像の座標を、周知の座標変換技術を用いて、世界座標系の座標に変換する。画像信号の事前情報生成部23は、判定結果が人位置推定の推定結果を優先する場合、画像信号の事前情報の生成処理を行わず、事前情報を画像処理部27に出力しない。一方、画像信号の事前情報生成部23は、判定結果が音源定位の推定結果を優先する場合、音源方向の推定結果を用いて、発話区間毎に画像信号の事前情報の生成処理を行い、生成した画像信号の事前情報である話者の顔の領域を示す情報を画像処理部27に出力する。
人位置推定部24には、画像信号取得部21から画像信号が入力され、信頼性判定部50から判定結果が入力される。人位置推定部24は、判定結果に基づいて、入力された画像信号から人の位置推定(以下、人位置推定ともいう)を行うか否かを決定する。人位置推定部24は、判定結果が人位置推定の推定結果を優先する場合、入力された画像信号を用いて、画像に写っている人毎の位置を人の顔の画像を周知の画像認識技術を用いて認識する。人の位置は、例えば顔を含む領域の位置である。なお、人位置推定部24は、人位置を示す情報の座標を、画像における座標系から世界座標系へ周知の技術を用いて変換する。人位置推定部24は、認識した領域を示す情報(人位置情報)を推定結果とし、推定結果、及び顔の領域を含む画像情報(以下、顔画像情報という)を唇検出部25に出力する。
なお、人位置推定部24には、顔認識を、例えば、画像から顔のパーツ(顔の外形、髪の毛、眉毛、目、鼻、口等)を検出し、人位置推定部24に予め記憶されている顔認識用のデータベースと各パーツの位置関係とを比較することで、人の顔として妥当であるか判別し、妥当であれば人の顔であると認識する。そして、人位置推定部24には、認識した顔を含む領域の画像を、全体の画像である画像信号から抽出することで、顔画像情報を抽出する。顔画像情報には、顔の領域を含む画像と、顔画像が画像全体のうちどの領域であるかを示す情報とが含まれる。
一方、人位置推定部24は、判定結果が音源定位の推定結果を優先する場合、人位置推定を行わず、推定結果を唇検出部25に出力しない。
また、人位置推定部24は、世界座標系で表される推定した人毎の顔を含む領域の位置を示す情報を、音響信号処理部40の音響処理の事前情報生成部43に出力する。
図3は、図2に示した画像Ph1において顔認識を行った結果の一例を説明する図である。図3に示す例では、符号A11〜A14それぞれに示す領域の画像が、話者Sp1〜Sp4それぞれに対応する顔画像である。なお、顔画像の領域は、少なくとも顔の外形を含む範囲であればよく、例えば上半身であってもよく、さらには、話者Spに対応する全ての領域の画像であってもよい。
図1に戻って、音源分離装置1の構成の説明を続ける。
唇検出部25は、人位置推定部24から入力された顔画像情報に基づいて、話者の唇の形状を周知の技術(例えば、特開2011−191423号公報参照)を用いて検出することで、発話を行っている話者を推定する。唇検出部25は、検出した検出結果に応じて、発話している話者の顔画像情報を選択する。唇検出部25は、選択した発話している話者の顔画像情報を発話区間検出部26に出力する。また、唇検出部25は、選択した発話している話者の顔画像情報に含まれる話者の顔を含む領域の位置情報を音響処理の事前情報生成部43に出力する。
発話区間検出部26は、唇検出部25から入力された検出結果に基づいて、周知の技術(例えば、特開2011−191423号公報参照)を用いて発話区間を検出する。発話区間検出部26は、検出した発話区間を示す情報、及び話者の顔画像情報を画像処理部27に出力する。また、発話区間検出部26は、検出した発話区間を示す情報を音響処理の事前情報生成部43に出力する。
なお、本実施形態では、唇検出部25、発話区間検出部26を備える例を説明したが、これらの機能部を人位置推定部24が備えていてもよい。この場合、人位置推定部24は、発話区間を示す情報、人毎の顔を含む領域の位置を示す情報、発話を行っている人の顔を含む領域の位置を示す情報、及び発話区間を示す情報を音響処理の事前情報生成部43に出力するようにしてもよい。
画像処理部27には、画像信号取得部21から画像信号が入力され、発話区間検出部26から発話区間を示す情報、及び話者の顔画像情報が入力される。または、画像処理部27には、画像信号の事前情報生成部23から画像信号の事前情報である話者の顔の領域を示す情報が入力される。画像処理部27は、入力された情報を用いて、発話区間毎に、発話していない人及び他の領域の画像の解像度を、入力された画像の解像度より低くする。例えば、撮像された画像が300[bpi(ビット/インチ)]であった場合、画像処理部27は、抽出する画像の解像度を300[bpi]に維持し、発話していない人及び他の領域の画像の解像度を、例えば1/10の30[bpi]に落とす。そして、画像処理部27は、発話区間毎に、解像度を落とした発話していない人及び他の領域の画像と、解像度を変更していない話者の顔画像とを合成する。
なお、画像処理部27は、発話が行われていない無音区間のとき、画像全体の解像度を下げるようにしてもよい。
図4は、本実施形態に係る話者Sp4が発話中において画像処理された後の画像Ph11の一例を説明する図である。図4において、符号Ph12が示す領域の画像は、発話していない人及び他の領域の画像である。また、符号A14が示す領域の画像は、話者Sp4の顔画像として抽出された画像である。図4に示すように、発話していない人及び他の領域の画像の解像度を元の画像の解像度に対して落としても、会議に参加している人の輪郭が残っているので、画像を見ている人は、会議の参加者数、発話している話者Sp4を確認することができる。そして、このように発話を行っていない人や他の領域の画像の解像度を下げることで、画像データの大きさを削減することができる。このとき、撮像された画像全体の解像度を下げているのではなく、話者Sp4の顔画像の解像度が維持されているため、図4に示した画像情報を記録したり他の装置に送信したりする場合、話者が誰であり発話している様子を観察者は画像から確認することができる。なお、図4に示した画像は、動画の一部であってもよい。この場合も、画像処理部27は、話者の顔を含む領域の映像の解像度を維持し、発話していない人及び他の領域の映像の解像度を落とすことで、同様の効果を得ることができる。
図1に戻って、音源分離装置1の構成の説明を続ける。
収音部30は、M個(Mは1よりも大きい整数、例えば8個)のチャネルの音響信号を収録し、収録したMチャネルの音響信号を音響信号処理部40に送信する。収音部30は、例えば周波数帯域(例えば200Hz〜4kHz)の成分を有する音波を受信するM個のマイクロホン31−1〜31−Mを備えている。以下、マイクロホン31−1〜31−Mのうち、特定しない場合は、単にマイクロホン31という。M個のマイクロホン31は、それぞれ異なる位置に配置されている。収音部30は、収録したMチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Mが1よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。
音響信号処理部40は、音響信号取得部41、音響信号評価部42、音響信号の事前情報生成部43、音源方向推定部44、音源分離部45、雑音抑圧部46、音響特徴量抽出部47、発話区間検出部48、及び音響処理部49(音源分離部)を含んで構成される。
音響信号取得部41は、収音部30から送信された音響信号をチャネル毎に受信する。音響信号取得部41は、取得した音響信号をアナログ信号からデジタル信号に変換し、変換した音響信号を音響信号評価部42、音響信号の事前情報生成部43、及び音源方向推定部44に出力する。
音響信号評価部42は、音響信号取得部41から入力された音響信号を評価する。例えば、音響信号評価部42は、信号の振幅の確認、音響信号の周波数成分の解析等を行うことで、音響信号に含まれる雑音成分の大きさが、所定の大きさ以上であるか否かを評価する。音響信号評価部42は、評価した評価結果を信頼性判定部50に出力する。なお、音響信号評価部42が行う評価方法については、後述する。
音響信号の事前情報生成部43には、音響信号取得部41から音響信号が入力され、信頼性判定部50から判定結果が入力される。また、音響信号の事前情報生成部43には、人位置推定部24から人毎の顔を含む領域の位置を示す情報が入力され、唇検出部25から発話を行っている人の顔を含む領域の位置を示す情報が入力され、発話区間検出部26から発話区間を示す情報が入力される。音響信号の事前情報生成部43は、判定結果に基づいて、音響信号の事前情報を生成するか否かを決定する。ここで、音響信号の事前情報とは、発話を行っている話者の方向(音源方向)を示す情報である。
音響信号の事前情報生成部43は、判定結果が人位置推定の推定結果を優先する場合、事前情報の生成処理を行わず、音響信号の事前情報を音源分離部45に出力しない。一方、音響信号の事前情報生成部43は、判定結果が音源定位の推定結果を優先する場合、発話区間毎に、発話を行っている人の顔を含む領域の位置を示す情報を用いて、音響信号の事前情報を生成し、生成した事前情報である話者の方向を示す情報を音源分離部45に出力する。なお、作成される話者の方向は、世界座標系で表される方位角である。
音源方向推定部44には、音響信号取得部41から音響信号が入力され、信頼性判定部50から判定結果が入力される。音源方向推定部44は、判定結果に基づいて、入力された音響信号から人の音源方向の推定(以下、音源定位ともいう)を行うか否かを決定する。音源方向推定部44は、判定結果が音響信号の方が画像信号より信頼性が高い場合、入力された音響信号を用いて、例えばMUSIC(MUltiple SIgnal Classification;多重信号分類)法、ビームフォーミング法等によって音源毎の方向を推定し、推定した推定結果及び音響信号を音源分離部45に出力する。
音源分離部45は、音源方向推定部44から入力された推定結果及び音響信号を用いて、または、音響処理の事前情報生成部43から入力された音響処理の事前情報及び音響信号を用いて、周知の手法、例えばブラインド信号分離手法、独立成分分析に基づくブラインド音源分離手法、信号のスパース性を用いたブラインド音源分離手法等によって、音源を分離する。なお、信号がスパースであるとは、信号がほとんどの時間周波数において0であることを指す。音源分離部45は、分離した分離結果及び音響信号を雑音抑圧部46に出力する。
雑音抑圧部46は、音源分離部45から入力された分離結果を用いて、音響信号に含まれる雑音成分を、周知の手法、例えばHRLE(Histogram−based Recursive Level Estimation)法、室内インパルス応答の逆フィルタ処理による手法、音源パワースペクトラム推定による手法、MTF(変調伝達関数または振幅伝達関数;Modulation Transfer Function)理論に基づく手法、GSS(Geometric Sound Separation;幾何学的音源分離)による手法等により抑圧する。雑音抑圧部46は、音源毎に残響抑圧された音響信号である音声信号を音響特徴量抽出部47に入力する。
音響特徴量抽出部47は、雑音抑圧部46から入力された音源毎に残響抑圧された音声信号から音響特徴量である例えばMSLS(Mel Scale Logarithmic Spectrum;メルスケール対数スペクトル)を抽出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。音響特徴量抽出部47は、入力された音声信号と、抽出した音響特徴量とを音源毎に発話区間検出部48に出力する。また、音声特徴量は、MFCCのみを用いることもある。
発話区間検出部48は、音響特徴量抽出部47から入力された音響特徴量に基づき発話と発話との間、すなわち無音区間である非発話の対数尤度を算出し、算出した非発話の対数尤度が予め定められている値以上のとき、無音区間であると判別する。非発話の対数尤度の算出は、既存の手法、例えばデータベース発話区間検出法を用いる。発話区間検出部48は、音響信号における発話区間検出(Audio VAD(Voice Activity Detection);A−VAD)の途中結果である非発話の対数尤度を用いるようにしてもよい(例えば、特開2011−191423号公報参照)。発話区間検出部48は、この無音区間以外の区間を発話区間と判別し、判別した発話区間を示す情報、及び発話区間毎の音響特徴量を音響処理部49、画像処理の事前情報生成部23、及び議事録作成部60に出力する。
音響処理部49は、発話区間毎に、発話区間に発話された音響信号(音源分離処理かつ雑音抑圧処理済み)と、発話に対応する音響特徴量とを抽出する。
信頼性判定部50には、画像信号評価部22から評価結果と、音響信号評価部42から評価結果とが入力される。信頼性判定部50は、画像信号評価部22から評価結果と音響信号評価部42から評価結果とを、図5のような予め定められている対応表を用いて判定することで、音源定位の推定結果を優先するか、人位置推定の推定結果を優先するかを、決定する。
図5は、本実施形態に係る信頼性判定部50による判定結果の一例を説明する図である。図5に示すように信頼性判定部50は、画像信号評価部22の評価結果が「信頼性が高い」場合かつ音響信号評価部42の評価結果が「信頼性が高い」場合、音源定位の推定結果を優先する。なお、この場合は、人位置推定の推定結果を優先するようにしてもよい。
信頼性判定部50は、画像信号評価部22の評価結果が「信頼性が低い」場合かつ音響信号評価部42の評価結果が「信頼性が高い」場合、音源定位の推定結果を優先する。
信頼性判定部50は、画像信号評価部22の評価結果が「信頼性が高い」場合かつ音響信号評価部42の評価結果が「信頼性が低い」場合、または、画像信号評価部22の評価結果が「信頼性が低い」場合かつ音響信号評価部42の評価結果が「信頼性が低い」場合、人位置推定の推定結果を優先する。画像信号評価部22の評価結果が「信頼性が低い」場合かつ音響信号評価部42の評価結果が「信頼性が低い」場合に人位置推定の推定結果を優先する理由は、後述する図7、7、9、及び10に示した例のように、画像が暗すぎたり明るすぎたりコントラストが高すぎたりコントラストが低すぎても人の輪郭を推定できる場合があるからである。
なお、図5に示した例は一例であり、画像信号評価部22の評価結果と音響信号評価部42の評価結果に応じた判定結果は、どちらの推定結果を優先するかを予め実験により決定しておいてもよい。
また、信頼性判定部50に入力される判定結果は、後述するように画像信号評価部22及び音響信号評価部42それぞれで算出された評価値であってもよい。信頼性判定部50は、入力された評価値に基づいて、どちらの推定結果を優先するかを決定するようにしてもよい。この場合においても、評価値の値に応じてどちらの推定結果を優先するかを、図5に示したような判定可能な表形式で自部に予め記憶させておく。この場合、信頼性判定部50は、画像信号評価部22及び音響信号評価部42それぞれで算出された評価値を正規化しておき、両方の値を比較することで判定するようにしてもよい。
図1に戻って、音源分離装置1の説明を続ける。
議事録作成部60は、発話認識部61、関連付部62、及び記憶部63を含んで構成される。
発話認識部61には、音響信号処理部40から検出された発話区間情報と、発話区間中の音響信号に対応する音響特徴量とが入力される。発話認識部61は、入力された発話区間情報と音響特徴量のMSLS情報とを用いて発話認識を行う。発話認識は、例えば、汎用大語彙連続音声認識エンジンであるストリーム重み付を指定可能なマルチバンドJulius(Y. Nishimura, et al., “Speech recognition for a humanoid with motor noise utilizing missing feature theory,”Humanoids 2006, pp.26−33)を用いて行う。なお、発話認識部61は、周知の構文解析、係り受け解析等を行うことで、発話認識を行うようにしてもよい。なお、認識結果はテキスト情報である。発話認識部61は、認識した認識結果を関連付部62に出力する。
関連付部62には、発話認識部61から認識結果が入力され、画像処理部27で処理された画像情報が入力される。関連付部62は、図6に示すように、発話内容、及び発話中の画像を関連付けて議事録情報を生成する。関連付部62は、生成した議事録情報を記憶部63に記憶させる。ここで、発話中の画像とは、図4に示した例のように、話者の領域の解像度を変更しない画像と、発話していない人及び他の領域の画像の解像度を低くしたとを合成した画像である。なお、関連付部62は、上記の情報にさらに話者を示す情報、発話区間中の話者の音声信号も関連付けて記憶部63に記憶させるようにしてもよい。この場合、音響信号処理部40から発話区間中の話者を示す情報、及び話者の音声信号も入力される。
図6は、関連付部62によって関連付けられた議事録情報の一例を説明する図である。図6に示す例では、発話内容が「それでは、本日の会議を始めます。Bさん、本日の議題は何ですか?」と、発話中の画像として話者Sp1の領域の解像度を変更せず他の人や他の領域の解像度を低くした画像とが関連付けられている。議事録の閲覧者は、このような議事録情報により、会議に参加している人数、その中の誰が話者なのか画像によって知ることができる。
記憶部63には、図6に示したような発話内容、及び発話中の画像が関連付けられて記憶される。なお、関連付部62が議事録情報として、話者識別情報、及び発話区間の音声情報を関連付けた場合、これらの情報も関連付けて記憶するようにしてもよい。
以上のように、本実施形態では、画像信号の方が音響信号より信頼性が高い場合、人位置推定部24が、入力された画像信号を用いて、画像に写っている人毎の位置を周知の技術を用いて推定する。そして、音響信号処理部40は、この推定結果を用いて音響信号の事前情報を生成し、生成した音響信号の事前情報を用いて音源定位処理を行う。
一方、判定結果が音響信号の方が画像信号より信頼性が高い場合、音源方向推定部44が、入力された音響信号に対して、周知の技術を用いて音源定位の推定を行う。そして、画像信号処理部20は、この推定結果を用いて画像信号の事前情報を生成し、生成した画像信号の事前情報を用いて人位置推定処理を行う。
すなわち、本実施形態の音源分離装置1は、画像信号と音響信号とによる情報を用いて相互に補完し合うことで、話者の位置の検出、音源定位を行う。
<画像信号の評価>
次に、画像信号評価部22が行う処理について説明する。
図7は、暗すぎる画像Ph2の一例である。図8は、明るすぎる画像Ph3の一例である。
図7に示す例の画像全体が暗すぎるため、または図8に示す例の画像全体が明るすぎるため、画像Ph2及び画像Ph3を画像認識させた場合、話者数、各話者の位置、話者が発話しているか否かを精度良く推定することができない場合がある。
図9は、図2、図7、及び図8の各画像のヒストグラムを説明する図である。図9において、横軸は輝度、縦軸はピクセル数である。なお、輝度は、左側が最小値であり、右側が最大値である。符号g101が示す画像は、図2の画像Ph1のヒストグラムの図である。符号g101が示す画像のように、画像Ph1の画像信号の成分は、輝度の最小値から最大値の範囲に分布している。
符号g102が示す画像は、図7の画像Ph2のヒストグラムの図である。符号g112が示す領域の画像のように、画像Ph2の画像信号の成分は、輝度の最小値から中間値以下の範囲に分布している。
符号g103が示す画像は、図8の画像Ph3のヒストグラムの図である。符号g113が示す領域の画像のように、画像Ph3の画像信号の成分は、輝度の中間値以上から最大値の範囲に分布している。すなわち、明るすぎる画像及び暗すぎる画像は、ヒストグラムにおいて、輝度が最小値側または最大値側に偏っている。
このように、画像信号評価部22は、ヒストグラムを解析することで、入力された画像信号による画像の輝度成分が輝度の最小値側か最大値側に偏っている場合、暗すぎる画像または明るすぎる画像であると評価することができる。
図10は、コントラストが低すぎる画像Ph21の一例である。図11は、コントラストが高すぎる画像Ph22の一例である。
図10に示す例の画像Ph21はコントラストが低すぎるため、または図11に示す画像Ph22のコントラストが高すぎるため、画像Ph21及び画像Ph22を画像認識させた場合、話者数、各話者の位置、話者が発話しているか否かを精度良く推定することができない場合がある。
図12は、図10及び図11の画像のヒストグラムを説明する図である。図12において、横軸は輝度、縦軸はピクセル数である。
符号g121が示す画像は、図10の画像Ph21のヒストグラムの図である。符号g131が示す領域の画像のように、画像Ph21の画像信号の成分は、輝度の中間値を中心に分布し、輝度が最小値及び最大値に近い領域には分布していない。
符号g122が示す画像は、図11の画像Ph22のヒストグラムの図である。符号g141及びg142が示す領域の画像のように、画像Ph22の画像信号の成分は、輝度の最小値付近と最大値付近のみに分布している。すなわち、コントラストが低すぎる画像及びコントラストが高すぎる画像は、ヒストグラムにおいて、輝度の中心付近のみに分布、または最小値付近と最大値付近のみに分布する。
このように、画像信号評価部22は、ヒストグラムを解析することで、入力された画像信号による画像の輝度成分に所定の輝度範囲より狭い範囲のみに画像信号の成分が分布している場合、コントラストが低すぎる画像またはコントラストが高すぎる画像であると評価することができる。そして、本実施形態によれば、上述したように評価を行うことで、画像信号を定量的に且つ簡便に評価することができる。
図13は、本実施形態に係る画像信号評価部22の処理手順のフローチャートである。
(ステップS1)画像信号評価部22は、入力された画像信号の輝度毎のピクセル数であるヒストグラムを算出する。
(ステップS2)画像信号評価部22は、ピクセル数が所定の値以上の連続する輝度の範囲を検出する。
(ステップS3)画像信号評価部22は、算出した範囲が、所定の範囲以上であるか否かを判別する。画像信号評価部22は、算出した範囲が所定の範囲以上であると判定した場合(ステップS3;YES)、ステップS4に進み、算出した範囲が所定の範囲以上ではないと判定した場合(ステップS3;NO)、ステップS5に進む。
(ステップS4)画像信号評価部22は、画像の信頼性が高いと判別し、判別した結果を、評価結果を示す情報として信頼性判定部50に出力し、処理を終了する。
(ステップS5)画像信号評価部22は、画像の信頼性が低いと判別し、判別した結果を、評価結果を示す情報として信頼性判定部50に出力し、処理を終了する。
なお、本実施形態では、図7〜図12において、画像の信頼性を輝度とコントラストに基づいて判別する例を説明したが、少なくともどちらか一方に基づいて判別するようにしてもよい。
また、図13に示した処理手順は一例であり、これに限られない。例えば、画像信号評価部22は、ヒストグラムを算出後、ピクセルが所定値以上ある輝度の数をカウントし、総ピクセル数をカウントした値(以下、カウント値という)で除算して判定値を算出するようにしてもよい。例えば、最小輝度が0、最大輝度が255の場合、カウント値は0〜255の値になる。総ピクセル数は一定のため、カウント値が多いほど判定値が小さくなり、カウント値が少ないほど判定値が大きくなる。具体的には、図2の総ピクセル数が26万ピクセルであるとすると、図2に示した画像Ph1の輝度の範囲が0〜255であり、図7に示した画像Ph2の輝度の範囲は0〜111であり、図11に示した画像Ph22の輝度範囲は0〜15と240〜255である。このため、画像Ph1の判定値は約1020であり、画像Ph2の判定値は約2342であり、画像Ph22の判定値は約8667である。この場合、画像信号評価部22は、判定値が所定の値以上の場合に画像の信頼性が低いと判別し、判定値が所定の値未満の場合に画像の信頼性が高いと判別するようにしてもよい。そして、画像信号評価部22は、この判別した結果を、評価結果を示す情報として信頼性判定部50に出力するようにしてもよい。本実施形態によれば、このように判定値を算出して評価を行うことで、画像信号を定量的に且つ簡便に評価することができる。
<音響信号の評価>
次に、音響信号評価部42が行う処理について説明する。
図14は、雑音が少ない音響信号の一例を示す図である。図15は、雑音が多い音響信号の一例を示す図である。図14及び図15において、横軸は時刻[s(秒)]、縦軸は信号レベル[V]である。また、符号Sg1〜Sg3に示す領域の波形は、話者Spによる発話による音響信号の波形を表している。符号Sg4及びSg11が示す領域の波形は、音響信号に含まれる雑音信号の波形を表している。なお、図14と図15とにおける発話による音響信号は、同じタイミングかつ同じ信号レベルである。
図14に示す例では、符号Sg4に示す領域の波形のように、雑音信号の信号レベルの振幅は、0.01[Vp−p]以下である。時刻約20.7[s]〜21.3[s]の区間に符号Sg1に示される領域の波形が観測される。また、時刻約23.0[s]〜23.8[s]の区間に符号Sg2に示される領域の波形が観測され、時刻約25.5[s]〜26.3[s]の区間に符号Sg3に示される領域の波形が観測される。
一方、図15に示す例では、符号Sg11に示す領域の波形のように、雑音信号の信号レベルの振幅は、約0.1[Vp−p]である。このため、発話による波形(Sg1〜Sg3)は、±0.05[V]を越える区間のみ観測される。
図13に示す音響信号を用いて音源定位や音声認識を行った場合と比較して、図14に示す音響信号を用いて音響信号を用いて音源定位や音声認識を行った場合の方が、音源方向の推定(音源定位)の精度が落ち、さらに音声認識の精度が落ちる。
このため、本実施形態の音響信号評価部42は、例えばHRLE法を用いて雑音パワーを算出し、算出した雑音パワーに基づいて、音響信号の信頼性を評価する。
ここで、HRLE法の概要について説明する。
音響信号評価部42は、入力された音響信号を周波数領域の複素入力スペクトルY(k、l)に変換する。kは周波数を表すインデックスであり、lは各フレームを表すインデックスである。次に、音響信号評価部42は、複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|を算出する。|…|は、複素数…の絶対値を示す。次に、音響信号評価部42は、パワースペクトル|Y(k,l)|に含まれる雑音成分のパワースペクトルλ(k,l)を、HRLE法を用いて算出する。HRLE法は、ある周波数について、パワー毎の頻度を計数してヒストグラムを生成し、生成したヒストグラムにおいて計数した頻度をパワーについて累積した累積頻度を算出し、予め定めた累積頻度を与えるパワーを雑音パワーλ(k,l)と定める方法である。従って、HRLE法では、累積頻度が大きいほど、推定される雑音パワーが大きくなり、累積頻度が小さいほど、推定される雑音パワーが小さくなる(例えば特願2013−013251号公報参照)。
図16は、本実施形態に係る音響信号評価部42の処理手順のフローチャートである。
(ステップS11)音響信号評価部42は、例えばHRLE法を用いて雑音パワーを算出する。
(ステップS12)音響信号評価部42は、雑音パワーが所定の値以上であるか否かを判別する。音響信号評価部42は、雑音パワーが所定の値以上であると判別した場合(ステップS12;YES)、ステップS13に進み、雑音パワーが所定の値以上ではないと判別した場合(ステップS12;NO)、ステップS14に進む。
(ステップS13)音響信号評価部42は、音響信号の信頼性が低いと判別し、判別した結果を、評価結果を示す情報として信頼性判定部50に出力し、処理を終了する。
(ステップS14)音響信号評価部42は、音響信号の信頼性が高いと判別し、判別した結果を、評価結果を示す情報として信頼性判定部50に出力し、処理を終了する。
以上のように、本実施形態では、音響信号の雑音成分の大きさを、残響抑圧処理の結果に基づいて算出された値に基づいて音響信号の信頼性を評価するようにしたので、音響信号を定量的に且つ簡便に評価することができる。
なお、上述した例では、音響信号評価部42が雑音パワーを算出する例を説明したが、雑音抑圧部46が算出し、算出した雑音パワーを示す値を音響信号評価部42に出力するようにしてもよい。
さらに、音響信号評価部42は、入力された音響信号と、雑音抑圧部46によって雑音成分が抑圧された後の音響信号との比を算出することで、雑音パワーが大きいか小さいかを評価するようにしてもよい。この場合、雑音抑圧部46は、雑音抑圧後の音響信号を音響信号評価部42に出力する。
<音源分離装置の処理>
次に、音源分離装置1が行う処理について説明する。
図17は、本実施形態に係る音源分離装置1が行う処理手順の一例を説明するフローチャートである。
(ステップS101)画像信号取得部21は、所定の間隔毎に撮像部10によって撮像された画像信号を取得する。なお、画像信号は動画であっても静止画であってもよい。
(ステップS102)音響信号取得部41は、収音部30によって収録された音響信号を取得する。なお、ステップS101の処理とステップS102との処理は、処理順番が逆であってもよく、同時に行われてもよい。
(ステップS103)画像信号評価部22は、図13を用いて説明した画像信号を評価する処理を行う。
(ステップS104)音響信号評価部42は、図16を用いて説明した音響信号を評価する処理を行う。
(ステップS105)信頼性判定部50は、画像信号評価部22から入力された評価結果と、音響信号評価部42から入力された評価結果とに基づいて、音源定位の推定結果を優先するか、人位置推定の推定結果を優先するかを決定する。
(ステップS106)信頼性判定部50は、人位置推定の推定結果を優先する場合(ステップS106;人位置推定の推定結果を優先)、ステップS107に進み、音源定位の推定結果を優先する場合(ステップS106;音源定位の推定結果を優先)、ステップS108に進む。
(ステップS107)画像処理信号部20及び音響信号処理部40は、人位置推定の推定結果を優先する処理を行い、処理をステップS109に進める。
(ステップS108)画像処理信号部20及び音響信号処理部40は、音源方向の推定結果を優先する処理を行い、処理をステップS109に進める。
(ステップS109)議事録作成部60は、議事録作成の処理を行う。
以上で、音源分離装置1が行う処理を終了する。
<人位置推定の推定結果を優先する処理>
次に、人位置推定の推定結果を優先する処理を説明する。
図18は、本実施形態に係る人位置推定の推定結果を優先する処理手順のフローチャートである。
(ステップS201)人位置推定部24は、信頼性判定部50から人位置推定の推定結果を優先することを示す判定結果が入力された場合、画像信号取得部21から入力された画像信号を用いて、画像に写っている人毎の顔を含む領域の画像位置を周知の画像認識技術を用いて推定する。
(ステップS202)人位置推定部24は、推定した結果に基づいて、各人の顔を含む領域の画像(顔画像)を、画像信号取得部21から入力された画像信号(全体画像)から抽出する。
(ステップS203)人位置推定部24は、世界座標系で表される推定した人毎の顔を含む領域の位置を示す情報を、音響処理の事前情報生成部43に出力する。
(ステップS204)唇検出部25は、人位置推定部24から入力された顔画像情報に基づいて、話者の唇の形状を周知の技術(例えば、特開2011−191423号公報参照)を用いて検出することで、発話を行っている話者を推定する。次に、唇検出部25は、検出した検出結果に応じて、発話している話者の顔画像情報を選択する。
(ステップS205)発話区間検出部26は、唇検出部25によって検出された検出結果に基づいて、周知の技術(例えば、特開2011−191423号公報参照)を用いて発話区間を検出する。
(ステップS206)画像処理部27は、入力された情報を用いて、発話区間、発話していない人及び他の領域の画像の解像度を、入力された画像の解像度より低くする。
(ステップS207)画像処理部27は、解像度を落とした発話していない人及び他の領域の画像と、解像度を変更していない話者の顔画像とを合成する。
(ステップS208)音響処理の事前情報生成部43は、信頼性判定部50から人位置推定の推定結果を優先することを示す判定結果が入力された場合、発話区間毎に、発話を行っている人の顔を含む領域の位置を示す情報を用いて、音響信号の事前情報を生成する。
(ステップS209)音源分離部45は、音響処理の事前情報生成部43から入力された音響処理の事前情報及び音響信号を用いて、周知の手法によって、音源を分離する。
(ステップS210)雑音抑圧部46は、音源分離部45から入力された分離結果を用いて、音響信号に含まれる雑音成分を、周知の手法により抑圧する。
(ステップS211)音響特徴量抽出部47は、雑音抑圧部46から入力された音源毎に残響抑圧された音響信号から音響特徴量である例えばMSLSを抽出する。
(ステップS212)発話区間検出部48は、音響特徴量抽出部47から入力された特徴量に基づき発話と発話との間、すなわち無音区間を検出する。次に、発話区間検出部48は、検出した無音区間を用いて発話区間を検出する。
(ステップS213)音響処理部49は、発話区間毎に、発話区間に発話された音響信号(音源分離処理かつ雑音抑圧処理済み)と、発話に対応する音響特徴量とを抽出する。
(ステップS214)発話認識部61は、入力された発話区間を示す情報と音響特徴量とを用いて発話認識を行う。
(ステップS215)関連付部62は、発話内容、及び発話中の画像を関連付けて議事録情報を生成する。次に、関連付部62は、生成した議事録情報を記憶部63に記憶させる。
以上で、人位置推定の推定結果を優先する処理を終了する。
<音源定位の推定結果を優先する処理>
次に、音源定位の推定結果を優先する処理を説明する。
図19は、本実施形態に係る音源定位の推定結果を優先する処理手順のフローチャートである。
(ステップS301)音源方向推定部44は、信頼性判定部50から音源定位の推定結果を優先することを示す判定結果が入力された場合、入力された音響信号から音源毎の方向を、例えばMUSIC法、ビームフォーミング法等によって推定する。なお、話者の特定は、音源方向推定部44によって音源方向の推定結果に基づいて行われる。
(ステップS302)音源分離部45は、音源方向推定部44から入力された推定結果及び音響信号を用いて、周知の手法、例えばブラインド信号分離手法、独立成分分析に基づくブラインド音源分離手法、信号のスパース性を用いたブラインド音源分離手法等によって、音源を分離する。
(ステップS303)雑音抑圧部46は、音源分離部45から入力された分離結果を用いて、音響信号に含まれる雑音成分を、周知の手法、例えばHRLE法、室内インパルス応答の逆フィルタ処理による手法、音源パワースペクトラム推定による手法、MTF理論に基づく手法、GSSによる手法等により抑圧する。
(ステップS304)音響特徴量抽出部47は、雑音抑圧部46から入力された音源毎に残響抑圧された音声信号から音響特徴量である例えばMSLSを抽出する。
(ステップS305)発話区間検出部48は、音響特徴量抽出部47から入力された音響特徴量に基づき無音区間と発話区間とを検出する。
(ステップS306)音響処理部49は、発話区間毎に、発話区間に発話された音響信号(音源分離処理かつ雑音抑圧処理済み)と、発話に対応する音響特徴量とを抽出する。
(ステップS307)画像信号の事前情報生成部23は、音源方向の推定結果を用いて、発話区間毎に画像信号の事前情報の生成処理を行い、生成した画像信号の事前情報である話者の顔の領域を示す情報を画像処理部27に出力する。
(ステップS308)画像処理部27は、入力された情報を用いて、発話区間毎に、発話していない人及び他の領域の画像の解像度を、入力された画像の解像度より低くする。
(ステップS309)画像処理部27は、解像度を落とした発話していない人及び他の領域の画像と、解像度を変更していない話者の顔画像とを合成する。
(ステップS310)発話認識部61は、入力された発話区間を示す情報と音響特徴量とを用いて発話認識を行う。
(ステップS311)関連付部62は、発話内容、及び発話中の画像を関連付けて議事録情報を生成する。次に、関連付部62は、生成した議事録情報を記憶部63に記憶させる。
以上で、音源定位の推定結果を優先する処理を終了する。
以上のように、本実施形態の音源分離装置(例えば音源分離装置1)は、音響信号を収録する収音部(例えば収音部30)と、画像を撮像する撮像部(例えば撮像部10)と、収録された音響信号を評価する音響信号評価部(例えば音響信号評価部42)と、撮像された画像信号を評価する画像信号評価部(例えば画像信号評価部22)と、音響信号評価部と画像信号評価部とによって評価された結果に基づいて、収録された音響信号に基づいて音源方向の推定を行うか、撮像された画像に対する音源方向の推定を行うかを選択する選択部(例えば信頼性判定部50)と、収録された音響信号に基づいて推定された音源方向を示す情報を用いて、画像から話者の方向を示す情報を推定する人位置推定部と、撮像された画像に基づいて推定された音源方向を示す情報を用いて、音響信号に対して音源の方向を推定する音源方向推定部(例えば音源方向推定部44)と、推定された音源の方向に基づいて、音源の方向に対応する音響信号を音響信号から抽出する音源分離部(例えば音源方向推定部44)と、を備える。
この構成によって、本実施形態の音源分離装置1は、撮像した画像と収録した音響信号の評価結果に応じて、少なくとも一方に基づいて音源の方向を推定することができる。このため、本実施形態によれば、画像信号の信頼性が低い場合には、音響信号を用いて音源の方向を推定することができ、音響信号の信頼性が低い場合には、画像信号に基づいて音源の方向を推定することができる。そして、本実施形態によれば、推定した結果に基づいて、発話された音声信号を分離することができる。このように、本実施形態によれば、音響信号と画像信号とを相互補完して音源分離を行うことができる。
また、本実施形態の音源分離装置(例えば音源分離装置1)において、音源分離部(例えば音源分離部45、音響処理部49)は、音響信号を用いて音源の方向を推定し、または、人位置推定部(例えば人位置推定部24)によって推定された話者の方向を示す情報に基づいて音源の方向を推定し、音源の方向の推定結果を用いて、音響信号を音源毎に分離することで抽出し、音源分離部によって分離した音源毎の音響信号の特徴量を算出する特徴量算出部(例えば音響特徴量抽出部47)と、音響信号の特徴量に基づいて発話内容を認識してテキスト情報に変換する音声認識部(例えば発話認識部61)、を備える。
この構成によって、本実施形態の音源分離装置1は、画像信号または音響信号のうち、少なくとも一方の音源の方向の推定結果に基づいて分離された音響信号に対して音声認識を行いテキスト化することができる。この結果、本構成によれば、画像信号または音響信号のいずれか一方の信頼性が低い場合であっても、議事録におけるテキスト認識率の精度を向上させることができる。
なお、本実施形態では、画像信号の評価を画像信号評価部22が行い、音響信号の評価を音響信号評価部42が行う例を説明したが、信頼性判定部50が評価するようにしてもよい。この場合、撮像部10または画像信号処理部20は、撮像された画像を信頼性判定部50に出力する。また、収音部30または音響信号処理部は、収録された音響信号を信頼性判定部50に出力する。
また、本実施形態では、図4に示したように、話者が1人の場合を例に説明したが、これに限られない。同時に発話する話者は複数であってもよい。例えば、図4において、話者Sp2と話者Sp4が同時に発話している場合、音源分離装置1は、話者Sp2と話者Sp4の顔を含む領域の画像の解像度を変更しないようにする。
また、本実施形態では、話者Spの顔を含む領域の画像について、解像度を変更しない例を説明したが、これに限られない。撮像された画像の解像度が十分に高い(例えば600[bpi]場合、話者を識別でき、発話していることがわかる程度の解像度に変更するようにしてもよい。
また、本実施形態では、撮像部10が1台の例を説明したが、撮像部10は複数のカメラを有していてもよい。例えば、左右のテーブルに、おのおの参加者が着席している場合、左右のテーブル毎にカメラを設置してもよい。この場合、画像信号処理部20の各部は、複数の画像信号について、上述した処理を行う。そして、画像処理部27は、このようにして生成された複数の画像(例えば左側のカメラによる画像と右側カメラによる画像)をそのまま議事録作成部60に出力してもよく、または複数の画像をカメラの配置に応じて合成するようにしてもよい。
また、会議の出席者が多数であり、撮像部10で全ての参加者の撮像が困難な場合、例えば、少なくとも全体画像は話者を含む画像であればよい。この場合、音源分離装置1は、話者を限定し、限定した話者の方向に撮像部10を向けて撮像するようにしてもよい。すなわち、音源方向推定結果または人位置推定結果に基づいて、音源分離装置1が撮像部10の撮像方向を制御するようにしてもよい。
さらに、参加者が多数の場合、音源分離装置1は、音源方向推定結果または人位置推定結果に基づいて、撮像部10の画角を話者及びその周辺の人を含む画角に制御するようにしてもよい。
<第2実施形態>
図20は、本実施形態に係る音源分離装置1Aの構成を示すブロック図である。図20に示すように、音源分離装置1Aは、撮像部10、画像信号処理部20、収音部30、音響信号処理部40、信頼性判定部50(選択部)、議事録作成部60、及び送信部70を含んで構成される。音源分離装置1Aは、ネットワーク90を介して受信部80と接続される。ネットワーク90は、有線または無線であってもよい。また、受信部には、議事録作成部60が接続される。第1実施形態の音源分離装置1(図1)と同じ機能を有する機能部には、同じ符号を用いて説明を省略する。
送信部70には、画像信号処理部20から図4に示したような画像処理後の画像情報が入力される。また、送信部70には、音響信号処理部40から検出された発話区間情報と、発話区間中の音響信号に対応する音響特徴量のMSLS情報とが入力される。送信部70は、入力された情報を、ネットワーク90を介して受信部80に送信する。
受信部80は、送信部70からの情報を、ネットワーク90を介して受信し、受信した情報を議事録作成部60に出力する。
音源分離装置1Aから議事録作成部60へ各種の情報を送信する場合、仮に撮像部10で撮像された画像をそのまま送信すると、送信データが大きくなる。これにより、ネットワーク90に負荷が増大し、また作成された議事録と記録される画像情報の容量も大きくなるため、議事録のファイル容量が増大する。ここで、話者の顔を含む領域のみの画像情報を音源分離装置1Aから議事録作成部60へ送信した場合、ファイル容量は小さくなるが、話者以外の参加者が画像に写っていないため、会議の様子がわかりにくくなる。また、議事録の閲覧者は、話者が誰に話しかけているのかも画像から判断できなくなる。
一方、本実施形態のように、話者の顔を含む領域の画像の解像度を変更せず、話者以外の人と他の領域の画像の解像度を低くした画像を合成し、この合成した画像を発話データと関連づけて議事録作成部60に送信することで、ファイル容量を軽減でき、かつ会議の様子も把握可能な画像を提供することができる。
以上のように、本実施形態の音源分離装置(例えば音源分離装置1A)において、発話区間ごとに、画像信号から抽出された話者の顔を含む領域の画像と、抽出された音響信号とが関連付けられた情報を送信する送信部(例えば送信部70)、を備える。
この構成により、本実施形態の音源分離装置1Aでは、発話区間毎に、画像信号または音響信号のうち、少なくとも一方の音源の方向の推定結果に基づいて分離された音響信号と抽出された話者の顔を含む画像とを関連付けて、他の装置へ送信することができる。この結果、本構成の音源分離装置をテレビ会議等に用いる場合、画像信号または音響信号のいずれか一方の信頼性が低い場合であっても、分離された音響信号と抽出された話者の顔を含む画像とを関連付けて、他の装置へ送信することができる。
第2実施形態に示した音源分離装置1Aを、会議室毎に設置することで、ネットワークを介したテレビ会議を行うことができる。この場合、上述したように、送信される画像データの容量を小さくすることができる。
なお、本実施形態において、音源分離装置1Aは、受信部80及び議事録作成部60を含んで構成されていてもよい。
なお、第1実施形態及び第2実施形態では、話者以外の人と他の領域の画像の解像度を低くする例を説明したが、これに限られない。画像は、例えば、話者Spの画像のみカラー画像とし、話者以外の人と他の領域の画像をグレースケールまたは白黒の2値化した画像であってもよい。また、話者以外の人と他の領域の画像がぼやけるような画像フィルタ(例えばガウシアンフィルタ等)を用いた画像処理を行うようにしてもよい。この場合であっても、議事録の閲覧者は、会議中の様子と話者を画像から把握することができる。
なお、第1実施形態及び第2実施形態では、音源分離装置(1または1A)が会議室に取り付けられている例を説明したが、これに限られない。例えば、撮像部10と収音部30とが会議室に設置され、画像信号処理部20、音響信号処理部40、信頼性判定部50、及び議事録作成部60は、会議室とは別の場所に設置されていてもよい。
また、音源分離装置(1または1A)は、例えば議事録作成装置、人型のロボット、携帯端末(スマートフォン、タブレット、携帯ゲーム機等)、PC(パーソナルコンピュータ)等が備えていてもよい。
なお、第1実施形態及び第2実施形態では、議事録情報として、発話中の画像を関連付ける例を説明したが、これに限られない。議事録情報には、例えば、話者の顔の領域を含む画像のみを関連付けるようにしてもよい。
また、第1実施形態及び第2実施形態で説明した音源分離装置(1または1A)の構成は一例であり、音源分離装置(1または1A)は、これらの全ての機能部のうち、用途に応じて必要な機能部のみ備えるようにしてもよく、他の機能部を備えるようにしてもよい。
なお、本発明における音源分離装置(1または1A)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより画像信号に対する処理や音響信号に対する処理等を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A…音源分離装置、10…撮像部、20…画像信号処理部、21…画像信号取得部、22…画像信号評価部、23…画像信号の事前情報生成部、24…人位置推定部、25…唇検出部、26…発話区間検出部、27…画像処理部、30…収音部、40…音響信号処理部、41…音響信号取得部、42…音響信号評価部、43…音響信号の事前情報生成部、44…音源方向推定部、45…音源分離部、46…雑音抑圧部、47…音響特徴量抽出部、48…発話区間検出部、49…音響処理部、50…信頼性判定部、60…議事録作成部、61…発話認識部、62…関連付部、63…記憶部、70…送信部、80…受信部、90…ネットワーク

Claims (10)

  1. 音響信号を収録する収音部と、
    画像を撮像する撮像部と、
    前記収録された音響信号を評価する音響信号評価部と、
    前記撮像された画像信号を評価する画像信号評価部と、
    前記音響信号評価部と前記画像信号評価部とによって評価された結果に基づいて、音源方向推定部によって前記収録された音響信号に基づいて音源方向の推定を行うか、人位置推定部によって前記撮像された画像に対する音源方向の推定を行うか、を判定する判定部と、
    前記判定部が判定した結果に基づいて、前記収録された音響信号に基づいて推定された音源方向を示す情報を用いて、前記画像から音源の方向を示す情報を推定する人位置推定部と、
    前記判定部が判定した結果に基づいて、前記撮像された画像に基づいて推定された音源方向を示す情報を用いて、前記音響信号に対して音源の方向を推定する音源方向推定部と、
    前記人位置推定部によって推定された前記音源の方向を示す情報、または、前記音源方向推定部によって推定された前記音源の方向を示す情報に基づいて、前記音源の方向に対応する音響信号を前記音響信号から抽出する音源分離部と、
    を備える音源分離装置。
  2. 前記推定された音源方向に対応する領域の画像を、前記撮像された画像から抽出する画像抽出部と、
    前記抽出された画像以外の領域の画像を変更し、前記変更した画像と前記抽出した画像とを合成する画像合成部と、
    を備える請求項1に記載の音源分離装置。
  3. 前記画像合成部は、
    前記抽出された画像以外の領域の画像の解像度を、前記抽出された画像の解像度より低くするように変更する請求項2に記載の音源分離装置。
  4. 前記画像信号評価部は、
    前記撮像された画像のヒストグラムを算出し、算出した前記ヒストグラムにおいて、ピクセル数が所定の値以上の輝度の輝度範囲を算出し、算出した前記輝度範囲が所定の範囲以上の場合に画像の信頼性が高いと評価し、算出した前記輝度範囲が所定の範囲未満の場合に画像の信頼性が低いと評価する請求項1から請求項3のいずれか1項に記載の音源分離装置。
  5. 前記画像信号評価部は、
    前記撮像された画像のヒストグラムを算出し、算出した前記ヒストグラムにおいて、ピクセルが所定値以上ある輝度の数をカウントし、前記画像の総ピクセル数を前記カウントした値で除算して判定値を算出し、算出した判定値に基づいて画像の信頼性を評価する請求項1から請求項3のいずれか1項に記載の音源分離装置。
  6. 前記音響信号評価部は、
    前記音響信号の雑音成分の大きさを、前記音響信号に対して雑音抑圧処理を行った結果に基づいて算出し、前記算出した雑音成分の大きさに基づいて前記音響信号の信頼性を評価する請求項1から請求項5のいずれか1項に記載の音源分離装置。
  7. 前記音響信号及び前記画像信号のうち、少なくとも一方の信号に基づいて、発話区間を検出する発話区間検出部と、
    発話区間ごとに、前記推定された音源方向に対応する音響信号を、前記収録された音響信号から抽出する音源分離部と、
    発話区間ごとに、前記画像信号から抽出された話者の顔を含む領域の画像と、抽出された音響信号とを関連付ける関連付け部と、
    を備え、
    前記音源分離部は、
    発話区間ごとに、前記推定された音源方向に対応する音響信号を、前記収録された音響信号から抽出する請求項1から請求項6のいずれか1項に記載の音源分離装置。
  8. 発話区間ごとに、前記画像信号から抽出された話者の顔を含む領域の画像と、抽出された音響信号とが関連付けられた情報を送信する送信部、を備える請求項7に記載の音源分離装置。
  9. 前記音源分離部は、
    前記音響信号を用いて音源の方向を推定し、または、前記人位置推定部によって推定された話者の方向を示す情報に基づいて音源の方向を推定し、前記音源の方向の推定結果を用いて、前記音響信号を音源毎に分離することで抽出し、
    前記音源分離部によって分離した音源毎の音響信号の特徴量を算出する特徴量算出部と、
    前記音響信号の特徴量に基づいて発話内容を認識してテキスト情報に変換する音声認識部、を備える請求項1から請求項8のいずれか1項に記載の音源分離装置。
  10. 収音部が、音響信号を収録する収音手順と、
    撮像部が、画像を撮像する撮像手順と、
    音響信号評価部が、前記収音手順によって収録された音響信号を評価する音響信号評価手順と、
    画像信号評価部が、前記撮像手順によって撮像された画像信号を評価する画像評価手順と、
    選択部が、前記音響信号評価手順と前記画像評価手順とによって評価された結果に基づいて、音源方向推定手順によって前記収録された音響信号に基づいて音源方向の推定を行うか、人位置推定手順によって前記撮像された画像に対する音源方向の推定を行うかを判定する判定手順と、
    人位置推定部が、前記判定手順が判定した結果に基づいて、前記収音手順によって収録された音響信号に基づいて推定された音源方向を示す情報を用いて、前記画像から音源の方向を示す情報を推定する人位置推定手順と、
    音源方向推定部は、前記判定手順が判定した結果に基づいて、前記撮像手順によって撮像された画像に基づいて推定された音源方向を示す情報を用いて、前記音響信号に対して音源の方向を推定する音源方向推定手順と、
    音源分離部が、前記人位置推定手順によって推定された前記音源の方向を示す情報、または、前記音源方向推定手順によって推定された前記音源の方向を示す情報に基づいて、前記音源の方向に対応する音響信号を前記音響信号から抽出する音源分離手順と、
    を含む音源分離方法。
JP2014176518A 2014-08-29 2014-08-29 音源分離装置、及び音源分離方法 Active JP6464449B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014176518A JP6464449B2 (ja) 2014-08-29 2014-08-29 音源分離装置、及び音源分離方法
US14/833,615 US9595259B2 (en) 2014-08-29 2015-08-24 Sound source-separating device and sound source-separating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014176518A JP6464449B2 (ja) 2014-08-29 2014-08-29 音源分離装置、及び音源分離方法

Publications (2)

Publication Number Publication Date
JP2016051081A JP2016051081A (ja) 2016-04-11
JP6464449B2 true JP6464449B2 (ja) 2019-02-06

Family

ID=55403205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014176518A Active JP6464449B2 (ja) 2014-08-29 2014-08-29 音源分離装置、及び音源分離方法

Country Status (2)

Country Link
US (1) US9595259B2 (ja)
JP (1) JP6464449B2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3175456B1 (en) * 2014-07-31 2020-06-17 Koninklijke KPN N.V. Noise suppression system and method
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理
CN109313904B (zh) 2016-05-30 2023-12-08 索尼公司 视频音频处理设备和方法以及存储介质
KR20180017944A (ko) 2016-08-11 2018-02-21 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
CN106448722B (zh) * 2016-09-14 2019-01-18 讯飞智元信息科技有限公司 录音方法、装置和系统
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
WO2018175959A1 (en) * 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
JP7107305B2 (ja) * 2017-04-25 2022-07-27 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11605448B2 (en) 2017-08-10 2023-03-14 Nuance Communications, Inc. Automated clinical documentation system and method
JP7233035B2 (ja) 2017-08-30 2023-03-06 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
JP6853163B2 (ja) * 2017-11-27 2021-03-31 日本電信電話株式会社 話者方向推定装置、話者方向推定方法、およびプログラム
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11222716B2 (en) 2018-03-05 2022-01-11 Nuance Communications System and method for review of automated clinical documentation from recorded audio
US11515020B2 (en) 2018-03-05 2022-11-29 Nuance Communications, Inc. Automated clinical documentation system and method
US11626102B2 (en) * 2018-03-09 2023-04-11 Nec Corporation Signal source identification device, signal source identification method, and program
CN111903136B (zh) * 2018-03-29 2024-07-16 索尼公司 信息处理装置、信息处理方法和计算机可读存储介质
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
DE102018212902B4 (de) * 2018-08-02 2024-12-19 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
US10861457B2 (en) * 2018-10-26 2020-12-08 Ford Global Technologies, Llc Vehicle digital assistant authentication
MX2021006494A (es) * 2018-12-05 2021-07-06 Ericsson Telefon Ab L M Apuntamiento a objetos.
JP7221518B2 (ja) * 2018-12-21 2023-02-14 独立行政法人自動車技術総合機構 車両音評価システム、及び車両音評価装置
WO2020172828A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种声源分离方法、装置及设备
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置
KR20210090781A (ko) * 2020-01-10 2021-07-21 삼성전자주식회사 사운드 처리 방법 및 이 방법을 실행하는 디바이스
JP2021124526A (ja) * 2020-01-31 2021-08-30 株式会社リコー 記録装置、記録システム、ファイル生成方法およびプログラム
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
US11790900B2 (en) * 2020-04-06 2023-10-17 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection
JP7567344B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置
JP7567345B2 (ja) * 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
GB2601114A (en) * 2020-11-11 2022-05-25 Sony Interactive Entertainment Inc Audio processing system and method
EP4260013A2 (en) * 2020-12-09 2023-10-18 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
US12175970B2 (en) * 2020-12-24 2024-12-24 Cerence Operating Company Speech dialog system for multiple passengers in a car
CN113571082B (zh) * 2021-01-21 2024-06-14 腾讯科技(深圳)有限公司 语音通话的控制方法、装置、计算机可读介质及电子设备
JP2022119582A (ja) * 2021-02-04 2022-08-17 株式会社日立エルジーデータストレージ 音声取得装置および音声取得方法
JP7791984B2 (ja) * 2021-08-12 2025-12-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 変調領域アテンションに基づく残響および雑音にロバストなボイスアクティビティ検出
JP7349072B2 (ja) * 2022-02-10 2023-09-22 フジテック株式会社 エレベータ用の音声認識システム
TWI857325B (zh) * 2022-07-26 2024-10-01 瑞昱半導體股份有限公司 用來藉助於手勢偵測進行局部強調之視訊處理方法以及系統晶片

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4722347B2 (ja) * 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
JP4669150B2 (ja) * 2001-04-09 2011-04-13 キヤノン株式会社 主被写体推定装置及び主被写体推定方法
KR100586893B1 (ko) * 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
JP2007274462A (ja) 2006-03-31 2007-10-18 Yamaha Corp テレビ会議装置、テレビ会議システム
JP4879717B2 (ja) * 2006-12-05 2012-02-22 富士フイルム株式会社 監視システム、監視方法、及びプログラム
US20100098258A1 (en) * 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
JP2010154259A (ja) * 2008-12-25 2010-07-08 Victor Co Of Japan Ltd 画像音声処理装置
JP5031016B2 (ja) * 2009-12-07 2012-09-19 株式会社リコー 画像処理装置、画像処理方法およびプログラム
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
JP5772151B2 (ja) * 2011-03-31 2015-09-02 沖電気工業株式会社 音源分離装置、プログラム及び方法
JP5685177B2 (ja) * 2011-12-12 2015-03-18 本田技研工業株式会社 情報伝達システム
JP2014145838A (ja) 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法

Also Published As

Publication number Publication date
JP2016051081A (ja) 2016-04-11
US9595259B2 (en) 2017-03-14
US20160064000A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US20240365081A1 (en) System and method for assisting selective hearing
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
JP5564873B2 (ja) 収音処理装置、収音処理方法、及びプログラム
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
CN111034222A (zh) 拾音装置、拾音方法以及程序
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US20230410830A1 (en) Audio purification method, computer system and computer-readable medium
WO2021206679A1 (en) Audio-visual multi-speacer speech separation
CN116866783B (zh) 一种智慧教室音频控制系统、方法及存储介质
US11683634B1 (en) Joint suppression of interferences in audio signal
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP7515121B2 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
CN121281514A (zh) 一种基于多模态增强的蓝牙通信智能语音翻译方法及系统
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
CN119323959A (zh) 一种唇部特征融合语音识别方法及装置
Anderson et al. Robust tri-modal automatic speech recognition for consumer applications
CN113362849B (zh) 一种语音数据处理方法以及装置
Inoue et al. Speaker diarization using eye-gaze information in multi-party conversations.
CN110730378A (zh) 一种信息处理方法及系统
CN112788278B (zh) 视频流的生成方法、装置、设备及存储介质
Takiguchi et al. Audio-based video editing with two-channel microphone
GB2641109A (en) Real-time machine learning assisted hearing aid
CN120877754A (zh) 基于深度学习的人类口型与语音匹配识别方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180712

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181218

R150 Certificate of patent or registration of utility model

Ref document number: 6464449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150