JP7010136B2 - 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 - Google Patents

発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 Download PDF

Info

Publication number
JP7010136B2
JP7010136B2 JP2018091943A JP2018091943A JP7010136B2 JP 7010136 B2 JP7010136 B2 JP 7010136B2 JP 2018091943 A JP2018091943 A JP 2018091943A JP 2018091943 A JP2018091943 A JP 2018091943A JP 7010136 B2 JP7010136 B2 JP 7010136B2
Authority
JP
Japan
Prior art keywords
phase difference
vocalization
frequency
degree
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018091943A
Other languages
English (en)
Other versions
JP2019197179A (ja
Inventor
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018091943A priority Critical patent/JP7010136B2/ja
Priority to US16/367,417 priority patent/US10531189B2/en
Publication of JP2019197179A publication Critical patent/JP2019197179A/ja
Application granted granted Critical
Publication of JP7010136B2 publication Critical patent/JP7010136B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/801Details
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/005Circuits for transducers for combining the signals of two or more microphones

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、発声方向判定プログラム、発声方向判定方法及び発声方向判定装置に関する。
スマートスピーカ等の音声操作装置の普及によって、発声する前に、特別な操作を行うことなく、例えば、ボタンなどを押下することなく、アプリの起動、及び情報検索等を音声で行う機会が増加している。スマートスピーカ等に対しては、音声入力の開始を示すためにボタンなどを押下することなく、発声を行うことが一般的であるため、意図しない発声によって、音声操作装置がユーザの意図しない動作を行う場合がある。
音声操作装置がユーザの意図しない動作を行わないように、例えば、ユーザがマイクロフォン(以下、マイクという。)に向かって発声しているか否か判定する技術が存在する。当該技術では、例えば、ユーザを撮影した画像データが使用されるが、この場合、画像データを撮影するためにカメラを設置する必要があるため、コストが増大し、システムが複雑化する。また、画像データの撮影には抵抗を感じるユーザも多い。
特開平10-243494号公報 特開2016-181789号公報 特許5387459号公報
画像データを使用せず、音声データに基づいて、ユーザがマイクに向かって発声しているか否かを判断する技術が存在する。当該技術では、一対のマイクの出力の周波数スペクトルを分析し、10~20[kHz]帯の音声信号のパワー比に基づいて、ユーザがマイクに向かって発声しているか否か判定する。
当該技術では、ユーザが2つのマイクの中間位置に存在することを前提としている。したがって、ユーザが移動すると、ユーザの向きを適切に判定することができない。音声の遅延量に基づいてユーザの位置を推定することはできるが、ユーザの移動に伴う補正係数の算出は、ある程度の範囲の位置及び角度を網羅しなければならず、負荷が大きい。
本発明は、1つの側面として、ユーザとマイクとの位置関係が変化する場合でも、マイクで取得される音声信号に基づいて、ユーザがマイクに向かって発声しているか否かを判定することを可能とすることを目的とする。
1つの実施形態では、1フレーム毎に、第1周波数信号と第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、所定周波数毎の位相差が発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行する。第1周波数信号は、第1音声入力部に入力された第1音声信号に対応し、第2周波数信号は、第2音声入力部に入力された第2音声信号に対応する。複数フレーム分の第1位相差外れ度合から複数フレームの統計値である第2位相差外れ度合を算出し、第2位相差外れ度合が第1閾値以下である場合、ユーザが第1音声入力部及び第2音声入力部に向かって発声していると判定する。
本発明は、1つの側面として、ユーザとマイクとの位置関係が変化する場合でも、マイクで取得される音声信号に基づいて、ユーザがマイクに向かって発声しているか否かを判定することを可能とする。
第1~第4実施形態に係る発声方向判定装置の要部機能の一例を示すブロック図である。 発声方向領域の決定を説明するための位相差と周波数との関係を例示する概念図である。 発声方向領域の決定を説明するための位相差と周波数との関係を例示する概念図である。 発声方向領域の決定を説明するための位相差と周波数との関係を例示する概念図である。 位相差外れ度合の算出を説明するための位相差と周波数との関係を例示する概念図である。 位相差外れ度合及び位相差外れ度合時間平均値と時間との関係を例示する概念図である。 マイクに対するユーザの顔の向きを例示する概念図である。 マイクに対するユーザの顔の向きを例示する概念図である。 マイクに対するユーザの顔の向きを例示する概念図である。 位相差と周波数との関係を例示する概念図である。 位相差と周波数との関係を例示する概念図である。 位相差と周波数との関係を例示する概念図である。 位相差外れ度合時間平均値と閾値との関係を例示する概念図である。 第1~第4実施形態に係る発声方向判定装置のハードウェアの構成の一例を示すブロック図である。 発声方向判定装置を含む環境を示す概念図である。 第1実施形態に係る発声方向判定処理の流れの一例を示すフローチャートである。 第1及び第2実施形態に係る位相差外れ度合算出処理の流れの一例を示すフローチャートである。 マイクに対するユーザの位置及び顔の向きを例示する概念図である。 マイクに対するユーザの位置及び顔の向きを例示する概念図である。 閾値の設定を説明するための位相差と周波数との関係を例示する概念図である。 閾値の設定を説明するための位相差と周波数との関係を例示する概念図である。 位相差外れ度合時間平均値と閾値との関係を例示する概念図である。 閾値と発声方向との関係を例示する概念図である。 閾値の設定を説明するための位相差と周波数との関係を例示する概念図である。 閾値の設定を説明するための位相差と周波数との関係を例示する概念図である。 閾値の設定を説明するための位相差外れ度合時間平均値と時間との関係を例示する概念図である。 閾値の設定を説明するための位相差外れ度合時間平均値と時間との関係を例示する概念図である。 第2実施形態に係る発声方向判定処理の流れの一例を示すフローチャートである。 第3実施形態に係る位相差外れ度合算出処理の流れの一例を示すフローチャートである。 第4実施形態に係る位相差外れ度合算出処理の流れの一例を示すフローチャートである。 本実施形態の検証結果を例示する表である。 本実施形態の検証を説明するための概念図である。 本実施形態の検証を説明するための概念図である。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に示す発声方向判定装置10は、音声入力部21A及び21B、時間周波数変換部22、発声方向領域決定部24、位相差外れ算出部25、位相差外れ時間平均値算出部26、及び発声方向判定部27を含む。音声入力部21A及び21Bは、音声を検出し、検出した音声を音声信号に変換する。以下、音声入力部が2個である場合について説明するが、本実施形態はこれに限定されず、音声入力部が3個以上含まれていてもよい。
時間周波数変換部22は、音声信号に対して時間周波数変換を行う。時間周波数変換部22は、例えば、FFT(Fast Fourier Transformation)を使用して、時間に応じて振幅が変化する音声信号INTA及びINTBを周波数に応じて振幅が変化する周波数信号INFA及びINFBに変換する。発声方向領域決定部24は、ユーザが発声している方向であると推定される方向を含む領域である発声方向領域を決定する。
発声方向領域決定部24は、まず、発声方向を推定する。図2は、周波数信号INFA及びINFBの周波数ビン毎の位相差と周波数との関係を例示する。図2の縦軸は、位相差[rad]を表わし、横軸は周波数ビン番号を表す。周波数ビン番号の最大値はFFTサイズ/2である。FFTサイズは、時間周波数変換にFFTが使用されている場合の1フレームあたりのポイント数である。
発声方向は、例えば、図2に例示するように、周波数ビン番号0及び位相差0[rad]の点(0,0)から周波数ビン番号FFTサイズ/2及び位相差p[rad]の点(FFTサイズ/2,p)までの直線で表される。位相差p[rad]は、周波数ビン番号FFTサイズ/2における発声方向位相差の値である。
発声方向位相差p[rad]は、例えば、周波数ビン毎に、位相差×サンプリング周波数/(2×周波数ビン)を算出して加算し、FFTサイズ/2で除算することで算出される。図2の例では、サンプリング周波数=22,050[Hz]であり、発声方向位相差p=1.86[rad]である。
発声方向領域決定部24は、図3Aに例示するように、直線71A及び71Bで囲まれた領域を発声方向領域として決定する。直線71Aは、周波数ビン番号0及び位相差0[rad]の点(0,0)から周波数ビン番号FFTサイズ/2及び位相差p+αの点(FFTサイズ/2,p+α)までの直線である。直線71Bは、周波数ビン番号0及び位相差0[rad]の点(0,0)から周波数ビン番号FFTサイズ/2及び位相差p-αの点(FFTサイズ/2,p-α)までの直線である。αは、例えば、1.0[rad]であってよい。
図3Aは、発声方向位相差pが0[rad]である例であり、図3Bは、発声方向位相差pが1.86[rad]である例である。なお、例えば、予め分割された位相差の領域を複数用意し、位相差を用いて各領域に音源が存在する率を算出し、領域を選別することで、発声方向及び発声方向領域を同時に決定するようにしてもよい。
位相差外れ算出部25は、第1位相差外れ算出部の一例であり、フレーム毎の位相差外れ度合を算出する。位相差外れ度合は第1位相差外れ度合の一例である。1フレームの長さは、例えば、約10[ms]であってよい。フレーム毎の位相差外れ度合Dfnは、例えば、以下の(1)式で算出される。なお、以下で、フレーム番号を限定しない場合、位相差外れ度合をDで表す。

Figure 0007010136000001
FRは、最大周波数ビン番号であり、時間周波数変換がFFTで行われる場合、FFTサイズ/2である。個別位相差外れ度合Δdfrは、図4Aに例示するように、周波数ビン番号frで、周波数信号INFA及びINFBの位相差が発声方向領域81Rから外れている度合、即ち、発声方向領域81Rの端部と位相差との縦軸方向の距離である。なお、図4Aはp=0、α=1の例であり、発声方向領域81Rは点(0,0)、点(FFTサイズ/2,1)、点(FFTサイズ/2,-1)で囲まれた領域である。
なお、以下で、周波数ビン番号を限定しない場合、個別位相差外れ度合をΔdで表す。周波数信号INFA及びINFBの位相差が発声方向領域81R内に存在する場合、Δdを0とする。
位相差外れ算出部25は、個別位相差外れ度合Δdfrを周波数ビンfr毎に算出し、1フレーム内の個別位相差外れ度合Δdの平均値である位相差外れ度合Dfnをフレーム毎に算出する。fnはフレーム番号を表す。なお、位相差外れ度合Dfnは、単に、1フレーム内の個別位相差外れ度合Δdを合計した値でもよい。
位相差外れ時間平均値算出部26は、第2位相差外れ算出部の一例であり、位相差外れ度合Dの所定数フレーム毎の平均値である位相差外れ度合時間平均値ADfnを算出する。位相差外れ度合時間平均値ADfnは、第2位相差外れ度合の一例であり、以下の(2)式で算出される。fcは、所定数フレームの個数であり、例えば、10であってよい。ADfnは、フレーム番号fnから過去fcフレーム分の位相差外れ度合Dの平均値である。なお、以下で、フレーム番号を限定しない場合、位相差外れ度合時間平均値をADで表す。
Figure 0007010136000002
図4Bは、位相差外れ度合Dと時間との関係及び位相差外れ度合時間平均値ADと時間との関係を例示する。図4Bの縦軸は、位相差外れ度合Dまたは位相差外れ度合時間平均値ADを表し、横軸は時間、即ち、フレーム番号fnを表す。図4Bにおいて、位相差外れ度合Dは棒82Dで表され、位相差外れ度合時間平均値ADは線82ADで表される。
発声方向判定部27は、ユーザが音声入力部21A及び21Bに向かって発声しているか否か、を判定する。即ち、発声方向判定部27は、発声しているユーザの顔、詳細には、ユーザの口がマイクロフォン(以下、マイクという。)55A及び55Bに向けられているか、発声しているユーザの顔がマイク55A及び55Bに向けられていないか、を判定する。マイク55A及び55Bは、音声入力部21A及び21Bの一例である。以下、マイク55A及び55Bを区別しない場合、マイク55という。図5Aは、ユーザの顔がマイク55に向けられている例であり、図5B及び図5Cは、ユーザの顔がマイク55に向けられていない例である。
図5Aに例示するように、マイク55A及びマイク55Bは、発声方向判定装置10に所定の間隔を空けて配置される。ユーザの顔がマイク55に向かっている、とは、詳細には、ユーザの顔がマイク55A及び55Bの中間位置を中心とする所定範囲の領域に向けられている、ことを示す。
発声方向判定部27は、位相差外れ度合時間平均値ADが所定閾値以下である場合、ユーザがマイク55に向かって発声していると判定する。所定閾値は、第1閾値の一例であり、例えば、0.6[rad]であってよいが、本実施形態はこれに限定されない。
図6Aは、図5Aに例示するように、ユーザがマイク55に向かって発声している場合の周波数信号INFA及びINFBの周波数ビン毎の位相差と周波数との関係を例示する。但し、図6Aでは、特徴を顕著に表すために、複数フレームの周波数信号INFA及びINFBの位相差を重畳している。また、図6A、図6B、及び図6Cの発声方向領域83は、図4Aの発声方向領域81Rと同様の例である。
図6Bは、図5Bに例示するように、ユーザがマイク55に向かわず、マイク55の左側に向かって発声している場合の位相差と周波数との関係を例示する。図6Cは、図5Cに例示するように、ユーザがマイク55に向かわず、ユーザの右手方向に向かって発声している場合の周波数信号INFA及びINFBの周波数ビン毎の位相差と周波数との関係を例示する。
図6Aと比較して、図6B及び図6Cでは、発声方向領域83から外れている、周波数信号INFA及びINFBの位相差が多い。即ち、図5B及び図5Cに例示するように、ユーザがマイク55に向かわずに発声している場合、図5Aに例示するように、ユーザがマイク55に向かって発声している場合よりも、位相差外れ度合時間平均値ADは大きい。
図7に、図6A、図6B及び図6Cに各々対応する位相差外れ度合時間平均値84C、84L及び84R、を例示する。図7に例示されるように、図6Aに対応する位相差外れ度合時間平均値84Cと、図6B及び図6Cに対応する位相差外れ度合時間平均値84L及び84Rと、は全体的に大きさが異なる。即ち、位相差外れ度合時間平均値が所定閾値84T以下であるか否か判定することで、ユーザの顔の向きを判定することができる。
マイクに対するユーザの位置が変化しない場合、ユーザがマイクに向かって発声すると反射音が直接音より少なく、ユーザがマイクに向かわず発声すると反射音が直接音より多い。即ち、ユーザがマイクに向かわず発声すると、マイクに検出される反射音が多くなるため、比較的大きい個別位相差外れ度合が多く出現し、位相差外れ度合時間平均値が大きくなる。したがって、位相差外れ度合時間平均値が所定閾値以下である場合、ユーザがマイクに向かって発声していると判定することができる。
発声方向判定装置10は、一例として、図8Aに示すように、CPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54を含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54は、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、発声方向判定プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、音声信号及び発声方向判定プログラムを実行している間に生成される中間データなどを記憶する。
CPU51は、プログラム格納領域53Aから発声方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、発声方向判定プログラムを実行することで、図1の時間周波数変換部22、発声方向領域決定部24、位相差外れ算出部25、位相差外れ時間平均値算出部26、及び発声方向判定部27として動作する。
なお、発声方向判定プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部52に展開されてもよい。また、発声方向判定プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部52に展開されてもよい。
外部インターフェイス54には外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。外部インターフェイス54には、マイク55A及び55B、及びスピーカ56が接続されている。マイク55A及び55B、及びスピーカ56は、外部装置であることに限定されず、発声方向判定装置10に内蔵されていてもよい。
マイク55A及び55Bは、音声入力部21A及び21Bの一例であり、ユーザが発話した音声を検出し、音声信号に変換する。スピーカ56は、例えば、発声方向判定装置10が出力する発声方向判定結果を音声で報知する。
発声方向判定装置10は、例えば、スマートスピーカなどの音声操作装置に内蔵されていてもよいし、図8Bに例示するように、音声操作装置61に近接して配置されていてもよい。図8Bは、音声操作装置61の上面に発声方向判定装置10を配置した例であるが、例えば、音声操作装置61の前面に発声方向判定装置10を配置してもよい。音声操作装置61に近接して配置されている場合、発声方向判定装置10と音声操作装置61とは有線または無線で接続される。
次に、発声方向判定処理の作用の概要について説明する。図9は、発声方向判定処理の流れを例示する。CPU51は、ステップ101で、マイク55A及びマイク55Bで検出された音声に対応する音声信号INTA及びINTBを各々1フレーム分読み込む。
CPU51は、ステップ102で、読み込まれた音声信号INTA及びINTBを、周波数信号INFA及びINFBに各々時間周波数変換する。ここでは、時間周波数変換が、FFTで行われる例について説明する。CPU51は、ステップ103で、周波数信号INFA及びINFBの位相差を算出する。
CPU51は、ステップ104で、発声方向領域を決定する。CPU51は、ステップ105で、後述するように、位相差外れ度合平均値を算出する。CPU51は、ステップ106で、ステップ101で読み込んだフレームの数が所定フレーム数Mを超えたか否か判定する。ステップ106の判定が否定された場合、即ち、ステップ101で読み込んだフレームの数が所定フレーム数Mを超えていない場合、CPU51は、ステップ101に戻る。
ステップ106の判定が肯定された場合、即ち、ステップ101で読み込んだフレームの数が所定フレーム数Mを超えている場合、CPU51は、ステップ107で、位相差外れ度合時間平均値を算出する。CPU51は、ステップ108で、位相差外れ度合時間平均値が所定閾値以下であるか否か判定する。
ステップ108の判定が肯定された場合、即ち、位相差外れ度合時間平均値が所定閾値以下である場合、CPU51は、ステップ109で、ユーザの顔がマイクに向けられていると判定し、例えば、発声方向判定フラグに「1」をセットする。ステップ108の判定が否定された場合、即ち、位相差外れ度合時間平均値が所定閾値を超えている場合、CPU51は、ステップ110で、ユーザの顔がマイクに向けられていないと判定し、例えば、発声方向判定フラグに「0」をセットする。発声方向判定フラグは、図8Aの二次記憶部53のデータ格納領域53Bに含まれていてもよい
CPU51は、ステップ111で、例えば、所定のボタンが押下されるなど、ユーザによって発声方向判定処理の終了指示が行われたか否か判定する。ステップ111の判定が否定された場合、CPU51はステップ101に戻る。
ステップ111の判定が肯定された場合、CPU51は、発声方向判定フラグの値に基づいて、判定結果を示す信号を出力して発声方向判定処理を終了する。判定結果を示す信号は、例えば、スマートスピーカなどの音声操作装置61に入力される。音声操作装置61は、例えば、判定結果が、ユーザの顔がマイクに向けられていることを示す場合、ユーザの発声にしたがって作動し、判定結果が、ユーザの顔がマイクに向けられていないことを示す場合、ユーザの発声を無視する。
即ち、ユーザがマイクに顔を向けて発声していると判定された場合に音声を受け付け、ユーザがマイクに顔を向けていないと判定された場合に音声を受け付けないことが可能となるため、ユーザが意図しない誤認識、誤動作を低減することが可能となる。
判定結果を示す信号は、例えば、テレビ会議システムに入力されてもよい。テレビ会議システムは、例えば、判定結果が、ユーザの顔がマイクに向けられていることを示す場合、ユーザの発言を他の出席者に送信し、判定結果が、ユーザの顔がマイクに向けられていないことを示す場合、ユーザの発声を無視する。
判定結果を示す信号は、例えば、音声認識装置に入力されてもよい。音声認識装置は、例えば、判定結果が、ユーザの顔がマイクに向けられていることを示す場合、ユーザの発声の音声認識を行い、判定結果が、ユーザの顔がマイクに向けられていないことを示す場合、ユーザの発声を無視する。
判定結果を示す信号は、例えば、安全確認システムに入力されてもよい。安全確認システムは、例えば、判定結果が、ユーザの顔がマイクに向けられていることを示す場合、ユーザが安全であると判定する。安全確認システムは、例えば、判定結果が、所定時間の間、ユーザの顔がマイクに向けられていないことを示す場合、ユーザに対して、マイクに向かって発声するように、スピーカ56、または、文字または画像を出力する画像出力装置を介して報知してもよい。
図10は、図9のステップ105の位相差外れ度合算出処理の流れを例示する。CPU51は、ステップ201で、個別位相差外れ度合合計値を記憶するΔd合計及び周波数ビン数をカウントする変数iに0をセットする。CPU51は、ステップ202で、周波数信号INFA及びINFBの位相差が発声方向領域から外れている度合である個別位相差外れ度合Δdを周波数ビン番号i毎に算出する。周波数信号INFA及びINFBの位相差が発声方向領域内に存在する場合、Δd=0とする。
CPU51は、ステップ203で、Δd合計の値にΔdの値を加算し、変数iの値に1を加算する。CPU51は、ステップ204で、変数iの値が最大周波数ビン番号、即ち、FFTサイズ/2未満であるか否か判定する。ステップ204の判定が肯定された場合、即ち、変数iの値がFFTサイズ/2未満である場合、CPU51は、ステップ202に戻る。ステップ204の判定が否定された場合、即ち、変数iの値がFFTサイズ/2以上である場合、CPU51は、ステップ205で、Δd合計の値を変数iの値で除算し、位相差外れ度合平均値を算出する。
なお、ステップ108では、Mフレーム分の位相差外れ度合から算出される位相差外れ度合時間平均値に基づいて、ユーザがマイクに向かって発声しているか否か判定している。しかしながら、ステップ108の判定を複数回繰り返し、位相差外れ度合時間平均値が所定閾値以下であると判定された回数が所定数を超える場合に、ユーザがマイクに向かって発声していると判定してもよい。また、ステップ108の判定を複数回繰り返し、位相差外れ度合時間平均値が所定閾値以下であると判定された回数が所定の割合を超える場合に、ユーザがマイクに向かって発声していると判定してもよい。また、Mフレーム分の位相差外れ度合から算出される位相差外れ度合時間平均値に代えて、例えば、Mフレーム分の位相差外れ度合から算出される個別位相差外れ度合中央値などの個別位相差外れ度合の統計値を使用してもよい。
本実施形態では、1フレーム毎に、第1周波数信号と第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、所定周波数毎の位相差が発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行する。第1周波数信号は、第1音声入力部に入力された第1音声信号に対応し、第2周波数信号は、第2音声入力部に入力された第2音声信号に対応する。複数フレーム分の第1位相差外れ度合から複数フレームの統計値である第2位相差外れ度合を算出し、第2位相差外れ度合が第1閾値以下である場合、ユーザが第1音声入力部及び第2音声入力部に向かって発声していると判定する。
これにより、ユーザとマイクとの位置関係が変化した場合でも、マイクで検出される音声信号に基づいて、ユーザがマイクに向かって発声しているか否かを判定することができる。
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。第2実施形態では、推定される発声方向に基づいて、閾値を設定する点で、第1実施形態と異なる。
図11Aに例示するように、ユーザがマイク55の正面からユーザの右手方向にずれて位置し、マイク55に顔を向けて発声する場合の位相差と周波数との関係を、図12Aに例示する。図11Bに例示するように、ユーザがマイク55の正面からユーザの右手方向にずれて位置し、さらに、顔を右側に向けて、即ち、マイク55に向かわないで発声する場合の位相差と周波数との関係を、図12Bに例示する。
ユーザがマイク55の正面に位置する場合の図6A及び図6Cと比較して、図12A及び図12Bでは、発声方向領域から外れている周波数信号INFA及びINFBの位相差が多く、個別位相差外れ度合も大きい。
図13に、位相差外れ度合時間平均値と時間との関係を表すグラフを例示する。線85Rは、図11Bに例示するように、ユーザの顔がマイク55に向けられていない場合の位相差外れ度合時間平均値を表す。また、線85Cは、図11Aに例示するように、ユーザの顔がマイク55に向けられている場合の位相差外れ度合時間平均値を表す。
線85Rは、図7の線84Rよりも全体的に大きい値を表し、線85Cは、図7の線84Cよりも全体的に大きい値を表す。したがって、図7の閾値84Tより大きい閾値を使用することで、線85Rと線85Cとを適切に区別する、即ち、ユーザの顔の向きを判定する、ことが可能となる。
図14に、閾値とユーザの位置との関係を表すグラフを例示する。図14の縦軸は閾値[rad]を表し、横軸はユーザの位置である発声方向を表す。ユーザがマイク55の正面に位置する場合、発声方向は0で表される。発声方向は、ユーザがマイク55の正面からユーザの右手方向または左手方向に向かって遠ざかる程大きい値で表される。即ち、閾値は、ユーザの位置がマイクの正面から右手方向または左手方向に向かって遠ざかる程、大きい値に設定される。
例えば、閾値は(3)式で算出される。
閾値=調整値×p+基本閾値 …(3)
基本閾値は、図14において、ユーザがマイク55の正面に位置する場合、即ち、発声方向が0の場合の閾値であり、調整値は、図14の閾値を表す線の傾きである。
例えば、調整値が0.25、基本閾値が0.6[rad]であり、図15Aに例示するように、発声方向位相差p=0.0である場合、即ち、ユーザがマイク55の正面に位置する場合、閾値は0.6(=0.25×0.0+0.6)[rad]である。即ち、図16Aに例示するように、閾値86Tは0.6に設定され、線86R及び線86Lと、線86Cで例示するユーザが顔をマイクに向けている場合の位相差外れ度合時間平均値と、を区別する。線86Rは、ユーザが顔を右に向けている場合の位相差外れ度合時間平均値を例示し、線86Lは、ユーザが顔を左に向けている場合の位相差外れ度合時間平均値を例示する。
例えば、調整値が0.25、基本閾値が0.6[rad]であり、図15Bに例示するように、発声方向位相差p=1.6である場合、即ち、ユーザがマイク55の正面からユーザの右手方向にずれて位置する場合、閾値は1.0(=0.25×1.6+0.6)である。図16Bに例示するように、閾値64Tは、閾値1.0に設定され、線64Rで例示するユーザが顔を右に向けている場合の位相差外れ度合時間平均値と、線64Cで例示するユーザが顔をマイクに向けている場合の位相差外れ度合時間平均値と、を区別する。
図17は、第2実施形態の発声方向判定処理の流れを例示する。ステップ121~ステップ127は、図9のステップ101~107と同様であるため、説明を省略する。CPU51は、ステップ128で、例えば、(3)式を使用して、閾値を設定する。ステップ129は、ステップ128で設定した閾値を使用して、位相差外れ度合時間平均値が閾値を超えるか否か判定する。ステップ130~ステップ133は、図9のステップ109~ステップ112と同様であるため、説明を省略する。
第2実施形態では、周波数ビン毎の位相差に基づいて、ユーザがマイクの正面に位置する場合の発声方向位相差と、ユーザがマイクの正面からずれた位置に存在する場合の発声方向位相差と、の差分に基づいて、閾値を設定する。
これにより、ユーザがマイクの正面からずれて位置することによる、位相差外れ度合時間平均値の増大を吸収することができる。したがって、ユーザとマイクとの位置関係が変化した場合でも、マイクで取得された音声信号に基づいて、ユーザがマイクに向かって発声しているか否かを適切に判定することができる。
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。第3実施形態では、所定周波数以上の周波数信号の位相差を使用して位相差外れ度合を算出する点で、第1実施形態及び第2実施形態と異なる。
第3実施形態では、低域周波数帯と高域周波数帯とを区別する閾値Fthを設定する。閾値Fthは、第2閾値の一例であり、一定の値、例えば、100[kHz]であってよい。しかしながら、例えば、ユーザが発声している間、仮閾値PFthを自動的に変動させ、位相差外れ度合時間平均値を算出し、位相差外れ度合時間平均値が所定時間の間0.5[rad]以下になる仮閾値PFthを閾値Fthとして設定してもよい。
図18は、図9のステップ105または図17のステップ125の位相差外れ度合算出処理の流れを例示する。CPU51は、ステップ211で、個別位相差外れ度合Δdの合計を算出するためのΔd合計、周波数ビン数をカウントする変数i、及び高域周波数の周波数ビン数をカウントする変数jに0をセットする。CPU51は、ステップ212で、変数iの値に対応する周波数ビンに対応する周波数が所定周波数Fth以上であるか否か判定する。
ステップ212の判定が否定された場合、即ち、変数iの値に対応する周波数ビンに対応する周波数が所定周波数Fth未満である場合、CPU51は、ステップ215に進む。ステップ212の判定が肯定された場合、即ち、変数iの値に対応する周波数ビンの周波数が所定周波数Fth以上である場合、CPU51は、個別位相差外れ度合Δdを算出する。個別位相差外れ度合Δdは、周波数ビン番号iの周波数信号INFA及びINFBの位相差が発声方向領域から外れている度合である。
CPU51は、ステップ214で、Δd合計の値にΔdを加算し、変数jの値に1を加算する。CPU51は、ステップ215で、変数iの値に1を加算する。CPU51は、ステップ216で、変数iの値が最大周波数ビン番号、即ち、FFTサイズ/2未満であるか否か判定する。ステップ216の判定が肯定された場合、CPU51は、ステップ212に戻る。ステップ216の判定が否定された場合、CPU51は、ステップ217で、Δd合計の値を変数jの値で除算した値を位相差外れ度合として算出する。
第3実施形態は、第1実施形態または第2実施形態と組み合わされてもよい。
ユーザとマイクとの位置関係が変化しない場合、ユーザがマイクに向かって発声すると反射音が直接音より少なく、ユーザがマイクに向かわず発声すると反射音が直接音より多い。この特徴は、中高域の周波数帯において顕著である。また、低域周波数帯の周波数信号は、理論値と実測値との差が大きい場合がある。
したがって、第3実施形態では、低域周波数帯の周波数信号を使用せず、所定周波数以上の高域周波数帯の周波数信号の位相差を使用して、位相差外れ度合を算出することで、より精度の高い位相差外れ度合時間平均値を算出することができる。これにより、ユーザとマイクとの位置関係が変化した場合でも、マイクで取得される音声信号に基づいて、ユーザがマイクに向かって発声しているか否かをより適切に判定することができる。
[第4実施形態]
次に、第4実施形態の一例を説明する。第1~第3実施形態と同様の構成及び作用については、説明を省略する。第4実施形態では、周波数信号の振幅が所定の振幅閾値を超える周波数信号の位相差を使用して位相差外れ度合を算出する点で、第1~第3実施形態と異なる。
第4実施形態では、例えば、マイク55Aで検出された音声信号INTAに対応する周波数信号INFAの振幅が振幅閾値Vthを超える場合、周波数信号INFA及びINFBの位相差を使用して、位相差外れ度合を算出する。しかしながら、マイク55Bで検出された音声信号INTBに対応する周波数信号INFBの振幅が振幅閾値Vthを超える場合に、周波数信号INFA及びINFBの位相差を使用して、位相差外れ度合を算出するようにしてもよい。また、周波数信号INFA及びINFBの振幅が両方とも振幅閾値Vthを超える場合に、周波数信号INFA及びINFBの位相差を使用して、位相差外れ度合を算出するようにしてもよい。振幅閾値Vthは、第3閾値の一例であり、例えば、定常雑音レベルであってよい。定常雑音レベルは、既存の方法で算出することができる。
図19は、図9のステップ105または図17のステップ125の位相差外れ度合算出処理の流れを例示する。CPU51は、ステップ211で、個別位相差外れ度合Δdの合計を算出するためのΔd合計、周波数ビン数をカウントする変数i及び振幅閾値Vthを超える周波数信号の周波数ビン数をカウントする変数kに0をセットする。
CPU51は、ステップ222で、例えば、マイク55Aで検出された音声信号に対応する周波数信号の振幅が振幅閾値Vthを超えているか否か判定する。ステップ222の判定が否定された場合、CPU51は、ステップ225に進む。ステップ222の判定が肯定された場合、CPU51は、発声方向領域から周波数ビン番号iの周波数信号INFA及びINFBの位相差が外れている度合である個別位相差外れ度合Δdを算出する。
CPU51は、ステップ224で、Δd合計の値にΔdを加算し、変数kの値に1を加算する。CPU51は、ステップ225で、変数iの値に1を加算する。CPU51は、ステップ226で、変数iの値が最大周波数ビン番号、即ち、FFTサイズ/2未満であるか否か判定する。ステップ226の判定が肯定された場合、即ち、変数iの値が最大周波数ビン番号未満である場合、CPU51は、ステップ222に戻る。ステップ226の判定が否定された場合、変数iの値が最大周波数ビン番号以上である場合、CPU51は、ステップ227で、Δd合計の値をkの値で除算した値を位相差外れ度合として算出する。
なお、本実施形態では、周波数信号の振幅が振幅閾値を超える周波数信号の位相差を使用して、位相差外れ度合を算出する例について説明したが、本実施形態はこれに限定されない。例えば、音声信号の振幅が所定閾値を超える場合に、音声信号に対応する周波数信号の位相差を使用して、位相差外れ度合を算出するようにしてもよい。また、周波数信号または音声信号の振幅に代えて、パワーが所定閾値を超える周波数信号の位相差を使用して、位相差外れ度合を算出してもよい。
第4実施形態は、第1実施形態、第2実施形態、第1実施形態と第3実施形態との組み合わせ、または、第2実施形態と第3実施形態との組み合わせに適用されてもよい。
第4実施形態では、周波数信号の振幅が所定の振幅閾値を超える場合、位相差外れ度合を算出することで、雑音ではない可能性が高い周波数信号に基づいて、より精度の高い位相差外れ度合時間平均値を算出することができる。これにより、ユーザとマイクとの位置関係が変化した場合でも、マイクで取得された音声信号に基づいて、ユーザがマイクに向かって発声しているか否かをより適切に判定することができる。
図9、10、17~19のフローチャートは一例であり、処理の順序は適宜変更可能である。
[検証例]
本実施形態による発声方向判定の判定結果を図20に例示する。この検証では、ユーザがマイクから50cm離れた位置から40秒間発声し、サンプリング周波数は22[kHz]である。
図21Aに例示するユーザ91A及び図21Bに例示するユーザ91Cは、マイク55の正面、即ち、マイク55A及び55Bの中間位置から発声方向判定装置10の正面に向かって延びる直線上に存在する。ユーザ91B及び91Dは、マイク55の正面からずれた位置、即ち、マイク55A及び55Bの中間位置から発声方向判定装置10の正面に向かって延びる直線と、マイク55A及び55Bの中心を交点として、60°の角度で交差する直線上に存在する。
ユーザ91Aのように、ユーザがマイク55の正面に位置し、マイク55に顔を向けている場合、ユーザの顔の向きが適切に判定される割合は95%である。ユーザ91Bのように、マイク55の正面からユーザの右手方向にずれて位置し、ユーザがマイク55に顔を向けている場合、ユーザの顔の向きが適切に判定される割合は93%である。
ユーザ91Cのように、マイク55の正面に位置し、ユーザの左手方向に顔を向けている場合、即ち、ユーザがマイク55に顔を向けていない場合、ユーザの顔の向きが適切に判定される割合は92%である。ユーザ91Dのように、マイク55の正面からユーザの右手方向にずれて位置し、ユーザの右手方向に顔を向けている場合、即ち、ユーザがマイク55に顔を向けていない場合、ユーザの顔の向きが適切に判定される割合は、91%である。
即ち、本実施形態によれば、何れの場合でも、90%以上の割合で、ユーザの位置及び顔の向きが適切に判定される。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行し、
前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出し、
前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する、
発声方向判定処理をコンピュータに実行させるためのプログラム。
(付記2)
前記第1周波数信号は、前記第1音声入力部に入力された1フレーム分の前記第1音声信号を時間周波数変換することで取得され、
前記第2周波数信号は、前記第2音声入力部に入力され、前記1フレーム分の第1音声信号に対応する、1フレーム分の第2音声信号を時間周波数変換することで取得される、
付記1のプログラム。
(付記3)
前記所定周波数毎の位相差に基づいて、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面に位置する場合の発声方向位相差と、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面からずれた位置に存在する場合の発声方向位相差と、の差分に基づいて、前記第1閾値の値を定める、
付記1または付記2のプログラム。
(付記4)
第2閾値を超える周波数に対応する前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記1~付記3の何れかのプログラム。
(付記5)
前記第1周波数信号及び前記第2周波数信号の少なくとも一方の振幅が第3閾値を超える場合に、前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記1~付記4の何れかのプログラム。
(付記6)
コンピュータが、
1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行し、
前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出し、
前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する、
発声方向判定方法。
(付記7)
前記第1周波数信号は、前記第1音声入力部に入力された1フレーム分の前記第1音声信号を時間周波数変換することで取得され、
前記第2周波数信号は、前記第2音声入力部に入力され、前記1フレーム分の第1音声信号に対応する、1フレーム分の第2音声信号を時間周波数変換することで取得される、
付記6の発声方向判定方法。
(付記8)
前記所定周波数毎の位相差に基づいて、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面に位置する場合の発声方向位相差と、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面からずれた位置に存在する場合の発声方向位相差と、の差分に基づいて、前記第1閾値の値を定める、
付記6または付記7の発声方向判定方法。
(付記9)
第2閾値を超える周波数に対応する前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記6~付記8の何れかの発声方向判定方法。
(付記10)
前記第1周波数信号及び前記第2周波数信号の少なくとも一方の振幅が第3閾値を超える場合に、前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記6~付記9の何れかの発声方向判定方法。
(付記11)
1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行する第1位相差外れ算出部と、
前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出する第2位相差外れ算出部と、
前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する発声方向判定部と、
を含む、発声方向判定装置。
(付記12)
前記第1音声入力部に入力された1フレーム分の前記第1音声信号を時間周波数変換することで前記第1周波数信号を取得し、前記第2音声入力部に入力され、前記1フレーム分の第1音声信号に対応する、1フレーム分の第2音声信号を時間周波数変換することで前記第2周波数信号を取得する、時間周波数変換部、
をさらに含む、付記11の発声方向判定装置。
(付記13)
前記所定周波数毎の位相差に基づいて、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面に位置する場合の発声方向位相差と、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面からずれた位置に存在する場合の発声方向位相差と、の差分に基づいて、前記第1閾値の値を定める、
付記11または付記12の発声方向判定装置。
(付記14)
前記第1位相差外れ算出部は、第2閾値を超える周波数に対応する前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記11~付記13の何れかの発声方向判定装置。
(付記15)
前記第1位相差外れ算出部は、前記第1周波数信号及び前記第2周波数信号の少なくとも一方の振幅が第3閾値を超える場合に、前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
付記11~付記14の何れかの発声方向判定装置。
10 発声方向判定装置
21A、21B 音声入力部
22 時間周波数変換部
24 発声方向領域決定部
25 位相差外れ算出部
26 位相差外れ時間平均値算出部
27 発声方向判定部
51 CPU
52 一次記憶部
53 二次記憶部
55A、55B マイク

Claims (7)

  1. 1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行し、
    前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出し、
    前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する、
    発声方向判定処理をコンピュータに実行させるためのプログラム。
  2. 前記第1周波数信号は、前記第1音声入力部に入力された1フレーム分の前記第1音声信号を時間周波数変換することで取得され、
    前記第2周波数信号は、前記第2音声入力部に入力され、前記1フレーム分の第1音声信号に対応する、1フレーム分の第2音声信号を時間周波数変換することで取得される、
    請求項1に記載のプログラム。
  3. 前記所定周波数毎の位相差に基づいて、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面に位置する場合の発声方向位相差と、前記ユーザが前記第1音声入力部及び前記第2音声入力部の正面からずれた位置に存在する場合の発声方向位相差と、の差分に基づいて、前記第1閾値の値を定める、
    請求項1または請求項2に記載のプログラム。
  4. 第2閾値を超える周波数に対応する前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
    請求項1~請求項3の何れか1項に記載のプログラム。
  5. 前記第1周波数信号及び前記第2周波数信号の少なくとも一方の振幅が第3閾値を超える場合に、前記第1周波数信号及び第2周波数信号の位相差を使用して前記第1位相差外れ度合を算出する、
    請求項1~請求項4の何れか1項に記載のプログラム。
  6. コンピュータが、
    1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行し、
    前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出し、
    前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する、
    発声方向判定方法。
  7. 1フレーム毎に、第1音声入力部に入力された第1音声信号に対応する第1周波数信号と第2音声入力部に入力された第2音声信号に対応する第2周波数信号との所定周波数毎の位相差に基づいて発声方向領域を決定し、前記所定周波数毎の位相差が前記発声方向領域から外れている第1位相差外れ度合を算出する処理を複数フレーム分実行する第1位相差外れ算出部と、
    前記複数フレーム分の前記第1位相差外れ度合から前記複数フレームの統計値である第2位相差外れ度合を算出する第2位相差外れ算出部と、
    前記第2位相差外れ度合が第1閾値以下である場合、ユーザが前記第1音声入力部及び前記第2音声入力部に向かって発声していると判定する発声方向判定部と、
    を含む、発声方向判定装置。
JP2018091943A 2018-05-11 2018-05-11 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 Expired - Fee Related JP7010136B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018091943A JP7010136B2 (ja) 2018-05-11 2018-05-11 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置
US16/367,417 US10531189B2 (en) 2018-05-11 2019-03-28 Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018091943A JP7010136B2 (ja) 2018-05-11 2018-05-11 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置

Publications (2)

Publication Number Publication Date
JP2019197179A JP2019197179A (ja) 2019-11-14
JP7010136B2 true JP7010136B2 (ja) 2022-01-26

Family

ID=68463458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018091943A Expired - Fee Related JP7010136B2 (ja) 2018-05-11 2018-05-11 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置

Country Status (2)

Country Link
US (1) US10531189B2 (ja)
JP (1) JP7010136B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12100419B2 (en) * 2020-10-27 2024-09-24 Arris Enterprises Llc Method and system for improving estimation of sound source localization by using indoor position data from wireless system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010124447A (ja) 2008-10-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 発話正面・横向き推定装置、方法及びプログラム
US20120179458A1 (en) 2011-01-07 2012-07-12 Oh Kwang-Cheol Apparatus and method for estimating noise by noise region discrimination
JP2016181789A (ja) 2015-03-24 2016-10-13 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (ja) 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 顔方向認識方法及び装置
JP4752153B2 (ja) * 2001-08-14 2011-08-17 ソニー株式会社 情報処理装置および方法、情報生成装置および方法、記録媒体、並びにプログラム
US20060125854A1 (en) * 2004-05-27 2006-06-15 Silverbrook Research Pty Ltd Printhead module having two shift registers
JP4982807B2 (ja) 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP5338259B2 (ja) * 2008-10-31 2013-11-13 富士通株式会社 信号処理装置、信号処理方法、および信号処理プログラム
JP5452158B2 (ja) 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
JP5493850B2 (ja) * 2009-12-28 2014-05-14 富士通株式会社 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP5387459B2 (ja) 2010-03-11 2014-01-15 富士通株式会社 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP6003510B2 (ja) * 2012-10-11 2016-10-05 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP6677136B2 (ja) * 2016-09-16 2020-04-08 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010124447A (ja) 2008-10-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 発話正面・横向き推定装置、方法及びプログラム
US20120179458A1 (en) 2011-01-07 2012-07-12 Oh Kwang-Cheol Apparatus and method for estimating noise by noise region discrimination
JP2016181789A (ja) 2015-03-24 2016-10-13 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム

Also Published As

Publication number Publication date
US10531189B2 (en) 2020-01-07
US20190349674A1 (en) 2019-11-14
JP2019197179A (ja) 2019-11-14

Similar Documents

Publication Publication Date Title
JP5519689B2 (ja) 音響処理装置、音響処理方法及び補聴器
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
JP5564873B2 (ja) 収音処理装置、収音処理方法、及びプログラム
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2022544138A (ja) 選択的受聴を補助するためのシステムおよび方法
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP6065028B2 (ja) 収音装置、プログラム及び方法
US20200227039A1 (en) Electronic device and voice command identification method thereof
EP1998320B1 (en) System and method for evaluating performance of microphone for long-distance speech recognition in robot
US20210158828A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
CN104918177A (zh) 信号处理装置、信号处理方法和程序
US9460714B2 (en) Speech processing apparatus and method
JP7151724B2 (ja) 制御処理装置および制御処理方法、並びにプログラム
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP7409407B2 (ja) チャネル選択装置、チャネル選択方法、およびプログラム
JP7010136B2 (ja) 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置
US11895479B2 (en) Steering of binauralization of audio
US11107476B2 (en) Speaker estimation method and speaker estimation device
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP6677136B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JP6361360B2 (ja) 残響判定装置及びプログラム
JP7226107B2 (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP2005338571A (ja) 音声認識装置および音声認識方法
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227

R150 Certificate of patent or registration of utility model

Ref document number: 7010136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees