JP5922263B2 - 特定の対象音を検出するシステム及び方法 - Google Patents

特定の対象音を検出するシステム及び方法 Download PDF

Info

Publication number
JP5922263B2
JP5922263B2 JP2014558271A JP2014558271A JP5922263B2 JP 5922263 B2 JP5922263 B2 JP 5922263B2 JP 2014558271 A JP2014558271 A JP 2014558271A JP 2014558271 A JP2014558271 A JP 2014558271A JP 5922263 B2 JP5922263 B2 JP 5922263B2
Authority
JP
Japan
Prior art keywords
sound
filter bank
frequency
mel filter
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014558271A
Other languages
English (en)
Other versions
JP2015508187A (ja
Inventor
ジテンドラ ジェイン,
ジテンドラ ジェイン,
アニルッダ シンハ,
アニルッダ シンハ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2015508187A publication Critical patent/JP2015508187A/ja
Application granted granted Critical
Publication of JP5922263B2 publication Critical patent/JP5922263B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数の音の中から、特定のタイプの音を検出するシステムおよび方法に関する。特に、本発明は、音に含まれるスペクトル特性を参照しつつ、音を検出するシステムおよび方法に関する。
関連技術の明示
[1].Rijurekha Sen、Vishal Sevani、Prashima Sharama、Zahir Koradia and Bhaskaran Raman、「地域開発のための通信補助道路輸送システムにおける試み(“Challenges In Communication Assisted Road Transportation Systems for Developing Regions”)」、NSDR’09, 2009年10月
[2].Prashanth Mohan、Venkata N. Padmanabhan、Ramachandran Ramjee、「Nericell:モバイルスマートフォンを用いた道路および交通状況のリッチモニタリング(“Nericell: Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones”)」、Sensys’08、マイクロソフトリサーチラボ
[3].Vivek Tyagi、Shivkumar Kalyanaraman、Raghuram Krishnapuram、「累積された道路音声に基づく車両交通密度状態推定(“Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics”)」、IBMリサーチレポート
[4].Sandipan Chakroborty、Anindya Roy and Goutam Saha、「フリップフィルタバンクからのエビデンスをMFCCと組み合わせることによる改良クローズドセットテキスト独立話者認証(“Improved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks”)」、International Journal of Information and Communication Engineering、2008年
[5].Arun Ross、Anil Jain、「バイオメトリクスにおける情報融合“Information fusion in biometrics”」、Pattern Recognition Letters、2003年
[6].「マルチモーダル入力の接続および融合判断のための方法およびシステム(“A Method and System for Association and Decision Fusion of Multimodal Input”)」、インド国特許出願第1451/MUM/2011号
[7].Douglas A. Reynolds、Richard C. Rose、「ガウス混合話者モデルを用いたロバストテキスト独立話者認証“Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”」、IEEE Trans. on Speech and Audio Processing、vol. 3、no. 1、1995年
スペクトル特性の観測は、それぞれ異なるタイプの複数の音を特徴づけるために実行される。音景の生成(soundscaping)は、音楽、ヘルスケア、騒音公害等の分野で利用されている。特定のタイプの音を他の音から区別するため、メル周波数フィルタバンク(mel frequency filter bank)が比較的よく用いられている。メル周波数ケプストラム係数(MFCC: Mel Frequency Cepstral Coefficients)(上記関連技術4参照のこと)は、スピーチ認識システムにおいて、特徴(features)として利用されている。また、メル周波数ケプストラム係数(MFCC)は、音類似度測定(audio similarity measures)にも用いられている。例えば、道路交通状況(上記関連技術1〜3参照のこと)において、MFCCは、クラクション(警笛)音(horn sound)を、他の交通音から区別するために用いられている。これは、クラクション音を正確に特定することにより、交通事故の可能性を低減するために実行される。
メルフィルタバンクを用いることによって、特定のタイプの音を検出および追跡する数多くの手法が提案されている。MFCC(メル周波数ケプストラム係数)は、音の分類に広く用いられている。音検出用に設計された既存のシステムでは、特徴選択(feature selection)は、主として、メル周波数ケプストラム係数に基づいている。さらに、分類の目的のため、ガウス混合モデル(GMM: Gaussian Mixture Model)(上記関連技術7参照のこと)または他のモデルを採用することによって、良好な結果が得られることがわかっている。既存のメルフィルタバンク構造は、低周波数での高分解能によって、スピーチのフォルマント情報(formant information)を効果的に取得することができるので、スピーチ用により適している。しかしながら、このようなシステムの全ては、フィルタバンクの設計の際に、音のスペクトル特性を使用することについて何ら述べていないし、より良い結果を提供可能な特徴を選択するために、音のスペクトル特性を使用することを考慮していない。スペクトル特性を観測することによるメルフィルタバンクの改変(modifying)は、特定のタイプの音のより良い分類を提供することができる。また、しきい値ベース方法(threshold based methods)は、スペクトルを観測することによる特定音の検出に用いられているものの、該方法は、周波数スペクトルの変動が存在する場合、全てのケースに適用することができなかった。
また、数多くの従来技術は、音識別システムおよびプロセスについて教示している。欧州特許第0907258号(EP0907258)は、音声信号圧縮、スピーチ信号圧縮およびスピーチ識別について開示している。中国特許第101226743号(CN101226743)は、無指向および指向性音の変換(conversion of neutral and affection sound)に基づく話者の識別方法について開示している。欧州特許第2028647号(EP2028647)は、話者分類方法およびデバイスを提供している。国際公開公報第1999/022364号(WO1999/022364)は、スピーチの指向性コンテンツ(affective content of speech)の自動分類システムおよび方法について教示している。中国特許第1897109号(CN1897109)は、MFCCに基づく単一音声周波数識別について開示している。国際公開公報第2010/066008号(WO2010/066008)は、非ガウス的性質指数(non-gaussianity index)を用いた睡眠時無呼吸症の地域スクリーニング(community screening)のためのいびき音のマルチパラメーター分析について開示している。しかしながら、これら従来技術の全ては、より良い分類を提供するために、音エネルギースペクトルの周波数分布の変化を考慮することについて何ら述べていない。
したがって、フィルタバンク構造を設計するために、音のスペクトル特性を考慮することによって、特定のタイプの音を検出可能なシステムおよび方法に対するニーズが存在している。また、該システムおよび方法は、複雑性を低減させつつ、音を検出可能であることが要求される。
本発明の主たる目的は、動的に変化する複数の様々な音の中から、対象の音を効果的に検出する改変メルフィルタバンク(modified mel filter bank)を設計することにある。
本発明の別の目的は、動的に変化する複数の様々な音のエネルギースペクトル内の優位周波数(dominant frequency)を特定する方法を提供することにある。
本発明のさらに別の目的は、1つ以上の異なるメルフィルタバンクから抽出されたそれぞれ異なる特徴(MFCC)を融合するシステムを提供することにある。
本発明のさらに別の目的は、抽出されたスペクトル特性を分類し、対象の音を効果的に検出するシステムを提供することにある。
本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムを提供する。該システムは、変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンド(dominant spectrum energy band)を検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュールと、改変メルフィルタバンクとを含む。該改変メルフィルタバンクは、第1のメルフィルタバンクと、第2のメルフィルタバンクとを含む。各バンク内の各メルフィルタは、対象の音を検出するため、音エネルギーの周波数バンドをフィルタリングするよう構成されている。改変メルフィルタバンクは、対象の音を検出するために、特定された優位周波数にしたがって、第1のメルフィルタバンクと第2のメルフィルタバンクのスペクトル位置を修正することによって(with a revised spectral positioning)設計される。該システムは、さらに、改変メルフィルタバンクに接続され、改変フィルタバンクから受信した音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器とを含む。
また、本発明は、動的に変化する複数の様々な音の中から、対象の特定の音を検出する方法を提供する。該方法は、音エネルギーのスペクトル内に存在する優位周波数を特定する工程と、対象の音を検出するために、特定された優位周波数にしたがって、第1のメルフィルタバンクと第2のメルフィルタバンクのスペクトル位置を修正することにより、メルフィルタバンクを改変する工程と、改変されたフィルタバンクから受信した音の複数のスペクトル特性を抽出する工程とを含む。該方法は、さらに、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類し、対象の音を検出する工程を含む。
図1は、本システムの実施形態に係るシステムアーキテクチャ(architecture:基本設計概念)を示す図である。
図2は、本システムの代替的な実施形態に係るシステムアーキテクチャを示す図である。
図3は、本発明の実施形態に係る第1のメルフィルタバンクの構造を示す図である。
図4は、本発明の実施形態に係る対象の音のスペクトルを示す図である。
図5は、本発明の代替的な実施形態に係る第2のメルフィルタバンクの構造を示す図である。
図6は、本発明の実施形態に係る動的に変化する複数の様々な音のスペクトルを示す図である。
図7は、本発明の例示的な実施形態に係る様々な優位スペクトルエネルギーバンドを用いた改変メルフィルタバンクの構造を示す図である。
図8は、本発明の代替的な実施形態に係る例示的なフローチャートを示す図である。
図9は、本システムの例示的な実施形態に係るシステムのブロック図を示す図である。
その特徴が図示される本発明のいくつかの実施形態が説明される。
明細書中、「構成する」、「有する」、「含む」、「備える」およびそれらの他の形式は、同等な意味であり、限定を意味するものではなく、これらの文言のいずれか1つに続く事項または複数の事項のオープンなリストであり、そのような事項に限定されるような排他的でクローズドなリストであるような意味ではなく、また、列挙された事項のみに限定されるという意味ではない。
また、本明細書および添付の請求項において使用されているような単数形“a”、“an”、“the”は、文脈が明確に示していなければ、複数形も含むことを注意されたし。ここで説明されるシステム、方法、装置、デバイスと同等、または類似のシステム、方法、装置、デバイスは、本発明の実施形態の実施またはテストに使用されることができるが、好ましいシステムおよびその部分は以下に説明される。説明および理解を目的とする以下の説明において、多くの実施形態が参照されるが、本発明の範囲を限定するものではない。
本発明の1つ以上のコンポーネントは、明細書の理解のために、モジュールとして記述される。例えば、モジュールは、論理ゲート、半導体デバイス、集積回路、その他個別のコンポーネントを含むハードウェア回路内の自己完結型(self-contained)コンポーネントであってもよい。また、モジュールは、任意のハードウェア実体(例えば、プロセッサー)によって実行される任意のソフトウェアプログラムの一部であってもよい。ソフトウェアプログラムとしてのモジュールの実施は、プロセッサーやその他任意のハードウェア実体によって実行される論理命令セットを含む。さらに、モジュールは、インターフェースによる命令セットまたはプログラムに包含されてもよい。
開示される実施形態は、様々な形態で具現化可能な本発明の例示にすぎない。
本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法に関する。まず、最初の工程において、優位周波数が対象の音のスペクトル内において特定される。さらに、第1のメルフィルタバンクと第2のメルフィルタバンク(第2のフィルタバンク)の構造を改変およびシフトすることにより、改変メルフィルタバンク(第3のフィルタバンク、または改変されたフィルタバンク)が得られる。その後、改変メルフィルタバンクから特徴が抽出され、対象の音を検出するために分類される。
図1を参照し、実施形態の1つにおいて、システム(100)は、対象の音のMFCC(メル周波数ケプストラム係数)を提供するよう構成された第1のメルフィルタバンク(102)を含む。このMFCCは、スピーチおよび話者(speaker)識別アプリケーション用の基本(ベースライン)音声特徴である。
メル尺度(スケール)は、以下の方程式で定義される。
Figure 0005922263
ここで、fmelは、Hz単位の実際の周波数fに対応するメル単位での主観的ピッチ(subjective pitch)である。
MFCC特徴を算出するために用いられるアルゴリズムは、以下の通りである。
1.ハミング、ハニングまたは矩形窓(ウインドウ)のようないくつかの窓関数を用いて、信号から固定サイズ時間窓を取得する(図8の工程802)。
2.窓関数が適用された(windowed)信号の離散フーリエ変換を演算する。
3.それにより得られたスペクトルの強度(パワー)を、三角オーバーラップ窓(triangular overlapping windows)を用いて、メル尺度上にマッピングする。
4.各メルフィルタでのエネルギーを演算し、演算されたエネルギー値の対数(ログ)を取る。
5.最終的に、これら対数エネルギー値の離散コサイン変換を取ることにより、MFCCが演算される(図8の工程808)。
実施形態の1つにおいて、システムは、さらに、第2のメルフィルタバンク(104)を含む。第2のメルフィルタバンク(104)は、第1のメルフィルタバンク(102)の反転(inverse)である。
図3に示されているように、第1のメルフィルタバンク(102)構造は、複数の三角窓を有している。低周波数領域における三角窓は、密集し、オーバーラップしている。一方、高周波数帯における三角窓は、低周波領域の三角窓より少ない密集で、オーバーラップしており、その数は低周波領域の三角窓の数より少ない。したがって、第1のメルフィルタバンク(102)は、高周波領域よりも、低周波領域をより正確に表すことができる。
動的に変化する複数の様々な音の中の対象の音は、具体例として、自動車のクラクション音を含むが、これに限定されない。このスペクトルエネルギーの大部分は、図4に示すように、高周波領域に集中(confined)している。その他の動的に変化する音(例えば、その他の交通音)のスペクトルエネルギーは、図6に示されている。
したがって、第2のメルフィルタバンク(104)を設計するために、第1のメルフィルタバンク(102)の構造を反転させる。これにより、対象の音(すなわち、クラクション音)用に要求される、より高周波の情報をより効果的に取得することができる。第2のメルフィルタバンク(104)の構造は、図5に示されている。
第2のメルフィルタバンク(104)の設計において採用された方程式は、以下で与えられる。
Figure 0005922263
第2のメルフィルタバンク(104)のMFCC特徴は、第1のメルフィルタバンクのMFCC特徴の算出と同様の方法で算出される(図8の工程808)。
さらに、1つ以上のケースにおいて、対象の音のスペクトルエネルギーが主として低周波領域に集中していることが観測されることがある。第2のメルフィルタバンク(104)(すなわち、第1のメルフィルタバンクの反転)は、低周波の情報をそれほど効果的に取得することができないため、第2のメルフィルタバンク(104)は、これらのケース全てに対して、あまり有効に適用できない。
これらのことから、対象の音から特徴情報を区別可能とするよう取得し、対象の音を動的に変化するその他の音から区別するためには、任意のメルフィルタバンク構造を設計する際に、音のスペクトルエネルギー分布の特性の変化を考慮すべきであるということがわかる。
システム(100)は、さらに、変化する音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュール(106)を含む(図8の工程804)。
エネルギースペクトル内の優位周波数を特定するために、一揃いの(complete)スペクトルが、複数の周波数バンドに分割される。各バンドのスペクトルエネルギーが演算され、これらの中で、最大エネルギーを与える周波数バンドが優位スペクトルエネルギー周波数バンドと呼ばれる。次の工程において、優位スペクトルエネルギー周波数バンド内から、特定の周波数が優位周波数として選択される。
システム(100)は、さらに、検出した優位周波数周辺に、第1のメルフィルタバンク(102)と第2のメルフィルタバンク(104)をシフトさせることによって設計された改変メルフィルタ(108)を含む(図8の工程806)。
実施形態の1つにおいて、任意の周波数指数(frequency index)を、検討(考慮)中の様々な音およびアプリケーションの要求に応じて、該周波数バンド内の優位ピークとして取ることができる。
このように設計された改変メルフィルタバンク(108)は、最大スペクトルエネルギーが分布するスペクトル領域(部分)において、最大分解能を提供することができ、音からより効果的な情報を抽出することができる。
改変メルフィルタバンク(108)を設計する際に、第1のメルフィルタバンク(102)が構築され、完成した第1のメルフィルタバンク(102)が優位ピーク周波数によってシフトされる。このシフトは、完成した第1のメルフィルタバンク(102)が、信号の優位ピーク周波数(fpeak)から最大周波数(fmax)までの周波数範囲をカバーするように実行される。
この改変の支配方程式(governing equation)は、以下で与えられる。
Figure 0005922263
ここで、
Figure 0005922263
である。
同様に、完成した第2のメルフィルタバンク(104)も、優位周波数によってシフトされる。このシフトは、完成した第2のメルフィルタバンク(104)が、信号の最小周波数(fmin)から優位周波数(fpeak)の範囲をカバーするように実行される。このシフトに用いられる方程式は、以下のとおりである。
Figure 0005922263
ここで、
Figure 0005922263
改変メルフィルタバンク(108)のMFCC特徴は、上述の第1のメルフィルタバンク(102)と第2のメルフィルタバンク(104)に対する方法と同様の方法で、算出される(図8の工程808)。
システム(100)は、さらに、改変メルフィルタバンク(108)、第1のメルフィルタバンク(102)および第2のメルフィルタバンク(104)に接続された特徴抽出器(110)を含む。特徴抽出器(110)は、これら3つの全てのタイプのメルフィルタバンクから受信した音の複数のスペクトル特性を抽出する(図8の工程810)。
さらなる観測において、これら3つの全てのMFCC特徴、すなわち、第1のメルフィルタバンク(102)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108)のMFCC特徴は、対象の音のそれぞれ異なる特徴情報を提供する。これらそれぞれ異なる特徴情報は、対象の音のそれぞれ異なるスペクトル特性を効果的に表している。
具体例として、図7に示されているように、スペクトル全体が2つのエネルギーバンド、すなわち、0−2KHzと2−4KHzに分割され、改変メルフィルタバンク(108)構造が設計される。0−2KHzエネルギーバンド(図7a)において、ゼロ周波数が優位ピーク周波数として取られる一方で、2−4KHzバンド(図7b)において、4KHzが優位ピーク周波数として選択される。また、フィルタバンクを再定義するために、他の周波数が、優位ピーク周波数として選択されてもよい。優位ピーク周波数を1KHzとして取ることができ(図7c)、また、優位ピーク周波数を3KHzとして取ることもできる(図7d)。それぞれ異なる優位スペクトルエネルギーバンドと優位ピークの構成の改変メルフィルタバンクの構造が図7に示されている。
また、図1に示すように、システム(100)は、さらに、システム(100)の性能評価を提供するよう構成された融合モジュール(114)を含む。融合モジュール(114)は、第1のメルフィルタバンク(100)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108)から抽出した特徴を融合する。性能評価のため、スコアレベル[6]融合(図2参照)と特徴レベル融合[5](図1参照)が用いられる。
さらに図1を参照し、(図8の工程816に示すように)特徴レベル融合において、ペアワイズ(pair wise)特徴が連結され、最終的に、3つのタイプ全て(第1のメルフィルタバンク(102)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108))が組み合わせられる。組み合わせ開始前に、いくつかの正規化技術、例えば、最大値正規化(max normalization)が、それぞれ異なる範囲の特徴値を補償(compensate)する特徴を正規化するために用いられる。
図2を参照し、(図8の工程814に示すように)同じ特徴の組み合わせ(same feature combinations)は、スコアレベル融合で用いられる。このスコアレベル融合は、各特徴の別個の分類スコアを取得することによって実行される。その後、これらスコアの組み合わせが、最終分類スコア用融合のシンプル加算ルールを用いて実行される。また、ここで、最大値正規化技術が用いられ、異なる範囲の分類スコアが補償される。
システム(100)は、さらに、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器(112)を含む(図8の工程818)。分類器(112)は、さらに、対象の音の抽出されたスペクトル特性を分類するガウス混合モデル(GMM)を含むが、これに限定されない。
実施形態の1つにおいて、分類器(112)は、さらに、分類器(112)に通信可能に接続された比較器(図示せず)を含む。この比較器は、効果的に対象の音を検出するために、分類された対象の音のスペクトル特性と、事前に保存されている(pre stored)音特性のセットとを比較する。
発明の作用のための最良の実施形態/実施例
以上説明した動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法は、以下の段落において示される実施例によって説明することができる。なお、本発明のプロセスは、以下の実施例にのみ限定されるものではない。
図9に示すような、様々な交通音の中から、クラクション音を特定するケースを検討する。このために、クラクション音に関連するデータと、その他の交通音に関連するデータとを含むデータがトレーニング目的のために選択される。一揃いのデータベースが2つのメインクラス、すなわち、クラクション音と、その他の交通音とに分割される。トレーニング用の工程(101)では、1分間の記録データが各音クラス用に用いられる。工程(102)では、クラクション用の137種の異なる音記録を含む2分間クラクションデータと、87種の異なる記録を有するその他の交通音用の約10分間データとに対し、テストが実行される。これらのトレーニングデータおよびテストデータのセットは、提案のシステムのロバスト性(robustness)が様々な条件(varying conditions)でチェック可能となるように、それぞれ異なるセッションの記録から生成される。
有効フレーム(valid frame)を選択するために、ハミング窓がトレーニングデータセットと、テスト音の双方に適用される。スペクトルエネルギー分布に基づいて、第1のメルフィルタバンク、第2のメルフィルタバンク(第1のメルフィルタバンクの反転)および改変メルフィルタバンクが用いられる。特徴抽出段階において、従来MFCC(第1のメルフィルタバンクを参照するもの)が、比較(comparative study)のため、反転MFCC(第2のメルフィルタバンクを参照するもの)および改変MFCCと共に用いられる。選択された有効フレームに対し、メル周波数ケプストラム係数(MFCC)が演算され、さらなる特徴がこれら3つ全てのメルフィルタバンクから抽出される。これらMFCC演算の全てにおいて、13次元の特徴が用いられる。モデリング(Modeling)は、異なる数の混合用のガウス混合モデル(GMM)を用いて実行され、最終的に、複数のテスト音が、これらトレーニングされたモデルからの最尤基準(maximum likelihood criterion)によって分類される。
1つ以上の事前保存されている音に対してパターンマッチングが実行され、テスト音が特定される。
表1:従来MFCC、反転MFCC(IMFCC)および改変MFCCのクラクション分類結果
Figure 0005922263
これらテスト結果は、反転MFCC特徴を用いた場合に、従来MFCCを用いた場合と比較して、クラクション検出率が向上していることを明確に示しており、クラクション音のスペクトル特性に基づいた従来メルフィルタバンク構造の反転の有効性を示すものである。よって、これらテスト結果は、反転MFCCにより、クラクション分類の正確性を向上させるためのより良い特徴選択が可能であることを示している。
さらに、改変MFCCを用いた場合、クラクション検出率は、従来MFCCおよび反転MFCCを用いた場合と比較して、全てのガウス混合モデルサイズにおいて著しく向上した。これは、MFCC特徴演算におけるスペクトルエネルギー分布の重要性を示し、改変MFCCがクラクション検出により適した特徴であることを示している。同様に、従来MFCCを用いた場合と比較して、改変MFCCと反転MFCCを用いた場合は、偽警報率(FAR: False Alarm Rate)も、減少している。
さらに、上述のシステムの性能は、これらMFCCバリエーション全て、すなわち、従来MFCC、反転MFCCおよび改変MFCCの微分特徴(derivative features)を含むことによって評価することができる。微分特徴は、演算の複雑性が増大する場合での、分類正確性の分析に有用である。
本発明の有利な効果
1.クラクション音をその他の音から区別可能とするクラクション音の特性に対する既存の特徴抽出技術を効果的に改変(modification)することができる。
2.音スペクトルの高周波領域において、より多くの情報を含むMFCCを演算するための反転メルフィルタバンクを設計することができる。
3.改変メルフィルタバンクで演算されたMFCCは、より優れた分類を提供することができる。
4.特定のタイプの音を検出するために、汎用化された特徴を提供する既存のメルフィルタバンク構造を改変することにより、スペクトルエネルギー分布の特徴の変化をMFCC演算において利用することができる。

Claims (10)

  1. 動的に変化する複数の様々な音の中から、対象の音を検出するシステムであって、
    前記動的に変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位周波数を特定するよう構成されたスペクトル検出モジュールと、
    第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクを含む、第3のフィルタバンクと、
    前記第3のフィルタバンクに接続され、前記第3のフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、
    前記対象の音を検出するために、前記特定された優位周波数にしたがって、前記対象の音の前記抽出されたスペクトル特性を分類するようトレーニングされた分類器と、を含み、
    前記各フィルタバンク内の各フィルタは、前記対象の音を検出するために、音エネルギーの周波数バンドをフィルタリングするよう構成されており、
    前記第3のフィルタバンクは、前記対象の音の検出ために、前記特定された優位周波数にしたがって、前記第1のメルフィルタバンクと前記第2のフィルタバンクのスペクトル位置を修正することによって設計されていることを特徴とする前記システム。
  2. 前記分類器は、前記対象の音の前記抽出されたスペクトル特性を分類するガウス混合モデル(GMM)を含む請求項1に記載のシステム。
  3. 前記動的に変化する複数の様々な音は、自動車のクラクション音を含む請求項1に記載のシステム。
  4. 前記システムの性能評価を提供するために、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記第3のフィルタバンクから抽出された複数の特徴を融合するよう構成された融合モジュールをさらに含む請求項1に記載のシステム。
  5. 前記分類器は、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する比較器をさらに含む請求項1に記載のシステム。
  6. 動的に変化する複数の様々な音の中から、特定の対象の音を検出する方法であって、
    前記動的に変化する複数の様々な音の音エネルギーのスペクトル中に存在する優位周波数を特定する工程と、
    前記対象の音の検出ために、前記特定された優位周波数にしたがって、第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクのスペクトル位置を修正することによって、フィルタバンクを改変する工程と、
    前記改変されたフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出する工程と、
    前記特定した優位周波数にしたがって、前記対象の音を検出するため、前記対象の音の前記抽出されたスペクトル特性を分類する工程と、を含むことを特徴とする前記方法。
  7. 前記優位周波数は、前記対象の音のエネルギースペクトル内における最大エネルギーを含む周波数バンドを含む請求項に記載の方法。
  8. 前記特定された優位周波数にしたがって、前記フィルタバンクを改変する工程は、前記優位周波数から前記第1のメルフィルタバンクの最大周波数までの範囲と、前記第2のフィルタバンクの最小周波数から前記優位周波数までの範囲とをカバーする周波数範囲をもたらす請求項に記載の方法。
  9. 前記対象の音を検出する際に、性能評価を提供するため、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記改変されたフィルタバンクから抽出された複数の特徴を融合する工程をさらに含む請求項に記載の方法。
  10. 前記分類する工程は、前記対象の音を検出するため、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する工程を含む請求項に記載の方法。
JP2014558271A 2012-02-21 2013-02-11 特定の対象音を検出するシステム及び方法 Active JP5922263B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN462MU2012 2012-02-21
IN462/MUM/2012 2012-02-21
PCT/IN2013/000089 WO2013124862A1 (en) 2012-02-21 2013-02-11 Modified mel filter bank structure using spectral characteristics for sound analysis

Publications (2)

Publication Number Publication Date
JP2015508187A JP2015508187A (ja) 2015-03-16
JP5922263B2 true JP5922263B2 (ja) 2016-05-24

Family

ID=49005103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014558271A Active JP5922263B2 (ja) 2012-02-21 2013-02-11 特定の対象音を検出するシステム及び方法

Country Status (6)

Country Link
US (1) US9704495B2 (ja)
EP (1) EP2817800B1 (ja)
JP (1) JP5922263B2 (ja)
CN (1) CN104221079B (ja)
AU (1) AU2013223662B2 (ja)
WO (1) WO2013124862A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132128A1 (en) 2011-11-17 2013-05-23 Us Airways, Inc. Overbooking, forecasting and optimization methods and systems
US9727940B2 (en) 2013-03-08 2017-08-08 American Airlines, Inc. Demand forecasting systems and methods utilizing unobscuring and unconstraining
US11321721B2 (en) 2013-03-08 2022-05-03 American Airlines, Inc. Demand forecasting systems and methods utilizing prime class remapping
US20140278615A1 (en) 2013-03-15 2014-09-18 Us Airways, Inc. Misconnect management systems and methods
CN103873254B (zh) * 2014-03-03 2017-01-25 杭州电子科技大学 一种人类声纹生物密钥生成方法
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108053837A (zh) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 一种汽车转向灯声音信号识别的方法和系统
CN109087628B (zh) * 2018-08-21 2023-03-31 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
CN110491417A (zh) * 2019-08-09 2019-11-22 北京影谱科技股份有限公司 基于深度学习的语音情感识别方法和装置
US11418901B1 (en) 2021-02-01 2022-08-16 Harman International Industries, Incorporated System and method for providing three-dimensional immersive sound
CN114255783B (zh) * 2021-12-10 2025-01-24 上海应用技术大学 声音分类模型的构建方法、声音分类方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2748342B1 (fr) 1996-05-06 1998-07-17 France Telecom Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal
US5771299A (en) * 1996-06-20 1998-06-23 Audiologic, Inc. Spectral transposition of a digital audio signal
KR100361883B1 (ko) 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
US6173260B1 (en) 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6253175B1 (en) * 1998-11-30 2001-06-26 International Business Machines Corporation Wavelet-based energy binning cepstal features for automatic speech recognition
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US8194865B2 (en) * 2007-02-22 2012-06-05 Personics Holdings Inc. Method and device for sound detection and audio control
EP2028647B1 (de) 2007-08-24 2015-03-18 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
JP2010141468A (ja) * 2008-12-10 2010-06-24 Fujitsu Ten Ltd 車載音響装置
JP5384952B2 (ja) * 2009-01-15 2014-01-08 Kddi株式会社 特徴量抽出装置、特徴量抽出方法、およびプログラム
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble

Also Published As

Publication number Publication date
JP2015508187A (ja) 2015-03-16
AU2013223662A1 (en) 2014-09-11
EP2817800A1 (en) 2014-12-31
CN104221079A (zh) 2014-12-17
US20150016617A1 (en) 2015-01-15
EP2817800A4 (en) 2015-09-02
CN104221079B (zh) 2017-03-01
US9704495B2 (en) 2017-07-11
AU2013223662B2 (en) 2016-05-26
EP2817800B1 (en) 2016-10-19
WO2013124862A1 (en) 2013-08-29

Similar Documents

Publication Publication Date Title
JP5922263B2 (ja) 特定の対象音を検出するシステム及び方法
CN103646649B (zh) 一种高效的语音检测方法
CN103489446B (zh) 复杂环境下基于自适应能量检测的鸟鸣识别方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN106935248B (zh) 一种语音相似度检测方法及装置
CN101149928B (zh) 声音信号处理方法、声音信号处理设备及计算机程序
CN107657964A (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Ghaemmaghami et al. Noise robust voice activity detection using features extracted from the time-domain autocorrelation function
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
US20190206418A1 (en) Device and a method for classifying an acoustic environment
Wang et al. Speaker identification with whispered speech for the access control system
Fonseca et al. Discrete wavelet transform and support vector machine applied to pathological voice signals identification
Dişken et al. A robust polynomial regression-based voice activity detector for speaker verification
Islam et al. Neural-Response-Based Text-Dependent speaker identification under noisy conditions
Ghezaiel et al. Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification
Aggarwal et al. Characterization between child and adult voice using machine learning algorithm
Cai et al. The best input feature when using convolutional neural network for cough recognition
Banerjee et al. Two stage feature extraction using modified MFCC for honk detection
Morales-Cordovilla et al. On the use of asymmetric windows for robust speech recognition
Karjigi et al. Investigation of different time–frequency representations for detection of fricatives
Indumathi et al. An efficient speaker recognition system by employing BWT and ELM
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
Tu et al. Computational auditory scene analysis based voice activity detection
Oo et al. Enhancement of Speaker Identification System Based on Voice Active Detection Techniques using Machine Learning
CN118155655B (zh) 一种针对语音对抗攻击的语音自然度评估方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160413

R150 Certificate of patent or registration of utility model

Ref document number: 5922263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250