JP5922263B2

JP5922263B2 - 特定の対象音を検出するシステム及び方法

Info

Publication number: JP5922263B2
Application number: JP2014558271A
Authority: JP
Inventors: ジテンドラジェイン，; アニルッダシンハ，
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2012-02-21
Filing date: 2013-02-11
Publication date: 2016-05-24
Anticipated expiration: 2033-02-11
Also published as: JP2015508187A; AU2013223662A1; EP2817800A1; CN104221079A; US20150016617A1; EP2817800A4; CN104221079B; US9704495B2; AU2013223662B2; EP2817800B1; WO2013124862A1

Description

本発明は、複数の音の中から、特定のタイプの音を検出するシステムおよび方法に関する。特に、本発明は、音に含まれるスペクトル特性を参照しつつ、音を検出するシステムおよび方法に関する。

関連技術の明示
［１］．Rijurekha Sen、Vishal Sevani、Prashima Sharama、Zahir Koradia and Bhaskaran Raman、「地域開発のための通信補助道路輸送システムにおける試み（“Challenges In Communication Assisted Road Transportation Systems for Developing Regions”）」、ＮＳＤＲ’０９, ２００９年１０月
［２］．Prashanth Mohan、Venkata N. Padmanabhan、Ramachandran Ramjee、「Ｎｅｒｉｃｅｌｌ：モバイルスマートフォンを用いた道路および交通状況のリッチモニタリング（“Nericell: Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones”）」、Ｓｅｎｓｙｓ’０８、マイクロソフトリサーチラボ
［３］．Vivek Tyagi、Shivkumar Kalyanaraman、Raghuram Krishnapuram、「累積された道路音声に基づく車両交通密度状態推定（“Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics”）」、ＩＢＭリサーチレポート
［４］．Sandipan Chakroborty、Anindya Roy and Goutam Saha、「フリップフィルタバンクからのエビデンスをＭＦＣＣと組み合わせることによる改良クローズドセットテキスト独立話者認証（“Improved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks”）」、International Journal of Information and Communication Engineering、２００８年
［５］．Arun Ross、Anil Jain、「バイオメトリクスにおける情報融合“Information fusion in biometrics”」、Pattern Recognition Letters、２００３年
［６］．「マルチモーダル入力の接続および融合判断のための方法およびシステム（“A Method and System for Association and Decision Fusion of Multimodal Input”）」、インド国特許出願第１４５１／ＭＵＭ／２０１１号
［７］．Douglas A. Reynolds、Richard C. Rose、「ガウス混合話者モデルを用いたロバストテキスト独立話者認証“Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”」、IEEE Trans. on Speech and Audio Processing、vol. 3、no. 1、１９９５年

スペクトル特性の観測は、それぞれ異なるタイプの複数の音を特徴づけるために実行される。音景の生成（soundscaping）は、音楽、ヘルスケア、騒音公害等の分野で利用されている。特定のタイプの音を他の音から区別するため、メル周波数フィルタバンク（mel frequency filter bank）が比較的よく用いられている。メル周波数ケプストラム係数（MFCC: Mel Frequency Cepstral Coefficients）（上記関連技術４参照のこと）は、スピーチ認識システムにおいて、特徴（features）として利用されている。また、メル周波数ケプストラム係数（ＭＦＣＣ）は、音類似度測定（audio similarity measures）にも用いられている。例えば、道路交通状況（上記関連技術１〜３参照のこと）において、ＭＦＣＣは、クラクション（警笛）音（horn sound）を、他の交通音から区別するために用いられている。これは、クラクション音を正確に特定することにより、交通事故の可能性を低減するために実行される。

メルフィルタバンクを用いることによって、特定のタイプの音を検出および追跡する数多くの手法が提案されている。ＭＦＣＣ（メル周波数ケプストラム係数）は、音の分類に広く用いられている。音検出用に設計された既存のシステムでは、特徴選択（feature selection）は、主として、メル周波数ケプストラム係数に基づいている。さらに、分類の目的のため、ガウス混合モデル（GMM: Gaussian Mixture Model）（上記関連技術７参照のこと）または他のモデルを採用することによって、良好な結果が得られることがわかっている。既存のメルフィルタバンク構造は、低周波数での高分解能によって、スピーチのフォルマント情報（formant information）を効果的に取得することができるので、スピーチ用により適している。しかしながら、このようなシステムの全ては、フィルタバンクの設計の際に、音のスペクトル特性を使用することについて何ら述べていないし、より良い結果を提供可能な特徴を選択するために、音のスペクトル特性を使用することを考慮していない。スペクトル特性を観測することによるメルフィルタバンクの改変（modifying）は、特定のタイプの音のより良い分類を提供することができる。また、しきい値ベース方法（threshold based methods）は、スペクトルを観測することによる特定音の検出に用いられているものの、該方法は、周波数スペクトルの変動が存在する場合、全てのケースに適用することができなかった。

また、数多くの従来技術は、音識別システムおよびプロセスについて教示している。欧州特許第０９０７２５８号（ＥＰ０９０７２５８）は、音声信号圧縮、スピーチ信号圧縮およびスピーチ識別について開示している。中国特許第１０１２２６７４３号（ＣＮ１０１２２６７４３）は、無指向および指向性音の変換（conversion of neutral and affection sound）に基づく話者の識別方法について開示している。欧州特許第２０２８６４７号（ＥＰ２０２８６４７）は、話者分類方法およびデバイスを提供している。国際公開公報第１９９９／０２２３６４号（ＷＯ１９９９／０２２３６４）は、スピーチの指向性コンテンツ（affective content of speech）の自動分類システムおよび方法について教示している。中国特許第１８９７１０９号（ＣＮ１８９７１０９）は、ＭＦＣＣに基づく単一音声周波数識別について開示している。国際公開公報第２０１０／０６６００８号（ＷＯ２０１０／０６６００８）は、非ガウス的性質指数（non-gaussianity index）を用いた睡眠時無呼吸症の地域スクリーニング（community screening）のためのいびき音のマルチパラメーター分析について開示している。しかしながら、これら従来技術の全ては、より良い分類を提供するために、音エネルギースペクトルの周波数分布の変化を考慮することについて何ら述べていない。

したがって、フィルタバンク構造を設計するために、音のスペクトル特性を考慮することによって、特定のタイプの音を検出可能なシステムおよび方法に対するニーズが存在している。また、該システムおよび方法は、複雑性を低減させつつ、音を検出可能であることが要求される。

本発明の主たる目的は、動的に変化する複数の様々な音の中から、対象の音を効果的に検出する改変メルフィルタバンク（modified mel filter bank）を設計することにある。

本発明の別の目的は、動的に変化する複数の様々な音のエネルギースペクトル内の優位周波数（dominant frequency）を特定する方法を提供することにある。

本発明のさらに別の目的は、１つ以上の異なるメルフィルタバンクから抽出されたそれぞれ異なる特徴（ＭＦＣＣ）を融合するシステムを提供することにある。

本発明のさらに別の目的は、抽出されたスペクトル特性を分類し、対象の音を効果的に検出するシステムを提供することにある。

本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムを提供する。該システムは、変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンド（dominant spectrum energy band）を検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュールと、改変メルフィルタバンクとを含む。該改変メルフィルタバンクは、第１のメルフィルタバンクと、第２のメルフィルタバンクとを含む。各バンク内の各メルフィルタは、対象の音を検出するため、音エネルギーの周波数バンドをフィルタリングするよう構成されている。改変メルフィルタバンクは、対象の音を検出するために、特定された優位周波数にしたがって、第１のメルフィルタバンクと第２のメルフィルタバンクのスペクトル位置を修正することによって（with a revised spectral positioning）設計される。該システムは、さらに、改変メルフィルタバンクに接続され、改変フィルタバンクから受信した音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器とを含む。

また、本発明は、動的に変化する複数の様々な音の中から、対象の特定の音を検出する方法を提供する。該方法は、音エネルギーのスペクトル内に存在する優位周波数を特定する工程と、対象の音を検出するために、特定された優位周波数にしたがって、第１のメルフィルタバンクと第２のメルフィルタバンクのスペクトル位置を修正することにより、メルフィルタバンクを改変する工程と、改変されたフィルタバンクから受信した音の複数のスペクトル特性を抽出する工程とを含む。該方法は、さらに、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類し、対象の音を検出する工程を含む。

図１は、本システムの実施形態に係るシステムアーキテクチャ（architecture:基本設計概念）を示す図である。

図２は、本システムの代替的な実施形態に係るシステムアーキテクチャを示す図である。

図３は、本発明の実施形態に係る第１のメルフィルタバンクの構造を示す図である。

図４は、本発明の実施形態に係る対象の音のスペクトルを示す図である。

図５は、本発明の代替的な実施形態に係る第２のメルフィルタバンクの構造を示す図である。

図６は、本発明の実施形態に係る動的に変化する複数の様々な音のスペクトルを示す図である。

図７は、本発明の例示的な実施形態に係る様々な優位スペクトルエネルギーバンドを用いた改変メルフィルタバンクの構造を示す図である。

図８は、本発明の代替的な実施形態に係る例示的なフローチャートを示す図である。

図９は、本システムの例示的な実施形態に係るシステムのブロック図を示す図である。

その特徴が図示される本発明のいくつかの実施形態が説明される。

明細書中、「構成する」、「有する」、「含む」、「備える」およびそれらの他の形式は、同等な意味であり、限定を意味するものではなく、これらの文言のいずれか１つに続く事項または複数の事項のオープンなリストであり、そのような事項に限定されるような排他的でクローズドなリストであるような意味ではなく、また、列挙された事項のみに限定されるという意味ではない。

また、本明細書および添付の請求項において使用されているような単数形“a”、“an”、“the”は、文脈が明確に示していなければ、複数形も含むことを注意されたし。ここで説明されるシステム、方法、装置、デバイスと同等、または類似のシステム、方法、装置、デバイスは、本発明の実施形態の実施またはテストに使用されることができるが、好ましいシステムおよびその部分は以下に説明される。説明および理解を目的とする以下の説明において、多くの実施形態が参照されるが、本発明の範囲を限定するものではない。

本発明の１つ以上のコンポーネントは、明細書の理解のために、モジュールとして記述される。例えば、モジュールは、論理ゲート、半導体デバイス、集積回路、その他個別のコンポーネントを含むハードウェア回路内の自己完結型（self-contained）コンポーネントであってもよい。また、モジュールは、任意のハードウェア実体（例えば、プロセッサー）によって実行される任意のソフトウェアプログラムの一部であってもよい。ソフトウェアプログラムとしてのモジュールの実施は、プロセッサーやその他任意のハードウェア実体によって実行される論理命令セットを含む。さらに、モジュールは、インターフェースによる命令セットまたはプログラムに包含されてもよい。

開示される実施形態は、様々な形態で具現化可能な本発明の例示にすぎない。

本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法に関する。まず、最初の工程において、優位周波数が対象の音のスペクトル内において特定される。さらに、第１のメルフィルタバンクと第２のメルフィルタバンク（第２のフィルタバンク）の構造を改変およびシフトすることにより、改変メルフィルタバンク（第３のフィルタバンク、または改変されたフィルタバンク）が得られる。その後、改変メルフィルタバンクから特徴が抽出され、対象の音を検出するために分類される。

図１を参照し、実施形態の１つにおいて、システム（１００）は、対象の音のＭＦＣＣ（メル周波数ケプストラム係数）を提供するよう構成された第１のメルフィルタバンク（１０２）を含む。このＭＦＣＣは、スピーチおよび話者（speaker）識別アプリケーション用の基本（ベースライン）音声特徴である。

メル尺度（スケール）は、以下の方程式で定義される。

ここで、ｆ_ｍｅｌは、Ｈｚ単位の実際の周波数ｆに対応するメル単位での主観的ピッチ（subjective pitch）である。

ＭＦＣＣ特徴を算出するために用いられるアルゴリズムは、以下の通りである。
１．ハミング、ハニングまたは矩形窓（ウインドウ）のようないくつかの窓関数を用いて、信号から固定サイズ時間窓を取得する（図８の工程８０２）。
２．窓関数が適用された（windowed）信号の離散フーリエ変換を演算する。
３．それにより得られたスペクトルの強度（パワー）を、三角オーバーラップ窓（triangular overlapping windows）を用いて、メル尺度上にマッピングする。
４．各メルフィルタでのエネルギーを演算し、演算されたエネルギー値の対数（ログ）を取る。
５．最終的に、これら対数エネルギー値の離散コサイン変換を取ることにより、ＭＦＣＣが演算される（図８の工程８０８）。

実施形態の１つにおいて、システムは、さらに、第２のメルフィルタバンク（１０４）を含む。第２のメルフィルタバンク（１０４）は、第１のメルフィルタバンク（１０２）の反転（inverse）である。

図３に示されているように、第１のメルフィルタバンク（１０２）構造は、複数の三角窓を有している。低周波数領域における三角窓は、密集し、オーバーラップしている。一方、高周波数帯における三角窓は、低周波領域の三角窓より少ない密集で、オーバーラップしており、その数は低周波領域の三角窓の数より少ない。したがって、第１のメルフィルタバンク（１０２）は、高周波領域よりも、低周波領域をより正確に表すことができる。

動的に変化する複数の様々な音の中の対象の音は、具体例として、自動車のクラクション音を含むが、これに限定されない。このスペクトルエネルギーの大部分は、図４に示すように、高周波領域に集中（confined）している。その他の動的に変化する音（例えば、その他の交通音）のスペクトルエネルギーは、図６に示されている。

したがって、第２のメルフィルタバンク（１０４）を設計するために、第１のメルフィルタバンク（１０２）の構造を反転させる。これにより、対象の音（すなわち、クラクション音）用に要求される、より高周波の情報をより効果的に取得することができる。第２のメルフィルタバンク（１０４）の構造は、図５に示されている。

第２のメルフィルタバンク（１０４）の設計において採用された方程式は、以下で与えられる。

第２のメルフィルタバンク（１０４）のＭＦＣＣ特徴は、第１のメルフィルタバンクのＭＦＣＣ特徴の算出と同様の方法で算出される（図８の工程８０８）。

さらに、１つ以上のケースにおいて、対象の音のスペクトルエネルギーが主として低周波領域に集中していることが観測されることがある。第２のメルフィルタバンク（１０４）（すなわち、第１のメルフィルタバンクの反転）は、低周波の情報をそれほど効果的に取得することができないため、第２のメルフィルタバンク（１０４）は、これらのケース全てに対して、あまり有効に適用できない。

これらのことから、対象の音から特徴情報を区別可能とするよう取得し、対象の音を動的に変化するその他の音から区別するためには、任意のメルフィルタバンク構造を設計する際に、音のスペクトルエネルギー分布の特性の変化を考慮すべきであるということがわかる。

システム（１００）は、さらに、変化する音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュール（１０６）を含む（図８の工程８０４）。

エネルギースペクトル内の優位周波数を特定するために、一揃いの（complete）スペクトルが、複数の周波数バンドに分割される。各バンドのスペクトルエネルギーが演算され、これらの中で、最大エネルギーを与える周波数バンドが優位スペクトルエネルギー周波数バンドと呼ばれる。次の工程において、優位スペクトルエネルギー周波数バンド内から、特定の周波数が優位周波数として選択される。

システム（１００）は、さらに、検出した優位周波数周辺に、第１のメルフィルタバンク（１０２）と第２のメルフィルタバンク（１０４）をシフトさせることによって設計された改変メルフィルタ（１０８）を含む（図８の工程８０６）。

実施形態の１つにおいて、任意の周波数指数（frequency index）を、検討（考慮）中の様々な音およびアプリケーションの要求に応じて、該周波数バンド内の優位ピークとして取ることができる。

このように設計された改変メルフィルタバンク（１０８）は、最大スペクトルエネルギーが分布するスペクトル領域（部分）において、最大分解能を提供することができ、音からより効果的な情報を抽出することができる。

改変メルフィルタバンク（１０８）を設計する際に、第１のメルフィルタバンク（１０２）が構築され、完成した第１のメルフィルタバンク（１０２）が優位ピーク周波数によってシフトされる。このシフトは、完成した第１のメルフィルタバンク（１０２）が、信号の優位ピーク周波数（ｆ_ｐｅａｋ）から最大周波数（ｆ_ｍａｘ）までの周波数範囲をカバーするように実行される。

この改変の支配方程式（governing equation）は、以下で与えられる。

ここで、

である。

同様に、完成した第２のメルフィルタバンク（１０４）も、優位周波数によってシフトされる。このシフトは、完成した第２のメルフィルタバンク（１０４）が、信号の最小周波数（ｆ_ｍｉｎ）から優位周波数（ｆ_ｐｅａｋ）の範囲をカバーするように実行される。このシフトに用いられる方程式は、以下のとおりである。

ここで、

改変メルフィルタバンク（１０８）のＭＦＣＣ特徴は、上述の第１のメルフィルタバンク（１０２）と第２のメルフィルタバンク（１０４）に対する方法と同様の方法で、算出される（図８の工程８０８）。

システム（１００）は、さらに、改変メルフィルタバンク（１０８）、第１のメルフィルタバンク（１０２）および第２のメルフィルタバンク（１０４）に接続された特徴抽出器（１１０）を含む。特徴抽出器（１１０）は、これら３つの全てのタイプのメルフィルタバンクから受信した音の複数のスペクトル特性を抽出する（図８の工程８１０）。

さらなる観測において、これら３つの全てのＭＦＣＣ特徴、すなわち、第１のメルフィルタバンク（１０２）、第２のメルフィルタバンク（１０４）および改変メルフィルタバンク（１０８）のＭＦＣＣ特徴は、対象の音のそれぞれ異なる特徴情報を提供する。これらそれぞれ異なる特徴情報は、対象の音のそれぞれ異なるスペクトル特性を効果的に表している。

具体例として、図７に示されているように、スペクトル全体が２つのエネルギーバンド、すなわち、０−２ＫＨｚと２−４ＫＨｚに分割され、改変メルフィルタバンク（１０８）構造が設計される。０−２ＫＨｚエネルギーバンド（図７ａ）において、ゼロ周波数が優位ピーク周波数として取られる一方で、２−４ＫＨｚバンド（図７ｂ）において、４ＫＨｚが優位ピーク周波数として選択される。また、フィルタバンクを再定義するために、他の周波数が、優位ピーク周波数として選択されてもよい。優位ピーク周波数を１ＫＨｚとして取ることができ（図７ｃ）、また、優位ピーク周波数を３ＫＨｚとして取ることもできる（図７ｄ）。それぞれ異なる優位スペクトルエネルギーバンドと優位ピークの構成の改変メルフィルタバンクの構造が図７に示されている。

また、図１に示すように、システム（１００）は、さらに、システム（１００）の性能評価を提供するよう構成された融合モジュール（１１４）を含む。融合モジュール（１１４）は、第１のメルフィルタバンク（１００）、第２のメルフィルタバンク（１０４）および改変メルフィルタバンク（１０８）から抽出した特徴を融合する。性能評価のため、スコアレベル［６］融合（図２参照）と特徴レベル融合［５］（図１参照）が用いられる。

さらに図１を参照し、（図８の工程８１６に示すように）特徴レベル融合において、ペアワイズ（pair wise）特徴が連結され、最終的に、３つのタイプ全て（第１のメルフィルタバンク（１０２）、第２のメルフィルタバンク（１０４）および改変メルフィルタバンク（１０８））が組み合わせられる。組み合わせ開始前に、いくつかの正規化技術、例えば、最大値正規化（max normalization）が、それぞれ異なる範囲の特徴値を補償（compensate）する特徴を正規化するために用いられる。

図２を参照し、（図８の工程８１４に示すように）同じ特徴の組み合わせ（same feature combinations）は、スコアレベル融合で用いられる。このスコアレベル融合は、各特徴の別個の分類スコアを取得することによって実行される。その後、これらスコアの組み合わせが、最終分類スコア用融合のシンプル加算ルールを用いて実行される。また、ここで、最大値正規化技術が用いられ、異なる範囲の分類スコアが補償される。

システム（１００）は、さらに、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器（１１２）を含む（図８の工程８１８）。分類器（１１２）は、さらに、対象の音の抽出されたスペクトル特性を分類するガウス混合モデル（ＧＭＭ）を含むが、これに限定されない。

実施形態の１つにおいて、分類器（１１２）は、さらに、分類器（１１２）に通信可能に接続された比較器（図示せず）を含む。この比較器は、効果的に対象の音を検出するために、分類された対象の音のスペクトル特性と、事前に保存されている（pre stored）音特性のセットとを比較する。

発明の作用のための最良の実施形態／実施例
以上説明した動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法は、以下の段落において示される実施例によって説明することができる。なお、本発明のプロセスは、以下の実施例にのみ限定されるものではない。

図９に示すような、様々な交通音の中から、クラクション音を特定するケースを検討する。このために、クラクション音に関連するデータと、その他の交通音に関連するデータとを含むデータがトレーニング目的のために選択される。一揃いのデータベースが２つのメインクラス、すなわち、クラクション音と、その他の交通音とに分割される。トレーニング用の工程（１０１）では、１分間の記録データが各音クラス用に用いられる。工程（１０２）では、クラクション用の１３７種の異なる音記録を含む２分間クラクションデータと、８７種の異なる記録を有するその他の交通音用の約１０分間データとに対し、テストが実行される。これらのトレーニングデータおよびテストデータのセットは、提案のシステムのロバスト性（robustness）が様々な条件（varying conditions）でチェック可能となるように、それぞれ異なるセッションの記録から生成される。

有効フレーム（valid frame）を選択するために、ハミング窓がトレーニングデータセットと、テスト音の双方に適用される。スペクトルエネルギー分布に基づいて、第１のメルフィルタバンク、第２のメルフィルタバンク（第１のメルフィルタバンクの反転）および改変メルフィルタバンクが用いられる。特徴抽出段階において、従来ＭＦＣＣ（第１のメルフィルタバンクを参照するもの）が、比較（comparative study）のため、反転ＭＦＣＣ（第２のメルフィルタバンクを参照するもの）および改変ＭＦＣＣと共に用いられる。選択された有効フレームに対し、メル周波数ケプストラム係数（ＭＦＣＣ）が演算され、さらなる特徴がこれら３つ全てのメルフィルタバンクから抽出される。これらＭＦＣＣ演算の全てにおいて、１３次元の特徴が用いられる。モデリング（Modeling）は、異なる数の混合用のガウス混合モデル（ＧＭＭ）を用いて実行され、最終的に、複数のテスト音が、これらトレーニングされたモデルからの最尤基準（maximum likelihood criterion）によって分類される。

１つ以上の事前保存されている音に対してパターンマッチングが実行され、テスト音が特定される。

表１：従来ＭＦＣＣ、反転ＭＦＣＣ（ＩＭＦＣＣ）および改変ＭＦＣＣのクラクション分類結果

これらテスト結果は、反転ＭＦＣＣ特徴を用いた場合に、従来ＭＦＣＣを用いた場合と比較して、クラクション検出率が向上していることを明確に示しており、クラクション音のスペクトル特性に基づいた従来メルフィルタバンク構造の反転の有効性を示すものである。よって、これらテスト結果は、反転ＭＦＣＣにより、クラクション分類の正確性を向上させるためのより良い特徴選択が可能であることを示している。

さらに、改変ＭＦＣＣを用いた場合、クラクション検出率は、従来ＭＦＣＣおよび反転ＭＦＣＣを用いた場合と比較して、全てのガウス混合モデルサイズにおいて著しく向上した。これは、ＭＦＣＣ特徴演算におけるスペクトルエネルギー分布の重要性を示し、改変ＭＦＣＣがクラクション検出により適した特徴であることを示している。同様に、従来ＭＦＣＣを用いた場合と比較して、改変ＭＦＣＣと反転ＭＦＣＣを用いた場合は、偽警報率（FAR: False Alarm Rate）も、減少している。

さらに、上述のシステムの性能は、これらＭＦＣＣバリエーション全て、すなわち、従来ＭＦＣＣ、反転ＭＦＣＣおよび改変ＭＦＣＣの微分特徴（derivative features）を含むことによって評価することができる。微分特徴は、演算の複雑性が増大する場合での、分類正確性の分析に有用である。

本発明の有利な効果
１．クラクション音をその他の音から区別可能とするクラクション音の特性に対する既存の特徴抽出技術を効果的に改変（modification）することができる。
２．音スペクトルの高周波領域において、より多くの情報を含むＭＦＣＣを演算するための反転メルフィルタバンクを設計することができる。
３．改変メルフィルタバンクで演算されたＭＦＣＣは、より優れた分類を提供することができる。
４．特定のタイプの音を検出するために、汎用化された特徴を提供する既存のメルフィルタバンク構造を改変することにより、スペクトルエネルギー分布の特徴の変化をＭＦＣＣ演算において利用することができる。

Claims

動的に変化する複数の様々な音の中から、対象の音を検出するシステムであって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位周波数を特定するよう構成されたスペクトル検出モジュールと、
第１のメルフィルタバンクと、前記第１のメルフィルタバンクを反転させた第２のフィルタバンクを含む、第３のフィルタバンクと、
前記第３のフィルタバンクに接続され、前記第３のフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、
前記対象の音を検出するために、前記特定された優位周波数にしたがって、前記対象の音の前記抽出されたスペクトル特性を分類するようトレーニングされた分類器と、を含み、
前記各フィルタバンク内の各フィルタは、前記対象の音を検出するために、音エネルギーの周波数バンドをフィルタリングするよう構成されており、
前記第３のフィルタバンクは、前記対象の音の検出のために、前記特定された優位周波数にしたがって、前記第１のメルフィルタバンクと前記第２のフィルタバンクのスペクトル位置を修正することによって設計されていることを特徴とする前記システム。
前記分類器は、前記対象の音の前記抽出されたスペクトル特性を分類するガウス混合モデル（ＧＭＭ）を含む請求項１に記載のシステム。
前記動的に変化する複数の様々な音は、自動車のクラクション音を含む請求項１に記載のシステム。
前記システムの性能評価を提供するために、前記第１のメルフィルタバンク、前記第２のフィルタバンクおよび前記第３のフィルタバンクから抽出された複数の特徴を融合するよう構成された融合モジュールをさらに含む請求項１に記載のシステム。
前記分類器は、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する比較器をさらに含む請求項１に記載のシステム。
動的に変化する複数の様々な音の中から、特定の対象の音を検出する方法であって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル中に存在する優位周波数を特定する工程と、
前記対象の音の検出のために、前記特定された優位周波数にしたがって、第１のメルフィルタバンクと、前記第１のメルフィルタバンクを反転させた第２のフィルタバンクのスペクトル位置を修正することによって、フィルタバンクを改変する工程と、
前記改変されたフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出する工程と、
前記特定した優位周波数にしたがって、前記対象の音を検出するため、前記対象の音の前記抽出されたスペクトル特性を分類する工程と、を含むことを特徴とする前記方法。
前記優位周波数は、前記対象の音の音エネルギーのスペクトル内における最大エネルギーを含む周波数バンドを含む請求項６に記載の方法。
前記特定された優位周波数にしたがって、前記フィルタバンクを改変する工程は、前記優位周波数から前記第１のメルフィルタバンクの最大周波数までの範囲と、前記第２のフィルタバンクの最小周波数から前記優位周波数までの範囲とをカバーする周波数範囲をもたらす請求項６に記載の方法。
前記対象の音を検出する際に、性能評価を提供するため、前記第１のメルフィルタバンク、前記第２のフィルタバンクおよび前記改変されたフィルタバンクから抽出された複数の特徴を融合する工程をさらに含む請求項６に記載の方法。
前記分類する工程は、前記対象の音を検出するため、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する工程を含む請求項６に記載の方法。