JP5922263B2 - 特定の対象音を検出するシステム及び方法 - Google Patents
特定の対象音を検出するシステム及び方法 Download PDFInfo
- Publication number
- JP5922263B2 JP5922263B2 JP2014558271A JP2014558271A JP5922263B2 JP 5922263 B2 JP5922263 B2 JP 5922263B2 JP 2014558271 A JP2014558271 A JP 2014558271A JP 2014558271 A JP2014558271 A JP 2014558271A JP 5922263 B2 JP5922263 B2 JP 5922263B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- filter bank
- frequency
- mel filter
- target sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
[1].Rijurekha Sen、Vishal Sevani、Prashima Sharama、Zahir Koradia and Bhaskaran Raman、「地域開発のための通信補助道路輸送システムにおける試み(“Challenges In Communication Assisted Road Transportation Systems for Developing Regions”)」、NSDR’09, 2009年10月
[2].Prashanth Mohan、Venkata N. Padmanabhan、Ramachandran Ramjee、「Nericell:モバイルスマートフォンを用いた道路および交通状況のリッチモニタリング(“Nericell: Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones”)」、Sensys’08、マイクロソフトリサーチラボ
[3].Vivek Tyagi、Shivkumar Kalyanaraman、Raghuram Krishnapuram、「累積された道路音声に基づく車両交通密度状態推定(“Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics”)」、IBMリサーチレポート
[4].Sandipan Chakroborty、Anindya Roy and Goutam Saha、「フリップフィルタバンクからのエビデンスをMFCCと組み合わせることによる改良クローズドセットテキスト独立話者認証(“Improved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks”)」、International Journal of Information and Communication Engineering、2008年
[5].Arun Ross、Anil Jain、「バイオメトリクスにおける情報融合“Information fusion in biometrics”」、Pattern Recognition Letters、2003年
[6].「マルチモーダル入力の接続および融合判断のための方法およびシステム(“A Method and System for Association and Decision Fusion of Multimodal Input”)」、インド国特許出願第1451/MUM/2011号
[7].Douglas A. Reynolds、Richard C. Rose、「ガウス混合話者モデルを用いたロバストテキスト独立話者認証“Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”」、IEEE Trans. on Speech and Audio Processing、vol. 3、no. 1、1995年
1.ハミング、ハニングまたは矩形窓(ウインドウ)のようないくつかの窓関数を用いて、信号から固定サイズ時間窓を取得する(図8の工程802)。
2.窓関数が適用された(windowed)信号の離散フーリエ変換を演算する。
3.それにより得られたスペクトルの強度(パワー)を、三角オーバーラップ窓(triangular overlapping windows)を用いて、メル尺度上にマッピングする。
4.各メルフィルタでのエネルギーを演算し、演算されたエネルギー値の対数(ログ)を取る。
5.最終的に、これら対数エネルギー値の離散コサイン変換を取ることにより、MFCCが演算される(図8の工程808)。
ここで、
以上説明した動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法は、以下の段落において示される実施例によって説明することができる。なお、本発明のプロセスは、以下の実施例にのみ限定されるものではない。
1.クラクション音をその他の音から区別可能とするクラクション音の特性に対する既存の特徴抽出技術を効果的に改変(modification)することができる。
2.音スペクトルの高周波領域において、より多くの情報を含むMFCCを演算するための反転メルフィルタバンクを設計することができる。
3.改変メルフィルタバンクで演算されたMFCCは、より優れた分類を提供することができる。
4.特定のタイプの音を検出するために、汎用化された特徴を提供する既存のメルフィルタバンク構造を改変することにより、スペクトルエネルギー分布の特徴の変化をMFCC演算において利用することができる。
Claims (10)
- 動的に変化する複数の様々な音の中から、対象の音を検出するシステムであって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位周波数を特定するよう構成されたスペクトル検出モジュールと、
第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクを含む、第3のフィルタバンクと、
前記第3のフィルタバンクに接続され、前記第3のフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、
前記対象の音を検出するために、前記特定された優位周波数にしたがって、前記対象の音の前記抽出されたスペクトル特性を分類するようトレーニングされた分類器と、を含み、
前記各フィルタバンク内の各フィルタは、前記対象の音を検出するために、音エネルギーの周波数バンドをフィルタリングするよう構成されており、
前記第3のフィルタバンクは、前記対象の音の検出のために、前記特定された優位周波数にしたがって、前記第1のメルフィルタバンクと前記第2のフィルタバンクのスペクトル位置を修正することによって設計されていることを特徴とする前記システム。 - 前記分類器は、前記対象の音の前記抽出されたスペクトル特性を分類するガウス混合モデル(GMM)を含む請求項1に記載のシステム。
- 前記動的に変化する複数の様々な音は、自動車のクラクション音を含む請求項1に記載のシステム。
- 前記システムの性能評価を提供するために、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記第3のフィルタバンクから抽出された複数の特徴を融合するよう構成された融合モジュールをさらに含む請求項1に記載のシステム。
- 前記分類器は、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する比較器をさらに含む請求項1に記載のシステム。
- 動的に変化する複数の様々な音の中から、特定の対象の音を検出する方法であって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル中に存在する優位周波数を特定する工程と、
前記対象の音の検出のために、前記特定された優位周波数にしたがって、第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクのスペクトル位置を修正することによって、フィルタバンクを改変する工程と、
前記改変されたフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出する工程と、
前記特定した優位周波数にしたがって、前記対象の音を検出するため、前記対象の音の前記抽出されたスペクトル特性を分類する工程と、を含むことを特徴とする前記方法。 - 前記優位周波数は、前記対象の音の音エネルギーのスペクトル内における最大エネルギーを含む周波数バンドを含む請求項6に記載の方法。
- 前記特定された優位周波数にしたがって、前記フィルタバンクを改変する工程は、前記優位周波数から前記第1のメルフィルタバンクの最大周波数までの範囲と、前記第2のフィルタバンクの最小周波数から前記優位周波数までの範囲とをカバーする周波数範囲をもたらす請求項6に記載の方法。
- 前記対象の音を検出する際に、性能評価を提供するため、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記改変されたフィルタバンクから抽出された複数の特徴を融合する工程をさらに含む請求項6に記載の方法。
- 前記分類する工程は、前記対象の音を検出するため、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する工程を含む請求項6に記載の方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| IN462MU2012 | 2012-02-21 | ||
| IN462/MUM/2012 | 2012-02-21 | ||
| PCT/IN2013/000089 WO2013124862A1 (en) | 2012-02-21 | 2013-02-11 | Modified mel filter bank structure using spectral characteristics for sound analysis |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015508187A JP2015508187A (ja) | 2015-03-16 |
| JP5922263B2 true JP5922263B2 (ja) | 2016-05-24 |
Family
ID=49005103
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014558271A Active JP5922263B2 (ja) | 2012-02-21 | 2013-02-11 | 特定の対象音を検出するシステム及び方法 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US9704495B2 (ja) |
| EP (1) | EP2817800B1 (ja) |
| JP (1) | JP5922263B2 (ja) |
| CN (1) | CN104221079B (ja) |
| AU (1) | AU2013223662B2 (ja) |
| WO (1) | WO2013124862A1 (ja) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20130132128A1 (en) | 2011-11-17 | 2013-05-23 | Us Airways, Inc. | Overbooking, forecasting and optimization methods and systems |
| US9727940B2 (en) | 2013-03-08 | 2017-08-08 | American Airlines, Inc. | Demand forecasting systems and methods utilizing unobscuring and unconstraining |
| US11321721B2 (en) | 2013-03-08 | 2022-05-03 | American Airlines, Inc. | Demand forecasting systems and methods utilizing prime class remapping |
| US20140278615A1 (en) | 2013-03-15 | 2014-09-18 | Us Airways, Inc. | Misconnect management systems and methods |
| CN103873254B (zh) * | 2014-03-03 | 2017-01-25 | 杭州电子科技大学 | 一种人类声纹生物密钥生成方法 |
| CN106297805B (zh) * | 2016-08-02 | 2019-07-05 | 电子科技大学 | 一种基于呼吸特征的说话人识别方法 |
| CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
| CN108053837A (zh) * | 2017-12-28 | 2018-05-18 | 深圳市保千里电子有限公司 | 一种汽车转向灯声音信号识别的方法和系统 |
| CN109087628B (zh) * | 2018-08-21 | 2023-03-31 | 广东工业大学 | 一种基于轨迹的时间-空间光谱特征的语音情感识别方法 |
| US11170799B2 (en) * | 2019-02-13 | 2021-11-09 | Harman International Industries, Incorporated | Nonlinear noise reduction system |
| CN110491417A (zh) * | 2019-08-09 | 2019-11-22 | 北京影谱科技股份有限公司 | 基于深度学习的语音情感识别方法和装置 |
| US11418901B1 (en) | 2021-02-01 | 2022-08-16 | Harman International Industries, Incorporated | System and method for providing three-dimensional immersive sound |
| CN114255783B (zh) * | 2021-12-10 | 2025-01-24 | 上海应用技术大学 | 声音分类模型的构建方法、声音分类方法和系统 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2748342B1 (fr) | 1996-05-06 | 1998-07-17 | France Telecom | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
| US5771299A (en) * | 1996-06-20 | 1998-06-23 | Audiologic, Inc. | Spectral transposition of a digital audio signal |
| KR100361883B1 (ko) | 1997-10-03 | 2003-01-24 | 마츠시타 덴끼 산교 가부시키가이샤 | 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 |
| US6173260B1 (en) | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
| US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
| US6253175B1 (en) * | 1998-11-30 | 2001-06-26 | International Business Machines Corporation | Wavelet-based energy binning cepstal features for automatic speech recognition |
| US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
| US8194865B2 (en) * | 2007-02-22 | 2012-06-05 | Personics Holdings Inc. | Method and device for sound detection and audio control |
| EP2028647B1 (de) | 2007-08-24 | 2015-03-18 | Deutsche Telekom AG | Verfahren und Vorrichtung zur Sprecherklassifizierung |
| CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
| JP2010141468A (ja) * | 2008-12-10 | 2010-06-24 | Fujitsu Ten Ltd | 車載音響装置 |
| JP5384952B2 (ja) * | 2009-01-15 | 2014-01-08 | Kddi株式会社 | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
| US8412525B2 (en) | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
-
2013
- 2013-02-11 JP JP2014558271A patent/JP5922263B2/ja active Active
- 2013-02-11 EP EP13751343.8A patent/EP2817800B1/en active Active
- 2013-02-11 CN CN201380010272.3A patent/CN104221079B/zh active Active
- 2013-02-11 WO PCT/IN2013/000089 patent/WO2013124862A1/en not_active Ceased
- 2013-02-11 AU AU2013223662A patent/AU2013223662B2/en active Active
- 2013-02-11 US US14/380,297 patent/US9704495B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015508187A (ja) | 2015-03-16 |
| AU2013223662A1 (en) | 2014-09-11 |
| EP2817800A1 (en) | 2014-12-31 |
| CN104221079A (zh) | 2014-12-17 |
| US20150016617A1 (en) | 2015-01-15 |
| EP2817800A4 (en) | 2015-09-02 |
| CN104221079B (zh) | 2017-03-01 |
| US9704495B2 (en) | 2017-07-11 |
| AU2013223662B2 (en) | 2016-05-26 |
| EP2817800B1 (en) | 2016-10-19 |
| WO2013124862A1 (en) | 2013-08-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5922263B2 (ja) | 特定の対象音を検出するシステム及び方法 | |
| CN103646649B (zh) | 一种高效的语音检测方法 | |
| CN103489446B (zh) | 复杂环境下基于自适应能量检测的鸟鸣识别方法 | |
| US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
| CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
| CN101149928B (zh) | 声音信号处理方法、声音信号处理设备及计算机程序 | |
| CN107657964A (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
| Ghaemmaghami et al. | Noise robust voice activity detection using features extracted from the time-domain autocorrelation function | |
| Paul et al. | Countermeasure to handle replay attacks in practical speaker verification systems | |
| US20190206418A1 (en) | Device and a method for classifying an acoustic environment | |
| Wang et al. | Speaker identification with whispered speech for the access control system | |
| Fonseca et al. | Discrete wavelet transform and support vector machine applied to pathological voice signals identification | |
| Dişken et al. | A robust polynomial regression-based voice activity detector for speaker verification | |
| Islam et al. | Neural-Response-Based Text-Dependent speaker identification under noisy conditions | |
| Ghezaiel et al. | Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification | |
| Aggarwal et al. | Characterization between child and adult voice using machine learning algorithm | |
| Cai et al. | The best input feature when using convolutional neural network for cough recognition | |
| Banerjee et al. | Two stage feature extraction using modified MFCC for honk detection | |
| Morales-Cordovilla et al. | On the use of asymmetric windows for robust speech recognition | |
| Karjigi et al. | Investigation of different time–frequency representations for detection of fricatives | |
| Indumathi et al. | An efficient speaker recognition system by employing BWT and ELM | |
| Jamaludin et al. | An improved time domain pitch detection algorithm for pathological voice | |
| Tu et al. | Computational auditory scene analysis based voice activity detection | |
| Oo et al. | Enhancement of Speaker Identification System Based on Voice Active Detection Techniques using Machine Learning | |
| CN118155655B (zh) | 一种针对语音对抗攻击的语音自然度评估方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150807 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151109 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160412 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160413 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5922263 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
