KR20200038292A - 음성 스피치 및 피치 추정의 낮은 복잡성 검출 - Google Patents
음성 스피치 및 피치 추정의 낮은 복잡성 검출 Download PDFInfo
- Publication number
- KR20200038292A KR20200038292A KR1020207007058A KR20207007058A KR20200038292A KR 20200038292 A KR20200038292 A KR 20200038292A KR 1020207007058 A KR1020207007058 A KR 1020207007058A KR 20207007058 A KR20207007058 A KR 20207007058A KR 20200038292 A KR20200038292 A KR 20200038292A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- speech
- voiced
- pitch
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
전술한 것은(foregoing) 유사한 참조 부호들(reference characters)이 상이한 뷰들(different views) 전체에 걸쳐 동일한 부분들을 참조하는 첨부 도면들에 설명된 바와 같이, 예시적 실시예의 따라오는 더 상세한 기술로부터 명백 할 것이다.
도 1a는 차량 내 통신(in-car-communication, ICC) 시스템의 예시적 실시예(example embodiment)가 이용될(employed) 수 있는 자동차의 예시적 실시예의 도면(diagram)이다.
도 1b는 오디오 통신 시스템에서 음성 품질 향상을 위한 방법의 예시적 실시예의 흐름도(flow diagram)이다.
도 2는 스피치 생성의(speech production)의 예시적 실시예의 블록도(block diagram)이다.
도 3은 유성음을 포함하는 오디오 신호의 예시적 실시예의 스펙트럼 도메인 표현(spectral-domain representation)이다.
도 4는 유성 음소(voiced phoneme)를 캡쳐하는(captures) 오디오 신호의 간격의 전자적 표현의 오디오 샘플들의 롱 윈도우 및 숏 윈도우의 예시적인 실시예의 시간 도메인 표현(time-domain representation)이다.
도 5는 다수의 숏 윈도우들의 예시적 실시예의 시간 도메인 표현이다.
도 6은 도 5의 두개의 숏 윈도우들을 위한 그것에(thereto) 관련된 플롯들의 예시적 실시예의 시간 도메인에서 스펙트럼 도메인으로의 변환 표현(transformation representation)이다.
도 7a는 다수의 여기 임펄스들(multiple excitation impulses)을 캡쳐하는 롱 윈도우의 예시적 실시예의 플롯(plot)이다.
도 7b는 크기 정보만을 사용하는 피치 주파수(pitch frequency)를 반영하는(reflects) 전력 스펙트럼 밀도(power spectral density)의 예시적 실시예의 플롯이다.
도 7c는 자기 상관 함수(autocorrelation function, ACF)의 최대값에 의하여 결정될 수 있는 피치 주기를 도시하는 플롯이다.
도 7d는 두개의 숏 윈도우들의 예시적 실시예의 플롯이다.
도 7e는 프레임들 사이에 일반화된 상호 상관관계(generalized cross-correlation, GCC)의 예시적인 실시예의 플롯이다.
도 7f는 도 7e의 GCC의 정규화된 상호 스펙트럼(normalized cross spectrum, GCSxx)의 위상의 예시적 실시예의 위상의 플롯이다.
도 8a는 검출 결과들(detection results)의 플롯이다.
도 8b는 피치 추정 결과들(pitch estimation results)의 플롯이다.
도 9는 신호 대 잡음비(signal-to-noise ratio, SNR)에 대한(over) 베이스라인 방법들(baseline methods) 및 예시적 실시예에 대한 성능 결과들(performance results)의 플롯이다.
도 10은 피치 주파수 추정치들(estimates)의 오차들(errors)의 분포를 도시하는 플롯이다.
도 11은 그로스 피치 오차(gross pitch error, GPE)의 플롯이다.
도 12는 오디오 통신 시스템에서 음성 품질 향상을 위한 장치의 예시적 실시예의 블록도이다.
도 13은 잡음을 억제함으로써(suppressing) 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 14는 이득 제어(gain control)를 통해 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 15는 손실 제어(loss control)를 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 16은 스피치 및 피치 검출에 기초하여 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 17은 선택적으로(optionally) 본 명세서에(herein) 개시된 실시예 내에서 컴퓨터의 예시적 내부 구조의 블록도이다.
Claims (20)
- 오디오 통신 시스템(audio communications system)에서 음성 품질 향상(enhancement)을 위한 방법에 있어서,
상기 오디오 통신 시스템에 의해 캡쳐된(captured) 유성음(voiced speech) 및 잡음(noise)을 포함하는 오디오 신호에서 상기 유성음의 존재(presence)를 모니터링하는(monitoring) 단계; - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수들에 있고, 상기 모니터링은 적어도 하나의 이전 숏 윈도우(previous short window)에서 상기 오디오 신호의 이전 오디오 샘플들(previous audio samples) 및 현재 숏 윈도우(present short window)에서 상기 오디오 신호의 현재 오디오 샘플들(present audio samples)의 개별적인 주파수 도메인 표현들(respective frequency domain representations) 사이에 위상차들(phase differences)을 산출하는(computing) 단계를 포함함 -
상기 개별적인 주파수 도메인 표현들 사이에서 산출된 상기 위상차들이 주파수에 걸쳐(over) 실질적으로 선형(linear)인지 결정하는(determining) 단계; 및
산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 유성음이 검출되는 경우에 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신되는(communicated) 상기 유성음의 음성 품질을 향상시키는 단계
를 포함하는 음성 품질 향상 방법.
- 제1항에 있어서,
상기 현재 및 적어도 하나의 이전 숏 윈도우는 상기 오디오 신호에서 상기 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기(full period)의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 갖는,
음성 품질 향상 방법.
- 제2항에 있어서,
상기 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템이고, 상기 윈도우 길이는 상기 ICC 시스템에서 오디오 통신 지연(audio communication latency)을 감소시키도록 설정되는,
음성 품질 향상 방법.
- 제1항에 있어서,
상기 존재가 검출되는 것 및 산출된 상기 위상차들(phase differences)에 기초하여, 주파수 도메인에서 직접(directly), 상기 유성음의 피치 주파수를 추정하는 단계
를 더 포함하는 음성 품질 향상 방법.
- 제1항에 있어서,
상기 산출하는 단계는,
상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼(normalized cross-spectrum)의 인접하는(neighboring) 주파수들 사이의 위상 관계들(phase relations)의 주파수에 대한(over) 가중합(weighted sum)을 산출하는 단계;
산출된 상기 가중 합의 평균값(mean value)을 산출하는 단계
를 포함하고; 및
상기 결정하는 단계는,
산출된 상기 위상차들이 실질적으로 선형인지 결정하기 위해 산출된 상기 평균값의 크기(magnitude)를 선형성을 나타내는 임계값(threshold value)과 비교하는 단계
를 포함하는 음성 품질 향상 방법.
- 제5항에 있어서,
상기 평균값은 복소수(complex number)이고, 산출된 상기 위상차들이 실질적으로 선형으로 결정되는 경우, 상기 방법은 상기 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주기(pitch period)를 추정하는 단계
를 더 포함하는 음성 품질 향상 방법.
- 제5항에 있어서,
상기 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들에 산출된 상기 평균값을 비교하는 단계; 및
가장 높은 평균값의 각도에 기초하여 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계 - 상기 가장 높은 평균값은 상기 비교에 기초하여 다른 평균값들 및 상기 평균값 중에서 선택됨 -
를 더 포함하는 음성 품질 향상 방법.
- 제5항에 있어서,
상기 가중합을 산출하는 단계는,
유성음의 주파수 범위의 주파수들에서 가중 계수들(weighting coefficients)을 이용하고(employing), 및 적어도 하나의 이전 프레임(previous frame)이 다중 프레임들(multiple frames)을 포함하는 경우 평활 상수(smoothing constant)를 적용하는 단계
를 포함하는 음성 품질 향상 방법.
- 제1항에 있어서,
상기 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계를 더 포함하고:
상기 산출하는 단계는 상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 단계를 포함하고; 및
상기 추정하는 단계는 산출된 상기 정규화된 상호 스펙트럼의 기울기(slope)를 산출하고 산출된 상기 기울기를 피치 주기로 변환하는 단계
를 포함하는 음성 품질 향상 방법.
- 제1항에 있어서,
상기 존재가 검출되는 것 및 산출된 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계; 및
상기 존재가 검출되지 않은 것에 기초하여 상기 오디오 신호에 감쇠 인자(attenuation factor)를 적용하는 단계를 포함하고,
상기 스피치 향상은,
추정된 상기 피치 주파수에 기초하여 상기 유성음을 재구성(reconstructing)하는 것, 잡음 추적(noise tracking)을 디스에이블(disabling)하는 것, 상기 오디오 신호에 적응 이득(adaptive gain)을 적용하는 것, 또는 이들의 조합을 포함하는,
음성 품질 향상 방법.
- 오디오 통신 시스템에서 음성 품질 향상을 위한 장치로서,
상기 오디오 통신 시스템에 의해 캡쳐된 유성음 및 잡음을 포함하는 오디오 신호의 전자적 표현을 생성하도록 구성된 오디오 인터페이스(audio interface); - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수들에 있음 - 및
상기 오디오 인터페이스에 결합된(coupled) 프로세서, - 상기 프로세서는 오디오 인핸서(audio enhancer) 및 스피치 검출기(speech detector)를 구현(implement)하도록 구성되고,
상기 스피치 검출기는,
상기 오디오 인핸서에 결합되어,
상기 오디오 신호에서 상기 유성음의 존재를 모니터링하고, - 상기 모니터링 동작은 현재 숏 윈도우에서 상기 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 상기 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 위상차들을 산출하는 것을 포함함 - ;
상기 개별적인 주파수 도메인 표현들 사이에서 산출된 상기 위상차들이 주파수에 걸쳐(over) 실질적으로 선형인지 결정하며; 및
산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 존재의 지시(indication)를 상기 오디오 인핸서에 통신하도록 구성되고,
상기 오디오 인핸서는,
통신된 상기 지시에 기초한 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신된 상기 유성음의 음성 품질을 향상시키도록 구성되는,
음성 품질 향상을 위한 장치.
- 제11항에 있어서,
상기 현재 및 적어도 하나의 이전 숏 윈도우는 상기 오디오 신호에서 상기 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 가지고,
상기 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템이며, 및 상기 윈도우 길이는 상기 ICC 시스템에서 오디오 통신 지연을 감소시키도록 설정되는,
음성 품질 향상을 위한 장치.
- 제11항에 있어서,
상기 스피치 검출기는,
상기 존재가 검출되는 것 및 산출된 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 더 구성되는,
음성 품질 향상을 위한 장치.
- 제11항에 있어서,
상기 산출 동작은,
상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼의 인접하는 주파수들 사이의 위상 관계들의 주파수에 대한(over) 가중합을 산출하는 것;
산출된 상기 가중 합의 평균값(mean value)을 산출하는 것을 포함하고; 및
상기 결정하는 동작은,
산출된 상기 위상차들이 실질적으로 선형인지 결정하기 위해, 산출된 상기 평균값의 크기를 선형성을 나타내는 임계값(threshold value)에 비교하는 것
을 포함하는 음성 품질 향상을 위한 장치.
- 제14항에 있어서,
상기 평균값은 복소수(complex number)이고, 산출된 상기 위상차들이 실질적으로 선형으로 결정되는 경우, 상기 스피치 검출기는 상기 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주기를 추정하도록 더 구성되는,
음성 품질 향상을 위한 장치.
- 제14항에 있어서,
상기 스피치 검출기는,
상기 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 상기 평균값을 비교하고; 및
가장 높은 평균값의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 - 상기 가장 높은 평균값은 상기 비교 동작에 기초한 다른 평균값들 및 상기 평균값 중에서 선택됨 -
더 구성되는,
음성 품질 향상을 위한 장치.
- 제14항에 있어서,
상기 가중합을 산출하기 위하여, 상기 스피치 검출기는 유성음의 주파수 범위의 주파수들에서 가중 계수들을 이용하고, 및 적어도 하나의 이전 프레임이 다중 프레임들을 포함하는 경우 평활 상수를 적용하도록 더 구성되는,
음성 품질 향상을 위한 장치.
- 제11항에 있어서,
상기 스피치 검출기는,
상기 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 더 구성되고,
상기 산출 동작은 상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 것을 포함하고,
상기 추정 동작은 산출된 상기 정규화된 상호 스펙트럼의 기울기를 산출하는 것, 및 산출된 상기 기울기를 피치 주기로 변환하는(converting) 것을 포함하는,
음성 품질 향상을 위한 장치.
- 제11항에 있어서,
상기 스피치 검출기는,
상기 존재가 검출되는 것 및 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하고, 및 상기 오디오 인핸서(audio enhancer)에 추정된 상기 피치 주파수를 통신하도록 더 구성되고,
상기 오디오 인핸서는,
상기 존재가 검출되지 않음을 지시하는(indicating) 상기 지시에 기초하여 상기 오디오 신호에 감쇠 인자를 적용하도록 더 구성되고,
상기 스피치 향상은,
추정되고 통신되는 상기 피치 주파수에 기초하여 상기 유성음을 재구성하는 것, 잡음 추적을 디스에이블하는 것, 상기 오디오 신호에 적응 이득을 적용하는 것, 또는 이들의 조합을 포함하는,
음성 품질 향상을 위한 장치.
- 오디오 통신 시스템에서 음성 품질 향상을 위한 비 일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 있어서, 상기 비 일시적 컴퓨터 판독 가능 매체는 상기 매체 상에(thereon) 인코딩된 일련의 명령들(sequence of instructions)을 가지고, 상기 일련의 명령들은 프로세서(processor)에 의해 로드되고(loaded) 실행되는(executed) 경우 프로세서가:
상기 오디오 통신 시스템에 의해 캡쳐된 유성음 및 잡음을 포함하는 오디오 신호에서 유성음의 존재를 모니터링하고, - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수에 있고, 상기 모니터링 동작은 현재 숏 윈도우에서 상기 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 상기 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 산출하는 것을 포함함 -
상기 개별적인 주파수 도메인 표현들 사이에 산출된 상기 위상차들이 주파수에 걸쳐 실질적으로 선형인지 결정하며, 및
산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 유성음이 검출되는 경우, 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신되는 상기 유성음의 음성 품질을 향상시키도록 유발(cause)하는,
비 일시적 컴퓨터 판독 가능 매체.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/US2017/047361 WO2019035835A1 (en) | 2017-08-17 | 2017-08-17 | DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20200038292A true KR20200038292A (ko) | 2020-04-10 |
Family
ID=59738477
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020207007058A Abandoned KR20200038292A (ko) | 2017-08-17 | 2017-08-17 | 음성 스피치 및 피치 추정의 낮은 복잡성 검출 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US11176957B2 (ko) |
| EP (1) | EP3669356B1 (ko) |
| JP (1) | JP7052008B2 (ko) |
| KR (1) | KR20200038292A (ko) |
| CN (1) | CN111226278B (ko) |
| WO (1) | WO2019035835A1 (ko) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI790705B (zh) * | 2021-08-06 | 2023-01-21 | 宏正自動科技股份有限公司 | 語速調整方法及其系統 |
Family Cites Families (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3418005B2 (ja) | 1994-08-04 | 2003-06-16 | 富士通株式会社 | 音声ピッチ検出装置 |
| JP3616432B2 (ja) * | 1995-07-27 | 2005-02-02 | 日本電気株式会社 | 音声符号化装置 |
| WO1999059138A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Refinement of pitch detection |
| JP2000122698A (ja) | 1998-10-19 | 2000-04-28 | Mitsubishi Electric Corp | 音声符号化装置 |
| WO2004084187A1 (ja) | 2003-03-17 | 2004-09-30 | Nagoya Industrial Science Research Institute | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 |
| JP2004297273A (ja) | 2003-03-26 | 2004-10-21 | Kenwood Corp | 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム |
| US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
| JP4433734B2 (ja) | 2003-09-11 | 2010-03-17 | カシオ計算機株式会社 | 音声分析合成装置、音声分析装置、及びプログラム |
| JP5143569B2 (ja) | 2005-01-27 | 2013-02-13 | シンクロ アーツ リミテッド | 音響的特徴の同期化された修正のための方法及び装置 |
| KR100744352B1 (ko) * | 2005-08-01 | 2007-07-30 | 삼성전자주식회사 | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 |
| JP2007140000A (ja) | 2005-11-17 | 2007-06-07 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点処理のプログラム |
| US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
| KR20080036897A (ko) * | 2006-10-24 | 2008-04-29 | 삼성전자주식회사 | 음성 끝점을 검출하기 위한 장치 및 방법 |
| KR20080072224A (ko) * | 2007-02-01 | 2008-08-06 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
| CN101447190A (zh) * | 2008-06-25 | 2009-06-03 | 北京大学深圳研究生院 | 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法 |
| JP2011033717A (ja) * | 2009-07-30 | 2011-02-17 | Secom Co Ltd | 雑音抑圧装置 |
| US20110288860A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
| US9641934B2 (en) * | 2012-01-10 | 2017-05-02 | Nuance Communications, Inc. | In-car communication system for multiple acoustic zones |
| US20130275873A1 (en) * | 2012-04-13 | 2013-10-17 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
| US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
| WO2014136628A1 (ja) | 2013-03-05 | 2014-09-12 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
| WO2014194273A2 (en) * | 2013-05-30 | 2014-12-04 | Eisner, Mark | Systems and methods for enhancing targeted audibility |
| US9449594B2 (en) * | 2013-09-17 | 2016-09-20 | Intel Corporation | Adaptive phase difference based noise reduction for automatic speech recognition (ASR) |
| US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
| CN105845150B (zh) * | 2016-03-21 | 2019-09-27 | 福州瑞芯微电子股份有限公司 | 一种采用倒谱进行修正的语音增强方法及系统 |
| CN105788607B (zh) * | 2016-05-20 | 2020-01-03 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
| CN106971740B (zh) * | 2017-03-28 | 2019-11-15 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
-
2017
- 2017-08-17 KR KR1020207007058A patent/KR20200038292A/ko not_active Abandoned
- 2017-08-17 US US16/638,866 patent/US11176957B2/en active Active
- 2017-08-17 EP EP17758729.2A patent/EP3669356B1/en active Active
- 2017-08-17 WO PCT/US2017/047361 patent/WO2019035835A1/en not_active Ceased
- 2017-08-17 JP JP2020506335A patent/JP7052008B2/ja active Active
- 2017-08-17 CN CN201780095971.0A patent/CN111226278B/zh active Active
Also Published As
| Publication number | Publication date |
|---|---|
| CN111226278A (zh) | 2020-06-02 |
| JP7052008B2 (ja) | 2022-04-11 |
| US11176957B2 (en) | 2021-11-16 |
| EP3669356B1 (en) | 2024-07-03 |
| WO2019035835A1 (en) | 2019-02-21 |
| CN111226278B (zh) | 2023-08-25 |
| EP3669356C0 (en) | 2024-07-03 |
| JP2020533619A (ja) | 2020-11-19 |
| EP3669356A1 (en) | 2020-06-24 |
| US20210134311A1 (en) | 2021-05-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112951259B (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
| US8706483B2 (en) | Partial speech reconstruction | |
| JP5097504B2 (ja) | 音声信号のモデルベース強化 | |
| EP2151821B1 (en) | Noise-reduction processing of speech signals | |
| US6173258B1 (en) | Method for reducing noise distortions in a speech recognition system | |
| US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
| US20160284346A1 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
| US20070033020A1 (en) | Estimation of noise in a speech signal | |
| US20060116873A1 (en) | Repetitive transient noise removal | |
| US20090177468A1 (en) | Speech recognition with non-linear noise reduction on mel-frequency ceptra | |
| Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
| EP4128225B1 (en) | Noise supression for speech enhancement | |
| JP2012189907A (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
| JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
| Bahadur et al. | Performance measurement of a hybrid speech enhancement technique | |
| CN120783802A (zh) | 基于语音分析的驾驶情绪预警方法及系统 | |
| US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
| US11176957B2 (en) | Low complexity detection of voiced speech and pitch estimation | |
| JP4325044B2 (ja) | 音声認識システム | |
| JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
| Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
| US20250201259A1 (en) | Acoustic Echo Cancellation With Text-To-Speech (TTS) Data Loopback | |
| US20250279109A1 (en) | Streaming, Array-Agnostic, Full- and Sub-Band Modeling Front- End for Robust Automatic Speech Recognition | |
| Graf et al. | Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra. | |
| Graf | Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0105 | International application |
St.27 status event code: A-0-1-A10-A15-nap-PA0105 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| A201 | Request for examination | ||
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| PC1902 | Submission of document of abandonment before decision of registration |
St.27 status event code: N-1-6-B10-B11-nap-PC1902 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| R18 | Changes to party contact information recorded |
Free format text: ST27 STATUS EVENT CODE: A-3-3-R10-R18-OTH-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |








