KR101032805B1 - 음성 데이터 복호 장치 및 음성 데이터 복호 방법 - Google Patents

음성 데이터 복호 장치 및 음성 데이터 복호 방법 Download PDF

Info

Publication number
KR101032805B1
KR101032805B1 KR1020097001434A KR20097001434A KR101032805B1 KR 101032805 B1 KR101032805 B1 KR 101032805B1 KR 1020097001434 A KR1020097001434 A KR 1020097001434A KR 20097001434 A KR20097001434 A KR 20097001434A KR 101032805 B1 KR101032805 B1 KR 101032805B1
Authority
KR
South Korea
Prior art keywords
parameter
signal
loss
speech
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020097001434A
Other languages
English (en)
Other versions
KR20090025355A (ko
Inventor
히로노리 이또
가즈노리 오자와
Original Assignee
닛본 덴끼 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 닛본 덴끼 가부시끼가이샤 filed Critical 닛본 덴끼 가부시끼가이샤
Publication of KR20090025355A publication Critical patent/KR20090025355A/ko
Application granted granted Critical
Publication of KR101032805B1 publication Critical patent/KR101032805B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지의 여부를 검출한다. 음성 데이터 디코더는, 음성 데이터를 복호하여 제1 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 제1 복호 음성 신호로부터 제1 파라미터를 추출한다. 파라미터 수정부는, 로스 검출의 결과에 기초하여, 제1 파라미터를 수정한다. 음성 합성부는, 수정된 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성한다. 음성 데이터의 오류 보상에서의 음질의 열화가 방지된다.
음성 데이터, 로스 디텍터, 복호 장치, 파라미터 수정부

Description

음성 데이터 복호 장치 및 음성 데이터 복호 방법{AUDIO DATA DECODING DEVICE}
본 발명은, 음성 데이터의 복호 장치, 음성 데이터의 변환 장치 및 오류 보상 방법에 관한 것이다.
회선 교환망 또는 패킷망을 사용하여 음성 데이터를 전송할 때, 음성 데이터를 부호화, 복호를 행함으로써 음성 신호의 수수를 행하고 있다. 이 음성 압축의 방식으로서는, 예를 들면, ITU-T(International Telecommunication Union Telecommunication Standardization Sector) 권고 G.711 방식 및 CELP(Code-Excited Linear Prediction) 방식이 알려져 있다.
이들 압축 방식에 의해 부호화된 음성 데이터를 전송하면,무선 오류 또는 네트워크의 폭주 등에 의해, 음성 데이터의 일부가 결락하는 경우가 있다. 이 결락부에 대한 오류 보상으로서, 결락부보다 앞의 음성 데이터의 부분의 정보에 기초하여, 결락부에 대한 음성 신호의 생성을 행한다.
이와 같은 오류 보상에서는,음질이 열화되는 경우가 있다. 일본 특허 공개 제2002-268697호 공보는, 음질의 열화를 저감시키는 방법을 개시하고 있다. 이 방법에서는,늦게 수신한 패킷에 포함되는 음성 프레임 데이터를 이용하여, 필터 메모리값을 갱신한다. 즉, 로스된 패킷을 늦게 수신한 경우, 이 패킷에 포함되는 음 성 프레임 데이터를 이용하여, 피치 필터, 또는 스펙트럼 개형을 나타내는 필터에서 사용하는 필터 메모리값을 갱신한다.
또한,일본 특허 공개 제2005-274917호 공보는, ADPCM(Adaptive Differential Pulse Code Modulation) 부호화에 관련된 기술을 개시하고 있다. 이 기술은, 부호화측과 복호화측의 예측기의 상태 불일치에 의해 불쾌한 이상음을 출력한다고 하는 과제를 해결하는 것을 가능하게 한다. 이 과제는, 부호화 데이터의 결락 후에 올바른 부호화 데이터를 수취하여도 발생하는 경우가 있다. 즉, 패킷 손실이 「검출」로부터 「비검출」로 천이하고 나서 소정 시간, 검출 상태 제어부가 과거의 음성 데이터를 기초로 생성한 보간 신호의 강도를 서서히 감소시켜서, 시간이 지남에 따라 부호화측과 복호화측의 예측기의 상태가 점차로 일치하여 음성 신호가 정상으로 되어 가므로, 음성 신호의 강도를 서서히 증대시킨다. 그 결과, 이 기술은, 부호화 데이터의 결락 상태로부터 복구한 직후에서도 이상음을 출력하지 않는다고 하는 효과를 발휘한다.
또한,일본 특허 공개 평11-305797호 공보에서는, 음성 신호로부터 선형 예측 계수를 산출하고, 이 선형 예측 계수로부터 음성 신호를 생성하는 방법이 개시되어 있다.
<발명의 개시>
종래의 음성 데이터에 대한 오류 보상 방식은, 과거의 음성 파형을 반복하는 단순한 방식이기 때문에,상기한 바와 같은 기술이 개시되어 있지만, 음질에 여전히, 개선의 여지가 남아 있었다.
본 발명의 목적은, 음질의 열화를 방지하면서 음성 데이터의 오류를 보상하는 것이다.
파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지를 검출한다. 음성 데이터 디코더는, 음성 데이터를 복호하여 제1 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 제1 복호 음성 신호로부터 제1 파라미터를 추출한다. 파라미터 수정부는, 로스 검출의 결과에 기초하여 제1 파라미터를 수정한다. 음성 합성부는, 수정된 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성한다.
본 발명에 의하면, 음질의 열화를 방지하면서 음성 데이터의 오류가 보상된다.
도 1은 본 발명의 실시예 1의 음성 데이터 복호 장치의 구성을 나타내는 개략도.
도 2는 본 발명의 실시예 1의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.
도 3은 본 발명의 실시예 2의 음성 데이터 복호 장치의 구성을 나타내는 개략도.
도 4는 본 발명의 실시예 2의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.
도 5는 본 발명의 실시예 3의 음성 데이터 복호 장치의 구성을 나타내는 개략도.
도 6은 본 발명의 실시예 3의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.
도 7은 본 발명의 실시예 4의 음성 데이터 복호 장치의 구성을 나타내는 개략도.
도 8은 본 발명의 실시예 4의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.
도 9는 본 발명의 실시예 5의 음성 데이터 변환 장치의 구성을 나타내는 개략도.
도 10은 본 발명의 실시예 5의 음성 데이터 변환 장치의 동작을 나타내는 흐름도.
<발명을 실시하기 위한 최량의 형태>
본 발명의 실시 형태에 대하여 도면을 참조하면서 설명한다. 그러나, 이러한 형태는 본 발명의 기술적 범위를 한정하는 것은 아니다.
본 발명의 실시예 1에 대하여, 도 1 및 도 2를 참조하면서 이하에 설명한다.
도 1은, G.711 방식으로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 1의 음성 데이터 복호 장치는, 로스 디텍터(101), 음성 데이터 디코더(102), 음성 데이터 애널라이저(103), 파라미터 수정부(104), 음성 합성부(105) 및 음성 신호 출력부(106)를 구비한다. 여기에서, 음성 데이터란, 어떤 일련의 음성을 부호화한 데이터를 말하며,또한,적어도 1개의 음성 프레임을 포함하는 음성의 데이터를 말한다.
로스 디텍터(101)는, 수신한 음성 데이터를 음성 데이터 디코더(102)에 출력함과 함께,수신한 음성 데이터가 로스되었는지를 검출하고, 로스 검출 결과를 음성 데이터 디코더(102)와 파라미터 수정부(104)와 음성 신호 출력부(106)에 출력한다.
음성 데이터 디코더(102)는, 로스 디텍터(101)로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 출력부(106)와 음성 데이터 애널라이저(103)에 출력한다.
음성 데이터 애널라이저(103)는, 복호 음성 신호를 프레임마다 분할하고, 분할된 신호에 대하여 선형 예측 분석을 이용하여, 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다. 각 프레임의 길이는, 예를 들면, 20㎳이다. 다음으로,음성 데이터 애널라이저(103)는, 분할된 음성 신호를 서브 프레임으로 분할하고, 서브 프레임마다 과거의 음원 신호를 기초로 적응 코드북에서의 파라미터로서, 피치 주기에 대응하는 지연 파라미터와 적응 코드북 게인을 추출한다. 각 서브 프레임의 길이는, 예를 들면 5㎳이다. 또한,음성 데이터 애널라이저(103)는, 적응 코드북에 의해 해당하는 서브 프레임의 음성 신호를 피치 예측한다. 또한,음성 데이터 애널라이저(103)는, 피치 예측하여 구한 잔차 신호를 정규화하고, 정규화 잔차 신호와 정규화 잔차 신호 게인을 추출한다. 그리고, 추출한 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정 규화 잔차 신호 게인(이들은 파라미터라 불리는 경우가 있음)을 파라미터 수정부(104)에 출력한다. 음성 데이터 애널라이저(103)는, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 및 정규화 잔차 신호 게인 중으로부터 2개 이상을 추출하는 것이 바람직하다.
파라미터 수정부(104)는, 로스 디텍터(101)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 애널라이저(103)로부터 입력된 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 또는 ±1%의 난수를 가하거나, 혹은 게인을 작게 해 가는 등의 수정을 한다. 또한,파라미터 수정부(104)는, 수정하거나 또는 수정하지 않은 값을 음성 합성부(105)에 출력한다. 이들 값을 수정하는 이유는, 반복에 의해 부자연스러운 음성 신호가 생성되는 것을 피하기 위해서이다.
음성 합성부(105)는, 파라미터 수정부(104)로부터 입력된 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 사용하여 합성 음성 신호를 생성하고, 음성 신호 출력부(106)에 출력한다.
음성 신호 출력부(106)는, 로스 디텍터(101)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(102)로부터 입력된 복호 음성 신호, 음성 합성부(105)로부터 입력된 합성 음성 신호, 또는 복호 음성 신호와 합성 음성 신호를 어떤 비율로 혼합한 신호 중 어느 하나를 출력한다.
다음으로,도 2를 참조하면서, 실시예 1의 음성 데이터 복호 장치의 동작을 설명한다.
우선,로스 디텍터(101)는, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S601). 로스 디텍터(101)는, 무선망에서의 비트 오류를 CRC(Cyclic Redundancy Check) 부호를 이용하여 검출한 경우에 음성 데이터가 로스된 것으로 하여 검출하는 방법, 또는 IP(Internet Protocol)망에서의 로스를 RFC3550RTP(A Transport Protocol for Real-Time Applications) 헤더의 시퀀스 번호의 빠짐에 의해 검출한 경우에 음성 데이터가 로스된 것으로 하여 검출하는 방법을 이용할 수 있다.
로스 디텍터(101)가 음성 데이터의 로스를 검출하지 않았다고 하면, 음성 데이터 애널라이저(102)가 수신한 음성 데이터를 복호하고, 음성 신호 출력부에 출력한다(스텝 S602).
로스 디텍터(101)가 음성 데이터의 로스를 검출하였다고 하면, 음성 데이터 애널라이저(103)가, 음성 데이터의 로스 직전의 부분에 대응하는 복호 음성 신호에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출한다(스텝 S603). 여기에서, 복호 음성 신호의 분석은, 음성 데이터의 로스 직전의 부분에 대응하는 복호 음성 신호에 대하여 행하여도 되고, 모든 복호 음성 신호에 대하여 행하여도 된다. 다음으로,파라미터 수정부(104)는 로스 검출 결과에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 혹은 ±1%의 난수를 가하는 등으로 하여 수정한다(스텝 S604). 음성 합성부(105)는, 이들 값을 사용하여, 합성 음성 신호를 생성한다(스텝 S605).
그리고, 음성 신호 출력부(106)는, 로스 검출 결과에 기초하여, 음성 데이터 디코더(102)로부터 입력된 복호 음성 신호, 음성 합성부(105)로부터 입력된 합성 음성 신호 또는 복호 음성 신호와 합성 음성 신호를 어떤 비율로 혼합한 신호 중 어느 하나를 출력한다(스텝 S606). 구체적으로는,이전 프레임과 현 프레임에서 로스가 검출되어 있지 않은 경우에는, 음성 신호 출력부(106)는 복호 음성 신호를 출력한다. 로스가 검출된 경우에는, 음성 신호 출력부(106)는 합성 음성 신호를 출력한다. 로스가 검출된 다음 프레임에서는, 처음에는, 합성 음성 신호의 비가 크고, 시간이 경과함에 따라 복호 음성 신호의 비가 크게 되도록 음성 신호를 가산함으로써, 음성 신호 출력부(106)로부터 출력되는 음성 신호가 불연속으로 되는 것을 피한다.
실시예 1의 음성 데이터 복호 장치는, 파라미터를 추출하고, 이들 값을, 음성 데이터의 로스를 보간하는 신호에 이용함으로써, 로스를 보간하는 음성의 음질을 향상시킬 수 있다. 종래, G.711 방식에서는 파라미터를 추출하고 있지 않았다.
실시예 2에 대하여, 도 3 및 도 4를 참조하면서 설명한다. 실시예 2와 실시예 1의 다른 점은, 음성 데이터의 로스를 검출하였을 때, 로스 부분을 보간하는 음성 신호를 출력하기 전에, 로스 후의 다음 음성 데이터를 수신하고 있는지를 검출한다. 그리고, 다음 음성 데이터를 검출한 경우, 로스된 음성 데이터에 대한 음성 신호를 생성하기 위해, 실시예 1의 동작 외에 다음 음성 데이터의 정보도 이용하는 점이다.
도 3은, G.711 방식으로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 2의 음성 데이터 복호 장치는, 로스 디텍터(201), 음성 데이터 디코더(202), 음성 데이터 애널라이저(203), 파라미터 수정부(204), 음성 합성부(205) 및 음성 신호 출력부(206)를 포함한다. 여기에서, 음성 데이터 디코더(202), 파라미터 수정부(204) 및 음성 합성부(205)는, 실시예 1의 음성 데이터 디코더(102), 파라미터 수정부(104) 및 음성 합성부(105)와 동일한 동작을 한다.
로스 디텍터(201)는, 로스 디텍터(101)와 동일한 동작을 실행한다. 음성 데이터의 로스를 검출한 경우, 로스 디텍터(201)는, 음성 신호 출력부(206)가 로스 부분을 보간하는 음성 신호를 출력하기 전에, 로스 후의 다음 음성 데이터를 수신하고 있는지를 검출한다. 또한,로스 디텍터(201)는, 이 검출 결과를 음성 데이터 디코더(202)와 음성 데이터 애널라이저(203)와 파라미터 수정부(204)와 음성 신호 출력부(206)에 출력한다.
음성 데이터 애널라이저(203)는, 음성 데이터 애널라이저(103)와 동일한 동작을 실행한다. 음성 데이터 애널라이저(203)는, 로스 디텍터(201)로부터의 검출 결과에 기초하여, 로스를 검출한 다음 음성 데이터에 대한 음성 신호의 시간을 반전시킨 신호를 생성한다. 그리고, 이 신호에 대하여 실시예 1과 마찬가지의 수순으로 분석을 행하고, 추출한 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 수정부(204)에 출력한다.
음성 신호 출력부(206)는, 로스 디텍터(201)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(202)로부터 입력된 복호 음성 신호, 혹은 처음에는 로스가 검출되기 전의 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 비율이 높고, 마지막에는 로스가 검출된 다음 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 시간을 반전시킨 신호의 비율이 높아지도록 가산한 신호 중 어느 하나를 출력한다.
다음으로,도 4를 참조하면서, 실시예 2의 음성 데이터 복호 장치의 동작을 설명한다.
우선,로스 디텍터(201)는, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S701). 로스 디텍터(201)가 음성 데이터의 로스를 검출하지 않았다고 하면, 스텝 S602와 마찬가지의 동작을 행한다(스텝 S702).
로스 디텍터(201)가 음성 데이터의 로스를 검출하였다고 하면, 로스 디텍터(201)가, 음성 신호 출력부(206)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있는지, 검출한다(스텝 S703). 다음 음성 데이터를 수신하고 있지 않으면, 스텝 S603 내지 스텝 S605와 마찬가지의 동작을 행한다(스텝 S704 내지 스텝 S706). 다음 음성 데이터를 수신하였다고 하면, 음성 데이터 디코더(202)가 다음 음성 데이터를 복호한다(스텝 S707). 이 복호된 다음 음성 데이터를 기초로, 음성 데이터 애널라이저(203)가 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출한다(스텝 S708). 다음으로,파라미터 수정부(204)는 로스 검출 결과에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 혹은 ±1%의 난수를 가하는 등으로 하여 수정한다(스텝 S709). 음성 합성부(205)는, 이들 값을 사용하여, 합성 음성 신호를 생성한다(스텝 S710).
그리고, 음성 신호 출력부(206)는, 로스 디텍터(201)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(202)로부터 입력된 복호 음성 신호, 또는 처음에는 로스가 검출되기 전의 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 비율이 높고, 마지막에는 로스가 검출된 다음 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 시간을 반전시킨 신호의 비율이 높아지도록 가산한 신호를 출력한다(스텝 S711).
최근, 급속히 보급되고 있는 VoIP(Voice over IP)에서는, 음성 데이터의 도착 시간의 불안정함을 흡수하기 위해서, 수신한 음성 데이터의 버퍼링을 행하고 있다. 실시예 2에 의하면, 로스된 부분의 음성 신호를 보간할 때에, 버퍼에 존재하고 있는 로스된 다음 음성 데이터를 이용함으로써, 보간 신호의 음질을 향상시킬 수 있다.
실시예 3에 대하여, 도 5 및 도 6을 참조하면서 설명한다. 본 실시예에서는, CELP 방식에 의해 부호화된 음성 데이터의 복호에 관하여, 음성 데이터의 로스를 검출한 경우에, 실시예 2와 마찬가지로,제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있으면, 로스된 음성 데이터에 대한 음성 신호를 생성할 때에 다음 음성 데이터의 정보를 이용한다.
도 5는, CELP 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 3의 음성 데이터 복호 장치는, 로스 디텍터(301), 제1 음성 데이터 디코더(302), 파라미터 보간부(304), 제2 음성 데이터 코드(303) 및 음성 신호 출력부(305)를 구비한다.
로스 디텍터(301)는, 수신한 음성 데이터를 제1 음성 데이터 디코더(302)와 제2 음성 데이터 디코더(303)에 출력함과 함께,수신한 음성 데이터가 로스되어 있는지를 검출한다. 로스를 검출한 경우에, 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 다음 음성 데이터를 수신하고 있는지를 검출하고, 검출 결과를 제1 음성 데이터 디코더(302)와 제2 음성 데이터 디코더(303)에 출력한다.
제1 음성 데이터 디코더(302)는, 로스가 검출되지 않은 경우, 로스 디텍터(301)로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 출력부에 출력하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 보간부(303)에 출력한다. 또한,제1 음성 데이터 디코더(302)는, 로스를 검출하고, 다음 음성 데이터를 수신하고 있지 않은 경우, 과거의 음성 데이터의 정보를 이용하여 로스 부분을 보간하는 음성 신호를 생성한다. 제1 음성 데이터 디코더(302)는, 일본 특허 공개 제2002-268697호 공보에 기재되어 있는 방법을 이용하여 음성 신호를 생성할 수 있다. 또한,제1 음성 데이터 디코더(302)는, 파라미터 보간부(304)로부터 입력된 파라미터를 이용하여 로스된 음성 데이터에 대한 음성 신호를 생성하고, 음성 신호 출력부(305)에 출력한다.
제2 음성 데이터 디코더(303)는, 로스를 검출하고, 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 다음 음성 데이터를 수신하고 있는 경우, 로스된 음성 데이터에 대한 음성 신호를 과거의 음성 데이터의 정보를 이용하여 생성한다. 그리고, 제2 음성 데이터 디코더(303)는, 생성한 음성 데이터를 사용하여 다음 음성 데이터를 복호하고, 복호에 이용하는 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출하고, 파라미터 보간부(304)에 출력한다.
파라미터 보간부(304)는, 제1 음성 데이터 디코더(302)로부터 입력된 파라미터와 제2 음성 데이터 디코더(303)로부터 입력된 파라미터를 이용하여, 로스된 음성 데이터에 대한 파라미터를 생성하고, 제1 음성 데이터 디코더(302)에 출력한다.
음성 신호 출력부(305)는, 음성 데이터 디코더(302)로부터 입력된 복호 음성 신호를 출력한다.
다음으로,도 6을 참조하면서, 실시예 3의 음성 데이터 복호 장치의 동작을 설명한다.
우선,로스 디텍터(301)가 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S801). 로스되어 있지 않다고 하면, 제1 음성 데이터 디코더(302)가, 로스 디텍터(301)로부터 입력된 음성 데이터를 복호하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 보간부(304)에 출력한다(스텝 S802 및 S803).
로스되어 있다고 하면, 로스 디텍터(301)가 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있는지, 검출한다(스텝 S804). 다음 음성 데이터를 수신하고 있지 않으면, 제1 음성 데이터 디코더(302)가, 과거의 음성 데이터의 정보를 이용하여 로스 부분을 보간하는 음성 신호를 생성한다(스텝 S805).
다음 음성 데이터를 수신하고 있다고 하면, 제2 음성 데이터 디코더(303)가, 로스된 음성 데이터에 대한 음성 신호를 과거의 음성 데이터의 정보를 이용하여 생성한다(스텝 S806). 제2 음성 데이터 디코더(303)는, 생성한 음성 신호를 사용하여 다음 음성 데이터를 복호하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 생성하고, 파라미터 보간부(303)에 출력한다(스텝 S807). 다음으로,파라미터 보간부(304)가, 제1 음성 데이터 디코더(302)로부터 입력된 파라미터와 제2 음성 데이터 디코더(303)로부터 입력된 파라미터를 이용하여, 로스된 음성 데이터에 대한 파라미터를 생성한다(스텝 S808). 그리고, 제1 음성 데이터 디코더(302)는, 파라미터 보간부(304)가 생성한 파라미터를 이용하여, 로스된 음성 데이터에 대한 음성 신호를 생성하고, 음성 신호 출력부(305)에 출력한다(스텝 S809).
제1 음성 데이터 디코더(302)는 각각의 경우에서 생성된 음성 신호를 음성 신호 출력부(305)에 출력하고, 음성 신호 출력부(305)가 복호 음성 신호를 출력한다(스텝 S810).
최근, 급속히 보급되고 있는 VoIP에서는, 음성 데이터의 도착 시간의 불안정 함을 흡수하기 위해서, 수신한 음성 데이터의 버퍼링을 행하고 있다. 실시예 3에 의하면, CELP 방식에서 로스된 부분의 음성 신호를 보간할 때에, 버퍼에 존재하고 있는 로스된 다음 음성 데이터를 이용함으로써, 보간 신호의 음질을 향상시킬 수 있다.
실시예 4에 대하여, 도 7 및 도 8을 참조하면서 설명한다. CELP 방식에서, 음성 데이터의 로스가 생겼을 때에 보간 신호를 이용하면,로스된 부분은 보충할 수 있지만, 보간 신호는 올바른 음성 데이터로부터 생성한 것이 아니므로, 그 후에 수신한 음성 데이터의 음질을 저하시키게 된다. 따라서,실시예 4는, 실시예 3 외에,음성 데이터의 로스 부분에 대한 보간 음성 신호를 출력한 후에, 로스된 부분의 음성 데이터가 늦게 도달된 경우, 이 음성 데이터를 이용함으로써, 로스된 다음 음성 데이터의 음성 신호의 품질을 향상시킨다.
도 7은, CELP 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 4의 음성 데이터 복호 장치는, 로스 디텍터(401), 제1 음성 데이터 디코더(402), 제2 음성 데이터 디코더(403), 메모리 축적부(404) 및 음성 신호 출력부(405)를 구비한다.
로스 디텍터(401)는, 수신한 음성 데이터를 제1 음성 데이터 디코더(402)와 제2 음성 데이터 디코더(403)에 출력한다. 또한,로스 디텍터(401)는, 수신한 음성 데이터가 로스되었는지를 검출한다. 로스를 검출한 경우에는, 다음 음성 데이터를 수신하고 있는지를 검출하고, 검출 결과를 제1 음성 데이터 디코더(402), 제2 음성 데이터 디코더(403) 및 음성 신호 출력부(405)에 출력한다. 또한,로스 디텍 터(401)는, 로스된 음성 데이터가 늦게 수신되었는지의 여부를 검출한다.
제1 음성 데이터 디코더(402)는, 로스가 검출되지 않은 경우, 로스 디텍터(401)로부터 입력된 음성 데이터를 복호한다. 또한,제1 음성 데이터 디코더(402)는, 로스가 검출된 경우, 과거의 음성 데이터의 정보를 이용하여 음성 신호를 생성하고, 음성 데이터 출력부(405)에 출력한다. 제1 음성 데이터 디코더(402)는, 일본 특허 공개 제2002-268697호 뒷쪽에 기재되어 있는 방법을 이용하여 음성 신호를 생성할 수 있다. 또한,제1 음성 데이터 디코더(402)는, 합성 필터 등의 메모리를 메모리 축적부(404)에 출력한다.
제2 음성 데이터 디코더(403)는, 로스 부분의 음성 데이터가 늦게 도착한 경우, 늦게 도착된 음성 데이터를, 메모리 축적부(404)에 축적되어 있는 로스 검출 직전 패킷의 합성 필터 등의 메모리를 사용하여 복호하고, 복호 신호를 음성 신호 출력부(405)에 출력한다.
음성 신호 출력부(405)는, 로스 디텍터(401)로부터 입력된 로스 검출 결과에 기초하여, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호 또는 상기 2개의 신호를 어떤 비율로 가산한 음성 신호를 출력한다.
다음으로,도 8을 참조하면서, 실시예 4의 음성 데이터 복호 장치의 동작을 설명한다.
우선,음성 데이터 복호 장치는, 스텝 S801 내지 스텝 S810의 동작을 행하고, 로스된 음성 데이터를 보간하는 음성 신호를 출력한다. 여기에서, 스텝 S805 및 스텝 S806일 때에, 과거의 음성 데이터로부터 음성 신호를 생성하였을 때에, 합성 필터 등의 메모리를 메모리 축적부(404)에 출력한다(스텝 S903 및 스텝 S904). 그리고, 로스 디텍터(401)가, 로스되어 있던 음성 데이터를 늦게 수신하였는지를 검출한다(스텝 S905). 로스 디텍터(401)가 검출되어 있지 않다고 하면, 실시예 3에서 생성한 음성 신호를 출력한다. 로스 디텍터(401)가 검출되어 있다고 하면, 제2 음성 데이터 디코더(403)가, 늦게 도착한 음성 데이터를, 메모리 축적부(404)에 축적되어 있는 로스 검출 직전 패킷의 합성 필터 등의 메모리를 사용하여 복호한다(스텝 S906).
그리고, 음성 신호 출력부(405)가, 로스 디텍터(401)로부터 입력된 로스 검출 결과에 기초하여, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호 또는 상기 2개의 신호를 어떤 비율로 가산한 음성 신호를 출력한다(스텝 S907). 구체적으로는,로스를 검출하고, 음성 데이터가 늦게 도착한 경우, 음성 신호 출력부(405)는, 로스된 음성 데이터의 다음 음성 데이터에 대한 음성 신호로서, 처음에는, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호의 비를 크게 한다. 그리고, 시간이 경과함에 따라서, 음성 신호 출력부(405)는, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호의 비를 크게 하도록 가산한 음성 신호를 출력한다.
실시예 4에 의하면, 늦게 도달한 로스 부분의 음성 데이터를 이용하여 합성 필터 등의 메모리를 재기입함으로써, 올바른 복호 음성 신호를 생성할 수 있다. 또한,이 올바른 복호 음성 신호를, 무리해서 바로 출력하지 않고, 어떤 비율로 가 산한 음성 신호를 출력함으로써, 음성이 불연속으로 되는 것을 방지할 수 있다. 또한,로스된 부분에 보간 신호를 이용하였다고 하여도, 늦게 도달한 로스 부분의 음성 데이터에 의해 합성 필터 등의 메모리를 재기입하여 복호 음성 신호를 생성함으로써, 보간 신호 후의 음질을 향상시킬 수 있다.
여기에서, 실시예 4는, 실시예 3의 변형예로서 설명하였지만, 다른 실시예의 변형예이어도 된다.
실시예 5의 음성 데이터 변환 장치에 대하여, 도 9 및 도 10을 참조하면서 설명한다.
도 9는, 어떤 음성 부호화 방식에 의해 부호화된 음성 신호를, 다른 음성 부호화 방식으로 변환하는 음성 데이터 변환 장치의 구성을 나타내고 있다. 음성 데이터 변환 장치는, 예를 들면, G.711로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터를, CELP 방식에 의해 부호화된 음성 데이터로 변환한다. 실시예 5의 음성 데이터 변환 장치는, 로스 디텍터(501), 음성 데이터 디코더(502), 음성 데이터 인코더(503), 파라미터 수정부(504) 및 음성 데이터 출력부(505)를 구비한다.
로스 디텍터(501)는, 수신한 음성 데이터를 음성 데이터 디코더(502)에 출력한다. 또한,로스 디텍터(501)는, 수신한 음성 데이터가 로스되어 있는지를 검출하고, 검출 결과를 음성 데이터 디코더(502)와 음성 데이터 인코더(503)와 파라미터 수정부(504)와 음성 데이터 출력부(505)에 출력한다.
음성 데이터 디코더(502)는, 로스가 검출되지 않은 경우, 로스 디텍터(501) 로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 인코더(503)에 출력한다.
음성 데이터 인코더(503)는, 로스가 검출되지 않은 경우, 음성 데이터 디코더(502)로부터 입력된 복호 음성 신호를 부호화하고, 부호화된 음성 데이터를 음성 데이터 출력부(505)에 출력한다. 또한,음성 데이터 인코더(503)는, 부호화 시의 파라미터인 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 파라미터 수정부(504)에 출력한다. 또한,음성 데이터 인코더(503)는, 로스가 검출된 경우, 파라미터 수정부(504)로부터 파라미터를 수취한다. 그리고, 음성 데이터 인코더(503)는, 파라미터 추출에 이용하는 필터(도시 생략)를 보유하고 있으며, 파라미터 수정부(504)로부터 수취한 파라미터를 부호화하여, 음성 데이터를 생성한다. 그 때에, 음성 데이터 인코더(503)는 필터 등의 메모리를 갱신한다. 여기에서, 음성 데이터 인코더(503)는, 부호화 시에 생기는 양자화 오차에 의해, 부호화 후의 파라미터값이 파라미터 수정부(504)로부터 입력된 값과 동일한 값으로 되지 않는 경우, 부호화 후의 파라미터값이 파라미터 수정부(504)로부터 입력된 값에 가장 가까운 값으로 되도록 선택한다. 또한,통신 상대의 무선 통신 장치가 보유하는 필터의 메모리와의 저어가 생기는 것을 피하기 위해서, 음성 데이터 인코더(503)는, 음성 데이터를 생성할 때에, 파라미터 추출 등에 이용하는 필터가 갖는 메모리(도시 생략)를 갱신한다. 또한,음성 데이터 인코더(503)는, 생성된 음성 데이터를 음성 데이터 출력부(505)에 출력한다.
파라미터 수정부(504)는, 음성 데이터 인코더(503)로부터 부호화 시의 파라 미터인 스펙트럼 프라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 수취하고, 보존한다. 또한,파라미터 수정부(504)는, 보유하고 있던 로스 검출 전의 파라미터를 수정하지 않거나, 또는 소정의 수정을 하고, 로스 디텍터(501)로부터 입력되는 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)에 출력한다.
음성 데이터 출력부(505)는, 로스 디텍터(501)로부터 수취한 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)로부터 수취한 음성 신호를 출력한다.
다음으로,도 10을 참조하면서, 실시예 5의 음성 데이터 변환 장치를 설명한다.
우선,로스 디텍터(501)가, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S1001). 로스 디텍터(501)가 로스를 검출하지 않았다고 하면, 음성 데이터 디코더(502)가 수신한 음성 데이터를 기초로 복호 음성 신호를 생성한다(스텝 S1002). 그리고, 음성 데이터 인코더(503)가, 복호 음성 신호를 부호화하고, 부호화 시의 파라미터인 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 출력한다(스텝 S1003).
로스 디텍터(501)가 로스를 검출하였다고 하면, 파라미터 수정부(504)가, 보유하고 있는 로스 전의 파라미터를 수정하지 않거나, 또는 소정의 수정을 하여, 음성 데이터 인코더(503)에 출력한다. 이 파라미터를 수신한 음성 데이터 인코더(503)는, 파라미터를 추출하기 위한 필터가 갖는 메모리를 갱신한다(스텝 S1004). 또한,음성 데이터 인코더(503)가, 로스되기 직전의 파라미터를 기초로 음성 신호를 생성한다(스텝 S1005).
그리고, 음성 데이터 출력부(505)가, 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)로부터 수취한 음성 신호를 출력한다(스텝 S1006).
실시예 5에 의해, 예를 들면 게이트웨이 등과 같은 데이터를 변환하는 장치에서, 음성 데이터의 로스에 대한 보간 신호를 파형 부호화 방식에 의해 생성하지 않고, 파라미터 등을 이용하여 로스 부분을 보간함으로써, 보간 신호의 음질을 향상시킬 수 있다. 또한,음성 데이터의 로스에 대한 보간 신호를 파형 부호화 방식에 의해 생성하지 않고, 파라미터 등을 이용하여 로스 부분을 보간함으로써, 연산량을 적게 할 수 있다.
여기에서, 실시예 5에서는 G.711로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터를 CELP 방식에 의해 부호화된 음성 데이터로 변환하는 형태를 나타내었지만, CELP 방식에 의해 부호화된 음성 데이터를 다른 CELP 방식에 의해 부호화된 음성 데이터로 변환하는 형태이어도 된다.
상기 실시예에 따른 장치 중 어떤 것은, 예를 들면, 아래와 같이 정리하는 것이 가능하다.
파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스를 검출하고, 음성 신호 출력부가 로스를 보간하는 음성 신호를 출력하기 전에 로스 후의 음성 프레임을 수신하였는지를 검출한다. 음성 데이터 디코더는, 음성 프레임을 복호하 여 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 복호 음성 신호의 시간을 반전시켜서 파라미터를 추출한다. 파라미터 수정부는, 파라미터에 소정의 수정을 행한다. 음성 합성부는, 수정된 파라미터를 이용하여 합성 음성 신호를 생성한다.
CELP 방식(Code-Excited Linear Prediction)에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 제1 음성 데이터 디코더와, 제2 음성 데이터 디코더와, 파라미터 보간부와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지를 검출하고, 제1 음성 데이터 디코더가 제1 음성 신호를 출력하기 전에 로스 후의 음성 프레임을 수신하였는지를 검출한다. 제1 음성 데이터 디코더는, 로스 검출의 결과에 기초하여, 음성 데이터를 복호하여 음성 신호를 생성한다. 제2 음성 데이터 디코더는, 로스 검출의 결과에 기초하여, 음성 프레임에 대응하는 음성 신호를 생성한다. 파라미터 보간부는, 제1 및 제2 파라미터를 이용하여 로스에 대응하는 제3 파라미터를 생성하여 제1 음성 데이터 디코더에 출력한다. 음성 신호 출력부는, 제1 음성 데이터 디코더로부터 입력된 음성 신호를 출력한다. 제1 음성 데이터 인코더는, 로스가 검출되지 않은 경우, 음성 데이터를 복호하여 음성 신호를 생성하고, 이 복호 시에 추출한 제1 파라미터를 파라미터 보간부에 출력한다. 제1 음성 데이터 디코더는, 로스가 검출된 경우, 음성 데이터의 로스 앞의 부분을 이용하여 로스에 대응하는 제1 음성 신호를 생성한다. 제2 음성 데이터 디코더는, 로스가 검출되고, 또한 제1 음성 데이터 디코더가 제1 음성 신호를 출력하기 전에 음성 프레임이 검출된 경우, 음성 데이터의 로스 앞의 부분을 이용하여 로스에 대응하는 제2 음성 신호를 생성하고, 제2 음성 신호를 이용하여 음성 프레임을 복호하고, 이 복호 시에 추출한 제2 파라미터를 파라미터 보간부에 출력한다. 제1 음성 데이터 디코더는, 파라미터 보간부로부터 입력된 제3 파라미터를 이용하여 로스에 대응하는 제3 음성 신호를 생성한다.
CELP 방식에 의해, 음성 데이터 내의 로스를 보간하는 보간 신호를 출력하는 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 로스를 검출하고, 음성 데이터의 로스 부분이 늦게 수신된 것을 검출한다. 로스 부분은 로스에 대응한다. 음성 데이터 디코더는, 메모리 축적부에 축적되어 있는 음성 데이터의 로스 앞의 부분을 사용하여 로스 부분을 복호하여 복호 음성 신호를 생성한다. 음성 신호 출력부는, 복호 음성 신호를 포함하는 음성 신호를 복호 음성 신호의 강도의 음성 신호의 강도에 대한 비율이 변화되도록 출력한다.
제1 음성 부호화 방식의 제1 음성 데이터를 제2 음성 부호화 방식의 제2 음성 데이터로 변환하는 음성 데이터 변환 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 인코더와, 파라미터 수정부를 구비한다. 로스 디텍터는, 제1 음성 데이터 내의 로스를 검출한다. 음성 데이터 디코더는, 제1 음성 데이터를 복호하여 복호 음성 신호를 생성한다. 음성 데이터 인코더는, 파라미터를 추출하는 필터를 구비하고,복호 음성 신호를 제2 음성 부호화 방식에 의해 부호화한다. 파라미터 수정부는, 음성 데이터 인코더로부터 파라미터를 수취하여 유지한다. 파라미터 수정부는, 파라미터에 소정의 수정을 행하거나, 또는 행하지 않고, 로스 검출 의 결과에 기초하여, 음성 데이터 인코더에 출력한다. 음성 데이터 인코더는, 로스가 검출되지 않은 경우, 복호 음성 신호를 제2 음성 부호화 방식에 의해 부호화하고, 이 부호화 시에 추출한 파라미터를 파라미터 수정부에 출력한다. 음성 데이터 인코더는, 로스가 검출된 경우, 파라미터 수정부로부터 입력되는 파라미터에 기초하여 음성 신호를 생성하고, 필터가 갖는 메모리를 갱신한다.
제1 음성 부호화 방식이 파형 부호화 방식이며, 제2 음성 부호화 방식이 CELP 방식인 것이 바람직하다.
파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인 것이 바람직하다.
당업자는 상기 실시예의 다양한 변형을 용이하게 실시할 수 있다. 따라서,본 발명은 상기 실시예에 한정되지 않고, 청구항이나 그 균등물에 의해 참작되는 가장 넓은 범위로 해석된다.

Claims (10)

  1. 음성 데이터 복호 장치로서,
    음성 데이터 내에 로스(loss)가 있는지를 검출하기 위한 수단과,
    상기 음성 데이터를 복호하여 제1 복호 음성 신호를 생성하기 위한 수단과,
    상기 제1 복호 음성 신호로부터 제1 파라미터를 추출하기 위한 수단과,
    상기 로스 검출의 결과에 기초하여, 상기 제1 파라미터를 수정하기 위한 수단과,
    수정된 상기 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성하기 위한 수단과,
    상기 로스를 보간하는 음성 신호를 출력하기 위한 수단과,
    상기 로스를 보간하는 음성 신호가 출력되기 전에 상기 로스 후의 음성 프레임을 수신하였는지를 검출하기 위한 수단과,
    상기 음성 프레임을 복호하여 제2 복호 음성 신호를 생성하기 위한 수단과,
    상기 제2 복호 음성 신호의 시간을 반전시켜 제2 파라미터를 추출하기 위한 수단과,
    상기 제2 파라미터에 소정의 수정을 행하기 위한 수단과,
    수정된 상기 제2 파라미터를 이용하여 제2 합성 음성 신호를 생성하기 위한 수단
    을 구비하는 음성 데이터 복호 장치.
  2. 제1항에 있어서,
    상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호 및 상기 제1 합성 음성 신호를 포함하는 음성 신호를 상기 제1 복호 음성 신호의 강도의 상기 제1 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하기 위한 수단을 더 구비하는
    음성 데이터 복호 장치.
  3. 삭제
  4. 제1항 또는 제2항에 있어서,
    상기 제1 파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인
    음성 데이터 복호 장치.
  5. 제1항에 있어서,
    상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호를 출력하기 위한 수단과,
    상기 로스 검출의 결과에 기초하여, 상기 제1 합성 음성 신호와 상기 제2 합성 음성 신호를 포함하는 음성 신호를 상기 제1 합성 음성 신호의 강도의 상기 제2 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하기 위한 수단을 더 구비하는
    음성 데이터 복호 장치.
  6. 음성 데이터 복호 방법으로서,
    음성 데이터 내에 로스가 있는지를 검출하는 단계와,
    상기 음성 데이터를 복호하여 제1 복호 음성 신호를 생성하는 단계와,
    상기 제1 복호 음성 신호로부터 제1 파라미터를 추출하는 단계와,
    상기 로스 검출의 결과에 기초하여, 상기 제1 파라미터를 수정하는 단계와,
    수정된 상기 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성하는 단계와,
    상기 로스를 보간하는 신호가 출력되기 전에 상기 로스 후의 음성 프레임을 수신하였는지를 검출하는 단계와,
    상기 음성 프레임을 복호하여 제2 복호 음성 신호를 생성하는 단계와,
    상기 제2 복호 음성 신호의 시간을 반전시켜 제2 파라미터를 추출하는 단계와,
    상기 제2 파라미터에 소정의 수정을 행하는 단계와,
    수정된 상기 제2 파라미터를 이용하여 제2 합성 음성 신호를 생성하는 단계
    를 포함하는 음성 데이터 복호 방법.
  7. 제6항에 있어서,
    상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호 및 상기 제1 합성 음성 신호를 포함하는 음성 신호를 상기 제1 복호 음성 신호의 강도의 상기 제1 합성 음성 신호에 대한 강도에 대한 비율을 바꾸면서 출력하는 단계를 더 포함하는
    음성 데이터 복호 방법.
  8. 삭제
  9. 제6항에 있어서,
    상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호를 출력하는 단계와,
    상기 로스 검출의 결과에 기초하여, 상기 제1 합성 음성 신호와 상기 제2 합성 음성 신호를 포함하는 음성 신호를 상기 제1 합성 음성 신호의 강도의 상기 제2 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하는 단계를 더 포함하는
    음성 데이터 복호 방법.
  10. 제6항, 제7항 또는 제9항 중 어느 한 항에 있어서,
    상기 제1 파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인 음성 데이터 복호 방법.
KR1020097001434A 2006-07-27 2007-07-23 음성 데이터 복호 장치 및 음성 데이터 복호 방법 Expired - Fee Related KR101032805B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2006-204781 2006-07-27
JP2006204781 2006-07-27

Publications (2)

Publication Number Publication Date
KR20090025355A KR20090025355A (ko) 2009-03-10
KR101032805B1 true KR101032805B1 (ko) 2011-05-04

Family

ID=38981447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097001434A Expired - Fee Related KR101032805B1 (ko) 2006-07-27 2007-07-23 음성 데이터 복호 장치 및 음성 데이터 복호 방법

Country Status (10)

Country Link
US (1) US8327209B2 (ko)
EP (1) EP2051243A4 (ko)
JP (1) JP4678440B2 (ko)
KR (1) KR101032805B1 (ko)
CN (1) CN101490749B (ko)
BR (1) BRPI0713809A2 (ko)
CA (1) CA2658962A1 (ko)
MX (1) MX2009000054A (ko)
RU (1) RU2009102043A (ko)
WO (1) WO2008013135A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11495243B2 (en) 2020-07-30 2022-11-08 Lawrence Livermore National Security, Llc Localization based on time-reversed event sounds
KR20230140955A (ko) * 2022-03-30 2023-10-10 삼성전자주식회사 음성 안내 기능을 갖는 전자 장치 및 전자 장치에 의한 음성 안내 방법
US12205609B1 (en) * 2023-07-21 2025-01-21 Krisp Technologies, Inc. Generating parallel data for real-time speech form conversion

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100341823B1 (ko) 2000-02-21 2002-06-26 윤덕용 유무선 영상 통신시스템에서의 비트에러확률 기준값설정방법
KR100462024B1 (ko) 2002-12-09 2004-12-17 한국전자통신연구원 부가 음성 데이터를 이용한 패킷 손실 복구 방법 및 이를이용한 송수신기
KR100594599B1 (ko) 2004-07-02 2006-06-30 한국전자통신연구원 수신단 기반의 패킷 손실 복구 장치 및 그 방법
KR100578263B1 (ko) 1997-02-10 2006-09-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성신호들을전송하기위한통신네트워크

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2539494B2 (ja) 1988-07-13 1996-10-02 沖電気工業株式会社 音声パケット補間方法
JP2655485B2 (ja) 1994-06-24 1997-09-17 日本電気株式会社 音声セル符号化装置
JP3085347B2 (ja) * 1994-10-07 2000-09-04 日本電信電話株式会社 音声の復号化方法およびその装置
JPH09231783A (ja) * 1996-02-26 1997-09-05 Sharp Corp 半導体記憶装置
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP3235654B2 (ja) 1997-11-18 2001-12-04 日本電気株式会社 無線電話装置
JP3472704B2 (ja) 1998-04-23 2003-12-02 シャープ株式会社 音声分析器および音声分析合成器
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
JP2001177481A (ja) 1999-12-21 2001-06-29 Sanyo Electric Co Ltd 復号化装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP2002268697A (ja) 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
JP2005077889A (ja) 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
JP2005274917A (ja) 2004-03-24 2005-10-06 Mitsubishi Electric Corp 音声復号装置
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100578263B1 (ko) 1997-02-10 2006-09-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성신호들을전송하기위한통신네트워크
KR100341823B1 (ko) 2000-02-21 2002-06-26 윤덕용 유무선 영상 통신시스템에서의 비트에러확률 기준값설정방법
KR100462024B1 (ko) 2002-12-09 2004-12-17 한국전자통신연구원 부가 음성 데이터를 이용한 패킷 손실 복구 방법 및 이를이용한 송수신기
KR100594599B1 (ko) 2004-07-02 2006-06-30 한국전자통신연구원 수신단 기반의 패킷 손실 복구 장치 및 그 방법

Also Published As

Publication number Publication date
JP4678440B2 (ja) 2011-04-27
KR20090025355A (ko) 2009-03-10
EP2051243A4 (en) 2010-12-22
CN101490749A (zh) 2009-07-22
CA2658962A1 (en) 2008-01-31
EP2051243A1 (en) 2009-04-22
RU2009102043A (ru) 2010-07-27
MX2009000054A (es) 2009-01-23
US8327209B2 (en) 2012-12-04
JPWO2008013135A1 (ja) 2009-12-17
BRPI0713809A2 (pt) 2012-11-06
US20100005362A1 (en) 2010-01-07
WO2008013135A1 (en) 2008-01-31
CN101490749B (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
KR100919868B1 (ko) 패킷 손실 보상
KR102173422B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
JP2008261904A (ja) 符号化装置、復号化装置、符号化方法および復号化方法
RU2445737C2 (ru) Способ передачи данных в системе связи
RU2682927C2 (ru) Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала
JPWO2005109401A1 (ja) 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
KR101032805B1 (ko) 음성 데이터 복호 장치 및 음성 데이터 복호 방법
JP2002221994A (ja) 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体
JP5056048B2 (ja) 音声データ復号装置
US7630889B2 (en) Code conversion method and device
US9990932B2 (en) Processing in the encoded domain of an audio signal encoded by ADPCM coding
JP5056049B2 (ja) 音声データ復号装置
JPH0612095A (ja) 音声復号化方法
JP2008033231A (ja) 音声データ復号装置及び音声データ変換装置
JP2008033233A (ja) 音声データ復号装置及び音声データ変換装置
JP3508850B2 (ja) 疑似背景雑音生成方法
JP2002252644A (ja) 音声パケット通信装置及び音声パケット通信方法
JPH09149104A (ja) 擬似背景雑音生成方法
JP2005151235A (ja) 復号装置
JPH03245199A (ja) エラー補償方式
JPH02244935A (ja) 音声パケツト変換装置

Legal Events

Date Code Title Description
A201 Request for examination
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PA0105 International application

St.27 status event code: A-0-1-A10-A15-nap-PA0105

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

FPAY Annual fee payment
GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U12-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20140401

Year of fee payment: 4

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

FPAY Annual fee payment

Payment date: 20150330

Year of fee payment: 5

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

FPAY Annual fee payment

Payment date: 20160331

Year of fee payment: 6

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 6

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20170331

Year of fee payment: 7

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 7

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 8

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 8

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20190427

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20190427