KR101032805B1

KR101032805B1 - 음성 데이터 복호 장치 및 음성 데이터 복호 방법

Info

Publication number: KR101032805B1
Application number: KR1020097001434A
Authority: KR
Inventors: 히로노리 이또; 가즈노리 오자와
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2006-07-27
Filing date: 2007-07-23
Publication date: 2011-05-04
Anticipated expiration: 2027-07-23
Also published as: JP4678440B2; KR20090025355A; EP2051243A4; CN101490749A; CA2658962A1; EP2051243A1; RU2009102043A; MX2009000054A; US8327209B2; JPWO2008013135A1; BRPI0713809A2; US20100005362A1; WO2008013135A1; CN101490749B

Abstract

파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지의 여부를 검출한다. 음성 데이터 디코더는, 음성 데이터를 복호하여 제１ 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 제1 복호 음성 신호로부터 제1 파라미터를 추출한다. 파라미터 수정부는, 로스 검출의 결과에 기초하여, 제1 파라미터를 수정한다. 음성 합성부는, 수정된 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성한다. 음성 데이터의 오류 보상에서의 음질의 열화가 방지된다.

음성 데이터, 로스 디텍터, 복호 장치, 파라미터 수정부

Description

음성 데이터 복호 장치 및 음성 데이터 복호 방법{AUDIO DATA DECODING DEVICE}

본 발명은, 음성 데이터의 복호 장치, 음성 데이터의 변환 장치 및 오류 보상 방법에 관한 것이다.

회선 교환망 또는 패킷망을 사용하여 음성 데이터를 전송할 때, 음성 데이터를 부호화, 복호를 행함으로써 음성 신호의 수수를 행하고 있다. 이 음성 압축의 방식으로서는, 예를 들면, ITU-T(International Telecommunication Union Telecommunication Standardization Sector) 권고 G.711 방식 및 CELP(Code-Excited Linear Prediction) 방식이 알려져 있다.

이들 압축 방식에 의해 부호화된 음성 데이터를 전송하면，무선 오류 또는 네트워크의 폭주 등에 의해, 음성 데이터의 일부가 결락하는 경우가 있다. 이 결락부에 대한 오류 보상으로서, 결락부보다 앞의 음성 데이터의 부분의 정보에 기초하여, 결락부에 대한 음성 신호의 생성을 행한다.

이와 같은 오류 보상에서는，음질이 열화되는 경우가 있다. 일본 특허 공개 제2002-268697호 공보는, 음질의 열화를 저감시키는 방법을 개시하고 있다. 이 방법에서는，늦게 수신한 패킷에 포함되는 음성 프레임 데이터를 이용하여, 필터 메모리값을 갱신한다. 즉, 로스된 패킷을 늦게 수신한 경우, 이 패킷에 포함되는 음 성 프레임 데이터를 이용하여, 피치 필터, 또는 스펙트럼 개형을 나타내는 필터에서 사용하는 필터 메모리값을 갱신한다.

또한，일본 특허 공개 제2005-274917호 공보는, ADPCM(Adaptive Differential Pulse Code Modulation) 부호화에 관련된 기술을 개시하고 있다. 이 기술은, 부호화측과 복호화측의 예측기의 상태 불일치에 의해 불쾌한 이상음을 출력한다고 하는 과제를 해결하는 것을 가능하게 한다. 이 과제는, 부호화 데이터의 결락 후에 올바른 부호화 데이터를 수취하여도 발생하는 경우가 있다. 즉, 패킷 손실이 「검출」로부터 「비검출」로 천이하고 나서 소정 시간, 검출 상태 제어부가 과거의 음성 데이터를 기초로 생성한 보간 신호의 강도를 서서히 감소시켜서, 시간이 지남에 따라 부호화측과 복호화측의 예측기의 상태가 점차로 일치하여 음성 신호가 정상으로 되어 가므로, 음성 신호의 강도를 서서히 증대시킨다. 그 결과, 이 기술은, 부호화 데이터의 결락 상태로부터 복구한 직후에서도 이상음을 출력하지 않는다고 하는 효과를 발휘한다.

또한，일본 특허 공개 평11-305797호 공보에서는, 음성 신호로부터 선형 예측 계수를 산출하고, 이 선형 예측 계수로부터 음성 신호를 생성하는 방법이 개시되어 있다.

<발명의 개시>

종래의 음성 데이터에 대한 오류 보상 방식은, 과거의 음성 파형을 반복하는 단순한 방식이기 때문에，상기한 바와 같은 기술이 개시되어 있지만, 음질에 여전히, 개선의 여지가 남아 있었다.

본 발명의 목적은, 음질의 열화를 방지하면서 음성 데이터의 오류를 보상하는 것이다.

파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지를 검출한다. 음성 데이터 디코더는, 음성 데이터를 복호하여 제1 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 제1 복호 음성 신호로부터 제1 파라미터를 추출한다. 파라미터 수정부는, 로스 검출의 결과에 기초하여 제1 파라미터를 수정한다. 음성 합성부는, 수정된 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성한다.

본 발명에 의하면, 음질의 열화를 방지하면서 음성 데이터의 오류가 보상된다.

도 1은 본 발명의 실시예 1의 음성 데이터 복호 장치의 구성을 나타내는 개략도.

도 2는 본 발명의 실시예 1의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.

도 3은 본 발명의 실시예 2의 음성 데이터 복호 장치의 구성을 나타내는 개략도.

도 4는 본 발명의 실시예 2의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.

도 5는 본 발명의 실시예 3의 음성 데이터 복호 장치의 구성을 나타내는 개략도.

도 6은 본 발명의 실시예 3의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.

도 7은 본 발명의 실시예 4의 음성 데이터 복호 장치의 구성을 나타내는 개략도.

도 8은 본 발명의 실시예 4의 음성 데이터 복호 장치의 동작을 나타내는 흐름도.

도 9는 본 발명의 실시예 5의 음성 데이터 변환 장치의 구성을 나타내는 개략도.

도 10은 본 발명의 실시예 5의 음성 데이터 변환 장치의 동작을 나타내는 흐름도.

<발명을 실시하기 위한 최량의 형태>

본 발명의 실시 형태에 대하여 도면을 참조하면서 설명한다. 그러나, 이러한 형태는 본 발명의 기술적 범위를 한정하는 것은 아니다.

본 발명의 실시예 1에 대하여, 도 1 및 도 2를 참조하면서 이하에 설명한다.

도 1은, G.711 방식으로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 1의 음성 데이터 복호 장치는, 로스 디텍터(101), 음성 데이터 디코더(102), 음성 데이터 애널라이저(103), 파라미터 수정부(104), 음성 합성부(105) 및 음성 신호 출력부(106)를 구비한다. 여기에서, 음성 데이터란, 어떤 일련의 음성을 부호화한 데이터를 말하며，또한，적어도 1개의 음성 프레임을 포함하는 음성의 데이터를 말한다.

로스 디텍터(101)는, 수신한 음성 데이터를 음성 데이터 디코더(102)에 출력함과 함께，수신한 음성 데이터가 로스되었는지를 검출하고, 로스 검출 결과를 음성 데이터 디코더(102)와 파라미터 수정부(104)와 음성 신호 출력부(106)에 출력한다.

음성 데이터 디코더(102)는, 로스 디텍터(101)로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 출력부(106)와 음성 데이터 애널라이저(103)에 출력한다.

음성 데이터 애널라이저(103)는, 복호 음성 신호를 프레임마다 분할하고, 분할된 신호에 대하여 선형 예측 분석을 이용하여, 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다. 각 프레임의 길이는, 예를 들면, 20㎳이다. 다음으로，음성 데이터 애널라이저(103)는, 분할된 음성 신호를 서브 프레임으로 분할하고, 서브 프레임마다 과거의 음원 신호를 기초로 적응 코드북에서의 파라미터로서, 피치 주기에 대응하는 지연 파라미터와 적응 코드북 게인을 추출한다. 각 서브 프레임의 길이는, 예를 들면 5㎳이다. 또한，음성 데이터 애널라이저(103)는, 적응 코드북에 의해 해당하는 서브 프레임의 음성 신호를 피치 예측한다. 또한，음성 데이터 애널라이저(103)는, 피치 예측하여 구한 잔차 신호를 정규화하고, 정규화 잔차 신호와 정규화 잔차 신호 게인을 추출한다. 그리고, 추출한 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정 규화 잔차 신호 게인(이들은 파라미터라 불리는 경우가 있음)을 파라미터 수정부(104)에 출력한다. 음성 데이터 애널라이저(103)는, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 및 정규화 잔차 신호 게인 중으로부터 2개 이상을 추출하는 것이 바람직하다.

파라미터 수정부(104)는, 로스 디텍터(101)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 애널라이저(103)로부터 입력된 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 또는 ±1％의 난수를 가하거나, 혹은 게인을 작게 해 가는 등의 수정을 한다. 또한，파라미터 수정부(104)는, 수정하거나 또는 수정하지 않은 값을 음성 합성부(105)에 출력한다. 이들 값을 수정하는 이유는, 반복에 의해 부자연스러운 음성 신호가 생성되는 것을 피하기 위해서이다.

음성 합성부(105)는, 파라미터 수정부(104)로부터 입력된 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 사용하여 합성 음성 신호를 생성하고, 음성 신호 출력부(106)에 출력한다.

음성 신호 출력부(106)는, 로스 디텍터(101)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(102)로부터 입력된 복호 음성 신호, 음성 합성부(105)로부터 입력된 합성 음성 신호, 또는 복호 음성 신호와 합성 음성 신호를 어떤 비율로 혼합한 신호 중 어느 하나를 출력한다.

다음으로，도 2를 참조하면서, 실시예 1의 음성 데이터 복호 장치의 동작을 설명한다.

우선，로스 디텍터(101)는, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S601). 로스 디텍터(101)는, 무선망에서의 비트 오류를 CRC(Cyclic Redundancy Check) 부호를 이용하여 검출한 경우에 음성 데이터가 로스된 것으로 하여 검출하는 방법, 또는 IP(Internet Protocol)망에서의 로스를 RFC3550RTP(A Transport Protocol for Real-Time Applications) 헤더의 시퀀스 번호의 빠짐에 의해 검출한 경우에 음성 데이터가 로스된 것으로 하여 검출하는 방법을 이용할 수 있다.

로스 디텍터(101)가 음성 데이터의 로스를 검출하지 않았다고 하면, 음성 데이터 애널라이저(102)가 수신한 음성 데이터를 복호하고, 음성 신호 출력부에 출력한다(스텝 S602).

로스 디텍터(101)가 음성 데이터의 로스를 검출하였다고 하면, 음성 데이터 애널라이저(103)가, 음성 데이터의 로스 직전의 부분에 대응하는 복호 음성 신호에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출한다(스텝 S603). 여기에서, 복호 음성 신호의 분석은, 음성 데이터의 로스 직전의 부분에 대응하는 복호 음성 신호에 대하여 행하여도 되고, 모든 복호 음성 신호에 대하여 행하여도 된다. 다음으로，파라미터 수정부(104)는 로스 검출 결과에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 혹은 ±1％의 난수를 가하는 등으로 하여 수정한다(스텝 S604). 음성 합성부(105)는, 이들 값을 사용하여, 합성 음성 신호를 생성한다(스텝 S605).

그리고, 음성 신호 출력부(106)는, 로스 검출 결과에 기초하여, 음성 데이터 디코더(102)로부터 입력된 복호 음성 신호, 음성 합성부(105)로부터 입력된 합성 음성 신호 또는 복호 음성 신호와 합성 음성 신호를 어떤 비율로 혼합한 신호 중 어느 하나를 출력한다(스텝 S606). 구체적으로는，이전 프레임과 현 프레임에서 로스가 검출되어 있지 않은 경우에는, 음성 신호 출력부(106)는 복호 음성 신호를 출력한다. 로스가 검출된 경우에는, 음성 신호 출력부(106)는 합성 음성 신호를 출력한다. 로스가 검출된 다음 프레임에서는, 처음에는, 합성 음성 신호의 비가 크고, 시간이 경과함에 따라 복호 음성 신호의 비가 크게 되도록 음성 신호를 가산함으로써, 음성 신호 출력부(106)로부터 출력되는 음성 신호가 불연속으로 되는 것을 피한다.

실시예 1의 음성 데이터 복호 장치는, 파라미터를 추출하고, 이들 값을, 음성 데이터의 로스를 보간하는 신호에 이용함으로써, 로스를 보간하는 음성의 음질을 향상시킬 수 있다. 종래, G.711 방식에서는 파라미터를 추출하고 있지 않았다.

실시예 2에 대하여, 도 3 및 도 4를 참조하면서 설명한다. 실시예 2와 실시예 1의 다른 점은, 음성 데이터의 로스를 검출하였을 때, 로스 부분을 보간하는 음성 신호를 출력하기 전에, 로스 후의 다음 음성 데이터를 수신하고 있는지를 검출한다. 그리고, 다음 음성 데이터를 검출한 경우, 로스된 음성 데이터에 대한 음성 신호를 생성하기 위해, 실시예 1의 동작 외에 다음 음성 데이터의 정보도 이용하는 점이다.

도 3은, G.711 방식으로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 2의 음성 데이터 복호 장치는, 로스 디텍터(201), 음성 데이터 디코더(202), 음성 데이터 애널라이저(203), 파라미터 수정부(204), 음성 합성부(205) 및 음성 신호 출력부(206)를 포함한다. 여기에서, 음성 데이터 디코더(202), 파라미터 수정부(204) 및 음성 합성부(205)는, 실시예 1의 음성 데이터 디코더(102), 파라미터 수정부(104) 및 음성 합성부(105)와 동일한 동작을 한다.

로스 디텍터(201)는, 로스 디텍터(101)와 동일한 동작을 실행한다. 음성 데이터의 로스를 검출한 경우, 로스 디텍터(201)는, 음성 신호 출력부(206)가 로스 부분을 보간하는 음성 신호를 출력하기 전에, 로스 후의 다음 음성 데이터를 수신하고 있는지를 검출한다. 또한，로스 디텍터(201)는, 이 검출 결과를 음성 데이터 디코더(202)와 음성 데이터 애널라이저(203)와 파라미터 수정부(204)와 음성 신호 출력부(206)에 출력한다.

음성 데이터 애널라이저(203)는, 음성 데이터 애널라이저(103)와 동일한 동작을 실행한다. 음성 데이터 애널라이저(203)는, 로스 디텍터(201)로부터의 검출 결과에 기초하여, 로스를 검출한 다음 음성 데이터에 대한 음성 신호의 시간을 반전시킨 신호를 생성한다. 그리고, 이 신호에 대하여 실시예 1과 마찬가지의 수순으로 분석을 행하고, 추출한 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 수정부(204)에 출력한다.

음성 신호 출력부(206)는, 로스 디텍터(201)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(202)로부터 입력된 복호 음성 신호, 혹은 처음에는 로스가 검출되기 전의 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 비율이 높고, 마지막에는 로스가 검출된 다음 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 시간을 반전시킨 신호의 비율이 높아지도록 가산한 신호 중 어느 하나를 출력한다.

다음으로，도 4를 참조하면서, 실시예 2의 음성 데이터 복호 장치의 동작을 설명한다.

우선，로스 디텍터(201)는, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S701). 로스 디텍터(201)가 음성 데이터의 로스를 검출하지 않았다고 하면, 스텝 S602와 마찬가지의 동작을 행한다(스텝 S702).

로스 디텍터(201)가 음성 데이터의 로스를 검출하였다고 하면, 로스 디텍터(201)가, 음성 신호 출력부(206)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있는지, 검출한다(스텝 S703). 다음 음성 데이터를 수신하고 있지 않으면, 스텝 S603 내지 스텝 S605와 마찬가지의 동작을 행한다(스텝 S704 내지 스텝 S706). 다음 음성 데이터를 수신하였다고 하면, 음성 데이터 디코더(202)가 다음 음성 데이터를 복호한다(스텝 S707). 이 복호된 다음 음성 데이터를 기초로, 음성 데이터 애널라이저(203)가 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출한다(스텝 S708). 다음으로，파라미터 수정부(204)는 로스 검출 결과에 기초하여, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 수정하지 않거나, 혹은 ±1％의 난수를 가하는 등으로 하여 수정한다(스텝 S709). 음성 합성부(205)는, 이들 값을 사용하여, 합성 음성 신호를 생성한다(스텝 S710).

그리고, 음성 신호 출력부(206)는, 로스 디텍터(201)로부터 입력된 로스 검출 결과에 기초하여, 음성 데이터 디코더(202)로부터 입력된 복호 음성 신호, 또는 처음에는 로스가 검출되기 전의 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 비율이 높고, 마지막에는 로스가 검출된 다음 음성 데이터의 파라미터에 의해 생성된 합성 음성 신호의 시간을 반전시킨 신호의 비율이 높아지도록 가산한 신호를 출력한다(스텝 S711).

최근, 급속히 보급되고 있는 VoIP(Voice over IP)에서는, 음성 데이터의 도착 시간의 불안정함을 흡수하기 위해서, 수신한 음성 데이터의 버퍼링을 행하고 있다. 실시예 2에 의하면, 로스된 부분의 음성 신호를 보간할 때에, 버퍼에 존재하고 있는 로스된 다음 음성 데이터를 이용함으로써, 보간 신호의 음질을 향상시킬 수 있다.

실시예 3에 대하여, 도 5 및 도 6을 참조하면서 설명한다. 본 실시예에서는, CELP 방식에 의해 부호화된 음성 데이터의 복호에 관하여, 음성 데이터의 로스를 검출한 경우에, 실시예 2와 마찬가지로，제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있으면, 로스된 음성 데이터에 대한 음성 신호를 생성할 때에 다음 음성 데이터의 정보를 이용한다.

도 5는, CELP 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 3의 음성 데이터 복호 장치는, 로스 디텍터(301), 제1 음성 데이터 디코더(302), 파라미터 보간부(304), 제2 음성 데이터 코드(303) 및 음성 신호 출력부(305)를 구비한다.

로스 디텍터(301)는, 수신한 음성 데이터를 제1 음성 데이터 디코더(302)와 제2 음성 데이터 디코더(303)에 출력함과 함께，수신한 음성 데이터가 로스되어 있는지를 검출한다. 로스를 검출한 경우에, 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 다음 음성 데이터를 수신하고 있는지를 검출하고, 검출 결과를 제1 음성 데이터 디코더(302)와 제2 음성 데이터 디코더(303)에 출력한다.

제1 음성 데이터 디코더(302)는, 로스가 검출되지 않은 경우, 로스 디텍터(301)로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 출력부에 출력하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 보간부(303)에 출력한다. 또한，제1 음성 데이터 디코더(302)는, 로스를 검출하고, 다음 음성 데이터를 수신하고 있지 않은 경우, 과거의 음성 데이터의 정보를 이용하여 로스 부분을 보간하는 음성 신호를 생성한다. 제1 음성 데이터 디코더(302)는, 일본 특허 공개 제2002-268697호 공보에 기재되어 있는 방법을 이용하여 음성 신호를 생성할 수 있다. 또한，제1 음성 데이터 디코더(302)는, 파라미터 보간부(304)로부터 입력된 파라미터를 이용하여 로스된 음성 데이터에 대한 음성 신호를 생성하고, 음성 신호 출력부(305)에 출력한다.

제2 음성 데이터 디코더(303)는, 로스를 검출하고, 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 다음 음성 데이터를 수신하고 있는 경우, 로스된 음성 데이터에 대한 음성 신호를 과거의 음성 데이터의 정보를 이용하여 생성한다. 그리고, 제2 음성 데이터 디코더(303)는, 생성한 음성 데이터를 사용하여 다음 음성 데이터를 복호하고, 복호에 이용하는 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 추출하고, 파라미터 보간부(304)에 출력한다.

파라미터 보간부(304)는, 제1 음성 데이터 디코더(302)로부터 입력된 파라미터와 제2 음성 데이터 디코더(303)로부터 입력된 파라미터를 이용하여, 로스된 음성 데이터에 대한 파라미터를 생성하고, 제1 음성 데이터 디코더(302)에 출력한다.

음성 신호 출력부(305)는, 음성 데이터 디코더(302)로부터 입력된 복호 음성 신호를 출력한다.

다음으로，도 6을 참조하면서, 실시예 3의 음성 데이터 복호 장치의 동작을 설명한다.

우선，로스 디텍터(301)가 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S801). 로스되어 있지 않다고 하면, 제1 음성 데이터 디코더(302)가, 로스 디텍터(301)로부터 입력된 음성 데이터를 복호하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 파라미터 보간부(304)에 출력한다(스텝 S802 및 S803).

로스되어 있다고 하면, 로스 디텍터(301)가 제1 음성 데이터 디코더(302)가 로스 부분을 보간하는 음성 신호를 출력하기 전에 로스 후의 다음 음성 데이터를 수신하고 있는지, 검출한다(스텝 S804). 다음 음성 데이터를 수신하고 있지 않으면, 제1 음성 데이터 디코더(302)가, 과거의 음성 데이터의 정보를 이용하여 로스 부분을 보간하는 음성 신호를 생성한다(스텝 S805).

다음 음성 데이터를 수신하고 있다고 하면, 제2 음성 데이터 디코더(303)가, 로스된 음성 데이터에 대한 음성 신호를 과거의 음성 데이터의 정보를 이용하여 생성한다(스텝 S806). 제2 음성 데이터 디코더(303)는, 생성한 음성 신호를 사용하여 다음 음성 데이터를 복호하고, 복호 시의 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호 또는 정규화 잔차 신호 게인을 생성하고, 파라미터 보간부(303)에 출력한다(스텝 S807). 다음으로，파라미터 보간부(304)가, 제1 음성 데이터 디코더(302)로부터 입력된 파라미터와 제2 음성 데이터 디코더(303)로부터 입력된 파라미터를 이용하여, 로스된 음성 데이터에 대한 파라미터를 생성한다(스텝 S808). 그리고, 제1 음성 데이터 디코더(302)는, 파라미터 보간부(304)가 생성한 파라미터를 이용하여, 로스된 음성 데이터에 대한 음성 신호를 생성하고, 음성 신호 출력부(305)에 출력한다(스텝 S809).

제1 음성 데이터 디코더(302)는 각각의 경우에서 생성된 음성 신호를 음성 신호 출력부(305)에 출력하고, 음성 신호 출력부(305)가 복호 음성 신호를 출력한다(스텝 S810).

최근, 급속히 보급되고 있는 VoIP에서는, 음성 데이터의 도착 시간의 불안정 함을 흡수하기 위해서, 수신한 음성 데이터의 버퍼링을 행하고 있다. 실시예 3에 의하면, CELP 방식에서 로스된 부분의 음성 신호를 보간할 때에, 버퍼에 존재하고 있는 로스된 다음 음성 데이터를 이용함으로써, 보간 신호의 음질을 향상시킬 수 있다.

실시예 4에 대하여, 도 7 및 도 8을 참조하면서 설명한다. CELP 방식에서, 음성 데이터의 로스가 생겼을 때에 보간 신호를 이용하면，로스된 부분은 보충할 수 있지만, 보간 신호는 올바른 음성 데이터로부터 생성한 것이 아니므로, 그 후에 수신한 음성 데이터의 음질을 저하시키게 된다. 따라서，실시예 4는, 실시예 3 외에，음성 데이터의 로스 부분에 대한 보간 음성 신호를 출력한 후에, 로스된 부분의 음성 데이터가 늦게 도달된 경우, 이 음성 데이터를 이용함으로써, 로스된 다음 음성 데이터의 음성 신호의 품질을 향상시킨다.

도 7은, CELP 방식에 의해 부호화된 음성 데이터에 대한 복호 장치의 구성을 나타낸다. 실시예 4의 음성 데이터 복호 장치는, 로스 디텍터(401), 제1 음성 데이터 디코더(402), 제2 음성 데이터 디코더(403), 메모리 축적부(404) 및 음성 신호 출력부(405)를 구비한다.

로스 디텍터(401)는, 수신한 음성 데이터를 제1 음성 데이터 디코더(402)와 제2 음성 데이터 디코더(403)에 출력한다. 또한，로스 디텍터(401)는, 수신한 음성 데이터가 로스되었는지를 검출한다. 로스를 검출한 경우에는, 다음 음성 데이터를 수신하고 있는지를 검출하고, 검출 결과를 제1 음성 데이터 디코더(402), 제2 음성 데이터 디코더(403) 및 음성 신호 출력부(405)에 출력한다. 또한，로스 디텍 터(401)는, 로스된 음성 데이터가 늦게 수신되었는지의 여부를 검출한다.

제1 음성 데이터 디코더(402)는, 로스가 검출되지 않은 경우, 로스 디텍터(401)로부터 입력된 음성 데이터를 복호한다. 또한，제1 음성 데이터 디코더(402)는, 로스가 검출된 경우, 과거의 음성 데이터의 정보를 이용하여 음성 신호를 생성하고, 음성 데이터 출력부(405)에 출력한다. 제1 음성 데이터 디코더(402)는, 일본 특허 공개 제2002-268697호 뒷쪽에 기재되어 있는 방법을 이용하여 음성 신호를 생성할 수 있다. 또한，제1 음성 데이터 디코더(402)는, 합성 필터 등의 메모리를 메모리 축적부(404)에 출력한다.

제2 음성 데이터 디코더(403)는, 로스 부분의 음성 데이터가 늦게 도착한 경우, 늦게 도착된 음성 데이터를, 메모리 축적부(404)에 축적되어 있는 로스 검출 직전 패킷의 합성 필터 등의 메모리를 사용하여 복호하고, 복호 신호를 음성 신호 출력부(405)에 출력한다.

음성 신호 출력부(405)는, 로스 디텍터(401)로부터 입력된 로스 검출 결과에 기초하여, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호 또는 상기 2개의 신호를 어떤 비율로 가산한 음성 신호를 출력한다.

다음으로，도 8을 참조하면서, 실시예 4의 음성 데이터 복호 장치의 동작을 설명한다.

우선，음성 데이터 복호 장치는, 스텝 S801 내지 스텝 S810의 동작을 행하고, 로스된 음성 데이터를 보간하는 음성 신호를 출력한다. 여기에서, 스텝 S805 및 스텝 S806일 때에, 과거의 음성 데이터로부터 음성 신호를 생성하였을 때에, 합성 필터 등의 메모리를 메모리 축적부(404)에 출력한다(스텝 S903 및 스텝 S904). 그리고, 로스 디텍터(401)가, 로스되어 있던 음성 데이터를 늦게 수신하였는지를 검출한다(스텝 S905). 로스 디텍터(401)가 검출되어 있지 않다고 하면, 실시예 3에서 생성한 음성 신호를 출력한다. 로스 디텍터(401)가 검출되어 있다고 하면, 제2 음성 데이터 디코더(403)가, 늦게 도착한 음성 데이터를, 메모리 축적부(404)에 축적되어 있는 로스 검출 직전 패킷의 합성 필터 등의 메모리를 사용하여 복호한다(스텝 S906).

그리고, 음성 신호 출력부(405)가, 로스 디텍터(401)로부터 입력된 로스 검출 결과에 기초하여, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호 또는 상기 2개의 신호를 어떤 비율로 가산한 음성 신호를 출력한다(스텝 S907). 구체적으로는，로스를 검출하고, 음성 데이터가 늦게 도착한 경우, 음성 신호 출력부(405)는, 로스된 음성 데이터의 다음 음성 데이터에 대한 음성 신호로서, 처음에는, 제1 음성 데이터 디코더(402)로부터 입력된 복호 음성 신호의 비를 크게 한다. 그리고, 시간이 경과함에 따라서, 음성 신호 출력부(405)는, 제2 음성 데이터 디코더(403)로부터 입력된 복호 음성 신호의 비를 크게 하도록 가산한 음성 신호를 출력한다.

실시예 4에 의하면, 늦게 도달한 로스 부분의 음성 데이터를 이용하여 합성 필터 등의 메모리를 재기입함으로써, 올바른 복호 음성 신호를 생성할 수 있다. 또한，이 올바른 복호 음성 신호를, 무리해서 바로 출력하지 않고, 어떤 비율로 가 산한 음성 신호를 출력함으로써, 음성이 불연속으로 되는 것을 방지할 수 있다. 또한，로스된 부분에 보간 신호를 이용하였다고 하여도, 늦게 도달한 로스 부분의 음성 데이터에 의해 합성 필터 등의 메모리를 재기입하여 복호 음성 신호를 생성함으로써, 보간 신호 후의 음질을 향상시킬 수 있다.

여기에서, 실시예 4는, 실시예 3의 변형예로서 설명하였지만, 다른 실시예의 변형예이어도 된다.

실시예 5의 음성 데이터 변환 장치에 대하여, 도 9 및 도 10을 참조하면서 설명한다.

도 9는, 어떤 음성 부호화 방식에 의해 부호화된 음성 신호를, 다른 음성 부호화 방식으로 변환하는 음성 데이터 변환 장치의 구성을 나타내고 있다. 음성 데이터 변환 장치는, 예를 들면, G.711로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터를, CELP 방식에 의해 부호화된 음성 데이터로 변환한다. 실시예 5의 음성 데이터 변환 장치는, 로스 디텍터(501), 음성 데이터 디코더(502), 음성 데이터 인코더(503), 파라미터 수정부(504) 및 음성 데이터 출력부(505)를 구비한다.

로스 디텍터(501)는, 수신한 음성 데이터를 음성 데이터 디코더(502)에 출력한다. 또한，로스 디텍터(501)는, 수신한 음성 데이터가 로스되어 있는지를 검출하고, 검출 결과를 음성 데이터 디코더(502)와 음성 데이터 인코더(503)와 파라미터 수정부(504)와 음성 데이터 출력부(505)에 출력한다.

음성 데이터 디코더(502)는, 로스가 검출되지 않은 경우, 로스 디텍터(501) 로부터 입력된 음성 데이터를 복호하고, 복호 음성 신호를 음성 데이터 인코더(503)에 출력한다.

음성 데이터 인코더(503)는, 로스가 검출되지 않은 경우, 음성 데이터 디코더(502)로부터 입력된 복호 음성 신호를 부호화하고, 부호화된 음성 데이터를 음성 데이터 출력부(505)에 출력한다. 또한，음성 데이터 인코더(503)는, 부호화 시의 파라미터인 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 파라미터 수정부(504)에 출력한다. 또한，음성 데이터 인코더(503)는, 로스가 검출된 경우, 파라미터 수정부(504)로부터 파라미터를 수취한다. 그리고, 음성 데이터 인코더(503)는, 파라미터 추출에 이용하는 필터(도시 생략)를 보유하고 있으며, 파라미터 수정부(504)로부터 수취한 파라미터를 부호화하여, 음성 데이터를 생성한다. 그 때에, 음성 데이터 인코더(503)는 필터 등의 메모리를 갱신한다. 여기에서, 음성 데이터 인코더(503)는, 부호화 시에 생기는 양자화 오차에 의해, 부호화 후의 파라미터값이 파라미터 수정부(504)로부터 입력된 값과 동일한 값으로 되지 않는 경우, 부호화 후의 파라미터값이 파라미터 수정부(504)로부터 입력된 값에 가장 가까운 값으로 되도록 선택한다. 또한，통신 상대의 무선 통신 장치가 보유하는 필터의 메모리와의 저어가 생기는 것을 피하기 위해서, 음성 데이터 인코더(503)는, 음성 데이터를 생성할 때에, 파라미터 추출 등에 이용하는 필터가 갖는 메모리(도시 생략)를 갱신한다. 또한，음성 데이터 인코더(503)는, 생성된 음성 데이터를 음성 데이터 출력부(505)에 출력한다.

파라미터 수정부(504)는, 음성 데이터 인코더(503)로부터 부호화 시의 파라 미터인 스펙트럼 프라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 수취하고, 보존한다. 또한，파라미터 수정부(504)는, 보유하고 있던 로스 검출 전의 파라미터를 수정하지 않거나, 또는 소정의 수정을 하고, 로스 디텍터(501)로부터 입력되는 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)에 출력한다.

음성 데이터 출력부(505)는, 로스 디텍터(501)로부터 수취한 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)로부터 수취한 음성 신호를 출력한다.

다음으로，도 10을 참조하면서, 실시예 5의 음성 데이터 변환 장치를 설명한다.

우선，로스 디텍터(501)가, 수신한 음성 데이터가 로스되어 있는지를 검출한다(스텝 S1001). 로스 디텍터(501)가 로스를 검출하지 않았다고 하면, 음성 데이터 디코더(502)가 수신한 음성 데이터를 기초로 복호 음성 신호를 생성한다(스텝 S1002). 그리고, 음성 데이터 인코더(503)가, 복호 음성 신호를 부호화하고, 부호화 시의 파라미터인 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 잔차 신호 또는 잔차 신호 게인을 출력한다(스텝 S1003).

로스 디텍터(501)가 로스를 검출하였다고 하면, 파라미터 수정부(504)가, 보유하고 있는 로스 전의 파라미터를 수정하지 않거나, 또는 소정의 수정을 하여, 음성 데이터 인코더(503)에 출력한다. 이 파라미터를 수신한 음성 데이터 인코더(503)는, 파라미터를 추출하기 위한 필터가 갖는 메모리를 갱신한다(스텝 S1004). 또한，음성 데이터 인코더(503)가, 로스되기 직전의 파라미터를 기초로 음성 신호를 생성한다(스텝 S1005).

그리고, 음성 데이터 출력부(505)가, 로스 검출 결과에 기초하여, 음성 데이터 인코더(503)로부터 수취한 음성 신호를 출력한다(스텝 S1006).

실시예 5에 의해, 예를 들면 게이트웨이 등과 같은 데이터를 변환하는 장치에서, 음성 데이터의 로스에 대한 보간 신호를 파형 부호화 방식에 의해 생성하지 않고, 파라미터 등을 이용하여 로스 부분을 보간함으로써, 보간 신호의 음질을 향상시킬 수 있다. 또한，음성 데이터의 로스에 대한 보간 신호를 파형 부호화 방식에 의해 생성하지 않고, 파라미터 등을 이용하여 로스 부분을 보간함으로써, 연산량을 적게 할 수 있다.

여기에서, 실시예 5에서는 G.711로 대표되는 파형 부호화 방식에 의해 부호화된 음성 데이터를 CELP 방식에 의해 부호화된 음성 데이터로 변환하는 형태를 나타내었지만, CELP 방식에 의해 부호화된 음성 데이터를 다른 CELP 방식에 의해 부호화된 음성 데이터로 변환하는 형태이어도 된다.

상기 실시예에 따른 장치 중 어떤 것은, 예를 들면, 아래와 같이 정리하는 것이 가능하다.

파형 부호화 방식에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 애널라이저와, 파라미터 수정부와, 음성 합성부와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스를 검출하고, 음성 신호 출력부가 로스를 보간하는 음성 신호를 출력하기 전에 로스 후의 음성 프레임을 수신하였는지를 검출한다. 음성 데이터 디코더는, 음성 프레임을 복호하 여 복호 음성 신호를 생성한다. 음성 데이터 애널라이저는, 복호 음성 신호의 시간을 반전시켜서 파라미터를 추출한다. 파라미터 수정부는, 파라미터에 소정의 수정을 행한다. 음성 합성부는, 수정된 파라미터를 이용하여 합성 음성 신호를 생성한다.

CELP 방식(Code-Excited Linear Prediction)에 의한 음성 데이터 복호 장치는, 로스 디텍터와, 제1 음성 데이터 디코더와, 제2 음성 데이터 디코더와, 파라미터 보간부와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 음성 데이터 내에 로스가 있는지를 검출하고, 제1 음성 데이터 디코더가 제1 음성 신호를 출력하기 전에 로스 후의 음성 프레임을 수신하였는지를 검출한다. 제1 음성 데이터 디코더는, 로스 검출의 결과에 기초하여, 음성 데이터를 복호하여 음성 신호를 생성한다. 제2 음성 데이터 디코더는, 로스 검출의 결과에 기초하여, 음성 프레임에 대응하는 음성 신호를 생성한다. 파라미터 보간부는, 제１ 및 제2 파라미터를 이용하여 로스에 대응하는 제3 파라미터를 생성하여 제1 음성 데이터 디코더에 출력한다. 음성 신호 출력부는, 제1 음성 데이터 디코더로부터 입력된 음성 신호를 출력한다. 제1 음성 데이터 인코더는, 로스가 검출되지 않은 경우, 음성 데이터를 복호하여 음성 신호를 생성하고, 이 복호 시에 추출한 제1 파라미터를 파라미터 보간부에 출력한다. 제1 음성 데이터 디코더는, 로스가 검출된 경우, 음성 데이터의 로스 앞의 부분을 이용하여 로스에 대응하는 제1 음성 신호를 생성한다. 제2 음성 데이터 디코더는, 로스가 검출되고, 또한 제1 음성 데이터 디코더가 제1 음성 신호를 출력하기 전에 음성 프레임이 검출된 경우, 음성 데이터의 로스 앞의 부분을 이용하여 로스에 대응하는 제2 음성 신호를 생성하고, 제2 음성 신호를 이용하여 음성 프레임을 복호하고, 이 복호 시에 추출한 제2 파라미터를 파라미터 보간부에 출력한다. 제1 음성 데이터 디코더는, 파라미터 보간부로부터 입력된 제3 파라미터를 이용하여 로스에 대응하는 제3 음성 신호를 생성한다.

CELP 방식에 의해, 음성 데이터 내의 로스를 보간하는 보간 신호를 출력하는 음성 데이터 복호 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 신호 출력부를 구비한다. 로스 디텍터는, 로스를 검출하고, 음성 데이터의 로스 부분이 늦게 수신된 것을 검출한다. 로스 부분은 로스에 대응한다. 음성 데이터 디코더는, 메모리 축적부에 축적되어 있는 음성 데이터의 로스 앞의 부분을 사용하여 로스 부분을 복호하여 복호 음성 신호를 생성한다. 음성 신호 출력부는, 복호 음성 신호를 포함하는 음성 신호를 복호 음성 신호의 강도의 음성 신호의 강도에 대한 비율이 변화되도록 출력한다.

제1 음성 부호화 방식의 제1 음성 데이터를 제2 음성 부호화 방식의 제2 음성 데이터로 변환하는 음성 데이터 변환 장치는, 로스 디텍터와, 음성 데이터 디코더와, 음성 데이터 인코더와, 파라미터 수정부를 구비한다. 로스 디텍터는, 제1 음성 데이터 내의 로스를 검출한다. 음성 데이터 디코더는, 제1 음성 데이터를 복호하여 복호 음성 신호를 생성한다. 음성 데이터 인코더는, 파라미터를 추출하는 필터를 구비하고，복호 음성 신호를 제2 음성 부호화 방식에 의해 부호화한다. 파라미터 수정부는, 음성 데이터 인코더로부터 파라미터를 수취하여 유지한다. 파라미터 수정부는, 파라미터에 소정의 수정을 행하거나, 또는 행하지 않고, 로스 검출 의 결과에 기초하여, 음성 데이터 인코더에 출력한다. 음성 데이터 인코더는, 로스가 검출되지 않은 경우, 복호 음성 신호를 제2 음성 부호화 방식에 의해 부호화하고, 이 부호화 시에 추출한 파라미터를 파라미터 수정부에 출력한다. 음성 데이터 인코더는, 로스가 검출된 경우, 파라미터 수정부로부터 입력되는 파라미터에 기초하여 음성 신호를 생성하고, 필터가 갖는 메모리를 갱신한다.

제1 음성 부호화 방식이 파형 부호화 방식이며, 제2 음성 부호화 방식이 CELP 방식인 것이 바람직하다.

파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인 것이 바람직하다.

당업자는 상기 실시예의 다양한 변형을 용이하게 실시할 수 있다. 따라서，본 발명은 상기 실시예에 한정되지 않고, 청구항이나 그 균등물에 의해 참작되는 가장 넓은 범위로 해석된다.

Claims

음성 데이터 복호 장치로서,

음성 데이터 내에 로스(loss)가 있는지를 검출하기 위한 수단과,

상기 음성 데이터를 복호하여 제1 복호 음성 신호를 생성하기 위한 수단과,

상기 제1 복호 음성 신호로부터 제１ 파라미터를 추출하기 위한 수단과,

상기 로스 검출의 결과에 기초하여, 상기 제1 파라미터를 수정하기 위한 수단과,

수정된 상기 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성하기 위한 수단과,

상기 로스를 보간하는 음성 신호를 출력하기 위한 수단과,

상기 로스를 보간하는 음성 신호가 출력되기 전에 상기 로스 후의 음성 프레임을 수신하였는지를 검출하기 위한 수단과,

상기 음성 프레임을 복호하여 제2 복호 음성 신호를 생성하기 위한 수단과,

상기 제2 복호 음성 신호의 시간을 반전시켜 제2 파라미터를 추출하기 위한 수단과,

상기 제2 파라미터에 소정의 수정을 행하기 위한 수단과,

수정된 상기 제2 파라미터를 이용하여 제2 합성 음성 신호를 생성하기 위한 수단

을 구비하는 음성 데이터 복호 장치.
제1항에 있어서,

상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호 및 상기 제1 합성 음성 신호를 포함하는 음성 신호를 상기 제1 복호 음성 신호의 강도의 상기 제1 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하기 위한 수단을 더 구비하는

음성 데이터 복호 장치.
삭제
제1항 또는 제2항에 있어서,

상기 제1 파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인

음성 데이터 복호 장치.
제1항에 있어서,

상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호를 출력하기 위한 수단과,

상기 로스 검출의 결과에 기초하여, 상기 제1 합성 음성 신호와 상기 제2 합성 음성 신호를 포함하는 음성 신호를 상기 제1 합성 음성 신호의 강도의 상기 제2 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하기 위한 수단을 더 구비하는

음성 데이터 복호 장치.
음성 데이터 복호 방법으로서,

음성 데이터 내에 로스가 있는지를 검출하는 단계와,

상기 음성 데이터를 복호하여 제1 복호 음성 신호를 생성하는 단계와,

상기 제1 복호 음성 신호로부터 제１ 파라미터를 추출하는 단계와,

상기 로스 검출의 결과에 기초하여, 상기 제1 파라미터를 수정하는 단계와,

수정된 상기 제1 파라미터를 이용하여 제1 합성 음성 신호를 생성하는 단계와,

상기 로스를 보간하는 신호가 출력되기 전에 상기 로스 후의 음성 프레임을 수신하였는지를 검출하는 단계와,

상기 음성 프레임을 복호하여 제2 복호 음성 신호를 생성하는 단계와,

상기 제2 복호 음성 신호의 시간을 반전시켜 제2 파라미터를 추출하는 단계와,

상기 제2 파라미터에 소정의 수정을 행하는 단계와,

수정된 상기 제2 파라미터를 이용하여 제2 합성 음성 신호를 생성하는 단계

를 포함하는 음성 데이터 복호 방법.
제6항에 있어서,

상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호 및 상기 제1 합성 음성 신호를 포함하는 음성 신호를 상기 제1 복호 음성 신호의 강도의 상기 제1 합성 음성 신호에 대한 강도에 대한 비율을 바꾸면서 출력하는 단계를 더 포함하는

음성 데이터 복호 방법.
삭제
제6항에 있어서,

상기 로스 검출의 결과에 기초하여, 상기 제1 복호 음성 신호를 출력하는 단계와,

상기 로스 검출의 결과에 기초하여, 상기 제1 합성 음성 신호와 상기 제2 합성 음성 신호를 포함하는 음성 신호를 상기 제1 합성 음성 신호의 강도의 상기 제2 합성 음성 신호의 강도에 대한 비율을 바꾸면서 출력하는 단계를 더 포함하는

음성 데이터 복호 방법.
제6항, 제7항 또는 제9항 중 어느 한 항에 있어서,

상기 제1 파라미터가, 스펙트럼 파라미터, 지연 파라미터, 적응 코드북 게인, 정규화 잔차 신호, 또는 정규화 잔차 신호 게인인 음성 데이터 복호 방법.