KR20200087288A

KR20200087288A - 종단 간 텍스트 대 스피치 변환

Info

Publication number: KR20200087288A
Application number: KR1020207020208A
Authority: KR
Inventors: 사무엘 벤지오; 유슈안 왕; 종횡 양; 지펭 첸; 용후이 우; 이오아니스 아지오미르지안아키스; 론 제이. 웨이스; 나브딥 자이틀리; 라이언 엠. 리프킨; 로버트 앤드류 제임스 클라크; 쿠옥 브이. 르; 러셀 제이. 라이언; 잉 샤오
Original assignee: 구글 엘엘씨
Priority date: 2017-03-29
Filing date: 2018-03-29
Publication date: 2020-07-20
Anticipated expiration: 2038-03-29
Also published as: CA3058433A1; US10573293B2; KR102135865B1; JP2022058554A; US20200098350A1; CA3206223A1; AU2020201421B2; WO2018183650A3; US11107457B2; CA3206209A1; EP3745394A1; AU2018244917B2; AU2020201421A1; AU2018244917A1; US20190311708A1; EP3583594A2; CN110476206A; EP3583594B1; EP3745394B1; JP7629416B2

Abstract

텍스트로부터 스피치를 생성하기 위한 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치가 개시되어 있다. 상기 시스템들 중 하나는, 하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하고, 상기 하나 이상의 저장 디바이스는, 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금, 시퀀스-투-시퀀스 반복 신경망(sequence-to-sequence recurrent neural network); 및 서브 시스템을 구현하도록 하는 명령어들을 저장하고, 상기 시퀀스-투-시퀀스 반복 신경망은, 특정 자연 언어로 문자들의 시퀀스를 수신하고, 그리고 상기 특정 자연 언어로 상기 문자들의 시퀀스의 구두 발화(verbal utterance)의 스펙트로그램(spectrogram)을 생성하기 위해 상기 문자들의 시퀀스를 처리하도록 구성되고, 상기 서브 시스템은, 상기 특정 자연 언어로 상기 문자들의 시퀀스를 수신하고, 그리고 상기 특정 자연 언어로 상기 문자들의 시퀀스의 구두 발화의 스펙트로 그램을 출력으로 얻기 위해 시퀀스-투-시퀀스 반복 신경망에 입력으로서 상기 문자들의 시퀀스를 제공한다.

Description

종단 간 텍스트 대 스피치 변환{END-TO-END TEXT-TO-SPEECH CONVERSION}

관련 출원들에 대한 상호 참조

본 출원은 2017년 3월 29일에 출원된 그리스 특허 출원 번호 20170100126의 가출원이 아닌, 우선권을 주장하며, 그 전체 내용은 여기에 참조로 포함된다.

본 발명은 신경망들을 사용하여 텍스트를 스피치로 변환하는 것에 관한 것이다.

신경망들은 수신된 입력에 대한 출력을 예측하기 위해 비선형 유닛들의 하나 이상의 층들을 사용하는 기계 학습 모델이다. 일부 신경망들은 출력층에 더하여 하나 이상의 숨겨진 층을 포함한다. 각 숨겨진 계층의 출력은 네트워크에서 다음 층, 즉, 다음 숨겨진 층 또는 출력 층에 대한 입력으로 사용된다. 네트워크의 각 계층은 파라미터들의 각 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.

일부 신경망들은 반복적인 신경망이다. 반복 신경망은 입력 시퀀스를 수신하고 입력 시퀀스로부터 출력 시퀀스를 생성하는 신경망이다. 특히, 반복 신경망은 현재 시간 단계에서의 출력을 계산하는데 이전 시간 단계로부터 네트워크의 내부 상태의 일부 또는 전부를 사용할 수 있다. 반복 신경망의 예는 하나 이상의 LSTM 메모리 블록을 포함하는 LSTM(long short term) 신경망이다. 각각의 LSTM 메모리 블록은 하나 이상의 셀을 포함하고, 예를 들어, 전류 활성화를 생성하거나 LSTM 신경망의 다른 컴포넌트들에 제공하기 위해 사용되도록 셀로 하여금 셀에 대한 이전 상태들을 저장하도록 하는 입력 게이트, 포겟 게이트 및 출력 게이트를 각 셀이 포함한다.

본 명세서는, 텍스트를 스피치로 변환하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터에서 컴퓨터 프로그램들로 구현되는 시스템을 서술한다.

일반적으로, 하나의 혁신적인 양태가, 하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하는 시스템에서 구현될 수 있고, 상기 하나 이상의 저장 디바이스는, 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금, 시퀀스-투-시퀀스 반복 신경망(sequence-to-sequence recurrent neural network); 및 서브 시스템을 구현하도록 하는 명령어들을 저장하고, 상기 시퀀스-투-시퀀스 반복 신경망은, 특정 자연 언어로 문자들의 시퀀스를 수신하고, 그리고 상기 특정 자연 언어로 상기 문자들의 시퀀스의 구두 발화(verbal utterance)의 스펙트로그램(spectrogram)을 생성하기 위해 상기 문자들의 시퀀스를 처리하도록 구성되고, 상기 서브 시스템은, 상기 특정 자연 언어로 상기 문자들의 시퀀스를 수신하고, 그리고 상기 특정 자연 언어로 상기 문자들의 시퀀스의 구두 발화의 스펙트로 그램을 출력으로 얻기 위해 시퀀스-투-시퀀스 반복 신경망에 입력으로서 상기 문자들의 시퀀스를 제공한다. 상기 서브 시스템은, 상기 특정 자연 언어 내의 문자들의 입력 시퀀스의 구두 발화의 스펙트로그램을 사용하여 스피치를 생성하고, 그리고 재생을 위해 상기 생성된 스피치를 제공하도록 더 구성될 수 있다.

본 명세서에서 서술된 주제는 다음의 장점들 중 하나 이상을 실현하기 위해 특정 실시예들에서 구현될 수 있다. 프레임 레벨에서 스피치를 생성함으로써, 본 명세서에서 서술된 시스템은 다른 시스템들보다 더 빠르게 텍스트로부터 음성을 생성할 수 있는 한편, 비교가능 하거나 또는 더 나은 품질의 음성을 생성할 수 있다. 또한, 아래에서 더 상세히 설명될 바와 같이, 본 명세서에 서술된 시스템은 모델 크기, 훈련 시간 및 추론 시간을 감소시킬 수 있고 또한 수렴 속도를 실질적으로 증가시킬 수 있다. 본 명세서에서 서술된 시스템은 수동으로 설계된 언어적 피처들 또는 복잡한 컴포넌트들 없이 고품질의 음성을 생성할 수 있다. 예를 들어, 본 명세서에서 서술된 시스템은 HMM(Hidden Markov Model) 얼라이너가 필요하지 않으므로 복잡성이 줄어들고 그리고 계산 리소스들을 적게 사용하면서도 고품질의 음성을 생성할 수 있다.

본 명세서의 주제의 하나 이상의 실시예의 세부 사항들은 첨부 도면들 및 이하의 상세한 설명에 서술된다. 본 주제의 다른 특징들, 양태들 및 이점들은 상세한 설명, 도면들 및 청구 범위들로부터 명백해질 것이다.

도 1은 예시적인 텍스트 대 스피치 변환 시스템을 도시한다.
도 2는 예시적인 CBHG 신경망을 도시한다.
도 3은 문자들의 시퀀스를 스피치로 변환하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 문자들의 시퀀스의 구두 발화의 압축된 스펙트로그램으로부터 스피치를 생성하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면들에서 유사한 참조 번호들 및 명칭들은 유사한 요소들을 나타낸다.

도 1은 예시적인 텍스트 대 스피치 변환 시스템(100)을 도시한다. 텍스트 대 스피치 변환 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터 상에서 컴퓨터 프로그램으로서 구현되는 시스템의 예이며, 시스템들, 컴포넌트들, 이하에 서술되는 기술들이 구현될 수 있다.

시스템(100)은 입력 텍스트(104)를 입력으로서 수신하고 그리고 입력 텍스트 (104)를 처리하여 출력으로서 음성(120)을 생성하도록 구성된 서브 시스템(102)을 포함한다. 입력 텍스트(104)는 특정 자연 언어로 된 문자들의 시퀀스를 포함한다. 문자들의 시퀀스는 알파벳 문자들, 숫자들, 문장 부호들 및/또는 기타 특수 문자들을 포함할 수 있다. 입력 텍스트(104)는 다양한 길이들의 문자 시퀀스들일 수 있다.

입력 텍스트(104)를 처리하기 위해, 서브 시스템(102)은 시퀀스-투-시퀀스 반복 신경망(106)(이하 "seq2seq 네트워크(106)"), 후처리 신경망(108) 및 파형 합성기(110)를 포함하는 종단 간 텍스트 대 스피치 변환 모델(150)과 상호 작용하도록 구성된다.

서브 시스템(102)은 특정 자연 언어의 문자들의 시퀀스를 포함하는 입력 텍스트(104)를 수신한 후, 서브 시스템(102)은 문자들의 시퀀스를 seq2seq 네트워크 (106)에 입력으로서 제공한다. seq2seq 네트워크(106)는 서브 시스템(102)으로부터 문자들의 시퀀스를 수신하고 문자들의 시퀀스를 처리하여 특정 자연 언어로 문자들의 시퀀스의 구두 발화의 스펙트로그램을 생성하도록 구성된다.

특히, seq2seq 네트워크(106)는 (i) 인코더 프리-넷 신경망(114) 및 인코더 CBHG 신경망(116)을 포함하는 인코더 신경망(112), 및 (ii)주의 기반 디코더 반복 신경망(118) 사용하여 문자들의 시퀀스를 처리한다. 문자들의 시퀀스의 각 문자는 원-핫 벡터로 표현될 수 있으며 연속 벡터에 삽입된다. 즉, 서브시스템(102)은 시퀀스의 각 문자를 원-핫 벡터(one-hot vector)로 표현할 수 있고, 이후, 시퀀스를 seq2seq 네트워크(106)에 입력으로서 제공하기 전에 문자의 임베딩(즉, 벡터 또는 다른 정렬된 숫자 값들의 모음)을 생성할 수 있다.

인코더 프리-넷 신경망(114)은 시퀀스에서 각각의 문자의 각각의 임베딩을 수신하고 문자의 변환된 임베딩을 생성하기 위해 각각의 문자의 각각의 임베딩을 처리하도록 구성된다. 예를 들어, 인코더 프리-넷 신경망(114)은 변환된 임베딩을 생성하기 위해 각각의 임베딩에 한 세트의 비선형 변환을 적용할 수 있다. 일부 경우들에서, 인코더 프리-넷 신경망(114)은 수렴 속도를 증가시키고 훈련 동안 시스템의 일반화 능력을 향상시키기 위해 드롭아웃을 갖는 병목 현상 신경망 층을 포함한다.

인코더 CBHG 신경망(116)은 인코더 프리-넷 신경망(206)으로부터 변환된 임베딩들을 수신하고 그리고 변환된 임베딩들을 처리하여 문자들의 시퀀스의 인코딩 된 표현들을 생성하도록 구성된다. 인코더 CBHG 신경망(112)은 CBHG 신경망을 포함하고, 이는 도 2과 관련하여 아래에서 더 상세히 서술된다. 여기에서 서술된 바와 같은 인코더 CBHG 신경망(112)의 사용은 과적합(overfitting)을 감소시킬 수 있다. 또한, 예를 들어 다층 RN 인코더와 비교할 때 잘못된 발음이 줄어든다.

주의 기반 디코더 반복 신경망(118)(여기에서 "디코더 신경망(118)"으로 지칭 됨)은 디코더 입력들의 시퀀스를 수신하도록 구성된다. 시퀀스의 각 디코더 입력에 대해, 디코더 신경망(118)은 디코더 입력 및 인코더 CBHG 신경망(116)에 의해 생성된 인코딩된 표현들을 문자들의 처리하여 시퀀스의 스펙트로그램의 다중 프레임들을 생성하도록 구성된다. 즉, 각각의 디코더 단계에서 하나의 프레임을 생성 (예측)하는 대신에, 디코더 신경망(118)은 스펙트로그램의 r 프레임들을 생성하며, r은 1보다 큰 정수이다.

특히, 디코더 단계(t)에서, 디코더 단계(t-1)에서 생성된 r 프레임들 중 적어도 마지막 프레임은 디코더 단계(t+1)에서 디코더 신경망(118)에 입력으로서 공급된다. 일부 구현들에서, 디코더 단계(t-1)에서 생성된 모든 r 프레임들은 디코더 단계(t+1)에서 디코더 신경망(118)에 입력으로서 공급될 수 있다. 제1 디코더 단계에 대한 디코더 입력은 전부 0프레임(즉, <GO> 프레임)일 수 있다. 인코딩된 표현들에 대한 주의는, 예를 들어, 종래의 주의 메커니즘을 사용하여 모든 디코더 단계들에 적용된다. 디코더 신경망(118)은 특정 디코더 단계에서 r 개의 프레임들을 동시에 예측하기 위해 선형 활성화와 함께 완전히 연결된 신경망 계층을 사용할 수 있다. 예를 들어, 각 프레임이 80-D(80-디멘션) 벡터인 5개들의 프레임을 예측하려면, 디코더 신경망(118)은 선형 활성화와 함께 완전히 연결된 신경망 계층을 사용하여 400-D 벡터를 예측하고 그리고 400-D 벡터를 재구성하여 5개의 프레임들을 얻는다.

각각의 시간 단계에서 r 프레임을 생성함으로써, 디코더 신경망(118)은 총 디코더 단계들의 수를 r로 나눔으로써 모델 크기, 훈련 시간 및 추론 시간을 감소시킨다. 또한, 이 기법은 수렴 속도를 실질적으로 증가시킨다. 즉, 이 기법은 주의 메커니즘에 의해 학습된 바와 같이 프레임들과 인코딩된 표현들 사이에서 훨씬 더 빠르고 (정확한) 정렬을 초래하기 때문이다. 이는, 주변 음성 프레임이 서로 관련되어 있고 각 문자가 일반적으로 여러 프레임에 해당하기 때문이다. 한 번에 다수의 프레임을 방출하면 디코더 신경망(118)은 이 품질을 이용하여 훈련하는 동안 인코딩된 표현에 효과적으로 참여하는 방법, 즉, 훈련되는 방법을 신속하게 학습할 수 있다.

디코더 신경망(118)은 하나 이상의 게이트된 반복 단위 신경망 계층들을 포함할 수 있다. 수렴 속도를 높이기 위해, 디코더 신경망(118)은 하나 이상의 수직 잔여 연결들을 포함할 수 있다. 일부 구현들에서, 스펙트로그램은 멜-스케일 스펙트로그램과 같은 압축된 스펙트로그램이다. 예를 들어, 원시 스펙트로그램 대신 압축 스펙트로그램을 사용하면 중복성이 줄어들어 훈련 및 추론 중에 필요한 계산이 감소된다.

후처리 신경망(108)은 압축된 스펙트로그램을 수신하고 그리고 압축된 스펙트로그램을 처리하여 파형 합성기 입력을 생성하도록 구성된다.

압축된 스펙트로그램을 처리하기 위해, 후처리 신경망(108)은 CBHG 신경망을 포함한다. 특히, CBHG 신경망은 1차원 컨볼루션 서브네트워크, 이어서 하이웨이 네트워크, 이어서 재귀 신경망을 포함한다. CBHG 신경망은 하나 이상의 잔여 연결들을 포함할 수 있다. 1-D 컨볼루션 서브네트워크는 1-D 컨볼루션 필터들의 뱅크를 포함하고 이어서 보폭을 갖는 시간 계층을 따라 최대 풀링을 포함할 수 있다. 일부 경우들에서, 양방향 반복 신경망은 게이트 반복 유닛 신경망이다. CBHG 신경망은 도 2를 참조하여 아래에서 더 상세히 설명된다.

일부 구현들에서, 후처리 신경망(108)은 시퀀스-투-시퀀스 반복 신경망과 공동으로 훈련되었다. 즉, 훈련 동안, 시스템(100)(또는 외부 시스템)은 동일한 신경망 훈련 기술, 예를 들어, 기울기 하강 기반 훈련 기술을 사용하여 동일한 훈련 데이터 세트에 대해 후처리 신경망 (108) 및 seq2seq 네트워크(106)를 훈련시킨다. 보다 구체적으로, 시스템(100)(또는 외부 시스템)은 후처리 신경망(108) 및 seq2seq 네트워크(106)의 모든 네트워크 파라미터들의 현재 값들을 공동으로 조정하기 위해 손실 함수의 기울기 추정치를 역전파할 수 있다. 별도로 훈련받거나 사전 훈련 받아야할 컴포넌트들을 갖고, 따라서, 각 컴포넌트들의 에러들이 복잡할 수 있는 종래의 시스템들과 달리, 공동 훈련된 후처리 N(108) 및 seq2seq 네트워크(106)를 갖는 시스템들은 보다 강력하다(예를 들어, 에러들이 더 작고 처음부터 훈련될 수 있음). 이러한 장점들은 실제 세계에서 발견되는 매우 풍부하고 표현적이지만 시끄러운 데이터에 대해 종단 간 텍스트 대 스피치 변환 모델(150)의 훈련을 가능하게 한다.

파형 합성기(110)는 파형 합성기 입력을 수신하고, 그리고 파형 합성기 입력을 처리하여 특정 자연 언어로 문자들의 입력 시퀀스의 구두 발화의 파형을 생성하도록 구성된다. 일부 구현들에서, 파형 합성기는 그리핀-림 합성기이다. 일부 다른 구현들에서, 파형 합성기는 보코더이다. 일부 다른 구현들에서, 파형 합성기는 파형 인버터에 대한 훈련가능한 스펙트로그램이다.

파형 합성기(110)가 파형을 생성한 후, 서브 시스템(102)은 파형을 사용하여 스피치(120)를 생성하고, 예를 들어, 사용자 디바이스상에서 재생을 위해 생성된 스피치(120)를 제공하거나, 또는 다른 시스템이 스피치를 생성하고 재생할 수 있도록 생성된 파형을 다른 시스템에 제공한다.

도 2는 예시적인 CBHG 신경망(200)을 도시한다. CBHG 신경망(200)은 인코더 CBHG 신경망(116)에 포함된 CBHG 신경망 또는 도 1의 후처리 신경망(108)에 포함 된 CBHG 신경망일 수 있다.

CBHG 신경망(200)은 1차원 컨볼루션 서브 네트워크(208), 이어서 하이웨이 네트워크(212), 그리고 이어서 양방향 반복 신경망(214)을 포함한다. CBHG 신경망 (200)은 하나 이상의 잔여 연결들, 예를 들어, 잔여 연결(210)을 포함할 수 있다.

1-D 컨볼루션 서브 네트워크(208)는 1-D 컨볼루션 필터들의 뱅크(204)에 이어서 하나의 보폭(206)으로 시간 계층을 따라 최대 풀링을 포함할 수 있다. 1차원 컨볼루션 필터들의 뱅크(204)는 K 세트들의 1차원 컨볼루션 필터들을 포함할 수 있고, 여기서 k 번째 세트는 각각 컨벌루션 폭이 k 인 Ck 필터들을 포함한다.

1-D 컨볼루션 서브 네트워크(208)는 입력 시퀀스(202), 예를 들어, 인코더 프리-넷 신경망에 의해 생성된 문자들의 시퀀스의 변환된 임베딩들을 수신하도록 구성된다. 서브 네트워크(208)는 1-D 컨볼루션 필터들의 뱅크(204)를 사용하여 입력 시퀀스를 처리하여 입력 시퀀스(202)의 컨볼루션 출력들을 생성한다. 이후, 서브 네트워크(208)는 컨볼루션 출력들을 함께 적층하고, 그리고 최대 풀링된 출력들을 생성하기 위해 보폭 하나(206)와 함께 시간 계층을 따라 최대 풀링을 사용하여 스택형 컨볼루션 출력들을 처리한다. 서브 네트워크(208)는 이후 서브 네트워크(208)의 서브 네트워크 출력들을 생성하기 위해 하나 이상의 고정된 폭의 1-D 컨볼루션 필터들을 사용하여 최대 풀링된 출력들을 처리한다.

서브 네트워크 출력이 생성된 후, 잔여 연결(210)은 서브 네트워크 출력들을 원래의 입력 시퀀스(202)와 결합하여 컨볼루션 출력들을 생성하도록 구성된다.

하이웨이 네트워크(212) 및 양방향 반복 신경 네트워크(214)는, 이어서 문자들의 시퀀스의 인코딩된 표현들을 생성하기 위해 컨볼루션 출력들을 처리하도록 구성된다.

특히, 하이웨이 네트워크(212)는 문자들의 시퀀스의 고레벨 특징 표현들을 생성하기 위해 컨볼루션 출력들을 처리하도록 구성된다. 일부 구현들에서, 하이웨이 네트워크는 하나 이상의 완전히 연결된 신경 네트워크 계층들을 포함한다.

양방향 반복 신경망(214)은 문자들의 시퀀스의 순차적인 특징 표현들을 생성하기 위해 고레벨 특징 표현들을 처리하도록 구성된다. 순차적인 특징 표현은 특정 문자 주위의 문자들의 시퀀스의 로컬 구조를 나타낸다. 순차적인 특징 표현은 특징 벡터들의 시퀀스를 포함할 수 있다. 일부 구현들에서, 양방향 반복 신경망은 게이트된 반복 유닛 신경망이다.

트레이닝 동안, 1-D 컨볼루션 서브 네트워크(208)의 하나 이상의 컨볼루션 필터는 뱃치 정규화 방법(batch normalization method)을 사용하여 트레이닝될 수 있으며, 이는 에스. 로페 및 씨. 스제게디: "뱃치 정규화: 내부 공변량 변화를 줄임으로써 딥 네트워크 교육 가속화," arXiv preprint arXiv: 1502.03167, 2015에서 서술된다.

일부 구현들에서, CBHG 신경망(200)의 하나 이상의 컨볼루션 필터는 비인과적인 컨볼루션 필터, 즉, 특정 시간 단계 T에서 양방향(예를 들어, T-1, T-2 및 T+1, T+2 등)으로 주변 입력들과 관련될 수 있는 컨볼루션 필터들이다. 반대로, 인과 컨볼루션 필터는 이전 입력들(... T-1, T-2 등)과만 관련될 수 있다.

일부 다른 구현들에서, CBHG 신경망(200)의 모든 컨볼루션 필터들은 비인과적인 컨볼루션 필터들이다.

비인과적 컨볼루션 필터들, 뱃치 정규화, 잔여 연결 및 시간 계층에 따른 최대 풀링의 사용은, 입력 시퀀스에서 CBHG 신경망(200)의 일반화 능력을 향상시켜서 텍스트 대 스피치 변환 시스템이 고품질의 스피치를 생성할 수 있게 한다.

도 3은 문자들의 시퀀스를 스피치로 변환하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 서술될 것이다. 예를 들어, 텍스트 대 스피치 변환 시스템(예를 들어, 도 1의 텍스트 대 스피치 변환 시스템(100)) 또는 텍스트 대 스피치 변환 시스템의 서브 시스템(예를 들어, 도 1의 서브 시스템(102))은 적절하게 프로그램되어 프로세스(300)를 수행할 수 있다.

시스템은 특정 자연 언어로 문자들의 시퀀스를 수신한다(단계 302).

이후, 시스템은 특정 자연 언어에서 문자들의 시퀀스의 구두 발화의 스펙트로그램을 출력으로서 획득하기 위해 시퀀스-투-시퀀스(seq2seq) 반복 신경망에 입력으로서 문자의 시퀀스를 제공한다(단계 304). 일부 구현들에서, 스펙트로그램은 압축된 스펙트로그램, 예를 들어, 멜-스케일 스펙트로그램이다.

특히, 시스템에서 문자들의 시퀀스를 수신한 후, seq2seq 반복 신경망은 인코더 프리-넷 신경망 및 인코더 CBHG 신경망을 포함하는 인코더 신경망을 사용하여 시퀀스의 각 문자들 각각의 인코딩된 표현을 생성하기 위해 문자들의 시퀀스를 처리한다.

보다 구체적으로, 문자들의 시퀀스의 각 문자는 원-핫 벡터로 표현될 수 있고 연속 벡터에 삽입될 수 있다. 인코더 프리-넷 신경망은 시퀀스에서 각 문자의 각각의 임베딩을 수신하고, 시퀀스에서 각각의 문자의 각각의 임베딩을 처리하여 인코더 프리-넷 신경망을 사용하여 문자의 변환된 임베딩을 생성한다. 예를 들어, 인코더 프리-넷 신경망은 변환된 임베딩을 생성하기 위해 각각의 임베딩에 비선형 변환들의 세트를 적용할 수 있다. 이후, 인코더 CBHG 신경망은 인코더 프리-넷 신경망으로부터 변환된 임베딩을 수신하고, 그리고 변환된 임베딩들을 처리하여 문자들의 시퀀스의 인코딩된 표현을 생성한다.

문자들의 시퀀스의 구두 발언에 대한 스펙트로그램을 생성하려면, seq2seq 반복 신경망은 주의 기반 디코더 반복 신경망을 사용하여 인코딩된 표현들을 처리한다. 특히, 주의 기반 디코더 반복 신경망은 디코더 입력들의 시퀀스를 수신한다. 시퀀스에서 제1 디코더 입력은 미리 결정된 초기 프레임이다. 시퀀스의 각 디코더 입력에 대해, 주의 기반 디코더 반복 신경망은 디코더 입력 및 인코딩된 표현들을 처리하여 스펙트로그램의 r 프레임들을 생성하며, 여기서 r은 1보다 큰 정수이다.생성된 r 프레임들 중 하나 이상이 시퀀스에서 다음 디코더 입력으로 사용될 수 있다. 다시 말해서, 시퀀스에서 서로의 디코더 입력은 시퀀스에서 디코더 입력에 선행하는 디코더 입력을 처리함으로써 생성된 하나 이상의 r 프레임이다.

주의-기반 디코더 반복 신경망의 출력은 따라서 스펙트로그램을 형성하는 다수의 프레임들의 세트들을 포함하고, 각 세트는 r 프레임들을 포함한다. 많은 경우들에서, r 프레임 세트들 사이에 겹침이 없다. 한 번에 r 프레임들을 생성하면, 주의 기반 디코더 반복 신경망에 의해 수행되는 디코더 단계들의 총 수는 r의 인자만큼 감소되어, 훈련 및 추론 시간을 감소시킨다. 이 기술은 또한 주의-기반 디코더 반복 신경망과 시스템의 수렴 속도와 학습 속도를 높이는 데 일반적으로 도움이 된다.

시스템은 특정 자연 언어에서 문자들의 시퀀스의 구두 발언의 스펙트로그램을 사용하여 스피치를 생성한다(단계 306).

일부 구현들에서, 스펙트로그램이 압축된 스펙트로그램일 때, 시스템은 압축 된 스펙트로그램으로부터 파형을 생성할 수 있고, 그리고 파형을 사용하여 스피치를 생성할 수 있다. 압축된 스펙트로그램으로부터 스피치를 생성하는 것은 도 4를 참조하여 아래에 더 상세히 설명된다.

이후, 시스템은 재생을 위해 생성된 스피치를 제공한다(단계 308). 예를 들어, 시스템은 생성된 스피치를 재생을 위해 데이터 통신 네트워크를 통해 사용자 디바이스로 전송한다.

도 4는 문자들의 시퀀스의 구두 발화의 압축된 스펙트로그램으로부터 스피치를 생성하기 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 서술될 것이다. 예를 들어, 텍스트 대 스피치 변환 시스템(예를 들어, 도 1의 텍스트 대 스피치 변환 시스템(100)) 또는 텍스트 대 스피치 변환 시스템의 서브 시스템(예를 들어, 도 1의 서브 시스템(102))은 적절하게 프로그래밍되어 프로세스 (400)를 수행할 수 있다.

시스템은 특정 자연 언어로 된 문자들의 시퀀스의 구두 발언의 압축된 스펙트로그램을 수신한다(단계 402).

그 후, 시스템은 파형 합성기 입력을 획득하기 위해 후처리 신경망에 입력으로서 압축된 스펙트로그램을 제공한다(단계 404). 일부 경우들에서, 파형 신시사이저 입력은 특정 자연 언어에서 문자들의 입력 시퀀스의 구두 발언에 대한 선형 스케일 스펙트로그램이다.

파형 합성기 입력을 획득한 후, 시스템은 파형 합성기 입력을 파형 합성기에 입력으로서 제공한다(단계 406). 파형 신시사이저는 파형 신시사이저 입력을 처리하여 파형을 생성한다. 일부 구현들에서, 파형 합성기는 그리핀-림 알고리즘을 사용하여 선형 스케일 스펙트로그램과 같은 파형 합성기 입력으로부터 파형을 합성하는 그리핀-림 합성기이다. 일부 다른 구현들에서, 파형 합성기는 보코더이다. 일부 다른 구현들에서, 파형 합성기는 파형 인버터에 대한 훈련가능한 스펙트로그램이다.

이후, 시스템은 파형을 사용하여 스피치를 생성한다, 즉, 파형으로 표현되는 사운드를 생성한다(단계 408). 이후, 시스템은, 예를 들어, 사용자 디바이스상에서 재생을 위해 생성된 스피치를 제공할 수 있다. 일부 구현들에서, 시스템은 다른 시스템이 스피치를 생성하고 재생할 수 있도록 파형을 다른 시스템에 제공할 수 있다.

특정 동작들 또는 액션들을 수행하도록 하나 이상의 컴퓨터 시스템을 구성하려면, 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합이 설치되어 시스템으로 하여금 동작들 또는 액션들 수행하도록 한다. 특정 동작들 또는 액션들을 수행하도록 하나 이상의 컴퓨터 프로그램을 구성하려면, 하나 이상의 프로그램은 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작들 또는 액션들을 수행하도록 하는 명령들을 포함한다.

본 명세서에 서술된 주제 및 기능적 동작들의 실시예들이, 디지털 전자 회로, 실체적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 본 명세서에 개시된 구조들 및 그의 구조적 등가물들을 포함하는 컴퓨터 하드웨어에서, 또는 이들의 하나 이상의 조합들에서 구현될 수 있다. 본 명세서에 서술된 주제의 실시예들은 하나 이상의 컴퓨터 프로그램들로서, 즉, 데이터 프로세싱 장치에 의해 실행되거나 또는 데이터 프로세싱 장치의 동작을 제어하기 위해 유형의 비 일시적인 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들을의 하나 이상의 모듈로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 인공적으로 생성된 전파 신호, 예를 들어, 기계 생성 전기, 광학 또는 전자기 신호 상에서 인코딩될 수 있고, 이는 데이터 프로세싱 장치에 의한 실행을 위해 적합한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성된다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.

"데이터 프로세싱 장치"라는 용어는, 예로서 프로그램가능 프로세서, 컴퓨터, 또는 다중 프로세서들 또는 컴퓨터들을 포함하여 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 이 장치는 특수 목적의 로직 회로, 예를 들어, FPGA(필드 프로그램가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)을 포함할 수 있다. 장치는, 하드웨어와 더불어, 문제의 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드라고도 언급되거나 또는 서술됨)은 컴파일되거나 해석된 언어들, 또는 선언적이거나 절차적 언어들을 포함한 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 그리고 독리형 프로그램 또는 컴퓨팅 환경에서 사용하기에 적합한 적합한 모듈, 컴포넌트, 서브루틴 또는 기타 유닛을 포함하는 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터를 보유하는 파일의 일부에서 저장될 수 있다. 예를 들어, 하나 이상의 스크립트들은 마크업 언어 문서, 해당 프로그램의 전용인 단일 파일, 또는 여러 개의 조정된 파일들(예를 들어, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 일부들을 저장하는 파일들)에서 저장된다. 컴퓨터 프로그램은, 하나의 컴퓨터에서, 또는 한 사이트에 위치하거나 여러 사이트들에 분산되어 있고 그리고 통신 네트워크로 상호연결된 여러 컴퓨터들에서 실행되도록 배치될 수 있다.

본 명세서에 서술된 프로세스들 및 논리 흐름들은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그램가능한 컴퓨터들에 의해 수행될 수 있다. 프로세스들 및 로직 흐름들은, 또한, FPGA(필드 프로그램가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)과 같은 특수 목적용 로직 회로에 의해 수행될 수 있으며 장치는 또한 특수 목적용 로직 회로로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은, 예를 들어, 범용 또는 특수 목적의 마이크로프로세서들 또는 둘 다 또는 임의의 다른 종류의 중앙 처리 장치에 기초할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은, 명령어들을 수행 또는 실행하기 위한 중앙 처리 장치, 및 명령들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한 예를 들어 자기 디스크들, 자기 광 디스크들 또는 광 디스크들과 같은 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나 또는 대용량 저장 장치로부터 데이터를 수신하거나 데이터를 전송하기 위해 또는 그 둘 모두를 위해 동작적으로 연결될 것이다. 그러나, 컴퓨터에는 이러한 장치가 필요없을 수 있다. 또한, 컴퓨터는, 다른 디바이스, 예를 들어, 이동 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(Global Positioning System) 수신기 또는 휴대용 저장 디바이스(예를 들어 USB(범용 직렬 버스) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능한 매체는, 예를 들어, 반도체 메모리 디바이스들(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들); 자기 디스크들(예를 들어, 내부 하드 디스크들 또는 착탈가능한 디스크들); 광자기 디스크들; 및 CD ROM과 DVD-ROM 디스크들을 포함하는 모든 형태들의 비 휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적용 논리 회로에 의해 구현될 수 있거나 또는 특수 목적용 논리 회로에 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에 서술된 주제의 실시예들은, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터), 및 키보드 및 사용자가 입력을 컴퓨터에 제공할 수 있는 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에 구현될 수 있다. 다른 종류들의 디바이스들은 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고 그리고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자에 의해 사용되는 디바이스로 문서들을 전송하고 그리고 디바이스로부터 문서들을 수신함으로써, 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 웹 페이지들을 사용자의 클라이언트 디바이스 상의 웹 브라우저에 전송함으로써 사용자와 상호작용할 수 있다.

본 명세서에서 서술된 주제의 실시예들은 백엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예 : 애플리케이션 서버)를 포함하거나 또는 프론트엔드 컴포넌트(예를 들어, 사용자가 본 명세서에서 서술된 주제의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터)를 포함하거나 또는 이러한 백 엔드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함할 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크들의 예들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어, 인터넷을 포함한다.

컴퓨팅 시스템에는 클라이언트들 및 서버들이 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 그리고 통상적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 그리고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.

본 명세서는 많은 특정 구현 세부 정보가 포함되어 있지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 것에 대한 제한들로 해석되어서는 안되고, 특정 발명들의 특정 실시예들에 특정될 수 있는 피처들의 설명으로 해석되어야 한다. 별도의 실시예들의 맥락에서 본 명세서에서 서술된 특정 피처들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락으로 서술된 다양한 피처들은 또한 다수의 실시 예들에서 개별적으로 또는 임의의 적절한 하위조합으로 구현될 수 있다. 더욱이, 피처들이 특정 조합들로 작용하는 것으로 서술될 수 있고, 심지어 처음에 그렇게 청구되기도 하지만, 청구된 조합의 하나 이상의 피처들이 조합에서 제외될 수 있으며, 그리고 청구된 조합은 하위조합 또는 하위조합의 변형에 관한 것일 수 있다.

유사하게, 동작들이 특정 순서로 도면에 도시되어 있지만, 이는 바람직한 결과를 달성하기 위해 그러한 동작들이 도시된 또는 순차적인 순서로 특정 동작으로 수행되거나 모든 예시된 동작들이 수행되는 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황들에서, 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 전술 한 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예들에서 이러한 분리를 요구하는 것으로 이해되어서는 안되며, 그리고 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품으로 패키지될 수 있음을 이해해야 한다.

주제의 특정 실시예들이 서술되었다. 다른 실시예들은 다음의 청구 범위의 범위 내에 있다. 예를 들어, 청구 범위에 기재된 동작들은 다른 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성할 수 있다. 일례로서, 첨부 도면에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 요구할 필요는 없다. 특정 구현들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

텍스트 대 스피치 변환 시스템을 사용하여, 특정 자연 언어의 문자들의 시퀀스로부터 상기 특정 자연 언어의 문자들의 시퀀스의 구두 발화(verbal utterance)의 스펙트로그램(spectrogram)을 생성하기 위한 컴퓨터로 구현되는 방법으로서,
상기 텍스트 대 스피치 변환 시스템의 인코더 반복 신경망을 사용하여, 상기 시퀀스의 문자들 각각의 인코딩된 표현을 생성하기 위해 상기 문자들의 시퀀스를 처리하는 단계와;
디코더 입력들의 시퀀스를 수신하는 단계와;
상기 디코더 입력들의 시퀀스에서 각 디코더 입력에 대해, 상기 텍스트 대 스피치 변환 시스템의 디코더 신경망을 사용하여, 상기 스펙트로그램의 다중 프레임들을 생성하기 위한 상기 디코더 입력 및 인코딩된 표현들을 처리하는 단계와; 그리고
상기 특정 자연 언어의 문자들의 시퀀스의 구두 발화 스펙트로그램으로부터 파형을 생성하는 단계를 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 인코더 신경망은, 인코더 프리-넷(pre-net) 신경망 및 인코더 CBHG 신경망을 포함하고,
상기 텍스트 대 스피치 변환 시스템의 인코더 반복 신경망을 사용하여, 상기 시퀀스의 문자들 각각의 인코딩된 표현을 생성하기 위해 상기 문자들의 시퀀스를 처리하는 단계는:
상기 인코더 프리-넷 신경망을 사용하여, 상기 시퀀스의 각 문자의 각각의 임베딩을 수신하는 단계와;
상기 인코더 프리-넷 신경망을 사용하여, 상기 문자의 각각의 변환된 임베딩을 생성하기 위해 상기 시퀀스의 각 문자의 각각의 임베딩을 처리하는 단계와; 그리고
상기 인코더 CBHG 신경망을 사용하여, 상기 문자의 각각의 인코딩된 표현을 생성하기 위해 상기 시퀀스의 각 문자의 각각의 변환된 임베딩을 처리하는 단계를 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제2항에 있어서,
상기 인코더 CBHG 신경망은, 1차원 컨볼루션 필터들(1-D convolutional filters)의 뱅크, 그 다음 하이웨이 네트워크, 그리고 그 다음 양방향 반복 신경망을 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제3항에 있어서,
상기 양방향 반복 신경망은 게이트 반복 유닛 신경망인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제3항에 있어서,
상기 인코더 CBHG 신경망은 상기 변환된 임베딩들과 상기 1차원 컨볼루션 필터들의 뱅크의 출력들 간 잔여 연결을 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제3항에 있어서,
상기 1차원 컨볼루션 필터들의 뱅크는, 하나의 스트라이드(stride)를 갖는 시간 계층을 따라 최대 풀링을 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 시퀀스 내의 제1 디코더 입력은 미리 결정된 초기 프레임인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 스펙트로그램은 압축된 스펙트로그램인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제8항에 있어서,
상기 압축된 스펙트로그램은 멜-스케일 스펙트로그램(mel-scale spectrogram)인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제8항에 있어서,
파형 합성기 입력을 생성하도록 상기 압축된 스펙트로그램을 처리하는 단계와; 그리고
텍스트 대 스피치 변환 시스템의 파형 합성기를 사용하여, 상기 특정 자연 언어의 문자들의 입력 시퀀스의 구두 발화의 파형을 생성하도록 상기 파형 합성기 입력을 처리하는 단계를 더 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 파형을 사용하여 스피치를 생성하는 단계와; 그리고
재생을 위해 상기 생성된 스피치를 제공하는 단계를 포함하는 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제10항에 있어서,
상기 파형 합성기는 파형 인버터에 대한 훈련 가능한 스펙트로그램인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제10항에 있어서,
상기 파형 합성기는 보코더인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
제10항에 있어서,
상기 파형 합성기 입력은 상기 특정 자연 언어의 문자들의 입력 시퀀스의 구두 발화의 선형 스케일 스펙트로그램인 것을 특징으로 하는
컴퓨터로 구현되는 방법.
하나 이상의 컴퓨터에 의해 실행될 때, 하나 이상의 컴퓨터가, 특정 자연 언어의 문자들의 시퀀스로부터, 텍스트 대 스피치 변환 시스템을 사용하여 상기 특정 자연 언어의 문자들의 시퀀스의 구두 발화의 스펙트로그램을 생성하기 위한 동작들을 수행하도록 하는 명령어들을 저장하는 하나 이상의 비 일시적인 컴퓨터 저장 매체로서,
상기 동작들은:
상기 텍스트 대 스피치 변환 시스템의 인코더 반복 신경망을 사용하여, 상기 시퀀스의 문자들 각각의 인코딩된 표현을 생성하기 위해 상기 문자들의 시퀀스를 처리하는 단계와;
디코더 입력들의 시퀀스를 수신하는 단계와;
상기 디코더 입력들의 시퀀스에서 각 디코더 입력에 대해, 상기 텍스트 대 스피치 변환 시스템의 디코더 신경망을 사용하여, 상기 스펙트로그램의 다중 프레임들을 생성하기 위한 상기 디코더 입력 및 인코딩된 표현들을 처리하는 단계와; 그리고
상기 특정 자연 언어의 문자들의 시퀀스의 구두 발화 스펙트로그램으로부터 파형을 생성하는 단계를 포함하는 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.
제15항에 있어서,
상기 인코더 신경망은, 인코더 프리-넷 신경망 및 인코더 CBHG 신경망을 포함하고,
상기 텍스트 대 스피치 변환 시스템의 인코더 반복 신경망을 사용하여, 상기 시퀀스의 문자들 각각의 인코딩된 표현을 생성하기 위해 상기 문자들의 시퀀스를 처리하는 단계는:
상기 인코더 프리-넷 신경망을 사용하여, 상기 시퀀스의 각 문자의 각각의 임베딩을 수신하는 단계와;
상기 인코더 프리-넷 신경망을 사용하여, 상기 문자의 각각의 변환된 임베딩을 생성하기 위해 상기 시퀀스의 각 문자의 각각의 임베딩을 처리하는 단계와; 그리고
상기 인코더 CBHG 신경망을 사용하여, 상기 문자의 각각의 인코딩된 표현을 생성하기 위해 상기 시퀀스의 각 문자의 각각의 변환된 임베딩을 처리하는 단계를 포함하는 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.
제15항에 있어서,
상기 스펙트로그램은 압축된 스펙트로그램인 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.
제15항에 있어서,
상기 압축된 스펙트로그램은 멜-스케일 스펙트로그램인 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.
제17항에 있어서,
파형 합성기 입력을 생성하도록 상기 압축된 스펙트로그램을 처리하는 단계와; 그리고
텍스트 대 스피치 변환 시스템의 파형 합성기를 사용하여, 상기 특정 자연 언어의 문자들의 입력 시퀀스의 구두 발화의 파형을 생성하도록 상기 파형 합성기 입력을 처리하는 단계를 더 포함하는 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.
제15항에 있어서,
상기 파형을 사용하여 스피치를 생성하는 단계와; 그리고
재생을 위해 상기 생성된 스피치를 제공하는 단계를 포함하는 것을 특징으로 하는
하나 이상의 비 일시적인 컴퓨터 저장 매체.