KR20200094493A - 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 - Google Patents
음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 Download PDFInfo
- Publication number
- KR20200094493A KR20200094493A KR1020190012042A KR20190012042A KR20200094493A KR 20200094493 A KR20200094493 A KR 20200094493A KR 1020190012042 A KR1020190012042 A KR 1020190012042A KR 20190012042 A KR20190012042 A KR 20190012042A KR 20200094493 A KR20200094493 A KR 20200094493A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- dnn
- post
- bass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법에 관한 것으로서 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함으로써 기존의 화자의 기저음정보를 반영하지 못하는 문제점을 해소 하도록 한 것이다.
즉 본 발명은, 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성한 것이다.
따라서, 본 발명은 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함으로써 기존의 화자의 기저음정보를 반영하지 못하는 문제점을 해소하도록 한 효과를 갖는 것이다.
즉 본 발명은, 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성한 것이다.
따라서, 본 발명은 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함으로써 기존의 화자의 기저음정보를 반영하지 못하는 문제점을 해소하도록 한 효과를 갖는 것이다.
Description
본 발명은 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법에 관한 것으로서,
더욱 상세하게는 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서,
음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성 하여서,
음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함을 목적으로 한 것이다.
일반적으로 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 사용자 목소리를 다른사람의 목소리로 변조하는 것이다.
상기한 바와 같이 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 음성모델 부호화기, 음성모델 코드 변환기, 음성모델 복호화기, 음성합성기로 구성된 것이다.
이상과 같은 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 음성모델 부호화기, 음성모델 코드 변환기, 음성모델 복호화기, 음성합성기를 거쳐 음성을 변조하는 것이다.
그러나 상기한 바와 같은 종래의 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 화자의 기저음정보를 반영하지 못하는 문제점이 있었다.
이에 본 발명은 종래의 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치가 화자의 기저음정보를 반영하지 못하는 문제점을 해결하기 위한 것이다.
즉, 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성한 것이다.
따라서 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성 함으로써, 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 한 효과를 갖는 것이다.
도 1: 본 발명의 시스템의 흐름도
즉, 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성 된 것이다.
여기서, (002)음성데이터 추출기는 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 것이다.
여기서, (003)음성 사후 분포그램 DNN은 MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 것이다.
여기서, (004)음성합성 DNN은 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 것이다.
여기서, (005)선형 기저음 변환부는 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 것이다.
여기서, (006)음성 복원부는 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 것이다.
이하, 본 발명의 사용과정에 대하여 설명하면 다음과 같다.
상기한 바와 같이 본 발명은 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성된 본 발명을 적용하여 실시하게 되면, 화자의 기저음정보를 반영하지 못하는 문제점을 해소하도록 한 것이다.
또한 본 발명의 실시에 있어, 보코더를 이용한 (002)음성데이터 추출기로 구성한 본 발명을 적용하여 실시하게 되면, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 학습한 (003)음성 사후 분포그램 DNN으로 구성한 본 발명을 적용하여 실시하게 되면, MFCC를 음성사후 분포그램으로 바꿀 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 학습한 (004)음성합성 DNN으로 구성한 본 발명을 적용하여 실시하게 되면, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부로 구성한 본 발명을 적용하여 실시하게 되면, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 보코더를 내장한 (006)음성 복원부로 구성한 본 발명을 적용하여 실시하게 되면, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 될 것이다.
001: 음성데이터 녹음부, 002: 음성데이터 추출기, 003: 음성 사후 분포그램 DNN, 004: 음성합성 DNN, 005: 선형 기저음 변환부, 006: 음성 복원부
Claims (6)
- 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서,
음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성 된 것을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법. - 제 1항에 있어서,
(002)음성데이터 추출기를 통하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법. - 제 1항에 있어서,
(003)음성 사후 분포그램 DNN을 통하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법. - 제 1항에 있어서,
(004)음성합성 DNN을 통하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법. - 제 1항에 있어서,
(005)선형 기저음 변환부를 통하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법. - 제 1항에 있어서,
(006)음성 복원부를 통하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190012042A KR20200094493A (ko) | 2019-01-30 | 2019-01-30 | 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190012042A KR20200094493A (ko) | 2019-01-30 | 2019-01-30 | 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20200094493A true KR20200094493A (ko) | 2020-08-07 |
Family
ID=72049879
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020190012042A Withdrawn KR20200094493A (ko) | 2019-01-30 | 2019-01-30 | 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20200094493A (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113470622A (zh) * | 2021-09-06 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170044719A (ko) | 2014-09-26 | 2017-04-25 | 화이자 인코포레이티드 | Rorc2의 메틸- 및 트라이플루오로메틸-치환된 피롤로피리딘 조절인자 및 이의 사용 방법 |
-
2019
- 2019-01-30 KR KR1020190012042A patent/KR20200094493A/ko not_active Withdrawn
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170044719A (ko) | 2014-09-26 | 2017-04-25 | 화이자 인코포레이티드 | Rorc2의 메틸- 및 트라이플루오로메틸-치환된 피롤로피리딘 조절인자 및 이의 사용 방법 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113470622A (zh) * | 2021-09-06 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| AU2023337867B2 (en) | Generating audio using auto-regressive generative neural networks | |
| US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
| CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
| JP2021502588A (ja) | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム | |
| CN113555001A (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
| CN117711371A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
| WO2007063827A1 (ja) | 声質変換システム | |
| CN113851140B (zh) | 语音转换相关方法、系统及装置 | |
| JP2014123072A (ja) | 音声合成システム及び音声合成方法 | |
| CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 | |
| CN114333903A (zh) | 一种语音转换方法、装置、电子设备及存储介质 | |
| CN118298803B (zh) | 语音克隆方法 | |
| CN115966197A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
| CN117037821A (zh) | 基于vits和保留背景音的高质量语音转换方法 | |
| CN114724540A (zh) | 模型处理方法及装置、情感语音合成方法及装置 | |
| KR20200094493A (ko) | 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 | |
| CN115294959A (zh) | 韵律编码器的训练方法、语音转换方法及其相关产品 | |
| CN119360867A (zh) | 一种基于GPT-SoVITS模型的音色克隆转换方法 | |
| CN119007705A (zh) | 一种基于神经编解码器的老挝语细粒度韵律建模方法 | |
| EP4690182A1 (en) | Language models using spoken language modeling | |
| CN116825090B (zh) | 语音合成模型的训练方法、装置及语音合成方法、装置 | |
| Roosadi et al. | Indonesian Voice Cloning Text-to-Speech System With Vall-E-Based Model and Speech Enhancement | |
| CN119404248A (zh) | 声质转换装置、声质转换方法、声质转换神经网络、程序以及记录介质 | |
| CN116778904A (zh) | 音频合成方法及装置、训练方法及装置、电子设备及介质 | |
| JP2023171108A (ja) | 音声変換装置、音声変換方法、及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190130 |
|
| PG1501 | Laying open of application | ||
| PC1203 | Withdrawal of no request for examination | ||
| WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |