JPH0883098A - パラメータ変換方法及び音声合成方法 - Google Patents
パラメータ変換方法及び音声合成方法Info
- Publication number
- JPH0883098A JPH0883098A JP6246867A JP24686794A JPH0883098A JP H0883098 A JPH0883098 A JP H0883098A JP 6246867 A JP6246867 A JP 6246867A JP 24686794 A JP24686794 A JP 24686794A JP H0883098 A JPH0883098 A JP H0883098A
- Authority
- JP
- Japan
- Prior art keywords
- function
- parameter
- conversion
- sub
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
法について、入力された音声の声質に似た音声を合成す
る。 【構成】パラメータ変換関数を、入力された音声スペク
トルパラメータ空間上に重み係数を設定する重み付け関
数及び複数のサブ変換関数によつて構成し、当該各サブ
変換関数による変換出力に対して重み係数を与えて当該
重み付けられた各変換出力の和をパラメータ変換関数と
して用いて、M個の音声スペクトルパラメータを1つの
音声スペクトルパラメータに変換するようにしたことに
より、パラメータ変換関数に関する適応の自由度を一段
と適正に設定し得るので、学習用に入力した音声データ
量に応じた精度のパラメータ変換関数を得ることがで
き、かくして入力された音声の声質に一段と似た音声ス
ペクトルパラメータを得ることができる。
Description
(図1〜図5) (3)他の実施例 発明の効果
音声合成方法に関し、例えば所望の任意の話者の声質に
似た声質を有する合成音声を出力する際に適用し得る。
し又は予め蓄積しておいた1人又は複数の話者の音声ス
ペクトルのパラメータを変換することによつて、目的の
話者の声質に似た声質の音声を合成する方法、いわゆる
声質変換についての研究がなされている。すなわちこの
声質変換では、まず目的の話者が発声した有限の音声を
声質変換装置に入力し、これを学習データの一部として
いる。さらにこの目的話者の発声内容と同じ内容(同じ
音韻系列)の一旦生成し又は予め蓄積しておいた音声ス
ペクトルも学習データとして用意し、これらのパラメー
タを目的話者の音声スペクトルパラメータに近づけるよ
うなパラメータ変換関数を求めている。
ると、音声合成装置で一旦生成し又は予め蓄積したおい
た1人又は複数の話者の音声スペクトルパラメータをこ
のパラメータ変換関数に基づいて変換し、このスペクト
ルパラメータを音声合成に用いることにより、入力され
た目的話者の発声内容以外の音声を目的話者の声質で合
成することができる。
じて適切に声質変換関数が求められることが望ましい。
すなわち大量の学習データが与えられたときには、精細
なスペクトル変換関数が求められ、少量の学習データし
か与えられない場合でもある程度良好なスペクトル変換
関数が求められることが望ましい。また目的話者の発声
データは必ずしも十分に得られるわけではないので、
2、3の単語を発声するだけで適切な声質変換を実現し
得ることが望ましい。
として幾つかの方法が提案されている。例えばベクトル
量子化コードブツクマツピングに基づく方法(阿部他、
「ベクトル量子化による声質変換」日本音響学会秋季研
究発表会、1987年10月)では、話者Aのスペクトルから
話者Bのスペクトルに変換する際、話者Aのスペクトル
データより生成したベクトルコードブツク(話者Aのス
ペクトルの特徴を表している)中の各ベクトルから、話
者Bのスペクトルデータより生成したベクトルコードブ
ツク(話者Bのスペクトルの特徴を表している)中のベ
クトルへの対応(コードブツクマツピング)により変換
を実現するものである。
「話者内挿処理による声質制御」日本音響学会秋季研究
発表会、1993年10月)では、複数話者の発声データを先
験的な拘束条件として用い、変換関数として線形変換を
用いることにより声質を制御している。すなわちこの方
法では、複数話者の重み付けだけの適応という強い拘束
を与えているため、少量の学習データ(1単語発生デー
タ)でも比較的良好なスペクトル変換関数を求めること
ができる。
ピングに基づく方法では、コードベクトル間の対応に適
切な拘束が与えられていないため、適切なスペクトル変
換、すなわちコードベクトル間の対応を求めるために大
量の発生データが必要となるという問題があつた。従つ
てこの方法では、変換関数の滑らかさや局所的な一貫性
が全くない変換関数さえも、得られる可能性のある変換
関数として許容している。すなわち変換関数に関する適
応の自由度が必要以上に高いという問題があつた。
のデータが与えられた場合でもスペクトル変換の精度
は、少量の学習データしか与えられない場合とほとんど
変わらないものしか得られないという問題があつた。さ
らに一段と精度の高いスペクトル変換関数を得るために
は、変換関数に関する適応の自由度を適切に高めなけれ
ばならないという問題があつた。
で、入力されるデータ量に応じたパラメータ変換関数を
得ることができるパラメータ変換方法及び入力された音
声の声質に似た音声を合成し得る音声合成方法を提案し
ようとするものである。
め本発明においては、入力されたM個のパラメータを所
定のパラメータ変換関数を用いてN個の出力パラメータ
に変換するパラメータ変換方法において、パラメータ変
換関数は、入力パラメータ空間上に重み係数を設定する
重み付け関数及び複数のサブ変換関数によつて構成さ
れ、各サブ変換関数の変換出力に対して重み係数を与え
て当該重み付けられた各変換出力の和で表現されるよう
にした。
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて1つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、パラメータ変換関
数は複数のサブ変換関数で構成され、当該複数のサブ変
換関数を選択的に用いてM個の音声スペクトルパラメー
タを1つの音声スペクトルパラメータに変換するように
した。
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて1つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、スペクトルパラメ
ータ変換関数は、入力された音声スペクトルパラメータ
空間上に重み係数を設定する重み付け関数及び複数のサ
ブ変換関数によつて構成され、各サブ変換関数による変
換出力に対して重み係数を与えて当該重み付けられた各
変換出力の和をパラメータ変換関数として用いて、M個
の音声スペクトルパラメータを1つの音声スペクトルパ
ラメータに変換するようにした。
に重み係数を設定する重み付け関数及び複数のサブ変換
関数で構成し、各サブ変換関数の変換出力に対して重み
係数を与えて当該重み付けられた各変換出力の和で表現
するようにしたことにより、パラメータ変換関数に関す
る適応の自由度を適正に設定し得るので、入力されるデ
ータ量に応じた精度のパラメータ変換関数を得ることが
できる。
数を、複数のサブ変換関数で構成し、当該複数のサブ変
換関数を選択的に用いてM個の音声スペクトルパラメー
タを1つの音声スペクトルパラメータに変換するように
したことにより、パラメータ変換関数に関する適応の自
由度を適正に設定し得るので、学習用に入力した音声デ
ータ量に応じた精度のパラメータ変換関数を得ることが
でき、かくして、入力された音声の声質に似た音声スペ
クトルパラメータを得ることができる。
数を、入力された音声スペクトルパラメータ空間上に重
み係数を設定する重み付け関数及び複数のサブ変換関数
によつて構成し、当該各サブ変換関数による変換出力に
対して重み係数を与えて当該重み付けられた各変換出力
の和をパラメータ変換関数として用いて、M個の音声ス
ペクトルパラメータを1つの音声スペクトルパラメータ
に変換するようにしたことにより、パラメータ変換関数
に関する適応の自由度を一段と適正に設定し得るので、
学習用に入力した音声データ量に応じた精度のパラメー
タ変換関数を得ることができ、かくして入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。
する。
メータ変換関数として、複数の比較的シンプルな変換か
らなるサブ変換関数を用い、この複数のサブ変換関数を
予め蓄積されている音声スペクトルのパラメータ空間の
排他的な部分空間に適用することにより、変換関数に関
する適応の自由度を高めて一段と精度の良いパラメータ
変換関数を実現すると共に変換の局所性を適切に表現す
る。複数のサブ変換関数のそれぞれには、線形関数、2
次以上の項を含んで多項式関数やシンプルな構造のニユ
ーラルネツトによつて表現される関数等を用いる。
シンプルなサブ変換関数による変換出力の重み付け和を
用いることにより、変換関数に関する適応の自由度を一
段と高めている。この重み係数は、音声合成装置に予め
蓄積しておいた音声スペクトルパラメータ空間上に定義
した関数(以下重み付け関数と呼ぶ)によつて決定す
る。
れる重み係数ベクトルをスペクトルパラメータ空間上に
決定する関数であり、実施例においては、この重み付け
関数をラジアルベーシスフアンクシヨン(Radial Basis
Fanction 、円形基底関数)を用いて構成する。これに
より、少ないパラメータすなわち少ない自由度で効率的
にパラメータ空間上のフアジー区分化を実現することが
できる。ここでラジアルベーシスフアンクシヨンとは、
1次元以上のベクトルを入力としてスカラー値を出力す
るもので、中心ベクトルを定め、入力ベクトルと中心ベ
クトルとの距離の増加に対して出力値が非増加である関
数である。
アンクシヨンとしては、例えば次式
nction) G1(Z)を用いる。(1)式において、Zはガウ
スカーネル関数へのM次元入力ベクトルを表し、Cはガ
ウスカーネル関数のM次元中心ベクトルを表す。またσ
は正規化フアクタを表す。
と重み付け関数のパラメータの決定は、複数のサブ変換
関数のパラメータと重み付け関数のパラメータとを交互
に更新することにより行われ、これにより複数のサブ変
換関数のパラメータと重み付け関数のパラメータとを同
時に最適化することができる。
ことにより変換関数に関する適応の自由度を任意に変え
ることができるので、サブ変換関数の数を適切な数に設
定することにより学習データ量に応じた適切なパラメー
タ変換関数を得ることができる。すなわち学習データ量
が少ないときはサブ変換関数の数を少なくし、学習デー
タが増えるに従つてサブ変換関数の数を増やしていくこ
とにより、常に与えられた学習データ量に応じた適切な
パラメータ変換関数を得ることができる。かくして本発
明による音声合成方法では、学習データ量に応じて適切
に声質を変換することができる。
音声合成装置 まず規則音声合成装置における全体の処理の流れについ
て説明し、その後規則音声合成装置及びスペクトルパラ
メータ変換関数の学習処理について詳述する。
施例による規則音声合成装置を示している。規則音声合
成装置1では、任意の発声内容を表すことができる規則
音声合成入力情報(音韻系列情報、アクセント情報等を
含む)が入力部2より複数話者スペクトル系列生成部3
に入力される。複数話者スペクトル系列生成部3では、
複数話者音声データ蓄積部4に蓄積されている話者(こ
の場合K人)のスペクトルデータを用いて、入力部2よ
り入力された規則音声入力情報に記述されている内容の
音声に対応したK個のスペクトル系列を生成する。
話者スペクトル系列生成部3で生成された複数話者スペ
クトルパラメータを、学習により予め決定されているパ
ラメータ変換関数を用いて変換し、1つのスペクトルパ
ラメータ系列を生成する。また韻律情報生成部6では、
入力部2より入力された音声合成入力情報に基づき、音
声合成に必要な韻律情報(基本周波数、音韻パワー、音
韻継続時間)を生成して、音声波形合成部8に出力す
る。
いられるパラメータ変換関数の学習処理装置10を図2
に示す。図2において、目的話者音声データ入力部11
より音声スペクトルパラメータ分析部12に、目的とす
る話者の音声が学習用として入力される。音声スペクト
ルパラメータ分析部12では、入力された目的話者音声
データを分析して目的話者音声スペクトルパラメータを
計算する。また入力部2より複数話者スペクトル系列生
成部3にも、目的話者音声の音韻系列と同じ音韻系列で
なる規則音声合成入力情報が入力される。
的話者音声データ入力部11より入力された音声の音韻
系列と同じ音韻系列の複数の話者データによる複数の音
声スペクトルパラメータ時系列が生成される。スペクト
ルパラメータ変換関数適応部13では、複数話者スペク
トル系列生成部3で生成された複数の音声スペクトルパ
ラメータから、音声スペクトルパラメータ分析部12で
計算された音声スペクトルパラメータへの変換をできる
だけ精度良く行えるパラメータ変換関数を求め、このパ
ラメータ変換関数を表すパラメータ(スペクトルパラメ
ータ変換関数パラメータ)をスペクトルパラメータ変換
部5に出力する。このパラメータ変換関数は、変換され
たスペクトルパラメータと、学習用音声スペクトルパラ
メータの誤差が小さくなるように求められる。
ータ変換関数適応部13で得られたパラメータ変換関数
を用いてスペクトルパラメータ変換部5で生成されたス
ペクトルパラメータ系列と、韻律情報生成部11で生成
された韻律情報とを用いて、音声波形を合成して出力す
る。
たパラメータ変換関数を表すパラメータで、規則音声合
成装置1のスペクトルパラメータ変換部5で用いるパラ
メータ変換関数を構成することにより、目的話者音声に
近い声質で任意の内容の音声を出力することができる。
用いて任意の内容の音声を所望の声質で合成する処理に
ついて説明する。例えば「きようは、雨が降つていま
す。」という内容の音声を合成しようとする場合、入力
部2から複数話者スペクトル系列生成部3に「 kyo′w
a,a′ mega fu′ tteimasu 」でなる音韻系列の音声合
成入力情報が入力される。ここで「′」は、アクセント
の位置を表している。複数話者スペクトル系列生成部3
では、この音韻系列の通りの内容の音声を、複数話者音
声データ蓄積部4に予め蓄積されている音声データを用
いて合成する。
いる音声データの話者の数をK人とすると、複数話者ス
ペクトル系列生成部3では、複数話者音声データ蓄積部
4より1人ずつの音声データを順番に用い、音声合成入
力情報の音韻系列の通りの内容の音声スペクトル系列を
K個生成する。音声スペクトル系列生成部3で各話者デ
ータを用いてスペクトル系列を生成する方法としては、
例えば「音響的尺度に基づく複号音声単位選択法」岩橋
他、電子情報通信学会技術研究報告SP91-5 1991年5月
に示されている規則音声合成方式を用いることができ
る。
り出力される各スペクトルパラメータ系列は、時間フレ
ームごとのスペクトルパラメータ時系列で表され、各時
間フレームに対するスペクトルは、J個のスペクトルパ
ラメータで表されるものとする。スペクトルパラメータ
としては、例えばLPC(linear predictive coding、
線形予測係数)パラメータやケプストラムパラメータ等
を用いることができる。また1フレームの時間幅を例え
ば5〔msec〕、複数話者音声データベースのうちk番目
の話者のデータによつて合成されたiフレームのj番目
のスペクトルパラメータをxijk とすると、iフレーム
目のK人分の合成音声のスペクトルパラメータ情報ベク
トルXi は次式
クトルパラメータの数であり、Kは複数話者スペクトル
系列生成部3が1つの音声合成入力情報に対して生成す
るスペクトル系列の数である。スペクトルパラメータ変
換部5で用いるスペクトルパラメータ変換関数として
は、次式
換関数F(.) を用いる。ここで(4)式においては次式
目の変換関数を表し、ベクトルgi はiフレーム目のデ
ータにおいて、L個の変換関数に対して与える重み係数
を表す重み係数ベクトルである。重み係数ベクトルは、
関数gl(.),l =1、2、…、Lの出力を要素とするベク
トルである。ベクトルYi は、iフレーム目の変換され
たスペクトルパラメータベクトルを表す。
変換を用いると、F(.) は次式
の数を表し、Fal(.) はl番目の線形変換を表す。akl
はl番目の線形変換の1次項のk番目の係数を表し、b
jlはl番目の線形変換の定数ベクトルのj番目の要素の
値である。gl(.)は重み付け関数で、複数話者のスペク
トルパラメータXを入力とし、l番目の線形変換に与え
る重み係数を出力する。
数と複数の線形関数とを用いたスペクトルパラメータ変
換の構造を図3に示す。重み付け関数は、ラジアルベー
シスフアンクシヨンを用いて構成される。また図4にラ
ジアルベーシスフアンクシヨンを2つもつ重み付け関数
の構造を示す。図4において、重み付け関数の第2層に
は、ラジアルベーシスフアンクシヨンであるガウスカー
ネル関数(gaussian kernel function)を用いている。こ
のガウスカーネル関数は次式
の入力であるM次元ベクトルのm番目の要素、Cq はq
番目のガウスカーネル関数の中心ベクトルを表す。また
σqはq番目のガウスカーネル関数の正規化フアクタ、
oq はq番目のガウスカーネル関数の出力を表す。各ガ
ウスカーネル関数の出力には、係数wq が乗じられた
後、次式
ルが得られる。ここでgp は重み付け関数の出力である
重みベクトルのp番目の要素を表す。また(10)式に
おいて、次式
うに学習用入力音声スペクトルパラメータ系列と、これ
と同じ音韻系列を表す規則音声合成により生成された複
数話者の音声スペクトルパラメータ系列とを学習サンプ
ル集合とした学習によつて求めることができる。以下に
スペクトルパラメータ変換関数の学習処理について説明
する。
話者の音声スペクトルパラメータを入力として新たなス
ペクトルパラメータを出力するものである。パラメータ
変換関数は、複数の線形変換と重み付け関数とによつて
構成され、上述のように線形変換としてベクトルA、ベ
クトルB、重み付け関数として、Cq 、σq 、wq (q
=1、……、L)のパラメータで表現され、次式
らのパラメータを学習によつて求める。Qは、目的話者
音声スペクトルパラメータと、複数話者音声スペクトル
系列生成部3で生成されたスペクトルパラメータをスペ
クトルパラメータ変換関数で変換して得られたスペクト
ルパラメータとの誤差の2乗を、学習サンプル集合T=
((yi 、Yi ) 、( y2 、Y2)、……、( yN 、YN ))
全てについて加算したものである。ここでgilはi番目
の学習サンプルに対する、重み付け関数が出力するl番
目の変換関数に対する重み値である。Nは学習用サンプ
ルの数である。
は、2つの処理に分解して行われる。すなわち複数の線
形関数の最適化処理と重み付け関数のパラメータの漸近
的更新処理の2つである。これらの2つの処理は、パラ
メータの繰り返し最適化処理の中で交互に実行される。
説明する。この処理では、線形関数への重み値gil(i
=1、……、N、l=1、……、L)を固定しておく。
このとき線形変換を表すパラメータakl、bjlはそれぞ
れ次式
は、評価関数Qを線形変換の各パラメータで偏微分する
ことにより得られる。
新処理について説明する。更新は、例えばグラジエント
デイセント法(gradient decent) により行う。すなわ
ち、例えばr番目のガウスカーネル関数の中心ベクトル
Cのs番目の要素Crsを更新する場合は、次式
を表し、例えば 0.001とする。Φ(t) は、t回目の繰り
返し処理におけるスペクトルパラメータ変換関数を表す
全てのパラメータを表す。QのCrsに関する偏微分はチ
エインルール(Chain Rule)に従つて次式
/∂gip、∂gip/∂oir、∂oir/∂crsはそれぞれ
次式
関数へのm番目の入力値であり、oirはi番目の学習サ
ンプルに対するr番目のガウスカーネル関数の出力を表
す。σl やwl 等の他のパラメータに関しても、同様の
処理で更新する。
ペクトルパラメータ変換関数の漸近的最適化処理を図5
のフローチヤートに示す。まずステツプSP1より開始
して、ステツプSP2において、重み付け関数のパラメ
ータの初期値を任意に決定する。例えば、σq (q=
1、……、L)は0.0 、wq (q=1、……、L)は1
/L、Crs(r=1、……、L、s=1、……、M)は
0.0+ε(εは分散が 0.1程度のランダムな数)とす
る。収束条件のパラメータとしてMinを例えば 0.1と
する。
数のパラメータを固定して、複数の線形関数のパラメー
タの最適値を求める。次にステツプSP4において、複
数の線形関数のパラメータを固定して、重み付け関数の
パラメータを更新する。次にステツプSP5において、
評価関数Qの値を求め、ステツプSP6において、評価
関数Qの値がMin以上のときはステツプSP3に戻
り、それ以外のときは現時点のパラメータ値をスペクト
ルパラメータ変換関数のパラメータとしてセーブし、ス
テツプSP7で処理を終了する。
のようにして求められたパラメータ関数を用いて、スペ
クトルパラメータ系列生成部3で生成されたK個のスペ
クトルパラメータ系列を1つのスペクトルパラメータ系
列に変換し、音声波形合成部7でこのスペクトルパラメ
ータ系列と韻律情報生成部11で生成して韻律情報とを
用いて音声波形を合成する。
タ変換関数を2つの線形関数と2つの重み付け関数とで
構成して2つの線形関数による変換出力の重み付け和で
表現し、生成したスペクトルをこのスペクトルパラメー
タ変換関数を用いて変換したことにより、学習用に入力
した音声の声質に似た音声のスペクトルパラメータを得
ることができるので、学習話者の声質に似た音声を合成
することができる。
サブ変換関数としての2つの線形関数と2つの重み付け
関数とで構成した場合について述べたが、本発明はこれ
に限らず、パラメータ変換関数を3つ以上の線形関数と
重み付け関数とで構成してもよい。
の数と、重み付け関数の数とを変えることによりパラメ
ータ変換関数全体の自由度を変化させることができるの
で、学習サンプルの量に応じてパラメータ変換関数の適
応の自由度を変えることができ、従つて常に学習サンプ
ルを有効に利用した良好な学習を実現することができ
る。すなわち学習データ量が少ないときでも比較的良好
なスペクトルパラメータ変換関数を求めることができる
のでそれなりに学習話者に似た声質を得ることができ、
また学習データ量が増えるに従つて一段と精度の高いス
ペクトルパラメータ変換関数を求めることができるので
一段と学習話者に似た声質を得ることができる。
者の音声が1〜5単語程度のときには、線形関数の数は
1とする。この場合重み付け関数は必要ない。また6〜
10単語程度のときは、線形変換の数と重み付け関数内の
ラジアルベーシス・フアンアクシヨンの数とを、それぞ
れ2とする。11〜20単語程度のときはそれぞれ3とす
る。
数として線形関数を用いた場合について述べたが、本発
明はこれに限らず、サブ変換関数として2次以上の項を
含む多項式関数やニユーラルネツトによつて表現される
関数等を用いてもよい。また上述の実施例においては、
ラジアルベーシスフアンクシヨンとしてガウスカーネル
関数を用いた場合について述べたが、本発明はこれに限
らず、次式
合、zは距離関数へのM次元入力ベクトル、cは距離関
数のM次元中心ベクトルを表す。pは定数である。
パラメータ変換関数をサブ変換関数及び重み付け変換関
数で構成した場合について述べたが、本発明はこれに限
らず、スペクトルパラメータ変換関数を複数のサブ変換
関数だけで構成し、当該サブ変換関数を選択的に用いる
ようにしてもよい。
変換を音声合成に適用した場合について述べたが、本発
明はこれに限らず、株価等の経済指標予測、コンピユー
タグラフイツクのパターン生成、産業用ロボツトの制
御、音声認識や画像認識のパターン認識等、与えられた
入力パラメータと出力パラメータの学習点の集合より入
出力写像を学習する問題一般の解法として適用し得る。
タ変換関数を、入力パラメータ空間上に重み係数を設定
する重み付け関数及び複数のサブ変換関数で構成し、各
サブ変換関数の変換出力に対して重み係数を与えて当該
重み付けられた各変換出力の和で表現するようにしたこ
とにより、パラメータ変換関数に関する適応の自由度を
適正に設定し得るので、入力されるデータ量に応じた精
度の高いパラメータ変換関数を得ることができる。
を、複数のサブ変換関数で構成し、当該当該複数のサブ
変換関数を選択的に用いてM個の音声スペクトルパラメ
ータを1つの音声スペクトルパラメータに変換するよう
にしたことにより、パラメータ変換関数に関する適応の
自由度を適正に設定し得るので、学習用に入力した音声
データ量に応じた精度のパラメータ変換関数を得ること
ができる。かくして、入力された音声の声質に似た音声
スペクトルパラメータを得ることができる。
を、入力された音声スペクトルパラメータ空間上に重み
係数を設定する重み付け関数及び複数のサブ変換関数に
よつて構成し、当該各サブ変換関数による変換関数に対
して重み係数を与えて当該重み付けられた各変換出力の
和をパラメータ変換関数として用いてM個の音声スペク
トルパラメータを1つの音声スペクトルパラメータに変
換するようにしたことにより、パラメータ変換関数に関
する適応の自由度を一段と適正に設定し得るので、学習
用に入力した音声データ量に応じた精度のパラメータ変
換関数を得ることができる。かくして、入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。
声合成装置を示すブロツク図である。
換関数の学習処理装置を示すブロツク図である。
の構造を示すブロツク図である。
図である。
を示すフローチヤートである。
部、3……複数尻スペクトル系列生成部、4……複数話
者音声データ蓄積部、5……スペクトルパラメータ変換
部、6……韻律情報生成部、7……音声波形合成部、1
0……学習処理装置、11……目的話者音声データ入力
部、12……音声スペクトルパラメータ分析部、13…
…スペクトルパラメータ変換関数適応部。
Claims (25)
- 【請求項1】入力されたM個のパラメータを所定のパラ
メータ変換関数を用いてN個の出力パラメータに変換す
るパラメータ変換方法において、 上記パラメータ変換関数は、入力パラメータ空間上に重
み係数を設定する重み付け関数及び複数のサブ変換関数
によつて構成され、上記各サブ変換関数の変換出力に対
して上記重み係数を与えて当該重み付けられた各変換出
力の和で表現されることを特徴とするパラメータ変換方
法。 - 【請求項2】上記重み付け関数は、中心ベクトルが定め
られ、1次元以上の入力ベクトルと上記中心ベクトルと
の距離の増加に対して出力値が非増加であるラジアルベ
ーシスフアンクシヨン(Radial Basis Function)である
ことを特徴とする請求項1に記載のパラメータ変換方
法。 - 【請求項3】上記ラジアルベーシスフアンクシヨンとし
て、ガウスカーネル関数(GaussianKernel Function)
又は距離関数を用いるようにしたことを特徴とする請求
項2に記載のパラメータ変換方法。 - 【請求項4】上記サブ変換関数として、線形関数、2次
以上の項を含む多項式関数又はニユーラルネツトワーク
によつて表現された関数を用いるようにしたことを特徴
とする請求項1に記載のパラメータ変換方法。 - 【請求項5】M次元ベクトルとN次元ベクトルの対でな
る学習サンプルを所定数含む学習サンプル集合を与える
ことにより、上記複数のサブ変換関数と上記重み付け関
数でなる上記パラメータ変換関数を表す全てのパラメー
タを、所定の評価関数に従つて決定するようにしたこと
を特徴とする請求項2に記載のパラメータ変換方法。 - 【請求項6】上記重み付け関数のパラメータと上記複数
のサブ変換関数のパラメータとを、徐々に変化させて決
定するようにしたことを特徴とする請求項5に記載のパ
ラメータ変換方法。 - 【請求項7】上記重み付け関数のパラメータ及び上記複
数のサブ変換関数のパラメータは、当該重み付け関数の
パラメータと複数のサブ変換関数のパラメータとを交互
に変化させることにより決定されることを特徴とする請
求項5に記載のパラメータ変換方法。 - 【請求項8】上記重み付け関数のパラメータを、最急降
下(gradient decent)法を用いて更新するようにしたこ
とを特徴とする請求項5に記載のパラメータ変換方法。 - 【請求項9】上記サブ変換関数の数を、上記学習サンプ
ル集合に含まれる上記学習サンプルの数に応じて設定す
るようにしたことを特徴とする請求項5に記載のパラメ
ータ変換方法。 - 【請求項10】上記複数のサブ変換関数が線形関数又は
2次以上の項を含む多項式関数で与えられた場合におい
て、上記複数のサブ変換関数のパラメータに変化を与え
る際には、線形連立方程式の解を上記複数のサブ変換関
数のパラメータとするよにうしたことを特徴とする請求
項5に記載のパラメータ変換方法。 - 【請求項11】入力されたM個の音声スペクトルパラメ
ータを所定のパラメータ変換関数を用いて1つの音声ス
ペクトルパラメータに変換して音声を合成する音声合成
方法において、 上記パラメータ変換関数は複数のサブ変換関数で構成さ
れ、当該複数のサブ変換関数を選択的に用いて上記M個
の音声スペクトルパラメータを上記1つの音声スペクト
ルパラメータに変換するようにしたことを特徴とする音
声合成方法。 - 【請求項12】音声スペクトルのパラメータ空間を分割
して得た上記サブ変換関数と同じ数の各部分空間に対し
て、上記複数のサブ変換関数のうち1つのサブ変換関数
を対応させ、変換する音声スペクトルパラメータが属す
るパラメータ部分空間に応じて、上記サブ変換関数を選
択的に用いるようにしたことを特徴とする請求項11に
記載の音声合成方法。 - 【請求項13】上記サブ変換関数として、線形関数、2
次以上の項を含む多項式関数又はニユーラルネツトワー
クによつて表現された関数を用いるようにしたことを特
徴とする請求項11に記載の音声合成方法。 - 【請求項14】入力されたM個の音声スペクトルパラメ
ータを所定のパラメータ変換関数を用いて1つの音声ス
ペクトルパラメータに変換して音声を合成する音声合成
方法において、 上記パラメータ変換関数は、入力された音声スペクトル
パラメータ空間上に重み係数を設定する重み付け関数及
び複数のサブ変換関数によつて構成され、上記各サブ変
換関数による変換出力に対して上記重み係数を与えて当
該重み付けられた各変換出力の和を上記パラメータ変換
関数として用いて、上記M個の音声スペクトルパラメー
タを上記1つの音声スペクトルパラメータに変換するよ
うにしたことを特徴とする音声合成方法。 - 【請求項15】上記重み付け関数は、中心ベクトルが定
められ、1次元以上の入力ベクトルと上記中心ベクトル
との距離の増加に対して出力値が非増加であるラジアル
ベーシスフアンクシヨンであることを特徴とする請求項
14に記載の音声合成方法。 - 【請求項16】上記ラジアルベーシスフアンクシヨンと
して、ガウスカーネル関数又は距離関数を用いるように
したことを特徴とする請求項15に記載の音声合成方
法。 - 【請求項17】上記サブ変換関数として、線形関数、2
次以上の項を含む多項式関数又はニユーラルネツトワー
クによつて表現された関数を用いるようにしたことを特
徴とする請求項14に記載の音声合成方法。 - 【請求項18】M次元ベクトルと1次元ベクトルの対で
なる学習サンプルを所定数含む学習サンプル集合を与え
ることにより、上記複数のサブ変換関数と上記重み付け
関数でなる上記パラメータ変換関数を表す全てのパラメ
ータを、所定の評価関数に従つて決定するようにしたこ
とを特徴とする請求項14に記載の音声合成方法。 - 【請求項19】上記重み付け関数のパラメータと上記複
数のサブ変換関数のパラメータとを、徐々に変化させて
決定するようにしたことを特徴とする請求項14に記載
の音声合成方法。 - 【請求項20】上記重み付け関数のパラメータ及び上記
複数のサブ変換関数のパラメータは、当該重み付け関数
のパラメータと複数のサブ変換関数のパラメータとを交
互に変化させることにより決定されることを特徴とする
請求項14に記載の音声合成方法。 - 【請求項21】上記重み付け関数のパラメータを、最急
降下法を用いて更新するようにしたことを特徴とする請
求項14に記載の音声合成方法。 - 【請求項22】上記複数のサブ変換関数が線形関数又は
2次以上の項を含む多項式関数で与えられた場合におい
て、上記複数のサブ変換関数のパラメータに変化を与え
る際には、線形連立方程式の解を上記複数のサブ変換関
数のパラメータとするよにうしたことを特徴とする請求
項14に記載の音声合成方法。 - 【請求項23】上記重み付け関数の重み係数を、予め蓄
積しておいた音声スペクトルのパラメータ空間上に設定
するようにしたことを特徴とする請求項14に記載の音
声合成方法。 - 【請求項24】上記重み付け関数のパラメータと上記各
サブ変換関数のパラメータとを、新たに入力された音声
データを用いて決定するようにしたことを特徴とする請
求項14に記載の音声合成方法。 - 【請求項25】上記サブ変換関数の数を、上記学習サン
プル集合に含まれる上記学習サンプルの数に応じて設定
するようにしたことを特徴とする請求項18に記載の音
声合成方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24686794A JP3536996B2 (ja) | 1994-09-13 | 1994-09-13 | パラメータ変換方法及び音声合成方法 |
| US08/527,142 US5704006A (en) | 1994-09-13 | 1995-09-12 | Method for processing speech signal using sub-converting functions and a weighting function to produce synthesized speech |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24686794A JP3536996B2 (ja) | 1994-09-13 | 1994-09-13 | パラメータ変換方法及び音声合成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0883098A true JPH0883098A (ja) | 1996-03-26 |
| JP3536996B2 JP3536996B2 (ja) | 2004-06-14 |
Family
ID=17154914
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP24686794A Expired - Fee Related JP3536996B2 (ja) | 1994-09-13 | 1994-09-13 | パラメータ変換方法及び音声合成方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5704006A (ja) |
| JP (1) | JP3536996B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002524759A (ja) * | 1998-08-28 | 2002-08-06 | シグマ オーディオ リサーチ リミテッド | オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 |
| US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0970466B1 (en) | 1997-01-27 | 2004-09-22 | Microsoft Corporation | Voice conversion |
| US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
| US6064957A (en) * | 1997-08-15 | 2000-05-16 | General Electric Company | Improving speech recognition through text-based linguistic post-processing |
| DE19927317A1 (de) * | 1999-06-15 | 2000-12-21 | Christoph Bueltemann | Verfahren und Vorrichtung zur automatischen Spracherkennung, Sprecheridentifizierung und Spracherzeugung |
| DE10018134A1 (de) * | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
| GB0013241D0 (en) * | 2000-05-30 | 2000-07-19 | 20 20 Speech Limited | Voice synthesis |
| JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
| GB2489473B (en) | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
| JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
| US10861476B2 (en) * | 2017-05-24 | 2020-12-08 | Modulate, Inc. | System and method for building a voice database |
| US20210263125A1 (en) * | 2018-06-25 | 2021-08-26 | Nec Corporation | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
| US11410667B2 (en) | 2019-06-28 | 2022-08-09 | Ford Global Technologies, Llc | Hierarchical encoder for speech conversion system |
| WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
| WO2022076923A1 (en) | 2020-10-08 | 2022-04-14 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
| WO2023235517A1 (en) | 2022-06-01 | 2023-12-07 | Modulate, Inc. | Scoring system for content moderation |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0331405B1 (en) * | 1988-02-29 | 1996-11-27 | Sony Corporation | Method and apparatus for processing a digital signal |
| US5115240A (en) * | 1989-09-26 | 1992-05-19 | Sony Corporation | Method and apparatus for encoding voice signals divided into a plurality of frequency bands |
| JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
-
1994
- 1994-09-13 JP JP24686794A patent/JP3536996B2/ja not_active Expired - Fee Related
-
1995
- 1995-09-12 US US08/527,142 patent/US5704006A/en not_active Expired - Lifetime
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002524759A (ja) * | 1998-08-28 | 2002-08-06 | シグマ オーディオ リサーチ リミテッド | オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 |
| US7349847B2 (en) | 2004-10-13 | 2008-03-25 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis apparatus and speech synthesis method |
| JPWO2006040908A1 (ja) * | 2004-10-13 | 2008-05-15 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3536996B2 (ja) | 2004-06-14 |
| US5704006A (en) | 1997-12-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3536996B2 (ja) | パラメータ変換方法及び音声合成方法 | |
| JP5847917B2 (ja) | テキスト音声合成方法及びシステム | |
| JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
| US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
| CN113345415A (zh) | 语音合成方法、装置、设备及存储介质 | |
| CN103366733A (zh) | 文本到语音的系统 | |
| JPWO2018159612A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
| JP2013205697A (ja) | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 | |
| JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
| JPH01291298A (ja) | 適応型音声認識装置 | |
| JPH0772900A (ja) | 音声合成の感情付与方法 | |
| JP3014177B2 (ja) | 話者適応音声認識装置 | |
| JP2898568B2 (ja) | 声質変換音声合成装置 | |
| Aihara et al. | Multiple non-negative matrix factorization for many-to-many voice conversion | |
| US6813604B1 (en) | Methods and apparatus for speaker specific durational adaptation | |
| JPH1185194A (ja) | 声質変換音声合成装置 | |
| JP6864322B2 (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
| CN115810341A (zh) | 音频合成方法、装置、设备以及介质 | |
| En-Najjary et al. | A new method for pitch prediction from spectral envelope and its application in voice conversion. | |
| JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| JP6902759B2 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
| JP7795138B2 (ja) | 学習装置、変換装置、学習方法、変換方法及びプログラム | |
| JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
| JP2912579B2 (ja) | 声質変換音声合成装置 | |
| JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040227 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040311 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080326 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090326 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110326 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |