JPH0883098A

JPH0883098A - パラメータ変換方法及び音声合成方法

Info

Publication number: JPH0883098A
Application number: JP6246867A
Authority: JP
Inventors: Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-09-13
Filing date: 1994-09-13
Publication date: 1996-03-26
Anticipated expiration: 2019-06-14
Also published as: JP3536996B2; US5704006A

Abstract

(57)【要約】【目的】本発明は、パラメータ変換方法及び音声合成方
法について、入力された音声の声質に似た音声を合成す
る。【構成】パラメータ変換関数を、入力された音声スペク
トルパラメータ空間上に重み係数を設定する重み付け関
数及び複数のサブ変換関数によつて構成し、当該各サブ
変換関数による変換出力に対して重み係数を与えて当該
重み付けられた各変換出力の和をパラメータ変換関数と
して用いて、Ｍ個の音声スペクトルパラメータを１つの
音声スペクトルパラメータに変換するようにしたことに
より、パラメータ変換関数に関する適応の自由度を一段
と適正に設定し得るので、学習用に入力した音声データ
量に応じた精度のパラメータ変換関数を得ることがで
き、かくして入力された音声の声質に一段と似た音声ス
ペクトルパラメータを得ることができる。

Description

【発明の詳細な説明】

【０００１】

【目次】以下の順序で本発明を説明する。産業上の利用分野従来の技術発明が解決しようとする課題課題を解決するための手段作用実施例（１）本発明の原理（２）実施例による声質変換機能付き規則音声合成装置
（図１〜図５）（３）他の実施例発明の効果

【０００２】

【産業上の利用分野】本発明はパラメータ変換方法及び
音声合成方法に関し、例えば所望の任意の話者の声質に
似た声質を有する合成音声を出力する際に適用し得る。

【０００３】

【従来の技術】従来、音声合成装置において、一旦生成
し又は予め蓄積しておいた１人又は複数の話者の音声ス
ペクトルのパラメータを変換することによつて、目的の
話者の声質に似た声質の音声を合成する方法、いわゆる
声質変換についての研究がなされている。すなわちこの
声質変換では、まず目的の話者が発声した有限の音声を
声質変換装置に入力し、これを学習データの一部として
いる。さらにこの目的話者の発声内容と同じ内容（同じ
音韻系列）の一旦生成し又は予め蓄積しておいた音声ス
ペクトルも学習データとして用意し、これらのパラメー
タを目的話者の音声スペクトルパラメータに近づけるよ
うなパラメータ変換関数を求めている。

【０００４】このようにしてパラメータ変換関数が求ま
ると、音声合成装置で一旦生成し又は予め蓄積したおい
た１人又は複数の話者の音声スペクトルパラメータをこ
のパラメータ変換関数に基づいて変換し、このスペクト
ルパラメータを音声合成に用いることにより、入力され
た目的話者の発声内容以外の音声を目的話者の声質で合
成することができる。

【０００５】この声質変換方法では、学習データ量に応
じて適切に声質変換関数が求められることが望ましい。
すなわち大量の学習データが与えられたときには、精細
なスペクトル変換関数が求められ、少量の学習データし
か与えられない場合でもある程度良好なスペクトル変換
関数が求められることが望ましい。また目的話者の発声
データは必ずしも十分に得られるわけではないので、
２、３の単語を発声するだけで適切な声質変換を実現し
得ることが望ましい。

【０００６】

【発明が解決しようとする課題】ところで声質適応方法
として幾つかの方法が提案されている。例えばベクトル
量子化コードブツクマツピングに基づく方法（阿部他、
「ベクトル量子化による声質変換」日本音響学会秋季研
究発表会、1987年10月）では、話者Ａのスペクトルから
話者Ｂのスペクトルに変換する際、話者Ａのスペクトル
データより生成したベクトルコードブツク（話者Ａのス
ペクトルの特徴を表している）中の各ベクトルから、話
者Ｂのスペクトルデータより生成したベクトルコードブ
ツク（話者Ｂのスペクトルの特徴を表している）中のベ
クトルへの対応（コードブツクマツピング）により変換
を実現するものである。

【０００７】また話者内挿処理に基づく方法（岩橋他、
「話者内挿処理による声質制御」日本音響学会秋季研究
発表会、1993年10月）では、複数話者の発声データを先
験的な拘束条件として用い、変換関数として線形変換を
用いることにより声質を制御している。すなわちこの方
法では、複数話者の重み付けだけの適応という強い拘束
を与えているため、少量の学習データ（１単語発生デー
タ）でも比較的良好なスペクトル変換関数を求めること
ができる。

【０００８】ところがベクトル量子化コードブツクマツ
ピングに基づく方法では、コードベクトル間の対応に適
切な拘束が与えられていないため、適切なスペクトル変
換、すなわちコードベクトル間の対応を求めるために大
量の発生データが必要となるという問題があつた。従つ
てこの方法では、変換関数の滑らかさや局所的な一貫性
が全くない変換関数さえも、得られる可能性のある変換
関数として許容している。すなわち変換関数に関する適
応の自由度が必要以上に高いという問題があつた。

【０００９】また話者内挿処理に基づく方法では、大量
のデータが与えられた場合でもスペクトル変換の精度
は、少量の学習データしか与えられない場合とほとんど
変わらないものしか得られないという問題があつた。さ
らに一段と精度の高いスペクトル変換関数を得るために
は、変換関数に関する適応の自由度を適切に高めなけれ
ばならないという問題があつた。

【００１０】本発明は以上の点を考慮してなされたもの
で、入力されるデータ量に応じたパラメータ変換関数を
得ることができるパラメータ変換方法及び入力された音
声の声質に似た音声を合成し得る音声合成方法を提案し
ようとするものである。

【００１１】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、入力されたＭ個のパラメータを所
定のパラメータ変換関数を用いてＮ個の出力パラメータ
に変換するパラメータ変換方法において、パラメータ変
換関数は、入力パラメータ空間上に重み係数を設定する
重み付け関数及び複数のサブ変換関数によつて構成さ
れ、各サブ変換関数の変換出力に対して重み係数を与え
て当該重み付けられた各変換出力の和で表現されるよう
にした。

【００１２】また本発明においては、入力されたＭ個の
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて１つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、パラメータ変換関
数は複数のサブ変換関数で構成され、当該複数のサブ変
換関数を選択的に用いてＭ個の音声スペクトルパラメー
タを１つの音声スペクトルパラメータに変換するように
した。

【００１３】また本発明においては、入力されたＭ個の
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて１つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、スペクトルパラメ
ータ変換関数は、入力された音声スペクトルパラメータ
空間上に重み係数を設定する重み付け関数及び複数のサ
ブ変換関数によつて構成され、各サブ変換関数による変
換出力に対して重み係数を与えて当該重み付けられた各
変換出力の和をパラメータ変換関数として用いて、Ｍ個
の音声スペクトルパラメータを１つの音声スペクトルパ
ラメータに変換するようにした。

【００１４】

【作用】パラメータ変換関数を、入力パラメータ空間上
に重み係数を設定する重み付け関数及び複数のサブ変換
関数で構成し、各サブ変換関数の変換出力に対して重み
係数を与えて当該重み付けられた各変換出力の和で表現
するようにしたことにより、パラメータ変換関数に関す
る適応の自由度を適正に設定し得るので、入力されるデ
ータ量に応じた精度のパラメータ変換関数を得ることが
できる。

【００１５】また本発明においては、パラメータ変換関
数を、複数のサブ変換関数で構成し、当該複数のサブ変
換関数を選択的に用いてＭ個の音声スペクトルパラメー
タを１つの音声スペクトルパラメータに変換するように
したことにより、パラメータ変換関数に関する適応の自
由度を適正に設定し得るので、学習用に入力した音声デ
ータ量に応じた精度のパラメータ変換関数を得ることが
でき、かくして、入力された音声の声質に似た音声スペ
クトルパラメータを得ることができる。

【００１６】また本発明においては、パラメータ変換関
数を、入力された音声スペクトルパラメータ空間上に重
み係数を設定する重み付け関数及び複数のサブ変換関数
によつて構成し、当該各サブ変換関数による変換出力に
対して重み係数を与えて当該重み付けられた各変換出力
の和をパラメータ変換関数として用いて、Ｍ個の音声ス
ペクトルパラメータを１つの音声スペクトルパラメータ
に変換するようにしたことにより、パラメータ変換関数
に関する適応の自由度を一段と適正に設定し得るので、
学習用に入力した音声データ量に応じた精度のパラメー
タ変換関数を得ることができ、かくして入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。

【００１７】

【実施例】以下図面について、本発明の一実施例を詳述
する。

【００１８】（１）本発明の原理本発明による音声合成方法においては、スペクトルパラ
メータ変換関数として、複数の比較的シンプルな変換か
らなるサブ変換関数を用い、この複数のサブ変換関数を
予め蓄積されている音声スペクトルのパラメータ空間の
排他的な部分空間に適用することにより、変換関数に関
する適応の自由度を高めて一段と精度の良いパラメータ
変換関数を実現すると共に変換の局所性を適切に表現す
る。複数のサブ変換関数のそれぞれには、線形関数、２
次以上の項を含んで多項式関数やシンプルな構造のニユ
ーラルネツトによつて表現される関数等を用いる。

【００１９】またパラメータ関数として、複数の比較的
シンプルなサブ変換関数による変換出力の重み付け和を
用いることにより、変換関数に関する適応の自由度を一
段と高めている。この重み係数は、音声合成装置に予め
蓄積しておいた音声スペクトルパラメータ空間上に定義
した関数（以下重み付け関数と呼ぶ）によつて決定す
る。

【００２０】重み付け関数は、それぞれの変換に与えら
れる重み係数ベクトルをスペクトルパラメータ空間上に
決定する関数であり、実施例においては、この重み付け
関数をラジアルベーシスフアンクシヨン（Radial Basis
Fanction 、円形基底関数）を用いて構成する。これに
より、少ないパラメータすなわち少ない自由度で効率的
にパラメータ空間上のフアジー区分化を実現することが
できる。ここでラジアルベーシスフアンクシヨンとは、
１次元以上のベクトルを入力としてスカラー値を出力す
るもので、中心ベクトルを定め、入力ベクトルと中心ベ
クトルとの距離の増加に対して出力値が非増加である関
数である。

【００２１】重み付け関数に用いるラジアルベーシスフ
アンクシヨンとしては、例えば次式

【数１】に示すようなガウスカーネル関数（Gaussian Kernal Fu
nction) Ｇ₁(Z)を用いる。（１）式において、Ｚはガウ
スカーネル関数へのＭ次元入力ベクトルを表し、Ｃはガ
ウスカーネル関数のＭ次元中心ベクトルを表す。またσ
は正規化フアクタを表す。

【００２２】これらの複数のサブ変換関数のパラメータ
と重み付け関数のパラメータの決定は、複数のサブ変換
関数のパラメータと重み付け関数のパラメータとを交互
に更新することにより行われ、これにより複数のサブ変
換関数のパラメータと重み付け関数のパラメータとを同
時に最適化することができる。

【００２３】また、使用するサブ変換関数の数を変える
ことにより変換関数に関する適応の自由度を任意に変え
ることができるので、サブ変換関数の数を適切な数に設
定することにより学習データ量に応じた適切なパラメー
タ変換関数を得ることができる。すなわち学習データ量
が少ないときはサブ変換関数の数を少なくし、学習デー
タが増えるに従つてサブ変換関数の数を増やしていくこ
とにより、常に与えられた学習データ量に応じた適切な
パラメータ変換関数を得ることができる。かくして本発
明による音声合成方法では、学習データ量に応じて適切
に声質を変換することができる。

【００２４】（２）実施例による声質変換機能付き規則
音声合成装置まず規則音声合成装置における全体の処理の流れについ
て説明し、その後規則音声合成装置及びスペクトルパラ
メータ変換関数の学習処理について詳述する。

【００２５】図１において、１は全体として本発明の実
施例による規則音声合成装置を示している。規則音声合
成装置１では、任意の発声内容を表すことができる規則
音声合成入力情報（音韻系列情報、アクセント情報等を
含む）が入力部２より複数話者スペクトル系列生成部３
に入力される。複数話者スペクトル系列生成部３では、
複数話者音声データ蓄積部４に蓄積されている話者（こ
の場合Ｋ人）のスペクトルデータを用いて、入力部２よ
り入力された規則音声入力情報に記述されている内容の
音声に対応したＫ個のスペクトル系列を生成する。

【００２６】スペクトルパラメータ変換部５では、複数
話者スペクトル系列生成部３で生成された複数話者スペ
クトルパラメータを、学習により予め決定されているパ
ラメータ変換関数を用いて変換し、１つのスペクトルパ
ラメータ系列を生成する。また韻律情報生成部６では、
入力部２より入力された音声合成入力情報に基づき、音
声合成に必要な韻律情報（基本周波数、音韻パワー、音
韻継続時間）を生成して、音声波形合成部８に出力す
る。

【００２７】ここでスペクトルパラメータ変換部５で用
いられるパラメータ変換関数の学習処理装置１０を図２
に示す。図２において、目的話者音声データ入力部１１
より音声スペクトルパラメータ分析部１２に、目的とす
る話者の音声が学習用として入力される。音声スペクト
ルパラメータ分析部１２では、入力された目的話者音声
データを分析して目的話者音声スペクトルパラメータを
計算する。また入力部２より複数話者スペクトル系列生
成部３にも、目的話者音声の音韻系列と同じ音韻系列で
なる規則音声合成入力情報が入力される。

【００２８】複数話者スペクトル系列生成部３では、目
的話者音声データ入力部１１より入力された音声の音韻
系列と同じ音韻系列の複数の話者データによる複数の音
声スペクトルパラメータ時系列が生成される。スペクト
ルパラメータ変換関数適応部１３では、複数話者スペク
トル系列生成部３で生成された複数の音声スペクトルパ
ラメータから、音声スペクトルパラメータ分析部１２で
計算された音声スペクトルパラメータへの変換をできる
だけ精度良く行えるパラメータ変換関数を求め、このパ
ラメータ変換関数を表すパラメータ（スペクトルパラメ
ータ変換関数パラメータ）をスペクトルパラメータ変換
部５に出力する。このパラメータ変換関数は、変換され
たスペクトルパラメータと、学習用音声スペクトルパラ
メータの誤差が小さくなるように求められる。

【００２９】音声波形合成部７では、スペクトルパラメ
ータ変換関数適応部１３で得られたパラメータ変換関数
を用いてスペクトルパラメータ変換部５で生成されたス
ペクトルパラメータ系列と、韻律情報生成部１１で生成
された韻律情報とを用いて、音声波形を合成して出力す
る。

【００３０】このように、上述の学習処理によつて求め
たパラメータ変換関数を表すパラメータで、規則音声合
成装置１のスペクトルパラメータ変換部５で用いるパラ
メータ変換関数を構成することにより、目的話者音声に
近い声質で任意の内容の音声を出力することができる。

【００３１】以下に、与えられたパラメータ変換関数を
用いて任意の内容の音声を所望の声質で合成する処理に
ついて説明する。例えば「きようは、雨が降つていま
す。」という内容の音声を合成しようとする場合、入力
部２から複数話者スペクトル系列生成部３に「 kyo′w
a,a′ mega fu′ tteimasu 」でなる音韻系列の音声合
成入力情報が入力される。ここで「′」は、アクセント
の位置を表している。複数話者スペクトル系列生成部３
では、この音韻系列の通りの内容の音声を、複数話者音
声データ蓄積部４に予め蓄積されている音声データを用
いて合成する。

【００３２】複数話者音声データ蓄積部４に蓄積されて
いる音声データの話者の数をＫ人とすると、複数話者ス
ペクトル系列生成部３では、複数話者音声データ蓄積部
４より１人ずつの音声データを順番に用い、音声合成入
力情報の音韻系列の通りの内容の音声スペクトル系列を
Ｋ個生成する。音声スペクトル系列生成部３で各話者デ
ータを用いてスペクトル系列を生成する方法としては、
例えば「音響的尺度に基づく複号音声単位選択法」岩橋
他、電子情報通信学会技術研究報告SP91-5 1991年５月
に示されている規則音声合成方式を用いることができ
る。

【００３３】ここで複数話者スペクトル系列生成部３よ
り出力される各スペクトルパラメータ系列は、時間フレ
ームごとのスペクトルパラメータ時系列で表され、各時
間フレームに対するスペクトルは、Ｊ個のスペクトルパ
ラメータで表されるものとする。スペクトルパラメータ
としては、例えばＬＰＣ（linear predictive coding、
線形予測係数）パラメータやケプストラムパラメータ等
を用いることができる。また１フレームの時間幅を例え
ば５〔msec〕、複数話者音声データベースのうちｋ番目
の話者のデータによつて合成されたｉフレームのｊ番目
のスペクトルパラメータをｘ_ijkとすると、ｉフレーム
目のＫ人分の合成音声のスペクトルパラメータ情報ベク
トルＸ_iは次式

【数２】のように表される。

【００３４】（２）式において、Ｊは１フレームのスペ
クトルパラメータの数であり、Ｋは複数話者スペクトル
系列生成部３が１つの音声合成入力情報に対して生成す
るスペクトル系列の数である。スペクトルパラメータ変
換部５で用いるスペクトルパラメータ変換関数として
は、次式

【数３】

【数４】に示すようにＬ個の変換関数の重み付き和で表される変
換関数Ｆ(.) を用いる。ここで（４）式においては次式

【数５】である。またＦ_ai(.) はＬ個ある変換関数のうちのｉ番
目の変換関数を表し、ベクトルｇ_iはｉフレーム目のデ
ータにおいて、Ｌ個の変換関数に対して与える重み係数
を表す重み係数ベクトルである。重み係数ベクトルは、
関数gl(.),l ＝１、２、…、Ｌの出力を要素とするベク
トルである。ベクトルＹ_iは、ｉフレーム目の変換され
たスペクトルパラメータベクトルを表す。

【００３５】この場合Ｌ個の変換関数のそれぞれに線形
変換を用いると、Ｆ(.) は次式

【数６】のように表される。ここでＡ、Ｂはそれぞれ次式

【数７】

【数８】である。（７）式及び（８）式において、Ｌは線形関数
の数を表し、Ｆ_al(.) はｌ番目の線形変換を表す。ａ_kl
はｌ番目の線形変換の１次項のｋ番目の係数を表し、ｂ
_jlはｌ番目の線形変換の定数ベクトルのｊ番目の要素の
値である。gl(.)は重み付け関数で、複数話者のスペク
トルパラメータＸを入力とし、ｌ番目の線形変換に与え
る重み係数を出力する。

【００３６】ここで上述のように定式化した重み付け関
数と複数の線形関数とを用いたスペクトルパラメータ変
換の構造を図３に示す。重み付け関数は、ラジアルベー
シスフアンクシヨンを用いて構成される。また図４にラ
ジアルベーシスフアンクシヨンを２つもつ重み付け関数
の構造を示す。図４において、重み付け関数の第２層に
は、ラジアルベーシスフアンクシヨンであるガウスカー
ネル関数(gaussian kernel function)を用いている。こ
のガウスカーネル関数は次式

【数９】によつて定式化される。

【００３７】（９）式において、Ｚ_mは重み付け関数へ
の入力であるＭ次元ベクトルのｍ番目の要素、Ｃ_qはｑ
番目のガウスカーネル関数の中心ベクトルを表す。また
σ_qはｑ番目のガウスカーネル関数の正規化フアクタ、
ｏ_qはｑ番目のガウスカーネル関数の出力を表す。各ガ
ウスカーネル関数の出力には、係数ｗ_qが乗じられた
後、次式

【数１０】に示す正規化処理が行われ、重み付け関数の出力ベクト
ルが得られる。ここでｇ_pは重み付け関数の出力である
重みベクトルのｐ番目の要素を表す。また（１０）式に
おいて、次式

【数１１】である。

【００３８】上述のパラメータ変換関数は、上述したよ
うに学習用入力音声スペクトルパラメータ系列と、これ
と同じ音韻系列を表す規則音声合成により生成された複
数話者の音声スペクトルパラメータ系列とを学習サンプ
ル集合とした学習によつて求めることができる。以下に
スペクトルパラメータ変換関数の学習処理について説明
する。

【００３９】上述のように、パラメータ変換関数は複数
話者の音声スペクトルパラメータを入力として新たなス
ペクトルパラメータを出力するものである。パラメータ
変換関数は、複数の線形変換と重み付け関数とによつて
構成され、上述のように線形変換としてベクトルＡ、ベ
クトルＢ、重み付け関数として、Ｃ_q、σ_q、ｗ_q（ｑ
＝１、……、Ｌ）のパラメータで表現され、次式

【数１２】に示す評価関数Ｑをできるだけ小さくするように、これ
らのパラメータを学習によつて求める。Ｑは、目的話者
音声スペクトルパラメータと、複数話者音声スペクトル
系列生成部３で生成されたスペクトルパラメータをスペ
クトルパラメータ変換関数で変換して得られたスペクト
ルパラメータとの誤差の２乗を、学習サンプル集合Ｔ＝
((ｙ_i、Ｙ_i) 、( ｙ₂、Ｙ₂)、……、( ｙ_N、Ｙ_N))
全てについて加算したものである。ここでｇ_ilはｉ番目
の学習サンプルに対する、重み付け関数が出力するｌ番
目の変換関数に対する重み値である。Ｎは学習用サンプ
ルの数である。

【００４０】実際スペクトルパラメータ変換関数の学習
は、２つの処理に分解して行われる。すなわち複数の線
形関数の最適化処理と重み付け関数のパラメータの漸近
的更新処理の２つである。これらの２つの処理は、パラ
メータの繰り返し最適化処理の中で交互に実行される。

【００４１】まず複数の線形関数の最適化処理について
説明する。この処理では、線形関数への重み値ｇ_il（ｉ
＝１、……、Ｎ、ｌ＝１、……、Ｌ）を固定しておく。
このとき線形変換を表すパラメータａ_kl、ｂ_jlはそれぞ
れ次式

【数１３】

【数１４】の連立方程式の解として求められる。この連立方程式
は、評価関数Ｑを線形変換の各パラメータで偏微分する
ことにより得られる。

【００４２】次に重み付け関数のパラメータの漸近的更
新処理について説明する。更新は、例えばグラジエント
デイセント法(gradient decent) により行う。すなわ
ち、例えばｒ番目のガウスカーネル関数の中心ベクトル
Ｃのｓ番目の要素Ｃ_rsを更新する場合は、次式

【数１５】のように表される。ここでμは正の定数で学習速度係数
を表し、例えば 0.001とする。Φ(t) は、ｔ回目の繰り
返し処理におけるスペクトルパラメータ変換関数を表す
全てのパラメータを表す。ＱのＣ_rsに関する偏微分はチ
エインルール（Chain Rule）に従つて次式

【数１６】のように表すことかできる。（１６）式において∂ｄ_i
／∂ｇ_ip、∂ｇ_ip／∂ｏ_ir、∂ｏ_ir／∂ｃ_rsはそれぞれ
次式

【数１７】

【数１８】

【数１９】である。ここでｚ_imはｉ番目の学習サンプルの重み付け
関数へのｍ番目の入力値であり、ｏ_irはｉ番目の学習サ
ンプルに対するｒ番目のガウスカーネル関数の出力を表
す。σ_lやｗ_l等の他のパラメータに関しても、同様の
処理で更新する。

【００４３】重み付け関数と複数の線形変換よりなるス
ペクトルパラメータ変換関数の漸近的最適化処理を図５
のフローチヤートに示す。まずステツプＳＰ１より開始
して、ステツプＳＰ２において、重み付け関数のパラメ
ータの初期値を任意に決定する。例えば、σ_q（ｑ＝
１、……、Ｌ）は0.0 、ｗ_q（ｑ＝１、……、Ｌ）は１
／Ｌ、Ｃ_rs（ｒ＝１、……、Ｌ、ｓ＝１、……、Ｍ）は
0.0＋ε（εは分散が 0.1程度のランダムな数）とす
る。収束条件のパラメータとしてＭｉｎを例えば 0.1と
する。

【００４４】次にステツプＳＰ３において、重み付け関
数のパラメータを固定して、複数の線形関数のパラメー
タの最適値を求める。次にステツプＳＰ４において、複
数の線形関数のパラメータを固定して、重み付け関数の
パラメータを更新する。次にステツプＳＰ５において、
評価関数Ｑの値を求め、ステツプＳＰ６において、評価
関数Ｑの値がＭｉｎ以上のときはステツプＳＰ３に戻
り、それ以外のときは現時点のパラメータ値をスペクト
ルパラメータ変換関数のパラメータとしてセーブし、ス
テツプＳＰ７で処理を終了する。

【００４５】スペクトルパラメータ変換部５では、以上
のようにして求められたパラメータ関数を用いて、スペ
クトルパラメータ系列生成部３で生成されたＫ個のスペ
クトルパラメータ系列を１つのスペクトルパラメータ系
列に変換し、音声波形合成部７でこのスペクトルパラメ
ータ系列と韻律情報生成部１１で生成して韻律情報とを
用いて音声波形を合成する。

【００４６】以上の構成によれば、スペクトルパラメー
タ変換関数を２つの線形関数と２つの重み付け関数とで
構成して２つの線形関数による変換出力の重み付け和で
表現し、生成したスペクトルをこのスペクトルパラメー
タ変換関数を用いて変換したことにより、学習用に入力
した音声の声質に似た音声のスペクトルパラメータを得
ることができるので、学習話者の声質に似た音声を合成
することができる。

【００４７】（３）他の実施例なお上述の実施例においては、パラメータ変換関数を、
サブ変換関数としての２つの線形関数と２つの重み付け
関数とで構成した場合について述べたが、本発明はこれ
に限らず、パラメータ変換関数を３つ以上の線形関数と
重み付け関数とで構成してもよい。

【００４８】この場合、サブ変換関数としての線形変換
の数と、重み付け関数の数とを変えることによりパラメ
ータ変換関数全体の自由度を変化させることができるの
で、学習サンプルの量に応じてパラメータ変換関数の適
応の自由度を変えることができ、従つて常に学習サンプ
ルを有効に利用した良好な学習を実現することができ
る。すなわち学習データ量が少ないときでも比較的良好
なスペクトルパラメータ変換関数を求めることができる
のでそれなりに学習話者に似た声質を得ることができ、
また学習データ量が増えるに従つて一段と精度の高いス
ペクトルパラメータ変換関数を求めることができるので
一段と学習話者に似た声質を得ることができる。

【００４９】例えば学習サンプルとして使用する目的話
者の音声が１〜５単語程度のときには、線形関数の数は
１とする。この場合重み付け関数は必要ない。また６〜
10単語程度のときは、線形変換の数と重み付け関数内の
ラジアルベーシス・フアンアクシヨンの数とを、それぞ
れ２とする。11〜20単語程度のときはそれぞれ３とす
る。

【００５０】また上述の実施例においては、サブ変換関
数として線形関数を用いた場合について述べたが、本発
明はこれに限らず、サブ変換関数として２次以上の項を
含む多項式関数やニユーラルネツトによつて表現される
関数等を用いてもよい。また上述の実施例においては、
ラジアルベーシスフアンクシヨンとしてガウスカーネル
関数を用いた場合について述べたが、本発明はこれに限
らず、次式

【数２０】に示すような距離関数Ｇ₂(ｚ) を用いてもよい。この場
合、ｚは距離関数へのＭ次元入力ベクトル、ｃは距離関
数のＭ次元中心ベクトルを表す。ｐは定数である。

【００５１】また上述の実施例においては、スペクトル
パラメータ変換関数をサブ変換関数及び重み付け変換関
数で構成した場合について述べたが、本発明はこれに限
らず、スペクトルパラメータ変換関数を複数のサブ変換
関数だけで構成し、当該サブ変換関数を選択的に用いる
ようにしてもよい。

【００５２】また上述の実施例においては、スペクトル
変換を音声合成に適用した場合について述べたが、本発
明はこれに限らず、株価等の経済指標予測、コンピユー
タグラフイツクのパターン生成、産業用ロボツトの制
御、音声認識や画像認識のパターン認識等、与えられた
入力パラメータと出力パラメータの学習点の集合より入
出力写像を学習する問題一般の解法として適用し得る。

【００５３】

【発明の効果】上述のように本発明によれば、パラメー
タ変換関数を、入力パラメータ空間上に重み係数を設定
する重み付け関数及び複数のサブ変換関数で構成し、各
サブ変換関数の変換出力に対して重み係数を与えて当該
重み付けられた各変換出力の和で表現するようにしたこ
とにより、パラメータ変換関数に関する適応の自由度を
適正に設定し得るので、入力されるデータ量に応じた精
度の高いパラメータ変換関数を得ることができる。

【００５４】また本発明によれば、パラメータ変換関数
を、複数のサブ変換関数で構成し、当該当該複数のサブ
変換関数を選択的に用いてＭ個の音声スペクトルパラメ
ータを１つの音声スペクトルパラメータに変換するよう
にしたことにより、パラメータ変換関数に関する適応の
自由度を適正に設定し得るので、学習用に入力した音声
データ量に応じた精度のパラメータ変換関数を得ること
ができる。かくして、入力された音声の声質に似た音声
スペクトルパラメータを得ることができる。

【００５５】また本発明によれば、パラメータ変換関数
を、入力された音声スペクトルパラメータ空間上に重み
係数を設定する重み付け関数及び複数のサブ変換関数に
よつて構成し、当該各サブ変換関数による変換関数に対
して重み係数を与えて当該重み付けられた各変換出力の
和をパラメータ変換関数として用いてＭ個の音声スペク
トルパラメータを１つの音声スペクトルパラメータに変
換するようにしたことにより、パラメータ変換関数に関
する適応の自由度を一段と適正に設定し得るので、学習
用に入力した音声データ量に応じた精度のパラメータ変
換関数を得ることができる。かくして、入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。

【図面の簡単な説明】

【図１】本発明の実施例による声質変換機能付き規則音
声合成装置を示すブロツク図である。

【図２】本発明の実施例によるスペクトルパラメータ変
換関数の学習処理装置を示すブロツク図である。

【図３】実施例におけるスペクトルパラメータ変換関数
の構造を示すブロツク図である。

【図４】実施例における重み付け関数の構造を示す略線
図である。

【図５】スペクトルパラメータ変換関数の学習処理手順
を示すフローチヤートである。

【符号の説明】

１……声質変換機能付き規則音声合成装置、２……入力
部、３……複数尻スペクトル系列生成部、４……複数話
者音声データ蓄積部、５……スペクトルパラメータ変換
部、６……韻律情報生成部、７……音声波形合成部、１
０……学習処理装置、１１……目的話者音声データ入力
部、１２……音声スペクトルパラメータ分析部、１３…
…スペクトルパラメータ変換関数適応部。

Claims

【特許請求の範囲】

【請求項１】入力されたＭ個のパラメータを所定のパラ
メータ変換関数を用いてＮ個の出力パラメータに変換す
るパラメータ変換方法において、上記パラメータ変換関数は、入力パラメータ空間上に重
み係数を設定する重み付け関数及び複数のサブ変換関数
によつて構成され、上記各サブ変換関数の変換出力に対
して上記重み係数を与えて当該重み付けられた各変換出
力の和で表現されることを特徴とするパラメータ変換方
法。
【請求項２】上記重み付け関数は、中心ベクトルが定め
られ、１次元以上の入力ベクトルと上記中心ベクトルと
の距離の増加に対して出力値が非増加であるラジアルベ
ーシスフアンクシヨン（Radial Basis Function)である
ことを特徴とする請求項１に記載のパラメータ変換方
法。
【請求項３】上記ラジアルベーシスフアンクシヨンとし
て、ガウスカーネル関数（GaussianKernel Function）
又は距離関数を用いるようにしたことを特徴とする請求
項２に記載のパラメータ変換方法。
【請求項４】上記サブ変換関数として、線形関数、２次
以上の項を含む多項式関数又はニユーラルネツトワーク
によつて表現された関数を用いるようにしたことを特徴
とする請求項１に記載のパラメータ変換方法。
【請求項５】Ｍ次元ベクトルとＮ次元ベクトルの対でな
る学習サンプルを所定数含む学習サンプル集合を与える
ことにより、上記複数のサブ変換関数と上記重み付け関
数でなる上記パラメータ変換関数を表す全てのパラメー
タを、所定の評価関数に従つて決定するようにしたこと
を特徴とする請求項２に記載のパラメータ変換方法。
【請求項６】上記重み付け関数のパラメータと上記複数
のサブ変換関数のパラメータとを、徐々に変化させて決
定するようにしたことを特徴とする請求項５に記載のパ
ラメータ変換方法。
【請求項７】上記重み付け関数のパラメータ及び上記複
数のサブ変換関数のパラメータは、当該重み付け関数の
パラメータと複数のサブ変換関数のパラメータとを交互
に変化させることにより決定されることを特徴とする請
求項５に記載のパラメータ変換方法。
【請求項８】上記重み付け関数のパラメータを、最急降
下（gradient decent)法を用いて更新するようにしたこ
とを特徴とする請求項５に記載のパラメータ変換方法。
【請求項９】上記サブ変換関数の数を、上記学習サンプ
ル集合に含まれる上記学習サンプルの数に応じて設定す
るようにしたことを特徴とする請求項５に記載のパラメ
ータ変換方法。
【請求項１０】上記複数のサブ変換関数が線形関数又は
２次以上の項を含む多項式関数で与えられた場合におい
て、上記複数のサブ変換関数のパラメータに変化を与え
る際には、線形連立方程式の解を上記複数のサブ変換関
数のパラメータとするよにうしたことを特徴とする請求
項５に記載のパラメータ変換方法。
【請求項１１】入力されたＭ個の音声スペクトルパラメ
ータを所定のパラメータ変換関数を用いて１つの音声ス
ペクトルパラメータに変換して音声を合成する音声合成
方法において、上記パラメータ変換関数は複数のサブ変換関数で構成さ
れ、当該複数のサブ変換関数を選択的に用いて上記Ｍ個
の音声スペクトルパラメータを上記１つの音声スペクト
ルパラメータに変換するようにしたことを特徴とする音
声合成方法。
【請求項１２】音声スペクトルのパラメータ空間を分割
して得た上記サブ変換関数と同じ数の各部分空間に対し
て、上記複数のサブ変換関数のうち１つのサブ変換関数
を対応させ、変換する音声スペクトルパラメータが属す
るパラメータ部分空間に応じて、上記サブ変換関数を選
択的に用いるようにしたことを特徴とする請求項１１に
記載の音声合成方法。
【請求項１３】上記サブ変換関数として、線形関数、２
次以上の項を含む多項式関数又はニユーラルネツトワー
クによつて表現された関数を用いるようにしたことを特
徴とする請求項１１に記載の音声合成方法。
【請求項１４】入力されたＭ個の音声スペクトルパラメ
ータを所定のパラメータ変換関数を用いて１つの音声ス
ペクトルパラメータに変換して音声を合成する音声合成
方法において、上記パラメータ変換関数は、入力された音声スペクトル
パラメータ空間上に重み係数を設定する重み付け関数及
び複数のサブ変換関数によつて構成され、上記各サブ変
換関数による変換出力に対して上記重み係数を与えて当
該重み付けられた各変換出力の和を上記パラメータ変換
関数として用いて、上記Ｍ個の音声スペクトルパラメー
タを上記１つの音声スペクトルパラメータに変換するよ
うにしたことを特徴とする音声合成方法。
【請求項１５】上記重み付け関数は、中心ベクトルが定
められ、１次元以上の入力ベクトルと上記中心ベクトル
との距離の増加に対して出力値が非増加であるラジアル
ベーシスフアンクシヨンであることを特徴とする請求項
１４に記載の音声合成方法。
【請求項１６】上記ラジアルベーシスフアンクシヨンと
して、ガウスカーネル関数又は距離関数を用いるように
したことを特徴とする請求項１５に記載の音声合成方
法。
【請求項１７】上記サブ変換関数として、線形関数、２
次以上の項を含む多項式関数又はニユーラルネツトワー
クによつて表現された関数を用いるようにしたことを特
徴とする請求項１４に記載の音声合成方法。
【請求項１８】Ｍ次元ベクトルと１次元ベクトルの対で
なる学習サンプルを所定数含む学習サンプル集合を与え
ることにより、上記複数のサブ変換関数と上記重み付け
関数でなる上記パラメータ変換関数を表す全てのパラメ
ータを、所定の評価関数に従つて決定するようにしたこ
とを特徴とする請求項１４に記載の音声合成方法。
【請求項１９】上記重み付け関数のパラメータと上記複
数のサブ変換関数のパラメータとを、徐々に変化させて
決定するようにしたことを特徴とする請求項１４に記載
の音声合成方法。
【請求項２０】上記重み付け関数のパラメータ及び上記
複数のサブ変換関数のパラメータは、当該重み付け関数
のパラメータと複数のサブ変換関数のパラメータとを交
互に変化させることにより決定されることを特徴とする
請求項１４に記載の音声合成方法。
【請求項２１】上記重み付け関数のパラメータを、最急
降下法を用いて更新するようにしたことを特徴とする請
求項１４に記載の音声合成方法。
【請求項２２】上記複数のサブ変換関数が線形関数又は
２次以上の項を含む多項式関数で与えられた場合におい
て、上記複数のサブ変換関数のパラメータに変化を与え
る際には、線形連立方程式の解を上記複数のサブ変換関
数のパラメータとするよにうしたことを特徴とする請求
項１４に記載の音声合成方法。
【請求項２３】上記重み付け関数の重み係数を、予め蓄
積しておいた音声スペクトルのパラメータ空間上に設定
するようにしたことを特徴とする請求項１４に記載の音
声合成方法。
【請求項２４】上記重み付け関数のパラメータと上記各
サブ変換関数のパラメータとを、新たに入力された音声
データを用いて決定するようにしたことを特徴とする請
求項１４に記載の音声合成方法。
【請求項２５】上記サブ変換関数の数を、上記学習サン
プル集合に含まれる上記学習サンプルの数に応じて設定
するようにしたことを特徴とする請求項１８に記載の音
声合成方法。