JPH0193796A - 声質変換方法 - Google Patents
声質変換方法Info
- Publication number
- JPH0193796A JPH0193796A JP62250708A JP25070887A JPH0193796A JP H0193796 A JPH0193796 A JP H0193796A JP 62250708 A JP62250708 A JP 62250708A JP 25070887 A JP25070887 A JP 25070887A JP H0193796 A JPH0193796 A JP H0193796A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- formant frequency
- section
- formant
- bandwidth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
[産業上の利用分野]
本発明は、放送、映画、音楽等において、人間の音声を
処理する音声情報処理技術のうち、音声の個人性を変化
させたり、音声の明瞭性を高めたり、響きを変えて特殊
効果を持たせるなどの声質変換方法に関する。 [発明の概要] 本発明は人の音声を一時記録し、その音声の質を変化さ
せて、再び音声として出力する技術に関するもので、 入力音声を^/D変換した後、有声音区間について、先
ず線形予測係数を算出しておき、この線形予測係数に基
づいて所望のホルマント周波数および帯域幅の変更を行
ない、さらに変更後のホルマント周波数や帯域幅に応じ
た線形予測係数を求め、これによりスペクトル包絡を変
更する6次にフーリエ変換により原音声を周波数領域に
変換し、ホルマント変更前後のスペクトル包絡によって
原音声を所望の形に変更し、逆フーリエ変換によって時
間領域に戻した後、これをD/A変換することにより、
音声としての自然性を良好に保ったまま、原音声の持つ
、個人性を変換したり、言葉としての明瞭性を改善でき
るようにする方法である。 [従来の技術] 従来、放送現場などではアナログフィルターを用いて、
音声の特定の周波数帯域を取り除くことにより個人性の
消去を行ったり、熟練した技術者がグラフィックイコラ
イザーにより特定の周波数帯域のエネルギーを増強・減
衰させて声の質の補正を行なっていた。 近年、デジタル技術による方法も開発されており、サン
プリング周波数Fで書込んだ音声波形を、FXRなるサ
ンプリング周波数で読出せば、ピッチ周波数を含む全ス
ペクトル情報が周波数的にR倍となる。この時適当な時
間窓と周期を用いて波形を間引いたり、繰返したりすれ
ば、発生速度を原音声と同じに保ちながら音声の質の変
換ができる。このような装置は、「ハーモナイザー」な
どと呼ばれ、音響効果装置として一般に使用され始めて
いる。 また、線形予測分析に基づくデジタルフィルターを用い
て、音声の生成モデルに適応したフィルタリングを行い
、音声の質や明瞭性を制御する方式が、例えば特願昭6
1−208777において本願人によって提案されてい
る。 [発明が解決しようとする問題点] しかしながら、アナログフィルターやグラフィックイコ
ライザーを用いる方法は、原理的に音声の特定の周波数
帯域のエネルギーを増減させるだけであり、根本的に音
声の質を変化させることはできない。すなわち、原音声
に含まれる一部の特徴がレベル的に強調・抑圧されるの
みで、決定的に個人性を変えたり、明瞭性を改善するこ
とはできない。 また、「ハーモナイザー」なとの装置では、ピッチを含
む全スペクトル情報が周波数軸上で8動するので、音声
の高低や個人性が大幅に変化する。しかし、このような
変化は機械的であり実際の個人の音声間に存在するスペ
クトル情報の差異とは異なる。それ故、出力音声は非人
間的なものになり易い、また、原音声のピッチ周波数を
保存することはできない。 さらに、線形予測分析に基づくデジタルフィルターを用
いる方法は、音声の生成モデルに適応しているので、声
の質や明瞭性を根本的に制御することが可能であるが、
フィルターの安定性などの原因から音質に問題があった
。 そこで、本発明の目的は、上述した従来の問題点を解消
し、音声の生成モデルに適応した分析と高速フーリエ変
換を併用することによって、音声特有の特徴を利用した
高音質な声質変換を行なうことが可能な声質変換方法を
提供することにある。
処理する音声情報処理技術のうち、音声の個人性を変化
させたり、音声の明瞭性を高めたり、響きを変えて特殊
効果を持たせるなどの声質変換方法に関する。 [発明の概要] 本発明は人の音声を一時記録し、その音声の質を変化さ
せて、再び音声として出力する技術に関するもので、 入力音声を^/D変換した後、有声音区間について、先
ず線形予測係数を算出しておき、この線形予測係数に基
づいて所望のホルマント周波数および帯域幅の変更を行
ない、さらに変更後のホルマント周波数や帯域幅に応じ
た線形予測係数を求め、これによりスペクトル包絡を変
更する6次にフーリエ変換により原音声を周波数領域に
変換し、ホルマント変更前後のスペクトル包絡によって
原音声を所望の形に変更し、逆フーリエ変換によって時
間領域に戻した後、これをD/A変換することにより、
音声としての自然性を良好に保ったまま、原音声の持つ
、個人性を変換したり、言葉としての明瞭性を改善でき
るようにする方法である。 [従来の技術] 従来、放送現場などではアナログフィルターを用いて、
音声の特定の周波数帯域を取り除くことにより個人性の
消去を行ったり、熟練した技術者がグラフィックイコラ
イザーにより特定の周波数帯域のエネルギーを増強・減
衰させて声の質の補正を行なっていた。 近年、デジタル技術による方法も開発されており、サン
プリング周波数Fで書込んだ音声波形を、FXRなるサ
ンプリング周波数で読出せば、ピッチ周波数を含む全ス
ペクトル情報が周波数的にR倍となる。この時適当な時
間窓と周期を用いて波形を間引いたり、繰返したりすれ
ば、発生速度を原音声と同じに保ちながら音声の質の変
換ができる。このような装置は、「ハーモナイザー」な
どと呼ばれ、音響効果装置として一般に使用され始めて
いる。 また、線形予測分析に基づくデジタルフィルターを用い
て、音声の生成モデルに適応したフィルタリングを行い
、音声の質や明瞭性を制御する方式が、例えば特願昭6
1−208777において本願人によって提案されてい
る。 [発明が解決しようとする問題点] しかしながら、アナログフィルターやグラフィックイコ
ライザーを用いる方法は、原理的に音声の特定の周波数
帯域のエネルギーを増減させるだけであり、根本的に音
声の質を変化させることはできない。すなわち、原音声
に含まれる一部の特徴がレベル的に強調・抑圧されるの
みで、決定的に個人性を変えたり、明瞭性を改善するこ
とはできない。 また、「ハーモナイザー」なとの装置では、ピッチを含
む全スペクトル情報が周波数軸上で8動するので、音声
の高低や個人性が大幅に変化する。しかし、このような
変化は機械的であり実際の個人の音声間に存在するスペ
クトル情報の差異とは異なる。それ故、出力音声は非人
間的なものになり易い、また、原音声のピッチ周波数を
保存することはできない。 さらに、線形予測分析に基づくデジタルフィルターを用
いる方法は、音声の生成モデルに適応しているので、声
の質や明瞭性を根本的に制御することが可能であるが、
フィルターの安定性などの原因から音質に問題があった
。 そこで、本発明の目的は、上述した従来の問題点を解消
し、音声の生成モデルに適応した分析と高速フーリエ変
換を併用することによって、音声特有の特徴を利用した
高音質な声質変換を行なうことが可能な声質変換方法を
提供することにある。
そのために本発明では入力音声から有声音区間を抽出し
、有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマン、ト
周波数および帯域幅を算出すると共に、各短時間区間内
で線形予測係数を求めることによって、スペクトル包絡
を算出し、有声音区間にフーリエ変換を施し周波数領域
に変換し、ホルマント周波数の時間軌跡を求め、時間軌
跡の各時点におけるホルマント周波数または帯域幅に変
更を加え、変更を加えられたホルマント周波数および帯
域幅に基づいてスペクトル包絡を算出し、ホルマント周
波数変更後に算出されたスペクトル包絡をホルマント周
波数変更前に算出されたスペクトル包絡で除した商を変
更成分とし、フーリエ変換で変換された周波数成分に変
更成分を乗すると共に、ホルマント周波数変更以外のス
ペクトル変更を加えた後、逆フーリエ変換によって波形
を時間領域に戻し、無声音区間、無音区間または前後の
有声音区間と接続し、新たな音声波形とすることを特徴
とする。 [作 用] 以上の構成によれば高速フーリエ変換を用いて周波数ス
ペクトル包絡の変更を行ない、音声の声質を変換するこ
とが可能となる。 [実施例] 以下、図面に示す実施例に基づき本発明の詳細な説明す
る。 第1図は、本発明の一実施例に係る声質変換システムの
ブロック図を示す。図において、2は分析部、4はホル
マント周波数制御部、6はスペクトル制御部をそれぞれ
示し、各部は電子計算機内に構成され、ROM 、 R
AMおよびメモリディスク等のメモリを併用しながら声
質変換の処理が実行される。 ^/D変換されて標本化された音声波形は、分析部2へ
入力し、有音と無音および有声音と無声音の判別、さら
に有声音については、共振周波数を求める。 次にホルマント周波数制御部4においては、分析部2で
得られた共振周波数に基づきホルマント周波数を求め、
所望の変更を行なう。 スペクトル制御部6ではホルマント周波数制御部4で変
更されたホルマント周波数に応じてスペクトル包絡を変
更する。 上述した一連の有声音に対する声質変換の処理を終了す
ると、無声音区間および無音区間を接続し、次の有声音
区間の処理に移る。最終的に合成された音声波形をD/
^変換して出力音声とする。 上記各部における処理の詳細を第2図に示すフローチャ
ートを参照しながら説明する。 変換ビット数12bit、標本化周波数15kHzで^
/D変換された音声は、まず、分析部2において、ステ
ップStで音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップS2では有音区間
の標本値に対してPARCOR分析と平文さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、1次のPARCOR係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しており、高域成分の割合および高周波にな
ると多くなる平文さ数を調べることによって無声子音と
有声音とを判別する。なお、PARCOR分析と平文さ
分析の両方を用いて判別を行なうのは、判別を確実なも
のとするためである。 上記ステップS1およびS2で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップ31
4およびS15においてそのままRAMまたはメモリデ
ィスク等に記憶される。 次に、ステップS3では有声音区間における音声波形の
標本値を、音声の生成モデルに基づくいわゆる声道逆フ
ィルタに通すことによって線形予測分析を行なう。すな
わち、まず窓幅20m5ec程度の窓掛けを行ない、標
本値に窓掛けを行なったデータを基に相関関数を求める
ことによりステップS4で線形予測係数α1〜α、を算
出する。ここで、pは線形予測の次数であり男性の声に
対してはp = 14、女性の声に対してp=10程度
を用いる。さらに、ステップS5では上記で求めたα1
〜α、を係数とし、以下に示す(1)式を満足する複素
数2の根z1〜zpを求める。 1 + a 、z−’+ a 2z−’+−+ a p
zす=O(1)z1〜2.には共役複素根が含まれ、ま
た1つの共振点は1対の共役複素根で表わされるから虚
部が正であるZiに対してのみ、以下に示す(2)。 (3)式により共振周波数F、とその帯域幅Blを求め
、線形予測係数と共にRAMあるいはメモリディスク等
に記録する。 Fr =Fs/(2π) ・arg(zl)
[Hzl (2)B+ =Fs/π
・flog(lztl) I [H2]
(3)なおFsは音声の標本化周波数である。 これら一連の操作を分析の開始位置を10m5ec程度
ずつ後へスライドしながら音声区間が終るまで繰返す。 ホルマント周波数制御部4では、ステップS6で、分析
部2において得られた一連の共振周波数F1から、その
帯域幅と連続性を考慮してホルマント周波数の時間軌跡
を求める。一般にホルマントでない周波数を与える根は
その帯域幅がホルマントを与えるものに比較して広い、
ホルマント周波数は低い方から順に第1ホルマント、第
2ホルマント、・・・と呼び、母音や有声子音の音韻性
には、第1〜第3ホルマントが重要であり、これらの軌
跡は特に正確に求める。 次に、ステップS7において、ステップS6で求めたホ
ルマント周波数の軌跡に対して所望の変更を行い、新た
なホルマント周波数と帯域幅を定める。 例えば、明瞭性を高めるには第3図に示すように第1〜
第3ホルマントの時間軸にわたるホルマント周波数の動
きの強調を行なうと効果がある。 また、個人性を変えるには、第4図のように全てのホル
マント周波数を一様にシフトさせるのが効果的である。 帯域幅については、狭めるとはつきりした感じの声にな
り、広げると滑らかな印象の声になる。 新たなホルマント周波数の軌跡と帯域幅が決定したなら
ば、ステップS8で各時点における新たな線形予測係数
を以下のようにして計算する。 変更されたホルマントと変更されなかったホルマントお
よびホルマントと認められなかった共振周波数を含めて
、新しい共振周波数をFl’、その帯域幅をB1”とす
る、各Fム゛、B1°の組について以下に示す(4)式
を用い一般にlz、’l<1であることを考慮して2の
新たな根Zl’を求める。 z、’=exp(−ycJ’/Fs+J2πF1’/F
s) (4)これ
らのZi’に加えて、各々の共役複素根と、(1)式を
解いて得られた2の根のうち虚部が零のものがあればそ
れを含め、全部で2個のZl’を用いて以下に示す(5
)式のように新たな多項式を作る。 (1−z+’z−’)(1−Z2’Z−’)+*ee+
*・・・ (1−z p’Z −t) =1+al°z−’+a2’z−2−1−”+ a、
’z−’ (5)(5)式の右辺を満足するα、°〜
α、°が新たな線形予測係数を与える。 スペクトル制御部6では、ホルマント制御部4で得られ
た結果に基づき、各時点における原音声のスペクトル包
絡を所望のスペクトル包絡に変更する。 ここで分析部2における線形予測分析の窓幅に相当する
標本数をM1分析窓のスライドの周期に相当する標本数
をLとする。本例では、M=300、L −150とす
る。 先ず、第5図に示すごとく原音声のq点からq+2L−
1点までの2L個の標本のデータに対してその自乗和p
sを求める。さらにステップS 16゜317°で分析
部2において上記に示した分析窓の部分より求めた線形
予測係数α□〜α、と、これら・をホルマント制御部で
変更したα1°〜α、°を用いて、(6)および(7)
式により原音声のスペクトル包絡H(k)およびホルマ
ントを変更したスペクトル包絡H(k)を求める。 H(k)=+1+ Σ a、 ・exp(−j2
π1(k−1)/N) 1−’に−1〜N(6) H(k)=ll+Σ a 1’・exp(−J2yt
1(k−1)/N) l−’に自 INN(7) ここでNはMよりも大きい2のべき乗で512とする。 H(k)は、原音声の音韻性や個人性を多く含んだ物理
量であるが、H(k)は音韻性や個人性が強調・抑圧、
あるいは変更されたものである。 なお、H(k)は、以下に示す(8)式を用いてホルマ
ント周波数制御部で求めたp個のZl゛から直接的に計
算できる。 k−1〜N(8) しかし、(8) 、 (7)式の形はFFT(高速フ
ーリエ変換)アルゴリズムを適用できるので、(8)式
を用いるのは時間的に不利である。 次に、ステップS9および510で、q+t−N/2点
からq+L+N/2−1点までのN個のサンプルを新た
に、x(1)〜x (N) とおき、以下の(9)式
に示すように時間窓係数をかけてy (1)〜y (N
) とする。 y (m)=w (m)・x (IIl)
m−1〜N (9)但し、T−N/2−L◆
1、T’−N/2◆Lとしてw (m)−0,5・(1
−cos(πm/T)) 1 ≦m≦Tw
(m)= i T <r
n <T’w(m)−0,5・[1−cos(π(m−
T’)/T)] T’≦m≦Nこれらy (m) に
対して、N点の高速フーリエ変換を行い周波数領域に変
換しY (k)とし、ステップSllにてこのY (k
)の絶対値を以下に示す(lO)式を用いて変更する。 なお位相成分はそのままとする。 Y (k)・A (k)・H(k) /)I (k)・
Y (k)k−I P−N (10) ここでA (k)は、線形予測係数に基づいたホルマン
トの変更以外の要因としてスペクトル包絡に変化を与え
るもので、0から1の間の実数配列とし、A (k)
= A (N−に◆2)の関係をもつ。例えば、以下に
示す(11)式のようにすれば高い周波数を強調する特
性となる。 A(k) =1.4・(k−1)/N十0.3
k−I NN/2◆1ステップS12にお
いて、(10)式のY (k)を逆高速フーリエ変換に
より時間領域の波形7 (1)〜y (N)とし、得ら
れたN点のデータのうちN/2−L+1〜N/2+Lの
2Lサンプルのデータに対し、その自乗和Ps゛を求め
、これが先に求めたP、に等しくなるよう、すなわち音
声の大きさが等しくなるよう(12)式に示すごとくゲ
インの調整をし、マ(N/2−L+1)〜マ(N/2◆
L)とする。すなわち、x (m) −(P s/ P
’ s) ””V (m)m−N/2−L+1〜N/
2+L (12)このマ(N/2−L◆1)〜マ
(N/2+L)に対してさらに両端でO1中心で1とな
るようなハニング窓または三角窓をかけ、この波形をR
AMあるいはメモリディスク等に一時保存する。この窓
掛けにより、波形接続の際の端効果を軽減することがで
きる。 次に9点をLポイント後ヘシフトし、同じ一連の処理を
行った後、第6図に示すように2Lサンプルのデータの
前半のL点と、直前の処理フレームの後半のL点とを重
ね合わせて順次加える。 以下、有声音区間が終るまで同じ操作を繰返せばスペク
トル包絡が変更された連続音声波形が得られる。 ひとつの有声音区間の処理が終了したならば、ステップ
S13において、前後の無声音区間または、無音区間と
接続し、次の有声区間の処理に移る。最終的に合成され
た音声をD/A変換して、出力音声とする。 なお、本実施例では、有声音区間の検出およびホルマン
トを抽出する方法として線形予測分析を用いたが、その
他の方法で求めても本発明の効果は変らない。 [発明の効果] 以上説明したように、本発明によれば音声の生成モデル
に基づいて、各時点の周波数スペクトル包絡を変化させ
て、声の質を変換することができる。 スペクトル包絡の変更には高速フーリエ変換を用いてお
り、従来のデジタルフィルターを用いる方法に比較して
、音質が良い。また、周波数領域において自由にスペク
トルを制御できるので、ホルマントといった概念以外の
スペクトル制御も可能であり、原音声のピッチ周波数を
保ちながら、個人性の制御や明瞭性の改善のみならず、
様々な声の印象の制御が可能となる。
、有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマン、ト
周波数および帯域幅を算出すると共に、各短時間区間内
で線形予測係数を求めることによって、スペクトル包絡
を算出し、有声音区間にフーリエ変換を施し周波数領域
に変換し、ホルマント周波数の時間軌跡を求め、時間軌
跡の各時点におけるホルマント周波数または帯域幅に変
更を加え、変更を加えられたホルマント周波数および帯
域幅に基づいてスペクトル包絡を算出し、ホルマント周
波数変更後に算出されたスペクトル包絡をホルマント周
波数変更前に算出されたスペクトル包絡で除した商を変
更成分とし、フーリエ変換で変換された周波数成分に変
更成分を乗すると共に、ホルマント周波数変更以外のス
ペクトル変更を加えた後、逆フーリエ変換によって波形
を時間領域に戻し、無声音区間、無音区間または前後の
有声音区間と接続し、新たな音声波形とすることを特徴
とする。 [作 用] 以上の構成によれば高速フーリエ変換を用いて周波数ス
ペクトル包絡の変更を行ない、音声の声質を変換するこ
とが可能となる。 [実施例] 以下、図面に示す実施例に基づき本発明の詳細な説明す
る。 第1図は、本発明の一実施例に係る声質変換システムの
ブロック図を示す。図において、2は分析部、4はホル
マント周波数制御部、6はスペクトル制御部をそれぞれ
示し、各部は電子計算機内に構成され、ROM 、 R
AMおよびメモリディスク等のメモリを併用しながら声
質変換の処理が実行される。 ^/D変換されて標本化された音声波形は、分析部2へ
入力し、有音と無音および有声音と無声音の判別、さら
に有声音については、共振周波数を求める。 次にホルマント周波数制御部4においては、分析部2で
得られた共振周波数に基づきホルマント周波数を求め、
所望の変更を行なう。 スペクトル制御部6ではホルマント周波数制御部4で変
更されたホルマント周波数に応じてスペクトル包絡を変
更する。 上述した一連の有声音に対する声質変換の処理を終了す
ると、無声音区間および無音区間を接続し、次の有声音
区間の処理に移る。最終的に合成された音声波形をD/
^変換して出力音声とする。 上記各部における処理の詳細を第2図に示すフローチャ
ートを参照しながら説明する。 変換ビット数12bit、標本化周波数15kHzで^
/D変換された音声は、まず、分析部2において、ステ
ップStで音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップS2では有音区間
の標本値に対してPARCOR分析と平文さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、1次のPARCOR係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しており、高域成分の割合および高周波にな
ると多くなる平文さ数を調べることによって無声子音と
有声音とを判別する。なお、PARCOR分析と平文さ
分析の両方を用いて判別を行なうのは、判別を確実なも
のとするためである。 上記ステップS1およびS2で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップ31
4およびS15においてそのままRAMまたはメモリデ
ィスク等に記憶される。 次に、ステップS3では有声音区間における音声波形の
標本値を、音声の生成モデルに基づくいわゆる声道逆フ
ィルタに通すことによって線形予測分析を行なう。すな
わち、まず窓幅20m5ec程度の窓掛けを行ない、標
本値に窓掛けを行なったデータを基に相関関数を求める
ことによりステップS4で線形予測係数α1〜α、を算
出する。ここで、pは線形予測の次数であり男性の声に
対してはp = 14、女性の声に対してp=10程度
を用いる。さらに、ステップS5では上記で求めたα1
〜α、を係数とし、以下に示す(1)式を満足する複素
数2の根z1〜zpを求める。 1 + a 、z−’+ a 2z−’+−+ a p
zす=O(1)z1〜2.には共役複素根が含まれ、ま
た1つの共振点は1対の共役複素根で表わされるから虚
部が正であるZiに対してのみ、以下に示す(2)。 (3)式により共振周波数F、とその帯域幅Blを求め
、線形予測係数と共にRAMあるいはメモリディスク等
に記録する。 Fr =Fs/(2π) ・arg(zl)
[Hzl (2)B+ =Fs/π
・flog(lztl) I [H2]
(3)なおFsは音声の標本化周波数である。 これら一連の操作を分析の開始位置を10m5ec程度
ずつ後へスライドしながら音声区間が終るまで繰返す。 ホルマント周波数制御部4では、ステップS6で、分析
部2において得られた一連の共振周波数F1から、その
帯域幅と連続性を考慮してホルマント周波数の時間軌跡
を求める。一般にホルマントでない周波数を与える根は
その帯域幅がホルマントを与えるものに比較して広い、
ホルマント周波数は低い方から順に第1ホルマント、第
2ホルマント、・・・と呼び、母音や有声子音の音韻性
には、第1〜第3ホルマントが重要であり、これらの軌
跡は特に正確に求める。 次に、ステップS7において、ステップS6で求めたホ
ルマント周波数の軌跡に対して所望の変更を行い、新た
なホルマント周波数と帯域幅を定める。 例えば、明瞭性を高めるには第3図に示すように第1〜
第3ホルマントの時間軸にわたるホルマント周波数の動
きの強調を行なうと効果がある。 また、個人性を変えるには、第4図のように全てのホル
マント周波数を一様にシフトさせるのが効果的である。 帯域幅については、狭めるとはつきりした感じの声にな
り、広げると滑らかな印象の声になる。 新たなホルマント周波数の軌跡と帯域幅が決定したなら
ば、ステップS8で各時点における新たな線形予測係数
を以下のようにして計算する。 変更されたホルマントと変更されなかったホルマントお
よびホルマントと認められなかった共振周波数を含めて
、新しい共振周波数をFl’、その帯域幅をB1”とす
る、各Fム゛、B1°の組について以下に示す(4)式
を用い一般にlz、’l<1であることを考慮して2の
新たな根Zl’を求める。 z、’=exp(−ycJ’/Fs+J2πF1’/F
s) (4)これ
らのZi’に加えて、各々の共役複素根と、(1)式を
解いて得られた2の根のうち虚部が零のものがあればそ
れを含め、全部で2個のZl’を用いて以下に示す(5
)式のように新たな多項式を作る。 (1−z+’z−’)(1−Z2’Z−’)+*ee+
*・・・ (1−z p’Z −t) =1+al°z−’+a2’z−2−1−”+ a、
’z−’ (5)(5)式の右辺を満足するα、°〜
α、°が新たな線形予測係数を与える。 スペクトル制御部6では、ホルマント制御部4で得られ
た結果に基づき、各時点における原音声のスペクトル包
絡を所望のスペクトル包絡に変更する。 ここで分析部2における線形予測分析の窓幅に相当する
標本数をM1分析窓のスライドの周期に相当する標本数
をLとする。本例では、M=300、L −150とす
る。 先ず、第5図に示すごとく原音声のq点からq+2L−
1点までの2L個の標本のデータに対してその自乗和p
sを求める。さらにステップS 16゜317°で分析
部2において上記に示した分析窓の部分より求めた線形
予測係数α□〜α、と、これら・をホルマント制御部で
変更したα1°〜α、°を用いて、(6)および(7)
式により原音声のスペクトル包絡H(k)およびホルマ
ントを変更したスペクトル包絡H(k)を求める。 H(k)=+1+ Σ a、 ・exp(−j2
π1(k−1)/N) 1−’に−1〜N(6) H(k)=ll+Σ a 1’・exp(−J2yt
1(k−1)/N) l−’に自 INN(7) ここでNはMよりも大きい2のべき乗で512とする。 H(k)は、原音声の音韻性や個人性を多く含んだ物理
量であるが、H(k)は音韻性や個人性が強調・抑圧、
あるいは変更されたものである。 なお、H(k)は、以下に示す(8)式を用いてホルマ
ント周波数制御部で求めたp個のZl゛から直接的に計
算できる。 k−1〜N(8) しかし、(8) 、 (7)式の形はFFT(高速フ
ーリエ変換)アルゴリズムを適用できるので、(8)式
を用いるのは時間的に不利である。 次に、ステップS9および510で、q+t−N/2点
からq+L+N/2−1点までのN個のサンプルを新た
に、x(1)〜x (N) とおき、以下の(9)式
に示すように時間窓係数をかけてy (1)〜y (N
) とする。 y (m)=w (m)・x (IIl)
m−1〜N (9)但し、T−N/2−L◆
1、T’−N/2◆Lとしてw (m)−0,5・(1
−cos(πm/T)) 1 ≦m≦Tw
(m)= i T <r
n <T’w(m)−0,5・[1−cos(π(m−
T’)/T)] T’≦m≦Nこれらy (m) に
対して、N点の高速フーリエ変換を行い周波数領域に変
換しY (k)とし、ステップSllにてこのY (k
)の絶対値を以下に示す(lO)式を用いて変更する。 なお位相成分はそのままとする。 Y (k)・A (k)・H(k) /)I (k)・
Y (k)k−I P−N (10) ここでA (k)は、線形予測係数に基づいたホルマン
トの変更以外の要因としてスペクトル包絡に変化を与え
るもので、0から1の間の実数配列とし、A (k)
= A (N−に◆2)の関係をもつ。例えば、以下に
示す(11)式のようにすれば高い周波数を強調する特
性となる。 A(k) =1.4・(k−1)/N十0.3
k−I NN/2◆1ステップS12にお
いて、(10)式のY (k)を逆高速フーリエ変換に
より時間領域の波形7 (1)〜y (N)とし、得ら
れたN点のデータのうちN/2−L+1〜N/2+Lの
2Lサンプルのデータに対し、その自乗和Ps゛を求め
、これが先に求めたP、に等しくなるよう、すなわち音
声の大きさが等しくなるよう(12)式に示すごとくゲ
インの調整をし、マ(N/2−L+1)〜マ(N/2◆
L)とする。すなわち、x (m) −(P s/ P
’ s) ””V (m)m−N/2−L+1〜N/
2+L (12)このマ(N/2−L◆1)〜マ
(N/2+L)に対してさらに両端でO1中心で1とな
るようなハニング窓または三角窓をかけ、この波形をR
AMあるいはメモリディスク等に一時保存する。この窓
掛けにより、波形接続の際の端効果を軽減することがで
きる。 次に9点をLポイント後ヘシフトし、同じ一連の処理を
行った後、第6図に示すように2Lサンプルのデータの
前半のL点と、直前の処理フレームの後半のL点とを重
ね合わせて順次加える。 以下、有声音区間が終るまで同じ操作を繰返せばスペク
トル包絡が変更された連続音声波形が得られる。 ひとつの有声音区間の処理が終了したならば、ステップ
S13において、前後の無声音区間または、無音区間と
接続し、次の有声区間の処理に移る。最終的に合成され
た音声をD/A変換して、出力音声とする。 なお、本実施例では、有声音区間の検出およびホルマン
トを抽出する方法として線形予測分析を用いたが、その
他の方法で求めても本発明の効果は変らない。 [発明の効果] 以上説明したように、本発明によれば音声の生成モデル
に基づいて、各時点の周波数スペクトル包絡を変化させ
て、声の質を変換することができる。 スペクトル包絡の変更には高速フーリエ変換を用いてお
り、従来のデジタルフィルターを用いる方法に比較して
、音質が良い。また、周波数領域において自由にスペク
トルを制御できるので、ホルマントといった概念以外の
スペクトル制御も可能であり、原音声のピッチ周波数を
保ちながら、個人性の制御や明瞭性の改善のみならず、
様々な声の印象の制御が可能となる。
第1図は本発明の一実施例に係るシステムのブロック図
、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるホルマント周波数の時間軸にわ
たる変化を説明するための線図、第4図は実施例に招け
るホルマント周波数の時間軸にわたる−様な変化を説明
するための線図、第5図は実施例における処理区間を説
明するための波形図、 第6図は実施例における波形の重ね合わせな説明するた
めの波形図である。 2・・・分析部、 4・・・ホルマント周波数制御部、 6・・・スペクトル制御部。
、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるホルマント周波数の時間軸にわ
たる変化を説明するための線図、第4図は実施例に招け
るホルマント周波数の時間軸にわたる−様な変化を説明
するための線図、第5図は実施例における処理区間を説
明するための波形図、 第6図は実施例における波形の重ね合わせな説明するた
めの波形図である。 2・・・分析部、 4・・・ホルマント周波数制御部、 6・・・スペクトル制御部。
Claims (1)
- 【特許請求の範囲】 入力音声から有声音区間を抽出し、 該有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマント周
波数および帯域幅を算出すると共に、 前記各短時間区間内で線形予測係数を求めることによっ
て、スペクトル包絡を算出し、 前記有声音区間にフーリエ変換を施し周波数領域に変換
し、 前記ホルマント周波数の時間軌跡を求め、 該時間軌跡の各時点における前記ホルマント周波数また
は前記帯域幅に変更を加え、 当該変更を加えられたホルマント周波数および帯域幅に
基づいてスペクトル包絡を算出し、ホルマント周波数変
更後に算出された前記スペクトル包絡をホルマント周波
数変更前に算出された前記スペクトル包絡で除した商を
変更成分とし、 前記フーリエ変換で変換された周波数成分に該変更成分
を乗すると共に、前記ホルマント周波数変更以外のスペ
クトル変更を加えた後、逆フーリエ変換によって波形を
時間領域に戻し、 無声音区間、無音区間または前後の有声音区間と接続し
、新たな音声波形とする ことを特徴とする声質変換方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62250708A JP2612869B2 (ja) | 1987-10-06 | 1987-10-06 | 声質変換方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62250708A JP2612869B2 (ja) | 1987-10-06 | 1987-10-06 | 声質変換方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0193796A true JPH0193796A (ja) | 1989-04-12 |
| JP2612869B2 JP2612869B2 (ja) | 1997-05-21 |
Family
ID=17211866
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62250708A Expired - Lifetime JP2612869B2 (ja) | 1987-10-06 | 1987-10-06 | 声質変換方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2612869B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0527771A (ja) * | 1991-07-23 | 1993-02-05 | Yamaha Corp | 電子楽器 |
| US5862232A (en) * | 1995-12-28 | 1999-01-19 | Victor Company Of Japan, Ltd. | Sound pitch converting apparatus |
| WO2001078064A1 (en) * | 2000-04-03 | 2001-10-18 | Sharp Kabushiki Kaisha | Voice character converting device |
| CN109671422A (zh) * | 2019-01-09 | 2019-04-23 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
-
1987
- 1987-10-06 JP JP62250708A patent/JP2612869B2/ja not_active Expired - Lifetime
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0527771A (ja) * | 1991-07-23 | 1993-02-05 | Yamaha Corp | 電子楽器 |
| US5862232A (en) * | 1995-12-28 | 1999-01-19 | Victor Company Of Japan, Ltd. | Sound pitch converting apparatus |
| WO2001078064A1 (en) * | 2000-04-03 | 2001-10-18 | Sharp Kabushiki Kaisha | Voice character converting device |
| CN109671422A (zh) * | 2019-01-09 | 2019-04-23 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
| CN109671422B (zh) * | 2019-01-09 | 2022-06-17 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2612869B2 (ja) | 1997-05-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Verfaille et al. | Adaptive digital audio effects (A-DAFx): A new class of sound transformations | |
| Zhu et al. | Real-time signal estimation from modified short-time Fourier transform magnitude spectra | |
| US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
| US8996363B2 (en) | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal | |
| JPS62160495A (ja) | 音声合成装置 | |
| Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
| CN109416911B (zh) | 声音合成装置及声音合成方法 | |
| JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
| JPH0193795A (ja) | 音声の発声速度変換方法 | |
| JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
| JPH0193796A (ja) | 声質変換方法 | |
| JP2904279B2 (ja) | 音声合成方法および装置 | |
| JP2612867B2 (ja) | 音声ピッチ変換方法 | |
| Bonada et al. | Spectral approach to the modeling of the singing voice | |
| Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
| Hasan et al. | An approach to voice conversion using feature statistical mapping | |
| Fierro et al. | Extreme audio time stretching using neural synthesis | |
| JP3035939B2 (ja) | 音声分析合成装置 | |
| JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
| JPH09510554A (ja) | 言語合成 | |
| Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
| Wu | Musical pitch shifting based on equalization and bandwidth extension | |
| JPH03259200A (ja) | 音声の発声時間長制御方法および装置 | |
| Damskägg | Time-Scale Modification of Audio and Speech Signals | |
| JP2001265400A (ja) | ピッチ変換装置及びピッチ変換方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080227 Year of fee payment: 11 |