JPH0193796A - 声質変換方法 - Google Patents

声質変換方法

Info

Publication number
JPH0193796A
JPH0193796A JP62250708A JP25070887A JPH0193796A JP H0193796 A JPH0193796 A JP H0193796A JP 62250708 A JP62250708 A JP 62250708A JP 25070887 A JP25070887 A JP 25070887A JP H0193796 A JPH0193796 A JP H0193796A
Authority
JP
Japan
Prior art keywords
frequency
formant frequency
section
formant
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62250708A
Other languages
English (en)
Other versions
JP2612869B2 (ja
Inventor
Toru Tsugi
徹 都木
Hisao Kuwabara
尚夫 桑原
Tetsuo Umeda
梅田 哲夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP62250708A priority Critical patent/JP2612869B2/ja
Publication of JPH0193796A publication Critical patent/JPH0193796A/ja
Application granted granted Critical
Publication of JP2612869B2 publication Critical patent/JP2612869B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
[産業上の利用分野] 本発明は、放送、映画、音楽等において、人間の音声を
処理する音声情報処理技術のうち、音声の個人性を変化
させたり、音声の明瞭性を高めたり、響きを変えて特殊
効果を持たせるなどの声質変換方法に関する。 [発明の概要] 本発明は人の音声を一時記録し、その音声の質を変化さ
せて、再び音声として出力する技術に関するもので、 入力音声を^/D変換した後、有声音区間について、先
ず線形予測係数を算出しておき、この線形予測係数に基
づいて所望のホルマント周波数および帯域幅の変更を行
ない、さらに変更後のホルマント周波数や帯域幅に応じ
た線形予測係数を求め、これによりスペクトル包絡を変
更する6次にフーリエ変換により原音声を周波数領域に
変換し、ホルマント変更前後のスペクトル包絡によって
原音声を所望の形に変更し、逆フーリエ変換によって時
間領域に戻した後、これをD/A変換することにより、
音声としての自然性を良好に保ったまま、原音声の持つ
、個人性を変換したり、言葉としての明瞭性を改善でき
るようにする方法である。 [従来の技術] 従来、放送現場などではアナログフィルターを用いて、
音声の特定の周波数帯域を取り除くことにより個人性の
消去を行ったり、熟練した技術者がグラフィックイコラ
イザーにより特定の周波数帯域のエネルギーを増強・減
衰させて声の質の補正を行なっていた。 近年、デジタル技術による方法も開発されており、サン
プリング周波数Fで書込んだ音声波形を、FXRなるサ
ンプリング周波数で読出せば、ピッチ周波数を含む全ス
ペクトル情報が周波数的にR倍となる。この時適当な時
間窓と周期を用いて波形を間引いたり、繰返したりすれ
ば、発生速度を原音声と同じに保ちながら音声の質の変
換ができる。このような装置は、「ハーモナイザー」な
どと呼ばれ、音響効果装置として一般に使用され始めて
いる。 また、線形予測分析に基づくデジタルフィルターを用い
て、音声の生成モデルに適応したフィルタリングを行い
、音声の質や明瞭性を制御する方式が、例えば特願昭6
1−208777において本願人によって提案されてい
る。 [発明が解決しようとする問題点] しかしながら、アナログフィルターやグラフィックイコ
ライザーを用いる方法は、原理的に音声の特定の周波数
帯域のエネルギーを増減させるだけであり、根本的に音
声の質を変化させることはできない。すなわち、原音声
に含まれる一部の特徴がレベル的に強調・抑圧されるの
みで、決定的に個人性を変えたり、明瞭性を改善するこ
とはできない。 また、「ハーモナイザー」なとの装置では、ピッチを含
む全スペクトル情報が周波数軸上で8動するので、音声
の高低や個人性が大幅に変化する。しかし、このような
変化は機械的であり実際の個人の音声間に存在するスペ
クトル情報の差異とは異なる。それ故、出力音声は非人
間的なものになり易い、また、原音声のピッチ周波数を
保存することはできない。 さらに、線形予測分析に基づくデジタルフィルターを用
いる方法は、音声の生成モデルに適応しているので、声
の質や明瞭性を根本的に制御することが可能であるが、
フィルターの安定性などの原因から音質に問題があった
。 そこで、本発明の目的は、上述した従来の問題点を解消
し、音声の生成モデルに適応した分析と高速フーリエ変
換を併用することによって、音声特有の特徴を利用した
高音質な声質変換を行なうことが可能な声質変換方法を
提供することにある。
【問題点を解決するための手段】
そのために本発明では入力音声から有声音区間を抽出し
、有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマン、ト
周波数および帯域幅を算出すると共に、各短時間区間内
で線形予測係数を求めることによって、スペクトル包絡
を算出し、有声音区間にフーリエ変換を施し周波数領域
に変換し、ホルマント周波数の時間軌跡を求め、時間軌
跡の各時点におけるホルマント周波数または帯域幅に変
更を加え、変更を加えられたホルマント周波数および帯
域幅に基づいてスペクトル包絡を算出し、ホルマント周
波数変更後に算出されたスペクトル包絡をホルマント周
波数変更前に算出されたスペクトル包絡で除した商を変
更成分とし、フーリエ変換で変換された周波数成分に変
更成分を乗すると共に、ホルマント周波数変更以外のス
ペクトル変更を加えた後、逆フーリエ変換によって波形
を時間領域に戻し、無声音区間、無音区間または前後の
有声音区間と接続し、新たな音声波形とすることを特徴
とする。 [作 用] 以上の構成によれば高速フーリエ変換を用いて周波数ス
ペクトル包絡の変更を行ない、音声の声質を変換するこ
とが可能となる。 [実施例] 以下、図面に示す実施例に基づき本発明の詳細な説明す
る。 第1図は、本発明の一実施例に係る声質変換システムの
ブロック図を示す。図において、2は分析部、4はホル
マント周波数制御部、6はスペクトル制御部をそれぞれ
示し、各部は電子計算機内に構成され、ROM 、 R
AMおよびメモリディスク等のメモリを併用しながら声
質変換の処理が実行される。 ^/D変換されて標本化された音声波形は、分析部2へ
入力し、有音と無音および有声音と無声音の判別、さら
に有声音については、共振周波数を求める。 次にホルマント周波数制御部4においては、分析部2で
得られた共振周波数に基づきホルマント周波数を求め、
所望の変更を行なう。 スペクトル制御部6ではホルマント周波数制御部4で変
更されたホルマント周波数に応じてスペクトル包絡を変
更する。 上述した一連の有声音に対する声質変換の処理を終了す
ると、無声音区間および無音区間を接続し、次の有声音
区間の処理に移る。最終的に合成された音声波形をD/
^変換して出力音声とする。 上記各部における処理の詳細を第2図に示すフローチャ
ートを参照しながら説明する。 変換ビット数12bit、標本化周波数15kHzで^
/D変換された音声は、まず、分析部2において、ステ
ップStで音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップS2では有音区間
の標本値に対してPARCOR分析と平文さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、1次のPARCOR係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しており、高域成分の割合および高周波にな
ると多くなる平文さ数を調べることによって無声子音と
有声音とを判別する。なお、PARCOR分析と平文さ
分析の両方を用いて判別を行なうのは、判別を確実なも
のとするためである。 上記ステップS1およびS2で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップ31
4およびS15においてそのままRAMまたはメモリデ
ィスク等に記憶される。 次に、ステップS3では有声音区間における音声波形の
標本値を、音声の生成モデルに基づくいわゆる声道逆フ
ィルタに通すことによって線形予測分析を行なう。すな
わち、まず窓幅20m5ec程度の窓掛けを行ない、標
本値に窓掛けを行なったデータを基に相関関数を求める
ことによりステップS4で線形予測係数α1〜α、を算
出する。ここで、pは線形予測の次数であり男性の声に
対してはp = 14、女性の声に対してp=10程度
を用いる。さらに、ステップS5では上記で求めたα1
〜α、を係数とし、以下に示す(1)式を満足する複素
数2の根z1〜zpを求める。 1 + a 、z−’+ a 2z−’+−+ a p
zす=O(1)z1〜2.には共役複素根が含まれ、ま
た1つの共振点は1対の共役複素根で表わされるから虚
部が正であるZiに対してのみ、以下に示す(2)。 (3)式により共振周波数F、とその帯域幅Blを求め
、線形予測係数と共にRAMあるいはメモリディスク等
に記録する。 Fr  =Fs/(2π) ・arg(zl)    
       [Hzl   (2)B+ =Fs/π
・flog(lztl) I       [H2] 
 (3)なおFsは音声の標本化周波数である。 これら一連の操作を分析の開始位置を10m5ec程度
ずつ後へスライドしながら音声区間が終るまで繰返す。 ホルマント周波数制御部4では、ステップS6で、分析
部2において得られた一連の共振周波数F1から、その
帯域幅と連続性を考慮してホルマント周波数の時間軌跡
を求める。一般にホルマントでない周波数を与える根は
その帯域幅がホルマントを与えるものに比較して広い、
ホルマント周波数は低い方から順に第1ホルマント、第
2ホルマント、・・・と呼び、母音や有声子音の音韻性
には、第1〜第3ホルマントが重要であり、これらの軌
跡は特に正確に求める。 次に、ステップS7において、ステップS6で求めたホ
ルマント周波数の軌跡に対して所望の変更を行い、新た
なホルマント周波数と帯域幅を定める。 例えば、明瞭性を高めるには第3図に示すように第1〜
第3ホルマントの時間軸にわたるホルマント周波数の動
きの強調を行なうと効果がある。 また、個人性を変えるには、第4図のように全てのホル
マント周波数を一様にシフトさせるのが効果的である。 帯域幅については、狭めるとはつきりした感じの声にな
り、広げると滑らかな印象の声になる。 新たなホルマント周波数の軌跡と帯域幅が決定したなら
ば、ステップS8で各時点における新たな線形予測係数
を以下のようにして計算する。 変更されたホルマントと変更されなかったホルマントお
よびホルマントと認められなかった共振周波数を含めて
、新しい共振周波数をFl’、その帯域幅をB1”とす
る、各Fム゛、B1°の組について以下に示す(4)式
を用い一般にlz、’l<1であることを考慮して2の
新たな根Zl’を求める。 z、’=exp(−ycJ’/Fs+J2πF1’/F
s)                  (4)これ
らのZi’に加えて、各々の共役複素根と、(1)式を
解いて得られた2の根のうち虚部が零のものがあればそ
れを含め、全部で2個のZl’を用いて以下に示す(5
)式のように新たな多項式を作る。 (1−z+’z−’)(1−Z2’Z−’)+*ee+
*・・・ (1−z p’Z −t) =1+al°z−’+a2’z−2−1−”+  a、
’z−’  (5)(5)式の右辺を満足するα、°〜
α、°が新たな線形予測係数を与える。 スペクトル制御部6では、ホルマント制御部4で得られ
た結果に基づき、各時点における原音声のスペクトル包
絡を所望のスペクトル包絡に変更する。 ここで分析部2における線形予測分析の窓幅に相当する
標本数をM1分析窓のスライドの周期に相当する標本数
をLとする。本例では、M=300、L −150とす
る。 先ず、第5図に示すごとく原音声のq点からq+2L−
1点までの2L個の標本のデータに対してその自乗和p
sを求める。さらにステップS 16゜317°で分析
部2において上記に示した分析窓の部分より求めた線形
予測係数α□〜α、と、これら・をホルマント制御部で
変更したα1°〜α、°を用いて、(6)および(7)
式により原音声のスペクトル包絡H(k)およびホルマ
ントを変更したスペクトル包絡H(k)を求める。 H(k)=+1+   Σ  a、 ・exp(−j2
  π1(k−1)/N) 1−’に−1〜N(6) H(k)=ll+Σ a 1’・exp(−J2yt 
1(k−1)/N) l−’に自 INN(7) ここでNはMよりも大きい2のべき乗で512とする。 H(k)は、原音声の音韻性や個人性を多く含んだ物理
量であるが、H(k)は音韻性や個人性が強調・抑圧、
あるいは変更されたものである。 なお、H(k)は、以下に示す(8)式を用いてホルマ
ント周波数制御部で求めたp個のZl゛から直接的に計
算できる。 k−1〜N(8) しかし、(8) 、  (7)式の形はFFT(高速フ
ーリエ変換)アルゴリズムを適用できるので、(8)式
を用いるのは時間的に不利である。 次に、ステップS9および510で、q+t−N/2点
からq+L+N/2−1点までのN個のサンプルを新た
に、x(1)〜x (N)  とおき、以下の(9)式
に示すように時間窓係数をかけてy (1)〜y (N
) とする。 y (m)=w (m)・x (IIl)      
  m−1〜N    (9)但し、T−N/2−L◆
1、T’−N/2◆Lとしてw (m)−0,5・(1
−cos(πm/T))      1  ≦m≦Tw
 (m)= i              T <r
n <T’w(m)−0,5・[1−cos(π(m−
T’)/T)]  T’≦m≦Nこれらy (m) に
対して、N点の高速フーリエ変換を行い周波数領域に変
換しY (k)とし、ステップSllにてこのY (k
)の絶対値を以下に示す(lO)式を用いて変更する。 なお位相成分はそのままとする。 Y (k)・A (k)・H(k) /)I (k)・
Y (k)k−I P−N (10) ここでA (k)は、線形予測係数に基づいたホルマン
トの変更以外の要因としてスペクトル包絡に変化を与え
るもので、0から1の間の実数配列とし、A (k) 
= A (N−に◆2)の関係をもつ。例えば、以下に
示す(11)式のようにすれば高い周波数を強調する特
性となる。 A(k)   =1.4・(k−1)/N十0.3  
     k−I  NN/2◆1ステップS12にお
いて、(10)式のY (k)を逆高速フーリエ変換に
より時間領域の波形7 (1)〜y (N)とし、得ら
れたN点のデータのうちN/2−L+1〜N/2+Lの
2Lサンプルのデータに対し、その自乗和Ps゛を求め
、これが先に求めたP、に等しくなるよう、すなわち音
声の大きさが等しくなるよう(12)式に示すごとくゲ
インの調整をし、マ(N/2−L+1)〜マ(N/2◆
L)とする。すなわち、x (m) −(P s/ P
 ’ s) ””V (m)m−N/2−L+1〜N/
2+L    (12)このマ(N/2−L◆1)〜マ
(N/2+L)に対してさらに両端でO1中心で1とな
るようなハニング窓または三角窓をかけ、この波形をR
AMあるいはメモリディスク等に一時保存する。この窓
掛けにより、波形接続の際の端効果を軽減することがで
きる。 次に9点をLポイント後ヘシフトし、同じ一連の処理を
行った後、第6図に示すように2Lサンプルのデータの
前半のL点と、直前の処理フレームの後半のL点とを重
ね合わせて順次加える。 以下、有声音区間が終るまで同じ操作を繰返せばスペク
トル包絡が変更された連続音声波形が得られる。 ひとつの有声音区間の処理が終了したならば、ステップ
S13において、前後の無声音区間または、無音区間と
接続し、次の有声区間の処理に移る。最終的に合成され
た音声をD/A変換して、出力音声とする。 なお、本実施例では、有声音区間の検出およびホルマン
トを抽出する方法として線形予測分析を用いたが、その
他の方法で求めても本発明の効果は変らない。 [発明の効果] 以上説明したように、本発明によれば音声の生成モデル
に基づいて、各時点の周波数スペクトル包絡を変化させ
て、声の質を変換することができる。 スペクトル包絡の変更には高速フーリエ変換を用いてお
り、従来のデジタルフィルターを用いる方法に比較して
、音質が良い。また、周波数領域において自由にスペク
トルを制御できるので、ホルマントといった概念以外の
スペクトル制御も可能であり、原音声のピッチ周波数を
保ちながら、個人性の制御や明瞭性の改善のみならず、
様々な声の印象の制御が可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例に係るシステムのブロック図
、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるホルマント周波数の時間軸にわ
たる変化を説明するための線図、第4図は実施例に招け
るホルマント周波数の時間軸にわたる−様な変化を説明
するための線図、第5図は実施例における処理区間を説
明するための波形図、 第6図は実施例における波形の重ね合わせな説明するた
めの波形図である。 2・・・分析部、 4・・・ホルマント周波数制御部、 6・・・スペクトル制御部。

Claims (1)

  1. 【特許請求の範囲】 入力音声から有声音区間を抽出し、 該有声音区間において、分析窓幅と該窓幅のスライド周
    期とによって設定された各短時間区間内のホルマント周
    波数および帯域幅を算出すると共に、 前記各短時間区間内で線形予測係数を求めることによっ
    て、スペクトル包絡を算出し、 前記有声音区間にフーリエ変換を施し周波数領域に変換
    し、 前記ホルマント周波数の時間軌跡を求め、 該時間軌跡の各時点における前記ホルマント周波数また
    は前記帯域幅に変更を加え、 当該変更を加えられたホルマント周波数および帯域幅に
    基づいてスペクトル包絡を算出し、ホルマント周波数変
    更後に算出された前記スペクトル包絡をホルマント周波
    数変更前に算出された前記スペクトル包絡で除した商を
    変更成分とし、 前記フーリエ変換で変換された周波数成分に該変更成分
    を乗すると共に、前記ホルマント周波数変更以外のスペ
    クトル変更を加えた後、逆フーリエ変換によって波形を
    時間領域に戻し、 無声音区間、無音区間または前後の有声音区間と接続し
    、新たな音声波形とする ことを特徴とする声質変換方法。
JP62250708A 1987-10-06 1987-10-06 声質変換方法 Expired - Lifetime JP2612869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62250708A JP2612869B2 (ja) 1987-10-06 1987-10-06 声質変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62250708A JP2612869B2 (ja) 1987-10-06 1987-10-06 声質変換方法

Publications (2)

Publication Number Publication Date
JPH0193796A true JPH0193796A (ja) 1989-04-12
JP2612869B2 JP2612869B2 (ja) 1997-05-21

Family

ID=17211866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62250708A Expired - Lifetime JP2612869B2 (ja) 1987-10-06 1987-10-06 声質変換方法

Country Status (1)

Country Link
JP (1) JP2612869B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527771A (ja) * 1991-07-23 1993-02-05 Yamaha Corp 電子楽器
US5862232A (en) * 1995-12-28 1999-01-19 Victor Company Of Japan, Ltd. Sound pitch converting apparatus
WO2001078064A1 (en) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Voice character converting device
CN109671422A (zh) * 2019-01-09 2019-04-23 浙江工业大学 一种获取纯净语音的录音方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527771A (ja) * 1991-07-23 1993-02-05 Yamaha Corp 電子楽器
US5862232A (en) * 1995-12-28 1999-01-19 Victor Company Of Japan, Ltd. Sound pitch converting apparatus
WO2001078064A1 (en) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Voice character converting device
CN109671422A (zh) * 2019-01-09 2019-04-23 浙江工业大学 一种获取纯净语音的录音方法
CN109671422B (zh) * 2019-01-09 2022-06-17 浙江工业大学 一种获取纯净语音的录音方法

Also Published As

Publication number Publication date
JP2612869B2 (ja) 1997-05-21

Similar Documents

Publication Publication Date Title
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
Zhu et al. Real-time signal estimation from modified short-time Fourier transform magnitude spectra
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
US8996363B2 (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
JPS62160495A (ja) 音声合成装置
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
CN109416911B (zh) 声音合成装置及声音合成方法
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JPH0193795A (ja) 音声の発声速度変換方法
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JPH0193796A (ja) 声質変換方法
JP2904279B2 (ja) 音声合成方法および装置
JP2612867B2 (ja) 音声ピッチ変換方法
Bonada et al. Spectral approach to the modeling of the singing voice
Hanna et al. Time scale modification of noises using a spectral and statistical model
Hasan et al. An approach to voice conversion using feature statistical mapping
Fierro et al. Extreme audio time stretching using neural synthesis
JP3035939B2 (ja) 音声分析合成装置
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JPH09510554A (ja) 言語合成
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
Wu Musical pitch shifting based on equalization and bandwidth extension
JPH03259200A (ja) 音声の発声時間長制御方法および装置
Damskägg Time-Scale Modification of Audio and Speech Signals
JP2001265400A (ja) ピッチ変換装置及びピッチ変換方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 11