JP3966074B2 - ピッチ変換装置、ピッチ変換方法及びプログラム - Google Patents

ピッチ変換装置、ピッチ変換方法及びプログラム Download PDF

Info

Publication number
JP3966074B2
JP3966074B2 JP2002152787A JP2002152787A JP3966074B2 JP 3966074 B2 JP3966074 B2 JP 3966074B2 JP 2002152787 A JP2002152787 A JP 2002152787A JP 2002152787 A JP2002152787 A JP 2002152787A JP 3966074 B2 JP3966074 B2 JP 3966074B2
Authority
JP
Japan
Prior art keywords
pitch
input
conversion
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002152787A
Other languages
English (en)
Other versions
JP2003345400A (ja
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002152787A priority Critical patent/JP3966074B2/ja
Publication of JP2003345400A publication Critical patent/JP2003345400A/ja
Application granted granted Critical
Publication of JP3966074B2 publication Critical patent/JP3966074B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、歌唱合成に用いるに好適なピッチ変換装置、ピッチ変換方法及びプログラムに関するものである。
【0002】
【従来の技術】
従来、音声合成装置としては、合成音声のピッチにゆらぎを付与するようにしたものが知られている(例えば、特開平9−281994号公報参照)。
【0003】
この従来技術では、ディジタル音声波形データをアナログ音声信号に変換するD/A変換器に供給するクロック信号として、格納部から読出したクロック間隔ゆらぎデータに応じてクロック周期にゆらぎをもたせたクロック信号を用いることによりD/A変換出力(アナログ音声信号)のピッチにゆらぎを付与している。
【0004】
【発明が解決しようとする課題】
人間がある音符に対応する音声を発生するとき、物理的に一定の高さ(ピッチ)で発生するのは歌唱を職業とする人でも困難であり、一般的に発声ピッチは音符ピッチから多少ずれ、加えて経時的なピッチ変動も生ずる。特に、歌唱を職業としない一般の人が歌唱した場合には、上記のようなピッチずれやピッチ変動の傾向が強く、歌唱の上手さ(又は下手さ)を評価するための1つの要素となる。また、ピッチのずれ方に歌唱者の特徴が見られる場合もある。その上、人が発声できる上限又は下限に近いピッチの音を発生しようとすると、声の発生機構に物理的な負担がかかるため、発生したいピッチと、実際に発声したピッチとが異なる(上限近くの高音ではピッチが下がり易く、下限近くの低音ではピッチが上がり易い)という現象がある。
【0005】
上記した従来技術によれば、クロック間隔ゆらぎデータの値をピッチ上昇方向又はピッチ下降方向に変化させることによりピッチ変動の方向及び量を変化させることができるが、平均ピッチで見た場合にピッチ変動を加える前のピッチ(基準ピッチ)を変化させることはできず、ピッチ変動の時間的なパターンを変化させることもできない。換言すれば、上記したような歌唱者の発声ピッチや経時的なピッチ変動を再現することはできない。
【0006】
この発明の目的は、歌唱合成の際に歌唱者の発声ピッチや経時的なピッチ変動を再現することができる新規なピッチ変換装置、ピッチ変換方法及びプログラムを提供することにある。
【0007】
【課題を解決するための手段】
この発明に係る第1のピッチ変換装置は、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段を備えた歌唱合成装置において使用されるピッチ変換装置であって、合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給する変換手段とを備えたものである。
【0008】
第1のピッチ変換装置によれば、複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数が記憶手段に記憶され、このピッチ変換関数に基づいて入力に係る各ピッチが歌唱音声合成用の音声ピッチに変換される。ピッチ変換関数において、複数の音声ピッチとして歌唱者の複数の発声ピッチをそれぞれ用いると、合成歌唱音声において歌唱者の発声ピッチやピッチ特徴を再現することができ、例えば発声可能な上限ピッチの近くではピッチを若干低くすると共に発声可能な下限ピッチの近くではピッチを若干高くすることができる。
【0009】
第1のピッチ変換装置において、前記入力手段は、歌唱者を示す歌唱者データを入力し、前記記憶手段は、前記ピッチ変換関数を歌唱者毎に記憶し、前記変換手段は、前記歌唱者データの示す歌唱者に対応するピッチ変換関数に基づいてピッチ変換を行なうようにしてもよい。このようにすると、歌唱者毎に発声ピッチやピッチ特徴を再現することができる。
【0010】
第1のピッチ変換装置においては、ピッチ変換の際に入力ピッチに依存する乱数的な(ランダムな)ピッチ変動を音声ピッチに付与するようにしてもよい。このようにすると、合成歌唱音声に一層自然なピッチ変化を付与することができる。また、ピッチ変換の際に歌唱者の実際の音声に含まれる経時的なピッチ変動を音声ピッチに付与するようにしてもよい。このようにすると、歌唱者の経時的に不安定なピッチ変動を再現することができる。
【0014】
この発明に係る第1のピッチ変換方法は、複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段とを備えた歌唱合成装置において使用されるピッチ変換方法であって、合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力するステップと、このステップで入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給するステップとを含むものである。
【0015】
第1のピッチ変換方法によれば、第1のピッチ変換装置に関して前述したと同様にピッチ変換を行なうことができる。
【0018】
この発明に係る第1のプログラムは、コンピュータと、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段とを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給する変換手段として機能させるものである。
【0019】
この発明に係る第2のプログラムは、コンピュータを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すピッチデータを送出する変換手段と、この変換手段から送出されるピッチデータの示す音声ピッチを有する歌唱音声信号を合成する歌唱合成手段として機能させるものである。
【0020】
第1又は第2のプログラムによれば、第1のピッチ変換装置に関して前述したと同様にピッチ変換を行なうことができる。
【0021】
この発明に係る第3のプログラムは、コンピュータと、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段とを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、
合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、
複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッチに対する音声ピッチの経時的変動分を示すピッチ差分データを記憶する記憶手段と、
前記入力手段から入力されるピッチ毎に該ピッチに対応するピッチ差分データを前記記憶手段から読出すと共に入力に係るピッチに対して読出しに係るピッチ差分データの示す音声ピッチの経時的変動分を加算してピッチ変換を行ない、このピッチ変換後のピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給する変換手段として機能させるものである。
【0022】
この発明に係る第4のプログラムは、コンピュータを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、
合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、
複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッチに対する音声ピッチの経時的変動分を示すピッチ差分データを記憶する記憶手段と、
前記入力手段から入力されるピッチ毎に該ピッチに対応するピッチ差分データを前記記憶手段から読出すと共に入力に係るピッチに対して読出しに係るピッチ差分データの示す音声ピッチの経時的変動分を加算してピッチ変換を行ない、このピッチ変換後のピッチを示すピッチデータを送出する変換手段と、
この変換手段から送出されるピッチデータの示す音声ピッチを有する歌唱音声信号を合成する歌唱合成手段と
して機能させるものである。
【0023】
第3又は第4のプログラムによれば、第2のピッチ変換装置に関して前述したと同様にピッチ変換を行なうことができる。
【0024】
【発明の実施の形態】
図1は、この発明の一実施形態に係る歌唱合成装置を示すものである。
【0025】
図1の歌唱合成装置は、入力部10、ピッチ変換装置12及び歌唱合成器18を含むもので、ピッチ変換装置12は、ピッチ変換器14及びデータベース16を備えている。
【0026】
入力部10は、歌唱者を示す歌唱者データ、音声素片(単一の音素[音韻]又は音素連鎖)を示す音声素片データ、音符のピッチ及び長さを示す音符データ、合成音声の音強度を示す音強度データ等を入力するもので、入力に係る音符ピッチPiを示す音符ピッチデータ及び入力に係る歌唱者Sを示す歌唱者データは、ピッチ変換器14に供給される。
【0027】
データベース16には、複数の入力ピッチ(音符ピッチ)をそれぞれ複数の音声ピッチ(出力ピッチ)に変換するためのピッチ変換データがピッチ変換関数[FT(S,p)]又はピッチ変換表の形で歌唱者毎に記憶されている。
【0028】
図2には、歌唱者S1,S2,S3にそれぞれ対応する3つのピッチ変換関数FT(S1,p),FT(S2,p),FT(S3,p)をデータベース16に記憶した例を示す。ここで、pは、入力ピッチを表わす。
【0029】
図2に示すピッチ変換装置12において、ピッチ変換器14は、入力部10からの歌唱者データの示す歌唱者Sに対応するピッチ変換関数をデータベース16にて参照すると共に、入力部10からの音符ピッチデータの示す音符ピッチPiに対応する音声ピッチPoを参照に係るピッチ変換関数に基づいて算出する。そして、算出された音声ピッチPoを示すピッチデータを歌唱合成器18に出力する。
【0030】
データベース16がピッチ変換データをピッチ変換表の形で記憶している場合、ピッチ変換器14は、入力部10からの歌唱者Sに対応するピッチ変換表を参照すると共に、入力部10からの音符ピッチデータの示す音符ピッチPiに対応する音声ピッチPoを参照に係るピッチ変換表から読出す。そして、読出された音声ピッチPoを示すピッチデータを歌唱合成器18に供給する。
【0031】
歌唱合成器18は、入力部10からの歌唱者データ、音声素片データ、音符長データ及び音強度データと、ピッチ変換器14からのピッチデータとに基づいて歌唱音声信号を合成するものである。歌唱合成方式としては、種々のものが公知であり、そのうちから適切なものを選択して歌唱合成器18を構成することができる。
【0032】
歌唱合成器18では、一例として、歌唱者データの示す歌唱者と、音声素片データの示す音声素片とに対応した音声成分データを用いて歌唱音声信号を合成する。このとき、歌唱音声信号のピッチ、音長及び音強度は、それぞれピッチデータ、音符長データ及び音強度データに応じて決定される。
【0033】
図3は、ピッチ変換関数の一例を示すものである。図3において、横軸の入力ピッチ[cent]は、ピッチ変換器14に入力される音符ピッチに相当し、縦軸の出力ピッチ[cent]は、ピッチ変換器14から出力される音声ピッチに相当する。
【0034】
図3に示すピッチ変換関数FT(S,p)は、所定の下限ピッチPLと所定の上限ピッチPHとの間では出力ピッチが入力ピッチと等しいが、入力ピッチが上限ピッチPHより高いときは人の発声可能な上限ピッチに近づくにつれて徐々に出力ピッチが入力ピッチより低くなると共に、入力ピッチが下限ピッチPLより低いときは人の発声可能な下限ピッチに近づくにつれて徐々に出力ピッチが入力ピッチより高くなるような形状になっている。このような形状を数式的に表現すると、次の数1に示す通りである。
【0035】
【数1】
FT(S,p)>p if p<PL
FT(S,p)=p if PL≦p≦PH
FT(S,p)<p if PH<p
具体例としては、PH<pの領域では出力ピッチが入力ピッチより最大で数10セント程度低くなると共にp<PLの領域では出力ピッチが入力ピッチより最大で数10セント程度高くなるようなピッチ変換関数を用いることができる。
【0036】
図3に示したようなピッチ変換関数は、歌唱者毎に適切な形状のものが用意され、図2に関して前述したように歌唱者毎にデータベース16に記憶される。ピッチ変換器14は、入力に係る歌唱者Sに対応するピッチ変換関数を参照して入力ピッチPiを出力ピッチPoに変換する。このようなピッチ変換を数式的に表現すると、次の数2の通りである。
【0037】
【数2】
Po=FT(S,Pi)
図4は、図3のピッチ変換関数を用いたピッチ変換の一例を示すもので、(A)は、変換前のピッチ変化(入力ピッチの変化)を示し、(B)は、変換後のピッチ変化(出力ピッチの変化)を示す。図4(A)において、順次の入力ピッチは、合成すべき順次の歌唱音声にそれぞれ対応するものである。図4によれば、PLより低音域では、出力ピッチが入力ピッチより高くなると共にPHより高音域では出力ピッチが入力ピッチより低くなり、PL以上でPH以下の中音域では出力ピッチが入力ピッチに等しくなっているのがわかる。図4の例では、入力ピッチを離散的に与えたが、そうである必要はなく、連続的に与えても構わない。
【0038】
図3に示したピッチ変換関数は、直線に近似したものであるが、歌唱者やピッチに依存する乱数的な(ランダムな)ピッチ変動分rand(S,p)を加えた次の数3の式に示すようなピッチ変換関数を用いてもよい。
【0039】
【数3】
FT(S,p)+rand(S,p)
このようなピッチ変換関数を用いると、ピッチ変換の際に図4(A)に示すような順次の入力ピッチにそれぞれ応答して順次の出力ピッチにランダムなピッチ変化が加わるようになり、合成音声に一層自然な変化を付与することができる。
【0040】
上記した実施形態において、データベース16には、時間に依存しないピッチ変換関数FT(S,p)を記憶する例を示したが、データベース16には、時間に依存するピッチ変換関数を記憶し、このピッチ変換関数を参照してピッチ変換を行なうようにしてもよい。一例としてデータベース16には、ピッチ差分ΔFT(S,p,t)を示すピッチ差分データをピッチ変換データとして歌唱者毎に記憶する。ピッチ差分ΔFT(S,p,t)は、歌唱者Sが音符ピッチpに対応する音声を発生したときに時間tの進行に従って音符ピッチpに対する音声ピッチの差分を表わすものである。
【0041】
データベース16にピッチ差分データをピッチ変換関数ΔFT(S,p,t)の形で歌唱者毎に記憶しておいた場合、ピッチ変換器14は、入力に係る歌唱者Sに対応するピッチ変換関数ΔFT(S,p,t)を参照して入力ピッチPiを出力ピッチPoに変換する。このようなピッチ変換を数式的に表現すると、次の数4に示す通りである。
【0042】
【数4】
Po=Pi+ΔFT(S,Pi,t)
この場合のピッチ変換は、入力ピッチPiに対して入力ピッチPi対応のピッチ差分ΔFT(S,Pi,t)を加算することにより行なわれる。
【0043】
データベース16には、上記のようにピッチ変換関数ΔFT(S,p,t)を記憶する代りに、ピッチ差分ΔFT(S,p,t)の経時的な変化波形を表わすピッチ差分データを記憶するようにしてもよい。図5は、このようなピッチ差分データを歌唱者S…Sn(nは2以上の整数)のうちの各歌唱者毎にp1〜p25の25ピッチ分記憶した例を示す。ピッチp1〜p25は、100セント(半音)刻みで1200〜3600[cent]となっている。データベース16にピッチ差分データを記憶すると、後述のピッチ波形データを記憶する場合に比べてデータ量が少なくて済む。
【0044】
図5の例において、各ピッチ毎のピッチ差分データとしては、実際の歌唱に基づくものを用いるとよい。一例を示すと、歌唱者Sにピッチp1に対応する音声を実際に発生させると共に、ピッチp1に対する発生音声のピッチの差分の経時的変化波形を求め、この変化波形を表わすピッチ差分データを用いる。このようにすると、歌唱者の特性を反映したピッチ変化を再現可能になると共に、より人間的な微細なピッチ変化を表現可能になる。
【0045】
ピッチ変換器14は、入力に係る歌唱者Sに対応するピッチ差分データのうち入力ピッチPiに対応するピッチ差分データを参照して前述の数4の式に従って入力ピッチPiを出力ピッチPoに変換する。図6は、図5のピッチ差分データを用いたピッチ変換の一例を示すもので、(A)は、図4(A)と同様に変換前のピッチ変化(入力ピッチの変化)を示し、(B)は、変換後のピッチ変化(出力ピッチの変化)を示す。図6によれば、人の発声可能な上限ピッチ又は下限ピッチの近傍では図4に関して前述したと同様に出力が入力ピッチよりそれぞれ低く又は高くなると共に、人の発声可能な上限ピッチ又は下限ピッチの近傍ではピッチの変動量(ゆらぎ量)が大きくなることがわかる。従って、人間的な発声ピッチやピッチ変動の再現が可能となる。
【0046】
ピッチは、離散値ではなく連続値であるので、図5の例においてすべてのピッチに対応可能とするには全ピッチ分のピッチ差分データを記憶することになり、記憶するデータ量が膨大なものになってしまう。また、ピッチ差分ΔFT(S,p,t)の変化が長く継続するピッチ差分データについても、記憶するデータ量が膨大なものになってしまう。このような記憶データ量の増大を回避するためには、次の(イ)又は(ロ)のような対策を適宜採用することができる。
【0047】
(イ)複数の離散的なピッチについてそれぞれピッチ差分ΔFT(S,p,t)を表わすピッチ差分データを記憶した場合において、入力ピッチとピッチが丁度一致するピッチ差分データを検出できないときは、入力ピッチとピッチが最も近いピッチ差分データを参照してピッチ変換を行なう。また、入力ピッチとピッチが近い2つのピッチ差分データから補間により新たなピッチ差分データを求めてピッチ変換を行なってもよい。
【0048】
(ロ)ピッチ差分データとしては、ピッチ差分の変化継続時間が所定値以内のものを記憶しておき、入力ピッチの時間長がピッチ差分ΔFT(S,p,t)の変化継続時間を越えたときは、ピッチ差分の変化波形において時間0等の適当な位置に戻って再びピッチ差分データを読出す。
【0049】
図5の例において、データベース16には、歌唱者毎に複数のピッチにそれぞれ対応してピッチ差分の変化波形を表わすピッチ差分データを記憶したが、歌唱者毎に複数のピッチにそれぞれ対応してピッチ変化波形を表わすピッチ波形データをピッチ変換データとして記憶するようにしてもよい。この場合、入力に係る歌唱者Sに対応する複数のピッチ波形データのうち入力ピッチPiに対応するピッチ波形データを読出して出力ピッチPoとすることによりピッチ変換を行なう。ピッチ波形データを実際の歌唱に基づいて作成すると、歌唱者の発声ピッチや経時的なピッチ変動を再現することができる。
【0050】
上記したようなピッチ変換処理は、パーソナルコンピュータ等の小型コンピュータにおいてソフトウェア処理として実行するようにしてもよい。すなわち、ROM又はRAM等の記憶手段にストアしたプログラムに従ってCPU(中央処理装置)にピッチ変換処理を実行させるようにしてもよい。
【0051】
図7は、この発明の他の実施形態に係る歌唱合成装置を示すもので、この装置は、例えば特許第2906970号に示されるSMS(Spectral Modeling Synthesis)技術を用いて歌唱合成を行なうものである。
【0052】
ステップS1では、歌唱音声信号を入力し、ステップS2では、入力された歌唱音声信号にSMS分析処理及び区間切出し処理を施す。
【0053】
SMS分析処理では、入力音声信号を一連の時間フレームに区分し、各フレーム毎にFFT(Fast Fourier Transform)等により1組の強度(マグニチュード)スペクトルデータを生成し、各フレーム毎に1組の強度スペクトルデータから複数のピークに対応する線スペクトルを抽出する。これらの線スペクトルの振幅値及び周波数を表わすデータを調和成分(Deterministic Component)のデータと称する。次に入力音声波形のスペクトルから調和成分のスペクトルを差引いて残差スペクトルを得る。この残差スペクトルを非調和成分(Stochastic Component)と称する。
【0054】
区間切出し処理では、SMS分析処理で得られた調和成分のデータ及び非調和成分のデータを音声素片に対応して区分する。音声素片とは、歌詞の構成要素であり、例えば[a],[i]のような単一の音素(又は音韻:Phoneme)又は例えば「a i」,「a p」のような音素連鎖(複数音素の連鎖)からなるものである。
【0055】
データベース20には、音声素片毎に調和成分のデータ及び非調和成分のデータが記憶される。また、データベース20には、データベース16に関して前述したと同様にピッチ変換データ(ピッチ差分データ又はピッチ波形データである場合も含む)が記憶されている。
【0056】
歌唱合成に際しては、ステップS3で歌詞データ及びメロディデータを入力する。そして、ステップS4では、歌詞データが表わす音素列に音素列/音声素片変換処理を施して音素列を音声素片に区分し、音声素片毎にそれに対応する調和成分のデータ及び非調和成分のデータを音声素片データとしてデータベース20から読出す。
【0057】
ステップS5では、データベース20から読出された音声素片データ(調和成分のデータ及び非調和成分のデータ)に音声素片接続処理を施して音声素片データ同士を発音順に接続する。
【0058】
ステップS6では、ピッチ変換処理を行なう。すなわち,ステップS3で入力されたメロディデータの示す音符ピッチを前述したと同様にしてデータベース20のピッチ変換データ(ピッチ差分データ又はピッチ波形データである場合も含む)に基づいて音声ピッチに変換し、該音声ピッチを示すピッチデータを生成する。
【0059】
ステップ7では、音声素片毎に調和成分のデータとステップS6で生成されたピッチデータの示す音声ピッチとに基づいて該音声ピッチに適合した新たな調和成分のデータを生成する。このとき、新たな調和成分のデータでは、ステップS5の処理を受けた調和成分のデータが表わすスペクトル包絡の形状をそのまま引継ぐようにスペクトル強度を調整すると、ステップS1で入力した音声信号の音色を再現することができる。
【0060】
ステップS8では、ステップS7で生成した調和成分のデータとステップS5の処理を受けた非調和成分のデータとを音声素片毎に加算する。そして、ステップS9では、ステップS8で加算処理を受けたデータを音声素片毎に逆FFT等により時間領域の歌唱音声信号に変換する。ステップ9の処理の結果として得られる歌唱音声信号は、ディジタル形式の信号であり、D/A変換器22によりアナログ形式の歌唱音声信号に変換される。
【0061】
一例として、「サイタ」(saita)という歌唱音声を合成するには、データベース20から音声素片「#s」、「s a」、「a」、「a i」、「i」、「i t」、「t a」、「a」、「a#」(#は無音を表わす)にそれぞれ対応する音声素片データを読出してステップS5で接続する。そして、ステップS7では、音声素片毎にステップS6での変換に係るピッチを有する調和成分のデータを生成し、ステップS8の加算処理、ステップS9の変換処理及び変換器22のD/A変換処理を経ると、「サイタ」の歌唱音声信号が得られる。
【0062】
上記したステップS1〜S9の処理は、パーソナルコンピュータ等の小型コンピュータにおいてソフトウエア処理として実行してもよく、あるいは電子回路等のハードウェアを用いて実行してもよい。
【0063】
【発明の効果】
以上のように、この発明によれば、記憶手段に記憶したピッチ変換データを用いて入力音符ピッチを歌唱合成用の音声ピッチに変換する構成にしたので、歌唱者の発声ピッチや経時的なピッチ変動を再現できる効果が得られる。また、人間の実際の発声における経時的に不安定なピッチ変動を忠実に再現したり、音域による発声ピッチの精度の違いを表現したり、歌唱者によるピッチ変化の違いを表現したりすることも可能となる。
【0064】
その上、入力ピッチに対してピッチ差分データの示す音声ピッチの変動分を加算してピッチ変換を行なう構成にしたので、記憶するデータ量が少なくて済む利点もある。
【図面の簡単な説明】
【図1】 この発明の一実施形態に係る歌唱合成装置を示すブロック図である。
【図2】 ピッチ変換装置の動作を説明するためのブロック図である。
【図3】 ピッチ変換関数の一例を示すグラフである。
【図4】 図3のピッチ変換関数を用いたピッチ変換の一例を示す図であり、(A)は、変換前のピッチ変化を示すグラフ、(B)は、変換後のピッチ変化を示すグラフである。
【図5】 データベースにおけるピッチ差分データの記憶状況を示すグラフである。
【図6】 図5のピッチ差分データを用いたピッチ変換の一例を示す図であり、(A)は、変換前のピッチ変化を示すグラフ、(B)は、変換後のピッチ変化を示すグラフである。
【図7】 この発明の他の実施形態に係る歌唱合成装置を示すブロック図である。
【符号の説明】
10:入力部、12:ピッチ変換装置、14:ピッチ変換器、16,20:データベース、18:歌唱合成器、22:D/A変換器、S1:歌唱音声信号入力処理、S2:SMS分析及び区間切出し処理、S3:歌詞データ及びメロディデータ入力処理、S4:音素列−音声素片変換処理、S5:音声素片接続処理、S6:ピッチ変換処理、S7:調和成分生成処理、S8:加算処理、S9:時間領域の歌唱音声信号に変換する処理。

Claims (7)

  1. ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段を備えた歌唱合成装置において使用されるピッチ変換装置であって、
    合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、
    複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、
    前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給する変換手段とを備えたピッチ変換装置。
  2. 前記入力手段は、歌唱者を示す歌唱者データを入力し、前記記憶手段は、前記ピッチ変換関数を歌唱者毎に記憶し、前記変換手段は、前記歌唱者データの示す歌唱者に対応するピッチ変換関数に基づいてピッチ変換を行なう請求項1記載のピッチ変換装置。
  3. 前記変換手段は、ピッチ変換の際に入力ピッチに依存する乱数的なピッチ変動を音声ピッチに付与する請求項1又は2記載のピッチ変換装置。
  4. 前記変換手段は、ピッチ変換の際に経時的なピッチ変動を音声ピッチに付与する請求項1又は2記載のピッチ変換装置。
  5. 複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段とを備えた歌唱合成装置において使用されるピッチ変換方法であって、
    合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力するステップと、
    このステップで入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給するステップとを含むピッチ変換方法。
  6. コンピュータと、ピッチデータの示すピッチを有する歌唱音声信号を合成する歌唱合成手段とを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、
    合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、
    複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくなるように変換するピッチ変換関数を記憶する記憶手段と、
    前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すデータを前記ピッチデータとして前記歌唱合成手段に供給する変換手段として機能させるプログラム。
  7. コンピュータを備えた歌唱合成装置において使用されるプログラムであって、前記コンピュータを、
    合成すべき順次の歌唱音声にそれぞれ対応して順次にピッチを入力する入力手段と、
    複数の入力ピッチをそれぞれ複数の音声ピッチに変換するためのピッチ変換関数であって、入力ピッチが所定の下限ピッチよりも低い場合には入力ピッチより高くなるように、入力ピッチが所定の上限ピッチよりも高い場合には入力ピッチより低くなるように、入力ピッチが所定の下限ピッチと所定の上限ピッチとの間である場合には入力ピッチと等しくな るように変換するピッチ変換関数を記憶する記憶手段と、
    前記入力手段から入力されるピッチ毎に該ピッチを前記ピッチ変換関数に基づいて音声ピッチに変換し、該音声ピッチを示すピッチデータを送出する変換手段と、
    この変換手段から送出されるピッチデータの示す音声ピッチを有する歌唱音声信号を合成する歌唱合成手段として機能させるプログラム。
JP2002152787A 2002-05-27 2002-05-27 ピッチ変換装置、ピッチ変換方法及びプログラム Expired - Fee Related JP3966074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002152787A JP3966074B2 (ja) 2002-05-27 2002-05-27 ピッチ変換装置、ピッチ変換方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002152787A JP3966074B2 (ja) 2002-05-27 2002-05-27 ピッチ変換装置、ピッチ変換方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2003345400A JP2003345400A (ja) 2003-12-03
JP3966074B2 true JP3966074B2 (ja) 2007-08-29

Family

ID=29770040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002152787A Expired - Fee Related JP3966074B2 (ja) 2002-05-27 2002-05-27 ピッチ変換装置、ピッチ変換方法及びプログラム

Country Status (1)

Country Link
JP (1) JP3966074B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4622356B2 (ja) * 2004-07-16 2011-02-02 ヤマハ株式会社 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム
US7825321B2 (en) 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP5605066B2 (ja) * 2010-08-06 2014-10-15 ヤマハ株式会社 音合成用データ生成装置およびプログラム
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
JP2013195699A (ja) * 2012-03-19 2013-09-30 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP2013164609A (ja) * 2013-04-15 2013-08-22 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN109829482B (zh) * 2019-01-04 2023-10-27 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
CN111081265B (zh) * 2019-12-26 2023-01-03 广州酷狗计算机科技有限公司 音高处理方法、装置、设备及存储介质
CN115410551B (zh) * 2021-05-25 2025-08-15 广州酷狗计算机科技有限公司 歌曲转换方法、装置和存储介质及电子设备

Also Published As

Publication number Publication date
JP2003345400A (ja) 2003-12-03

Similar Documents

Publication Publication Date Title
JP3985814B2 (ja) 歌唱合成装置
JP6747489B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP3815347B2 (ja) 歌唱合成方法と装置及び記録媒体
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
CN112331222A (zh) 一种转换歌曲音色的方法、系统、设备及存储介质
JP3941611B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP6024191B2 (ja) 音声合成装置および音声合成方法
JP4153220B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP3966074B2 (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP3711880B2 (ja) 音声分析及び合成装置、方法、プログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2020166299A (ja) 音声合成方法
JP2564641B2 (ja) 音声合成装置
EP1701336B1 (en) Sound processing apparatus and method, and program therefor
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
US20220084492A1 (en) Generative model establishment method, generative model establishment system, recording medium, and training data preparation method
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP5573529B2 (ja) 音声処理装置およびプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
EP1505570B1 (en) Singing voice synthesizing method
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP4207237B2 (ja) 音声合成装置およびその合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061205

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100608

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140608

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees