JP2013164609A - 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 - Google Patents
歌唱合成用データベース生成装置、およびピッチカーブ生成装置 Download PDFInfo
- Publication number
- JP2013164609A JP2013164609A JP2013084579A JP2013084579A JP2013164609A JP 2013164609 A JP2013164609 A JP 2013164609A JP 2013084579 A JP2013084579 A JP 2013084579A JP 2013084579 A JP2013084579 A JP 2013084579A JP 2013164609 A JP2013164609 A JP 2013164609A
- Authority
- JP
- Japan
- Prior art keywords
- melody
- singing
- database
- song
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002194 synthesizing effect Effects 0.000 title claims description 42
- 238000010801 machine learning Methods 0.000 claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 97
- 238000003786 synthesis reaction Methods 0.000 claims description 86
- 238000000605 extraction Methods 0.000 claims description 24
- 230000002123 temporal effect Effects 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 101
- 238000000034 method Methods 0.000 description 73
- 230000008569 process Effects 0.000 description 60
- 230000001419 dependent effect Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 30
- 230000007704 transition Effects 0.000 description 24
- 238000003860 storage Methods 0.000 description 17
- 238000012937 correction Methods 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】メロディの歌いまわしに表れる歌唱者固有の歌唱表現を的確にモデル化することを可能にする技術を提供する。
【解決手段】歌唱曲の歌唱音声を表す波形データを解析し、その歌唱音声にてメロディを表していると推測される基本周波数の時間変動を表すメロディ成分データを生成する。次いで、上記歌唱曲の楽譜を表すスコアデータとメロディ成分データとを用いた機械学習により、上記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを音符の組み合わせ毎に生成し、そのメロディ成分モデルを規定するパラメータとそのメロディ成分モデルにより基本周波数の時間変動が表される音符の組み合わせを示す音符識別子とを対応付けてピッチカーブ生成用データベースに格納する。
【選択図】図3
Description
本発明は、歌唱曲の楽譜を表すスコアデータにしたがって歌唱音声を合成する歌唱合成技術に関する。
歌唱合成技術や文章の読み上げ音声の合成技術などの音声合成技術が普及しつつある。この種の音声合成技術は、素片接続方式のものと、統計的手法である音声モデルを利用したものとに大別される。素片接続方式の音声合成技術では、多数の音素の各々の波形を表す素片データを予めデータベースに格納しておき、以下の要領で音声合成が行われる。すなわち、合成対象の音声を構成する音素の配列順に各音素に対応する素片データを上記データベースから読み出し、ピッチ変換等を施して接続することで合成音声の波形を示す波形データが生成されるのである。一般に実用化されている音声合成技術は、この素片接続方式によるものが多い。一方、音声モデルを利用した音声合成技術の一例としては、隠れマルコフモデル(Hidden Markov Model:以下、「HMM」)を利用したものが挙げられる。HMMは、複数の状態(音源)間の確率的な遷移で音声をモデル化するものである。より詳細に説明すると、HMMを構成する各状態は、各々固有の音響的特徴を表す特徴量(基本周波数や、スペクトル、またはこれらを要素とする特徴ベクトル)をその音響的特徴に応じた確率で出力するものであり、モデル化対象の音声の音響的特徴の時間変動が最も高い確率で再現されるように、各状態における特徴量の出力確率分布および状態間遷移確率をバウム=ウェルチアルゴリズム(Baum-Welch
algorithm)などを用いて定めることでモデル化が実現される。HMMを利用した音声合成の概要は以下の通りである。
algorithm)などを用いて定めることでモデル化が実現される。HMMを利用した音声合成の概要は以下の通りである。
HMMを利用した音声合成技術では、複数種の音素の各々について音響的特徴の時間変動を機械学習によりモデル化し、データベース化しておくことが前提となる。以下、音響的特徴を表す特徴量として基本周波数を用いる場合を例にとって、HMMによるモデル化およびそのデータベース化について説明する。まず、学習対象の複数種の音声の各々を音素毎に区切り、各音素における基本周波数の時間変動を表すピッチカーブを生成する。次いで、各音素のピッチカーブを最も高い確率で表現するHMMをバウム=ウェルチアルゴリズム等を利用した機械学習により音素毎に特定する。そして、HMMを規定するモデルパラメータ(HMMパラメータ)とそのHMMにより基本周波数の時間変動の特徴が表される1または複数の音素を示す識別子とを対応付けてデータベースに格納するのである。これは、互いに異なる音素であっても、同一のHMMにより基本周波数の時間変動の特徴が表現できる場合があるからであり、また、このようにすることで、データベースの小規模化が図れるのである。なお、HMMパラメータには、HMMを構成する各状態の出力する周波数の出現確率を規定する確率分布の特徴を示すデータ(例えば、出力される周波数の平均値と分散、周波数の変化率(一次微分や二次微分)の平均値と分散)および状態間遷移確率を表すデータが含まれる。
一方、音声の合成過程では、合成対象となる音声を構成する音素の各々に対応するHMMパラメータがデータベースから読み出され、それらHMMパラメータの示すHMMにしたがって最も高い確率で現れるであろう状態間遷移および各状態の出力周波数が最尤推定アルゴリズム(例えば、ビタビアルゴリズムなど)によって特定される。このようにして特定された周波数の時系列によって上記合成対象の音声の基本周波数の時系列(ピッチカーブ)が表されるのである。そして、上記ピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源(例えば正弦波発生器)の駆動制御を行い、その音信号に音素に依存したフィルタ処理(例えば、音素のスペクトルやケプストラムを再現するフィルタ処理)を施すことで音声合成が完了するのである。HMMを利用した音声合成技術は、読み上げ音声の合成(例えば、特許文献1)に利用されることが多かったが、近年では、歌唱合成に利用することも提案されている(例えば、非特許文献1)。これは、素片接続方式の歌唱合成で自然な歌唱音声の合成を行うためには歌唱者の声質(高く澄んだ声やハスキーな声など)毎に多数の素片データをデータベース化しておく必要があるが、HMMを利用した音声合成技術では特徴量をすべてデータとして保持するわけではなく、そのデータを生成する確率密度分布を表すデータを保持するため、素片接続方式に比較してデータベースの小規模化を図ることが可能で、携帯型ゲーム機や携帯電話などの小型の電子機器への組み込みにも適すると考えられるからである。
酒向慎司 才野慶二郎 南角吉彦 徳田恵一 北村正、「声質と歌唱スタイルを自動学習可能な歌唱合成システム」、情報処理学会研究報告.[音楽情報科学] 2008(12) pp.39-44 20080208
ところで、HMMを利用して読み上げ音声の合成を行う場合、アクセント型や品詞、前後の音素の配列などのコンテキストを加味し、音素をモデルの最小構成単位としてモデル化することが一般に行われる(以下、「コンテキスト依存のモデル化」と呼ぶ)。これは、同じ音素であっても、コンテキストが異なれば音響的特徴の時間変化の態様は異なったものとなり得るからである。したがって、HMMを利用して歌唱合成を行う場合も、コンテキスト依存のモデル化を行うことが好ましいと考えられる。しかし、歌唱音声においては、曲のメロディを表現するような基本周波数の時間変動は、歌詞を構成する音素のコンテキストとは独立に生じていると考えられ、また、このような基本周波数の時間変動(すなわち、メロディの歌いまわし)に歌唱者固有の歌唱表現が表れると考えられる。したがって、各歌唱者固有の歌唱表現を的確に反映し、より自然に聴こえる歌唱音声を合成するには、歌詞を構成する音素のコンテキストとは独立な基本周波数の時間変動を的確にモデル化することが必要と考えられる。しかし、従来技術の枠組みでは、音素をモデルの最小構成単位としてモデル化が行われていたため、複数の音素をまたいで行われるような歌唱表現による基本周波数の変化の適切なモデル化が行われていたとは言い難い。
本発明は上記課題に鑑みて為されたものであり、メロディの歌いまわしに表れる歌唱者固有の歌唱表現を的確にモデル化し、より自然に聴こえる歌唱音声の合成を可能にする技術を提供することを目的する。
上記課題を解決するため、本発明は、歌唱曲の歌唱音声の音波形を示す学習用波形データと前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、前記学習用波形データを解析して前記歌唱音声にてメロディを表していると推測される基本周波数の時間変動を特定し、当該基本周波数の時間変動を表すメロディ成分データを生成するメロディ成分抽出手段と、前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを前記歌唱曲のメロディを構成する音符の組み合わせ毎に生成し、音素と独立にそのメロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルにより基本周波数の時間変動が表される1組または複数組の音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに格納する機械学習手段とを有することを特徴とする歌唱合成用データベース生成装置、を提供する。なお、別の好ましい態様においては、コンピュータを上記メロディ成分抽出手段および機械学習手段として機能させるプログラムを提供するとしても良い。
このような歌唱合成用データベース生成装置およびプログラムによれば、歌唱曲の歌唱音声の音波形を示す学習用波形データから、メロディを表していると推測される基本周波数の時間変動を表すメロディ成分データが生成され、そのメロディ成分データとその歌唱曲の楽譜を示す学習用スコアデータ(すなわち、その歌唱曲のメロディを構成する音符と音符に合わせて歌唱する歌詞の時系列を示すデータ)とから、その歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが機械学習により生成されデータベース化される。なお、メロディ成分モデルとしては、前述したHMMを用いるようにすれば良く、メロディ成分パラメータとしては前述したHMMパラメータを用いるようにすれば良い。このようにして生成されるメロディ成分パラメータにより規定されるメロディ成分モデルには、そのメロディ成分パラメータに対応付けて歌唱合成用データベースに格納されている識別子の示す音符間の基本周波数の時間変動の特徴(歌唱者の歌いまわしの特徴)が反映されている。したがって、上記のようにして生成されるメロディ成分パラメータを歌唱者毎に分類してデータベース化し、そのデータベースの格納内容を用いてHMMを利用した歌唱合成を行えば、歌唱者固有の歌唱表現を的確に反映した歌唱合成を行うことが可能になる。
より好ましい態様においては、上記歌唱合成用データベース生成装置のメロディ成分抽出手段は、前記学習用波形データの示す歌唱音声の基本周波数の時間変動から前記歌唱曲の歌詞を構成する音素に依存した基本周波数の変動成分を除去して前記メロディ成分データを生成することを特徴とする。このような態様によれば、入力手段に入力される学習用波形データの示す歌唱音声に基本周波数の時間変動に大きな影響を与えると推測される音素(例えば、無声子音)が含まれている場合であっても、正確なメロディ成分データを生成することが可能になる。
また、本発明の別の態様においては、複数の歌唱者の各々の歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータとそのメロディ成分モデルにより基本周波数の時間変動が表される1組または複数組の音符の組み合わせを示す識別子とが歌唱者毎に分類されて格納されている歌唱合成用データベースを備え、歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、前記入力手段を介して入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ生成モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段とを有することを特徴とするピッチカーブ生成装置を提供するとしても良く、また、このピッチカーブにたがって音信号を出力するように音源の駆動制御を行い、この音源から出力される音信号に対して上記歌唱合成用スコアデータの示す歌詞を構成する音素に応じたフィルタ処理を施して出力する歌唱合成装置を提供するとしても勿論良い。なお、上記ピッチカーブ生成装置および歌唱合成装置の構成要素となる歌唱合成用データベースについては、上記各歌唱合成用データベース生成装置を用いて生成すれば良い。
以下、本発明の実施形態について図面を参照しつつ説明する。
(A:第1実施形態)
(A−1:構成)
図1は、本発明の第1実施形態である歌唱合成装置1Aの構成例を示すブロック図である。この歌唱合成装置1Aは、歌唱曲の歌唱音声の音波形を表す波形データ(以下、学習用波形データ)とその歌唱曲の楽譜を表すスコアデータ(すなわち、歌唱曲のメロディを構成する音符(本実施形態では、休符も音符とみなす)と音符に合わせて歌唱する歌詞の時系列を表すデータ)とから機械学習により歌唱合成用データベースを生成し、その歌唱合成用データベースの格納内容を利用して歌唱合成を行う装置である。図1に示すように、歌唱合成装置1Aは、制御部110、インタフェース群120、操作部130、表示部140、記憶部150、およびこれら構成要素間のデータ授受を仲介するバス160を有している。
(A:第1実施形態)
(A−1:構成)
図1は、本発明の第1実施形態である歌唱合成装置1Aの構成例を示すブロック図である。この歌唱合成装置1Aは、歌唱曲の歌唱音声の音波形を表す波形データ(以下、学習用波形データ)とその歌唱曲の楽譜を表すスコアデータ(すなわち、歌唱曲のメロディを構成する音符(本実施形態では、休符も音符とみなす)と音符に合わせて歌唱する歌詞の時系列を表すデータ)とから機械学習により歌唱合成用データベースを生成し、その歌唱合成用データベースの格納内容を利用して歌唱合成を行う装置である。図1に示すように、歌唱合成装置1Aは、制御部110、インタフェース群120、操作部130、表示部140、記憶部150、およびこれら構成要素間のデータ授受を仲介するバス160を有している。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部150に格納されている各種プログラムを実行することにより、歌唱合成装置1Aの制御中枢の役割を果たす。記憶部150の不揮発性記憶部154には、データベース生成プログラム154aと歌唱合成プログラム154bが格納されている。これらプログラムにしたがって制御部110が実行する処理の詳細については後に明らかにする。
インタフェース群120は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、CD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバなどである。本実施形態では、インタフェース群120のうちの適当なものを介して歌唱曲の歌唱音声を表す学習用波形データとその歌唱曲のスコアデータ(以下、学習用スコアデータ)とが歌唱合成装置1Aに入力される。つまり、インタフェース群120は、学習用波形データおよび学習用スコアデータを歌唱合成装置1Aに入力するための入力手段の役割を果たす。また、インタフェース群120は、歌唱音声の合成対象となる歌唱曲の楽譜を表すスコアデータ(以下、歌唱合成用スコアデータ)を歌唱合成装置1Aに入力するための入力手段の役割も果たす。
操作部130は、例えばマウスなどのポンティングデバイスやキーボードなどを含み、各種の入力操作を利用者に行わせるためのものである。操作部130は、利用者により為された操作(例えば、マウスを用いたドラッグアンドドロップやキーボードの何れかのキーの押下など)を示すデータを制御部110に与える。これにより操作部130に対して利用者が行った操作の内容が制御部110に伝達される。本実施形態では、操作部130に対する操作により各種プログラムの実行指示、学習用波形データの示す歌唱音声の歌唱者や歌唱音声の合成対象となる歌唱者を示す情報が歌唱合成装置1Aに入力される。表示部140は、例えば液晶ディスプレイとその駆動回路である。この表示部140には、歌唱合成装置1Aの利用を促すためのユーザインタフェース画面が表示される。
記憶部150は、図1に示すように、揮発性記憶部152と不揮発性記憶部154を含んでいる。揮発性記憶部152は、例えばRAM(Random Access Memory)であり、各種プログラムを実行する際のワークエリアの役割を担う。不揮発性記憶部154は、例えばハードディスクである。不揮発性記憶部154には、データベース生成プログラム154aおよび歌唱合成プログラム154bが予め格納されており、歌唱合成用データベース154cも不揮発性記憶部154に格納される。
歌唱合成用データベース154cは、図1に示すように、ピッチカーブ生成用データベースと音素波形データベースを含んでいる。図2(A)は、ピッチカーブ生成用データベースの格納内容の一例を示す図である。図2(A)に示すように、ピッチカーブ生成用データベースには、音符識別子に対応付けてメロディ成分パラメータが格納されている。ここでメロディ成分パラメータとは、歌唱音声(本実施形態では、学習用波形データの表す歌唱音声)における音符間の基本周波数の時間変動のうち、メロディを表すと推測される変動成分(以下、メロディ成分)を最も高い確率で表現するHMMであるメロディ成分モデルを規定するモデルパラメータである。このメロディ成分パラメータには、メロディ成分モデルを構成する各状態の出力周波数(或いは、当該周波数の音波形)の出力確率分布の特徴を示すデータ(出力周波数の平均値と分散、同出力周波数の変化率(一次微分や二次微分)の平均値と分散)および状態間遷移確率を表すデータが含まれる。一方、音符識別子は、その音符識別子に対応付けてピッチカーブ生成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ成分モデルでメロディ成分が表される音符の組み合わせを示す識別子である。この音符識別子は、例えば“C3、E3”のようにメロディ成分モデルによりメロディ成分が表現される2つの音符の組み合わせ(2つの音符の時系列)を示すものであっても良いし、“長3度上昇”のように音符間の音程差を示すものであっても良い。後者のように音程差で音符の組み合わせを示す音符識別子は、その音程差を有する複数組の音符の組み合わせを示すものである。また、音符識別子は、2つの音符の組み合わせ(或いは、各々2個の音符からなる複数組の音符の組み合わせ)を示すものには限定されず、(休符、C3、E3・・・)といった具合に3個以上の音符の組み合わせ(3つ以上の音符の時系列)を示すものであっても良い。
本実施形態では、図1のピッチカーブ生成用データベースは以下の要領で生成される。すなわち、学習用波形データおよび学習用スコアデータがインタフェース群120を介して歌唱合成装置1Aに入力され、その学習用波形データの示す歌唱音声の歌唱者を示す情報が操作部130に対する操作により入力されると、それら学習用波形データおよび学習用スコアデータを使用した機械学習を行うことにより歌唱者毎にピッチカーブ生成用データベースが生成される。ここで、ピッチカーブ生成用データベースを歌唱者毎に生成するのは、歌唱音声においては、メロディを表す基本周波数の時間変動の態様(例えば、C3から一旦下がった後、はずみをつけてE3までピッチが上昇するといった変動態様や、C3からE3までよどみなく歌いあげるようにピッチが上昇するといった変動態様)に歌唱者固有の歌唱表現が表れると考えられるからである。前述したように、HMMを利用した従来の音声合成技術では、コンテキスト依存性を加味して音素単位で音声をモデル化していたのであるが、本実施形態では歌詞を構成する音素とは独立に歌唱曲のメロディを構成する音符の組み合わせを単位として基本周波数の時間変動の態様をモデル化するため、各歌唱者固有の歌唱表現を的確にモデル化することができるのである。
音素波形データベースには、図2(B)に示すように、歌詞を構成する様々な音素の各々を一意に識別する音素識別子に対応付けてその音素のスペクトル分布の概形など表す波形特徴データが格納されている。この音素波形データベースの格納内容は、従来の音声合成技術におけるものと同様、音素に依存したフィルタ処理を行う際に利用される。
データベース生成プログラム154aは、学習用スコアデータの示す音符の時系列(すなわち、歌唱曲のメロディを構成する音符の時系列)から音符識別子を抽出するとともに、学習用スコアデータと学習用波形データとから各音符識別子に対応付けるメロディ成分パラメータを機械学習により生成し、両者を対応付けてピッチカーブ生成用データベースに格納するデータベース生成処理を制御部110に実行させるためのプログラムである。例えば、音符識別子として2つの音符の組み合わせを示すものを用いる場合には、学習用スコアデータの示す音符の時系列の先頭から順に(C3,E3)、(E3,C4)・・・といった具合に2個ずつの音符の組み合わせを示す音符識別子を抽出すれば良い。一方、歌唱合成プログラム154bは、ピッチカーブ生成用データベースを生成済みの歌唱者のうちの何れかを操作部130に対する操作により利用者に指定させ、歌唱合成用スコアデータと上記利用者により指定された歌唱者についてのピッチカーブ生成用データベースおよび音素波形データベースの格納内容とから歌唱合成を行う歌唱合成処理を制御部110に実行させるプログラムである。これら各プログラムにしたがって制御部110が実行する処理の詳細については、重複を避けるため、動作説明において明らかにする。
以上が歌唱合成装置1Aの構成である。
以上が歌唱合成装置1Aの構成である。
(A−2:動作)
次いで、データベース生成プログラム154aおよび歌唱合成プログラム154bの各々にしたがって制御部110が実行する処理について説明する。図3は、制御部110がデータベース生成プログラム154aにしたがって実行するデータベース生成処理、および歌唱合成プログラム154bにしたがって実行する歌唱合成処理の流れを示す図である。図3に示すように、データベース生成処理は、メロディ成分抽出処理SA110と機械学習処理SA120を含んでおり、歌唱合成処理は、ピッチカーブ生成処理SB110とフィルタ処理SB120を含んでいる。
次いで、データベース生成プログラム154aおよび歌唱合成プログラム154bの各々にしたがって制御部110が実行する処理について説明する。図3は、制御部110がデータベース生成プログラム154aにしたがって実行するデータベース生成処理、および歌唱合成プログラム154bにしたがって実行する歌唱合成処理の流れを示す図である。図3に示すように、データベース生成処理は、メロディ成分抽出処理SA110と機械学習処理SA120を含んでおり、歌唱合成処理は、ピッチカーブ生成処理SB110とフィルタ処理SB120を含んでいる。
まず、データベース生成処理について説明する。メロディ成分抽出処理SA110は、学習用波形データを解析し、その学習用波形データにより表される歌唱音声にてメロディを表していると推測される基本周波数の時間変動を表すデータ(以下、メロディ成分データ)を生成する処理である。ここでメロディ成分抽出処理SA110の具体的な処理態様としては以下の2つの態様が挙げられる。
第1の態様は、学習用波形データに対してフレーム単位でピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列(以下、ピッチデータ)をメロディ成分データとする態様である。なお、ピッチ抽出アルゴリズムとしては既存のものを用いれば良い。これに対して第2の態様は、上記ピッチデータから、さらに音素に依存したピッチ変動の成分(以下、音素依存成分)を除去してメロディ成分データとする態様である。ここで、ピッチデータから音素依存成分を除去する具体的な手法としては、以下のものが考えられる。すなわち、上記ピッチデータを学習用スコアデータの表す歌詞を構成する各音素に対応する区間毎に区切り、子音に対応する区間については、その前後の音符の表すピッチを図4にて一点鎖線で示すように線形補間し、その補間直線の示すピッチの配列をメロディ成分データとする手法である。
上記第1の態様の場合、簡便にメロディ成分データを得ることができるといった利点がある一方、学習用波形データにより表される歌唱音声に無声子音(ピッチ変動における音素依存性が特に高いと考えられる音素)が含まれている場合に正確なメロディ成分データを抽出できない、といった欠点がある。一方、第2の態様には、第1の態様に比較してメロディ成分データを得るための処理負荷が高くなるといった欠点があるものの、上記のような無声子音が歌唱音声に含まれている場合であっても正確なメロディ成分データを得ることができる、といった利点がある。なお、全ての子音について音素依存成分を除去するのではなく、ピッチ変動における音素依存性が特に高いと考えられる子音(例えば、無声子音)のみを対象として音素依存成分の除去を行っても良い。具体的には、ピッチ変動における音素依存性が特に高いと考えられる子音が学習用波形データの表す歌唱音声に含まれているか否かに応じて学習用波形データ毎に上記第1および第2の態様の何れでメロディ成分抽出を行うのかを切り換えても良く、また、歌詞を構成する音素単位で切り換えても良い。
機械学習処理SA120では、学習用スコアデータとメロディ成分抽出処理SA110にて生成したメロディ成分データとを使用し、バウム=ウェルチアルゴリズム等を利用した機械学習を行うことにより、学習用波形データの表す歌唱音声にてメロディを表していると推測される基本周波数の時間変動(すなわち、前述したメロディ成分)を表すメロディ成分モデル(本実施形態では、HMM)を規定するメロディ成分パラメータが音符の組み合わせ毎に生成される。このようにして生成されるメロディ成分パラメータは、そのメロディ成分モデルにより基本周波数の時間変動が表される音符の組み合わせを示す音符識別子と対応付けてピッチカーブ生成用データベースに格納される。この機械学習処理SA120においては、まず、メロディ成分データの表すピッチカーブをモデル化対象とする複数の区間に区分けする処理が行われる。ここで、上記ピッチカーブをどのように区分けするのかについては種々の態様が考えられるが、本実施形態では、1つの区間に複数の音符が含まれるように区分けすることに特徴がある。例えば、図5(A)に示すような態様で基本周波数が変化している区間について学習用スコアデータの示す音符の時系列が同図5(A)に示すように4分休符→4分音符(C3)→8分音符(E3)→8分休符である場合、この区間全体をモデル化対象とする態様が考えられる。また、上記区間を音符から他の音符への遷移区間に細分化し、各遷移区間をモデル化対象とする態様も考えられる。前述したように、1つの音符には少なくとも1つの音素が対応するから、上記のように1つの区間に複数の音符が含まれるようにモデル化対象の区間を区分けすることによって、複数の音素にまたがる歌唱表現を的確にモデル化することができると期待される。そして、機械学習処理SA120では、上記のようにして区分けされた各モデル化対象区間について、メロディ成分データの示すピッチの時間変化を最も高い確率で表現するようなHMMモデルがバウム=ウェルチアルゴリズム等にしたがって生成される。
図5(B)は、図5(A)に示す4分休符→4分音符(C3)→8分音符(E3)→8分休符からなる区間全体をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図5(B)に示す例では、上記モデル化対象区間全体が3つの状態(4分休符から4分音符への遷移区間を表現する状態1、4分音符から8分音符への遷移区間を表現する状態2、および8分音符から8分休符への遷移区間を表現する状態3)の状態遷移で表現されている。なお、図5(B)に示す例では、音符から他の音符への遷移区間が各々1つの状態で表現されているが、1つの遷移区間が複数の状態の状態遷移で表現されることもあり、また、連続するN(N≧2)個の遷移区間がM(M<N)個の状態の状態遷移で表現されることもあり得る。これに対して、図5(C)は、音符から他の音符への遷移区間の各々をモデル化対象とした場合の機械学習の学習結果の一例を示す図である。図5(C)に示す例では、4分音符から8分音符への遷移区間が複数の状態(図5(C)では3つの状態)の状態間遷移で表現されている。なお、図5(C)では、音符から他の音符への遷移区間が3つの状態の状態遷移で表現されているが、音符の組み合わせによっては、2つまたは4つ以上の状態の状態遷移で表現されることもあり得る。
図5(C)に示すように音符から他の音符への遷移区間をモデル化対象とする態様においては、(休符,C3)、(C3,E3)・・・といった具合に各メロディ成分パラメータに対応付ける音符識別子として2つの音符の組み合わせを示すものを生成すれば良く、図5(B)に示すように3つ以上の音符を含む区間をモデル化対象とする態様においては、各メロディ成分パラメータに対応付ける音符識別子として3つ以上の音符の組み合わせを示すものを生成すれば良い。なお、複数組の各々異なる音符の組み合わせについて同一のメロディ成分モデルで表現される場合には、音符の組み合わせ毎にメロディ成分パラメータをピッチカーブ合成用データベースに書き込むことに代えて、前述した“長3度上昇”のようにそれら複数組の音符の組み合わせを示す新たな音符識別子を生成し当該新たな音符識別子と複数組の音符の組み合せの各々のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータをピッチカーブ合成用データベースに書き込むようにすることは言うまでもなく、このような処理を行うことは既存の機械学習アルゴリズムでもサポートされている。
以上が本実施形態におけるデータベース生成処理の内容である。
以上が本実施形態におけるデータベース生成処理の内容である。
次いで、歌唱合成処理を構成するピッチカーブ生成処理SB110およびフィルタ処理SB120について説明する。ピッチカーブ生成処理SB110は、HMMを利用した従来技術におけるものと同様に、歌唱合成用スコアデータとピッチカーブ生成用データベースの格納内容とを利用して、その歌唱合成用スコアデータの示す音符の時系列に対応するピッチカーブを合成する処理である。より詳細に説明すると、このピッチカーブ生成処理SB110では、歌唱合成用スコアデータの示す音符の時系列を2つの音符または3つ以上の音符からなる音符の組に区切り、それら音符の組の各々に対応するメロディ成分パラメータをピッチカーブ生成用データベースから読み出す。例えば、前述した音符識別子として2つの音符の組み合わせを示すもののみが用いられている場合には、歌唱合成用スコアデータの示す音符の時系列を2つの音符の組に区切って該当するメロディ成分パラメータの読み出しを行うようにすれば良い。そして、それらメロディ成分パラメータの示す状態継続長確率を参照し、最も高い確率で現れると推測される状態遷移系列を特定するとともに、各状態における周波数の出力確率分布から、最も高い確率で出力されると推測される周波数をそれら状態の各々について特定する処理をビタビアルゴリズム等にしたがって実行する。このようにして特定された周波数の時系列により上記ピッチカーブが表されるのである。
以降、制御部110は、従来の音声合成と同様に、ピッチカーブ生成処理SB110にて生成されたピッチカーブにしたがって基本周波数が時間変化する音信号を出力するように音源(例えば、正弦波発生器:図1では図示略)の駆動制御を行い、その音源から出力される音信号に対して、歌唱合成用スコアデータの示す歌詞を構成する音素に依存したフィルタ処理SB120を施して出力する。より詳細に説明すると、このフィルタ処理SB120では、制御部110は、歌唱合成用スコアデータの示す歌詞を構成する音素を示す音素識別子に対応付けて音素波形データベースに格納されている波形特徴データを読み出し、この波形特徴データに応じたフィルタ特性のフィルタ処理を上記音信号に施して出力する。これにより歌唱合成が実現されるのである。
以上が本実施形態における歌唱合成処理の内容である。
以上が本実施形態における歌唱合成処理の内容である。
以上説明したように本実施形態によれば、歌唱曲のメロディを構成する音符間のメロディ成分を表現するメロディ成分モデルを規定するメロディ成分パラメータが音符の組み合わせ毎に生成され、歌唱者毎にデータベース化される。そして、歌唱合成用スコアデータにしたがって歌唱合成を行う際には、利用者により指定された歌唱者に対応するピッチカーブ生成用データベースの格納内容に基づいて歌唱合成用スコアデータの示す歌唱曲のメロディを表すピッチカーブが生成される。ピッチカーブ生成用データベースに格納されているメロディ成分パラメータの規定するメロディ成分モデルは、歌唱者固有のメロディ成分を表現するものであるから、このメロディ成分モデルにしたがってピッチカーブの合成を行うことにより、歌唱者固有の歌唱表現を的確に反映したメロディを合成することが可能になる。つまり、本実施形態によれば、従来の音素単位で歌唱音声をモデル化する歌唱合成技術や素片接続方式の歌唱合成技術に比較して、歌唱者固有のメロディの歌いまわしの歌唱表現を的確に反映した歌唱合成を行うことが可能になる。
(B:第2実施形態)
次いで、本発明の第2実施形態について説明する。
(B−1:構成)
図6は、本発明の第2の実施形態である歌唱合成装置1Bの構成例を示す図である。図6では、図1と同一の構成要素には同一の符号が付されている。図6と図1を対比すれば明らかように、歌唱合成装置1Bは、歌唱合成装置1Aと同一のハードウェア構成(制御部110、インタフェース群120、操作部130、表示部140、記憶部150およびバス160からなるハードウェア構成)を有するものの、ソフトウェア構成(すなわち、記憶部150に格納されているプログラムおよびデータ)が歌唱合成装置1Aと異なっている。より詳細に説明すると、歌唱合成装置1Bのソフトウェア構成は、データベース生成プログラム154aに代えてデータベース生成プログラム154dを、歌唱合成プログラム154bに代えて歌唱合成プログラム154eを、歌唱合成用データベース154cに代えて歌唱合成用データベース154fを不揮発性記憶部154に格納した点が歌唱合成装置1Aのソフトウェア構成と異なる。
以下、第1実施形態との相違点を中心に説明する。
次いで、本発明の第2実施形態について説明する。
(B−1:構成)
図6は、本発明の第2の実施形態である歌唱合成装置1Bの構成例を示す図である。図6では、図1と同一の構成要素には同一の符号が付されている。図6と図1を対比すれば明らかように、歌唱合成装置1Bは、歌唱合成装置1Aと同一のハードウェア構成(制御部110、インタフェース群120、操作部130、表示部140、記憶部150およびバス160からなるハードウェア構成)を有するものの、ソフトウェア構成(すなわち、記憶部150に格納されているプログラムおよびデータ)が歌唱合成装置1Aと異なっている。より詳細に説明すると、歌唱合成装置1Bのソフトウェア構成は、データベース生成プログラム154aに代えてデータベース生成プログラム154dを、歌唱合成プログラム154bに代えて歌唱合成プログラム154eを、歌唱合成用データベース154cに代えて歌唱合成用データベース154fを不揮発性記憶部154に格納した点が歌唱合成装置1Aのソフトウェア構成と異なる。
以下、第1実施形態との相違点を中心に説明する。
歌唱合成用データベース154fは、ピッチカーブ生成用データベースと音素波形データベースの他に音素依存成分補正用データベースを含む点が歌唱合成用データベース154cと異なる。音素依存成分補正用データベースには、歌唱音声における基本周波数の時間変動に影響を与え得る音素を示す音素識別子に対応付けてその音素に起因した基本周波数の時間変動の特徴を表現するHMMである音素依存成分モデルを規定するHMMパラメータ(以下、音素依存成分パラメータ)が格納される。詳細については後述するが、この音素依存成分補正用データベースは、学習用波形データと学習用スコアデータとを用いてピッチカーブ生成用データベースを生成するデータベース生成処理の実行過程で歌唱者毎に生成される。
(B−2:動作)
次いで、データベース生成プログラム154dおよび歌唱合成プログラム154eの各々にしたがって歌唱合成装置1Bの制御部110が実行する処理について説明する。
次いで、データベース生成プログラム154dおよび歌唱合成プログラム154eの各々にしたがって歌唱合成装置1Bの制御部110が実行する処理について説明する。
図7は、制御部110がデータベース生成プログラム154dにしたがって実行するデータベース生成処理、および歌唱合成プログラム154eにしたがって実行する歌唱合成処理の流れを示す図である。図7では、図3におけるものと同一の処理については同一の符号が付されている。以下、図3に示した各処理との相違点を中心に説明する。
まず、データベース生成処理について説明する。
図7に示すように、データベース生成プログラム154dにしたがって制御部110が実行するデータベース生成処理は、ピッチ抽出処理SD110、分離処理SD120、機械学習処理SA120および機械学習処理SD130を含んでいる。ピッチ抽出処理SD110および分離処理SD120は、図3のメロディ成分抽出処理SA110に相当し、前述した第2の態様でメロディ成分データを生成する処理である。より詳細に説明すると、ピッチ抽出処理SD110は、インタフェース群120を介して入力される学習用波形データに対してフレーム単位で既存のピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列をピッチデータとして生成する処理である。一方、分離処理SD120は、ピッチ抽出処理SD110にて生成したピッチデータから前掲図4に示した要領で音素依存成分を除去してメロディに依存したピッチ変動を表すメロディ成分データを生成する。また、この分離処理SD120では、音素に起因したピッチ変動を表す音素依存成分データ(図4における一点鎖線と実線との差分を示すデータ)も生成される。
図7に示すように、データベース生成プログラム154dにしたがって制御部110が実行するデータベース生成処理は、ピッチ抽出処理SD110、分離処理SD120、機械学習処理SA120および機械学習処理SD130を含んでいる。ピッチ抽出処理SD110および分離処理SD120は、図3のメロディ成分抽出処理SA110に相当し、前述した第2の態様でメロディ成分データを生成する処理である。より詳細に説明すると、ピッチ抽出処理SD110は、インタフェース群120を介して入力される学習用波形データに対してフレーム単位で既存のピッチ抽出アルゴリズムにしたがったピッチ抽出を施し、各フレームから抽出されるピッチを示すデータの配列をピッチデータとして生成する処理である。一方、分離処理SD120は、ピッチ抽出処理SD110にて生成したピッチデータから前掲図4に示した要領で音素依存成分を除去してメロディに依存したピッチ変動を表すメロディ成分データを生成する。また、この分離処理SD120では、音素に起因したピッチ変動を表す音素依存成分データ(図4における一点鎖線と実線との差分を示すデータ)も生成される。
図7に示すように、メロディ成分データは、機械学習処理SA120にてピッチカーブ生成用データベースの生成に利用され、音素依存成分データは機械学習処理SD130にて音素依存成分補正用データベースの生成に利用される。より詳細に説明すると、機械学習処理SD130では、学習用スコアデータの示す歌詞を構成する音素の区間毎にその音素を一意に識別する音素識別子が生成され、その区間についての上記音素依存成分データの表すピッチ変動を最も高い確率で表現する音素依存成分モデルを規定する音素依存成分パラメータが機械学習により生成され、その音素識別子に対応付けてその音素依存成分パラメータを音素依存成分補正用データベースに書き込む処理が行われるのである。
以上が本実施形態におけるデータベース生成処理である。
以上が本実施形態におけるデータベース生成処理である。
次いで、歌唱合成処理について説明する。
図7に示すように、歌唱合成プログラム154eにしたがって制御部110が実行する歌唱合成処理は、ピッチカーブ生成処理SB110、音素依存成分補正処理SE110およびフィルタ処理SB120を含んでいる。図7に示すように、本実施形態の歌唱合成処理は、ピッチカーブ生成処理SB110により生成したピッチカーブに対して音素依存成分補正処理SE110を施し、この補正後のピッチカーブにしたがって音信号を音源に出力させ、この音信号にフィルタ処理SB120を施す点が図3に示す歌唱合成処理と異なる。音素依存成分補正処理SE110では、歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、以下の要領でピッチカーブを補正する処理が行われる。すなわち、歌唱音声の合成対象として指定された歌唱者についての音素依存成分補正用データベースから、歌唱合成用スコアデータの示す歌詞を構成する音素に対応する音素依存成分パラメータを読み出し、その音素依存成分パラメータにより規定される音素依存成分モデルの表すピッチ変動を付与することで上記ピッチカーブの補正が行われるのである。このようなピッチカーブの補正を行うことによって、合成対象として指定された歌唱者のメロディの歌いまわしについての歌唱表現に加え、その歌唱者の音素の発音態様に起因したピッチ変動を反映したピッチカーブが生成されるのである。
図7に示すように、歌唱合成プログラム154eにしたがって制御部110が実行する歌唱合成処理は、ピッチカーブ生成処理SB110、音素依存成分補正処理SE110およびフィルタ処理SB120を含んでいる。図7に示すように、本実施形態の歌唱合成処理は、ピッチカーブ生成処理SB110により生成したピッチカーブに対して音素依存成分補正処理SE110を施し、この補正後のピッチカーブにしたがって音信号を音源に出力させ、この音信号にフィルタ処理SB120を施す点が図3に示す歌唱合成処理と異なる。音素依存成分補正処理SE110では、歌唱合成用スコアデータの示す歌詞を構成する音素の区間毎に、以下の要領でピッチカーブを補正する処理が行われる。すなわち、歌唱音声の合成対象として指定された歌唱者についての音素依存成分補正用データベースから、歌唱合成用スコアデータの示す歌詞を構成する音素に対応する音素依存成分パラメータを読み出し、その音素依存成分パラメータにより規定される音素依存成分モデルの表すピッチ変動を付与することで上記ピッチカーブの補正が行われるのである。このようなピッチカーブの補正を行うことによって、合成対象として指定された歌唱者のメロディの歌いまわしについての歌唱表現に加え、その歌唱者の音素の発音態様に起因したピッチ変動を反映したピッチカーブが生成されるのである。
以上説明したように本実施形態によれば、歌唱者固有のメロディの歌いまわしの歌唱表現を反映した歌唱合成を行うことが可能になるとともに、歌唱者固有の音素の発音態様に起因したピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。なお、本実施形態では、ピッチカーブの補正を行う音素を特に限定しなかったが、歌唱音声の基本周波数の時間変動に与える影響が特に大きいと推測される音素(例えば、無声子音)の区間についてのみピッチカーブを補正するようにしても勿論良い。具体的には、歌唱音声における基本周波数の時間変動に与える影響が特に大きいと推測される音素を予め特定しておき、それら音素についてのみ機械学習処理SD130を行って音素依存成分補正用データベースを生成するとともに、それら音素についてのみ音素依存成分補正処理SE110を行うようにすれば良い。また、本実施形態では、音素依存成分補正用データベースを歌唱者毎に生成したが、各歌唱者に共通の一つの音素依存成分補正用データベースを生成するようにしても良い。このように各歌唱者に共通の音素依存成分補正用データベースを生成する態様においては、多数の歌唱者に共通して表れる音素の発音態様に起因したピッチ変動の特徴が音素毎にモデル化されてデータベース化されることとなり、歌唱者固有のメロディの歌いまわしの歌唱表現を反映しつつ、多数の歌唱者に共通して表れる音素固有のピッチ変動の特徴を反映した歌唱合成を行うことが可能になる。
(C:変形)
以上、本発明の第1および第2実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した各実施形態では、本発明の特徴を顕著に示す各処理をソフトウェアで実現した。しかし、メロディ成分抽出処理SA110を実行するメロディ成分抽出手段、および機械学習処理SA120を実行する機械学習手段、ピッチカーブ生成処理SB110を実行するピッチカーブ生成手段、およびフィルタ処理SB120を実行するフィルタ処理手段の各々を電子回路で構成し、学習用波形データや各種スコアデータを入力するための入力手段と組み合わせて歌唱合成装置1Aを構成しても良い。同様に、ピッチ抽出処理SD110を実行するピッチ抽出手段、分離処理SD120を実行する分離手段、機械学習処理SA120および機械学習処理SD130を実行する機械学習手段、音素依存成分補正処理SE110を実行する音素依存成分補正手段の各々を電子回路で構成し、上記入力手段、ピッチカーブ生成手段およびフィルタ処理手段と組み合わせて歌唱合成装置1Bを構成しても勿論良い。
以上、本発明の第1および第2実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した各実施形態では、本発明の特徴を顕著に示す各処理をソフトウェアで実現した。しかし、メロディ成分抽出処理SA110を実行するメロディ成分抽出手段、および機械学習処理SA120を実行する機械学習手段、ピッチカーブ生成処理SB110を実行するピッチカーブ生成手段、およびフィルタ処理SB120を実行するフィルタ処理手段の各々を電子回路で構成し、学習用波形データや各種スコアデータを入力するための入力手段と組み合わせて歌唱合成装置1Aを構成しても良い。同様に、ピッチ抽出処理SD110を実行するピッチ抽出手段、分離処理SD120を実行する分離手段、機械学習処理SA120および機械学習処理SD130を実行する機械学習手段、音素依存成分補正処理SE110を実行する音素依存成分補正手段の各々を電子回路で構成し、上記入力手段、ピッチカーブ生成手段およびフィルタ処理手段と組み合わせて歌唱合成装置1Bを構成しても勿論良い。
(2)図3(または図7)に示すデータベース生成処理を実行する歌唱合成用データベース生成装置と、同図3(または図7)に示す歌唱合成処理を実行する歌唱合成装置とを各々別個の装置とし、その各々に本発明を適用しても勿論良い。また、上記各実施形態にて説明したピッチカーブ生成用データベースの格納内容と歌唱合成用スコアデータとから、合成対象の歌唱音声のピッチカーブを合成するピッチカーブ生成装置に本発明を適用しても勿論良い。また、上記ピッチカーブ生成装置を含み、そのピッチカーブ生成装置により生成されるピッチカーブにしたがって、歌詞を構成する音素の素片データにピッチ変換を施しつつ接続することで歌唱合成を行う歌唱合成装置を構成することも考えられる。
(3)上述した各実施形態では、本発明の特徴を顕著に示すデータベース生成プログラム154a(或いはデータベース生成プログラム154d)が歌唱合成装置1A(或いは歌唱合成装置1B)の不揮発性記憶部154に予め格納されていた。しかし、これらデータベース生成プログラムをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。歌唱合成プログラム154b(或いは歌唱合成プログラム154e)についても同様にコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、電気通信回線系由のダウンロードにより配布しても良い。
1A,1B…歌唱合成装置、110…制御部、120…インタフェース群、130…操作部、140…表示部、150…記憶部、152…揮発性記憶部、154…不揮発性記憶部、154a,154d…データベース生成プログラム、154b,154e…歌唱合成プログラム、154c,154f…歌唱合成用データベース、160…バス。
Claims (4)
- 歌唱曲の歌唱音声の音波形を示す学習用波形データと前記歌唱曲の楽譜を表す学習用スコアデータとが入力される入力手段と、
前記学習用波形データを解析して前記歌唱音声にてメロディを表していると推測される基本周波数の時間変動を特定し、当該基本周波数の時間変動を表すメロディ成分データを生成するメロディ成分抽出手段と、
前記学習用スコアデータと前記メロディ成分データとを用いた機械学習により、前記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを規定するメロディ成分パラメータを前記歌唱曲のメロディを構成する音符の組み合わせ毎に生成し、音素と独立にそのメロディ成分パラメータとそのメロディ成分パラメータにより規定されるメロディ成分モデルにより基本周波数の時間変動が表される1組または複数組の音符の組み合わせを示す識別子とを対応付けて歌唱合成用データベースに格納する機械学習手段と、
を有することを特徴とする歌唱合成用データベース生成装置。 - 前記メロディ成分抽出手段は、前記学習用波形データの示す歌唱音声の基本周波数の時間変動から前記歌唱曲の歌詞を構成する音素に依存した変動成分を除去して前記メロディ成分データを生成することを特徴とする請求項1に記載の歌唱合成用データベース生成装置。
- 前記学習用波形データとして複数の歌唱者の各々の歌唱音声の音波形を表す複数の学習用波形データが前記入力手段に入力された場合には、前記機械学習手段は、前記複数の学習用波形データの各々に基づいて生成されるメロディ成分パラメータを歌唱者毎に分類して前記歌唱合成用データベースに書き込むことを特徴とする請求項1または2に記載の歌唱合成用データベース生成装置。
- 請求項3に記載の歌唱合成用データベース生成装置により生成された歌唱合成用データベースと、
歌唱曲の楽譜を表す歌唱合成用スコアデータが入力されるとともに、前記歌唱合成用データベースにメロディ成分パラメータが格納されている歌唱者のうちの何れかを指定する情報が入力される入力手段と、
前記入力手段を介して入力された情報の示す歌唱者のものとして前記歌唱合成用データベースに格納されているメロディ成分パラメータにより規定されるメロディ生成モデルと前記歌唱合成用スコアデータの表す音符の時系列とから、当該歌唱合成用スコアデータの表す歌唱曲のメロディのピッチカーブを合成するピッチカーブ生成手段と、
を有することを特徴とするピッチカーブ生成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013084579A JP2013164609A (ja) | 2013-04-15 | 2013-04-15 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013084579A JP2013164609A (ja) | 2013-04-15 | 2013-04-15 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009157527A Division JP5293460B2 (ja) | 2009-07-02 | 2009-07-02 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2013164609A true JP2013164609A (ja) | 2013-08-22 |
Family
ID=49175951
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013084579A Pending JP2013164609A (ja) | 2013-04-15 | 2013-04-15 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2013164609A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011028230A (ja) * | 2009-07-02 | 2011-02-10 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
| CN109829482A (zh) * | 2019-01-04 | 2019-05-31 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
| JP2019090936A (ja) * | 2017-11-15 | 2019-06-13 | 株式会社テクノスピーチ | 歌唱支援装置および、カラオケ装置 |
| WO2021060493A1 (ja) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002073064A (ja) * | 2000-08-28 | 2002-03-12 | Yamaha Corp | 音声処理装置、音声処理方法および情報記録媒体 |
| JP2003108179A (ja) * | 2001-10-01 | 2003-04-11 | Nippon Telegr & Teleph Corp <Ntt> | 歌唱音声合成における韻律データ収集方法、韻律データ収集プログラム、そのプログラムを記録した記録媒体 |
| JP2003323188A (ja) * | 2002-02-28 | 2003-11-14 | Yamaha Corp | 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム |
| JP2003345400A (ja) * | 2002-05-27 | 2003-12-03 | Yamaha Corp | ピッチ変換装置、ピッチ変換方法及びプログラム |
-
2013
- 2013-04-15 JP JP2013084579A patent/JP2013164609A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002073064A (ja) * | 2000-08-28 | 2002-03-12 | Yamaha Corp | 音声処理装置、音声処理方法および情報記録媒体 |
| JP2003108179A (ja) * | 2001-10-01 | 2003-04-11 | Nippon Telegr & Teleph Corp <Ntt> | 歌唱音声合成における韻律データ収集方法、韻律データ収集プログラム、そのプログラムを記録した記録媒体 |
| JP2003323188A (ja) * | 2002-02-28 | 2003-11-14 | Yamaha Corp | 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム |
| JP2003345400A (ja) * | 2002-05-27 | 2003-12-03 | Yamaha Corp | ピッチ変換装置、ピッチ変換方法及びプログラム |
Non-Patent Citations (6)
| Title |
|---|
| CSNG200500315006; 酒向慎司他: '"隠れマルコフモデルに基づいた歌声合成システム"' 情報処理学会論文誌 Vol.45,No.3, 200403, pp.719-727 * |
| CSNG200800761013; 大石康智他: '"畳み込みHMMに基づく歌声の基本周波数制御モデルの提案とそのパラメータ学習方法"' 情報処理学会研究報告 Vol.2008,No.78, 200808, pp.89-96 * |
| CSNG200900448005; 山田知彦他: '"HMMに基づく歌声合成のためのビブラートモデル化"' 情報処理学会研究報告 Vol.2009-MUS-80,No.5, 200905, pp.1-6 * |
| JPN6012017263; 大石康智他: '"畳み込みHMMに基づく歌声の基本周波数制御モデルの提案とそのパラメータ学習方法"' 情報処理学会研究報告 Vol.2008,No.78, 200808, pp.89-96 * |
| JPN6013005764; 山田知彦他: '"HMMに基づく歌声合成のためのビブラートモデル化"' 情報処理学会研究報告 Vol.2009-MUS-80,No.5, 200905, pp.1-6 * |
| JPN6013005765; 酒向慎司他: '"隠れマルコフモデルに基づいた歌声合成システム"' 情報処理学会論文誌 Vol.45,No.3, 200403, pp.719-727 * |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011028230A (ja) * | 2009-07-02 | 2011-02-10 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
| JP2019090936A (ja) * | 2017-11-15 | 2019-06-13 | 株式会社テクノスピーチ | 歌唱支援装置および、カラオケ装置 |
| CN109829482A (zh) * | 2019-01-04 | 2019-05-31 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
| CN109829482B (zh) * | 2019-01-04 | 2023-10-27 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
| WO2021060493A1 (ja) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置 |
| JP2021051251A (ja) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム |
| CN114402382A (zh) * | 2019-09-26 | 2022-04-26 | 雅马哈株式会社 | 信息处理方法、推定模型构建方法、信息处理装置及推定模型构建装置 |
| US20220208175A1 (en) * | 2019-09-26 | 2022-06-30 | Yamaha Corporation | Information processing method, estimation model construction method, information processing device, and estimation model constructing device |
| JP7331588B2 (ja) | 2019-09-26 | 2023-08-23 | ヤマハ株式会社 | 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム |
| US11875777B2 (en) * | 2019-09-26 | 2024-01-16 | Yamaha Corporation | Information processing method, estimation model construction method, information processing device, and estimation model constructing device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5293460B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
| JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
| CN101308652B (zh) | 一种个性化歌唱语音的合成方法 | |
| US9818396B2 (en) | Method and device for editing singing voice synthesis data, and method for analyzing singing | |
| JP6004358B1 (ja) | 音声合成装置および音声合成方法 | |
| JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
| CN110599998B (zh) | 一种语音数据生成方法及装置 | |
| US20140278433A1 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon | |
| JP2011048335A (ja) | 歌声合成システム、歌声合成方法及び歌声合成装置 | |
| JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
| JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
| JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
| JP2017097332A (ja) | 音声合成装置および音声合成方法 | |
| CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
| JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
| JP5699496B2 (ja) | 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム | |
| JP5387410B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| JPH06318094A (ja) | 音声規則合成装置 | |
| JP2022065566A (ja) | 音声合成方法およびプログラム | |
| CN116013246B (zh) | 说唱音乐自动生成方法及系统 | |
| JP6299141B2 (ja) | 楽音情報生成装置および楽音情報生成方法 | |
| JP2019168620A (ja) | 合成音生成装置、方法、及びプログラム | |
| Dhar et al. | LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning | |
| JP2016151709A (ja) | 音声合成装置及び音声合成プログラム | |
| WO2022244818A1 (ja) | 機械学習モデルを用いた音生成方法および音生成装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131125 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140729 |