JP2017107228A - 歌声合成装置および歌声合成方法 - Google Patents

歌声合成装置および歌声合成方法 Download PDF

Info

Publication number
JP2017107228A
JP2017107228A JP2017028630A JP2017028630A JP2017107228A JP 2017107228 A JP2017107228 A JP 2017107228A JP 2017028630 A JP2017028630 A JP 2017028630A JP 2017028630 A JP2017028630 A JP 2017028630A JP 2017107228 A JP2017107228 A JP 2017107228A
Authority
JP
Japan
Prior art keywords
singing
acoustic
singing voice
styles
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017028630A
Other languages
English (en)
Other versions
JP2017107228A5 (ja
Inventor
恵一 徳田
Keiichi Tokuda
恵一 徳田
圭一郎 大浦
Keiichiro Oura
圭一郎 大浦
和寛 中村
Kazuhiro Nakamura
和寛 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Techno Speech Inc
Original Assignee
Techno Speech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Techno Speech Inc filed Critical Techno Speech Inc
Priority to JP2017028630A priority Critical patent/JP2017107228A/ja
Publication of JP2017107228A publication Critical patent/JP2017107228A/ja
Publication of JP2017107228A5 publication Critical patent/JP2017107228A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】複数の歌唱スタイルを自由に組み合わせて歌声の合成を行なう。【解決手段】複数の歌唱スタイルの歌声の少なくとも1つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する。複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる歌唱表現の組合せの程度を調整する。各歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、ベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含むようにして、少なくとも2つの音響パラメータの集まりを選択し、歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して決定された合成用音響パラメータを用いて歌声を合成する。【選択図】図1

Description

本発明は、歌声合成の技術に関する。
従来から、自然な音声をコンピュータによって合成しようとする装置が種々提案されている。こうした音声合成は、当初、ルールベースで音声を合成するフォルマント音声合成から始まり、やがて特定話者の音声を波形ベースで収集したデータベースを構築し、この中から必要な音声素片を取りだして合成する波形接続型音声合成へと発展した。後者を、コーパスベースの音声合成とも呼ぶ。
こうした技術により、ある程度滑らかに繋がった音声の合成が可能になったものの、自然な発話とまでは言えず、また喜怒哀楽の表現や歌声として自然な音声合成を十分に行なうことは、こうした手法では達成できなかった。そこで、近年になって、音素の素片を接続するといった発想から離れ、音声の生成過程を模擬することにより、より自然な音声合成を実現しようとする試みが提案され、一部では実用化が始まっている。
この手法は、以下のようにして音声を合成する。まず、音声データベースから、基本周波数とスペクトルパラメータを抽出すると共に、音声に対応するテキストを解析して、音声の音響的特徴とテキストとの対応関係を学習した統計的なモデル(音響モデル)を構築する。その上で、合成するテキストが与えられると、音響モデルから音響パラメータ系列を生成し、音声の生成過程を模擬することで、音声を合成する。統計的な音響モデルとしては隠れマルコフモデルを用いることができ、こうした隠れマルコフモデルを用いた音声合成技術は、下記特許文献1などに詳しい。統計的な音響モデルとしては、隠れマルコフモデルの他に、DNN(Deep Neural Network)なども知られている。
また、合成される音声に様々な変化を与えることも種々試みられている。例えば下記特許文献2では、各種パラメータを指定することにより、異なる種類の音声を生成したり、異なる複数の音声を重複させて合成することなどが、提案されている。また、特許文献3では、複数の音色の混合比率をテキストの途中で変更する技術が提案されており、時間軸上で、1つの音色から他の音色に次第に遷移しながら音声合成する手法が示されている。
特開2013−190792号公報 特開2006−337468号公報 特開2015−049253号公報
しかしながら、これらの従来技術では、いずれも、音声の合成は、パラメータを指定したり、複数の音色を混合する比率を変更すると言った手法に終始しており、合成する音声の自然な雰囲気を損なうことなく、種々の音声を合成することは困難であった。特に、音声合成を用いて歌声を作り出そうとした場合、歌い手が持っている様々な歌唱スタイルに見られる独自の表現を、自由に調整することは困難であった。歌唱スタイルとは、一つの歌唱に含まれるビブラートやこぶしなどの歌唱表現のある組合せを指し、歌い手毎に特徴的な歌唱スタイルを持っているものとして認識されているが、同じ歌い手でも、例えば、洋楽と民謡など歌の種類により、異なる歌唱スタイルで歌う場合もあり得る。もとより、同じ歌を同じ歌い手が異なる歌唱スタイルで歌うということもあり得る。
こうした異なる歌唱スタイルA、B、C等の歌声のデータを基にして音声合成を行なう場合、歌唱スタイルAの特徴と歌唱スタイルBの特徴とを自然に融合したり、その程度を変更したりすることは困難であった。更には、こうした調整を、音声合成の利用者が自然に行なうインタフェースについても知られていなかった。
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。
(1)本発明の第1の実施形態として、歌声合成装置が提供される。この歌声合成装置は、複数の歌唱スタイルの歌声の少なくとも1つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する記憶部と;前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と;歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、前記選択された少なくとも2つの前記歌唱表現に影響する音響パラメータを、前記インタフェース部により調整された組合せの程度で補間して、合成用音響パラメータを決定するパラメータ決定部と;前記合成用音響パラメータを用いて歌声を合成する合成部とを備えて良い。
この歌声合成装置は、統計的な手法を用いて音響モデルを学習することにより、歌唱表現に影響を与える音響パラメータを歌唱スタイル毎のベースモデルとして記憶でき、これに基づいて、その歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、選択された少なくとも2つの歌唱表現に影響する音響パラメータを、任意の組合せの程度で補間した合成用音響パラメータを用いて、歌声を合成することができる。しかも、組み合わせの程度を、インタフェース部を用いて容易に設定することができる。
(2)こうした歌声合成装置において、前記音響パラメータの集まりには、少なくとも基本周波数、音量、歌唱表現に対応したパラメータのうちの少なくとも一つを含むものとして良い。これらのパラメータを補間することにより、歌唱表現の組合せの程度を容易に調整することができる。
(3)こうした歌声合成装置において、前記音響パラメータの集まりには、更にスペクトルパラメータを含むものとしてよい。スペクトルパラメータを用いることにより、多彩な歌唱表現の組合せの程度を調整することができる。
(4)こうした歌声合成装置において、前記選択される少なくとも2つの音響パラメータの集まりは、いずれも前記記憶されたベースモデルを用いて得られた音響パラメータの集まりとしても良い。ベースモデルを用いた自然な歌声同士の歌唱表現を補間して、歌声を合成することができる。
(5)こうした歌声合成装置において、前記選択される少なくとも2つの音響パラメータの集まりのうちの一つは、ルールベースの手法で生成された音響パラメータの集まりとしても良い。こうすれば、ルールベースで生成された音響パラメータを用いても、歌唱表現の組合せの程度を調整して、歌声合成を行なうことができる。
(6)本発明の第2の実施形態として、もうひとつの歌声を合成する歌声合成装置が提供される。第2の実施形態にかかる歌声合成装置は、複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶した記憶部と;前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と;前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも2つの歌唱スタイルに対応したベースモデルに基づき、前記インタフェース部により調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出する補間抽出部と;前記合成用音響パラメータを用いて歌声を合成する合成部とを備えてよい。
この歌声合成装置によれば、ベースモデルの状態で、歌唱スタイルに含まれる歌唱表現の組合せの程度を調整するので、歌唱表現の組合せの程度を調整したうえで、よりスムースな歌声の合成を行なうことができる。
(7)上記の歌声合成装置において、前記歌唱表現が反映されるパラメータには、少なくともビブラート、しゃくり、アタック・リリース、こぶしのうちの1つに対応したパラメータを含むものとして良い。こうした歌声合成装置によれば、しゃくり(しゃくり上げ、しゃくり下げを含む)、アタック・リリース、こぶしのうちの少なくとも1つについて、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。
(8)上記の歌声合成装置において、前記歌唱表現が反映されるパラメータには、少なくとも発声開始タイミング、発声終了タイミングのいずれか1つに対応したパラメータが含まれるものとして良い。この歌声合成装置によれば、発声開始タイミング、発声終了タイミングうちの少なくとも1つについて、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。
(9)上記の第1の形態の歌声合成装置においては、前記歌唱表現の組合せの程度の調整は、前記音響パラメータの値を補間することにより決定されるものとしても良い。こうすれば、少なくとも2つの歌唱表現の組合せの程度を容易に決定することができる。
(10)この歌声合成装置において、前記補間は、前記音響パラメータを線形結合または非線形結合することにより行なわれるものとして良い。線形結合を採用すれば、補間演算を簡略化でき、非線形結合を採用すれば、補間の程度を柔軟に設定することができる。
(11)上記の歌声合成装置において、前記補間は、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位のいずれか1つにより行なうものとしても良い。この場合、補間の対象を細かく設定でき、組合せの際の利便性が向上する。
(12)上記の第2の形態の歌声合成装置においては、前記歌唱表現の組合せの程度の調整は、前記ベースモデルの内部パラメータを補間することにより行なうものとしてもよい。こうすれば、少なくとも2つの歌唱表現の組合せの程度を、ベースモデルの内部パラメータを用いて容易に決定することができ、歌唱表現の組合せを調整した歌声合成を、一層滑らかに行なうことができる。
(13)この歌声合成装置において、補間は、前記ベースモデルの内部パラメータを線形結合または非線形結合することにより行なうものとしても良い。線形結合を採用すれば、補間演算を簡略化でき、非線形結合を採用すれば、補間の程度を柔軟に設定することができる。
(14)上記の歌声合成装置において、前記補間は、ベースモデルの状態単位で行なうものとしても良い。この場合、ベースモデルのモデルの状態単位で補間を行なうので、演算を容易なものとすることができる。なお、補間自体は、ベースモデルの状態単位で行なうが、インタフェース部において、歌唱表現の組合せの程度を調整する際のユーザインタフェースとしては、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位などを単位として組合せの程度の指定を行なうものとしても差し支えない。
(15)上記の各歌声合成装置において、前記補間は、内挿補間または外挿補間としても良い。この場合、内挿補間により複数の歌唱スタイルの特徴の中間的な特徴を実現することができ、また外挿補間により1つの歌唱スタイルの特徴から遠ざかるような組合せを実現することができる。
(16)上記の歌声合成装置において、前記記憶されたベースモデルの1つは、予め用意された標準的な音響パラメータからなるベースモデルとしても良い。こうすれば、標準的な音響パラメータとの組合せを容易に実現することができる。
(17)こうした歌声合成装置において、更に、画像表示装置とポインティングデバイスとを備えるものとして良く、前記インタフェース部は、前記画像表示装置上に描画されるグラフィカルユーザインタフェースであり、前記グラフィカルユーザインタフェースとして前記画像表示装置上に描画された画面を前記ポインティングデバイスにより操作することにより、前記組合せの程度が変更されるものとしても良い。こうすれば、組合せの程度の変更を直感的に行なうことができる。
(18)本発明の第3の実施形態として、歌声合成方法が提供される。この歌声合成方法は、複数の歌唱スタイルの歌声の少なくとも1つについて、複数の歌唱スタイルの歌声の少なくとも1つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶し;前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し;歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、前記選択された少なくとも2つの前記歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して、合成用音響パラメータを決定し;前記合成用音響パラメータを用いて歌声を合成するものとして良い。
かかる歌声合成方法によれば、統計的な手法を用いて音響モデルを学習することにより、歌唱表現に影響を与える音響パラメータを歌唱スタイル毎のベースモデルとして記憶でき、これに基づいて、その歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、選択された少なくとも2つの歌唱表現に影響する音響パラメータを、任意の組合せの程度で補間した合成用音響パラメータを用いて、歌声を合成することができる。しかも、組み合わせの程度を、容易に設定することができる。
(19)本発明の第4の実施形態として、歌声を合成するもうひとつの歌声合成方法が提供される。この歌声合成方法は、複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶部に記憶し;前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し;前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも2つの歌唱スタイルに対応したベースモデルに基づき、前記調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出し;前記合成用音響パラメータを用いて歌声を合成して良い。
この歌声合成方法によれば、記憶部に記憶されたベースモデルに基づき、歌唱表現を補間した合成用音響パラメータを抽出するので、歌唱表現の組合せの程度を調整した歌声を、より滑らかに合成することができる。
歌声合成装置の実施形態の概略構成図。 HMMを用いた音響モデルとその学習の原理を示す説明図。 歌声合成準備ルーチンを示すフローチャート。 歌声のデータから抽出される代表的なパラメータを示す説明図。 音響モデルを学習する際の基本単位であるコンテキスト依存の音素を示す説明図。 HMMの状態の集合をクラスタリングする様子を示す説明図。 状態継続長モデルと各パラメータの決定木の様子を示す説明図。 歌声合成処理ルーチンを示すフローチャート。 歌詞と音程の時間との関係を示すユーザインタフェースの一例を示す説明図。 複数の歌い手の歌唱スタイルの補間割合の編集画面の一例を示す説明図。 補間割合の変更の具体的な手法の一例を示す説明図。 歌い手毎の歌唱スタイルに対応して用意されたベースモデルの編集画面の一例を示す説明図。 合成された歌声のピッチを表示する画面の一例を示す説明図。 第2実施形態における補間割合の設定方法を示す説明図。
本発明のいくつかの実施形態について、図面を参照しながら説明する。図1は、本発明の歌声処理装置の第1実施形態を示す概略構成図である。図1に示した歌声処理装置100は、予め音響パラメータを処理して音響モデルを学習するための構成と、実際に歌声を合成する構成、即ち歌声合成装置としての構成との両方を含んでいる。単に歌声の合成のみを行なうのであれば、前者の構成は必要ない。ここでは、両方を併せて説明するが、歌声合成のみを行なうのであれば、学習済みの音響モデルをハードディスクなどの記憶部に記憶しておき、この音響モデルを用いて音声合成を行なえばよい。
図1に示した歌声処理装置100は、ネットワークNWを介して接続されたコンピュータPC1と、サーバ30およびサーバ30に接続されたもう一台のコンピュータPC2とから構成されている。もとより、歌声処理装置100は、一台のコンピュータによって構成することもできるし、ネットワーク上に分散して置かれた複数のコンピュータから構成することも可能である。
コンピュータPC1は、歌声を入力するために設けられており、楽譜入力部10および歌唱(歌声)を入力するための音声入力部20を備える。楽譜入力部10は一般にはキーボードが用いられ、音声入力部20としてはマイクが用いられる。歌い手が音声入力部20としてマイクに向かって歌い、その歌詞を含む楽譜を楽譜入力部10であるキーボードから入力すると、楽譜と歌声とが対応付けられ、歌唱スタイル毎のインデックスを付けて、例えばデータA、データB・・・データNとして、コンピュータPC1内に保存される。楽譜を入力する場合、五線紙に記載された楽譜の形で入力しても良いが、鍵盤タイプのキーボードを用いて入力しても良い。楽譜の入力は歌声を入力する前であっても差し支えない。なお、歌い手が歌った歌の音程や音の長さは、必ずしも予め用意した楽譜と一致するとは限らないので、楽譜を予めデータとして入力しておいた場合、歌声の入力後で、実際に歌われた歌に合せて、楽譜を修正すれば良い。
楽譜を楽器などを用いて入力する場合は、楽譜入力部10として、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞(日本語の場合は、各音に対応したかな文字列)の入力とを、対応付けながら行えば良い。各歌唱スタイル毎の歌唱の楽譜と歌声のデータは、一つの歌唱スタイル当たり少なくとも数分分蓄積される。後述するように、この楽譜と歌声のデータは、サーバ30内の音響パラメータ学習部により解析される。解析するためには、楽譜と歌声のデータに、全ての音素やその組み合わせ、全ての歌唱表現が含まれている必要はないが、統計的な学習が可能な程度の種類の音素とその組み合わせ、および種々の歌唱表現が含まれていることが望ましい。従って、一般に、おおよそ数分から数十分程度の歌声が必要とされる。
歌声入力用のコンピュータPC1をサーバ30と分離したのは、複数の歌唱スタイルのデータ入力を容易にするためである。コンピュータPC1は、マイクを備えたノートパソコンなどにより実現でき、簡易に持ち運んで、楽譜と歌声を採取・保存することができる。なお、この例では、歌声は、直接マイクなどの音声入力部20から入力するものとしたが、音源は生歌である必要はなく、CDやDVDなどに記録された歌声から採取するものとしても差し支えない。あるいはネットワークNWを介して入力するものとしても良い。また、後述するように、歌唱スタイル毎に、音響モデルを構築することから、歌唱表現を含めて、同じ歌唱スタイルの歌声としては、同一または似通った歌い方の音源(通常は同じ歌い手の音源)を用いることが望ましい。また、その歌唱スタイルの特徴がもっと良く表現された音源を用いることが、より望ましい。
こうして採取・記録された歌声のデータは、ネットワークNWを介してサーバ30に送られ、サーバ30内のハードディスク31に保存される。サーバ30内には、楽譜解析部33と音響パラメータの学習部40と音響モデル記憶部50とが備えられている。音響モデル記憶部50が、各歌唱スタイル毎に音響モデルを記憶する記憶部の下位概念に相当している。またサーバ30には、この他、パラメータ調整部55,楽譜解析部57,音声合成部60が設けられており、音響モデル記憶部50と共に、歌声合成装置を構成している。パラメータ調整部55がパラメータ決定部の下位概念に、音声合成部60が合成部の下位概念に、それぞれ相当する。
パラメータ調整部55と楽譜解析部57は、コンピュータPC2との間でデータのやり取りを行なう。コンピュータPC2には、キーボード51、マウスなどのポインティングデバイス52、および表示部53が設けられている。キーボード51からは、主に合成しようとする歌声の楽譜のデータが入力される。また表示部53には、後述する音響パラメータの組合せとその程度を示すグラフィカルインタフェースが表示される。コンピュータPC2は、グラフィカルインタフェースを用い、ポインティングデバイス52により、この音響パラメータの組合せやその程度(組合せの割合)などを指定あるいは修正することができる。コンピュータPC2が、インタフェース部の下位概念に相当する。音響パラメータの組合せやその程度を調整する手法については、後で詳しく説明する。
サーバ30内の学習部40について説明する。学習部40は、ハードディスク31内に記憶された各歌唱スタイル毎の楽譜と音声データとから、音響モデルを構築するための学習を行なう。この学習は、最終的に歌声の合成を行なうためになされるので、本実施形態で用いる歌声合成の手法について先にその概略を説明する。本実施形態では、人が歌声を生成するのに用いている声帯や口蓋などの諸器官を、音源(励振源)と所定の伝達特性を持ったフィルタであるとして捉え、これをデジタルフィルタにより模擬する。このとき、音声波形から抽出されたスペクトルパラメータ、基本周波数、有声/無声などの情報からなる音響パラメータの時間軸に沿った列を用いる。これらの音響パラメータの列を、楽譜から推定することができれば、楽譜からそれに対応した音声を合成することができる。そこで、実際の歌声のデータと楽譜とから、音響パラメータの列とそれに対応する楽譜との関係を学習して、音響モデルを学習するのである。こうした音響モデルとしては、隠れマルコフモデル(HMM)が採用可能である。
図2は、HMMを用いた音響モデルとその学習の原理を示す説明図である。1つの音素の発声はその前後の音素(先行音素と後続音素)の影響を受ける。前後の音素が異なれば、発声される音素の音響パラメータは異なるものとなるのである。図2において、「1」はある音素の始まりの辺りを、「2」は真ん中辺りを、「3」は最期の方を、それぞれ表している。発生される一つの音素を、このモデルでは、こうした三つの状態として表現している。このとき、「1」の部分は、当該音素に先行する先行音素の影響を受けやすく、「3」の部分は、当該音素に後続する後続音素の影響を受けやすい。先行音素や後続音素は、発声される音素にとっての最も基本的なコンテキストになる。
図2において、aijは、遷移確率を示している。i=jの場合には、音素の同じ部分に留まる確率を示し、j=i+1の場合には、次の部分に遷移する確率を示す。このとき、観測系列oは、出力確率密度関数bq(ot)により得られる値となる。qは、このときの状態系列である。説明を簡略にするために、図2では、一つの音素を3つの部分からなるものとして例示し、先行音素と後続音素の影響を受けるものとしたが、実際の音声合成では、更に他のコンテキストも参照する。つまり、コンテキスト依存モデルを用いるのであり、この点は図5を用いて後で詳しく説明する。本実施形態では、楽譜と歌声データとから、HMMを学習するのであり、一旦、歌唱スタイル毎に学習されたHMMが出来上がれば、このHMMを用いて、楽譜から歌声を合成するのである。こうしたHMMで学習される状態遷移確率aijと出力確率密度関数bq(ot)は、最尤推定法の一つである期待値最大化(EM)アルゴリズムを用いて推定することができる。
次に、HMMの学習で用いられる音響パラメータについて説明する。基本的に音響パラメータとして、音声波形から抽出されたスペクトルパラメータ、基本周波数、有声/無声情報が想定されることは既に説明した。ここで、スペクトルパラメータとしてはメルケプストラムや線スペクトル対(LSP)などを用いる。本実施形態では、メルケプストラムを用いた。メルケプストラムとは、音声信号のフーリエ変換の対数を更に逆フーリエ変換したものに、人の聴覚特性を考慮して低周波数領域の情報を多く持つようにしたものである。基本周波数は、一般に対数領域の値を用いる。有声/無声情報とは、母音のように周期的な音声か子音のように周期性のない音声かの区別である。基本周波数は、有声区間で連続値を取り、無声区間で値を持たない。この他、動的特徴と呼ばれるパラメータも用いられる。動的特徴とは、基本周波数やメルケプストラムなどのパラメータの時間方向の1次微分(デルタ)や二次微分(デルタデルタ)に対応するパラメータである。これらのパラメータは、HMMが時系列データの時間軸方向の相関関係をモデル化しにくいという点を補うために用いられる。動的特徴を扱うことで、音素列を合成する際のつなぎ目が滑らかになる。
ここまで、音響モデルは、スペクトルパラメータや基本周波数を用いた隠れマルコフモデルであるとして説明したが、実際に用いられるモデルはもっと複雑である。以下、実際に導入されているモデルについて簡略に説明する。
(A)状態継続長モデル:歌声の中に含まれる各音素の長さは、歌唱スタイルなどによって変動することから、音声の時間的な構造(どれだけその音素が継続するか)をより精度良くモデル化するために、明示的な状態継続長分布を用いている。こうした状態継続長モデルを付加したHMMを、隠れセミマルコフモデルと呼ぶ。
(B)コンテキスト依存モデル:基本周波数や継続長は、歌詞に含まれる言語的な情報の影響を受けやすい。このため、歌詞の言語情報と、更に楽譜から得られる音高、テンポ、調性、拍子などのコンテキストを考慮してモデル化している。
(C)多空間確率分布HMM:歌声を含む音声には無声区間があって、そこでは基本周波数の時系列データそのものが存在しない。本実施形態では、こうした特殊な時系列を扱うために、多空間確率分布HMM(MSD−HMM)を用いる。
(D)歌唱表現モデル:歌声には、楽譜から見た場合、様々なズレが存在する。これを広義の歌唱表現と呼ぶ。歌唱表現は、一般に歌唱スタイル毎に異なり、特定の歌唱スタイルによる歌唱を特徴付けるものとなっている。これらも歌唱スタイルの特徴を学習するのに用いられる。以下、広義の歌唱表現に含まれるものを挙げる。歌唱表現には、これら全てが含まれる必要はないが、これらの少なくとも1つは、歌唱スタイルを特徴付けるものとして用いられ、歌唱スタイル毎のベースモデルとして扱われる。
(1)タイミング:実際の歌声は、楽譜から計算される音符の時間軸上の位置から意図せずもしくは意図的にずれることがある。例えば、子音はその音符の開始タイミングより少し前で発声されることが多い。また「前ノリ」「後ノリ」「タメ」など、発声のタイミングを意図的にずらす歌唱表現が存在する。このため、楽譜から計算される絶対的な時間を基準とした実際の発声との時間的なズレを、音素単位でモデル化している。
(2)ビブラート:ビブラートは、音高および音量の少なくとも一方を周期的に揺らす歌唱表現である。歌声においてビブラートがかかるタイミングやその周期、振幅の変化は、歌唱スタイル毎に異なるため、歌唱スタイル毎の音響モデルの学習に用いられる。ビブラートは、更にその周期と振幅の2つのパラメータとして扱われ、音響モデルに組み込まれる。
(3)その他の歌唱表現:上記のビブラート以外にも様々な歌唱表現が存在する。例えば、「こぶし」「しゃくり上げ」「しゃくり下げ」「アタック・リリース」などがある。こうした歌唱表現は、周期と振幅のパラメータや、基本周波数の音素途中で変動量として扱うことができ、音響モデルに組み込まれる。
本明細書では、上述した各モデルを含めて、HMM(隠れマルコフモデル)と称する。
図1に戻って、サーバ30内の構成について、更に説明する。サーバ30には、ハードディスク31に記憶された歌声のデータから、歌声の基本周波数やその微分(デルタパラメータ)などを抽出するF0抽出部41、歌声に含まれるスペクトルパラメータやその微分(デルタパラメータ)を抽出するSP抽出部43、上述した広義の歌唱表現パラメータを抽出する歌唱P抽出部44、これらの抽出したパラメータを用い隠れマルコフモデル(HMM)を用いて、音響パラメータを学習するHMM学習部45が含まれる。各抽出部41,43,44は、音響パラメータの特徴を、音符単位やフレーム単位など、特徴に合せた単位で抽出する。F0抽出部41は、パラメータとして、対数基本周波数の他、それらの微分値を抽出する。SP抽出部43が抽出するスペクトルパラメータには、メルケプストラムやその微分値が含まれる。歌唱P抽出部44は、これら以外の歌唱表現パラメータとして、ビブラートに関するものやその微分値の他、しゃくり、こぶし、アタック・リリースに対応したパラメータを抽出する。
図3を用いて、歌声合成の準備のために実行される処理について説明する。図3に示した歌声合成準備ルーチンの前半(ステップS100〜S130)は、コンピュータPC1により実行される。後半(ステップS140〜S170)は、サーバにより実行される。
この歌声合成準備ルーチンが開始されると、まず歌唱スタイルを指定する処理が行なわれる(ステップS100)。歌唱スタイルAなり歌唱スタイルBなりが指定されると、次に歌声のデータの入力が行なわれる(ステップS110)。歌声のデータは、少なくとも数分分の歌唱を、マイクなどの音声入力部20を介して入力し、デジタルデータとして記憶することにより入力される。続いて楽譜入力部10により楽譜の入力が行なわれる(ステップS120)。歌声データに対して、入力された楽譜から抽出された音程と歌詞(発音)とが対応付けられる。
次に、音響モデルを作成しようとしている全ての歌唱スタイルについて処理が完了したかを判断し(ステップS130)、全ての歌唱スタイルについての処理が完了するまで、上述したステップS100ないしS120の処理を繰り返す。
こうして全ての歌唱スタイルについての歌声データの入力とその歌声に対応した楽譜の入力とが完了すると(ステップS130)、次にこの歌声データと楽譜とを受け取ったサーバ30において、データの解析が行なわれる(ステップS140)。データの解析は、ハードディスク31に記憶された各歌唱スタイルの歌声を順次取り出して行なわれる。データ解析には、楽譜解析部33を用いた楽譜の解析と、学習部40のF0抽出部41による基本周波数およびその関連パラメータの解析、SP抽出部43によるスペクトルパラメータ(SP)およびその関連パラメータの解析、更には、歌唱表現関連のパラメータの解析が含まれる。図4に、こうした解析により抽出される各種パラメータを例示した。
基本周波数は、いわゆる対数基本周波数ptとして扱われており、その関連パラメータとしては、有声/無声の区別、対数基本周波数の一次微分(Δpt)や二次微分(Δpt)が考えられる。これらは音源情報と呼ばれることがある。また、スペクトルパラメータとしては、メルケプストラムctやその一次微分(Δct)、二次微分(Δct)などがある。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報を扱う。
歌唱表現情報には、ビブラートの周期Vfとその振幅Vaおよびそれらの一次微分(ΔVf,ΔVa)と二次微分(ΔVf,ΔVa)、しゃくりに関するパラメータS1〜S6、アタック・リリースに関するパラメータAR1〜AR6などが含まれる。もとより、こぶしなどの情報を解析しても良い。本実施形態では、しゃくりとアタック・リリースに関しては、「長さ」「高さ」「急峻度」の3つのパラメーターを音符の先頭と末尾に、それぞれ持っている。従って、それぞれ6つのパラメータからなる。しゃくりのパラメータ等の学習の手法は、後で説明する。上記パラメータのうち、メルケプストラムctを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、歌声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。
続いて、解析したデータを用いて、HMM学習を行なう(ステップS150)。HMM学習は、抽出した各パラメータを学習して、隠れセミマルコフモデルを得るために行なうものであり、概略以下の処理を行なう。上述したように、HMM学習は、基の歌声データに含まれる音素毎に行なうが、音素を単独で扱うのではなく、音声合成において、音声変動を引き起こす多数の要因と共にHMM学習を行なう。合成しようとする音声に音声変動を引き起こす要因としては、例えばその音素の前後の音素の組み合わせ(前後の音素と当該音素の組合せである音素列トライフォンや、更にその前後の音素を考慮したクインフォンなど)や、楽譜情報や言語情報などがある。楽譜情報としては、前後の音素の音程や、休止符の長さなどがある。また言語情報としては、当該音素が属する語の品詞、活用形あるいはアクセントの位置、アクセント型など種々の情報がある。これらの要因をまとめて、コンテキストと呼ぶ。
滑らかな音声合成を行なう場合、考慮すべき要因は多数に上るが、学習の手法を概説するために、図5では、コンテキスト付きの音素の一例として上記のトライフォンを示した。図5は、「さっぱりわからない」という歌声を例に、トライフォンを取り出す場合を示す説明図である。「さっぱりわからない」という音声データの中には、音素aは複数回出現するが、同じ音素であっても前後の音素等のコンテキストが異なると音声の音響的特徴は異なる。そのため当該音素が同じaであっても、前後の音素を考慮したトライフォンとして別々にモデル化する。ハードディスク31に記憶された歌声から、音素を、コンテキストを考慮した状態で順次取り出す。コンテキストが考慮された音素を、以下、コンテキスト依存音素と呼ぶ。数分から数十分の歌声から取り出されるコンテキスト依存音素の数は数百から数万に上る。ハードディスク31から取りだしたコンテキスト依存音素の全てに対して、図2に示した状態遷移確率aijと出力確率密度関数bq(ot)を学習する。つまり、コンテキスト依存音素が属するフレーム毎に図4に示したパラメータを抽出し、各コンテキスト依存音素のHMMを学習するのである。
続いて、HMM学習がなされたコンテキスト依存音素に対して、コンテキストクラスタリングを行なう(ステップS160)。これは、HMM学習されたコンテキスト依存音素をクラスタリングして、各クラスタ毎に代表的なガウス分布を求める処理に相当する。各クラスタ毎に代表的なガウス分布が求められれば、クラスタリングされたコンテキスト毎に音声合成が可能なモデルが得られたことになる。このモデルを、状態共有のあるコンテキスト依存モデルと呼ぶ。換言すれば、クラスタリングすることにより、状態共有のないコンテキスト依存モデルから、音声合成に用いる状態共有のあるコンテキスト依存モデルが得られ、結果的に、状態共有のあるコンテキスト依存モデルを選択するための決定木が構築されるのである。以下の説明では、クラスタリング後の、つまり状態共有のあるコンテキスト依存モデルについて扱うので、これを単に「コンテキスト依存モデル」と呼ぶ。音声合成の際には、可能であれば、コンテキストが同一のコンテキスト依存モデルを用いることが望ましい。しかし、限られた音声データからは、上述したように、全てのコンテキストの組み合わせに対応する音素が得られる訳ではなく、全てのコンテキストの組み合わせに対応したコンテキスト依存モデルが得られる訳ではない。そこで、クラスタリングにより、決定木を作り、音声合成時に、最も適したコンテキスト依存モデルを選択できるように準備するのである。クラスタリングがなされた決定木の一例を、図6に示した。図6において、太い矢印は、各二分木の分岐条件に対する判断が「YES」である場合を、細い矢印は各二分木における判断が「NO」であることを示している。決定木において、どのような質問(分岐条件)をどのように配置するかという点について以下説明する。
ハードディスク31に保存した音声データから得られるコンテキスト依存音素の集合がどのようなものになるかは音声データに依存するから、決定木を構成する質問(分岐条件)と各リーフノードの中身とは、事前には分からない。従って、コンテキスト依存音素の集合を分割するための適切な質問や分割後の適切な決定木の形などを予め決めることはできない。このため、コンテキスト依存音素の集合を分割するための適切な質問を予め用意し、同じ状態位置の全てのコンテキスト依存音素を取り出し、用意した全ての質問を適用し、分割後の各ノードの代表的なコンテキスト依存モデルが最も良いものになるような質問を選択して、コンテキスト依存音素の集合を分割する。具体的には、まず一つのリーフノードに全てのコンテキスト依存音素が入っているものとし、全ての質問を適用して、最も適切な質問を探す。最も適切な質問が見つかったら、その質問でそのリーフノードを分割することで、コンテキスト依存音素の集合を二つに分け、新たにできたリーフノードに対して、同様に、残りの全ての質問を適用し、そのノードに対する最も適切な質問を探す。分割するノードとそのノードに対する最も適切な質問の組合せがみつかれば、そのノードをその質問で分割し、得られたリーフノードに対して、同じ処理を繰り返す。こうして決定木が適切な大きさになるまで、同様の処理を繰り返す。適切な大きさとは、学習データの多様性を表現しつつも過度に依存しないバランスの取れた大きさであり、空のリーフノードがなく、各リーフノードに数個から数百個程度のコンテキスト依存音素が割り当てられている状態を言う。
このような手法でクラスタリングを行なうと、ハードディスク31に保存された音声データから、特定の音素に関して十分なコンテキスト依存音素が得られない場合でも、音声合成を行なうための決定木が得られる。決定木を作る際に、空のリーフノードができないように質問を選択するので、元の音声データに存在しないコンテキスト依存音素を合成しようとすると、類似のコンテキスト依存音素が集められたリーフノードに辿り着き、そのリーフノードのコンテキスト依存モデルを用いて音声合成を行なうことができる。
クラスタリングが終わり、決定木が得られたら、得られた全てのリーフノードについて、代表的なガウス分布を求める処理を行なう(ステップS170)。コンテキスト依存音素のHMM学習がなされ、更にそのコンテキスト依存音素のクラスタリングが行なわれて得られたリーフノード毎に代表的なガウス分布が求められたということは、その歌唱スタイルでの音声合成を行なうためのコンテキスト依存モデルが得られたということである。こうした決定木は、状態の数だけ作られる。この様子を図7に模式的に示した。1つのコンテキスト依存音素に着目すると、一つのコンテキスト依存音素に属する各状態は、状態継続長モデルにより、各状態が継続する長さが与えられる。多数のコンテキスト依存音素からこの状態継続長を決定する二分木が学習されている。これを状態継続長の決定木と呼ぶ。同様に、解析されたパラメータ毎に、メルケプストラムの決定木や基本周波数の決定木、音高のビブラートの決定木、などが構成される。他の歌唱表現の特徴のうち、タイミングモデルからは、タイミングの決定木が、しゃくり上げやしゃくり下げを含むしゃくりモデルからは、しゃくりの決定木が、アタック・リリースモデルからは、アタック・リリースの決定木が、それぞれ作られる。
歌唱表現に関するモデルとその決定木の作り方について、しゃくりを例にして以下簡略に説明する。しゃくりやアタック・リリースなどのパラメータは、まずしゃくりのパラメータを無視してHMM学習とクラスタリングを行なって音響モデルを作り、これを用いて、歌声合成を行なう。合成されたものは、しゃくりを含まない歌声である。そして、しゃくりを含むものとして予め記憶した音声データの基本周波数の系列を、しゃくりを含まない音響モデルから生成した歌声の基本周波数の系列と比較する。両者の差分は、しゃくりの有無であることから、これからコンテキストを考慮したしゃくりモデルを構築し、コンテキストクラスタリングによりしゃくりの決定木を作ることができる。アタック・リリースについては、ボリュームに関して差分をとる同様の処理を行ない、これからアタック・リリースモデルを構築し、アタック・リリースの決定木をつくる。このようにして、特定の歌唱スタイルの歌声データを基にして、これらの決定木の集合が求められるということが、結局その歌唱スタイルの音響モデルが学習されたことに他ならない。
サーバ30の学習部40による学習は、上記のように行なわれる。そこでサーバ30では、全ての歌唱スタイルについて上記のデータ解析(ステップS140)、HMM学習(ステップS150)、クラスタリングによる決定木の構築(ステップS160)、各リーフノードの代表的なガウス分布の決定(ステップS170)が完了したかを判断し(ステップS180)、完了していなければ、次の歌唱スタイルについての上記処理を繰り返す。全ての歌唱スタイルについて、上記の処理が完了したと判断すれば、図3に示した歌声合成準備ルーチンを終了する。学習された各歌唱スタイルの音響モデルは、音響モデル記憶部50に歌唱スタイルAのモデル(Aモデルと記載。以下同じ)、Bモデル、Cモデル・・・Nモデルとして記憶される。
以上で、歌声合成のための準備が完了する。本実施形態では、こうした準備から説明したが、各歌唱スタイル毎の音響モデルの学習を別に行ない、その結果だけを利用することも差し支えない。音響モデルの学習は、上記の手法に限らず、他の手法によっても良い。歌唱スタイルを利用した、以下に説明する歌声合成を行なうだけであれば、図1におけるモデル記憶部50、パラメータ調整部55、楽譜解析部57、音声合成部60などがあれば足りる。
次に歌声合成処理について説明する。上述した歌声合成準備ルーチン(図3)が実行されると、サーバ30の音響モデル記憶部50には、各歌唱スタイル毎の音響モデルが記憶された状態となる。音声合成は、この歌唱スタイル毎の音響モデルを用い、サーバ30とコンピュータPC2とを用いて行なう。サーバ30には、パラメータ調整部55、楽譜解析部57、音声合成部60が設けられている。パラメータ調整部55は、後述するように、複数の歌唱スタイル毎の歌唱表現のベースモデルの組み合わせに従って、音響パラメータを調整するために設けられている。ベースモデルを用いたパラメータの調整については、後で詳しく説明する。または楽譜解析部57は、合成しようする歌声を表した楽譜を解析して、合成すべき音素列(音程と音素の組み合わせ)を初めとする歌声合成に必要な諸情報を出力する。歌声合成に必要な諸情報とは、歌声の合成の際に、上述した決定木を辿るための情報、例えばシラブル内の何番目の音素か、と言った言語情報や、スタッカートが付与されているか、といった楽譜情報などである。これらの情報を用いて、決定木を辿り、歌声合成に必要なパラメータを取り出す。パラメータ調整部55及び楽譜解析部57の出力を受けて、音声合成部60は音声の合成を行なう。
音声合成部60は、音声パラメータ生成部61、音源生成部63、合成フィルタ65等を備える。音声パラメータ生成部61は、楽譜解析部57の出力を受け取り、歌声を合成しようとする歌唱スタイルの学習済みの音響モデルから、基本周波数やメルケプストラムパラメータ、歌唱表現パラメータなどの各種パラメータを生成する。音源生成部63は、基本周波数やビブラート、しゃくり上げ、しゃくり下げなどの音の高低に関与するパラメータを受け取って、励振源を時間軸に沿って生成する。また、合成フィルタ65は、主にメルケプストラムにより音声を合成するフィルタである。こうしたフィルタとしては、例えばMLSAフィルタなどが知られている。歌唱表現パラメータのうち、音源生成部63での音源生成に関与しないパラメータは、メルケプストラムの一部として、合成フィルタ65に入力される。
サーバ30が、コンピュータPC2と共に実行する歌声合成処理については、図8を参照しつつ説明する。サーバ30は、まずコンピュータPC2から歌唱スタイルの指定を受け付ける(ステップS200)。これは、音響モデルが音響モデル記憶部50に記憶された複数の歌唱スタイルをコンピュータPC2の表示部53に表示し、使用者に、ポインティングデバイス52を用いて選択させることにより行なわれる。歌唱スタイルの指定は、一以上であれば良いが、本実施形態では、複数の歌唱スタイルの歌唱を合成することから、2以上の歌唱スタイルを選択するものとする。ここでは、歌唱スタイルA,B,Cの3つが選択されて、指定されたものとする。
次に、入力した音譜を解析する処理を行なう(ステップS210)。使用者が歌声を合成しようとする歌の楽譜をキーボード51等を用いてコンピュータPC2から入力すると、サーバ30は、この楽譜を楽譜解析部57により解析するのである。楽譜の入力は、例えば図9に示したピアノロール画面により入力することができる。このとき、キーボード51としては、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞(日本語の場合は、各音に対応したかな文字列)の入力とを、対応付けながら行えば良い。また、強弱記号や、スタッカートなどの他の楽譜情報を入力するために、画面上に専用のボタンを設け、画面のボタンをクリックすることで、楽譜上にこれらの楽譜情報を簡単に書き込めるようにしても良い。専用のキーボードは、USBやMIDIなどのインタフェースを用いて、コンピュータPC2に接続することができる。
図9の例では、表示部53にピアノロールが表示される。ピアノロールの画面では、縦軸が音の高さに、横軸が音の長さと時間軸上の前後方向に、それぞれ相当し、平均律による一音の高さと四分音符を単位とする音の長さにより、画面が枡目状に分割される。鍵盤タイプのキーボードを操作すると、鍵盤位置に応じて音の高さが特定される。またキーを押している時間によって、四分音符を基準長さとして、横方向の長さが特定される。更に、テキスト入力用のキーボードから各音に対応する歌詞のかな文字列が入力される。図9の例では、「さ」「い」がそれぞれ四分音符1つ分の長さを持ち、「た」が四分音符2個分の長さを持つことが指定されている。四分音符より短い八分音符や十六分音符などを音の長さの入力単位としてもよい。入力単位の音符長さより短い長さの音を入力する場合や三連符などを入力する場合には、その音に対応する枡目をポインティングデバイス52により指定して、右クリックでメニューを表示させ、メニューの中から「分割」や「三連符」などのコマンドを選択して指定すれば良い。
こうして入力された楽譜をステップS210では楽譜解析部57を用いて解析し、後述する音声合成において、利用できるよう、音の高さ等のコンテキストを持った音素列のデータとして、図示しない記憶部(RAMなど)に記憶する。次に、音声パラメータの生成を行なう(ステップS220)。この処理は、音声合成部60の音声パラメータ生成部61の処理に相当する。具体的には、ステップ210においてコンピュータPC2から入力され楽譜解析部57を用いて解析された音素や音程、およびこれに付随するコンテキストを用いて、歌声合成に必要な音響パラメータを生成する処理である。各歌唱スタイルの音響モデルは、音響モデル記憶部50に記憶されているから、この中から、指定された歌唱スタイルの音響モデルを参照するのである。各歌唱スタイルの音響モデルは、HMM学習により各種決定木によりクラスタリングされた統計的モデルとして記憶されているから、指定された歌唱スタイルの歌声を合成するのに必要な各種パラメータを、この音響モデルを基に生成する。
次に、補間割合設定処理を行なう(ステップS230)。この処理は、コンピュータPC2の表示部53に、ステップS200で指定した複数の歌唱スタイルを表示し、各歌唱スタイルの歌唱表現の割合を設定する処理である。こうした歌唱表現の時間軸上の強弱をプリセットと呼ぶ。「プリセット」と呼ぶのは、複数の歌唱スタイルの歌唱表現の特徴をどのように反映して歌声を合成するかを、実際の音声合成に先立って設定するからである。プリセットは、各歌唱スタイルの歌唱表現の特徴を、時間軸上でどの程度強く、あるいは弱く反映したいかという相対的な指定である。本実施形態では、複数の歌唱スタイルの歌唱表現を重畳して音声合成を行なうため、複数の歌唱スタイルに対応した各ベースモデル間の補間を行なう必要がある。この補間割合の編集画面の一例を図10に示した。この例では、補間割合は、横軸を時間として、各歌唱スタイルの歌唱表現の補間の割合を縦方向に積み上げた積み上げグラフの形態で示されている。デフォルトでは、各歌唱スタイルA,B,Cの割合は、選択した歌唱スタイルの数(この例では3)に応じた割合(1/3)ずつとなっている。画面において、歌唱スタイルAとBとの間には、境界線LABが示され、歌唱スタイルBとCとの間には、境界線LBCが示されている。使用者は、ポインティングデバイス52を用いて、この境界線LAB,LBCを自由に移動することができる。ここでは、補間割合を編集しているので、各歌唱スタイルの合計は100%であり、一定である。従って、境界線を移動しても、画面上の全体の高さは変わらない。つまり、例えば境界線LBC上の点PBCをポインティングデバイス52でつまんで上下に移動すると、移動によって、境界線両側の歌唱スタイルの割合は相補的に増減するが、移動されている境界線を共有していない歌唱スタイルの割合は変化しない。
こうした境界線の移動は、簡易には、ポインティングデバイス52によって指定した点の上下移動により、所定の曲線で、つまり特定した点の周辺も変化するように行なわれる。もう少し、細かく調整したい場合には、例えば図11に示すように、境界線を自由曲線(ベジェ曲線など)とみなし、ポインティングデバイス52による境界線上の指定によって、アンカーポイントとハンドルを表示させて行なえば良い。図11の例では、境界線LAB上のある点PABにカーソルKSを表示させた状態で(図11(A))、ポインティングデバイス52に供えられたボタンをクリックすると(図11(B))、点PABにアンカーポイントが、また点LABからその接線方向にハンドルHu,Hdが表示される(図11(C))。
この状態で、ポインティングデバイス52により、カーソルKSを使って、ハンドルHuまたはHdを掴んで、これを移動すると、ハンドルの移動量に応じて、境界線LABを変形することができる(図11(D))。このとき、ハンドル操作により境界線が変形する範囲は、ハンドルの長さによる。従って、カーソルKSを用いて、ハンドルHu,Hdをそれぞれその線分方向に移動することにより、ハンドルの長さ(アンカーポイントからの隔たり)を変更することができる。ハンドルを長くすれば、ハンドル操作により影響を受ける範囲は広くなる。従って、境界線を緩やかに変更することができる。またハンドルを短くすれば、境界線を急峻に変更することができる。更に、カーソルKSによりアンカーポイントを掴んで移動すれば、ハンドルにより影響が及ぶ範囲の曲線全体が、カーソルの移動方向に、境界線の滑らかさを保持したまま移動する。
こうした操作によって、表示部53に表示されたグラフィカルインタフェースを介して、複数の歌唱スタイルの歌唱表現を重畳する割合を設定することができる。なお、上記の手法では、複数の歌唱スタイルの歌唱表現の割合の合計は一定としているので、各歌唱スタイルの歌唱表現の特徴は、内挿法により補完されることになる。これに対して、例えば図10において、点PABを、歌唱スタイルAの上限ラインを越えて移動可能とし、歌唱スタイルAと歌唱スタイルBとの特徴の割合を、外挿法によって補間するものとしても良い。外挿法による補間を行なえば、この例では、歌唱スタイルAの特徴からは遠ざかる特徴が設定されたことになる。
図10では、三つの歌唱スタイルの歌唱表現の特徴をどの程度の割合で反映するかをまとめて示したが、各人別に表示するものとしても良い。図12は、歌唱スタイルとして、歌い手別の歌唱表現のベースモデルを示す。同じ歌い手でも異なる歌唱スタイルを取ることも当然あるが、ここでは歌声合成の様子をイメージしやすいように、歌い手により歌唱スタイルが異なるものとして示した。コンピュータPC2の表示部53には、図10に示したグラフィカルインタフェースを表示しても良いし、図12に示したグラフィカルインタフェースを表示してもよい。あるいは両者をまとめて表示しても良い。図12に示した例では、各歌い手の毎の歌唱表現の時間軸に沿った強弱を理解しやすい。図12に示したベースモデルも、図10の例と同様に、ポインティングデバイス52を用いて容易に編集することができる。
図12に示した各歌い手毎の歌唱スタイルのベースモデルは、個々に設定可能としても良いし、互いに連動するものとしても良い。前者の場合は、各歌唱スタイルのベースモデルは、独立に編集できるが、補間は、割合によって行なわれるので、各歌唱スタイルのベースモデルを合算すると、図10に示したように、各歌唱スタイルのベースモデルは全体に対する割合に変換される。前者の場合、図12に示した各人別の補間割合は、合成を行なう演算における重み付け係数だと考えることもできる。重み付け係数を全時間範囲において零とすれば、その歌唱スタイルを選択しなかったのと同じである。後者の場合は、一つの歌唱スタイル(例えば歌唱スタイルA)のベースモデルの任意の場所を、ポインティングデバイス52よりつまんで上下に移動すると、移動した分の1/2ずつが、残りの歌唱スタイル(歌唱スタイルB,C)のベースモデルの減増として反映され、合計は変わらないように表示される。いずれのインタフェースを採用するかは、使用者が決めれば良い。
図10に示した例では、歌唱スタイルを指定した直後では、複数の歌唱スタイル毎の歌唱表現の割合は、1/3ずつであり、時間軸方向にフラットになっている。これに対して、指定直後の各歌唱スタイルの歌唱表現の割合を、時間軸方向に予めセットしておいても良い。つまり、各歌唱スタイル毎の歌唱表現の時間軸方向の割合の初期値を予め設定しておくのである。例えば、通常、歌唱スタイルAの歌唱表現については歌の後半では弱める使い方をするとしている場合には、図12に例示したように、後半に向けて漸減するようなプリセットを予め用意しておけばよい。図12の右端に示したチェックボックスはこうしたプリセットを使用するか否かを指定する際に用いられる。チェックボックスのチェックのオン・オフは、ポインティングデバイス52を用いて容易に変更可能である。チェックボックスがチェックされていなければ、その歌唱スタイルについては、予め用意したプリセットを利用せず、デフォルトのフラットな割合からベースモデルの使用の割合の設定がなされる。
上記の説明では、ベースモデルは、歌唱スタイルの歌唱表現として一括りで扱った。これは、歌唱表現は基本周波数と共々、その歌唱スタイルの特徴がよく現れているため、一括で扱うことにより、その歌唱スタイルに似た歌声の合成が可能になるからである。もとより歌唱表現には、ビブラートやこぶし、しゃくり上げ、しゃくり下げ、タイミングなど、複数の要素が含まれる。図10や図12で示したベースモデルは、これらを一括で扱うものとしたが、個々の歌唱表現毎に設定できるようにしても良い。この場合、ビブラートのプリセットでは歌い手Aの歌唱スタイルの割合を高くし、しゃくり上げのプリセットでは歌い手Bの歌唱スタイルの割合を高くするといった設定を行なえば、ビブラートは歌い手Aの歌唱スタイルに似ており、しゃくり上げは歌い手Bの歌唱スタイルに似ている、といった歌唱を合成できる。
図10に示したグラフィカルインタフェースを用いた補間割合の設定の後(ステップS230)、パラメータの調整が行なわれる(ステップS250)。パラメータ調整では、ステップS220で生成した歌唱スタイル毎のパラメータを、ステップS230で設定された補間割合を用いて線形結合する処理を行なう。プリセットが歌唱表現毎に設定されていれば、結合も個々の歌唱表現のパラメータ毎に行なう。なお、結合は線形結合に限らず、非線形な結合であっても良い。非線形結合の場合には、結合の非線形モデルを予め定めておけば良い。
パラメータを調整すると、続いてこのパラメータを用いて、音源生成部63や合成フィルタ65の設定を行ない、その設定を図示しないRAMに記憶する処理を行なう(ステップS260)。
以上の処理により、音源生成部63や合成フィルタ65の設定がなされたことになる。そこで、次に調整が完了したか否かの判断を行なう(ステップS270)。使用者は、ステップS220において設定した補間割合で音声を合成した結果が自らの望んだものでなければ、補間割合の設定から処理をやり直すのである。ステップS230で設定した補間割合で良いか否かは、1つには、実際に歌声合成を行なって、合成された歌声が満足できるものか否かにより判断することができる。また、合成される歌声のピッチを計算し、これをコンピュータPC2に送信して、その表示部53に表示させ、これを見て判断することもできる。図13は、こうしたピッチの表示画面の一例を示している。
上記実施形態では、一旦パラメータを生成すると(ステップS220)、補間割合の設定(ステップS230)を変更しても、各パラメータの割合を調整するだけで済み、新たにパラメータを生成する処理は行なっていない。但し、コンテキスト依存音素の発生タイミングや終了タイミングなどの補間が必要な場合には、HMMの状態の継続長が変わるため、再度パラメータを生成する必要が生じる。こうした場合には、ステップS270での判断が「NO」の場合、ステップS220に一旦戻って、上記処理を行なう繰り返すものとすれば良い。
本実施形態の歌声処理装置100は、補間割合の設定(ステップS230)、パラメータの調整(ステップS240)、音源やフィルタの設定等(ステップS260)を行なうと、生成されるピッチを表示して、調整完了として良いか否かを使用者に問い合わせる。使用者が、コンピュータPC2の表示部53に表示されたピッチやボリュームの表示を見て、補間割合の設定が、自らが望んだものであると判断して、調整完了の指示をすると、歌声処理装置100は、音源生成部63,合成フィルタ65に設定された各種パラメータを用いて歌声を合成する(ステップS280)。合成される歌声は、70から再生される。この合成された歌声は、複数の歌唱スタイルの歌唱表現を、指定された割合で補間したものとなる。歌声を合成した後、歌声処理装置100は処理を終了する。
以上説明した歌声処理装置100によれば、HMMを用いた学習により、少ない量の音源から、歌い手の声質や歌唱スタイルを反映した音響モデルを生成でき、これに基づいてその歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、複数の歌唱スタイルの歌唱表現を任意の割合で補間して、歌声を合成することができる。しかも、補間しようとする歌唱表現の割合を、グラフィカルインタフェースを用いて容易に設定することができる。また、補間割合を変更した結果を簡易に確認できるので、補間割合の調整も容易である。
次に本発明の第2の実施形態について説明する。第2実施形態の歌声処理装置100は、第1実施形態の歌声処理装置100と同一のハードウェア構成を備える。また基本的に歌声合成準備処理や歌声合成処理も同一である。第2実施形態では、補間割合の設定方法が異なる。図14は、第2実施形態における補間割合の設定方法を示す説明図である。
図示するように、この例では、楽譜の入力は、第1実施形態と同様、図9で示したピアノロールを用いて行なわれる。その上で第2実施形態では、歌唱表現の補間割合の設定を、楽曲全体ではなく、音符単位で行なえるようにしている。具体的には、ピアノロールを用いて入力した楽譜のうちの1つの音符TTGを、ポインティングデバイス52を用いて指定する。その上で、この音符TTGに対する歌唱表現の補間割合を設定する。図14では、歌唱表現として、ビブラートを取り上げ、その補間割合を設定するものとして図示している。
図14に例示したものでも、3人の歌い手A、B、Cのそれぞれ歌唱スタイルA,B,Cの歌唱表現(ビブラート)を重畳するものとし、その割合を、各歌い手のA、B、Cの歌唱スタイルの境界に標示されたバーBAB,BBCをスライドすることにより行なう。境界のバーBAB,BBCをスライドすると、その下に表示された歌唱スタイル毎のビブラートのプリセットを示すスライダーBA,BB,BCも移動する。また、各歌唱スタイルのビブラートのプリセットを示すスライダーBA,BB,BCを個別に移動すると、補間割合を示すバーBAB,BBCも移動する。
図示は省略したが、この場合も、ビブラートの補間割合を変更する度に、ピッチを表示し、補間割合が所望のものであるか否かを判断するものとしても良い。もとより合成した歌声を70から再生して判断しても良い。
以上説明した第2実施形態の歌声処理装置100では、第1実施例の効果に加えて、音符毎に歌唱表現の補間割合を設定できるという効果を奏する。このため、歌唱表現をきめ細かに設定することができる。なお、上記の説明では、歌唱表現の補間割合の設定は音符単位で行なったが、音素単位、フレーズ単位などに行なうものとしても良い。
次に、実施形態の変形例について、いくつか説明する。上記実施形態では、歌唱表現に影響を与えるパラメータとして、図4に示したように、ビブラートやしゃくりなどに関するパラメータを用意したが、これらの歌唱表現は、音源情報やスペクトル情報にも含まれ得るものである。従って、歌唱表現の組合せの程度を調整する際の歌唱表現に影響を与えるパラメータとしては、ビブラートやしゃくりなどに直接的に対応するパラメータに限っても良いし、音源情報やスペクトル情報などの一部または全部を含めても良い。また、こうした歌唱表現に直接対応したパラメータ(図4におけるビブラート周波数や振幅、あるいはしゃくりのパラメータなど)を設けず、音源情報やスペクトル情報などを用いて歌唱表現を再現することも可能である。この場合には、歌唱表現の組合せの程度を調整する際に、歌唱表現に影響を与えるパラメータとして、基本周波数とボリューム、あるいはこれに加えてスペクトル情報などの一部または全部を用いれば良い。
上記の実施形態では、歌唱スタイルに基づいて音響モデルを学習するので、いずれの音響モデルにも、何らかの歌唱表現が含まれていることになる。これに対して、全ての歌唱表現を除いて音響モデルの学習を行ない、これを特定の歌唱スタイルに対応しないもの(ノーマル)として扱っても良い。複数の歌唱スタイルの1つとしてこの「ノーマル」な歌唱スタイルを指定し、これと他の歌唱スタイルA,Bなどを組み合わせて補間割合をしているものとしても良い。こうすれば、例えば「ノーマル」な歌唱スタイルと特定の歌唱スタイルAとを指定して、補間割合を設定すれば、歌唱スタイルAの歌唱表現の強弱を自由に設定できることになる。
また、上記実施形態では、ビブラートやしゃくり上げなどの歌唱表現は、それぞれ個別にHMM学習等を行なったが、上記のノーマルな歌唱スタイルの歌唱表現との差分を統計モデルで学習したものとしても良い。この手法では、ノーマルな歌唱スタイルを複数定めた場合には、それぞれに対して同様な歌唱表現を付与することができる。
補間されるパラメータとして、上記の例示以外には、例えば発声開始タイミングや発声終了タイミングなどを扱い、複数の歌唱スタイルにおけるこれらのタイミングを補間するものとしても良い。発声開始タイミング、発声終了タイミングうちの少なくとも1つについても、他のパラメータと同様、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。また、上述した種々の歌唱表現に関して、補間を行なう単位としては、上記のような音符単位の補間に代えて、音素単位、音節単位、時間単位のいずれか1つにより行なうものとしても良い。こうすれば、対象に合せて、補間を行なう単位を適切に設定できる。また、合成する1つの歌の中で、補間の単位を切り替えるものとしてもよい。
上記実施形態では、複数の歌唱スタイルの歌唱表現の割合は、グラフィカルインタフェースを用いて調整するものとした。直感的な変更とはならない場合もあるが、グラフィカルインタフェースによらず、数値によって指定するものとしても良い。この場合は、時間軸をいくつかの部分(例えば、導入部、前半1、前半2、後半1、後半2、エンディング)に分け、その範囲での割合を数値で指定するようにしても良い。範囲同士の境界は、漸増、漸減させて、各歌唱スタイルの歌唱表現の割合が滑らかに変化するようにすれば良い。
上記実施形態では、複数の歌唱スタイルについて、同じHMMを学習し、ここから音響パラメータを生成し、補間を行なっているが、複数の歌唱スタイル毎のパラメータを標準化しておけば、異なる手法で生成された音響パラメータ同士を、指定された補間割合で補間しても差し支えない。即ち、歌唱表現に対応するパラメータを歌唱スタイル毎に予め用意しておけば、そのうちの少なくとも一つのパラメータがHMMとして学習された音響モデルから導かれたものであれば、他の音響パラメータは、例えばルールベースの手法で導かれたものであっても差し支えない。
上記の実施形態では、歌唱表現の組合せの程度は、音響パラメータを補間することにより行なったが、組み合わされる音響パラメータがいずれも統計的な手法により学習された音響モデル(ベースモデル)から導かれるものである場合には、ベースモデルの段階で補間するものとしても良い。具体的には、ある歌唱表現に関して複数の歌唱スタイルの組合せの程度を、インタフェース部により指定すると、この歌唱表現に影響を与えるベースモデルの内部パラメータを補間し、その上で、補間済みの内部パラメータを用いて、ベースモデルから歌声の合成に必要な音響パラメータを抽出する。抽出した音響パラメータを音源生成部63や合成フィルタ65に与えることにより、音声合成を行なう。こうすれば、抽出される音響パラメータは、組合せの程度が調整された後の歌唱表現に対応したものとなり、音声合成をより一層滑らかに行なうことができる。
こうした手法により音声合成を行なう場合には、補間の単位を、ベースモデルのモデルの状態毎とすることができる。ベースモデルがHMMによるものである場合には、HMMの状態を単位として補間するのである。もとより、補間自体は、HMMの状態単位で行なうが、図10ないし図12に例示した歌唱表現の組合せの程度を調整する際のユーザインタフェースとしては、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位などを単位として組合せの程度の指定を行なうわせるものとしても差し支えない。この場合には、その単位を用いてインタフェースを介して指定された時間的な範囲からHMMの状態の範囲を求めてから補間演算を行なえば良い。
以上本発明のいくつかの実施形態・変形例について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を変更しない範囲内において、種々なる態様で実施できることはもちろんである。例えば、歌声学習の機能がない歌声合成装置のみとして実施しても良い。また、歌声としては平均律に基づくものに限らず、民族音楽のように固有の音律に従うものを用いても良い。例えば日本における雅楽、謡曲、声明、お経や、ヨーロッパにおけるグレゴリオ聖歌などの平均律以前の音律に従う歌声などの合成に適用しても良い。また、歌い手の歌声としては、実在の歌い手によるものに限らず、機械的な合成音声などを対象としても良い。
10…楽譜入力部
20…音声入力部
30…サーバ
31…ハードディスク
33…楽譜解析部
40…学習部
41…F0抽出部
43…SP抽出部
44…歌唱P抽出部
45…HMM学習部
50…音響モデル記憶部
51…キーボード
52…ポインティングデバイス
53…表示部
55…パラメータ調整部
57…楽譜解析部
60…音声合成部
61…音声パラメータ生成部
63…音源生成部
65…合成フィルタ
100…歌声処理装置

Claims (19)

  1. 歌声を合成する歌声合成装置であって、
    複数の歌唱スタイルの歌声の少なくとも1つについて、複数の歌唱スタイルの歌声の少なくとも1つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する記憶部と、
    前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と、
    歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、前記選択された少なくとも2つの前記歌唱表現に影響する音響パラメータを、前記インタフェース部により調整された組合せの程度で補間して、合成用音響パラメータを決定するパラメータ決定部と、
    前記合成用音響パラメータを用いて歌声を合成する合成部と
    を備えた歌声合成装置。
  2. 前記音響パラメータの集まりには、少なくとも基本周波数、音量、歌唱表現に対応したパラメータのうちの少なくとも一つを含む請求項1記載の歌声合成装置。
  3. 前記音響パラメータの集まりには、更にスペクトルパラメータを含む請求項2記載の歌声合成装置。
  4. 前記選択される少なくとも2つの音響パラメータの集まりは、いずれも前記記憶されたベースモデルを用いて得られた音響パラメータの集まりである請求項1から請求項3のいずれか一項に記載の歌声合成装置。
  5. 前記選択される少なくとも2つの音響パラメータの集まりのうちの一つは、ルールベースの手法で生成された音響パラメータの集まりである請求項1から請求項3のいずれか一項に記載の歌声合成装置。
  6. 歌声を合成する歌声合成装置であって、
    複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶した記憶部と、
    前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と、
    前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも2つの歌唱スタイルに対応したベースモデルに基づき、前記インタフェース部により調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出する補間抽出部と
    前記合成用音響パラメータを用いて歌声を合成する合成部と
    を備えた歌声合成装置。
  7. 前記歌唱表現が反映されるパラメータには、少なくともビブラート、しゃくり、アタック・リリース、こぶしのうちの1つに対応したパラメータが含まれる請求項1から請求項6のいずれか一項に記載の歌声合成装置。
  8. 前記歌唱表現が反映されるパラメータには、少なくとも発声開始タイミング、発声終了タイミングのいずれか1つに対応したパラメータが含まれる請求項1から請求項6のいずれか一項に記載の歌声合成装置。
  9. 請求項1から請求項5のいずれか一項に記載の歌声合成装置であって、
    前記歌唱表現の組合せの程度の調整は、前記各音響パラメータの値を補間することにより行なわれる歌声合成装置。
  10. 前記補間は、前記音響パラメータを線形結合または非線形結合することにより行なわれる請求項9記載の歌声合成装置。
  11. 前記補間は、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位のいずれか1つにより行なう請求項9または請求項10に記載の歌声合成装置。
  12. 請求項6に記載の歌声合成装置であって、
    前記歌唱表現の組合せの程度の調整は、前記ベースモデルの内部パラメータを補間することにより行なわれる歌声合成装置。
  13. 前記補間は、前記前記ベースモデルの内部パラメータを線形結合または非線形結合することにより行なわれる請求項12記載の歌声合成装置。
  14. 前記補間は、ベースモデルの状態単位で行なう請求項12また請求項13に記載の歌声合成装置。
  15. 前記補間は、内挿補間または外挿補間である請求項9から請求項14のいずれか一項に記載の歌声合成装置。
  16. 前記記憶されたベースモデルの1つは、予め用意された標準的な音響パラメータからなるベースモデルである請求項1から請求項15のいずれか一項に記載の歌声合成装置。
  17. 請求項1から請求項16のいずれか一項に記載の歌声合成装置であって、
    更に、画像表示装置とポインティングデバイスとを備え、
    前記インタフェース部は、
    前記画像表示装置上に描画されるグラフィカルユーザインタフェースであり、
    前記グラフィカルユーザインタフェースとして前記画像表示装置上に描画された画面を前記ポインティングデバイスにより操作することにより、前記組合せの程度が変更される
    歌声合成装置。
  18. 歌声を合成する歌声合成方法であって、
    複数の歌唱スタイルの歌声の少なくとも1つについて、複数の歌唱スタイルの歌声の少なくとも1つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶し、
    前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し、
    歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも2つの音響パラメータの集まりを選択し、前記選択された少なくとも2つの前記歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して、合成用音響パラメータを決定し、
    前記合成用音響パラメータを用いて歌声を合成する
    歌声合成方法。
  19. 歌声を合成する歌声合成方法であって、
    複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶部に記憶し、
    前記複数の歌唱スタイルの中から選択された少なくとも2つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し、
    前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも2つの歌唱スタイルに対応したベースモデルに基づき、前記調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出し、
    前記合成用音響パラメータを用いて歌声を合成する
    歌声合成方法。
JP2017028630A 2017-02-20 2017-02-20 歌声合成装置および歌声合成方法 Pending JP2017107228A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017028630A JP2017107228A (ja) 2017-02-20 2017-02-20 歌声合成装置および歌声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017028630A JP2017107228A (ja) 2017-02-20 2017-02-20 歌声合成装置および歌声合成方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015238285 Division 2015-12-07

Publications (2)

Publication Number Publication Date
JP2017107228A true JP2017107228A (ja) 2017-06-15
JP2017107228A5 JP2017107228A5 (ja) 2018-12-27

Family

ID=59059550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017028630A Pending JP2017107228A (ja) 2017-02-20 2017-02-20 歌声合成装置および歌声合成方法

Country Status (1)

Country Link
JP (1) JP2017107228A (ja)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
EP3462442A1 (en) * 2017-09-29 2019-04-03 Yamaha Corporation Singing voice edit assistant method and singing voice edit assistant device
CN109817191A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
WO2019239971A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
WO2019239972A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
US20190392798A1 (en) * 2018-06-21 2019-12-26 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
CN110634464A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 电子乐器、电子乐器的控制方法以及存储介质
CN110634460A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 电子乐器、电子乐器的控制方法以及存储介质
JP2020024456A (ja) * 2019-10-30 2020-02-13 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP2020042056A (ja) * 2018-09-06 2020-03-19 株式会社テクノスピーチ 音声合成装置、および音声合成方法
WO2020095950A1 (ja) * 2018-11-06 2020-05-14 ヤマハ株式会社 情報処理方法および情報処理システム
WO2020095951A1 (ja) * 2018-11-06 2020-05-14 ヤマハ株式会社 音響処理方法および音響処理システム
CN111418006A (zh) * 2017-11-29 2020-07-14 雅马哈株式会社 声音合成方法、声音合成装置及程序
CN113257222A (zh) * 2021-04-13 2021-08-13 腾讯音乐娱乐科技(深圳)有限公司 合成歌曲音频的方法、终端及存储介质
CN113421544A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
WO2021218324A1 (zh) * 2020-04-27 2021-11-04 北京字节跳动网络技术有限公司 歌曲合成方法、装置、可读介质及电子设备
WO2022054496A1 (ja) * 2020-09-11 2022-03-17 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
US11417312B2 (en) 2019-03-14 2022-08-16 Casio Computer Co., Ltd. Keyboard instrument and method performed by computer of keyboard instrument
WO2022202415A1 (ja) * 2021-03-25 2022-09-29 ヤマハ株式会社 機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法
JP2022159784A (ja) * 2021-04-05 2022-10-18 日野自動車株式会社 注意喚起システム
WO2022244818A1 (ja) * 2021-05-18 2022-11-24 ヤマハ株式会社 機械学習モデルを用いた音生成方法および音生成装置
CN117238273A (zh) * 2023-09-28 2023-12-15 腾讯音乐娱乐科技(深圳)有限公司 歌声合成方法、计算机设备和存储介质
US12254854B2 (en) 2019-05-23 2025-03-18 Casio Computer Co., Ltd. Electronic musical instrument, control method for electronic musical instrument, and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置
JP2006227589A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2015034920A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音声解析装置
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置
JP2006227589A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2015034920A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音声解析装置
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3462442A1 (en) * 2017-09-29 2019-04-03 Yamaha Corporation Singing voice edit assistant method and singing voice edit assistant device
JP2019066648A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
US10497347B2 (en) 2017-09-29 2019-12-03 Yamaha Corporation Singing voice edit assistant method and singing voice edit assistant device
JP7000782B2 (ja) 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN111418006A (zh) * 2017-11-29 2020-07-14 雅马哈株式会社 声音合成方法、声音合成装置及程序
CN111418006B (zh) * 2017-11-29 2023-09-12 雅马哈株式会社 声音合成方法、声音合成装置及记录介质
WO2019239972A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
US12014723B2 (en) 2018-06-15 2024-06-18 Yamaha Corporation Information processing method, information processing device, and program
US11437016B2 (en) 2018-06-15 2022-09-06 Yamaha Corporation Information processing method, information processing device, and program
JP7127682B2 (ja) 2018-06-15 2022-08-30 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP7124870B2 (ja) 2018-06-15 2022-08-24 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
WO2019239971A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JPWO2019239971A1 (ja) * 2018-06-15 2021-07-08 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JPWO2019239972A1 (ja) * 2018-06-15 2021-06-17 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
EP3588484A1 (en) * 2018-06-21 2020-01-01 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3588486A1 (en) * 2018-06-21 2020-01-01 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
US10629179B2 (en) 2018-06-21 2020-04-21 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
US11545121B2 (en) 2018-06-21 2023-01-03 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
US20190392798A1 (en) * 2018-06-21 2019-12-26 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
US11468870B2 (en) 2018-06-21 2022-10-11 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
CN110634464A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 电子乐器、电子乐器的控制方法以及存储介质
CN110634461A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 电子乐器、电子乐器的控制方法以及存储介质
US10810981B2 (en) 2018-06-21 2020-10-20 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
US10825433B2 (en) 2018-06-21 2020-11-03 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3588485A1 (en) * 2018-06-21 2020-01-01 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
CN110634460A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 电子乐器、电子乐器的控制方法以及存储介质
US11854518B2 (en) 2018-06-21 2023-12-26 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3886084A1 (en) * 2018-06-21 2021-09-29 Casio Computer Co., Ltd. Electronic musical instrument, electronic musical instrument control method
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
JP2020042056A (ja) * 2018-09-06 2020-03-19 株式会社テクノスピーチ 音声合成装置、および音声合成方法
WO2020095951A1 (ja) * 2018-11-06 2020-05-14 ヤマハ株式会社 音響処理方法および音響処理システム
WO2020095950A1 (ja) * 2018-11-06 2020-05-14 ヤマハ株式会社 情報処理方法および情報処理システム
US11942071B2 (en) 2018-11-06 2024-03-26 Yamaha Corporation Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles
US11842720B2 (en) 2018-11-06 2023-12-12 Yamaha Corporation Audio processing method and audio processing system
EP3879521A4 (en) * 2018-11-06 2022-08-03 Yamaha Corporation ACOUSTIC TREATMENT METHOD AND ACOUSTIC TREATMENT SYSTEM
CN113016028A (zh) * 2018-11-06 2021-06-22 雅马哈株式会社 音响处理方法及音响处理系统
JP2020076843A (ja) * 2018-11-06 2020-05-21 ヤマハ株式会社 情報処理方法および情報処理装置
JP2020076844A (ja) * 2018-11-06 2020-05-21 ヤマハ株式会社 音響処理方法および音響処理装置
CN109817191A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
CN109817191B (zh) * 2019-01-04 2023-06-06 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
US11417312B2 (en) 2019-03-14 2022-08-16 Casio Computer Co., Ltd. Keyboard instrument and method performed by computer of keyboard instrument
US12254854B2 (en) 2019-05-23 2025-03-18 Casio Computer Co., Ltd. Electronic musical instrument, control method for electronic musical instrument, and storage medium
JP2020024456A (ja) * 2019-10-30 2020-02-13 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
WO2021218324A1 (zh) * 2020-04-27 2021-11-04 北京字节跳动网络技术有限公司 歌曲合成方法、装置、可读介质及电子设备
JP7578156B2 (ja) 2020-09-11 2024-11-06 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7276292B2 (ja) 2020-09-11 2023-05-18 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP2022047167A (ja) * 2020-09-11 2022-03-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
WO2022054496A1 (ja) * 2020-09-11 2022-03-17 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
WO2022202415A1 (ja) * 2021-03-25 2022-09-29 ヤマハ株式会社 機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法
JP2022159784A (ja) * 2021-04-05 2022-10-18 日野自動車株式会社 注意喚起システム
CN113257222A (zh) * 2021-04-13 2021-08-13 腾讯音乐娱乐科技(深圳)有限公司 合成歌曲音频的方法、终端及存储介质
CN113257222B (zh) * 2021-04-13 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 合成歌曲音频的方法、终端及存储介质
JPWO2022244818A1 (ja) * 2021-05-18 2022-11-24
JP7578192B2 (ja) 2021-05-18 2024-11-06 ヤマハ株式会社 機械学習モデルを用いた音生成方法および音生成装置
WO2022244818A1 (ja) * 2021-05-18 2022-11-24 ヤマハ株式会社 機械学習モデルを用いた音生成方法および音生成装置
CN113421544B (zh) * 2021-06-30 2024-05-10 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
CN113421544A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
CN117238273A (zh) * 2023-09-28 2023-12-15 腾讯音乐娱乐科技(深圳)有限公司 歌声合成方法、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
JP2017107228A (ja) 歌声合成装置および歌声合成方法
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
JP6004358B1 (ja) 音声合成装置および音声合成方法
CN101308652B (zh) 一种个性化歌唱语音的合成方法
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP3823930B2 (ja) 歌唱合成装置、歌唱合成プログラム
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
CN109952609B (zh) 声音合成方法
JP3838039B2 (ja) 音声合成装置
JP2018537727A (ja) 言語および/またはグラフィカルアイコンベースの音楽体験記述子を採用する自動化音楽作曲および生成機械、システムおよびプロセス
EP3975167A1 (en) Electronic musical instrument, control method for electronic musical instrument, and storage medium
JP2014170146A (ja) 日本語歌詞からの多重唱の自動作曲方法及び装置
Umbert et al. Generating singing voice expression contours based on unit selection
Angelini et al. Singing synthesis: With a little help from my attention
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
CN115273806A (zh) 歌曲合成模型的训练方法和装置、歌曲合成方法和装置
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
Ardaillon et al. Expressive control of singing voice synthesis using musical contexts and a parametric f0 model
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP2017097332A (ja) 音声合成装置および音声合成方法
JP6587308B1 (ja) 音声処理装置、および音声処理方法
Wada et al. Sequential generation of singing f0 contours from musical note sequences based on wavenet

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181115

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191015