JP2017107228A

JP2017107228A - 歌声合成装置および歌声合成方法

Info

Publication number: JP2017107228A
Application number: JP2017028630A
Authority: JP
Inventors: 恵一徳田; Keiichi Tokuda; 圭一郎大浦; Keiichiro Oura; 和寛中村; Kazuhiro Nakamura
Original assignee: Techno Speech Inc
Current assignee: Techno Speech Inc
Priority date: 2017-02-20
Filing date: 2017-02-20
Publication date: 2017-06-15

Abstract

【課題】複数の歌唱スタイルを自由に組み合わせて歌声の合成を行なう。【解決手段】複数の歌唱スタイルの歌声の少なくとも１つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する。複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる歌唱表現の組合せの程度を調整する。各歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、ベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含むようにして、少なくとも２つの音響パラメータの集まりを選択し、歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して決定された合成用音響パラメータを用いて歌声を合成する。【選択図】図１

Description

本発明は、歌声合成の技術に関する。

従来から、自然な音声をコンピュータによって合成しようとする装置が種々提案されている。こうした音声合成は、当初、ルールベースで音声を合成するフォルマント音声合成から始まり、やがて特定話者の音声を波形ベースで収集したデータベースを構築し、この中から必要な音声素片を取りだして合成する波形接続型音声合成へと発展した。後者を、コーパスベースの音声合成とも呼ぶ。

こうした技術により、ある程度滑らかに繋がった音声の合成が可能になったものの、自然な発話とまでは言えず、また喜怒哀楽の表現や歌声として自然な音声合成を十分に行なうことは、こうした手法では達成できなかった。そこで、近年になって、音素の素片を接続するといった発想から離れ、音声の生成過程を模擬することにより、より自然な音声合成を実現しようとする試みが提案され、一部では実用化が始まっている。

この手法は、以下のようにして音声を合成する。まず、音声データベースから、基本周波数とスペクトルパラメータを抽出すると共に、音声に対応するテキストを解析して、音声の音響的特徴とテキストとの対応関係を学習した統計的なモデル（音響モデル）を構築する。その上で、合成するテキストが与えられると、音響モデルから音響パラメータ系列を生成し、音声の生成過程を模擬することで、音声を合成する。統計的な音響モデルとしては隠れマルコフモデルを用いることができ、こうした隠れマルコフモデルを用いた音声合成技術は、下記特許文献１などに詳しい。統計的な音響モデルとしては、隠れマルコフモデルの他に、ＤＮＮ（Deep Neural Network）なども知られている。

また、合成される音声に様々な変化を与えることも種々試みられている。例えば下記特許文献２では、各種パラメータを指定することにより、異なる種類の音声を生成したり、異なる複数の音声を重複させて合成することなどが、提案されている。また、特許文献３では、複数の音色の混合比率をテキストの途中で変更する技術が提案されており、時間軸上で、１つの音色から他の音色に次第に遷移しながら音声合成する手法が示されている。

特開２０１３−１９０７９２号公報特開２００６−３３７４６８号公報特開２０１５−０４９２５３号公報

しかしながら、これらの従来技術では、いずれも、音声の合成は、パラメータを指定したり、複数の音色を混合する比率を変更すると言った手法に終始しており、合成する音声の自然な雰囲気を損なうことなく、種々の音声を合成することは困難であった。特に、音声合成を用いて歌声を作り出そうとした場合、歌い手が持っている様々な歌唱スタイルに見られる独自の表現を、自由に調整することは困難であった。歌唱スタイルとは、一つの歌唱に含まれるビブラートやこぶしなどの歌唱表現のある組合せを指し、歌い手毎に特徴的な歌唱スタイルを持っているものとして認識されているが、同じ歌い手でも、例えば、洋楽と民謡など歌の種類により、異なる歌唱スタイルで歌う場合もあり得る。もとより、同じ歌を同じ歌い手が異なる歌唱スタイルで歌うということもあり得る。

こうした異なる歌唱スタイルＡ、Ｂ、Ｃ等の歌声のデータを基にして音声合成を行なう場合、歌唱スタイルＡの特徴と歌唱スタイルＢの特徴とを自然に融合したり、その程度を変更したりすることは困難であった。更には、こうした調整を、音声合成の利用者が自然に行なうインタフェースについても知られていなかった。

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。

（１）本発明の第１の実施形態として、歌声合成装置が提供される。この歌声合成装置は、複数の歌唱スタイルの歌声の少なくとも１つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する記憶部と；前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と；歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、前記選択された少なくとも２つの前記歌唱表現に影響する音響パラメータを、前記インタフェース部により調整された組合せの程度で補間して、合成用音響パラメータを決定するパラメータ決定部と；前記合成用音響パラメータを用いて歌声を合成する合成部とを備えて良い。

この歌声合成装置は、統計的な手法を用いて音響モデルを学習することにより、歌唱表現に影響を与える音響パラメータを歌唱スタイル毎のベースモデルとして記憶でき、これに基づいて、その歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、選択された少なくとも２つの歌唱表現に影響する音響パラメータを、任意の組合せの程度で補間した合成用音響パラメータを用いて、歌声を合成することができる。しかも、組み合わせの程度を、インタフェース部を用いて容易に設定することができる。

（２）こうした歌声合成装置において、前記音響パラメータの集まりには、少なくとも基本周波数、音量、歌唱表現に対応したパラメータのうちの少なくとも一つを含むものとして良い。これらのパラメータを補間することにより、歌唱表現の組合せの程度を容易に調整することができる。

（３）こうした歌声合成装置において、前記音響パラメータの集まりには、更にスペクトルパラメータを含むものとしてよい。スペクトルパラメータを用いることにより、多彩な歌唱表現の組合せの程度を調整することができる。

（４）こうした歌声合成装置において、前記選択される少なくとも２つの音響パラメータの集まりは、いずれも前記記憶されたベースモデルを用いて得られた音響パラメータの集まりとしても良い。ベースモデルを用いた自然な歌声同士の歌唱表現を補間して、歌声を合成することができる。

（５）こうした歌声合成装置において、前記選択される少なくとも２つの音響パラメータの集まりのうちの一つは、ルールベースの手法で生成された音響パラメータの集まりとしても良い。こうすれば、ルールベースで生成された音響パラメータを用いても、歌唱表現の組合せの程度を調整して、歌声合成を行なうことができる。

（６）本発明の第２の実施形態として、もうひとつの歌声を合成する歌声合成装置が提供される。第２の実施形態にかかる歌声合成装置は、複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶した記憶部と；前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と；前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも２つの歌唱スタイルに対応したベースモデルに基づき、前記インタフェース部により調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出する補間抽出部と；前記合成用音響パラメータを用いて歌声を合成する合成部とを備えてよい。

この歌声合成装置によれば、ベースモデルの状態で、歌唱スタイルに含まれる歌唱表現の組合せの程度を調整するので、歌唱表現の組合せの程度を調整したうえで、よりスムースな歌声の合成を行なうことができる。

（７）上記の歌声合成装置において、前記歌唱表現が反映されるパラメータには、少なくともビブラート、しゃくり、アタック・リリース、こぶしのうちの１つに対応したパラメータを含むものとして良い。こうした歌声合成装置によれば、しゃくり（しゃくり上げ、しゃくり下げを含む）、アタック・リリース、こぶしのうちの少なくとも１つについて、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。

（８）上記の歌声合成装置において、前記歌唱表現が反映されるパラメータには、少なくとも発声開始タイミング、発声終了タイミングのいずれか１つに対応したパラメータが含まれるものとして良い。この歌声合成装置によれば、発声開始タイミング、発声終了タイミングうちの少なくとも１つについて、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。

（９）上記の第１の形態の歌声合成装置においては、前記歌唱表現の組合せの程度の調整は、前記音響パラメータの値を補間することにより決定されるものとしても良い。こうすれば、少なくとも２つの歌唱表現の組合せの程度を容易に決定することができる。

（１０）この歌声合成装置において、前記補間は、前記音響パラメータを線形結合または非線形結合することにより行なわれるものとして良い。線形結合を採用すれば、補間演算を簡略化でき、非線形結合を採用すれば、補間の程度を柔軟に設定することができる。

（１１）上記の歌声合成装置において、前記補間は、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位のいずれか１つにより行なうものとしても良い。この場合、補間の対象を細かく設定でき、組合せの際の利便性が向上する。

（１２）上記の第２の形態の歌声合成装置においては、前記歌唱表現の組合せの程度の調整は、前記ベースモデルの内部パラメータを補間することにより行なうものとしてもよい。こうすれば、少なくとも２つの歌唱表現の組合せの程度を、ベースモデルの内部パラメータを用いて容易に決定することができ、歌唱表現の組合せを調整した歌声合成を、一層滑らかに行なうことができる。

（１３）この歌声合成装置において、補間は、前記ベースモデルの内部パラメータを線形結合または非線形結合することにより行なうものとしても良い。線形結合を採用すれば、補間演算を簡略化でき、非線形結合を採用すれば、補間の程度を柔軟に設定することができる。

（１４）上記の歌声合成装置において、前記補間は、ベースモデルの状態単位で行なうものとしても良い。この場合、ベースモデルのモデルの状態単位で補間を行なうので、演算を容易なものとすることができる。なお、補間自体は、ベースモデルの状態単位で行なうが、インタフェース部において、歌唱表現の組合せの程度を調整する際のユーザインタフェースとしては、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位などを単位として組合せの程度の指定を行なうものとしても差し支えない。

（１５）上記の各歌声合成装置において、前記補間は、内挿補間または外挿補間としても良い。この場合、内挿補間により複数の歌唱スタイルの特徴の中間的な特徴を実現することができ、また外挿補間により１つの歌唱スタイルの特徴から遠ざかるような組合せを実現することができる。

（１６）上記の歌声合成装置において、前記記憶されたベースモデルの１つは、予め用意された標準的な音響パラメータからなるベースモデルとしても良い。こうすれば、標準的な音響パラメータとの組合せを容易に実現することができる。

（１７）こうした歌声合成装置において、更に、画像表示装置とポインティングデバイスとを備えるものとして良く、前記インタフェース部は、前記画像表示装置上に描画されるグラフィカルユーザインタフェースであり、前記グラフィカルユーザインタフェースとして前記画像表示装置上に描画された画面を前記ポインティングデバイスにより操作することにより、前記組合せの程度が変更されるものとしても良い。こうすれば、組合せの程度の変更を直感的に行なうことができる。

（１８）本発明の第３の実施形態として、歌声合成方法が提供される。この歌声合成方法は、複数の歌唱スタイルの歌声の少なくとも１つについて、複数の歌唱スタイルの歌声の少なくとも１つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶し；前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し；歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、前記選択された少なくとも２つの前記歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して、合成用音響パラメータを決定し；前記合成用音響パラメータを用いて歌声を合成するものとして良い。

かかる歌声合成方法によれば、統計的な手法を用いて音響モデルを学習することにより、歌唱表現に影響を与える音響パラメータを歌唱スタイル毎のベースモデルとして記憶でき、これに基づいて、その歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、選択された少なくとも２つの歌唱表現に影響する音響パラメータを、任意の組合せの程度で補間した合成用音響パラメータを用いて、歌声を合成することができる。しかも、組み合わせの程度を、容易に設定することができる。

（１９）本発明の第４の実施形態として、歌声を合成するもうひとつの歌声合成方法が提供される。この歌声合成方法は、複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶部に記憶し；前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し；前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも２つの歌唱スタイルに対応したベースモデルに基づき、前記調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出し；前記合成用音響パラメータを用いて歌声を合成して良い。

この歌声合成方法によれば、記憶部に記憶されたベースモデルに基づき、歌唱表現を補間した合成用音響パラメータを抽出するので、歌唱表現の組合せの程度を調整した歌声を、より滑らかに合成することができる。

歌声合成装置の実施形態の概略構成図。ＨＭＭを用いた音響モデルとその学習の原理を示す説明図。歌声合成準備ルーチンを示すフローチャート。歌声のデータから抽出される代表的なパラメータを示す説明図。音響モデルを学習する際の基本単位であるコンテキスト依存の音素を示す説明図。ＨＭＭの状態の集合をクラスタリングする様子を示す説明図。状態継続長モデルと各パラメータの決定木の様子を示す説明図。歌声合成処理ルーチンを示すフローチャート。歌詞と音程の時間との関係を示すユーザインタフェースの一例を示す説明図。複数の歌い手の歌唱スタイルの補間割合の編集画面の一例を示す説明図。補間割合の変更の具体的な手法の一例を示す説明図。歌い手毎の歌唱スタイルに対応して用意されたベースモデルの編集画面の一例を示す説明図。合成された歌声のピッチを表示する画面の一例を示す説明図。第２実施形態における補間割合の設定方法を示す説明図。

本発明のいくつかの実施形態について、図面を参照しながら説明する。図１は、本発明の歌声処理装置の第１実施形態を示す概略構成図である。図１に示した歌声処理装置１００は、予め音響パラメータを処理して音響モデルを学習するための構成と、実際に歌声を合成する構成、即ち歌声合成装置としての構成との両方を含んでいる。単に歌声の合成のみを行なうのであれば、前者の構成は必要ない。ここでは、両方を併せて説明するが、歌声合成のみを行なうのであれば、学習済みの音響モデルをハードディスクなどの記憶部に記憶しておき、この音響モデルを用いて音声合成を行なえばよい。

図１に示した歌声処理装置１００は、ネットワークＮＷを介して接続されたコンピュータＰＣ１と、サーバ３０およびサーバ３０に接続されたもう一台のコンピュータＰＣ２とから構成されている。もとより、歌声処理装置１００は、一台のコンピュータによって構成することもできるし、ネットワーク上に分散して置かれた複数のコンピュータから構成することも可能である。

コンピュータＰＣ１は、歌声を入力するために設けられており、楽譜入力部１０および歌唱（歌声）を入力するための音声入力部２０を備える。楽譜入力部１０は一般にはキーボードが用いられ、音声入力部２０としてはマイクが用いられる。歌い手が音声入力部２０としてマイクに向かって歌い、その歌詞を含む楽譜を楽譜入力部１０であるキーボードから入力すると、楽譜と歌声とが対応付けられ、歌唱スタイル毎のインデックスを付けて、例えばデータＡ、データＢ・・・データＮとして、コンピュータＰＣ１内に保存される。楽譜を入力する場合、五線紙に記載された楽譜の形で入力しても良いが、鍵盤タイプのキーボードを用いて入力しても良い。楽譜の入力は歌声を入力する前であっても差し支えない。なお、歌い手が歌った歌の音程や音の長さは、必ずしも予め用意した楽譜と一致するとは限らないので、楽譜を予めデータとして入力しておいた場合、歌声の入力後で、実際に歌われた歌に合せて、楽譜を修正すれば良い。

楽譜を楽器などを用いて入力する場合は、楽譜入力部１０として、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞（日本語の場合は、各音に対応したかな文字列）の入力とを、対応付けながら行えば良い。各歌唱スタイル毎の歌唱の楽譜と歌声のデータは、一つの歌唱スタイル当たり少なくとも数分分蓄積される。後述するように、この楽譜と歌声のデータは、サーバ３０内の音響パラメータ学習部により解析される。解析するためには、楽譜と歌声のデータに、全ての音素やその組み合わせ、全ての歌唱表現が含まれている必要はないが、統計的な学習が可能な程度の種類の音素とその組み合わせ、および種々の歌唱表現が含まれていることが望ましい。従って、一般に、おおよそ数分から数十分程度の歌声が必要とされる。

歌声入力用のコンピュータＰＣ１をサーバ３０と分離したのは、複数の歌唱スタイルのデータ入力を容易にするためである。コンピュータＰＣ１は、マイクを備えたノートパソコンなどにより実現でき、簡易に持ち運んで、楽譜と歌声を採取・保存することができる。なお、この例では、歌声は、直接マイクなどの音声入力部２０から入力するものとしたが、音源は生歌である必要はなく、ＣＤやＤＶＤなどに記録された歌声から採取するものとしても差し支えない。あるいはネットワークＮＷを介して入力するものとしても良い。また、後述するように、歌唱スタイル毎に、音響モデルを構築することから、歌唱表現を含めて、同じ歌唱スタイルの歌声としては、同一または似通った歌い方の音源（通常は同じ歌い手の音源）を用いることが望ましい。また、その歌唱スタイルの特徴がもっと良く表現された音源を用いることが、より望ましい。

こうして採取・記録された歌声のデータは、ネットワークＮＷを介してサーバ３０に送られ、サーバ３０内のハードディスク３１に保存される。サーバ３０内には、楽譜解析部３３と音響パラメータの学習部４０と音響モデル記憶部５０とが備えられている。音響モデル記憶部５０が、各歌唱スタイル毎に音響モデルを記憶する記憶部の下位概念に相当している。またサーバ３０には、この他、パラメータ調整部５５，楽譜解析部５７，音声合成部６０が設けられており、音響モデル記憶部５０と共に、歌声合成装置を構成している。パラメータ調整部５５がパラメータ決定部の下位概念に、音声合成部６０が合成部の下位概念に、それぞれ相当する。

パラメータ調整部５５と楽譜解析部５７は、コンピュータＰＣ２との間でデータのやり取りを行なう。コンピュータＰＣ２には、キーボード５１、マウスなどのポインティングデバイス５２、および表示部５３が設けられている。キーボード５１からは、主に合成しようとする歌声の楽譜のデータが入力される。また表示部５３には、後述する音響パラメータの組合せとその程度を示すグラフィカルインタフェースが表示される。コンピュータＰＣ２は、グラフィカルインタフェースを用い、ポインティングデバイス５２により、この音響パラメータの組合せやその程度（組合せの割合）などを指定あるいは修正することができる。コンピュータＰＣ２が、インタフェース部の下位概念に相当する。音響パラメータの組合せやその程度を調整する手法については、後で詳しく説明する。

サーバ３０内の学習部４０について説明する。学習部４０は、ハードディスク３１内に記憶された各歌唱スタイル毎の楽譜と音声データとから、音響モデルを構築するための学習を行なう。この学習は、最終的に歌声の合成を行なうためになされるので、本実施形態で用いる歌声合成の手法について先にその概略を説明する。本実施形態では、人が歌声を生成するのに用いている声帯や口蓋などの諸器官を、音源（励振源）と所定の伝達特性を持ったフィルタであるとして捉え、これをデジタルフィルタにより模擬する。このとき、音声波形から抽出されたスペクトルパラメータ、基本周波数、有声／無声などの情報からなる音響パラメータの時間軸に沿った列を用いる。これらの音響パラメータの列を、楽譜から推定することができれば、楽譜からそれに対応した音声を合成することができる。そこで、実際の歌声のデータと楽譜とから、音響パラメータの列とそれに対応する楽譜との関係を学習して、音響モデルを学習するのである。こうした音響モデルとしては、隠れマルコフモデル（ＨＭＭ）が採用可能である。

図２は、ＨＭＭを用いた音響モデルとその学習の原理を示す説明図である。１つの音素の発声はその前後の音素（先行音素と後続音素）の影響を受ける。前後の音素が異なれば、発声される音素の音響パラメータは異なるものとなるのである。図２において、「１」はある音素の始まりの辺りを、「２」は真ん中辺りを、「３」は最期の方を、それぞれ表している。発生される一つの音素を、このモデルでは、こうした三つの状態として表現している。このとき、「１」の部分は、当該音素に先行する先行音素の影響を受けやすく、「３」の部分は、当該音素に後続する後続音素の影響を受けやすい。先行音素や後続音素は、発声される音素にとっての最も基本的なコンテキストになる。

図２において、ａijは、遷移確率を示している。ｉ＝ｊの場合には、音素の同じ部分に留まる確率を示し、ｊ＝ｉ＋１の場合には、次の部分に遷移する確率を示す。このとき、観測系列ｏは、出力確率密度関数ｂq（ｏｔ）により得られる値となる。ｑは、このときの状態系列である。説明を簡略にするために、図２では、一つの音素を３つの部分からなるものとして例示し、先行音素と後続音素の影響を受けるものとしたが、実際の音声合成では、更に他のコンテキストも参照する。つまり、コンテキスト依存モデルを用いるのであり、この点は図５を用いて後で詳しく説明する。本実施形態では、楽譜と歌声データとから、ＨＭＭを学習するのであり、一旦、歌唱スタイル毎に学習されたＨＭＭが出来上がれば、このＨＭＭを用いて、楽譜から歌声を合成するのである。こうしたＨＭＭで学習される状態遷移確率ａijと出力確率密度関数ｂq（ｏt）は、最尤推定法の一つである期待値最大化（ＥＭ）アルゴリズムを用いて推定することができる。

次に、ＨＭＭの学習で用いられる音響パラメータについて説明する。基本的に音響パラメータとして、音声波形から抽出されたスペクトルパラメータ、基本周波数、有声／無声情報が想定されることは既に説明した。ここで、スペクトルパラメータとしてはメルケプストラムや線スペクトル対（ＬＳＰ）などを用いる。本実施形態では、メルケプストラムを用いた。メルケプストラムとは、音声信号のフーリエ変換の対数を更に逆フーリエ変換したものに、人の聴覚特性を考慮して低周波数領域の情報を多く持つようにしたものである。基本周波数は、一般に対数領域の値を用いる。有声／無声情報とは、母音のように周期的な音声か子音のように周期性のない音声かの区別である。基本周波数は、有声区間で連続値を取り、無声区間で値を持たない。この他、動的特徴と呼ばれるパラメータも用いられる。動的特徴とは、基本周波数やメルケプストラムなどのパラメータの時間方向の１次微分（デルタ）や二次微分（デルタデルタ）に対応するパラメータである。これらのパラメータは、ＨＭＭが時系列データの時間軸方向の相関関係をモデル化しにくいという点を補うために用いられる。動的特徴を扱うことで、音素列を合成する際のつなぎ目が滑らかになる。

ここまで、音響モデルは、スペクトルパラメータや基本周波数を用いた隠れマルコフモデルであるとして説明したが、実際に用いられるモデルはもっと複雑である。以下、実際に導入されているモデルについて簡略に説明する。
（Ａ）状態継続長モデル：歌声の中に含まれる各音素の長さは、歌唱スタイルなどによって変動することから、音声の時間的な構造（どれだけその音素が継続するか）をより精度良くモデル化するために、明示的な状態継続長分布を用いている。こうした状態継続長モデルを付加したＨＭＭを、隠れセミマルコフモデルと呼ぶ。
（Ｂ）コンテキスト依存モデル：基本周波数や継続長は、歌詞に含まれる言語的な情報の影響を受けやすい。このため、歌詞の言語情報と、更に楽譜から得られる音高、テンポ、調性、拍子などのコンテキストを考慮してモデル化している。
（Ｃ）多空間確率分布ＨＭＭ：歌声を含む音声には無声区間があって、そこでは基本周波数の時系列データそのものが存在しない。本実施形態では、こうした特殊な時系列を扱うために、多空間確率分布ＨＭＭ（ＭＳＤ−ＨＭＭ）を用いる。

（Ｄ）歌唱表現モデル：歌声には、楽譜から見た場合、様々なズレが存在する。これを広義の歌唱表現と呼ぶ。歌唱表現は、一般に歌唱スタイル毎に異なり、特定の歌唱スタイルによる歌唱を特徴付けるものとなっている。これらも歌唱スタイルの特徴を学習するのに用いられる。以下、広義の歌唱表現に含まれるものを挙げる。歌唱表現には、これら全てが含まれる必要はないが、これらの少なくとも１つは、歌唱スタイルを特徴付けるものとして用いられ、歌唱スタイル毎のベースモデルとして扱われる。
（１）タイミング：実際の歌声は、楽譜から計算される音符の時間軸上の位置から意図せずもしくは意図的にずれることがある。例えば、子音はその音符の開始タイミングより少し前で発声されることが多い。また「前ノリ」「後ノリ」「タメ」など、発声のタイミングを意図的にずらす歌唱表現が存在する。このため、楽譜から計算される絶対的な時間を基準とした実際の発声との時間的なズレを、音素単位でモデル化している。
（２）ビブラート：ビブラートは、音高および音量の少なくとも一方を周期的に揺らす歌唱表現である。歌声においてビブラートがかかるタイミングやその周期、振幅の変化は、歌唱スタイル毎に異なるため、歌唱スタイル毎の音響モデルの学習に用いられる。ビブラートは、更にその周期と振幅の２つのパラメータとして扱われ、音響モデルに組み込まれる。
（３）その他の歌唱表現：上記のビブラート以外にも様々な歌唱表現が存在する。例えば、「こぶし」「しゃくり上げ」「しゃくり下げ」「アタック・リリース」などがある。こうした歌唱表現は、周期と振幅のパラメータや、基本周波数の音素途中で変動量として扱うことができ、音響モデルに組み込まれる。
本明細書では、上述した各モデルを含めて、ＨＭＭ（隠れマルコフモデル）と称する。

図１に戻って、サーバ３０内の構成について、更に説明する。サーバ３０には、ハードディスク３１に記憶された歌声のデータから、歌声の基本周波数やその微分（デルタパラメータ）などを抽出するＦ０抽出部４１、歌声に含まれるスペクトルパラメータやその微分（デルタパラメータ）を抽出するＳＰ抽出部４３、上述した広義の歌唱表現パラメータを抽出する歌唱Ｐ抽出部４４、これらの抽出したパラメータを用い隠れマルコフモデル（ＨＭＭ）を用いて、音響パラメータを学習するＨＭＭ学習部４５が含まれる。各抽出部４１，４３，４４は、音響パラメータの特徴を、音符単位やフレーム単位など、特徴に合せた単位で抽出する。Ｆ０抽出部４１は、パラメータとして、対数基本周波数の他、それらの微分値を抽出する。ＳＰ抽出部４３が抽出するスペクトルパラメータには、メルケプストラムやその微分値が含まれる。歌唱Ｐ抽出部４４は、これら以外の歌唱表現パラメータとして、ビブラートに関するものやその微分値の他、しゃくり、こぶし、アタック・リリースに対応したパラメータを抽出する。

図３を用いて、歌声合成の準備のために実行される処理について説明する。図３に示した歌声合成準備ルーチンの前半（ステップＳ１００〜Ｓ１３０）は、コンピュータＰＣ１により実行される。後半（ステップＳ１４０〜Ｓ１７０）は、サーバにより実行される。

この歌声合成準備ルーチンが開始されると、まず歌唱スタイルを指定する処理が行なわれる（ステップＳ１００）。歌唱スタイルＡなり歌唱スタイルＢなりが指定されると、次に歌声のデータの入力が行なわれる（ステップＳ１１０）。歌声のデータは、少なくとも数分分の歌唱を、マイクなどの音声入力部２０を介して入力し、デジタルデータとして記憶することにより入力される。続いて楽譜入力部１０により楽譜の入力が行なわれる（ステップＳ１２０）。歌声データに対して、入力された楽譜から抽出された音程と歌詞（発音）とが対応付けられる。

次に、音響モデルを作成しようとしている全ての歌唱スタイルについて処理が完了したかを判断し（ステップＳ１３０）、全ての歌唱スタイルについての処理が完了するまで、上述したステップＳ１００ないしＳ１２０の処理を繰り返す。

こうして全ての歌唱スタイルについての歌声データの入力とその歌声に対応した楽譜の入力とが完了すると（ステップＳ１３０）、次にこの歌声データと楽譜とを受け取ったサーバ３０において、データの解析が行なわれる（ステップＳ１４０）。データの解析は、ハードディスク３１に記憶された各歌唱スタイルの歌声を順次取り出して行なわれる。データ解析には、楽譜解析部３３を用いた楽譜の解析と、学習部４０のＦ０抽出部４１による基本周波数およびその関連パラメータの解析、ＳＰ抽出部４３によるスペクトルパラメータ（ＳＰ）およびその関連パラメータの解析、更には、歌唱表現関連のパラメータの解析が含まれる。図４に、こうした解析により抽出される各種パラメータを例示した。

基本周波数は、いわゆる対数基本周波数ｐｔとして扱われており、その関連パラメータとしては、有声／無声の区別、対数基本周波数の一次微分（Δｐｔ）や二次微分（Δ^２ｐｔ）が考えられる。これらは音源情報と呼ばれることがある。また、スペクトルパラメータとしては、メルケプストラムｃｔやその一次微分（Δｃｔ）、二次微分（Δ^２ｃｔ）などがある。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報を扱う。

歌唱表現情報には、ビブラートの周期Ｖｆとその振幅Ｖａおよびそれらの一次微分（ΔＶｆ，ΔＶａ）と二次微分（Δ^２Ｖｆ，Δ^２Ｖａ）、しゃくりに関するパラメータＳ１〜Ｓ６、アタック・リリースに関するパラメータＡＲ１〜ＡＲ６などが含まれる。もとより、こぶしなどの情報を解析しても良い。本実施形態では、しゃくりとアタック・リリースに関しては、「長さ」「高さ」「急峻度」の３つのパラメーターを音符の先頭と末尾に、それぞれ持っている。従って、それぞれ６つのパラメータからなる。しゃくりのパラメータ等の学習の手法は、後で説明する。上記パラメータのうち、メルケプストラムｃｔを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、歌声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。

続いて、解析したデータを用いて、ＨＭＭ学習を行なう（ステップＳ１５０）。ＨＭＭ学習は、抽出した各パラメータを学習して、隠れセミマルコフモデルを得るために行なうものであり、概略以下の処理を行なう。上述したように、ＨＭＭ学習は、基の歌声データに含まれる音素毎に行なうが、音素を単独で扱うのではなく、音声合成において、音声変動を引き起こす多数の要因と共にＨＭＭ学習を行なう。合成しようとする音声に音声変動を引き起こす要因としては、例えばその音素の前後の音素の組み合わせ（前後の音素と当該音素の組合せである音素列トライフォンや、更にその前後の音素を考慮したクインフォンなど）や、楽譜情報や言語情報などがある。楽譜情報としては、前後の音素の音程や、休止符の長さなどがある。また言語情報としては、当該音素が属する語の品詞、活用形あるいはアクセントの位置、アクセント型など種々の情報がある。これらの要因をまとめて、コンテキストと呼ぶ。

滑らかな音声合成を行なう場合、考慮すべき要因は多数に上るが、学習の手法を概説するために、図５では、コンテキスト付きの音素の一例として上記のトライフォンを示した。図５は、「さっぱりわからない」という歌声を例に、トライフォンを取り出す場合を示す説明図である。「さっぱりわからない」という音声データの中には、音素ａは複数回出現するが、同じ音素であっても前後の音素等のコンテキストが異なると音声の音響的特徴は異なる。そのため当該音素が同じａであっても、前後の音素を考慮したトライフォンとして別々にモデル化する。ハードディスク３１に記憶された歌声から、音素を、コンテキストを考慮した状態で順次取り出す。コンテキストが考慮された音素を、以下、コンテキスト依存音素と呼ぶ。数分から数十分の歌声から取り出されるコンテキスト依存音素の数は数百から数万に上る。ハードディスク３１から取りだしたコンテキスト依存音素の全てに対して、図２に示した状態遷移確率ａijと出力確率密度関数ｂq（ｏt）を学習する。つまり、コンテキスト依存音素が属するフレーム毎に図４に示したパラメータを抽出し、各コンテキスト依存音素のＨＭＭを学習するのである。

続いて、ＨＭＭ学習がなされたコンテキスト依存音素に対して、コンテキストクラスタリングを行なう（ステップＳ１６０）。これは、ＨＭＭ学習されたコンテキスト依存音素をクラスタリングして、各クラスタ毎に代表的なガウス分布を求める処理に相当する。各クラスタ毎に代表的なガウス分布が求められれば、クラスタリングされたコンテキスト毎に音声合成が可能なモデルが得られたことになる。このモデルを、状態共有のあるコンテキスト依存モデルと呼ぶ。換言すれば、クラスタリングすることにより、状態共有のないコンテキスト依存モデルから、音声合成に用いる状態共有のあるコンテキスト依存モデルが得られ、結果的に、状態共有のあるコンテキスト依存モデルを選択するための決定木が構築されるのである。以下の説明では、クラスタリング後の、つまり状態共有のあるコンテキスト依存モデルについて扱うので、これを単に「コンテキスト依存モデル」と呼ぶ。音声合成の際には、可能であれば、コンテキストが同一のコンテキスト依存モデルを用いることが望ましい。しかし、限られた音声データからは、上述したように、全てのコンテキストの組み合わせに対応する音素が得られる訳ではなく、全てのコンテキストの組み合わせに対応したコンテキスト依存モデルが得られる訳ではない。そこで、クラスタリングにより、決定木を作り、音声合成時に、最も適したコンテキスト依存モデルを選択できるように準備するのである。クラスタリングがなされた決定木の一例を、図６に示した。図６において、太い矢印は、各二分木の分岐条件に対する判断が「ＹＥＳ」である場合を、細い矢印は各二分木における判断が「ＮＯ」であることを示している。決定木において、どのような質問（分岐条件）をどのように配置するかという点について以下説明する。

ハードディスク３１に保存した音声データから得られるコンテキスト依存音素の集合がどのようなものになるかは音声データに依存するから、決定木を構成する質問（分岐条件）と各リーフノードの中身とは、事前には分からない。従って、コンテキスト依存音素の集合を分割するための適切な質問や分割後の適切な決定木の形などを予め決めることはできない。このため、コンテキスト依存音素の集合を分割するための適切な質問を予め用意し、同じ状態位置の全てのコンテキスト依存音素を取り出し、用意した全ての質問を適用し、分割後の各ノードの代表的なコンテキスト依存モデルが最も良いものになるような質問を選択して、コンテキスト依存音素の集合を分割する。具体的には、まず一つのリーフノードに全てのコンテキスト依存音素が入っているものとし、全ての質問を適用して、最も適切な質問を探す。最も適切な質問が見つかったら、その質問でそのリーフノードを分割することで、コンテキスト依存音素の集合を二つに分け、新たにできたリーフノードに対して、同様に、残りの全ての質問を適用し、そのノードに対する最も適切な質問を探す。分割するノードとそのノードに対する最も適切な質問の組合せがみつかれば、そのノードをその質問で分割し、得られたリーフノードに対して、同じ処理を繰り返す。こうして決定木が適切な大きさになるまで、同様の処理を繰り返す。適切な大きさとは、学習データの多様性を表現しつつも過度に依存しないバランスの取れた大きさであり、空のリーフノードがなく、各リーフノードに数個から数百個程度のコンテキスト依存音素が割り当てられている状態を言う。

このような手法でクラスタリングを行なうと、ハードディスク３１に保存された音声データから、特定の音素に関して十分なコンテキスト依存音素が得られない場合でも、音声合成を行なうための決定木が得られる。決定木を作る際に、空のリーフノードができないように質問を選択するので、元の音声データに存在しないコンテキスト依存音素を合成しようとすると、類似のコンテキスト依存音素が集められたリーフノードに辿り着き、そのリーフノードのコンテキスト依存モデルを用いて音声合成を行なうことができる。

クラスタリングが終わり、決定木が得られたら、得られた全てのリーフノードについて、代表的なガウス分布を求める処理を行なう（ステップＳ１７０）。コンテキスト依存音素のＨＭＭ学習がなされ、更にそのコンテキスト依存音素のクラスタリングが行なわれて得られたリーフノード毎に代表的なガウス分布が求められたということは、その歌唱スタイルでの音声合成を行なうためのコンテキスト依存モデルが得られたということである。こうした決定木は、状態の数だけ作られる。この様子を図７に模式的に示した。１つのコンテキスト依存音素に着目すると、一つのコンテキスト依存音素に属する各状態は、状態継続長モデルにより、各状態が継続する長さが与えられる。多数のコンテキスト依存音素からこの状態継続長を決定する二分木が学習されている。これを状態継続長の決定木と呼ぶ。同様に、解析されたパラメータ毎に、メルケプストラムの決定木や基本周波数の決定木、音高のビブラートの決定木、などが構成される。他の歌唱表現の特徴のうち、タイミングモデルからは、タイミングの決定木が、しゃくり上げやしゃくり下げを含むしゃくりモデルからは、しゃくりの決定木が、アタック・リリースモデルからは、アタック・リリースの決定木が、それぞれ作られる。

歌唱表現に関するモデルとその決定木の作り方について、しゃくりを例にして以下簡略に説明する。しゃくりやアタック・リリースなどのパラメータは、まずしゃくりのパラメータを無視してＨＭＭ学習とクラスタリングを行なって音響モデルを作り、これを用いて、歌声合成を行なう。合成されたものは、しゃくりを含まない歌声である。そして、しゃくりを含むものとして予め記憶した音声データの基本周波数の系列を、しゃくりを含まない音響モデルから生成した歌声の基本周波数の系列と比較する。両者の差分は、しゃくりの有無であることから、これからコンテキストを考慮したしゃくりモデルを構築し、コンテキストクラスタリングによりしゃくりの決定木を作ることができる。アタック・リリースについては、ボリュームに関して差分をとる同様の処理を行ない、これからアタック・リリースモデルを構築し、アタック・リリースの決定木をつくる。このようにして、特定の歌唱スタイルの歌声データを基にして、これらの決定木の集合が求められるということが、結局その歌唱スタイルの音響モデルが学習されたことに他ならない。

サーバ３０の学習部４０による学習は、上記のように行なわれる。そこでサーバ３０では、全ての歌唱スタイルについて上記のデータ解析（ステップＳ１４０）、ＨＭＭ学習（ステップＳ１５０）、クラスタリングによる決定木の構築（ステップＳ１６０）、各リーフノードの代表的なガウス分布の決定（ステップＳ１７０）が完了したかを判断し（ステップＳ１８０）、完了していなければ、次の歌唱スタイルについての上記処理を繰り返す。全ての歌唱スタイルについて、上記の処理が完了したと判断すれば、図３に示した歌声合成準備ルーチンを終了する。学習された各歌唱スタイルの音響モデルは、音響モデル記憶部５０に歌唱スタイルＡのモデル（Ａモデルと記載。以下同じ）、Ｂモデル、Ｃモデル・・・Ｎモデルとして記憶される。

以上で、歌声合成のための準備が完了する。本実施形態では、こうした準備から説明したが、各歌唱スタイル毎の音響モデルの学習を別に行ない、その結果だけを利用することも差し支えない。音響モデルの学習は、上記の手法に限らず、他の手法によっても良い。歌唱スタイルを利用した、以下に説明する歌声合成を行なうだけであれば、図１におけるモデル記憶部５０、パラメータ調整部５５、楽譜解析部５７、音声合成部６０などがあれば足りる。

次に歌声合成処理について説明する。上述した歌声合成準備ルーチン（図３）が実行されると、サーバ３０の音響モデル記憶部５０には、各歌唱スタイル毎の音響モデルが記憶された状態となる。音声合成は、この歌唱スタイル毎の音響モデルを用い、サーバ３０とコンピュータＰＣ２とを用いて行なう。サーバ３０には、パラメータ調整部５５、楽譜解析部５７、音声合成部６０が設けられている。パラメータ調整部５５は、後述するように、複数の歌唱スタイル毎の歌唱表現のベースモデルの組み合わせに従って、音響パラメータを調整するために設けられている。ベースモデルを用いたパラメータの調整については、後で詳しく説明する。または楽譜解析部５７は、合成しようする歌声を表した楽譜を解析して、合成すべき音素列（音程と音素の組み合わせ）を初めとする歌声合成に必要な諸情報を出力する。歌声合成に必要な諸情報とは、歌声の合成の際に、上述した決定木を辿るための情報、例えばシラブル内の何番目の音素か、と言った言語情報や、スタッカートが付与されているか、といった楽譜情報などである。これらの情報を用いて、決定木を辿り、歌声合成に必要なパラメータを取り出す。パラメータ調整部５５及び楽譜解析部５７の出力を受けて、音声合成部６０は音声の合成を行なう。

音声合成部６０は、音声パラメータ生成部６１、音源生成部６３、合成フィルタ６５等を備える。音声パラメータ生成部６１は、楽譜解析部５７の出力を受け取り、歌声を合成しようとする歌唱スタイルの学習済みの音響モデルから、基本周波数やメルケプストラムパラメータ、歌唱表現パラメータなどの各種パラメータを生成する。音源生成部６３は、基本周波数やビブラート、しゃくり上げ、しゃくり下げなどの音の高低に関与するパラメータを受け取って、励振源を時間軸に沿って生成する。また、合成フィルタ６５は、主にメルケプストラムにより音声を合成するフィルタである。こうしたフィルタとしては、例えばＭＬＳＡフィルタなどが知られている。歌唱表現パラメータのうち、音源生成部６３での音源生成に関与しないパラメータは、メルケプストラムの一部として、合成フィルタ６５に入力される。

サーバ３０が、コンピュータＰＣ２と共に実行する歌声合成処理については、図８を参照しつつ説明する。サーバ３０は、まずコンピュータＰＣ２から歌唱スタイルの指定を受け付ける（ステップＳ２００）。これは、音響モデルが音響モデル記憶部５０に記憶された複数の歌唱スタイルをコンピュータＰＣ２の表示部５３に表示し、使用者に、ポインティングデバイス５２を用いて選択させることにより行なわれる。歌唱スタイルの指定は、一以上であれば良いが、本実施形態では、複数の歌唱スタイルの歌唱を合成することから、２以上の歌唱スタイルを選択するものとする。ここでは、歌唱スタイルＡ，Ｂ，Ｃの３つが選択されて、指定されたものとする。

次に、入力した音譜を解析する処理を行なう（ステップＳ２１０）。使用者が歌声を合成しようとする歌の楽譜をキーボード５１等を用いてコンピュータＰＣ２から入力すると、サーバ３０は、この楽譜を楽譜解析部５７により解析するのである。楽譜の入力は、例えば図９に示したピアノロール画面により入力することができる。このとき、キーボード５１としては、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞（日本語の場合は、各音に対応したかな文字列）の入力とを、対応付けながら行えば良い。また、強弱記号や、スタッカートなどの他の楽譜情報を入力するために、画面上に専用のボタンを設け、画面のボタンをクリックすることで、楽譜上にこれらの楽譜情報を簡単に書き込めるようにしても良い。専用のキーボードは、ＵＳＢやＭＩＤＩなどのインタフェースを用いて、コンピュータＰＣ２に接続することができる。

図９の例では、表示部５３にピアノロールが表示される。ピアノロールの画面では、縦軸が音の高さに、横軸が音の長さと時間軸上の前後方向に、それぞれ相当し、平均律による一音の高さと四分音符を単位とする音の長さにより、画面が枡目状に分割される。鍵盤タイプのキーボードを操作すると、鍵盤位置に応じて音の高さが特定される。またキーを押している時間によって、四分音符を基準長さとして、横方向の長さが特定される。更に、テキスト入力用のキーボードから各音に対応する歌詞のかな文字列が入力される。図９の例では、「さ」「い」がそれぞれ四分音符１つ分の長さを持ち、「た」が四分音符２個分の長さを持つことが指定されている。四分音符より短い八分音符や十六分音符などを音の長さの入力単位としてもよい。入力単位の音符長さより短い長さの音を入力する場合や三連符などを入力する場合には、その音に対応する枡目をポインティングデバイス５２により指定して、右クリックでメニューを表示させ、メニューの中から「分割」や「三連符」などのコマンドを選択して指定すれば良い。

こうして入力された楽譜をステップＳ２１０では楽譜解析部５７を用いて解析し、後述する音声合成において、利用できるよう、音の高さ等のコンテキストを持った音素列のデータとして、図示しない記憶部（ＲＡＭなど）に記憶する。次に、音声パラメータの生成を行なう（ステップＳ２２０）。この処理は、音声合成部６０の音声パラメータ生成部６１の処理に相当する。具体的には、ステップ２１０においてコンピュータＰＣ２から入力され楽譜解析部５７を用いて解析された音素や音程、およびこれに付随するコンテキストを用いて、歌声合成に必要な音響パラメータを生成する処理である。各歌唱スタイルの音響モデルは、音響モデル記憶部５０に記憶されているから、この中から、指定された歌唱スタイルの音響モデルを参照するのである。各歌唱スタイルの音響モデルは、ＨＭＭ学習により各種決定木によりクラスタリングされた統計的モデルとして記憶されているから、指定された歌唱スタイルの歌声を合成するのに必要な各種パラメータを、この音響モデルを基に生成する。

次に、補間割合設定処理を行なう（ステップＳ２３０）。この処理は、コンピュータＰＣ２の表示部５３に、ステップＳ２００で指定した複数の歌唱スタイルを表示し、各歌唱スタイルの歌唱表現の割合を設定する処理である。こうした歌唱表現の時間軸上の強弱をプリセットと呼ぶ。「プリセット」と呼ぶのは、複数の歌唱スタイルの歌唱表現の特徴をどのように反映して歌声を合成するかを、実際の音声合成に先立って設定するからである。プリセットは、各歌唱スタイルの歌唱表現の特徴を、時間軸上でどの程度強く、あるいは弱く反映したいかという相対的な指定である。本実施形態では、複数の歌唱スタイルの歌唱表現を重畳して音声合成を行なうため、複数の歌唱スタイルに対応した各ベースモデル間の補間を行なう必要がある。この補間割合の編集画面の一例を図１０に示した。この例では、補間割合は、横軸を時間として、各歌唱スタイルの歌唱表現の補間の割合を縦方向に積み上げた積み上げグラフの形態で示されている。デフォルトでは、各歌唱スタイルＡ，Ｂ，Ｃの割合は、選択した歌唱スタイルの数（この例では３）に応じた割合（１／３）ずつとなっている。画面において、歌唱スタイルＡとＢとの間には、境界線ＬＡＢが示され、歌唱スタイルＢとＣとの間には、境界線ＬＢＣが示されている。使用者は、ポインティングデバイス５２を用いて、この境界線ＬＡＢ，ＬＢＣを自由に移動することができる。ここでは、補間割合を編集しているので、各歌唱スタイルの合計は１００％であり、一定である。従って、境界線を移動しても、画面上の全体の高さは変わらない。つまり、例えば境界線ＬＢＣ上の点ＰＢＣをポインティングデバイス５２でつまんで上下に移動すると、移動によって、境界線両側の歌唱スタイルの割合は相補的に増減するが、移動されている境界線を共有していない歌唱スタイルの割合は変化しない。

こうした境界線の移動は、簡易には、ポインティングデバイス５２によって指定した点の上下移動により、所定の曲線で、つまり特定した点の周辺も変化するように行なわれる。もう少し、細かく調整したい場合には、例えば図１１に示すように、境界線を自由曲線（ベジェ曲線など）とみなし、ポインティングデバイス５２による境界線上の指定によって、アンカーポイントとハンドルを表示させて行なえば良い。図１１の例では、境界線ＬＡＢ上のある点ＰＡＢにカーソルＫＳを表示させた状態で（図１１（Ａ））、ポインティングデバイス５２に供えられたボタンをクリックすると（図１１（Ｂ））、点ＰＡＢにアンカーポイントが、また点ＬＡＢからその接線方向にハンドルＨｕ，Ｈｄが表示される（図１１（Ｃ））。

この状態で、ポインティングデバイス５２により、カーソルＫＳを使って、ハンドルＨｕまたはＨｄを掴んで、これを移動すると、ハンドルの移動量に応じて、境界線ＬＡＢを変形することができる（図１１（Ｄ））。このとき、ハンドル操作により境界線が変形する範囲は、ハンドルの長さによる。従って、カーソルＫＳを用いて、ハンドルＨｕ，Ｈｄをそれぞれその線分方向に移動することにより、ハンドルの長さ（アンカーポイントからの隔たり）を変更することができる。ハンドルを長くすれば、ハンドル操作により影響を受ける範囲は広くなる。従って、境界線を緩やかに変更することができる。またハンドルを短くすれば、境界線を急峻に変更することができる。更に、カーソルＫＳによりアンカーポイントを掴んで移動すれば、ハンドルにより影響が及ぶ範囲の曲線全体が、カーソルの移動方向に、境界線の滑らかさを保持したまま移動する。

こうした操作によって、表示部５３に表示されたグラフィカルインタフェースを介して、複数の歌唱スタイルの歌唱表現を重畳する割合を設定することができる。なお、上記の手法では、複数の歌唱スタイルの歌唱表現の割合の合計は一定としているので、各歌唱スタイルの歌唱表現の特徴は、内挿法により補完されることになる。これに対して、例えば図１０において、点ＰＡＢを、歌唱スタイルＡの上限ラインを越えて移動可能とし、歌唱スタイルＡと歌唱スタイルＢとの特徴の割合を、外挿法によって補間するものとしても良い。外挿法による補間を行なえば、この例では、歌唱スタイルＡの特徴からは遠ざかる特徴が設定されたことになる。

図１０では、三つの歌唱スタイルの歌唱表現の特徴をどの程度の割合で反映するかをまとめて示したが、各人別に表示するものとしても良い。図１２は、歌唱スタイルとして、歌い手別の歌唱表現のベースモデルを示す。同じ歌い手でも異なる歌唱スタイルを取ることも当然あるが、ここでは歌声合成の様子をイメージしやすいように、歌い手により歌唱スタイルが異なるものとして示した。コンピュータＰＣ２の表示部５３には、図１０に示したグラフィカルインタフェースを表示しても良いし、図１２に示したグラフィカルインタフェースを表示してもよい。あるいは両者をまとめて表示しても良い。図１２に示した例では、各歌い手の毎の歌唱表現の時間軸に沿った強弱を理解しやすい。図１２に示したベースモデルも、図１０の例と同様に、ポインティングデバイス５２を用いて容易に編集することができる。

図１２に示した各歌い手毎の歌唱スタイルのベースモデルは、個々に設定可能としても良いし、互いに連動するものとしても良い。前者の場合は、各歌唱スタイルのベースモデルは、独立に編集できるが、補間は、割合によって行なわれるので、各歌唱スタイルのベースモデルを合算すると、図１０に示したように、各歌唱スタイルのベースモデルは全体に対する割合に変換される。前者の場合、図１２に示した各人別の補間割合は、合成を行なう演算における重み付け係数だと考えることもできる。重み付け係数を全時間範囲において零とすれば、その歌唱スタイルを選択しなかったのと同じである。後者の場合は、一つの歌唱スタイル（例えば歌唱スタイルＡ）のベースモデルの任意の場所を、ポインティングデバイス５２よりつまんで上下に移動すると、移動した分の１／２ずつが、残りの歌唱スタイル（歌唱スタイルＢ，Ｃ）のベースモデルの減増として反映され、合計は変わらないように表示される。いずれのインタフェースを採用するかは、使用者が決めれば良い。

図１０に示した例では、歌唱スタイルを指定した直後では、複数の歌唱スタイル毎の歌唱表現の割合は、１／３ずつであり、時間軸方向にフラットになっている。これに対して、指定直後の各歌唱スタイルの歌唱表現の割合を、時間軸方向に予めセットしておいても良い。つまり、各歌唱スタイル毎の歌唱表現の時間軸方向の割合の初期値を予め設定しておくのである。例えば、通常、歌唱スタイルＡの歌唱表現については歌の後半では弱める使い方をするとしている場合には、図１２に例示したように、後半に向けて漸減するようなプリセットを予め用意しておけばよい。図１２の右端に示したチェックボックスはこうしたプリセットを使用するか否かを指定する際に用いられる。チェックボックスのチェックのオン・オフは、ポインティングデバイス５２を用いて容易に変更可能である。チェックボックスがチェックされていなければ、その歌唱スタイルについては、予め用意したプリセットを利用せず、デフォルトのフラットな割合からベースモデルの使用の割合の設定がなされる。

上記の説明では、ベースモデルは、歌唱スタイルの歌唱表現として一括りで扱った。これは、歌唱表現は基本周波数と共々、その歌唱スタイルの特徴がよく現れているため、一括で扱うことにより、その歌唱スタイルに似た歌声の合成が可能になるからである。もとより歌唱表現には、ビブラートやこぶし、しゃくり上げ、しゃくり下げ、タイミングなど、複数の要素が含まれる。図１０や図１２で示したベースモデルは、これらを一括で扱うものとしたが、個々の歌唱表現毎に設定できるようにしても良い。この場合、ビブラートのプリセットでは歌い手Ａの歌唱スタイルの割合を高くし、しゃくり上げのプリセットでは歌い手Ｂの歌唱スタイルの割合を高くするといった設定を行なえば、ビブラートは歌い手Ａの歌唱スタイルに似ており、しゃくり上げは歌い手Ｂの歌唱スタイルに似ている、といった歌唱を合成できる。

図１０に示したグラフィカルインタフェースを用いた補間割合の設定の後（ステップＳ２３０）、パラメータの調整が行なわれる（ステップＳ２５０）。パラメータ調整では、ステップＳ２２０で生成した歌唱スタイル毎のパラメータを、ステップＳ２３０で設定された補間割合を用いて線形結合する処理を行なう。プリセットが歌唱表現毎に設定されていれば、結合も個々の歌唱表現のパラメータ毎に行なう。なお、結合は線形結合に限らず、非線形な結合であっても良い。非線形結合の場合には、結合の非線形モデルを予め定めておけば良い。

パラメータを調整すると、続いてこのパラメータを用いて、音源生成部６３や合成フィルタ６５の設定を行ない、その設定を図示しないＲＡＭに記憶する処理を行なう（ステップＳ２６０）。

以上の処理により、音源生成部６３や合成フィルタ６５の設定がなされたことになる。そこで、次に調整が完了したか否かの判断を行なう（ステップＳ２７０）。使用者は、ステップＳ２２０において設定した補間割合で音声を合成した結果が自らの望んだものでなければ、補間割合の設定から処理をやり直すのである。ステップＳ２３０で設定した補間割合で良いか否かは、１つには、実際に歌声合成を行なって、合成された歌声が満足できるものか否かにより判断することができる。また、合成される歌声のピッチを計算し、これをコンピュータＰＣ２に送信して、その表示部５３に表示させ、これを見て判断することもできる。図１３は、こうしたピッチの表示画面の一例を示している。

上記実施形態では、一旦パラメータを生成すると（ステップＳ２２０）、補間割合の設定（ステップＳ２３０）を変更しても、各パラメータの割合を調整するだけで済み、新たにパラメータを生成する処理は行なっていない。但し、コンテキスト依存音素の発生タイミングや終了タイミングなどの補間が必要な場合には、ＨＭＭの状態の継続長が変わるため、再度パラメータを生成する必要が生じる。こうした場合には、ステップＳ２７０での判断が「ＮＯ」の場合、ステップＳ２２０に一旦戻って、上記処理を行なう繰り返すものとすれば良い。

本実施形態の歌声処理装置１００は、補間割合の設定（ステップＳ２３０）、パラメータの調整（ステップＳ２４０）、音源やフィルタの設定等（ステップＳ２６０）を行なうと、生成されるピッチを表示して、調整完了として良いか否かを使用者に問い合わせる。使用者が、コンピュータＰＣ２の表示部５３に表示されたピッチやボリュームの表示を見て、補間割合の設定が、自らが望んだものであると判断して、調整完了の指示をすると、歌声処理装置１００は、音源生成部６３，合成フィルタ６５に設定された各種パラメータを用いて歌声を合成する（ステップＳ２８０）。合成される歌声は、７０から再生される。この合成された歌声は、複数の歌唱スタイルの歌唱表現を、指定された割合で補間したものとなる。歌声を合成した後、歌声処理装置１００は処理を終了する。

以上説明した歌声処理装置１００によれば、ＨＭＭを用いた学習により、少ない量の音源から、歌い手の声質や歌唱スタイルを反映した音響モデルを生成でき、これに基づいてその歌唱スタイルの特徴を持つ歌声を生成できるばかりでなく、複数の歌唱スタイルの歌唱表現を任意の割合で補間して、歌声を合成することができる。しかも、補間しようとする歌唱表現の割合を、グラフィカルインタフェースを用いて容易に設定することができる。また、補間割合を変更した結果を簡易に確認できるので、補間割合の調整も容易である。

次に本発明の第２の実施形態について説明する。第２実施形態の歌声処理装置１００は、第１実施形態の歌声処理装置１００と同一のハードウェア構成を備える。また基本的に歌声合成準備処理や歌声合成処理も同一である。第２実施形態では、補間割合の設定方法が異なる。図１４は、第２実施形態における補間割合の設定方法を示す説明図である。

図示するように、この例では、楽譜の入力は、第１実施形態と同様、図９で示したピアノロールを用いて行なわれる。その上で第２実施形態では、歌唱表現の補間割合の設定を、楽曲全体ではなく、音符単位で行なえるようにしている。具体的には、ピアノロールを用いて入力した楽譜のうちの１つの音符ＴＴＧを、ポインティングデバイス５２を用いて指定する。その上で、この音符ＴＴＧに対する歌唱表現の補間割合を設定する。図１４では、歌唱表現として、ビブラートを取り上げ、その補間割合を設定するものとして図示している。

図１４に例示したものでも、３人の歌い手Ａ、Ｂ、Ｃのそれぞれ歌唱スタイルＡ，Ｂ，Ｃの歌唱表現（ビブラート）を重畳するものとし、その割合を、各歌い手のＡ、Ｂ、Ｃの歌唱スタイルの境界に標示されたバーＢＡＢ，ＢＢＣをスライドすることにより行なう。境界のバーＢＡＢ，ＢＢＣをスライドすると、その下に表示された歌唱スタイル毎のビブラートのプリセットを示すスライダーＢＡ，ＢＢ，ＢＣも移動する。また、各歌唱スタイルのビブラートのプリセットを示すスライダーＢＡ，ＢＢ，ＢＣを個別に移動すると、補間割合を示すバーＢＡＢ，ＢＢＣも移動する。

図示は省略したが、この場合も、ビブラートの補間割合を変更する度に、ピッチを表示し、補間割合が所望のものであるか否かを判断するものとしても良い。もとより合成した歌声を７０から再生して判断しても良い。

以上説明した第２実施形態の歌声処理装置１００では、第１実施例の効果に加えて、音符毎に歌唱表現の補間割合を設定できるという効果を奏する。このため、歌唱表現をきめ細かに設定することができる。なお、上記の説明では、歌唱表現の補間割合の設定は音符単位で行なったが、音素単位、フレーズ単位などに行なうものとしても良い。

次に、実施形態の変形例について、いくつか説明する。上記実施形態では、歌唱表現に影響を与えるパラメータとして、図４に示したように、ビブラートやしゃくりなどに関するパラメータを用意したが、これらの歌唱表現は、音源情報やスペクトル情報にも含まれ得るものである。従って、歌唱表現の組合せの程度を調整する際の歌唱表現に影響を与えるパラメータとしては、ビブラートやしゃくりなどに直接的に対応するパラメータに限っても良いし、音源情報やスペクトル情報などの一部または全部を含めても良い。また、こうした歌唱表現に直接対応したパラメータ（図４におけるビブラート周波数や振幅、あるいはしゃくりのパラメータなど）を設けず、音源情報やスペクトル情報などを用いて歌唱表現を再現することも可能である。この場合には、歌唱表現の組合せの程度を調整する際に、歌唱表現に影響を与えるパラメータとして、基本周波数とボリューム、あるいはこれに加えてスペクトル情報などの一部または全部を用いれば良い。

上記の実施形態では、歌唱スタイルに基づいて音響モデルを学習するので、いずれの音響モデルにも、何らかの歌唱表現が含まれていることになる。これに対して、全ての歌唱表現を除いて音響モデルの学習を行ない、これを特定の歌唱スタイルに対応しないもの（ノーマル）として扱っても良い。複数の歌唱スタイルの１つとしてこの「ノーマル」な歌唱スタイルを指定し、これと他の歌唱スタイルＡ，Ｂなどを組み合わせて補間割合をしているものとしても良い。こうすれば、例えば「ノーマル」な歌唱スタイルと特定の歌唱スタイルＡとを指定して、補間割合を設定すれば、歌唱スタイルＡの歌唱表現の強弱を自由に設定できることになる。

また、上記実施形態では、ビブラートやしゃくり上げなどの歌唱表現は、それぞれ個別にＨＭＭ学習等を行なったが、上記のノーマルな歌唱スタイルの歌唱表現との差分を統計モデルで学習したものとしても良い。この手法では、ノーマルな歌唱スタイルを複数定めた場合には、それぞれに対して同様な歌唱表現を付与することができる。

補間されるパラメータとして、上記の例示以外には、例えば発声開始タイミングや発声終了タイミングなどを扱い、複数の歌唱スタイルにおけるこれらのタイミングを補間するものとしても良い。発声開始タイミング、発声終了タイミングうちの少なくとも１つについても、他のパラメータと同様、複数の歌唱スタイルの特徴を組み合わせて音声合成を行なうことができる。また、上述した種々の歌唱表現に関して、補間を行なう単位としては、上記のような音符単位の補間に代えて、音素単位、音節単位、時間単位のいずれか１つにより行なうものとしても良い。こうすれば、対象に合せて、補間を行なう単位を適切に設定できる。また、合成する１つの歌の中で、補間の単位を切り替えるものとしてもよい。

上記実施形態では、複数の歌唱スタイルの歌唱表現の割合は、グラフィカルインタフェースを用いて調整するものとした。直感的な変更とはならない場合もあるが、グラフィカルインタフェースによらず、数値によって指定するものとしても良い。この場合は、時間軸をいくつかの部分（例えば、導入部、前半１、前半２、後半１、後半２、エンディング）に分け、その範囲での割合を数値で指定するようにしても良い。範囲同士の境界は、漸増、漸減させて、各歌唱スタイルの歌唱表現の割合が滑らかに変化するようにすれば良い。

上記実施形態では、複数の歌唱スタイルについて、同じＨＭＭを学習し、ここから音響パラメータを生成し、補間を行なっているが、複数の歌唱スタイル毎のパラメータを標準化しておけば、異なる手法で生成された音響パラメータ同士を、指定された補間割合で補間しても差し支えない。即ち、歌唱表現に対応するパラメータを歌唱スタイル毎に予め用意しておけば、そのうちの少なくとも一つのパラメータがＨＭＭとして学習された音響モデルから導かれたものであれば、他の音響パラメータは、例えばルールベースの手法で導かれたものであっても差し支えない。

上記の実施形態では、歌唱表現の組合せの程度は、音響パラメータを補間することにより行なったが、組み合わされる音響パラメータがいずれも統計的な手法により学習された音響モデル（ベースモデル）から導かれるものである場合には、ベースモデルの段階で補間するものとしても良い。具体的には、ある歌唱表現に関して複数の歌唱スタイルの組合せの程度を、インタフェース部により指定すると、この歌唱表現に影響を与えるベースモデルの内部パラメータを補間し、その上で、補間済みの内部パラメータを用いて、ベースモデルから歌声の合成に必要な音響パラメータを抽出する。抽出した音響パラメータを音源生成部６３や合成フィルタ６５に与えることにより、音声合成を行なう。こうすれば、抽出される音響パラメータは、組合せの程度が調整された後の歌唱表現に対応したものとなり、音声合成をより一層滑らかに行なうことができる。

こうした手法により音声合成を行なう場合には、補間の単位を、ベースモデルのモデルの状態毎とすることができる。ベースモデルがＨＭＭによるものである場合には、ＨＭＭの状態を単位として補間するのである。もとより、補間自体は、ＨＭＭの状態単位で行なうが、図１０ないし図１２に例示した歌唱表現の組合せの程度を調整する際のユーザインタフェースとしては、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位などを単位として組合せの程度の指定を行なうわせるものとしても差し支えない。この場合には、その単位を用いてインタフェースを介して指定された時間的な範囲からＨＭＭの状態の範囲を求めてから補間演算を行なえば良い。

以上本発明のいくつかの実施形態・変形例について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を変更しない範囲内において、種々なる態様で実施できることはもちろんである。例えば、歌声学習の機能がない歌声合成装置のみとして実施しても良い。また、歌声としては平均律に基づくものに限らず、民族音楽のように固有の音律に従うものを用いても良い。例えば日本における雅楽、謡曲、声明、お経や、ヨーロッパにおけるグレゴリオ聖歌などの平均律以前の音律に従う歌声などの合成に適用しても良い。また、歌い手の歌声としては、実在の歌い手によるものに限らず、機械的な合成音声などを対象としても良い。

１０…楽譜入力部
２０…音声入力部
３０…サーバ
３１…ハードディスク
３３…楽譜解析部
４０…学習部
４１…Ｆ０抽出部
４３…ＳＰ抽出部
４４…歌唱Ｐ抽出部
４５…ＨＭＭ学習部
５０…音響モデル記憶部
５１…キーボード
５２…ポインティングデバイス
５３…表示部
５５…パラメータ調整部
５７…楽譜解析部
６０…音声合成部
６１…音声パラメータ生成部
６３…音源生成部
６５…合成フィルタ
１００…歌声処理装置

Claims

歌声を合成する歌声合成装置であって、
複数の歌唱スタイルの歌声の少なくとも１つについて、複数の歌唱スタイルの歌声の少なくとも１つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶する記憶部と、
前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と、
歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、前記選択された少なくとも２つの前記歌唱表現に影響する音響パラメータを、前記インタフェース部により調整された組合せの程度で補間して、合成用音響パラメータを決定するパラメータ決定部と、
前記合成用音響パラメータを用いて歌声を合成する合成部と
を備えた歌声合成装置。
前記音響パラメータの集まりには、少なくとも基本周波数、音量、歌唱表現に対応したパラメータのうちの少なくとも一つを含む請求項１記載の歌声合成装置。
前記音響パラメータの集まりには、更にスペクトルパラメータを含む請求項２記載の歌声合成装置。
前記選択される少なくとも２つの音響パラメータの集まりは、いずれも前記記憶されたベースモデルを用いて得られた音響パラメータの集まりである請求項１から請求項３のいずれか一項に記載の歌声合成装置。
前記選択される少なくとも２つの音響パラメータの集まりのうちの一つは、ルールベースの手法で生成された音響パラメータの集まりである請求項１から請求項３のいずれか一項に記載の歌声合成装置。
歌声を合成する歌声合成装置であって、
複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶した記憶部と、
前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整するインタフェース部と、
前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも２つの歌唱スタイルに対応したベースモデルに基づき、前記インタフェース部により調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出する補間抽出部と
前記合成用音響パラメータを用いて歌声を合成する合成部と
を備えた歌声合成装置。
前記歌唱表現が反映されるパラメータには、少なくともビブラート、しゃくり、アタック・リリース、こぶしのうちの１つに対応したパラメータが含まれる請求項１から請求項６のいずれか一項に記載の歌声合成装置。
前記歌唱表現が反映されるパラメータには、少なくとも発声開始タイミング、発声終了タイミングのいずれか１つに対応したパラメータが含まれる請求項１から請求項６のいずれか一項に記載の歌声合成装置。
請求項１から請求項５のいずれか一項に記載の歌声合成装置であって、
前記歌唱表現の組合せの程度の調整は、前記各音響パラメータの値を補間することにより行なわれる歌声合成装置。
前記補間は、前記音響パラメータを線形結合または非線形結合することにより行なわれる請求項９記載の歌声合成装置。
前記補間は、音符単位、音素単位、音節単位、フレーズ単位、曲単位、所定の時間単位のいずれか１つにより行なう請求項９または請求項１０に記載の歌声合成装置。
請求項６に記載の歌声合成装置であって、
前記歌唱表現の組合せの程度の調整は、前記ベースモデルの内部パラメータを補間することにより行なわれる歌声合成装置。
前記補間は、前記前記ベースモデルの内部パラメータを線形結合または非線形結合することにより行なわれる請求項１２記載の歌声合成装置。
前記補間は、ベースモデルの状態単位で行なう請求項１２また請求項１３に記載の歌声合成装置。
前記補間は、内挿補間または外挿補間である請求項９から請求項１４のいずれか一項に記載の歌声合成装置。
前記記憶されたベースモデルの１つは、予め用意された標準的な音響パラメータからなるベースモデルである請求項１から請求項１５のいずれか一項に記載の歌声合成装置。
請求項１から請求項１６のいずれか一項に記載の歌声合成装置であって、
更に、画像表示装置とポインティングデバイスとを備え、
前記インタフェース部は、
前記画像表示装置上に描画されるグラフィカルユーザインタフェースであり、
前記グラフィカルユーザインタフェースとして前記画像表示装置上に描画された画面を前記ポインティングデバイスにより操作することにより、前記組合せの程度が変更される
歌声合成装置。
歌声を合成する歌声合成方法であって、
複数の歌唱スタイルの歌声の少なくとも１つについて、複数の歌唱スタイルの歌声の少なくとも１つについて、前記歌声の少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを学習して得られた音響モデルを当該歌唱スタイルについてのベースモデルとして記憶し、
前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し、
歌唱スタイルに含まれる歌唱表現を再現可能な音響パラメータの集まりの中から、前記記憶されたベースモデルを用いて得られた音響パラメータの集まりを少なくとも一つを含む、少なくとも２つの音響パラメータの集まりを選択し、前記選択された少なくとも２つの前記歌唱表現に影響する音響パラメータを、前記調整された組合せの程度で補間して、合成用音響パラメータを決定し、
前記合成用音響パラメータを用いて歌声を合成する
歌声合成方法。
歌声を合成する歌声合成方法であって、
複数の歌唱スタイルの歌声のそれぞれに含まれる少なくとも歌唱表現が反映されるパラメータを含む音響パラメータを統計的な手法を用いて学習して得られた音響モデルを、前記歌唱スタイル毎のベースモデルとして記憶部に記憶し、
前記複数の歌唱スタイルの中から選択された少なくとも２つの歌唱スタイルに含まれる前記歌唱表現の組合せの程度を調整し、
前記記憶部に記憶された前記複数のベースモデルから、前記複数の歌唱スタイルのうちから選択された少なくとも２つの歌唱スタイルに対応したベースモデルに基づき、前記調整された組合せの程度で前記歌唱表現を補間した合成用音響パラメータを抽出し、
前記合成用音響パラメータを用いて歌声を合成する
歌声合成方法。