WO2004084174A1

WO2004084174A1 - 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置

Info

Publication number: WO2004084174A1
Application number: PCT/JP2004/003753
Authority: WO
Inventors: Kenichiro Kobayashi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-20
Filing date: 2004-03-19
Publication date: 2004-09-30
Anticipated expiration: 2005-09-20
Also published as: EP1605436A4; JP4483188B2; JP2004287097A; EP1605436A1; US20060156909A1; US7183482B2; CN1761992B; CN1761992A; EP1605436B1

Abstract

　ＭＩＤＩデータ等の演奏データを活用して歌声を合成する歌声合成方法であり、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する（Ｓ２、Ｓ３）。解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する（Ｓ９、Ｓ１１、Ｓ１２、Ｓ１５）。付与された歌詞に基づき歌声を生成する（Ｓ１７）。

Description

明細書歌声合成方法、歌声合成装置、プログラム及び記録媒体並びに口ポット装置技術分野本発明は、演奏データから歌声を合成する歌声合成方法、歌声合成装置、プログラム及び記録媒体、並びにロポット装置に関する。

本出願は、日本国において 2003年 3月 20日に出願された日本特許出願番号 2003— 079 1 50を基礎として優先権を主張するものであり、この出願は参照することにより、本出願に援用される。背景技術

コンピュータ等により、与えられた歌唱デ一夕から歌声を生成する技術は特許文献 1に代表されるように既に知られている。

M I D I (Musical Instrument Digital Interface) データは代表的な演奏デ一夕であり、事実上の業界標準である。代表的には、 M I D Iデ一夕は M I D I 音源と呼ばれるデジタル音源、例えば、コンピュータ音源や電子楽器音源等の M I D Iデータにより動作する音源を制御して楽音を生成するのに使用される。 M I D Iファイル、例えば、 SMF (Standard MIDI File) には歌詞データを入れることができ、歌詞付きの楽譜の自動作成に利用される。

また、 M I D Iデ一夕を歌声又は歌声を構成する音素セグメン卜のパラメ一夕表現 (特殊データ表現) として利用する試みも提案されている。

これらの従来の技術においては、 M I D Iデ一夕のデータ形式の中で歌声を表現しようとしているが、あくまでも楽器をコントロールする感覚でのコントロ一ルであり、 M I D I本来が持っている歌詞データを利用するものではなかった。また、他の楽器用に作成された M I D Iデータを、修正を加えることなく歌声にすることはできなかった。

また、電子メールやホームページを読み上げる音声合成ソフトはソニー（株）の rs imp le Speech] をはじめ多くのメ一力一から発売されているが、読み上げ方は普通の文章を読み上げるのと同じような口調であった。

ところで、電気的又は磁気的な作用を用いて人間（生物）の動作に似た運動を行う機械装置を「口ポット」という。我が国において口ポットが普及し始めたのは、 1 9 6 0年代末からであるが、その多くは、工場における生産作業の自動化 •無人化等を目的としたマニピュレータや搬送ロポット等の産業用ロポット（In dus t r i al Robot) であった。

最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロポッ卜の開発が進められている。このような実用口ポットは、産業用口ポットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように 4足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、或いは、 2足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」口ポット (Humano id Robot) 等のロボット装置は、既に実用化されつつある。

これらのロボット装置は、産業用ロボットと比較して、エンタテインメント性を重視した様々な動作を行うことができるため、ェン夕ティンメントロボットと呼称される場合もある。また、そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。

この自律的に動作する口ポット装置に用いられる人工知能（A I ： Ar t i f ic ial Inte l l i gence) は、推論 ·判断等の知的な機能を人工的に実現したものであり、さらに感情や本能等の機能をも人工的に実現することが試みられている。このような人工知能の外部への表現手段としての視覚的な表現手段や自然言語の表現手段等のうちで、自然言語表現機能の一例として、音声を用いることが挙げられる, 本発明の先行技術文献として、特許第 3 2 3 3 0 3 6号公報、特開平 1 1 一 9 5 7 9 8号公報がある。

以上のように、従来の歌声合成は特殊な形式のデ一夕を用いていたり、仮に M I D Iデータを用いていてもその中に埋め込まれている歌詞データを有効に活用できなかったり、他の楽器用に作成された M I D Iデータを鼻歌感覚で歌い上げたりすることはできなかった。発明の開示本発明の目的は、従来の技術が有する問題点を解消することができる新規な歌声合成方法及び装置を提供することにある。

本発明の他の目的は、 M I D Iデータのような演奏データを活用して歌声を合成することが可能な歌声合成方法及び装置を提供することにある。

本発明のさらに他の目的は、 M I D Iファイル (代表的には S M F ) により親定された M I D Iデータを音声合成により歌い上げることができ、 M I D Iデ一夕の中に歌詞情報があればそれをそのまま利用することも他の歌詞に置き換えることも可能であり歌詞情報がない M I D Iデ一夕に関しても任意の歌詞を付与して歌い上げることができ、及び又は、. 別に用意されたテキストデータにメロディーを付けて替え歌風に歌い上げることが可能な歌声合成方法及び装置を提供することにある。

本発明のさらに他の目的は.. このような歌声合成機能をコンピュータに実施させるプロダラム及び記録媒体を提供することにある。

本発明のさらに他の目的は、このような歌声合成機能を実現するロポッ卜装置を提供することにある。

本発明に係る歌声合成方法は、演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与工程と、付与された歌詞に基づき歌声を生成する歌声生成工程とを有する。

本発明に係る歌声合成装置は、演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に演奏データ中の任意の音符列に対して任意の歌詞を付与する歌詞付与手段と、付与された歌詞に基づき歌声を生成する歌声生成手段とを有する。

本発明に係る歌声合成方法及び装置は、演奏データを解析してそれから得られる音の高さ、長さ、強さをもとにした音符情報に対して任意の歌詞を付与することにより歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができ、演奏データの中に歌詞情報があればその歌詞を歌い上げることが可能なばかりでなく、演奏データ中の任意の音符列に対して自由な歌詞を付与することができる。本発明に用いられる演奏データは、 M I D Iファイルの演奏データであることが好ましい。

また、歌詞付与工程又は手段は、外部からの歌詞の指示がない場合には予め決められた歌詞、例えば、「ら」や「ぼん」などの歌詞を演奏デ一夕中の任意の音符列に対して付与することが好ましい。

また、 M I D Iファイルのトラック又はチャンネルに含まれる音符列を歌詞付与の対象とすることが好ましい。

これに鬨連し、歌詞付与工程又は手段は、トラック又はチャンネルの選択を任意に行うことが好ましい。

また、歌詞付与工程又は手段は演奏デ一夕の中で一番初めに現れるトラック又は、チヤンネルの音符列を歌詞付与の対象とすることが好ましい。

さらに.. 歌詞付与工程又は手段は複数のトラック又はチャンネルに対してそれぞれ独立した歌詞を付与することが好ましい。これにより、デュエットやトリオ等の歌声合唱が容易に実現できる。

また、歌詞付与の結果を保存することが好ましい。

さらに、歌詞情報に台詞を表す情報が含まれている場合に該当歌詞の発声の夕ィミングで歌詞の替わりに台詞を合成音声により読み上げ、歌唱の中に台詞を揷入する台詞挿入工程又は手段をさらに有することが好ましい。

本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンビュ —夕により読み取り可能なものである。

本発明に係るロボット装置は、供給された入力情報に基づいて動作を行う自律型の口ポット装置であって、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、解析された音楽情報に歌詞情報が存在しない場合に解析された音楽情報中の任意の音符列に対して任意の歌詞を付与する歌詞付与手段と、付与された歌詞に基づき歌声を生成する歌声生成手段とを有する。これにより、ロポットの持っているエンタテインメント性を格段に向上させることができる。図面の簡単な説明図 1は、本発明に係る歌声合成装置のシステム構成を示すブロック図である。図 2は、解析結果の楽譜情報の例を示す図である。

図 3は、歌声情報の例を示す図である。

図 4は、歌声生成部の構成を示すブロック図である。

図 5は、歌詞が振られていない楽譜情報の例を示す図である。

図 6は、歌声情報の例を示す図である。

図 7は、本発明に係る歌声合成装置の動作を説明するフローチャートである。図 8は、本発明に係るロポット装置の外観を示す斜視図である。

図 9は、ロボット装置の自由度構成モデルを模式的に示す図である。

図 1 0は、ロボット装置のシステム構成を示すプロック図である。発明を実施するための最良の形態以下、本発明を適用した実施の形態について、図面を参照しながら詳細に説明する。

先ず、本発明に係る歌声合成装置のシステム構成を図 1に示す。ここで、本発明に係る歌声合成装置は、少なくとも感情モデル、音声合成手段及び発音手段を有する例えば口ポット装置に適用することを想定しているが、これに限定されず, 各種口ポット装置や、口ポット以外の各種コンピュータ A I (Art i f ic i al Inte l l igence) 等への適用も可能であることは勿論である。

図 1において、 M I D Iデ一夕に代表される演奏データ 1を解析する演奏デ一夕解析部 2は入力された演奏データ 1を解析し演奏デ一夕内にあるトラックゃチャンネルの音の高さや長さ、強さを表す楽譜情報 4に変換する。

図 2に、楽譜情報 4に変換された演奏データ（M I D Iデータ）の例を示す。図 2において、トラック毎、チャンネル毎にイベントが書かれている。イベントにはノートイベントとコントロ一ルイベントが含まれる。ノートイベン卜は発生時刻（図 2中の時間の欄）、高さ、長さ、強さ（velocity) の情報を持つ。したがって、ノートイベントのシーケンスにより音符列又は音列が定義される。コントロ一ルイベントは発生時刻、コントロールのタイプデ一夕（例えばビブラート、演奏ダイナミクス表現 (expression) ) 及びコントロールのコンテンツを示すデ —夕を持つ。例えば、ビブラートの場合、コントロールのコンテンツとして、音の振れの大きさを指示する「深さ」、音の揺れの周期を指示する「幅」、音の揺れの開始タイミング、すなわち、発音夕イミングからの遅れ時間を指示する「遅れ」の項目を有する。特定のトラック、チャンネルに対するコント口一ルイベン卜はそのコントロールタイプについて新たなコントロ一ルイベント（コントロールチェンジ）が発生しない限りそのトラックチャンネルの音符列の楽音再生に適用される。さらに、 M I D Iファイルの演奏データにはトラック単位で歌詞を記入することができる。図 2において、上方に示す「あるうひ」はトラック 1 に記入された歌詞の一部であり、下方に示す「あるうひ」はトラック 2に記入された歌詞の一部である。すなわち、図 2に示す例は、解析した音楽情報（楽譜情報）の中に歌詞が埋め込まれた例である。

なお、図 2において、時間は「小節：拍：ティック数」で表され、長さは「テイツク数」で表され、強さは「0— 127」の数値で表され、高さは 440 Hzが ΓΑ 4 J で表される。また、ビブラートは、深さ、幅、遅れがそれぞれ「 0— 6 4一 127」の数値で表される。

そして、変換された楽譜情報 4は、歌詞付与部 5に渡される。歌詞付与部 5では楽譜情報 4をもとに音符に対応した音の長さ、高さ、強さ、表情などの情報とともにその音に対する歌詞が付与された歌声情報 6の生成を行う。

図 3に、歌声情報 6の例を示す。図 3において、「¥ s o n g¥」は歌詞情報の開始を示すタグである。タグ「¥PP, T 10673075 ¥」は 1 06 73 075 M secの休みを示し、タグ「¥ t d yn a 1 10 649075 ¥」は先頭から 10673075 i secの全体の強さを示し、タグ「¥ f i n e— 100 ¥」は M I D Iのファインチューンに相当する高さの微調整を示し、タグ「¥v i b r a t o N R P N一 d e p = 64 ¥」、 [¥v i b r a t o NRPN一 d e 1 = 50 ¥] , 「¥ v i b r a t o N R P N_ r a t = 64 ¥」はそれぞれ、ビブラートの深さ、遅れ、幅を示す。また、タグ「¥dyn a 100 ¥」は音毎の強弱を示し、タグ「¥G4， T 28846 1 ¥あ」は G4の高さで、長さが 28846 1 secの歌詞「あ」を示す。図 3の歌声情報は図 2に示す楽譜情報（M I D Iデータの解析結果）から得られたものである。

図 2と図 3の比較から分かるように、楽器制御用の演奏データ、例えば、音符情報が歌声情報の生成において十分に活用されている。例えば、歌詞「あるうひ」の構成要素「あ」について、「あ」以外の歌唱属性である「あ」の音の発生時刻長さ、高さ、強さ等について、楽譜情報（図 2参照）中のコントロール情報やノートイベント情報に含まれる発生時刻、長さ、高さ、強さ等が直接的に利用され.，次の歌詞要素「る」についても楽譜情報中の同じトラック、チャンネルにおける次のノートイベント情報が直接的に利用され、以下同様である。

そして、歌声情報 6は図 1に示すように歌声生成部 7に渡され、歌声生成部 7においては歌声情報 6をもとに歌声波形 8の生成を行う。ここで、歌声情報 6から歌声波形 8を生成する歌声生成部 7は例えば図 4に示すように構成される。図 4において、歌声韻律生成部 7— 1は歌声情報 6を歌声韻律データに変換する。波形生成部 7— 2は歌声韻律データを歌声波形 8に変換する。

具体例として、「A4」の高さの歌詞要素「ら」を一定時間伸ばす場合について説明する。ビブラートをかけない塲合の歌声韻律データは、以下の表のように表される。 [LABEL] [PITCH] [VOLUME]

0 ra 0 50 0 66

1000 aa 39600 57

39600 aa 40100 48

40100 aa

40600 aa 41100 30

41100 aa 41600 21

41600 aa 42100 12

42100 aa 42600 3

42600 aa

43100 a. この表 1において、 [LABEL]は、各音韻の継続時間長を表したものである。すなわち、「 r a」という音韻（音素セグメント）は、 0サンプルから 1 0 0 0サンプルまでの 1 0 0 0サンプルの継続時間長であり、 Γ r a J に続く最初の「 a a J という音韻は、 1 0 0 0サンプルから 3 9 6 0 0サンプルまでの 3 8 6 0 0 サンプルの継続時間長である。また、 [PITCH]は、ピッチ周期を点ピッチで表したものである。すなわち、 0サンプル点におけるピッチ周期は 5 6サンプルである。ここでは「ら」の高さを変えないので全てのサンプルに渡り 5 6サンプルのピッチ周期が適用される。また、 [VOLUME]は、各サンプル点での相対的な音量を表したものである。すなわち、デフオルト値を 1 0 0 %としたときに、 0サンプル点では 6 6 %の音量であり、 3 9 6 0 0サンプル点では 5 7 %の音量である。以下同様にして、 4 0 1 0 0サンプル点では 4 8 %の音量等が続き 4 2 6 0 0サンプル点では 3 %の音量となる。これにより「ら」の音声が時間の経過とともに減衰することが実現される。

これに対して、ビブラートをかける場合には、例えば、以下に示すような歌声韻律データが作成される。

s拏

CS.C00/l700Zdf/X3d 請 OOZ OAV この表 2の [PITCH]の欄に示すように、 0サンプル点と 1 0 0 0サンプル点におけるピッチ周期は 50サンプルで同じであり、この間は音声の高さに変化がないが、それ以降は、 20 0 0サンプル点で 5 3サンプルのピッチ周期、 40 0 9サンプル点で 47サンプルのピッチ周期、 6 0 09サンプル点で 5 3のピッチ周期というようにピッチ周期が約 40 0 0サンプルの周期 '（幅）を以て上下（5 0土 3) に振れている。これにより音声の高さの揺れであるビブラートが実現される。この [PITCH]の欄のデータは歌声情報 6における対応歌声要素（例えば「ら」）に関する情報、特にノートナンバー（例えば A 4) とビブラートコントロールデ一夕（例えば、タグ「¥v i b r a t o NRPN— d e p = 64¥」、 [¥v i b r a t o N R P N_d e 1 = 5 0 ¥] , 「¥v i b r a t o NRPN一 r a t = 64 ¥」）に基づいて生成される。

波形生成部 7— 2は、このような歌声音韻データに基づき内部の波形メモリ (図示せず）からサンプルを読み出して歌声波形 8を生成する。なお歌声情報 6から歌声波形 8を生成する歌声生成部 7については上記の例に限らず、任意の適当な公知の歌声生成器を使用できる。

演奏データ 1は、図 1に示すように、 M I D I音源 9に渡され、 M I D I音源 9は演奏デ一夕をもとに楽音の生成を行う。この楽音は伴奏波形 1 0である。歌声波形 8と伴奏波形 1 0は、ともに同期を取りミキシングを行うミキシング部 1 1に渡される。

ミキシング部 1 1では、歌声波形 8と伴奏波形 1 0との同期を取りそれぞれを重ね合わせて出力波形 3として再生を行うことにより、演奏データ 1をもとに伴奏を伴った歌声による音楽再生を行う。

ここで、楽譜情報 4をもとに歌詞付与部 5により歌声情報 6に変換する段階において、楽譜情報 4において歌詞情報が存在する場合には、情報として存在する歌詞を優先して歌声情報 6の付与を行う。上述したように、図 2は歌詞が付与された状態の楽譜情報 4の例であり、図 3は図 2の楽譜情報 4から生成された歌声情報 6の例である。

また、歌詞付与部 5が楽譜情報 4をもとに歌詞の付与を行う際に対象となるのはトラック選択部 14により選択された楽譜情報 4のトラックやチャンネルに対応した音符列である。

ここで、楽譜情報 4において、歌詞がどのトラックやチャンネルにも存在しない場合、歌詞付与部 5はトラック選択部 1 4により選択された音符列に対して歌詞選択部 1 3により予めオペレータにより指定された「ら」や「ぼん」などの任意歌詞データ 1 2をもとに任意の歌詞を付与する。

図 5に歌詞が振られていない楽譜情報 4の例を、図 6には図 5の楽譜情報に任意歌詞として「ら」が登録されている場合の歌声情報 6の例を示す。

なお、図 5において、時間は「小節：拍：ティック数」で表され、長さは「テイツク数」で表され、強さは Γ 0 - 1 2 7 J の数値で表され、高さは 4 4 0 Hzが「A 4」で表される。

歌詞選択部 1 3は、図 1に示すように、この任意歌詞データ 1 2としてォペレ —夕によって任意の読みの付与が指定できるが、何も指定されていない場合の初期値の任意歌詞データ 1 2は「ら」に設定されている。

また、歌詞選択部 1 3は予め外部に用意された歌詞データ 1 5をトラック選択部 1 4により選択された音符列に対して付与することも可能である。

さらに、歌詞選択部 1 3は E-mai lやホームページゃヮ一プロで作成した文書などのテキス 1、データ 1 6を歌詞生成部 1 7により読み仮名に変換することにより任意の文字列を歌詞として選択することが可能である。ここで、漢字かな混じりの文字列を読み仮名に変換する技術は、「形態素解析」の応用として広く公知である。

ここで、対象となるテキストはネットワークを用いて配信されるネットワーク上のテキスト 1 8であってもかまわない。

本発明によれば、歌詞情報に台詞を表す情報が含まれている場合に該当歌詞の発声のタイミングで歌詞の替わりに台詞を合成音声により読み上げ、歌唱の中に台詞を挿入することができる。

例えば、 M I D Iデ一夕中に台詞タグ、例えば「ZZ幸せだな一」がある場合, 歌詞付与部 5により生成された歌声情報 6の歌詞中にその歌詞が台詞であることを表す情報として例えば「¥ S P， T 2 3 4 5 6 9 6 ¥幸せだな一」が付加される。この場合は台詞部分がテキスト音声合成部 1 9に渡され台詞波形 2 0が生成される。この例のように、台詞を表す情報としては「¥ S P , T ¥台詞」などのタグを用いて表現することが文字列レベルで容易に可能である。

この際、台詞波形は台詞発話のタイミング情報として、歌声情報における休符情報を流用し、台詞の前に無音の波形を付加することによつても可能である。

トラック選択部 1 4は、楽譜情報 4のトラックの数やそれぞれのトラックの中にあるチャンネルの数、歌詞の有無をォペレ一夕に伝え、オペレータによりどのトラック又はチャンネルにどのような歌詞を付与するかを選択することができる。ここで、トラック選択部 1 4においてはトラック又はチャンネルに対して歌詞が付与されている場合は歌詞が付与されているトラック又はチヤンネルを選択する。

また、歌詞が付与されていないものに対しては、ォペレ一夕の指示によりどのトラックを又はチャンネルを選択するかを判断する。勿論、歌詞が付与されているトラック又はチャンネルに対してオペレータにより任意の歌詞を付与することも可能である。

歌詞もオペレータの指示もない場合には、デフオル卜として第 1 トラックの第 1チャンネルを対象音符列として歌詞付与部 5に知らせる。

以上の説明のように、歌詞付与部 5は、楽譜情報 4をもとにトラック選択部 1 4により選択された卜ラック又はチャンネルが示す音符列に対して歌詞選択部 1 3により選択された歌詞又はトラック又はチャンネルに記載されている歌詞を用いて歌声情報 6の生成を行うが、これらの処理は、それぞれのトラックやチャンネルに対して独立して行えるものである。

図 7は、図 1に示す歌声合成装置の全体動作を説明するためのフローチャートである。

この図 7において、先ず M I D I ファイルの演奏データ 1を入力する (ステツプ S 1 ) 。次に、演奏データ 1を解析し、楽譜情報 4を作成する（ステップ S 2 、 S 3 ) 。次に、オペレータに問い合わせオペレータの設定処理（例えば、歌詞の選択、歌詞の対象であるトラック、チャンネルの選択、ミュートする M I D I トラック、チャンネルの選択等）を行う（ステップ S 4 ) 。なお、オペレータが設定しなかった部分についてはデフォルトが後続処理で使用される。続くステップ S 5〜 S 1 6は歌詞付加工程を構成する。先ず着目しているトラックについて、外部の歌詞の指定あり（ステップ S 5 ) のときは、その歌詞を最優先するので、ステップ S 6に進み、 E-ma i l等のテキストデータ 1 6、 1 8であれば、読みに変換し（ステップ S 7 ) てからその歌詞を取得し、そうでなければ (例えば歌詞デ一夕 1 5のときは）直接その外部歌詞を歌詞として取得する（ステツプ S 8 ) 。

外部の歌詞の指定がなければ、そのトラックの楽譜情報 4内に歌詞があるか検査する（ステップ S 9 ) 。楽譜情報中に存在する歌詞は 2番目に優先するので、これが成り立つときは楽譜情報の歌詞を取得する（ステップ S 1 0 ) 。

楽譜情報 4内に歌詞がなければ任意歌詞の指定があるか検査し（ステップ S 1 1 ) 、指定ありなら、その任意歌詞データ 1 2を取得する (ステップ S 1 2 ) 。任意歌詞判定ステップ S 1 1で不成立の後、又は歌詞取得ステップ S 8、 S 1 0、 S 1 2の後、歌詞を割り当てるトラックが選択されているか検査する（ステップ S 1 3 ) 。選択されたトラックがなければ先頭のトラックを選択する (ステップ S 1 9 ) 。なお、詳細には、一番初めに現れるトラックのチャンネルが選択される。

以上で歌詞を割り当てるトラックとチヤンネルが決定したのでそのトラックにおけるチヤンネルの楽譜情報 4を用いて歌詞から歌声情報 6を作成する (ステップ S 1 5 ) 。

次に、全てのトラックについて処理を完了したかどうか検査し (ステップ S 1 6 ) 、完了してなければトラックを次に進めて、ステップ S 5に戻る。

したがって、複数のトラックにそれぞれ歌詞を付加する場合に、互いに独立して歌詞が付加され歌声情報 6が作成されることになる。

このように、図 7の歌詞付加工程によれば、解析された音楽情報に歌詞情報が存在しない場合に、任意の音符列に対して任意の歌詞が付加される。また、外部からの歌詞の指示がない場合に予め決められた歌詞（例えば「ら」や「ぼん」）を任意の音符列に対して付与することもできる。また、 M I D Iファイルのトラック又はチャンネルに含まれる音符列を歌詞付与の対象としている。また、歌詞を割り当てるトラック又はチャンネルの選択をオペレータ設定処理 S 4等を介して任意に行うことができる。

歌詞付加工程の後、ステップ 1 7に進み、歌声生成部 7により歌声情報 6から歌声波形 8を作成する。

次に、歌声情報の中に台詞があれば（ステップ S 1 8 ) 、テキスト音声合成部 1 9により台詞波形 2 0を作成する（ステップ S 1 9 ) 。これにより、歌詞情報に台詞を表す情報が含まれている場合には該当歌詞の発声のタイミングで歌詞の替わりに台詞が合成音声により読み上げられ、歌唱の中に台詞が挿入されることになる。

次に、ミュートする M I D I音源があるか検査し (ステップ S 2 0 ) 、あれば該当する M I D I トラック、チャンネルをミュ一トする (ステツプ S 2 1 ) 。これにより、例えば歌詞を割り当てたトラック、チャンネルの楽音をミュートすることができる。次に M I D I音源 9により M I D Iを再生して伴奏波形 1 0を作成する (ステップ S 2 1 ) 。

ここまでの処理で、歌声波形 8、台詞波形 2 0及び伴奏波形 1 0が得られた。そこでミキシング部 1 1により、歌声波形 8と伴奏波形 1 0、台詞波形 2 0 との同期を取りそれぞれを重ね合わせて出力波形 3として再生を行う（ステップ S 2 3、 S 2 4 ) 。この出力波形 3は図示しないサウンドシステムを介して音響信号として出力される。

なお、最後のステップ S 2 4又は途中の適当なステップ、例えば歌声波形と台詞波形の生成を終了した段階で、処理結果例えば、歌詞付与の結果と台詞付与の結果を保存することができる。

以上説明した歌声合成機能は例えば、ロボット装置に搭載される。

以下、一構成例として示す 2足歩行タイプの口ポット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロポットであり、内部状態（怒り、悲しみ、喜び、楽しみ等）に応じて行動できるほか、人間が行う基本的な動作を表出できるェン夕ティンメントロポットである。

図 8に示すように、口ポット装置 6 0は、体幹部ユニット 6 2の所定の位置に頭部ュニット 6 3が連結されるとともに、左右 2つの腕部ュニット 6 4 R / Lと、左右 2つの脚部ユニット 6 5 R / Lが連結されて構成されている。ただし、 R及び Lの各々は、右及び左の各々を示す接尾辞である（以下において同じ。）。この口ポット装置 6 0が具備する関節自由度構成を、図 9に模式的に示す。頭部ユニット 6 3を支持する首関節は、首関節ョー軸 1 0 1と、首関節ピッチ軸 1 0 2と、首関節ロール軸 1 0 3という 3自由度を有している。

また、上肢を構成する各々の腕部ユニット 6 4 R / Lは、肩関節ピッチ軸 1 0 7と、肩関節ロール軸 1 0 8と、上腕ョ一軸 1 0 9と、肘関節ピッチ軸 1 1 0と、前腕ョ一軸 1 1 1と、手首関節ピッチ軸 1 1 2と、手首関節ロール軸 1 1 3と、手部 1 1 4とで構成される。手部 1 1 4は、実際には、複数本の指を含む多関節 -多自由度構造体である。ただし、手部 1 1 4の動作は、口ポット装置 6 0の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は 7自由度を有するとする。

また、体幹部ュニット 6 2は、体幹ピッチ軸 1 0 4と、体幹ロール軸 1 0 5と、体幹ョ一軸 1 0 6という 3自由度を有する。

また、下肢を構成する各々の脚部ユニット 6 5 R .Z Lは、股関節ョー軸 1 1 5 と、股関節ピッチ軸 1 1 6と股関節ロール軸 1 1 7と、膝関節ピッチ軸 1 1 8 と、足首関節ピッチ軸 1 1 9と、足首関節ロール軸 1 2 0と、足部 1 2 1とで構成される。本明細書中では、股関節ピッチ軸 1 1 6と股閼節ロール軸 1 1 7の交点は、ロボット装置 6 0の股関節位置を定義する。人体の足部 1 2 1は、実際には多関節 ·多自由度の足底を含んだ構造体であるが、ロポット装置 6 0の足底は, ゼロ自由度とする。したがって、各脚部は、 6自由度で構成される。

以上を総括すれば、口ポット装置 6 0全体としては、合計で 3 + 7 X 2 + 3 + 6 X 2 = 3 2自由度を有することになる。ただし、エンタテインメント向けの口ボッ卜装置 6 0が必ずしも 3 2自由度に限定されるわけではない。設計 ·制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。 - 上述したような口ポット装置 6 0がもつ各自由度は、実際にはァクチユエ一夕を用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、 2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、ァクチユエ一夕は小型且つ軽量であることが好ましい。また、ァクチユエ —夕は、ギア直結型で且つサーポ制御系をワンチップ化してモー夕ュニット内に搭載したタイプの小型 ACサーポ ·ァクチユエ一夕で構成することがより好ましい。

図 1 0には、口ポット装置 6 0の制御システム構成を模式的に示している。図 1 0に示すように、制御システムは、ユーザ入力などに動的に反応して情緖判断や感情表現を司る思考制御モジュール 2 0 0と、ァクチユエ一夕 3 5 0の駆動などロポット装置 6 0の全身協調運動を制御する運動制御モジュール 30 0とで構成される。

思考制御モジュール 2 00は、情緒判断や感情表現に関する演算処理を実行する CPU (Central Processing Unit) 2 1 1や、 RAM (Random Access Memor y) 2 1 2、 ROM (Read Only Memory) 2 1 3、及び、外部記憶装置（ハード · ディスク · ドライブなど) 2 14で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。

この思考制御モジュール 200は、画像入力装置 2 5 1から入力される画像デ一夕や音声入力装置 ₂ 5 2から入力される音声データなど、外界からの刺激などに従って、口ポット装置 6 0の現在の感情や意思を決定する。ここで、画像入力装置 2 5 1は、例えば CCD (Charge Coupled Device) 力メラを複数備えておりまた、音声入力装置 2 5 2は、例えばマイクロホンを複数備えている。

また、思考制御モジュール 2 0 0は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール 300に対して指令を発行する。

一方の運動制御モジュール 3 0 0は、ロポット装置 60の全身協調運動を制御する C P U 3 1 1や、 RAM 3 1 2、 ROM 3 1 3 , 及ぴ外部記憶装置（ハード 'ディスク ' ドライブなど） 3 14で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。外部記憶装置 3 1 4には、例えば、オフラインで算出された歩行パターンや目標とする Z MP軌道、その他の行動計画を蓄積することができる。ここで、 ZMPとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、 ZMP軌道とは、例えばロポット装置 60の歩行動作期間中に ZMPが動く軌跡を意味する。なお、 Z M Pの概念並びに Z M Pを歩行ロポットの安定度判別規範に適用する点については、 Miomi r Vukobratov ic 著 "LEGGED LOCOMOTION ROBOTS" (加藤一郎外著『歩行口ポットと人工の足』（日刊工業新聞社））に記載されている。運動制御モジュール 3 0 0には、図 9に示したロボット装置 6 0の全身に分散するそれぞれの関節自由度を実現するァクチユエ一夕 3 5 0、体幹部ュニット 6 2の姿勢や傾斜を計測する姿勢センサ 3 5 1、左右の足底の離床又は着床を検出する接地確認センサ 3 5 2， 3 5 3、パッテリなどの電源を管理する電源制御装置 3 5 4などの各種の装置が、バス ·ィンタフェース（ I / F ) 3 0 1経由で接続されている。ここで、姿勢センサ 3 5 1は、例えば加速度センサとジャイロ · センサの組み合わせによって構成され、接地確認センサ 3 5 2， 3 5 3は、近接センサ又はマイクロ ·スィツチなどで構成される。

思考制御モジュール 2 0 0と運動制御モジュール 3 0 0は、共通のブラットフオーム上で搆築され、両者間はバス · イン夕フェース 2 0 1， 3 0 1を介して相互接続されている。

運動制御モジュール 3 0 0では思考制御モジュール 2 0 0から指示された行動を体現すべく、各ァクチユエ一夕 3 5 0による全身協調運動を制御する。すなわち、 C P U 3 1 1は、思考制御モジュール 2 0 0から指示された行動に応じた動作パ夕一ンを外部記憶装置 3 1 4から取り出し、又は、内部的に動作パターンを生成する。そして、 C P U 3 1 1は、指定された動作パターンに従って、足部運動、 Z M P軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定するとともに、これらの設定内容に従った動作を指示する指令値を各ァクチユエ一夕 3 5 0に転送する。

また、 C P U 3 1 1は、姿勢センサ 3 5 1の出力信号によりロポット装置 6 0 の体幹部ユニット 6 2の姿勢や傾きを検出するとともに、各接地確認センサ 3 5 2 , 3 5 3の出力信号により各脚部ュニッ卜 6 5 R / Lが遊脚又は立脚のいずれの状態であるかを検出することによって、ロポット装置 6 0の全身協調運動を適応的に制御することができる。

また、 C P U 3 1 1は、 Z M P位置が常に Z M P安定領域の中心に向かうように、口ポット装置 6 0の姿勢や動作を制御する。さらに、運動制御モジュール 3 0 0は、思考制御モジュール 2 0 0において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール 2 0 0に返すようになつている。

このようにしてロポット装置 6 0は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。

この口ポット装置 6 0において、上述した歌声合成機能をィンプリメントしたプログラム（デ一夕を含む）は例えば思考制御モジュール 2 0 0の R O M 2 1 3 に置かれる。この場合、歌声合成プログラムの実行は思考制御モジュール 2 0 0 の C P U 2 1 1により行われる。

このようなロポット装置に上記歌声合成機能を組み込むことにより、伴奏に合わせて歌うロポットとしての表現能力が新たに獲得され、ェンタティンメント性が広がり、人間との親密性が深められる。

なお、本発明は、上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、本件出願人が先に提案した特願 2 0 0 2— 7 3 3 8 5の明細書及び図面に記載の音声合成方法及び装置等に用いられる歌声合成部及び波形生成部に対応した歌声生成部 7に使用可能な歌声情報を例示しているが、この他種々の歌声生成部を用いることができ、この場合、各種の歌声生成部によって歌声生成に必要とされる情報を含むような歌声情報を、上記演奏デ一夕から生成するようにすればよいことは勿論である。また、演奏データは、 M I D Iデ一夕に限定されず, 種々の規格の演奏データを使用可能である。産業上の利用可能性上述したように、本発明に係る歌声合成方法及び装置によれば、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に解析された音楽情報中の任意の音符列に対して任意の歌詞を付与し、付与された歌詞に基づき歌声を生成することにより、演奏データを解析してそれから得られる音の高さ、長さ、強さをもとにした音符情報に対して任意の歌詞を付与して歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができ、演奏デー夕の中に歌詞情報があればその歌詞を歌い上げることが可能なばかりでなく、演奏データ中の任意の音符列に対して自由な歌詞を付与することができる。したがつて、従来、楽器の音のみにより表現していた音楽の作成や再生において特別な情報を加えることがなく歌声の再生を行えることによりその音楽表現は格段に向上する。

また、本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュ一夕読み取り可能なものである。

本発明に係るプログラム及び記録媒体によれば、演奏デ一夕を音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に解析された音楽情報中の任意の音符列に対して任意の歌詞を付与し、付与された歌詞に基づき歌声を生成することにより演奏データを解析してそれから得られる音の高さ、長さ、強さをもとにした音符情報に対して任意の歌詞を付与して歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができ、演奏デ一夕の中に歌詞情報があればその歌詞を歌い上げることが可能なばかりでなく、演奏デ一夕中の任意の音符列に対して自由な歌詞を付与することができる。

また、本発明に係るロボット装置は本発明の歌声合成機能を実現する。すなわち、本発明のロボット装置によれば、供給された入力情報に基づいて動作を行う自律型の口ポット装置において、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に解析された音楽情報中の任意の音符列に対して任意の歌詞を付与し、付与された歌詞に基づき歌声を生成することにより、演奏データを解析してそれから得られる音の高さ、長さ、強さをもとにした音符情報に対して任意の歌詞を付与して歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができ、演奏デ一夕の中に歌詞情報があればその歌詞を歌い上げることが可能なばかりでなく、演奏データ中の任意の音符列に対して自由な歌詞を付与することができる。したがって、口ポット装置の表現能力が向上し、エンタテインメント性を高めることができるとともに、人間との親密性を深めることができる。

Claims

請求の範囲

1 . 演奏デ一夕を音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与工程と、

付与された歌詞に基づき歌声を生成する歌声生成工程と

を有することを特徴とする歌声合成方法。

2 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とする請求の範囲第 1項記載の歌声合成方法。

3 . 上記歌詞付与工程は、外部からの歌詞の指示がない場合には予め決められた歌詞を任意の音符列に対して付与することを特徴とする請求の範囲第 1項記載の歌声合成方法。

4 . 上記歌詞付与工程は、上記 M I D Iファイルのトラック又はチャンネルに含まれる音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 2項記載の歌声合成方法。

5 . 上記歌詞付与工程は、上記トラック又はチャンネルの選択を任意に行うことを特徴とする請求の範囲第 4項記載の歌声合成方法。

6 . 上記歌詞付与工程は、演奏データの中で一番初めに現れるトラック又はチヤンネルの音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 4項記載の歌声合成方法。

7 . 上記歌詞付与工程は、'複数のトラック又はチャンネルに対してそれぞれ独立した歌詞を付与することを特徴とする請求の範囲第 4項記載の歌声合成方法。

8 . 上記歌詞付与工程は、歌詞付与の結果を保存することを特徴とする請求の範囲第 2項記載の歌声合成方法。

9 . 上記歌詞情報に台詞を表す情報が含まれている場合に、該当歌詞の発声の夕ィミングで歌詞の替わりに台詞を合成音声により読み上げ、歌唱の中に台詞を揷入する台詞挿入工程をさらに有することを特徴とする請求の範囲第 2項記載の歌声合成方法。

1 0 . 演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与手段と、

付与された歌詞に基づき歌声を生成する歌声生成手段と

を有することを特徴とする歌声合成装置。

1 1 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とする請求の範囲第 1 0項記載の歌声合成装置。

1 2 . 上記歌詞付与手段は、外部からの歌詞の指示がない場合には予め決められた歌詞を任意の音符列に対して付与することを特徴とする請求の範囲第 1 0項記載の歌声合成装置。

1 3 . 上記歌詞付与手段は、上記 M I D Iファイルのトラック又はチャンネルに含まれる音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 1 1項記載の歌声合成装置。

1 4 . 上記歌詞情報に台詞を表す情報が含まれている場合に、該当歌詞の発声の夕イミングで歌詞の替わりに台詞を合成音声により読み上げ、歌唱の中に台詞を挿入する台詞挿入手段をさらに有することを特徴とする請求の範囲第 1 1項記載の歌声合成装置。

1 5 . 所定の処理をコンピュータに実行させるためのプログラムであって、入力された演奏デ一夕を音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、

解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与工程と、

付与された歌詞に基づき歌声を生成する歌声生成工程と

を有することを特徴とするプログラム。

1 6 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とする請求の範囲第 1 5項記載のプログラム。

1 7 . 上記歌詞情報に台詞を表す情報が含まれている場合に、該当歌詞の発声の夕イミングで歌詞の替わりに台詞を合成音声により読み上げ、歌唱の中に台詞を挿入する台詞挿入工程をさらに有することを特徴とする請求の範囲第 1 6項記載のプログラム。

1 8 . 所定の処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体であって、

入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、

解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与工程と、

付与された歌詞に基づき歌声を生成する歌声生成工程と

を有することを特徴とするプログラムが記録された記録媒体。

1 9 . 上記演奏デ一夕は、 M I D I ファイルの演奏デ一夕であることを特徴とする請求の範囲第 1 8項記載の記録媒体。

2 0 . 供給された入力情報に基づいて動作を行う自律型のロボッ卜装置であって，入力された演奏データを音の高さ、長さ歌詞の音楽情報として解析する解析手段と、

解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するとともに、歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌詞付与手段と、

付与された歌詞に基づき歌声を生成する歌声生成手段と

を有することを特徴とするロボッ卜装置。

2 1 . 上記演奏データは、 M I D I ファイルの演奏デ一夕であること

を特徴とする請求の範囲第 2 0項記載のロポット装置。 M I D Iデ一夕等の演奏データを活用して歌声を合成する歌声合成方法であり · 入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する（S 2. S 3) 。解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する（S 9、 S l l、 S 1 2、 S 1 5 ) 。付与された歌詞に基づき歌声を生成する（S 1 7) 。