JP2000231395A - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置

Info

Publication number
JP2000231395A
JP2000231395A JP11030684A JP3068499A JP2000231395A JP 2000231395 A JP2000231395 A JP 2000231395A JP 11030684 A JP11030684 A JP 11030684A JP 3068499 A JP3068499 A JP 3068499A JP 2000231395 A JP2000231395 A JP 2000231395A
Authority
JP
Japan
Prior art keywords
speech
phoneme
unit data
unit
phoneme sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11030684A
Other languages
English (en)
Other versions
JP3515406B2 (ja
Inventor
Hideyuki Mizuno
秀之 水野
Kimito Tanaka
公人 田中
Shinya Nakajima
信弥 中嶌
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03068499A priority Critical patent/JP3515406B2/ja
Publication of JP2000231395A publication Critical patent/JP2000231395A/ja
Application granted granted Critical
Publication of JP3515406B2 publication Critical patent/JP3515406B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音素または音節等の長さの音声素片を使用し
た低容量の音声データに基づく音声合成方法で得られる
程度の品質の合成音声から、大容量の音声データベース
に基づく自然音声と同様の高品質な合成音声まで、用途
に応じてスケーラブルに音声データと合成品質を変更可
能な音声合成方法及び装置を提供する。 【解決手段】 音韻列と韻律情報が素片選択部101に
入力されると、素片選択部101は入力された音韻列と
韻律情報を参照して音声データベース12より最適な音
声素片データを選択して韻律変形部102に送る。この
音声データベース12には音声波形,音韻情報,音韻境
界情報などが格納されている。韻律変形部102は、入
力された韻律情報に適合するように素片選択部101で
選択された音声素片データを変形して素片接続部103
に送る。素片接続部103は韻律変形部102で変形さ
れた素片データを順に接続して合成音声を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、テキストを入力
しそのテキストに応じた任意の音声を合成する音声合成
方法及び装置に関し、特に、主に音韻列と韻律情報とか
ら音声を合成する規則音声合成方法及びこの方法を実現
するための装置に関するものである。
【0002】
【従来の技術】従来の音声合成方法では、あらかじめ、
音声素片として音素単位や、CV,VCV,CVC
(C:子音,V:母音)など音韻の調音結合を考慮した
単位、3音韻以上のフォルマントを考慮した単位、また
は前記全ての単位で音声データベースを作成しておき、
音声を合成する際に、入力テキストや韻律情報に応じて
音声データベース中から適切な素片データを選択して接
続することによって音声合成を行っているものが多い
(特開昭59−204097号公報,特開平1−078
300号公報,特開平6−095692号公報,特開平
9−090972号公報)。この音声合成方法では、合
成音声の品質はおおよそ使用する音声データベースの容
量と比例しており、容量は少ないが自然音声よりかなり
劣ったものから、容量は大きいがある程度高品質なもの
まで様々なものが開発・製品化されている。しかし、そ
れらの製品は全く独立に開発されており互換性等がない
ため、容量,品質,応答時間などの使用条件に応じて使
い分けることが困難である。
【0003】さらに、近年では大容量な記憶装置の使用
コストの低下にともなって、数十分から数時間に及ぶ音
声データをそのまま大容量の記憶装置に蓄積し、入力さ
れたテキスト及び韻律情報に応じた適当な基準で大容量
の音声データから適当な長さの音声素片を切り出すとと
もに、入力された韻律情報に従って切り出された音声素
片を適切に変形し接続することによって合成する音声合
成方法も提案されている(特許第2761552号)。
この方法では大容量の音声データを用意することで、理
論的には高品質な合成音声を作成することが可能である
が、大容量の音声データとそれを格納する記憶装置が必
要であるためシステム価格が高くなることや、音声デー
タを収集する基準または方法が確立されていないため、
必要な品質に見合った最適な規模の音声データを収集す
ることが不可能であること、存在する音声データから適
切な音声素片を切り出す最適な規則や方法が確立されて
いないため、切り出された音声素片が必ずしも適切でな
く合成音声全体の品質が安定しないこと等の問題があ
る。
【0004】
【発明が解決しようとする課題】この発明は上述した問
題点に鑑みてなされたものであり、その目的は、音素ま
たは音節等の長さの音声素片を使用した低容量の音声デ
ータに基づく音声合成方法によって得られる程度の品質
の合成音声から、大容量の音声データベースに基づく自
然音声と同様の高品質な合成音声まで、用途に応じてス
ケーラブルに音声データと合成品質を変更することが可
能な音声合成方法及び装置を提供することにある。ま
た、この発明の目的は、大容量の音声データにもとづく
音声合成方式の問題を解決し、音声データの収集基準と
音声素片の選択規則を明確化することにより、常に適切
な音声素片データの選択が保証された高品質な合成音声
を実現できる音声合成方法及び装置を提供することにあ
る。
【0005】
【課題を解決するための手段】以上の課題を解決するた
めに、請求項1記載の発明は、入力された音韻列と韻律
情報に対応づけられた音声素片データを音声データベー
スから選択して順次接続することにより音声信号を合成
する音声合成方法において、前記入力された音韻列を予
め決められた規則に従って部分音韻列に分解する分解過
程と、対応づけられた音韻列が前記分解された部分音韻
列と一致し、かつ該音韻列の前後の音韻が前記部分音韻
列の前後の音韻と一致する音声素片データの前記音声デ
ータベース中における存在の有無を判断する判断過程
と、前記音声素片データが存在する場合には、当該音声
素片データを選択する選択過程と、前記音声素片データ
が存在しない場合には、前記分解された部分音韻列を前
記入力された音韻列として、前記部分音韻列の長さが予
め定められた最小音韻長に分解されるまで前記分解過程
と前記判断過程を反復させる過程と、前記部分音韻列に
対応する前記韻律情報を構成する部分韻律情報に応じ
て、前記選択された音声素片データを韻律変形する過程
と、前記韻律変形を受けた音声素片データを順次接続し
て音声信号を合成する過程とを有することを特徴として
いる。
【0006】また、請求項2記載の発明は、請求項1記
載の発明において、前記最小音韻長にまで分解された部
分音韻列が存在せず、かつ前記最小音韻長が2である場
合、前記部分音韻列と該部分音韻列の前後の音韻を含む
部分音韻列を連鎖音韻に分解する過程をさらに有し、前
記選択過程では前記連鎖音韻に対応する音声素片データ
を選択することを特徴としている。また、請求項3記載
の発明は、請求項1乃至2記載の発明において、一個の
部分音韻列について前記選択された音声素片データが複
数個存在する場合、それら音声素片データに対応する韻
律と前記部分音韻列に対応する韻律との類似性を判断す
る過程をさらに有し、前記選択過程では、前記複数個の
音声素片データのうち、最も類似性の高い音声素片デー
タを選択することを特徴としている。
【0007】また、請求項4記載の発明は、入力された
音韻列と韻律情報に対応づけられた音声素片データを音
声データベースから選択して順次接続することにより音
声信号を合成する音声合成装置において、前記入力され
た音韻列を予め決められた規則に従って部分音韻列に分
解する分解手段と、対応づけられた音韻列が前記分解さ
れた部分音韻列と一致し、かつ該音韻列の前後の音韻が
前記部分音韻列の前後の音韻と一致する音声素片データ
の前記音声データベース中における存在の有無を判断す
る判断手段と、前記音声素片データが存在することを条
件として、当該音声素片データを選択する選択手段と、
前記音声素片データが存在しないことを条件として、前
記分解された部分音韻列を前記入力された音韻列として
前記分解手段に入力して、前記部分音韻列の長さが予め
定められた最小音韻長に分解されるまで前記分解手段と
前記判断手段とを反復動作させるように制御する手段
と、前記部分音韻列に対応する前記韻律情報を構成する
部分韻律情報に応じて、前記選択された音声素片データ
を韻律変形する手段と、前記韻律変形を受けた音声素片
データを順次接続して前記音声信号を合成する手段とを
具備することを特徴としている。
【0008】また、請求項5記載の発明は、請求項4記
載の発明において、前記最小音韻長にまで分解された部
分音韻列が存在せず、かつ前記最小音韻長が2であるこ
とを条件として、前記部分音韻列と該部分音韻列の前後
の音韻を含む部分音韻列を連鎖音韻に分解する手段をさ
らに具備し、前記選択手段は前記連鎖音韻に対応する音
声素片データを選択することを特徴としている。また、
請求項6記載の発明は、請求項4乃至5記載の発明にお
いて、一個の部分音韻列について前記選択された音声素
片データが複数個存在することを条件として、それら音
声素片データに対応する韻律と前記部分音韻列に対応す
る韻律との類似性を判断する手段をさらに具備し、前記
選択手段は、前記複数個の音声素片データのうち、最も
類似性の高い音声素片データを選択することを特徴とし
ている。
【0009】以上のように、本発明は、音韻情報と韻律
情報とから音声を合成する規則音声合成方法及び装置に
適用されるものである。そして本発明は、入力された音
韻情報に従って音声データベースから音声素片データを
選択する際に、音素や音節などの一定の単位での選択ま
たは複雑な規則や計算に基づく選択を行うのではなく、
音韻情報をある単純な規則に従って部分音韻列に分解
し、分解された音韻列およびその前後の音韻環境に適合
する音声素片データを音声データベースから選択し、適
合する音声素片データが無かった部分音韻列のみをさら
に別の単純な規則に従って分解し、その分解された音韻
列に適合する音声素片データを音声データベースから選
択し、さらに適合する音声素片データが無かった部分音
韻列のみ分解し、という多段階の分解と選択を入力音韻
列に対応する全ての音声素片データが見つかるまで行う
ことに特徴を有している。
【0010】このように多段階の選択を行うことで、最
下段の分解規則に対応した最小単位で音声データベース
を構成した場合が最も低容量・低品質な用途に対応する
とともに、それより上の段階の分解規則に対応した単位
の音声素片データを音声データベースに追加すること
で、より高品質な用途に対応させることが可能となり、
また、最上段の分解規則に対応した最長単位の音声素片
データが全て音声データベースに存在する場合は最高品
質の用途に対応させることが可能となる。そして各段階
に対応する音声素片データを音声データベースに追加ま
たは削除するだけで、音声合成システムの変更が簡単に
実現できる。
【0011】また、本発明では最終段階の音声素片選択
においては、環境を考慮しない連鎖音韻(CV,VV,
VC)にもとづく合成方法も適用可能であることに特徴
を有している。このようにすることで、環境を考慮して
音韻単位で音声素片データを用意した場合は数千〜数万
個の音声素片データが必要となるのに対し、本発明のよ
うに連鎖音韻単位で音声素片データを用意した場合は約
千個程度の音声素片データを用意すればよい。そのため
少量の記憶装置やメモリなどに音声データベースを格納
でき、LSI(大規模集積回路)への内蔵用途等にも対
応可能となる。
【0012】また、本発明では各段階で複数の音声素片
データが選択された場合、音声素片のピッチパタンが合
成すべきピッチパタンともっとも類似する音声素片デー
タを選択することにも特徴を有している。このようにす
ることで、音声合成時のピッチの変更量を少なくするこ
とができ、合成音声の品質を向上させることが可能とな
る。また合成すべきピッチパタンと同一のピッチデータ
をもつ音声素片データを追加することで、ピッチの変形
処理が不要になり、その場合の品質は編集音声合成の品
質とほぼ同等となる。
【0013】
【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を述べる。図1に本実施形態による音声合成
処理を実現するための音声合成装置の基本構成を示す。
図示したように、この音声合成装置は音声データベース
12,素片選択処理を行う素片選択部101,韻律変形
処理を行う韻律変形部102,素片接続処理を行う素片
接続部103から構成されている。これら各部が行うそ
れぞれの処理については以下に詳述する。また、図2は
この音声合成処理の手順を示したフローチャートであ
る。最初に図1を参照しながら音声合成装置の全体動作
について説明し、その後に、図3及び図4を参照して音
声合成装置を構成する幾つかの機能ブロックの構成及び
その動作の詳細について説明する。
【0014】図1に示すように、音韻列と韻律情報が素
片選択部101に入力される(図2のステップS1)
と、素片選択部101は入力された音韻列と韻律情報を
参照して音声データベース12より最適な波形(素片デ
ータ)を選択して韻律変形部102に送る(ステップS
2)。ここで、音声データベース12には音声波形,音
韻情報,音韻境界情報などが格納されているものとす
る。なお、素片選択部101の詳細な構成については後
述する。次に、韻律変形部102は、入力された韻律情
報に適合するように、部分音韻列に対応する韻律情報を
構成している部分韻律情報に応じて、前記素片選択部1
01で選択された素片データを変形して素片接続部10
3に送る(ステップS3)。
【0015】ここで、波形の変形方法としては、PSO
LA法(E.Moulines and F.Charpentier,“Pitch-sync
hro-nous waveform processing techniques for text-t
o-speech synthesis using diphones”,Speech Commun
ication ,Vol.9,pp.453-467,1990.12)、IPSE法
(田中ら,「基本周波数に応じてスペクトル包絡を変形
するテキスト合成システム」,信学技報,SP96-130,p
p.23-30,1997.3)、STRAIGHT法(河原,「聴
覚の情景分析と高品質音声分析変換合成法STRAIG
HT」,音響学会講演論文集,pp.189-192,1997.9)な
どがある。従って、音声データベース12には、それら
の合成方式に応じて最適な形で格納すればよく、必ずし
も波形データをそのまま格納する必要はない。例えばS
TRAIGHT法を用いるのであれば、事前にSTRA
IGHT分析で得られたパラメータを格納しておくこと
で音声合成時の計算時間が削減できる。そして最後に、
素片接続部103は、前記韻律変形部102で変形され
た素片データを順に接続し合成音声を生成する(ステッ
プS4)。以上が本実施形態による音声合成装置におい
て行われる処理の全体的な流れである。
【0016】次に、素片選択部101における処理の1
例について、図3のブロック図と前掲した図2のフロー
チャートを参照して説明する。なお、図3において図1
に示したものと同じ構成要素については同一の符号を付
してある。図3に示したように、素片選択部101は第
一段階分解部201,第一段階選択部202,韻律マッ
チング部203,第二段階分解部204,第二段階選択
部205,第三段階分解部206,第三段階選択部20
7,最終段選択部208から構成されている。まず、例
えば入力音韻列を”bakuoNga/giNsekaino”(ここで、
記号/はアクセント境界を示す)とした場合、第一段階
分解部201で入力音韻列を例えばアクセント句単位に
分解する(ステップS21)。これは、日本語ではアク
セント単位でまとまって発声される場合が多く、アクセ
ント句が発声現象の大きなまとまりと考えられるためで
ある。この例では、前記入力音韻列が部分音韻列”baku
oNga”とgiNsekaino”に分解される。
【0017】次に、第一段階選択部202は音声データ
ベース12から音韻列”bakuoNga”,前音韻環境が語頭
(図中の記号#),後音韻環境が”g” という素片デー
タ、および、音韻列 ”giNsekaino”,前音韻環境が”
a”,後音韻環境が語尾(図中の記号#)という素片デ
ータを音声データベース12からそれぞれ検索する(ス
テップS22)。図で示すとおり、音韻列”giNsekain
o”に対応する素片データが見つからず(同ステップが
“NO”)に、音韻列”bakuoNga”に対応する素片デー
タ21のみ見つかった(同ステップが“YES”)場
合、第一段階選択部202は素片データ21のみを韻律
マッチング部203に送る。この場合、音韻列”bakuoN
ga”に対応する素片データは1つしかない(ステップS
25が“NO”)ため、韻律マッチング部203は素片
データ21をそのまま図1の韻律変形部102に送る。
また、第一段階選択部202は音韻列”giNsekaino”を
第二段階分解部204に送る(ステップS24)。
【0018】次に、第二段階分解部204は、前記第一
段階選択部202による音声データベース12の検索で
見つからなかった音韻列”giNsekaino”を例えば音節に
母音や撥音の連続を含む単位で分解する(ステップS2
1)。これは撥音や母音が連続している場合、発声現象
的に連続しており音響的にも境界を設定するのが困難で
あるためである。そしてこの例では、”giN”,“s
e”,“kai”,“no”の4つの部分音韻列に分解され
る。次に、第二段階選択部205は第一段階選択部20
2と同様に、音声データベース12から、音韻列 ”gi
N”,前音韻環境が”a”,後音韻環境が”s”の素片デ
ータと、音韻列”se”,前音韻環境が”N”,後音韻環
境が”k”の素片データと、音韻列 ”kai”,前音韻環
境が”e”,後音韻環境が”n”の素片データと、音韻
列”no”,前音韻環境が”i”,後音韻環境が語尾(図
中の記号#)の素片データをそれぞれ検索する(ステッ
プS22)。
【0019】この結果、図で示すとおり第二段階選択部
205は ”giN”に対応する素片データ22及び素片デ
ータ23,”se”に対応する素片データ24,”no”に
対応する素片データ25を韻律マッチング部203に送
る(ステップS23が“YES”)。この場合、素片デ
ータ24と素片データ25はいずれも音韻列に対応する
素片が1つである(ステップS25が“NO”)ため、
韻律マッチング部203は素片データ21と同様にこれ
らをそのまま図1の韻律変形部102に送る。一方、素
片データ22と素片データ23(ステップS25が“Y
ES”)については、韻律マッチング部203が入力さ
れた韻律情報とマッチングを行い、入力韻律情報と最も
近い素片データを選択してから図1の韻律変形部102
に送る(ステップS26)。
【0020】ここで、韻律の近さの判定方法は使用する
音声データベース12の構成による。例えば、音声デー
タベース12がピッチのバリエーションについてのみ考
慮した音声データベースであれば、入力ピッチパタンと
最も近い(最も類似性の高い)ピッチパタンをもつ素片
データを選ぶことで十分である。また、特に韻律等を考
慮していない音声データベースを使用するのであれば、
平均ピッチ,ピッチ形状,時間長,パワーの各韻律パラ
メータについて、入力された値と素片データの持つ値と
の差分の絶対値を求め、これら絶対値に対して各韻律パ
ラメータ毎の重み係数を掛けて足し合わせることで韻律
コストを求め、その値の小さいものを選ぶことが望まし
いと考えられる(広川ら,“波形編集型規則合成法にお
ける波形選択関数の検討”,音響学会講演論文集,pp.1
57-158,1989.3)。この例では、素片データ22が入力
ピッチパタンに近いと判断されたとして、韻律マッチン
グ部203は素片データ22を図1の韻律変形部102
に送る。
【0021】次に、第三段階分解部206は、前記第二
段階選択部205による音声データベース12の検索で
見つからなかった(ステップS23が“NO”,ステッ
プS24)部分音韻列 ”kai”を例えば音節に分解する
(ステップS21)。これは、音節の構成要素である子
音と母音は音響的にも発声現象的にも密接に結びついて
いるため、分離して取り扱うのは音質の劣化を招く可能
性が大きいためである。この例では、部分音韻列 ”ka
i”が”ka”と“i” の2つの部分音韻列に分解され
る。次に、第三段階選択部207は第一段階選択部20
2及び第二段階選択部205と同様に、音声データベー
ス12から、音韻列”ka”,前音韻環境が”e”,後音
韻環境が”i”の素片データと、音韻列”i”,前音韻環
境が”a”,後音韻環境が”n”の素片データをそれぞれ
検索する(ステップS22)。
【0022】図で示すとおり音韻列”i” に対応する素
片データ26が一つ見つかり(ステップS23が“YE
S”)、音韻列”ka”に対応する素片データが見つから
なかった(ステップS23が“NO”)とする。すると
第三段階選択部207は、韻律マッチング部203に素
片データ26を送り、韻律マッチング部203は音韻
列”i” に対応する素片が1つだけ(ステップS25が
“NO”)のため、前記同様に素片データ26を図1の
韻律変形部102に送る。最後に、最終段選択部208
は前記第三段階選択部207による音声データベース1
2の検索で見つからなかった部分音韻列”ka”を選択す
る(ステップS24,ステップS21〜S26)。
【0023】次に、最終段選択部208の詳細について
図4を参照して以下に説明する。なお、図4において図
1又は図3に示したものと同じ構成要素については同一
の符号を付してある。この図4には2種類の分解・選択
方法の一例について示してある。図4(a)では、前記
の第一から第三までの分解処理および選択処理と同様
に、前記第三段階選択部207による音声データベース
12の検索で見つからなかった部分音韻列”ka”を音声
の基本単位である音韻に分解する方法の一例について示
してある。この例では音韻分解部301にて部分音韻
列”ka”が”k” と“a” に分解される。
【0024】次に、音韻選択部302では第一段階選択
部202,第二段階選択部205と同様に、音声データ
ベース12から、音韻”k”,前音韻環境が”e”,後音
韻環境が”a”の素片データと,音韻列”a” ,前音韻
環境が”k”,後音韻環境が”i”の素片データをそれぞ
れ検索する。図4(a)で示すとおり”k”に対応する
素片データ31および”a” に対応する素片データ32
が見つかったとして、音韻選択部302は図3の韻律マ
ッチング部203に素片データ31と素片データ32を
送る。韻律マッチング部203はこれら各音韻に対応す
る素片が各々1つのみのため、前記同様にこれら素片デ
ータを図1の韻律変形部102に送る。なお、もしも対
応する素片データが複数あった場合は、前記同様に韻律
マッチング部203にて入力された韻律情報と最も近い
韻律を持つ素片データを選択しそれを韻律変形部102
に送る。
【0025】一方、図4(b)では、前記第三段階選択
部207による音声データベース12の検索で見つから
なかった部分音韻列”ka”を連鎖音韻に分解する方法の
一例について示してある。連鎖音韻に分解する理由は、
前記図4(a)で示す方法と比較した場合に、少ないデ
ータ量であらゆる音韻列の合成が可能となるためであ
る。前記図4(a)に基づく方法では数千〜数万の素片
データが必要なのに対し、図4(b)で示す方法では約
1000個程度の素片データのみでよいため、より少な
い記憶容量で音声合成が実現可能となる。この例では、
部分音韻列”ka”の前音韻環境が”e”,後音韻環境
が”i”であったことから、連鎖音韻分解部303はこ
れを”ek”,“ka”,”ai”に分解して連鎖音韻選択部
304に送る。
【0026】次に、連鎖音韻選択部304は音声データ
ベース12から”ek”,”ka”,”ai”である連鎖音韻
の素片データをそれぞれ検索する。図4(b)で示すと
おり”ek”に対応する素片データ33,”ka”に対応す
る素片データ34,”ai”に対応する素片データ35が
見つかったとして、連鎖音韻選択部304は図3の韻律
マッチング部203に素片データ33〜素片データ35
を送る。この場合、各連鎖音韻に対応する素片データは
各々1つのみのため、韻律マッチング部203は前記同
様にこれら素片データを図1の韻律変形部102に送
る。なお、もしも対応する素片データが複数ある場合
は、前記同様に韻律マッチング部203にて入力韻律情
報と最も近い韻律を持つ素片データを選択しそれを韻律
変形部102に送る。またこの後、素片接続部103が
韻律変形部102で変形された素片データ(ステップS
3)を順に接続して合成音声を生成する(ステップS
4)が、図4(b)の場合は”k”と“a”が重複するの
で、このまま素片データを接続するだけでは音韻の重複
が避けられない。そのため、素片接続部103は素片接
続に先立って重複しないように音韻の中間部分をつなぐ
ようにしている。
【0027】
【発明の効果】以上述べたように、この発明によれば、
入力音韻列と入力韻律情報に対して段階的に音声データ
ベースから音声素片データを選択してそれら音声素片デ
ータを接続することで出力音声を合成している。このた
め、低コストの合成システムから高コストではあるが高
品質な合成システムまで用途に応じてシステム規模をス
ケーラブルに変更可能であり、実用性に優れた合成シス
テムの提供が可能である。また、最低段階の選択規則に
対応した音声素片データに基づく合成品質は保証されて
いるため、一定以上の品質が保証された合成音声の提供
が可能である。
【0028】また、請求項2又は5記載の発明では、部
分音韻列を前後の音韻環境を含めて連鎖音韻に分解して
連鎖音韻単位で音声素片データを選択するようにしてい
る。このため、環境を考慮して音韻単位で音声素片デー
タを用意した場合には数千〜数万個の音声素片データが
必要となるのに対し、連鎖音韻単位で音声素片データを
用意することで約千個程度の音声素片データを用意すれ
ば良くなる。そのため、音声データベースを少容量のメ
モリ等に格納することができ、LSIに内蔵するなどの
用途にも対応することができる。
【0029】また、請求項3又は6記載の発明では、あ
る部分音韻列について複数の音声素片データが選択され
た場合に、例えば、音声素片データのピッチパタンが合
成すべきピッチパタンに最も類似するものを選択してい
る。このため、例えば音声合成時のピッチの変更量が少
なくなって合成音声の品質を向上できるほか、合成すべ
きピッチパタンと同一のピッチデータを持つ音声素片デ
ータを追加すればピッチの変形処理が不要になるため、
編集音声合成の品質とほぼ同等の合成音声が得られる。
【図面の簡単な説明】
【図1】 本発明の一実施形態による音声合成装置の構
成を示すブロック図である。
【図2】 同実施形態における音声合成方法の手順を示
したフローチャートである。
【図3】 図1に示す素片選択部101の詳細な構成を
示すブロック図である。
【図4】 図3に示す最終段選択部208の詳細な構成
を示すブロック図であって、(a)は部分音韻列を音韻
に分解するようにした場合の構成例,(b)は部分音韻
列を連鎖音韻に分解するようにした場合の構成例であ
る。
【符号の説明】
12 音声データベース 21〜26,31〜35 素片データ 101 素片選択部 102 韻律変形部 103 素片接続部 201 第一段階分解部 202 第一段階選択部 203 韻律マッチング部 204 第二段階分解部 205 第二段階選択部 206 第三段階分解部 207 第三段階選択部 208 最終段選択部 301 音韻分解部 302 音韻選択部 303 連鎖音韻分解部 304 連鎖音韻選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中嶌 信弥 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 阿部 匡伸 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5D045 AA07 AB01 9A001 HH18 JJ01

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力された音韻列と韻律情報に対応づけ
    られた音声素片データを音声データベースから選択して
    順次接続することにより音声信号を合成する音声合成方
    法において、 前記入力された音韻列を予め決められた規則に従って部
    分音韻列に分解する分解過程と、 対応づけられた音韻列が前記分解された部分音韻列と一
    致し、かつ該音韻列の前後の音韻が前記部分音韻列の前
    後の音韻と一致する音声素片データの前記音声データベ
    ース中における存在の有無を判断する判断過程と、 前記音声素片データが存在する場合には、当該音声素片
    データを選択する選択過程と、 前記音声素片データが存在しない場合には、前記分解さ
    れた部分音韻列を前記入力された音韻列として、前記部
    分音韻列の長さが予め定められた最小音韻長に分解され
    るまで前記分解過程と前記判断過程を反復させる過程
    と、 前記部分音韻列に対応する前記韻律情報を構成する部分
    韻律情報に応じて、前記選択された音声素片データを韻
    律変形する過程と、 前記韻律変形を受けた音声素片データを順次接続して音
    声信号を合成する過程とを有することを特徴とする音声
    合成方法。
  2. 【請求項2】 前記最小音韻長にまで分解された部分音
    韻列が存在せず、かつ前記最小音韻長が2である場合、
    前記部分音韻列と該部分音韻列の前後の音韻を含む部分
    音韻列を連鎖音韻に分解する過程をさらに有し、 前記選択過程では前記連鎖音韻に対応する音声素片デー
    タを選択することを特徴とする請求項1記載の音声合成
    方法。
  3. 【請求項3】 一個の部分音韻列について前記選択され
    た音声素片データが複数個存在する場合、それら音声素
    片データに対応する韻律と前記部分音韻列に対応する韻
    律との類似性を判断する過程をさらに有し、 前記選択過程では、前記複数個の音声素片データのう
    ち、最も類似性の高い音声素片データを選択することを
    特徴とする請求項1乃至2記載の音声合成方法。
  4. 【請求項4】 入力された音韻列と韻律情報に対応づけ
    られた音声素片データを音声データベースから選択して
    順次接続することにより音声信号を合成する音声合成装
    置において、 前記入力された音韻列を予め決められた規則に従って部
    分音韻列に分解する分解手段と、 対応づけられた音韻列が前記分解された部分音韻列と一
    致し、かつ該音韻列の前後の音韻が前記部分音韻列の前
    後の音韻と一致する音声素片データの前記音声データベ
    ース中における存在の有無を判断する判断手段と、 前記音声素片データが存在することを条件として、当該
    音声素片データを選択する選択手段と、 前記音声素片データが存在しないことを条件として、前
    記分解された部分音韻列を前記入力された音韻列として
    前記分解手段に入力して、前記部分音韻列の長さが予め
    定められた最小音韻長に分解されるまで前記分解手段と
    前記判断手段とを反復動作させるように制御する手段
    と、 前記部分音韻列に対応する前記韻律情報を構成する部分
    韻律情報に応じて、前記選択された音声素片データを韻
    律変形する手段と、 前記韻律変形を受けた音声素片データを順次接続して前
    記音声信号を合成する手段とを具備することを特徴とす
    る音声合成装置。
  5. 【請求項5】 前記最小音韻長にまで分解された部分音
    韻列が存在せず、かつ前記最小音韻長が2であることを
    条件として、前記部分音韻列と該部分音韻列の前後の音
    韻を含む部分音韻列を連鎖音韻に分解する手段をさらに
    具備し、 前記選択手段は前記連鎖音韻に対応する音声素片データ
    を選択することを特徴とする請求項4記載の音声合成装
    置。
  6. 【請求項6】 一個の部分音韻列について前記選択され
    た音声素片データが複数個存在することを条件として、
    それら音声素片データに対応する韻律と前記部分音韻列
    に対応する韻律との類似性を判断する手段をさらに具備
    し、 前記選択手段は、前記複数個の音声素片データのうち、
    最も類似性の高い音声素片データを選択することを特徴
    とする請求項4乃至5記載の音声合成装置。
JP03068499A 1999-02-08 1999-02-08 音声合成方法及び装置 Expired - Lifetime JP3515406B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03068499A JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03068499A JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Publications (2)

Publication Number Publication Date
JP2000231395A true JP2000231395A (ja) 2000-08-22
JP3515406B2 JP3515406B2 (ja) 2004-04-05

Family

ID=12310527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03068499A Expired - Lifetime JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Country Status (1)

Country Link
JP (1) JP3515406B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2012022121A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音声合成装置
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JPWO2005093713A1 (ja) * 2004-03-29 2008-07-31 株式会社エーアイ 音声合成装置
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
JP2012022121A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音声合成装置

Also Published As

Publication number Publication date
JP3515406B2 (ja) 2004-04-05

Similar Documents

Publication Publication Date Title
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3361066B2 (ja) 音声合成方法および装置
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JPH10171484A (ja) 音声合成方法および装置
JP2001034283A (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JPH11249677A (ja) 音声合成装置の韻律制御方法
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP3515406B2 (ja) 音声合成方法及び装置
JP2761552B2 (ja) 音声合成方法
JP2005004104A (ja) 規則音声合成装置及び規則音声合成方法
JPH07319497A (ja) 音声合成装置
JPH06236197A (ja) ピッチパターン生成装置
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JPH06318094A (ja) 音声規則合成装置
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JPH1195796A (ja) 音声合成方法
JP2005265895A (ja) 素片接続型音声合成装置及び方法
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体
JP3302874B2 (ja) 音声合成方式
JP2005241789A (ja) 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP2002244693A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080123

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term