JP2000231395A

JP2000231395A - 音声合成方法及び装置

Info

Publication number: JP2000231395A
Application number: JP11030684A
Authority: JP
Inventors: Hideyuki Mizuno; 秀之水野; Kimito Tanaka; 公人田中; Shinya Nakajima; 信弥中嶌; Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1999-02-08
Filing date: 1999-02-08
Publication date: 2000-08-22
Anticipated expiration: 2019-02-08
Also published as: JP3515406B2

Abstract

(57)【要約】【課題】音素または音節等の長さの音声素片を使用し
た低容量の音声データに基づく音声合成方法で得られる
程度の品質の合成音声から、大容量の音声データベース
に基づく自然音声と同様の高品質な合成音声まで、用途
に応じてスケーラブルに音声データと合成品質を変更可
能な音声合成方法及び装置を提供する。【解決手段】音韻列と韻律情報が素片選択部１０１に
入力されると、素片選択部１０１は入力された音韻列と
韻律情報を参照して音声データベース１２より最適な音
声素片データを選択して韻律変形部１０２に送る。この
音声データベース１２には音声波形，音韻情報，音韻境
界情報などが格納されている。韻律変形部１０２は、入
力された韻律情報に適合するように素片選択部１０１で
選択された音声素片データを変形して素片接続部１０３
に送る。素片接続部１０３は韻律変形部１０２で変形さ
れた素片データを順に接続して合成音声を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、テキストを入力
しそのテキストに応じた任意の音声を合成する音声合成
方法及び装置に関し、特に、主に音韻列と韻律情報とか
ら音声を合成する規則音声合成方法及びこの方法を実現
するための装置に関するものである。

【０００２】

【従来の技術】従来の音声合成方法では、あらかじめ、
音声素片として音素単位や、ＣＶ，ＶＣＶ，ＣＶＣ
（Ｃ：子音，Ｖ：母音）など音韻の調音結合を考慮した
単位、３音韻以上のフォルマントを考慮した単位、また
は前記全ての単位で音声データベースを作成しておき、
音声を合成する際に、入力テキストや韻律情報に応じて
音声データベース中から適切な素片データを選択して接
続することによって音声合成を行っているものが多い
（特開昭５９−２０４０９７号公報，特開平１−０７８
３００号公報，特開平６−０９５６９２号公報，特開平
９−０９０９７２号公報）。この音声合成方法では、合
成音声の品質はおおよそ使用する音声データベースの容
量と比例しており、容量は少ないが自然音声よりかなり
劣ったものから、容量は大きいがある程度高品質なもの
まで様々なものが開発・製品化されている。しかし、そ
れらの製品は全く独立に開発されており互換性等がない
ため、容量，品質，応答時間などの使用条件に応じて使
い分けることが困難である。

【０００３】さらに、近年では大容量な記憶装置の使用
コストの低下にともなって、数十分から数時間に及ぶ音
声データをそのまま大容量の記憶装置に蓄積し、入力さ
れたテキスト及び韻律情報に応じた適当な基準で大容量
の音声データから適当な長さの音声素片を切り出すとと
もに、入力された韻律情報に従って切り出された音声素
片を適切に変形し接続することによって合成する音声合
成方法も提案されている（特許第２７６１５５２号）。
この方法では大容量の音声データを用意することで、理
論的には高品質な合成音声を作成することが可能である
が、大容量の音声データとそれを格納する記憶装置が必
要であるためシステム価格が高くなることや、音声デー
タを収集する基準または方法が確立されていないため、
必要な品質に見合った最適な規模の音声データを収集す
ることが不可能であること、存在する音声データから適
切な音声素片を切り出す最適な規則や方法が確立されて
いないため、切り出された音声素片が必ずしも適切でな
く合成音声全体の品質が安定しないこと等の問題があ
る。

【０００４】

【発明が解決しようとする課題】この発明は上述した問
題点に鑑みてなされたものであり、その目的は、音素ま
たは音節等の長さの音声素片を使用した低容量の音声デ
ータに基づく音声合成方法によって得られる程度の品質
の合成音声から、大容量の音声データベースに基づく自
然音声と同様の高品質な合成音声まで、用途に応じてス
ケーラブルに音声データと合成品質を変更することが可
能な音声合成方法及び装置を提供することにある。ま
た、この発明の目的は、大容量の音声データにもとづく
音声合成方式の問題を解決し、音声データの収集基準と
音声素片の選択規則を明確化することにより、常に適切
な音声素片データの選択が保証された高品質な合成音声
を実現できる音声合成方法及び装置を提供することにあ
る。

【０００５】

【課題を解決するための手段】以上の課題を解決するた
めに、請求項１記載の発明は、入力された音韻列と韻律
情報に対応づけられた音声素片データを音声データベー
スから選択して順次接続することにより音声信号を合成
する音声合成方法において、前記入力された音韻列を予
め決められた規則に従って部分音韻列に分解する分解過
程と、対応づけられた音韻列が前記分解された部分音韻
列と一致し、かつ該音韻列の前後の音韻が前記部分音韻
列の前後の音韻と一致する音声素片データの前記音声デ
ータベース中における存在の有無を判断する判断過程
と、前記音声素片データが存在する場合には、当該音声
素片データを選択する選択過程と、前記音声素片データ
が存在しない場合には、前記分解された部分音韻列を前
記入力された音韻列として、前記部分音韻列の長さが予
め定められた最小音韻長に分解されるまで前記分解過程
と前記判断過程を反復させる過程と、前記部分音韻列に
対応する前記韻律情報を構成する部分韻律情報に応じ
て、前記選択された音声素片データを韻律変形する過程
と、前記韻律変形を受けた音声素片データを順次接続し
て音声信号を合成する過程とを有することを特徴として
いる。

【０００６】また、請求項２記載の発明は、請求項１記
載の発明において、前記最小音韻長にまで分解された部
分音韻列が存在せず、かつ前記最小音韻長が２である場
合、前記部分音韻列と該部分音韻列の前後の音韻を含む
部分音韻列を連鎖音韻に分解する過程をさらに有し、前
記選択過程では前記連鎖音韻に対応する音声素片データ
を選択することを特徴としている。また、請求項３記載
の発明は、請求項１乃至２記載の発明において、一個の
部分音韻列について前記選択された音声素片データが複
数個存在する場合、それら音声素片データに対応する韻
律と前記部分音韻列に対応する韻律との類似性を判断す
る過程をさらに有し、前記選択過程では、前記複数個の
音声素片データのうち、最も類似性の高い音声素片デー
タを選択することを特徴としている。

【０００７】また、請求項４記載の発明は、入力された
音韻列と韻律情報に対応づけられた音声素片データを音
声データベースから選択して順次接続することにより音
声信号を合成する音声合成装置において、前記入力され
た音韻列を予め決められた規則に従って部分音韻列に分
解する分解手段と、対応づけられた音韻列が前記分解さ
れた部分音韻列と一致し、かつ該音韻列の前後の音韻が
前記部分音韻列の前後の音韻と一致する音声素片データ
の前記音声データベース中における存在の有無を判断す
る判断手段と、前記音声素片データが存在することを条
件として、当該音声素片データを選択する選択手段と、
前記音声素片データが存在しないことを条件として、前
記分解された部分音韻列を前記入力された音韻列として
前記分解手段に入力して、前記部分音韻列の長さが予め
定められた最小音韻長に分解されるまで前記分解手段と
前記判断手段とを反復動作させるように制御する手段
と、前記部分音韻列に対応する前記韻律情報を構成する
部分韻律情報に応じて、前記選択された音声素片データ
を韻律変形する手段と、前記韻律変形を受けた音声素片
データを順次接続して前記音声信号を合成する手段とを
具備することを特徴としている。

【０００８】また、請求項５記載の発明は、請求項４記
載の発明において、前記最小音韻長にまで分解された部
分音韻列が存在せず、かつ前記最小音韻長が２であるこ
とを条件として、前記部分音韻列と該部分音韻列の前後
の音韻を含む部分音韻列を連鎖音韻に分解する手段をさ
らに具備し、前記選択手段は前記連鎖音韻に対応する音
声素片データを選択することを特徴としている。また、
請求項６記載の発明は、請求項４乃至５記載の発明にお
いて、一個の部分音韻列について前記選択された音声素
片データが複数個存在することを条件として、それら音
声素片データに対応する韻律と前記部分音韻列に対応す
る韻律との類似性を判断する手段をさらに具備し、前記
選択手段は、前記複数個の音声素片データのうち、最も
類似性の高い音声素片データを選択することを特徴とし
ている。

【０００９】以上のように、本発明は、音韻情報と韻律
情報とから音声を合成する規則音声合成方法及び装置に
適用されるものである。そして本発明は、入力された音
韻情報に従って音声データベースから音声素片データを
選択する際に、音素や音節などの一定の単位での選択ま
たは複雑な規則や計算に基づく選択を行うのではなく、
音韻情報をある単純な規則に従って部分音韻列に分解
し、分解された音韻列およびその前後の音韻環境に適合
する音声素片データを音声データベースから選択し、適
合する音声素片データが無かった部分音韻列のみをさら
に別の単純な規則に従って分解し、その分解された音韻
列に適合する音声素片データを音声データベースから選
択し、さらに適合する音声素片データが無かった部分音
韻列のみ分解し、という多段階の分解と選択を入力音韻
列に対応する全ての音声素片データが見つかるまで行う
ことに特徴を有している。

【００１０】このように多段階の選択を行うことで、最
下段の分解規則に対応した最小単位で音声データベース
を構成した場合が最も低容量・低品質な用途に対応する
とともに、それより上の段階の分解規則に対応した単位
の音声素片データを音声データベースに追加すること
で、より高品質な用途に対応させることが可能となり、
また、最上段の分解規則に対応した最長単位の音声素片
データが全て音声データベースに存在する場合は最高品
質の用途に対応させることが可能となる。そして各段階
に対応する音声素片データを音声データベースに追加ま
たは削除するだけで、音声合成システムの変更が簡単に
実現できる。

【００１１】また、本発明では最終段階の音声素片選択
においては、環境を考慮しない連鎖音韻（ＣＶ，ＶＶ，
ＶＣ）にもとづく合成方法も適用可能であることに特徴
を有している。このようにすることで、環境を考慮して
音韻単位で音声素片データを用意した場合は数千〜数万
個の音声素片データが必要となるのに対し、本発明のよ
うに連鎖音韻単位で音声素片データを用意した場合は約
千個程度の音声素片データを用意すればよい。そのため
少量の記憶装置やメモリなどに音声データベースを格納
でき、ＬＳＩ（大規模集積回路）への内蔵用途等にも対
応可能となる。

【００１２】また、本発明では各段階で複数の音声素片
データが選択された場合、音声素片のピッチパタンが合
成すべきピッチパタンともっとも類似する音声素片デー
タを選択することにも特徴を有している。このようにす
ることで、音声合成時のピッチの変更量を少なくするこ
とができ、合成音声の品質を向上させることが可能とな
る。また合成すべきピッチパタンと同一のピッチデータ
をもつ音声素片データを追加することで、ピッチの変形
処理が不要になり、その場合の品質は編集音声合成の品
質とほぼ同等となる。

【００１３】

【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を述べる。図１に本実施形態による音声合成
処理を実現するための音声合成装置の基本構成を示す。
図示したように、この音声合成装置は音声データベース
１２，素片選択処理を行う素片選択部１０１，韻律変形
処理を行う韻律変形部１０２，素片接続処理を行う素片
接続部１０３から構成されている。これら各部が行うそ
れぞれの処理については以下に詳述する。また、図２は
この音声合成処理の手順を示したフローチャートであ
る。最初に図１を参照しながら音声合成装置の全体動作
について説明し、その後に、図３及び図４を参照して音
声合成装置を構成する幾つかの機能ブロックの構成及び
その動作の詳細について説明する。

【００１４】図１に示すように、音韻列と韻律情報が素
片選択部１０１に入力される（図２のステップＳ１）
と、素片選択部１０１は入力された音韻列と韻律情報を
参照して音声データベース１２より最適な波形（素片デ
ータ）を選択して韻律変形部１０２に送る（ステップＳ
２）。ここで、音声データベース１２には音声波形，音
韻情報，音韻境界情報などが格納されているものとす
る。なお、素片選択部１０１の詳細な構成については後
述する。次に、韻律変形部１０２は、入力された韻律情
報に適合するように、部分音韻列に対応する韻律情報を
構成している部分韻律情報に応じて、前記素片選択部１
０１で選択された素片データを変形して素片接続部１０
３に送る（ステップＳ３）。

【００１５】ここで、波形の変形方法としては、ＰＳＯ
ＬＡ法（E.Moulines and F.Charpentier，“Pitch-sync
hro-nous waveform processing techniques for text-t
o-speech synthesis using diphones”，Speech Commun
ication ，Vol.9，pp.453-467，1990.12）、ＩＰＳＥ法
（田中ら，「基本周波数に応じてスペクトル包絡を変形
するテキスト合成システム」，信学技報，SP96-130，p
p.23-30，1997.3）、ＳＴＲＡＩＧＨＴ法（河原，「聴
覚の情景分析と高品質音声分析変換合成法ＳＴＲＡＩＧ
ＨＴ」，音響学会講演論文集，pp.189-192，1997.9）な
どがある。従って、音声データベース１２には、それら
の合成方式に応じて最適な形で格納すればよく、必ずし
も波形データをそのまま格納する必要はない。例えばＳ
ＴＲＡＩＧＨＴ法を用いるのであれば、事前にＳＴＲＡ
ＩＧＨＴ分析で得られたパラメータを格納しておくこと
で音声合成時の計算時間が削減できる。そして最後に、
素片接続部１０３は、前記韻律変形部１０２で変形され
た素片データを順に接続し合成音声を生成する（ステッ
プＳ４）。以上が本実施形態による音声合成装置におい
て行われる処理の全体的な流れである。

【００１６】次に、素片選択部１０１における処理の１
例について、図３のブロック図と前掲した図２のフロー
チャートを参照して説明する。なお、図３において図１
に示したものと同じ構成要素については同一の符号を付
してある。図３に示したように、素片選択部１０１は第
一段階分解部２０１，第一段階選択部２０２，韻律マッ
チング部２０３，第二段階分解部２０４，第二段階選択
部２０５，第三段階分解部２０６，第三段階選択部２０
７，最終段選択部２０８から構成されている。まず、例
えば入力音韻列を”bakuoNga／giNsekaino”（ここで、
記号／はアクセント境界を示す）とした場合、第一段階
分解部２０１で入力音韻列を例えばアクセント句単位に
分解する（ステップＳ２１）。これは、日本語ではアク
セント単位でまとまって発声される場合が多く、アクセ
ント句が発声現象の大きなまとまりと考えられるためで
ある。この例では、前記入力音韻列が部分音韻列”baku
oNga”とgiNsekaino”に分解される。

【００１７】次に、第一段階選択部２０２は音声データ
ベース１２から音韻列”bakuoNga”，前音韻環境が語頭
（図中の記号＃），後音韻環境が”g” という素片デー
タ、および、音韻列 ”giNsekaino”，前音韻環境が”
a”，後音韻環境が語尾（図中の記号＃）という素片デ
ータを音声データベース１２からそれぞれ検索する（ス
テップＳ２２）。図で示すとおり、音韻列”giNsekain
o”に対応する素片データが見つからず（同ステップが
“ＮＯ”）に、音韻列”bakuoNga”に対応する素片デー
タ２１のみ見つかった（同ステップが“ＹＥＳ”）場
合、第一段階選択部２０２は素片データ２１のみを韻律
マッチング部２０３に送る。この場合、音韻列”bakuoN
ga”に対応する素片データは１つしかない（ステップＳ
２５が“ＮＯ”）ため、韻律マッチング部２０３は素片
データ２１をそのまま図１の韻律変形部１０２に送る。
また、第一段階選択部２０２は音韻列”giNsekaino”を
第二段階分解部２０４に送る（ステップＳ２４）。

【００１８】次に、第二段階分解部２０４は、前記第一
段階選択部２０２による音声データベース１２の検索で
見つからなかった音韻列”giNsekaino”を例えば音節に
母音や撥音の連続を含む単位で分解する（ステップＳ２
１）。これは撥音や母音が連続している場合、発声現象
的に連続しており音響的にも境界を設定するのが困難で
あるためである。そしてこの例では、”giN”，“s
e”，“kai”，“no”の４つの部分音韻列に分解され
る。次に、第二段階選択部２０５は第一段階選択部２０
２と同様に、音声データベース１２から、音韻列 ”gi
N”，前音韻環境が”a”，後音韻環境が”s”の素片デ
ータと、音韻列”se”，前音韻環境が”N”，後音韻環
境が”k”の素片データと、音韻列 ”kai”，前音韻環
境が”e”，後音韻環境が”n”の素片データと、音韻
列”no”，前音韻環境が”i”，後音韻環境が語尾（図
中の記号＃）の素片データをそれぞれ検索する（ステッ
プＳ２２）。

【００１９】この結果、図で示すとおり第二段階選択部
２０５は ”giN”に対応する素片データ２２及び素片デ
ータ２３，”se”に対応する素片データ２４，”no”に
対応する素片データ２５を韻律マッチング部２０３に送
る（ステップＳ２３が“ＹＥＳ”）。この場合、素片デ
ータ２４と素片データ２５はいずれも音韻列に対応する
素片が１つである（ステップＳ２５が“ＮＯ”）ため、
韻律マッチング部２０３は素片データ２１と同様にこれ
らをそのまま図１の韻律変形部１０２に送る。一方、素
片データ２２と素片データ２３（ステップＳ２５が“Ｙ
ＥＳ”）については、韻律マッチング部２０３が入力さ
れた韻律情報とマッチングを行い、入力韻律情報と最も
近い素片データを選択してから図１の韻律変形部１０２
に送る（ステップＳ２６）。

【００２０】ここで、韻律の近さの判定方法は使用する
音声データベース１２の構成による。例えば、音声デー
タベース１２がピッチのバリエーションについてのみ考
慮した音声データベースであれば、入力ピッチパタンと
最も近い（最も類似性の高い）ピッチパタンをもつ素片
データを選ぶことで十分である。また、特に韻律等を考
慮していない音声データベースを使用するのであれば、
平均ピッチ，ピッチ形状，時間長，パワーの各韻律パラ
メータについて、入力された値と素片データの持つ値と
の差分の絶対値を求め、これら絶対値に対して各韻律パ
ラメータ毎の重み係数を掛けて足し合わせることで韻律
コストを求め、その値の小さいものを選ぶことが望まし
いと考えられる（広川ら，“波形編集型規則合成法にお
ける波形選択関数の検討”，音響学会講演論文集，pp.1
57-158，1989.3）。この例では、素片データ２２が入力
ピッチパタンに近いと判断されたとして、韻律マッチン
グ部２０３は素片データ２２を図１の韻律変形部１０２
に送る。

【００２１】次に、第三段階分解部２０６は、前記第二
段階選択部２０５による音声データベース１２の検索で
見つからなかった（ステップＳ２３が“ＮＯ”，ステッ
プＳ２４）部分音韻列 ”kai”を例えば音節に分解する
（ステップＳ２１）。これは、音節の構成要素である子
音と母音は音響的にも発声現象的にも密接に結びついて
いるため、分離して取り扱うのは音質の劣化を招く可能
性が大きいためである。この例では、部分音韻列 ”ka
i”が”ka”と“i” の２つの部分音韻列に分解され
る。次に、第三段階選択部２０７は第一段階選択部２０
２及び第二段階選択部２０５と同様に、音声データベー
ス１２から、音韻列”ka”，前音韻環境が”e”，後音
韻環境が”i”の素片データと、音韻列”i”，前音韻環
境が”a”，後音韻環境が”n”の素片データをそれぞれ
検索する（ステップＳ２２）。

【００２２】図で示すとおり音韻列”i” に対応する素
片データ２６が一つ見つかり（ステップＳ２３が“ＹＥ
Ｓ”）、音韻列”ka”に対応する素片データが見つから
なかった（ステップＳ２３が“ＮＯ”）とする。すると
第三段階選択部２０７は、韻律マッチング部２０３に素
片データ２６を送り、韻律マッチング部２０３は音韻
列”i” に対応する素片が１つだけ（ステップＳ２５が
“ＮＯ”）のため、前記同様に素片データ２６を図１の
韻律変形部１０２に送る。最後に、最終段選択部２０８
は前記第三段階選択部２０７による音声データベース１
２の検索で見つからなかった部分音韻列”ka”を選択す
る（ステップＳ２４，ステップＳ２１〜Ｓ２６）。

【００２３】次に、最終段選択部２０８の詳細について
図４を参照して以下に説明する。なお、図４において図
１又は図３に示したものと同じ構成要素については同一
の符号を付してある。この図４には２種類の分解・選択
方法の一例について示してある。図４（ａ）では、前記
の第一から第三までの分解処理および選択処理と同様
に、前記第三段階選択部２０７による音声データベース
１２の検索で見つからなかった部分音韻列”ka”を音声
の基本単位である音韻に分解する方法の一例について示
してある。この例では音韻分解部３０１にて部分音韻
列”ka”が”k” と“a” に分解される。

【００２４】次に、音韻選択部３０２では第一段階選択
部２０２，第二段階選択部２０５と同様に、音声データ
ベース１２から、音韻”k”，前音韻環境が”e”，後音
韻環境が”a”の素片データと，音韻列”a” ，前音韻
環境が”k”，後音韻環境が”i”の素片データをそれぞ
れ検索する。図４（ａ）で示すとおり”k”に対応する
素片データ３１および”a” に対応する素片データ３２
が見つかったとして、音韻選択部３０２は図３の韻律マ
ッチング部２０３に素片データ３１と素片データ３２を
送る。韻律マッチング部２０３はこれら各音韻に対応す
る素片が各々１つのみのため、前記同様にこれら素片デ
ータを図１の韻律変形部１０２に送る。なお、もしも対
応する素片データが複数あった場合は、前記同様に韻律
マッチング部２０３にて入力された韻律情報と最も近い
韻律を持つ素片データを選択しそれを韻律変形部１０２
に送る。

【００２５】一方、図４（ｂ）では、前記第三段階選択
部２０７による音声データベース１２の検索で見つから
なかった部分音韻列”ka”を連鎖音韻に分解する方法の
一例について示してある。連鎖音韻に分解する理由は、
前記図４（ａ）で示す方法と比較した場合に、少ないデ
ータ量であらゆる音韻列の合成が可能となるためであ
る。前記図４（ａ）に基づく方法では数千〜数万の素片
データが必要なのに対し、図４（ｂ）で示す方法では約
１０００個程度の素片データのみでよいため、より少な
い記憶容量で音声合成が実現可能となる。この例では、
部分音韻列”ka”の前音韻環境が”e”，後音韻環境
が”i”であったことから、連鎖音韻分解部３０３はこ
れを”ek”，“ka”，”ai”に分解して連鎖音韻選択部
３０４に送る。

【００２６】次に、連鎖音韻選択部３０４は音声データ
ベース１２から”ek”，”ka”，”ai”である連鎖音韻
の素片データをそれぞれ検索する。図４（ｂ）で示すと
おり”ek”に対応する素片データ３３，”ka”に対応す
る素片データ３４，”ai”に対応する素片データ３５が
見つかったとして、連鎖音韻選択部３０４は図３の韻律
マッチング部２０３に素片データ３３〜素片データ３５
を送る。この場合、各連鎖音韻に対応する素片データは
各々１つのみのため、韻律マッチング部２０３は前記同
様にこれら素片データを図１の韻律変形部１０２に送
る。なお、もしも対応する素片データが複数ある場合
は、前記同様に韻律マッチング部２０３にて入力韻律情
報と最も近い韻律を持つ素片データを選択しそれを韻律
変形部１０２に送る。またこの後、素片接続部１０３が
韻律変形部１０２で変形された素片データ（ステップＳ
３）を順に接続して合成音声を生成する（ステップＳ
４）が、図４（ｂ）の場合は”k”と“a”が重複するの
で、このまま素片データを接続するだけでは音韻の重複
が避けられない。そのため、素片接続部１０３は素片接
続に先立って重複しないように音韻の中間部分をつなぐ
ようにしている。

【００２７】

【発明の効果】以上述べたように、この発明によれば、
入力音韻列と入力韻律情報に対して段階的に音声データ
ベースから音声素片データを選択してそれら音声素片デ
ータを接続することで出力音声を合成している。このた
め、低コストの合成システムから高コストではあるが高
品質な合成システムまで用途に応じてシステム規模をス
ケーラブルに変更可能であり、実用性に優れた合成シス
テムの提供が可能である。また、最低段階の選択規則に
対応した音声素片データに基づく合成品質は保証されて
いるため、一定以上の品質が保証された合成音声の提供
が可能である。

【００２８】また、請求項２又は５記載の発明では、部
分音韻列を前後の音韻環境を含めて連鎖音韻に分解して
連鎖音韻単位で音声素片データを選択するようにしてい
る。このため、環境を考慮して音韻単位で音声素片デー
タを用意した場合には数千〜数万個の音声素片データが
必要となるのに対し、連鎖音韻単位で音声素片データを
用意することで約千個程度の音声素片データを用意すれ
ば良くなる。そのため、音声データベースを少容量のメ
モリ等に格納することができ、ＬＳＩに内蔵するなどの
用途にも対応することができる。

【００２９】また、請求項３又は６記載の発明では、あ
る部分音韻列について複数の音声素片データが選択され
た場合に、例えば、音声素片データのピッチパタンが合
成すべきピッチパタンに最も類似するものを選択してい
る。このため、例えば音声合成時のピッチの変更量が少
なくなって合成音声の品質を向上できるほか、合成すべ
きピッチパタンと同一のピッチデータを持つ音声素片デ
ータを追加すればピッチの変形処理が不要になるため、
編集音声合成の品質とほぼ同等の合成音声が得られる。

【図面の簡単な説明】

【図１】本発明の一実施形態による音声合成装置の構
成を示すブロック図である。

【図２】同実施形態における音声合成方法の手順を示
したフローチャートである。

【図３】図１に示す素片選択部１０１の詳細な構成を
示すブロック図である。

【図４】図３に示す最終段選択部２０８の詳細な構成
を示すブロック図であって、（ａ）は部分音韻列を音韻
に分解するようにした場合の構成例，（ｂ）は部分音韻
列を連鎖音韻に分解するようにした場合の構成例であ
る。

【符号の説明】

１２音声データベース２１〜２６，３１〜３５素片データ１０１素片選択部１０２韻律変形部１０３素片接続部２０１第一段階分解部２０２第一段階選択部２０３韻律マッチング部２０４第二段階分解部２０５第二段階選択部２０６第三段階分解部２０７第三段階選択部２０８最終段選択部３０１音韻分解部３０２音韻選択部３０３連鎖音韻分解部３０４連鎖音韻選択部

───────────────────────────────────────────────────── フロントページの続き (72)発明者中嶌信弥東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者阿部匡伸東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内Ｆターム(参考） 5D045 AA07 AB01 9A001 HH18 JJ01

Claims

【特許請求の範囲】

【請求項１】入力された音韻列と韻律情報に対応づけ
られた音声素片データを音声データベースから選択して
順次接続することにより音声信号を合成する音声合成方
法において、前記入力された音韻列を予め決められた規則に従って部
分音韻列に分解する分解過程と、対応づけられた音韻列が前記分解された部分音韻列と一
致し、かつ該音韻列の前後の音韻が前記部分音韻列の前
後の音韻と一致する音声素片データの前記音声データベ
ース中における存在の有無を判断する判断過程と、前記音声素片データが存在する場合には、当該音声素片
データを選択する選択過程と、前記音声素片データが存在しない場合には、前記分解さ
れた部分音韻列を前記入力された音韻列として、前記部
分音韻列の長さが予め定められた最小音韻長に分解され
るまで前記分解過程と前記判断過程を反復させる過程
と、前記部分音韻列に対応する前記韻律情報を構成する部分
韻律情報に応じて、前記選択された音声素片データを韻
律変形する過程と、前記韻律変形を受けた音声素片データを順次接続して音
声信号を合成する過程とを有することを特徴とする音声
合成方法。
【請求項２】前記最小音韻長にまで分解された部分音
韻列が存在せず、かつ前記最小音韻長が２である場合、
前記部分音韻列と該部分音韻列の前後の音韻を含む部分
音韻列を連鎖音韻に分解する過程をさらに有し、前記選択過程では前記連鎖音韻に対応する音声素片デー
タを選択することを特徴とする請求項１記載の音声合成
方法。
【請求項３】一個の部分音韻列について前記選択され
た音声素片データが複数個存在する場合、それら音声素
片データに対応する韻律と前記部分音韻列に対応する韻
律との類似性を判断する過程をさらに有し、前記選択過程では、前記複数個の音声素片データのう
ち、最も類似性の高い音声素片データを選択することを
特徴とする請求項１乃至２記載の音声合成方法。
【請求項４】入力された音韻列と韻律情報に対応づけ
られた音声素片データを音声データベースから選択して
順次接続することにより音声信号を合成する音声合成装
置において、前記入力された音韻列を予め決められた規則に従って部
分音韻列に分解する分解手段と、対応づけられた音韻列が前記分解された部分音韻列と一
致し、かつ該音韻列の前後の音韻が前記部分音韻列の前
後の音韻と一致する音声素片データの前記音声データベ
ース中における存在の有無を判断する判断手段と、前記音声素片データが存在することを条件として、当該
音声素片データを選択する選択手段と、前記音声素片データが存在しないことを条件として、前
記分解された部分音韻列を前記入力された音韻列として
前記分解手段に入力して、前記部分音韻列の長さが予め
定められた最小音韻長に分解されるまで前記分解手段と
前記判断手段とを反復動作させるように制御する手段
と、前記部分音韻列に対応する前記韻律情報を構成する部分
韻律情報に応じて、前記選択された音声素片データを韻
律変形する手段と、前記韻律変形を受けた音声素片データを順次接続して前
記音声信号を合成する手段とを具備することを特徴とす
る音声合成装置。
【請求項５】前記最小音韻長にまで分解された部分音
韻列が存在せず、かつ前記最小音韻長が２であることを
条件として、前記部分音韻列と該部分音韻列の前後の音
韻を含む部分音韻列を連鎖音韻に分解する手段をさらに
具備し、前記選択手段は前記連鎖音韻に対応する音声素片データ
を選択することを特徴とする請求項４記載の音声合成装
置。
【請求項６】一個の部分音韻列について前記選択され
た音声素片データが複数個存在することを条件として、
それら音声素片データに対応する韻律と前記部分音韻列
に対応する韻律との類似性を判断する手段をさらに具備
し、前記選択手段は、前記複数個の音声素片データのうち、
最も類似性の高い音声素片データを選択することを特徴
とする請求項４乃至５記載の音声合成装置。