JPH1097268A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH1097268A
JPH1097268A JP8251645A JP25164596A JPH1097268A JP H1097268 A JPH1097268 A JP H1097268A JP 8251645 A JP8251645 A JP 8251645A JP 25164596 A JP25164596 A JP 25164596A JP H1097268 A JPH1097268 A JP H1097268A
Authority
JP
Japan
Prior art keywords
distortion
combination
synthesis
unit
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8251645A
Other languages
English (en)
Inventor
Hiroyuki Hirai
啓之 平井
Hideji Nishida
秀治 西田
Hiroki Onishi
宏樹 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP8251645A priority Critical patent/JPH1097268A/ja
Publication of JPH1097268A publication Critical patent/JPH1097268A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声合成装置における波形選択に際して、動
的計画法のように歪みの合計が最小になる組合せを求め
たのでは、或る箇所の接続部分に歪みが集中する場合が
あり、その接続部分で比較的大きな雑音が発生し、その
前後では歪みが小さいため、聴感的には特に大きな雑音
として知覚されるという問題点がある。 【解決手段】 入力されたテキストを解析する言語処理
部(10)と、予め蓄積された音声波形データ格納部(11)
と、該音声波形データの中から合成単位を選択する波形
接続単位選択部(12)と、選択された合成単位を接続する
音声波形生成部(13)と、を備えた音声合成装置におい
て、前記波形接続単位選択部(12)は、入力されたテキス
トを生成することが可能な複数の合成単位の組合せのう
ち、各組合せの合成単位を接続することにより生ずる歪
みの最大値をその組合せの評価値とし、その評価値が最
も小さい合成単位の組合せを選択することを特徴とす
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力されたテキス
トを解析し、音声を合成する音声合成装置において、波
形接続部の歪みの最大値が小さくなる合成単位を選択し
て音声合成する音声合成装置に関する。
【0002】
【従来の技術】従来の音声合成装置にあっては、複数の
合成単位の組合せのうち最適な合成単位の組合せを選択
しており、図4は、本発明を用いた音声合成装置の概略
構成図を示す。
【0003】入力されたテキストは、言語処理部(1
0)で形態素解析、係り受け解析が行なわれ、音素記
号、アクセント記号等に変換される。
【0004】次に、韻律パターン生成部(11)では、
音素記号、アクセント記号列および形態素解析の結果よ
り得られる入力テキストの品詞情報を用いて、音韻継続
時間長(声の長さ)、基本周波数パターン、ピッチパター
ン(声の高さ)、母音中心のパワー(声の大きさ)等の推定
が行われる。
【0005】合成単位波形選択部(12)では、音素記
号列および推定された音韻継続時間長、基本周波数パタ
ーン、母音中心のパワー情報等を用いて計算された評価
値に基づいて、波形辞書に蓄積されている音声波形のう
ち最適な合成単位の組合せが求められる。
【0006】最後に、音声波形生成部(13)では、選
択された合成単位波形の組み合わせに従い、ピッチを変
換しつつ、合成単位波形の接続を行なうことによって音
声の生成を行う部分である。例えば、音声の生成に際し
て、PSOLA法:発表論文「Pitch-Synchronous Waveform
Processing Techniques for Text-to-Speech Synthesis
Using Diphones.」(Proc. Eurospeech’89 (1989), Ch
arpentier,F. and Moulines,E.)などにより実現でき
る。
【0007】従来の音声合成装置では、合成単位波形選
択部(12)にて合成単位の決定に際して動的計画法
(DP法)を用いて合成単位を接続しており、この接続
による音声の歪みの合計を評価値として、その値が最小
となる合成単位の組合せを選択していた。
【0008】
【発明が解決しようとする課題】然し乍ら、上述の動的
計画法のように音声の歪みの合計が最小になる組合せを
求めたのでは、その前後の別の接続部分では歪みが小さ
いものの、或る箇所の接続部分に歪みが集中する場合が
ある。
【0009】このような場合、或る接続部分で比較的大
きな雑音が発生し、その前後では歪みが小さいため、聴
感的には特に大きな雑音として知覚されるという問題点
があった。
【0010】本発明は、上述の問題点に鑑みなされたも
のであり、最適な合成単位の組合せを選択する基準とし
て、歪みの合計ではなく歪みの最大値を用い、歪みの最
大値が小さくなる合成単位の組合せを選択することによ
り音声合成を行う音声合成装置を提供する。
【0011】
【課題を解決するための手段】本発明は、入力されたテ
キストを解析する言語処理部と、音声波形データを予め
蓄積している音声波形データ格納部と、該音声波形デー
タの中から合成単位を選択する波形接続単位選択部と、
該波形接続単位選択部にて選択された合成単位を接続す
る音声波形生成部と、を備えた音声合成装置において、
前記波形接続単位選択部は、入力されたテキストを生成
することが可能な複数の合成単位の組合せのうち、各組
合せの合成単位を接続することにより生ずる歪みの最大
値をその組合せの評価値とし、その評価値が最も小さい
合成単位の組合せを選択することを特徴とする。
【0012】また、前記波形接続単位選択部は、2種類
の歪みを選択の基準として用い、合成単位を接続するこ
とにより生じた歪みの最大値を第1の歪みとして記憶
し、また各合成単位に対応する前記音声波形データの所
望パラメータと該合成単位に対応する前記所望パラメー
タの目標値に基づく歪みの平均値を第2の歪みとして記
憶し、それら両方の歪みの和をその組合せの評価値と
し、その評価値が最小となる合成単位の組合せを選択す
ることを特徴とする。
【0013】また、合成単位接続により生じた歪みの最
大値からn個(nは整数)の歪みを記憶する記憶部を有
し、入力されたテキストを生成することが可能な複数の
合成単位の組合せに対し、第1の歪みのうち1番目に大
きな歪みを用いて各組合せの評価値を求め、その中の最
小値となる評価値から所定範囲内の評価値に属する複数
の組合せを選択の候補とし、次にその複数の組合せの候
補の中で第1の歪みのうち2番目に大きな歪みを用いて
各組合せの評価値を求め、最も小さい評価値を与える合
成単位の組み合わせによって音声合成することを特徴と
する。
【0014】更に、合成単位接続により生じた歪みの最
大値からn個(nは整数)の歪みを記憶する記憶部を有
し、入力されたテキストを生成することが可能な複数の
合成単位の組合せに対し、第1の歪みに対して、その値
の大きさの順序に応じた重み係数を掛け、それらを加算
した値を各合成単位の組み合わせの評価値とし、その中
の最小値となる評価値が最も小さい合成単位の組み合わ
せによって音声合成することを特徴とする。
【0015】
【発明の実施の形態】本発明の実施の形態を図1〜図3
を用いて説明する。
【0016】本発明の音声合成装置の概略構成は図4に
示した構成と基本的に同様であるが、本発明が従来の音
声合成装置と異なる点は、合成単位波形選択部(12)
に代えて合成単位波形選択部(120)を用いたことで
ある。
【0017】合成単位波形選択部(120)は、合成単
位を接続することによって生じる歪み(第1の歪み)、
及び発話環境の非適合による歪み(第2の歪み)を用
い、これら両者を加え合せたものが選択された合成単位
の組み合わせとして適切であるか否かを評価する機能を
有する。
【0018】図1は、本発明における合成単位波形選択
部(120)の処理の流れを示したものである。
【0019】図1において、ステップ120aでは、音
声波形データ格納部に格納された全ての合成単位の組み
合わせの候補を抽出する。次にステップ120bでは、
各組み合わせの候補の評価値を算出する。
【0020】ステップ120cでは、第1の歪み、及び
第2の歪みに従って、それらの歪みの和を評価値とし、
その値が最小となる組み合わせを出力する。
【0021】本発明の実施の形態では、波形の接続部に
歪みが集中することを抑制し、かつ最適な合成単位の組
み合わせを求めるために、min−max DP法を基
本とした合成単位波形の選択を行っている。
【0022】ここで、min−max DP法について
簡単に説明する。
【0023】選択された合成単位をF=c(1)c(2)・・
・・c(k)とし、それらの合成単位を選択することによ
り、合成単位の各接続部分で生じる歪みをそれぞれd
(c(1)),d(c(2)),・・・・,d(c(k))とする。
【0024】ここで、合成単位Fによる選択歪みをD
(F)=max[d(c(1)),d(c(2)),・・・・,d(c
(k))]と定義する。この選択歪みD(F)が最小となる
最適な組合せを動的計画法(DP法)を用いて求める手法
をmin−max DP法という。
【0025】以下に、合成単位波形選択部(120)の
処理の流れを説明する。
【0026】波形選択に起因する合成音の歪みは、2つ
に分類することができる。一方は、合成しようとする音
声波形とその音声波形に対応して選択された合成単位波
形との発話環境の非適合により生ずる歪みであり、他方
は合成単位の波形接続により生ずる歪みである。
【0027】本発明では、発話環境の非適合により生ず
る歪みは、音素中心付近での基本周波数DF0とパワーD
pow、音韻継続時間長Ddur、文中の位置(語頭、語中、
語尾)Dposiの違いを数値化して評価する。
【0028】一方、波形接続により生ずる歪みは、接続
する2つの合成単位の接続部分での基本周波数差
C F0、パワー差DC pow、ケプストラムの差DC cepおよ
び発話環境を考慮して決定された接続の行い易さ(接続
優先順位)を示す歪みDC phを数値化して評価する。歪
みDC phは、パワーが小さく、聴感的に接続歪みが知覚
されにくい接続部分ほど小さな値が設定されており、反
対にパワーの大きい接続部分やスペクトルの変化の大き
い接続部分等の他の合成単位との接続が行われることが
望ましくない接続部分では大きな値が設定されている。
【0029】以下に、図1に示すステップ120cで用
いる歪みの評価式を数1のように定義する。
【0030】
【数1】
【0031】歪みD(F)が最小となる合成単位の組み合
わせが、最適な選択結果となる。計算時間の関係から、
実際には、音韻連鎖長は最大5音素までとする。また、
発話環境の非適合による歪みの評価値のみを用いて予備
選択を行い、その結果選択された音素列に対して数1を
計算して最適解を求める。
【0032】ここで、合成単位波形選択部(120)に
よる処理の流れを具体例を用いて説明する。
【0033】発話文章は「回りの人も立ち上がった。」
であり、特に「回り(mawari)」について説明す
る。尚、本発明の実施の形態では、パワー、及びピッチ
から波形の合成による歪みを計算する。
【0034】図1のステップ120aで音声波形データ
格納部から抽出された全ての合成単位の組み合わせの候
補について、ステップ120bにおいて、全ての合成単
位の組み合わせについて評価値を算出する。
【0035】各歪みは、差の2乗により計算した。ま
た、実際には、パワーとピッチのように異なる種類(次
元)の歪みを加え合せる場合は、重み係数を掛けて加え
合せるが、本発明の実施の形態では単に加算する。図2
中のパワーおよびピッチの目標値とは、韻律パターン生
成部11で計算された目標値である。
【0036】歪みは、2種類に分けることができる。1
種類は、2つの合成単位を接続することにより生ずる歪
み(図2の第1の歪み)であり、もう1種類は、目標値
と波形辞書より選択した合成単位の値との差による歪み
(図2の第2の歪み)である。
【0037】第1の歪みは全ての接続部分の最大値より
求め、第2の歪みは合成単位の平均値より求め、合成単
位の組合せの評価値は、それら両歪みの合計とする。
【0038】例えば、図2中の第1の歪みについては、
5個所の接続部分について、数2に従って夫々歪みを計
算し、その最大値3700が第1の歪みとなる。
【0039】
【数2】
【0040】また、図2中の第2の歪みについては、合
成単位毎について、数3に従って歪みの平均を夫々計算
し、その平均値3850を第2の歪みとなる。
【0041】
【数3】
【0042】従って、この組合せの評価値は、第1の歪
みの値3700、及び第2の歪みの値3850の合計の
7550となる。
【0043】ここで、上述では、第1の歪みの値と第2
の歪みの値の和によって評価値を求めたが、これ以外に
以下のような2つの手法に従って、合成単位の接続にお
ける評価を行うことができる。 <第1手法>上述の評価値の計算を行い、最小となった
評価値から一定の範囲以内(例えば、最小評価値の1.
1倍迄)に属する全ての組合せについて、再度、新たな
計算方法によって評価値を求め、それらの評価値の中で
最小となる組合せの探索を行う。ここで、新たな計算法
とは、図2の第1の歪みの値の中で、第2番目に大きな
歪みを用いて計算する方法である。例えば、図2の例で
は、第1の歪みの中で第2番目に大きな値は1600と
なり、第2の歪みが3850であるから、組合せの評価
値は5450となる。
【0044】<第2手法>第1の歪みについて、歪みの
大きい順に重み係数を掛けた値の総和を用いる。重み係
数を{0.6,0.3,0.1}の3つとすると、第1の
歪みは、3700×0.6+1600×0.3+1300
×0.1=2830となり、また第2の歪みが3850
であるから、組合せの評価値は6680となる。
【0045】ここで、第2手法では、3個の第1の歪み
が算出されたため、重み係数も3個設定したが、これに
は限られず重み係数の個数は、第1の歪みの個数に応じ
て、適宜設定すれば良い。
【0046】また、重み係数の値は、それらの合計が1
となるように設定することが好ましい。
【0047】ところで、本発明の有効性を調べるため
に、本発明を用いて合成した音声と、通常のDP法を用
いて合成した音声との比較を行った。
【0048】図3は、通常のDP法で問題となった接続
歪みの集中がmin−max DP法で解消される一例
である。発話文章は、「回りの人も立ち上った。」であ
る。図3では「まわりのひ」までを表示している。
【0049】本発明で合成した結果を図3(a)に、ま
た通常のDP法で合成した結果を図3(b)に示す。図
3(a)、(b)における上段は音声波形を、また下段
は前節で示した選択歪みを示す。選択歪みは、接続部分
では接続歪みを、それ以外の位置では選択した単位と発
話環境の違いによる非適合歪みを表している。音声波形
の図に描かれた縦線は、接続の行なわれた個所を示して
いる。
【0050】通常のDP法では選択歪みの総和を最小と
する組合せが求められるため、長い音素列が選択された
場合に接続部分での歪みが非常によく知覚されることが
ある。
【0051】本実験では下図に示すように、/awar
i/、inoh/の2つの長い音素列が選択され、接続
部分の音素/i/に歪みが集中していることがわかる。
【0052】それに対して本発明では、接続歪みの最大
値に注目し、その値が最も小さくなる組合せが求められ
るため、接続箇所は5箇所と増加し、誤差の総和も増加
しているが、接続歪みの最大値は減少し、全体に歪みが
分散されている。このことは、聴覚的に顕著な歪みが減
少することを示している。
【0053】
【発明の効果】以上の説明から明らかなように、本発明
によれば、最適な合成単位の組合せを選択する際に、合
成単位の接続部分の歪みの合計ではなく、その歪みの最
大値を用い、その歪みの最大値が小さくなる合成単位の
組合せを選択することにより、或る個所での接続部分へ
の歪みの集中が緩和され、聴感的に歪みの少ない高品質
の音声合成ができる効果を有する。
【図面の簡単な説明】
【図1】本発明の音声合成装置の合成単位波形選択部
(120)の処理の流れを示した図である。
【図2】本発明の音声合成装置における合成単位の接続
の組合せの評価値の算出法を示す図である。
【図3】本発明、並びに従来の音声合成装置によって合
成単位を接続した場合の合成結果を示す図である。
【図4】従来の音声合成装置の概略構成図を示す。
【符号の説明】
10・・・言語処理部 11・・・韻律パターン生成部 12・・・合成単位波形選択部 13・・・音声波形生成部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストを解析する言語処理
    部と、 音声波形データを予め蓄積している音声波形データ格納
    部と、 該音声波形データの中から合成単位を選択する波形接続
    単位選択部と、 該波形接続単位選択部にて選択された合成単位を接続す
    る音声波形生成部と、を備えた音声合成装置において、 前記波形接続単位選択部は、入力されたテキストを生成
    することが可能な複数の合成単位の組合せのうち、各組
    合せの合成単位を接続することにより生ずる歪みの最大
    値をその組合せの評価値とし、その評価値が最も小さい
    合成単位の組合せを選択することを特徴とする音声合成
    装置。
  2. 【請求項2】 前記波形接続単位選択部は、2種類の歪
    みを選択の基準として用い、合成単位を接続することに
    より生じた歪みの最大値を第1の歪みとして記憶し、ま
    た各合成単位に対応する前記音声波形データの所望パラ
    メータと該合成単位に対応する前記所望パラメータの目
    標値に基づく歪みの平均値を第2の歪みとして記憶し、
    それら両方の歪みの和をその組合せの評価値とし、その
    評価値が最小となる合成単位の組合せを選択することを
    特徴とする請求項1記載の音声合成装置。
  3. 【請求項3】 合成単位接続により生じた歪みの最大値
    からn個(nは整数)の歪みを記憶する記憶部を有し、
    入力されたテキストを生成することが可能な複数の合成
    単位の組合せに対し、第1の歪みのうち1番目に大きな
    歪みを用いて各組合せの評価値を求め、その中の最小値
    となる評価値から所定範囲内の評価値に属する複数の組
    合せを選択の候補とし、次にその複数の組合せの候補の
    中で第1の歪みのうち2番目に大きな歪みを用いて各組
    合せの評価値を求め、最も小さい評価値を与える合成単
    位の組み合わせによって音声合成することを特徴とする
    請求項2記載の音声合成装置。
  4. 【請求項4】 合成単位接続により生じた歪みの最大値
    からn個(nは整数)の歪みを記憶する記憶部を有し、
    入力されたテキストを生成することが可能な複数の合成
    単位の組合せに対し、第1の歪みに対して、その値の大
    きさの順序に応じた重み係数を掛け、それらを加算した
    値を各合成単位の組み合わせの評価値とし、その中の最
    小値となる評価値が最も小さい合成単位の組み合わせに
    よって音声合成することを特徴とする請求項2記載の音
    声合成装置。
JP8251645A 1996-09-24 1996-09-24 音声合成装置 Pending JPH1097268A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251645A JPH1097268A (ja) 1996-09-24 1996-09-24 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251645A JPH1097268A (ja) 1996-09-24 1996-09-24 音声合成装置

Publications (1)

Publication Number Publication Date
JPH1097268A true JPH1097268A (ja) 1998-04-14

Family

ID=17225910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251645A Pending JPH1097268A (ja) 1996-09-24 1996-09-24 音声合成装置

Country Status (1)

Country Link
JP (1) JPH1097268A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055692A (ja) * 2000-06-30 2002-02-20 Nokia Mobile Phones Ltd 音声出力のためのメッセージの構成方法
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2013011828A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 音声合成装置、音質修正方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055692A (ja) * 2000-06-30 2002-02-20 Nokia Mobile Phones Ltd 音声出力のためのメッセージの構成方法
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2013011828A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 音声合成装置、音質修正方法およびプログラム

Similar Documents

Publication Publication Date Title
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
CN1312655C (zh) 语音合成方法和语音合成系统
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
US5740320A (en) Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids
JP4469883B2 (ja) 音声合成方法及びその装置
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
US20070282608A1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN101131818A (zh) 语音合成装置与方法
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
US6832192B2 (en) Speech synthesizing method and apparatus
JPH01284898A (ja) 音声合成方法
US7558727B2 (en) Method of synthesis for a steady sound signal
JPH1097268A (ja) 音声合成装置
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3423276B2 (ja) 音声合成方法
JP3241582B2 (ja) 韻律制御装置及び方法
JP4353174B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040511