JPH086592A - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置

Info

Publication number
JPH086592A
JPH086592A JP6134363A JP13436394A JPH086592A JP H086592 A JPH086592 A JP H086592A JP 6134363 A JP6134363 A JP 6134363A JP 13436394 A JP13436394 A JP 13436394A JP H086592 A JPH086592 A JP H086592A
Authority
JP
Japan
Prior art keywords
speech
voice
frame
expansion
synthesizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6134363A
Other languages
English (en)
Other versions
JP3563772B2 (ja
Inventor
Mitsuru Otsuka
充 大塚
Yasunori Ohora
恭則 大洞
Takashi Aso
隆 麻生
Toshiaki Fukada
俊明 深田
Takeshi Fujita
武 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP13436394A priority Critical patent/JP3563772B2/ja
Priority to DE69519820T priority patent/DE69519820T2/de
Priority to EP95304063A priority patent/EP0688010B1/en
Priority to US08/490,140 priority patent/US5682502A/en
Publication of JPH086592A publication Critical patent/JPH086592A/ja
Application granted granted Critical
Publication of JP3563772B2 publication Critical patent/JP3563772B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】合成音声の発声速度の変更に対してフレームの
数を一定に保つことを可能とし、高速時の音質の劣化を
防止すると共に、低速時における処理速度の低下とメモ
リの消費を抑える音声合成方法及び装置を提供する。 【構成】(D’)は(C1)の拍同期点位置「?」から
(C2)の拍同期点位置「?」までの対応するパラメー
タ(フレーム)を(B1),(B3),(B2)から切
りだして連結したフレーム列を表す。各フレームは、隣
接するラベルの種類により設定される伸縮率(E’)に
基づいて得られる発声速度係数Ki を格納する。音声波
形を合成する際には(D’)の各フレームを発声速度係
数Ki で各フレームの時間長を伸縮し、(G’)で示さ
れるフレーム列を得て音声波形を生成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、規則合成方式による音
声合成方法及び装置に関するものである。
【0002】
【従来の技術】従来の音声規則合成装置では、VcVパ
ラメータ(母音−子音−母音)やcVパラメータ(子音
−母音)を基本単位とした音声素片と、駆動音源信号と
を一定の規則に基づいて結合することによってディジタ
ル音声信号を生成し、更にこのディジタル音声信号をD
−A変換することによってアナログ音声波形を得てい
る。そして、アナログ音声波形をアナログ低域フィルタ
に通すことにより、標本化によって発生する不要な高域
雑音成分を除去して正しいアナログ音声波形を出力する
ようにしている。
【0003】上述の音声合成装置においては、その発声
速度を変化させる手段として、一般的に図4に示す方法
を採用している。
【0004】図4において、(A1)はVcVパラメー
タを切り出す前の音声波形で「あさ」と発声したものの
一部、(A2)は同じく「あけ」と発声したものの一部
である。又、(B1)は(A1)の音声波形情報のVc
Vパラメータを表し、同じく(B2)は(A2)の音声
波形情報のVcVパラメータを表す。(B3)は拍同期
点の間隔と母音の種類などにより設定される長さを有す
るパラメータであり連結前後のパラメータを補間するも
のである。拍同期点は各VCVパラメータのラベル情報
に含まれる。(B1)〜(B3)における各矩形部はフ
レームを表し、各フレームは音声波形を生成するための
パラメータを有し、それぞれのフレームの時間的な長さ
は固定である。
【0005】(C1)は(A1),(B1)に対応した
ラベル情報でパラメータの音響的な境界の位置を指して
いる。(C2)も同様に(A2),(B2)に対応した
ラベル情報である。ここで図中のラベル「?」は拍同期
点位置に対応している。合成音声の発声速度はこの拍同
期点間の時間間隔により決定される。
【0006】(D)は(C1)の拍同期点位置から(C
2)の拍同期点位置までの対応するパラメータ情報(フ
レーム)を(B1),(B3),(B2)から切りだし
て連結した状態を表す。又、(E)は(D)に対応した
ラベル情報である。(F)は隣接するラベル間に設定さ
れた伸縮率であり、(D)のパラメータを合成音声の拍
同期点間隔に合わせて引き延ばしたり、押し縮めたりす
る際の相対的な度合いである。(G)は合成音声の拍同
期点間隔に応じて伸縮した後のパラメータ列、即ちフレ
ーム列を表す。又、(H)は(G)に対応したラベル情
報である。
【0007】以上の如く、拍同期点間隔を伸縮すること
により発声速度が変化する。この拍同期点間隔の伸縮
は、各フレームの時間的な長さが一定であるため、
(G)に示す如く拍同期点間のフレームの数を増減する
ことで達成される。例えば、図3の(G)に示す如く拍
同期点間隔を引き延ばした場合(発声速度を遅くした場
合)はフレーム数を増やす。各フレームのパラメータは
必要なフレームの数に応じて演算により生成される。
【0008】
【発明が解決しようとする課題】上述した従来技術にお
いては、合成音背の発声速度に応じてフレームの数を変
化させるため、次のような問題点がある。例えば(D)
のパラメータ列を(G)に伸縮する場合のうち、(G)
のパラメータ列の長さが(D)よりも短くなる場合は、
フレーム数が少なくなってパラメータの補間が粗くなり
異音が出たり音質が悪くなる場合がある。
【0009】また、発声速度が非常に遅くなった場合
は、(G)のパラメータ列の長さが非常に長くなり、フ
レーム数が多くなってしまう。このため、パラメータを
算出するための計算時間がかかる上にメモリの消費量も
増大する。更に、(G)のパラメータ列を生成した後は
そのパラメータ列の発声速度を変更することはできな
い。このため、利用者が指示した発声速度変更に対して
時間的な遅れを生じ、利用者に違和感を感じさせるとい
う問題がある。
【0010】
【課題を解決するための手段】本発明は上記の問題点に
鑑みてなされたものであり、合成音声の発声速度の変更
に対してフレームの数を一定に保つことを可能とし、高
速時の音質の劣化を防止すると共に、低速時における処
理速度の低下とメモリの消費を抑える音声合成方法及び
装置を提供することを目的とする。
【0011】また、本発明の他の目的は、発生音声の変
更をフレーム単位で行うことを可能とし、1モーラ期間
の間においても発生速度の変化に対応することが可能な
音声合成方法及び装置を提供することにある。
【0012】また、本発明の他の目的は、所定の期間
(例えば1モーラ期間)において発生音声のアクセント
の強弱が線形に変化するようにピッチスケールが設定さ
れる音声合成方法及び装置を提供することにある。
【0013】また、本発明の他の目的は、所定の期間
(例えば1モーラ期間)において発生音声の音程の高低
が線形に変化するようにピッチスケールが設定される音
声合成方法及び装置を提供することにある。
【0014】上記の目的を達成するための本発明による
音声合成装置は例えば以下の構成を備える。即ち、音声
波形のパラメータを有する1つ又は複数のフレームで構
成される音声素片を一定の規則に基づいて順次結合して
合成音声を出力する音声合成装置であって、合成音声の
発声速度の変化に応じて各フレームを伸縮するための相
対的な伸縮の度合いを伸縮度として各フレームに対応さ
せて格納する格納手段と、合成音声の発声速度及び前記
伸縮度に基づいて各フレームの時間長を決定して音声波
形を生成する生成手段と、を備えることを特徴とする。
【0015】又、上記の目的を達成するための本発明に
よる音声合成方法は例えば以下の工程を備える。即ち、
音声波形のパラメータを有する1つ又は複数のフレーム
で構成される音声素片を一定の規則に基づいて順次結合
して合成音声を出力する音声合成方法であって、合成音
声の発声速度の変化に応じて各フレームを伸縮するため
の相対的な伸縮の度合いを伸縮度として各フレームに対
応させて格納する格納工程と、合成音声の発声速度及び
前記伸縮度に基づいて各フレームの時間長を決定して音
声波形を生成する生成工程と、を備える。
【0016】
【作用】上記の構成により、音声波形のパラメータを格
納する各フレームについて、合成音声の発声速度の変化
に応じた各フレームの伸縮の度合いである伸縮度が格納
される。合成音声を生成する際には、その発声速度と伸
縮度とに基づいて各フレームの時間長が決定され、音声
波形が生成される。
【0017】
【実施例】以下に添付の図面を参照しながら、本発明の
好適な実施例について詳細に説明する。
【0018】<実施例1>図16は、本実施例1の音声
合成装置の機能構成を示すブロック図である。1は文字
系列入力部であり、合成すべき音声の文字系列を入力す
る。例えば合成すべき音声が「音声」であるときには、
「OnSEI」というような文字系列を入力する。ま
た、この文字系列中には、発声速度や声の高さなどを設
定するための制御シーケンス等が含まれることもある。
2は制御データ格納部であり、文字系列入力部1で制御
シーケンスと判断された情報や、ユーザインターフェー
スより入力される発声速度や声の高さなどの制御データ
を内部レジスタに格納する。3はVcV系列生成部であ
り、文字系列入力部1より入力された文字系列をVcV
系列へ変換する。例えば、「OnSEI」という文字系
列は、「QO,On,nSE,EI,IQ」というVc
V系列へ変換される。
【0019】4はVcV格納部であり、VcV系列生成
部3で生成されたVcVを内部レジスタに格納する。5
は音韻時間長係数設定部であり、VcV格納部4に格納
されたVcVの種類より、合成音声の拍同期点間隔を標
準の拍同期点間隔よりどれくらい広げるかを表す値を格
納する。6はアクセント情報設定部であり、VcV格納
部4に格納されたVcVのアクセント情報を設定する。
7はVcVパラメータ格納部であり、VcV系列生成部
3で生成されたVcV系列に対応するVcVパラメー
タ、或いは語頭のデータであるV(母音)パラメータや
cVパラメータを格納している。8はラベル情報格納部
であり、VcVパラメータ格納部7に格納されているV
cVパラメータのそれぞれについて、母音開始点、有声
区間、無声区間などの音響的な境界を区別するためのラ
ベルや拍同期点を示すラベルを、その位置情報と共に格
納している。9はパラメータ生成部であり、VcV系列
生成部3で生成されたVcV系列に対応するパラメータ
系列を生成する。尚、パラメータ生成部の処理手順につ
いては後述する。
【0020】10はパラメータ格納部であり、パラメー
タ生成部9で生成されたパラメータ系列からパラメータ
を1フレームずつ取り出して内部レジスタに格納する。
11は拍同期点間隔設定部であり、制御データ格納部2
に格納された発声速度に関する制御データより、合成音
声の標準拍同期点間隔を設定する。12は母音定常部長
設定部であり、母音の種類等よりVcVパラメータの接
続に関する母音定常部の時間長を設定する。13はフレ
ーム時間長設定部であり、パラメータの発声速度係数、
拍同期点間隔設定部11で設定された拍同期点間隔、母
音定常部長設定部12で設定された母音定常部長から各
フレームの時間長を計算する。14は駆動音源信号生成
部である。駆動音源信号生成部14の処理手順について
は後述する。
【0021】15は合成パラメータ補間部であり、パラ
メータ格納部に格納されているパラメータを、フレーム
時間長設定部13で設定されたフレーム時間長で補間す
る。16は音声合成部であり、合成パラメータ補間部1
5で補間されたパラメータと、駆動音源信号生成部14
で生成された駆動音源信号から合成音声を生成する。
【0022】図17は、音声素片としてVcVパラメー
タを用いた音声合成の例を示す図である。尚、図4と同
じ内容については同一の参照番号を付し、ここではその
説明を省略する。
【0023】図17において、(B1)及び(B2)の
VcVパラメータは、それぞれVcVパラメータ格納部
7に格納されている。(B3)のパラメータは、母音定
常部のパラメータであり、VcVパラメータ格納部7と
ラベル情報格納部8に格納された情報によりパラメータ
生成部9で生成される。又、各パラメータのラベル情報
である(C1)及び(C2)は、ラベル情報格納部8に
格納されている。(D’)は(C1)の拍同期点位置か
ら(C2)の拍同期点位置までの対応するパラメータを
(B1),(B3),(B2)より切り出して連結した
フレーム列である。
【0024】更に、(D’)の各フレームには発声速度
係数Kiを格納する部分が付加されている。(E’)は
(D’)に対応したラベル情報である。(F’)は、隣
接するラベルの種類により設定される伸縮率である。
(G’)は、合成パラメータ補間部15において、フレ
ーム時間長設定部13で設定された時間長で(D’)の
各フレームを補間した結果であり、(G’)のパラメー
タに従って音声合成部16は合成音声を生成する。
【0025】更に、図18を参照しながら、VcVパラ
メータの伸縮について詳しく説明する。i番目のラベル
の伸縮率をeiとすると、ラベル時間長Ti及びT’iは (T1-T'1)/T1 : (T2-T'2)/T2 : … (Ti-T'i)/Ti … = e1 : e2 : … ei : … (1) の関係を満たす。ここで、時間長の単位をサンプル数と
する。
【0026】伸縮率と伸縮前のラベル時間長との積和
(伸縮フレーム積和)を σ = Σeii とし、伸縮後時間長と伸縮前時間長との差(時間長差
分)を δ = T’−T=−Σ(Ti−T’i) とし、発声速度係数を Ki = ei/σ として式(1)を変形すると、 T1-T'1 : T2-T'2 : … : Ti-T'i : … = e1T1 : e2T2 : … : eiTi : … (1) (T’i−Ti)/δ = eii/σ T’i/Ti = (ei/σ)・δ+1 T’i/Ti = Ki・δ+1 となる。1フレームの標準時間長をNサンプル(12k
Hzサンプリングで120サンプル)とすると、i番目
のラベルの合成パラメータを1フレーム当たりn i 個の
サンプルで補間する。ここでni は、 ni=(T’i/Ti)・N=(Ki・δ+1)・N …(2) で表される。発声速度に応じて決まる値はT’のみであ
るから、発声速度係数K i を各フレームのパラメータと
して与えることにより、式(2)を用いてフレーム単位
で発声速度を変更することが可能となる。
【0027】以上の動作を、図19のフローチャートを
参照して説明する。
【0028】ステップS101で、文字系列入力部1よ
り表音テキストが入力される。ステップS102で、外
部入力された制御データ(発声速度、声の高さ)と、入
力された表音テキスト中の制御データが制御データ格納
部2に格納される。ステップS103で、文字系列入力
部1より入力された表音テキストからVcV系列生成部
103においてVcV系列が生成される。
【0029】ステップS104で、モーラ前後のVcV
がVcV格納部4に取り込まれる。ステップS105
で、音韻時間長係数設定部5において、前後のVcVの
種類に応じて音韻時間長係数が設定される。
【0030】図20は、パラメータ1フレームのデータ
構造を示す図である。又、図21は、図19のステップ
S107に相当し、パラメータ生成部9で行われるパラ
メータ生成手段を示すフローチャートである。母音定常
フラグvowelflag は、パラメータが母音定常部であるか
否かを示すフラグである。この変数は、図21のステッ
プS75及びステップS76で設定される。母音の種類
を表すvoweltype は、母音定常部長を計算するときに使
用する。この変数は、ステップS73で設定される。音
声、無音声情報uvflagは、音韻が有声であるか無声であ
るかの情報を示す。この変数は、ステップS77で設定
される。
【0031】ステップS106で、アクセント情報設定
部6において、アクセント情報が設定される。アクセン
トモーラaccMora は、アクセント開始から終了までのモ
ーラ数を表す。アクセントレベルaccLevelは、アクセン
トの強さをピッチスケール単位で表したものである。こ
れらの変数に、表音テキストに記述されたアクセント情
報を格納する。
【0032】ステップS107で、パラメータ生成部9
において、音韻時間長係数設定部5において設定された
音韻時間長係数と、アクセント情報設定部6において設
定されたアクセント情報と、VcVパラメータ格納部7
から取り出されたVcVパラメータと、ラベル情報格納
部8から取り出されたラベル情報とを用いて、1モーラ
分のパラメータ系列が生成される。
【0033】ステップS71で、1モーラ(前VcVの
拍同期点から後VcVの拍同期点まで)のVcVパラメ
ータとラベル情報がVcVパラメータ格納部7とラベル
情報格納部8から取り出される。
【0034】ステップS72で、図22に示すように、
取り出されたVcVパラメータが非母音定常部と母音定
常部とに分けれられる。そして、非母音定常部の伸縮前
時間長Tp 、伸縮フレーム積和σp 、母音定常部の伸縮
前時間長Tv 、伸縮フレーム積和σv が計算される。
【0035】次に、パラメータ1フレーム毎の処理に移
る。ステップS73で、音韻時間長係数がαに格納さ
れ、母音の種類がvoweltype に格納される。
【0036】ステップS74で、パラメータが母音定常
部であるかが判別される。母音定常部のときは、ステッ
プS75で、母音定常フラグが立てられ、母音定常部の
伸縮前時間長と発声速度係数が設定される。非母音定常
部の時は、ステップS76で、母音定常部フラグがオフ
となり、非母音定常部の伸縮前時間長と発声速度係数が
設定される。
【0037】ステップS77で、有声・無声情報と、合
成パラメータが格納される。ステップS78で、1モー
ラの処理が終了したときは、ステップS108に進む。
一方、1モーラの処理が終了していないときは、ステッ
プS73に戻り、上述の処理が繰り返される。
【0038】ステップS108で、パラメータ生成部9
から1フレームのパラメータがパラメータ格納部10に
取り込まれる。ステップS109で、制御データ格納部
2より、発声速度が拍同期点間隔設定部11に、声の高
さが駆動音源信号生成部14に取り込まれる。ステップ
S110で、拍同期点間隔設定部11において、パラメ
ータ格納部10に取り込まれたパラメータの音韻時間長
係数と、制御データ格納部2より取り込まれた発声速度
を用いて、拍同期点間隔が設定される。制御データの発
声速度をm(モーラ/秒)とすると、標準拍同期点間隔
はTs=100N/m(サンプル数/モーラ)となる。
ここで、1フレームの標準時間長をN(12kHzサン
プリングで120ポイント)とする。拍同期点間隔は、
標準拍同期点間隔に音韻時間長係数αをかけて T’=α×Ts となる。
【0039】ステップS111で、母音定常部長設定部
12において、パラメータ格納部10に取り込まれたパ
ラメータの母音の種類と、拍同期点間隔設定部11で設
定された拍同期点間隔を用いて、母音定常部長が設定さ
れる。例えば、母音定常部長vlenは、母音の種類vowelt
ype と拍同期点間隔T’より、図23のように決定され
る。
【0040】ステップS112で、フレーム時間長設定
部13において、拍同期点間隔設定部11で設定された
拍同期点間隔と、母音定常部長設定部12で設定された
母音定常部長を用いて、フレーム時間長が設定される。
伸縮後時間長と伸縮前時間長との差δを、母音定常部フ
ラグvowelflag がOFF(非母音定常部)のとき、 δ=T’−vlen −plen 母音定常部フラグvowelflag がON(母音定常部)のと
き、 δ=vlen−plen とする。第kフレームの時間長(サンプル数)nk が、
式(2)を用いて計算される。
【0041】ステップS113で、駆動音源信号生成部
14において、制御データ格納部2より取り込まれた声
の高さと、パラメータ格納部10に取り込まれたパラメ
ータのアクセント情報と、フレーム時間長設定部13で
設定されたフレーム時間長を用いて、ピッチスケールが
生成され、駆動音源信号が生成される。図24は、ピッ
チスケールの生成についての概念図である。1モーラの
間に変化するアクセントの強さPmと1モーラのサンプ
ル数Nmは、 Pm=accLevel/accMora Nm=T’ によって求められる。発声速度が変化しなかったとき、
1モーラでピッチスケールが線形に変化するようにピッ
チスケールの生成が行われる。第kフレームの時間長を
k サンプルとすると、kによってnk の値は異なる
が、それとは関係なく、1サンプル当たりPm/Nmずつ
ピッチスケールが変化するようにする。
【0042】これを原則として、発声速度が途中で変化
したときにも、フレーム単位で対応できるような処理を
次に述べる。図25は、ピッチスケールの生成について
の説明図である。拍同期点から第kフレームまでの間に
変化したアクセントの強さをPg 、処理されたサンプル
数をng とすると、残り(Nm −Ng )サンプルで(P
m −Pg )ピッチスケールで変化すればよい。したがっ
て、1サンプル当たりのピッチスケール変化量は、 Δp =(Pm −Pg )/(Nm −Ng ) によって求められる。ピッチスケールの初期値をP0
ピッチスケールPとP0の差分をPd とすると、第kフ
レームのピッチスケールの初期値は、 P=P0 +Pd となる。次に、サンプル毎にピッチスケールが更新され
る。
【0043】P=P+Δpg =Pg +Δp の処理が、第kフレームの時間長nk 回行われる。最後
に、Ng 、Pd が Ng =Ng +nkd =P−P0 のように更新される。
【0044】そして、パラメータの有声・無声情報が有
声のときは、上述した方法で求めたピッチスケールに対
応する駆動音源信号が生成される。
【0045】ステップS114で、合成パラメータ補間
部15において、パラメータ格納部10に取り込まれた
パラメータの要素の合成パラメータと、フレーム時間長
設定部13で設定されたフレーム時間長を用いて、合成
パラメータの補間が行われる。図26は合成パラメータ
の補間についての説明図である。第kフレームの合成パ
ラメータをck [i] (0≦i≦M)、第k−1フレーム
のパラメータをck-1[i] (0≦i≦M)、第kフレー
ムの時間長をnk サンプルとする。このとき、1サンプ
ル当たりの合成パラメータの差分Δk [i] (0≦i≦
M)は、 Δk [i] =(ck[i]−ck-1[i])/nk となる。次に、サンプル毎に合成パラメータC[i] (0
≦i≦M)が更新される。C[i] の初期値は、ck-1[i]
で、 C[i] =C[i]+Δk [i] の処理が第kフレームの時間長nk 回行われる。
【0046】ステップS115で、音声合成部16にお
いて、駆動音源信号生成部14で生成された駆動音源信
号と、合成パラメータ補間部15で補間された合成パラ
メータを用いて、音声合成が行われる。音声合成は、式
(3)と式(4)によって得られたピッチスケールPと
合成パラメータC[i] (0≦i≦M)を各サンプル毎に
合成フィルタに入力することによって行われる。
【0047】ステップS116で、1フレームの処理が
終了したか否かが判別され、終了した場合はステップS
117に進み、終了していない場合はステップS113
に戻り、処理が続けられる。
【0048】ステップS117で、モーラの処理が終了
したか否かが判別され、終了した場合は、ステップS1
19に進み、終了していない場合は、ステップS118
で外部入力された制御データを制御データ格納部2に格
納した後ステップS108に戻り処理が続けられる。
【0049】ステップS119で、入力が終了しか否か
が判別され、終了していない場合はステップS104に
戻り処理が続けられる。
【0050】上述した実施例1において、モーラ単位で
ピッチスケールが線形に変化する例を述べたが、ラベル
単位でピッチスケールを生成することもできる。また、
ピッチスケールを線形に変化させるのではなく、フィル
タの応答で生成することもできる。この場合は、アクセ
ント情報としてフィルタの係数やステップ幅などのデー
タを用いる。
【0051】また、母音定常部長の設定に用いた図23
は1つの例であり、これ以外の設定も可能である。
【0052】以上説明したように実施例1によれば、合
成音声の発声速度の変更に対してフレームの数を一定に
保つことが可能となり、高速時の音質の劣化を防止する
と共に、低速時における処理速度の低下とメモリの消費
を抑えることが可能となる。又、発声速度の変更をフレ
ーム単位で行うことが可能である。
【0053】<実施例2>本実施例2は、実施例1にお
いてアクセント情報設定部6により発声時のアクセント
の制御を行ったのに替えて、声の高さを制御するピッチ
スケールを用いた発生を行うものである。本実施例2で
は、実施例1と比して異なる部分について特に説明し、
実施例1と同様の部分は説明を省略する。
【0054】図27は実施例2の音声合成装置の機能構
成を示すブロック図である。このブロック図において、
参照番号4、5、7、8、9、17について説明する。
【0055】4はVcV格納部であり、VcV系列生成
部3で生成されたVcVを内部レジスタに格納する。5
は音韻時間長係数設定部であり、VcV格納部4に格納
されたVcVの種類より、合成音声の拍同期点間隔を標
準の拍同期点間隔よりどれくらい広げるかを表す値を格
納する。7はVcVパラメータ格納部であり、VcV系
列生成部3で生成されたVcV系列に対応するVcVパ
ラメータ、或いは語頭のデータであるV(母音)パラメ
ータやcVパラメータを格納している。8はラベル情報
格納部であり、VcVパラメータ格納部7に格納されて
いるVcVパラメータのそれぞれについて、母音開始
点、有声区間、無声区間などの音響的な境界を区別する
ためのラベルや拍同期点を示すラベルを、その位置情報
と共に格納している。9はパラメータ生成部であり、V
cV系列生成部3で生成されたVcV系列に対応するパ
ラメータ系列を生成する。パラメータ生成部の処理手順
については後述する。17はピッチスケール生成部であ
り、パラメータ生成部8で生成されたパラメータ系列の
ピッチスケールを生成する。
【0056】次に、図28のフローチャートを用いて、
図19のフローチャートの処理とは異なる部分のパラメ
ータの生成、ピッチスケールの生成、駆動音源信号の生
成について説明する。他のステップは、実施例1におい
て説明したものと同様であり、同じステップ番号を付
す。
【0057】ステップS120で、パラメータ生成部9
において、音韻時間長係数設定部5において設定された
音韻時間長係数と、VcVパラメータ格納部7から取り
出されたVcVパラメータと、ラベル情報格納部8から
取り出されたラベル情報を用いて、1モーラ分のパラメ
ータ系列が生成される。
【0058】ステップS121で、ピッチスケール生成
部17において、ラベル情報格納部8から取り出された
ラベル情報を用いて、パラメータ生成部9で生成された
パラメータ系列に対してピッチスケールが生成される。
ここで生成されるピッチスケールは、声の高さの基準値
に対応するピッチスケールVからの差分を与える。生成
されたピッチスケールは図29のピッチスケールpitch
に格納される。
【0059】ステップS122で、駆動音源信号生成部
14において、制御データ格納部2より取り込まれた声
の高さと、パラメータ格納部10に取り込まれたパラメ
ータのピッチスケールと、フレーム時間長設定部13で
設定されたフレーム時間長を用いて、駆動音源信号が生
成される。
【0060】図30は、ピッチスケールの補間について
の説明図である。拍同期点から第k−1フレームのピッ
チスケールをPk-1 、拍同期点から第kフレームのピッ
チスケールをPk とする。Pk-1 とPk は、いずれも声
の高さの基準値に対応するピッチスケールVからの差分
を与える。更に、拍同期点から第k−1フレームの声の
高さに対応するピッチスケールをVk-1 、拍同期点から
第kフレームの声の高さに対応するピッチスケールをV
k とする。このとき、1サンプルあたりのピッチスケー
ルの変化量ΔPk は、 ΔPk =((Vk+Pk)−(Vk-1+Pk-1))/nk となる。次に、サンプル毎にピッチスケールPが更新さ
れる。Pの初期値は、V k-1+Pk-1で、 P=P+ΔPk の処理が第kフレームの時間長nk 回行われる。
【0061】そして、パラメータの有声・無声情報が有
声のときは、上述した方法で補間したピッチスケールに
対応する駆動音源信号が生成される。一方、パラメータ
の有声・無声情報が無声のときは、無声音に対応する駆
動音源信号が生成される。
【0062】<実施例3>次に実施例3について説明す
る。
【0063】図1は実施例3の音声合成装置の機能構成
を表すブロック図である。同図において、101は文字
系列入力部であり、合成すべき音声の文字系列を入力す
る。例えば合成すべき音声が「音声」であるときには、
「OnSEI」というような文字系列を入力する。10
2はVcV系列生成部であり、文字系列入力部101よ
り入力された文字系列をVcV系列へ変換する、例え
ば、「OnSEI」という文字系列は、「QO,On,
nSE,EI,IQ」というVcV系列へ変換される。
【0064】103はVcVパラメータ格納部であり、
VcV系列生成部102で生成されたVcV系列に対応
するVcVパラメータ、あるいは語頭のデータであるV
(母音)パラメータやcVパラメータを格納している。
104はVcVラベル格納部であり、VcVパラメータ
格納部103に格納されているVcVパラメータのそれ
ぞれについて母音開始位置,有声区間,無声区間等の音
響的な境界を区別するラベルや拍同期点を示すラベルを
その位置情報とともに格納している。
【0065】105は拍同期点間隔設定部であり、合成
音声の標準拍同期点間隔を設定する。106は母音定常
部長さ設定部であり、拍同期点間隔設定部105で設定
される標準拍同期点間隔と母音の種類等よりVcVパラ
メータの接続に関与する母音の定常部の長さを設定す
る。107は発声速度係数設定部であり、VcVラベル
格納部104に格納されているラベルの種類に応じて決
定される伸縮率を用いて、各フレームの発声速度係数を
設定する。例えば、発声速度によって長さが変化し易い
母音部や摩擦音等には大きな値の発声速度係数が与えら
れ、長さが変化しにくい破裂音には小さな値の発声速度
係数が与えられる。
【0066】108はパラメータ生成部であり、VcV
系列生成部102で生成されたVcV系列に対応する標
準拍同期点間隔に合致したVcVパラメータ列を生成す
る。ここでは、VcVパラメータ格納部103から読み
出されたVcVパラメータを、母音定常部長さ設定部1
06及び拍同期点間隔設定部105の情報に基づいて接
続していく。尚、パラメータ生成部108の処理手順に
ついては後述する。
【0067】109は伸縮時間長格納部であり、文字系
列入力部101で入力した文字系列の中から伸縮時間長
制御に関するシーケンスコードを抜き取り、これを解釈
して、合成音声の拍同期点間隔を標準拍同期点間隔より
どれくらい広げるかを表す値を格納する。
【0068】110はフレーム長決定部であり、パラメ
ータ生成部108から得られるパラメータの発声速度係
数、伸縮時間長格納部109に格納された伸縮時間長か
ら、各フレームの長さを計算する。111は音声合成部
であり、パラメータ生成部108で得られるVcVパラ
メータ、フレーム長決定部110で得られるフレーム長
に基づいて順次音声波形を生成し合成音声を出力する。
【0069】次に上述の音声合成装置の動作手順につい
て図2及び図3を参照して説明する。
【0070】図2は音声素片として、VcVパラメータ
を用いた音声合成の例である。尚、図1と同じ内容につ
いては同一の参照記号を付し、ここではその説明を省略
することとする。
【0071】図2において、(B1)及び(B3)のV
cVパラメータは、それぞれVcVパラメータ格納部1
03に格納されている。(B3)のパラメータは、標準
拍同期点の間隔と結合に関与する母音の種類などにより
補間されるパラメータであり、、同期点間隔設定部10
5と母音定常部長さ設定部106に格納された情報によ
りパラメータ生成部108で生成される。又、各パラメ
ータのラベル情報である(C1)および(C2)はVc
Vラベル格納部104に格納されている。
【0072】(D’)は(C1)の拍同期点位置から
(C2)の拍同期点位置までの対応するパラメータ(フ
レーム)を(B1),(B3),(B2)から切りだし
て連結したフレーム列である。更に、(D’)の各フレ
ームには発声速度係数Ki を格納する部分がつけ加えら
れている。(E’)は隣接するラベルの種類により設定
される伸縮率である。(F’)は(D’)に対応したラ
ベル情報である。(G’)は(D’)の各フレームを音
声合成部111において伸縮した結果であり、(G’)
のパラメータとフレーム長に従って音声合成部111は
音声波形を生成する。
【0073】以上の動作を図3のフローチャートを参照
して更に詳しく説明する。
【0074】ステップS11において、文字列入力部1
01より音声合成すべき文字列が入力される。ステップ
S12において、VcV系列生成部102は入力された
文字列をVcV系列へ変換する。ステップS103で
は、VcVパラメータ格納部103より音声合成すべき
VcV系列のVcVパラメータ(図2の(B1)及び
(B2))を獲得する。次にステップS14で、VcV
パラメータに対して音響の境界や拍同期点を表すラベル
をVcVラベル格納部104より抽出して付与する(図
2の(C1),(C2))。そして、ステップS15に
おいて、拍同期点間隔設定部105及び母音定常部長さ
設定部106の情報により、VcVパラメータを連結す
るためのパラメータを生成し(図2の(B3))、これ
を用いてパラメータの連結を行う。次に、発声速度係数
設定部107により各フレーム毎に発声速度係数を付与
する。
【0075】発声速度係数の付与方法について図2の
(D’),(E’),(F’)を参照して更に説明す
る。
【0076】ここで、各ラベル間(図2の(F’))の
伸縮率をEi (0≦i≦n)、各ラベル間の伸縮前の時
間間隔(即ち標準拍同期点間隔における各ラベル間の時
間間隔)をSi (0≦i≦n)、各ラベル間の伸縮後の
時間間隔をDi (0≦i≦n)とする。
【0077】このとき、 D0 −S0 :… :Di −Si :… :Dn −Sn =E00 :… :Eii :… :Enn が成り立つように伸縮率Ei を定義する(図2の
(E’))。尚、この伸縮率E i は発声速度係数設定部
107に格納されている。この伸縮率Ei を用いて各フ
レームの発声速度係数Ki を求めると、 Ki =Ei /(E00 +…+Eii +…+En
n ) となる。発声速度係数設定部107により、この発声速
度係数Ki が各フレーム毎に付与される(図2の
(D’))。
【0078】以上の如くステップS16で各フレームの
発声速度係数が設定されるとステップS17へ進み、フ
レーム長決定部110により各フレームのフレーム長
(各フレームの時間間隔)が求められる。伸縮前の各フ
レームの時間長をT0 、伸縮時間長格納部109で格納
される伸縮後の全体の増加時間長をTp とすると、伸縮
後の各フレームの時間長Ti は、 Ti =(Kip +1)T0 として求めることができる。
【0079】そして、ステップS18において、フレー
ム長決定部110は各フレーム毎にフレーム長を計算
し、音声合成部111はそのフレーム長になるようにフ
レーム内の補間処理を行い、音声合成を行う。
【0080】以上説明したように、本実施例によれば、
発声速度の変化に対してフレーム数を一定に保つことが
可能となる。このため、発声速度を速くした場合でも音
質が劣化せず、また、発声速度を遅くした場合でも、メ
モリを消費することがないという効果がある。更に、音
声合成部111において、フレーム毎にフレーム長を算
出するので、発声速度の変更に対してリアルタイムに応
答できる。
【0081】尚、上記の実施例3では伸縮前の各フレー
ム長が等しいが、図3の(D)のパラメータの各フレー
ム長が異なる場合にも本発明を適用することができる。
この場合、各フレームに標準拍同期点間隔における時間
間隔Ti0を持たせ、 Ti =(Kip +1)Ti0 の式によって、フレーム長決定部110が各フレームの
フレーム長を算出する。そして、音声合成部111はそ
のフレーム長になるようにフレーム内の補間処理を行
い、合成音声を生成する。このように、標準拍同期点間
隔におけるフレーム長が可変長の場合にも容易に拡張す
ることができる。
【0082】このようにフレーム長を可変長とすること
により、例えば破裂音などのパラメータを細かく準備で
きるので明瞭度向上に寄与する。
【0083】<実施例4>実施例4では、標本化周波数
の所定倍で動作するD/A変換器を用いて合成音声の発
声速度を変化させる。
【0084】図5は実施例4における音声規則合成装置
の機能構成を示すブロック図である。本例においては、
合成音声を通常速度と2倍の速度の2種類の速度で出力
する場合を説明するが、この変倍率は、他の変倍率でも
構わない。
【0085】同図において、151は文字系列入力部で
あり、合成すべき音声の文字表記を入力する。152は
韻律情報格納部であり、文音声の話調や単語のストレ
ス、ポーズ等の韻律的特徴を格納しておく。153はピ
ッチパタン生成部であり、文字系列入力部151より入
力された文字系列に対応する韻律情報を韻律情報格納部
152より取り出し、ピッチパタンを生成する。154
は音声素片パラメータ格納部であり、VcVまたはcV
といった単位のスペクトルパラメータ(メルケプストラ
ム,PACOR,LPC,LSP等)を格納しておく。
155は音声パラメータ生成部であり、文字系列入力部
151より入力された文字系列に対応する音声素片パラ
メータを音声素片パラメータ格納部154から取り出
し、これらを接続することにより音声パラメータを生成
する。
【0086】156は駆動音源であり、有声区間にたい
してはインパルス列のような音源信号、無声区間に対し
ては白色雑音のような音源信号をそれぞれ生成する。1
57は音声合成部であり、ピッチパターン生成部153
で得られるピッチパタン、音声パラメータ生成部155
で得られる音声パラメータ及び駆動音源156で得られ
る音源信号とを一定の規則に基づいて順次結合し、ディ
ジタル音声信号を生成する。
【0087】158は音声出力速度切換スイッチであ
り、音声合成部157で生成された合成音声を通常の速
度で出力するか、通常の2倍の速度で出力するかを切り
替える。159はディジタルフィルタであり、音声合成
部157で生成されたディジタル音声信号の標本化周波
数を2倍に変換する。160はD−A変換器であり、音
声合成部157で生成されたディジタル音声信号の標本
化周波数の2倍の周波数で作動する。
【0088】以上の構成により、通常速度で合成音声を
出力する場合は、ディジタルフィルタ159により音声
合成部157で生成されたディジタル音声信号の標本化
周波数を2倍に変換し、これを標本化周波数の2倍の動
作速度を有するD−A変換器160によりアナログ変換
することにより通常の速度のアナログ音声信号を得る。
一方、2倍速の合成音声を出力する場合は、音声合成部
107で生成されたディジタル音声信号が、標本化周波
数の2倍の周波数で作動するD−A変換器160にその
まま入力されるため、A−D変換器160により2倍速
のアナログ音声信号に変換される。
【0089】161はアナログ低域フィルタであり、D
−A変換器160で生成されたアナログ音声信号のうち
音声合成部157で生成されたディジタル音声信号の標
本化周波数以上の周波数成分を遮断する。162はスピ
ーカであり、通常速度または2倍速の合成音声信号を出
力する。
【0090】以下に図6乃至図15を参照して上述の構
成を備える実施例4の音声合成装置の動作を説明する。
【0091】図15は実施例4の音声合成装置の動作手
順を表すフローチャートである。まず、ステップS21
において文字系列入力部151より音声合成すべき文字
系列が入力される。次にステップS22において、入力
された文字系列よりディジタル音声信号が生成される。
このディジタル音声信号の生成過程を図6及び図7を用
いて説明する。
【0092】図6は音声合成部157の動作を説明する
図である。201はピッチパタン生成部153より生成
されるピッチパタンであり、出力音声に対する経過時間
と周波数の関係を表している。202は音声パラメータ
生成部155より生成される音声パラメータであり、出
力音声に対応する音声素片パラメータを順に接続したも
のである。203は駆動音源156より生成される音源
信号であり、音声区間にたいしてはインパルス列(20
3a)、無声区間にたいしては白色雑音(203b)で
ある。204はディジタル信号処理部であり、例えば、
PARCOR方式により、ピッチパターン、音声パラメ
ータ及び音源信号を一定の規則に基づき結合し、ディジ
タル音声信号を生成する。205はディジタル信号処理
部204より出力されるディジタル音声信号であり、時
間T毎の振幅情報値である。この信号の標本化周波数を
f=1/Tとする。206は205の周波数スペクトル
であり、標本化によって発生する周波数f/2以上の不
要な高域雑音成分が含まれている。
【0093】次に、ステップS23において、音声出力
速度切替スイッチ158の状態により、出力速度を通常
速度とするか2倍速とするかを判断し、通常速度とする
場合はステップS24へ、2倍速とする場合はステップ
S25へ進む。
【0094】ステップS24ではディジタルフィルタ1
59によりディジタル音声信号の標本化周波数を2倍に
変倍する。このディジタルフィルタ159における処理
を図7及び図8を用いて説明する。
【0095】図7において、301はディジタルフィル
タ159の周波数スペクトルであり、周波数f/2をカ
ットオフとする急峻な特性を持っている。
【0096】図8において、ディジタル音声信号205
は音声合成部157で生成され出力された信号である。
304はディジタルフィルタ159より出力されるディ
ジタル音声信号であり、周期Tで入力されたディジタル
音声信号205に0(ゼロ)を内挿して2倍の周波数に
変換されている。305は、ディジタル音声信号304
の周波数スペクトルであり、周波数(2n+1)f、
(n=0,1,2…)を中心とした周波数成分が消滅し
ているが、周波数2nf、(n=1,2…)を中心とし
た不要な高域雑音成分が含まれている。
【0097】ステップS25において、D−A変換器1
60によりディジタル音声信号をアナログ音声信号に変
換する。このD−A変換器160による処理を図9乃至
図11を用いて説明する。
【0098】図9はD−A変換器出力の周波数スペクト
ルを表す図である。このD−A変換器は音声合成部10
7で生成されるディジタル音声信号の標本化周波数fの
2倍の周波数2fで作動するものであり、周波数2fを
中心として高域雑音成分が含まれている。
【0099】図10において、ディジタルフィルタ15
9を介して得られたディジタル音声信号304は、2倍
の標本化周波数を有し、305に示されるような周波数
スペクトルを有する。ディジタル信号304を周波数ス
ペクトル401を持つD−A変換器160に通すことに
より、アナログ音声信号404が生成される。アナログ
音声信号404は通常速度で発声される。405はアナ
ログ音声信号404の周波数スペクトルである。
【0100】又、図11において、音声合成部157で
生成された標本化周波数fの音声ディジタル信号205
は周波数スペクトル401を持つD−A変換器160に
通すことにより、アナログ音声信号408が生成され
る。アナログ音声信号408はディジタル音声信号20
5に比べて信号の継続時間が1/2に圧縮されている。
409はアナログ音声信号408の周波数スペクトルで
あり、周波数スペクトル206に比べて周波数帯域が2
倍になり、周波数f以上の周波数2nf、(n=1,2
…)を中心とした不要な高域雑音成分が含まれてる。
【0101】ステップS26では、アナログ低域フィル
タ161によりD−A変換器160により生成されたア
ナログ音声信号の高周波成分を除去する。このアナログ
低域フィルタ161の動作を図12乃至図14を用いて
説明する。
【0102】図12及び図14はアナログ低域フィルタ
161を説明する図である。
【0103】図12において、501はアナログ低域フ
ィルタ161の周波数スペクトルであり、周波数f以上
の周波数成分を減衰させる。
【0104】図13において、合成音を通常速度で出力
する場合のアナログ音声信号404は、アナログフィル
タ161を通過することにより、アナログ信号504と
して出力される。505はアナログ信号504の周波数
スペクトルで、周波数f/2以上の不要な高域雑音成分
が除去され、正しいアナログ信号となっている。
【0105】図14において、合成音を2倍速で出力す
るためのアナログ信号408をアナログフィルタ161
に通すことにより、アナログ信号508が得られる。5
09はアナログ信号508の周波数スペクトルであり、
周波数f以上の不要な高域雑音成分が除去され、2倍速
で出力する場合の正しいアナログ信号となっている。
【0106】ステップS27では、アナログ低域フィル
タ161を通過して得られたアナログ信号を音声信号と
して出力する。
【0107】以上説明したように本実施例によれば、合
成音を2倍速で出力することができるので、例えばカセ
ットテープレコーダなどに録音する際の録音時間を2分
の1に短縮することが可能であり、作業時間が短縮され
る。
【0108】一般に音声規則合成装置は、小型計量では
なく、パーソナルコンピュータやワークステーション等
のホストコンピュータで音声合成処理を行い、付属のス
ピーカから合成音声を出力したり、または電話回線を通
して手元の端末機から合成音声を出力したりしているの
が現状である。このため、音声規則合成装置を携帯し、
それから読み上げられる音声を聞きながら作業を行うと
いうようなことはできず、音声規則合成装置から出力さ
れる合成音声を、一旦カセットテープレコーダ等に録音
し、それを携帯し、再生される音声を聞きながら作業を
行うという方法が一般的に用いられており、その録音の
ために多くの時間を費やさなければならないという問題
がある。従って本実施例によればその録音時間を著しく
短縮することが可能となる。
【0109】尚、本発明は、複数の機器から構成される
システムに適用しても1つの機器から成る装置に適用し
ても良い。また、本発明は、システム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることはいうまでもない。
【0110】
【発明の効果】以上説明したように本発明の音声合成方
法及び装置によれば、合成音声の発声速度の変更に対し
てフレームの数を一定に保つことが可能となり、高速時
の音質の劣化を防止すると共に、低速時における処理速
度の低下とメモリの消費を抑えることが可能である。
【0111】また、発生速度の変更をフレーム単位で行
うことが可能である。
【0112】
【図面の簡単な説明】
【図1】実施例3の音声合成装置の機能構成を表すブロ
ック図である。
【図2】実施例3におけるVcVパラメータを用いた音
声合成の手順を説明する図である。
【図3】実施例3の音声合成装置の動作手順を表すフロ
ーチャートである。
【図4】VcVパラメータを用いた音声合成の一般的な
手順を説明する図である。
【図5】実施例4における音声規則合成装置の機能構成
を示すブロック図である。
【図6】音声合成部の動作を説明する図である。
【図7】ディジタルフィルタの周波数特性を表す図であ
る。
【図8】ディジタルフィルタの動作を説明する図であ
る。
【図9】D−A変換器出力の周波数特性を表す図であ
る。
【図10】D−A変換器の動作を説明する図である。
【図11】D−A変換器の動作を説明する図である。
【図12】アナログ低域フィルタの周波数特性を表す図
でる。
【図13】アナログ低域フィルタの動作を説明する図で
ある。
【図14】アナログ低域フィルタの動作を説明する図で
ある。
【図15】実施例4の音声合成装置の動作手順を表すフ
ローチャートである。
【図16】実施例1に係る音声合成装置の機能構成を示
すブロック図である。
【図17】実施例1におけるVcVパラメータによる音
声合成の手順を表す図である。
【図18】実施例1におけるVcVパラメータの伸縮を
説明する図である。
【図19】実施例1における音声合成の手順を表すフロ
ーチャートである。
【図20】実施例1のパラメータ1フレームのデータ構
造を表す図である。
【図21】実施例1のパラメータ生成手順を表すフロー
チャートである。
【図22】実施例1におけるパラメータの生成を説明す
る図である。
【図23】実施例1における母音定常部長の設定の1例
を表す図である。
【図24】実施例1におけるピッチスケールの生成を表
す概念図である。
【図25】実施例1におけるピッチスケールの生成方法
を説明する図である。
【図26】実施例1における合成パラメータの補間を説
明する図である。
【図27】実施例2に係る音声合成装置の機能構成を示
すブロック図である。
【図28】実施例2における音声合成の手順をあらわす
フローチャートである。
【図29】実施例2のパラメータ1フレームのデータ構
造を表す図である。
【図30】実施例2におけるピッチスケールの補間の説
明図である。
【符号の説明】
101 文字系列入力部 102 VcV系列入力部 103 VcVパラメータ格納部 104 VcVラベル格納部 105 拍同期点間隔設定部 106 母音定常部長さ設定部 107 発声速度係数設定部 108 パラメータ生成部 109 伸縮時間長格納部 110 フレーム長決定部 111 音声合成部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 深田 俊明 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 藤田 武 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 音声波形のパラメータを有する1つ又は
    複数のフレームで構成される音声素片を一定の規則に基
    づいて順次結合して合成音声を出力する音声合成装置で
    あって、 合成音声の発声速度の変化に応じて各フレームを伸縮す
    るための伸縮の度合いを伸縮度として各フレームに対応
    させて格納する格納手段と、 合成音声の発声速度及び前記伸縮度に基づいて各フレー
    ムの時間長を決定して音声波形を生成する生成手段と、 を備えることを特徴とする音声合成装置。
  2. 【請求項2】 合成音声の発声速度を各音声素片の拍同
    期点間の時間間隔により設定する設定手段を更に備える
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 【請求項3】 前記設定手段は、拍同期点間を母音定常
    部と非母音定常部とに分け、各フレームが母音定常部に
    属するか非母音定常部に属するかにより合成音声の発声
    速度を設定することを特徴とする請求項2に記載の音声
    合成装置。
  4. 【請求項4】 前記設定手段における母音定常部の時間
    長を、伸縮後の拍同期点間の時間間隔に基づいて決定す
    る母音時間長設定手段を更に備えることを特徴とする請
    求項3に記載の音声合成装置。
  5. 【請求項5】 前記格納手段は、音響的に変化する変化
    点間の時間間隔を合成音声の発声速度に応じて伸縮する
    ための度合いを伸縮度として、これを各フレームと対応
    させて格納することを特徴とする請求項1に記載の音声
    合成装置。
  6. 【請求項6】 所定の時間間隔においてアクセントの強
    さが線形に変化するようにピッチスケールの生成を行う
    生成手段を更に備え、 前記合成手段は、合成音声の発生速度及び前記伸縮度に
    基づいて決定される各フレームの時間長と、前記生成手
    段により生成されたピッチスケールとに基づいて音声波
    形を生成することを特徴とする請求項2に記載の音声合
    成装置。
  7. 【請求項7】 前記生成手段における所定の時間間隔
    は、拍同期点間の間隔であることを特徴とする請求項6
    に記載の音声合成装置。
  8. 【請求項8】 所定の時間間隔において発生音声の高さ
    が線形に変化するようにピッチスケールの生成をおこな
    う生成手段を更に備え、 前記合成手段は、合成音声の発生速度及び前記伸縮度に
    基づいて決定される書くフレーム時間長と、前記生成手
    段により生成されたピッチスケールとに基づいて音声波
    形を生成することを特徴とする請求項2に記載の音声合
    成装置。
  9. 【請求項9】 前記生成手段における所定の時間間隔
    は、拍同期点間の間隔であることを特徴とする請求項2
    に記載の音声合成装置。
  10. 【請求項10】 前記各フレームは複数の所定間隔のサ
    ンプリングデータで構成され、 前記生成手段は、前記拍同期点間の時間間隔に基づいて
    各サンプリング毎に所定の割合で変化するピッチスケー
    ルを生成し、 前記合成手段は、前記ピッチスケールに基づいて各サン
    プリング毎の音声波形を生成することを特徴とする請求
    項2に記載の音声合成装置。
  11. 【請求項11】 発声速度に応じて伸縮される前の各フ
    レームがそれぞれ固有の時間長を有することを特徴とす
    る請求項1に記載の音声合成装置。
  12. 【請求項12】 パラメータ化された音声素片と音源信
    号とを一定の規則に基づいて順次結合してデジタル音声
    信号を合成する合成手段と、 合成されたデジタル音声信号の標本化周波数を変倍する
    変倍手段と、 前記変倍手段により変倍された標本化周波数でディジタ
    ル信号をアナログ信号へ変換する変換手段と、 通常の発声速度で合成音声を出力する場合は前記変倍手
    段で処理されたデジタル音声信号を前記変換手段により
    アナログ信号に変換し、発声速度を変倍して合成音声を
    出力する場合は前記合成手段により合成されたデジタル
    信号を前記変換手段によりアナログ信号に変換して合成
    音声信号を出力する出力手段と、 を備えることを特徴とする音声合成装置。
  13. 【請求項13】 音声波形のパラメータを有する1つ又
    は複数のフレームで構成される音声素片を一定の規則に
    基づいて順次結合して合成音声を出力する音声合成方法
    であって、 合成音声の発声速度の変化に応じて各フレームを伸縮す
    るための伸縮の度合いを伸縮度として各フレームに対応
    させて格納する格納工程と、 合成音声の発声速度及び前記伸縮度に基づいて各フレー
    ムの時間長を決定して音声波形を生成する生成工程と、 を備えることを特徴とする音声合成方法。
  14. 【請求項14】 合成音声の発声速度を各音声素片の拍
    同期点間の時間間隔により設定する設定工程を更に備え
    ることを特徴とする請求項13に記載の音声合成方法。
  15. 【請求項15】 前記設定工程は、拍同期点間を母音定
    常部と非母音定常部とに分け、各フレームが母音定常部
    に属するか非母音定常部に属するかにより合成音声の発
    声速度を設定することを特徴とする請求項14に記載の
    音声合成方法。
  16. 【請求項16】 前記設定工程における母音定常部の時
    間長を、伸縮後の拍同期点間の時間間隔に基づいて決定
    する母音時間長設定工程を更に備えることを特徴とする
    請求項15に記載の音声合成方法。
  17. 【請求項17】 前記格納工程は、音響的に変化する変
    化点間の時間間隔を合成音声の発声速度に応じて伸縮す
    るための度合いを伸縮度として、これを各フレームと対
    応させて格納することを特徴とする請求項13に記載の
    音声合成方法。
  18. 【請求項18】 発声速度に応じて伸縮される前の各フ
    レームがそれぞれ固有の時間長を有することを特徴とす
    る請求項13に記載の音声合成方法。
  19. 【請求項19】 所定の時間間隔においてアクセントの
    強さが線形に変化するようにピッチスケールの生成を行
    う生成工程を更に備え、 前記合成工程は、合成音声の発生速度及び前記伸縮度に
    基づいて決定される各フレームの時間長と、前記生成工
    程により生成されたピッチスケールとに基づいて音声波
    形を生成することを特徴とする請求項14に記載の音声
    合成方法。
  20. 【請求項20】 前記生成工程における所定の時間間隔
    が拍同期点間隔であることを特徴とする請求項19に記
    載の音声合成方法。
  21. 【請求項21】 所定の時間間隔において発生音声の高
    さが線形に変化するようにピッチスケールの生成を行う
    生成工程を更に備え、 前記合成工程は、合成音声の発生速度及び前記伸縮度に
    基づいて決定される各フレームの時間長と、前記生成工
    程により生成されたピッチスケールとに基づいて音声波
    形を生成することを特徴とする請求項14に記載の音声
    合成方法。
  22. 【請求項22】 前記生成工程における所定の時間間隔
    が拍同期点間隔であることを特徴とする請求項21に記
    載の音声合成方法。
  23. 【請求項23】 前記各フレームは複数の所定間隔のサ
    ンプリングデータで構成され、 前記生成工程は、前記拍同期点間の時間間隔に基づいて
    各サンプリング毎に所定の割合で変化するピッチスケー
    ルを生成し、 前記合成工程は、前記ピッチスケールに基づいて各サン
    プリング毎の音声波形を生成することを特徴とする請求
    項15に記載の音声合成方法。
  24. 【請求項24】 パラメータ化された音声素片と音源信
    号とを一定の規則に基づいて順次結合してデジタル音声
    信号を合成する合成工程と、 合成されたデジタル音声信号の標本化周波数を変倍する
    変倍工程と、 前記変倍工程により変倍された標本化周波数でディジタ
    ル信号をアナログ信号へ変換する変換工程と、 通常の発声速度で合成音声を出力する場合は前記変倍工
    程で処理されたデジタル音声信号を前記変換工程により
    アナログ信号に変換し、発声速度を変倍して合成音声を
    出力する場合は前記合成工程により合成されたデジタル
    信号を前記変換工程によりアナログ信号に変換して合成
    音声信号を出力する出力工程と、 を備えることを特徴とする音声合成方法。
JP13436394A 1994-06-16 1994-06-16 音声合成方法及び装置並びに音声合成制御方法及び装置 Expired - Fee Related JP3563772B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP13436394A JP3563772B2 (ja) 1994-06-16 1994-06-16 音声合成方法及び装置並びに音声合成制御方法及び装置
DE69519820T DE69519820T2 (de) 1994-06-16 1995-06-13 Verfahren und Vorrichtung zur Sprachsynthese
EP95304063A EP0688010B1 (en) 1994-06-16 1995-06-13 Speech synthesis method and speech synthesizer
US08/490,140 US5682502A (en) 1994-06-16 1995-06-14 Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13436394A JP3563772B2 (ja) 1994-06-16 1994-06-16 音声合成方法及び装置並びに音声合成制御方法及び装置

Publications (2)

Publication Number Publication Date
JPH086592A true JPH086592A (ja) 1996-01-12
JP3563772B2 JP3563772B2 (ja) 2004-09-08

Family

ID=15126628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13436394A Expired - Fee Related JP3563772B2 (ja) 1994-06-16 1994-06-16 音声合成方法及び装置並びに音声合成制御方法及び装置

Country Status (4)

Country Link
US (1) US5682502A (ja)
EP (1) EP0688010B1 (ja)
JP (1) JP3563772B2 (ja)
DE (1) DE69519820T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
JP2009003395A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5998725A (en) * 1996-07-23 1999-12-07 Yamaha Corporation Musical sound synthesizer and storage medium therefor
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JP3854713B2 (ja) 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
JP2002014952A (ja) * 2000-04-13 2002-01-18 Canon Inc 情報処理装置及び情報処理方法
EP1286332A1 (en) * 2001-08-14 2003-02-26 Sony France S.A. Sound processing method and device for modifying a sound characteristic, such as an impression of age associated to a voice
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
CN1813285B (zh) * 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
JP4529492B2 (ja) * 2004-03-11 2010-08-25 株式会社デンソー 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP4973337B2 (ja) * 2007-06-28 2012-07-11 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
EP2109096B1 (en) * 2008-09-03 2009-11-18 Svox AG Speech synthesis with dynamic constraints
WO2010115298A1 (zh) * 2009-04-07 2010-10-14 Lin Wen Hsin 卡拉ok歌曲伴唱自动评分方法
US8706497B2 (en) * 2009-12-28 2014-04-22 Mitsubishi Electric Corporation Speech signal restoration device and speech signal restoration method
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
EP3086254A1 (en) 2015-04-22 2016-10-26 Gemalto Sa Method of managing applications in a secure element when updating the operating system
CN107305767B (zh) * 2016-04-15 2020-03-17 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統
CN110264993B (zh) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4611342A (en) * 1983-03-01 1986-09-09 Racal Data Communications Inc. Digital voice compression having a digitally controlled AGC circuit and means for including the true gain in the compressed data
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
JP2009003395A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
KR101005949B1 (ko) * 2007-06-25 2011-01-05 후지쯔 가부시끼가이샤 음성 읽어내기를 위한 장치, 기록 매체 및 방법
KR101019851B1 (ko) * 2007-06-25 2011-03-04 후지쯔 가부시끼가이샤 음성 읽어내기를 위한 장치, 기록 매체 및 방법

Also Published As

Publication number Publication date
DE69519820D1 (de) 2001-02-15
US5682502A (en) 1997-10-28
EP0688010A1 (en) 1995-12-20
JP3563772B2 (ja) 2004-09-08
EP0688010B1 (en) 2001-01-10
DE69519820T2 (de) 2001-07-19

Similar Documents

Publication Publication Date Title
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP3985814B2 (ja) 歌唱合成装置
JP6024191B2 (ja) 音声合成装置および音声合成方法
JPH031200A (ja) 規則型音声合成装置
JPH0632020B2 (ja) 音声合成方法および装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
EP0391545B1 (en) Speech synthesizer
JP2761552B2 (ja) 音声合成方法
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2600384B2 (ja) 音声合成方法
JP3307283B2 (ja) 歌唱音合成装置
JP2001282276A (ja) 音声合成方法、装置および記憶媒体
JP4451665B2 (ja) 音声を合成する方法
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP3233036B2 (ja) 歌唱音合成装置
JPH10124082A (ja) 歌声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3284634B2 (ja) 規則音声合成装置
JP2573586B2 (ja) 規則型音声合成装置
JP3515268B2 (ja) 音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JPH1011083A (ja) テキスト音声変換装置
JPH0553595A (ja) 音声合成装置
JP3310217B2 (ja) 音声合成方法とその装置
JPH04125699A (ja) 残差駆動型音声合成装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040604

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080611

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110611

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees