JPH11259093A - 音声合成装置及びその制御方法、コンピュータ可読メモリ - Google Patents

音声合成装置及びその制御方法、コンピュータ可読メモリ

Info

Publication number
JPH11259093A
JPH11259093A JP10057249A JP5724998A JPH11259093A JP H11259093 A JPH11259093 A JP H11259093A JP 10057249 A JP10057249 A JP 10057249A JP 5724998 A JP5724998 A JP 5724998A JP H11259093 A JPH11259093 A JP H11259093A
Authority
JP
Japan
Prior art keywords
phoneme
data
environment
database
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10057249A
Other languages
English (en)
Other versions
JP3884856B2 (ja
JPH11259093A5 (ja
Inventor
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP05724998A priority Critical patent/JP3884856B2/ja
Priority to DE69917960T priority patent/DE69917960T2/de
Priority to US09/263,262 priority patent/US7139712B1/en
Priority to EP99301674A priority patent/EP0942409B1/en
Publication of JPH11259093A publication Critical patent/JPH11259093A/ja
Publication of JPH11259093A5 publication Critical patent/JPH11259093A5/ja
Application granted granted Critical
Publication of JP3884856B2 publication Critical patent/JP3884856B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 音声合成を精度良く高速に行うことができる
音声合成装置及びその制御方法、コンピュータ可読メモ
リを提供する。 【解決手段】 検索対象の第1音素に対し音素環境を考
慮した第2音素を生成する。その第2音素に対応する音
素片データをデータベース101aより検索する。その
検索結果に基づいて、音素環境を変更した第3音素を生
成し、該第3音素に対応する音素片データをデータベー
ス101aより再度検索する。上記検索あるいは再検索
による検索結果と、第2音素あるいは第3音素を対応づ
けてテーブルに登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音素片データを管
理するデータベースを有し、そのデータベースで管理さ
れている音素片データを用いて音声合成を行う音声合成
装置及びその制御方法、コンピュータ可読メモリにに関
するものである。
【0002】
【従来の技術】従来より、音声合成方法として、波形編
集方式による合成方法が存在する。波形編集合成法で
は、1〜数ピッチ分の波形素片を所望のピッチ間隔に合
わせて貼り合わせるピッチ同期波形重畳法によって韻律
の変更を行う。波形編集合成法では、パラメータ方式に
よる合成法に対して、より自然な合成音声が得られる反
面、韻律変更に対する許容範囲が狭いという問題があ
る。
【0003】そこで、様々なバリエーションの音声デー
タを用意し、それらを適切に選択して用いることで音質
向上が図られる。音声データの選択基準としては、音素
環境(合成対象となる当該音素あるいはその両側数音
素)や基本周波数F0等の情報が用いられる。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成方法は、以下のような問題点があった。
【0005】例えば、合成対象となる音素環境を満たす
音声データが存在しない場合、音素環境に関する条件を
緩めて必要とする音声データを再探索することになる。
そして、この再探索を音声合成時に行うと処理が複雑に
なり、処理時間が増大してしまうという問題点があっ
た。また、音声データの選択規準に基本周波数F0を用
いた場合、合成対象の音声データの基本周波数F0に最
も合致する音声データを得るために、各音声データにつ
いて基本周波数F0の評価を行わなくてはならなかっ
た。
【0006】本発明は上記問題点に鑑みてなされたもの
であり、音声合成を精度良く高速に行うことができる音
声合成装置及びその制御方法、コンピュータ可読メモリ
を提供することを目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声合成装置は以下の構成を備える。
即ち、音素片データを管理するデータベースを有する音
声合成装置であって、検索対象の第1音素に対し音素環
境を考慮した第2音素を生成する生成手段と、前記第2
音素に対応する音素片データを前記データベースより検
索する検索手段と、前記検索手段の検索結果に基づい
て、前記音素環境を変更した第3音素を生成し、該第3
音素に対応する音素片データを前記データベースより再
度検索する再検索手段と、前記検索手段あるいは前記再
検索手段による検索結果と、前記第2音素あるいは前記
第3音素を対応づけてテーブルに登録する登録手段とを
備える。
【0008】また、好ましくは、前記登録手段は、前記
検索手段あるいは前記再検索手段によって検索された音
素片データの平均基本周波数を計算する計算手段と、前
記計算手段で計算された平均基本周波数に基づいて、前
記検索された音素片データ群を整列する整列手段とを備
え、前記整列手段で整列された音素片データ群の順番
で、前記音素片データ群と前記第2音素あるいは第3音
素を対応づけて前記テーブルに登録する。
【0009】また、好ましくは、前記第2音素は、前記
第1音素の左右音素の音素環境を考慮したトライホンで
ある。
【0010】また、好ましくは、前記第3音素は、前記
第1音素の左右音素どちらかあるいはその両方の音素環
境を考慮した音素である。
【0011】また、好ましくは、前記第3音素は、前記
第1音素が母音の場合には該第1音素の左音素環境を考
慮した音素、子音の場合には該第1音素の右音素環境を
考慮した音素である。
【0012】また、好ましくは、前記登録手段は、更
に、前記検索された音素片データの平均基本周波数を量
子化する量子化手段を備える。
【0013】また、好ましくは、前記計算手段は、前記
量子化手段で量子化された音素片データ群の各平均基本
周波数の内、対応する音素片データが存在しないものに
ついては、その近傍の平均基本周波数で対応する音素片
データが存在する平均基本周波数を用いて補間する。
【0014】上記の目的を達成するための本発明による
音声合成装置は以下の構成を備える。即ち、前記データ
ベース中に存在する音素片データの位置を示す位置情報
と、該音素片データに対応づけられた音素環境を考慮し
た音素とを対応づけて管理するテーブルを記憶する記憶
手段と、合成対象の音素群の各音素環境情報とその基本
周波数を獲得し、獲得された基本周波数の平均を算出す
る算出手段と、前記音素環境情報に対応する音素群を前
記テーブルより検索する検索手段と、前記算出手段で算
出された基本周波数の平均に基づいて、前記検索手段で
検索された音素群から所定の音素に対応する音素片デー
タの位置情報を前記テーブルより取得する取得手段と、
前記取得手段で取得された位置情報が示す音素片データ
を前記データベースより取得し、その取得された音素片
データの韻律を変更する変更手段とを備える。
【0015】また、好ましくは、前記変更手段による韻
律の変更は、ピッチ同期波形重畳法を用いる。
【0016】また、好ましくは、前記音素環境を考慮し
た音素の基本周波数が量子化されている場合、前記記憶
手段は、その量子化された基本周波数と、該音素に対応
する音素片データが存在する前記データベース中の位置
を示す位置情報とを対応づけて前記テーブルに管理す
る。
【0017】また、好ましくは、前記音素環境を考慮し
た音素の基本周波数が量子化されている場合、前記算出
手段は、合成対象の音素群の各音素環境情報を獲得し、
また、その量子化された音素群の各基本周波数の平均を
算出する。
【0018】上記の目的を達成するための本発明による
音声合成装置の制御方法は以下の構成を備える。即ち、
音素片データを管理するデータベースを有する音声合成
装置の制御方法であって、検索対象の第1音素に対し音
素環境を考慮した第2音素を生成する生成工程と、前記
第2音素に対応する音素片データを前記データベースよ
り検索する検索工程と、前記検索工程の検索結果に基づ
いて、前記音素環境を変更した第3音素を生成し、該第
3音素に対応する音素片データを前記データベースより
再度検索する再検索工程と、前記検索工程あるいは前記
再検索工程による検索結果と、前記第2音素あるいは前
記第3音素を対応づけてテーブルに登録する登録工程と
を備える。
【0019】上記の目的を達成するための本発明による
音声合成装置の制御方法は以下の構成を備える。即ち、
データベースで管理されている音素片データを用いて音
声合成を行う音声合成装置の制御方法であって、前記デ
ータベース中に存在する音素片データの位置を示す位置
情報と、該音素片データに対応づけられた音素環境を考
慮した音素とを対応づけて管理するテーブルを記憶する
記憶工程と、合成対象の音素群の各音素環境情報とその
基本周波数を獲得し、獲得された基本周波数の平均を算
出する算出工程と、前記音素環境情報に対応する音素群
を前記テーブルより検索する検索工程と、前記算出工程
で算出された基本周波数の平均に基づいて、前記検索工
程で検索された音素群から所定の音素に対応する音素片
データの位置情報を前記テーブルより取得する取得工程
と、前記取得工程で取得された位置情報が示す音素片デ
ータを前記データベースより取得し、その取得された音
素片データの韻律を変更する変更工程とを備える。
【0020】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
音素片データを管理するデータベースを有する音声合成
装置の制御のプログラムコードが格納されたコンピュー
タ可読メモリであって、検索対象の第1音素に対し音素
環境を考慮した第2音素を生成する生成工程のプログラ
ムコードと、前記第2音素に対応する音素片データを前
記データベースより検索する検索工程のプログラムコー
ドと、前記検索工程の検索結果に基づいて、前記音素環
境を変更した第3音素を生成し、該第3音素に対応する
音素片データを前記データベースより再度検索する再検
索工程のプログラムコードと、前記検索工程あるいは前
記再検索工程による検索結果と、前記第2音素あるいは
前記第3音素を対応づけてテーブルに登録する登録工程
のプログラムコードとを備える。
【0021】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
前記データベース中に存在する音素片データの位置を示
す位置情報と、該音素片データに対応づけられた音素環
境を考慮した音素とを対応づけて管理するテーブルを記
憶する記憶工程のプログラムコードと、合成対象の音素
群の各音素環境情報とその基本周波数を獲得し、獲得さ
れた基本周波数の平均を算出する算出工程のプログラム
コードと、前記音素環境情報に対応する音素群を前記テ
ーブルより検索する検索工程のプログラムコードと、前
記算出工程で算出された基本周波数の平均に基づいて、
前記検索工程で検索された音素群から所定の音素に対応
する音素片データの位置情報を前記テーブルより取得す
る取得工程のプログラムコードと、前記取得工程で取得
された位置情報が示す音素片データを前記データベース
より取得し、その取得された音素片データの韻律を変更
する変更工程のプログラムコードとを備える。
【0022】
【発明の実施の形態】以下、図面を参照して本発明の好
適な一実施形態を詳細に説明する。
【0023】<実施形態1>図1は本発明の実施形態1
の音声合成装置の構成を示す図である。
【0024】103はCPUであり、本発明で実行され
る数値演算・制御及び各種構成要素の制御等の処理を行
う。102はRAMであり、本発明で実行される処理の
ワークエリア、各種データの一時退避領域である。10
1はROMであり、本発明で実行される処理のプログラ
ム等の各種制御プログラムを格納している。また、音声
合成に用いるための音素片データを管理するデータベー
ス101aを格納する領域を有している。109は外部
記憶装置であり、処理されたデータを記憶する領域とし
て機能する。105はD/A変換器であり、当該音声合
成処理装置で合成されたデジタル音声データをアナログ
音声データに変換して、スピーカ110で出力する。
【0025】106は表示制御部であり、当該音声合成
処理装置の処理状態や処理結果、ユーザインタフェース
をディスプレイ111に表示する際の制御を行う。10
7は入力制御部であり、キーボード112から入力され
たキー情報を認識して指示された処理を実行する。10
8は通信制御部であり、通信ネットーワーク113を介
してデータの送受信を制御する。104はバスであり、
当該音声合成装置の各種構成要素を相互に接続する。
【0026】次に、実施形態1で実行される処理の内、
処理対象の音素を検索する検索処理について、図2を用
いて説明する。
【0027】図2は本発明の実施形態1で実行される検
索処理を示すフローチャートである。
【0028】尚、実施形態1では、音素環境として各音
素の両側1音素、つまり、右音素環境及び左音素環境の
音素、即ち、トライホンを用いる。
【0029】まず、ステップS1で、データベース10
1aから検索対象の音素pをトライホンptrに初期化す
る。次に、ステップS2で、データベース101aより
音素pを検索する。即ち、音素pを示すラベルpが付与
されている音素片データを検索する。次に、ステップS
4で、データベース101a中に音素pがあるか否かを
判定する。音素pがない場合(ステップS4でNO)、
ステップS3に進み、音素pよりも音素環境依存度を減
少させた代替音素に変更する。例えば、トライホンptr
に合致する音素pがデータベース101a中に存在しな
ければ、右音素環境依存の音素に変更し、右音素環境依
存で合致しなければ左音素環境依存の音素に変更する。
また、左音素環境依存で合致しなければ音素環境とは独
立に音素pを別の音素に変更するといった方法がある。
あるいは、母音については左音素環境の音素を優先し、
子音については右音素環境の音素を優先しても良い。ま
た、トライホンptrに一致する音素pが存在しないと
き、左あるい右あるいはその両方の音素環境を、類似の
音素環境で代用しても良い。例えば、右音素環境が’
p’(パ行の子音)のとき、代替として’k’(カ行の
子音)を用いても良い。このようにして、検索条件であ
る音素pを変更した後、ステップS2に戻る。
【0030】一方、音素pがある場合(ステップS4で
YES)、ステップS5に進み、検索された音素pの各
音素片データについて、平均F0(平均F0:音素片デー
タの開始から終了までの基本周波数の平均)を計算す
る。尚、この計算は、対数F0(F0:時刻の関数)につ
いて行っても良いし線形F0について行っても良い。ま
た、無声音については平均F0を0としても良いし、音
素pの両側の音素の音素片データの平均F0から何らか
の方法で推定しても良い。
【0031】次に、ステップS6で、計算された平均F
0を基にして、検索された各音素片データを整列(ソー
ト)する。次に、ステップS7で、整列された音素片デ
ータをトライホンptrに対応させて登録する。登録の結
果、作成される音素片データとトライホンの対応を示す
インデックスは、例えば、図3のようになる。また、図
3に示すように、トライホン(triphone)に対応づけて
管理されるポインタ(pointer)には、その音素片デー
タがデータベース101a中に存在する位置を示す「素
片位置」とその平均F0を対応づけた表として管理され
る。
【0032】以上、ステップS1〜ステップS7の各ス
テップを、考えられるすべてのトライホンについて繰り
返し、ステップS8で、全てのトライホンについて処理
が終了したか否かを判定する。終了していない場合(ス
テップS8でNO)、ステップS1に戻る。一方、終了
した場合(ステップS8でYES)、処理を終了する。
【0033】次に、図2で説明した処理によって作成さ
れたインデックスを用いて、合成対象の音素の音素片デ
ータを検索し音声合成を行う音声合成処理について、図
4を用いて説明する。
【0034】図4は本発明の実施形態1で実行される音
声合成処理を示すフローチャートである。
【0035】尚、音声合成処理を行うにあたり入力とし
て、合成対象となる音素pのトライホンptr、平均F0
の軌跡が与えられる。そして、これらを基に、音素の音
素片データを検索し波形重畳法により音声を合成する。
【0036】まず、ステップS9で、合成対象の音素群
の平均F0の平均値F0’を求める。次に、ステップS1
0で、図3に示すインデックスから音素pのトライホン
ptrに対応する音素片データの素片位置を管理する表を
検索する。例えば、トライホンptrが“a.A.b”で
あるときには、図3より図5に示される表が得られる。
尚、上記検索処理により、あらかじめ妥当な代替音素が
求められているため、本ステップの結果が空になること
はない。
【0037】次に、ステップS11で、ステップS10
で得られた表を基に、平均値F0’に最も近い平均F0を
持つ音素片データの素片位置を得る。ここでは、上記検
索処理により、平均F0に基づいて音素片データがソー
トされているため、探索には2分探索などの手法を用い
ることが可能である。次に、ステップS12で、ステッ
プS11で得られた素片位置から音素片データをデータ
ベース101aから取り出す。次に、ステップS13
で、波形重畳法を用いてステップS12で得られた音素
片データの韻律を変更する。
【0038】以上説明したように、実施形態1によれ
ば、考えられる全ての音素環境に対して予め音素片デー
タの有無を確認し、音素片データが存在しない場合には
あらかじめ代替音素を用意しておくことにより、処理が
単純化され高速化が図られる。また、各音素環境につい
て存在する音素片データの平均F0に関する情報をあら
かじめ抽出して、それに基づいて音素片データを管理し
ておくので音声合成時の処理の高速化が図られる。 [実施形態2]上記実施形態1において、図2に示した
ステップS5の代わりにステップS14を設け、連続的
な音素片データの平均F0を計算する代わりに、音素片
データの平均F0を量子化しても良い。この場合の処理
について、図6を用いて説明する。
【0039】図6は本発明の実施形態2で実行される検
索処理を示すフローチャートである。
【0040】尚、実施形態1の図2と同じ処理について
は、同じステップ番号を付加し、その詳細は省略する。
【0041】ステップS14で、検索された音素pの各
音素片データの平均F0を量子化して、量子化平均F0を
得る(量子化平均F0:連続量である平均F0を適当な間
隔で量子化したもの)。尚、この計算は、対数F0につ
いて行っても良いし線形F0について行っても良い。ま
た、無声音については平均F0を0としても良いし、両
側の音素片データの平均F0から何らかの方法で推定し
ても良い。
【0042】次に、ステップS6aで、計算された平均
F0を基にして、検索された各音素片データを整列(ソ
ート)する。次に、ステップS7aで、整列された音素
片データをトライホンptrに対応させて登録する。登録
の結果、作成される音素片データとトライホンの対応を
示すインデックスは、例えば、図7のようになる。ま
た、図7に示すように、トライホン(triphone)に対応
づけて管理されるポインタ(pointer)には、その音素
片データがデータベース101a中に存在する位置を示
す「素片位置」とその平均F0を対応づけた表として管
理される。
【0043】以上、ステップS1〜ステップS7aの各
ステップを、考えられるすべてのトライホンについて繰
り返し、ステップS8aで、全てのトライホンについて
処理が終了したか否かを判定する。終了していない場合
(ステップS8aでNO)、ステップS1に戻る。一
方、終了した場合(ステップS8aでYES)、処理を
終了する。
【0044】以上説明したように、実施形態2によれ
ば、実施形態1で説明した効果に加えて、音素片データ
の量子化平均F0を用いることにより、音素片数の削
減、検索時の計算量を減少させる効果を得ることが可能
である。 [実施形態3]上記実施形態2において、整列された音
素片データ間を補間した後に、各音素片データをトライ
ホンptrに対応させて登録するようにしても良い。即
ち、全ての量子化された音素片データの平均F0に対し
てインデックスの表中に対応する素片位置が見つかるよ
うな構成にしても良い。この場合の処理について、図8
を用いて説明する。
【0045】図8は本発明の実施形態3で実行される検
索処理を示すフローチャートである。
【0046】尚、実施形態2の図6と同じ処理について
は、同じステップ番号を付加し、その詳細は省略する。
【0047】ステップS15で、整列された音素片デー
タ間を補間する。ステップS7bで、補間された音素片
データをトライホンptrに対応させて登録する。登録の
結果、作成される音素片データとトライホンの対応を示
すインデックスは、例えば、図9のようになる。また、
図9に示すように、トライホン(triphone)に対応づけ
て管理されるポインタ(pointer)には、その音素片デ
ータがデータベース101a中に存在する位置を示す
「素片位置」とその平均F0を対応づけた表として管理
される。
【0048】以上、ステップS1〜ステップS7bの各
ステップを、考えられるすべてのトライホンについて繰
り返し、ステップS8bで、全てのトライホンについて
処理が終了したか否かを判定する。終了していない場合
(ステップS8bでNO)、ステップS1に戻る。一
方、終了した場合(ステップS8bでYES)、処理を
終了する。
【0049】以上説明したように、実施形態3によれ
ば、実施形態2で得られる効果に加えて、すべての音素
片データの素片位置を管理しているので、図4のステッ
プS11で説明した処理を、単なる表参照として実現す
ることができ、処理を簡略化することができる。
【0050】尚、本発明は、複数の機器(例えばホスト
コンピュータ、インタフェイス機器、リーダ、プリンタ
など)から構成されるシステムに適用しても、一つの機
器からなる装置(例えば、複写機、ファクシミリ装置な
ど)に適用してもよい。
【0051】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0052】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0053】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0054】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0055】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0056】
【発明の効果】
【0057】以上説明したように、本発明によれば、音
声合成を精度良く高速に行うことができる音声合成装置
及びその制御方法、コンピュータ可読メモリを提供でき
る。
【図面の簡単な説明】
【図1】本発明の実施形態1の音声合成装置の構成を示
す図である。
【図2】本発明の実施形態1で実行される検索処理を示
すフローチャートである。
【図3】本発明の実施形態1で管理されるインデックス
を示す図である。
【図4】本発明の実施形態1で実行される音声合成処理
を示すフローチャートである。
【図5】本発明の実施形態1管理されるインデックスよ
り得られる表を示す図である。
【図6】本発明の実施形態2で実行される検索処理を示
すフローチャートである。
【図7】本発明の実施形態2で管理されるインデックス
を示す図である。
【図8】本発明の実施形態3で実行される検索処理を示
すフローチャートである。
【図9】本発明の実施形態3で管理されるインデックス
を示す図である。
【符号の説明】
101 ROM 101a データベース 102 RAM 103 CPU 104 バス 105 D/A変換器 106 表示制御部 107 入力制御部 108 通信制御部 109 外部記憶装置 110 スピーカ 111 ディスプレイ 112 キーボード 113 通信ネットワーク

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 音素片データを管理するデータベースを
    有する音声合成装置であって、 検索対象の第1音素に対し音素環境を考慮した第2音素
    を生成する生成手段と、 前記第2音素に対応する音素片データを前記データベー
    スより検索する検索手段と、 前記検索手段の検索結果に基づいて、前記音素環境を変
    更した第3音素を生成し、該第3音素に対応する音素片
    データを前記データベースより再度検索する再検索手段
    と、 前記検索手段あるいは前記再検索手段による検索結果
    と、前記第2音素あるいは前記第3音素を対応づけてテ
    ーブルに登録する登録手段とを備えることを特徴とする
    音声合成装置。
  2. 【請求項2】 前記登録手段は、前記検索手段あるいは
    前記再検索手段によって検索された音素片データの平均
    基本周波数を計算する計算手段と、 前記計算手段で計算された平均基本周波数に基づいて、
    前記検索された音素片データ群を整列する整列手段とを
    備え、 前記整列手段で整列された音素片データ群の順番で、前
    記音素片データ群と前記第2音素あるいは第3音素を対
    応づけて前記テーブルに登録することを特徴とする請求
    項1に記載の音声合成装置。
  3. 【請求項3】 前記第2音素は、前記第1音素の左右音
    素の音素環境を考慮したトライホンであることを特徴と
    する請求項1に記載の音声合成装置。
  4. 【請求項4】 前記第3音素は、前記第1音素の左右音
    素どちらかあるいはその両方の音素環境を考慮した音素
    であることを特徴とする請求項1に記載の音声合成装
    置。
  5. 【請求項5】 前記第3音素は、前記第1音素が母音の
    場合には該第1音素の左音素環境を考慮した音素、子音
    の場合には該第1音素の右音素環境を考慮した音素であ
    ることを特徴とする請求項1に記載の音声合成装置。
  6. 【請求項6】 前記登録手段は、更に、前記検索された
    音素片データの平均基本周波数を量子化する量子化手段
    を備えることを特徴とする請求項2に記載の音声合成装
    置。
  7. 【請求項7】 前記計算手段は、前記量子化手段で量子
    化された音素片データ群の各平均基本周波数の内、対応
    する音素片データが存在しないものについては、その近
    傍の平均基本周波数で対応する音素片データが存在する
    平均基本周波数を用いて補間することを特徴とする請求
    項6に記載の音声合成装置。
  8. 【請求項8】 データベースで管理されている音素片デ
    ータを用いて音声合成を行う音声合成装置であって、 前記データベース中に存在する音素片データの位置を示
    す位置情報と、該音素片データに対応づけられた音素環
    境を考慮した音素とを対応づけて管理するテーブルを記
    憶する記憶手段と、 合成対象の音素群の各音素環境情報とその基本周波数を
    獲得し、獲得された基本周波数の平均を算出する算出手
    段と、 前記音素環境情報に対応する音素群を前記テーブルより
    検索する検索手段と、 前記算出手段で算出された基本周波数の平均に基づい
    て、前記検索手段で検索された音素群から所定の音素に
    対応する音素片データの位置情報を前記テーブルより取
    得する取得手段と、 前記取得手段で取得された位置情報が示す音素片データ
    を前記データベースより取得し、その取得された音素片
    データの韻律を変更する変更手段とを備えることを特徴
    とする音声合成装置。
  9. 【請求項9】 前記変更手段による韻律の変更は、ピッ
    チ同期波形重畳法を用いることを特徴とする請求項8に
    記載の音声合成装置。
  10. 【請求項10】 前記音素環境を考慮した音素の基本周
    波数が量子化されている場合、前記記憶手段は、その量
    子化された基本周波数と、該音素に対応する音素片デー
    タが存在する前記データベース中の位置を示す位置情報
    とを対応づけて前記テーブルに管理することを特徴とす
    る請求項8に記載の音声合成装置。
  11. 【請求項11】 前記音素環境を考慮した音素の基本周
    波数が量子化されている場合、前記算出手段は、合成対
    象の音素群の各音素環境情報を獲得し、また、その量子
    化された音素群の各基本周波数の平均を算出することを
    特徴とする請求項8に記載の音声合成装置。
  12. 【請求項12】 音素片データを管理するデータベース
    を有する音声合成装置の制御方法であって、 検索対象の第1音素に対し音素環境を考慮した第2音素
    を生成する生成工程と、 前記第2音素に対応する音素片データを前記データベー
    スより検索する検索工程と、 前記検索工程の検索結果に基づいて、前記音素環境を変
    更した第3音素を生成し、該第3音素に対応する音素片
    データを前記データベースより再度検索する再検索工程
    と、 前記検索工程あるいは前記再検索工程による検索結果
    と、前記第2音素あるいは前記第3音素を対応づけてテ
    ーブルに登録する登録工程とを備えることを特徴とする
    音声合成装置の制御方法。
  13. 【請求項13】 前記登録工程は、前記検索工程あるい
    は前記再検索工程によって検索された音素片データの平
    均基本周波数を計算する計算工程と、 前記計算工程で計算された平均基本周波数に基づいて、
    前記検索された音素片データ群を整列する整列工程とを
    備え、 前記整列工程で整列された音素片データ群の順番で、前
    記音素片データ群と前記第2音素あるいは第3音素を対
    応づけて前記テーブルに登録することを特徴とする請求
    項12に記載の音声合成装置の制御方法。
  14. 【請求項14】 前記第2音素は、前記第1音素の左右
    音素の音素環境を考慮したトライホンであることを特徴
    とする請求項12に記載の音声合成装置の制御方法。
  15. 【請求項15】 前記第3音素は、前記第1音素の左右
    音素どちらかあるいはその両方の音素環境を考慮した音
    素であることを特徴とする請求項12に記載の音声合成
    装置の制御方法。
  16. 【請求項16】 前記第3音素は、前記第1音素が母音
    の場合には該第1音素の左音素環境を考慮した音素、子
    音の場合には該第1音素の右音素環境を考慮した音素で
    あることを特徴とする請求項12に記載の音声合成装置
    の制御方法。
  17. 【請求項17】 前記登録工程は、更に、前記検索され
    た音素片データの平均基本周波数を量子化する量子化工
    程を備えることを特徴とする請求項13に記載の音声合
    成装置の制御方法。
  18. 【請求項18】 前記計算工程は、前記量子化工程で量
    子化された音素片データ群の各平均基本周波数の内、対
    応する音素片データが存在しないものについては、その
    近傍の平均基本周波数で対応する音素片データが存在す
    る平均基本周波数を用いて補間することを特徴とする請
    求項17に記載の音声合成装置の制御方法。
  19. 【請求項19】 データベースで管理されている音素片
    データを用いて音声合成を行う音声合成装置の制御方法
    であって、 前記データベース中に存在する音素片データの位置を示
    す位置情報と、該音素片データに対応づけられた音素環
    境を考慮した音素とを対応づけて管理するテーブルを記
    憶する記憶工程と、 合成対象の音素群の各音素環境情報とその基本周波数を
    獲得し、獲得された基本周波数の平均を算出する算出工
    程と、 前記音素環境情報に対応する音素群を前記テーブルより
    検索する検索工程と、 前記算出工程で算出された基本周波数の平均に基づい
    て、前記検索工程で検索された音素群から所定の音素に
    対応する音素片データの位置情報を前記テーブルより取
    得する取得工程と、 前記取得工程で取得された位置情報が示す音素片データ
    を前記データベースより取得し、その取得された音素片
    データの韻律を変更する変更工程とを備えることを特徴
    とする音声合成装置の制御方法。
  20. 【請求項20】 前記変更工程による韻律の変更は、ピ
    ッチ同期波形重畳法を用いることを特徴とする請求項1
    9に記載の音声合成装置の制御方法。
  21. 【請求項21】 前記音素環境を考慮した音素の基本周
    波数が量子化されている場合、前記記憶工程は、その量
    子化された基本周波数と、該音素に対応する音素片デー
    タが存在する前記データベース中の位置を示す位置情報
    とを対応づけて前記テーブルに管理することを特徴とす
    る請求項19に記載の音声合成装置の制御方法。
  22. 【請求項22】 前記音素環境を考慮した音素の基本周
    波数が量子化されている場合、前記算出工程は、合成対
    象の音素群の各音素環境情報を獲得し、また、その量子
    化された音素群の各基本周波数の平均を算出することを
    特徴とする請求項19に記載の音声合成装置の制御方
    法。
  23. 【請求項23】 音素片データを管理するデータベース
    を有する音声合成装置の制御のプログラムコードが格納
    されたコンピュータ可読メモリであって、 検索対象の第1音素に対し音素環境を考慮した第2音素
    を生成する生成工程のプログラムコードと、 前記第2音素に対応する音素片データを前記データベー
    スより検索する検索工程のプログラムコードと、 前記検索工程の検索結果に基づいて、前記音素環境を変
    更した第3音素を生成し、該第3音素に対応する音素片
    データを前記データベースより再度検索する再検索工程
    のプログラムコードと、 前記検索工程あるいは前記再検索工程による検索結果
    と、前記第2音素あるいは前記第3音素を対応づけてテ
    ーブルに登録する登録工程のプログラムコードとを備え
    ることを特徴とするコンピュータ可読メモリ。
  24. 【請求項24】 データベースで管理されている音素片
    データを用いて音声合成を行う音声合成装置の制御のプ
    ログラムコードが格納されたコンピュータ可読メモリで
    あって、 前記データベース中に存在する音素片データの位置を示
    す位置情報と、該音素片データに対応づけられた音素環
    境を考慮した音素とを対応づけて管理するテーブルを記
    憶する記憶工程のプログラムコードと、 合成対象の音素群の各音素環境情報とその基本周波数を
    獲得し、獲得された基本周波数の平均を算出する算出工
    程のプログラムコードと、 前記音素環境情報に対応する音素群を前記テーブルより
    検索する検索工程のプログラムコードと、 前記算出工程で算出された基本周波数の平均に基づい
    て、前記検索工程で検索された音素群から所定の音素に
    対応する音素片データの位置情報を前記テーブルより取
    得する取得工程のプログラムコードと、 前記取得工程で取得された位置情報が示す音素片データ
    を前記データベースより取得し、その取得された音素片
    データの韻律を変更する変更工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
JP05724998A 1998-03-09 1998-03-09 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ Expired - Fee Related JP3884856B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP05724998A JP3884856B2 (ja) 1998-03-09 1998-03-09 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
DE69917960T DE69917960T2 (de) 1998-03-09 1999-03-05 Phonembasierte Sprachsynthese
US09/263,262 US7139712B1 (en) 1998-03-09 1999-03-05 Speech synthesis apparatus, control method therefor and computer-readable memory
EP99301674A EP0942409B1 (en) 1998-03-09 1999-03-05 Phoneme-based speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05724998A JP3884856B2 (ja) 1998-03-09 1998-03-09 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ

Publications (3)

Publication Number Publication Date
JPH11259093A true JPH11259093A (ja) 1999-09-24
JPH11259093A5 JPH11259093A5 (ja) 2005-04-07
JP3884856B2 JP3884856B2 (ja) 2007-02-21

Family

ID=13050264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05724998A Expired - Fee Related JP3884856B2 (ja) 1998-03-09 1998-03-09 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ

Country Status (4)

Country Link
US (1) US7139712B1 (ja)
EP (1) EP0942409B1 (ja)
JP (1) JP3884856B2 (ja)
DE (1) DE69917960T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2013011863A (ja) * 2011-05-30 2013-01-17 Yamaha Corp 音声合成装置
JP2016114740A (ja) * 2014-12-15 2016-06-23 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
AU2000276400A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
CN1813285B (zh) * 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN109378004B (zh) * 2018-12-17 2022-05-27 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis
CN111968619A (zh) * 2020-08-26 2020-11-20 四川长虹电器股份有限公司 控制语音合成发音的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
SE9200817L (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
AU674246B2 (en) 1993-08-04 1996-12-12 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
JPH07319497A (ja) 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5913193A (en) 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2013011863A (ja) * 2011-05-30 2013-01-17 Yamaha Corp 音声合成装置
JP2016114740A (ja) * 2014-12-15 2016-06-23 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Also Published As

Publication number Publication date
JP3884856B2 (ja) 2007-02-21
EP0942409A2 (en) 1999-09-15
EP0942409B1 (en) 2004-06-16
DE69917960T2 (de) 2005-06-30
EP0942409A3 (en) 2000-01-19
US7139712B1 (en) 2006-11-21
DE69917960D1 (de) 2004-07-22

Similar Documents

Publication Publication Date Title
JP3884856B2 (ja) 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
JP3854713B2 (ja) 音声合成方法および装置および記憶媒体
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JPH10274997A (ja) 文書読み上げ装置
US20060136214A1 (en) Speech synthesis device, speech synthesis method, and program
JPH1039895A (ja) 音声合成方法および装置
US5848390A (en) Speech synthesis system and its method
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JPWO2008102710A1 (ja) 音声合成装置及び方法とプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2000075878A (ja) 音声合成装置およびその方法ならびに記憶媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP3371761B2 (ja) 氏名読み音声合成装置
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2580565B2 (ja) 音声情報辞書作成装置
JP4430960B2 (ja) 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
JPH09305197A (ja) 音声変換方法及び装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JPH08129398A (ja) テキスト解析装置
JPH06176023A (ja) 音声合成システム
JP2012073338A (ja) 音声合成装置及び音声合成方法
JP4894533B2 (ja) 音声ラベリング支援システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040528

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040528

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111124

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131124

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees