JPH0895589A - 音声合成方法及びシステム - Google Patents
音声合成方法及びシステムInfo
- Publication number
- JPH0895589A JPH0895589A JP6226667A JP22666794A JPH0895589A JP H0895589 A JPH0895589 A JP H0895589A JP 6226667 A JP6226667 A JP 6226667A JP 22666794 A JP22666794 A JP 22666794A JP H0895589 A JPH0895589 A JP H0895589A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- point
- glottal
- waveform
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】
【目的】 ピッチ同期波形重畳法を利用した音声合成シ
ステムにおいて、ピッチの揺れの少ない安定した音声合
成処理を実現すること。 【構成】 本発明は、声門閉鎖点を重ね合わせの基準点
(ピッチマーク)とすることを特徴とする。声門閉鎖点
は、Dynamic Wavelet変換を用いることによって安定且
つ精度よく抽出することができるので、その安定性によ
って、ピッチの揺れが少なく、ごろつきの少ない音声を
合成することができる。また、重ね合わせの基準点と波
形切り出しの基準点を別の位置に設定することにより、
より柔軟な波形切り出しが可能となる。声門閉鎖点の抽
出は、Dyadic Wavelet変換のローカル・ピークをサーチ
することによって行われるが、好適には、Dyadic Wavel
et変換のローカル・ピークをサーチするための閾値が、
Dyadic Wavelet変換が得られる毎に適応的に制御され
る。
ステムにおいて、ピッチの揺れの少ない安定した音声合
成処理を実現すること。 【構成】 本発明は、声門閉鎖点を重ね合わせの基準点
(ピッチマーク)とすることを特徴とする。声門閉鎖点
は、Dynamic Wavelet変換を用いることによって安定且
つ精度よく抽出することができるので、その安定性によ
って、ピッチの揺れが少なく、ごろつきの少ない音声を
合成することができる。また、重ね合わせの基準点と波
形切り出しの基準点を別の位置に設定することにより、
より柔軟な波形切り出しが可能となる。声門閉鎖点の抽
出は、Dyadic Wavelet変換のローカル・ピークをサーチ
することによって行われるが、好適には、Dyadic Wavel
et変換のローカル・ピークをサーチするための閾値が、
Dyadic Wavelet変換が得られる毎に適応的に制御され
る。
Description
【0001】
【産業上の利用分野】本発明は、音声合成技術に関し、
特に、ピッチ同期波形重畳法を使用した音声合成方法及
びシステムに関するものである。
特に、ピッチ同期波形重畳法を使用した音声合成方法及
びシステムに関するものである。
【0002】
【従来の技術】従来より、音声合成の分野で、ピッチ同
期波形重畳法という技法が知られている(例えば、F. C
harpentier, M. Stella, "Diphone sythesis using an
over-lapped technique for speech waveforms concate
nation", Proc. Int. Conf. ASSP, 2015-2018, Tokyo,
1986)。これは、予め波形のローカル・ピーク位置等に
ピッチマーク(基準点)を付けておき、その位置を中心
に窓関数で波形を切り出し、音声合成時には合成ピッチ
に合わせてずらしながら重ねていく方法である。
期波形重畳法という技法が知られている(例えば、F. C
harpentier, M. Stella, "Diphone sythesis using an
over-lapped technique for speech waveforms concate
nation", Proc. Int. Conf. ASSP, 2015-2018, Tokyo,
1986)。これは、予め波形のローカル・ピーク位置等に
ピッチマーク(基準点)を付けておき、その位置を中心
に窓関数で波形を切り出し、音声合成時には合成ピッチ
に合わせてずらしながら重ねていく方法である。
【0003】ピッチ同期波形重畳法による音声合成で
は、ピッチマークを1ピッチ毎に求める必要がある。そ
こで、これまでに、ピッチマーク位置として、次のよう
なものが提案されている。
は、ピッチマークを1ピッチ毎に求める必要がある。そ
こで、これまでに、ピッチマーク位置として、次のよう
なものが提案されている。
【0004】1.音声合成の短時間パワーが急激に変化
する直前の時点 2.音声合成の短時間パワーのピーク 3.音声波形のピーク
する直前の時点 2.音声合成の短時間パワーのピーク 3.音声波形のピーク
【0005】これらのピッチマーク位置を使用する方法
は、音声合成のピーク付近の変化の影響を受けやすく、
ピッチマークがピッチ毎に揺れる。このことは、音声合
成時にピッチの揺れを生じさせ、従って、合成音は、ゴ
ロゴロとした音になる。そのため、より安定な重ね合わ
せの基準点が要望されている。
は、音声合成のピーク付近の変化の影響を受けやすく、
ピッチマークがピッチ毎に揺れる。このことは、音声合
成時にピッチの揺れを生じさせ、従って、合成音は、ゴ
ロゴロとした音になる。そのため、より安定な重ね合わ
せの基準点が要望されている。
【0006】上記従来のピッチマーク位置は、重ね合わ
せの基準点として不安定であって、適当ではないが、ピ
ッチマークが重ね合わせの基準点と波形切り出し窓の中
心を兼ねているために、波形切り出しによるスペクトル
歪みを考慮すると、そのようなピッチマーク位置はやむ
を得ないと考えられている。
せの基準点として不安定であって、適当ではないが、ピ
ッチマークが重ね合わせの基準点と波形切り出し窓の中
心を兼ねているために、波形切り出しによるスペクトル
歪みを考慮すると、そのようなピッチマーク位置はやむ
を得ないと考えられている。
【0007】ところで、S. Mallat, S. Zhong, "Charac
terization of Signals from Multiscale Edges", IEEE
Trans. Pattern Analysis and Machine Intelligence,
VOL. 14, NO. 7, pp. 710-732, July 1992 には、ウェ
ーブレット関数をスムージング関数の一次微分として選
ぶと、そのウェーブレット関数によるDyadic Wavelet変
換のローカル・ピークが信号の急峻に変化する時点に一
致することが示されている。
terization of Signals from Multiscale Edges", IEEE
Trans. Pattern Analysis and Machine Intelligence,
VOL. 14, NO. 7, pp. 710-732, July 1992 には、ウェ
ーブレット関数をスムージング関数の一次微分として選
ぶと、そのウェーブレット関数によるDyadic Wavelet変
換のローカル・ピークが信号の急峻に変化する時点に一
致することが示されている。
【0008】また、S. Kadambe, G.F. Boudreaux-Barte
ls, "Application of the WaveletTransform for Pitch
Detection of Speech Signals", IEEE Trans. Informa
tion Theory, Vol.38, NO.2, pp.917-924, 1992 には、
音声波形が声門閉鎖点で急峻に変化することに着目し、
音声波形のDysdic Wavelet変換のローカル・ピークを探
すことによって声門閉鎖点を抽出し、ピッチ周期を推定
する方法が提案されている。
ls, "Application of the WaveletTransform for Pitch
Detection of Speech Signals", IEEE Trans. Informa
tion Theory, Vol.38, NO.2, pp.917-924, 1992 には、
音声波形が声門閉鎖点で急峻に変化することに着目し、
音声波形のDysdic Wavelet変換のローカル・ピークを探
すことによって声門閉鎖点を抽出し、ピッチ周期を推定
する方法が提案されている。
【0009】尚、Kadambeらの方法はフレーム処理を行
っており、ローカル・ピークを探すための閾値はフレー
ム内で一定に保たれる。このため、パワーディップなど
のフレーム内での音声波形が急変する場合、声門閉鎖点
の脱落・挿入を生じる、畳み込みの端効果のため、フレ
ームのシフト幅がウェーブレット長の2分の1に制限さ
れ、畳み込みを重複して計算する必要がある、フレーム
長分(30ms程度)の処理遅延を生じる、などの問題
があり、このままでは、抽出精度、計算量の点で、ピッ
チマーキングの手法として用いるには不都合である。ま
た、処理遅延のため、実時間性を有する声質変換等には
向かない。
っており、ローカル・ピークを探すための閾値はフレー
ム内で一定に保たれる。このため、パワーディップなど
のフレーム内での音声波形が急変する場合、声門閉鎖点
の脱落・挿入を生じる、畳み込みの端効果のため、フレ
ームのシフト幅がウェーブレット長の2分の1に制限さ
れ、畳み込みを重複して計算する必要がある、フレーム
長分(30ms程度)の処理遅延を生じる、などの問題
があり、このままでは、抽出精度、計算量の点で、ピッ
チマーキングの手法として用いるには不都合である。ま
た、処理遅延のため、実時間性を有する声質変換等には
向かない。
【0010】さらに、特開平5−265479号公報
は、音声信号の時間に依存する強度の特定ピークを決定
することにより、声門閉鎖の連続した時間瞬時を選択的
に決定する検出手段をもつ音声信号処理装置において、
予め定められた周波数以下のスペクトル部分のディエン
ファシスを介して、音声信号からフィルタされた信号を
形成するフィルタリング手段と、連続する時間ウインド
ウでの平均値を介して、音声信号の時間に依存する強度
をあらわす平均値の時間の流れを発生する平均化手段と
を備え、フィルタリング手段によって平均化手段に、フ
ィルタされた信号を供給することを開示する。
は、音声信号の時間に依存する強度の特定ピークを決定
することにより、声門閉鎖の連続した時間瞬時を選択的
に決定する検出手段をもつ音声信号処理装置において、
予め定められた周波数以下のスペクトル部分のディエン
ファシスを介して、音声信号からフィルタされた信号を
形成するフィルタリング手段と、連続する時間ウインド
ウでの平均値を介して、音声信号の時間に依存する強度
をあらわす平均値の時間の流れを発生する平均化手段と
を備え、フィルタリング手段によって平均化手段に、フ
ィルタされた信号を供給することを開示する。
【0011】
【発明が解決しようとする課題】この発明の目的は、ピ
ッチ同期波形重畳法を利用した音声合成システムにおい
て、ピッチの揺れの少ない安定した音声合成処理を実現
することにある。
ッチ同期波形重畳法を利用した音声合成システムにおい
て、ピッチの揺れの少ない安定した音声合成処理を実現
することにある。
【0012】
【課題を解決するための手段】本発明によれば、声門閉
鎖点を重ね合わせのピッチマーク(基準点)とする、ピ
ッチ同期波形重畳法が提供される。
鎖点を重ね合わせのピッチマーク(基準点)とする、ピ
ッチ同期波形重畳法が提供される。
【0013】すなわち、声門閉鎖点は、Dynamic Wavele
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。
【0014】さらに、本発明の1つの態様によれば、重
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。
【0015】声門閉鎖点の抽出は、Dyadic Wavelet変換
のローカル・ピークをサーチすることによって行われる
が、特に本発明によれば、Dyadic Wavelet変換のローカ
ル・ピークをサーチするための閾値が、Dyadic Wavelet
変換が得られる毎に適応的に制御される。このため、次
のような利点が得られる。
のローカル・ピークをサーチすることによって行われる
が、特に本発明によれば、Dyadic Wavelet変換のローカ
ル・ピークをサーチするための閾値が、Dyadic Wavelet
変換が得られる毎に適応的に制御される。このため、次
のような利点が得られる。
【0016】1.声門閉鎖点を安定に精度よく抽出する
ことができる。 2.フレーム処理の場合のような畳み込み計算の重複が
ない。 3.処理遅延をなくすことができる(但し、処理遅延を
許せばさらに精度は上がる)。
ことができる。 2.フレーム処理の場合のような畳み込み計算の重複が
ない。 3.処理遅延をなくすことができる(但し、処理遅延を
許せばさらに精度は上がる)。
【0017】これらの利点があるため、この方法は、波
形素片辞書の自動作成、ピッチ同期波形重畳による声質
変換及び音声信号の圧縮等のための入力音声波形の実時
間自動ピッチマーキングにも使用することができる。
形素片辞書の自動作成、ピッチ同期波形重畳による声質
変換及び音声信号の圧縮等のための入力音声波形の実時
間自動ピッチマーキングにも使用することができる。
【0018】
【実施例】以下、図面を参照して本発明の説明を行う。
【0019】A.ハードウェア構成 図1を参照すると、本発明を実施するためのハードウェ
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのCPU1004、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ(RAM)1006、文字やイメージ情報を画面
上に表示するためのCRT装置1008、CRT装置1
008を制御するためのビデオ・カード1010、オペ
レータによりコマンドや文字を入力するためのキーボー
ド1012、CRT装置1008の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス1014、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置1016、音声録音
用のマイク1020及び合成した音声を音として出力す
るためのスピーカ1022とを共通のバス1002が接
続されたものである。
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのCPU1004、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ(RAM)1006、文字やイメージ情報を画面
上に表示するためのCRT装置1008、CRT装置1
008を制御するためのビデオ・カード1010、オペ
レータによりコマンドや文字を入力するためのキーボー
ド1012、CRT装置1008の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス1014、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置1016、音声録音
用のマイク1020及び合成した音声を音として出力す
るためのスピーカ1022とを共通のバス1002が接
続されたものである。
【0020】特に、磁気ディスク装置1016には、シ
ステムの立ち上げ時にRAMにロードされるオペレーテ
ィング・システムや、本発明に関する後述する処理プロ
グラムや、マイク1020から取り込まれA/D変換さ
れた音声ファイルや、音声ファイルの解析の結果得られ
た音素の合成単位の辞書や、テキスト解析用単語辞書な
どが格納されている。
ステムの立ち上げ時にRAMにロードされるオペレーテ
ィング・システムや、本発明に関する後述する処理プロ
グラムや、マイク1020から取り込まれA/D変換さ
れた音声ファイルや、音声ファイルの解析の結果得られ
た音素の合成単位の辞書や、テキスト解析用単語辞書な
どが格納されている。
【0021】本発明の処理に適当なオペレーティング・
システムは、OS/2(IBMの商標)であるが、MS
−DOS(マイクロソフトの商標)、PC−DOS(I
BMの商標)、Windows(マイクロソフトの商
標)、AIX(IBMの商標)などの、オーディオ・カ
ードに対するインターフェースを与える任意のオペレー
ティング・システムを使用することが可能である。
システムは、OS/2(IBMの商標)であるが、MS
−DOS(マイクロソフトの商標)、PC−DOS(I
BMの商標)、Windows(マイクロソフトの商
標)、AIX(IBMの商標)などの、オーディオ・カ
ードに対するインターフェースを与える任意のオペレー
ティング・システムを使用することが可能である。
【0022】オーディオ・カード1018は、マイク1
020を介して音声として入力された信号をPCMのよ
うなディジタル形式に変換し得るとともに、そのような
ディジタル形式のデータを音声としてスピーカ1022
から出力し得る任意のものでよい。オーディオ・カード
1018としては、ディジタル信号プロセッサ(DS
P)を装備したものが高性能であって好適であるが、本
発明によれば、データ処理量が比較的小さくて済むの
で、DSPを利用せず、A/D変換した信号をソフトウ
ェア的に処理するだけでも、十分に高速な処理速度が得
られる。
020を介して音声として入力された信号をPCMのよ
うなディジタル形式に変換し得るとともに、そのような
ディジタル形式のデータを音声としてスピーカ1022
から出力し得る任意のものでよい。オーディオ・カード
1018としては、ディジタル信号プロセッサ(DS
P)を装備したものが高性能であって好適であるが、本
発明によれば、データ処理量が比較的小さくて済むの
で、DSPを利用せず、A/D変換した信号をソフトウ
ェア的に処理するだけでも、十分に高速な処理速度が得
られる。
【0023】B.論理的な構成 次に、図2及び図3を参照して、本発明の論理的な構成
について説明する。
について説明する。
【0024】B1.音声入力部 図2を参照すると、音声入力部は、代表的には、ウェー
ブレット変換部2002と、ピッチ抽出部2004とを
有する。これらのモジュールは、通常はディスク101
6に格納され、オペレータの操作に応答してRAM10
06にロードされ、処理を行う。
ブレット変換部2002と、ピッチ抽出部2004とを
有する。これらのモジュールは、通常はディスク101
6に格納され、オペレータの操作に応答してRAM10
06にロードされ、処理を行う。
【0025】マイク1020から入力された音声は先
ず、ウェーブレット変換部2002において、ウェーブ
レット変換(Dyadic Wavelet conversion)される。ウェ
ーブレット変換の一般的な説明に関しては、例えば上記
Kadambeの論文を参照されたい。但し、理解されるべき
なのは、本発明の好適な実施例においては、Kadambeの
方法とは異なり、閾値を適応的に変化させる技法が採用
されていることである。この処理については、後で詳細
に説明する。
ず、ウェーブレット変換部2002において、ウェーブ
レット変換(Dyadic Wavelet conversion)される。ウェ
ーブレット変換の一般的な説明に関しては、例えば上記
Kadambeの論文を参照されたい。但し、理解されるべき
なのは、本発明の好適な実施例においては、Kadambeの
方法とは異なり、閾値を適応的に変化させる技法が採用
されていることである。この処理については、後で詳細
に説明する。
【0026】次に、ウェーブレット変換された信号は、
ピッチ抽出部2004において、後でピッチ同期波形重
畳法を利用するために、ピッチマークされる。その際、
本発明にとって特徴的であるのは、ピッチマークの基準
点として、上記ウェーブレット変換として得られる声門
閉鎖点を選ぶことである。この処理についても、後で詳
細に説明する。
ピッチ抽出部2004において、後でピッチ同期波形重
畳法を利用するために、ピッチマークされる。その際、
本発明にとって特徴的であるのは、ピッチマークの基準
点として、上記ウェーブレット変換として得られる声門
閉鎖点を選ぶことである。この処理についても、後で詳
細に説明する。
【0027】このようにして得られたピッチマークされ
た波形のデータ2006は、所定の窓関数によって合成
単位として切り出された後、後の音声合成で使用するた
めに、実質的にはディスク1016に格納されているフ
ァイルである合成単位辞書2010に入れられる。
た波形のデータ2006は、所定の窓関数によって合成
単位として切り出された後、後の音声合成で使用するた
めに、実質的にはディスク1016に格納されているフ
ァイルである合成単位辞書2010に入れられる。
【0028】B2.音声合成部 図3を参照すると、音声合成部は、テキスト解析用単語
辞書3004を参照しつつ、かな漢字混じりのテキスト
・ファイルを入力するテキスト解析部3002と、テキ
スト解析部3002の解析結果の文脈に基づき韻律を制
御する韻律制御部3006と、テキスト解析部3002
の解析結果に基づき、予め上記音声入力部によって作成
された合成単位辞書を検索して所定の音声合成単位を選
択する合成単位選択部3008と、合成単位選択部30
08によって選択された音声合成単位の列を、韻律制御
部3006によって制御される韻律で、合成音声として
スピーカ1022から出力するための音声合成部301
0とからなる。
辞書3004を参照しつつ、かな漢字混じりのテキスト
・ファイルを入力するテキスト解析部3002と、テキ
スト解析部3002の解析結果の文脈に基づき韻律を制
御する韻律制御部3006と、テキスト解析部3002
の解析結果に基づき、予め上記音声入力部によって作成
された合成単位辞書を検索して所定の音声合成単位を選
択する合成単位選択部3008と、合成単位選択部30
08によって選択された音声合成単位の列を、韻律制御
部3006によって制御される韻律で、合成音声として
スピーカ1022から出力するための音声合成部301
0とからなる。
【0029】特に、本発明においては、音声合成部30
10は、図2のピッチ抽出部2004によってピッチマ
ークされた音声合成単位に従い、ピッチ同期波形重畳法
を利用して音声合成を行うものである。
10は、図2のピッチ抽出部2004によってピッチマ
ークされた音声合成単位に従い、ピッチ同期波形重畳法
を利用して音声合成を行うものである。
【0030】尚、本発明の1つの実施例では、図3に示
すテキスト解析部3002、韻律制御部3006、合成
単位選択部3008などの処理モジュールは、ディスク
1016に格納されたファイルであり、従って、処理は
すべてソフトウェア的に実施されるが、オーディオ・カ
ードにDSPを装備し、これらの処理をDSP上で実現
してもよい。
すテキスト解析部3002、韻律制御部3006、合成
単位選択部3008などの処理モジュールは、ディスク
1016に格納されたファイルであり、従って、処理は
すべてソフトウェア的に実施されるが、オーディオ・カ
ードにDSPを装備し、これらの処理をDSP上で実現
してもよい。
【0031】C.ウェーブレット変換処理 次に、図4のフローチャートを参照して、マイクから入
力された音声信号のPCM波形を、本発明に従いウェー
ブレット変換し、さらにはその変換に基づき声門閉鎖点
を推定する処理について説明する。ここでの処理は、主
として図2のウェーブレット変換部2002で行われる
ものである。
力された音声信号のPCM波形を、本発明に従いウェー
ブレット変換し、さらにはその変換に基づき声門閉鎖点
を推定する処理について説明する。ここでの処理は、主
として図2のウェーブレット変換部2002で行われる
ものである。
【0032】先ず最初のステップ4002では、新しい
PCMサンプルが入力される。尚、このとき、マイクか
ら入力された音声は、一連のPCMデータに変換され
て、予めディスク1016に格納されている。従って、
ステップ4002での処理は、ディスク1016に格納
されたPCMデータのファイルを順次読み取ることであ
る。
PCMサンプルが入力される。尚、このとき、マイクか
ら入力された音声は、一連のPCMデータに変換され
て、予めディスク1016に格納されている。従って、
ステップ4002での処理は、ディスク1016に格納
されたPCMデータのファイルを順次読み取ることであ
る。
【0033】ステップ4002ではまた、スケールをあ
らわす値iが3に初期化される。このiは、離散化され
たdyadic sequence2i(i=3,4,...)を与える
ためのものである。尚、この実施例では、dyadic seque
nce2iをi=3から始めるが、サンプリング周波数によ
っては、i=1から始めることが適切である場合もあ
り、要するに、どのスケールからウェーブレット変換を
開始するかは、サンプリング周波数に依存する。
らわす値iが3に初期化される。このiは、離散化され
たdyadic sequence2i(i=3,4,...)を与える
ためのものである。尚、この実施例では、dyadic seque
nce2iをi=3から始めるが、サンプリング周波数によ
っては、i=1から始めることが適切である場合もあ
り、要するに、どのスケールからウェーブレット変換を
開始するかは、サンプリング周波数に依存する。
【0034】さらに、ステップ4002では、nが0に
初期化されるが、これは、個別のスケールで、声門閉鎖
点として推定された回数である。
初期化されるが、これは、個別のスケールで、声門閉鎖
点として推定された回数である。
【0035】ステップ4004では、次のような式に基
づき、PCM音声信号x(t)のウェーブレット変換D
yWT(b,2i)が計算される。この式で、bは、タ
イム・インデックスである。
づき、PCM音声信号x(t)のウェーブレット変換D
yWT(b,2i)が計算される。この式で、bは、タ
イム・インデックスである。
【数1】
【0036】特に、Ψ(ω)の関数としては、次のよう
なものが好適である。
なものが好適である。
【数2】
【0037】本発明の1つの実施例では、m=2の場合
が採用された。しかし、mを2よりも大きく選んでもよ
い。また、Ψ(ω)の具体的な関数形は、この数式に示
すものに限定されることなく、ωについてローパス・フ
ィルタを構成するような関数の一次または二次以上の導
関数でよいことが分かっている。
が採用された。しかし、mを2よりも大きく選んでもよ
い。また、Ψ(ω)の具体的な関数形は、この数式に示
すものに限定されることなく、ωについてローパス・フ
ィルタを構成するような関数の一次または二次以上の導
関数でよいことが分かっている。
【0038】次に、ステップ4006では、このように
して計算されたDyWT(b,2i)の値が、サーキュ
ラ・バッファCBiに格納される。これは、本発明に従
い局所的な閾値を計算するためである。この実施例で
は、1つのサーキュラ・バッファCBiは、15msを
カバーするように、315個のバッファ・エレメントか
らなる。尚、サーキュラ・バッファCBiは、異なるス
ケールi毎に個別に用意される。bの値に関連してサー
キュラ・バッファCBiに順次格納されたDyWT
(b,2i)の値に基づき閾値THRi(閾値THRi
もまた、異なるスケールi毎に個別に用意される)を求
める処理は、次のとおりである。例えば、各スケールの
DyWT出力を対数化し、15msから20msの出力
をサーキュラ・バッファに保持する。次に、1dB刻み
でサーキュラ・バッファ内の出力ヒストグラムをとり、
累積度数の上位80%の階級値を求める。これを対数値
から線形値に戻し、閾値THRiとする。
して計算されたDyWT(b,2i)の値が、サーキュ
ラ・バッファCBiに格納される。これは、本発明に従
い局所的な閾値を計算するためである。この実施例で
は、1つのサーキュラ・バッファCBiは、15msを
カバーするように、315個のバッファ・エレメントか
らなる。尚、サーキュラ・バッファCBiは、異なるス
ケールi毎に個別に用意される。bの値に関連してサー
キュラ・バッファCBiに順次格納されたDyWT
(b,2i)の値に基づき閾値THRi(閾値THRi
もまた、異なるスケールi毎に個別に用意される)を求
める処理は、次のとおりである。例えば、各スケールの
DyWT出力を対数化し、15msから20msの出力
をサーキュラ・バッファに保持する。次に、1dB刻み
でサーキュラ・バッファ内の出力ヒストグラムをとり、
累積度数の上位80%の階級値を求める。これを対数値
から線形値に戻し、閾値THRiとする。
【0039】尚、小さいスケールのDyWTは、不要な
ローカル・ピークが多く存在するので、閾値を求めるた
めのパーセンテージをより大きくし、大きいスケールで
は、声門閉鎖点の候補の脱落を防ぐために、閾値を求め
るためのパーセンテージを低めに設定するのが好まし
い。
ローカル・ピークが多く存在するので、閾値を求めるた
めのパーセンテージをより大きくし、大きいスケールで
は、声門閉鎖点の候補の脱落を防ぐために、閾値を求め
るためのパーセンテージを低めに設定するのが好まし
い。
【0040】ステップ4008では、このようにして計
算された局所的な閾値が、THRiとしてセットされ
る。
算された局所的な閾値が、THRiとしてセットされ
る。
【0041】ステップ4010では、DyWT(b,2
i)がTHRiよりも大きいかどうかが判断される。こ
のような判断は、ローカル・ピーク位置が声門閉鎖点を
あらわす、というKadambeの教示に基づくものである。
但し、このフローチャートの処理が、Kadambeの技法と
異なるのは、Kadambeの技法では、フレーム内の局所的
なピーク値がフレームにおける大域的な閾値として使用
されていたのに対し、このフローチャートの処理では、
ある範囲のDyWT(b,2i)の波形の累積値に基づ
く統計的な閾値が使用されていることである。このよう
な統計的な閾値は、Kadambeの技法では見落とされてし
まうような声門閉鎖点をも確実に検出し得る、という点
で有利である。
i)がTHRiよりも大きいかどうかが判断される。こ
のような判断は、ローカル・ピーク位置が声門閉鎖点を
あらわす、というKadambeの教示に基づくものである。
但し、このフローチャートの処理が、Kadambeの技法と
異なるのは、Kadambeの技法では、フレーム内の局所的
なピーク値がフレームにおける大域的な閾値として使用
されていたのに対し、このフローチャートの処理では、
ある範囲のDyWT(b,2i)の波形の累積値に基づ
く統計的な閾値が使用されていることである。このよう
な統計的な閾値は、Kadambeの技法では見落とされてし
まうような声門閉鎖点をも確実に検出し得る、という点
で有利である。
【0042】ステップ4010での判断が肯定的である
と、ステップ4012で、nの値を1だけ増分する。こ
れは、ある1つのスケールiで、現時点のbに関して、
声門閉鎖点である可能性が見出されたことを意味する。
しかし、声門閉鎖点以外のローカル・ピークを誤って検
出している可能性もあるので、本発明の好適な実施例に
よれば、1つのスケールiのみでステップ4010の判
断が肯定的になったとしても、直ちには声門閉鎖点が見
出されたとは見なさず、ステップ4014で、nが1よ
りも大きいかどうかが判断される。
と、ステップ4012で、nの値を1だけ増分する。こ
れは、ある1つのスケールiで、現時点のbに関して、
声門閉鎖点である可能性が見出されたことを意味する。
しかし、声門閉鎖点以外のローカル・ピークを誤って検
出している可能性もあるので、本発明の好適な実施例に
よれば、1つのスケールiのみでステップ4010の判
断が肯定的になったとしても、直ちには声門閉鎖点が見
出されたとは見なさず、ステップ4014で、nが1よ
りも大きいかどうかが判断される。
【0043】ステップ4014でnが1よりも大きいこ
とが決定されると、それは、現時点のbに関して、少な
くとも2つのスケールiで、ローカル・ピークであるこ
とが決定されたということであるから、そこでようや
く、現時点のbを声門閉鎖点と見なすことにする。そし
て、ステップ4016で、ローカル・ピーク値DyWT
(b,2i)を声門閉鎖点GCIとして出力する。
とが決定されると、それは、現時点のbに関して、少な
くとも2つのスケールiで、ローカル・ピークであるこ
とが決定されたということであるから、そこでようや
く、現時点のbを声門閉鎖点と見なすことにする。そし
て、ステップ4016で、ローカル・ピーク値DyWT
(b,2i)を声門閉鎖点GCIとして出力する。
【0044】尚、ステップ4014の判断は、より大き
いnでないと肯定的にならないように(例えば、n>
2)する程、検出された点が声門閉鎖点であることの確
度が高まるが、すると逆に、実際の声門閉鎖点をふるい
落としてしまう可能性も高まる。従って、場合に応じて
適当なnについての閾値が選ばれる。
いnでないと肯定的にならないように(例えば、n>
2)する程、検出された点が声門閉鎖点であることの確
度が高まるが、すると逆に、実際の声門閉鎖点をふるい
落としてしまう可能性も高まる。従って、場合に応じて
適当なnについての閾値が選ばれる。
【0045】次に、ステップ4018でiが1だけ増分
される。これは、1つ上のスケールiで、ステップ40
04〜4016の処理を繰り返すためである。尚、ステ
ップ4010またはステップ4014での処理が否定的
である場合、処理は直ちにステップ4018に進む。
される。これは、1つ上のスケールiで、ステップ40
04〜4016の処理を繰り返すためである。尚、ステ
ップ4010またはステップ4014での処理が否定的
である場合、処理は直ちにステップ4018に進む。
【0046】ステップ4020では、iが所定の閾値i
uを超えたかどうかが判断される。iuとは、ウェーブ
レット変換を行うべきスケールの上限値である。iuを
大きくとる程、声門閉鎖点の検出精度が高まるが、その
分、処理時間も余分にかかる。おおよその目安として、
iuは、開始時点のiが3である場合、5程度が適当で
ある。
uを超えたかどうかが判断される。iuとは、ウェーブ
レット変換を行うべきスケールの上限値である。iuを
大きくとる程、声門閉鎖点の検出精度が高まるが、その
分、処理時間も余分にかかる。おおよその目安として、
iuは、開始時点のiが3である場合、5程度が適当で
ある。
【0047】iが所定の閾値iuを超えていない場合
は、ステップ4004の処理に戻る。
は、ステップ4004の処理に戻る。
【0048】iが所定の閾値iuを超えた場合は、ステ
ップ4022でbを1だけ増分して、ステップ4024
でPCMデータの終わりかどうかを判断する。もし、P
CMデータの終わりに達したと判断されると、処理は終
了する。そうでなければ、ステップ4002に戻って、
次のPCMサンプルを取得し、n=0及びi=3をセッ
トした後、ステップ4002へと進む。
ップ4022でbを1だけ増分して、ステップ4024
でPCMデータの終わりかどうかを判断する。もし、P
CMデータの終わりに達したと判断されると、処理は終
了する。そうでなければ、ステップ4002に戻って、
次のPCMサンプルを取得し、n=0及びi=3をセッ
トした後、ステップ4002へと進む。
【0049】図5には、「ピュ」という発音のPCM波
形(a)と、i=3の場合のウェーブレット変換の波形
(b)と、i=4の場合のウェーブレット変換の波形
(c)と、i=5の場合のウェーブレット変換の波形
(d)が示されている。(b)、(c)、(d)におい
て、横軸はbの値である。この図からは、iが増加して
いくにつれ、ウェーブレット変換の波形がなめらかにな
っていくことが見て取れる。また、ウェーブレット変換
のローカル・ピークを通る縦線は、声門閉鎖点に対応す
る。
形(a)と、i=3の場合のウェーブレット変換の波形
(b)と、i=4の場合のウェーブレット変換の波形
(c)と、i=5の場合のウェーブレット変換の波形
(d)が示されている。(b)、(c)、(d)におい
て、横軸はbの値である。この図からは、iが増加して
いくにつれ、ウェーブレット変換の波形がなめらかにな
っていくことが見て取れる。また、ウェーブレット変換
のローカル・ピークを通る縦線は、声門閉鎖点に対応す
る。
【0050】D.ピッチ・マーキング及び切り出し処理 上記ウェーブレット変換処理の結果、GCI=DyWT
(b,2i)として、1つまたはそれ以上のGCIが得
られる。ところが、上記ウェーブレット変換の式によれ
ば、このようにして得られたbの値は時間をあらわす値
であり、よって、GCI=DyWT(b,2i)として
得られた値bから、x(t)におけるピッチ・マーキン
グすべき位置を決定することが可能である。こうしてP
CM波形x(t)には、図5に示すように、声門閉鎖点
でピッチ・マーキングされる。このとき、波形切り出し
窓の中心は、例えばスペクトル歪を考慮して波形x
(t)のローカル・ピークとする。1つの実施例では、
窓関数としてはハミング窓を用い、窓長さは、合成ピッ
チの2倍に設定する。切り出された各々の単位は、図2
に示す合成単位辞書2010に格納される。尚、勿論、
本発明の波形切り出しに使用すべき窓関数は、ハミング
窓に限定されるものではなく、矩形窓、あるいは左右非
対称な窓関数などの任意の窓関数を使用することができ
る。
(b,2i)として、1つまたはそれ以上のGCIが得
られる。ところが、上記ウェーブレット変換の式によれ
ば、このようにして得られたbの値は時間をあらわす値
であり、よって、GCI=DyWT(b,2i)として
得られた値bから、x(t)におけるピッチ・マーキン
グすべき位置を決定することが可能である。こうしてP
CM波形x(t)には、図5に示すように、声門閉鎖点
でピッチ・マーキングされる。このとき、波形切り出し
窓の中心は、例えばスペクトル歪を考慮して波形x
(t)のローカル・ピークとする。1つの実施例では、
窓関数としてはハミング窓を用い、窓長さは、合成ピッ
チの2倍に設定する。切り出された各々の単位は、図2
に示す合成単位辞書2010に格納される。尚、勿論、
本発明の波形切り出しに使用すべき窓関数は、ハミング
窓に限定されるものではなく、矩形窓、あるいは左右非
対称な窓関数などの任意の窓関数を使用することができ
る。
【0051】E.音声合成処理 音声合成処理は、図3の音声合成部3010によって行
われる。すなわち、本発明によれば、音声合成部301
0は、必要な音声合成単位波形を合成単位辞書2010
から取得し、図5に示すように、声門閉鎖点を重ね合わ
せの基準点として、これらを合成ピッチにあわせてずら
しながら重ね合わせることによって、所望の合成音声を
得る。
われる。すなわち、本発明によれば、音声合成部301
0は、必要な音声合成単位波形を合成単位辞書2010
から取得し、図5に示すように、声門閉鎖点を重ね合わ
せの基準点として、これらを合成ピッチにあわせてずら
しながら重ね合わせることによって、所望の合成音声を
得る。
【0052】すなわち、声門閉鎖点は、Dynamic Wavele
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。
【0053】さらに、本発明の1つの態様によれば、重
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。
【0054】
【発明の効果】以上説明したように、本発明によれば、
声門閉鎖点を重ね合わせの基準点(ピッチマーク)とす
る、ピッチ同期波形重畳法が提供され、これによって、
ピッチの揺れが少なく、ごろつきの少ない音声を合成す
ることができる、という効果が得られる。
声門閉鎖点を重ね合わせの基準点(ピッチマーク)とす
る、ピッチ同期波形重畳法が提供され、これによって、
ピッチの揺れが少なく、ごろつきの少ない音声を合成す
ることができる、という効果が得られる。
【図1】 本発明を実現するためのハードウェア構成の
ブロック図である。
ブロック図である。
【図2】 ウェーブレット変換及びピッチマーク付与の
ための処理モジュールのブロック図である。
ための処理モジュールのブロック図である。
【図3】 音声合成処理を行う処理モジュールのブロッ
ク図である。
ク図である。
【図4】 ウェーブレット変換の処理を示す詳細なフロ
ーチャートである。
ーチャートである。
【図5】 ウェーブレット変換の波形の例を示す図であ
る。
る。
【図6】 声門閉鎖点をピッチ・マーキングする処理及
び、ピッチ・マーキングされた声門閉鎖点に基づき重ね
合わせることにより音声合成を行う処理を示す波形を示
す図である。
び、ピッチ・マーキングされた声門閉鎖点に基づき重ね
合わせることにより音声合成を行う処理を示す波形を示
す図である。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成6年11月29日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正内容】
【0019】A.ハードウェア構成 図1を参照すると、本発明を実施するためのハードウェ
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのCPU1004、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ(RAM)1006、文字やイメージ情報を画面
上に表示するためのCRT装置1008、CRT装置1
008を制御するためのビデオ・カード1010、オペ
レータによりコマンドや文字を入力するためのキーボー
ド1012、CRT装置1008の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス1014、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置1016、音声録音
用のマイク1020及び合成した音声を音として出力す
るためのスピーカ1022とを共通のバス1002に接
続したものである。 ─────────────────────────────────────────────────────
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのCPU1004、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ(RAM)1006、文字やイメージ情報を画面
上に表示するためのCRT装置1008、CRT装置1
008を制御するためのビデオ・カード1010、オペ
レータによりコマンドや文字を入力するためのキーボー
ド1012、CRT装置1008の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス1014、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置1016、音声録音
用のマイク1020及び合成した音声を音として出力す
るためのスピーカ1022とを共通のバス1002に接
続したものである。 ─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成6年11月29日
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正内容】
【図1】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西村 雅史 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社東京基礎研究所内
Claims (10)
- 【請求項1】(a) ディジタル化された音声信号の声門閉
鎖点を検出する段階と、上記音声信号に対して、上記声
門閉鎖点を基準点としてピッチマーキングする段階と、
(b) 上記音声信号の合成波形単位を切り出す段階と、
(c) 上記切り出された合成波形単位を記憶する段階と、
(d) 上記ピッチマーキングされた声門閉鎖点を重ね合わ
せの基準点として、上記合成波形単位を合成ピッチにあ
わせてずらしながら重ね合わせることによって、所望の
合成音声を得る段階を有する、 音声合成方法。 - 【請求項2】上記声門閉鎖点を検出する段階は、上記デ
ィジタル化された音声信号をウェーブレット変換し、該
ウェーブレット変換された波形のローカル・ピークを検
出する段階を有する、請求項1に記載の音声合成方法。 - 【請求項3】上記声門閉鎖点を検出する段階は、上記ウ
ェーブレット変換を異なる複数のスケールで行い、少な
くとも2つのスケールで検出されたローカル・ピーク位
置が一致することに応答して該ローカル・ピーク位置を
声門閉鎖点であると決定する段階を有する、請求項2に
記載の音声合成方法。 - 【請求項4】上記ローカル・ピークの決定は、統計的な
閾値との比較により行われる、請求項2または請求項3
に記載の音声合成方法。 - 【請求項5】上記統計的な閾値は、上記ウェーブレット
変換された値の出力ヒストグラムをとり、該出力ヒスト
グラムの累積度数の上位所定%の階級値によって決定さ
れる、請求項4に記載の音声合成方法。 - 【請求項6】(a) ディジタル化された音声信号の声門閉
鎖点を検出する手段と、上記音声信号に対して、上記声
門閉鎖点を基準点としてピッチマーキングする手段と、
(b) 上記音声信号の合成波形単位を切り出す手段と、
(c) 上記切り出された合成波形単位を記憶する手段と、
(d) 上記ピッチマーキングされた声門閉鎖点を重ね合わ
せの基準点として、上記合成波形単位を合成ピッチにあ
わせてずらしながら重ね合わせることによって、所望の
合成音声を得る手段を具備する、 音声合成システム。 - 【請求項7】上記声門閉鎖点を検出する手段は、上記デ
ィジタル化された音声信号をウェーブレット変換し、該
ウェーブレット変換された波形のローカル・ピークを検
出する手段を有する、請求項6に記載の音声合成システ
ム。 - 【請求項8】上記ローカル・ピークを検出する手段は、
上記ウェーブレット変換を異なる複数のスケールで行
い、少なくとも2つのスケールで検出されたローカル・
ピーク位置が一致することに応答して該ローカル・ピー
ク位置を声門閉鎖点であると決定する手段を有する、請
求項7に記載の音声合成システム。 - 【請求項9】上記ローカル・ピークの決定は、統計的な
閾値との比較により行われる、請求項7または請求項8
に記載の音声合成システム。 - 【請求項10】上記ウェーブレット変換された値の出力
ヒストグラムをとり、該出力ヒストグラムの累積度数の
上位所定%の階級値によって上記統計的な閾値を決定す
る手段を有する、請求項9に記載の音声合成システム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP06226667A JP3093113B2 (ja) | 1994-09-21 | 1994-09-21 | 音声合成方法及びシステム |
| US08/500,793 US5671330A (en) | 1994-09-21 | 1995-07-11 | Speech synthesis using glottal closure instants determined from adaptively-thresholded wavelet transforms |
| EP95113452A EP0703565A2 (en) | 1994-09-21 | 1995-08-28 | Speech synthesis method and system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP06226667A JP3093113B2 (ja) | 1994-09-21 | 1994-09-21 | 音声合成方法及びシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0895589A true JPH0895589A (ja) | 1996-04-12 |
| JP3093113B2 JP3093113B2 (ja) | 2000-10-03 |
Family
ID=16848778
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP06226667A Expired - Fee Related JP3093113B2 (ja) | 1994-09-21 | 1994-09-21 | 音声合成方法及びシステム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5671330A (ja) |
| EP (1) | EP0703565A2 (ja) |
| JP (1) | JP3093113B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6349277B1 (en) | 1997-04-09 | 2002-02-19 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
| KR100388488B1 (ko) * | 2000-12-27 | 2003-06-25 | 한국전자통신연구원 | 유성음 구간에서의 고속 피치 탐색 방법 |
| JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
| US9257131B2 (en) | 2012-11-15 | 2016-02-09 | Fujitsu Limited | Speech signal processing apparatus and method |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000514207A (ja) * | 1996-07-05 | 2000-10-24 | ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター | 音声合成システム |
| US7228280B1 (en) * | 1997-04-15 | 2007-06-05 | Gracenote, Inc. | Finding database match for file based on file characteristics |
| US6009386A (en) * | 1997-11-28 | 1999-12-28 | Nortel Networks Corporation | Speech playback speed change using wavelet coding, preferably sub-band coding |
| JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
| WO1999059134A1 (de) * | 1998-05-11 | 1999-11-18 | Siemens Aktiengesellschaft | Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung |
| US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
| JP3450237B2 (ja) * | 1999-10-06 | 2003-09-22 | 株式会社アルカディア | 音声合成装置および方法 |
| EP1410380B1 (en) * | 2001-07-20 | 2010-04-28 | Gracenote, Inc. | Automatic identification of sound recordings |
| CN1234109C (zh) * | 2001-08-22 | 2005-12-28 | 国际商业机器公司 | 语调生成方法、语音合成装置、语音合成方法及语音服务器 |
| JP2003108178A (ja) * | 2001-09-27 | 2003-04-11 | Nec Corp | 音声合成装置及び音声合成用素片作成装置 |
| US6763322B2 (en) | 2002-01-09 | 2004-07-13 | General Electric Company | Method for enhancement in screening throughput |
| US7653255B2 (en) | 2004-06-02 | 2010-01-26 | Adobe Systems Incorporated | Image region of interest encoding |
| US7639886B1 (en) | 2004-10-04 | 2009-12-29 | Adobe Systems Incorporated | Determining scalar quantizers for a signal based on a target distortion |
| US8725512B2 (en) * | 2007-03-13 | 2014-05-13 | Nuance Communications, Inc. | Method and system having hypothesis type variable thresholds |
| EP2242045B1 (en) | 2009-04-16 | 2012-06-27 | Université de Mons | Speech synthesis and coding methods |
| EP3580754A4 (en) * | 2017-02-12 | 2020-12-16 | Cardiokol Ltd. | VERBAL PERIODIC SCREENING FOR HEART DISEASE |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5054085A (en) * | 1983-05-18 | 1991-10-01 | Speech Systems, Inc. | Preprocessing system for speech recognition |
| FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
| US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
| DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
| JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
| SG43076A1 (en) * | 1994-03-18 | 1997-10-17 | British Telecommuncations Plc | Speech synthesis |
-
1994
- 1994-09-21 JP JP06226667A patent/JP3093113B2/ja not_active Expired - Fee Related
-
1995
- 1995-07-11 US US08/500,793 patent/US5671330A/en not_active Expired - Lifetime
- 1995-08-28 EP EP95113452A patent/EP0703565A2/en not_active Withdrawn
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6349277B1 (en) | 1997-04-09 | 2002-02-19 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
| US6490562B1 (en) | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
| KR100388488B1 (ko) * | 2000-12-27 | 2003-06-25 | 한국전자통신연구원 | 유성음 구간에서의 고속 피치 탐색 방법 |
| JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
| US9257131B2 (en) | 2012-11-15 | 2016-02-09 | Fujitsu Limited | Speech signal processing apparatus and method |
Also Published As
| Publication number | Publication date |
|---|---|
| US5671330A (en) | 1997-09-23 |
| EP0703565A2 (en) | 1996-03-27 |
| JP3093113B2 (ja) | 2000-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3093113B2 (ja) | 音声合成方法及びシステム | |
| US8180636B2 (en) | Pitch model for noise estimation | |
| US20010016815A1 (en) | Voice recognition apparatus and recording medium having voice recognition program recorded therein | |
| JPS62239231A (ja) | 口唇画像入力による音声認識方法 | |
| KR20080026456A (ko) | 음신호 처리 방법, 음신호 처리 장치 및 기록 매체 | |
| CN114203180B (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
| US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
| US5452398A (en) | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change | |
| JP3450237B2 (ja) | 音声合成装置および方法 | |
| JP3106543B2 (ja) | 音声信号処理装置 | |
| Thirumuru et al. | Improved vowel region detection from a continuous speech using post processing of vowel onset points and vowel end-points | |
| JP3358139B2 (ja) | 音声ピッチマーク設定方法 | |
| JP4890792B2 (ja) | 音声認識方法 | |
| JPH064090A (ja) | テキスト音声変換方法および装置 | |
| JP3063855B2 (ja) | 音声認識におけるマッチング距離値の極小値探索方法 | |
| JPH0713585A (ja) | 音声区間切出し装置 | |
| JP3292218B2 (ja) | 音声メッセージ作成装置 | |
| JP3063856B2 (ja) | 音声認識におけるマッチング距離値の極小値探索方法 | |
| CN120108382A (zh) | 一种汉语方言语音自动分割方法及装置 | |
| WO2025146542A1 (en) | A method of speech to text transcription | |
| JPS6068000A (ja) | ピッチ抽出装置 | |
| CN116741156A (zh) | 基于语义场景的语音识别方法、装置、设备及存储介质 | |
| JPH0756589A (ja) | 音声合成方法 | |
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| JPH086585A (ja) | 音声合成方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |