JPS58145994A - 残差波形の抽出方法 - Google Patents

残差波形の抽出方法

Info

Publication number
JPS58145994A
JPS58145994A JP57027493A JP2749382A JPS58145994A JP S58145994 A JPS58145994 A JP S58145994A JP 57027493 A JP57027493 A JP 57027493A JP 2749382 A JP2749382 A JP 2749382A JP S58145994 A JPS58145994 A JP S58145994A
Authority
JP
Japan
Prior art keywords
waveform
residual waveform
spectrum
residual
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57027493A
Other languages
English (en)
Inventor
稲田 宏光
中田 和男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Microcomputer System Ltd
Hitachi Ltd
Original Assignee
Hitachi Ltd
Hitachi Microcomputer Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Microcomputer Engineering Ltd filed Critical Hitachi Ltd
Priority to JP57027493A priority Critical patent/JPS58145994A/ja
Publication of JPS58145994A publication Critical patent/JPS58145994A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声の分析合成法による音声合成の有声音源波
形の作成方法、特に平均残差波形の自動抽出方法に関す
る。
従来の分析合成法による音声合成では、有声音源波形と
してイ/パルスt−112用してお多、音質劣化の一因
と考えられてきた。この改善のために線形予測分析の結
果である残差波形を有効に活用することが検討されてき
たが、次の点で問題がめった。
1) 残差波形をそのまま使ったのでは情報圧縮になら
ない。
2)残差波形は時々刻々に複雑に変化する波形でア夛、
その中から代表的なものをどのようにしてえらんだらよ
いかが不明である。
3) 視察によって代表的なものがえらばれてもそれを
自動的に抽出する方法がなく、手間がかかる手作業を必
要とする。
上記の欠点に対する一つの解決策として、松下電器の入
路、川崎、らの人々が次のような方法を提案している。
(入路、川崎 他:ワンチツプ廿声合成用LS1.電子
通信学会技術研究報告。
■ot、80.轟236.EA80−68.1981年
1月「安定して発声され友母音から抽出した残差波形の
代表的なlピッチ分を音源波形として1源ROMに畜え
る。」) しかしこの方法では残差波形の抽出を自動的に行う方法
が明示されておらず、視察と手作業によつて求めるしか
ない。
したがって、本発明の目的は、上記問題点を解決し安定
した母音区間における平均的な残差波形を自制的に抽出
できる方法を提供することにある。
この目的を達成するため本発明においては、定振幅化さ
れ次位相比スペクトル中に含まれる周期的な情報を正規
化して各声帝蛋動パルスによる残差波形′jk時間的原
点合わせをおこなったうえで重ね合せることによシ平均
的な残差波形を作成するようにした点に%黴がるる。
残差波形には次のような情報が含まれていると考えられ
る。
1) 入力音声波形のスペクトルを全極形モデルによっ
てgr2述したときの誤差 2) 人力音声波形が11−のインパルスのみによる波
形7はなく・主として9くりかえし的声帝振動tt#に
よるものであるこ′とによる誤差3)分析フレーム内の
平均的特性からの瞬時的なず扛にもとつく誤差 4) 残差パワー これらの情報のうち、1)は子音や鼻汁といった分析ま
たは合成の対象となる音韻の特性にもとづくものでるり
、汎用の合成音源としては不必要な情報と考えられる。
4)は各フレーム毎の曾成蛭声の強度(振幅の大小)に
関する情報であり、音源強度として別途抽出される。
2)の情報のうち、主要なくりかえし的声帯振動音源パ
ルスによるほぼ周期的な生起情報音とシのぞいて、よシ
真体的にいえば生起のたびに時間原点を重ね合わせれば
、平均的な残差波形を作ることができる。
これらの情報を分離して除去もしくは強調するためには
残差波形の7−リエ変換によるスペクトル上で考える方
が便利である。
1)の情報はパワースペクトル上のエネルギー分布とし
てめられれるから、残差パワースペクトルのエネルギー
分布を保持すればよく、それはいわゆる零位相化残差波
形となる。
安定に発声された母音区間から平均残差波形を作るとす
れば、)JA波形のスペクトルはほとんど完全に全極形
モデルでml述され、その誤差は周波数的にはほとんど
一様な分布をもつランダムな誤差と考えられるから、零
位相化残差波形はほとんど11161のインパルスで近
似されることになる。このことは実験的にもたしかめら
れ、パワースペクトルはほとんど固有の(有意の)情報
をもたないことになる。
そこで振幅を一定化(定振幅化)した位相化スペクトル
を考える。この位相情報の中に、その主要成分として主
要な有声音源パルスの生起によるほぼ周期的な情報が含
まれている。この情報を正規化して各声plfJii動
パルスによる残差波形を時間的原点をあわせて夏ね合せ
れば平均残差波形が有効に作成されるが、そのためには
、残差波形のスペクトルを定振幅化してから逆7−リエ
変換した波形のピーク1直を検出してピッチパルス位置
を推尾スる方法によってピッチパルス波形を推定すれは
よい。
以ド、実施例にもとづき本発明の詳細な説明する。
ただし、本発明は、一連の音声合成に対して、その話者
に固有の平均残差音源波形を自動作成する手段を提供す
るものでめ9、通常専用ハードウェアによって実施され
るよりは、耐算機筐たは専用分析ハードウェアとマイク
ロコンピュータ7ステムによって実施されることが実用
上多いと思われるので、本発明の実施例をソフトウェア
またはソフトウェア作成の基本となる信号処理の流れの
形で説明する。
第1図は本発明の方法により平均残差音形會作成する処
理のフローチャートであル。
本処理に先立って、合成すべき音声の全区間にわ友って
、合成のために必要な情報の抽出、いわゆる合成のため
の分析が行なわれているものとする。
一貫した分析が終了したのち、人力音声波形(X+ )
(i=1.・・・、N)のエネルギー、フレーム毎の分
析結果の比較、Il!4差波形の相関にもとづく有声/
無声の利足、ピッチ周期検出結果の比較、などから、ま
ず安定な母音発声区間が決定される。これらについては
、同業他者は従来の知識から容易に実行できると思われ
るので、省略する。
したがって第1図において、残羨波形出力(−、)(i
=1〜N)−4−求めるステップ1からステップ3まで
はすでに従来の分析技術によって実行できるものとして
説明をすすめる。安定した発声の母音区間(3〜8フレ
ーム)として抽出された音声波形の1例を第2図に、ま
たその残差波形の1例を第3図に示す。
分析の結果えられた1フレ一ム分の残差波形をまずステ
ップ4でスペクトル分析(7−リエ変換)して残差波形
スペクトルを求める。フーリエ変換の中段としてのFE
T(高速フーリエ変換)については公知でるる。
いまフーリエ変侠によって見られたスペクトル7   
 の第iチャイルの結果t−(Rt 、 It )とす
る。
Riは実数部、IIは虚数部金められす。
次に、ステップ5で定=暢化を行う、定振幅化とfi次
の処理會おこなうものである。
実数部:CbSθt =Rt/(Rt”+It”)”’
虚数部:sis#t=I+/()L+”+I+”)””
この処理により求められ九定振1s化位相スペクトル5
pt=tcosθr 、Sll”I  )  (i=1
 # ・・・+  N )から前記したピッチパルス位
置推定方法にもとづいて主旨声パルスの位tilkみつ
け、残差波形を主音声パルス化するためにまず定振幅化
された残差波形をステップ6で低域化する。低域化とは
たとえば全周彼数域の中で低域1/4の範囲のみ定振幅
化データtのこし、残り3/4区間は、スペクトルの1
1 k Oとする処理である。その粕来會ステップ7で
迎フーリエ変換すると、第4凶に1?Ilk示すような
低域通過定i@残差波形が得られる。
この波形から、矢印マークをつけて示すピーク点をステ
ップ8で検出する。ステップ8ではまたこのピーク点で
のみ+1もしくは−1の直をもち、他の点ではすべてO
でるるようなインパルス(i行う、その結果にたいしス
テップ9でスペクトル分析をおこなった後、ステップ1
0での定affl+@化によって、基準パルス列5P2
= (にQ3#t’、sinθ五′)(i=1.・・・
、N)を作る。
この位相スペクトルSPZを基準として、最初の定振幅
化α相スペクトルSPIとの原点全型ね会せる正規化処
理をステップ11でおこない、正規化された位相スペク
トルSP3=(Cogψt、allψ1)(1=1.・
・・、N)k作る1位相成分間の正規化は位相角の差と
して行なわれるから、 実数部” ” 9’ r =cos (θl  #l’
)=cO8# t ・ctrS# r’ +sia# 
sia# s’虚数部:Sl−9g =5i6(# i
  IIs’ )= # 1ctzs、’−5i@# 
1’ cos# 1ここでcos#1 、 sii#t
 、cos#t’ 、 5lfisl’ /dfべて既
知でめるから、上式は容易に1算される。
このSP3にステップ12で逆7−リエ変換して平均残
差波形MP1=()’+ 1(i=1.・・・。
N)がえられる、七の1例を第5図に示す。
この結果rみればわかるように、3〜8の各フレーム内
で、残差波形の主要部は分析の開始点(印で示す)をピ
ークとして(時間的に)正規化纒れてφる。この波形の
中から、ステップ13で最初のM点(通冨100点以下
)に相当するMB2”()’+ 1(j=1 、・・・
、M<N)t−切り出し、その後のステップ14で、直
流成分tなくするために対称化の処理をおこなってII
t終的な残差波形MP3=IZ+ )(Z−t=  Z
+ 、i=1゜・・・、M[−作る。実際にはたとえば
Z−+を得るためにはデータZ+に反転して(Zt)と
して使えばよく、残差波形として切9出されたM点があ
ればよい。
つぎに、本発明の効果′に第6図によシ説明する。
第6図(1に示す原音声波形から抽出し切シ出された同
図(切の平均残差波形を直って求めた同図(C)の合成
波形t%従来のパルス音源による合成波形(同図(ψに
示す]と比較してみると、本発明にょる合成波形の方が
1声波形によく類似していることがわかる。
本発明の効果はまた、我々が聴覚的に合成は声の音質が
改善されている仁とを確認できたことがらも明白でるる
といえる。
以上述べたように、本発明によれば、安定して発声され
た#音区間に対して、平均残差波形を自制的に作成する
ことができ、合成音声の音質を改善することができる。
【図面の簡単な説明】
第1図は本発明を実施する原理的な処理のフローチャー
ト、第2図は廿声波形の一例、第3図はその残差波形の
一例、第4図は残差波形から主音源パルス金検出するた
めの波形、第5図は本発明によって見られた平均残差波
形の一例、s6図はそのf諒波形による合成波形の一例
、および従来のパルス斤源による合成波形の一汐りと(
l一対比してボす0                
−ヨ゛晃 1 図

Claims (1)

    【特許請求の範囲】
  1. 音声の分析合成法による音源波形の合成方法において、
    残差波形スペクトルから定振幅化位相残差波形を作成す
    るステップと、該定振幅化位相残差波形から主ピッチパ
    ルス位tUt検出するステップと、該主ピッチパルス位
    置から定嶽幅化位相正規化スペクトルを求めるステップ
    と、該正規化スペクトルを逆フーリエ変侯して1ピッチ
    分の音源波形を切9出すステップとからなることt−%
    徴とするlA差波形の抽出方法。
JP57027493A 1982-02-24 1982-02-24 残差波形の抽出方法 Pending JPS58145994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57027493A JPS58145994A (ja) 1982-02-24 1982-02-24 残差波形の抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57027493A JPS58145994A (ja) 1982-02-24 1982-02-24 残差波形の抽出方法

Publications (1)

Publication Number Publication Date
JPS58145994A true JPS58145994A (ja) 1983-08-31

Family

ID=12222657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57027493A Pending JPS58145994A (ja) 1982-02-24 1982-02-24 残差波形の抽出方法

Country Status (1)

Country Link
JP (1) JPS58145994A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60196800A (ja) * 1984-03-21 1985-10-05 日本電信電話株式会社 音声信号処理方式
JPS60205500A (ja) * 1984-03-29 1985-10-17 松下電器産業株式会社 音声合成用駆動信号生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60196800A (ja) * 1984-03-21 1985-10-05 日本電信電話株式会社 音声信号処理方式
JPS60205500A (ja) * 1984-03-29 1985-10-17 松下電器産業株式会社 音声合成用駆動信号生成方法

Similar Documents

Publication Publication Date Title
Lindberg et al. Vulnerability in speaker verification-a study of technical impostor techniques.
CN102664003B (zh) 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US8862472B2 (en) Speech synthesis and coding methods
Mowlaee et al. Interspeech 2014 special session: Phase importance in speech processing applications
US20150025892A1 (en) Method and system for template-based personalized singing synthesis
US8280724B2 (en) Speech synthesis using complex spectral modeling
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
Nagaraja et al. Mono and Cross lingual speaker identification with the constraint of limited data
CN107274890A (zh) 声纹谱提取方法及装置
Patel et al. Optimize approach to voice recognition using iot
Akanksh et al. Interconversion of emotions in speech using td-psola
Yap et al. Voice source features for cognitive load classification
JPS58145994A (ja) 残差波形の抽出方法
Seman et al. An evaluation of endpoint detection measures for malay speech recognition of an isolated words
Saratxaga et al. Using harmonic phase information to improve ASR rate.
Sousa et al. The harmonic and noise information of the glottal pulses in speech
Agarwal et al. Significance of excitation source sequence information for speaker verification
Strik et al. Averaging physiological signals with the use of a DTW algorithm
Alam et al. Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition
Sriranjani et al. Experiments on front-end techniques and segmentation model for robust Indian Language speech recognizer
Přibilová et al. Harmonic model for female voice emotional synthesis
CN114974271B (zh) 一种基于声道滤波和声门激励的语音重构方法
Marković et al. Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm
Marković et al. Recognition of Whispered Speech Based on PLP Features and DTW Algorithm