JPH07104799A - 音声分析合成装置 - Google Patents

音声分析合成装置

Info

Publication number
JPH07104799A
JPH07104799A JP5248016A JP24801693A JPH07104799A JP H07104799 A JPH07104799 A JP H07104799A JP 5248016 A JP5248016 A JP 5248016A JP 24801693 A JP24801693 A JP 24801693A JP H07104799 A JPH07104799 A JP H07104799A
Authority
JP
Japan
Prior art keywords
signal
sound source
voice
phase
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5248016A
Other languages
English (en)
Other versions
JP3368949B2 (ja
Inventor
Tomoki Hamagami
知樹 濱上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP24801693A priority Critical patent/JP3368949B2/ja
Publication of JPH07104799A publication Critical patent/JPH07104799A/ja
Application granted granted Critical
Publication of JP3368949B2 publication Critical patent/JP3368949B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明はボコーダ(Voice coder) タイプの音
声分析合成装置が極めて肉声に近い自然な音色を実現す
ることを目的とする。 【構成】 音声信号を線形予測して得られた予測信号と
音声信号との残差信号の分析から得られたピッチ周波数
及びパワーに基づき周波数変調及び振幅変調を施して残
差信号を再現する音源信号を形成して音声を合成するた
めの音声分析合成装置において、周波数変調及び振幅変
調に加えて残差信号の波形形状から位相を求めて、さら
にこの位相に基づき位相変調を行い音源信号を形成す
る。音源信号の各高調波信号についての位相は残差信号
のピッチ内のエネルギー分散から求められる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号を符号化し符
号情報から元の音声信号を復元するボコーダ(Voice cod
er) タイプの音声分析合成装置に関し、特に本発明で
は、極めて肉声に近い自然な音色を実現することに関す
る。
【0002】
【従来の技術】従来このような分野の技術として、人間
の音声を直接利用せず、人間の音声のパラメータだけを
抽出し、そのパラメータを制御し人工的に音声信号を作
りだす音声分析合成方式が知られている。図5は従来の
音声分析を説明する図であり、図6は従来の音声合成を
説明する図である。音声分析合成方式には、例えば、本
図5に示すような線形予測法がある。この線形予測法に
けるLPC(Linear Predictor Coefficients)分析部1
00では、自然発声した音声について過去の音声信号の
数サンプリングの値を線形結合して現在の音声信号が推
定され、推定された際にスペクトルパラメータが求めら
れる。そして実際の音声信号とこの推定音声信号との差
である残差信号を形成し、この残差信号が最小になるよ
うに、推定音声信号を構成する線形結合のスペクトルパ
ラメータが調整される。残差信号の波形を入力した残差
分析部101では音源情報としてピッチ周波数及びパワ
ーを形成する。
【0003】本図6に示すように、音源情報としてのピ
ッチ周波数及びパワーを入力する音源モデル103はピ
ッチ周期とパワーとから残差を再現する音源モデルとし
て、多項式モデルやパルス波形モデル(PIFM : Pulse so
urce Interpolated by Frequency Moduration)が使用さ
れている。特に、パルス波形モデル(PIFM)は、パルス音
源を周波数軸上で時間的に補間した音源モデルである。
【0004】図7は従来PIFM音源モデルによる残差
信号の再現を説明する図である。本図(a)に示すよう
に、基本周波数h=1、その高調波h=2、3、…、n
をピッチ周波数及びパワーの情報により合成し、本図
(b)に示す残差信号を再現する。図6に戻り、音源モ
デル部103で再現された残差信号が入力した声道フィ
ルタ104にはさらに前記LPC分析部100で形成さ
れたスペクトルパラメータが入力されて、音声が合成さ
れる。
【0005】図8は合成音声の信号波形を示す図であ
る。本図(a)に示す音源モデル103の残差信号から
本図(b)に示すような声道フィルタ104の出力であ
る合成音声が形成される。
【0006】
【発明が解決しようとする課題】ところで、従来のパル
ス波形モデル(PIFM)ではスペクトル的な特徴は模擬でき
ていても、波形状の特徴を近似するには、制御の自由度
に限界があった。これらのモデルは、「定常音の知覚
は、パワースペクトルの特徴が支配的であり、波形の形
状(位相)は聴いていない」というこれまでの音響心理
の常識に基づき、準定常的な有声音、特に母音部におけ
る音源モデルには、波形形状を模擬するような工夫は重
要ではないとの立場に立っている。しかし、人間が発声
した音声は、定常的といわれている母音中心付近でさえ
微妙な変動がみられるものであり、上記の立場が通用し
ない場合が多い。一方、前記従来の音源モデルを用いた
合成音声では、自然音とは明らかな音色の違いが生じて
いる。この原因は未だ明らかとなっていないが、従来音
源モデルのようなスペクトルの近似だけでは、音色の再
現に限界がきていることを意味している。極めて肉声に
近い自然な音声を実現するためには、音韻性という面だ
けでなく音色の面からも、合成音声をより自然な音声に
近づけるために波形形状の近似を位相制御の形で積極的
に行う必要がある。
【0007】したがって、本発明は、上記課題に鑑み、
音色の面からも合成音声をより自然な音声に近づけるこ
とができる音声分析合成装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】本発明は、前記問題点を
解決するために、音声信号を線形予測して得られた予測
信号と前記音声信号との残差信号の分析から得られたピ
ッチ周波数及びパワーに基づき周波数変調及び振幅変調
を施して残差信号を再現する音源信号を形成して音声を
合成するための音声分析合成装置において、前記周波数
変調及び振幅変調に加えて前記残差信号の波形形状から
位相を求めて、さらにこの位相に基づき位相変調を行い
音源信号を形成する。また、前記音源信号の各高調波信
号についての前記位相は前記残差信号のピッチ内のエネ
ルギー分散から求められる。
【0009】
【作用】本発明の音声分析合成装置によれば、前記周波
数変調及び振幅変調に加えて前記残差信号の波形形状か
ら位相を求めて、さらにこの位相に基づき位相変調を行
い音源信号が形成されることにより、広く使われている
LPC合成器の合成音声の品質をより自然な音色に近づ
けることができる。前記音源信号の各高調波信号につい
ての前記位相は前記残差信号のピッチ内のエネルギー分
散から求められることにより、位相の設定は容易に行わ
れる。
【0010】
【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る音声分析合成装
置の概略を示すブロック図である。本図に示す音声分析
合成装置は、合成文書や音声を入力して自然な音声を合
成するものであり、発音情報入力部1を具備し、この発
音情報入力部1では合成文章が入力されると音声合成し
ようとする日本語文を解析し、音声合成処理に必要なア
クセントの情報、ポーズ、母音の無音声化などといった
発音情報を加えた音韻記号列に変換する。この発音情報
入力部1に接続される音韻継続時間長生成部2では発音
情報入力部1によって生成された音韻記号列について、
母音部エネルギー重心点間時間長を与えるリズム規則に
より、音韻継続時間長を制御する。この音韻継続時間長
生成部2に接続される音源振幅パターン生成部3では音
韻継続時間長生成部2のリズム規則により与えられる母
音部エネルギー重心点間時間長を守るように音声のパワ
ーパターンをパワー規則により決定する。この音源振幅
パターン生成部3に接続されるピッチ周波数パターン生
成部4では、各アクセント句について単音節に相当する
韻律の単位であるモーラの含まれている個数、アクセン
ト型から点ピッチパターンを決める韻律制御規則によ
り、ピッチパターンを補間して連続点ピッチパターンを
生成する。これらの音源振幅パターン生成部3及びピッ
チパターン4に接続される音源生成部5は、前記パワー
パターン、前記連続ピッチパターン、さらに後述する位
相をもとに音源を生成する。前記音韻継続時間長生成部
2に接続されるスペクトルパターン生成部6では音韻性
向上規則、VCV(母音/子音/母音)音韻連鎖の規則
を与える音声合成基本単位、音韻結合規則により母音・
子音といった音韻の種類を決め、各音韻のスペクトルを
結合しフォルマントパターンを作成する。これらの音源
生成部5及びスペクトルパターン生成部6に接続される
音声合成器7では前記音源情報と前記フォルマントパタ
ーンから合成音声を作成しスピーカ8に出力する。さら
に、音声分析合成装置は、人の音声を直接入力するマイ
クロフォン9と、該マイクロフォン9からの音声信号を
入力し、従来の技術の項で述べたと同一の線形予測法に
より人間が発話した音声を分析するLPC分析部10
と、残差信号の波形を入力し音源情報としてピッチ周波
数及びパワーを形成する残差分析部11とを具備し、残
差分析部11は音源生成部5に接続され、LPC分析部
10は音声合成器7に接続される。LPC分析部10で
分析されたスペクトルパラメータは声道形状を表し音声
のスペクトル概形を特徴づける。さらに残差分析部11
から得られるピッチ周波数及びパワーの音源パラメータ
は声帯の動きを表し韻律的な特徴を表す。音源パラメー
タを入力した音源生成部5により形成された音源波形が
ディジタルフィルタで形成された音声合成器7を通すこ
とにより合成音声が得られる。なお、理解を容易にする
ために、音源生成部5は構成上図8の音源モデル部10
3に対応し、音声合成器7は声道フィルタ104にそれ
ぞれ対応する。
【0011】以上説明した音声分析合成装置の音源生成
部5では音源波形の高調波位相の制御を行うので、極め
て肉声に近い自然な音色を実現可能になった。以下に本
願の特徴である音源生成部5の詳細について説明する。
本発明者は、前述の発明が解決しようとする課題の項で
述べたように、より自然で滑らかな合成音声をうるため
には、音源モデルの改良が不可欠であると考えた。従来
の音声分析合成方式では、スペクトル的な特徴はすべて
声道モデル側に持たせ、韻律的な特徴はすべて音源モデ
ル側に持たせるという極めて単純な方法であるため、複
雑な音声の変動を忠実に表現できるモデル化になってい
ないためである。複雑な動きは、主に波形レベルで観測
されるものである。したがって、統計的に分析されるス
ペクトルパラメータを扱う声道モデルでは、前述の複雑
な変動を表すことが困難である。一方、声帯モデルに相
当する音源モデルは、波形を直接的に扱えるモデルであ
るために前記の問題を解決する改良の余地がある。そこ
で、以下に説明する本発明の方法によって、音源波形の
形状を自由に制御するモデルを使用する。
【0012】まず、以下に説明するPIFMモデルの原
点であり、従来モデルの典型でもあるパルス音源モデル
を説明する。パルス音源モデルは2つのパルス間隔を声
帯波の基本周期とし、パルスの振幅を音源振幅とみなす
波形モデルである。パルス音源モデルにおいて、2つの
パルスがある間隔をおいて存在するということは、その
間隔の逆数である基本周波数がパルス間に定常的に存在
しているのと同義である。したがって、複数のパルスが
連続して様々な間隔で存在する場合はパルス毎に基本周
波数が階段上に変化していることになる。この現象は、
自然音声の声帯波にはみられない変化であり、パルス音
源を用いた分析合成音の音質が、自然音の音質とことな
ってしまう原因の一端である。PIFMモデルでは、こ
の現象を解消するために、基本周波数の変化と振幅の変
化をサンプリング周期で細かく求め、周波数変調と振幅
変調をサンプリング間隔で行う基本波を作る。次に、こ
の基本波に対する高調波をナイキスト周波数まで様々な
位相で足し合わせて、音源を作成する。次に各高調波に
対する位相の決定法について述べる。
【0013】この音源生成部5では、以下に述べる仮説
をもとに音源モデルの位相制御(以下、PPPIFM : Phase
Programable PIFM という。)を行っている。仮説:人
は、音色の成分として音声波形の1ピッチの大まかな形
状を知覚している。波形の位相を完全に再現できなくて
も、1ピッチ内のエネルギー分散が適切に行われること
によって、スペクトル的特徴を変えずに、音色だけを変
化させることができる。
【0014】上記の仮説を下記の方法で検証する。音源
生成部5で形成する音源波形S(t)を以下の式のよう
に定義する。 S(t)=ΣA(h)・cos{hω(t)+Λ・Φ(t)} …(1) ここで、tは時間、hは高調波番号、ω(t)は基本周
波数の時間関数であり、A(t)は振幅(パワー)であ
る。本発明の特徴であるΦ(t)を「最大ずれ位相」と
呼び、各高調波毎に異なった定数として、別に定める方
法を使って予め与えられる。同様に、Λは、この音源波
形の「位相変化」を示す重みパラメータである。この段
階では、0≦Λ≦1の定数である。ここで、Λが0に近
い程、音源波形の各高調波位相は揃い、波形はパルス状
に近くなる。すなわち、1ピッチのエネルギーが局所化
する。逆にΛが1に近い程、音源波形の各高調波位相は
ずれが生じ、波形は非パルス的な様相を呈する。すなわ
ち、1ピッチエネルギーの分散がなされる。「最大ずれ
位相」Φ(t)は、Λが1のときの各高調波の位相を表
している。したがって、Φ(t)は高調波をある位相関
係で重ね合わせたときに最も1ピッチ以内のエネルギー
が分散するようなパターンを解析的に求めることによっ
て得られる。上記の音源モデルを用い、様々なΛの値に
ついて合成を行った結果、Λの値に依存した音色の変化
が得られることがわかっている。
【0015】図2は種々のΛの値に対する音源波形S
(t)を示す図である。本図に示すように、Λが0に近
い程、硬く、クリアな音色となり、Λが1に近いほど、
柔らかく、鈍い音色となる。すなわち、Λの値を適切に
制御することによって、様々な音色の音声を作り出すこ
とができる。次に、上記の音源モデルを、分析値を基に
制御する場合について述べる。
【0016】自然音中の韻律情報は、LPC分析を行っ
た結果の残差波形に残っている。この残差波形をそのま
ま音源に用いれば、元の自然音と全く同様の波形が得ら
れる。すなわち、音源モデルが模倣すべきものは、残差
波形中にある特徴量である。残差波形を観察するおと、
音声音中でもパルス的なものから非パルス的なものま
で、さまざまな波形形状があることがわかる。この特徴
を逐次分析し、上記モデルに適用することで、残差波形
の波形形状を模倣する。そこで、式(1)のΛを時変パ
ラメータΛ(t)とした、以下の音源モデルを用いる。
【0017】 S(t)=ΣA(h)・cos{hω(t)+Λ(t)・Φ(t)} …(2) まず、LPC分析部10から残差分析部11へ出力され
る残差波形信号e(t)の「パルスらしさ」を分析す
る。この一例として、波形のパルスらしさを示す下記式
のような統計値が考えられる。
【0018】 λ(t)=(Σe(t)2 /L)/(Σ|e(t)|/L)2 …(3) Lはフレーム長である。パルスらしさが十分ならば、各
高調波の位相は揃う傾向にある。また、パルスらしさが
少ないということは、1ピッチ内のエネルギーが分散す
る傾向があることを意味している。この傾向を利用して
式(3)で作られた様々なλとΛの関係が得られる。
【0019】図3は「パルスらしさ」を示すλと「位相
変化」を示す重みパラメータΛとの関係を説明する図で
ある。本図に示すように,任意の「パルスらしさ」λ
(t)に対して、その波形を実現する「位相変化」Λ
(t)を得ることができる。例えば、数値計算で求めた
場合、以下の式で近似できる対応関係が得られる。 Λ(t)=(4.2−λ(t))/2.0 …(5) 残差波形の分析は、中心時刻tで25.6ms幅のフレ
ーム(L)を5ms周期で行う。フレーム中の「平均基
本周波数ω(t)」、「平均音源振幅A(t)」、「パ
ルスらしさλ(t)」を式(3)から求め、さらにλ
(t)は「位相変化重み係数」Λ(t)に式(5)を用
いて変換される。ω、A、Λはフレーム周期間でサンプ
ル点毎に線形補間され、サンプリング周期で連続値とな
り、これを式(2)に用いて音源波形を得る。
【0020】図4は本発明により得られた音源波形と残
差波形との比較を示す図である。本図に示すように、得
られた音源波形はあらゆる時刻においても、残差波形の
形状に近いものとなっている。
【0021】
【発明の効果】以上説明したように本発明によれば、周
波数変調及び振幅変調に加えて残差信号の波形形状から
位相を求めて、さらにこの位相に基づき位相変調を行い
音源信号が形成されるので、広く使われているLPC合
成器の合成音声の品質をより自然な音色に近づけること
ができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声分析合成装置の概略
を示すブロック図である。
【図2】種々のΛの値に対する音源波形S(t)を示す
図である。
【図3】「パルスらしさ」を示すλと「位相変化」を示
す重みパラメータΛとの関係を説明する図である。
【図4】本発明により得られた音源波形と残差波形との
比較を示す図である。
【図5】従来の音声分析を説明する図である。
【図6】従来の音声合成を説明する図である。
【図7】従来のPIFM音源モデルによる残差信号の再
現を説明する図である。
【図8】合成音声の信号波形を示す図である。
【符号の説明】
1…発音情報入力部 2…音韻継続時間長生成部 3…音源振幅パターン生成部 4…ピッチ周波数パターン生成部 5…音源生成部 6…スペクトルパターン生成部 7…音声合成器 8…スピーカ 9…マイクロフォン 10…LPC分析部 11…残差分析部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を線形予測して得られた予測信
    号と前記音声信号との残差信号の分析から得られたピッ
    チ周波数及びパワーに基づき周波数変調及び振幅変調を
    施して残差信号を再現する音源信号を形成して音声を合
    成するための音声分析合成装置において、 前記周波数変調及び振幅変調に加えて前記残差信号の波
    形形状から位相を求めて、さらにこの位相に基づき位相
    変調を行い音源信号を形成することを特徴とする音声分
    析合成装置。
  2. 【請求項2】 前記音源信号の各高調波信号についての
    前記位相は前記残差信号のピッチ内のエネルギー分散か
    ら求められることを特徴とする請求項1に記載の音声分
    析合成装置。
JP24801693A 1993-10-04 1993-10-04 音声分析合成装置 Expired - Fee Related JP3368949B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24801693A JP3368949B2 (ja) 1993-10-04 1993-10-04 音声分析合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24801693A JP3368949B2 (ja) 1993-10-04 1993-10-04 音声分析合成装置

Publications (2)

Publication Number Publication Date
JPH07104799A true JPH07104799A (ja) 1995-04-21
JP3368949B2 JP3368949B2 (ja) 2003-01-20

Family

ID=17171950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24801693A Expired - Fee Related JP3368949B2 (ja) 1993-10-04 1993-10-04 音声分析合成装置

Country Status (1)

Country Link
JP (1) JP3368949B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223475A (zh) * 2019-11-29 2020-06-02 北京达佳互联信息技术有限公司 语音数据生成方法、装置、电子设备及存储介质
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223475A (zh) * 2019-11-29 2020-06-02 北京达佳互联信息技术有限公司 语音数据生成方法、装置、电子设备及存储介质
CN111223475B (zh) * 2019-11-29 2022-10-14 北京达佳互联信息技术有限公司 语音数据生成方法、装置、电子设备及存储介质
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置

Also Published As

Publication number Publication date
JP3368949B2 (ja) 2003-01-20

Similar Documents

Publication Publication Date Title
JP2787179B2 (ja) 音声合成システムの音声合成方法
US6804649B2 (en) Expressivity of voice synthesis by emphasizing source signal features
Macon et al. A singing voice synthesis system based on sinusoidal modeling
Childers Glottal source modeling for voice conversion
JPH031200A (ja) 規則型音声合成装置
US20020049594A1 (en) Speech synthesis
Perrotin et al. Glottal flow synthesis for whisper-to-speech conversion
Macon et al. Concatenation-based midi-to-singing voice synthesis
JPH0641557A (ja) 音声合成のための方法および装置
JP3368949B2 (ja) 音声分析合成装置
JP2904279B2 (ja) 音声合成方法および装置
JP2001242882A (ja) 音声合成方法及び音声合成装置
Pfitzinger Unsupervised speech morphing between utterances of any speakers
Morise Modification of velvet noise for speech waveform generation by using vocoder-based speech synthesizer
Karjalainen et al. Speech synthesis using warped linear prediction and neural networks
JP3742206B2 (ja) 音声合成方法及び装置
JP3394281B2 (ja) 音声合成方式および規則合成装置
JPS6346498A (ja) 韻律生成方式及びタイミング点パターン生成方式
Del Pozo Voice source and duration modelling for voice conversion and speech repair
JPH07261798A (ja) 音声分析合成装置
Espic et al. Waveform generation based on signal reshaping for statistical parametric speech synthesis
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JP3368948B2 (ja) 音声規則合成装置
Muralishankar et al. Human touch to Tamil speech synthesizer
Acero A mixed-excitation frequency domain model for time-scale pitch-scale modification of speech

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees