JPH07104799A

JPH07104799A - 音声分析合成装置

Info

Publication number: JPH07104799A
Application number: JP5248016A
Authority: JP
Inventors: Tomoki Hamagami; 知樹濱上
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 1993-10-04
Filing date: 1993-10-04
Publication date: 1995-04-21
Anticipated expiration: 2018-01-20
Also published as: JP3368949B2

Abstract

(57)【要約】【目的】本発明はボコーダ(Voice coder) タイプの音
声分析合成装置が極めて肉声に近い自然な音色を実現す
ることを目的とする。【構成】音声信号を線形予測して得られた予測信号と
音声信号との残差信号の分析から得られたピッチ周波数
及びパワーに基づき周波数変調及び振幅変調を施して残
差信号を再現する音源信号を形成して音声を合成するた
めの音声分析合成装置において、周波数変調及び振幅変
調に加えて残差信号の波形形状から位相を求めて、さら
にこの位相に基づき位相変調を行い音源信号を形成す
る。音源信号の各高調波信号についての位相は残差信号
のピッチ内のエネルギー分散から求められる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号を符号化し符
号情報から元の音声信号を復元するボコーダ(Voice cod
er) タイプの音声分析合成装置に関し、特に本発明で
は、極めて肉声に近い自然な音色を実現することに関す
る。

【０００２】

【従来の技術】従来このような分野の技術として、人間
の音声を直接利用せず、人間の音声のパラメータだけを
抽出し、そのパラメータを制御し人工的に音声信号を作
りだす音声分析合成方式が知られている。図５は従来の
音声分析を説明する図であり、図６は従来の音声合成を
説明する図である。音声分析合成方式には、例えば、本
図５に示すような線形予測法がある。この線形予測法に
けるＬＰＣ（Linear Predictor Coefficients)分析部１
００では、自然発声した音声について過去の音声信号の
数サンプリングの値を線形結合して現在の音声信号が推
定され、推定された際にスペクトルパラメータが求めら
れる。そして実際の音声信号とこの推定音声信号との差
である残差信号を形成し、この残差信号が最小になるよ
うに、推定音声信号を構成する線形結合のスペクトルパ
ラメータが調整される。残差信号の波形を入力した残差
分析部１０１では音源情報としてピッチ周波数及びパワ
ーを形成する。

【０００３】本図６に示すように、音源情報としてのピ
ッチ周波数及びパワーを入力する音源モデル１０３はピ
ッチ周期とパワーとから残差を再現する音源モデルとし
て、多項式モデルやパルス波形モデル(PIFM : Pulse so
urce Interpolated by Frequency Moduration)が使用さ
れている。特に、パルス波形モデル(PIFM)は、パルス音
源を周波数軸上で時間的に補間した音源モデルである。

【０００４】図７は従来ＰＩＦＭ音源モデルによる残差
信号の再現を説明する図である。本図（ａ）に示すよう
に、基本周波数ｈ＝１、その高調波ｈ＝２、３、…、ｎ
をピッチ周波数及びパワーの情報により合成し、本図
（ｂ）に示す残差信号を再現する。図６に戻り、音源モ
デル部１０３で再現された残差信号が入力した声道フィ
ルタ１０４にはさらに前記ＬＰＣ分析部１００で形成さ
れたスペクトルパラメータが入力されて、音声が合成さ
れる。

【０００５】図８は合成音声の信号波形を示す図であ
る。本図（ａ）に示す音源モデル１０３の残差信号から
本図（ｂ）に示すような声道フィルタ１０４の出力であ
る合成音声が形成される。

【０００６】

【発明が解決しようとする課題】ところで、従来のパル
ス波形モデル(PIFM)ではスペクトル的な特徴は模擬でき
ていても、波形状の特徴を近似するには、制御の自由度
に限界があった。これらのモデルは、「定常音の知覚
は、パワースペクトルの特徴が支配的であり、波形の形
状（位相）は聴いていない」というこれまでの音響心理
の常識に基づき、準定常的な有声音、特に母音部におけ
る音源モデルには、波形形状を模擬するような工夫は重
要ではないとの立場に立っている。しかし、人間が発声
した音声は、定常的といわれている母音中心付近でさえ
微妙な変動がみられるものであり、上記の立場が通用し
ない場合が多い。一方、前記従来の音源モデルを用いた
合成音声では、自然音とは明らかな音色の違いが生じて
いる。この原因は未だ明らかとなっていないが、従来音
源モデルのようなスペクトルの近似だけでは、音色の再
現に限界がきていることを意味している。極めて肉声に
近い自然な音声を実現するためには、音韻性という面だ
けでなく音色の面からも、合成音声をより自然な音声に
近づけるために波形形状の近似を位相制御の形で積極的
に行う必要がある。

【０００７】したがって、本発明は、上記課題に鑑み、
音色の面からも合成音声をより自然な音声に近づけるこ
とができる音声分析合成装置を提供することを目的とす
る。

【０００８】

【課題を解決するための手段】本発明は、前記問題点を
解決するために、音声信号を線形予測して得られた予測
信号と前記音声信号との残差信号の分析から得られたピ
ッチ周波数及びパワーに基づき周波数変調及び振幅変調
を施して残差信号を再現する音源信号を形成して音声を
合成するための音声分析合成装置において、前記周波数
変調及び振幅変調に加えて前記残差信号の波形形状から
位相を求めて、さらにこの位相に基づき位相変調を行い
音源信号を形成する。また、前記音源信号の各高調波信
号についての前記位相は前記残差信号のピッチ内のエネ
ルギー分散から求められる。

【０００９】

【作用】本発明の音声分析合成装置によれば、前記周波
数変調及び振幅変調に加えて前記残差信号の波形形状か
ら位相を求めて、さらにこの位相に基づき位相変調を行
い音源信号が形成されることにより、広く使われている
ＬＰＣ合成器の合成音声の品質をより自然な音色に近づ
けることができる。前記音源信号の各高調波信号につい
ての前記位相は前記残差信号のピッチ内のエネルギー分
散から求められることにより、位相の設定は容易に行わ
れる。

【００１０】

【実施例】以下本発明の実施例について図面を参照して
説明する。図１は本発明の実施例に係る音声分析合成装
置の概略を示すブロック図である。本図に示す音声分析
合成装置は、合成文書や音声を入力して自然な音声を合
成するものであり、発音情報入力部１を具備し、この発
音情報入力部１では合成文章が入力されると音声合成し
ようとする日本語文を解析し、音声合成処理に必要なア
クセントの情報、ポーズ、母音の無音声化などといった
発音情報を加えた音韻記号列に変換する。この発音情報
入力部１に接続される音韻継続時間長生成部２では発音
情報入力部１によって生成された音韻記号列について、
母音部エネルギー重心点間時間長を与えるリズム規則に
より、音韻継続時間長を制御する。この音韻継続時間長
生成部２に接続される音源振幅パターン生成部３では音
韻継続時間長生成部２のリズム規則により与えられる母
音部エネルギー重心点間時間長を守るように音声のパワ
ーパターンをパワー規則により決定する。この音源振幅
パターン生成部３に接続されるピッチ周波数パターン生
成部４では、各アクセント句について単音節に相当する
韻律の単位であるモーラの含まれている個数、アクセン
ト型から点ピッチパターンを決める韻律制御規則によ
り、ピッチパターンを補間して連続点ピッチパターンを
生成する。これらの音源振幅パターン生成部３及びピッ
チパターン４に接続される音源生成部５は、前記パワー
パターン、前記連続ピッチパターン、さらに後述する位
相をもとに音源を生成する。前記音韻継続時間長生成部
２に接続されるスペクトルパターン生成部６では音韻性
向上規則、ＶＣＶ（母音／子音／母音）音韻連鎖の規則
を与える音声合成基本単位、音韻結合規則により母音・
子音といった音韻の種類を決め、各音韻のスペクトルを
結合しフォルマントパターンを作成する。これらの音源
生成部５及びスペクトルパターン生成部６に接続される
音声合成器７では前記音源情報と前記フォルマントパタ
ーンから合成音声を作成しスピーカ８に出力する。さら
に、音声分析合成装置は、人の音声を直接入力するマイ
クロフォン９と、該マイクロフォン９からの音声信号を
入力し、従来の技術の項で述べたと同一の線形予測法に
より人間が発話した音声を分析するＬＰＣ分析部１０
と、残差信号の波形を入力し音源情報としてピッチ周波
数及びパワーを形成する残差分析部１１とを具備し、残
差分析部１１は音源生成部５に接続され、ＬＰＣ分析部
１０は音声合成器７に接続される。ＬＰＣ分析部１０で
分析されたスペクトルパラメータは声道形状を表し音声
のスペクトル概形を特徴づける。さらに残差分析部１１
から得られるピッチ周波数及びパワーの音源パラメータ
は声帯の動きを表し韻律的な特徴を表す。音源パラメー
タを入力した音源生成部５により形成された音源波形が
ディジタルフィルタで形成された音声合成器７を通すこ
とにより合成音声が得られる。なお、理解を容易にする
ために、音源生成部５は構成上図８の音源モデル部１０
３に対応し、音声合成器７は声道フィルタ１０４にそれ
ぞれ対応する。

【００１１】以上説明した音声分析合成装置の音源生成
部５では音源波形の高調波位相の制御を行うので、極め
て肉声に近い自然な音色を実現可能になった。以下に本
願の特徴である音源生成部５の詳細について説明する。
本発明者は、前述の発明が解決しようとする課題の項で
述べたように、より自然で滑らかな合成音声をうるため
には、音源モデルの改良が不可欠であると考えた。従来
の音声分析合成方式では、スペクトル的な特徴はすべて
声道モデル側に持たせ、韻律的な特徴はすべて音源モデ
ル側に持たせるという極めて単純な方法であるため、複
雑な音声の変動を忠実に表現できるモデル化になってい
ないためである。複雑な動きは、主に波形レベルで観測
されるものである。したがって、統計的に分析されるス
ペクトルパラメータを扱う声道モデルでは、前述の複雑
な変動を表すことが困難である。一方、声帯モデルに相
当する音源モデルは、波形を直接的に扱えるモデルであ
るために前記の問題を解決する改良の余地がある。そこ
で、以下に説明する本発明の方法によって、音源波形の
形状を自由に制御するモデルを使用する。

【００１２】まず、以下に説明するＰＩＦＭモデルの原
点であり、従来モデルの典型でもあるパルス音源モデル
を説明する。パルス音源モデルは２つのパルス間隔を声
帯波の基本周期とし、パルスの振幅を音源振幅とみなす
波形モデルである。パルス音源モデルにおいて、２つの
パルスがある間隔をおいて存在するということは、その
間隔の逆数である基本周波数がパルス間に定常的に存在
しているのと同義である。したがって、複数のパルスが
連続して様々な間隔で存在する場合はパルス毎に基本周
波数が階段上に変化していることになる。この現象は、
自然音声の声帯波にはみられない変化であり、パルス音
源を用いた分析合成音の音質が、自然音の音質とことな
ってしまう原因の一端である。ＰＩＦＭモデルでは、こ
の現象を解消するために、基本周波数の変化と振幅の変
化をサンプリング周期で細かく求め、周波数変調と振幅
変調をサンプリング間隔で行う基本波を作る。次に、こ
の基本波に対する高調波をナイキスト周波数まで様々な
位相で足し合わせて、音源を作成する。次に各高調波に
対する位相の決定法について述べる。

【００１３】この音源生成部５では、以下に述べる仮説
をもとに音源モデルの位相制御（以下、PPPIFM : Phase
Programable PIFM という。）を行っている。仮説：人
は、音色の成分として音声波形の１ピッチの大まかな形
状を知覚している。波形の位相を完全に再現できなくて
も、１ピッチ内のエネルギー分散が適切に行われること
によって、スペクトル的特徴を変えずに、音色だけを変
化させることができる。

【００１４】上記の仮説を下記の方法で検証する。音源
生成部５で形成する音源波形Ｓ（ｔ）を以下の式のよう
に定義する。Ｓ（ｔ）＝ΣＡ（ｈ）・ｃｏｓ｛ｈω（ｔ）＋Λ・Φ（ｔ）｝ …（１）ここで、ｔは時間、ｈは高調波番号、ω（ｔ）は基本周
波数の時間関数であり、Ａ（ｔ）は振幅（パワー）であ
る。本発明の特徴であるΦ（ｔ）を「最大ずれ位相」と
呼び、各高調波毎に異なった定数として、別に定める方
法を使って予め与えられる。同様に、Λは、この音源波
形の「位相変化」を示す重みパラメータである。この段
階では、０≦Λ≦１の定数である。ここで、Λが０に近
い程、音源波形の各高調波位相は揃い、波形はパルス状
に近くなる。すなわち、１ピッチのエネルギーが局所化
する。逆にΛが１に近い程、音源波形の各高調波位相は
ずれが生じ、波形は非パルス的な様相を呈する。すなわ
ち、１ピッチエネルギーの分散がなされる。「最大ずれ
位相」Φ（ｔ）は、Λが１のときの各高調波の位相を表
している。したがって、Φ（ｔ）は高調波をある位相関
係で重ね合わせたときに最も１ピッチ以内のエネルギー
が分散するようなパターンを解析的に求めることによっ
て得られる。上記の音源モデルを用い、様々なΛの値に
ついて合成を行った結果、Λの値に依存した音色の変化
が得られることがわかっている。

【００１５】図２は種々のΛの値に対する音源波形Ｓ
（ｔ）を示す図である。本図に示すように、Λが０に近
い程、硬く、クリアな音色となり、Λが１に近いほど、
柔らかく、鈍い音色となる。すなわち、Λの値を適切に
制御することによって、様々な音色の音声を作り出すこ
とができる。次に、上記の音源モデルを、分析値を基に
制御する場合について述べる。

【００１６】自然音中の韻律情報は、ＬＰＣ分析を行っ
た結果の残差波形に残っている。この残差波形をそのま
ま音源に用いれば、元の自然音と全く同様の波形が得ら
れる。すなわち、音源モデルが模倣すべきものは、残差
波形中にある特徴量である。残差波形を観察するおと、
音声音中でもパルス的なものから非パルス的なものま
で、さまざまな波形形状があることがわかる。この特徴
を逐次分析し、上記モデルに適用することで、残差波形
の波形形状を模倣する。そこで、式（１）のΛを時変パ
ラメータΛ（ｔ）とした、以下の音源モデルを用いる。

【００１７】Ｓ（ｔ）＝ΣＡ（ｈ）・ｃｏｓ｛ｈω（ｔ）＋Λ（ｔ）・Φ（ｔ）｝ …（２）まず、ＬＰＣ分析部１０から残差分析部１１へ出力され
る残差波形信号ｅ（ｔ）の「パルスらしさ」を分析す
る。この一例として、波形のパルスらしさを示す下記式
のような統計値が考えられる。

【００１８】 λ（ｔ）＝（Σｅ（ｔ）²／Ｌ）／（Σ｜ｅ（ｔ）｜／Ｌ）² …（３）Ｌはフレーム長である。パルスらしさが十分ならば、各
高調波の位相は揃う傾向にある。また、パルスらしさが
少ないということは、１ピッチ内のエネルギーが分散す
る傾向があることを意味している。この傾向を利用して
式（３）で作られた様々なλとΛの関係が得られる。

【００１９】図３は「パルスらしさ」を示すλと「位相
変化」を示す重みパラメータΛとの関係を説明する図で
ある。本図に示すように，任意の「パルスらしさ」λ
（ｔ）に対して、その波形を実現する「位相変化」Λ
（ｔ）を得ることができる。例えば、数値計算で求めた
場合、以下の式で近似できる対応関係が得られる。 Λ（ｔ）＝（４．２−λ（ｔ））／２．０ …（５）残差波形の分析は、中心時刻ｔで２５．６ｍｓ幅のフレ
ーム（Ｌ）を５ｍｓ周期で行う。フレーム中の「平均基
本周波数ω（ｔ）」、「平均音源振幅Ａ（ｔ）」、「パ
ルスらしさλ（ｔ）」を式（３）から求め、さらにλ
（ｔ）は「位相変化重み係数」Λ（ｔ）に式（５）を用
いて変換される。ω、Ａ、Λはフレーム周期間でサンプ
ル点毎に線形補間され、サンプリング周期で連続値とな
り、これを式（２）に用いて音源波形を得る。

【００２０】図４は本発明により得られた音源波形と残
差波形との比較を示す図である。本図に示すように、得
られた音源波形はあらゆる時刻においても、残差波形の
形状に近いものとなっている。

【００２１】

【発明の効果】以上説明したように本発明によれば、周
波数変調及び振幅変調に加えて残差信号の波形形状から
位相を求めて、さらにこの位相に基づき位相変調を行い
音源信号が形成されるので、広く使われているＬＰＣ合
成器の合成音声の品質をより自然な音色に近づけること
ができる。

【図面の簡単な説明】

【図１】本発明の実施例に係る音声分析合成装置の概略
を示すブロック図である。

【図２】種々のΛの値に対する音源波形Ｓ（ｔ）を示す
図である。

【図３】「パルスらしさ」を示すλと「位相変化」を示
す重みパラメータΛとの関係を説明する図である。

【図４】本発明により得られた音源波形と残差波形との
比較を示す図である。

【図５】従来の音声分析を説明する図である。

【図６】従来の音声合成を説明する図である。

【図７】従来のＰＩＦＭ音源モデルによる残差信号の再
現を説明する図である。

【図８】合成音声の信号波形を示す図である。

【符号の説明】

１…発音情報入力部２…音韻継続時間長生成部３…音源振幅パターン生成部４…ピッチ周波数パターン生成部５…音源生成部６…スペクトルパターン生成部７…音声合成器８…スピーカ９…マイクロフォン１０…ＬＰＣ分析部１１…残差分析部

Claims

【特許請求の範囲】

【請求項１】音声信号を線形予測して得られた予測信
号と前記音声信号との残差信号の分析から得られたピッ
チ周波数及びパワーに基づき周波数変調及び振幅変調を
施して残差信号を再現する音源信号を形成して音声を合
成するための音声分析合成装置において、前記周波数変調及び振幅変調に加えて前記残差信号の波
形形状から位相を求めて、さらにこの位相に基づき位相
変調を行い音源信号を形成することを特徴とする音声分
析合成装置。
【請求項２】前記音源信号の各高調波信号についての
前記位相は前記残差信号のピッチ内のエネルギー分散か
ら求められることを特徴とする請求項１に記載の音声分
析合成装置。