JPH02204800A

JPH02204800A - スピーチ処理と合成方法及びその装置

Info

Publication number: JPH02204800A
Application number: JP1087180A
Authority: JP
Inventors: David L Thomson; デビット　エル　トムソン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1988-04-08
Filing date: 1989-04-07
Publication date: 1990-08-14
Also published as: DE68907629D1; EP0336658A3; DE68907629T2; CA1336457C; EP0336658B1; EP0336658A2; US5023910A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声処理に関する。

（従来の技術）シヌソイド（ｓｌｎｕｓｏｉｄ）の和を用いて合成を行
う高調波モデルを用いて正確なスピーチ表現を実証した
。解析器によってスピーチを複数のオーバラップフレー
ム（ｏｖｅｒｌａｐｐｌｎｇ　ｆｒａｍｅｓ）に区切り
、各ウィンドをハミングウィンドウ（ＨａｍｒＡｉｎｇ
　ｖｌｎｄｏｖ）　Ｌ、レベル／位相スペクトル（ｍａ
ｇｎ１ｔｕｄｅ／ｐｈａｓｓ　５ｐｅｃｔｒｕｉ）を構
築し、個々のシヌソイドの位置をチエツクする。続いて
シヌソイドの正確な。

位相９周波数を合成器へ送り、合成器によって合成スピ
ーチを生成する。非量子化高調波スピーチコーディング
システムにおいては、得られたスピーチの質は、はとん
どの人が合成スピーチからオリジナルスピーチを識別で
きるないという点で、はぼ透過である。この方式を低ビ
ツト速度で適用することは、最高８０個の高調波を必要
とするために困難である。（ここで言うシヌソイドとは
高調波を言うが、必ずしも高調波に関するものであると
は限らない）一般的には、ピッチ（ｐｉｔｃｈ）とボイ
シング（ｖｏｔｅｉｎｇ）を導入するか又は、特定の又
はすべての位相情報を落す（ｄｒｏｐ）ことによって９
゜６キロビツト／秒以下のビット速度を確保する。

そうすれば量と堅牢度（ｒｏｂｕｓｔｎｅｓｓ）が非量
子化スピーチと異なる合成スピーチが得られる。

１つの先行技術としての高調波スピーチコーディングシ
ステムがＲ，Ｊ、ＭｃＡｕｌａｙ／Ｔ、Ｐ、Ｑｕａｔｉ
ｅｒｉ著’Ｍｕｌｔｉｒａｔｅ　５ｉｎｕｓｏｌｄａｌ
　ｔｒａｎｓｆｏｒｍ　ｃｏｄｆｎｇ　ａｔｒａｔｅｓ
　ｆｒｏｍ　２．４　ｋｂｐｓ　ｔｏ　８　ｋｂｐｓ　
　（２，４〜８ｋｂｐｓマルチ速度正弦波変換コーディ
ング）Ｐｒｏｃ、　ＩＥＥＥ　Ｉｎｔ、　Ｃｏｎｆ、Ａ
ｃｏｕｓｔ、、５ｐｅｅｃｈ、　ａｎｄ　Ｓｌｇｎａｌ
　Ｐｒｏｃ、、ｖｏＩＪ、ｐｐ、１６４５−１８４８．
Ａｐｒｉｌ　１９８７に紹介されている。解析器でパラ
メータを解析して、スピーチをモデリングし、パラメー
タが取り得る複数の個別値の中から最も近い値を選ぶこ
とによって各パラメータを量子化（数量化）する。

（発明が解決しようとする課題）この方式は、個々のパラメータだけを数量化するために
スカラ量子化（ｓｃａｌａｒ　ｑｕａｎｔｉｚａｔｉｏ
ｎ）と呼ばれている。ＭｃＡｕｌａｙシステムは高質の
合成スピーチを生成するが、スピーチの質を向上させた
高調波コーディングシステムの開発が望まれている。

ベクトル量子化（数量化）として知られている方式を初
めて高調波スピーチコーディングシステムに応用してス
ピーチクォリティを向上させる本発明の原理によって前
記の開発ニーズを満し、技術の進歩を図ることができる
。

（課圀を解決するための手段及び作用）本発明の代表的
実施態様としての解析器によってパラメータを解析し、
入力スピーチのレベル／位参目スペクトルをモデリング
する。実レベルスペクトルと推定レベルスペクトルとの
差に最も近いベクトルの第１ベクトルコードブックを求
める。

実位相スペクトルと推定位を目スペクトルとの差に最も
近いベクトルの第２ベクトルコードブックをもとめる。

ベクトルの指数（Ｉｎｄｅｘ）と換算係数（ｓｃａｌｉ
ｎｇ　ｆ’ａｃｔｏｒ）を合成器へ送り、換算係数倍ベ
クトル（ｓｃａｌｅｄ　ｖｅｃｔｏｒ）を推定レベル／
位相スペクトルに加え、これを解析器で処理し、シヌソ
イドの和としてのスピーチを生成する。

高調波スピーチコーディングシステムの解析器において
、本発明の方法に従ってまずスピーチからスペクトルを
求めることによってスピーチを処理する。スピーチから
求めたスペクトルに基づいて、複数のシヌソイドを求め
る（決定する）ための−組のパラメータを計算し、スピ
ーチをモデリングする。このパラメータセットが複数の
シヌソイドを決定するのに用いられる、このパラメータ
セットをシヌソイドの和としてスピーチ合成用に転送す
る。パラメータセットには、スピーチから求めたスペク
トルから計算し、少なくとも１つのシヌソイドの正弦波
周波数を計算するために用いる１つのパラメータサブセ
ットが含まれている。

このパラメータセットの少なくとも１つのパラメータは
ベクトルコードブックの指数である。

高調波コーディングシステムの合成器において、本発明
の方法に従って、ベクトルコードブックの指数である少
なくとも１つのパラメータを含むパラメータセットを受
けることによってスピーチを合成する。パラメータセッ
トを処理し、非等間隔正弦波周波数を有する複数のシヌ
ソイドを求める。

指数によって部分的に設定されるコードブックのベクト
ルに基づいて少なくとも１つのシヌソイドを求める。続
いてスピーチをシヌソイドの和として合成する。

解析器と合成器を共に備えている高調波スピーチコーデ
ィングシステムにおいては、本発明の方法に従って、ま
ず、複数のサンプルから成るスペクトルをスピーチから
求める（決定する）ことによってスピーチを処理する。

スピーチから求めたスペクトルに基づいて一組のパラメ
ータを計算し、ベクトルコードブックの指数である少な
くとも１つのパラメータを含んでいるスピーチをモデリ
ングする。このパラメータセットを処理し、シヌソイド
数が求めたスペクトルのサンプル数よりも少ない複数の
シヌソイドを求める。指数によって部分的に設定される
コードブックのベクトルに基づいて少なくとも１つのシ
ヌソイドを求める。続いてスピーチをシヌソイドの和と
して合成する。

本発明の１つの代表的実施態様としての高調波スピーチ
コーディングシステムの解析器においては、スペクトル
と位相スペクトルを共に求め、計算したパラメータには
、求めたスペクトルをモデリングする第１パラメータと
、求めた位相スペクトルをモデリングする第２パラメー
タが含まれている。第１パラメータの中の少なくとも１
つは第１ベクトルコードブックの指数であり、第２パラ
メータの中の少なくとも１つは第２ベクトルコードブッ
クの指数である。第１コードブツクのベクトルは、ラン
ダム周波数とランダム振幅を有する複数のシヌソイドの
変換によって構築する。第２コードブツクのベクトルは
、ホワイトガウスノイズシーケンス（ｖｈｉｔｅ　Ｇａ
ｕｓｓｉａｎ　ｎｏｉｓｅ　５ｅｑｕｅｎｃｅ）によっ
て構築する。スペクトルは、スピーチの高速フーリエ変
換によって求める内挿スペクトル（ｉｎｔｅｒｐｏｌａ
ｔｅｄ　ｓｐｅｃｔｒｕｍ）である０本発明の１つの代
表的実施態様としての高調波スピーチコーディングシス
テムの合成器においては、指数によって部分的に設定さ
れるベクトルに基づいて、合成用に用いる各シヌソイド
の正弦波周波数、振幅並びに位相を求める。

本発明の別の実施態様としての高調波スピーチコーディ
ングシステムにおいては、スペクトルから複数のシヌソ
イドの正弦波振幅、周波数並びに位相を求めることによ
ってパラメータ計算を行う。

更に、スピーチに基づいてシヌソイドの正弦波振幅、周
波数並びに位相を求める。続いて、実際に求めた正弦波
振幅、周波数、位相と、推定正弦波振幅、周波数、位相
との差をベクトル量子化する。

（実施例）本発明の高調波スピーチコーディングシステムにおいて
は、個々の高調波を送るのではなく、複合スペクトル（
ｃｏｍｐｌｅｘ　ｓｐｅｃｔｒｕｍ）全体を一括して送
る。この方式の１つの利点としては、解析器ではなく合
成器がシヌソイドの周波数を加金せて合成スピーチを生
成するため、各高調波の周波数を送る必要がない。高調
波は、スペクトルから直接求められるから、基本ピッチ
（ｆｕｎｄａｍｅｎｔａｌ　ｐｉｔｃｈ）に高調波とし
て関係づける必要はない。　連続スピーチスペクトルを
低ビツト速度で送るためには、少数のパラメータで記述
することができる一組の連続関数でスペクトルを特定し
なければならない。関数は、入力スピーチの高速フーリ
エ変換（Ｆ　Ｆ　Ｔ　　ｆａｓｔ　Ｆｏｕｒｉｅｒ　ｔ
ｒａｎｓｒｏｒｍ　）によって計算するレベル／位相ス
ペクトルに整合している。これは、特殊冗長性を利用す
ることができるために実スペクトルと仮想スペクトルを
整合させるよりも容易である。−例として、スペクトル
は１つのフレームから次のフレームにかけて比較的不変
であり、位相は周波数に比例して大きくなるから、振幅
と位相は部分的に先行フレームから予測することができ
る。

レベルと位相を表現する他の有益な関数は極／零モデル
（ｐｏｌｅ−ｚｅｒｏ　ｍｏｄｅｌ）である。理想ノく
ルスに対する極／零フィルタのレスポンスとして音声を
モデリングし、フィルタパラメータからレベルと位相を
導出する。モデル推定ｍ　（ｍｏｄｅｌ　ｅｓｔｌｍａ
ｔｅ）に残っているエラーをベクトル量子化する。

−組の関数でスペクトルを整合させた後、モデルパラメ
ータを合成器へ送り、そこでスペクトルを再構築する。

ピッチとボイシング（ｖｏｌｃｌｎｇ）に基づく方法と
違って、この方式はパラメータ推定誤差（ｐａｒａｍｅ
ｔｅｒ　ｅｓｔｉｍａｔｉｏｎ　ｅｒｒｏｒ）の影響を
受けない。　本発明の１つの代表的実施態様としてのシ
ステムのスピーチコーディングプロセスは次の通りであ
る。

解析：１、　極と零で複合スペクトルエンベロープ（ｃｏｍｐ
ｌｅｘ　５ｐｅｃｔｒａｌ　ｅｎｖｅｌｏｐｅ）をモデ
リングする口２、　複合スペクトルエンベロープからレ
ベルスペクトルエンベローブを求める。

３、　　レベルスペクトルの微細ピッチストラクチ＋　
（ｆ’ｌｎｅ　ｐｉｔｃｈ　５ｔｒｕｃｔｕｒｅ）をモ
デリングする。

４、　残留エラーをベクトル量子化する。

５、位相スペクトルをモデリングする２つの方法を評価
する：ａ、極／零モデルから位相を導出す。

ｂ、先行フレームから位相を予測する。

６、　　ステップ５において最良方法を選び、残留エラ
ー（ｒｅｓｉｄｕａｌ　ｅｒｒｏｒ）をベクトル量子化
する。

７、　　モデルパラメータを送る。

合成：１、レベルスペクトルと位相スペクトルを再構築する。

２、レベルスペクトルから正弦周波数を求める。

３、シヌソイドの和としてスピーチを生成する。

レベルスペクトルモデリングできるだけ数の少ないパラメータでスペクトルレベル（
ｓｐｅｃｔｒａｌ　ｍａｇｎｌｔｕｄｅ）を表現するた
めには、スペクトルの冗長性を活用する。レベルスペク
トルは、スペクトルの全体形状を設定するエンベロープ
と、微細ストラクチ＋　（ｆｉｎｅ　５ｔｒｕｃｔｕｒ
ｅ）を付与する略周期成分（ａｐｐｒｏｘｌｍａｔｅｌ
ｙ　　ｐｅｒｌｏｄｉｃ　ｃｏｍｐｏｎｅｎｔｓ）とで
構成されている０全極（ａｌｌ−ｐｏｌｅ　ｍｏｄｅｌ
）又は極／零モデルのレベルレスポンス（ｍａｇｎｉｔ
ｕｄｅ　ｒｅｓｐｏｎｓｅ）で滑らかなレベルスペクト
ルエンベローブを表現する。非理想的状態の時に周期性
は明白に存在しているが、しばしば堅牢性が欠ける時に
、ピッチ検出器（ｐｉｔｃｈ　ｄｅｔｅｃｔ。

ｒ）が微細ストラフチャを表現できる。数多くのスピー
チ特性に対してレベルスペクトルにぴったりフィツトす
る１つのパラメータ関数を見付は出すことは困難である
。複数の関数の加重和　（ｖｅｌｇｈｔｅｄ　５ＬＪＩ
Ｉ＋）から１つの信頌し得る推定値を構築することがで
きる。特に有効であることが確認された関数は、先行フ
レームの推定レベルスペクトルと、２つの周期パルス例
のレベルスペクトルと、コードブックから選択したベク
トルの４つである。

パルス例とコードワード（ｃｏｄｅｖｏｒｄ）をレベル
エンベロープによって時間領域でハミングウィンドし、
周波数領域で重みづけし、スペクトルの全体形状を保持
する。周知の平均二乗誤差（ＭＳＥｍｅａｎ　５ｑｕａ
ｒｅｄ　ｅｒｒｏｒ）法によって最適重みを見出す。

各パルス列の最適周波数と最適コードベクトルは同時に
選択せず、−度に１つの周波数を見出し、続いてコード
ワードを選択する。ｍ個の関数ｄ１（ω）、１≦ｉ≦ｍ
と、それに対するｍ個の重みα、　がある場合は、レベ
ルスペクトル　Ｆ（ω）１ｍの推定値は次式で与えられる：１ｉ（ω）１＝Σｑ、≠（ω）、　　　　−ｒ。

ｉ−ルベルスペクトルは線スペクトルではなく連続スペクトル
としてモデリングする。重みは、次式を最小にするもの
を選ぶ。

ここでＦ（ω）はスピーチスペクトルであり、ω　はサ
ンプリング周波数であり、ｍは含まれている関数の数で
ある。

第１パルス例の周波数は、可能周波数レンジ（４０乃至
４ＤＯ１１ｚ　）を試験し、ｍ−２で（２）式を最小に
するものを選ぶ。各候補周波数についてα１．ｍの最適
値を計算する。ｍ−３で同じプロセスを繰返し、第２周
波数を見出す。非音声スピーチ（ｕｎｖｏｉｃｅｄ　５
ｐｅｅｃｈの場合のようにレベルスペクトルが周期スト
ラフチャ（ｐｅｒｉｏｄｉｃ　５ｔｒｕｃｔｕｒｅ）を
持っていない時は、パルス列の中の１つが時々低周波数
を持っており、ウィンドウィングの効果で関連スペクト
ルが比較的スムーズになる。

コードベクトルはｍ−４で（２）式を最小にするコード
ブックエントリであり、サーチング（ｓｅａｒｃｈｉｎ
ｇ）によって見出す。本発明のシステムにおいては、ラ
ンダム周波数とランダム振幅を有する１６個のシヌソイ
ドのＦＦＴによってコードワードを構築する。

位相モデリング良好なスピーチクォリティを確保するためには正弦波ス
ピーチ合成器において位相を正しく表現することが重要
である。レベルスペクトルと違って、位相スペクトルは
高調波で整合させるだけで良い。従って解析器と合成器
の両方において高調波を求める。本発明の実施態様にお
いては２つの位相推定法を用いる。２つの方法を各スピ
ーチフレームについて評画し、エラーが小さい方の方法
を採用する。第１の方法はパラメータ法であり、ピッチ
パルスの位置とスペクトルエンベロープとからを位相を
導き出す。第２の方法は、位相が連続していることを前
提とし、先行フレームの位相から位相を予測する。

最小位相を前提としてレベルスペクトルから位相を導出
す高調波位相モデルを作った。声東位相関数（ｖｏｃａ
ｌ　ｔｒａｃｔ　ｐｈａｓｅ　ｆｕｎｃｔｌｏｎ）φｋ
を全極モデルから直接導き出すこともできる。周波数が
ω　の高調波の実位相θ、とφ、との関係は次式％式％ここで１０はピッチパルスの立上り（ｏｎｓｅｔ）の時
間位置であり、λは整数であり、ε、は推定誤差（ｅｓ
ｔｉｍａｔｉｏｎ　ｅｒｒｏｒ）即ち位相残留誤差（ｐ
ｈａｓｅ　　ｒｅｓｉｄｕａｌ）である。

εにの分散（ｖａｒｌａｎｃｅ）は、全極モデルに代え
て極／零モデルを用いることによってほぼ完全に抑制す
ることができる。声門パルス（ｇｌｏｔｔａｌｐｕｌｓ
ｅ）の形状が理想パルスから隔たっている時には、零に
よって鼻音（ｎａｓａｌ）とスピーチを表現することが
できる。複合スペクトル誤差を最小にする方法によれば
、ｐ個の極とｑ個の零とで構成されるフィルタＨ（ωｋ
）を係数ａｉ、ｂｌで指定する：最適フィルタは総二乗スペクトル誤差を最小にする：Ｈ（ωｋ）はスペクトルエンベロープのみをモデリング
する故、ωに、１≦に≦にはレベルスペクトルのピーク
に参目当する。この式の閉解（ｃｌｏｓｅｄ　ｆｏｒｍ
　５ｏｌｕｔｉｏｎ）は知られていない故、反復法を用
いる。一定範囲の値１０を試し、Ｅ、を最小にする値を
選ぶことによってパルスの位置を認識する。Ｈ（ωｋ）
が最小パルスであることは強制されない。極／零フィル
タが正確な位相スペクトルを出すが、レベルスペクトル
に誤差を生じる場合がある。このような場合の最も簡単
な解決方法としては全極フィルタに切替える。

第２の位相推定法は、周波数がフレームからフレームに
かけて直線的に変化し、位相が連続していることを前提
とする。この２つの条件が満されれば、先行フレームか
ら位相を予測することができる。高周波の位相の推定増
分はｔ；、であるに、は高調波の平均周波数であり、ｔ
はフレームとフレームとの間の時間である）。この方法
は、先行フレームの正確な推定値が得られ、高調波がフ
レームとフレームとの間で正確に整合している場合に有
効である。誤差を最小にする方法によって位相を推定し
た後、εに残留位相（ｐｈａｓｅ　ｒｅｓｉｄｕａｌ）
が残る。残留位相は、εｋを０個のフードワードから成
るコードブックから選んだランダムベクトルｔＦ１≦Ｃ
≦Ｃで置換することによっｃ、にゝてコーディングすることができる。コードワード選択は
、最小平均二乗誤差（ＭＳＥ）を与えるコードワードを
見出すための徹底サーチング（ｅｘｈａｕｓｔｉｖｅ　
　５ｅａｒｃｈ）である。周波数と振幅Ａｋは同じであ
るが、位相が角度ｖｋだけ隔たっている２つのシヌソイ
ドのＭＳＥは心　Ｃ１−ｃｏｓ　（ｖｋ）コである。コ
ードワードは次式を最小にするものを選ぶ。

この基準（ｃｒｉｔｅｒｉｏｎ）によってまた、パラメ
ータ推定法を用いるか、位相予測推定法を用いるかを判
断することができる。

特定のスペクトル内の残留位相は相関関係がなく、正規
分布になる性質がある故、ホワイトガウスノイズシーケ
ンスからコードワードを構築する。

換算係−数は非直線性の故に必ずしも最適ではないが、
コードワードに換算係数を掛けて誤差を最小にする。

高調波整合フレームとフレームの間で高調波が正しく整合している
ことは位相を予測するうえで特に重要な条件である。フ
レームとフレームとの間の基本ピッチ変化と、サイドロ
ーブとウィンドウの減算（Ｓｉｄｅｌｏｂｅｓ　ａｎｄ
　ｗｉｎｄｏｗ　５ｕｂｔｒａｃｔ１ｏｎ）に起因する
疑似低レベル高調波（ｆ’ａｌｓｅ　ｌｏｗ−１ｅｖｅ
ｌ　ｈａｒｍｏｎｉｅｓ）によって整合が複雑化する。

エネルギー基準（ｅｎｅｒｇｙ　ｃｒｉｔｅｒｉｏｎ）
を導入することによって真高調波を疑似高調波から弁別
することができる。フレームｍのに番目の高調波の振幅
をＡｋ（＋ｎ）とする。

エネルギー正規化振幅比することができる。周波数がωＫ（＋ｎ）の高調派は、
調節ずみ周波数差１ωｅ）−γω筺１）１　　　　　・・・（８）が小さ
ければ、周波数　ω−１）の高調波に近いと考えること
ができる。（８）式によれば接近しており、（７）式に
従えば振幅が同じである隣接フレーム内の高調波を整合
する。正しい整合が分っていれば、振幅で重みづけした
先行フレームのピッチに対する各高調波のピッチの平均
比からγを推定することができる。

またはその逆数が一定の上限を越えれば、４ｍ）　、Ａ
ｌｍ−１）　　は同じ同一高調波に対応せず、整合しな
い。実験によって求めた最適上限は約４であるが、厳密
に４とする必要はない。

ピッチの変化は、専攻フレームに対する各フレームのピ
ッチの比γを推定することによって考慮γの値は未知で
あるが、γを最初に１とし、高調波を反復整合させ、安
定値になるまでγを更新することによって近似すること
ができる。この方式は、ピッチが急変化し疑似高調波が
存在する時に信頼性がある。

合成パラメータ法の特徴としては、各シヌソイドの周波数を
合成器によってレベルスペクトルから求めることができ
、転送する必要がない。スピーチをウィンドウィングす
れば高調波のスペクトル拡張（ｓｐｅｃｔｒａｌ　ｓｐ
ｒｅａｄｉｎｇ）を生じる故・スペクトルのピークの位
置を確認することによって周波数を推定する。大低の音
声スピーチ（ｖｏｉｃｅｄ　５ｐｅｅｃｈ）に対して　
は単純なピークビッキングアルゴリスム（ｐｅａｋ　ｐ
ｉｃｋｉｎｇ　ａｌｇｏｒｉｔｈｍ）で十分対応できる
が、非音声スピーチ（ｕｎｖｏｉｃｅｄ　５ｐｅｅｃｈ
　）の場合は不自然な音質になる。それは、非音声スピ
ーチにおいてはスペクトルの領域内のピーク数がスペク
トルエネルギーではなくスペクトルの平滑度に関係づけ
られるからである。

ピーク数（ｃｏｎｃｅｎｔｒａｔｉｏｎ　ｏｆ　ｐｅａ
ｋｓ）は、見出した各高調波の寄与を減算することによ
って、スペクトル領域の下の部分に対応させることがで
きる。まず最大ベークを高調波と仮定するハミングウィ
ンドウのレベルスペクトルをスピーチのレベ、ルスペク
トルから減算する。レベルスペクトルがすべての周波数
において一定の限界値を下回るまでこのプロセスを繰返
す。

ＦＦＴ解による周波数推定誤差によって、ピークの真の
位置の一方の側しか測定されない場合は、スペクトルの
一部がウィンドウ減算（ｗｉｎｄｏｗ　５ｕｂｔ　ｒａ
ｃｔ　ｔｏｎ）の後他方の側に残り、スプリアス高調波
（ｓｐｕｒｉｏｕｓ　ｈａｒｍｏｎｉｃ）になる。ＦＦ
Ｔ解内のこの周波数誤差（ａｒｔｌｆａｃｔｓ　ｏｆ’
　ｆ’ｒｅｑｕｅｎｃｙ　ｅｒｒｏｒｓ）は、変更ウィ
ンドウ変換（ｍｏｄ１ｆ’ｌｅｄ　ｗｉｎｄｏｗ　ｔｒ
ａｎｓｒｏｒｍ）Ｗ’ｉ−ｍａｘ　　（Ｗ　　　　Ｗ　
　、　Ｗ　　　）を用ｔ−ｔ’　　＋　　　ｉ＋ｔいることによって排除することができる（Ｗ、は時間ウ
ィンドウ（ｔｉｍｅ　ｗｉｎｄｏｗ）のＦＦＴを表すシ
ーケンスである）。Ｗｏｌはここでは広いレベルスペク
トルウィンドウ（ｗｌｄｅ　ｍａｇｎｉｔｕｄｅ　ｓｐ
ｅｃｔｒｕｍｗｉｎｄｏｗ）と言う。ＦＦＴが大きけれ
ばＷ’ｉはｗｌに近付く。

この実施態様におけるフレーム境界の不連続を防止する
ために、後続フレームと先行フレームに各々半分オーバ
ラップする二乗余弦関数（ｒａｉｓｅｄｃｏｓｌｎｅ　
ｆｕｎｃｔｉｏｎ）によって各フレームをウィンドウィ
ング（ウィンドウ）する。互いに整合している隣接フレ
ーム内の高調波ペア（ｈａｒｍｏｎｉｃｓ　ｐａｉｒ）
の周波数を直線内挿（ｌｉｎｅａｒ　１ｎｔｅｒｐｏｌ
ａｔ１ｏｎ）すれば、ペアの和が連続シヌソイドになる
。非整合高調波の周波数は不変である。

［詳細な説明］本発明の１つの代表的実施態様としてのスピーチ処理シ
ステムのブロックダイヤグラムを第１図に示す。Ａ／Ｄ
へ変換器１１０が来入アナログスピーチ信号をデジタル
スピーチサンプルに変換し、このデジタルスピーチサン
プルをスピーチ解析器１２０が処理する。解析器１２０
で得た一連のパラメータをチャンネルエンコーダ１３０
へ送ってエンコーディング。チャンネルデコーダ１５０
がチャンネルデコーダ１３０からチャンネル１４０を介
して量子化パラメータを受け、これをデコーディングし
、デコーディングしたパラメータをスピーチ合成器１６
０へ送る。合成器１６０がパラメータを処理して、デジ
タル合成スピーチを生成し、Ｄ／Ａ変換器１７．０がこ
のディジタル合成スピーチを処理し、来入アナログスピ
ーチ信号を再生する。

以下の解説を理解するための一連の計算式（１０）乃至
（２６）を表１．２．３に示す。

ＴＡＢＬＥ　１ＡＢＬＥ２ＴＡＢＬＥ３スピーチ合成器１２０の詳細を第２図に示す。変換器１
１０がデジタルスピーチサンプルをオーバラップフレー
ムにしてウィンドウ器２０１へ送り、ウィンドウ器２０
１が各フレームをハミングウィンドウして一連のスピー
チサンプルｓ１を生成する。

フレーミング（（’ｒａＩＱｉｎｇ）並びにウィンドウ
ィングの方法は当業者にとって周知である。スペクトル
生成器２０３がスピーチサンプルＳ、をＦＦＴを実行し
、レベルスペクトル　Ｆ（ψ）１　と位相スペクトルθ
（ω）を生成する。スペクトル生成器２０３が実行する
ＦＦＴは一次元フーリエ変換である。

スペクトル生成器２０３が生成するレベルスペクトルＩ
Ｆ（ω）１は内挿スペクトルであり、各スピーチフレー
ムにおいてスピーチサンプル　Ｓ、の数よりも周波数サ
ンプルの数の方が多い。内挿スペクトルは、スピーチサ
ンプルを時間領域を零埋込み（ｚｅｒｏ　ｐａｄｄｉｎ
ｇ）するか又は、未内挿スペクトルの隣接周波数サンプ
ルを内挿することによって求めることができる。全極解
析器２１０が（１１）式で与えられる全極モデルに対し
て標準直線予測コーディング（Ｌ　Ｐ　ＣＩ　１ｎｅａ
ｒ　ｐｒｅｄｉｃｔｌｖｅ　ｃｏｄｉｎｇ）を用いて、
ウィンドウィングずみスピーチサンプルｓ１を処理して
パラメータａ、を生成し、（２２）。

（２３）式を逐次評価し、Ｅ　を最小にするピッチパル
ス位置１０の値を出す。（１１）式のパラメータｐは全
極モデルの極数である。（２２）、　（２ｓ）、　　（
１ｔ）式において用いる周波数ωには、ピーク検出器２
０９によってレベルスペクトル１Ｆ（ω）１のピークを
検出するだけで求める周波数ω　えである。解析器２１
０がａｔ、ｉｏの値を、パラメータｂｌに対する零値（
極／零解析の零に相当する）と共に選択器２１２へ送る
。全極解析器２０６はまず、レベルスペクトルＩＦ（ω
）１と位相スペクトルθ（ω）から複合スペクトルＦ（
ω）を求め、続いて直線法と複合スペクトルＦ（ω）を
用いてパラメータａ　ｔ　ｒｂ＋、ｔｏを計算し、（５
）式で与えられるＥ、を最小にする（Ｈ（ωｋ）は（４
）式で与えられる）。

（４）式のパラメータｐ、ｚは各々極／零モデルの極数
２例数である。（４）　（５）式、において用いる周波
数ωには、ビーク検出器２０９が求める周波数ω　ｋで
ある。解析器２０６はａｔ　＊　　ｂ＋　＋　　ｔｏの
値を選択器２１２へ送る。選択器２１２は、全極解析結
果と極／零解析結果を評価し、（１２）式で与えられる
平均二乗誤差を最少にするパラメータを選択する。量子
化器２１７は、選択器２１２が選択したパラメータに対
して周知の量子化法を用いて量子化パラメータτ５１石
１．′″Ｔｏの値を求め、チャンネルエンコーダ１３０
がエンコーディングし、チャンネル１４０を介して送る
。

レベル量子化器２２１は、量子化パラメータｉ、。

石、、レベルスペクトルＩＦ（ω）１並びにコードブ五ツク２３０から選択したベクトルｖｄ、ｋを用いて推定
レベルスペクトルＩＦ（ω）１と一連のパラメータ（ｌ
ｂ４．　２．４．　ａａ、４＊　ａ４．４　ｒ　　ｆ　
１．　　ｆ　２を生成する。レベル量子化器２２１の詳
細を第４図に示す。総和器４２１が、時限器４２３が生
成する先行フレームの推定レベルスペクトル、パルス列
変換生成器（ｐｕｌｓｅ　ｔｒａｉｎ　ｔｒａｎｓｆｏ
ｒｍ　ｇｅｎｅｒａｔｏｒ）４０３゜４０５が生成する
２つの周期パルス列のレベルスペクトル、並びにコード
ブック２３０から選択したべクトル−１にの加重和とし
て推定レベルスペクトル　Ｆ（ω）　を生成する。パル
ス列とベクトル（コードワード）を時間領域でハミング
ウィンドウィングし、スペクトル逓倍器（Ｓｐｅｃｔｒ
ａｌ　ａｌｕｌｔｉｐｌｉｅｒ）４０７　、４０９　、
４１１を介して、生成器４０１が量子化パラメータａｌ
、ｂ１から生成するレベルスペクトルエンベローブを用
いて重みづけする。

生成した関数ｄ　（ω）、ｄ２　（ω）、ｄ３　（ω）
、ｄ４　（ω）、を更に各々逓倍器４１３　、４１５　
、４１７　、４１９で重みづけする。重みα１，４　’
　　２．４　’α３，４．α４，４並びに２つの周期パ
ルス列の周波数ｆｌ、ｆ２は、最適化器（ｏｐｔｌｍｉ
ｚｅｒ）４２７によって（２）式を最小にする値を選択
する。

シヌソイド検出器（ｓｌｎｕｓｏｉｄ　ｆ’１ｎｄｅｒ
）２２４　（第２図）が、推定レベルスペクトルＩＦ（
ω）　を解析することによって、一連のシヌソイドの振
幅Ａ、と周波数ω、を求める。シヌソイド検出器２２４
はまず、　１↑（ω）１　のピークを検出し、続いてピ
ークと同じ振幅と周波数の広いレベルスペクトルウィン
ドウを構築する。広いレベルスペクトルウィンドウは、
ここでは変更ウィンドウ変換（ｍｏｄｌｆ’ｌｅｄ　ｗ
ｉｎｄｏｗ　ｔｒａｎｓｆｏｒｍ）とも言う。シヌソイ
ド検出器２２４は続いて、広いレベルスペクトルウィン
ドウであるスペクトル成分を推定レベルスペクトルＩＦ
（ω）１　から減算する。シヌソイド検出器２２４は、
推定レベルスペクトルｌ（ω）がすべての周波数におい
て一定の限界値を下回るまで次のピークで同じプロセス
を繰返す。シヌソイド検出器２２４は続いて高調波に換
算係数を掛け、高調波の総エネルギーを、計算器２０８
が（１０）式にしたがってスピーチサンプルＳ、から計
算するエネルギーｎｒｇに等しくする。続いてシヌソイ
ド整合器（ｓｉｎｕｓｏｉｄ　ｍａｔｃｈｅｒ）２２７
が、（７）　、　　（８）　、　　（９）式に従って整
合された現在フレームのシヌソイドと先行シヌソイドを
結付けるアレイＢＡＣＫを生成する。シヌソイド整合器
２２７はまた、周知のフレーム格納法（ｆｒａｍｅ　ｓ
ｔｏｒａｇｅ　ｔｅｃｈｎｉｑｕｅ）を用いて、同じよ
うに整合させた現在フレームのシヌソイドと後続シヌソ
イドを結付けるアレイＬｌ！ＩＩＫを生成する。

パラメータ位相推定器２３５が、数量子化パラメータａ
ｔ１石ｉ”０を用いて、（２２）式に従って推定位相ス
ペクトルθ。（ω）を生成する。位相予測器２３３が、
周波数を直線的に内挿することを前提として先行フレー
ムから位相スペクトルθ１（ω）を予測する。選択器２
３７が、（２３）式で与えられる加重位相誤差を最小に
する推定位相スペクトルθ（ω）を選択する（Ａｋは各
シヌソイドの振幅であり、θ（ω、）は実位相であり、
　θ（ωｋ）は推定位相である）、パラメータ法を選ん
だ場合は、パラメータ（位相法）をゼロにセットし、予
測法を選んだ場合はパラメータ（位相法）を１にセット
する。総和器２４７、逓倍器２４５、最適化器２４０か
ら成るシステムによって、選んだ位相推定法を用いた後
、残る誤差をベクトル量子化する。ベクトル量子化プロ
セスとしては、θ（ωｋ）とθ（ω、）の差である残留
位相を、徹底サーチングによってコードブック２４３か
ら選択したランダムベクトルＷ。１．と置換し、（２４
）式で与えられる平均二乗誤差を最小にするコードワー
ドを求める。選択されたベクトルへの指数１１と換算係
数γ　がかくして決定される。総和器２４９が最終位相
スペクトルを生成する。時限器２５１が最終位）目スペ
クトルを１フレ一ム分だけ遅らせ、位相予測器２５１へ
送る。

スピーチ合成器１６０の詳細を第３図に示す。受けた指
数■２を用いて、コードブック３０８からベクトル′Ｉ
？ｄ、ｋを求める。レベル、スペクトル推定器３１Ｏが
ベクトル’ｄ、にと、受けたパラメータａ１．４”２．
４’　　ａ３．４’　　　４．４’　　ｆｌｏ　ｆ２゜
ａ、　、ｂ、を用いて、（１）式に従って推定レベルス
ペクトルｌ＜ω）１　を計算する。推定器３１０（第５
図）のコンポーネント５０１　、５０３　、５０５５０
７　、５０９　、５１１　、５１３　、５１５　、５１
７　、５１９　。

５２１　、５２３は、レベル量子化器２２１（第４図）
の対応コンポーネント４０１　、４０３　、４０５　、
４０７　、４０９　。

４１１　、４１３　、４１５　、４１７　、　ｔＬ９　
、４２１　、４２３と同じ機能を実行する。合成器１６
０シヌソイド検出器３１２（第３図）とシヌソイド整合
器３１４は、解析器１２０のシヌソイド検出器２２４（
第２図）とシヌソイド整合器２２７と同じ機能を実行し
、一連のシヌソイドの周波数ωにと、現在フレームのシ
ヌソイドと先行フレームのシヌソイドを結付けるアレイ
ＢＡＣＫ、並びに現在フレームのシヌソイドと後続フレ
ームのシヌソイドを結付けるアレイＬＩＮＫを生成する
。スピーチ合成器１６０が生成するシヌソイドは予め設
定した周波数は持っていない。同周波数は、チャンネル
１４０を介して受けるパラメータによって決まり、推定
レベルスペクトルＩＦ（ω）１の振幅値に基づいて計算
する。シヌソイド周波数は不等間隔である。

パラメータ位相推定器３１９は、受けたパラメータａ−
、ｂｔ　、ｉｏｓ　シヌソイド検出器３１２が生■ 成したシヌソイドの周波数ω　　（並びに解析器にゝ２１０（第２図）と解析器２０６に関連した上述したと
おりに実行する）全極解析又は極／零解析を用で、推定
位相スペクトルθ。（ω）を生成する。

受けたパラメータｂ、がすべでゼロである場合は、全極
解析を行い、しからざる場合は極／零解析を行う。位相
予測器３１７（第３図）は、位相予測器２３３（第２図
）と同じようにアレイＬＩＮＫＳＢＡＣＫから推定位相
スペクトルθ１　（ω）を生成する。受けたパラメータ
（位相法）の値に応じて推定器３１９又は予測器３１７
か推定位相スペクトルを生成する。

位相法がゼロである場合は推定器３１９が生成した推定
位相スペクトルを選択器３２１を介して総和器３２７へ
送る。位相法が１である場合は、予測器３１７が生成し
た推定位相スペクトルを総和器３２７へ送る。選択した
位相スペクトルを、受けたパラメータγ　と、受けた指
数１１によって設定されるコードブック３２３のベクト
ルＶ。、にとの積と加え合せ、位相法の値に応じて（２
５）式又は（２６）式で与えられる最終位相スペクトル
を求める。時限器３３５が最終位相スペクトルを１フレ
一ム分だけ遅らせて位相予測器３１７へ送る。シヌソイ
ド和生成器３２９が、長さがＷ（フレーム長さ）、周波
数がωｋ　（１≦に≦Ｋ）、振幅がＡｋ１位相がθにの
に個のシヌソイドを構築する。互いに整合している隣接
フレームのシヌソイドベアは周波数が直線内挿されてお
り、従って同シヌソイドペアの和は連続シヌソイドであ
る。非整合シヌソイドの周波数は不変である。生成器３
２９が構築したシヌソイドを加え合せ、ウィンドウィン
グ（ウィンドウ）器３３１が二乗余弦ウィンドウでシヌ
ソイド和をウィンドウィングし、オーバラップ／加算器
（ｏｖｅｒａｐ／ａｄｄｅｒ）３３３が隣接フレームを
オーバラップさせ、加え合せる。続いてＤ／Ａ変換器１
７０がデジタルサンプルをアナログ合成スピーチに変換
する。

スピーチ解析器１２０（第１図）とチャンネルエンコー
ダ１３０の機能を実行する本発明の１実施態様としての
スピーチ解析プログラムのフローチャートを第６図に示
す。本実施例においてはフレーム中心間隔りは１６０の
サンプルであり、フレーム長さＷは３２０サンプルであ
り、ＦＦＴＫサンプル数Ｆは１０２４サンプルである。

解析に用いる極数Ｐは８であり、零敗２は３である。ア
ナログスピーチは８０００サンプル／秒の速度でサンプ
リングする。ブロック８００乃至８０４で構成されてい
るＴＩＭＥ２ＰＯＬルーチン６０１（第８図）によって
ブロック６００（第６図）で受けるデジタルスピーチサ
ンプルを処理する。

ブロック８０２において（１０）式を用いてウィンドウ
正規化エネルギー（ｖｉｎｄｏｖ−ｎｏｒｍａｌｉｚｅ
ｄ　ｅｎｅｒｇｙ）を計算する。続いてプロセスはルー
チン６０１（第６図）から、ブロック９００乃至９０４
で構成されているＡＲＭ人ルーチン６０２（第９図）に
進む。ブロック９０２において（５）式でＥ　を計算す
る（Ｈ（ωｋ）は（４）式で与えられる）。ブロック９
０３において、全極解析に対して（１１）式を用いる。

ブロック９０４′において（１２）式で平均二乗誤差を
計算する。続いてプロセスはルーチン６０２（第６図）
から、ブロック１０００乃至１０１７で構成されている
ＱＭＡＧルーチン６０３（第１０図）へ進む。ブロック
１００４において（Ｉ３）、（１４）式でｆｌを計算す
る。ブロック１００５において（１５）式でＥｌを計算
する。ブロック１００９において（１６）、（１７）式
でｆ２を計算する。ブロック１０１０において（１８）
式でＥ２を計算する。ブロック１０１４において（１９
）式でＥ３を計算する。ブロック１０１７ニオいて（２
０）式を用いて推定レベルスペクトルＦ（ω）１　を構
築する。続いてプロセスはルーチン６０３（第６図）か
ら、ブロック１１００乃至１０１５で構成されているＭ
ＡＧ２ＬＩ　ＮＥルーチン６０４（第１１図）へ進む。

続いてプロセスルーチン６０４（第６図）から、ブロッ
ク１２００　　乃至１２０４で構成されているＬＩＮＫ
ＬＩＮＥルーチン６０５（第１２図）へ進み、先行フレ
ームと現在フレーム、並びに現在フレームと後続フレー
ムのシヌソイド整合を行う。第１２図のルーチンはフレ
ームｍとフレーム（ｍ−１）のシヌソイドを整合させる
。ブロック１２０３においで、（７）式で与えられる比
が０，２５以下または４．０以上あればペアのエネルギ
ーは同一ではない。ブロック１２０４において（２１）
式でピッチ比ρを計算する。続いてプロセスは、ルーチ
ン６０５（第６図）から、ブロック１３００乃至１３０
７で構成されているＣ０ＮＴルーチン６０６（第１３図
）へ進む。ブロック１３０１において、（２２）式を評
価することによって推定を行う。ブロック１３０３にお
いて（２３）式で加重位相誤差を求める（ＡＫは各シヌ
ソイドの振幅であり、θ（ω　）は実位相であり、　θ
（ω、）は推定に位相である）。ブロック１３０５において（２４）式で
平均二乗誤差を求める。ブロック　１３０７において、
パラメータ（位相法）がゼロであれば、（２５）式によ
って構築を行い、位相法が１であれば（２Ｂ）式によっ
て構築を行う。（２６）式において、フレーム中心時間
間隔ｔはＬ／８０００で与えられる。続いてプロセスは
ルーチン８０６（第６図）からＥＮＣルーチン６０７へ
進み、パラメータをエンコーディングする。

チャンネルデコーダ１５０（第１図）とスピーチ合成器
１６０の機能を実行する本発明の１つの代表的実施態様
としてのスピーチ合成プログラムのフローチャートを第
７図に示す。ブロック７００（第７図）で受けたパラメ
ータをＤＥＣルーチン７０】でデコーディングする。続
いてプロセスはルーチン７０１からＱＭＡＧルーチン７
０２へ進み、（１〉式に従って量子化スペクトル１９（
ω）１を構築する。続いてプロセスはルーチン７２０か
らＭＡＧ２ＬＩＮＥルーチン７０３へ進む（ＭＡＧ２Ｌ
ＩＮＥルーチン７０３は、エネルギーを再換算係数倍（
ｒｅｓｃａｌｅ）　Ｌないこと以外はＭＡＧ２ＬＩＮＥ
ルーチン６０４（第６図）と同じである。続いてプロセ
スはルーチン７０３（第７図）からＬＩＮＫＬＩＮＥル
ーチン７０４（第６図のＬＩＮＫ　ＬＩＮＥルーチン６
０５と同じ）へ進む。続いてプロセスはルーチン７０４
（第７図）からＣ０ＮＴルーチン７０５へ進む（ＣＯＮ
Ｔルーチン７０５は、位相法の値に応じて１つだけの位
相推定法を実行し、パラメータ推定に関しては、受けた
パラメータｂ１の値に応じて全極解析又は極／零解析の
みを実行すること以外は第６図のＣ０ＮＴルーチン６０
６と同じである）。続いてプロセスはルーチン７ｏｓ（
第７図）から、ブロック　１４００乃至１４０４て構成
されるＳＹＭＰＬＯＴルーチン７０６（第１４図）へ進
む。

高調波スピーチコーディングを行う本発明の別の実施態
様としてのスピーチ解析プログラム、スピーチ合成プロ
グラムのフローチャートを第１５図、第１６図に示す。

第１５図のフローチャートにおいて、ブロック１５０１
で入力スピーチの処理プロセスを開始し、−例としてＦ
ＦＴを行うことによってレベルスペクトルのピークを見
出だすスペクトル解析を行い、複数のシヌソイドについ
てＡ１、ω１１θｉを求める。ブロック１５０２におい
て、−例として入力スピーチの直線予測コーディング（
Ｌ　Ｐ　Ｃ１ｉｎｅａｒ　ｐｒｅｄｌｃＨｖｅ　ｃｏｄ
ｉｎｇ）解析によってパラメータセット１を計算し、推
定値　Ａ１を求める。ブロック１５０３において、Ａｔ
と　Ａ１との間の誤差を誤差基準Ｃｅｒｒｏｒ　ｃｒＨ
ｅｒｉｏｎ）に従ってベクトル量子化し、コードブック
におけるベクトルを設定する指数ＩＡと、換算係数αＡ
を求める。ブロック１５０４において、−例として、人
力スピーチのピッチ検出によって得られる１つの基本周
波数と、複数の整数倍基本周波数を用いてパラメータセ
ット２を計算し、推定値ω、を求める。

ブロック１５０５において、ω１とωｉとの間の誤差を
誤差基準に従ってベクトル量子化し、コードブックにお
けるベクトルを設定する指数Ｉωと、換算係数αωを求
める。ブロック１５０６において、例として、先述のパ
ラメータ解析又は位相予測によってパラメータセット３
を計算し、推定値θ。

を求める。ブロック１５０７において、θ、とθ、と！
１の間の誤差を誤差基準に従ってベクトル量子化し、コー
ドブックにおけるベクトルを設定する指数Ｉθと、換算
係数αθを求める。これらのパラメータセット、指数並
びに換算係数をブロック１５０８１；おいてエンコーデ
ィングする。（パラメータセット１，２．３は一般的に
は離散セット（ｄｉｓｊｏｉｎｔｓｅｔ）ではない）。

本発明の別の実施態様としてのスピーチ合成プログラム
のフローチャートを第１６図に示す。ブロック１６０１
において受けたパラメータの処理プロセスを開始し、パ
ラメータセット１を用いて推定値Ａ、を求める。ブロッ
ク１６０２において、指数１Ａによって設定されるベク
トルをコードブックから求め、換算計数αＡを掛け、Ａ
Ｉに加え合せてＡＩを求める。ブロック１６０３におい
て、パラメータセット２を用いて推定値ω、を求める。

ブロック１６０４において、指数Ｉωによって設定され
るベクトルをコードブックから求め、換算計数αωを掛
け、ω、に加え合せてω１を求める。ブロワ】り１６０５において、パラメータセット３を用いて推定
値θＩを求める。ブロック１６０６において、指数Ｉθ
によって設定されるベクトルをコードブックから求め、
換算係数αθを掛け、θ１に加え合せてθ、を求める。

ブロック１６０７において、Ａｏ、ｌ　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　１ωＩ、θ■によって設定されるシヌソイドの和
としての合成スピーチを生成する。

［発明の効果］本願の発明によれば、スピーチクォリティを向上させた
高質の合成スピーチが生成できる高調波スピーチコーデ
ィングシステムを提供することができる。

【図面の簡単な説明】

第１図は、本発明の１つの代表的実施態様としての高調
波スピーチコーディングシステムのブロックダイヤグラ
ム、第２図は、第１図のシステムのスピーチ解析器のブロッ
クダイヤグラム、第３図は、第１図のシステムのスピーチ合成器のブロッ
クダイヤグラム、第４図は、第２図の解析器のレベル数量子化器（ｍａｇ
ｎｉｔｕｄｅ　ｑｕａｎｔｉｚｅｒ）のブロックダイヤ
グラム、第５図は、第３図の合成器のレベルスペクトル
推定器、第６図、第７図は、本発明の１つの代表的実施態様とし
てのスピーチ解析プログラム、スピーチ合成プログラム
のフローチャート、第８図乃至第１３図は、第６図のスピーチ解ｉ斤プログ
ラムのルーチンの詳細フローチャート、第１４図は、第
７図のスピーチ合成プログラムのルーチンの詳細フロー
チャート、第１５図、第１６図は、本発明の別の実施態様としての
スピーチ解析プログラム、スピーチ合成プログラムのフ
ローチャートである。出願人：アメリカン　テレフォン　アンド図面の１■ゴ
（内容に変更なし）６日・し７３勺６／Ｉ″３ＦＩＧ。ＦＩＧ。ＦＩＧ。ＦＩＧ。ＦＩＧ。ＦＩＧ− ＦＩＧ。Ｔａ１すＦＴＧ、　　１５スヒ０−〒′ｉ４手主ｆＴ７′ログラヘＦＩＧ、　　１
６スヒ４−−７合へ７’０７’ｙへ手続辛ｙＤ正書（方式）％式％事件の表示平成１年特許願第８７１８０号２゜発明の名称スピーチ処理と合成方法及びその装置３゜補正をする者事件との関係アメリカン　テレフォン

Claims

【特許請求の範囲】（１）高調波スピーチコーディングシステムにおいて、スピーチからスペクトルを決定するプロセス、このスペ
クトルに基づいて、該スピーチをモデリングし、複数の
シヌソイドを設定するのに用いられるパラメータセット
を計算するプロセス、このパラメータセットを該シヌソ
イドの和としてスピーチ合成器へ送信するプロセスから
なり、前記計算プロセスは、このスペクトルに基づいて
、少なくとも１つのシヌソイドの正弦波周波数を求める
ためのパラメータセットのサブセットを計算するステッ
プを含み、このパラメータセットの中の少なくとも１つのパラメー
タがベクトルコードブックの指数であることを特徴とす
るスピーチ処理方法。（２）前記スペクトルがレベルスペクトルを含むことを
特徴とする請求項１記載の方法（３）前記ベクトルコードブックが、ランダム周波数と
振幅を有する複数のシヌソイドの変換で構成されている
ベクトルを含むことを特徴とする請求項２記載の方法。（４）前記計算プロセスは、レベルスペクトルのピークを検出するステップと、この
ピークに対応する複数のシヌソイドを決定するステップ
とを含むことを特徴とする請求項２記載の方法。（５）前記スペクトルは位相スペクトルを含むことを特
徴とする請求項１記載の方法。（８）前記ベクトルコードブックのベクトルが、ホワイ
トガウスノイズシーケンスで構築されていることを特徴
とする請求項５記載の方法。（７）前記決定プロセスは、レベルスペクトルと位相スペクトルを求めるステップを
含み、前記計算プロセスは、前記レベルスペクトルをモデリングする第１パラメータ
と前記位相スペクトルをモデリングする第２パラメータ
とを含むパラメータセットを計算するステップを含み、前記第１パラメータの少なくとも１つが第１ベクトルコ
ードブックの指数を含み、前記第２パラメータの少なくとも１つが第２ベクトルコ
ードブックの指数を含むことを特徴とする請求項１記載
の方法。（８）前記計算プロセスは、決定されたスペクトルから複数のシヌソイドをその各正
弦波振幅も含めて決定するステップ、前記スピーチに基
づいて、各シヌソイドの正弦波振幅を推定するステップ
、前記指数を決定するために、決定ステップから求めた正
弦波振幅と推定ステップから求めた正弦波振幅との誤差
をベクトル量子化するステップ、を含むことを特徴とす
る請求項１記載の方法。（９）前記計算プロセスは、決定されたスペクトルから複数のシヌソイドをその各正
弦波周波数も含めて決定するステップ、前記スピーチに
基づいて、各シヌソイドの正弦波周波数を推定するステ
ップ、前記指数を決定するために決定ステップから求めた正弦
波周波数と推定ステップから求めた正弦波周波数との誤
差をベクトル量子化するステップ、を含むことを特徴と
する請求項１記載の方法。（１０）前記計算プロセスは、決定されたスペクトルから複数のシヌソイドをその各正
弦波位相も含めて決定するステップ、前記スピーチに基
づいて、各シヌソイドの正弦波位相を推定するステップ
、前記指数を決定するために、決定ステップから求めた正
弦波位相と推定ステップから求めた正弦波位相との誤差
をベクトル量子化するステップ、を含むことを特徴とす
る請求項１記載の方法。（１１）前記決定スペクトルが、前記スピーチの一次元
変換を含むことを特徴とする請求項１記載の方法。（１２）前記決定スペクトルが、前記スピーチのフーリ
エ変換を含むことを特徴とする請求項１記載の方法。（１３）前記決定スペクトルが、前記スピーチの高速フ
ーリエ変換であることを特徴とする請求項１記載の方法
。（１４）前記決定スペクトルが、内挿スペクトルを含む
ことを特徴とする請求項１記載の方法。（１５）前記計算プロセスが、前記決定スペクトルから複数のシヌソイドを決定するス
テップと、前記シヌソイドの周波数における誤差基準に従って、決
定スペクトルをモデリングする際の誤差を最小にする前
記指数を選択するステップとを含むことを特徴とする請求項１記載の方法。（１６）高調波スピーチコーディングシステムにおいて
、ベクトルコードブックの指数を含む少なくとも１つのパ
ラメータを含むパラメータセットを受付けるプロセス、不等間隔正弦波周波数を有する複数のシヌソイドを決定
するために、前記パラメータを処理するプロセス、少なくとも１つのシヌソイドの一部は、前記指数によっ
て設定される前記コードブックのベクトルに従って決定
され、前記シヌソイドの和としてスピーチを合成するプロセスを含むことを特徴とするスピーチ合成方法。（１７）前記処理プロセスは、前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波周波数を決定すること
を特徴とする請求項１６記載の方法。（１８）前記処理プロセスは、前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波振幅を決定することを
特徴とする請求項１６記載の方法。（１９）前記処理プロセスは、前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波位相を決定することを
特徴とする請求項１６記載の方法。（２０）高調波スピーチコーディングシステムにおいて
、複数のサンプルから成るスペクトルを前記スピーチから
決定するプロセス、前記スペクトルに基づいて、少なくともその１つがベク
トルコードブックの指数を含み、前記スピーチをモデリ
ングするパラメータセットを計算するプロセス、複数のシヌソイドをを決定するために、前記パラメータ
セットを処理するプロセス、少なくとも１つのシヌソイドは、前記指数によって設定
されるベクトルにより部分的に決定され、前記シヌソイ
ドの数は前記サンプルの数よりも少なく、前記シヌソイドの和としてスピーチを合成するプロセスからなることを特徴とするスピーチ処理方法。（２１）前記スピーチから少なくとも１つのシヌソイド
の正弦波周波数を決定するプロセスをさらに有すること
を特徴とする請求項２０記載の方法。（２２）前記スペクトルから少なくとも１つのシヌソイ
ドの正弦波周波数を決定するプロセスをさらに有するこ
とを特徴とする請求項２０記載の方法。（２３）前記複数のシヌソイドは、不等間隔正弦波周波
数を有することを特徴とする請求項２０記載の方法。（２４）高調波スピーチコーディングシステムにおいて
、スピーチに応じてスペクトルを決定する手段、前記スペ
クトル決定手段に応じて、前記スピーチをモデリングし
、少なくともその１つがベクトルコードブックの指数で
あり、複数のシヌソイドを設定するのに使用されるパラ
メータセットを計算する手段、前記計算手段は、前記スペクトル決定手段に応じて、前
記スペクトルに基づいて、少なくとも１つのシヌソイド
の正弦波周波数を決定するために使用される前記パラメ
ータセットのサブセットを計算する手段、スピーチ合成に使用される前記パラメータセットを通信
する手段とからなることを特徴とするスピーチ処理装置。（２５）高調波スピーチコーディングシステムにおいて
、不等間隔正弦波周波数を有する複数のシヌソイドを決定
するために、ベクトルコードブックの指数を含む少なく
とも１つのパラメータを含むパラメータセットの受領に
応じて、パラメータセットを処理する手段、少なくとも１つのシヌソイドは、前記指数によって設定
される前記コードブックのベクトルに部分的に基づき、前記シヌソイドの和としてスピーチを合成する手段とを有することを特徴とするスピーチ合成装置。