JPH02204800A - スピーチ処理と合成方法及びその装置 - Google Patents
スピーチ処理と合成方法及びその装置Info
- Publication number
- JPH02204800A JPH02204800A JP1087180A JP8718089A JPH02204800A JP H02204800 A JPH02204800 A JP H02204800A JP 1087180 A JP1087180 A JP 1087180A JP 8718089 A JP8718089 A JP 8718089A JP H02204800 A JPH02204800 A JP H02204800A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- spectrum
- sinusoids
- determining
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 title claims description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 135
- 230000008569 process Effects 0.000 claims abstract description 40
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 3
- 238000013139 quantization Methods 0.000 abstract description 10
- 230000003595 spectral effect Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 13
- 239000002131 composite material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000252067 Megalops atlanticus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 101100400355 Arabidopsis thaliana MAG2L gene Proteins 0.000 description 1
- 241000283986 Lepus Species 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- GPKJTRJOBQGKQK-UHFFFAOYSA-N quinacrine Chemical compound C1=C(OC)C=C2C(NC(C)CCCN(CC)CC)=C(C=CC(Cl)=C3)C3=NC2=C1 GPKJTRJOBQGKQK-UHFFFAOYSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035943 smell Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声処理に関する。
(従来の技術)
シヌソイド(slnusoid)の和を用いて合成を行
う高調波モデルを用いて正確なスピーチ表現を実証した
。解析器によってスピーチを複数のオーバラップフレー
ム(overlapplng frames)に区切り
、各ウィンドをハミングウィンドウ(HamrAing
vlndov) L、レベル/位相スペクトル(ma
gn1tude/phass 5pectrui)を構
築し、個々のシヌソイドの位置をチエツクする。続いて
シヌソイドの正確な。
う高調波モデルを用いて正確なスピーチ表現を実証した
。解析器によってスピーチを複数のオーバラップフレー
ム(overlapplng frames)に区切り
、各ウィンドをハミングウィンドウ(HamrAing
vlndov) L、レベル/位相スペクトル(ma
gn1tude/phass 5pectrui)を構
築し、個々のシヌソイドの位置をチエツクする。続いて
シヌソイドの正確な。
位相9周波数を合成器へ送り、合成器によって合成スピ
ーチを生成する。非量子化高調波スピーチコーディング
システムにおいては、得られたスピーチの質は、はとん
どの人が合成スピーチからオリジナルスピーチを識別で
きるないという点で、はぼ透過である。この方式を低ビ
ツト速度で適用することは、最高80個の高調波を必要
とするために困難である。(ここで言うシヌソイドとは
高調波を言うが、必ずしも高調波に関するものであると
は限らない)一般的には、ピッチ(pitch)とボイ
シング(voteing)を導入するか又は、特定の又
はすべての位相情報を落す(drop)ことによって9
゜6キロビツト/秒以下のビット速度を確保する。
ーチを生成する。非量子化高調波スピーチコーディング
システムにおいては、得られたスピーチの質は、はとん
どの人が合成スピーチからオリジナルスピーチを識別で
きるないという点で、はぼ透過である。この方式を低ビ
ツト速度で適用することは、最高80個の高調波を必要
とするために困難である。(ここで言うシヌソイドとは
高調波を言うが、必ずしも高調波に関するものであると
は限らない)一般的には、ピッチ(pitch)とボイ
シング(voteing)を導入するか又は、特定の又
はすべての位相情報を落す(drop)ことによって9
゜6キロビツト/秒以下のビット速度を確保する。
そうすれば量と堅牢度(robustness)が非量
子化スピーチと異なる合成スピーチが得られる。
子化スピーチと異なる合成スピーチが得られる。
1つの先行技術としての高調波スピーチコーディングシ
ステムがR,J、McAulay/T、P、Quati
eri著’Multirate 5inusoldal
transform codfng atrates
from 2.4 kbps to 8 kbps
(2,4〜8kbpsマルチ速度正弦波変換コーディ
ング)Proc、 IEEE Int、 Conf、A
coust、、5peech、 and Slgnal
Proc、、voIJ、pp、1645−1848.
April 1987に紹介されている。解析器でパラ
メータを解析して、スピーチをモデリングし、パラメー
タが取り得る複数の個別値の中から最も近い値を選ぶこ
とによって各パラメータを量子化(数量化)する。
ステムがR,J、McAulay/T、P、Quati
eri著’Multirate 5inusoldal
transform codfng atrates
from 2.4 kbps to 8 kbps
(2,4〜8kbpsマルチ速度正弦波変換コーディ
ング)Proc、 IEEE Int、 Conf、A
coust、、5peech、 and Slgnal
Proc、、voIJ、pp、1645−1848.
April 1987に紹介されている。解析器でパラ
メータを解析して、スピーチをモデリングし、パラメー
タが取り得る複数の個別値の中から最も近い値を選ぶこ
とによって各パラメータを量子化(数量化)する。
(発明が解決しようとする課題)
この方式は、個々のパラメータだけを数量化するために
スカラ量子化(scalar quantizatio
n)と呼ばれている。McAulayシステムは高質の
合成スピーチを生成するが、スピーチの質を向上させた
高調波コーディングシステムの開発が望まれている。
スカラ量子化(scalar quantizatio
n)と呼ばれている。McAulayシステムは高質の
合成スピーチを生成するが、スピーチの質を向上させた
高調波コーディングシステムの開発が望まれている。
ベクトル量子化(数量化)として知られている方式を初
めて高調波スピーチコーディングシステムに応用してス
ピーチクォリティを向上させる本発明の原理によって前
記の開発ニーズを満し、技術の進歩を図ることができる
。
めて高調波スピーチコーディングシステムに応用してス
ピーチクォリティを向上させる本発明の原理によって前
記の開発ニーズを満し、技術の進歩を図ることができる
。
(課圀を解決するための手段及び作用)本発明の代表的
実施態様としての解析器によってパラメータを解析し、
入力スピーチのレベル/位参目スペクトルをモデリング
する。実レベルスペクトルと推定レベルスペクトルとの
差に最も近いベクトルの第1ベクトルコードブックを求
める。
実施態様としての解析器によってパラメータを解析し、
入力スピーチのレベル/位参目スペクトルをモデリング
する。実レベルスペクトルと推定レベルスペクトルとの
差に最も近いベクトルの第1ベクトルコードブックを求
める。
実位相スペクトルと推定位を目スペクトルとの差に最も
近いベクトルの第2ベクトルコードブックをもとめる。
近いベクトルの第2ベクトルコードブックをもとめる。
ベクトルの指数(Index)と換算係数(scali
ng f’actor)を合成器へ送り、換算係数倍ベ
クトル(scaled vector)を推定レベル/
位相スペクトルに加え、これを解析器で処理し、シヌソ
イドの和としてのスピーチを生成する。
ng f’actor)を合成器へ送り、換算係数倍ベ
クトル(scaled vector)を推定レベル/
位相スペクトルに加え、これを解析器で処理し、シヌソ
イドの和としてのスピーチを生成する。
高調波スピーチコーディングシステムの解析器において
、本発明の方法に従ってまずスピーチからスペクトルを
求めることによってスピーチを処理する。スピーチから
求めたスペクトルに基づいて、複数のシヌソイドを求め
る(決定する)ための−組のパラメータを計算し、スピ
ーチをモデリングする。このパラメータセットが複数の
シヌソイドを決定するのに用いられる、このパラメータ
セットをシヌソイドの和としてスピーチ合成用に転送す
る。パラメータセットには、スピーチから求めたスペク
トルから計算し、少なくとも1つのシヌソイドの正弦波
周波数を計算するために用いる1つのパラメータサブセ
ットが含まれている。
、本発明の方法に従ってまずスピーチからスペクトルを
求めることによってスピーチを処理する。スピーチから
求めたスペクトルに基づいて、複数のシヌソイドを求め
る(決定する)ための−組のパラメータを計算し、スピ
ーチをモデリングする。このパラメータセットが複数の
シヌソイドを決定するのに用いられる、このパラメータ
セットをシヌソイドの和としてスピーチ合成用に転送す
る。パラメータセットには、スピーチから求めたスペク
トルから計算し、少なくとも1つのシヌソイドの正弦波
周波数を計算するために用いる1つのパラメータサブセ
ットが含まれている。
このパラメータセットの少なくとも1つのパラメータは
ベクトルコードブックの指数である。
ベクトルコードブックの指数である。
高調波コーディングシステムの合成器において、本発明
の方法に従って、ベクトルコードブックの指数である少
なくとも1つのパラメータを含むパラメータセットを受
けることによってスピーチを合成する。パラメータセッ
トを処理し、非等間隔正弦波周波数を有する複数のシヌ
ソイドを求める。
の方法に従って、ベクトルコードブックの指数である少
なくとも1つのパラメータを含むパラメータセットを受
けることによってスピーチを合成する。パラメータセッ
トを処理し、非等間隔正弦波周波数を有する複数のシヌ
ソイドを求める。
指数によって部分的に設定されるコードブックのベクト
ルに基づいて少なくとも1つのシヌソイドを求める。続
いてスピーチをシヌソイドの和として合成する。
ルに基づいて少なくとも1つのシヌソイドを求める。続
いてスピーチをシヌソイドの和として合成する。
解析器と合成器を共に備えている高調波スピーチコーデ
ィングシステムにおいては、本発明の方法に従って、ま
ず、複数のサンプルから成るスペクトルをスピーチから
求める(決定する)ことによってスピーチを処理する。
ィングシステムにおいては、本発明の方法に従って、ま
ず、複数のサンプルから成るスペクトルをスピーチから
求める(決定する)ことによってスピーチを処理する。
スピーチから求めたスペクトルに基づいて一組のパラメ
ータを計算し、ベクトルコードブックの指数である少な
くとも1つのパラメータを含んでいるスピーチをモデリ
ングする。このパラメータセットを処理し、シヌソイド
数が求めたスペクトルのサンプル数よりも少ない複数の
シヌソイドを求める。指数によって部分的に設定される
コードブックのベクトルに基づいて少なくとも1つのシ
ヌソイドを求める。続いてスピーチをシヌソイドの和と
して合成する。
ータを計算し、ベクトルコードブックの指数である少な
くとも1つのパラメータを含んでいるスピーチをモデリ
ングする。このパラメータセットを処理し、シヌソイド
数が求めたスペクトルのサンプル数よりも少ない複数の
シヌソイドを求める。指数によって部分的に設定される
コードブックのベクトルに基づいて少なくとも1つのシ
ヌソイドを求める。続いてスピーチをシヌソイドの和と
して合成する。
本発明の1つの代表的実施態様としての高調波スピーチ
コーディングシステムの解析器においては、スペクトル
と位相スペクトルを共に求め、計算したパラメータには
、求めたスペクトルをモデリングする第1パラメータと
、求めた位相スペクトルをモデリングする第2パラメー
タが含まれている。第1パラメータの中の少なくとも1
つは第1ベクトルコードブックの指数であり、第2パラ
メータの中の少なくとも1つは第2ベクトルコードブッ
クの指数である。第1コードブツクのベクトルは、ラン
ダム周波数とランダム振幅を有する複数のシヌソイドの
変換によって構築する。第2コードブツクのベクトルは
、ホワイトガウスノイズシーケンス(vhite Ga
ussian noise 5equence)によっ
て構築する。スペクトルは、スピーチの高速フーリエ変
換によって求める内挿スペクトル(interpola
ted spectrum)である0本発明の1つの代
表的実施態様としての高調波スピーチコーディングシス
テムの合成器においては、指数によって部分的に設定さ
れるベクトルに基づいて、合成用に用いる各シヌソイド
の正弦波周波数、振幅並びに位相を求める。
コーディングシステムの解析器においては、スペクトル
と位相スペクトルを共に求め、計算したパラメータには
、求めたスペクトルをモデリングする第1パラメータと
、求めた位相スペクトルをモデリングする第2パラメー
タが含まれている。第1パラメータの中の少なくとも1
つは第1ベクトルコードブックの指数であり、第2パラ
メータの中の少なくとも1つは第2ベクトルコードブッ
クの指数である。第1コードブツクのベクトルは、ラン
ダム周波数とランダム振幅を有する複数のシヌソイドの
変換によって構築する。第2コードブツクのベクトルは
、ホワイトガウスノイズシーケンス(vhite Ga
ussian noise 5equence)によっ
て構築する。スペクトルは、スピーチの高速フーリエ変
換によって求める内挿スペクトル(interpola
ted spectrum)である0本発明の1つの代
表的実施態様としての高調波スピーチコーディングシス
テムの合成器においては、指数によって部分的に設定さ
れるベクトルに基づいて、合成用に用いる各シヌソイド
の正弦波周波数、振幅並びに位相を求める。
本発明の別の実施態様としての高調波スピーチコーディ
ングシステムにおいては、スペクトルから複数のシヌソ
イドの正弦波振幅、周波数並びに位相を求めることによ
ってパラメータ計算を行う。
ングシステムにおいては、スペクトルから複数のシヌソ
イドの正弦波振幅、周波数並びに位相を求めることによ
ってパラメータ計算を行う。
更に、スピーチに基づいてシヌソイドの正弦波振幅、周
波数並びに位相を求める。続いて、実際に求めた正弦波
振幅、周波数、位相と、推定正弦波振幅、周波数、位相
との差をベクトル量子化する。
波数並びに位相を求める。続いて、実際に求めた正弦波
振幅、周波数、位相と、推定正弦波振幅、周波数、位相
との差をベクトル量子化する。
(実施例)
本発明の高調波スピーチコーディングシステムにおいて
は、個々の高調波を送るのではなく、複合スペクトル(
complex spectrum)全体を一括して送
る。この方式の1つの利点としては、解析器ではなく合
成器がシヌソイドの周波数を加金せて合成スピーチを生
成するため、各高調波の周波数を送る必要がない。高調
波は、スペクトルから直接求められるから、基本ピッチ
(fundamental pitch)に高調波とし
て関係づける必要はない。 連続スピーチスペクトルを
低ビツト速度で送るためには、少数のパラメータで記述
することができる一組の連続関数でスペクトルを特定し
なければならない。関数は、入力スピーチの高速フーリ
エ変換(F F T fast Fourier t
ransrorm )によって計算するレベル/位相ス
ペクトルに整合している。これは、特殊冗長性を利用す
ることができるために実スペクトルと仮想スペクトルを
整合させるよりも容易である。−例として、スペクトル
は1つのフレームから次のフレームにかけて比較的不変
であり、位相は周波数に比例して大きくなるから、振幅
と位相は部分的に先行フレームから予測することができ
る。
は、個々の高調波を送るのではなく、複合スペクトル(
complex spectrum)全体を一括して送
る。この方式の1つの利点としては、解析器ではなく合
成器がシヌソイドの周波数を加金せて合成スピーチを生
成するため、各高調波の周波数を送る必要がない。高調
波は、スペクトルから直接求められるから、基本ピッチ
(fundamental pitch)に高調波とし
て関係づける必要はない。 連続スピーチスペクトルを
低ビツト速度で送るためには、少数のパラメータで記述
することができる一組の連続関数でスペクトルを特定し
なければならない。関数は、入力スピーチの高速フーリ
エ変換(F F T fast Fourier t
ransrorm )によって計算するレベル/位相ス
ペクトルに整合している。これは、特殊冗長性を利用す
ることができるために実スペクトルと仮想スペクトルを
整合させるよりも容易である。−例として、スペクトル
は1つのフレームから次のフレームにかけて比較的不変
であり、位相は周波数に比例して大きくなるから、振幅
と位相は部分的に先行フレームから予測することができ
る。
レベルと位相を表現する他の有益な関数は極/零モデル
(pole−zero model)である。理想ノく
ルスに対する極/零フィルタのレスポンスとして音声を
モデリングし、フィルタパラメータからレベルと位相を
導出する。モデル推定m (model estlma
te)に残っているエラーをベクトル量子化する。
(pole−zero model)である。理想ノく
ルスに対する極/零フィルタのレスポンスとして音声を
モデリングし、フィルタパラメータからレベルと位相を
導出する。モデル推定m (model estlma
te)に残っているエラーをベクトル量子化する。
−組の関数でスペクトルを整合させた後、モデルパラメ
ータを合成器へ送り、そこでスペクトルを再構築する。
ータを合成器へ送り、そこでスペクトルを再構築する。
ピッチとボイシング(volclng)に基づく方法と
違って、この方式はパラメータ推定誤差(parame
ter estimation error)の影響を
受けない。 本発明の1つの代表的実施態様としてのシ
ステムのスピーチコーディングプロセスは次の通りであ
る。
違って、この方式はパラメータ推定誤差(parame
ter estimation error)の影響を
受けない。 本発明の1つの代表的実施態様としてのシ
ステムのスピーチコーディングプロセスは次の通りであ
る。
解析:
1、 極と零で複合スペクトルエンベロープ(comp
lex 5pectral envelope)をモデ
リングする口2、 複合スペクトルエンベロープからレ
ベルスペクトルエンベローブを求める。
lex 5pectral envelope)をモデ
リングする口2、 複合スペクトルエンベロープからレ
ベルスペクトルエンベローブを求める。
3、 レベルスペクトルの微細ピッチストラクチ+
(f’lne pitch 5tructure)をモ
デリングする。
(f’lne pitch 5tructure)をモ
デリングする。
4、 残留エラーをベクトル量子化する。
5、位相スペクトルをモデリングする2つの方法を評価
する: a、極/零モデルから位相を導出す。
する: a、極/零モデルから位相を導出す。
b、先行フレームから位相を予測する。
6、 ステップ5において最良方法を選び、残留エラ
ー(residual error)をベクトル量子化
する。
ー(residual error)をベクトル量子化
する。
7、 モデルパラメータを送る。
合成:
1、レベルスペクトルと位相スペクトルを再構築する。
2、レベルスペクトルから正弦周波数を求める。
3、シヌソイドの和としてスピーチを生成する。
レベルスペクトルモデリング
できるだけ数の少ないパラメータでスペクトルレベル(
spectral magnltude)を表現するた
めには、スペクトルの冗長性を活用する。レベルスペク
トルは、スペクトルの全体形状を設定するエンベロープ
と、微細ストラクチ+ (fine 5tructur
e)を付与する略周期成分(approxlmatel
y perlodic components)とで
構成されている0全極(all−pole model
)又は極/零モデルのレベルレスポンス(magnit
ude response)で滑らかなレベルスペクト
ルエンベローブを表現する。非理想的状態の時に周期性
は明白に存在しているが、しばしば堅牢性が欠ける時に
、ピッチ検出器(pitch detect。
spectral magnltude)を表現するた
めには、スペクトルの冗長性を活用する。レベルスペク
トルは、スペクトルの全体形状を設定するエンベロープ
と、微細ストラクチ+ (fine 5tructur
e)を付与する略周期成分(approxlmatel
y perlodic components)とで
構成されている0全極(all−pole model
)又は極/零モデルのレベルレスポンス(magnit
ude response)で滑らかなレベルスペクト
ルエンベローブを表現する。非理想的状態の時に周期性
は明白に存在しているが、しばしば堅牢性が欠ける時に
、ピッチ検出器(pitch detect。
r)が微細ストラフチャを表現できる。数多くのスピー
チ特性に対してレベルスペクトルにぴったりフィツトす
る1つのパラメータ関数を見付は出すことは困難である
。複数の関数の加重和 (velghted 5LJI
I+)から1つの信頌し得る推定値を構築することがで
きる。特に有効であることが確認された関数は、先行フ
レームの推定レベルスペクトルと、2つの周期パルス例
のレベルスペクトルと、コードブックから選択したベク
トルの4つである。
チ特性に対してレベルスペクトルにぴったりフィツトす
る1つのパラメータ関数を見付は出すことは困難である
。複数の関数の加重和 (velghted 5LJI
I+)から1つの信頌し得る推定値を構築することがで
きる。特に有効であることが確認された関数は、先行フ
レームの推定レベルスペクトルと、2つの周期パルス例
のレベルスペクトルと、コードブックから選択したベク
トルの4つである。
パルス例とコードワード(codevord)をレベル
エンベロープによって時間領域でハミングウィンドし、
周波数領域で重みづけし、スペクトルの全体形状を保持
する。周知の平均二乗誤差(MSEmean 5qua
red error)法によって最適重みを見出す。
エンベロープによって時間領域でハミングウィンドし、
周波数領域で重みづけし、スペクトルの全体形状を保持
する。周知の平均二乗誤差(MSEmean 5qua
red error)法によって最適重みを見出す。
各パルス列の最適周波数と最適コードベクトルは同時に
選択せず、−度に1つの周波数を見出し、続いてコード
ワードを選択する。m個の関数d1(ω)、1≦i≦m
と、それに対するm個の重みα、 がある場合は、レベ
ルスペクトル F(ω)1m の推定値は次式で与えられる: 1i(ω)1=Σq、≠(ω)、 −r。
選択せず、−度に1つの周波数を見出し、続いてコード
ワードを選択する。m個の関数d1(ω)、1≦i≦m
と、それに対するm個の重みα、 がある場合は、レベ
ルスペクトル F(ω)1m の推定値は次式で与えられる: 1i(ω)1=Σq、≠(ω)、 −r。
i−ル
ベルスペクトルは線スペクトルではなく連続スペクトル
としてモデリングする。重みは、次式を最小にするもの
を選ぶ。
としてモデリングする。重みは、次式を最小にするもの
を選ぶ。
ここでF(ω)はスピーチスペクトルであり、ω はサ
ンプリング周波数であり、mは含まれている関数の数で
ある。
ンプリング周波数であり、mは含まれている関数の数で
ある。
第1パルス例の周波数は、可能周波数レンジ(40乃至
4DO11z )を試験し、m−2で(2)式を最小に
するものを選ぶ。各候補周波数についてα1.mの最適
値を計算する。m−3で同じプロセスを繰返し、第2周
波数を見出す。非音声スピーチ(unvoiced 5
peechの場合のようにレベルスペクトルが周期スト
ラフチャ(periodic 5tructure)を
持っていない時は、パルス列の中の1つが時々低周波数
を持っており、ウィンドウィングの効果で関連スペクト
ルが比較的スムーズになる。
4DO11z )を試験し、m−2で(2)式を最小に
するものを選ぶ。各候補周波数についてα1.mの最適
値を計算する。m−3で同じプロセスを繰返し、第2周
波数を見出す。非音声スピーチ(unvoiced 5
peechの場合のようにレベルスペクトルが周期スト
ラフチャ(periodic 5tructure)を
持っていない時は、パルス列の中の1つが時々低周波数
を持っており、ウィンドウィングの効果で関連スペクト
ルが比較的スムーズになる。
コードベクトルはm−4で(2)式を最小にするコード
ブックエントリであり、サーチング(searchin
g)によって見出す。本発明のシステムにおいては、ラ
ンダム周波数とランダム振幅を有する16個のシヌソイ
ドのFFTによってコードワードを構築する。
ブックエントリであり、サーチング(searchin
g)によって見出す。本発明のシステムにおいては、ラ
ンダム周波数とランダム振幅を有する16個のシヌソイ
ドのFFTによってコードワードを構築する。
位相モデリング
良好なスピーチクォリティを確保するためには正弦波ス
ピーチ合成器において位相を正しく表現することが重要
である。レベルスペクトルと違って、位相スペクトルは
高調波で整合させるだけで良い。従って解析器と合成器
の両方において高調波を求める。本発明の実施態様にお
いては2つの位相推定法を用いる。2つの方法を各スピ
ーチフレームについて評画し、エラーが小さい方の方法
を採用する。第1の方法はパラメータ法であり、ピッチ
パルスの位置とスペクトルエンベロープとからを位相を
導き出す。第2の方法は、位相が連続していることを前
提とし、先行フレームの位相から位相を予測する。
ピーチ合成器において位相を正しく表現することが重要
である。レベルスペクトルと違って、位相スペクトルは
高調波で整合させるだけで良い。従って解析器と合成器
の両方において高調波を求める。本発明の実施態様にお
いては2つの位相推定法を用いる。2つの方法を各スピ
ーチフレームについて評画し、エラーが小さい方の方法
を採用する。第1の方法はパラメータ法であり、ピッチ
パルスの位置とスペクトルエンベロープとからを位相を
導き出す。第2の方法は、位相が連続していることを前
提とし、先行フレームの位相から位相を予測する。
最小位相を前提としてレベルスペクトルから位相を導出
す高調波位相モデルを作った。声東位相関数(voca
l tract phase functlon)φk
を全極モデルから直接導き出すこともできる。周波数が
ω の高調波の実位相θ、とφ、との関係は次式%式% ここで10はピッチパルスの立上り(onset)の時
間位置であり、λは整数であり、ε、は推定誤差(es
timation error)即ち位相残留誤差(p
hase residual)である。
す高調波位相モデルを作った。声東位相関数(voca
l tract phase functlon)φk
を全極モデルから直接導き出すこともできる。周波数が
ω の高調波の実位相θ、とφ、との関係は次式%式% ここで10はピッチパルスの立上り(onset)の時
間位置であり、λは整数であり、ε、は推定誤差(es
timation error)即ち位相残留誤差(p
hase residual)である。
εにの分散(varlance)は、全極モデルに代え
て極/零モデルを用いることによってほぼ完全に抑制す
ることができる。声門パルス(glottalpuls
e)の形状が理想パルスから隔たっている時には、零に
よって鼻音(nasal)とスピーチを表現することが
できる。複合スペクトル誤差を最小にする方法によれば
、p個の極とq個の零とで構成されるフィルタH(ωk
)を係数ai、blで指定する: 最適フィルタは総二乗スペクトル誤差を最小にする: H(ωk)はスペクトルエンベロープのみをモデリング
する故、ωに、1≦に≦にはレベルスペクトルのピーク
に参目当する。この式の閉解(closed form
5olution)は知られていない故、反復法を用
いる。一定範囲の値10を試し、E、を最小にする値を
選ぶことによってパルスの位置を認識する。H(ωk)
が最小パルスであることは強制されない。極/零フィル
タが正確な位相スペクトルを出すが、レベルスペクトル
に誤差を生じる場合がある。このような場合の最も簡単
な解決方法としては全極フィルタに切替える。
て極/零モデルを用いることによってほぼ完全に抑制す
ることができる。声門パルス(glottalpuls
e)の形状が理想パルスから隔たっている時には、零に
よって鼻音(nasal)とスピーチを表現することが
できる。複合スペクトル誤差を最小にする方法によれば
、p個の極とq個の零とで構成されるフィルタH(ωk
)を係数ai、blで指定する: 最適フィルタは総二乗スペクトル誤差を最小にする: H(ωk)はスペクトルエンベロープのみをモデリング
する故、ωに、1≦に≦にはレベルスペクトルのピーク
に参目当する。この式の閉解(closed form
5olution)は知られていない故、反復法を用
いる。一定範囲の値10を試し、E、を最小にする値を
選ぶことによってパルスの位置を認識する。H(ωk)
が最小パルスであることは強制されない。極/零フィル
タが正確な位相スペクトルを出すが、レベルスペクトル
に誤差を生じる場合がある。このような場合の最も簡単
な解決方法としては全極フィルタに切替える。
第2の位相推定法は、周波数がフレームからフレームに
かけて直線的に変化し、位相が連続していることを前提
とする。この2つの条件が満されれば、先行フレームか
ら位相を予測することができる。高周波の位相の推定増
分はt;、であるに、は高調波の平均周波数であり、t
はフレームとフレームとの間の時間である)。この方法
は、先行フレームの正確な推定値が得られ、高調波がフ
レームとフレームとの間で正確に整合している場合に有
効である。誤差を最小にする方法によって位相を推定し
た後、εに残留位相(phase residual)
が残る。残留位相は、εkを0個のフードワードから成
るコードブックから選んだランダムベクトルtF1≦C
≦Cで置換することによっc、にゝ てコーディングすることができる。コードワード選択は
、最小平均二乗誤差(MSE)を与えるコードワードを
見出すための徹底サーチング(exhaustive
5earch)である。周波数と振幅Akは同じであ
るが、位相が角度vkだけ隔たっている2つのシヌソイ
ドのMSEは心 C1−cos (vk)コである。コ
ードワードは次式を最小にするものを選ぶ。
かけて直線的に変化し、位相が連続していることを前提
とする。この2つの条件が満されれば、先行フレームか
ら位相を予測することができる。高周波の位相の推定増
分はt;、であるに、は高調波の平均周波数であり、t
はフレームとフレームとの間の時間である)。この方法
は、先行フレームの正確な推定値が得られ、高調波がフ
レームとフレームとの間で正確に整合している場合に有
効である。誤差を最小にする方法によって位相を推定し
た後、εに残留位相(phase residual)
が残る。残留位相は、εkを0個のフードワードから成
るコードブックから選んだランダムベクトルtF1≦C
≦Cで置換することによっc、にゝ てコーディングすることができる。コードワード選択は
、最小平均二乗誤差(MSE)を与えるコードワードを
見出すための徹底サーチング(exhaustive
5earch)である。周波数と振幅Akは同じであ
るが、位相が角度vkだけ隔たっている2つのシヌソイ
ドのMSEは心 C1−cos (vk)コである。コ
ードワードは次式を最小にするものを選ぶ。
この基準(criterion)によってまた、パラメ
ータ推定法を用いるか、位相予測推定法を用いるかを判
断することができる。
ータ推定法を用いるか、位相予測推定法を用いるかを判
断することができる。
特定のスペクトル内の残留位相は相関関係がなく、正規
分布になる性質がある故、ホワイトガウスノイズシーケ
ンスからコードワードを構築する。
分布になる性質がある故、ホワイトガウスノイズシーケ
ンスからコードワードを構築する。
換算係−数は非直線性の故に必ずしも最適ではないが、
コードワードに換算係数を掛けて誤差を最小にする。
コードワードに換算係数を掛けて誤差を最小にする。
高調波整合
フレームとフレームの間で高調波が正しく整合している
ことは位相を予測するうえで特に重要な条件である。フ
レームとフレームとの間の基本ピッチ変化と、サイドロ
ーブとウィンドウの減算(Sidelobes and
window 5ubtract1on)に起因する
疑似低レベル高調波(f’alse low−1eve
l harmonies)によって整合が複雑化する。
ことは位相を予測するうえで特に重要な条件である。フ
レームとフレームとの間の基本ピッチ変化と、サイドロ
ーブとウィンドウの減算(Sidelobes and
window 5ubtract1on)に起因する
疑似低レベル高調波(f’alse low−1eve
l harmonies)によって整合が複雑化する。
エネルギー基準(energy criterion)
を導入することによって真高調波を疑似高調波から弁別
することができる。フレームmのに番目の高調波の振幅
をAk(+n)とする。
を導入することによって真高調波を疑似高調波から弁別
することができる。フレームmのに番目の高調波の振幅
をAk(+n)とする。
エネルギー正規化振幅比
することができる。周波数がωK(+n)の高調派は、
調節ずみ周波数差 1ωe)−γω筺1)1 ・・・(8)が小さ
ければ、周波数 ω−1)の高調波に近いと考えること
ができる。(8)式によれば接近しており、(7)式に
従えば振幅が同じである隣接フレーム内の高調波を整合
する。正しい整合が分っていれば、振幅で重みづけした
先行フレームのピッチに対する各高調波のピッチの平均
比からγを推定することができる。
調節ずみ周波数差 1ωe)−γω筺1)1 ・・・(8)が小さ
ければ、周波数 ω−1)の高調波に近いと考えること
ができる。(8)式によれば接近しており、(7)式に
従えば振幅が同じである隣接フレーム内の高調波を整合
する。正しい整合が分っていれば、振幅で重みづけした
先行フレームのピッチに対する各高調波のピッチの平均
比からγを推定することができる。
またはその逆数が一定の上限を越えれば、4m) 、A
lm−1) は同じ同一高調波に対応せず、整合しな
い。実験によって求めた最適上限は約4であるが、厳密
に4とする必要はない。
lm−1) は同じ同一高調波に対応せず、整合しな
い。実験によって求めた最適上限は約4であるが、厳密
に4とする必要はない。
ピッチの変化は、専攻フレームに対する各フレームのピ
ッチの比γを推定することによって考慮γの値は未知で
あるが、γを最初に1とし、高調波を反復整合させ、安
定値になるまでγを更新することによって近似すること
ができる。この方式は、ピッチが急変化し疑似高調波が
存在する時に信頼性がある。
ッチの比γを推定することによって考慮γの値は未知で
あるが、γを最初に1とし、高調波を反復整合させ、安
定値になるまでγを更新することによって近似すること
ができる。この方式は、ピッチが急変化し疑似高調波が
存在する時に信頼性がある。
合成
パラメータ法の特徴としては、各シヌソイドの周波数を
合成器によってレベルスペクトルから求めることができ
、転送する必要がない。スピーチをウィンドウィングす
れば高調波のスペクトル拡張(spectral sp
reading)を生じる故・スペクトルのピークの位
置を確認することによって周波数を推定する。大低の音
声スピーチ(voiced 5peech)に対して
は単純なピークビッキングアルゴリスム(peak p
icking algorithm)で十分対応できる
が、非音声スピーチ(unvoiced 5peech
)の場合は不自然な音質になる。それは、非音声スピ
ーチにおいてはスペクトルの領域内のピーク数がスペク
トルエネルギーではなくスペクトルの平滑度に関係づけ
られるからである。
合成器によってレベルスペクトルから求めることができ
、転送する必要がない。スピーチをウィンドウィングす
れば高調波のスペクトル拡張(spectral sp
reading)を生じる故・スペクトルのピークの位
置を確認することによって周波数を推定する。大低の音
声スピーチ(voiced 5peech)に対して
は単純なピークビッキングアルゴリスム(peak p
icking algorithm)で十分対応できる
が、非音声スピーチ(unvoiced 5peech
)の場合は不自然な音質になる。それは、非音声スピ
ーチにおいてはスペクトルの領域内のピーク数がスペク
トルエネルギーではなくスペクトルの平滑度に関係づけ
られるからである。
ピーク数(concentration of pea
ks)は、見出した各高調波の寄与を減算することによ
って、スペクトル領域の下の部分に対応させることがで
きる。まず最大ベークを高調波と仮定するハミングウィ
ンドウのレベルスペクトルをスピーチのレベ、ルスペク
トルから減算する。レベルスペクトルがすべての周波数
において一定の限界値を下回るまでこのプロセスを繰返
す。
ks)は、見出した各高調波の寄与を減算することによ
って、スペクトル領域の下の部分に対応させることがで
きる。まず最大ベークを高調波と仮定するハミングウィ
ンドウのレベルスペクトルをスピーチのレベ、ルスペク
トルから減算する。レベルスペクトルがすべての周波数
において一定の限界値を下回るまでこのプロセスを繰返
す。
FFT解による周波数推定誤差によって、ピークの真の
位置の一方の側しか測定されない場合は、スペクトルの
一部がウィンドウ減算(window 5ubt ra
ct ton)の後他方の側に残り、スプリアス高調波
(spurious harmonic)になる。FF
T解内のこの周波数誤差(artlfacts of’
f’requency errors)は、変更ウィ
ンドウ変換(mod1f’led window tr
ansrorm)W’i−max (W W
、 W )を用t−t’ + i+t いることによって排除することができる(W、は時間ウ
ィンドウ(time window)のFFTを表すシ
ーケンスである)。Wolはここでは広いレベルスペク
トルウィンドウ(wlde magnitude sp
ectrumwindow)と言う。FFTが大きけれ
ばW’iはwlに近付く。
位置の一方の側しか測定されない場合は、スペクトルの
一部がウィンドウ減算(window 5ubt ra
ct ton)の後他方の側に残り、スプリアス高調波
(spurious harmonic)になる。FF
T解内のこの周波数誤差(artlfacts of’
f’requency errors)は、変更ウィ
ンドウ変換(mod1f’led window tr
ansrorm)W’i−max (W W
、 W )を用t−t’ + i+t いることによって排除することができる(W、は時間ウ
ィンドウ(time window)のFFTを表すシ
ーケンスである)。Wolはここでは広いレベルスペク
トルウィンドウ(wlde magnitude sp
ectrumwindow)と言う。FFTが大きけれ
ばW’iはwlに近付く。
この実施態様におけるフレーム境界の不連続を防止する
ために、後続フレームと先行フレームに各々半分オーバ
ラップする二乗余弦関数(raisedcoslne
function)によって各フレームをウィンドウィ
ング(ウィンドウ)する。互いに整合している隣接フレ
ーム内の高調波ペア(harmonics pair)
の周波数を直線内挿(linear 1nterpol
at1on)すれば、ペアの和が連続シヌソイドになる
。非整合高調波の周波数は不変である。
ために、後続フレームと先行フレームに各々半分オーバ
ラップする二乗余弦関数(raisedcoslne
function)によって各フレームをウィンドウィ
ング(ウィンドウ)する。互いに整合している隣接フレ
ーム内の高調波ペア(harmonics pair)
の周波数を直線内挿(linear 1nterpol
at1on)すれば、ペアの和が連続シヌソイドになる
。非整合高調波の周波数は不変である。
[詳細な説明]
本発明の1つの代表的実施態様としてのスピーチ処理シ
ステムのブロックダイヤグラムを第1図に示す。A/D
へ変換器110が来入アナログスピーチ信号をデジタル
スピーチサンプルに変換し、このデジタルスピーチサン
プルをスピーチ解析器120が処理する。解析器120
で得た一連のパラメータをチャンネルエンコーダ130
へ送ってエンコーディング。チャンネルデコーダ150
がチャンネルデコーダ130からチャンネル140を介
して量子化パラメータを受け、これをデコーディングし
、デコーディングしたパラメータをスピーチ合成器16
0へ送る。合成器160がパラメータを処理して、デジ
タル合成スピーチを生成し、D/A変換器17.0がこ
のディジタル合成スピーチを処理し、来入アナログスピ
ーチ信号を再生する。
ステムのブロックダイヤグラムを第1図に示す。A/D
へ変換器110が来入アナログスピーチ信号をデジタル
スピーチサンプルに変換し、このデジタルスピーチサン
プルをスピーチ解析器120が処理する。解析器120
で得た一連のパラメータをチャンネルエンコーダ130
へ送ってエンコーディング。チャンネルデコーダ150
がチャンネルデコーダ130からチャンネル140を介
して量子化パラメータを受け、これをデコーディングし
、デコーディングしたパラメータをスピーチ合成器16
0へ送る。合成器160がパラメータを処理して、デジ
タル合成スピーチを生成し、D/A変換器17.0がこ
のディジタル合成スピーチを処理し、来入アナログスピ
ーチ信号を再生する。
以下の解説を理解するための一連の計算式(10)乃至
(26)を表1.2.3に示す。
(26)を表1.2.3に示す。
TABLE 1
ABLE2
TABLE3
スピーチ合成器120の詳細を第2図に示す。変換器1
10がデジタルスピーチサンプルをオーバラップフレー
ムにしてウィンドウ器201へ送り、ウィンドウ器20
1が各フレームをハミングウィンドウして一連のスピー
チサンプルs1を生成する。
10がデジタルスピーチサンプルをオーバラップフレー
ムにしてウィンドウ器201へ送り、ウィンドウ器20
1が各フレームをハミングウィンドウして一連のスピー
チサンプルs1を生成する。
フレーミング((’raIQing)並びにウィンドウ
ィングの方法は当業者にとって周知である。スペクトル
生成器203がスピーチサンプルS、をFFTを実行し
、レベルスペクトル F(ψ)1 と位相スペクトルθ
(ω)を生成する。スペクトル生成器203が実行する
FFTは一次元フーリエ変換である。
ィングの方法は当業者にとって周知である。スペクトル
生成器203がスピーチサンプルS、をFFTを実行し
、レベルスペクトル F(ψ)1 と位相スペクトルθ
(ω)を生成する。スペクトル生成器203が実行する
FFTは一次元フーリエ変換である。
スペクトル生成器203が生成するレベルスペクトルI
F(ω)1は内挿スペクトルであり、各スピーチフレー
ムにおいてスピーチサンプル S、の数よりも周波数サ
ンプルの数の方が多い。内挿スペクトルは、スピーチサ
ンプルを時間領域を零埋込み(zero paddin
g)するか又は、未内挿スペクトルの隣接周波数サンプ
ルを内挿することによって求めることができる。全極解
析器210が(11)式で与えられる全極モデルに対し
て標準直線予測コーディング(L P CI 1nea
r predictlve coding)を用いて、
ウィンドウィングずみスピーチサンプルs1を処理して
パラメータa、を生成し、(22)。
F(ω)1は内挿スペクトルであり、各スピーチフレー
ムにおいてスピーチサンプル S、の数よりも周波数サ
ンプルの数の方が多い。内挿スペクトルは、スピーチサ
ンプルを時間領域を零埋込み(zero paddin
g)するか又は、未内挿スペクトルの隣接周波数サンプ
ルを内挿することによって求めることができる。全極解
析器210が(11)式で与えられる全極モデルに対し
て標準直線予測コーディング(L P CI 1nea
r predictlve coding)を用いて、
ウィンドウィングずみスピーチサンプルs1を処理して
パラメータa、を生成し、(22)。
(23)式を逐次評価し、E を最小にするピッチパル
ス位置10の値を出す。(11)式のパラメータpは全
極モデルの極数である。(22)、 (2s)、 (
1t)式において用いる周波数ωには、ピーク検出器2
09によってレベルスペクトル1F(ω)1のピークを
検出するだけで求める周波数ω えである。解析器21
0がat、ioの値を、パラメータblに対する零値(
極/零解析の零に相当する)と共に選択器212へ送る
。全極解析器206はまず、レベルスペクトルIF(ω
)1と位相スペクトルθ(ω)から複合スペクトルF(
ω)を求め、続いて直線法と複合スペクトルF(ω)を
用いてパラメータa t rb+、toを計算し、(5
)式で与えられるE、を最小にする(H(ωk)は(4
)式で与えられる)。
ス位置10の値を出す。(11)式のパラメータpは全
極モデルの極数である。(22)、 (2s)、 (
1t)式において用いる周波数ωには、ピーク検出器2
09によってレベルスペクトル1F(ω)1のピークを
検出するだけで求める周波数ω えである。解析器21
0がat、ioの値を、パラメータblに対する零値(
極/零解析の零に相当する)と共に選択器212へ送る
。全極解析器206はまず、レベルスペクトルIF(ω
)1と位相スペクトルθ(ω)から複合スペクトルF(
ω)を求め、続いて直線法と複合スペクトルF(ω)を
用いてパラメータa t rb+、toを計算し、(5
)式で与えられるE、を最小にする(H(ωk)は(4
)式で与えられる)。
(4)式のパラメータp、zは各々極/零モデルの極数
2例数である。(4) (5)式、において用いる周波
数ωには、ビーク検出器209が求める周波数ω kで
ある。解析器206はat * b+ + toの
値を選択器212へ送る。選択器212は、全極解析結
果と極/零解析結果を評価し、(12)式で与えられる
平均二乗誤差を最少にするパラメータを選択する。量子
化器217は、選択器212が選択したパラメータに対
して周知の量子化法を用いて量子化パラメータτ51石
1.′″Toの値を求め、チャンネルエンコーダ130
がエンコーディングし、チャンネル140を介して送る
。
2例数である。(4) (5)式、において用いる周波
数ωには、ビーク検出器209が求める周波数ω kで
ある。解析器206はat * b+ + toの
値を選択器212へ送る。選択器212は、全極解析結
果と極/零解析結果を評価し、(12)式で与えられる
平均二乗誤差を最少にするパラメータを選択する。量子
化器217は、選択器212が選択したパラメータに対
して周知の量子化法を用いて量子化パラメータτ51石
1.′″Toの値を求め、チャンネルエンコーダ130
がエンコーディングし、チャンネル140を介して送る
。
レベル量子化器221は、量子化パラメータi、。
石、、レベルスペクトルIF(ω)1並びにコードブ五
ツク230から選択したベクトルvd、kを用いて推定
レベルスペクトルIF(ω)1と一連のパラメータ(l
b4. 2.4. aa、4* a4.4 r f
1. f 2を生成する。レベル量子化器221の詳
細を第4図に示す。総和器421が、時限器423が生
成する先行フレームの推定レベルスペクトル、パルス列
変換生成器(pulse train transfo
rm generator)403゜405が生成する
2つの周期パルス列のレベルスペクトル、並びにコード
ブック230から選択したべクトル−1にの加重和とし
て推定レベルスペクトル F(ω) を生成する。パル
ス列とベクトル(コードワード)を時間領域でハミング
ウィンドウィングし、スペクトル逓倍器(Spectr
al alultiplier)407 、409 、
411を介して、生成器401が量子化パラメータal
、b1から生成するレベルスペクトルエンベローブを用
いて重みづけする。
レベルスペクトルIF(ω)1と一連のパラメータ(l
b4. 2.4. aa、4* a4.4 r f
1. f 2を生成する。レベル量子化器221の詳
細を第4図に示す。総和器421が、時限器423が生
成する先行フレームの推定レベルスペクトル、パルス列
変換生成器(pulse train transfo
rm generator)403゜405が生成する
2つの周期パルス列のレベルスペクトル、並びにコード
ブック230から選択したべクトル−1にの加重和とし
て推定レベルスペクトル F(ω) を生成する。パル
ス列とベクトル(コードワード)を時間領域でハミング
ウィンドウィングし、スペクトル逓倍器(Spectr
al alultiplier)407 、409 、
411を介して、生成器401が量子化パラメータal
、b1から生成するレベルスペクトルエンベローブを用
いて重みづけする。
生成した関数d (ω)、d2 (ω)、d3 (ω)
、d4 (ω)、を更に各々逓倍器413 、415
、417 、419で重みづけする。重みα1,4 ’
2.4 ’α3,4.α4,4並びに2つの周期パ
ルス列の周波数fl、f2は、最適化器(optlmi
zer)427によって(2)式を最小にする値を選択
する。
、d4 (ω)、を更に各々逓倍器413 、415
、417 、419で重みづけする。重みα1,4 ’
2.4 ’α3,4.α4,4並びに2つの周期パ
ルス列の周波数fl、f2は、最適化器(optlmi
zer)427によって(2)式を最小にする値を選択
する。
シヌソイド検出器(slnusoid f’1nder
)224 (第2図)が、推定レベルスペクトルIF(
ω) を解析することによって、一連のシヌソイドの振
幅A、と周波数ω、を求める。シヌソイド検出器224
はまず、 1↑(ω)1 のピークを検出し、続いてピ
ークと同じ振幅と周波数の広いレベルスペクトルウィン
ドウを構築する。広いレベルスペクトルウィンドウは、
ここでは変更ウィンドウ変換(modlf’led w
indow transform)とも言う。シヌソイ
ド検出器224は続いて、広いレベルスペクトルウィン
ドウであるスペクトル成分を推定レベルスペクトルIF
(ω)1 から減算する。シヌソイド検出器224は、
推定レベルスペクトルl(ω)がすべての周波数におい
て一定の限界値を下回るまで次のピークで同じプロセス
を繰返す。シヌソイド検出器224は続いて高調波に換
算係数を掛け、高調波の総エネルギーを、計算器208
が(10)式にしたがってスピーチサンプルS、から計
算するエネルギーnrgに等しくする。続いてシヌソイ
ド整合器(sinusoid matcher)227
が、(7) 、 (8) 、 (9)式に従って整
合された現在フレームのシヌソイドと先行シヌソイドを
結付けるアレイBACKを生成する。シヌソイド整合器
227はまた、周知のフレーム格納法(frame s
torage technique)を用いて、同じよ
うに整合させた現在フレームのシヌソイドと後続シヌソ
イドを結付けるアレイLl!IIKを生成する。
)224 (第2図)が、推定レベルスペクトルIF(
ω) を解析することによって、一連のシヌソイドの振
幅A、と周波数ω、を求める。シヌソイド検出器224
はまず、 1↑(ω)1 のピークを検出し、続いてピ
ークと同じ振幅と周波数の広いレベルスペクトルウィン
ドウを構築する。広いレベルスペクトルウィンドウは、
ここでは変更ウィンドウ変換(modlf’led w
indow transform)とも言う。シヌソイ
ド検出器224は続いて、広いレベルスペクトルウィン
ドウであるスペクトル成分を推定レベルスペクトルIF
(ω)1 から減算する。シヌソイド検出器224は、
推定レベルスペクトルl(ω)がすべての周波数におい
て一定の限界値を下回るまで次のピークで同じプロセス
を繰返す。シヌソイド検出器224は続いて高調波に換
算係数を掛け、高調波の総エネルギーを、計算器208
が(10)式にしたがってスピーチサンプルS、から計
算するエネルギーnrgに等しくする。続いてシヌソイ
ド整合器(sinusoid matcher)227
が、(7) 、 (8) 、 (9)式に従って整
合された現在フレームのシヌソイドと先行シヌソイドを
結付けるアレイBACKを生成する。シヌソイド整合器
227はまた、周知のフレーム格納法(frame s
torage technique)を用いて、同じよ
うに整合させた現在フレームのシヌソイドと後続シヌソ
イドを結付けるアレイLl!IIKを生成する。
パラメータ位相推定器235が、数量子化パラメータa
t1石i”0を用いて、(22)式に従って推定位相ス
ペクトルθ。(ω)を生成する。位相予測器233が、
周波数を直線的に内挿することを前提として先行フレー
ムから位相スペクトルθ1(ω)を予測する。選択器2
37が、(23)式で与えられる加重位相誤差を最小に
する推定位相スペクトルθ(ω)を選択する(Akは各
シヌソイドの振幅であり、θ(ω、)は実位相であり、
θ(ωk)は推定位相である)、パラメータ法を選ん
だ場合は、パラメータ(位相法)をゼロにセットし、予
測法を選んだ場合はパラメータ(位相法)を1にセット
する。総和器247、逓倍器245、最適化器240か
ら成るシステムによって、選んだ位相推定法を用いた後
、残る誤差をベクトル量子化する。ベクトル量子化プロ
セスとしては、θ(ωk)とθ(ω、)の差である残留
位相を、徹底サーチングによってコードブック243か
ら選択したランダムベクトルW。1.と置換し、(24
)式で与えられる平均二乗誤差を最小にするコードワー
ドを求める。選択されたベクトルへの指数11と換算係
数γ がかくして決定される。総和器249が最終位相
スペクトルを生成する。時限器251が最終位)目スペ
クトルを1フレ一ム分だけ遅らせ、位相予測器251へ
送る。
t1石i”0を用いて、(22)式に従って推定位相ス
ペクトルθ。(ω)を生成する。位相予測器233が、
周波数を直線的に内挿することを前提として先行フレー
ムから位相スペクトルθ1(ω)を予測する。選択器2
37が、(23)式で与えられる加重位相誤差を最小に
する推定位相スペクトルθ(ω)を選択する(Akは各
シヌソイドの振幅であり、θ(ω、)は実位相であり、
θ(ωk)は推定位相である)、パラメータ法を選ん
だ場合は、パラメータ(位相法)をゼロにセットし、予
測法を選んだ場合はパラメータ(位相法)を1にセット
する。総和器247、逓倍器245、最適化器240か
ら成るシステムによって、選んだ位相推定法を用いた後
、残る誤差をベクトル量子化する。ベクトル量子化プロ
セスとしては、θ(ωk)とθ(ω、)の差である残留
位相を、徹底サーチングによってコードブック243か
ら選択したランダムベクトルW。1.と置換し、(24
)式で与えられる平均二乗誤差を最小にするコードワー
ドを求める。選択されたベクトルへの指数11と換算係
数γ がかくして決定される。総和器249が最終位相
スペクトルを生成する。時限器251が最終位)目スペ
クトルを1フレ一ム分だけ遅らせ、位相予測器251へ
送る。
スピーチ合成器160の詳細を第3図に示す。受けた指
数■2を用いて、コードブック308からベクトル′I
?d、kを求める。レベル、スペクトル推定器31Oが
ベクトル’d、にと、受けたパラメータa1.4”2.
4’ a3.4’ 4.4’ flo f2゜
a、 、b、を用いて、(1)式に従って推定レベルス
ペクトルl<ω)1 を計算する。推定器310(第5
図)のコンポーネント501 、503 、50550
7 、509 、511 、513 、515 、51
7 、519 。
数■2を用いて、コードブック308からベクトル′I
?d、kを求める。レベル、スペクトル推定器31Oが
ベクトル’d、にと、受けたパラメータa1.4”2.
4’ a3.4’ 4.4’ flo f2゜
a、 、b、を用いて、(1)式に従って推定レベルス
ペクトルl<ω)1 を計算する。推定器310(第5
図)のコンポーネント501 、503 、50550
7 、509 、511 、513 、515 、51
7 、519 。
521 、523は、レベル量子化器221(第4図)
の対応コンポーネント401 、403 、405 、
407 、409 。
の対応コンポーネント401 、403 、405 、
407 、409 。
411 、413 、415 、417 、 tL9
、421 、423と同じ機能を実行する。合成器16
0シヌソイド検出器312(第3図)とシヌソイド整合
器314は、解析器120のシヌソイド検出器224(
第2図)とシヌソイド整合器227と同じ機能を実行し
、一連のシヌソイドの周波数ωにと、現在フレームのシ
ヌソイドと先行フレームのシヌソイドを結付けるアレイ
BACK、並びに現在フレームのシヌソイドと後続フレ
ームのシヌソイドを結付けるアレイLINKを生成する
。スピーチ合成器160が生成するシヌソイドは予め設
定した周波数は持っていない。同周波数は、チャンネル
140を介して受けるパラメータによって決まり、推定
レベルスペクトルIF(ω)1の振幅値に基づいて計算
する。シヌソイド周波数は不等間隔である。
、421 、423と同じ機能を実行する。合成器16
0シヌソイド検出器312(第3図)とシヌソイド整合
器314は、解析器120のシヌソイド検出器224(
第2図)とシヌソイド整合器227と同じ機能を実行し
、一連のシヌソイドの周波数ωにと、現在フレームのシ
ヌソイドと先行フレームのシヌソイドを結付けるアレイ
BACK、並びに現在フレームのシヌソイドと後続フレ
ームのシヌソイドを結付けるアレイLINKを生成する
。スピーチ合成器160が生成するシヌソイドは予め設
定した周波数は持っていない。同周波数は、チャンネル
140を介して受けるパラメータによって決まり、推定
レベルスペクトルIF(ω)1の振幅値に基づいて計算
する。シヌソイド周波数は不等間隔である。
パラメータ位相推定器319は、受けたパラメータa−
、bt 、ios シヌソイド検出器312が生■ 成したシヌソイドの周波数ω (並びに解析器にゝ 210(第2図)と解析器206に関連した上述したと
おりに実行する)全極解析又は極/零解析を用で、推定
位相スペクトルθ。(ω)を生成する。
、bt 、ios シヌソイド検出器312が生■ 成したシヌソイドの周波数ω (並びに解析器にゝ 210(第2図)と解析器206に関連した上述したと
おりに実行する)全極解析又は極/零解析を用で、推定
位相スペクトルθ。(ω)を生成する。
受けたパラメータb、がすべでゼロである場合は、全極
解析を行い、しからざる場合は極/零解析を行う。位相
予測器317(第3図)は、位相予測器233(第2図
)と同じようにアレイLINKSBACKから推定位相
スペクトルθ1 (ω)を生成する。受けたパラメータ
(位相法)の値に応じて推定器319又は予測器317
か推定位相スペクトルを生成する。
解析を行い、しからざる場合は極/零解析を行う。位相
予測器317(第3図)は、位相予測器233(第2図
)と同じようにアレイLINKSBACKから推定位相
スペクトルθ1 (ω)を生成する。受けたパラメータ
(位相法)の値に応じて推定器319又は予測器317
か推定位相スペクトルを生成する。
位相法がゼロである場合は推定器319が生成した推定
位相スペクトルを選択器321を介して総和器327へ
送る。位相法が1である場合は、予測器317が生成し
た推定位相スペクトルを総和器327へ送る。選択した
位相スペクトルを、受けたパラメータγ と、受けた指
数11によって設定されるコードブック323のベクト
ルV。、にとの積と加え合せ、位相法の値に応じて(2
5)式又は(26)式で与えられる最終位相スペクトル
を求める。時限器335が最終位相スペクトルを1フレ
一ム分だけ遅らせて位相予測器317へ送る。シヌソイ
ド和生成器329が、長さがW(フレーム長さ)、周波
数がωk (1≦に≦K)、振幅がAk1位相がθにの
に個のシヌソイドを構築する。互いに整合している隣接
フレームのシヌソイドベアは周波数が直線内挿されてお
り、従って同シヌソイドペアの和は連続シヌソイドであ
る。非整合シヌソイドの周波数は不変である。生成器3
29が構築したシヌソイドを加え合せ、ウィンドウィン
グ(ウィンドウ)器331が二乗余弦ウィンドウでシヌ
ソイド和をウィンドウィングし、オーバラップ/加算器
(overap/adder)333が隣接フレームを
オーバラップさせ、加え合せる。続いてD/A変換器1
70がデジタルサンプルをアナログ合成スピーチに変換
する。
位相スペクトルを選択器321を介して総和器327へ
送る。位相法が1である場合は、予測器317が生成し
た推定位相スペクトルを総和器327へ送る。選択した
位相スペクトルを、受けたパラメータγ と、受けた指
数11によって設定されるコードブック323のベクト
ルV。、にとの積と加え合せ、位相法の値に応じて(2
5)式又は(26)式で与えられる最終位相スペクトル
を求める。時限器335が最終位相スペクトルを1フレ
一ム分だけ遅らせて位相予測器317へ送る。シヌソイ
ド和生成器329が、長さがW(フレーム長さ)、周波
数がωk (1≦に≦K)、振幅がAk1位相がθにの
に個のシヌソイドを構築する。互いに整合している隣接
フレームのシヌソイドベアは周波数が直線内挿されてお
り、従って同シヌソイドペアの和は連続シヌソイドであ
る。非整合シヌソイドの周波数は不変である。生成器3
29が構築したシヌソイドを加え合せ、ウィンドウィン
グ(ウィンドウ)器331が二乗余弦ウィンドウでシヌ
ソイド和をウィンドウィングし、オーバラップ/加算器
(overap/adder)333が隣接フレームを
オーバラップさせ、加え合せる。続いてD/A変換器1
70がデジタルサンプルをアナログ合成スピーチに変換
する。
スピーチ解析器120(第1図)とチャンネルエンコー
ダ130の機能を実行する本発明の1実施態様としての
スピーチ解析プログラムのフローチャートを第6図に示
す。本実施例においてはフレーム中心間隔りは160の
サンプルであり、フレーム長さWは320サンプルであ
り、FFTKサンプル数Fは1024サンプルである。
ダ130の機能を実行する本発明の1実施態様としての
スピーチ解析プログラムのフローチャートを第6図に示
す。本実施例においてはフレーム中心間隔りは160の
サンプルであり、フレーム長さWは320サンプルであ
り、FFTKサンプル数Fは1024サンプルである。
解析に用いる極数Pは8であり、零敗2は3である。ア
ナログスピーチは8000サンプル/秒の速度でサンプ
リングする。ブロック800乃至804で構成されてい
るTIME2POLルーチン601(第8図)によって
ブロック600(第6図)で受けるデジタルスピーチサ
ンプルを処理する。
ナログスピーチは8000サンプル/秒の速度でサンプ
リングする。ブロック800乃至804で構成されてい
るTIME2POLルーチン601(第8図)によって
ブロック600(第6図)で受けるデジタルスピーチサ
ンプルを処理する。
ブロック802において(10)式を用いてウィンドウ
正規化エネルギー(vindov−normalize
d energy)を計算する。続いてプロセスはルー
チン601(第6図)から、ブロック900乃至904
で構成されているARM人ルーチン602(第9図)に
進む。ブロック902において(5)式でE を計算す
る(H(ωk)は(4)式で与えられる)。ブロック9
03において、全極解析に対して(11)式を用いる。
正規化エネルギー(vindov−normalize
d energy)を計算する。続いてプロセスはルー
チン601(第6図)から、ブロック900乃至904
で構成されているARM人ルーチン602(第9図)に
進む。ブロック902において(5)式でE を計算す
る(H(ωk)は(4)式で与えられる)。ブロック9
03において、全極解析に対して(11)式を用いる。
ブロック904′において(12)式で平均二乗誤差を
計算する。続いてプロセスはルーチン602(第6図)
から、ブロック1000乃至1017で構成されている
QMAGルーチン603(第10図)へ進む。ブロック
1004において(I3)、(14)式でflを計算す
る。ブロック1005において(15)式でElを計算
する。ブロック1009において(16)、(17)式
でf2を計算する。ブロック1010において(18)
式でE2を計算する。ブロック1014において(19
)式でE3を計算する。ブロック1017ニオいて(2
0)式を用いて推定レベルスペクトルF(ω)1 を構
築する。続いてプロセスはルーチン603(第6図)か
ら、ブロック1100乃至1015で構成されているM
AG2LI NEルーチン604(第11図)へ進む。
計算する。続いてプロセスはルーチン602(第6図)
から、ブロック1000乃至1017で構成されている
QMAGルーチン603(第10図)へ進む。ブロック
1004において(I3)、(14)式でflを計算す
る。ブロック1005において(15)式でElを計算
する。ブロック1009において(16)、(17)式
でf2を計算する。ブロック1010において(18)
式でE2を計算する。ブロック1014において(19
)式でE3を計算する。ブロック1017ニオいて(2
0)式を用いて推定レベルスペクトルF(ω)1 を構
築する。続いてプロセスはルーチン603(第6図)か
ら、ブロック1100乃至1015で構成されているM
AG2LI NEルーチン604(第11図)へ進む。
続いてプロセスルーチン604(第6図)から、ブロッ
ク1200 乃至1204で構成されているLINK
LINEルーチン605(第12図)へ進み、先行フレ
ームと現在フレーム、並びに現在フレームと後続フレー
ムのシヌソイド整合を行う。第12図のルーチンはフレ
ームmとフレーム(m−1)のシヌソイドを整合させる
。ブロック1203においで、(7)式で与えられる比
が0,25以下または4.0以上あればペアのエネルギ
ーは同一ではない。ブロック1204において(21)
式でピッチ比ρを計算する。続いてプロセスは、ルーチ
ン605(第6図)から、ブロック1300乃至130
7で構成されているC0NTルーチン606(第13図
)へ進む。ブロック1301において、(22)式を評
価することによって推定を行う。ブロック1303にお
いて(23)式で加重位相誤差を求める(AKは各シヌ
ソイドの振幅であり、θ(ω )は実位相であり、 θ
(ω、)は推定に 位相である)。ブロック1305において(24)式で
平均二乗誤差を求める。ブロック 1307において、
パラメータ(位相法)がゼロであれば、(25)式によ
って構築を行い、位相法が1であれば(2B)式によっ
て構築を行う。(26)式において、フレーム中心時間
間隔tはL/8000で与えられる。続いてプロセスは
ルーチン806(第6図)からENCルーチン607へ
進み、パラメータをエンコーディングする。
ク1200 乃至1204で構成されているLINK
LINEルーチン605(第12図)へ進み、先行フレ
ームと現在フレーム、並びに現在フレームと後続フレー
ムのシヌソイド整合を行う。第12図のルーチンはフレ
ームmとフレーム(m−1)のシヌソイドを整合させる
。ブロック1203においで、(7)式で与えられる比
が0,25以下または4.0以上あればペアのエネルギ
ーは同一ではない。ブロック1204において(21)
式でピッチ比ρを計算する。続いてプロセスは、ルーチ
ン605(第6図)から、ブロック1300乃至130
7で構成されているC0NTルーチン606(第13図
)へ進む。ブロック1301において、(22)式を評
価することによって推定を行う。ブロック1303にお
いて(23)式で加重位相誤差を求める(AKは各シヌ
ソイドの振幅であり、θ(ω )は実位相であり、 θ
(ω、)は推定に 位相である)。ブロック1305において(24)式で
平均二乗誤差を求める。ブロック 1307において、
パラメータ(位相法)がゼロであれば、(25)式によ
って構築を行い、位相法が1であれば(2B)式によっ
て構築を行う。(26)式において、フレーム中心時間
間隔tはL/8000で与えられる。続いてプロセスは
ルーチン806(第6図)からENCルーチン607へ
進み、パラメータをエンコーディングする。
チャンネルデコーダ150(第1図)とスピーチ合成器
160の機能を実行する本発明の1つの代表的実施態様
としてのスピーチ合成プログラムのフローチャートを第
7図に示す。ブロック700(第7図)で受けたパラメ
ータをDECルーチン70】でデコーディングする。続
いてプロセスはルーチン701からQMAGルーチン7
02へ進み、(1〉式に従って量子化スペクトル19(
ω)1を構築する。続いてプロセスはルーチン720か
らMAG2LINEルーチン703へ進む(MAG2L
INEルーチン703は、エネルギーを再換算係数倍(
rescale) Lないこと以外はMAG2LINE
ルーチン604(第6図)と同じである。続いてプロセ
スはルーチン703(第7図)からLINKLINEル
ーチン704(第6図のLINK LINEルーチン6
05と同じ)へ進む。続いてプロセスはルーチン704
(第7図)からC0NTルーチン705へ進む(CON
Tルーチン705は、位相法の値に応じて1つだけの位
相推定法を実行し、パラメータ推定に関しては、受けた
パラメータb1の値に応じて全極解析又は極/零解析の
みを実行すること以外は第6図のC0NTルーチン60
6と同じである)。続いてプロセスはルーチン7os(
第7図)から、ブロック 1400乃至1404て構成
されるSYMPLOTルーチン706(第14図)へ進
む。
160の機能を実行する本発明の1つの代表的実施態様
としてのスピーチ合成プログラムのフローチャートを第
7図に示す。ブロック700(第7図)で受けたパラメ
ータをDECルーチン70】でデコーディングする。続
いてプロセスはルーチン701からQMAGルーチン7
02へ進み、(1〉式に従って量子化スペクトル19(
ω)1を構築する。続いてプロセスはルーチン720か
らMAG2LINEルーチン703へ進む(MAG2L
INEルーチン703は、エネルギーを再換算係数倍(
rescale) Lないこと以外はMAG2LINE
ルーチン604(第6図)と同じである。続いてプロセ
スはルーチン703(第7図)からLINKLINEル
ーチン704(第6図のLINK LINEルーチン6
05と同じ)へ進む。続いてプロセスはルーチン704
(第7図)からC0NTルーチン705へ進む(CON
Tルーチン705は、位相法の値に応じて1つだけの位
相推定法を実行し、パラメータ推定に関しては、受けた
パラメータb1の値に応じて全極解析又は極/零解析の
みを実行すること以外は第6図のC0NTルーチン60
6と同じである)。続いてプロセスはルーチン7os(
第7図)から、ブロック 1400乃至1404て構成
されるSYMPLOTルーチン706(第14図)へ進
む。
高調波スピーチコーディングを行う本発明の別の実施態
様としてのスピーチ解析プログラム、スピーチ合成プロ
グラムのフローチャートを第15図、第16図に示す。
様としてのスピーチ解析プログラム、スピーチ合成プロ
グラムのフローチャートを第15図、第16図に示す。
第15図のフローチャートにおいて、ブロック1501
で入力スピーチの処理プロセスを開始し、−例としてF
FTを行うことによってレベルスペクトルのピークを見
出だすスペクトル解析を行い、複数のシヌソイドについ
てA1、ω11θiを求める。ブロック1502におい
て、−例として入力スピーチの直線予測コーディング(
L P C1inear predlcHve cod
ing)解析によってパラメータセット1を計算し、推
定値 A1を求める。ブロック1503において、At
と A1との間の誤差を誤差基準Cerror crH
erion)に従ってベクトル量子化し、コードブック
におけるベクトルを設定する指数IAと、換算係数αA
を求める。ブロック1504において、−例として、人
力スピーチのピッチ検出によって得られる1つの基本周
波数と、複数の整数倍基本周波数を用いてパラメータセ
ット2を計算し、推定値ω、を求める。
で入力スピーチの処理プロセスを開始し、−例としてF
FTを行うことによってレベルスペクトルのピークを見
出だすスペクトル解析を行い、複数のシヌソイドについ
てA1、ω11θiを求める。ブロック1502におい
て、−例として入力スピーチの直線予測コーディング(
L P C1inear predlcHve cod
ing)解析によってパラメータセット1を計算し、推
定値 A1を求める。ブロック1503において、At
と A1との間の誤差を誤差基準Cerror crH
erion)に従ってベクトル量子化し、コードブック
におけるベクトルを設定する指数IAと、換算係数αA
を求める。ブロック1504において、−例として、人
力スピーチのピッチ検出によって得られる1つの基本周
波数と、複数の整数倍基本周波数を用いてパラメータセ
ット2を計算し、推定値ω、を求める。
ブロック1505において、ω1とωiとの間の誤差を
誤差基準に従ってベクトル量子化し、コードブックにお
けるベクトルを設定する指数Iωと、換算係数αωを求
める。ブロック1506において、例として、先述のパ
ラメータ解析又は位相予測によってパラメータセット3
を計算し、推定値θ。
誤差基準に従ってベクトル量子化し、コードブックにお
けるベクトルを設定する指数Iωと、換算係数αωを求
める。ブロック1506において、例として、先述のパ
ラメータ解析又は位相予測によってパラメータセット3
を計算し、推定値θ。
を求める。ブロック1507において、θ、とθ、と!
1 の間の誤差を誤差基準に従ってベクトル量子化し、コー
ドブックにおけるベクトルを設定する指数Iθと、換算
係数αθを求める。これらのパラメータセット、指数並
びに換算係数をブロック15081;おいてエンコーデ
ィングする。(パラメータセット1,2.3は一般的に
は離散セット(disjointset)ではない)。
1 の間の誤差を誤差基準に従ってベクトル量子化し、コー
ドブックにおけるベクトルを設定する指数Iθと、換算
係数αθを求める。これらのパラメータセット、指数並
びに換算係数をブロック15081;おいてエンコーデ
ィングする。(パラメータセット1,2.3は一般的に
は離散セット(disjointset)ではない)。
本発明の別の実施態様としてのスピーチ合成プログラム
のフローチャートを第16図に示す。ブロック1601
において受けたパラメータの処理プロセスを開始し、パ
ラメータセット1を用いて推定値A、を求める。ブロッ
ク1602において、指数1Aによって設定されるベク
トルをコードブックから求め、換算計数αAを掛け、A
Iに加え合せてAIを求める。ブロック1603におい
て、パラメータセット2を用いて推定値ω、を求める。
のフローチャートを第16図に示す。ブロック1601
において受けたパラメータの処理プロセスを開始し、パ
ラメータセット1を用いて推定値A、を求める。ブロッ
ク1602において、指数1Aによって設定されるベク
トルをコードブックから求め、換算計数αAを掛け、A
Iに加え合せてAIを求める。ブロック1603におい
て、パラメータセット2を用いて推定値ω、を求める。
ブロック1604において、指数Iωによって設定され
るベクトルをコードブックから求め、換算計数αωを掛
け、ω、に加え合せてω1を求める。ブロワ】 り1605において、パラメータセット3を用いて推定
値θIを求める。ブロック1606において、指数Iθ
によって設定されるベクトルをコードブックから求め、
換算係数αθを掛け、θ1に加え合せてθ、を求める。
るベクトルをコードブックから求め、換算計数αωを掛
け、ω、に加え合せてω1を求める。ブロワ】 り1605において、パラメータセット3を用いて推定
値θIを求める。ブロック1606において、指数Iθ
によって設定されるベクトルをコードブックから求め、
換算係数αθを掛け、θ1に加え合せてθ、を求める。
ブロック1607において、Ao、l
1ωI、θ■によって設定されるシヌソイドの和
としての合成スピーチを生成する。
1ωI、θ■によって設定されるシヌソイドの和
としての合成スピーチを生成する。
[発明の効果]
本願の発明によれば、スピーチクォリティを向上させた
高質の合成スピーチが生成できる高調波スピーチコーデ
ィングシステムを提供することができる。
高質の合成スピーチが生成できる高調波スピーチコーデ
ィングシステムを提供することができる。
第1図は、本発明の1つの代表的実施態様としての高調
波スピーチコーディングシステムのブロックダイヤグラ
ム、 第2図は、第1図のシステムのスピーチ解析器のブロッ
クダイヤグラム、 第3図は、第1図のシステムのスピーチ合成器のブロッ
クダイヤグラム、 第4図は、第2図の解析器のレベル数量子化器(mag
nitude quantizer)のブロックダイヤ
グラム、第5図は、第3図の合成器のレベルスペクトル
推定器、 第6図、第7図は、本発明の1つの代表的実施態様とし
てのスピーチ解析プログラム、スピーチ合成プログラム
のフローチャート、 第8図乃至第13図は、第6図のスピーチ解i斤プログ
ラムのルーチンの詳細フローチャート、第14図は、第
7図のスピーチ合成プログラムのルーチンの詳細フロー
チャート、 第15図、第16図は、本発明の別の実施態様としての
スピーチ解析プログラム、スピーチ合成プログラムのフ
ローチャートである。 出願人:アメリカン テレフォン アンド図面の1■ゴ
(内容に変更なし)6日・し73勺6/I″3 FIG。 FIG。 FIG。 FIG。 FIG。 FIG− FIG。 Ta 1す FTG、 15 スヒ0−〒′i4手主fT7′ログラヘFIG、 1
6 スヒ4−−7合へ7’07’yへ 手 続 辛yD 正 書(方式) %式% 事件の表示 平成1年特許願第87180号 2゜ 発明の名称 スピーチ処理と合成方法及びその装置 3゜ 補正をする者 事件との関係 アメリカン テレフォン
波スピーチコーディングシステムのブロックダイヤグラ
ム、 第2図は、第1図のシステムのスピーチ解析器のブロッ
クダイヤグラム、 第3図は、第1図のシステムのスピーチ合成器のブロッ
クダイヤグラム、 第4図は、第2図の解析器のレベル数量子化器(mag
nitude quantizer)のブロックダイヤ
グラム、第5図は、第3図の合成器のレベルスペクトル
推定器、 第6図、第7図は、本発明の1つの代表的実施態様とし
てのスピーチ解析プログラム、スピーチ合成プログラム
のフローチャート、 第8図乃至第13図は、第6図のスピーチ解i斤プログ
ラムのルーチンの詳細フローチャート、第14図は、第
7図のスピーチ合成プログラムのルーチンの詳細フロー
チャート、 第15図、第16図は、本発明の別の実施態様としての
スピーチ解析プログラム、スピーチ合成プログラムのフ
ローチャートである。 出願人:アメリカン テレフォン アンド図面の1■ゴ
(内容に変更なし)6日・し73勺6/I″3 FIG。 FIG。 FIG。 FIG。 FIG。 FIG− FIG。 Ta 1す FTG、 15 スヒ0−〒′i4手主fT7′ログラヘFIG、 1
6 スヒ4−−7合へ7’07’yへ 手 続 辛yD 正 書(方式) %式% 事件の表示 平成1年特許願第87180号 2゜ 発明の名称 スピーチ処理と合成方法及びその装置 3゜ 補正をする者 事件との関係 アメリカン テレフォン
Claims (1)
- 【特許請求の範囲】 (1)高調波スピーチコーディングシステムにおいて、 スピーチからスペクトルを決定するプロセス、このスペ
クトルに基づいて、該スピーチをモデリングし、複数の
シヌソイドを設定するのに用いられるパラメータセット
を計算するプロセス、このパラメータセットを該シヌソ
イドの和としてスピーチ合成器へ送信するプロセスから
なり、前記計算プロセスは、このスペクトルに基づいて
、少なくとも1つのシヌソイドの正弦波周波数を求める
ためのパラメータセットのサブセットを計算するステッ
プを含み、 このパラメータセットの中の少なくとも1つのパラメー
タがベクトルコードブックの指数であることを特徴とす
るスピーチ処理方法。 (2)前記スペクトルがレベルスペクトルを含むことを
特徴とする請求項1記載の方法 (3)前記ベクトルコードブックが、ランダム周波数と
振幅を有する複数のシヌソイドの変換で構成されている
ベクトルを含むことを特徴とする請求項2記載の方法。 (4)前記計算プロセスは、 レベルスペクトルのピークを検出するステップと、この
ピークに対応する複数のシヌソイドを決定するステップ
とを含むことを特徴とする請求項2記載の方法。 (5)前記スペクトルは位相スペクトルを含むことを特
徴とする請求項1記載の方法。 (8)前記ベクトルコードブックのベクトルが、ホワイ
トガウスノイズシーケンスで構築されていることを特徴
とする請求項5記載の方法。 (7)前記決定プロセスは、 レベルスペクトルと位相スペクトルを求めるステップを
含み、 前記計算プロセスは、 前記レベルスペクトルをモデリングする第1パラメータ
と前記位相スペクトルをモデリングする第2パラメータ
とを含むパラメータセットを計算するステップを含み、 前記第1パラメータの少なくとも1つが第1ベクトルコ
ードブックの指数を含み、 前記第2パラメータの少なくとも1つが第2ベクトルコ
ードブックの指数を含むことを特徴とする請求項1記載
の方法。 (8)前記計算プロセスは、 決定されたスペクトルから複数のシヌソイドをその各正
弦波振幅も含めて決定するステップ、前記スピーチに基
づいて、各シヌソイドの正弦波振幅を推定するステップ
、 前記指数を決定するために、決定ステップから求めた正
弦波振幅と推定ステップから求めた正弦波振幅との誤差
をベクトル量子化するステップ、を含むことを特徴とす
る請求項1記載の方法。 (9)前記計算プロセスは、 決定されたスペクトルから複数のシヌソイドをその各正
弦波周波数も含めて決定するステップ、前記スピーチに
基づいて、各シヌソイドの正弦波周波数を推定するステ
ップ、 前記指数を決定するために決定ステップから求めた正弦
波周波数と推定ステップから求めた正弦波周波数との誤
差をベクトル量子化するステップ、を含むことを特徴と
する請求項1記載の方法。 (10)前記計算プロセスは、 決定されたスペクトルから複数のシヌソイドをその各正
弦波位相も含めて決定するステップ、前記スピーチに基
づいて、各シヌソイドの正弦波位相を推定するステップ
、 前記指数を決定するために、決定ステップから求めた正
弦波位相と推定ステップから求めた正弦波位相との誤差
をベクトル量子化するステップ、を含むことを特徴とす
る請求項1記載の方法。 (11)前記決定スペクトルが、前記スピーチの一次元
変換を含むことを特徴とする請求項1記載の方法。 (12)前記決定スペクトルが、前記スピーチのフーリ
エ変換を含むことを特徴とする請求項1記載の方法。 (13)前記決定スペクトルが、前記スピーチの高速フ
ーリエ変換であることを特徴とする請求項1記載の方法
。 (14)前記決定スペクトルが、内挿スペクトルを含む
ことを特徴とする請求項1記載の方法。 (15)前記計算プロセスが、 前記決定スペクトルから複数のシヌソイドを決定するス
テップと、 前記シヌソイドの周波数における誤差基準に従って、決
定スペクトルをモデリングする際の誤差を最小にする前
記指数を選択するステップ とを含むことを特徴とする請求項1記載の方法。 (16)高調波スピーチコーディングシステムにおいて
、 ベクトルコードブックの指数を含む少なくとも1つのパ
ラメータを含むパラメータセットを受付けるプロセス、 不等間隔正弦波周波数を有する複数のシヌソイドを決定
するために、前記パラメータを処理するプロセス、 少なくとも1つのシヌソイドの一部は、前記指数によっ
て設定される前記コードブックのベクトルに従って決定
され、 前記シヌソイドの和としてスピーチを合成するプロセス を含むことを特徴とするスピーチ合成方法。 (17)前記処理プロセスは、 前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波周波数を決定すること
を特徴とする請求項16記載の方法。 (18)前記処理プロセスは、 前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波振幅を決定することを
特徴とする請求項16記載の方法。 (19)前記処理プロセスは、 前記指数によって設定された前記ベクトルに部分的に基
づいて、前記シヌソイドの正弦波位相を決定することを
特徴とする請求項16記載の方法。 (20)高調波スピーチコーディングシステムにおいて
、 複数のサンプルから成るスペクトルを前記スピーチから
決定するプロセス、 前記スペクトルに基づいて、少なくともその1つがベク
トルコードブックの指数を含み、前記スピーチをモデリ
ングするパラメータセットを計算するプロセス、 複数のシヌソイドをを決定するために、前記パラメータ
セットを処理するプロセス、 少なくとも1つのシヌソイドは、前記指数によって設定
されるベクトルにより部分的に決定され、前記シヌソイ
ドの数は前記サンプルの数よりも少なく、 前記シヌソイドの和としてスピーチを合成するプロセス からなることを特徴とするスピーチ処理方法。 (21)前記スピーチから少なくとも1つのシヌソイド
の正弦波周波数を決定するプロセスをさらに有すること
を特徴とする請求項20記載の方法。 (22)前記スペクトルから少なくとも1つのシヌソイ
ドの正弦波周波数を決定するプロセスをさらに有するこ
とを特徴とする請求項20記載の方法。 (23)前記複数のシヌソイドは、不等間隔正弦波周波
数を有することを特徴とする請求項20記載の方法。 (24)高調波スピーチコーディングシステムにおいて
、 スピーチに応じてスペクトルを決定する手段、前記スペ
クトル決定手段に応じて、前記スピーチをモデリングし
、少なくともその1つがベクトルコードブックの指数で
あり、複数のシヌソイドを設定するのに使用されるパラ
メータセットを計算する手段、 前記計算手段は、前記スペクトル決定手段に応じて、前
記スペクトルに基づいて、少なくとも1つのシヌソイド
の正弦波周波数を決定するために使用される前記パラメ
ータセットのサブセットを計算する手段、 スピーチ合成に使用される前記パラメータセットを通信
する手段 とからなることを特徴とするスピーチ処理装置。 (25)高調波スピーチコーディングシステムにおいて
、 不等間隔正弦波周波数を有する複数のシヌソイドを決定
するために、ベクトルコードブックの指数を含む少なく
とも1つのパラメータを含むパラメータセットの受領に
応じて、パラメータセットを処理する手段、 少なくとも1つのシヌソイドは、前記指数によって設定
される前記コードブックのベクトルに部分的に基づき、 前記シヌソイドの和としてスピーチを合成する手段 とを有することを特徴とするスピーチ合成装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US321119 | 1988-04-08 | ||
| US07/321,119 US5023910A (en) | 1988-04-08 | 1988-04-08 | Vector quantization in a harmonic speech coding arrangement |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02204800A true JPH02204800A (ja) | 1990-08-14 |
Family
ID=23249262
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1087180A Pending JPH02204800A (ja) | 1988-04-08 | 1989-04-07 | スピーチ処理と合成方法及びその装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5023910A (ja) |
| EP (1) | EP0336658B1 (ja) |
| JP (1) | JPH02204800A (ja) |
| CA (1) | CA1336457C (ja) |
| DE (1) | DE68907629T2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003525473A (ja) * | 2000-02-29 | 2003-08-26 | クゥアルコム・インコーポレイテッド | 閉ループのマルチモードの混合領域の線形予測音声コーダ |
| JP2004502203A (ja) * | 2000-02-29 | 2004-01-22 | クゥアルコム・インコーポレイテッド | 準周期信号の位相を追跡するための方法および装置 |
| JP2005531014A (ja) * | 2002-06-27 | 2005-10-13 | サムスン エレクトロニクス カンパニー リミテッド | ハーモニック成分を利用したオーディオコーディング方法及び装置 |
| JP2009501944A (ja) * | 2005-07-15 | 2009-01-22 | マイクロソフト コーポレーション | ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更 |
| US9349376B2 (en) | 2007-06-29 | 2016-05-24 | Microsoft Technology Licensing, Llc | Bitstream syntax for multi-process audio decoding |
| US9443525B2 (en) | 2001-12-14 | 2016-09-13 | Microsoft Technology Licensing, Llc | Quality improvement techniques in an audio encoder |
Families Citing this family (72)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0365822A (ja) * | 1989-08-04 | 1991-03-20 | Fujitsu Ltd | ベクトル量子化符号器及びベクトル量子化復号器 |
| US5208862A (en) * | 1990-02-22 | 1993-05-04 | Nec Corporation | Speech coder |
| US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
| US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
| US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
| DE69233794D1 (de) * | 1991-06-11 | 2010-09-23 | Qualcomm Inc | Vocoder mit veränderlicher Bitrate |
| JPH064093A (ja) * | 1992-06-18 | 1994-01-14 | Matsushita Electric Ind Co Ltd | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
| US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
| US5481739A (en) * | 1993-06-23 | 1996-01-02 | Apple Computer, Inc. | Vector quantization using thresholds |
| US5574823A (en) * | 1993-06-23 | 1996-11-12 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications | Frequency selective harmonic coding |
| JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
| US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
| TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
| US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
| US5592227A (en) * | 1994-09-15 | 1997-01-07 | Vcom, Inc. | Method and apparatus for compressing a digital signal using vector quantization |
| AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
| US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
| US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
| US5822724A (en) * | 1995-06-14 | 1998-10-13 | Nahumi; Dror | Optimized pulse location in codebook searching techniques for speech processing |
| US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
| DE69725172T2 (de) * | 1996-03-08 | 2004-04-08 | Motorola, Inc., Schaumburg | Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch |
| US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
| US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
| US6161089A (en) * | 1997-03-14 | 2000-12-12 | Digital Voice Systems, Inc. | Multi-subframe quantization of spectral parameters |
| US6199037B1 (en) | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
| EP0945852A1 (en) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
| US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
| US6119082A (en) * | 1998-07-13 | 2000-09-12 | Lockheed Martin Corporation | Speech coding system and method including harmonic generator having an adaptive phase off-setter |
| DE69939086D1 (de) * | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
| US6400310B1 (en) * | 1998-10-22 | 2002-06-04 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
| US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
| US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
| US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
| US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
| US6377916B1 (en) | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
| US8095508B2 (en) * | 2000-04-07 | 2012-01-10 | Washington University | Intelligent data storage and processing using FPGA devices |
| US7139743B2 (en) * | 2000-04-07 | 2006-11-21 | Washington University | Associative database scanning and information retrieval using FPGA devices |
| US6711558B1 (en) | 2000-04-07 | 2004-03-23 | Washington University | Associative database scanning and information retrieval |
| ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
| US7716330B2 (en) | 2001-10-19 | 2010-05-11 | Global Velocity, Inc. | System and method for controlling transmission of data packets over an information network |
| US7093023B2 (en) * | 2002-05-21 | 2006-08-15 | Washington University | Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto |
| USH2172H1 (en) * | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
| US7711844B2 (en) | 2002-08-15 | 2010-05-04 | Washington University Of St. Louis | TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks |
| US10572824B2 (en) | 2003-05-23 | 2020-02-25 | Ip Reservoir, Llc | System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines |
| CA2522862A1 (en) | 2003-05-23 | 2005-03-24 | Washington University | Intelligent data storage and processing using fpga devices |
| US7602785B2 (en) | 2004-02-09 | 2009-10-13 | Washington University | Method and system for performing longest prefix matching for network address lookup using bloom filters |
| US7702629B2 (en) * | 2005-12-02 | 2010-04-20 | Exegy Incorporated | Method and device for high performance regular expression pattern matching |
| US7954114B2 (en) | 2006-01-26 | 2011-05-31 | Exegy Incorporated | Firmware socket module for FPGA-based pipeline processing |
| US7636703B2 (en) * | 2006-05-02 | 2009-12-22 | Exegy Incorporated | Method and apparatus for approximate pattern matching |
| US7921046B2 (en) | 2006-06-19 | 2011-04-05 | Exegy Incorporated | High speed processing of financial information using FPGA devices |
| US7840482B2 (en) | 2006-06-19 | 2010-11-23 | Exegy Incorporated | Method and system for high speed options pricing |
| US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
| US8326819B2 (en) | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
| CN101335004B (zh) * | 2007-11-02 | 2010-04-21 | 华为技术有限公司 | 一种多级量化的方法及装置 |
| US10229453B2 (en) * | 2008-01-11 | 2019-03-12 | Ip Reservoir, Llc | Method and system for low latency basket calculation |
| US8374986B2 (en) | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
| WO2010032405A1 (ja) * | 2008-09-16 | 2010-03-25 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
| WO2010077829A1 (en) | 2008-12-15 | 2010-07-08 | Exegy Incorporated | Method and apparatus for high-speed processing of financial market depth data |
| EP2649580B1 (en) | 2010-12-09 | 2025-02-26 | Exegy Incorporated | Method and apparatus for managing orders in financial markets |
| US9990393B2 (en) | 2012-03-27 | 2018-06-05 | Ip Reservoir, Llc | Intelligent feed switch |
| US10650452B2 (en) | 2012-03-27 | 2020-05-12 | Ip Reservoir, Llc | Offload processing of data packets |
| US11436672B2 (en) | 2012-03-27 | 2022-09-06 | Exegy Incorporated | Intelligent switch for processing financial market data |
| US10121196B2 (en) | 2012-03-27 | 2018-11-06 | Ip Reservoir, Llc | Offload processing of data packets containing financial market data |
| US10133802B2 (en) | 2012-10-23 | 2018-11-20 | Ip Reservoir, Llc | Method and apparatus for accelerated record layout detection |
| WO2014066416A2 (en) | 2012-10-23 | 2014-05-01 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
| US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
| WO2015164639A1 (en) | 2014-04-23 | 2015-10-29 | Ip Reservoir, Llc | Method and apparatus for accelerated data translation |
| US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
| CN107851433B (zh) * | 2015-12-10 | 2021-06-29 | 华侃如 | 基于谐波模型和声源-声道特征分解的语音分析合成方法 |
| WO2018119035A1 (en) | 2016-12-22 | 2018-06-28 | Ip Reservoir, Llc | Pipelines for hardware-accelerated machine learning |
| US10726856B2 (en) | 2018-08-16 | 2020-07-28 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for enhancing audio signals corrupted by noise |
| CN112820267B (zh) * | 2021-01-15 | 2022-10-04 | 科大讯飞股份有限公司 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5326761A (en) * | 1976-08-26 | 1978-03-13 | Babcock Hitachi Kk | Injecting device for reducing agent for nox |
| JPS58188000A (ja) * | 1982-04-28 | 1983-11-02 | 日本電気株式会社 | 音声認識合成装置 |
| JPS6139099A (ja) * | 1984-07-31 | 1986-02-25 | 日本電気株式会社 | Csmパラメ−タの量子化方法とその装置 |
| JPS6157999A (ja) * | 1984-08-29 | 1986-03-25 | 日本電気株式会社 | 擬フオルマント型ボコ−ダ |
| JPS62999A (ja) * | 1985-03-26 | 1987-01-06 | 日本電気株式会社 | 区分的最適関数近似方法 |
| JPS6265100A (ja) * | 1985-09-18 | 1987-03-24 | 日本電気株式会社 | Csm型音声合成器 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
| CA1242279A (en) * | 1984-07-10 | 1988-09-20 | Tetsu Taguchi | Speech signal processor |
| US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
| US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
| US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
| US4791654A (en) * | 1987-06-05 | 1988-12-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Resisting the effects of channel noise in digital transmission of information |
| US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
-
1988
- 1988-04-08 US US07/321,119 patent/US5023910A/en not_active Expired - Lifetime
-
1989
- 1989-03-13 CA CA000593542A patent/CA1336457C/en not_active Expired - Fee Related
- 1989-03-31 DE DE89303203T patent/DE68907629T2/de not_active Expired - Fee Related
- 1989-03-31 EP EP89303203A patent/EP0336658B1/en not_active Expired - Lifetime
- 1989-04-07 JP JP1087180A patent/JPH02204800A/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5326761A (en) * | 1976-08-26 | 1978-03-13 | Babcock Hitachi Kk | Injecting device for reducing agent for nox |
| JPS58188000A (ja) * | 1982-04-28 | 1983-11-02 | 日本電気株式会社 | 音声認識合成装置 |
| JPS6139099A (ja) * | 1984-07-31 | 1986-02-25 | 日本電気株式会社 | Csmパラメ−タの量子化方法とその装置 |
| JPS6157999A (ja) * | 1984-08-29 | 1986-03-25 | 日本電気株式会社 | 擬フオルマント型ボコ−ダ |
| JPS62999A (ja) * | 1985-03-26 | 1987-01-06 | 日本電気株式会社 | 区分的最適関数近似方法 |
| JPS6265100A (ja) * | 1985-09-18 | 1987-03-24 | 日本電気株式会社 | Csm型音声合成器 |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003525473A (ja) * | 2000-02-29 | 2003-08-26 | クゥアルコム・インコーポレイテッド | 閉ループのマルチモードの混合領域の線形予測音声コーダ |
| JP2004502203A (ja) * | 2000-02-29 | 2004-01-22 | クゥアルコム・インコーポレイテッド | 準周期信号の位相を追跡するための方法および装置 |
| US9443525B2 (en) | 2001-12-14 | 2016-09-13 | Microsoft Technology Licensing, Llc | Quality improvement techniques in an audio encoder |
| JP2005531014A (ja) * | 2002-06-27 | 2005-10-13 | サムスン エレクトロニクス カンパニー リミテッド | ハーモニック成分を利用したオーディオコーディング方法及び装置 |
| JP2009501944A (ja) * | 2005-07-15 | 2009-01-22 | マイクロソフト コーポレーション | ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更 |
| US9349376B2 (en) | 2007-06-29 | 2016-05-24 | Microsoft Technology Licensing, Llc | Bitstream syntax for multi-process audio decoding |
| US9741354B2 (en) | 2007-06-29 | 2017-08-22 | Microsoft Technology Licensing, Llc | Bitstream syntax for multi-process audio decoding |
Also Published As
| Publication number | Publication date |
|---|---|
| DE68907629D1 (de) | 1993-08-26 |
| EP0336658A3 (en) | 1990-03-07 |
| DE68907629T2 (de) | 1994-02-17 |
| CA1336457C (en) | 1995-07-25 |
| EP0336658B1 (en) | 1993-07-21 |
| EP0336658A2 (en) | 1989-10-11 |
| US5023910A (en) | 1991-06-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH02204800A (ja) | スピーチ処理と合成方法及びその装置 | |
| US5179626A (en) | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis | |
| US6122608A (en) | Method for switched-predictive quantization | |
| US5787387A (en) | Harmonic adaptive speech coding method and system | |
| US5781880A (en) | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual | |
| CA2031006C (en) | Near-toll quality 4.8 kbps speech codec | |
| KR100264863B1 (ko) | 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법 | |
| US5794182A (en) | Linear predictive speech encoding systems with efficient combination pitch coefficients computation | |
| US5890108A (en) | Low bit-rate speech coding system and method using voicing probability determination | |
| US6675144B1 (en) | Audio coding systems and methods | |
| JP2759646B2 (ja) | 音響波形の処理 | |
| JPH0833754B2 (ja) | デジタル音声符号化および復号方法および装置 | |
| NO323730B1 (no) | Modellering, analyse, syntese og kvantisering av tale | |
| US6889185B1 (en) | Quantization of linear prediction coefficients using perceptual weighting | |
| JP2003050600A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
| US6456965B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
| US5839102A (en) | Speech coding parameter sequence reconstruction by sequence classification and interpolation | |
| Özaydın et al. | Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates | |
| US6115685A (en) | Phase detection apparatus and method, and audio coding apparatus and method | |
| JP2000514207A (ja) | 音声合成システム | |
| EP0713208B1 (en) | Pitch lag estimation system | |
| Ahmadi et al. | New techniques for sinusoidal coding of speech at 2400 bps | |
| Li et al. | Enhanced harmonic coding of speech with frequency domain transition modelling | |
| Brooks et al. | A 1.9 kbps Zinc function excited, waveform interpolated speech codec | |
| Viswanathan et al. | A harmonic deviations linear prediction vocoder for improved narrowband speech transmission |